简介
列举操作系统级监控常用的几个方法,建议收藏使用
CPU
top 命令可用于监控系统整体负载,包括cpu、内存使用等,能够实时显示系统中各个进程的资源占用状况
输出样例
top - 19:37:41 up 192 days, 9:14, 1 user, load average: 0.39, 0.28, 0.27
Tasks: 126 total, 1 running, 125 sleeping, 0 stopped, 0 zombie
Cpu(s): 0.1%us, 0.1%sy, 0.0%ni, 99.8%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Mem: 32113M total, 11351M used, 20762M free, 266M buffers
Swap: 4091M total, 0M used, 4091M free, 304M cached
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
1 root 20 0 25280 1016 968 S 0 0.0 2:37.44 init
2 root 20 0 0 0 0 S 0 0.0 0:02.40 kthreadd
3 root 20 0 0 0 0 S 0 0.0 3:28.59 ksoftirqd/0
5 root 20 0 0 0 0 S 0 0.0 0:00.59 kworker/u:0
6 root RT 0 0 0 0 S 0 0.0 0:11.39 migration/0
指标说明
- load average: 0.06, 0.60, 0.48
系统负载,即任务队列的长度。分别为 1分钟、5分钟、15分钟内的平均值。 - Tasks
进程汇总,包括运行中、睡眠、停止、僵尸态的梳理 - Cpu(s)
指标 | 说明 |
---|---|
0.3% us | 用户空间占用CPU百分比 |
1.0% sy | 内核空间占用CPU百分比 |
0.0% ni | 用户进程优先级调度CPU百分比 |
98.7% id | 空闲CPU百分比 |
0.0% wa | 等待输入输出的CPU时间百分比 |
0.0% hi | 硬件CPU中断占用百分比 |
0.0% si | 软中断占用百分比 |
0.0% st | 虚拟机占用百分比 |
-
Mem
内存统计,包括物理内存、已使用内存、空闲内存、内核缓存 -
Swap
交换区统计,包括总量、已使用、空闲量、缓存量 -
进程列表
指标 | 说明 |
---|---|
PID | 进程ID |
USER | 进程所有者的用户名 |
PR | 优先级 |
NI | nice值。负值表示高优先级,正值表示低优先级 |
VIRT | 进程使用的虚拟内存总量,单位kb。VIRT=SWAP+RES |
RES | 进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA |
SHR | 共享内存大小,单位kb |
S | 进程状态(D=不可中断的睡眠状态,R=运行,S=睡眠,T=跟踪/停止,Z=僵尸进程) |
%CPU | 进程使用的CPU百分比 |
%MEM | 进程使用的物理内存百分比 |
TIME+ | 进程使用的CPU时间总计,单位1/100秒 |
SWAP | 进程使用的虚拟内存中,被换出的大小,单位kb |
CODE | 可执行代码占用的物理内存大小,单位kb |
DATA | 可执行代码以外的部分(数据段+栈)占用的物理内存大小,单位kb |
COMMAND | 命令名/命令行 |
按F键可以选择显示不同的指标,非常详细
参考文档
内存监控
vmstat 指虚拟内存统计(Virtual Meomory Statistics), 是常用的实时系统监控工具。
输出样例
~-> vmstat 2
procs -----------memory---------- ---swap-- -----io---- -system-- -----cpu------
r b swpd free buff cache si so bi bo in cs us sy id wa st
0 0 212 21250404 272916 320572 0 0 0 2 0 0 0 0 100 0 0
0 0 212 21250652 272916 320576 0 0 0 0 535 1061 0 0 100 0 0
0 0 212 21250652 272916 320576 0 0 0 0 496 1062 0 0 100 0 0
2 0 212 21250256 272916 320576 0 0 0 0 751 1107 0 0 99 0 0
0 0 212 21250404 272916 320568 0 0 0 0 496 1056 0 0 100 0 0
0 0 212 21250404 272916 320568 0 0 0 0 593 1089 0 0 100 0 0
0 0 212 21250404 272916 320568 0 0 0 56 539 1074 0 0 100 0 0
0 0 212 21250404 272916 320568 0 0 0 0 589 1137 0 0 100 0 0
0 0 212 21250404 272916 320564 0 0 0 0 608 1154 0 0 100 0 0
0 0 212 21250404 272916 320564 0 0 0 0 601 1156 0 0 100 0 0
1 0 212 21250404 272916 320564 0 0 0 0 611 1155 0 0 100 0 0
0 0 212 21250404 272916 320564 0 0 0 0 599 1151 0 0 100 0 0
指标说明
指标 | 说明 |
---|---|
procs.r | 等待cpu时间片的进程数 |
procs.b | 等待资源的进程数,比如等待IO或内存交换等 |
cpu.us | 用户态CPU 时间百分比 |
cpu.sy | 内核态CPU 时间百分比,参考值us+sy<=80% |
cpu.wa | IO等待所占用的CPU 时间百分比,参考值wa<=30 |
cpu.id | 空闲状态CPU 时间百分比 |
cpu.st | 虚拟机CPU占用时间百分比,存在超分时可能较高 |
system.in | 设备中断数 |
system.cs | 上下文切换次数 |
memory.swpd | 内存交换区的内存数量(KB) |
memory.free | 空闲页的内存数量(KB) |
memory.buff | buffer cache的内存数量,一般在块设备读写使用 |
memory.cache | 作为page cache的内存数量,一般作为文件系统的cache |
swap.si | 由内存进入内存交换区数量 |
swap.so | 由内存交换区进入内存数量 |
io.bi | 从块设备读入的数据量(KB/S) |
io.bo | 向块设备写入的数据量(KB/S) |
参考文档
关于 linux OOM Killer
free 查看可用内存
网络连接
netstat 命令用于显示各种网络相关信息,如网络连接,路由表,接口状态等。
输出样例
iotweb@kwe1000111753:~> netstat -ano |head
Active Internet connections (servers and established)
Proto Recv-Q Send-Q Local Address Foreign Address State
tcp 0 0 0.0.0.0:4444 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:19999 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:27017 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:6380 0.0.0.0:* LISTEN
tcp 0 0 0.0.0.0:111 0.0.0.0:* LISTEN
常见用法
- 检查出TIME_WAIT的数量
netstat -an | grep -c TIME_WAIT
- 检查全部socket状态
netstat -nat| awk \'{print awk $NF}\'|sort|uniq -c|sort -n
- 检查进程及socket数量
netstat -nap| awk \'{print awk $NF}\'|sort|uniq -c|sort -n
- 查看端口连接数
netstat -anp |grep 27071|wc -l
磁盘使用
iostat 用于监控磁盘的IO吞吐及资源占用情况
命令
iostat -d -x -k 1 10
-d为查看磁盘状况,-k表示以KB为单位,-x表示输出更多的扩展字段
Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await svctm %util
xvda 0.01 8.32 0.49 4.94 6.82 53.08 22.06 0.11 19.68 1.76 0.95
xvde 0.02 841.11 33.24 304.80 331.20 4583.79 29.08 1.67 4.93 1.15 38.76
dm-0 0.00 0.00 33.26 1145.95 331.20 4583.79 8.34 0.30 2.61 0.33 38.81
指标说明
指标 | 说明 |
---|---|
rrqm/s | 每秒merge的读取请求数(同一个Block存在merge机制) |
rrqm/s | 每秒merge的写入请求数(同一个Block存在merge机制) |
r/s | 每秒提交的读取请求数 |
w/s | 每秒提交的写入请求数 |
await | IO请求的平均响应时间,参考值<=10ms |
rkB/s | 每秒读取数据量 |
wkb/s | 每秒写入数据量 |
avgrq-sz | IO平均请求大小(扇区) |
avgqu-sz | IO平均请求队列大小 |
svctm | IO请求平均执行时间 |
%util | CPU占用百分比 |
进程监控
ps命令能够给出当前系统中进程的快照
- 查找进程方法
ps -ef |grep nscl
- 按cpu占用排序查看前10进程
-> ps -aux --sort -pcpu |head -n 10
USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND
iotweb 9313 1.0 14.3 6277488 4708752 ? Sl Nov03 687:08 ./bin/mongod -f conf/mongodb.conf --auth
iotweb 16957 0.3 10.1 10208428 3322260 ? Sl Nov01 251:37 java -jar redis-stat-0.4.14.jar 127.0.0.1:6380 3 --server=63800
root 2822 0.1 0.0 133196 1288 ? Sl Jun07 431:05 /usr/bin/vm-agent
iotweb 16942 0.1 0.0 52364 13304 ? Ssl Nov01 95:57 ./bin/redis-server 0.0.0.0:6380
指标说明
指标 | 说明 |
---|---|
USER | 进程 owner |
PID | 进程ID |
%CPU | CPU占用率 |
%MEM | 内存占用率 |
TTY | 终端 |
STAT | 进程状态 |
VSZ | 虚拟内存占用 |
RSS | 物理内存占用 |
START | 开始日期 |
TIME | 启动时长 |
COMMAND | Bash命令 |
文件占用
lsof(list open files)用于列出当前系统打开文件句柄,包括网络套接字、设备句柄等。
输出样例
~->lsof /opt
COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME
mongod 9313 iotweb txt REG 252,0 36409888 761870 /opt/local/mongodb/bin/mongod
mongod 9313 iotweb 4w REG 252,0 7082638 778244 /opt/local/mongodb/log/mongodb.log
mongod 9313 iotweb 8uW REG 252,0 5 778246 /opt/local/mongodb/data/mongod.lock
mongod 9313 iotweb 9uw REG 252,0 21 778247 /opt/local/mongodb/data/WiredTiger.lock
mongod 9313 iotweb 15u REG 252,0 36864 778253 /opt/local/mongodb/data/sizeStorer.wt
指标说明
指标 | 说明 |
---|---|
COMMAND | 进程的名称 |
PID | 进程ID |
USER | 进程所有者 |
FD | 文件描述符 |
TYPE | 文件类型,如DIR、REG等 |
DEVICE | 指定磁盘的名称 |
SIZE | 文件的大小 |
NODE | 文件索引节点 |
NAME | 文件的名称 |