Linux 性能监测工具总结

Posted 2020-08-19

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Linux 性能监测工具总结相关的知识，希望对你有一定的参考价值。

前言：

Linux系统出现问题时，我们不仅需要查看系统日志信息，而且还要使用大量的性能监测工具来判断究竟是哪一部分（内存、CPU、硬盘……）出了问题。在Linux系统中，所有的运行参数保存在虚拟目录/proc中，换句话说，我们使用的性能监控工具取到的数据值实际上就是源自于这个目录，当涉及到系统高估时，我们就可以修改/proc目录中的相关参数了，当然有些是不能乱改的。下面就让我们了解一下这些常用的性能监控工具。

1、uptime
uptime命令用于查看服务器运行了多长时间以及有多少个用户登录，快速获知服务器的负荷情况。
uptime的输出包含一项内容是load average，显示了最近1，5，15分钟的负荷情况。它的值代表等待CPU处理的进程数，如果CPU没有时间处理这些进程，load average值会升高；反之则会降低。
load average的最佳值是1，说明每个进程都可以马上处理并且没有CPU cycles被丢失。对于单CPU的机器，1或者2是可以接受的值；对于多路CPU的机器，load average值可能在8到10之间。
也可以使用uptime命令来判断网络性能。例如，某个网络应用性能很低，通过运行uptime查看服务器的负荷是否很高，如果不是，那么问题应该是网络方面造成的。
以下是uptime的运行实例：
[[email protected] ~]# uptime
22:32:41 up 5 min, 1 user, load average: 0.00, 0.01, 0.01
也可以查看/proc/loadavg和/proc/uptime两个文件，注意不能编辑/proc中的文件，要用cat等命令来查看，如：
[[email protected] ~]# cat /proc/loadavg
0.00 0.01 0.01 1/73 1276

2、dmesg
dmesg命令主要用来显示内核信息。使用dmesg可以有效诊断机器硬件故障或者添加硬件出现的问题。
另外，使用dmesg可以确定您的服务器安装了那些硬件。每次系统重启，系统都会检查所有硬件并将信息记录下来。执行/bin/dmesg命令可以查看该记录。

dmesg输出实例：
[[email protected] ~]# dmesg | more
Initializing cgroup subsys cpuset
Initializing cgroup subsys cpu
Linux version 2.6.32-642.el6.x86_64 ([email protected]) (gcc version 4.4.7 20120313 (Red Hat 4.4.7-1
7) (GCC) )[[email protected] ~]#1 SMP Tue May 10 17:27:01 UTC 2016
Command line: ro root=UUID=f14c0ada-2e81-447f-b679-8ca3b7dd8d00 rd_NO_LUKS rd_NO_LVM LANG=en_US.UTF-8 rd_NO_MD SYSFO
NT=latarcyrheb-sun16 crashkernel=auto KEYBOARDTYPE=pc KEYTABLE=us rd_NO_DM rhgb quiet
KERNEL supported cpus:
Intel GenuineIntel
AMD AuthenticAMD
Centaur CentaurHauls
Disabled fast string operations
Bios-provided physical RAM map:
BIOS-e820: 0000000000000000 - 000000000009ec00 (usable)
BIOS-e820: 000000000009ec00 - 00000000000a0000 (reserved)
BIOS-e820: 00000000000dc000 - 0000000000100000 (reserved)
BIOS-e820: 0000000000100000 - 000000001fee0000 (usable)
BIOS-e820: 000000001fee0000 - 000000001feff000 (ACPI data)
BIOS-e820: 000000001feff000 - 000000001ff00000 (ACPI NVS)
BIOS-e820: 000000001ff00000 - 0000000020000000 (usable)
BIOS-e820: 00000000f0000000 - 00000000f8000000 (reserved)
BIOS-e820: 00000000fec00000 - 00000000fec10000 (reserved)
BIOS-e820: 00000000fee00000 - 00000000fee01000 (reserved)
BIOS-e820: 00000000fffe0000 - 0000000100000000 (reserved)
SMBIOS version 2.7 @ 0xF69C0
SMBIOS 2.7 present.
DMI: VMware, Inc. VMware Virtual Platform/440BX Desktop Reference Platform, BIOS 6.00 07/02/2015

3、top
top命令显示处理器的活动状况。缺省情况下，显示占用CPU最多的任务，并且每隔5秒钟做一次刷新。

Process priority的数值决定了CPU处理进程的顺序。LIUNX内核会根据需要调整该数值的大小。nice value局限于priority。priority的值不能低于nice value（nice value值越低，优先级越高）。您不可以直接修改Process priority的值，但是可以通过调整nice level值来间接地改变Process priority值，然而这一方法并不是所有时候都可用。如果某个进程运行异常的慢，可以通过降低nice level为该进程分配更多的CPU。

Linux 支持的 nice levels 由19 (优先级低)到-20 (优先级高)，缺省值为0。
执行/bin/ps命令可以查看到当前进程的情况。
4、iostat
iostat由Red Hat Enterprise Linux AS发布。同时iostat也是Sysstat的一部分，可以下载到，网址是http://perso.wanadoo.fr/sebastien.godard/
执行iostat命令可以从系统启动之后的CPU平均时间，类似于uptime。除此之外，iostat还对创建一个服务器磁盘子系统的活动报告。该报告包含两部分：CPU使用情况和磁盘使用情况。

iostat显示实例：

[[email protected] ~]# iostat
Linux 2.6.32-642.el6.x86_64 (m01)       2016年11月14日 _x86_64_        (1 CPU)

avg-cpu: %user   %nice %system %iowait %steal   %idle
           0.19    0.00    1.00    1.98    0.00   96.82

Device:            tps   Blk_read/s   Blk_wrtn/s   Blk_read   Blk_wrtn
scd0              0.08         0.66         0.00        264          0
sda               6.19       195.84        11.19      78738       4498

CPU占用情况包括四块内容：

%user：显示user level (applications)时，CPU的占用情况。
%nice：显示user level在nice priority时，CPU的占用情况。
%system:显示system level (kernel)时，CPU的占用情况。
%idle: 显示CPU空闲时间所占比例。

磁盘使用报告分成以下几个部分：

Device: 块设备的名字
tps: 该设备每秒I/O传输的次数。多个I/O请求可以组合为一个，每个I/O请求传输的字节数不同，因此可以将多个I/O请求合并为一个。
Blk_read/s, Blk_wrtn/s: 表示从该设备每秒读写的数据块数量。块的大小可以不同，如1024, 2048 或 4048字节，这取决于partition的大小。
例如，执行下列命令获得设备/dev/sda1 的数据块大小：
dumpe2fs -h /dev/sda1 |grep -F "Block size"
输出结果如下
dumpe2fs 1.34 (25-Jul-2003)
Block size: 1024
Blk_read, Blk_wrtn: 指示自从系统启动之后数据块读/写的合计数。

也可以查看这几个文件/proc/stat，/proc/partitions，/proc/diskstats的内容。
5、vmstat
vmstat提供了processes, memory, paging, block I/O, traps和CPU的活动状况

[[email protected] ~]# vmstat
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu-----
r b   swpd   free   buff cache   si   so    bi    bo   in   cs us sy id wa st
0 0      0 381808   8128 27516    0    0    96     5   47   70 0 1 97 2 0

一秒钟刷新一次
[[email protected] ~]# vmstat -n 1
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu-----
r b   swpd   free   buff cache   si   so    bi    bo   in   cs us sy id wa st
0 0      0 381808   8136 27536    0    0    93     5   46   69 0 1 97 2 0
0 0      0 381760   8136 27536    0    0     0     0   29   33 0 0 100 0 0
0 0      0 381760   8136 27536    0    0     0     0   31   37 0 0 100 0 0
0 0      0 381760   8136 27536    0    0     0     0   28   37 0 1 99 0 0
0 0      0 381760   8136 27536    0    0     0     0   30   37 0 0 100 0 0
0 0      0 381760   8136 27536    0    0     0     0   26   33 0 0 100 0 0

各输出列的含义：

Process
– r: The number of processes waiting for runtime.
– b: The number of processes in uninterruptable sleep.
Memory
– swpd: The amount of virtual memory used (KB).
– free: The amount of idle memory (KB).
– buff: The amount of memory used as buffers (KB).
Swap
– si: Amount of memory swapped from the disk (KBps).
– so: Amount of memory swapped to the disk (KBps).
IO
– bi: Blocks sent to a block device (blocks/s).
– bo: Blocks received from a block device (blocks/s).
System
– in: The number of interrupts per second, including the clock.
– cs: The number of context switches per second.
CPU (these are percentages of total CPU time)
- us: Time spent running non-kernel code (user time, including nice time).
– sy: Time spent running kernel code (system time).
– id: Time spent idle. Prior to Linux 2.5.41, this included IO-wait time.
– wa: Time spent waiting for IO. Prior to Linux 2.5.41, this appeared as zero.

6、sar (常用)
sar是Red Hat Enterprise Linux AS发行的一个工具，同时也是Sysstat工具集的命令之一，可以从以下网址下载：http://perso.wanadoo.fr/sebastien.godard/
sar用于收集、报告或者保存系统活动信息。sar由三个应用组成：sar显示数据、sar1和sar2用于收集和保存数据。
使用sar1和sar2，系统能够配置成自动抓取信息和日志，以备分析使用。配置举例：在/etc/crontab中添加如下几行内容
同样的，你也可以在命令行方式下使用sar运行实时报告。如图所示：
从收集的信息中，可以得到详细的CPU使用情况(%user, %nice, %system, %idle)、内存页面调度、网络I/O、进程活动、块设备活动、以及interrupts/second

[[email protected] ~]# sar
Linux 2.6.32-642.el6.x86_64 (m01)       2016年11月14日 _x86_64_        (1 CPU)

22时28分04秒       LINUX RESTART

22时30分01秒     CPU     %user     %nice   %system   %iowait    %steal     %idle
22时30分01秒     all      0.04      0.00      0.21      0.21      0.00     99.55
平均时间:     all      0.04      0.00      0.21      0.21      0.00     99.55

[[email protected] ~]# sar -u 3 10
Linux 2.6.32-642.el6.x86_64 (m01)       2016年11月14日 _x86_64_        (1 CPU)

22时35分47秒     CPU     %user     %nice   %system   %iowait    %steal     %idle
22时35分50秒     all      0.00      0.00      0.33      0.00      0.00     99.67
22时35分53秒     all      0.00      0.00      0.33      0.00      0.00     99.67
22时35分56秒     all      0.00      0.00      0.67      0.00      0.00     99.33
22时35分59秒     all      0.00      0.00      0.67      0.00      0.00     99.33
22时36分02秒     all      0.00      0.00      0.33      0.00      0.00     99.67
22时36分05秒     all      0.00      0.00      0.67      0.00      0.00     99.33
22时36分08秒     all      0.00      0.00      0.67      0.00      0.00     99.33
22时36分11秒     all      0.00      0.00      0.66      0.00      0.00     99.34
22时36分14秒     all      0.33      0.00      0.67      0.00      0.00     99.00
22时36分17秒     all      0.00      0.00      0.33      0.00      0.00     99.67
平均时间:     all      0.03      0.00      0.53      0.00      0.00     99.43

7、KDE System Guard
KDE System Guard (KSysguard) 是KDE图形方式的任务管理和性能监视工具。监视本地及远程客户端/服务器架构体系的中的主机。
8、free
/bin/free命令显示所有空闲的和使用的内存数量，包括swap。同时也包含内核使用的缓存。
[[email protected] ~]# free
             total       used       free     shared    buffers     cached
Mem:        486008     104448     381560        224       8280      27624
-/+ buffers/cache:      68544     417464
Swap:       786428          0     786428
[[email protected] ~]# free -m
             total       used       free     shared    buffers     cached
Mem:           474        102        372          0          8         26
-/+ buffers/cache:         66        407
Swap:          767          0        767

9、Traffic-vis
Traffic-vis是一套测定哪些主机在IP网进行通信、通信的目标主机以及传输的数据量。并输出纯文本、html或者GIF格式的报告。
注：Traffic-vis仅仅适用于SUSE LINUX ENTERPRISE SERVER。
如下命令用来收集网口eth0的信息：
traffic-collector -i eth0 -s /root/output_traffic-collector

可以使用killall命令来控制该进程。如果要将报告写入磁盘，可使用如下命令：
killall -9 traffic-collector
要停止对信息的收集，执行如下命令：killall -9 traffic-collector
注意，不要忘记执行最后一条命令，否则会因为内存占用而影响性能。
可以根据packets, bytes, TCP连接数对输出进行排序，根据每项的总数或者收/发的数量进行。
例如根据主机上packets的收/发数量排序，执行命令：
traffic-sort -i output_traffic-collector -o output_traffic-sort -Hp
如要生成HTML格式的报告，显示传输的字节数，packets的记录、全部TCP连接请求和网络中每台服务器的信息，请运行命令：

traffic-tohtml -i output_traffic-sort -o output_traffic-tohtml.html

如要生成GIF格式（600X600）的报告，请运行命令：

traffic-togif -i output_traffic-sort -o output_traffic-togif.gif -x 600 -y 600

GIF格式的报告可以方便地发现网络广播，查看哪台主机在TCP网络中使用IPX/SPX协议并隔离网络，需要记住的是，IPX是基于广播包的协议。如果我们需要查明例如网卡故障或重复IP的问题，需要使用特殊的工具。例如SUSE LINUX Enterprise Server自带的Ethereal。
技巧和提示：使用管道，可以只需执行一条命令来产生报告。如生成HTML的报告，执行命令：

cat output_traffic-collector | traffic-sort -Hp | traffic-tohtml -o output_traffic-tohtml.html

如要生成GIF文件，执行命令：

cat output_traffic-collector | traffic-sort -Hp | traffic-togif -o output_traffic-togif.gif -x 600 -y 600

10、pmap
pmap可以报告某个或多个进程的内存使用情况。使用pmap判断主机中哪个进程因占用过多内存导致内存瓶颈。

[[email protected] ~]# pmap 1
1:   /sbin/init
00007fdfa734b000     52K r-x-- /lib64/libnss_files-2.12.so
00007fdfa7358000   2044K ----- /lib64/libnss_files-2.12.so
00007fdfa7557000      4K r---- /lib64/libnss_files-2.12.so
00007fdfa7558000      4K rw--- /lib64/libnss_files-2.12.so
00007fdfa7559000   1576K r-x-- /lib64/libc-2.12.so
00007fdfa76e3000   2048K ----- /lib64/libc-2.12.so
00007fdfa78e3000     16K r---- /lib64/libc-2.12.so
00007fdfa78e7000      8K rw--- /lib64/libc-2.12.so
00007fdfa78e9000     16K rw---    [ anon ]
00007fdfa78ed000     88K r-x-- /lib64/libgcc_s-4.4.7-20120601.so.1
00007fdfa7903000   2044K ----- /lib64/libgcc_s-4.4.7-20120601.so.1
00007fdfa7b02000      4K rw--- /lib64/libgcc_s-4.4.7-20120601.so.1
00007fdfa7b03000     28K r-x-- /lib64/librt-2.12.so
00007fdfa7b0a000   2044K ----- /lib64/librt-2.12.so
00007fdfa7d09000      4K r---- /lib64/librt-2.12.so
00007fdfa7d0a000      4K rw--- /lib64/librt-2.12.so
00007fdfa7d0b000     92K r-x-- /lib64/libpthread-2.12.so
00007fdfa7d22000   2048K ----- /lib64/libpthread-2.12.so
00007fdfa7f22000      4K r---- /lib64/libpthread-2.12.so
00007fdfa7f23000      4K rw--- /lib64/libpthread-2.12.so
00007fdfa7f24000     16K rw---    [ anon ]
00007fdfa7f28000    256K r-x-- /lib64/libdbus-1.so.3.4.0
00007fdfa7f68000   2044K ----- /lib64/libdbus-1.so.3.4.0
00007fdfa8167000      4K r---- /lib64/libdbus-1.so.3.4.0
00007fdfa8168000      4K rw--- /lib64/libdbus-1.so.3.4.0
00007fdfa8169000     36K r-x-- /lib64/libnih-dbus.so.1.0.0
00007fdfa8172000   2044K ----- /lib64/libnih-dbus.so.1.0.0
00007fdfa8371000      4K r---- /lib64/libnih-dbus.so.1.0.0
00007fdfa8372000      4K rw--- /lib64/libnih-dbus.so.1.0.0
00007fdfa8373000     96K r-x-- /lib64/libnih.so.1.0.0
00007fdfa838b000   2044K ----- /lib64/libnih.so.1.0.0
00007fdfa858a000      4K r---- /lib64/libnih.so.1.0.0
00007fdfa858b000      4K rw--- /lib64/libnih.so.1.0.0
00007fdfa858c000    128K r-x-- /lib64/ld-2.12.so
00007fdfa879c000     20K rw---    [ anon ]
00007fdfa87aa000      4K rw---    [ anon ]
00007fdfa87ab000      4K r---- /lib64/ld-2.12.so
00007fdfa87ac000      4K rw--- /lib64/ld-2.12.so
00007fdfa87ad000      4K rw---    [ anon ]
00007fdfa87ae000    140K r-x-- /sbin/init
00007fdfa89d0000      8K r---- /sbin/init
00007fdfa89d2000      4K rw--- /sbin/init
00007fdfa9e13000    248K rw---    [ anon ]
00007ffcd4baa000     84K rw---    [ stack ]
00007ffcd4bd4000      4K r-x--    [ anon ]
ffffffffff600000      4K r-x--    [ anon ]
total            19348K
[[email protected] ~]#

11、strace
strace截取和记录系统进程调用，以及进程收到的信号。是一个非常有效的检测、指导和调试工具。系统管理员可以通过该命令容易地解决程序问题。

使用该命令需要指明进程的ID(PID)，例如：
[[email protected] ~]# strace -p 1
Process 1 attached - interrupt to quit
select(11, [10], NULL, NULL, {4, 868510}) = 0 (Timeout)
stat("/dev/initctl", {st_mode=S_IFIFO|0600, st_size=0, ...}) = 0
fstat(10, {st_mode=S_IFIFO|0600, st_size=0, ...}) = 0
stat("/dev/initctl", {st_mode=S_IFIFO|0600, st_size=0, ...}) = 0
select(11, [10], NULL, NULL, {5, 0})    = 0 (Timeout)
stat("/dev/initctl", {st_mode=S_IFIFO|0600, st_size=0, ...}) = 0
fstat(10, {st_mode=S_IFIFO|0600, st_size=0, ...}) = 0
stat("/dev/initctl", {st_mode=S_IFIFO|0600, st_size=0, ...}) = 0
select(11, [10], NULL, NULL, {5, 0})    = 0 (Timeout)
stat("/dev/initctl", {st_mode=S_IFIFO|0600, st_size=0, ...}) = 0
fstat(10, {st_mode=S_IFIFO|0600, st_size=0, ...}) = 0
stat("/dev/initctl", {st_mode=S_IFIFO|0600, st_size=0, ...}) = 0
select(11, [10], NULL, NULL, {5, 0})    = 0 (Timeout)
stat("/dev/initctl", {st_mode=S_IFIFO|0600, st_size=0, ...}) = 0
fstat(10, {st_mode=S_IFIFO|0600, st_size=0, ...}) = 0
stat("/dev/initctl", {st_mode=S_IFIFO|0600, st_size=0, ...}) = 0
select(11, [10], NULL, NULL, {5, 0}

12、ulimit （常用）

ulimit内置在bash shell中，用来提供对shell和进程可用资源的控制
[[email protected] ~]# ulimit
unlimited
[[email protected] ~]# ulimit -a
core file size          (blocks, -c) 0
data seg size           (kbytes, -d) unlimited
scheduling priority             (-e) 0
file size               (blocks, -f) unlimited
pending signals                 (-i) 1788
max locked memory       (kbytes, -l) 64
max memory size         (kbytes, -m) unlimited
open files                      (-n) 65535
pipe size            (512 bytes, -p) 8
POSIX message queues     (bytes, -q) 819200
real-time priority              (-r) 0
stack size              (kbytes, -s) 10240
cpu time               (seconds, -t) unlimited
max user processes              (-u) 1788
virtual memory          (kbytes, -v) unlimited
file locks                      (-x) unlimited

-H和-S选项指明所给资源的软硬限制。如果超过了软限制，系统管理员会收到警告信息。硬限制指在用户收到超过文件句炳限制的错误信息之前，可以达到的最大值。
例如可以设置对文件句炳的硬限制：ulimit -Hn 4096
例如可以设置对文件句炳的软限制：ulimit -Sn 1024
查看软硬值，执行如下命令：

ulimit -Hn
ulimit -Sn

例如限制Oracle用户. 在/etc/security/limits.conf输入以下行:
soft nofile 4096
hard nofile 10240
对于Red Hat Enterprise Linux AS，确定文件/etc/pam.d/system-auth包含如下行
session required /lib/security/$ISA/pam_limits.so
对于SUSE LINUX Enterprise Server，确定文件/etc/pam.d/login 和/etc/pam.d/sshd包含如下行：
session required pam_limits.so
这一行使这些限制生效。
13、mpstat
mpstat是Sysstat工具集的一部分，下载地址是http://perso.wanadoo.fr/sebastien.godard/
mpstat用于报告多路CPU主机的每颗CPU活动情况，以及整个主机的CPU情况。
例如，下边的命令可以隔2秒报告一次处理器的活动情况，执行3次
[[email protected] ~]# mpstat 2 3
Linux 2.6.32-642.el6.x86_64 (m01)       2016年11月14日 _x86_64_        (1 CPU)

22时42分56秒 CPU    %usr   %nice    %sys %iowait    %irq   %soft %steal %guest   %idle
22时42分58秒 all    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00 100.00
22时43分00秒 all    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00 100.00
22时43分02秒 all    0.00    0.00    0.00    1.00    0.00    0.00    0.00    0.00   99.00
平均时间: all    0.00    0.00    0.00    0.33    0.00    0.00    0.00    0.00   99.67

如下命令每隔1秒显示一次多路CPU主机的处理器活动情况，执行3次
[[email protected] ~]# mpstat -P ALL 1 3
[[email protected] ~]# mpstat -P ALL 1 3
Linux 2.6.32-642.el6.x86_64 (m01)       2016年11月14日 _x86_64_        (1 CPU)

22时51分13秒 CPU    %usr   %nice    %sys %iowait    %irq   %soft %steal %guest   %idle
22时51分14秒 all    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00 100.00
22时51分14秒    0    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00 100.00

22时51分14秒 CPU    %usr   %nice    %sys %iowait    %irq   %soft %steal %guest   %idle
22时51分15秒 all    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00 100.00
22时51分15秒    0    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00 100.00

22时51分15秒 CPU    %usr   %nice    %sys %iowait    %irq   %soft %steal %guest   %idle
22时51分16秒 all    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00 100.00
22时51分16秒    0    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00 100.00

平均时间: CPU    %usr   %nice    %sys %iowait    %irq   %soft %steal %guest   %idle
平均时间: all    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00 100.00
平均时间:    0    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00 100.00

本文出自 “骑天大圣” 博客，请务必保留此出处http://whitley.blog.51cto.com/11489734/1872819

以上是关于Linux 性能监测工具总结的主要内容，如果未能解决你的问题，请参考以下文章

Nmon命令行：Linux系统性能的监测利器

一行代码安装Linux系统酷炫可视化监测工具