sar性能监控

Posted 2020-08-31 小郗测试

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了sar性能监控相关的知识，希望对你有一定的参考价值。

　1、安装sar:

　　yum -y install sysstat

　　第一次使用sar命令会提示如下错误：“无法打开 /var/log/sa/sa13: 没有那个文件或目录”。

　　这里的值13是当天的日期，如今天是2017-02-13，所以这里提示13。原因是没有生成这个文件，可以使用-o命令生成。

　　生成成功

2、监控CPU

　　sar -u 2 3　　#每2秒采集一次，共采集3次

　　sar -u 2 -e 12:50:00 > /tmp/cpu.log　　#每2秒采集一次，直到12点50分，数据将保存到/tmp/cpu.log文件中

　　%usr：用户进程消耗的CPU时间百分比。

　　%nice: 运行正常进程消耗的CPU时间百分比。

　　%system：系统进程消耗的CPU时间百分比。

　　%iowait：I/O等待所占CPU时间百分比。

　　%steal：在内存紧张环境下，pagein强制对不同的页面进行的steal操作。

　　%idle：CPU空闲状态的时间百分比。

　　在所有的显示中，我们应主要注意%iowait和%idle，%iowait的值过高，表示硬盘存在I/O瓶颈，%idle值高，表示CPU较空闲，如果%idle值高但系统响应慢时，有可能是CPU等待分配内存，此时应加大内存容量。%idle值如果持续低于10，那么系统的CPU处理能力相对较低，表明系统中最需要解决的资源是CPU。

3、内存监控

　　Kbmemfree：这个值和free命令中的free值基本一致,所以它不包括buffer和cache的空间。

　　kbmemused：这个值和free命令中的used值基本一致,所以它包括buffer和cache的空间。

　　%memused：这个值是kbmemused和内存总量(不包括swap)的一个百分比。

　　kbbuffers和kbcached：这两个值就是free命令中的buffer和cache。

　　kbcommit：保证当前系统所需要的内存,即为了确保不溢出而需要的内存(RAM+swap)。

　　%commit：这个值是kbcommit与内存总量(包括swap)的一个百分比。

4、内存分页监控

　　pgpgin/s：表示每秒从磁盘或SWAP置换到内存的字节数(KB)。

　　pgpgout/s：表示每秒从内存置换到磁盘或SWAP的字节数(KB)。

　　fault/s：每秒钟系统产生的缺页数,即主缺页与次缺页之和(major + minor)。

　　majflt/s：每秒钟产生的主缺页数。

5、磁盘I/O监控

　　tps：每秒钟物理设备的I/O 传输总量。

　　rtps：每秒钟从物理设备读入的数据总量。

　　wtps：每秒钟向物理设备写入的数据总量。

　　bread/s：每秒钟从物理设备读入的数据量，单位为块/s。

　　bwrtn/s：每秒钟向物理设备写入的数据量，单位为块/s。

6、进程队列长度和负载监控

　　runq-sz：运行队列的长度（等待运行的进程数）。

　　plist-sz：进程列表中进程（processes）和线程（threads）的数量。

　　ldavg-1：最后1分钟的系统平均负载（System load average）。

　　ldavg-5：过去5分钟的系统平均负载。

　　ldavg-15：过去15分钟的系统平均负载。

7、系统交换活动信息监控

　　pswpin/s：每秒系统换入的交换页面（swap page）数量。

　　pswpout/s：每秒系统换出的交换页面（swap page）数量。

8、设备使用情况监控

　　tps:每秒从物理磁盘I/O的次数.多个逻辑请求会被合并为一个I/O磁盘请求,一次传输的大小是不确定的。

　　rd_sec/s:每秒读扇区的次数。

　　wr_sec/s:每秒写扇区的次数。

　　avgrq-sz:平均每次设备I/O操作的数据大小(扇区)。

　　avgqu-sz:磁盘请求队列的平均长度。

　　await:从请求磁盘操作到系统完成处理,每次请求的平均消耗时间,包括请求队列等待时间,单位是毫秒(1秒=1000毫秒)。

　　svctm:系统处理每次请求的平均时间,不包括在请求队列中消耗的时间。

　　%util:I/O请求占CPU的百分比,比率越大,说明越饱和。

　　1. avgqu-sz的值较低时，设备的利用率较高。

　　2. 当%util的值接近1% 时，表示设备带宽已经占满。

9、监控网卡流量

　　sar -n DEV -f /var/log/sa/sa13　　#查看某一天的流量历史，后面跟文件名

10、命令用法

　　-A：所有报告的总和。-u：CPU利用率-v：进程、节点、文件和锁表状态。
　　-p：像是当前系统中指定CPU使用信息。-d：硬盘使用报告。-r：显示系统内存的使用情况。
　　-n：显示网络运行状态。参数后面可跟DEV、EDEV、SOCK和FULL。DEV显示网络接口信息，EDEV显示网络错误的统计数据，SOCK显示套接字信息，FULL显示前三参数所以信息。
　　-q：显示运行队列的大小，它与系统当时的平均负载相同
　　-B：内存分页情况
　　-R：显示进程在采样时间内的活动情况。

　　-g：串口I/O的情况。

　　-b：缓冲区使用情况。　

　　-a：文件读写情况。

　　-c：系统调用情况。　

　　-R：进程的活动情况。

　　-y：终端设备活动情况。

　　-W：系统交换活动。

11、分析

　　要判断系统瓶颈问题，有时需几个sar命令选项结合起来

　　•怀疑CPU存在瓶颈，可用sar-u 和sar-q 等来查看

　　•怀疑内存存在瓶颈，可用sar-B、sar-r 和sar-W 等来查看

　　•怀疑I/O存在瓶颈，可用sar-b、sar-u 和sar-d 等来查看

以上是关于sar性能监控的主要内容，如果未能解决你的问题，请参考以下文章