使用atop和perf分析抖动问题的方法

Posted 程序猿Ricky的日常干货

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用atop和perf分析抖动问题的方法相关的知识,希望对你有一定的参考价值。

动问题一般都是发生在一瞬间,可能下一秒就已经不存在了。那么对于这类问题要如何定位呢?首先还是要能收集到发生问题的瞬间,相关的系统信息。

atop

对于一个问题, 先从宏观的角度来寻找问题的方向,我们可以通过安装一个atop,配置为1s粒度记录系统信息,这样当抖动发生时,可以回溯系统监控信息,从宏观角度看一下可能存在问题的是哪一个模块,比如可能是io,mem还是network等等。

yum -y install atop

安装完成后,配置采样频率为1秒:

cat /etc/sysconfig/atop 
LOGOPTS=""
LOGINTERVAL=1
LOGGENERATIONS=28
LOGPATH=/var/log/atop

启动atop服务:

service atop start

运行起来以后,atop会把系统监控信息记录到/var/log/atop目录中,当发生了抖动时,通过其中保存的log文件进行回溯:

atop -r atop_20210715

perf

查看atop可以看到系统的资源信息,通过这些能够知道可能存在问题的方向,但是光有atop可能并不足以精确定位到问题所在,因此还需要perf去抓更多的trace信息,然后对于perf来说,直接抓热点可能会对系统性能产生较大影响。这里需要考虑一种轻量级的采样方法,可以通过传入-F指定采样频率来进行perf热点采集。

perf record -g -a -F 99

这里会每秒钟采集99个采样点,对系统的影响可控,因此可以尝试长时间抓取信息,保证故障的时候有数据可以查看。这里还有一个问题,对于perf收集的数据是一段时间的,那么瞬间的抖动放在长时间的范围内进行统计,很可能无法体现出来问题点。那么这里就需要使用到perf的另一个功能,就是–time按照时间范围查看:

perf report --header-only
perf report --time  start,end

第一个命令可以查看当前perf抓取的数据的起始时间点和结束时间点,那么根据这个可以推算出故障发生时的时间点,再使用第二个命令截取其中的一段来进行report分析:

比如想查看,开始的1s时间,perf抓到的热点信息:

perf report --time 428090,428091

以上是关于使用atop和perf分析抖动问题的方法的主要内容,如果未能解决你的问题,请参考以下文章

使用atop和perf分析抖动问题的方法

使用atop和perf分析抖动问题的方法

使用 perf 获取事件计数取决于其他事件的发生

SylixOS周期定时抖动分析

如何分析 perf sched 脚本和 perf sched 延迟?

开发工具perf性能分析工具perf的编译和使用说明