使用atop和perf分析抖动问题的方法
Posted 程序猿Ricky的日常干货
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用atop和perf分析抖动问题的方法相关的知识,希望对你有一定的参考价值。
动问题一般都是发生在一瞬间,可能下一秒就已经不存在了。那么对于这类问题要如何定位呢?首先还是要能收集到发生问题的瞬间,相关的系统信息。
atop
对于一个问题, 先从宏观的角度来寻找问题的方向,我们可以通过安装一个atop,配置为1s粒度记录系统信息,这样当抖动发生时,可以回溯系统监控信息,从宏观角度看一下可能存在问题的是哪一个模块,比如可能是io,mem还是network等等。
yum -y install atop
安装完成后,配置采样频率为1秒:
cat /etc/sysconfig/atop
LOGOPTS=""
LOGINTERVAL=1
LOGGENERATIONS=28
LOGPATH=/var/log/atop
启动atop服务:
service atop start
运行起来以后,atop会把系统监控信息记录到/var/log/atop目录中,当发生了抖动时,通过其中保存的log文件进行回溯:
atop -r atop_20210715
perf
查看atop可以看到系统的资源信息,通过这些能够知道可能存在问题的方向,但是光有atop可能并不足以精确定位到问题所在,因此还需要perf去抓更多的trace信息,然后对于perf来说,直接抓热点可能会对系统性能产生较大影响。这里需要考虑一种轻量级的采样方法,可以通过传入-F指定采样频率来进行perf热点采集。
perf record -g -a -F 99
这里会每秒钟采集99个采样点,对系统的影响可控,因此可以尝试长时间抓取信息,保证故障的时候有数据可以查看。这里还有一个问题,对于perf收集的数据是一段时间的,那么瞬间的抖动放在长时间的范围内进行统计,很可能无法体现出来问题点。那么这里就需要使用到perf的另一个功能,就是–time按照时间范围查看:
perf report --header-only
perf report --time start,end
第一个命令可以查看当前perf抓取的数据的起始时间点和结束时间点,那么根据这个可以推算出故障发生时的时间点,再使用第二个命令截取其中的一段来进行report分析:
比如想查看,开始的1s时间,perf抓到的热点信息:
perf report --time 428090,428091
以上是关于使用atop和perf分析抖动问题的方法的主要内容,如果未能解决你的问题,请参考以下文章