记一次线上内存溢出问题排查过程
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了记一次线上内存溢出问题排查过程相关的知识,希望对你有一定的参考价值。
参考技术A 业务反馈后台管理页面打不开,报错。通过后台日志发现zookeeper连不上,找不到dubbo服务提供者。因为之前线上另外的服务也出现过zookeeper连不上的问题,当时是内存溢出,日志有OutOfMemory错误,所以直接到服务器上查看内存使用情况。使用ps -ef | grep java命令找出Java进程号,然后再用jmap -heap pid 命令查看jvm堆内存使用情况,结果如下图:可以看到,堆内存使用率100%。
既然知道是由于内存溢出导致服务崩溃,那么需要将堆内存镜像导出分析。使用ps -ef | grep java命令查看当堆内存溢出时保持日志文件路径。这里说一下,在java程序启动时需要添加参数,这样在发生堆内存溢出时才会自动生成hprof文件。参数:-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=文件路径 。获取到堆内存镜像后,第一时间重启并恢复线上服务。接下来才是分析过程,我是使用 Eclipse Memory Analysis Tools (MAT)这个工具来分析的。Mac OS第一次使用工具时出现了两个小问题:
1、打开工具时报错,The platform metadata area could not be written: /private/var/folders/8m/tgf,解决办法:右键mat工具显示包内容,找到MemoryAnalyzer.ini并修改,添加参数:-data 下一行是数据保存路径
2、打开镜像文件报错:An internal error occurred during: "Parsing heap dump from XXX,因为我的镜像文件有2个多G,但是MemoryAnalyzer.ini文件里参数-Xmx1024m,默认只有1G,所以修改此参数为-Xmx4096m。
成功打开文件后,选择查看Leak Suspects Report,自动分析到可能存在泄漏的对象,长这个样子:
记一次线上CPU100%排查过程
引言
不知道在大家面试中,有没有遇到这个问题:
生产服务器上部署了几个java程序,突然出现了CPU100%的异常告警,你如何定位出问题呢?
这个问题分为两版回答!
高调版
对不起,我是做研发的,这个问题在生产上是不可能遇见的!因为研发是不可能直接操作生产服务器,如果贵公司能出现这个问题,应该要反思一下自己的权限控制是否合理!
面试官心里活动
:装13是不是,赶紧走!
低调版
这个问题我在生产上没碰到过,因为我们是没法直接操作生产环境的。只能说,在测试环境曾经遇见过。操作步骤如下,balabala…
面试官心里活动
:权限控制的不错,应该是在大厂呆过。
下面开始我们的正文
正文
下面给出两种系统下的排查步骤,都是一模一样的,只是命令稍有区别!
-
查消耗cpu最高的进程PID
-
根据PID查出消耗cpu最高的线程号
-
根据线程号查出对应的java线程,进行处理。
准备一行死循环代码:
怎么跑,应该不用我说了,直接教大家怎么查!
windows版
可能有人有疑问,我为什么要说windows版的!因为,我曾经给很多政府部门做过系统。我发现他们用的是windows server,不是linux系统。所有必要说一下!
查消耗cpu最高的进程PID
手边没有windows server机器,我以win 10为例,截图给大家看一下,先调出PID显示项!
然后发现进程PID如下图所示,为10856
接下来呢?
根据PID查出消耗cpu最高的线程号
这里用到微软的工具Process Explorer v16.22,地址如下https://docs.microsoft.com/zh-cn/sysinternals/downloads/process-explorer
如图所示
发现最耗cpu的线程的TId为6616
这是十进制的数据,转成十六进制为19d8
根据线程号查出对应的java线程,进行处理
执行命令,导出进程快照
打开文件 c:/10856.stack,搜索19d8,如下图所示
根据文件就可以看出,我们的TestFor.java
文件第七行一直在跑,至此定位到问题
Linux版
Linux版本,步骤是一模一样的,就是命令换了一下
查消耗cpu最高的进程PID
执行命令
-
执行
top -c
,显示进程运行信息列表。按下P,进程按照cpu使用率排序
如下图所示,PID为3033的进程耗费cpu最高
根据PID查出消耗cpu最高的线程号
执行命令
-
top -Hp 3033
,显示一个进程的线程运行信息列表。按下P,进程按照cpu使用率排序
如下图所示,PID为3034的线程耗费cpu最高
这是十进制的数据,转成十六进制为0xbda
根据线程号查出对应的java线程,进行处理
执行命令,导出进程快照
jstack -l 3033 > ./3033.stack
然后执行,grep命令,看线程0xbda
做了什么
cat 3033.stack |grep ‘bda‘ -C 8
输出如下
至此定位到问题
总结
大家记得一定要去实际操作一次!
以上是关于记一次线上内存溢出问题排查过程的主要内容,如果未能解决你的问题,请参考以下文章