虚拟机性能监控与故障处理工具
Posted wiljm
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了虚拟机性能监控与故障处理工具相关的知识,希望对你有一定的参考价值。
摘自《深入理解 Java 虚拟机:JVM 高级特性与最佳实践》(第二版)
概述
经过前面对于虚拟机内存分配与回收技术各方面的介绍,相信读者已经建立了一套比较完整的理论基础。理论总是作为指导实践的工具,能把这些知识应用到实际工作中才是我们的最终目的。
给一个系统定位问题的时候,知识、经验是关键基础,数据是依据,工具是运用知识处理数据的手段。这里说的数据包括:运行日志、异常堆栈、GC 日志、线程快照(threaddump / javacore 文件)、堆转储快照(headdump / hprof 文件)等。经常使用适当的虚拟机监控和分析的工具可以加快我们分析数据、定位解决问题的速度,但在学习工具前,也应当意识到工具永远都是知识技能的一层包装,没有什么工具是“秘密武器”,不可能学会了就能包治百病。
JDK 的命令行工具
Java 开发人员肯定都知道 JDK 的 bin 目录中有“java.exe”、“javac.exe”这两个命令行工具,但并非所有程序员都了解过 JDK 的 bin 目录之中其他命令行程序的作用。每逢 JDK 个更新版本之时,bin 目录下命令行工具的数量和功能总会不知不觉地增加和增强。bin 目录的内容如图 4-1 所示。
在这里将介绍这些工具的其中一部分,主要包括用于监视虚拟机和故障处理的工具。这些故障处理工具被 Sun 公司作为“礼物”附赠给 JDK 的使用者,并在软件的使用说明中把它们声明为“没有技术支持并且是实验性质的”(unsupported and experimental)的产品,但事实上,这些工具都非常稳定而且功能强大,能在处理应用程序性能问题、定位故障时发挥很大的作用。
图 4-1 Sun JDK 中的工具目录
这些命令行工具大多数是 jdk/lib/tools.jar 类库的一层薄包装而已,它们主要的功能代码是在 tools 类库中实现的。读者把图 4-1 和 图 4-2 两张图片对比一下就可以看得很清楚。
JDK 开发团队选择采用 Java 代码来实现这些监控工具是有特别用意的:当应用程序部署到生产环境后,无论是直接接触物理服务器还是远程 Telnet 到服务器上都可能会收到限制。借助 tools.jar 类库里面的接口,我们可以直接在应用程序中实现功能强大的监控分析功能。
图 4-2 tools.jar 包的内部状况
表 4-1 中说明了 JDK 主要命令行监控工具的用途。
名 称 | 主要作用 |
---|---|
jps | JVM Process Status Tool, 显示指定系统内所有的 HotSpot 虚拟机进程 |
jstat | JVM Statistics Monitoring Tool,用于收集 HotSpot 虚拟机各方面的运行数据 |
jinfo | Configuration Info for Java,显示虚拟机配置信息 |
jmap | Memory Map for Java,生成虚拟机的内存转储快照(heapdump 文件) |
jhat | JVM Heap Dump Browser,用于分析 heapdump 文件,它会建立一个 HTTP/html 服务器,让用户可以在浏览器上查看分析结果 |
jstack | Stack Trace for Java,显示虚拟机的线程快照 |
jps: 虚拟机进程状况工具
JDK 的很多小工具的名字都参考了 UNIX 命令的命名方式,jps(JVM Process Status Tool)是其中的典型。除了名字像 UNIX 的 ps 命令之外,它的功能也和 ps 命令类似:可以列出正在运行的虚拟机进程,并显示虚拟机执行主类(Main Class,main() 函数所在的类)名称以及这些进程的本地虚拟机唯一 ID(Local Virtual Machine Identifier,LVMID)。
对于本地虚拟机进程来说,LVMID 与操作系统的进程 ID(Process Identifier,PID)是一致的,使用 Windows 的任务管理器或者 UNIX 的 ps 命令也可以查询到虚拟机进程的 LVMID,但如果同时启动了多个虚拟机进程,无法根据进程名称定为时,那就只能依赖 jps 命令显示主类的功能才能区分了。
jps 命令格式:
jps [options] [hostid]
jps 可以通过 RMI协议查询开启了 RMI 服务器的远程虚拟机进程状态,hostid 为 RMI 注册表中注册的主机名。jps 的其他常用选项见表 4-2。
选 项 | 作 用 |
---|---|
-q | 只输出 LVMID,省略主类的名称 |
-m | 输出虚拟机进程启动时传递给主类 main() 函数的参数 |
-l | 输出主类的全名,如果进行执行的是 Jar 包,输出 Jar 路径 |
-v | 输出虚拟机进程启动时的 JVM 参数 |
jstat:虚拟机统计信息监视工具
jstat(JVM Statistics Monitoring Tool)是用于监视虚拟机各种运行状态信息的命令行工具。它可以显示本地或者远程虚拟机进程中的类装载、内存、垃圾收集、JIT 编译等运行数据,在没有 GUI 图形界面,只提供纯文本控制台环境的服务器上,它将是运行期定位虚拟机性能问题的首选工具。
jstat 命令格式为:
jstat [ option vmid [interval[s|ms] [count] ]
对于命令格式中的 VMID 与 LVMID 需要特别说明一下:如果是本地虚拟机进程,VMID 与 LVMID 是一致的,如果是远程虚拟机进程,那 VMID 的格式应当是:
[protocol:][//]lvmid[@hostname[:port]/servername]
参数 interval 和 count 代表查询间隔和次数,如果省略这两个参数,说明只查询一次。假设需要每 250 毫秒查询一次进行 2764 垃圾收集状况,一共查询 20 次,那命令应当是:
jstat -gc 2764 250 20
选项 option 代表着用户希望查询的虚拟机信息,主要分为 3 类:类装载、垃圾收集、运行期编译状况,具体选项及作用请参考表 4-3 中的描述。
选 项 | 作 用 |
---|---|
-class | 监视类装载、卸载数量、总空间以及类装载所耗费的时间 |
-gc | 监视 Java 堆状况,包括 Eden 区、两个 survivor 区、老年代、永久代等的容量、已用空间、GC 时间合计等信息 |
-gccapacity | 监视内容与 -gc 基本相同,但输出主要关注 Java 堆各个区域使用到的最大、最小空间 |
-gcutil | 监视内容与 -gc 基本相同,但输出主要关注已使用空间占总空间的百分比 |
-gccause | 与 -gcutil 功能一样,但是会额外输出导致上一次 GC 产生的原因 |
-gcnew | 监视新生代 GC 状况 |
-gcnewcapacity | 监视内容与 -gcnew 基本相同,输出主要关注使用到的最大、最小空间 |
-gcold | 监视老年代 GC 状况 |
-gcoldcapacity | 监视内容与 -gcold 基本相同,输出主要关注使用到的最大、最小空间 |
-gcpermcapacity | 监视永久代使用到的最大、最小空间 |
-compiler | 输出 JIT 编译器编译过的方法、耗时等信息 |
-printcompilation | 输出已经被 JIT 编译的方法 |
这里通过一台刚刚启动的 tomcat 服务器的内存状况的例子来演示如何查看监视结果。监视参数与输出结果如下图所示。
查询结果表明:这台服务器的新生代 Eden 区(E,表示 Eden)使用了 1.84% 的空间,两个 Survivor 区(S0、S1,表示 Survivor0、Survivor1)里面都是空的,老年代(O,表示 Old)和永久代(P,表示 Permanent)则分别使用了 36.70% 和 95.33 的空间。程序运行以来共发生 Minor GC(YGC,表示 Young GC)32 次,总耗时 0.333 秒,发生 Full GC(FGC,表示 Full GC)24 此,Full GC 总好耗时(FGCT,表示 Full GC Time)为 1.516 秒,所有 GC 总耗时(GCT,表示 GC Time)为 1.849 秒。
使用 jstat 工具在纯文本状态下监视虚拟机状态的变化,确实不如后面将会提到的 VisualVM 等可视化的监视工具直接以图表展示那样直观。但许多服务器管理员都习惯了在文本控制台工作,直接在控制台中使用 jstat 命令依然是一种常用的监控方式。
jinfo:Java 配置信息工具
jinfo(Configuration Info for Java)的作用是实时地查看和调整虚拟机各项参数。使用 jps 命令的 -v 参数可以查看虚拟机启动时显示指定的参数列表,但如果想知道未被显示指定的参数的系统默认值,除了去找资料外,就只能使用 jinfo 的 -flag 选项进行查询了(如果只限于 JDK 1.6 或以上版本的话,使用 java -XX:+PrintFlagsFinal 查看参数默认值也是一个很好的选择)。
jinfo 还可以使用 -sysprops 选项把虚拟机进程的 System.getProperties() 的内容打印出来。这个命令在 JDK 1.5 时期已经随着 Linux 版的 JDK 发布,当时只提供了信息查询的功能,JDK 1.6 之后,jinfo 在 Windows 和 Linux 平台都有提供,并且加入了运行期修改参数的能力,可以使用 -flag [+|-] name 或者 -flag name=value 修改一部分运行期可写的虚拟机参数值。JDK JDK 1.6 中,jinfo 对于 Windows 平台功能仍然有较大限制,只提供了最基本的 -flag 选项。
jinfo 命令格式:
jinfo [option] pid
jmap:Java 内存映像工具
jmap(Memory Map for Java)命令用于生成堆转储快照(一般称为 heapdump 或 dump 文件)。如果不使用 jmap 命令,要想获取 Java 堆转储快照,还有一些比较“暴力”的手段:譬如前面用过的-XX:+HeapDumpOnOutOfMemoryError 参数,可以让虚拟机在 OOM 异常出现之后自动生成 dump 文件,通过 -XX:+HeapDumpOnCtrlBreak 参数则可以使用 [Ctrl]+[Break] 键让虚拟机生成 dump 文件,又或者再 Linux 系统下通过 Kill -3 命令发送进程退出信息“吓唬”一下虚拟机,也能拿到 dump 文件。
jmap 的作用并不仅仅是为了获取 dump 文件,它还可以查询 finalize 执行队列,Java 堆和永久代的详细信息,如空间使用率、当前用的是哪种收集器等。
和 jinfo 命令一样,jmap 有不少功能在 Windows 平台下都是受限的,除了生成 dump 文件的 -dump 选项和用于查看每个类的实例、空间占用统计的 -histo 选项在所有操作系统都提供之外,其余选项都只能在 Linux ? Solaris 下使用。
jmap 命令格式:
jmap [option] vmid
option 选项的合法值与具体含义见表 4-4。
选 项 | 作 用 |
---|---|
-dump | 生成 Java 堆转储快照。格式为:-dump:[live, ]format=b, file=<filename>, 其中 live 子参数说明是否只 dump 出存活的对象 |
-finalizerinfo | 显示在 F-Queue 中等待 Finalizer 线程执行 finalize 方法的对象。只在 Linux / Solaris 平台下有效 |
-heap | 显示 Java 堆详细信息,如使用哪种回收器、参数配置、分代状况等。只在 Linux / Solaris 平台下有效 |
-histo | 显示堆中对象统计信息,包括类、实例数量、合计容量 |
-permstat | 以 ClassLoader 为统计口径显示永久代内存状态。只在 Linux / Solaris 平台下有效 |
-F | 当虚拟机进程对 -dump 选项没有响应时,可使用这个选项强制生成 dump 快照。只在 Linux / Solaris 平台下有效 |
jhat:虚拟机堆转储快照分析工具
Sun JDK 提供 jhat(JVM Heap Analysis Tool)命令与 jmap 搭配使用,来分析 jmap 生成的堆转储快照。jhat 内置了一个微型的 HTTP/HTML 服务器,生成 dump 文件的分析结果后,可以在浏览器中查看。不过实事求是地说,在实际工作中,除非笔者手上中嗯的没有别的工具可用,否则一般都不会去直接使用 jhat 命令来分析 dump 文件,主要原因有二:一是一般不会在部署应用程序的服务器上直接分析 dump 文件,即使可以这样做,也会尽量将 dump 文件复制到其他机器上进行分析,因为分析工作是一个耗时而且消耗硬件资源的过程,既然都要在其他机器进行,就没有必要收到命令行工具的限制了;另一个原因是 jhat 的分析功能相对来说比较简陋,后文将会介绍 VisualVM,以及专业用语分析 dump 文件的 Eclipse Memory Analyzer、IBM HeapAnalyzer 等工具,都能实现比 jhat 更强大更专业的分析功能。
分析结果默认是以包为单位进行分组显示,分析内存泄露问题主要会使用到其中的“Heap Histogram”(与 jmap -histo 功能一样)与OQL页签的功能,前者可以找到内存中总容量最大的对象,后者是标准的对象查询语言,使用类似 SQL 的语法对内存中的对象进行查询统计。
jstack:Java 堆栈跟踪工具
jstack(Stack Trace for Java)命令用于生成虚拟机当前时刻的线程快照(一般称为 threaddump 或者 javacore 文件)。线程快照就是当前虚拟机内每一条线程正在执行的方法堆栈的集合,生成线程快照的主要目的是定位线程出现长时间停顿的原因,如线程间死锁、死循环、请求外部资源导致的长时间等待等都是导致线程长时间停顿的常见原因。线程出现停顿的时候通过 jstack 来查看各个线程的调用堆栈,就可以知道没有响应的线程到底在后台做些什么事情,或者等待着什么资源。
jstack 命令格式:
jstack [option] vmid
option 选项的合法值与具体含义见表 4-5。
选 项 | 作 用 |
---|---|
-F | 当正常输出的请求不被响应时,强制输出线程堆栈 |
-l | 除堆栈外,显示关于锁的附加信息 |
-m | 如果调用本地方法的话,可以显示 C/C++ 的堆栈 |
在 JDK 1.5 中,java.lang.Thread 类新增了一个 getAllStackTraces() 方法用于获取虚拟机中所有线程的 StackTraceElement 对象。使用这个方法可以通过简单的几行代码就完成 jstack 的大部分功能,在实际项目中不妨调用这个方法做个管理员页面,可以随时使用浏览器来查看线程堆栈。
HSDIS:JIT 生成代码反汇编
在 Java 虚拟机规范中,详细描述了虚拟机指令集中每条指令的执行过程、执行前后对操作数栈、局部变量表的影响等细节。这些细节描述与 Sun 的早期虚拟机(Sun Classic VM)高度吻合,但随着技术的发展,高性能虚拟机真正的细节实现方式已经渐渐与虚拟机规范所描述的内容产生了越来越大的差距,虚拟机规范中的描述逐渐成了虚拟机实现的“概念模型”——即实现只能保证规范描述等效。基于这个原因,我们分析程序的执行语义问题(虚拟机即做了什么)时,在字节码层面上分析完全可行,但分析程序的执行行为问题(虚拟机是怎么样做的、性能如何)时,在字节码层面上分析就没有什么意义了,需要通过其他方式解决。
分析程序如何执行,通过软件调试工具(GDB、Windbg等)来断点调试是最常见的手段,但是这样的调试方式在JVM中会遇到很大困难,因为大量执行代码是通过JIT编译器动态生成到CodeBuffer中的,没有很简单的手段来处理这种混合模式的调试(不过相信虚拟机开发团队内部肯定是有内部工具的)。因此我们要通过一些曲线手段来解决问题,基于这种背景下,本文的主角——HSDIS插件就正式登场了。
HSDIS是由Project Kenai(http://kenai.com/projects/base-hsdis)提供并得到Sun官方推荐的HotSpot VM JIT编译代码的反汇编插件,作用是让HotSpot的-XX:+PrintAssembly指令调用它来把动态生成的本地代码还原为汇编代码输出,同时还生成了大量非常有价值的注释,这样我们就可以通过输出的代码来分析问题。读者可以根据自己的操作系统和CPU类型从Kenai的网站上下载编译好的插件,直接放到JDK_HOME/jre/bin/client和JDK_HOME/jre/bin/server目录中即可。如果没有找到所需操作系统(譬如Windows的就没有)的成品,那就得自己拿源码编译一下,或者去HLLVM圈子(http://hllvm.group.iteye.com/)中下载也可以。
还需要注意的是,如果读者使用的是 Debug 或者 FastDebug 版的 HotSpot,那可以直接通过 -XX:+PrintAssembly 指令使用插件;如果使用的是 Product 版的 HotSpot,那还要额外加入一个-XX:+UnlockDiagnosticVMOptions 参数。
jdk 的可视化工具
JDK 中除了提供大量的命令行工具外,还有两个功能强大的可视化工具:JConsole 和 VisualVM,这两个工具是 JDK 的正式成员,没有被贴上“unsupported and experimental”的标签。
其中 JConsole 是在 JDK 1.5 时期就已经提供的虚拟机监控工具,而 VisualVM 在 JDK 1.6 Update7 中才首次发布,现在已经成为 Sun(Oracle)主力推动的多合一故障处理工具,并且已经从 JDK 中分离出来成为可以独立发展的开源项目。
JConsole:Java 监视与管理控制台
JConsole(Java Monitoring and Management Consolo)是一种基于 JMX 的可视化监视管理工具。它管理部分的功能是针对 JMX MBean 可以使用代码、中间件服务器的管理控制台或者所有符合 JMX 规范的软件进行访问。
VisualVM:多合一故障处理工具
VisualVM(All-in-One Java Troubleshooting Tool)是到目前为止随 JDK 发布的功能最强大的运行监视和故障处理程序,并且可以预见在未来一段时间内都是官方主力发展的虚拟机故障处理工具。官方在 VisualVM 的软件说明中写上了“All-in-One” 的描述字样,预示着它除了运行监视、故障处理外,还提供了很多其他方面的功能。如性能分析(Profiling),VisualVM 的性能分析功能甚至比起 JProfile、YourKit 等专业且收费的 Profiling 工具无法与之媲美的。
以上是关于虚拟机性能监控与故障处理工具的主要内容,如果未能解决你的问题,请参考以下文章