深入探索Java工作原理：JVM，内存回收及其他

Posted 2023-05-11

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了深入探索Java工作原理：JVM，内存回收及其他相关的知识，希望对你有一定的参考价值。

参考技术A

　　Java语言引入了Java虚拟机具有跨平台运行的功能能够很好地适应各种Web应用同时为了提高Java语言的性能和健壮性还引入了如垃圾回收机制等新功能通过这些改进让Java具有其独特的工作原理

　　 ．Java虚拟机

　　Java虚拟机（Java Virtual Machine JVM）是软件模拟的计算机它可以在任何处理器上（无论是在计算机中还是在其他电子设备中）安全兼容地执行保存在 class文件中的字节码 Java虚拟机的机器码保存在 class文件中有时也可以称之为字节码文件

　　Java程序的跨平台特性主要是指字节码文件可以在任何具有Java虚拟机的计算机或者电子设备上运行 Java虚拟机中的Java解释器负责将字节码文件解释成为特定的机器码进行运行因此在运行时 Java源程序需要通过编译器编译成为 class文件

　　Java虚拟机的建立需要针对不同的软硬件平台来实现既要考虑处理器的型号也要考虑操作系统的种类由此在SPARC结构 X 结构 MIPS和PPC等嵌入式处理芯片上在UNIX Linux Windows和部分实时操作系统上都可实现Java虚拟机

　　 ．无用内存自动回收机制

　　在程序的执行过程中部分内存在使用过后就处于废弃状态如果不及时进行回收很有可能会导致内存泄漏进而引发系统崩溃在C++语言中是由程序员进行内存回收的程序员需要在编写程序时把不再使用的对象内存释放掉这种人为管理内存释放的方法往往由于程序员的疏忽而致使内存无法回收同时也增加了程序员的工作量而在Java运行环境中始终存在着一个系统级的线程专门跟踪内存的使用情况定期检测出不再使用的内存并自动进行回收避免了内存的泄露也减轻了程序员的工作量

　　 ．代码安全性检查机制

　　安全和方便总是相对矛盾的 Java编程语言的出现使得客户端计算机可以方便地从网络上上传或下载Java程序到本地计算机上运行但是如何保证该Java程序不携带病毒或者没有其他危险目的呢？为了确保Java程序执行的安全性 Java语言通过Applet程序来控制非法程序的安全性也就是有了它才确保Java语言的生存

　　Java字节码的执行需要经过以下个步骤

　　（）由类装载器（class loader）负责把类文件（ class文件）加载到Java虚拟机中在此过程需要检验该类文件是否符合类文件规范

　　（）字节码校验器（bytecode verifier）检查该类文件的代码中是否存在着某些非法操作例如Applet程序中写本地计算机文件系统的操作

　　（）如果字节码校验器检验通过由Java解释器负责把该类文件解释成为机器码进行执行

　　注意

　　Java虚拟机采用沙箱运行模式即把Java程序的代码和数据都限制在一定内存空间里执行不允许程序访问该内存空间以外的内存如果是Applet程序还不允许访问客户端机器的文件系统

　　 Java的运行环境

　　无论哪种语言都需要有它特定的运行环境也就是平台 Java语言同样不例外但是如何理解Java程序与硬件环境无关呢？

　　几乎所有的语言都需要通过编译或者解释才可以被计算机执行但是Java有一点不同它同时需要这两个过程其实也正是因为这个原因才使Java这种语言具有了平台无关性当完成一个Java源程序后首先通过Java翻译程序将它编译成一种叫做字节码的中间代码然后再由Java平台的解释器将它转换成为机器语言来执行这一平台的核心就是JVM

　　Java的编译过程与其他的语言不同像C++这样的语言在编译时它是与计算机的硬件平台信息密不可分的编译程序通过查表将所有指令的操作数和操作码等转换成内存的偏移量即程序运行时的内存分配方式目的是保证程序正常运行而Java却是将指令转换成为一种 class的文件这种文件不包含硬件的信息需要执行时只要经过安装有JVM的机器进行解释创建内存分配后再通过查表来确定一条指令所在的地址这样就有效地保证了Java的可移植性和安全性

　　Java平台具有这样的特性和它的结构有关通常一个程序运行的平台是一个硬件或者软件运行的环境目前比较流行的是Windows XP Linux Solaris和MacOS Java的平台不太一样它由两个部分组成即JVM和应用程序设计接口

　　 ．JVM

　　JVM是Java平台的核心为了让编译产生的字节码能更好地解释与执行因此把JVM分成了个部分 JVM解释器指令系统寄存器栈存储区和碎片回收区

　　◆JVM解释器即这个虚拟机处理字段码的CPU

　　◆JVM指令系统该系统与计算机很相似一条指令由操作码和操作数两部分组成操作码为位二进制数主要是为了说明一条指令的功能操作数可以根据需要而定 JVM有多达种不同的操作指令

　　◆寄存器 JVM有自己的虚拟寄存器这样就可以快速地与JVM的解释器进行数据交换为了功能的需要 JVM设置了个常用的位寄存器 pc（程序计数器） optop（操作数栈顶指针） frame（当前执行环境指针）和vars（指向当前执行环境中第一个局部变量的指针）

　　◆JVM栈指令执行时数据和信息存储的场所和控制中心它提供给JVM解释器运算所需要的信息

　　◆存储区 JVM存储区用于存储编译过后的字节码等信息

　　◆碎片回收区 JVM碎片回收是指将使用过的Java类的具体实例从内存进行回收这就使得开发人员免去了自己编程控制内存的麻烦和危险随着JVM的不断升级其碎片回收的技术和算法也更加合理 JVM 版后产生了一种叫分代收集技术简单来说就是利用对象在程序中生存的时间划分成代以此为标准进行碎片回收

　　 ．Java应用程序设计接口

　　Java Application Programming Interface简称Java API 其中文名为Java应用程序设计接口它是一个软件集合其中有许多开发时所需要的控件可以用它来辅助开发

lishixinzhi/Article/program/Java/hx/201311/26733

深入理解JVM-Java垃圾回收机制GC

对于C/C++开发者来说，他们在内存管理方面具有至高的权利，但是也承担着巨大的维护责任。而对于Java程序员来说，有了JVM（Java虚拟机）管理机制的帮助，再也不用担心内存泄漏和内存溢出问题了。因此，这篇文章我将深入探讨一下JVM，它的内部结构以及运行原理。

一、如何判断对象已死

当GC要回收某个对象的时候，它是如何判断该对象已死(即不可能再被使用)，当一个对象不再被使用时，那么这个对象就是可以被回收的。

(1)引用计数算法

引用计数是垃圾收集器中的早期策略。在这种方法中，堆中每个对象（不是引用）都有一个引用计数。当一个对象被创建时，且将该对象分配给一个变量，该变量计数设置为1。当任何其它变量被赋值为这个对象的引用时，计数加1（a = b,则b引用的对象+1），但当一个对象的某个引用超过了生命周期或者被设置为一个新值时，对象的引用计数减1。任何引用计数为0的对象可以被当作垃圾收集。当一个对象被垃圾收集时，它引用的任何对象计数减1。

引用计数算法实现简单，很好理解，判断效率也很高，大部分情况下是一个很不错的算法。但值得注意的是，主流的Java虚拟机并没有采用引用计数算法，其主要的原因就是它很难解决对象之间的相互循环引用。很简单的一个实例：

public class Main {
    public static void main(String[] args) {
        MyObject object1 = new MyObject();
        MyObject object2 = new MyObject();

        object1.object = object2;
        object2.object = object1;

        object1 = null;
        object2 = null;
    }
}

class MyObject{
    public Object object = null;
}

代码中的对象object1与对象object2相互引用，这样的情况在引用计数算法下永远都不会被回收，但实际情况下这样的相互指引没有任何实际意义。

(2)可达性分析算法

通过一系列的称为“GC Roots”的对象作为起点，从这些节点开始向下搜索，搜索所走过的路径称为引用链。当一个对象到GC Roots没有任何引用链相连（用图论的话来说，就是从GC Roots到这个对象不可达）时，则证明此对象是不可用的。

但注意，JVM中并不是判断对象不可达就立即回收，被判定为不可达的对象要成为可回收对象必须至少经历两次标记过程，如果在这两次标记过程中仍然没有逃脱成为可回收对象的可能性，则基本上就真的成为可回收对象了。

技术分享

蓝色：仍然存活的对象
白色：判定可回收的对象

二、垃圾收集算法

在确定了哪些垃圾可以被回收后，垃圾收集器要做的事情就是开始进行垃圾回收，但是这里面涉及到一个问题是：如何高效地进行垃圾回收。由于Java虚拟机规范并没有对如何实现垃圾收集器做出明确的规定，因此各个厂商的虚拟机可以采用不同的方式来实现垃圾收集器，所以在此只讨论几种常见的垃圾收集算法的核心思想。

(1)标记-清除算法

最基础的收集算法是“标记-清除”（Mark-Sweep）算法，如同它的名字一样，算法分为“标记”和“清除”两个阶段：首先标记出所有需要回收的对象，在标记完成后统一回收所有被标记的对象，它的标记过程其实在前一节讲述对象标记判定时已经介绍过了。之所以说它是最基础的收集算法，是因为后续的收集算法都是基于这种思路并对其不足进行改进而得到的。它的主要不足有两个：一个是效率问题，标记和清除两个过程的效率都不高；另一个是空间问题，标记清除之后会产生大量不连续的内存碎片，空间碎片太多可能会导致以后在程序运行过程中需要分配较大对象时，无法找到足够的连续内存而不得不提前触发另一次垃圾收集动作。

技术分享

(2)复制算法

为了解决效率问题，一种称为“复制”（Copying）的收集算法出现了，它将可用内存按容量划分为大小相等的两块，每次只使用其中的一块。当这一块的内存用完了，就将还存活着的对象复制到另外一块上面，然后再把已使用过的内存空间一次清理掉。这样使得每次都是对整个半区进行内存回收，内存分配时也就不用考虑内存碎片等复杂情况，只要移动堆顶指针，按顺序分配内存即可，实现简单，运行高效。只是这种算法的代价是将内存缩小为了原来的一半，未免太高了一点。现在的商业虚拟机都采用这种收集算法来回收新生代。

技术分享

(3)标记-整理算法

复制收集算法在对象存活率较高时就要进行较多的复制操作，效率将会变低。更关键的是，如果不想浪费50%的空间，就需要有额外的空间进行分配担保，以应对被使用的内存中所有对象都100%存活的极端情况，所以在老年代一般不能直接选用这种算法。

根据老年代的特点，有人提出了另外一种“标记-整理”（Mark-Compact）算法，标记过程仍然与“标记-清除”算法一样，但后续步骤不是直接对可回收对象进行清理，而是让所有存活的对象都向一端移动，然后直接清理掉端边界以外的内存。

技术分享

(4)分代收集算法

当前商业虚拟机的垃圾收集都采用“分代收集”（Generational Collection）算法，这种算法并没有什么新的思想，只是根据对象存活周期的不同将内存划分为几块。一般是把Java堆分为新生代和老年代，这样就可以根据各个年代的特点采用最适当的收集算法。在新生代中，每次垃圾收集时都发现有大批对象死去，只有少量存活，那就选用复制算法，只需要付出少量存活对象的复制成本就可以完成收集。而老年代中因为对象存活率高、没有额外空间对它进行分配担保，就必须使用“标记—清理”或者“标记—整理”算法来进行回收。

三、垃圾收集器

如果说收集算法是内存回收的方法论，垃圾收集器就是内存回收的具体实现。 Java虚拟机规范中没有规定垃圾收集器如何实现，所以不同的厂商，不同版本的虚拟机提供的垃圾收集器是有很大区别的。这里讨论的收集器基于Sun HotSpot虚拟机1.6版 Update 22。

技术分享

Serial收集器：新生代收集器，使用停止复制算法，使用一个线程进行GC，其它工作线程暂停。使用-XX:+UseSerialGC可以使用Serial+Serial Old模式运行进行内存回收（这也是虚拟机在Client模式下运行的默认值）
ParNew收集器：新生代收集器，使用停止复制算法，Serial收集器的多线程版，用多个线程进行GC，其它工作线程暂停，关注缩短垃圾收集时间。使用-XX:+UseParNewGC开关来控制使用ParNew+Serial Old收集器组合收集内存；使用-XX:ParallelGCThreads来设置执行内存回收的线程数。
Parallel Scavenge 收集器：新生代收集器，使用停止复制算法，关注CPU吞吐量，即运行用户代码的时间/总时间，比如：JVM运行100分钟，其中运行用户代码99分钟，垃圾收集1分钟，则吞吐量是99%，这种收集器能最高效率的利用CPU，适合运行后台运算（关注缩短垃圾收集时间的收集器，如CMS，等待时间很少，所以适合用户交互，提高用户体验）。使用-XX:+UseParallelGC开关控制使用 Parallel Scavenge+Serial Old收集器组合回收垃圾（这也是在Server模式下的默认值）；使用-XX:GCTimeRatio来设置用户执行时间占总时间的比例，默认99，即 1%的时间用来进行垃圾回收。使用-XX:MaxGCPauseMillis设置GC的最大停顿时间（这个参数只对Parallel Scavenge有效）
Serial Old收集器：老年代收集器，单线程收集器，使用标记整理（整理的方法是Sweep（清理）和Compact（压缩），清理是将废弃的对象干掉，只留幸存的对象，压缩是将移动对象，将空间填满保证内存分为2块，一块全是对象，一块空闲）算法，使用单线程进行GC，其它工作线程暂停（注意，在老年代中进行标记整理算法清理，也需要暂停其它线程），在JDK1.5之前，Serial Old收集器与ParallelScavenge搭配使用。
Parallel Old收集器：老年代收集器，多线程，多线程机制与Parallel Scavenge差不错，使用标记整理（与Serial Old不同，这里的整理是Summary（汇总）和Compact（压缩），汇总的意思就是将幸存的对象复制到预先准备好的区域，而不是像Sweep（清理）那样清理废弃的对象）算法，在Parallel Old执行时，仍然需要暂停其它线程。Parallel Old在多核计算中很有用。Parallel Old出现后（JDK 1.6），与Parallel Scavenge配合有很好的效果，充分体现Parallel Scavenge收集器吞吐量优先的效果。使用-XX:+UseParallelOldGC开关控制使用Parallel Scavenge +Parallel Old组合收集器进行收集。
CMS（Concurrent Mark Sweep）收集器：老年代收集器，致力于获取最短回收停顿时间，使用标记清除算法，多线程，优点是并发收集（用户线程可以和GC线程同时工作），停顿小。使用-XX:+UseConcMarkSweepGC进行ParNew+CMS+Serial Old进行内存回收，优先使用ParNew+CMS（原因见后面），当用户线程内存不足时，采用备用方案Serial Old收集。

CMS收集的方法是：先3次标记，再1次清除，3次标记中前两次是初始标记和重新标记（此时仍然需要停止（stop the world）），初始标记（Initial Remark）是标记GC Roots能关联到的对象（即有引用的对象），停顿时间很短；并发标记（Concurrent remark）是执行GC Roots查找引用的过程，不需要用户线程停顿；重新标记（Remark）是在初始标记和并发标记期间，有标记变动的那部分仍需要标记，所以加上这一部分标记的过程，停顿时间比并发标记小得多，但比初始标记稍长。在完成标记之后，就开始并发清除，不需要用户线程停顿。
所以在CMS清理过程中，只有初始标记和重新标记需要短暂停顿，并发标记和并发清除都不需要暂停用户线程，因此效率很高，很适合高交互的场合。
CMS也有缺点，它需要消耗额外的CPU和内存资源，在CPU和内存资源紧张，CPU较少时，会加重系统负担（CMS默认启动线程数为(CPU数量+3)/4）。
另外，在并发收集过程中，用户线程仍然在运行，仍然产生内存垃圾，所以可能产生“浮动垃圾”，本次无法清理，只能下一次Full GC才清理，因此在GC期间，需要预留足够的内存给用户线程使用。所以使用CMS的收集器并不是老年代满了才触发Full GC，而是在使用了一大半（默认68%，即2/3，使用-XX:CMSInitiatingOccupancyFraction来设置）的时候就要进行Full GC，如果用户线程消耗内存不是特别大，可以适当调高-XX:CMSInitiatingOccupancyFraction以降低GC次数，提高性能，如果预留的用户线程内存不够，则会触发Concurrent Mode Failure，此时，将触发备用方案：使用Serial Old 收集器进行收集，但这样停顿时间就长了，因此-XX:CMSInitiatingOccupancyFraction不宜设的过大。
还有，CMS采用的是标记清除算法，会导致内存碎片的产生，可以使用-XX：+UseCMSCompactAtFullCollection来设置是否在Full GC之后进行碎片整理，用-XX：CMSFullGCsBeforeCompaction来设置在执行多少次不压缩的Full GC之后，来一次带压缩的Full GC。

G1收集器：在JDK1.7中正式发布，与现状的新生代、老年代概念有很大不同，目前使用较少，不做介绍。

四、内存分配以及回收策略

Java虚拟机结构

技术分享

Java内存分配

技术分享

Java堆中各代分布

技术分享

(1) Young（年轻代）：主要是用来存放新生的对象。对象被创建时，内存的分配首先发生在年轻代（大对象可以直接被创建在年老代），大部分的对象在创建后很快就不再使用，因此很快变得不可达，于是被年轻代的GC机制清理掉（IBM的研究表明，98%的对象都是很快消亡的），这个GC机制被称为Minor GC或叫Young GC。注意，Minor GC并不代表年轻代内存不足，它事实上只表示在Eden区上的GC。

年轻代上的内存分配是这样的，年轻代可以分为3个区域：Eden区（用来表示内存首次分配的区域）和两个存活区（Survivor 0 、Survivor 1）。
绝大多数刚创建的对象会被分配在Eden区，其中的大多数对象很快就会消亡。Eden区是连续的内存空间，因此在其上分配内存极快；
当Eden区满的时候，执行Minor GC，将消亡的对象清理掉，并将剩余的对象复制到一个存活区Survivor0（此时，Survivor1 是空白的，两个Survivor总有一个是空白的）；
此后，每次Eden区满了，就执行一次Minor GC，并将剩余的对象都添加到Survivor0；
当Survivor0 也满的时候，将其中仍然活着的对象直接复制到Survivor1，以后Eden区执行Minor GC后，就将剩余的对象添加Survivor1（此时，Survivor0是空白的）;
当两个存活区切换了几次（HotSpot虚拟机默认15次，用-XX:MaxTenuringThreshold控制，大于该值进入老年代）之后，仍然存活的对象（其实只有一小部分，比如，我们自己定义的对象），将被复制到老年代。
　　
(2)Old（年老代）：主要存放应用程序中生命周期长的内存对象。
对象如果在年轻代存活了足够长的时间而没有被清理掉（即在几次 Young GC 后存活了下来），则会被复制到年老代，年老代的空间一般比年轻代大，能存放更多的对象，在年老代上发生的GC次数也比年轻代少。当年老代内存不足时，将执行Major GC，也叫 Full GC。　　
可以使用-XX:+UseAdaptiveSizePolicy开关来控制是否采用动态控制策略，如果动态控制，则动态调整Java堆中各个区域的大小以及进入老年代的年龄。
　　
如果对象比较大（比如长字符串或大数组），Young空间不足，则大对象会直接分配到老年代上（大对象可能触发提前GC，应少用，更应避免使用短命的大对象）。用-XX:PretenureSizeThreshold 来控制直接升入老年代的对象大小，大于这个值的对象会直接分配在老年代上。
可能存在年老代对象引用新生代对象的情况，如果需要执行Young GC，则可能需要查询整个老年代以确定是否可以清理回收，这显然是低效的。解决的方法是，年老代中维护一个512 byte的块——”card table“，所有老年代对象引用新生代对象的记录都记录在这里。Young GC时，只要查这里即可，不用再去查全部老年代，因此性能大大提高。

(3)Permanent（永久代）：是指内存的永久保存区域,也就是方法区，主要存放Class和Meta的信息,Class在被 Load的时候被放入PermGen space区域. 它和和存放Instance的Heap区域不同,GC(Garbage Collection)不会在主程序运行期对PermGen space进行清理，所以如果你的APP会LOAD很多CLASS的话,就很可能出现PermGen space错误。

永久代的回收有两种：常量池中的常量，无用的类信息，常量的回收很简单，没有引用了就可以被回收。对于无用的类进行回收，必须保证3点：

类的所有实例都已经被回收；
加载类的ClassLoader已经被回收；
类对象的Class对象没有被引用（即没有通过反射引用该类的地方）。

永久代的回收并不是必须的，可以通过参数来设置是否对类进行回收。HotSpot提供-Xnoclassgc进行控制。
使用-verbose，-XX:+TraceClassLoading、-XX:+TraceClassUnLoading可以查看类加载和卸载信息-verbose、-XX:+TraceClassLoading可以在Product版HotSpot中使用；-XX:+TraceClassUnLoading需要fastdebug版HotSpot支持。

五、GC参数

堆设置

-Xms :初始堆大小
-Xmx :最大堆大小
-XX:NewSize=n :设置年轻代大小
-XX:NewRatio=n: 设置年轻代和年老代的比值。如:为3，表示年轻代与年老代比值为1：3，年轻代占整个年轻代年老代和的1/4
-XX:SurvivorRatio=n :年轻代中Eden区与两个Survivor区的比值。注意Survivor区有两个。如：3，表示Eden：Survivor=3：2，一个Survivor区占整个年轻代的1/5
-XX:MaxPermSize=n :设置持久代大小

收集器设置

-XX:+UseSerialGC :设置串行收集器
-XX:+UseParallelGC :设置并行收集器
-XX:+UseParalledlOldGC :设置并行年老代收集器
-XX:+UseConcMarkSweepGC :设置并发收集器

垃圾回收统计信息

-XX:+PrintHeapAtGC GC的heap详情
-XX:+PrintGCDetails GC详情
-XX:+PrintGCTimeStamps 打印GC时间信息
-XX:+PrintTenuringDistribution 打印年龄信息等
-XX:+HandlePromotionFailure 老年代分配担保（true or false）

并行收集器设置

-XX:ParallelGCThreads=n :设置并行收集器收集时使用的CPU数。并行收集线程数。
-XX:MaxGCPauseMillis=n :设置并行收集最大暂停时间
-XX:GCTimeRatio=n :设置垃圾回收时间占程序运行时间的百分比。公式为1/(1+n)

并发收集器设置

-XX:+CMSIncrementalMode :设置为增量模式。适用于单CPU情况。
-XX:ParallelGCThreads=n :设置并发收集器年轻代收集方式为并行收集时，使用的CPU数。并行收集线程数。

六、感谢

如果大家想了解更多，欢迎继续阅读接下来的章节，推荐大家熟读《深入理解Java虚拟机》这本书。同时感谢一下作者的分享:

Java 内存区域和GC机制
 java 虚拟机–新生代与老年代GC

以上是关于深入探索Java工作原理：JVM，内存回收及其他的主要内容，如果未能解决你的问题，请参考以下文章

jvm，深入理解java虚拟机，内存分配与回收策略