JVM之内存管理

Posted 23号杂货铺

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了JVM之内存管理相关的知识,希望对你有一定的参考价值。

现如今的企业级Java应用开发已经日渐成熟,而越来越多的系统应用变得更加庞大而难以发现问题,JVM就是一个必须去重视和关注的难点,今天我们就开始对此进行认识、了解并深入其中。


本文介绍关于JVM的概念、组成和内存模型的相关内容。


首先,在理解JVM之前,我们先了解一下Java当中,人们常常提起的“跨平台”。

那,什么又是跨平台,Java又是如何实现跨平台的呢?

跨平台,指的就是Java编写的程序,能够在多种机器平台环境里运行,实现了一次编译好的程序,在不同的机器上运行。Java实现的跨平台机制,其实指的是Java程序的跨平台。通过JVM(C/C++所开发)的,将Java程序编译生成 .class 文件,称为字节码文件。Java 虚拟机(JVM)就是负责将字节码文件翻译成特定平台下的机器码然后运行,也就是说,只要在不同平台上安装对应的 JVM,就可以运行字节码文件,运行我们编写的 Java 程序。


而这,就是传说中的“一次编译,到处运行”。现在,就来了解一下,什么是JVM?

1、什么是JVM?


简单来说,JVM (即 Java Virtual Machine,Java 虚拟机)就是 编译后的 Java 程序(.class文件)和硬件系统之间的接口或者说联系。它通过模拟一个计算机来达到一个计算机所具有的的计算功能。JVM 能够跨计算机体系结构来执行 Java 字节码,主要是由于 JVM 屏蔽了与各个计算机平台相关的软件或者硬件之间的差异,使得与平台相关的耦合统一由 JVM 提供者来实现。


而它又是怎么做到跨平台,并且能做到“与机器无关,与平台无关”呢?

JVM之内存管理(一)

原理:编译后的 Java 程序指令并不直接在硬件系统的 CPU 上执行,而是由 JVM 执行。


为什么与平台无关:JVM屏蔽了与具体平台相关的信息,使Java语言编译程序只需要生成在JVM上运行的目标字节码(.class),就可以在多种平台上不加修改地运行。Java 虚拟机在执行字节码时,把字节码解释成具体平台上的机器指令执行。因此实现java平台无关性。


2、JVM所管理的内存被分成多少区域?每个区域有什么作用?如何来管理这些区域?


2.1 运行时数据区


JVM在执行Java程序时会把其所管理的内存划分成多个不同的数据区域,每个区域的创建时间、销毁时间以及用途都各不相同。比如有的内存区域是所有线程共享的,而有的内存区域是线程隔离的。线程隔离的区域就会随着线程的启动和结束而创建和销毁。JVM所管理的内存将会包含以下几个运行时数据区域,如下图的上半部分所示。

JVM之内存管理(一)


2.2 Method Area (方法区)


方法区是所有线程共享的内存区域,它用于存储已被虚拟机加载的类信息、常量、静态变量、JIT编译后的代码等数据。在Java虚拟机规范中,方法区属于堆的一个逻辑部分,但很多情况下,都把方法区与堆区分开来说。大家平时开发中通过反射获取到的类名、方法名、字段名称、访问修饰符等信息都是从这块区域获取的。

对于HotSpot虚拟机,方法区对应为永久代(Permanent Generation),但本质上,两者并不等价,仅仅是因为HotSpot虚拟机的设计团队是用永久代来实现方法区而已,对于其他的虚拟机(JRockit、J9)来说,是不存在永久代这一概念的。


2.3 Runtime Constant Pool (运行时常量池)


回过头来看下图1的下半部分,方法区主要包含:


运行时常量池(Runtime Constant Pool)

类信息(Class & Field & Method data)

编译器编译后的代码(Code) 

等等...


后面两项都比较好理解,但运行时常量池有何作用,其意义何在?抛开运行时3个字,首先了解下何为常量池。


Java源文件经编译后得到存储字节码的Class文件,Class文件是一组以8位字节为基础单位的二进制流,各个数据项目严格按照顺序紧凑地排列在Class文件中。也就是说,哪个字节代表什么含义,长度多少,先后顺序如何都是被严格限定的,是不允许改变的。比如:开头的4个字节存放在魔数,用于确定这个文件是否能够被JVM接受,接下来的4个字节用于存放版本号,再接着存放的就是常量池,常量池的长度是不固定的,所以,在常量池的入口存放着常量池容量的计数值。

常量池主要用于存放两大类常量:字面量和符号引用量,字面量相当于Java语言层面常量的概念,比如:字符串常量、声明为final的常量等等。符号引用是用一组符号来描述所引用的目标,符号可以是任何形式的字面量,只要使用时能无歧义的定位到目标即可。理解不了?举个例子,有如下代码:

JVM之内存管理(一)

使用javap工具输出M.class文件字节码的部分内容如下:

JVM之内存管理(一)

这里只保留了常量池的部分,从中可以看到M.class文件的常量池总共24项,其中包含类的完整名称、字段名称和描述符、方法名称和描述符等等。当然其中还包含I、V、、LineNumberTable、LocalVariableTable等代码中没有出现过的常量,其实这些常量是用来描述如下信息:方法的返回值是什么?有多少个参数?每个参数的类型是什么…… 这个示例非常直观的向大家展示了常量池中存储的内容。

接下来就比较好理解运行时常量池了。我们都知道:Class文件中存储的各种信息,最终都需要加载到虚拟机中之后才能运行和使用。运行时常量池就可以理解为常量池被加载到内存之后的版本,但并非只有Class文件中常量池的内容才能进入方法区的运行时常量池,运行期间也可能产生新的常量,它们也可以放入运行时常量池中。

2.4 Heap Space (Java堆)


Java堆是JVM所管理的最大一块内存,所有线程共享这块内存区域,几乎所有的对象实例都在这里分配内存,因此,它也是垃圾收集器管理的主要区域。从内存回收的角度来看,由于现在的收集器基本都采用分代收集算法,所以Java堆又可以细分成:新生代和老年代,新生代里面有分为:Eden空间、From Survivor空间、To Survivor空间,如图1所示。有一点需要注意:Java堆空间只是在逻辑上是连续的,在物理上并不一定是连续的内存空间。

默认情况下,新生代中Eden空间与Survivor空间的比例是8:1,注意不要被示意图误导,可以使用参数-XX:SurvivorRatio对其进行配置。大多数情况下,新生对象在新生代Eden区中分配,当Eden区没有足够的空间进行分配时,则触发一次Minor GC,将对象Copy到Survivor区,如果Survivor区没有足够的空间来容纳,则会通过分配担保机制提前转移到老年代去。

何为分配担保机制?在发送Minor GC前,JVM会检查老年代最大可用的连续空间是否大于新生代所有对象的总空间,如果是,那么可以确保Minor GC是安全的,如果不是,那么会继续检查老年代最大可用的连续空间是否大于历次晋升到老年代对象的平均大小,如果小于,直接进行Full GC,如果大于,将尝试着进行一次Minor GC,Minor GC失败才会触发Full GC。注:不同版本的JDK,流程略有不同

Survivor区作为Eden区和老年代的缓冲区域,常规情况下,在Survivor区的对象经过若干次垃圾回收仍然存活的话,才会被转移到老年代。JVM通过这种方式,将大部分命短的对象放在一起,将少数命长的对象放在一起,分别采取不同的回收策略。

2.6 VM Stack (虚拟机栈) & Native Method Stack (本地方法栈)


虚拟机栈与本地方法栈都属于线程私有,它们的生命周期与线程相同。虚拟机栈用于描述Java方法执行的内存模型:每个方法在执行的同时都会创建一个栈帧(Stack Frame)用于存储局部变量表、操作数栈、动态连接、方法出口等信息。

其中局部变量表用于存储方法参数和方法内部定义的局部变量,它只在当前函数调用中有效,当函数调用结束,随着函数栈帧的销毁,局部变量表也随之消失;操作数栈是一个后入先出栈,用于存放方法运行过程中的各种中间变量和字节码指令 (在学习栈的时候,有一个经典的例子就是用栈来实现4则运算,其实方法执行过程中操作数栈的变化过程,与4则预算中栈中数字与符号的变化类似);动态连接其实是指一个过程,即在程序运行过程中将符号引用解析为直接引用的过程。

如何理解动态连接?我们知道Class文件的常量池中存有大量的符号引用,在加载过程中会被原样的拷贝到内存里先放着,到真正使用的时候就会被解析为直接引用 (直接引用包含:直接指向目标的指针、相对偏移量、能间接定位到目标的句柄等)。有些符号引用会在类的加载阶段或者第一次使用的时候转化为直接引用,这种转化称为静态解析,而有的将在运行期间转化为直接引用,这部分称为动态连接。

全部静态解析不是更好,为何会存在动态连接?Java多态的实现会导致一个引用变量到底指向哪个类的实例对象,或者说该引用变量发出的方法调用到底是调用哪个类中实现方法都需要在运行期间才能确定。因此有些符号引用在类加载阶段是不知道它对应的直接引用的

每一个方法从调用直至执行完成的过程,就对应着一个栈帧在虚拟机栈中入栈到出栈的过程,下面通过一个非常简单的图例来描述这一过程,有如下的代码片段:

JVM之内存管理(一)

其调用过程中虚拟机栈的大致示意图如下图所示:

JVM之内存管理(一)


调用sayHello方法时,在栈中分配有一块内存用来保存该方法的局部变量等信息,①当函数执行到greet()方法时,栈中同样有一块内存用来保存greet方法的相关信息,当然第二个内存块位于第一个内存块上面,②接着从greet方法返回,③现在栈顶的内存块就是sayHello方法的,这表示你已经返回到sayHello方法,④接着继续调用bye方法,在栈顶添加了bye方法的内存块,⑤接着再从bye方法返回到sayHello方法中,由于没有别的事了,现在就从sayHello方法返回。

本地方法栈与虚拟机栈所发挥的作用是非常相似的,它们之间的区别不过是虚拟机栈为虚拟机执行Java方法 (也就是字节码) 服务,而本地方法栈则为虚拟机使用到的Native方法服务。

2.7 Program Counter Register (程序计数器)


Java虚拟机可以支持多条线程同时执行,多线程是通过线程轮流切换来获得CPU执行时间的,因此,在任一具体时刻,一个CPU的内核只会执行一条线程中的指令,因此,为了能够使得每个线程都在线程切换后能够恢复在切换之前的程序执行位置,每个线程都需要有自己独立的程序计数器,并且不能互相被干扰,否则就会影响到程序的正常执行次序。因此,JVM中的程序计数器是每个线程私有的。

2.8 堆外内存


堆外内存又被称为直接内存(Direct Memory),它并不是虚拟机运行时数据区的一部分,Java虚拟机规范中也没有定义这部分内存区域,使用时由Java程序直接向系统申请,访问直接内存的速度要优于Java堆,因此,读写频繁的场景下使用直接内存,性能会有提升,比如Java NIO库,就是使用Native函数直接分配堆外内存,然后通过一个存储在Java堆中的DirectBytedBuffer对象作为这块内存的引用进行操作。


由于直接内存在Java堆外,其大小不会直接受限于Xmx指定的堆大小,但它肯定会受到本机总内存大小以及处理器寻址空间的限制,因此我们在配置JVM参数时,特别是有大量网络通讯场景下,要特别注意,防止各个内存区域的总内存大于物理内存限制 (包括物理的和OS的限制)。


文章部分内容整理至:方志朋的博客


JVM之内存管理(一)

非营利性质

技术资源共享交流平台





以上是关于JVM之内存管理的主要内容,如果未能解决你的问题,请参考以下文章

JVM之内存管理

JAVA高级篇(JVM内存模型内存管理之第二篇)

内存管理

内存管理

JVM内存管理和JVM垃圾回收机制

Spark原理 内存管理