Java基础——Java内存模型和垃圾回收机制

前言

Java内存模型结构分为

  • 线程共享区:堆、方法区
  • 线程私有区:虚拟机栈、本地方法栈、程序计数器

这里写图片描述

堆用于存放对象实例和数组,由于堆是用来存放对象实例,因此堆也是垃圾收集器管理的主要区域,故也称为 GC堆。由于现在的垃圾收集器基本都采用分代收集算法,所以堆的内部结构只包含新生代和老年代

这里写图片描述

  • 新生代:用于存放刚创建的对象以及年轻的对象,如果对象一直没有被回收,生存得足够长,对象就会被移入老年代
  • 新生代:又可进一步细分为 eden、survivorSpace0 和 survivorSpace1,刚创建的对象都放入 eden,经过GC幸存下来的对象,就会被分配到survivorSpace0,依次类推直到被分配到老年代为止。在survivorSpace0 和 survivorSpace1 都至少经过一次GC并幸存,如果幸存对象经过一定时间仍存在,则进入老年代

一、TLAB

TLAB 的存在是为了提升了对象内存分配的效率,JVM在内存新生代Eden Space中开辟了一小块线程私有的区域,称作TLAB(Thread Local Allocation Buffer,线程私有分配缓冲区),默认设定为占用Eden Space的1%

  • 在Java程序中很多对象都是小对象且用过即丢,它们不存在线程共享也适合被快速GC,所以对于小对象通常JVM会优先分配在TLAB上,并且TLAB上的分配由于是线程私有所以没有锁开销,在对象分配的时候不用锁住整个堆,而只需要在自己的缓冲区分配即可,因此在实践中分配多个小对象的效率通常比分配一个大对象的效率要高。如果分配的内存过大,则直接使用堆空间分配

方法区

方法区用于存储已被虚拟机加载的类信息、常量、静态变量、即时编译器编译后的代码等数据

  • 方法区通常和永久区(Perm)关联在一起,但永久代与方法区不是一个概念,只是有的虚拟机用永久代来实现方法区,这样就可以用永久代GC来管理方法区,省去专门内存管理的工作
  • 根据Java虚拟机规范的规定,当方法区无法满足内存分配的需求时,将抛出 OutOfMemoryError 异常

一、运行时常量池

运行时常量池(Runtime Constant Pool)是方法区的一部分,用于存放编译期生成的各种字面量和符号引用

  • 字面量:字面量比较接近Java语言层次的常量概念,如文本字符串、被声明为final的常量值等
  • 符号引用:符号引用属于编译原理方面的概念,包括以下三类常量:类和接口的全限定名、字段的名称和描述符、方法的名称和描述符
  • 因为运行时常量池(Runtime Constant Pool)是方法区的一部分,那么当常量池无法再申请到内存时也会抛出 OutOfMemoryError 异常

二、方法区回收

方法区的内存回收目标主要是

  • 常量池的回收
  • 无用类的回收

1、常量池的回收

  • 系统中任何对象没有引用常量池中的字面量、符号引用,当内存回收时,就会被清除

2、无用类的回收

虚拟机可以对满足下述3个条件的无用类进行回收

  • 该类所有的实例都已经被回收,也就是堆中不存在该类的任何实例
  • 加载该类的ClassLoader已经被回收
  • 该类对应的java.lang.Class对象没有在任何地方被引用,无法在任何地方通过反射访问该类的方法

虚拟机栈

虚拟机栈描述的是Java方法执行的内存模型,是线程私有的

  • 每个方法在执行的时候都会创建一个栈帧,用于存储局部变量表、操作数栈、动态链接、方法出口等信息
  • 每个方法从调用直至完成的过程,对应一个栈帧在虚拟机栈中入栈到出栈的过程
  • 局部变量表主要存放一些基本类型的变量和对象句柄,它们可以是方法参数,也可以是方法的局部变量

下图为栈帧结构图:

这里写图片描述

虚拟机栈有两种异常情况:StackOverflowError和OutOfMemoryError

  • 一个线程拥有一个自己的栈,这个栈的大小决定了方法调用的可达深度(递归多少层次,或嵌套调用多少层其他方法,-Xss 参数可以设置虚拟机栈大小),若线程请求的栈深度大于虚拟机允许的深度,则抛出 StackOverFlowError 异常
  • 栈的大小可以是固定的,也可以是动态扩展的,若虚拟机栈可以动态扩展(大多数虚拟机都可以),但扩展时无法申请到足够的内存(比如没有足够的内存为一个新创建的线程分配栈空间时),则抛出 OutofMemoryError 异常

本地方法栈

本地方法栈与Java虚拟机栈非常相似,也是线程私有的,其主要异同点如下

  • 虚拟机栈为虚拟机执行 Java 方法服务
  • 本地方法栈为虚拟机执行 Native 方法服务
  • 与虚拟机栈一样,本地方法栈区域也会抛出 StackOverflowError 和 OutOfMemoryError 异常

程序计数器

为什么需要程序计数器?

在多线程情况下,当线程数超过CPU数量或CPU内核数量时,线程之间就要根据时间片轮询抢夺CPU时间资源。也就是说,在任何一个确定的时刻,一个处理器都只会执行一条线程中的指令。因此,为了线程切换后能够恢复到正确的执行位置,每条线程都需要一个独立的程序计数器去记录其正在执行的字节码指令地址

程序计数器是线程私有的一块较小的内存空间,可以看做是当前线程所执行的字节码的行号指示器

  • 如果线程正在执行的是一个 Java 方法,计数器记录的是正在执行的字节码指令的地址
  • 如果正在执行的是 Native 方法,则计数器的值为空
  • 程序计数器是唯一一个没有规定任何 OutOfMemoryError 的区域

垃圾回收机制

一、确定一个对象是否可以被回收

1、引用计数算法:引用计数算法是垃圾收集器中的早期策略,是通过判断对象的引用数量来决定对象是否可以被回收

  • 堆中的每个对象实例都有一个引用计数
  • 当一个对象被创建时,且将该对象实例分配给一个引用变量,该对象实例的引用计数设置为 1
  • 当任何其它变量被赋值为这个对象的引用时,对象实例的引用计数加 1
  • 当一个对象实例的某个引用超过了生命周期或者被设置为一个新值时,对象实例的引用计数减 1
  • 当一个对象实例被垃圾收集时,它引用的任何对象实例的引用计数器均减 1
  • 任何引用计数为0的对象实例可以被当作垃圾收集

这里写图片描述

2、 可达性分析算法:可达性分析算法是通过判断对象的引用链是否可达来决定对象是否可以被回收

可达性分析算法是从离散数学中的图论引入的,程序把所有的引用关系看作一张图,通过一系列的名为 “GC Roots” 的对象作为起始点,从这些节点开始向下搜索,搜索所走过的路径称为引用链(Reference Chain)。当一个对象到 GC Roots 没有任何引用链相连(用图论的话来说就是从 GC Roots 到这个对象不可达)时,则证明此对象是不可用的,如下图所示。在Java中,可作为 GC Root 的对象包括以下几种:

  • 虚拟机栈(栈帧中的局部变量表)中引用的对象
  • 方法区中类静态属性引用的对象
  • 方法区中常量引用的对象
  • 本地方法栈中Native方法引用的对象

这里写图片描述

二、对象的创建

1、检查虚拟机是否加载了所要new的类,若没加载,则首先执行相应的类加载过程。虚拟机遇到new指令时,首先去检查这个指令的参数是否能在常量池中定位到一个类的符号引用,并且检查这个引用代表的类是否已经被加载、解析和初始化过
2、在类加载检查通过后,对象所需内存的大小在类加载完成后便可完全确定,虚拟机就会为新生对象分配内存。一般来说,根据Java堆中内存是否绝对规整,内存的分配有两种方式:

  • 指针碰撞:如果Java堆中内存绝对规整,所有用过的内存放在一边,空闲内存放在另一边,中间一个指针作为分界点的指示器,那分配内存就仅仅是把那个指针向空闲空间那边挪动一段与对象大小相同的距离
  • 空闲列表:如果Java堆中内存并不规整,那么虚拟机就需要维护一个列表,记录哪些内存块是可用的,以便在分配的时候从列表中找到一块足够大的空间划分给对象实例,并更新列表上的记录

除了如何划分可用空间之外,还需要考虑修改指针 (该指针用于划分内存使用空间和空闲空间)时的线程安全问题,因为存在可能出现正在给对象A分配内存,指针还未修改,对象B又同时使用原来的指针分配内存的情况,解决这个问题有两种方案:

  • 对分配内存空间的动作进行同步处理:采用CAS+失败重试的方式保证更新操作的原子性
  • 把内存分配的动作按照线程划分的不同的空间中:每个线程在Java堆中预先分配一小块内存,称为TLAB,哪个线程要分配内存,就在自己的TLAB上分配,如果TLAB用完并分配新的TLAB时,再加同步锁定

3、内存分配完成后,虚拟机需要将分配到的内存空间都初始化为零值。如果使用TLAB,也可以提前到TLAB分配时进行。这一步操作保证了对象的实例字段在Java代码中可以不赋初值就直接使用,程序能访问到这些字段的数据类型所对应的零值
4、在上面的工作完成之后,从虚拟机的角度来看,一个新的对象已经产生了,但从Java程序的视角来看,对象的创建才刚刚开始,此时会执行< init>方法把对象按照程序员的意愿进行初始化,从而产生一个真正可用的对象

三、对象的访问

对象的访问通过栈上的reference数据来操作堆上的具体对象。在虚拟机规范中,reference类型中只规定了一个指向对象的引用,并没有定义这个引用使用什么方式去定位、访问堆中的对象的具体位置。目前的主流的访问方式有使用句柄访问和直接指针访问:

  • 句柄访问:Java堆中会划分出一块内存作为句柄池,栈中的reference指向对象的句柄地址,句柄中包含了对象实例数据和类型数据各自的具体地址信息

这里写图片描述

  • 直接指针访问:reference中存储的就是对象地址

这里写图片描述

垃圾收集算法

一、标记清除算法

标记-清除算法分为标记和清除两个阶段。该算法首先从根集合进行扫描,对存活的对象标记,标记完毕后,再扫描整个空间中未被标记的对象并进行回收,如下图所示

这里写图片描述

标记-清除算法的主要不足有两个

  • 效率问题:标记和清除两个过程的效率都不高
  • 空间问题:标记-清除算法不需要进行对象的移动,并且仅对不存活的对象进行处理,因此标记清除之后会产生大量不连续的内存碎片,空间碎片太多可能会导致以后在程序运行过程中需要分配较大对象时,无法找到足够的连续内存而不得不提前触发另一次垃圾收集动作

二、复制算法

现在商用的虚拟机都采用复制算法来回收新生代,复制算法将可用内存按容量划分为大小相等的两块,每次只使用其中的一块。当这一块的内存用完了,就将还存活着的对象复制到另外一块上面,然后再把已使用过的内存空间一次清理掉。这种算法适用于对象存活率低的场景,比如新生代。这样使得每次都是对整个半区进行内存回收,内存分配时也就不用考虑内存碎片等复杂情况,只要移动堆顶指针,按顺序分配内存即可,实现简单,运行高效。该算法示意图如下所示

这里写图片描述

三、标记整理算法

复制收集算法在对象存活率较高时就要进行较多的复制操作,效率将会变低。更关键的是,如果不想浪费50%的空间,就需要有额外的空间进行分配担保,以应对被使用的内存中所有对象都100%存活的极端情况,所以在老年代一般不能直接选用这种算法。标记整理算法的标记过程类似标记清除算法,但后续步骤不是直接对可回收对象进行清理,而是让所有存活的对象都向一端移动,然后直接清理掉端边界以外的内存,类似于磁盘整理的过程,该垃圾回收算法适用于对象存活率高的场景(老年代),其作用原理如下图所示

这里写图片描述

四、分代收集算法

对于一个大型的系统,当创建的对象和方法变量比较多时,堆内存中的对象也会比较多,如果逐一分析对象是否该回收,那么势必造成效率低下。分代收集算法是基于这样一个事实:不同的对象的生命周期(存活情况)是不一样的,而不同生命周期的对象位于堆中不同的区域,因此对堆内存不同区域采用不同的策略进行回收可以提高 JVM 的执行效率。当代商用虚拟机使用的都是分代收集算法:新生代对象存活率低,就采用复制算法;老年代存活率高,就用标记清除算法或者标记整理算法。Java堆内存一般可以分为新生代、老年代和永久代三个模块,如下图所示

这里写图片描述

1、新生代(Young Generation)

新生代的目标就是尽可能快速的收集掉那些生命周期短的对象,一般情况下,所有新生成的对象首先都是放在新生代的。新生代内存按照 8:1:1 的比例分为一个eden区和两个survivor(survivor0,survivor1)区,大部分对象在Eden区中生成。在进行垃圾回收时,先将eden区存活对象复制到survivor0区,然后清空eden区,当这个survivor0区也满了时,则将eden区和survivor0区存活对象复制到survivor1区,然后清空eden和这个survivor0区,此时survivor0区是空的,然后交换survivor0区和survivor1区的角色(即下次垃圾回收时会扫描Eden区和survivor1区),即保持survivor0区为空,如此往复。特别地,当survivor1区也不足以存放eden区和survivor0区的存活对象时,就将存活对象直接存放到老年代。如果老年代也满了,就会触发一次FullGC,也就是新生代、老年代都进行回收。注意,新生代发生的GC也叫做MinorGC,MinorGC发生频率比较高,不一定等 Eden区满了才触发

2、老年代(Old Generation)

老年代存放的都是一些生命周期较长的对象,就像上面所叙述的那样,在新生代中经历了N次垃圾回收后仍然存活的对象就会被放到老年代中。此外,老年代的内存也比新生代大很多(大概比例是1:2),当老年代满时会触发Major GC(Full GC),老年代对象存活时间比较长,因此FullGC发生的频率比较低

3、永久代(Permanent Generation)

永久代主要用于存放静态文件,如Java类、方法等。永久代对垃圾回收没有显著影响,但是有些应用可能动态生成或者调用一些class,例如使用反射、动态代理、CGLib等bytecode框架时,在这种时候需要设置一个比较大的永久代空间来存放这些运行过程中新增的类

垃圾回收有两种类型,Minor GC 和 Full GC

  • Minor GC:对新生代进行回收,不会影响到年老代。因为新生代的 Java 对象大多死亡频繁,所以 Minor GC 非常频繁,一般在这里使用速度快、效率高的算法,使垃圾回收能尽快完成
  • Full GC:也叫 Major GC,对整个堆进行回收,包括新生代和老年代。由于Full GC需要对整个堆进行回收,所以比Minor GC要慢,因此应该尽可能减少Full GC的次数,导致Full GC的原因包括:老年代被写满、永久代(Perm)被写满和System.gc()被显式调用等

垃圾收集器

如果说垃圾收集算法是内存回收的方法论,那么垃圾收集器就是内存回收的具体实现。下图展示了7种作用于不同分代的收集器,其中用于回收新生代的收集器包括Serial、PraNew、Parallel Scavenge,回收老年代的收集器包括Serial Old、Parallel Old、CMS,还有用于回收整个Java堆的G1收集器。不同收集器之间的连线表示它们可以搭配使用

这里写图片描述

  • Serial收集器(复制算法):新生代单线程收集器,标记和清理都是单线程,优点是简单高效
  • Serial Old收集器 (标记-整理算法):老年代单线程收集器,Serial收集器的老年代版本
  • ParNew收集器 (复制算法):新生代收并行集器,实际上是Serial收集器的多线程版本,在多核CPU环境下有着比Serial更好的表现
  • Parallel Scavenge收集器 (复制算法):新生代并行收集器,追求高吞吐量,高效利用 CPU。吞吐量 = 用户线程时间/(用户线程时间+GC线程时间),高吞吐量可以高效率的利用CPU时间,尽快完成程序的运算任务,适合后台应用等对交互相应要求不高的场景
  • Parallel Old收集器 (标记-整理算法):老年代并行收集器,吞吐量优先,Parallel Scavenge收集器的老年代版本
  • CMS(Concurrent Mark Sweep)收集器(标记-清除算法):老年代并行收集器,以获取最短回收停顿时间为目标的收集器,具有高并发、低停顿的特点,追求最短GC回收停顿时间
  • G1(Garbage First)收集器 (标记-整理算法):Java堆并行收集器,G1收集器是JDK1.7提供的一个新收集器,G1收集器基于“标记-整理”算法实现,也就是说不会产生内存碎片。此外,G1收集器不同于之前的收集器的一个重要特点是:G1回收的范围是整个Java堆(包括新生代,老年代),而前六种收集器回收的范围仅限于新生代或老年代
坚持原创技术分享,您的支持将鼓励我继续创作!