【JVM 札记】JVM 内存划分

2023-09-21 16:38:29 浏览数 (1)

Java 之所以能够跨平台,完全仰仗于 JVM,JVM 作为操作系统中的一个进程而存在。它主要用来将 .class 文件翻译成二进制的机器码并在 CPU 上进行执行。

是否有必要学习 JVM

为什么要了解 JVM 的内存划分或者内存管理呢?其实本身我觉得是没有太多必要的,因为作为一个普通的程序员而言,去了解它是一种破坏黑盒子的行为。但是,JVM 提供了自动的内存管理机制,它的内存自动管理机制虽然有很多实现方式,但是在各种不同的场景下它不一定是最优的。在追求极致的状态下,就要通过人为的调控它来让它最优,因此又不得不去学习它,去了解它。这就好比,作为一个普通的司机,会开汽车就可以了,不用关心发动机的原理与实现;而对于一个赛车手可能就需要对发动机在不同环境下的性能等有深入的了解,从而让赛车发挥最大的优势。

为什么进行内存划分

既然需要了解 JVM 的内存划分,那么就先说说 JVM 为什么要进行内存划分呢?这个其实比较好理解,因为这种划分区域的方式可以说随处可见。比如家里的房子会按照人的作用划分为客厅、卧室、卫生间等,基本上每个房间是按照其作用进行划分的,也方便进行管理,还有不同的权限,比如去别人家,在客厅坐坐就好,不要去人家的卧室。其实软件中也是这样。比如新买的硬盘会进行分区,会进行格式化操作。除此而外,操作系统也会对内存进行划分,可执行程序被加载入内存后,也会有相应的不同属性的内存。我们知道程序大体分为两部分,一部分是指令,一部分是数据。指令和数据在内存中通常也是分开的。比如,代码是只读和可执行的,而不可写;数据有的是可读写的,有的是只读的;这样可以根据不同的内存属性来划分不同的内存区域。事实上,操作系统也是这么做的。这种做法也符合分治思想。(你可能会说,万事没有绝对,代码所属的内存有时也是可以写的,比如加壳、脱壳,数据所属的内存也是可以被执行,比如缓冲区溢出、虚拟机等。当然了,虽然这是事实,但是也并不说明内存按属性划分的管理方式有问题)

JVM 内存大致划分

JVM 作为虚拟机的存在可以被认为是一台独立的机器,.class 作为 JVM 上的可执行文件,因此,JVM 也会划分不同的内存区域来管理 .class 文件在执行时的状态。

JDK 8 的内存区域划分与之前 JDK 版本有所不同,大体是移除了持久代,而改用了元空间。JDK 8 的 JVM 内存区域划分大体如下:

在图中,可以看到内存大体划分为:方法区、堆、虚拟机栈、本地方法栈、程序计数器和直接内存。

这里大体来介绍一下这些内存区域的作用。

在上面的内存区域中,方法区与堆是各个线程共享的;而虚拟机栈、本地方法栈和程序计数器是线程相关的,也就是各个线程是独立的、隔离的。

程序计数器

先来说一下程序计数器。程序计数器相当于 CPU 中的 IP 寄存器,即指令指针寄存器,32 位的 CPU 被称为 EIP,64 位的 CPU 称为 RIP。它的作用是保存了下一条要执行的指令的地址。JVM 中的程序计数器其实也是同样的道理。为什么程序计数器是线程相关的呢?比如一个方法可以被多个线程同时执行(毕竟一个方法的代码在内存中应该只有一份),而每个线程执行到当前方法的哪条指令就需要分别由各自线程的程序计数器来保存。也就是 A 线程有 A 线程自己的程序计数器,B 线程有 B 线程自己的程序计数器,它们互相独立,互不影响。

栈结构

虚拟机栈是一个“栈”结构,栈中存放局部变量、参数、返回地址等。且它们也是线程相关的,也就是每个线程都有自己的栈。在栈中有多个栈帧,每进入一个方法,就会开辟相应的栈帧。什么是栈帧呢?可以理解为栈对应着线程,栈帧对应着方法。这种解释方法并不一定准确,但是我个人认为比较好理解。CPU 管理栈时,使用 BP 和 SP 两个寄存器来进行管理,分别管理着栈顶和栈底。当调用方法时,会将参数和返回地址入栈,然后保存 BP 寄存器,即栈底指针,然后通过按照局部变量的大小来改变 SP 寄存器分配新的栈顶,这样就相当于是一个新的栈帧。当方法执行完成后,会通过改变 SP 寄存器的值来回收栈空间,栈中保存的 BP 寄存器的值再送回 BP 寄存器,将返回地址送到 IP 寄存器。这样一顿操作下来,栈帧就恢复到了方法调用前的情况。当然了,JVM 虚拟机对栈的管理应该不是直接使用 BP 和 SP 寄存器,但是原理应该是类似的。毕竟栈这种数据结构,主要就是栈底和栈顶两个指针就可以管理了。

本地方法栈是虚拟机使用到本地方法时会用到的栈。

堆内存

堆是 JVM 中较大的一块内存,在方法中的基本数据类型会使用栈,而对象和数组则会在堆上进行分配。Java 是面向对象的程序设计语言,会有很多的对象要进行使用,也就是所有的对象会在堆中进行分配。当堆中的对象不再使用时,JVM 会在某个时间点回收这些内存空间。由于堆空间较大,而对于较大的内存进行回收时就是比较耗时的事情,因此 JVM 又把堆空间又被进行了各种细分,比如 Eden、Survivor 等。这块应该是学习的一个重点,毕竟垃圾回收就主要是针对堆内存进行的。对于 C 和 C 这样的语言,就是使用 malloc、free、new、delete 一类的函数来进行管理,当然了是程序员自己进行管理。如果程序员管理不好自己分配的内存就会导致内存泄漏,最后可能明明有内存却申请不到内存而导致进程挂掉或其他的问题吧。JVM 就是来替程序员管理这部分内存的,管理的重点就是堆空间什么时候回收,怎么回收。

方法区

方法区与 Java 的堆空间一样,也是被线程共享的,其中存放了类型信息、常量、静态变量等。比如这里可以放置 Java 代码对应的字节码,那么代码当然是所有线程共享的,我们不需要把同样的代码在内存中加载两次,让两个线程分别执行两份相同的代码,毕竟同一份代码的逻辑是相同的,不同的只是数据。因此,代码是共享的,不同的线程各自操作各自的数据即可。(当然了,共享的数据在多个线程下同时被操作时是有危险的,所以就搞出了线程的同步、互斥之类的)

总结

其实这种知识我觉得还是不要迷信的好,能把代码真正的写好也不容易,去学习数据结构、设计模式可能更贴近工作。在相同的算法下,在经过调优当然会更好,但是代码写的很糟糕,就想着用这种方式调优,感觉有些离谱。当然了,如果了解了 JVM 以后,在写代码时能更亲和 JVM 的工作方式去写代码,那样也不错。但是还是那个前提,就是代码效率的本身已经不错了,再考虑这些。

当然了,如果工作中真的能用到 JVM,或者也真的需要用到 JVM 那就另当别论了。(面试要问的话,也得准备!!)

0 人点赞