虚拟化与云计算技术硬核内幕 (22) —— 十个茶杯八个盖

在上期，小E通过学习方老师推荐的关于操作系统、虚拟化和Intel x86体系结构的经典著作，知道了90年代土豪的计算机长什么样，也知道了为什么不建议通过从硬盘“借”内存的方式，为虚拟机超分配内存。

那么，有没有其他的办法超分配内存呢？

小E边走边想，在路边买了一包葵花子，回到了知春路49号，刚打开包装，就被拉进了电话会议。等小E结束会议，发现自己的葵花子被吃得只剩一小半了，旁边另一个妹子小F桌上堆了一堆壳。

小F指着一堆葵花子壳，嬉皮笑脸地对小E说：“亲爱的，我看你的葵花子暂时不吃，就先替你吃了，吃完再还你还不行嘛！”

小E突然呆住了，小F还以为小E生气了，拉着小F的手说：“亲别生气嘛，上次我借你姨妈巾，后来不也还了你嘛，而且是还新的，不是把用过的还你的~”

小E站起来，一边跑向方老师座位，一边回头对小F说：“我没生气~等我回来请你去吃辣子鸡~”

小E一路跑到了方老师的座位，喊道：“啊啊啊，我知道啦~”

方老师刚给一个还不错的人面试完，问：“你知道什么了？”

“我，想，”小E说，“能不能让一个虚拟机，向另一个虚拟机借用暂时用不着的内存，用完再还?”

方老师给小E看了一眼自己的面试题库中的一道题：请简述内存气球技术的工作原理。

小E跑回座位开始查资料…

所谓内存气球，指的是虚拟化平台Hypervisor在虚拟机上运行一个内存气球进程。当其他虚拟机需要借用内存的时候，Hypervisor会操作这个进程，向内存使用量较低的虚拟机GuestOS申请内存，并把申请到的内存地址告诉Hypervisor。这样，Hypervisor就可以把这些内存给其他虚拟机使用了。

如图，VM2的内存是超分配的，而VM1体内有空闲的内存。当VM2的应用向GuestOS申请较多内存时，QEMU感知到VM2的内存使用率吃紧，会控制VM1体内的内存气球向VM1的GuestOS申请内存，得到的是GVA(Guest Virtual Address)，并将其转换为GPA(Guest Physical Address)后，报告给Hypervisor。Hypervisor会将GPA再转换为HPA(Host Physical Address)，并将其映射成为VM2的GPA，可以被VM2的GuestOS所使用。这个过程就叫做内存全球的膨胀。

那么，当VM2内存使用量降低的时候，VM1体内的内存气球会向guestos释放内存，这个过程就叫做内存气球的收缩。如果VM1本身的应用申请了较多内存导致VM1的内存水位到达阈值，Hypervisor也会让VM1体内的内存气球收缩，同时让其他内存利用率较低的VM通过内存气球，将内存借给VM2使用。

小E看完，觉得通往新世界的大门打开了……

这时，小F来了，拿着新买的一袋葵花子，拍了拍小E说：“谁这么好看”

小E一愣，突然想起来一个问题，拉着小F讨论：

如果在KVM中，开启了内存气球来实现内存的超分配，如实际上宿主机上只有320GB内存，却分配了400GB给虚拟机使用，也就是俗称的“十个茶杯八个盖”，那么，如果所有虚拟机内存使用量超过了320GB，会发生什么呢？

小E和小F讨论了半天也没有得到答案，两个人一块去问方老师。

方老师翻开了厚厚的《CSAPP》(Computer Systems: A Programmer's Perspective，没有购买链接，想买自己找去)

以Java语言为例，如果开发者需要一块64MB的内存，用于存放4096x4096的32位整型数组，在函数里面声明局部变量，运行的时候JVM是会死翘翘的。这是因为，局部变量在栈中分配，64MB远远超过栈尺寸，也就是产生了栈溢出。

小F跳起来：这里当然应该用

代码语言：javascript复制

int [][] bigArray = new int [4096][4096];

来分配！

"那么，如果JVM执行new的时候，没有向操作系统申请到内存呢？"

“啊，我明白了！”

原来，无论是JAVA这样的在JVM中执行的语言，还是C这样直接编译为CPU指令执行的语言，向操作系统申请内存，都有可能由于内存不足而申请失败，操作系统返回空指针NULL (实际上为0地址，处理器访问这个地址会导致异常)。

那么，如果开发者遵循开发规范，对空指针进行了判断，那么程序会进入异常业务处理流程，乃至优雅退出。而如果没有对空指针进行判断，程序会直接抛出异常。

在虚拟化系统中，如果一个虚拟机出现内存不足的时候，如虚拟机只分配了8GB内存，而其中运行的应用需要大于8GB的内存，在操作系统没有交换分区(开启虚拟内存)的情况下，该虚拟机上的应用会报告内存不足，或异常退出。运维团队可以以此为依据，比较容易地定位问题所在。

而开启内存气球的情况，就有所不同了。

假如应用运维团队为虚拟机A和虚拟机B各分配了8GB内存，虚拟机A有8GB物理内存，而实际上给虚拟机B的只有4GB，并通过内存气球技术向虚拟机A偷用4GB。很快，虚拟机B上的应用把自己的4GB和虚拟机A的4GB内存都占满了，就像小F把小E的葵花子偷偷吃了一多半那样。此时，虚拟机A实际上只有4GB内存可用，但由于虚拟机A上的应用暂时没有申请更多内存，问题被掩盖了。

过了一会儿，虚拟机A上的应用需要继续申请内存，但由于hypervisor没有及时将内存气球中的内存归还给虚拟机A，虚拟机A上的应用申请内存失败，导致应用异常退出。运维团队只发现了虚拟机A上的应用异常退出，却没有办法发现这是因为虚拟机B通过内存气球从虚拟机A上偷用内存导致的。

也就是说，启用内存气球，虽然可以实现内存超分配，但实际上会让系统变得不稳定，而且，出现内存气球造成的应用异常时，故障是难以定位的！

小F想起来开头和小E说好的去吃辣子鸡，问方老师：一起去吃辣子鸡吗？

“啊，辣子鸡啊？那不去了。我还有问题要研究下。”

欲知方老师到底为什么不去吃辣子鸡，请看下回分解。

jvm 运维虚拟化

0 人点赞