由于早期的云服务器,大量存量3.10内核作为cvm的操作系统内核。3.10内核存在着很多已知问题,其中的常客之一便是内存不足场景下,内存回收引发的问题。 内存回收和OOM一直是Linux中一个饱受诟病的问题,其路径内核一直在优化...
一天自己接手的一个日志透传模块出现大量直接内存OOM的异常日志告警,且不久进程出现僵死,服务不可用。关键错误日志如下:
上周四下午,告警系统突然提示某位大客户的作业频繁发生崩溃和重启,现象是作业运行起来 2 分钟左右,JobManager 就发现有 TaskManager 心跳失联,随即出现作业崩溃重启,严重影响线上业务的运行。...