经过测试触发OOM问题
测试:3.10.0-862.3.2.el7.x86_64(内核)
开启7个异常会触发OOM的节点,在一个NODE上,经过测试发现,3.10内核,是并行创建了7个任务,同时触发oom,导致内核锁耗死。测试 2-3分钟内,服务器会死掉,模拟测试连续触发OOM问题直到CPU耗尽。服务器自动重启
kernel: BUG: soft lockup - CPU#4 stuck for 22s! [handler20:1542] 此类也是3.10内核BUG
k8s已经无法管理node节点 ,node节点pod节点全挂了
调整内核 4.1.19,测试触发OOM问题 开启7个异常会触发OOM的节点,在一个NODE上 测试:4.19.1-1.el7.elrepo.x86_64(内核) 测试发现,4.19内核创建任务,非并向,暂时无法触发内核锁BUG。
总结:暂时灰度部分服务器升级内核到4.1.19。后续补充 升级内核操作
自定义内核
下面链接可以下载到其他归档版本的
ubuntuhttp://kernel.ubuntu.com/~kernel-ppa/mainline/ RHELhttp://mirror.rc.usf.edu/compute_lock/elrepo/kernel/el7/x86_64/RPMS/ 官方内核库 https://cdn.kernel.org 下面是ml的内核和上面归档内核版本任选其一的安装方法
自选版本内核安装方法