业务崩溃!
现象:某大客户集群部分服务器出站流量飙高,集群cpu整体水平在持续上涨,客户业务出现崩溃。
溯源时间线
(1)18:51,客户侧因远程运维需求,变更安全组策略:
客户侧为方便异地工程师远程登录调试,变更安全组策略,安全组开放TCP:20~22端口,来源0.0.0.0/24
因为这一条策略,有了下面的故事
(2)12分钟破防,测试网段跳板机jumpserver01首先沦陷,测试网段病毒扩散(AAA.AA.A.0/24):
19:03:29,主机安全控制台收到测试网段跳板机jumpserver01告警:
jumpserver01跳板机(AAA.AA.A.14)发出异常告警,该服务器对外请求了可疑域名https://xxx.xxx.xxx
主机安全告警记录
19:03:03,恶意进程开始启动:/etc/secure_ssh.sh
测试网段跳板机jumpserver01恶意进程启动记录
26秒完成外部病毒植入,感染
19:03:29 ,使用curl从外部下载植入恶意病毒: http://xxx.xxx.xx/b2f628/b.sh
因测试网段(AAA.AA.A.0/24)子机间ssh互通,病毒遍历跳板机/root/.ssh/know_hosts记录,实现远程登录,病毒植入。
测试网段其余子机感染。子机感染逻辑:
(3)生产网段感染(BB.B.B.0/24):
19:03:29, 生产网段跳板机jumpserver02(内网IP:BB.B.B.11)首先沦陷,最早发起对外链接,发起2次外部请求,下载病毒:
生产网段内网横向移动,同理测试网段扩散逻辑,不再赘述
(4)扩散成功后,沦陷机器发起15起对外攻击,其中14起为redis对外爆破,占比93.33%,1起为ssh对外爆破,占比6.67%。
对外攻击行为,服务器流量打满,CPU占用过高,业务崩溃。
紧急恢复!
入侵路径复现:
问题根因:安全组异常变更
因安全组策略开放TCP:20~22端口,来源0.0.0.0/24,该安全组规则下绑定的70 cvm暴露了22端口于公网,而跳板机同时在该安全组策略下,跳板机暴露沦陷导致集群沦陷,攻击发起,业务瘫痪。
安全优化方案
业务快速恢复同溯源留痕往往在业务瘫痪的紧急情况下略有冲突,为什么?
因涉及客户成本等其他因素,公有云客户快照备份情况较低,结合客户容灾需求及入侵溯源需求,针对此case场景,在不考虑大量成本追加前提下的优化方案:
1.生产网核心集群及入口跳板机配置主机安全专业版,开启爆破阻断策略
2.入口跳板机Jumpserver设置全量快照策略