【APT行为数据分析】终端溯源数据中的依赖爆炸问题

2021-09-27 17:34:45 浏览数 (1)

一、摘要

高级持续性威胁(Advanced Persistent Threat,APT)具有对抗性、隐匿性、低频性、持续性,在配合复杂、定制化的技战术手段,给传统防护检测方案带来挑战。为提升高级威胁分析的时效性,降低狩猎门槛,探索通过数据驱动的方式提升关键线索定位、攻击路径补齐的自动水平,有着重要的意义。

当前,大规模异构网络、终端、情报数据分析场景中,存在信息依赖爆炸、安全语义模糊等问题,亟待解决。《Provenance Mining:终端溯源数据挖掘与威胁狩猎》一文,介绍了终端溯源数据(Provenance)以及溯源图(Provenance Graph)的概念。本文将从数据维度解析基于终端的APT检测溯源关键挑战——溯源数据的依赖爆炸(Provenance Dependency Explosion)问题。

二、溯源数据挖掘技术背景

溯源数据能够忠实记录终端上实体的行为逻辑依赖关系,自然形成溯源图。通过溯源图的后向追溯和前向追溯,可实现攻击事件的溯源与取证。如图1所示,图中的节点包括文件、进程、域名、连接等实体点,以及文件读写、进程创建、域名解析等行为边[1]。该攻击子图是经分析算法提纯后的攻击行为还原,即该图中只包含了与关键攻击行为或异常行为相关联的部分点和边,已隐藏了大量的背景行为信息。通过溯源图的分析,专家可以以细粒度的系统行为视角观测攻击者的行为,为攻击行为取证提供了关键素材。

图1 一个典型的溯源图

三、溯源数据依赖爆炸问题

APT组织通常结合0-Day与N-day漏洞及隐匿的攻击行为,对目标投递定制化的攻击载荷,以控制防护薄弱的目标主机,完成横向移动,最终实现数据窃取、系统破坏等目标。图2列举了2020年谷歌搜索热度前10名的漏洞,其中大部分漏洞是高危的远程可利用漏洞,并被诸多APT攻击组织利用。

图2 2020年谷歌搜索热度Top 10的漏洞及被利用信息

图2显示,有多达14个APT组织在攻击过程中利用CVE-2017-0199漏洞。本文将以CVE-2017-0199漏洞在APT场景下的利用为例,分析利用溯源数据进行威胁行为挖掘过程中的依赖爆炸问题。

该漏洞是利用Office Word软件漏洞达成攻击执行目标(ATT&CKT1203 Exploitation for Client Execution)的一个高危漏洞。如图3所示,攻击者构造包含OLE2链接对象的Office文档进行钓鱼投递。受害者打开该文档后,Office程序winword.exe将向攻击者搭建的服务端请求下载恶意HTA文件。该文件实际为嵌入了恶意脚本的RTF文件,winword.exe最终自动调用Microsoft HTA 应用程序mshta.exe加载执行该恶意脚本[2][3]。

图3 CVE-2017-0199漏洞利用示意图[3]

基于该漏洞,研究者进行了APT攻击模拟与溯源数据重构,除了攻击行为,主机上还模拟了日常操作行为,以生成背景行为日志[4]。在该场景中,攻击者向受害主机1投递了包含漏洞利用脚本的文档,进而收集敏感信息,并通过受害主机1的门户网页服务端特性完成横向移动攻陷受害主机2。该APT场景一个有效还原的溯源图如图4所示,该还原方法能够识别关键的攻击行为及其序列,从而精简的重构了该漏洞利用的攻击过程。

图4 CVE-2017-0199攻击行为溯源数据重构[4]

实际上,从终端溯源数据中挖掘并生成精简的攻击溯源子图,并不是简单和直接的任务,其中一个关键阻碍就是溯源数据中大量的信息流依赖。限于采集平台的性能开销与技术瓶颈,目前绝大部分溯源数据采集系统所采集的数据是粗粒度的(Coarse-Grained)。粗粒度的行为数据采集采取“贪心”的方式,记录实体间所有可能的依赖关系,难以精确跟踪实体间的信息流向。特别是类似系统级别的服务进程、用户级别的浏览器等长期存活的实体,作为信息流传播的中心环节,大规模关联实体的信息流会在该中心实体交汇,导致上下游信息流无法有效溯源。

图5展示了在整个观测周期内的完整溯源图。该图记录了两台主机终端(绿色与深灰色)的进程、文件、连接以及域名解析等日志中多种类型实体之间的,读写、创建、解析等多种类型信息流结构依赖关系。由于较为长时间的观测周期,受害者主机1、2上的系统进程、动态链接库、浏览器进程等实体之间高频的产生了大量的信息流交互操作,形成了下图中稠密的团。

图5 基于CVE-2017-0199跨主机APT攻击模拟的溯源图(完整)

对图5中圆圈部分进行局部放大,同时以关键的线索文档msf.doc(恶意软件检测或IoC情报命中)或C&C服务端IP(IoC情报命中)为出发点,可以看到局部恶意信息流覆盖。如图6(a)和6(b)中红色边所示。该图中,以msf.doc创建时间为界,过滤掉了该时间戳之前发生的所有行为边,以尽量屏蔽实际不存在的信息层结构关联。从关键线索出发,能够快速定位到被攻陷的异常winword.exe进程——该进程读写了恶意脚本文件或异常外联C&C服务端IP。然而,由于winword.exe是模拟的常驻程序,该进程或文件在指定时间范畴内,与大量的上下游文件或程序发生信息流传递,如图6(c)红色边所示,呈现数量指数级别的爆炸式增长,这无疑给进一步的攻击路径调查取证增加了难度。

图6 APT攻击模拟的溯源图(msf.doc或C&C Server IP为线索的信息流传染)

由前述APT漏洞利用溯源数据实例分析看出,在现有的粗粒度溯源数据采集技术基础上,终端关键实体之间,特别是进程、文件、连接等实体,存在自然的信息流传染效应。在没有先验知识或基线数据的情况下,任何恶意信息流经过中间实体的中转,将以一定的概率向上下游实体扩散。随着信息流在关联实体各自邻域的传播,特别是通过常驻实体的传播,进一步导致了终端溯源数据中的信息流依赖爆炸问题。

依赖爆炸问题覆盖终端溯源数据、威胁情报数据、网络日志数据等多源多类型场景,给自动化的攻击检测、攻击路径分析带来巨大挑战。一方面,直接大幅度提升了专家人工分析的难度。如果说线索定位是大海捞针,那还原攻击路径在该问题下犹如走迷宫。另一方面,自动化的分析方案同样面临由大量无效信息依赖带来的分析误判、性能瓶颈等问题。

四、总结

APT已成为国家级关键信息基础设施的重要威胁,传统被动、静态特征规则驱动的攻击检测方法,与关键线索驱动的逐步搜索溯源方法,难以应对相关攻击事件带来的潜在重大风险。而主动的威胁狩猎技术与自动化安全运营技术,依赖更加自动化的数据与知识挖掘基础设施,来弥补专家视野的局限性。

本文重点解析了终端溯源数据分析中依赖爆炸问题,欢迎关注系列文章,将为读者带来数据驱动的APT行为分析以及依赖爆炸等问题的实战化应对。

参考文献

[1] Hassan W U, Guo S, Li D, et al. NoDoze: CombattingThreat Alert Fatigue with Automated Provenance Triage[C]. NDSS, 2019.

[2] https://cybersecurityworks.com/blog/vulnerabilities/google-trends-most-searched-top-10-vulnerabilities-in-2020.html

[3] http://blog.nsfocus.net/microsoft-office-ole2link-exploits-technology-analysis/

[4] Alsaheel A, Nan Y, Ma S, et al. {ATLAS}: ASequence-based Learning Approach for Attack Investigation[C]. 30th {USENIX}Security Symposium ({USENIX} Security 21), 2021.

[5] https://www.fireeye.com/blog/threat-research/2017/04/cve-2017-0199-hta-handler.html

往期回顾

《ProvenanceMining:终端溯源数据挖掘与威胁狩猎》

《攻击推理专题—基于攻击溯源图的威胁评估技术》

《攻击溯源—基于因果关系的攻击溯源图构建技术》

关于天枢实验室

天枢实验室聚焦安全数据、AI攻防等方面研究,以期在“数据智能”领域获得突破。

内容编辑:天枢实验室 张润滋 责任编辑:王星凯

本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。

关于我们

绿盟科技研究通讯由绿盟科技创新中心负责运营,绿盟科技创新中心是绿盟科技的前沿技术研究部门。包括云安全实验室、安全大数据分析实验室和物联网安全实验室。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。

绿盟科技创新中心作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一,与清华大学进行博士后联合培养,科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。

我们持续探索信息安全领域的前沿学术方向,从实践出发,结合公司资源和先进技术,实现概念级的原型系统,进而交付产品线孵化产品并创造巨大的经济价值。

0 人点赞