SIEM等中心化数据分析平台汇聚的海量告警及其关联的日志,对安全运营团队产生了“DoS攻击”,造成告警疲劳现象,已成为安全运营中心运营效率提升的关键阻碍之一。为实现有效攻击事件的快速定位,并支持事件溯源、响应和取证,亟需更鲁棒、完备、高效的自动化告警分诊技术,来应对大规模、准实时告警数据流,全面促进运营中威胁分析流程的运转效率。
本文将从技术需求、技术解析和技术趋势三个方面,解析AISecOps智能安全运营技术栈组成之———数据、知识驱动的智能告警分诊(AI-driven Alert Triage)技术。
一、需求:告警疲劳侵袭安全运营中心
信息过载已成为安全运营中心(Security Operations Center, SOC)所面临的的普遍问题之一。在有限的资源投入下,当SOC信息过载,情报、事件、告警等关键指示器数据无法得到有效的分析和处置,进而进入持续积压的恶性循环,这是造成疲劳现象的本质原因。此外,告警无效无关、误报率居高不下、告警缺乏研判上下文、告警处置自动化程度低等技术挑战是加剧告警疲劳的直接原因。
如表1所示[1],调查人员通过访谈、调研,统计了SOC分析人员和管理人员角度所面临的,在运营层次、技术层次和人员知识层次的主要挑战。表中涉及的每一项挑战,都可加剧SOC团队的告警疲劳情况。
表1 安全运用中心面临的核心问题调查[1]
类别 | 子类别 | 分析人员角度(比例) | 管理人员角度(比例) |
---|---|---|---|
运营层次 | 设备和网络的低可见度 | 71.43 | 60.00 |
特定攻击类型低效防御手段 | 42.86 | 55.56 | |
高延迟的响应 | 20.00 | 50.00 | |
低效评估指标 | 50.00 | 10.00 | |
预算不充足 | - | 44.44 | |
技术层次 | 威胁情报过载与低质量 | 25.00 | 30.00 |
低质量的报告和日志 | 37.50 | 22.22 | |
高误报率 | 12.50 | 20.00 | |
SOC工具失效 | 37.50 | 66.67 | |
SOC组件自动化水平不足 | 33.33 | 77.78 | |
SOC系统易用性低 | 33.33 | 44.44 | |
SOC技术可拓展性挑战 | - | 30.00 | |
人员知识层次 | 态势理解能力不足 | 0.00 | 20.00 |
分析训练不充分 | 37.50 | 20.00 |
告警疲劳是整个安全运营中心团队所面临的巨大挑战。首先,大规模告警、7*24小时运营周期与高要求运营指标,将直接影响每个运营人员的工作效率和工作状态,造成人力资源的低质量转化,投入产出比降低。于此同时,信息爆炸引发的关键运营目标“失焦”,将导致低频、隐匿的高级威胁行为线索被淹没,攻击定位、溯源时间被拉长,MTTR/MTTD运营指标难以达成。
二、解析:数据/知识驱动的告警分诊
首先,图1给出了一个基于SIEM平台的安全运营中心告警确认运营流程模型[2]。SIEM汇聚了包括安全设备告警(Alerts),上下文信息和日志,并通过内置逻辑生成平台告警(Alarm)。这里Alert和Alarm是两类不同层次的告警日志,并不必特意区分其内涵。一般安全运营场景下,SIEM以一定的聚合模式、分析模式将设备告警输入转化为平台告警输出。安全运营团队分析人员基于自身知识或称为经验(Knowledge)和外部影响因素(InfluentialFactors)约束,完成平台告警的确认(Validation)。该运营流程实际上概要的给出了告警分诊模型(AlertTriage Model)。
图1 一个典型的告警分诊模型[2]
在该模型中,分诊的执行主体是由运营分析人员。运营分析人员作出分诊判断的输入是SIEM的平台告警、知识水平和外部影响,输出是对平台告警的分类结果——主要包括三类,误报、真实告警和与良性业务或行为触发的噪声告警。值得注意的是,告警分诊是一个全量分类过程。即,对于任意一条SIEM触发的告警,安全运营人员须给出一个分诊的分类结果。尽管技术误报现状难以避免并可加剧告警疲劳,但是漏报可产生更致命的潜在影响。强调全量,正是为了突出SOC运营目标中覆盖率和漏报率的必要性。
在大规模日志、告警、情报汇聚的特定安全运营场景下,需要通过数据驱动、知识驱动的智能化方法,来提升告警分诊流程的自动化与智能化程度。为此,本文在上述模型的基础上,提出智能告警分诊模型,如图2所示。该模型中机器智能体现在两点,一是知识驱动,通过安全知识图谱,实现对原始输入信息的知识富化、语义增强,提升机器数据的可读性;二是数据驱动,在SIEM平台中实现自动化的分诊机制,通过该机制融合动态数据、结构化知识以及运营分析人员的反馈,实现数据规范化,完成告警动态评级,并最终筛选出面向当前运营需求的告警,并以风险排序的方式反馈给运营分析人员。
图2 智能告警分诊模型
显然,该安全告警分诊模型仍然是以人为中心的。在当前机器智能缺乏足够的可信任性和可靠性的技术条件下,自动化/半自动化的告警分诊机器智能主要用于运营辅助环节,而由运营分析人员对最终的分诊结果负责。机器智能的目标,在于通过数据关联与统计挖掘,实现对原始数据的规范化、标签化,完成过滤、排序、组装过程,并向分析人员提供足够的解释信息、证据信息,支撑对自动分诊结果的研判和审计。
三、趋势:智能分诊技术的REACT属性
数据、知识驱动的智能分诊,是网络安全运营领域的一个系统性的AI应用问题。需要解决从数据建模、数据规范化到关联分析、基线建模、自适应优化等多方面的子问题。针对智能分诊的核心技术需求,牛津大学研究者给出了几条关键属性[2],对实战化的分诊技术实现有着比较好的指导意义,主要包括以下REACT(Reliable,Explainability, Analytical, Contextual, Transferable)属性:
- Reliable(可靠性)。需要从告警规则、模型的设计之初考虑其可靠性,主要包括面对动态环境的自适应性以及平衡覆盖率与误报率。
- Explainability(可解释性)。低质量的告警信息描述以及黑盒的模型告警,将导致运营分析人员无法准确、快速的理解告警意图,进而导致告警研判延迟加剧。
- Analytical(可分析的)。减少对专家经验的依赖,提供可自动推理、可溯源关联的分析机制与基础设施,保证告警产生过程、最终结果的可推导性、可分析性。
- Contextual(上下文支撑的)。通过关联分析及可视化技术,将告警关联的资产、情报、行为、知识等各类数据进行串联和组织,形成较为完备的、可作为判断依据的原理与证据链条。
- Transferable(可迁移性)。安全运营指标是任务目标、部署环境紧耦合的,这要求所开发部署的策略、模型等检测手段需要具备可配置、可迁移的能力,以加速知识和经验的固化和流转,快速适应不同的网络与攻防对抗环境。
REACT是安全运营中,自动化、可信任的告警分诊技术的几个必要属性。这些属性对传统基于专家规则的方法、以及基于机器学习的方法都是适用的,需要在检测规则、识别模型设计之初以及告警运营分析的整个过程中,按照对分诊结果负责的目标确保技术属性的实施。
四、总结
告警疲劳已是限制安全运营中心效率提升的关键问题之一,而告警的质量有限,包括误报率高、缺乏上下文、难以自适应环境等,是造成告警疲劳现象的直接原因。为此,探索基于大规模告警,及上下文、知识、日志等各类型数据,构建面向运营辅助的、自动化的、可信任的机器智能分诊技术栈变的尤为关键。
本文重点介绍了安全运营中心面临的告警疲劳现状,并结合顶会研究成果和实际的安全运营实践,解析了智能告警分诊模型和分诊技术的REACT需求属性,希望为读者在AISecOps的技术探索带来新的思考。
参考文献
[1]Matched and Mismatched SOCs: A Qualitative Study onSecurity Operations Center Issues, CCS2019
[2]99�lse positives: A qualitative study of SOC analysts' perspectives on securityalarms, USENIX 2022