[TOC]
注意:本文分享给安全从业人员,网站开发人员和运维人员在日常工作中使用和防范恶意攻击,请勿恶意使用下面描述技术进行非法操作。
WAF与正则表达式
正则表达式不适合构建WAF由于正则表达式计算复杂度直接影响WAF防御能力;
- 误报率高
- 漏报难以平衡
- 容易绕过
正则表达式DDOS攻击:正则表达式的最坏时间复杂度大于等于?(?2),该正则表达式可被DDOS攻击
- Regex DDOS与Regex DOS不同 • ?(?2),?(2?) • Regex DDOS目前普遍存在 • Regex DOS很难找到了
WeiyiGeek.
(1)利用正则表达式匹配的回溯之正则表达式匹配原理:NFA
正则表达式:(a|b)*abb
对应的NFA,匹配算法需要尝试每一条路径,直到找到一条匹配路径。尝试所有路径失败则匹配失败。
• 尝试所有匹配路径
• 路径尝试失败,需要回溯
WeiyiGeek.正则表达式匹配原理
(2)利用正则表达式匹配的回溯之可被DDOS的一种正则表达式模式
代码语言:javascript复制??????? = (????)(????)∗(SubC),其中???? ∈ ???
影响范围:
代码语言:javascript复制#owasp-modsecurity-crs
(?i:(?:(union(.*?)select(.*?)from)))
(?i:<META[s/ ].*?charset[s/ ]*=)
#wordpress-4.7.1
class-wp-text-diff-renderertable.php: Line 266:
(<ins>.*?</ins>|<del>.*?</del>)
#Discuz_X3.3_SC_UTF8
admincp_announce.php
• Line 136: '/<b>(.*?)</b>/i',
•Line 139: '/<i>(.*?)</i>/i',
•Line 142: '/<u>(.*?)</u>/i',
#某云WAF/360_safe3.php
360_safe3.php某云WAF: unions select.*from
• /*. ?*/
• <s*scriptb
• UNION. ?SELECT
维护几十条到几百条正则表达式规则,保证拦截率,误报率前提下,所有规则最坏时间复杂度小于?(??)是一件很难事情,正则表达式不适合用于构建WAF;
WeiyiGeek.
所以我们需要通过基于语义监测的WAF进行更好的管控和减少误报;
比如:文本:What’s problem about ‘Select id,name from’, give me a hand。
- 正则:select.*from :正则只关注‘Select id,namefrom’, 忽略了上下文的信息。在做注入判断时,对输入进行片面的理解,导致误报
- Improved : 整个输入作为一个整体,尝试理解意图。How?
基于语义检测的WAF(抽象攻击语义):
- 输入是否有效代码
- 执行了什么动作
- 动作是否有危害
基于语义检测的WAF—实现:
- 用户输入->词法分析->语法分析->攻击语义检测->攻击语义抽象
基于语义检测的WAF—优缺点
- 优点: 运营成本低,高准确率,低漏报
- 缺点: 应急响应慢,语义抽象依赖人,开发成本很高算法优化;
基于统计的机器学习WAF—异常模型 思路: 1.正常的请求总是相似;2.异常却各有各的不同 优点:识别未知的攻击、及攻击变形 面临问题: 准确率 应用变更
WeiyiGeek.
基于统计的机器学习WAF—异常模型&威胁模型 思路:在异常数据的基础上,注入一些领域知识,从而构成一个分类器,从异常中剥离出攻击 优点:准确率相对单独异常模型,提升了许多。 问题:模型滞后性:领域知识注入导致。修复响应:出现漏报,在线上如何修复。
WeiyiGeek.
基于统计的机器学习WAF(个人总结) 线上化困难:•准确率 •应用变更 WAF运营手段:•WAF安全水位 •WAF瓶颈 •payload的变化
基于深度学习构建WAF 思路:用深度学习的模型代替语义检测中的词法分析、语法分析。
代码语言:javascript复制 攻击语义的深度学习网络
用户输入 -> 深度学习的攻击语义检测模型
攻击语义的深度学习网络? 为什么深度学习、RNN: • 深度学习可通过学习一种深层非线性网络结构,实现攻击语义的逼近。 • RNN能够使信息持续保存,根据已有知识进行思考,更容易学习到攻击语义
WeiyiGeek.
Web WAF
- 360WebScan