文章作者:
Seven-机器学习算法工程师
李晴-Zilliz 数据工程师
背景介绍
在海量信息中,不乏非法分子利用网络骗取用户信任并从中获利,钓鱼网站就是其中之一。“钓鱼”网站的网址、网页内容、布局等与真实网站极其相似,没有安全意识的网民容易因此上当受骗,造成严重后果。
现有的比较典型的检测钓鱼网站的方法有:基于黑白名单机制的检测,基于文本特征或网页图像特征的匹配检测,和基于机器学习的分类检测。然而,基于黑白名单的检测方法时效性较差,名单范围也存在着不足;基于特征的算法的准确性和鲁棒性又不是很理想。近年来,机器学习应用于各领域并取得巨大成功,尤其是将深度学习应用于检测识别可以有效得提高检测效率。基于此,本文将介绍如何结合深度学习与 Milvus 向量搜索引擎,以提高对钓鱼网站的正确检测率和检测速度。
优化手段
机器学习用于识别图像中的物体、将语音转换为文字、匹配新闻条目以及推荐系统。这些应用越来越多地使用深度学习技术,并且显著提高了语音识别、目标识别和检测效果。
将深度学习应用于钓鱼网站的检测能取得良好的效果,目前深度学习的常用模型包括自动编码器(AutoEncoder)、卷积神经网络、深度信念网络。最广为人知的卷积网络训练出的模型有较强泛化能力,但是它的深度模型梯度易消散,主要用于二维数据尤其适用于图像方面。相比之下, 虽然自动编码器是全连接网络、训练时需要较多参数,但是其具有较强数据表征能力、大量数据场景适用的优点。
因此,为了减少对钓鱼网站的误报和漏报,本文利用 AutoEncoder 模型对钓鱼网站截图进行图片特征提取。我们对以往收集的各类钓鱼网站进行整理,并对该网址的首页图片进行特征提取。结合 Milvus 进行特征存储和特征搜索。最后根据匹配结果,再对经过阈值筛选的网站进行域名信息和 whois 信息对比,最终达到检测钓鱼网站的目的。
架构
整体流程
- 数据收集阶段:收集各类钓鱼网站首页截图。
- 模型训练阶段:利用收集的图片作为训练集进行 AutoEcoder 模型的训练。
- 特征提取模块:利用训练好的模型对钓鱼网站图片进行特征提取。通过在 Milvus 中插入特征向量获得 ID,将 ID 与其向量属性插入 PostgreSQL 数据库。
- 钓鱼检测模块:利用 Milvus 进行特征向量检索,根据获得的 ID 进一步在 PostgreSQL 查询。
- 调试匹配的阈值。
- 查询高于设定阈值的网站所对应的真实网站的 whois 信息和域名备案信息,比较它们与查询网站的此类信息。
Note:本项目从测试版 v1 升级到实验版 v2,运用 Milvus 对特征相似度计算部分进行了优化。在 1.0 版本中,本项目将特征存储为 numpy.array 格式,因此在相似特征匹配阶段是通过遍历 .npy 文件进行的相似度计算。在 2.0 版本中引入 Milvus 后,大大提升了此模块的搜索速度。
特征提取模型
此处选用了 AutoEncoder 用于特征提取。它是一种深度学习模型,是数据压缩降维和特征提取的一种有效方式。
AutoEncoder 框架包含两大模块:编码模块和解码模块。通过编码模块将输入样本映射到特征空间得到 compressed data,即编码过程;然后再通过解码模块将抽象特征映射回原始空间得到重构样本,即解码过程。模型的优化目标则是通过最小化重构误差来同时优化 encode 和 decode。
本项目利用收集到的网站图片训练 AutoEncoder 网络。测试图片经过训练好的网络的 encode 可以得到代表原网站图片数据的 compressed data。
Milvus 探索
Milvus 向量搜索引擎支持使用多种 AI 模型向量化非结构化数据,并为向量数据提供搜索服务。它可处理的业务包括图像处理、机器视觉、自然语言处理、语音识别、推荐系统以及新药发现等 AI 模型,为向量化后的非结构数据提供搜索分析服务。通过深度学习模型将非结构化数据转化为特征向量导入 Milvus 库,Milvus 对特征向量进行存储并建立索引,然后在 Milvus 中进行搜索,Milvus 将返回与搜索向量相似的结果。
在本项目存储阶段,特征向量存储至 Milvus 后可得到向量的唯一标识 ID。我们使用了传统关系型数据库:PostgreSQL ,用于存储 ID 和向量。查询阶段,将 Milvus 向量检索结果,在 PostgreSQL 中进一步查询,即可快速得出混合查询结果,具体解决方案如下:
特征向量存储(蓝色实线)
- 将源特征向量数据存入 Milvus 特征向量数据库,Milvus 会给返回每个源向量数据对应的 ID。
- 将每个特征向量的唯一标识 ID 与其标签属性存储至关系型数据库。
特征向量检索(橙色实线)
- 向 Milvus 中传入需要查询的特征向量数据,Milvus 会得出与搜索向量相似度最高的查询结果 ID。
- 利用该结果 ID 在 PostgreSQL 中进行查询,最终得出检索向量的混合查询结果,包含 ID、向量、标签属性和距离计算结果。
判断检测结果
得到的高于阈值要求的匹配结果后,因为存在钓鱼网站与真正的网站外观一模一样的情况,所以我们需要进一步查询这些钓鱼网站相对应的正常网站的 whois 信息和域名备案信息,比较它们与查询网站的此类信息。
例如,因为钓鱼网站上的域名备案号与钓鱼网站仿冒的正常网站是一样的,所以可以使用正常网站的备案号去查询域名。将正常网站的域名与查询网站进行对比,如果一致则为正常网站,反之为钓鱼网站。如果没有域名备案,则需要查询双方的 whois信息。例如,注册时间较短或者有效时间较短的域名更可能是钓鱼网站。
结语
本文介绍了 Milvus 在钓鱼网站检测方面的实践,采用混合查询的方式提升了对钓鱼网站的正确检测率和检测速度。目前,因为 Milvus 稳定且高效的向量检索性能,本项目极大地节省了开发成本并满足业务需求。本项目组将尝试在语音领域、自然语言处理领域,和计算机视觉等领域继续引入 Milvus 的服务。未来,我们也会持续关注 Milvus,期待更多新功能的出现!
参考文献
- 许珑于. 基于深度学习的钓鱼网站检测技术的研究[D].电子科技大学,2017.
- Image Compression Using AutoEncoder in Keras