——物联网资产识别方法研究综述
一、引言
大量互联网上暴露的物联网设备和服务,已成为攻击者发动大规模DDoS攻击的首选。在物联网相关的安全问题越来越引起关注的背景下,对这些资产进行分析和梳理是有必要的[1]。细粒度的识别物联网设备能够为进一步对设备的属性研究及安全分析提供数据支撑,针对不同类别、环境等因素寻找物联网设备的安全漏洞,从各个方面和角度进一步采取有效的安全措施,加强物联网设备的安全防护和修补。只有真正的掌握了物联网资产信息,在安全防护上才能做到“量体裁衣,因材施教”。在威胁狩猎方面,如果我们捕获了被恶意利用的物联网设备,并已经对这些设备做到精准识别,那就可以通过指纹搜索出互联上暴露出的该类型全部的设备,将这些设备列入重点观测对象,通过预提前的防策略来减低未来攻击带来的影响。网络安全风险评估从资产识别开始,所以能否对物联网资产进行精准的识别对物联网安全研究有着重要意义。
二、物联网资产识别方法综述
一般通过对全网的地址进行探测,来获取暴露在互联网上的资产。具体地,首先采集全网的网络地址的端口存活情况,接着对这些地址存活的端口发送指定协议探测包,获取到存活端口的响应信息,这部分的响应信息被称为标语(Banner)。往往返回的Banner中会存在一些可用来识别设备的信息,这类信息被称为设备指纹。物联网资产的识别属于设备识别的细分领域,接下来主要介绍物一些联网资产识别方法。
1基于Banner匹配的指纹发现方法
基于Banner匹配的指纹生成方法包括三个步骤:
(1)获取物联网产品相关信息
(2)收集网络空间探测数据,提取Banner
(3)将产品信息与Banner进行匹配。
具体的,首先是在物联网设备相关厂商官网或电商网站中进行搜索,找到这些物联网设备的产品相关信息,例如厂商、设备类型、型号/版本等(如图1)。接下来将收集到的资产信息在探测返回Banner中进行正则匹配,如果匹配成功,则识别成功输出指纹。
图1 从相关产品官网和电商网站获取物联网设备信息
基于Banner匹配的指纹生成方法通过实时地对类型、品牌、型号库搜索更新,建立物联网信息库,实现对不同类型、厂商、型号的物联网设备进行识别[2]。该方法的流程主要为5个部分:资产数据采集、数据处理、物联网信息库建立、指纹信息匹配以及生成物联网指纹库,具体的识别工作流程如图2所示。
图2 基于Banner匹配的物联网设备识别流程
基于Banner匹配的识别方法,如果只是关注某些类型的设备,效果还是很好的,但是即使不断更新,物联网信息库也很难涵盖全部的暴露物联网设备信息,对新出现的设备类型或者小众厂商的设备,很难做到及时发现并识别。
2基于机器学习的指纹发现方法
基于机器学习的物联网指纹发现方法,首先是物联网信息特征进行提取,再通过机器学习算法对待检测的数据进行分类,从分析结果中获取物联网设备指纹。
>>>>
2.1特征提取
基于机器学习的物联网设备识别,首先需要对物联网特征进行提取。物联网特征提取是基于探测收集的数据中的特定维度,选取具有区分度的特征向量,用来区分与其他非物联网设备(比如个人服务器、云服务和电商网站等等)[4]。主要有两个部分可以用来提取物联网设备特征:协议报文头部和返回的Banner标语部分。
(1)报文头部提取特征
传输层数据的报文头部可以用来提取相关特征值。物联网设备进行有效连接后,物联网设备返回的报文头部(比如HTTP响应头部的Server字段)常常带有与产品属性相关的信息,如设备类型、品牌、型号等,这部分信息不仅仅反映了设备基本情况,同时还包含了丰富的语义信息,如已知型号可以帮助推断设备类型与品牌,已知类型与型号可以推断品牌(如图3)。这部分属于结构化数据,直接通过key-value解析就可以拿到。
图3 HTTP响应头中的物联网设备指纹
(2)返回Banner中提取特征
HTTP协议传输的HTML文件内容,FTP协议传输的数据报文内容等都可以提取到物联网指纹特征(如图4)。这部分属于半结构化的数据格式,与普通文本相比,具有一定的结构性,但结构并不固定,具有嵌套、扩充等操作。此外,物联网设备一般都是嵌入式设备,不具有大量的文本、图片、音频、视频和超链接等信息,这也是其特征之一。
图4 在HTML文件发现的物联网设备指纹
>>>>
2.2机器学习方法
选取好特征向量和准备好待训练的数据后,接下来就是利用学习算法训练学习进行分类,输出相关设备的信息。学习方式可以分为监督式学习和非监督式学习。监督式学习,要求训练数据带有标签,而非监督式学习则不需要。
文献[5]采用SVM、朴素贝叶斯、决策树和神经网络等全监督式学习算法,生成监控设备的指纹,利用HTTP流量和报文在结构上的相似性识别了网络空间中的监控设备。该框架首先基于卡方特征提取方法筛选出页面的关键字特征,然后通过构建分类器进行视频监控设备识别,达到了较高的识别正确率。然而,该方法虽提出了设备识别框架,但未对具体识别方法和效果进行详细讨。
图5 基于网页自动生成监视设备的指纹流程
文献[6]提出基于正样本反馈增强的半监督PU学习方法,从少量正样本开始,利用PU学习方法不断拓展正样本和可靠负样本数量,进而逐渐优化分类器,不仅能够有效提升“设备”精确率和召回率,而且对发现小品牌和新型号都具有较好效果。反馈增强的设备类型识别框架分为四个过程:数据采集过程、人工标定正样本过程、PU学习过程和正样本反馈增强过程。PU识别框架是一种通用的设备类型识别框架。通过视频监控物联网设备验证了方法的有效性,但该方法是否能够很好地适应其他类型的物联网设备,有待进一步研究。
三、总结
本文介绍了一些物联网设备的识别方法,每种方法都有长处和不足。基于Banner匹配的识别方法,对指定厂商或者类型的物联网设备又较好的识别效果,但是很难发现新出现和小众的物联网设备,需要不断的维护已知物联网设备信息,投入人力成本也比较高。基于机器学习的物联网设备识别方法,虽然提高了设备识别的自动化程度,但是识别粒度较粗,很难对每类物联网设备做到非常细化的识别,并且物联网设备种类繁多,提取的效果好的特征向量也是需要攻克的难点。仅依赖于人工标记来识别物联网设备,从投入产出来看是不切实际的;把问题全部丢给机器学习算法,处理全网的数据也必定消耗巨大的算力,而且结果也不一定会理想,所以对互联网上的物联网设备进行精确识别,必定人工标定和机器学习的结合。接下来的文章,笔者会分享一种基于众包标定与机器学习相结合的方法,通过“涸泽而渔”的思想来识别互联网上的物联网资产。
参考文献:
[1].绿盟2017物联网安全年报:
blog.nsfocus.net/wp-/uploads/2018/03/2017_IoT_Security_Annual_Report.pdf
[2].邹宇驰,刘松,于楠,朱红松,孙利民,李红,王旭.基于搜索的物联网设备识别框架[J]. 息安全学报,2018,3(04):25-40.
[3].赵迎,鲁阳,凌静,江凌云.基于树的物联网标识识别算法的研究[J].计算机技术与发展,2019,29(08):42-46.
[4].李强,贾煜璇,宋金珂,李红,朱红松,孙利民.网络空间物联网信息搜索[J].信息安全学报,2018,3(05):38-53.
[5].Li Q, Feng X, Wang H, et al, “Automatically Discovering Surveillance Devices in the Cyberspace, ”Proceedings of the 8th ACM on Multimedia Systems Conference.ACM 2017:331.342
[6].R.L.Ren,Y Gu, J.Cui, S.Liu,H_S.Zhu, and L.M.Sun, “Web Features-·based Recognition Specific Type loT Device in Cyber—space” Communications Technology, vol. 50, no.5,pp. 1003-1009(in Chinese), 2017
关于格物实验室
格物实验室专注于工业互联网、物联网和车联网三大业务场景的安全研究。 致力于以场景为导向,智能设备为中心的漏洞挖掘、研究与安全分析,关注物联网资产、漏洞、威胁分析。目前已发布多篇研究报告,包括《物联网安全白皮书》、《物联网安全年报2017》、《物联网安全年报2018》、《物联网安全年报2019》、《国内物联网资产的暴露情况分析》、《智能设备安全分析手册》等。与产品团队联合推出绿盟物联网安全风控平台,定位运营商行业物联网卡的风险管控;推出固件安全检测平台,以便快速发现设备中可能存在的漏洞,以避免因弱口令、溢出等漏洞引起设备控制权限的泄露。
内容编辑:格物实验室 桑鸿庆 责任编辑:肖晴
本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。
关于我们
绿盟科技研究通讯由绿盟科技创新中心负责运营,绿盟科技创新中心是绿盟科技的前沿技术研究部门。包括云安全实验室、安全大数据分析实验室和物联网安全实验室。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。
绿盟科技创新中心作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一,与清华大学进行博士后联合培养,科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。
我们持续探索信息安全领域的前沿学术方向,从实践出发,结合公司资源和先进技术,实现概念级的原型系统,进而交付产品线孵化产品并创造巨大的经济价值。