成果七 物联网安全防护规则的自动生成技术
发布时间:2020-08-28   浏览次数:158

物联网包含众多的设备,需要定期的对设备的安全问题进行在线检测,在不影响其正常运行状态下保障设备的信息安全。然而,物联网设备漏洞繁杂多样、异构性强,给漏洞在线监测、修复和防护带了巨大挑战。虽然现有的物联网设备脆弱性监测技术具备一定的安全检测能力,但缺乏自动化的规则更新机制,需要耗费巨大的人力收集设备脆弱性信息,难以及时的发现新型的设备安全难问题,使得设备脆弱性安全监测变得更加困难。

物联网安全防护规则的自动生成技术的核心是利用自然语言处理方法自动化抽取公开漏洞报告中的物联网设备漏洞利用特征。主要流程如图所示,包括三部分:漏洞报告收集,自动物联网设备漏洞提取,漏洞利用特征生成。

 

1 漏洞利用特征自动提取技术

数据收集:人工选取了13个不同的网站,包括个人或研究团队博客、漏洞聚合类网站、论坛、帖子、邮件列表等。然后基于scrapy框架爬取漏洞报告,爬取的漏洞报告都以HTML的格式存储。

漏洞报告识别:利用字典的命名实体识别方法提取出物联网设备实体(品牌、设备类型)和漏洞实体(漏洞类型)等信息,利用正则表达式提取出设备型号信息。为进一步提高准确性,我们将建立依赖关系的实体放在Google搜索引擎中搜索,根据语义的一致性来判断提取的实体的有效性。

漏洞特征自动生成:首先利用simhash技术来剔除格式不同的相同漏洞报告,再利用博客标题整合描述同一漏洞的不同报告。对每一个漏洞报告利用自然语言技术中的命名实体识别和语法依存等方法提取语义特征,包括:漏洞的类型、漏洞文件的位置和漏洞参数。同时使用正则表达式从文章中提取漏洞利用脚本、利用流量特征等,基于这些结构化的特征生成漏洞利用的模板。最后通过漏洞文件用来将一个漏洞的语义特征和结构特征进行关联,从而生成漏洞利用特征规则。

该方法自动收集430,000多份漏洞报告,自动提取漏洞利用特征4000多条,漏洞自动收集正确率超过95%。通过将生成的漏洞利用特征部署在流量监测系统上检测其实际的有效性,发现能够检测到7000多条针对物联网设备的攻击流量,达到漏洞利用攻击97%的正确率以及0.06%的误报率,极大提高了军事物联网设备安全监测所需脆弱性规则的收集效率。相关研究成果已经发表于USENIX Security 2019

 

 

2 特征生成例子

 

相关研究成果已经发表于USENIX Security 2019。