介绍
目前,服务提供商通常会以人工的方式编写隐私政策,告知数据被共享、存储和使用的所有方式。在这种背景下,当一个新的服务推出时,隐私政策也要做相应的调整,同时要确保符合相关法律法规。因此许多服务提供商都试图开发一个自动政策维护的系统,通过NLP的相关技术,从政策文本中提取半结构化数据,在知识图谱中表示出来。然而实际上,隐私政策在大多数用户看来都非常模糊不清、难以阅读。在这篇论文中,作者设计了一个从隐私政策中提取影响其模糊性的特征的系统,对隐私政策模糊性水平进行分类,在OPP-115隐私政策语料库中大多数都是模糊的。并且作者在这篇论文中证明了,当隐私政策文本模糊不清时,基于NLP的提取方法难以得到准确的结果。
隐私政策文本模糊性特征
- 词义不精确的单词频率:英语中某些单词本身的词义是不精确的,如"generally", "typically"等。表1中显示了作者定义的所有不精确词汇,将这些单词的出现次数除以总词数来计算不精确单词频率。
- 连接词使用频率:连接词用于连接英语中的从句或句子,但过度使用连接词会增加文档的复杂性。表2是作者分类出的连接词,同样通过单词的出现次数除以总词数计算连接词的使用频率。
- 多义词出现频率:政策文件应当表述清晰,使用含义明确的词汇。如"execution"就是一个多义词,可以表示“履行义务”或“签署文件”,如果上下文没有进一步的说明,就很可能产生歧义。作者使用Wordnet词汇数据库来对这类多义词进行标记,并计算多义词的出现频率。
- 可读性分数:隐私政策应当有较高的可读性。目前许多语言学家开发了文本的可读性测试方法,大多数的方法都是基于更长的单词、句子更难阅读的观点。作者采用了Dale-Chall可读性公式来衡量阅读文本时面临的困难,其中包含了一个3000单词的“美国四年级学生词汇”列表,所有其他不在列表内的单词都被认为是"difficult word"。
- 标点符号的使用频率:与连接词类似,过度使用标点符号会增加文本的复杂性,降低可读性。因此将标点符号的频率作为评价模糊性的指标之一。
- 首字母缩略词的频率:首字母缩略词的合理使用能够缩短文本长度,方便记忆。但过度的使用或没有正确的定义,读者可能无法理解,也会使文本变得复杂,因此将其作为衡量指标之一。
- 拼写错误的单词:保持拼写正确对于书面文档的质量至关重要,作者使用python拼写检查器查找文本中拼写错误的单词,同时剔除专有名词,计算拼写错误单词的出现频率。
- 语法正确性:与单词拼写正确类似,语法的正确性也需要得到保证。作者同样用python的语言检查库,统计语法错误的句子出现频率。
实验
实验的数据集来自OPP-115(Online Privacy Policy)隐私政策语料库,包含115个网站的隐私政策文档,表3显示了数据集中8个特征的分布范围。
作者使用了人工分类、半监督聚类和SVM三种分类方式进行对比。因为有监督学习数据集标记工作量太大,因此在这一数据集上作者认为半监督聚类的方式是最佳的。表4显示了三种分类方式的结果对比,大多数的隐私政策文档都被认为是模糊、有歧义的。
进一步实验中作者将文本段落细分为7个类型,使用LR、SVM、CNN三种方式,对不同模糊程度的隐私政策文本段落进行分类,以评价这些分类器在不同模糊性的文本中的分类性能。
表中可以看出,三种分类器分类歧义性较大的文本时,平均F1分数仅为0.6左右,相比分类无歧义文本时下降了10%。因此可以证明,文本的歧义对于自然语言处理有着比较大的影响,从模棱两可的文本中提取结构化的政策规则,比从表达清晰的文本中提取困难得多。
原文作者:Anantaa Kotal, Anupam Joshi, Karuna Pande Joshi 原文标题:The Effect of Text Ambiguity on creating Policy Knowledge Graphs 原文链接:https://ebiquity.umbc.edu/file_directory/papers/1107.pdf 原文来源:IEEE International Conference on Big Data and Cloud Computing (BDCloud 2021) 笔记作者:2rrrr@SecQuan 文章小编:bight@SecQuan 文章翻译:安全学术圈