如何在tweet上识别不实消息（二）

5.2基于网络的特征

我们提出的特征到目前为止都是基于个人tweet的内容。在第二组特征我们专注于tweet上的用户行为。我们观察了4种类型的基于网络的性能，并建立2种捕获他们的特征。

Twitter使用户可以重新发送消息给其他人。这种交互通常容易检测，因为转发的消息通常开始具体模式为：RT @user。我们使用这个属性来推断重新发送的消息。

让我们假设一个用户ui从用户uj（ui：”RT @ujt”）转发tweet t。显然，t是更可能是谣言如果（1）uj有发布或重新传播谣言的历史，或（2）ui在过去的历史已发布或重新发布tweet的谣言。

给定一组训练实例，我们构建一个正和负用户模型。第一个模型是已发布积极的实例或重新发布积极实例的所有用户的概率分布。类似地，第二模型是针对已经发布（或者重新发送）为否定的用户的概率分布实例。在建立模型后，对于给定tweet。我们计算了两个对数似然比为2种基于网络的特征。

第一个特征是对数似然比ui是处于正用户模型（USR1），第二个特征是tweet的对数似然比是从用户重新tweet(uj）处于正的用户模型与负用户模型比（USR2）。

发布用户和重新推特的用户的区别很重要，因为有些时候用户以某种方式修改重新发送的消息改变了其意义和意图。在下面的例子中，原来的用户引用奥巴马总统。第二个用户正在重新推送第一个用户的tweet，但已经添加更多的内容到tweet，并使其成为谣言。

5.3 tweet的具体内容

我们的最终的特征集是从特定Twitter中提取额内容：主题标签hashtags和网址urls。

5.3.1主题标签

在Twitter生态系统中一个新出现的现象是使用hashtag：某个词或短语前缀有散列符号（＃）。由用户创建这些标签，并广泛使用了几天，然后当主题过时时消失。

在我们的方法里，我们调查用于谣言相关的tweets的hash tags与其他tweet是否有什么不同。此外，我们检查人们相信和传播谣言时所使用的标签是否是从那些已看见的否认或质疑谣言tweets来的。

给定一组正向和负向的训练tweet样本，我们构建两个统计模型，每个展示了使用各种主题标签的概率分布。对于给定的tweet t，有一套的m标签（＃H1...＃Hm），我们使用等式2计算其对数似然比。

5.3.2网址

以前的工作已经讨论了URL在Twitter上的信息传播的作用。Twitter用户在tweet其中共享URL是指外部源或可以解决由Twitter强制的长度限制。直观来讲，如果一个tweet是一个正实例，那么它很可能是类似的其他正面tweet分享的网址内容。使用相同的推理，如果tweet是否定的实例，那么它应该更类似于web其他负面实例共享的页面。

给定一组tweet训练集，我们获取所有这些tweets中的URL和（）和（）用户模型，一次为unigrams和一次为bigrams。这些模型只是建立在URL的内容上并忽略tweet的内容。类似于以前的特征，我们计算每个推文内容的对数似然比相对于（）和（）为unigrams（URL1）和bigrams（URL2）。

表4总结了在我们提出框架里使用的一组特性，其中每个特征是（）和（）训练模型对数似然比。为了构建这些语言模型，我们使用CMU语言建模工具包。

5.4优化

我们建立L1正则对数线性模型对于之前讨论的各种特征从而去预测每个tweet。假设，一个过程生成用于输入的候选集合X。另外，我们假设Φ：X×Y→RD是一个使得每个（x，y）变成特征值向量的函数。这里，特征向量是对应于不同网络的系数相关的向量，内容和基于tweet的属性，以及参数向量θ∈RD（在我们试验中D≤9）分配一个真实权重到每个特征。这个估计选择θ作为最小化最小二乘和的和正则化项R。

这里，α是控制正则化的参数（我们的实验中选0.1）

在我们的工作中，我们使用OWL-QN，这能够有效解决非连续梯度下降。

6.实验

我们设计了2套实验来评估我们的方法。在第一个实验中，所采用的方法的有效性在用于信息检索（IR）框架检索谣言。在我们采用的第二个实验里测试了各种特征，以检测用户谣言中的信念。

6.1谣言检索

在本实验中，我们将不同的故事视为查询，并为每个查询构建相关性集。每个相关性集是整个10,417条tweet的注释，其中每条tweet都标记为相关（如果它匹配正则表达式查询）和被注释者标记为谣言相关的tweet。例如，根据表2手机数据集全文10,417份文件只有83个相关文件。

对于每个查询，我们使用5次交叉验证，并预测作为特征函数的tweet的相关性。我们使用这些预测和排名所有关于查询的tweets。为了评估我们的排名模型的表现，单独查询（Q）与相关文件的集合{d1，...，dm}}，我们计算平均精度为

Rk是从第一个结果到kth相关文件dk的排序搜索结果。

6.1.1基线

我们将我们提出的排名模型与其他检索模型进行了比较。前两个样本表明了难度下限的基线相对于问题有随机和统一两种方法。在随机基线中，文档的排名基于对它们的随机数分配。在统一模型中，我们使用5折交叉验证，并且在每个折叠中，测试文档的标签由训练集的多数投票导致终止。

我们在这项工作中使用的主要基线是提交到Twitter的正则表达式去收集数据（regexp）。使用相同的正则表达式以标记文件的相关性导致查准值为1.00（因为它将检索所有相关文件），但也会检索假阳性，与正则表达式匹配的tweet但不是谣言相关的。我们想要知道使用训练数据能否帮助我们提高检索中的假阳性率。

最后，使用Lemur Toolkit软件，我们采用KL散度检索模型以及Dirichlet平滑(KL)。在这个模型中，文档根据查询和文档语言模型的差异进行否定排序。更正式地说，给定查询语言模型θQ，和文档语言模型θD，文件的排名由D（θQ||θD）决定，其中D是在两个模型之间的KL发散。

μ是一个参数，C是计数函数，thetaS是收集语言模型。更高的值μ更侧重于收集模式。在这里，我们尝试模型的两个变体，一个使用Lemur中的默认参数值（μ= 2000），和其中一个μ基于该数据被调谐（μ= 10）。使用测试数据调整参数值μ，将帮助我们找到上限估计的这种方法的有效性。

表5显示了平均精度（MAP）和Fβ= 1对于谣言中的每种方法搜索l任务。这个表显示了一个方法使用训练数据对文档重新排序相对于谣言做到了显着改善而超过基线和其他搜索系统。

6.1.2特征分析

为了研究使用单独特征在检索谣言的有效性，我们为每个查询执行5次交叉验证，每次都有使用不同的特征集。如图1所示的平均精度和查全率，基于内容的优化系统（TXT1 TXT2 POS1 POS2），基于网络（（USR1 USR2），和推特具体内容（标签 URL1 URL2）。

图1示出了计算文本语言模型的特征非常有效实现高精度和查全率。Twitter的具体特征，特别是标签，导致高精度和低查全率，因为许多tweet不共享标签或者不是基于外部URL的内容的书写。

最后，我们发现用户历史可以是一个好的谣言指标。但是，我们相信这一点特征可能对一个完整的用户设置更有帮助和更全面了解他们的历史活动。

6.1.3主要训练特征

作为我们对谣言检索的最后一个实验，我们调查了从新出现的谣言到新的标签数据需要有效地检索该特定谣言的实例的次数。这个实验帮助我们了解我们提出的框架能否可以推广到其他故事。

为了做这个实验，我们使用了奥巴马故事，这是具有大量数据集和相当多数量的假阳性实例。我们随机抽取400个此数据集的tweets并保留它们测试。我们还建立了其他4个谣言初始训练数据集，并将他们标记为不相关。我们逐渐增加其余的奥巴马微博评估检索模型的性能。图2显示了奥巴马数据集平均精度和标记精度与使用的标记数据的大小。该图显示两种测量方法都表现出快速的生长和标记数据数量达到2000的时候达到80％。

6.2信念分类（BeliefClassification）

在先前的实验中，我们表明最大化对数似然比的线性函数是一种有效的检索谣言的方法。在这里，我们评估这种方法，特别是提出的特征，是否可用于检测用户在他们发布的谣言中的信念。与检索不同，检测用户是否赞成谣言或反驳可能使用类似的方法，不管谣言内容。直观来讲，语言特征例如否定（例如，“奥巴马不是穆斯林“），或大写（例如，“barack HUSSEIN obama ...”），用户历史（例如，自由高音和保守tweeter），主题标记（例如#tcot与#tdot）和网址（例如，链接到假Airfrance碰撞照片）应该帮助识别内在含义。

我们通过挖一个池来执行这个实验的所有被标记为“谣言”的tweet注释任务。表2显示有6,774这样的推文，从其中2,971显示信念和3,803条tweets显示用户怀疑，否认或质疑。

使用各种特征环境，我们执行5倍交叉验证这些6,774个谣言的tweets。表6显示了该实验的结果的F-score，分类准确性和赢/损比，正确分类与不正确分类的比率。

7.结论

我们在本文中的贡献是双重的：（1）我们提出一个使用统计模型和最大化检索的对数似然比的线性函数谣言的匹配tweets匹配更一般的查询的一般框架。（2）我们展示了所提出的特征在捕获表示用户认可的tweet的有效性。

网络流日志

0 人点赞