题目: Information propagation in online social networks: a tie-strength perspective
期刊: Knowledge and Information Systems 2012
论文地址:https://link.springer.com/content/pdf/10.1007/s10115-011-0445-x.pdf
本文研究了节点间的连接强度对在线社交网络中信息传播的影响,并提出了一个新的信息传播模型,该模型可以灵活地控制信息传播的偏好和渠道。
1. 在线社交网站
在线社交网站(online social networking sites, OSNS)是一种流行的社交媒体平台,这些网站,如Facebook,MySpace,LinkedIn,Twitter等,提供了一个平台来组织人们之间的联系,同时兼顾发布内容,分享兴趣等功能,这些网站的用户和他们之间的友谊构成了所谓的在线社交网络(OSN)。近年来,人们对在线社交网络中信息传播特征的研究越来越感兴趣。例如,有一些研究专注于测量这些社交网络的拓扑结构,理解用户交互的模式,或者调查用户行为的特征。同时,许多来自传统社交网络领域的概念被用于研究在线社交网络。
2. 相关概念
(1)图平均度
(2)节点聚类系数
节点i
的聚类系数定义如下:
这里
表示节点i
的所有邻居节点间存在的链接条数,
表示节点度。当
时,令
。
网络的平均聚类系数:
一般来讲,平均聚类系数
越大,表明网络越聚集。
(3)连接强度
连接强度被定义为网络中两个节点邻域的重叠程度,节点间连接强度定义如下:
其中
表示两个节点的公共邻居数量。
越小,两个节点间的连接强度越弱。
许多研究发现,连接强度确实表明了两个节点之间关系的强弱。例如有研究发现,在社交网络中,一对节点如果共享一个共同的邻居,那么它们就有连接的倾向。类似地,在线社交网站中相邻的用户倾向于信任彼此,特别是当他们有很多共同的熟人时。最近也有研究发现,在移动通信网络中,两个用户的好友重叠越多,他们的联系越强。
3. 信息传播建模
由于OSNS具有独特的信息推送和再发布机制,其信息传播问题在各个应用领域都引起了极大的关注。以Facebook为例:News Feed和Live Feed这两个应用程序会将你所有朋友的活动推送到你的个人资料页面。具体来说,News Feed推送了朋友发布的最有趣的内容,而Live Feed推送朋友正在进行的所有活动。信息推送在Twitter上更为明显,你的文字会立即被推送到所有关注者的终端上,然后,通过转载的方式进一步传播信息,几乎所有的在线社交网站都支持评论、引用、转载等功能。
受此启发,本文将OSNS中的信息传播过程描述为:
- 用户
i
发布了信息I
,比如图片、视频或者博客等。 - 用户
i
的所有朋友(关注者)通过访问用户i
的个人主页,或者收到消息推送时,就会接收到信息I
。 - 用户
i
的一些朋友可能会转载、评论或者点赞信息I
,因为在他们看来I
是比较有趣的,或者比较重要。 - 上述三个步骤会重复下去,只不过初始发布信息
I
的人从用户i
切换为用户i
的朋友。
在上述过程中,为了刻画OSNS中信息传播的特性,本文将之前的模型进行扩展,得到一个新模型
。其中,
是决定如何选择发布内容的节点的参数;
表示发布的信息的强度,即信息的趣味性以及重要性等;
表示连接强度,可用于信息传播的信道选择。
模型定义如下:
- 假设节点
i
在T=0
时刻发布了强度为
的信息I
,设当前节点i
的状态为
,该状态意味着节点i
知道信息I
(不一定转发)。信息I
此时对节点i
的邻居来说还是未知的,设它们的状态为
。
- 增加一个单位时间,即
T=T 1
。将节点i
的邻居节点的状态都设置为
,然后将节点i
加入到集合P
,集合P
表示已发布或已重新发布(转发)信息I
的节点。
- 获取下一轮可能重新发布该信息的节点数:
即下一轮可能转发该信息的节点数由节点的度和参数
决定。
4. 按照一定概率从节点i
的邻居节点中选择一个节点j
:
这里
表示节点间链接的权重。如果节点j
不在集合P
中,就将其加入队列Q
中,Q
表示下一轮将发布信息I
的节点集合。步骤4需要重复
次。
5. 对队列Q
中的节点重复执行步骤2到步骤4,直至队列为空或图中所有节点都已知晓信息I
。
简单总结一下上述步骤:首先将初始发布信息的节点状态标记为
,表示已知晓信息,并将其加入集合P
,表示已发布或已转发该信息。然后将初始节点的邻居节点的状态也标记为
,表示已知晓该信息,但并不都加入到集合P
,表示并不会都转发该消息,而是按照概率从初始节点的邻居节点中选择一定数量的节点加入队列Q
(这些节点会转发该信息)。当队列不为空时:取队头元素,然后将该节点的邻居节点都标记,并将该节点加入集合P
,再从该节点的邻居节点中选择一些未在集合P
的节点加入队列Q
,如此循环,直至队列为空或网络中所有节点都已知晓该信息。
下面是一些注意事项:
- 根据步骤2,节点
i
发布的信息会推送到该节点的所有邻居节点,这对应了OSNS中的信息推送机制。 - 根据步骤3,从
i
的邻居节点中选择的重新发布节点的数量由节点的度
和参数
决定。这与实际情况一致,朋友越多的用户往往会吸引更多的用户访问并重新发布信息,而且信息越有趣或越重要,被重新发布的几率就越高。由于本文发现只有1%-2%的朋友会在Flickr中重新发布信息,因此在下面的实验环节中
。
- 根据步骤4,当
时,模型倾向于选择连接强度较大的节点重新发布该信息;当
时,模型倾向于选择连接强度较小的节点重新发布该信息;当
时选择是随机的。由此可见,
的引入为模型带来了很大的灵活性。
- 由参数
定义的连接强度在本文中有两种形式。1)ST:前面提到的
。2)BCT:连接的中介中心性,即所有节点对间的最短路径中通过该连接的数量。
4. 实验
在接下来的实验中,如果
,则让
,其中
为节点数目。
4.1 数据集
本次实验使用了来自Facebook上的五个真实数据集,即五个大学的Facebook社交网络:
四种模型:
- 高BCT优先,即中介中心性强的优先转发,
。
- 高连接强度优先,即连接强度大的优先转发,
。
- 弱连接强度优先,即连接强度小的优先转发,
。
- 随机选择,即随机选择邻居节点进行转发,
。
将传播结束后了解到信息I
的用户比例定义为信息覆盖率,作为评价指标,用
表示。
4.2 实验结果
五个网络上的实验结果如下所示:
观察上图可知:
- 对于除Caltech之外的所有网络数据集,使用非弱连接强度优先策略的信息覆盖率在扩散过程中迅速增加,仅在10-30跳后就达到1左右。事实上,如果意识到信息的新节点的数量为new,那么对于非弱连接优先策略,甚至在10跳内,new就可以达到最大值。这种现象说明了信息在OSN中传播的迅速和广泛。
- 虽然高BCT优先是在线社交网络中信息传播最快的方式,但其性能并不能和随机选择以及强连接优先策略拉开差距。这一观察结果表明,在OSN中高连接强度优先策略的自然信息扩散是相当令人满意的,因为它只是比高BCT优先策略稍微慢一点,但后者通常是昂贵的,甚至是不切实际的,因为当网络规模非常大时计算中介中心性是很困难的。
- 高连接强度优先策略的性能优于弱连接强度优先策略,但其性能不如随机选择策略。这是因为随机选择可以找到最多的重新发布节点,这有利于信息在网络中快速传播。相比之下,弱连接强度优先策略选择的发布路径非常稀疏,这阻碍了信息的进一步传播。如下所示:
这一观察揭示了两个事实。一方面,与弱关系相比,强关系更有利于OSN的信息扩散,这符合直觉。然而,另一方面,仅靠牢固的关系并不足以扩大信息的传播。事实上,正是弱关系使随机选择策略优于强关系优先策略。在下一节中,将详细介绍弱关系在OSN中的特殊作用。
- 对于Caltech网络,弱连接优先策略的表现接近强连接优先策略。这是因为Caltech区别于其他网络的一个主要参数就是聚类系数
。也就是说,Caltech的聚类系数比其他网络高得多,这说明聚类系数与节点间的信息扩散也有一定的关系。
4.3 信息强度的影响
为了说明信息强度对信息扩散的影响,使用不同的
值对三个数据集进行了实验。实验结果如下所示:
可以看出,对于所有的模型,随着
的增加,
明显增加,当
时,
接近1。这说明信息强度确实对在线社交网络中的信息扩散有很大的积极影响。另一个观察结果是,无论
的值是多少,随机选择策略仍然比强连接优先和弱连接优先策略表现最好,不过当
上升时这种差距在缩小。
5. 总结
本文研究了在线社交网络中节点间连接强度对信息传播的影响,并提出了一个新的信息传播模型。模型分析表明:(1)采用信息推送机制的OSN的自然信息传播速度非常快。(2)由于桥梁效应以及与聚类系数的负相关关系,弱连接对OSN的信息扩散起着重要作用。(3)对于聚类系数很高的网络,弱连接强度优先策略可以加快信息的传播。
在未来的工作中,作者计划将模型扩展到一个面向个体用户的模型,该模型可以表征网络用户的差异。
今日音乐推荐