谭振华 时迎成 石楠翔 杨广明 王兴伟
(东北大学软件学院 沈阳 110819)
(tanzh@mail.neu.edu.cn)
摘 要 社交网络空间的谣言传播行为具有极大的危害性,探索谣言传播规律与分析模型成为当前研究的热点之一.传统谣言传播分析模型大都基于SIR等传染病传播模型,能对在线社交网络空间的谣言传播过程进行粗粒度刻画,但并未充分考虑社交网络本身特征.鉴于此,结合引力学思想,提出了一种新的在线社交网络空间谣言传播分析模型GRPModel.该模型借鉴引力学思想,从用户和谣言信息2个角度出发,探索谣言在用户间的传播规律.以用户为核心,基于用户间的关系、信息在用户间的传播关系、谣言接触率、转发率等对用户影响力、谣言影响力进行建模,对谣言信息的传播进行量化,并充分考虑用户的个性化特征,构建相应的建模与分析函数.最后利用新浪微博真实社交网络空间信息,对GRPModel进行分析验证,验证结果证明了所做模型的正确性和有效性.
关键词 谣言传播模型;微博分析;在线社交网络;信息扩散;引力学
随着互联网的快速发展,在线社交网络(online social network, OSN)已深入到人们生产生活的方方面面.然而所滋生的一系列谣言正在侵蚀着人们的日常生活,冲击着网络与社会的正常秩序.相比日常社会中的谣言,网络空间中的谣言传播速度更快、波及范围更广、不可控因素更多,所以研究社交网络空间中的谣言行为传播规律,对控制谣言传播具有积极意义.
随着OSN平台(如Twitter、Facebook、LinkedIn、新浪微博)的快速发展,其开放性催生了网络空间的谣言传播.在线社交网络具有开放性特点,注册用户可以随时发表或转发微博信息.微博文章简短,便于快速阅读,迎合了移动互联时代人们的阅读认知方式.谣言传播者利用在线社交网络的以上特点,以社会问题等具有吸引力的信息为出发点,杜撰或篡改事实传播微博谣言,有的甚至通过专业网络推手进行策划和发布,所以对社交网络空间谣言传播规律的探索成为了研究热点.
针对在线社交网络空间的谣言传播特点,很多研究者基于传染病传播模型 [1-8] 展开了对网络谣言传播建模的研究,这些模型大都从易感、免疫、恢复3个维度刻画谣言传播的过程,大都是基于经典SIR(susceptible infected recovered)模型进行改进,在一定程度上可以刻画社交网络空间的谣言传播规律,但在具体的社交网络中却遇到一定瓶颈.于是很多研究者引入其他自然科学领域相关模型展开了对谣言以及舆论传播规律的探索,如势能模型、遗传学模型、羊群效应、弹性碰撞模型等 [9-12] .在我国,随着新浪微博的快速发展,国内很多学者针对新浪微博信息传播扩散的特点,通过数据挖掘、概率传播、预测分析等方法对新浪微博进行了系列研究 [13-18] .然而,影响谣言传播的因素众多,在具体网络空间的分析应用中,传统模型仍需要在3个方面加强:
1) 社交网络空间影响谣言传播的因素有很多,但传统模型没有谣言个性化特征参数量化机制,都按照一个标准处理谣言,忽略了谣言的个性化参数;
2) 社交网络中用户对谣言的接触率是随着时间推进而递减,并且在社交网络中不是所有的用户都是易感节点,只有接触到谣言的用户才有可能感染谣言,使之成为传播节点;
3) 社交网络用户的个性化信息传播行为是谣言在网络空间中传播的动力因素,所有用户不能够同等对待.
针对这3点不足,本文以真实的新浪微博谣言传播数据为基础,通过量化谣言特征以及用户特征,对谣言的传播进行建模,基于此提出了基于引力学的谣言传播模型(gravity-inspired rumor propagation model, GRPModel),主要创新之处在于:
1) 从谣言和节点2方面进行传播参数建模,对谣言的影响力、用户的影响力、用户之间的关系以及用户与谣言之间的关系进行量化,细粒度刻画谣言传播的属性;
2) 对用户与谣言的接触率进行函数建模,勾画出用户接触率递减曲线,从传播过程角度分析谣言的传播;
3) 对用户的行为进行分析与建模,充分考虑每个用户的个性化对谣言传播的影响.
在线社交网络已经成为人们日常生活的一部分,社交网络分析也成了近年来研究的热点之一.近年来网络谣言层出不穷,其带来的影响也愈发严重,针对此现象广大学者开始对网络空间谣言的传播规律进行细致的建模研究.
大多现有的模型是基于传染病模型展开理论与实验分析的.文献[1]提出了一个基于BBV(barrat barthelemy vespignani)网络谣言传播模型,基于有权重的社交网络模型展开,考虑BBV网络遗忘机制,认为随着遗忘率的增加,谣言的影响力逐渐降低,并得出了谣言在加权网络中的传播速度比其他网络慢,而且在BBV网络中谣言传播存在阈值,与传播机制无关.文献[2]扩展了经典的SIR模型,在SIR模型中增加了从无知态到免疫态的直接联系并通过节点的遗忘和记忆机制增加了休眠节点这一状态.文献[3]则在SIR模型的基础上,将感染节点状态分为积极感染和消极感染,并扩展SIR模型为SPNR(susceptible positive-infected negative-infected removed)模型,在SPNR模型中获得了谣言的爆发阈值,在此基础上提出了一种舆论引导的谣言控制策略.文献[4]提出了8状态的谣言传播模型.除此之外,还有很多学者对SIR模型进行了不同程度的改进,如文献[5-8].
很多学者将谣言传播与其他领域模型相结合,构建了一系列有效的谣言传播模型.文献[9]提出了基于势能的谣言传播模型,该模型对信息的重要性、个人的辨识力以及信息的可信度进行了度量,但是该模型只是通过经验意识判定2个节点的信任度和它们之间的距离成反比,而没有对其信任度进行精确的建模度量.文献[10]提出了社交网络中基于遗传学的谣言扩散模型,把一个带有多条谣言的个体看作一个包含一系列基因的染色体,指定了染色体间的交互规则,以此来对个体间谣言的交互进行建模.文献[11]研究了公众舆论传播中羊群行为的演化过程,运用羊群行为的演化模型来分析公众网络中的舆论传播,并根据贝叶斯规则来分析这一过程.文献[12]借鉴弹性碰撞过程中的能量传输模型提出了新的谣言扩散模型,综合考虑了节点及谣言的历史行为,对OSN中的谣言传播过程进行了量化.
除此之外,很多学者对新浪微博传播方式、用户行为习惯开展了研究.文献[13]对新浪微博的信息传播进行分析与预测,挖掘了多种用户以及微博特征并对其做了详细的分析,以基于用户属性、社交关系和微博内容3类综合特征为基础对用户的转发行为进行预测.文献[14]以真实新浪微博谣言为基础,对采集到的新浪谣言微博数据进行了不同角度的分析统计,研究了谣言的影响力及其产生与消亡的特点,对新浪微博谣言进行了比较全面的定量分析研究,最后提出了一套综合机器智能和群体智能的自动辟谣框架.文献[15]基于微博平台提出了基于把关人行为的微博虚假信息及早检测方法,利用模型状态持续时间概率为Gamma分布的隐半马尔可夫模型来刻画信息转发者和评论者对流行的真实信息的把关行为,对微博用户节点的行为进行了详细的分析与建模.文献[16]在微博平台上提出了基于PageRank和用户行为分析的微博用户影响力算法,对微博用户的影响力进行了详细的量化.文献[17]对新浪微博的用户行为进行了分析,例如发表微博的驱动力等.文献[18]对新浪微博用户从用户的信息传播能力的角度进行划分,用户最终被分类为普通用户、桥梁用户和核心用户.文献[19]中作者用数学的方法来描述和预测用户行为,并引进羊群效应、曝光效果、好奇心等,提出一种不对称的用户兴趣模型.
独立级联(independent cascade, IC)模型 [20-22] 作为信息扩散模型的一种,在信息扩散乃至谣言扩散领域应用十分广泛.在IC模型中,信息的传播是这样定义的,每个初始激活节点会产生自己独立的扩散级联,级联之间是相互独立,互不干扰的.例如:在网络拓扑中,初始节点都是休眠节点,且每个节点被激活的概率分别为 p (·),假设 u 作为起始节点,在时刻 t 节点 u 会以一定的概率 p ( u , v )去激活它的每一个粉丝节点 v ,如果在时刻 t ,粉丝节点 v 的多个上游节点同时要激活它,那么这些上游节点会随机排队去尝试激活,所有的激活尝试都在时刻 t 内完成.无论上游节点是否成功激活粉丝节点 v ,在随后的任意时间都不会再去尝试激活粉丝节点 v ,如果粉丝节点 v 在时刻 t 被激活,那么该节点会在时刻 t +1去激活它的粉丝节点,该进程直到不再有激活行为发生而终止,这整个的信息扩散过程就称为IC模型.
本文所提模型是对IC模型的扩展,在上游节点去激活下游粉丝节点之前加入了接触率这一概念,只有接触到上游节点谣言微博的粉丝用户才有机会被激活,并且接触率是个动态的数值,每一时刻下游粉丝节点对上游节点所原创、转发谣言微博的接触率都不同.
综上,本文是将谣言传播与物理学理论相结合,其中更侧重于量化谣言的性质与用户节点的性质,并对用户和谣言的关系进行详细的量化与建模,充分分析用户节点的网络行为,在各特征值量化的基础上进行谣言传播模型的构建,从而探寻新浪微博谣言的传播规律以及用户节点的转发规律,为今后的微博谣言的控制提供一些新的思路.
本节首先介绍万有引力,在此启发下结合在线社交网络谣言传播规律提出GRPModel.
2 . 1 GRPModel思想来源
万有引力定律表明,任意2个质点通过连心线方向上的力相互吸引.GRPModel的思想来源于万有引力定律在人造卫星中的应用.人造卫星从发射到入轨过程中,当速度达到第一宇宙速度时,人造卫星就会摆脱地球的引力,围绕地球做匀速圆周运动.若发射速度大于等于第二宇宙速度,则人造卫星就会摆脱地球吸引力的束缚,从而摆脱地球飞向太阳系,成为绕太阳运行的人造卫星.简单地说,人造卫星摆脱地球引力的方式有2种:1)在发射阶段,就以大于等于第一宇宙速度发射;2)卫星在轨道上运行时,人造卫星二次点火做正功,使其速度足以摆脱地球的引力.
本文将万有引力模型与谣言传播模型相结合,以万有引力模型中的行星表示谣言传播模型中的用户节点,以人造卫星表示谣言传播模型中的谣言 rumor ,以人造卫星围绕行星运转的情况表示谣言在用户节点之间的传播转发关系,从而面向在线社交网络提出新的谣言传播分析模型GRPModel.
2 . 2 基于万有引力的谣言传播扩散模型
OSN是有向图Graph=
Node,Edge
,其中Node代表社交网络中的用户节点集,Edge代表节点间有向关系集 [23] .N out (u)表示用户u的粉丝节点集(后继),其粉丝数为|N out (u)|;N in (u)表示用户u的关注节点集(前驱),其关注节点数为|N in (u)|.
文献[2-8]中阐述了在线社交网络中谣言传播的动态性与传统流行性病毒传播的动态性不同,在线社交网络中,用户节点任意时刻面对谣言所处的状态可能为以下3种:1)沉默状态,即用户节点没有接触到谣言时的状态,由于种种原因可能会使用户节点遗漏掉部分上游节点所传播的谣言;2)接触状态,即用户节点接触到谣言的状态,接触状态下的用户节点又根据自己的兴趣爱好或者行为习惯选择转发该谣言或不转发该谣言这2种子状态;3)免疫状态,即用户节点传播完谣言时的状态和用户节点接触了谣言但没有传播谣言的状态.该现象和万有引力模型中行星所处的状态非常相像,在万有引力模型中,行星也有3个可能的状态,没有捕获到人造卫星、捕获到人造卫星并且人造卫星在其轨道上做匀速圆周运动、捕获到人造卫星但人造卫星二次点火脱离该行星的万有引力.因此,在GRPModel中,用户节点的状态集可以定义为
沉默状态,接触状态,免疫状态
,其中接触状态又可以分为
接触不转发状态,接触转发状态
这2个子状态.
定义谣言的原创用户为u,其粉丝节点为v.在时刻t选取节点u为谣言扩散的种子节点,将u发表谣言看作是谣言rumor在节点u上发射,这时的rumor会脱离u的引力,奔向其粉丝节点v的引力场,此时表示谣言产生.在时刻t+1,谣言以概率p(·)进入节点v的引力场,其中p(·)则是根据节点v的活跃度、网络行为习惯量化的,并且在时刻t+1,粉丝节点v面对谣言会有2个选择:1)不转发此条谣言;2)选择转发此条谣言.
重复以上步骤,即为 GRPModel 的扩散过程. GRPModel 中,将谣言影响力充当rumor围绕u运动的轨道半径,将用户节点u影响力的加权值充当球体u上的重力加速度,更多的关于这些参数的描述和数学建模,将在第3节详细阐述.
3 . 1 谣言传播建模
3.1.1 用户的综合影响力建模
节点的性质包括节点的认证声誉度、活跃度、节点粉丝数等,本节将对节点的性质进行定义建模.
定义1 . 认证声誉度.CR(u)∈[0,1]表示用户u的认证声誉度.
新浪微博用户的认证类型有很多类型(主流有11种),认证作为用户声誉的基本保证形式.本文将新浪微博的认证类型按认证的难易程度分为{高,中,低}3大类.‘高’类对应{政府,团体(机构)}等认证;‘中’类对应{名人,企业,媒体,校园,网站,应用}等认证;‘低’类对应{微女郎,初级达人,中高级达人}等认证.{C high ,C middle ,C low }对应{高,中,低}3类认证的声誉值,C null 表示无认证用户的声誉值,且C high +C middle +C low +C null =1,由谣言分析员按数据集实际情况分析判断具体值.根据u的认证类型对应的{C high ,C middle ,C low ,C null }值确定u的认证声誉度CR(u).
定义2 . 发博量.
表示用户u在 OSN 中的发博总量
表示用户u平均每小时的发博量.令Age u 表示用户u的微博龄(单位是 h ),则:
其中
及Age u 信息可以直接从节点u的属性中获取.
定义3 . 影响力覆盖指数.Q(u)表示用户u的影响力覆盖指数,用u的粉丝数|N out (u)|的常用对数来表示,即:
Q(u)= lg |N out (u)|+1.
定义4 . 微博产出量影响力.IF(u)表示用户u的微博产出量影响力.
微博信息的产出量可以作为衡量用户影响力的指标之一,为兼顾发博的动态性,本文以平均每小时发博量
为u的微博产出量影响力基数,用Q(u)作为覆盖指数,则:
定义5 . 综合影响力.E u 表示用户u的综合影响力,由IF(u),|N out (u)|,CR(u)组成,即:
E u =IF(u)×|N out (u)|×CR(u).
可以看出,发博数越多,粉丝数越多,认证声誉度越高,则用户u的综合影响力E u 越高.
3.1.2 用户的谣言接触率建模
用户对谣言的接触率对是否传播谣言有重要影响.本文从用户的活跃性及上游信息对谣言接触的干扰性两方面对谣言接触率进行建模.
定义6 . 发博概率.ε(η)表示24 h 中任意时刻(以 h 为单位)以均值为基准的发博概率.
为了能够比较准确地描述用户的网络行为习惯,本文采用新浪微博官方提供的微博用户日常发博行为习惯数据来描述用户在1 d之中的任意时刻发博概率分布,图1是2015年度新浪微博用户发展报告 [24] 所给出的2015年度用户日常发博行为习惯.不难看出,在凌晨1:00—6:00时段,多数微博用户处于静默状态,这一时间段微博平台产出的微博总量相对较低;在9:00—23:00时段,多数微博用户处于活跃状态.

Fig. 1 Users’ daily habit of publishing micro-blogging
图1 微博用户日常发博行为习惯
以图1所示的平均值为基准,确定每个时刻用户的发博概率,结果如表1所示:
Table 1 Probability Distribution of Publishing Micro - Blogging
表1 微博用户日常发博概率分布

定义7 . 微博产出量.
估计用户u在任意时刻的微博产出量,刻画其活跃程度.通过
及发博概率ε(η)来计算,即:
其中,η∈[00:00,23:00],表示以小时为单位的任意某个时刻.本文所提模型中的时刻都以η表示,其本质是1 h 内的时间段,以整点小时为计算依据.
定义8 . 微博信息更新屏数.page(u,η)表示用户u在时刻η所获取的微博信息更新屏数.令用户u每屏所展示的微博数量为Num page (u)条,则:
page ( u , η )=
.
定义9 . 接触率.
表示用户u对其关注节点v所发布的谣言rumor在其产生ts时间步内的接触率.定义δ(u,ts)作为用户u因上游节点微博导致刷屏而产生接触衰减率.则:
其中ξ为衰减速度,ξ越大,衰减越快.可以看出,活跃度越高,衰减率越低,谣言接触率越高.
3.1.3 谣言影响力建模
谣言影响力是谣言信息本身被用户接受的能力.本文从谣言所属信息类型受欢迎的程度、信息本身包含的敏感特征2个角度对谣言影响力建模.
定义10 . 欢迎程度.L(rumor)表示谣言所属信息类受欢迎的程度.
1) 采用朴素贝叶斯分类算法 [25] 对含有n条样本微博的数据集进行文本分类. X i =(x 1 ,x 2 ,…)表示每条微博信息info(i)的分词形成的向量.令Class={class j |j∈[1,m]}表示微博的m个类别集合.则:
P(class j |info(i))=
.
(9)
选择最大概率对应的分类作为微博信息info(i)所属的类别class(info(i)).
2) 将class j 类微博信息中的转发数、评论数、点赞数作为3个主成分因子F 1 , F 2 , F 3 .令VAR(F 1 ),VAR(F 2 ),VAR(F 3 )为对应因子在数据集中的方差,令FS 1 , FS 2 , FS 3 分别为对应的因子得分,PC 1 , PC 2 , PC 3 分别为对应的主成分得分,则PC 1 =FS 1 ×
,PC 2 =FS 2 ×
,PC 3 =FS 3 ×
.根据主成分分析方法最终得到类别class j 的综合得分score(j),其中S max 为最高得分,S min 为最低得分.
3) 按照式(9)方法得到谣言rumor对应类别,按照主成分分析获得对应得分S rumor .令谣言受欢迎程度的范围为[L min , L max ],则:
L(rumor)=
×(S rumor -S min )+L min .
(10)
谣言的影响力主要取决于谣言文本的描述,谣言描述的越接近真实,其越容易被用户所相信,越容易被用户所转发.微博谣言可能会含有@符、图片、视频,这些特征因子的存在会增加用户转发此谣言的概率.令Inc_@,Inc_Image,Inc_Video分别表示历史谣言信息中包含@符、图片、视频的谣言转发数量,NonInc表示不包含@符、图片、视频的谣言信息数量.用k(rumor)表示包含@符、图片、视频情况下的谣言影响力增量,即:
k(rumor)=
+
+
.
定义11 . 谣言影响力.E rumor 表示谣言rumor的影响力,由谣言对应信息类别的受欢迎程度及特征因子增量组成,即:
E rumor =L(rumor)+k(rumor).
3 . 2 GRPModel传播扩散过程
根据动能定理,质量为m u 的用户u上的谣言rumor,其质量为m r ,速度为
则谣言的动能为
E1 rumor =
.
用 g u 表示用户u上的重力加速度,表示如下:
g u =
.
谣言的影响力越大,则谣言被转发的概率越大,映射到引力模型则表示用户u上的谣言rumor所处的轨道半径
越大.因此,本文中
根据重力势能定理,则该谣言的重力势能为
又因为m r × g u =
,其中 G 是万有引力常量,可得出:
E2 rumor =
.
当E1 rumor -E2 rumor =0时,rumor恰好克服用户u的引力逃逸,则速度
为
在本文中传播用户具有2种属性状态,分别为原创用户和2度转发用户.
1) 当传播用户属于谣言原创用户时,假设为用户u,谣言rumor会以式(17)中的速度
离开用户u并摆脱其引力束缚,此时表示用户u发表了谣言.当rumor离开u的轨道时,以一定的概率进入其粉丝节点v所处的引力场.由于进入了v的引力场,谣言rumor的运行速度会自动由
变为
表示v接触到谣言rumor,此次谣言传播完成.
2) 当传播用户为2度转发用户时,假设为用户v,它本身属于上游节点u的粉丝节点.用户v接触到谣言时,谣言rumor以速度
绕节点做匀速圆周运动,令R v 表示v的半径,则:
随着v对谣言rumor的接触,v可以选择转发谣言和不转发谣言.
选择转发即为用户v对谣言所做正功能满足谣言rumor摆脱v的吸引,本文以用户v对谣言rumor的相信程度
和上游用户u的影响力E u 之和来表示该正功PW v ,即:
接下来推导用户v对谣言的相信程度
的计算方法.根据能量守恒定律,节点传播谣言需满足:
+PW v ≥
,
则PW v ≥
.进而求得相信度
的临界条件:
用rset表示v所接触过的谣言集合,则用户u上的谣言rumor被下游节点v转发的概率为
p(u,v)=1-
.
(22)
因为用户节点转发谣言的概率会伴随着时间而衰减,所以此处添加时间衰减函数 [26] ,最终得到间隔ts时间步时下游用户v转发u的谣言的概率:
随着v对谣言rumor的相信度的不断减少,则
会不断减小,rumor所需的向心力会减小,重力不能完全提供向心力,此时重力大于rumor所需向心力,rumor就会做近心运动,从而逼近用户v,并且最终会降落到v上,代表着此条谣言没能成功被v转发.
本节设计了5个实验分别验证本文所提模型,包括验证用户影响力、谣言影响力、各类参数对谣言传播的影响.表2是对所做实验的描述:
Table 2 Experimental Description
表2 实验描述

4 . 1 实验1 : 谣言影响力算法的有效性验证
4.1.1 信息的受欢迎程度
谣言文本分析采用开源ICTCLAS2016系统 [27] ,它的功能主要包括汉语分词、词性标注等.为了更好地识别出命名实体,本文对ICTCLAS的分词词典进行了扩充,新增专有名词50 520个.
统计微博受众差异的语料是从“新浪头条”采集得到,时间跨度为2015-06-01—2015-12-31,共计3 600余条微博信息.首先统计出每类别微博信息的转发、评论以及点赞数量的均值,从而确定每类微博信息的受欢迎程度.利用统计分析软件SPSS19.0进行主成分分析,如表3所示.为了使变量累计贡献率达到80%以上,本文选择前2个因子,最终得出如表4所示综合评分.本文以表4所示的每类微博的综合评分根据式(10)得到最终的谣言受欢迎程度,其中受欢迎程度的范围[ L min , L max ]设为[30,80].
Table 3 List of Total Variance Explained of Data
表3 数据的解释总方差

Table 4 List of Comprehensive Ratings
表4 数据的综合评分

从表4可以看出,体育类、养生百科类、突发灾难类、八卦娱乐类和社会万象类微博信息的受欢迎程度L(rumor)比较高,基本符合广大微博用户的兴趣点;而财经类、政治热点类、拍案反腐类微博信息的L(rumor)比较低,这一类的信息被微博用户转发的量比较低.
① 具体谣言内容在论文评审阶段已提交,鉴于安全考虑,在论文发表阶段采用编号Ra, Rb分别代替.
4.1.2 谣言影响力特征因子权值设定
本文从新浪微博社区管理中心 [28] 抓取了跨度从2015-08-15—2016-08-08共计2 138条被举报的真实微博谣言,抓取的数据格式包括用户名、发表时间、谣言内容、图片链接 URL 、转发数、评论数、点赞数.经统计,所抓取的微博谣言样本库的平均转发数为46,平均评论数为18,平均点赞数为28.我们对2 138条谣言信息中所有转发信息进行了统计:
1) 含有@符的谣言转发数Inc_@=63;
2) 含有图片的谣言转发数Inc_Image=68;
3) 含有视频的谣言转发数Inc_Video=145;
4) 不含有这3类特征的谣言转发数为NonInc=9.
含有@符、图片以及视频的谣言被转发量要大于不含这些特征因子的谣言,并且不同的影响力特征因子对谣言影响力所带增量不同,实验统计得出谣言影响力增量k(rumor)=30.7,可以看出识别谣言中的影响力特征因子对定量谣言的影响力十分重要.
4 . 2 实验2 : 用户影响力算法的有效性验证
为了计算用户影响力,我们追踪了2条谣言 ① 的传播轨迹,编号分别为Ra,Rb.谣言Ra发表于2015-08-15T18:08,截至2016-03-13已有25 200次转发、7 057次评论以及60 050次点赞;谣言Rb发表于2015-08-19T02:12,截至2016-03-12已有13 874次转发、6 128次评论以及9 376次点赞.本文分别抓取了这2条微博谣言的所有转发用户的基本信息,包括其粉丝数量、转发时间以及转发节点的基本信息等.此外本文还随机抓取了10条转发量大于10 000条的非谣言微博的转发用户信息,记为Infor1~Infor10.这12条信息及其转发信息形成了12个样本数据集,在此基础上我们验证了用户影响力 E u 的有效性.该实验所需要的参数详细定义如表5所示:
Table 5 Parameters of Experiment of E u
表5 E u 参数列表

我们使用Spearman等级相关系数来验证 E u 的准确率,以真实转发量作为考量依据,并以粉丝数充当用户影响力作为对比实验.基于Spearman,转发数与粉丝数、转发数与用户影响力 E u 的等级相关性结果如表6所示:
Table 6 Significant Correlation Coefficients of
Spearman ’ s Rank
表6 Spearman显著等级相关性

通过Spearman等级相关性分析可以看出,用户粉丝数以及 E u 与真实谣言转发量都有很强的相关性,并且 E u 与谣言转发量之间的相关性要高于粉丝数量与谣言转发量之间的相关性,即:用户影响力越高其转发的谣言被2次转发的数量越多.其中非谣言微博数据集下,用户影响力 E u 与微博的转发量之间的等级相关性大于0.41,所以加入了认证声誉度量以及用户活跃性度量的影响力更具说服力.
4 . 3 实验3 : 用户的谣言接触率有效性验证
该实验主要验证所提用户的谣言接触率的有效性.分别取 ξ =1/6, ξ =1/12, ξ =1/24,以验证式(8)中 ξ 值对接触衰减率的影响.实验结果如图2所示:

Fig. 2 Decay curves of the contact rates
图2 接触率衰减曲线
通过实验得出当 ξ =1/12时,实验结果拟合真实情况,所以选定参数 ξ =1/12.接下来,利用谣言Ra所抓取的22 516个粉丝数据,计算其上游用户的接触率并求出其平均值,分别对比结合 ε ( η )与未结合 ε ( η )的接触率情况.结果如图3所示:

Fig. 3 Trends of user’s contact rate with time
图3 用户对谣言接触率随时间变化曲线
可以看出本文所设计的用户接触率算法更符合微博用户使用微博的时间习惯,即在01:00—07:00时,用户基本都处于静默状态,而到了早晨7点左右,用户使用微博的频率又开始上升,并且总体下降趋势符合对比实验中的随时间指数下降算法拟合出来的衰减变化曲线.但未考虑用户使用微博时间习惯的算法所计算出来的用户接触率只是简单地随着时间而指数下降,这种下降趋势不符合用户使用微博的行为习惯.
4 . 4 实验4 : 各参数对谣言传播的影响

Fig. 4 Experimental data topology
图4 实验数据拓扑
该实验主要验证各类参数对谣言传播的影响,包括用户接触率、上游用户影响力、谣言影响力对谣言传播的影响.模拟实验数据选用谣言Ra的用户真实数据.本数据集利用北京大学PKUVIS微博可视分析工具 [29] 采集得到,并得到谣言转发的网络拓扑图,拓扑图如图4所示:
4.4.1 接触率对谣言传播的影响
该实验主要观察接触率这一参数对谣言传播过程的影响,本实验以24 h为1个周期,验证周期里谣言在数据集上的传播情况.本实验中,初始用户 u 0 =3 876 165 335 330 640,谣言的影响力 E rumor =0.5,分别在接触率为
与
条件下(简记为 CP ,2 CP ),在NetworkX中模拟传播.
图5描述了每一时刻接触到谣言的用户概率密度统计结果.可以看出,整个社交网络的用户接触率递减曲线基本符合实验3所得结果,即用户节点在早晨时刻的活跃度会有小幅上升的趋势.图6描述了接触率在 CP 和2 CP 情况下用户接触谣言的累积密度变化曲线,图7描述了接触率在 CP 和2 CP 情况下用户感染谣言的累积密度变化曲线.

Fig. 5 Density of rumor contacted users
图5 接触谣言的用户密度趋势

Fig. 6 Cumulative density of rumor contacted users
图6 接触谣言的用户累积密度趋势

Fig. 7 Cumulative density of rumor infected users
图7 感染谣言的用户累积密度趋势
从实验结果可以看出,用户初始阶段对谣言的高接触率对谣言的传播影响比较大,但随着时间的流逝,高接触率所带来的感染谣言的用户数量会逐渐趋于稳定,并且高接触率会加速谣言的扩散.
4.4.2 上游用户影响力对谣言传播的影响
为验证上游用户影响力对谣言传播的影响,本实验中,初始用户 u 0 =3 876 165 335 330 640,谣言影响力 E rumor =0.5,取上游用户影响力为 E u , E u +0.1以及 E u +0.2.如果 E u +0.1≥1或者 E u +0.2≥1,则取 E u =1.在NetworkX中分别对这3个用户影响力情况进行模拟.图8、图9分别是该条件下感染谣言的用户概率密度和累计概率密度结果.

Fig. 8 Density of rumor infected users under different E u
图8 不同E u 情况下的感染谣言的用户密度

Fig. 9 Cumulative density of rumor infected users under different E u
图9 不同E u 情况下的用户感染累积密度
从图8看出,上游用户即关注用户的影响力越大,谣言扩散得越快,在每一时刻感染的用户越多,所以上游用户的影响力对谣言的传播起促进作用,这也充分说明在谣言扩散建模方面,需要考虑上游用户的用户影响力,这也为以后的谣言控制提供了些许建议,如何能识别出社交网络中的高影响力用户并对其加以控制,就能在一定程度上控制谣言的传播.从图9可以看出,排除其他因素,谣言最终的影响范围与用户的影响力存在着紧密的关联.
4.4.3 谣言影响力对谣言传播的影响
该实验主要为了验证谣言影响力对谣言传播的影响.本实验中,初始用户 u 0 =3 876 165 335 330 640,谣言影响力分别取 E rumor =0.5, E rumor =0.6, E rumor =0.7.在NetworkX中分别对这3个谣言影响力情况进行模拟.图10、图11分别是该条件下感染谣言的用户概率密度和累计密度结果.

Fig. 10 Density of rumor infected users under different E rumor
图10 不同E rumor 情况下感染谣言的用户密度

Fig. 11 Cumulative density of rumor infected users under different E rumor
图11 不同E rumor 情况下感染谣言的用户累积密度

Fig. 12 Experimental social graph
图12 实验网络图
从图10可以看出,谣言影响力作为谣言传播扩散模型中的最重要特征,它的大小也和谣言影响范围紧密相关.从图11可以看出,谣言的影响力越大,其所影响到的用户总数也是越多的,所以谣言的影响力对谣言的传播也起到了促进作用.
4 . 5 实验5 : GRPModel与SIR及SPNR的性能比对
本节通过对比GRPModel、经典SIR模型以及SPNR模型验证GRPModel的正确性和有效性.我们在4.2节所抓取到的用户信息数据集的基础上利用Gephi [30] 开源软件模拟生成了一份包含500个节点以及6 325条边的社交网络数据,如图12所示.本文将采用此数据集进行模型对比实验.
SIR定义整个社交网络的节点有3种状态:1)易感节点(susceptible), S ( t )表示易感节点在时刻 t 的概率密度;2)感染节点(infective), I ( t )表示感染节点在时刻 t 的概率密度;3)免疫节点(recovered), R ( t )表示免疫节点在时刻 t 的概率密度.由易感节点转变为感染节点的概率为 λ ( x ),由感染节点转发为免疫节点的概率为 μ ( x ),社交网络中节点的平均出度为
那么SIR模型的平均场方程为
![]()
![]()
=μ(x)I(t).
而 SPNR [3] 模型中定义整个社交网络中的节点有4种状态,分别是易感节点S、积极感染节点I p 、消极感染节点I n 、免疫节点R.由易感节点转变为积极感染节点的概率为λ 1 ,由易感节点转变为消极感染节点的概率为λ 2 ,由积极感染节点转变为消极感染节点的概率为μ 1 ,由消极感染节点转变为积极感染节点的概率是μ 2 ,由积极感染节点转变为免疫者的概率为β 1 ,由消极感染节点转变为免疫者的概率为β 2 .
对比实验的详细参数如表7所示.利用 NetworkX 在模拟数据集上对 GRPModel 以及 SIR 模型和 SPNR 模型进行模拟,图13描述了相关结果.
Table 7 Parameters of Comparison Experiment
表7 对比实验参数列表


Fig. 13 Rumor propagation performance of GRPModel, SIR model and SPNR model
图13 GRPModel、SIR模型以及SPNR模型的谣言传播对比
从图13可以看出,通过与经典SIR模型以及SPNR模型的对比实验,本文所提出的GRPModel与SIR模型以及SPNR模型所模拟的谣言传播的变化趋势类似,即感染谣言的用户数都是先经过一个波峰,然后缓慢下降.然而相对于SIR模型与SPNR模型,GRPModel在谣言传播的模拟中更符合真实情况,即谣言的传播在用户活跃度普遍较高的早晨可能会出现一个小高峰,这种情况的出现是因为GRPModel在用户接触率这一参数下考虑了用户的行为习惯.
在线社交网络的谣言传播对人们的生活具有很强的破坏作用.传统的基于传染病的谣言传播分析模型未考虑社交网络中节点的特征,并不适合在线社交网络的谣言传播分析.本文受引力学思想启发,从用户和谣言信息2个角度出发,探索了一种新的面向社交网络谣言传播分析的模型GRPModel.本文以新浪微博谣言为研究对象,以对谣言的参数度量和传播节点的参数度量为主要出发点,其中包括谣言微博的影响力计算、用户节点的影响力计算、用户对谣言的接触率建模,最后提出基于引力学的谣言传播模型,并通过实验验证本文所提模型的合理性与有效性.
通过实验可以看出,谣言的影响力在谣言的传播过程中起着非常重要的作用,影响力越高的谣言其传播范围越广,当然用户对谣言的接触率也是一个不可忽略的因素,通过实验证实整个社交网络用户节点的接触率也会对谣言的传播起促进作用,即高接触率会使谣言的传播范围更快更广.此外,上游节点的用户影响力也在谣言传播过程中起着举足轻重的作用.
GRPModel基于新浪微博网络进行建模,其方法亦可用于其他社交网络平台的谣言分析.
参考文献
[1]Zhao Laijun, Wang Xiaoli, Qiu Xiaoyan, et al. A model for the spread of rumors in barrat barthelemy vespignani (BBV) networks[J]. Physica A: Statistical Mechanics and Its Applications, 2013, 392(21): 5542-5551
[2]Zhao Laijun, Wang Jiajia, Chen Yucheng, et al. SIHR rumor spreading model in social networks[J]. Physica A: Statistical Mechanics and Its Applications, 2012, 391(7): 2444-2453
[3]Bao Yuanyuan, Yi Chengqi, Xue Yibo, et al. Precise modeling rumor propagation and control strategy on social networks[G] 
Applications of Social Media and Social Network Analysis. Berlin: Springer, 2015: 77-102
[4]Zhang Nan, Huang Hong, Su Boni, et al. Dynamic 8-state ICSAR rumor propagation model considering official rumor refutation[J]. Physica A: Statistical Mechanics and Its Applications, 2014, 415: 333-346
[5]Zhao Laijun, Wang Qin, Cheng Jingjing, et al. Rumor spreading model with consideration of forgetting mechanism: A case of online blogging LiveJournal[J]. Physica A: Statistical Mechanics and Its Applications, 2011, 390(13): 2619-2625
[6]Xia Lingling, Jiang Guoping, Song Bo, et al. Rumor spreading model considering the importance and fuzziness of information[C] 
Proc of the 9th Int Conf on P2P, Parallel, Grid, Cloud and Internet Computing. Piscataway, NJ: IEEE, 2014: 161-166
[7]Wang Jiajia, Zhao Laijun, Huang Rongbing. 2SI2R rumor spreading model in homogeneous networks[J]. Physica A: Statistical Mechanics and Its Applications, 2014, 413: 153-161
[8]Hong Weijun, Gao Zhipeng, Hao Yuwen, et al. A novel SCNDR rumor propagation model on online social networks[C] 
Proc of IEEE Int Conf on Consumer Electronics-Taiwan. Piscataway, NJ: IEEE, 2015: 154-155
[9]Wang Li, Liu Fengming, Yang Rongrong, et al. Research on spreading mechanism of network rumors based on potential energy[C] 
Proc of Int Conf on Cyber-Enabled Distributed Computing and Knowledge Discovery. Piscataway, NJ:IEEE, 2015: 282-285
[10]Wang Yannan, Chen Xiuzhen, Li Jianhua. A new genetic-based rumor diffusion model for social networks[C] 
Proc of Int Conf on Cyber Security of Smart Cities, Industrial Control System and Communications. Piscataway, NJ: IEEE, 2015: 1-5
[11]Li Yong, Li Li, Zou Kai. Modeling and analysis the evolution of herding behavior in public opinion propagation[C] 
Proc of Int Conf on Cyber - Enabled Distributed Computing and Knowledge Discovery. Piscataway, NJ: IEEE, 2015: 277-281
[12]Tan Zhenhua, Ning Jingyu, Liu Yuan, et al. ECRModel: An elastic collision-based rumor-propagation model in online social networks[J]. IEEE Access, 2016, 4(1): 6105-6120
[13]Cao Jiuxin, Wu Jianglin, Shi Wei, et al. Sina microblog information diffusion analysis and prediction[J]. Chinese Journal of Computers, 2014, 37(4): 779-790 (in Chinese)(曹玖新, 吴江林, 石伟, 等. 新浪微博网信息传播分析与预测[J]. 计算机学报, 2014, 37(4): 779-790)
[14]Liu Zhiyuan, Zhang Le, Tu Cunchao, et al. Statistical semantic analysis of Chinese social media rumor[J]. Scientia Sinica: Informationis, 2015, 45(12): 1536-1546 (in Chinese)(刘知远, 张乐, 涂存超, 等. 中文社交媒体谣言统计语义分析[J]. 中国科学: 信息科学, 2015, 45(12): 1536-1546)
[15]Xie Bolin, Jiang Shengyi, Zhou Yongmei, et al. Misinformation detection based on gatekeepers’ behaviors in microblog[J]. Chinese Journal of Computers, 2016, 39(4): 730-744 (in Chinese)(谢柏林, 蒋盛益, 周咏梅, 等. 基于把关人行为的微博虚假信息及早检测方法[J]. 计算机学报, 2016, 39(4): 730-744)
[16]Huang Lijuan, Xiong Yeming. Evaluation of microblog users’ influence based on pagerank and users behavior analysis[J]. Advances in Internet of Things, 2013, 3(2): 34-40
[17]Yan Qiang, Wu Lianren, Zheng Lan. Social network based microblog user behavior analysis[J]. Physica A: Statistical Mechanics and Its Applications, 2013, 392(7): 1712-1723
[18]Qi Chao, Chen Hongchang, He Chenglong, et al. Role analysis of social network users based on neighborhood dissemination capability[C] 
Proc of the 5th Int Conf on Software Engineering and Service Science. Piscataway, NJ: IEEE, 2014: 1084-1087
[19]Zhang Nan, Chai Yueting, Liu Yi, et al. Modeling follow and forward behaviors of micro-blog user[C] 
Proc of Int Conf of Management Science and Engineering. Piscataway, NJ: IEEE, 2013: 113-119
[20]Kempe D, Kleinberg J, Tardos É. Maximizing the spread of influence through a social network[C] 
Proc of the 9th Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2003: 137-146
[21]Saito K, Nakano R, Kimura M. Prediction of information diffusion probabilities for independent cascade model[C] 
Proc of the 12th Int Conf on Knowledge-Based Intelligent Information and Engineering Systems. Berlin: Springer, 2008: 67-75
[22]Lü Shunming, Pan Li. Influence maximization in independent cascade model with limited propagation distance[G] 
Web Technologies and Applications. Berlin: Springer, 2014: 23-34
[23]Chen Wei, Lakshmanan L V S, Castillo C. Information and Influence Propagation in Social Networks[M]. San Rafael, CA: Morgan amp; Claypool Publishers, 2013: 9-35
[24]Fan Bo. Users report of sina Weibo in 2015[EB
OL]. (2015-12-21)[2016-05-10]. http: 
data.weibo.com
report
reportDetail?id=304 (in Chinese)(樊博. 2015微博用户发展报告[EB
OL]. (2015-12-21) [2016-05-10]. http: 
data.weibo.com
report
reportDetail?id=304)
[25]Zhang Haiyi, Li Di. Naive Bayes text classifier[C] 
Proc of Int Conf on Granular Computing. Piscataway, NJ: IEEE, 2007: 708-708
[26]Goyal A, Bonchi F, Lakshmanan L V S. Learning influence probabilities in social networks[C] 
Proc of the 3rd ACM Int Conf on Web Search and Data Mining. New York: ACM, 2010: 241-250
[27]NLPIR-team. NLPIR big data search amp;mining development platform[EB
OL]. [2016-05-10]. https: 
github.com
NLPIR-team
NLPIR
[28]Sina Weibo[EB
OL].[2016-05-10]. http: 
service.account.weibo.com
[29]Ren Donghao, Zhang Xin, Wang Zhenhuang, et al. WeiboEvents: A crowd sourcing weibo visual analytic system[C] 
Proc of IEEE Pacific Visualization Symp. Piscataway, NJ: IEEE, 2014: 330-334
[30]Gephi. The open graph Viz platform[EB
OL]. (2016-02-15) [2016-06-10]. https: 
gephi.org

Tan Zhenhua , born in 1980. PhD. Associate professor. Member of CCF. His main research interests include networking behavioranalysis, information security and distributed secret sharing.

Shi Yingcheng , born in 1991. Master candidate. His main research interests include networking behavior analysis and rumor propagating modeling.

Shi Nanxiang , born in 1993. Master candidate. His main research interests include data mining and distributed secret sharing scheme.

Yang Guangming , born in 1961. Professor. His main research interests include information security and computer operating system.

Wang Xingwei , born in 1968. PhD. Professor. Senior member of CCF. His main research interests include future Internet technology, cloud computing and information security.
Tan Zhenhua, Shi Yingcheng, Shi Nanxiang, Yang Guangming, and Wang Xingwei
(College of Software, Northeastern University, Shenyang 110819)
Abstract The influence of rumor propagation in online social networks (OSN) could result in great damage to social life, and it has been a hot topic to discover rumor propagation pattern. Traditional Epidemic-like rumor propagation models based on SIR, are generally coarse-grained for OSN but do not fully consider the features of OSN, such as personalization dimensions of users’ behavior and information attributes. Inspired by gravity theory, this paper proposes a novel rumor propagation analysis model named gravity-inspired rumor propagation model (GRPModel), and tries to find a new pattern of rumor propagation from the perspectives both of users’ properties and rumors’ attributes. In GRPModel, user influence and rumor influence are modeled mathematically by user relations and information attributes, and fully consider their personalized features. We collect experimental real data from Sina Weibo, which is a famous OSN in China, and investigate features of users and real rumors. Experiments prove the effectiveness and efficiency.
Key words rumor propagation model; micro-blogging analysis; online social network (OSN); information diffusion; gravity theory
收稿日期: 2016-06-16;
修回日期: 2016-12-09
基金项目: 国家自然科学基金青年科学基金项目(61402097);国家杰出青年科学基金项目(61225012,71325002);中央高校基本科研业务费专项资金项目(N151708005,N151604001)
This work was supported by the National Natural Science Foundation of China for Young Scientists (61402097), the National Science Foundation for Distinguished Young Scholars (61225012, 71325002), and the Fundamental Research Funds for the Central Universities (N151708005, N151604001).
中图法分类号 TP393