社交网络信息传播预测与特定信息抑制

曹玖新1 高庆清1 夏蓉清2 刘伟佳1 朱雪林1 刘 波2

1(东南大学网络空间安全学院 南京 211189)

2(东南大学计算机科学与工程学院 南京 211189)

摘 要 近年来,随着Twitter、Facebook、新浪微博等社交网站用户数量的激增,信息数量急剧膨胀,隐藏在海量信息中的不实信息的传播带来了不良的影响,如何调控或抑制特定信息的传播是网络信息管理面临的一项技术挑战.为了解决这一问题,首先从真实微博网络出发,基于机器学习方法提出了不依赖于传播模型的独立信息转发预测机制,从而对信息的传播进行预测;其次,基于独立级联模型,综合考虑本文场景的特殊性,提出了异步信息不平等竞争传播模型作为特定信息与免疫信息的竞争传播机制;最后,提出了3个种子节点集合选择算法,通过向选择的种子节点注入免疫信息使得免疫信息在网络中广泛传播从而抑制特定信息的传播.基于真实社交网站数据的实验证明,提出的信息传播预测模型以及种子节点选取算法对特定信息传播的调控和抑制具有良好的效果.

关键词 社交网络;竞争传播;传播模型;转发预测;信息抑制

近年来,社交网络以其多样化的分享功能,打破了固有的信息传播形式.随着社交网络平台的普及度越来越高,时间与空间不再成为信息传播的阻碍,为人们提供了极大的便利.然而,社交网络中存在着海量的信息,隐藏其中的谣言、不实信息、有恶意导向性的舆论等往往也会被广为传播.

目前,微博上的用户可以对微博中存在垃圾营销、不实信息、诈骗信息等情况进行投诉,平台验证后会对该微博以及该微博的作者进行一定的处理,来达到抑制该信息传播的目的.微信上,用户阅读过或分享过的文章如果被鉴定为谣言,那么用户将会收到来自“微信辟谣助手”小程序的提醒.然而,会对个人或企业造成不良影响的负向引导性信息往往不会受到社交网络平台的关注.例如,某品牌手机某一系列的个别产品曾经出现过绿屏的现象,这个问题不是普遍发生的,却引发大量用户在社交平台上发布相关负向言论,给该品牌造成了较大的负面影响.社交网络平台并不会针对这种情况提供解决方案,因而会给个人或企业带来很大的困扰.

1 研究现状

由于社交网络的快速发展,国内外已经对社交网络中的信息传播预测与抑制进行了广泛研究,主要包括了信息转发预测、信息传播模型以及信息传播抑制3个方面.有关信息传播预测与抑制的相关工作介绍为:

在社交网络中,转发行为是信息传播的主要形式,不少学者对社交网络中的转发行为进行了研究.目前转发预测相关研究按照任务类别可以分为3种:预测转发对象[1],即预测用户最有可能转发的Top-N条博文;预测转发时间[2],即预测用户转发给定博文的时间;预测转发行为[3-5],即预测用户是否转发给定博文或转发给定博文的概率.本文聚焦于预测用户转发行为,从而为之后的特定信息抑制提供基础.在预测用户转发行为方面,文献[3]提出了一个基于影响局部性函数的逻辑回归模型,综合考虑了粉丝数、相互关注数、注册时间等特征;文献[4]提出了一个基于注意力的深度神经网络来整合上下文和社交信息,该模型主要考虑的因素有微博作者特征、微博文本特征、待预测用户特征和用户兴趣特征;文献[5]提出了一种基于上下文感知、联合矩阵-张量分解的转发预测模型,综合考虑了用户、博文和影响力3个维度信息.

目前已有大量的文献对社交网络中的信息传播模型进行研究,基于网络中传播的信息数量可以分为单一信息传播模型和多信息竞争传播模型两大类.现有的单一信息传播模型主要可以分为3个方向:基于个体状态的传播模型、基于网络结构的传播模型以及基于信息特性的传播模型.其中,基于个体状态的传播模型主要有传染病模型,如SI模型[6]、SIR模型[7]等以及它们的改进模型:Maki-Thompson模型[8]等;基于网络结构的传播模型主要有线性阈值模型和独立级联模型[9]以及基于这2个模型的各类改进模型;基于信息特性的传播模型主要是根据特定信息源和信息传播平台建立的模型.同时,也有一些学者研究了多信息竞争传播模型.Tzoumas等人[10]从非合作博弈论的角度研究了2条信息的竞争传播过程,并通过扩展线性阈值模型对2条信息的竞争传播过程进行建模;Liu等人[11]扩展了SIR模型,提出了敏感-迟疑-感染-移除(sensitive-hesitate-infection-remove, SHIR)模型来研究2条信息的竞争传播过程;曹玖新等人[12]针对多条相似信息的竞争传播问题,提出了基于竞争的线性阈值扩展模型,模型中考虑到了不同信息的主题分布的不一致性.已有研究针对不同的竞争传播应用场景对传统的传播模型进行了扩展,然而现有研究大多没有同时考虑到不同信息在网络中传播的起始时间的不同以及用户对于权威账户和普通账户发布的信息的信任程度的差异.

现有的信息传播抑制相关研究可分为2个主要方向:1)通过去除网络中的部分边或节点来阻断特定信息的传播;2)通过选取网络部分节点传播与特定信息内容相反的信息来抑制特定信息的不良影响.文献[13]提出了一种基于贪心策略的方法来移除网络中的部分连边,从而抑制信息传播;文献[14]提出了一种贪心算法来选取网络中部分未激活节点进行阻断以最小化最终被特定信息激活的节点数量;Yan等人[15]基于独立级联模型,提出了一个谣言传播模型,并采用改进了的贪心算法来提高选取需阻断节点的效率;Nguyen等人[16]通过找到一组具有高度影响力的节点作为正确信息影响节点,来限制不良信息在整个网络中的传播,并给出了几种选取正确信息影响节点的贪心算法和启发式算法;Tong等人[17]提出了一个随机算法来选取正确信息影响节点集合以节约运行时间.

然而,现有研究大多没有使用真实社交网络上的信息传播数据.尽管有些研究是基于真实的社交网络拓扑结构,但是具体的信息传播与抑制过程完全使用仿真的方式,缺乏真实性.

本研究的主要贡献包括4个方面:

1) 基于真实的新浪微博数据进行实验,更客观地证明了本文模型的合理性以及算法的有效性;

2) 提出了不依赖于传播模型的独立信息转发预测机制,并通过实验筛选出了对于转发预测最有效的特征组合;

3) 考虑到真实应用场景下,用户的初始状态以及状态转化方式与传统的竞争影响力传播模型的不同,提出了异步信息不平等竞争传播模型;

4) 为个人、企业澄清与自身相关的不良信息提供了解决的方案.

2 基于机器学习的信息传播预测模型

在社交网络这一特定场景下,信息传播的过程是由不同用户的转发行为所构成的.因此,本节将宏观的信息传播预测问题转化为微观的用户转发预测问题.可将问题具体定义为:给定用户u与微博w,预测用户u转发微博w的概率puw.

基于该问题定义,本文提出了不依赖于传播模型的独立信息转发预测(independent information forwarding prediction, IIFP)机制:首先进行多维度特征提取,然后将特征输入到合适的分类器中训练分类模型以进行信息转发预测.

在特征提取阶段,需要综合考虑可能对转发行为有影响的因素.本研究从4个维度进行特征选取:特定信息微博维度、用户维度(包括待预测用户和特定信息微博作者用户)、待预测用户与特预测微博作者的相似程度、待预测用户历史微博与特定信息微博的相似程度.在这4个维度中选取的具体特征如表1所示,本文将在实验部分对不同特征的贡献进行对比.

Table 1 Characteristics in Four Dimensions
表1 4个维度特征

维度特征特定信息微博维度微博文本的向量化特征微博平均TF-IDF是否含有话题是否含有“转发”、“扩散”等字样@其他人的数量用户维度(包括待预测用户和特定信息微博作者用户)性别省份城市vip级别微博数关注数粉丝数权威度待预测用户与待预测微博作者的相似程度关注列表的相似程度粉丝列表的相似程度标签的相似程度省份是否相同城市是否相同关注关系待预测用户历史微博与特定信息微博的相似程度平均相似度最大相似度相似度总和

特征提取之后,便可训练分类器.本研究采用Lightgbm分类器[18]对用户转发特定信息微博的概率pv进行预测,该分类器是梯度提升决策树(gradient boosting decision tree, GBDT)的一种优化,具有能够直接处理类别特征、运算速度快、分类效果好等优点,并且支持并行和大规模的数据处理.Lightgbm是一种集成模型,理论上会比普通的单一模型效果好,实验部分也会对Lightgbm与其他分类器的综合性能进行对比.

3 异步信息不平等竞争传播模型

本节提出了异步信息不平等竞争传播模型(asynchronous information unequal competition propagation model, AIUCP)作为特定信息与免疫信息的竞争传播机制.

3.1 概念定义

本节首先明确相关概念定义:

定义1. 社交网络

本文中社交网络用有向图G(V,E)表示,其中V为节点集合,即社交网络中的用户集合,E为有向边集合,即社交网络中的用户间关注关系集合.具体来说,对用户u,vV,若存在euvE,则表示用户u被用户v关注,此时用户u为用户v的内邻居节点,用户v为用户u的外邻居节点.

定义2. 传播子图

在独立级联模型下,影响力的传播是一个随机的过程,信息经过一次完整传播后,网络G中被该信息影响的节点构成的子图称为网络G的一个传播子图g.

定义3. 特定信息

特定信息为可能对某些群体造成不利影响的言论,其中包含谣言、不实信息、有恶意导向性的舆论等,在社交网络中被转发传播会对社会或者某类用户产生不利影响.

定义4. 免疫信息

免疫信息是与特定信息内容语义相反的信息,一般由被认证为权威机构的微博用户发布,将其投入社交网络中可以抑制特定信息的传播.

定义5. 抑制效果

设被特定信息激活的节点的状态是状态A,被免疫信息激活的节点的状态是状态B,初始特定信息传播节点集合是IA,选取的免疫信息节点集合是IB. σ(IA,IB)表示已知初始状态A节点集合为IA的情况下,种子节点集合IB所能影响的节点个数,即特定信息传播抑制效果.

3.2 传播场景特殊性

在本文的研究场景下,特定信息与免疫信息在社交网络中共同传播,与传统的竞争影响力传播有一定的相似.然而,该场景下节点的行为状态与转化方式有所不同,具体表现在:

1) 免疫信息在特定信息传播了一定时间后才会被投放.因此,初始状态下只有部分节点处于已被特定信息激活的状态,其他节点均处于未激活状态;

2) 免疫信息通常由权威账户发布,其发布内容具有天然的优先可信度.因此,当某一节点同时接收到特定信息和免疫信息,该节点更倾向于被免疫信息激活.同时,被特定信息激活的节点仍有可能被免疫信息激活,但是被免疫信息激活的节点状态不会再发生改变.

3.3 用户状态与用户间影响概率

在异步信息不平等竞争传播模型下,用户分为4种状态:1)状态A.相信特定信息并转发,即被特定信息激活;2)状态B.相信免疫信息并转发,即被免疫信息激活;3)状态N.尚未看到特定信息或免疫信息;4)状态O.对特定信息和免疫信息都不感兴趣无应对行为.其中,状态O的用户可作为无关节点直接去除.初始状态下,有一部分节点已处于被特定信息激活的状态为状态A,其余节点均为状态N.

本文在第2节中,通过独立信息转发预测机制预测用户u转发微博w的概率puw.本节中,微博w是特定的,因此将用户u转发特定微博的概率简写为pu.本文第2节提出的机制在预测过程中并不考虑用户看到信息的途径,因此进一步考虑用户间相似度,以获取用户v转发特定上游用户u原创或转发的信息的概率,即用户间的影响权重p(u,v).具体计算公式为

p(u,v)=pv×simu,v,

(1)

其中,pv为用户v转发特定信息微博的概率,simu,v为用户u与用户v的相似度,该相似度将采用Jaccard[19]相似度计算公式从关注列表的相似程度、粉丝列表的相似程度、标签的相似程度、省份是否相同、城市是否相同以及关注关系6个角度来计算.

3.4 信息传播过程

异步信息不平等竞争传播模型的信息传播过程描述具体分为4个步骤:

1) 在t=0步时,已有部分节点处于被特定信息激活的状态A,此时,在未激活的节点集中选取种子集合,为它们赋予状态B

2) 在第t步时,在时间步t-1状态为激活状态的节点u尝试以传播概率p(u,v)激活它的外邻居节点v.如果一个节点被多个状态的多个节点影响时,分为3种情况进行讨论:

① 当节点v的状态为状态N时,若尝试激活它的节点均为状态A,节点v的状态会被节点u以概率p(u,v)转变为状态A,其中集合α表示在t时刻同时尝试激活节点v的处于状态A的节点集合;若尝试激活它的节点中存在处于状态B的节点,则v的状态会被节点u以概率p(u,v)转变为状态B,其中集合β表示在t时刻同时尝试激活节点v的处于状态B的节点集合;

② 当节点v的状态为状态A时,若尝试激活它的节点均为状态A,节点v的状态不会发生改变;若尝试激活它的节点中存在处于状态B的节点,则v的状态会被节点u以概率p(u,v)转变为状态B,其中集合β表示在t时刻同时尝试激活节点v的处于状态B的节点集合;

③ 当节点v的状态为状态B时,节点v的状态不会发生改变;

3) 若节点v在第t步被激活,那么它将在第(t+1)步尝试激活它的邻居节点;

4) 当没有节点可以再被激活时,传播结束.

4 社交网络特定信息抑制

4.1 问题定义

已知社交网络G(V,E),节点u影响节点v的概率为p(u,v),特定信息影响的初始节点集合为IA.要求找到大小为k的免疫信息种子节点集合IB,使得免疫信息种子节点集合IB所能影响的节点个数最多.

4.2 特定信息抑制影响最大化目标函数

基于4.1节中的问题定义,给出特定信息抑制影响最大化目标函数为

(2)

其中,σ(IA,IB)表示已知初始状态A节点集合为IA的情况下,种子节点集合IB所能影响的节点个数,Pr(g)表示传播子图g出现的概率,σg(IA,IB)表示在传播子图g中给定集合IA的情况下,种子节点集合IB所能影响的节点个数.

定义传播子图g的出现概率[20] Pr(g)为

(3)

其中,ee′均表示社交网络G中的一条有向边,p(e)和p(e′)分别表示边ee′属于子图g的概率.

4.3 目标函数的数学性质证明

本节对目标函数的单调性和子模性进行证明.

1) 单调性证明

首先,根据单调性的定义5来证明抑制影响最大化的目标函数具有单调性.

定义5. 如果对于所有子集STV,有f(S)≤f(T),则集合函数f:2VR是单调的.

引理1. 如果对于所有子集I1I2VBσ(IA,I1)≤σ(IA,I2),则抑制影响最大化目标函数σ(IA,IB)是单调的.其中,VB=V\IA为免疫信息种子节点的可选集合.

证明:

根据式(3)





σ(IA,I1),

其中,δg(IA,u)表示在网络中某个传播子图g已有特定信息节点集合IA传播的情况下,免疫信息种子节点u能够影响激活的节点集合.

由此可推出

σ(IA,I1)≤σ(IA,I2),

即抑制影响最大化目标函数具有单调性.

证毕.

2) 子模性证明

定义6. 如果对于所有子集STV和所有节点vV\T,有f(S∪{v})-f(S)≥f(T∪{v})-f(T),则集合函数f:2VR是子模的.

引理2. 如果对于所有子集I1I2VB和所有节点vVB\I2,有:

σ(IA,I1∪{v})-σ(IA,I1)≥
σ(IA,I2∪{v})-σ(IA,I2),

则抑制影响最大化目标函数σ(IA,IB)是子模的.其中,VB=V\IA为免疫信息种子节点的可选集合.

证明:

根据式(2),

σ(IA,I1∪{v})-σ(IA,I1)=


δg(IA,{v})|-|δg(IA,I1)|).

由容斥原理,上式等价于

|δg(IA,I1∩{v})|-|δg(IA,I1)|)=


|δg(IA,I1∩{v})|)=
σ(IA,{v})-σ(IA,I1∩{v}).

同理可推出:

σ(IA,I2∪{v})-σ(IA,I2)=

σ(IA,{v})-σ(IA,I2∩{v}).

I1I2可推出:

I1∩{v}⊆I2∩{v}.

由引理2,目标函数的单调性可得:

σ(IA,I1∩{v})≤σ(IA,I2∩{v}),

故:

σ(IA,{v})-σ(IA,I1∩{v})≥
σ(IA,{v})-σ(IA,I2∩{v}).

σ(IA,I1∪{v})-σ(IA,I1)≥
σ(IA,I2∪{v})-σ(IA,I2).

证毕.

由此可得,抑制影响最大化目标函数具有子模性.

4.4 抑制影响最大化贪心算法

根据Nemhauser等人[21]于1978年提出的理论,若目标函数满足单调性和子模性,则采用贪心法每一轮选取边际影响力最大的节点,共选取k个种子节点集合IB,可以得出该影响传播问题最优解的1-1\e近似解.

基础贪心算法的计算量大、时间复杂度高.因此,本文基于具有成本效益的惰性前向选择(cost-effective lazy forward selection, CELF)算法的基本思想,改进了传统的贪心算法,提出了在本文模型下的异步信息抑制传播贪心算法(asynchronous infor-mation suppression propagation greedy algorithm, AISPG)来选取免疫信息种子节点集合.算法首先计算每个没有被特定信息影响的节点的边际影响力,将边际影响力最大的节点加入免疫信息种子集合IB,接着进行k-1轮循环,每轮基于CELF思想选取边际影响力最大的节点加入免疫信息种子集合.具体算法步骤如算法1所示:

算法1. 异步信息抑制传播贪心算法.

输入:社交网络G(V,E)、信息从用户u传播到用户v的概率p(u,v)、特定信息影响的初始节点集合IA、种子节点数目k

输出:免疫信息种子集合IB.

① 初始化IB为空集,大顶堆HB为空堆;

② for uV\IA

③ 计算Δ(u)=σG(u|IA,∅);

/*边际影响力*/

④ 将Δ(u)插入HB

⑤ end for

⑥ 更新IBIB∪{HB.peek};

⑦ while |SB|<k

⑧ for uV\(IAIB)

u.status=false;

⑩ end for

while HB.peek!=NULL

u=HB.peek

if u.status=true

更新IBIB∪{u};

HB.popsort(HB);

break;

else

计算Δ(u)=σG(u|IA,IB);

更新u.status=true;

将Δ(u)插入HBsort(HB); end if

end while

end while

4.5 抑制影响最大化启发式算法

针对节点规模较大的社交网络,可以采用启发式算法来选取免疫信息种子节点集合以进一步降低计算量.因此,基于本文提出的传播模型,提出了异步信息抑制传播启发式算法-简版(asynchronous information suppression propagation heuristic algorithm _easy, AISPH_E).AISPH_E算法综合考虑了节点本身的特性以及其与邻居节点的影响关系,给出了计算单个节点u的影响力公式为

(4)

其中,pu表示节点u的转发概率,p(u,v)表示节点u与节点v间影响权重,|Nout(u)|表示u的出度节点数量,|N(u)|表示u的邻居节点数量.AISPH_E算法每次选取影响力σ(u)最大的节点加入免疫信息种子集合,直到选出k个节点,具体流程如算法2所示:

算法2. 异步信息抑制传播启发式算法-简版.

输入:社交网络G(V,E)、信息从用户u传播到用户v的概率p(u,v)、特定信息影响的初始节点集合IA、种子节点数目k

输出:免疫信息种子集合IB.

① 初始化IB为空集,大顶堆HB为空堆;

② for uV\IA

③ 计算u的影响力σ(u);

④ 将σ(u)插入HB

⑤ end for

sort(HB)

⑦ while |IBk|

⑧ if HB.peek!=NULL

⑨ 更新IBIB∪{HB.peek};

HB.pop

end if

end while

为了避免选取的种子节点的邻居节点重合度过高,本文进一步提出异步信息抑制传播启发式算法(asynchronous information suppression propagation heuristic algorithm, AISPH),对AISPH_E算法中的节点影响力计算方式进行改进,改进后的节点影响力计算为

(5)

其中,pu表示该节点的影响权重,p(u,v)表示节点u,v间影响权重,N(u)表示u的邻居节点集合,Nout(u)表示u的出度节点集合,S表示已选择的种子节点集合.

5 实验与分析

本节将在实验室高性能服务器计算集群上对独立信息转发预测与社交网络特定信息传播抑制进行分布式并行实验.单个计算节点的具体参数为:Inter Xeon Gold 6132.

5.1 数据获取与预处理

本文主要抓取2018~2019年内微博的真实数据以展开实验,具体步骤为:

首先,从微博社区管理中心选取经过平台验证确定为不实信息的微博,作为我们需要抑制的特定信息;接着,根据不实信息微博爬取参与过转发的用户,按时间顺序还原不实信息微博的传播过程,保留转发链完整的不实信息微博;然后,将参与过转发的用户作为种子节点,通过爬虫爬取每个用户的各项个人信息、近期发布的微博以及其好友关系;最后,通过每个节点的被关注关系向外拓展,获取带有好友关系的社交关系网.

经过初步筛选,共获取2 500条原创特定信息微博,涉及861 419名用户,其中连边有3 442 626条.对微博的转发量情况进行统计,如图1所示:

Fig. 1 Microblog forwarding histogram
图1 微博转发量直方图

从图1中可以看出,微博的转发量主要集中20~100之间.因此,进一步选择转发量在20~100之间的1 180条微博,根据参与这些微博转发过程的用户的相关信息构建数据集.

由于微博文本的规范性较差,获取的数据集需要进行文本规范化处理,即通过正则表达式过滤微博文本中的标点符号和表情符号.

5.2 独立信息转发预测实验

本节将对转发预测中不同特征的贡献以及不同分类器的表现进行对比,并在选定特征集与分类器后,与其他文献中的算法进行对比.

5.2.1 评价指标

转发预测问题实际上是一个二分类问题,而评价分类器性能的常用指标有:准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1值(F1-score).

根据分类器的输出结果和真实标签,可以将预测结果分为4种:1)真正例(true positive, TP),表示正样本被分为正样本的数量;2)假正例(false positive, FP),表示负样本被分为正样本的数量; 3)真负例(true negative, TN),表示负样本被分为负样本的数量;4)假负例(false negative, FN),表示正样本被分为负样本的数量.因此,准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1值(F1-score)可以定义为:

(6)

(7)

(8)

(9)

对于输出概率的分类器需要定义阈值来确定正负样本,在计算这4个指标时,阈值选择的不同会带来不同的结果.因此,本研究将进一步使用曲线下面积(area under curve, AUC)来评价输出概率的不同分类器的性能.AUC指的是受试者工作特征(receiver operating characteristic, ROC)曲线下的面积.ROC曲线的横坐标为假正率(false positive rate, FPR),纵坐标为真正率(true positive rate, TPR),该曲线代表了一个分类器在不同阈值下的分类效果.其中,FPRTPR的计算公式为:

FPR=,

(10)

TPR=.

(11)

5.2.2 数据准备

进行转发预测实验前,需要在5.1节中获取的微博数据集的基础上构造转发预测数据集.具体来说,在5.1节获取的微博数据集中,将每条微博与转发过该微博用户标注为正样本,每条微博与未转发过该微博用户标注为负样本.

转发微博的用户远少于不转发微博的用户,因此,为了保证正负样本平衡,本研究随机采样10 000条正样本和10 000条负样本构成转发预测数据集.

实验时,随机将转发预测数据集按8∶2的比例分成2部分:训练数据和测试集.模型在训练数据上训练时,使用5折交叉验证.

5.2.3 实验方法与结果分析

实验主要分为3部分:各类特征对于转发预测的效果对比、不同的分类器在相同特征集上的效果对比以及选定特征集与分类器后,与其他文献中的算法进行对比.

1) 各类特征对于转发预测的效果对比

实验对比的特征维度包含4个:

① 信息微博维度.分别用TF-IDF,word2vec,BERT生成微博文本的向量化特征,与该维度其他特征组成特征集合,分别表示为:I-TF-IDF,I-word2vec,I-BERT;

② 用户维度(包括待预测用户和信息微博作者用户).将待预测用户和微博作者的维度特征集合表示为Ⅱ;

③ 待预测用户与信息微博作者的相似程度维度.将待预测用户和微博作者的相似度特征集合表示为Ⅲ;

④ 待预测用户历史微博与信息微博的相似程度维度.将分别用TF-IDF,word2vec,BERT这3种方法生成的用户历史微博与当前微博的相似度特征集合表示为IV-TF-IDF,IV-word2vec,IV-BERT.

为了对比各组特征的效果以及TF-IDF,word2vec,BERT提取文本向量特征的效果,每次实验仅仅使用其中一类特征,分类器采用Lightgbm,具体的实验结果如表2所示:

Table 2 Comparison of Prediction Results on Variousfeatures
表2 各类特征预测效果对比

使用的特征类别准确率精确率召回率F1值I-TF-IDF0.77040.77420.76280.7670I-word2vec0.7700.77620.75880.7674I-BERT0.76960.77620.75760.7668Ⅱ0.60260.60660.58380.5952Ⅲ0.8430.8040.9070.8524IV-TF-IDF0.52740.5220.66460.5846IV-word2vec0.49860.4990.52020.5058IV-BERT0.5080.5050.5200.512

注:黑体表示在相同评价指标下的最优值.

由表2可知,在本文提出的4个维度的特征中,维度③待预测用户与信息微博作者的相似程度维度特征在当前数据集上的效果最好,准确率、精确率、召回率和F1值均是最高的;维度①信息微博维度下特征效果次之,平均F1值约为0.767;接着是维度②用户维度(包括待预测用户和信息微博作者用户)特征和维度④待预测用户历史微博与信息微博的相似程度维度特征.维度①信息微博维度下,采用TF-IDF,word2vec以及BERT提取句子向量用作文本特征时,表现相差不大;维度④待预测用户历史微博与信息微博的相似程度维度下,采用TF-IDF,word2vec以及BERT生成的用户历史微博与当前微博的相似度特征时,TF-IDF表现最好.因此,本文后续的实验统一采用TF-IDF,则维度①和维度④可以简化表示为Ⅰ和Ⅳ.

将各维度特征组合后进行实验,结果如表3所示.采用第Ⅰ,Ⅲ维度特征组合时,Precision最高;采用第Ⅰ,Ⅱ,Ⅲ维度特征组合时,Accuracy最高;采用第Ⅱ,Ⅲ,Ⅳ维度特征组合时,Recall最高;采用第Ⅰ,Ⅱ,Ⅲ,Ⅳ维度特征组合时, F1值最高.总体来看,使用第Ⅰ,Ⅲ维度特征组合的效果与同时使用四维度特征的效果相差不大.因而在实际应用时,为提升整体效率,选择使用第Ⅰ,Ⅲ维度特征组合.

Table 3 Comparison of Performance of Multi Class Feature Combinations
表3 多类特征组合效果对比

维度特征类别准确率精确率召回率F1值Ⅰ+Ⅲ0.87600.87640.87540.8758Ⅰ+Ⅱ+Ⅲ0.87920.87480.88460.8796Ⅰ+Ⅱ+Ⅳ0.77240.76920.77820.7736Ⅰ+Ⅲ+Ⅳ0.87680.87560.87860.8772Ⅱ+Ⅲ+Ⅳ0.85180.81960.90220.8588Ⅰ+Ⅱ+Ⅲ+Ⅳ0.87920.87360.88680.8800

注:黑体表示在相同评价指标下的最优值.

Lightgbm模型在训练结束后,会输出每个特征的重要性,反映特征在模型学习过程中的贡献程度.重要性越高,则该特征对于转发预测越有效.图2展示了使用Ⅰ,Ⅲ类特征组合时,特征重要性的排名.

Fig. 2 Feature importance ranking when using type Ⅰ and Ⅲ features
图2 使用Ⅰ,Ⅲ类特征时特征重要性排名

从图2中可以看到,用户与作者的城市是否相同、用户与作者关注列表的相似度、微博的平均TF-IDF是最为有效的3个特征.

2) 不同的分类器在相同特征集上的效果对比

在使用Ⅰ,Ⅲ维度特征组合的前提下,对单一模型:感知机(Perceptron)、逻辑回归(Logistic Reg-ression, LR)、支持向量机(support vector machine, SVM);集成模型:AdaBoost、随机森林(Random Forest, RF)和Lightgbm共6种分类器进行了对比.实验结果如表4所示:

Table 4 Performance Comparison of Each Classification Model
表4 各分类器的效果对比

分类器准确率精确率召回率F1值Perceptron0.80160.79960.80520.8024LR0.87160.86540.88040.8718SVM0.86600.85840.87740.8676AdaBoost0.87160.86540.87940.8726RF0.86280.86020.86580.8630Lightgbm0.87600.87640.87540.8758

注:黑体表示在相同评价指标下的最优值.

从表4可以看出,除Perceptron外的5种分类器的分类效果基本相近,这说明使用Ⅰ,Ⅲ维度特征组合,可以很好地区分正负样本.从表4可以进一步看出,Lightgbm在Accuracy,PrecisionF1值上的表现是最佳的,尽管在Recall上的表现不是最好的,但是由于F1值是对PrecisionRecall的整体评价,而Lightgbm取得了最高的F1值,所以综合来看Lightgbm是性能最佳的分类器.

输出是概率的4种分类器对应的ROC曲线如图3所示,对应的AUC值如表5所示.

Fig. 3 ROC value comparison of each classifier
图3 各分类器的ROC曲线对比

Table 5 AUC Value Comparison of Each Classifier
表5 各分类器的AUC值对比

分类器AUCLR0.920AdaBoost0.928Random Forest0.929Lightgbm0.937

注:黑体表示在相同评价指标下的最优值.

可以看出Lightgbm的AUC最高,其次是Random Forest和AdaBoost,最后是LR.Lightgbm的表现与预期相符合,是综合性能最佳的分类器.

3) 与现有转发预测模型的对比

为了进一步说明本文所提出模型的有效性,将该模型与现有研究中的转发预测模型进行对比.根据本文实验,将基于Ⅰ,Ⅲ类特征组合的Lightgbm分类器与相关领域现有研究进行对比.

对比模型如下:

Zhang等人[3]提出的模型:一个基于影响局部性函数的逻辑回归模型.模型中使用的特征有粉丝数、相互关注数、注册时间、性别、是否认证、用户偏好于主题间的KL散度、用户活跃邻居数、距离微博发布时间的间隔、结构影响力以及成对影响力.

SUA-ACNN[4].一个结合了卷积神经网络与注意力机制的模型.该研究微博转发预测问题中,主要考虑的因素有微博作者特征、微博文本特征、待预测用户特征和用户兴趣特征,并对它们进行进一步的细化.其中,在用户兴趣特征提取步骤中加入了注意力机制.

RCMTF[5].一个基于上下文感知、联合矩阵-张量分解的转发预测模型.该模型基于网络结构、消息内容和历史交互,设计了用户相似度、消息相似度和成对影响的3个上下文因子矩阵.

与现有转发预测模型的对比结果如表6所示.其中,本文的IIFP模型在4个评价指标上均取得了了最好的表现.Zhang等人[3]提出的模型与本文的思路相似,同样是基于特征工程的机器学习方法,但实验结果不及本文的模型,说明本文选取了更有效的特征.SUA-ACNN[4]模型作为一个深度学习模型并没有在本研究数据集上表现出更好的效果,可能由于深度学习往往需要海量数据,而本文数据集的微博转发样本较少,导致深度学习无法自动提取有效特征.基于矩阵分解的RCMTF[5]模型在本研究数据集上同样未能超越本文模型的性能,分析发现微博中存在一定数量的中文词汇缺少预训练的中文词向量,导致矩阵分解中基于词向量计算的相似度矩阵不够准确,同时本研究数据用户数量较大,造成矩阵十分稀疏,导致矩阵分解模型的性能未能达到原论文中的效果.

Table 6 Comparisonbetween IIFP and Existing Models
表6 IIFP与现有模型的对比

转发预测模型准确率精确率召回率F1值LRC-BQ0.8560.8590.8510.855SUA-ACNN0.8120.7430.8020.757RCMTF0.8130.8230.8050.814IIFP0.8760.87640.87540.8758

注:黑体表示在相同评价指标下的最优值.

5.3 社交网络特定信息抑制实验

本节将分别进行特定信息单独传播实验与特定信息与免疫信息共同传播实验,并将本文提出算法与多种已有算法在运行时间和抑制影响力2个方面进行对比.

5.3.1 评价指标

通常情况下,影响力最大化研究相关的评价方式有2种:影响范围以及运行时间.通过蒙特卡洛模拟的方式可以仿真信息传播的影响范围,多次求解取平均可以得出接近真实的影响范围,而算法能否高效地选择符合要求的种子节点集合则体现在算法的运行时间上.于是,本研究将影响范围和运行时间作为评价算法效果的指标.

传统的蒙特卡洛模拟传播模型中,节点只能被激活一次,一旦激活状态不再发生改变.本研究提出的传播影响模型中,一个节点被激活为状态A后,仍可能被状态B的节点激活.因此在本文模型下的蒙特卡洛模拟算法如算法3所示:

算法3. 计算种子集合影响范围的蒙特卡洛模拟算法.

输入:社交网络G(V,E)、每条边上的概率p(u,v)、特定信息影响集合IA、种子集合IB

输出:影响范围resultA.

① 已被激活的用户状态集合activeAIAactiveBIB

② for uactiveAvactiveB

③ for u′∈Inf(u)\activeAactiveB

④ if u.active(u′)= =success

⑤ 更新activeAactiveA∪{u′}

⑥ end if

① ② 2条特定不实信息来自微博社区管理中心(https://service.account.weibo.com)

⑦ end for

⑧ for v′∈Inf(v)\activeB

⑨ if v.active(v′)= =success

⑩ 更新activeBactiveB∪{v′}

end if

end for

end for

resultA=|activeA|

将算法3的蒙特卡洛模拟重复实验10 000次,得到的影响范围取平均值,即可获得种子节点集合的影响范围,从而评价算法的有效性.

5.3.2 数据准备

在5.1节中获取的1 180条特定信息微博的基础上,随机抽取30%作为实验对象进行特定信息单独传播实验与特定信息与免疫信息共同传播实验.为展示特定信息单独传播时的影响范围变化,选取2条特定不实信息展示其传播过程:

特定不实信息(1):关于三峡工程发电收入的归属.

特定不实信息(2):关于某轮奸犯仕途升至县长的网络谣言.

5.3.3 对比算法

为了验证本文提出的算法的有效性,现将本文提出算法与多种已有算法进行对比并根据评价指标来分析结果,参与对比的算法有本文提出的AISPG和AISPH,AISPH_E以及Random算法、Proximity算法、Degree算法、Greedy算法.

参与对比的7个算法介绍:

1) AISPG算法.本文提出的异步信息抑制传播贪心算法;

2) AISPH_E算法.本文提出的异步信息抑制传播贪心算法-简版,不考虑选取的种子节点存在重复邻居节点的情况;

3) AISPH算法.本文提出的异步信息抑制传播贪心算法;

4) Random算法.随机选取种子节点集合;

5) Proximity算法.一种竞争影响最大化的算法,该算法每次都在需要被抑制的特定信息状态的节点的邻居节点中选取免疫信息种子节点;

6) DegreeHeuristic算法.度启发式算法是一种经典的启发式算法,按照每个节点连边的数量对节点进行降序排列,选择种子节点集合.

7) Greedy算法.计算每一个节点的边际影响力,每一次选取当前状态下边际影响力最大的节点加入种子节点集合.

5.3.4 实验结果

1) 特定信息单独传播实验

本文为了研究免疫信息的抑制效果,首先考虑网络中未注入免疫信息的情况,观察网络中已有特定信息的传播规律和传播范围.经过10 000次蒙特卡洛模拟后,得到这些特定信息的平均影响范围为573 724.55.由此可知,在不进行抑制的情况下,特定信息可以自动得到广泛传播.

为了更好地展示特定信息的影响范围变化,使用数据准备部分选取的2条特定信息展示其传播过程.选取的2条特定信息均已在网络中有一定范围的传播,实验中将该状态作为实验的初始状态.表7中反映了选取的特定信息的初始传播状态.

Table 7 Number of Nodes Covered by Specific Information
表7 特定信息已覆盖节点数

特定信息已覆盖节点数(1)27(2)23

图4(a)、(b)分别体现了蒙特卡洛模拟下特定信息(1)、特定信息(2)在网络中的影响范围随步数变化的规律.

由图4可以看出,尽管2条特定信息在传播过程中的影响范围变化情况有所不同,但是最终均达到了很大的影响范围.

2) 特定信息与免疫信息共同传播实验

本文提出的AISPG和AISPH_E,AISPH以及Random算法、Proximity算法、Degree Heuristic算法、Greedy算法的运行时间的对比图如图5(a)所示,其中纵坐标表示对数形式的算法运行时间(ms),横坐标表示种子节点数(个).从图中可知,Greedy算法和AISPG算法的运行时间要远大于其他算法.为了能够更清晰地对比其他几种算法的运行时间,本文在图5(b)中展现了除2种贪心算法外,其他算法的运行时间对比,其中纵坐标表示线性的算法运行时间(ms),横坐标表示种子节点数(个).

由图5(a)可看出,Greedy算法运行时间会随着节点选取数量的增加而迅速增加并且远大于其他算法;由图5(b)可以看出,几种启发式算法的运行时间随着种子节点选取数量的增加基本呈线性增加.

Fig. 4 The range of influence of a particular information in a network varies with the number of steps
图4 特定信息在网络中的影响范围随步数变化

Fig. 5 Comparison of algorithm running time
图5 算法运行时间对比

Fig. 6 Influence range comparison after suppression
图6 抑制后的影响范围对比

本文提出的改进的贪心算法AISPG算法虽然运行时间也大于其他启发式算法,但是其运行时间随着种子节点选取数量的增加并没有明显增大,可见是对Greedy算法效率的有效改进.

特定信息与免疫信息在社交网络中共同传播的抑制影响力实验结果对比如图6所示.从图6可以看出,在本文提出的特定信息传播与抑制模型下,贪心算法选择的种子节点相比于启发式算法能达到更好的抑制效果.而本文提出的贪心算法AISPG能够在提高运行效率的前提下达到与传统的Greedy算法接近的抑制效果;本文提出的启发式算法AISPH和AISPH_E在算法效果方面虽然略逊于贪心算法,但时间复杂度低,更适用于在大型社交网络中选取免疫信息节点.

6 总结与展望

本文提出了不依赖于传播模型的独立信息转发预测机制以及适用于特定信息与免疫信息共同传播这一特殊场景的异步信息不平等竞争传播模型,并根据该传播模型提出了种子节点选取算法.实验验证,本文提出的转发预测模型以及种子节点选取算法具有合理性与有效性.

本文构建的独立信息转发预测机制考虑到了影响用户兴趣的固有特征.然而,用户的兴趣会随着时间不断变化.因此,在未来的研究中进行用户兴趣点建模时,可以考虑加入时序特征,从而更准确地挖掘用户兴趣的阶段性变化.除此以外,如何衡量用户在动态网络中的影响力也是值得进一步关注的问题.

作者贡献声明:曹玖新提出研究选题,给出研究思路,设计研究方案,终审论文;高庆清完善论文思路,设计实验,完成部分主实验,撰写论文;夏蓉清收集分析资料,完成部分主实验;刘伟佳归纳整理实验数据,校对论文;朱雪林完成对比实验部分;刘波给予论文思路上的指导.

参考文献

[1]Chen Jinpeng, Liu Yu, Zou Ming. User emotion for modeling retweeting behaviors[J]. Neural Networks, 2017, 96: 11-21

[2]Lee K, Mahmud J, Chen J, et al. Who will retweet this?detecting strangers from Twitter to retweet information[J]. ACM Transactions on Intelligent Systems and Technology, 2015, 6(3): 1-25

[3]Zhang Jing, Tang Jie, Li Juan, et al. Who influenced you?predicting retweet via social influence locality[J]. ACM Transactions on Knowledge Discovery from Data, 2015, 9(3): 297-322

[4]Zhang Qi, Gong Yeyun, Wu Jindou, et al. Retweet prediction with attention-based deep neural network[C] //Proc of the 25th ACM Int on Conf on Information and Knowledge Management. New York: ACM, 2016: 75-84

[5]Bo Jiang, Feng Yi, Wu Jianjun, et al. Retweet prediction using context-aware coupled matrix-tensor factorization[C] //Proc of Int Conf on Knowledge Science, Engineering and Management. Berlin: Springer, 2019: 185-196

[6]Keeling M, Rohani P. Modeling Infectious Diseases in Humans and Animals[M]. Princeton: Princeton University Press, 2008

[7]Zanette D. Dynamics of rumor propagation on small-world networks[J]. Physical Review E, 2002, 65(4): No.041908

[8]Thompson K, Estrada R, Daugherty D, et al. A deterministic approach to the spread of rumors, BU-1642-M[R]. New York: Cornell University, Department of Biological Statistics and Computational Biology, 2003

[9]Leskovec J, Krause A, Guestrin C, et al. Cost-effective outbreak detection in networks[C] //Proc of the 13th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2007: 420-429

[10]Tzoumas V, Amanatidis C, Markakis E. A game-theoretic analysis of a competitive diffusion process over social networks[C] //Proc of Internet and Network Economics. Berlin: Springer, 2012: 1-14

[11]Liu Yun, Diao Sumeng, Zhu Yixiang, et al. SHIR competitive information diffusion model for online social media[J]. Physica A Statal Mechanics & Its Applications, 2016, 461: 543-553

[12]Cao Jinxin, Min Huiyu, Wang Haoran, et al. Self-interest influence maximization algorithm based on subject preference in competitive environment[J]. Chinese Journal of Computers, 2019, 42(7): 1495-1510 (in Chinese)

(曹玖新, 闵绘宇, 王浩然, 等. 竞争环境中基于主题偏好的利己信息影响力最大化算法[J]. 计算机学报, 2019, 42(7): 1495-1510)

[13]Kimura M, Saito K, Motoda H. Minimizing the spread of contamination by blocking links in a network[C] //Proc of the 23rd AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2008: 1175-1180

[14]Wang Senzhang, Zhao Xiaojian, Chen Yan, et al. Negative influence minimizing by blocking nodes in social networks[C] //Proc of the 17th AAAI Conf on Late-Breaking Developments in the Field of Artificial Intelligence. Menlo Park, CA: AAAI, 2013: 134-136

[15]Yan Ruidong, Li Deying, Wu Weili, et al. Minimizing influence of rumors by blockers on social networks[C] //Proc of Int Conf on Computational Social Networks. Berlin: Springer, 2018: 1-12

[16]Nguyen N P, Yan Guanhua, Thai M T, et al. Containment of misinformation spread in online social networks[C] //Proc of the 4th Annual ACM Web Science Conf. New York: ACM, 2012: 213-222

[17]Tong Guangmo, Wu Weili, Guo Ling, et al. An efficient randomized algorithm for rumor blocking in online social networks[J]. IEEE Transactions on Network Science and Engineering, 2017, 7(2): 845-854

[18]Ke Guolin, Meng Qi, Finley T, et al. Lightgbm: A highly efficient gradient boosting decision tree[C] //Proc of Advances in Neural Information Processing Systems. Red Hook, N.Y: Curran Associates, Inc, 2017: 3146-3154

[19]Real R, Vargas J M. The probabilistic basis of Jaccard’s index of similarity[J]. Systematic Biology, 1996, 45(3): 380-385

[20]Chen Wei, Collins A, Cummings R, et al. Influence maximization in social networks when negative opinions may emerge and propagate[C] //Proc of the 2011 Siam Int Conf on Data Mining. Philadelphia, PA: SIAM, 2011: 379-390

[21]Nemhauser G, Wolsey L, Fisher M. An analysis of approximations for maximizing submodular set functions-1[J]. Core Discussion Papers Rp, 1978, 14(1): 265-294

Information Propagation Prediction and Specific Information Suppression in Social Networks

Cao Jiuxin1, Gao Qingqing1, Xia Rongqing2, Liu Weijia1, Zhu Xuelin1, and Liu Bo2

1(School of Cyber Science and Engineering, Southeast University, Nanjing 211189)

2(School of Computer Science and Engineering, Southeast University, Nanjing 211189)

Abstract In recent years, with the increasing number of users in social networks such as Twitter, Facebook and Sina Weibo, the amount of information has rapidly expanded. The spread of untrue information hidden in massive information has brought adverse effects. How to regulate or suppress the spread of specific information is a technical challenge faced by network information management. In order to solve this problem, first of all, the independent information forwarding prediction mechanism based on machine learning method, which does not depend on the propagation model is proposed, so as to predict the information propagation. Secondly, based on the independent cascade model, considering the particularity of the scenario in this paper, the asynchronous information unequal competition propagation model is proposed as the competitive propagation mechanism of specific information and immune information. Finally, three selection algorithms of seed nodes are proposed and the immune information is widely spread in the network by injecting immune information into the seed nodes, so as to suppress the spread of specific information. Experiments based on real social network data show that the information propagation prediction model and the selection algorithms of seed nodes proposed have good effects on the regulation and suppression of specific information propagation.

Key words social network; competition propagation; propagation model; forwarding prediction; information suppression

(jx.cao@seu.edu.cn)

中图法分类号 TP391

收稿日期2020-10-08;修回日期:2020-12-18

基金项目国家自然科学基金项目(61772133, 61972087);国家社会科学基金项目(19@ZH014);江苏省重点研发计划项目(BE2018706);江苏省自然科学基金项目(SBK2019022870) ;江苏省计算机网络技术重点实验室;江苏省网络与信息安全重点实验室(BM2003201);计算机网络和信息集成教育部重点实验室(93K-9)

This work was supported by the National Natural Science Foundation of China (61772133, 61972087), the National Social Science Foundation of China (19@ZH014), the Jiangsu Key Research and Development Program (BE2018706), the Natural Science Foundation of Jiangsu Province (SBK2019022870), the Jiangsu Key Laboratory of Computer Networking Technology, the Jiangsu Provincial Key Laboratory of Network and Information Security (BM2003201), and the Key Laboratory of Computer Network and Information Integration of Ministry of Education of China (93K-9).

Cao Jinxin, born in 1967. PhD, professor, senior member of CCF. His main research interests include social computing, computer network, complex network.

曹玖新,1967年生.博士,教授,CCF高级会员.主要研究方向为社会计算、计算机网络、复杂网络.

Gao Qingqing, born in 1997. PhD candidate. Her main research interests include social computing, complex network. (qingqing_gao@seu.edu.cn)

高庆清,1997年生.博士研究生.主要研究方向为社会计算、复杂网络.

Xia Rongqing, born in 1995. Master. Her main research interests include social computing, computer network and complex network. (rongqing_xia@seu.edu.cn)

夏蓉清,1995年生.硕士.主要研究方向为社会计算、计算机网络、复杂网络.

Liu Weijia, born in 1997. PhD candidate, student member of CCF. Her main research interests include social computing and complex network. (weijia-liu@seu.edu.cn)

刘伟佳,1997年生.博士研究生,CCF学生会员.主要研究方向为社会计算、复杂网络.

Zhu Xuelin, born in 1994. PhD candidate. His main research interests include social computing and computer vision. (zhuxuelin@seu.edu.cn)

朱雪林,1994年生.博士研究生.主要研究方向为社会计算、计算机视觉.

Liu Bo, born in 1975. PhD, associate professor. Senior member of CCF. Her main research interests include social network and social big data. (bliu@seu.edu.cn)

刘 波,1975年生.博士,副教授.CCF高级会员.主要研究方向为社交网络、社交大数据等.