一种基于局部中心性的网络关键节点识别算法

郑文萍1,2,3 吴志康1 杨 贵1

1(山西大学计算机与信息技术学院 太原 030006)2(计算智能与中文信息处理教育部重点实验室(山西大学) 太原 030006)3(山西大学大数据科学与产业研究院 太原 030006)

摘 要 关键节点识别已经成为分析与理解复杂网络特性、结构、功能的有效方式.提出了一种基于节点中心性的关键节点识别算法框架(greedy algorithm for critical node problem, GCNP),根据某种中心性指标选择一个网络的初始点覆盖集;从网络中删除该点覆盖集,迭代选择点覆盖集中使原网络连通节点对增加最小的节点向原网络回添,直至点覆盖集中节点满足用户给定的待删除关键节点数.为了更好地选择初始的节点覆盖集,提出了一种基于局部拓扑信息的节点中心性度量指标(local neighbor centrality, LNC).在16个人工网络和9个真实网络上的实验结果表明:与单独使用各中心性指标相比,采用GCNP算法框架可以提高算法性能.此外,所提的节点中心性度量指标LNC较度中心性(degree centrality, DC)、LocalRank中心性、K壳中心性(K-Shell, KS)、 局部度和中心性(local degree sum centrality, LDS)能更准确地评估节点的重要性.

关键词 关键节点;复杂网络;网络连通性;点覆盖集;局部中心性

近年来,对各种复杂网络的研究是许多领域关注的热点之一,如生物网络、社交网络、交通网络、引文网络等已成为众多学者的主要研究对象[1-4].研究发现网络机能往往受网络中一小部分节点的影响,这部分节点的功能失效会导致网络性能下降.并且这部分节点的失效影响会快速波及到整个网络,并最终使网络陷入瘫痪.基于此,对网络连通性至关重要的那部分节点被称为关键节点.此外,关键节点识别是分析与理解网络特性、结构以及功能的重要方式[5-6],且在发现药物靶点、发现关键蛋白质、控制传染病的爆发以及快速定位恐怖组织等方面意义重大 [7-9].因此如何在大规模网络中快速搜索关键节点,并加强对关键节点的监控和保护,对维持网络性能、确保复杂系统功能可靠性与健壮性十分重要.

本文提出一种基于节点中心性的网络关键节点识别算法框架(greedy algorithm for critical node problem, GCNP): 根据某种中心性指标得到网络的点覆盖集;从网络中删除点覆盖集,并迭代选择点覆盖集中使网络连通的节点对增加最少的节点向原网络回添,直至点覆盖集中节点满足用户给定的待删除关键节点数.为了更好地选择初始的点覆盖集,本文还提出了一种基于局部拓扑结构特征的节点中心性度量(local neighbor centrality, LNC).实验结果表明,采用合理的中心性度量指标选择初始点覆盖集可以有效提高关键节点识别性能,且本文所提的LNC指标能更准确地评估节点的重要性.

1 相关工作

网络关键节点识别问题(critical node problem, CNP)形式化定义为:对于图G=(V,E)和正整数k,确定节点子集SV且|S|=k,使得导出子图G[V\S]中连通的节点对最少.确定一个网络的包含k个节点的最优子集S是NP困难问题[10].

节点中心性是刻画节点关键性的重要指标.目前已经提出许多节点重要性度量指标,包括度中心性(degree centrality, DC)[11]、介数中心性(between-ness centrality, BC)[12]、接近中心性(closeness centrality, CC)[13]、PageRank[14]等.其中度中心性是刻画节点重要性最简单的指标,文献[15]表明在无标度网络或指数网络中,只存在小部分大度节点,这些节点具有较高的重要性;然而网络中大多数节点都是小度节点,为了对这些节点重要性进行度量,需要考虑其更广泛的拓扑结构信息.介数中心性 [6,12]定义为经过一个节点的最短路径占网络所有最短路径的比值,通常一个节点介数中心性越高,越有可能位于多个社区的“桥接”处,其对保证网络连通性也越重要.接近中心性[13]通过计算节点到网络其他所有节点的最短路径长度来刻画节点到网络中心的趋近程度.通常节点的接近度中心性越高,表明该节点越趋近网络的中心.尽管介数中心性和接近中心性较好地考虑了节点在网络连通性方面的重要性,然而由于需要预先知道网络的全局信息,计算复杂度高,不适用于大型复杂网络.

Chen等人[16]提出了LR中心性(LocalRank),通过考虑节点4阶邻域信息来衡量节点重要性.王建伟等人[17]综合考虑节点自身度与邻居节点的度数和来衡量节点重要性,称为局部度和中心性(local degree sum centrality, LDS).LocalRank中心性仅考虑邻域中节点个数,局部度和中心性只考虑节点的度信息,两者都忽略了邻域中节点间的拓扑结构,无法有效识别网络中关键节点的重要性.任卓明等人[18]综合考虑节点的度数和聚集系数,提出了一种基于邻居信息与聚集系数的节点重要性评价算法.Kitsak等人[19]提出节点重要性取决于其在网络中的位置,并指出经过K壳(K-Shell, KS)分解得到的节点的壳值可以较好地刻画了节点的重要性.目前已经提出一系列扩展和改进的K壳指标 [20-22].

Arulselvan等人[10]提出了一种基于贪心策略的关键节点识别算法,首先从网络G=(V,E)中随机选取节点构成网络的一个极大独立集M,从其余节点中选择添加后使导出子图G[M]中连通节点对数增量最小的节点加入M,直到|M|=|V|-k为止.Addis等人[23]提出了一种基于贪心策略的多启动关键节点识别算法,从网络中删除一个随机选择的点覆盖集S(|S|>k);再从S中选择使得网络中连通节点对数增加最小的节点向原网络回添.

基于贪心策略的关键节点识别方法可以在较短时间内得到网络中对连通性影响最大的k个关键节点,适用于大规模网络中的关键节点识别问题.然而,上述基于贪心策略的算法中,随机选择初始节点独立集或覆盖集,结果存在较大的随机性.同时随机选择的初始集合规模与最终目标集合规模相差较大,导致算法需要进行更多的回添节点操作.

采用合理的中心性指标选择初始节点集合,可以有效解决贪心算法结果随机性较大的问题.基于此,本文提出一种基于节点中心性的网络关键节点识别算法框架GCNP:根据某种节点中心性指标选择网络的节点覆盖集S;从网络中删除S,并迭代选择S中使网络连通的节点对增加最少的节点向原网络回添,直到|S|=k为止.为了更好地选择初始的节点覆盖集,本文还提出了一种基于局部拓扑结构特征的节点中心性度量指标LNC.在真实网络数据集和人工网络数据集上的实验结果表明,采用合理的中心性指标选择初始点覆盖集可以有效提高关键节点识别性能.在GCNP算法框架下,将本文所提的LNC指标与度中心性(DC)、LocalRank中心性(LR)、K壳中心性(KS)、局部度和中心性(LDS)相比较,发现LNC指标能更准确地评估节点的重要性.

2 背景知识

定义1. 复杂网络.可以用图G=(V,E)来表示,其中节点集V={v1,v2,…,vn},边集E={(vi,vj)| 1≤i,jn}代表网络个体间联系的集合.|V|和|E|分别为图G的节点数和边数.节点vi的邻域Г(vi)={vj|(vi,vj)∈E,vjV}.Г(vi)中的节点称为节点vi的邻居节点,节点vi的度di=|Г(vi)|.除非特别指明,本文仅考虑简单无向图.

在无向图G中,如果从节点vi到节点vj有路径,则称vivj是连通的.如果对于图G中的任意2个节点vi,vjV,vivj都是连通的,则称图G是连通的.对于一个包含由m个节点的连通图,连通节点对数为m(m-1)2.vivj之间的距离就是2个节点之间最短路径的长度.

对图G=(V,E)和G′=(V′,E′),如果V′⊆VE′⊆E,则称G′是G的子图,记作G′⊆G.若G′是以V′为顶点集,以2个端点均在V′中边的全体为边集,则称G′是G的导出子图,并记为G[V′].

定义2. 网络关键节点识别问题[23].对于图G=(V,E)和正整数k,确定包含k个节点的节点子集SV,使得删除子集S后,导出子图G[V\S]中的连通节点对最少.

LocalRank中心性 [16]利用节点的4阶邻域内所包含的信息刻画节点在全局网络中的重要性,是在权衡效率和性能的基础上对度中心性的扩展.令 N(vw)表示图G中与节点vw的距离不超过2的节点集合,定义

(1)

则节点vi的LocalRank中心性定义为

(2)

其中,Г(vi)表示节点vi的邻居节点集合.

3 基于节点中心性的关键节点识别算法

3.1 问题定义

定义3. 关键节点问题(CNP).对无向图G=(V,E),确定一个节点子集SV,使得|S|≤k且从G中删除S所得的导出子图G[V\S]中连通节点对数f(S)最小.其中

(3)

Ci表示删除集合SG[V\S]中的第i个连通分量,δi 是连通分量Ci中的节点数.

3.2 GCNP算法框架

由于确定一个网络的包含k个节点的最优子集S是NP困难问题.为了在合理的时间得到一个较优的大小为k的关键节点集合,本文提出一个基于局部中心性的关键节点识别算法框架 (greedy algorithm for critical node problem, GCNP).

GCNP迭代选择中心性指标最高的节点加入集合S,直至S成为网络的一个点覆盖集,通常|S|>k.迭代地从S中选择使得网络连通节点对增加最小的节点回添至原网络,直到|S|=k.基于节点中心性指标的关键节点识别算法框架GCNP(σ)如算法1所示,其中σ代表某种中心性指标,如度中心性、介数中心性、LocalRank中心性等.

算法1. GCNP(σ)算法框架.

输入:网络G=(V,E)、正整数k、中心性指标σ;

输出:节点子集SV,且|S|=k.

Step1. S=∅,V′=V;

Step2. 计算V′中每个节点的中心性指标值σ(vx);

Step3. 令σ(vi)≤0,令viV′中度最大的节点;

Step4. 令S=S∪{vi},V′=V\{vi};

Step5. 若G的导出子图G[V\S]中存在边,转Step2;

Step6. 根据式(3)计算f(S),若|S|≤k,转Step10;

Step7. 对S中的每个节点计算f(S\{vx});

Step8. 令若存在多个vi,则从中随机选择1个;

Step9. S=S\{vi},若|S|>k,转Step7;

Step10. 输出S.

任何一种节点中心性指标σ都是从不同角度衡量了节点在特定拓扑特征下的关键性.σ值越高,节点越有可能是关键节点.如果将网络节点仅按照某种中心性指标σ值由高到低排序,并选择前k个节点作为关键节点集,可能会遗漏一些σ值不高但对网络连通性比较关键的节点.

为了提高关键节点识别性能,GCNP(σ)算法中按照某种中心性指标σ选择网络的一个初始点覆盖集合S,并按照目标函数选择S中对网络连通性影响最小的节点回添.表1给出了在部分人工网络数据[23]上分别采用σ 指标和本文GCNP(σ)算法选择k个关键节点,删除这些节点后原网络的连通点对数,其中σ采用本文第1节给出的度中心性(DC)、LocalRank中心性(LR)、K壳中心性(KS)、局部度和中心性(LDS).从表1可以看出,GCNP(σ)在关键节点识别性能方面有非常大的改进.

网络中节点的中心性与节点度及其邻域拓扑结构密切相关.这使得度中心性不足以准确度量节点在网络连通方面的重要性,LocalRank中心性统计了节点vi的4步邻域中的节点数,并没有考虑其邻域节点间的拓扑结构.K壳中心性通常将网络中节点划分为不同的层次,无法区分同一层次中包含的大量节点的中心性.局部度和中心性没有考虑节点邻域连接的紧密程度对其中心性的影响.

Table 1 Pairwise Connectivity of σ and GCNP(σ)
表1 σ与GCNP(σ)在各指标上的连通节点对数

NetworksMethodsDCLRKSLDSER235k=50ER466k=80BA500k=50BA1000k=75WS250k=70WS500k=125FF250k=50FF500k=110σ529211193101958305GCNP(σ)364394476396σ45485526915666348617GCNP(σ)2036201826272006σ2402601703502GCNP(σ)195195195195σ6431594019131996GCNP(σ)559559566559σ16110161101611016110GCNP(σ)8035565380598091σ67529690077012570125GCNP(σ)5096451347404437σ458666536510GCNP(σ)206216206204σ53714661203700GCNP(σ)279292321280

为了更合理地对网络节点的中心性进行度量,进一步利用节点的度和邻域拓扑结构提出基于节点局部中心性的度量指标LNC.

4 节点的局部中心性(LNC)度量

为了更好地利用节点度和邻域拓扑结构对节点中心性进行度量,本文提出一种节点的局部中心性度量指标LNC,衡量节点对网络连通性的影响.如果一个节点对网络连通性影响越大,则与该节点关联的边通常对局部网络连通性影响越大.因而,可以通过节点所连边对局部网络连通性的影响来反映该节点在网络连通性方面的重要性,节点所连边的重要性越高,该节点往往越重要.基于此,本文首先考虑网络中边权重.对边(vi,vj)∈E而言,节点vivj度越大,则该边权重越大;节点vivj之间公共邻居节点越少,则边(vi,vj)对vivj之间的连通性影响越大,其权重也越大.式(4)给出了边权重的定义.

vivj是网络中的2个节点,其权重wi,j定义为

(4)

其中Г(vi)是节点vi的邻居节点集合,di为节点vi的度数,|Γ(vi)∩Γ(vj)|表示节点vi和节点vj之间的公共邻居节点数.

如图1所示网络[24]中的2条边(v10,v20)和(v19,v17),其中d10=d19=4且d20=d17=3.尽管2条边对应度相同,但由于|Γ(v10)∩Γ(v20)|=0,而|Γ(v19)∩Γ(v17)|=1,且v15的度数较大,因而有w10,20>w19,17,即边(v10,v20)对网络连通性的重要性大于边(v19,v17).

Fig. 1 The topological structure of an example network
图1 示例网络的拓扑结构

将式(4)给出边权重按照节点度分配给该边的2个节点,即边(vi,vj)对节点vi的权重贡献为基于此,本文定义节点vi的局部中心性指标LNC为

(5)

其中Г(vi)是节点vi的邻居节点集合,di为节点vi的度数,wi,j为式(4)给出的(vi,vj)的权重.可以看出,一条边对其关联度数较高的节点权重贡献更大.

式(5)所定义的局部邻域中心性指标LNC,综合考虑了节点的度信息及其邻域节点间的拓扑结构.

表2给出了图1所示网络在一些经典中心性度量指标下排名最高的4个重要节点集合S,以及从网络中删除S后对应的连通分支数和连通节点对数f(S),可以看出本文给出的LNC指标表现出良好的性能.

在第5节,将利用度中心性、LocalRank中心性、 K壳中心性、局部度和中心性与本文所提的LNC指标在GCNP(σ)算法框架下生成初始点覆盖集S,比较它们在人工网络和真实网络上对网络连通性的影响.

Table 2 Critical Node Sets Determined by Index σ onExample Network
表2 示例网络上按指标σ选取关键节点集结果

Indet σSpf(S)LNC{10,7,18,5}444DC{15,5,7,10}252BC{7,15,10,12}264LR{15,5,7,12}1136KS{1,2,3,4}1136LDS{15,5,7,18}3105

Note:S—the critical node set; p—connected component number in the residual graph G[V\S]; f(S)—the pairwise connectivity of G[V\S].

5 实验与结果

在人工网络数据集[23]和真实网络数据集上对本文所提算法框架GCNP和LNC指标做有效性验证.人工网络数据集包括16个人工网络,依据不同的网络结构可以分为4种类型,网络节点数为250~5 000不等,具体信息见表3.参数k的选取范围是k∈{5,10,20,30,50,75,100,150,200,300,500,1 000,1 500,3 000}且k<|V|.排除掉删除k个节点后所得的网络中不存在连通的点对的情况,可以得到人工网络与不同k组合共156个案例.

Table 3 Artificial Network Datasets[23]
表3 人工网络数据集[23]

Artificial Networks|V||E|kBA(Barabasi-Albert)ER(Erdos-Renyi)FF(Forest-Fire)WS(Watts-Strogatz)500499501000999752500249910050004999150235250504667008094114001402344350020025051450500828110100018171502000341320025012467050014961251000499620015004498265

Notes:|V|—node number; |E|—edge number; k—a preset integer, it determines the size of the critical node set S.

真实网络数据集包括9个真实世界网络,具体网络信息见表4.考虑到真实网络的复杂性,在此根据删除节点占网络节点总数的比值确定参数k,具体为:k∈{0.01|V|,0.05|V|,0.1|V|,0.15|V|,0.2|V|,0.25|V|,0.3|V|}.排除掉删除k个节点后所得的网络中不存在连通的点对的情况,可以得到真实网络与不同k组合共72个案例.

Table 4 Real Network Datasets
表4 真实网络数据集

Real Networks|V||E|dCrInfection[25]410276513.48780.45580.2258Celegan[26]45320258.94040.6465-0.2258Collins[27]1622907411.18870.55490.6059Gavin[27]172775348.72500.47200.5950Yeast1[28]5052247229.78700.0981-0.1082Facebook[29]40398823443.69100.60550.0636Yeast2[30]56405974821.18720.2464-0.0971Human[27]52893717514.05750.28050.0620Mouse[27]7419220165.93500.2280-0.1545

Notes:|V|—node number; |E|—edge number; d—average degree; C—clustering coefficient; r—degree assortativity.

采用文献[31]给出的效能函数对算法性能进行评价.算法A在测试数据集所有案例集合T上的效能函数定义为

(6)

其中,A(I)表示算法A在某一案例I上的结果,在本文中A代指在GCNP框架下所对应的各个指标,BEST(I)表示在案例I上所有对比算法中获得的最好结果.效能函数曲线上的点(n,PA(n))表示算法A的计算结果与最优结果的相对误差不超过2n-1的情况下测试案例所占比例.可以看出相对误差是关于n的指数函数,表5列出了n∈[0,0.6]时相对误差的取值.

Table 5 Relative Errors of Performance Profile (n∈[0,0.6])
表5 效能函数相对误差(n∈[0,0.6])

nErr∕%000.17.20.214.90.323.10.432.00.541.40.651.6

当评价算法AA′的性能时,如果算法A的效能函数曲线位于A′效能函数曲线的左上方,则认为算法A优于算法A′.

图2给出了GCNP(σ)算法分别在人工网络数据集和真实网络数据集上的效能函数曲线图.从图2(a)所示人工网络数据集上的函数曲线,可以看出本文所提局部中心性指标LNC在关键节点识别方面表现良好.当n=0(相对误差为0%)时,算法GCNP(LNC)在49%的人工网络案例上达到最好的效果,明显优于其他指标.当n=0.14(相对误差为10%)时,GCNP(LNC)在将近91%的案例上达到较好的效果,也明显优于其他指标.

Fig. 2 The curves of performance profiles of GCNP(σ) under 5 centralities
图2 GCNP(σ)在不同指标下的效能函数曲线

在真实网络数据集上也可以得到类似的结论.如图2(b),当n=0(相对误差为0%)时,算法GCNP(LNC)在26%的人工网络案例上达到最好的效果,明显优于其他指标.当n=0.14(相对误差为10%)时,GCNP(LNC)在将近76%的案例上达到较好的效果,也明显优于其他指标.

表6给出了算法GCNP(σ)在人工网络数据集和真实网络数据集部分案例上对应的5个中心性指标上重复实验30次所得的最佳结果.可以看出,通过删除由算法GCNP(LNC)所得到的关键节点集合能够使大多数网络上剩余图上连通节点对数达到最小.

Table 6 Pairwise Connectivity of GCNP(σ) on 5 Centralities
表6 GCNP(σ)算法在各中心性指标下所得的连通节点对数

NetworkskσDCLRKSLDSLNCER23550364394476396352ER4668020362018262720021837ER941140738671461879777967288ER234420018213531838545182134518137781806651BA50050195195195195195BA100075559559566559559BA250010037533753375137523751BA50001501050510496104981052210496WS2507080355653805980915583WS50012550964513474044374525WS1000200318801318801318801318801318801WS1500265112414872801571689804671733FF25050206216206204205FF500110279292321280279FF100015013351359136813631334FF200020048424780501348934883Infection621424714861202911424712385Celegan6813081306149413091270Collins24447534719486947564686Gavin2604366235197493774256438019Yeast175833570412927062341587132910743306121Facebook1212147573159284156696163458146522Yeast21410963979264002942676977836132758Human7944270351996358393583123808Mouse74229163052356928272796

Note: The best results are in bold.

6 总 结

本文提出了一种基于节点中心性的网络关键节点识别搜索框架GCNP,根据某种中心性指标选择网络的初始点覆盖集;从网络中删除该点覆盖集,迭代选择点覆盖集中使网络连通节点对增加最小的节点向原网络回添,直至点覆盖集中节点满足用户给定的待删除关键节点数.为了更好地选择初始的节点覆盖集,本文还提出了一种基于局部拓扑结构特征的节点中心性度量指标LNC.在16个人工网络和9个真实网络上的实验结果表明,采用GCNP算法可以提高算法性能.本文所提的节点中心性度量指标LNC较度中心性、LocalRank中心性、K壳中心性、局部度和中心性更能准确地评估节点的重要性.

近年来,复杂网络呈现出大规模和动态性的特点,如何设计合理的算法以有效识别大规模动态复杂网络中的关键节点是CNP问题面临的一大挑战.我们也将就这一问题开展深入探索.

参考文献

[1]Li Gaoshi, Li Min, Wang Jianxin, et al. Predicting essential proteins based on subcellular localization orthology and PPI networks[J]. BMC Bioinformatics, 2016, 17(8): No.279

[2]Borgatti S P, Mehra A, Brass D J, et al. Network analysis in the social sciences[J]. Science, 2009, 323(5916): 892-895

[3]Yan Gang, Zhou Tao, Hu Bo, et al. Efficient routing on complex networks[J]. Physical Review E, 2006, 73(4): 046108

[4]Liu Linlan, Zhang Jiang, Shu Jian, et al. Multiple attribute decision making-based prediction approach of critical nodes for opportunistic sensor networks[J]. Journal of Computer Research and Development, 2017, 54(9): 2020-2031 (in Chinese)

(刘琳岚, 张江, 舒坚, 等. 基于多属性决策的机会传感器网络的关键节点预测[J]. 计算机研究与发展, 2017, 54(9): 2020-2031)

[5]Lü Linyuan, Chen Duanbing, Zhou Tao, et al. Vital nodes identification in complex networks[J]. Physics Reports, 2016, 650: 1-63

[6]Lalou M, Tahraoui M A, Kheddouci H. The critical node detection problem in networks:A survey[J]. Computer Science Review, 2018, 28: 92-117

[7]Chen Hsinchun, Chung Wingyan, Xu Jenniferjie, et al. Crime data mining: A general framework and some examples[J]. Computer, 2004, 37(4): 50-56

[8]Pastor-Satorras R, Vespignani A. Immunization of complex networks[J]. Physical Review E, 2002, 65(3): No.036104

[9]Csermely P, Korcsmáros T, Kiss H J M, et al. Structure and dynamics of molecular networks: A novel paradigm of drug discovery: A comprehensive review[J]. Pharmacology & Therapeutics, 2013, 138(3): 333-408

[10]Arulselvan A, Commander C W, Elefteriadou L, et al. Detecting critical nodes in sparse graphs[J]. Computers & Operations Research, 2009, 36(7): 2193-2200

[11]Albert R, Jeong H, Barabasi A L. The diameter of the world wide Web[J]. Nature, 1999, 401(6749): 130-131

[12]Freeman L C. A set of measures of centrality based on betweenness[J]. Sociometry, 1977, 40(1): 35-41

[13]Sabidussi G. The centrality index of a graph[J]. Psychombtrika, 1966, 31(4): 581-603

[14]Brin S, Page L. The anatomy of a large-scale hypertextual Web search engine[J]. Computer Networks and ISDN Systems, 1998, 30(1): 107-117

[15]Król D, Fay D. Propagation Phenomena in Real World Networks[M]. Cham: Springer, 2015: 215-224

[16]Chen Duanbing, Lü Linyuan, Zhou Tao, et al. Identifying influential nodes in complex networks[J]. Physica A: Statistical Mechanics and Its Applications, 2012, 391(4): 1777-1787

[17]Wang Jianwei, Rong Lili, Guo Tianzhu. A new measure method of network node importance based on local characteristics[J]. Journal of Dalian University of Technology, 2010, 50(5): 822-826 (in Chinese)

(王建伟, 荣莉莉, 郭天柱. 一种基于局部特征的网络节点重要性度量方法[J], 大连理工大学学报, 2010, 50(5): 822-826)

[18]Ren Zhuoming, Shao Feng, Liu Jianguo, et al. Node importance measurement based on the degree and clustering coefficient information[J]. Acta Physica Sinica, 2013, 62(12): 522-526 (in Chinese)

(任卓明, 邵凤, 刘建国, 等. 基于度与集聚系数的网络节点重要性度量方法研究[J]. 物理学报, 2013, 62(12): 522-526)

[19]Kitsak M, Gallos L K, Havlin S, et al. Identification of influential spreaders in complex networks[J]. Nature Physics, 2010, 6(11): 888-893

[20]Wang Zhixiao, Zhao Ya, Xi Jingke, et al. Fast ranking influential nodes in complex networks using a k-shell iteration factor[J]. Physica A: Statistical Mechanics and Its Applications, 2016, 461: 171-181

[21]Wang Zhixiao, Du Changjiang, Fan Jianping, et al. Ranking influential nodes in social networks based on node position and neighborhood[J]. Neurocomputing, 2017, 260: 466-477

[22]Gou Chengcheng, Du Pan, He Min, et al. Tsk-shell: An algorithm for finding topic-sensitive influence spreaders[J]. Journal of Computer Research and Development, 2017, 54(2): 361-368 (in Chinese)

(笱程成, 杜攀, 贺敏, 等. Tsk-shell: 一种话题敏感的高影响力传播者发现算法[J]. 计算机研究与发展, 2017, 54(2): 361-368)

[23]Addis B, Aringhieri R, Grosso A, et al. Hybrid constructive heuristics for the critical node problem[J]. Annals of Operations Research, 2016, 238(1): 637-649

[24]Zhang Qi, Li Meizhu, Deng Yong. Measure the structure similarity of nodes in complex networks based on relative entropy[J]. Physica A: Statistical Mechanics and Its Applications, 2017, 491: 749-763

[25]Issela L, Stelhe J, Barrat A, et al. What’s in a crowd? Analysis of face-to-face behavioral networks [J]. Journal of Theoretical Biology, 2011, 271(1): 166-180

[26]Duch J, Arenas A. Community detection in complex networks using extremal optimization[J]. Physical Review E, 2005, 72(2): 027104

[27]Keretsua S, Sarmah R. Weighted edge based clustering to identify protein complexes in protein-protein interaction networks incorporating gene expression profile[J]. Computational Biology and Chemistry, 2016, 65: 69-79

[28]Zhang Xue, Xiao Wangxin, Acencio M L, et al. An ensemble framework for identifying essential proteins [J]. BMC Bioinformatics, 2016, 17(1): No.322

[29]Zhao Yuxin, Li Shenghong, Jin Feng. Identification of influential nodes in social networks with community structure based on label propagation [J]. Neurocomputing, 2016, 210: 34-44

[30]Chatr-aryamontri A, Oughtred R, Boucher H, et al. The BioGRID interaction database: 2017 update [J]. Nucleic Acids Research, 2017, 45(D1): D369-D379

[31]Dolan E D, Moré J J. Benchmarking optimization software with performance profiles[J]. Mathematical Programming, 2002, 91(2): 201-213

Centrality

Zheng Wenping1,2,3, Wu Zhikang1, and Yang Gui1

1(School of Computer and Information Technology, Shanxi University, Taiyuan 030006)2(Key Laboratory of Computational Intelligence & Chinese Information Processing (Shanxi University), Ministry of Education, Taiyuan 030006)3(Research Institute of Big Data Science and Industry, Shanxi University, Taiyuan 030006)

Abstract Identifying critical nodes in a network is important to understand the connectivity property and dynamic characteristic of the network. Critical node problem has wide applications in field of social network, terrorist network, immunization network, etc. The removal of critical nodes might degrade network connectivity significantly. An algorithm, named as GCNP (greedy algorithm for critical node problem), is proposed based on the centrality of nodes. Firstly, GCNP selects nodes according to a kind of centrality measure, such as degree, betweenness, LocalRank, and so on, to obtain a vertex cover of the interesting network. A residual graph is obtained after deleting the vertex cover set from the network. Since the size of selected vertex cover set is always larger than the preset size of critical node set. Then, GCNP would choose nodes greedily from the vertex cover to add back to the residual network iteratively, until the number of deleted nodes satisfies preset size of critical node set. The node whose replacement would lead to minimum increment of the pairwise connectivity in the residual graph would be put back first. A centrality measure LNC (local neighbor centrality) based on local topological characteristics is defined to select nodes of initial vertex cover. Experimental results on 16 artificial networks and 9 real networks show that the proposed algorithm framework GCNP could improve the performance of some classical centrality measures for identifying critical nodes in a complex network. And the proposed centrality measure LNC is more effective in evaluating the importance of nodes than degree centrality, LocalRank centrality, K-Shell centrality and local degree sum centrality.

Key words critical nodes; complex network; network connectivity; vertex cover; local centrality

A Novel Algorithm for Identifying Critical Nodes in Networks Based on Local

收稿日期2018-12-18;修回日期:2019-02-21

基金项目山西省回国留学人员科研资助项目 (2017-014);山西省自然科学基金项目(201801D121123);国家自然科学基金项目(61572005)

This work was supported by the Research Project of Shanxi Scholarship Council of China (2017-014), the Natural Science Foundation of Shanxi (201801D121123), and the National Natural Science Foundation of China (61572005).

(wpzheng@sxu.edu.cn)

中图法分类号 TP181

Zheng Wenping, born in 1979. PhD. Associate professor. Member of CCF. Her main research interests include graph theory algorithms, bioinformatics.

Wu Zhikang, born in 1992. Master. His main research interest is critical node identification algorithm in complex networks.

Yang Gui, born in 1975. PhD candidate. His main research interest is bioinformatics.