基于动态网络切分的关键蛋白质预测方法

钟坚成1 方 卓1 瞿佐航1 钟 颖1 彭 玮2 潘 毅3

1(湖南师范大学信息科学与工程学院 长沙 410081) 2(昆明理工大学信息工程与自动化学院 昆明 650500) 3(中国科学院深圳理工大学计算机与控制工程学院 广东深圳 518055)

摘 要 关键蛋白质作为蛋白质中的关键物质,不仅对研究细胞生长调控有着重要意义,也为更深层次的疾病研究奠定理论基础.目前,针对关键蛋白质的识别方法大多为应用基因表达信息和蛋白质相互作用网络,提出识别关键蛋白质的静态和动态网络方法,但这些方法未考虑基因表达调控的周期性规律,无法准确地刻画受基因周期调控的蛋白质网络.为此,在基因表达动态性的基础上引入了基因周期性表达的概念,提出了一种动态网络切分方法.该方法通过构建基因“活性”表达矩阵,利用切分后的“活性”表达矩阵作用于蛋白质相互作用网络,从而形成蛋白质周期子网络,最终综合各周期子网络来衡量蛋白质结点在网络中的重要性.实验结果表明,该方法在酵母、大肠杆菌和人类膀胱数据中可以有效地提高关键蛋白质预测率.

关键词 关键蛋白质;蛋白质相互作用网络;动态网络;周期子网络;动态基因表达

蛋白质作为构成一切生物细胞和结构必不可少的组成部分,与所有生物的生命活动息息相关,是生理功能的“基石”.由于不同氨基酸的排列顺序和空间组合有所差异,导致了蛋白质在各种生命活动中扮演了不同的角色.蛋白质可区分为关键蛋白质和非关键蛋白质,关键蛋白质在生物体内的作用尤为重要,正常生物体内如果缺少某类关键蛋白质,会造成生物体内某项功能的丧失,影响其正常生命活动,进而会导致该生物体的死亡[1].因此,准确有效地识别关键蛋白质对于研究疾病的源头和生物细胞的生长调控过程具有重要意义.

1 相关工作

基于生物实验的关键蛋白质验证方法有较高的准确性,但存在实验周期较长和消耗大量人力、财力等局限.针对此问题一些基于计算的方法被研究学者提出,分为有监督和无监督方法.有监督方法是训练一个预测模型从已标记的样本中学习特征来训练模型以预测关键蛋白质.一些经典的机器学习方法包括逻辑回归、随机森林、决策树、支持向量机(SVM)、神经网络等都属于有监督的方法.Hwang等人[2]将不同种类的蛋白质相互作用(protein-protein interaction, PPI)网络拓扑特征,并结合开放阅读框(open reading frame, ORF)长度、种系保留(PHY)等生物特征,利用SVM方法对关键蛋白质进行预测.Acencio等人[3]结合了亚细胞定位的局部效应、生物特征和网络拓扑特征,利用一种多决策树投票策略进行预测.Deng等人[4]结合了朴素贝叶斯分类器、C4.5决策树、CN2规则和逻辑回归模型预测关键蛋白质.Zhong等人[5]结合拓扑特征和生物信息特征,提出了一种XGBFEMF框架预测关键蛋白质.Zeng等人[6]提出了一种深度学习框架来整合PPI拓扑特征以及基因表达数据,并利用采样来解决训练数据不平衡问题.Peng等人[7]结合随机游走、神经网络和SVM对人类关键基因进行识别.Dai等人[8]提出了一种多集成方法,将多个基分类器进行结合从而达到提升识别率的目的.

无监督的方法无需训练模型,主要通过挖掘关键蛋白质的特征对蛋白质进行关键性打分.基于PPI网络拓扑特征的经典算法是利用蛋白质相互作用网络中的拓扑特征给蛋白质打分.如:节点的度中心性(degree centrality, DC),根据蛋白质节点在网络中节点的度的大小来衡量节点的重要性[9];节点的介数中心性(betweenness centrality, BC),指某节点出现在其他节点之间的最短路径的个数[10];节点的子图中心性(subgraph centrality, SC),通过计算节点在网络之中所参与的闭合回路的个数来体现节点的重要性[11];节点的特征向量中心性(eigenvector centrality, EC),是利用在网络邻接矩阵的主向量中每个顶点的分量来衡量节点的重要性[12];节点的信息中心性(information centrality, IC),通过调和平均路径数衡量其重要性[13];邻域中心性(neighborhood centrality, NC),利用相连边的重要性[14];局部平均连通性的方法(local average connectivity-based method, LAC),利用邻居节点的平均连通性来衡量节点重要性[15].然而,尽管这些中心性的方法取得了一定的效果,但也存在自身的局限性,网络中存在的假阳性及假阴性数据降低了网络的可靠性,对高度依赖网络结构的中心性方法造成了干扰.为了降低PPI网络中假阳性和假阴性对实验造成的影响,一些研究人员通过融合蛋白质网络拓扑特征和蛋白质生物信息来解决假阳性对PPI网络的影响.Li等人[16]和Tang等人[17]分别提出了新的融合性方法PeC和WDC,通过在PPI网络的基础上融合了基因表达数据来提高关键蛋白质的识别率.Lei等人[18]结合了网络拓扑特征、基因表达、基因本体(gene ontology, GO)注释数据、亚细胞定位和蛋白质复合物,并利用随机游走算法来对蛋白质进行关键性打分.胡健等人[19]融合基因表达、结构域和蛋白质复合物等生物信息构建时序加权网络识别关键蛋白质.Chen等人[20]构建了一种蛋白质-结构域网络,并基于PageRank算法来推断关键蛋白.Liu等人[21]从统计假设检验的角度出发,提出了一种基于p值的中心性计算方法.

此外,基因的表达呈现动态性,而静态PPI网络忽略了动态性,无法动态刻画网络中蛋白质的相互作用,一些学者融合了基因表达的时序数据,根据基因动态表达的特性构建蛋白质动态关联网络,以刻画不同时刻下的蛋白质相互作用关系[22].例如:Lichtenberg等人[23]通过结合不同时间点的基因表达数据和蛋白质相互作用数据构建了时间序列动态网络.Xiao等人[24]在静态PPI网络的基础上提出了一种时间序列模型并利用k_sigma原理去除噪声数据,构建NF-PIN动态网络.Li等人[25]结合基因表达谱和亚细胞定位信息构建了TS-PIN动态网络来预测关键蛋白质.Li等人[26]在PPI网络中融合了正交数据,并利用扩展Pareto模型预测关键蛋白质.

动态网络利用了基因表达的动态性进一步完善了网络,但并未考虑基因的周期性表达的特性.一些学者研究表明,基因在不同周期下的表达存在差异,且在不同表达周期下呈现节律性变化.Spellman等人[27]在酿酒酵母中鉴定了800个满足细胞周期调节的基因.Rustici等人[28]使用DNA微阵列检测了分裂酵母的基因的周期性表达对整个细胞周期的控制.Luan等人[29]提出了一种统计框架,利用基因表达数据和周期性表达的引导基因来识别周期性表达基因.为了更进一步提升网络的可靠性、降低网络中假阴性及假阳性数据的影响,本文在基因表达动态性的基础上引入周期性表达的概念,提出了一种动态网络切分的方法.由于关键蛋白质往往在生物体中参与了更多重要的生命活动,表现出更多的“活性”状态,本文通过构建基因“活性”表达矩阵来对基因表达数据中的噪声数据进行过滤,将各时刻的表达分类成“活性”与“非活性”表达的状态.并根据基因“活性”表达矩阵来划分周期从而刻画连续时间段内的基因表达的动态变化,有利于从局部衡量蛋白质的“活性”程度,更契合基因表达随周期的改变而发生变化的特性,从而进一步降低网络中假阳性与假阴性的影响,提高关键蛋白质识别的准确性.

2 基于动态网络切分的关键蛋白质预测方法

2.1 构建基因“活性”表达矩阵

由于基因表达数据是由微阵列或新一代测序技术产生的数据,这类高通量的数据存在着不可避免的噪声数据,以基因随时间动态表达的特性为前提,利用在不同时刻下基因所呈现“活性”和“非活性”的性质来去除基因表达数据中噪声的影响.设置的动态阈值计算公式为:

(1)

S(v)=U(v)+a×σ(vV(v),

(2)

其中,σ(v)表示基因在整个周期内表达值的标准差,V(v)表示蛋白质基因表达的波动性,U(v)表示基因整个周期的平均表达值,S(v)表示基因的阈值参数,a表示阈值系数.

根据每个基因的表达曲线来设置阈值,如果某个时刻下基因的表达值不高于其阈值,那么该基因的该时刻被认为是“非活性”的表达时刻,对于“非活性”时刻的表达值采用对其定义为“0”,对于高于阈值的“活性”的表达值时刻则维持其原有时刻下的表达值,以此进一步降低其高通量数据带来的假阳性及假阴性.由此构建的表达值矩阵为:

(3)

(4)

其中,N表示基因的数量,M表示基因表达周期,Xv,t表示基因v在时刻t下的表达量,表示基因v在时刻t下的活性表达量,X′表示基因活性表达矩阵.

2.2 切分动态网络子网

蛋白质与蛋白质之间并不总是时刻存在相互作用关系,蛋白质之间的相互作用关系会随着时间的改变而发生改变.时间序列的基因表达数据为构建动态网络提供了基础,在蛋白质的活性动力学基础上结合基因具有周期表达性的特点,对基因活性表达矩阵进行周期切分.具体切分公式为:

(5)

(6)

其中,分别代表切分的第k个周期在整个周期下的起始时间点和终止时间点(k=1,2,…,p),p代表周期的个数,T代表完整周期的时间点长度,μ代表周期间隔参数代表四舍五入取整后当前周期与下一周期的间隔长度.

为了反映基因随周期表达这一特性,动态网络下2个蛋白质在同一周期下的相同时刻同时存在着“活性”表达,那么此相互作用关系则将在周期网络中保留.动态网络切分表示为DDGS={G1,G2,…,Gk,…,Gp},Gk代表第k个周期下的子网,Vk={vk1,vk2,…,vkn}代表第k个周期下的“活性”蛋白质集合,Ek={ek1,ek2,…,ekm}代表第k个周期下基于活性共表达原则的蛋白质相互作用关系集合.对于静态PPI网络下的蛋白质相互作用e(v,u),如果蛋白质v和蛋白质u在第k个周期中的时刻t下同时处于“活性”表达,构建的蛋白质相互作用关系集合为:

(7)

其中,ek(v,u)=1代表蛋白质v和蛋白质u在第k个周期下存在相互作用关系,反之则不存在相互作用关系.

p=5,μ=10为例,将酵母(yeast)物种进行动态网络切分的示意图如图1所示.酵母物种的“活性”表达矩阵周期为36个不同时刻,对其进行5个周期的切分,5个周期的起始时间点和终止时间点分别为“活性”表达矩阵的T1T20,T5T24,T9T28,T13T32T17T36,再通过融合静态PPI网络相互作用边来构建子网G1G2G3G4G5.对于酵母蛋白质周期1的时刻T1T20来说,A,B存在静态相互作用,蛋白质A,B在时刻T9下存在“共活性”表达时刻,因此A,BG1中存在动态子相互作用.B,E即使在时刻T33下存在着“共活性”表达时刻,但在周期1,2,3中不存在“共活性”表达时刻,因此BE在子网G1G2G3中不存在相互作用边.

在图1网络中,蛋白质ACE分别为关键蛋白质,BDF分别为非关键蛋白质.经过动态网络切分后,由于关键蛋白质往往具备保守性的原因,使得关键蛋白质更难在动态网络中被改变,而非关键蛋白质的表达性更易受到外界的影响而发生变化,如蛋白质F在周期1,2,3中并未表达出“活性”.

Fig. 1 Schematic diagram of dynamic network segmentation
图1 动态网络切分示意图

2.3 动态网络切分中的关键蛋白质识别

由于动态网络中蛋白质在不同周期下表达的“活性”不同,因此在计算最终关键蛋白质识别得分考虑子网中表达为“活性”的蛋白质出现次数.对比分析静态PPI网络和动态网络切分下的关键蛋白质识别方法,其动态网络切分下的蛋白质关键得分为:

(8)

其中,n(v)表示蛋白质vk个子网中出现的次数,Mk(v)表示在第k个周期下的蛋白质v的关键得分,MMPN(v)表示蛋白质v在融合p个周期后的最终关键得分.

近年来,随着对蛋白质相互作用网络的不断深入研究,许多基于网络拓扑特征的方法和融合PPI网络与生物信息的方法被提出.本文选取了9种基于静态PPI网络的关键蛋白质预测方法,其中包括7种网络拓扑中心性方法DC,IC,EC,SC,BC,NC,LAC和2种融合基因表达方法PeC和WDC.通过对基因“活性”表达矩阵划分p个周期,其对应的动态网络切分方法分别为DPN,IPN,EPN,SPN,BPN,NPN,LPN,PPN,WPN.具体动态网络切分的关键蛋白质预测方法公式如表1所示:

Talbe 1 Prediction Essential Proteins Equation for Converting Static PPI Network Method to Dynamic Network Segmentation Method
表1 静态PPI网络方法转换为动态网络切分方法的预测关键蛋白质公式

静态PPI网络方法静态PPI网络方法公式动态网络切分方法动态网络切分方法公式DCMDC(v)=deg(v)DPNMDPN(v)=1n(v)∑pk=1MDC,k(v)ICMIC(v)=1N∑u1Iv,u -1IPNMIPN(v)=1n(v)∑pk=1MIC,k(v)ECMEC(v)=αmax(v)EPNMEPN(v)=1n(v)∑pk=1MEC,k(v)SCMSC(v)=∑浣k=0μk(v)k!SPNMSPN(v)=1n(v)∑pk=1MSC,k(v)BCMBC(v)=∑p≠v≠q∈VSpq(v)SpqBPNMBPN(v)=1n(v)∑pk=1MBC,k(v)NCMECC(v,u)=zv,umin(hv-1,hu-1)MNC(v)=∑u∈N(v)MECC(v,u)NPNMNPN(v)=1n(v)∑pk=1MNC,k(v)LACMLAC(v)=∑u∈N(v)degCv(u)LPNMLPN(v)=1n(v)∑pk=1MLAC,k(v)PeCMPeC(v)=∑u∈DvP(v,u)×MECC(v,u)PPNMPPN(v)=1n(v)∑pk=1MPeC,k(v)WDCMWDC(v)=∑u∈Dvλ×P(v,u)+(1-λ)×MECC(v,u)WPNMWPN(v)=1n(v)∑pk=1MWDC,k(v)

描述计算动态网络切分的算法在算法1中给出.

算法1. 动态网络切分算法.

输入:蛋白质相互作用网络G=(V,E)、基因表达数据V×T

输出:得分排名前q个关键蛋白质.

① 计算基因动态表达阈值:

for each vV do

根据式(1)计算V(v);

根据式(2)计算S(v);

end for

② 构建基因“活性”表达矩阵:

for each vV do

for each tT do

根据式(3)计算

end for

end for

根据式(4)构建矩阵X′;

③ 构建动态网络子网:

for each k∈[1,p] do

根据式(5)(6)计算

for each e(v,u)∈E do

根据式(7)计算ek(v,u);

end for

end for

end for

④ 计算各子网中蛋白质得分:

for each k∈[1,p] do

for each vV do

根据表1计算Mk(v);

end for

end for

⑤ 计算蛋白质最终得分:

for each vV do

根据式(8)计算MMPN(v);

end for

⑥ 根据MMPN(v)得分降序排列,取前q个蛋白质作为关键蛋白质输出.

动态网络切分算法主要由6部分组成:第1步计算基因动态阈值,时间复杂度为O(n);第2步循环各蛋白质各时间点的表达量,构建基因“活性”表达矩阵,时间复杂度为O(nT);第3步对“活性”表达矩阵进行切分,并结合静态PPI网络构建动态网络子网,时间复杂度为O(meT′);第4步计算各子网中蛋白质得分,时间复杂度为O(mn);第5步对各个子网中的得分进行累加求和再除以蛋白质节点在动态网络中出现的次数,以此作为蛋白质最终得分,时间复杂度为O(n);第6步根据最终得分降序排列,输出前q个蛋白质作为预测的关键蛋白质.总时间复杂度为O(n+nT+meT′+mn+n).其中,n代表蛋白质节点的个数,m代表切分子网的个数,T代表基因周期长度,T′代表切分后的基因周期长度.

3 实验数据

由于酵母蛋白质网络和关键蛋白质数据是相对比较完善的,因此本文采用酿酒酵母(saccharomyces cerevisiae)来进行实验.另外,本文还采用了大肠杆菌(Escherichia coli, E.coli)和人类膀胱部位(bladder)的数据来进一步验证实验.

酵母和大肠杆菌的PPI网络数据下载自DIP数据库,丢弃掉网络中的重复相互作用和自我相互作用,最终酿酒酵母的PPI网络包含了5 093个蛋白质和24 743个相互作用,大肠杆菌的PPI网络包含了2 727个蛋白质和11 803个相互作用.人类膀胱的PPI网络数据从BioGRID(Version 3.5.182)下载得到,包含1 748 436条相互作用,去除重复和自环之后包含15 721个基因和322 406个相互作用.

基因表达数据从基因表达综合数据库(GEO)中获取.酵母的基因表达数据下载自GESE3431,包含6 777个基因产物和36个时间点,其中有4 858个基因参与酿酒酵母PPI网络.大肠杆菌表达数据在GSE3905中,包含7 312个基因产物和8个时间点.人类膀胱的表达数据在GSE86354中,提供了基因型-组织表达(GTEx)项目产生的8个组织位点的1 558份样本的表达谱,其中膀胱包含了11个时间点.

关键蛋白质数据通过整合MIPS[30],SGD[31],DEG[32],SGDP[33]四个数据库,其中酿酒酵母的关键蛋白质有1 285个,其中有1 167个蛋白质出现在酿酒酵母PPI网络中.大肠杆菌在其PPI网络中包含254个关键蛋白质.人类膀胱的关键基因数据在在线关键基因数据库(OGEE)(downloaded at 20/10/2020)中下载得到21 556个基因座,在Uniprot网站上将其进行映射对应的18 900个基因,包含7 123个关键基因.实验数据集及代码提交至开源网站:https://github.com/jczhongcs/DevideDynamicNetwork.

4 实验结果与分析

4.1 Top排序分析

Fig. 2 Top ranking number analysis of essential proteins by dynamic network segmentation and other prediction methods in yeast
图2 酵母中动态网络切分方法与其他方法在关键蛋白质预测的Top排序数量分析

Fig. 3 Top ranking number analysis of essential proteins by dynamic network segmentation and other prediction methods in E. coli
图3 大肠杆菌中动态网络切分方法与其他方法在关键蛋白质预测的Top排序数量分析

本文对比多个参数实验结果,将设置u=10,p=5.对基因表达周期切分为5个周期,当前周期与下一个周期的间隔占总周期长度的1/10.为了充分体现经过5个周期的动态网络切分方法的优越性,本文将7种中心性方法(DC,IC,EC,SC,BC,NC,LAC)以及2种融合性方法(PeC和WDC),与其在动态网络切分后的预测方法(D5N,I5N,E5N,S5N,B5N,N5N,L5N,P5N,W5N)的预测结果进行比较.选择其预测的排名Top 100,Top 200,Top 300,Top 400,Top 500,Top 600的关键蛋白质,并判断其中所包含的正确的关键蛋白质数量.酵母与大肠杆菌的Top分析结果如图2、图3所示.在酵母预测得分的Top 100个蛋白质中,中心性方法DC,IC,EC,SC,BC,NC,LAC,PeC,WDC分别预测了46,44,37,37,44,55,59,76,70个正确的关键蛋白质;D5N,I5N,E5N,S5N,B5N,N5N,L5N,P5N,W5N分别预测了49,50,56,53,43,79,81,80,78个正确的关键蛋白质.除B5N外,经过动态网络切分之后的方法在得分Top 100个蛋白质中所预测的正确关键蛋白质数量都要大于原静态网络中的方法,其中L5N预测的关键蛋白质达81个,识别率为所有方法中最高.虽然B5N在Top 100中比BC少预测了一个关键蛋白质,但在Top 200,Top 300,Top 400,Top 500,Top 600中预测的关键蛋白质都要高于原方法BC.在大肠杆菌中关键蛋白质的Top分析中可以看出,在Top 100中D5N,I5N,E5N,S5N,B5N,N5N,L5N,P5N,W5N分别预测了39,38,35,41,37,39,33,40,39个,相比于原方法分别高出了12,12,13,19,6,16,18,2,4个,其中S5N预测了所有方法中最多的关键蛋白质数量.在之后的Top 200,Top 300,Top 400,Top 500,Top 600的Top分析中,经过动态网络切分后的中心性方法相比融合性方法识别的关键蛋白质也更多.从识别结果中可以看出,中心性方法与融合方法在动态网络切分后都能预测出更多的关键蛋白质,这表明经过动态网络切分的方法相比静态PPI网络可以有效地提取各个周期中关键蛋白质的活性信息,而关键蛋白质更多地参与细胞中重要的生命活动,相比非关键蛋白质具有更高的活性.因此,动态网络切分的方法对关键蛋白质的识别拥有更高的准确性.同时,一方面动态网络切分对基因活性表达矩阵中不高于阈值的表达量置0,降低了处于非活性状态中的基因表达值的影响,提高了活性表达量的可靠性,有助于进一步过滤网络中的假阴性及假阳性的噪声数据.另一方面也侧面说明了引入基因随周期表达的概念可以有效地挖掘各个周期中不同活性表达水平的关键蛋白质.

4.2 基于ROC曲线分析和多种性能评估

受试者工作特征ROC曲线常用来评估二分类系统的好坏,纵坐标表示真阳性率,横坐标表示假阳性率,曲线上每一个点反映对同一信号刺激性的感受性.本文选取动态网络切分下的代表性方法W5N与其他方法进行比较.酵母与大肠杆菌的ROC曲线如图4和图5所示:

Fig. 4 ROC curve and AUC value of dynamic network segmentation method and other prediction methods in yeast
图4 酵母中动态网络切分方法与其他预测方法的ROC曲线和AUC值

Fig. 5 ROC curve and AUC value of dynamic network segmentation method and other prediction methods in E.coli.
图5 大肠杆菌中动态网络切分方法与其他预测方法的ROC曲线和AUC值

如图4酵母ROC曲线所示,在其经过5个周期切分之后的动态网络中的W5N与原方法WDC的曲线下面积AUC分别为0.715 2和0.689 3,W5N高出了0.025 9;其他方法PeC,DC,IC,EC,SC,BC,NC,LAC的AUC分别为0.715 2,0.670 5,0.665 7,0.638 6,0.638 5,0.625 6,0.688 9,0.690 1,与之相比,W5N为所有方法中ROC曲线下面积最大.从图4说明,动态网络切分后的方法相比原方法能区分出更多的关键蛋白质与非关键蛋白质,使网络变得更为可靠.

如图5所示,在大肠杆菌ROC曲线中,W5N曲线下面积AUC为0.724 3,WDC,PeC,DC,IC,EC,SC,BC,NC,LAC分别为0.683 7,0.632 1,0.684 9,0.678 2,0.685 1,0.685 0,0.662 6,0.658 3,0.657 0,W5N的AUC为所有方法最高.这表明经过动态网络切分后的W5N能预测出更多的关键蛋白质.

Fig. 6 ROC curve and AUC value of N5N and L5N, NC and LAC in yeast
图6 酵母中N5N,L5N与NC,LAC的ROC曲线和AUC值

为了进一步验证动态网络切分对预测关键蛋白质性能的提升,本文选取酵母预测得分前1 167个蛋白质和大肠杆菌预测得分前254个蛋白质作为预测的关键蛋白质,并利用ROC曲线下面积AUC、敏感性(SN)、特异性(SP)、假阳性率(FPR)、阳性预测值(PPV)、阴性预测值(NPV)、F-measure、准确度(ACC)和Matthews相关系数(MCC)这9个指标来对各个方法的性能进行评估.

(9)

(10)

(11)

(12)

(13)

(14)

(15)

MCC=

(16)

式(9)~(16)中,真阳性TP表示预测正确的关键蛋白质;真阴性TN表示预测正确的非关键蛋白质;假阳性FP表示关键蛋白质错误地被预测为非关键蛋白质;假阴性FN表示非关键蛋白质错误地被预测为关键蛋白质.

由于N5N和L5N整体的AUC略低于NC和LAC,本文又分别计算了N5N,NC,L5N,LAC预测得分Top 600的蛋白质的AUC,结果如图6所示.从图6的ROC曲线图不难看出,在研究人员更关心的预测排名靠前的ROC下曲线面积中,N5N,NC,L5N,LAC的AUC值分别为0.648 7,0.604 6,0.660 1,0.597 8,这也说明N5N和L5N在预测得分排名越高的情况下,相比NC和LAC的预测得分结果更为可靠.由表2可知,经过动态网络切分后的大部分方法的AUC相比原方法都得到了提升,其中W5N的AUC达到了最高的0.715 2.在其余的统计指标中,除B5N的指标略低于原有方法BC指标之外,W5N,P5N,D5N,S5N,E5N,I5N,N5N,L5N的各项指标全都超过了原有方法.这说明在酵母中进行动态网络切分的方法可以提升在静态PPI网络中方法的性能.其中,酵母中W5N的SN,SP,PPV,NPV,F-measure,ACC,MCC分别为0.474 7,0.843 9,0.474 7,0.843 9,0.474 7,0.759 3,0.318 6,假阳性率FPR为最低的0.156 1,各项指标均在同类型方法WDC和其他所有方法中达到了最高,这说明了W5N在预测酵母的关键蛋白质中的识别率最高、性能最好.

由表3可知,在大肠杆菌中的动态网络切分中的各项方法AUC相比于原有方法均有较大提升,其中S5N的AUC达到了最高的0.729 7.在其他指标中,其中D5N的SN,SP,PPV,NPV,F-measure,ACC,MCC分别为0.315 0,0.929 6,0.315 0,0.929 6,0.315 0,0.872 4,0.244 6,均为所有方法中最高,FPR为最低的0.070 4.各项方法经过动态网络切分后,相比原方法的指标都得到了提升,使预测结果更为可靠.

Table 2 Evaluation and Analysis of Yeast
表2 酵母评估分析

方法AUCSNSPFPRPPVNPVF-measureACCMCCW5N0.71520.47470.84390.15610.47470.84390.47470.75930.3186WDC0.68930.45760.83900.16100.45800.83880.45780.75160.2967P5N0.67490.45420.83770.16230.45420.83770.45420.74990.2919PeC0.64430.40360.82270.17730.40360.82270.40360.72670.2263D5N0.68390.42240.82830.17170.42250.82830.42250.73530.2508DC0.67050.40020.82170.17830.40020.82170.40020.72510.2219B5N0.63160.34880.80640.19360.34880.80640.34880.70150.1552BC0.62560.35050.80690.19310.35050.80690.35050.70230.1574S5N0.66420.41130.82500.17500.41130.82500.41130.73020.2363SC0.63850.36760.81200.18800.36760.81200.36760.71020.1796E5N0.66640.41130.82500.17500.41130.82500.41130.73020.2363EC0.63860.36760.81200.18800.36760.81200.36760.71020.1796I5N0.68400.42500.82910.17090.42500.82910.42500.73650.2541IC0.66570.40100.82200.17800.40100.82200.40100.72550.2230N5N0.68690.45840.83900.16100.45840.83900.45840.75180.2975NC0.68890.43530.83210.16790.43530.83210.43530.74120.2674L5N0.68740.46100.83980.16020.46100.83980.46100.75300.3008LAC0.69010.44900.83620.16380.44900.83620.44900.74750.2852

注:黑体数值表示最优值.

Table 3 Evaluation and Analysis of E.coli
表3 大肠杆菌评估分析

方法AUCSNSPFPRPPVNPVF-measureACCMCCW5N0.72430.29130.92720.07280.29130.92720.29130.86800.2186WDC0.68370.23230.92110.07890.23220.92110.23230.85700.1534P5N0.65890.25590.92360.07640.25590.92360.25590.86140.1795PeC0.63210.24410.92040.07760.24410.92240.24410.85920.1665D5N0.72740.31500.92960.07040.31500.92960.31500.87240.2446DC0.68490.25590.92360.07640.25590.92360.25590.86140.1795B5N0.70500.28350.92640.07360.28350.92640.28350.86650.2098BC0.66260.24410.92240.07760.24410.92240.24410.85920.1665S5N0.72970.31100.92920.07080.31100.92920.31100.87170.2403SC0.68500.22830.92070.07930.22830.92070.22830.85620.1491E5N0.72690.28740.92680.07320.28740.92680.28740.86730.2142EC0.68510.22830.92070.07930.22830.92070.22830.85620.1491I5N0.72270.29130.92720.07280.29130.92720.29130.86800.2186IC0.67820.25590.92360.07640.25590.92360.25590.86140.1795N5N0.68140.25980.92400.07600.25980.92400.25980.86210.1838NC0.65830.21650.91950.08050.21650.91950.21650.85410.1361L5N0.68090.24410.92240.07760.24410.92240.24410.85920.1665LAC0.65700.20870.91870.08130.20860.91870.20870.85260.1274

注:黑体数值表示最优值.

4.3 基于重叠性和Jackknife分析

为了进一步分析动态网络切分方法在酵母与大肠杆菌中预测关键蛋白质的表现,本文将选取动态网络切分中的代表性方法W5N与其余9种关键蛋白质预测方法(DC,EC,SC,BC,IC,NC,LAC,PeC,WDC)预测得分的Top 100个关键蛋白质进行重叠分析.酵母中W5N与其他预测方法之间重叠数量如表4所示,大肠杆菌中W5N与其他预测方法之间重叠数量如表5所示.以表4中的W5N为例:Ci为其他关键蛋白质预测方法,CW5NCi表示W5N和其余各关键蛋白质预测方法之间识别关键蛋白质的重叠部分数量,|Ci-CW5N|表示由W5N和其余各关键蛋白质预测方法识别关键蛋白质的非重叠部分数量.

Table 4 The Number of Overlaps Between W5N and Other Methods in Yeast
表4 酵母中W5N与其他方法之间的重叠数量

方法CW5N∩Ci个数|Ci-CW5N|的Ci非关键蛋白质个数|Ci-CW5N|的W5N非关键蛋白质个数|Ci-CW5N|中Ci关键蛋白质的占比∕%|Ci-CW5N|中W5N关键蛋白质的占比∕%DC41381135.5981.36IC40401533.3375EC23581924.6875.32SC23581924.6875.32BC36431432.8178.13NC41381135.5981.36LAC25371750.6777.33PeC5514868.8982.22WDC6914654.8480.65

Table 5 The Number of Overlaps Between W5N and Other Methods in E.coli
表5 大肠杆菌中W5N与其他方法之间的重叠数量

方法CW5N∩Ci个数|Ci-CW5N|的Ci非关键蛋白质个数|Ci-CW5N|的W5N非关键蛋白质个数|Ci-CW5N|中Ci关键蛋白质的占比∕%|Ci-CW5N|中W5N关键蛋白质的占比∕%DC49413419.6133.33IC47433018.8743.40EC35564413.8532.31SC35564413.8532.31BC40443526.6741.67NC46483011.1144.44LAC3560387.7041.54PeC77191217.3947.83WDC88126050

从表4可以看出,在酵母中W5N与中心性方法(DC,EC,SC,BC,IC,NC,LAC)预测了较少的相同关键蛋白质,其中W5N与DC和NC的重叠部分最高,预测了41个相同的关键蛋白质,在其非重叠部分,W5N预测的关键蛋白质百分比超过了80%.W5N与融合了生物信息的PeC和WDC相比有较高的重叠,但在非重叠部分预测的关键蛋白质更多,其中与PeC的非重叠部分的关键蛋白质达到了82%,这说明使用动态网络切分方法预测关键蛋白质是很有必要的.在W5N与其他方法的重叠部分中预测的非关键蛋白质更少,预测的关键蛋白质更多.以SC为例,SC的|Ci-CW5N|的数量为77,在该77个非重叠蛋白质中,SC识别的关键蛋白质占比为24.68%,而W5N识别的关键蛋白质占比为75.32%,说明在非重叠部分,W5N相比SC多识别了超过50%的关键蛋白质,同时也反映了W5N识别关键蛋白质的可靠性.

从表5可以看出,由于大肠杆菌相比于酵母的关键蛋白质占总体蛋白质的比例较低,关键蛋白质的数量较少,非关键蛋白质数量较多,所以造成预测的关键蛋白质占比相比酵母较低.经过动态网络切分后的W5N与中心性方法的重叠部分较低,与PeC和WDC的重叠部分较高.其中与原方法WDC的重叠部分最高为88个,但在非重叠部分的12个蛋白质中,WDC错误地将非关键蛋白质全部预测为关键蛋白质,而W5N预测正确的个数为6个.且W5N与其他所有方法的非重叠部分相比,预测正确的关键蛋白质全部高于其余对比方法.这也表明了W5N在大肠杆菌中能更好地识别关键蛋白质.

为了更加细致地分析动态网络切分方法的优越性,本文引入Jackknife方法对其分析.横轴表示预测为关键蛋白质的数量,纵轴表示在预测为关键蛋白质的数量中真实的蛋白质数量.曲线下面积越大,表明预测的关键蛋白质数量越多.酵母和大肠杆菌中W5N与P5N的Jackknife曲线分别如图7和图8所示:

Fig. 7 Jackknife overlap curve analysis of each method in yeast data
图7 酵母数据中各方法的Jackknife重叠曲线分析

Fig. 8 Jackknife overlap curve analysis of each method in E.coli data
图8 大肠杆菌数据中各方法的Jackknife重叠曲线分析

从图7和图8可以看出,图7(a)和图8(a)中P5N识别的关键蛋白质数量在前段都处在最高位置,随着预测排名的增加,W5N开始处于最高位置,识别的关键蛋白质数目超过了P5N和其他方法.这说明P5N,W5N的关键蛋白质识别率都在分别优于原方法PeC和WDC的同时,全部高过静态网络中心性的方法,从而说明经过动态网络切分后的方法对识别关键蛋白质的有效性和优异性.

4.4 参数分析

本文进一步分析不同的基因活性表达矩阵阈值和不同的基因活性表达矩阵的周期划分对于预测性能的影响.首先,针对酵母和大肠杆菌数据,采用不同的基因活性表达矩阵阈值参数,分别设置为1,1.5,2,2.5,3来分析对识别关键蛋白质的影响程度,结果如附录A的表A1、表A2所示.由酵母实验结果可见,在设置的5种阈值参数中,用于识别关键蛋白质的9种方法在不同参数设置的结果略有差别.在参数为2时,所构建的基因活性表达矩阵中AUC值均相对最高;当参数为2.5时,在Top 100至Top 600分析时呈现出较好的结果.大肠杆菌的基因表达数据经过5个阈值系数过滤得到5个基因活性表达矩阵,这5个基因活性表达矩阵的差别极小,划分后的子网的边对应关系均完全一致,即中心性结果一致,最终分别计算出的5个P5N与W5N相差极小,最终5个阈值系数在9种方法中所得出的Top结果一致.

此外,本文设定不同的基因活性表达矩阵的周期划分,将基因活性表达矩阵分别划分为3,4,5,6,7个周期来测试周期的划分对实验的影响,结果如附录A表A3、表A4所示.由酵母与大肠杆菌的实验结果表明,基因活性表达矩阵的周期划分对基于中心性方法关键蛋白质的识别影响较小,在AUC值分析和Top结果上略有差别.

4.5 基于动态网络分析对比

在之前的实验中,本文对比了动态网络切分识别方法与静态网络中识别方法.实验结果表明,经过动态网络的切分关键蛋白质的识别率可以得到有效的提升.为了进一步讨论动态网络切分对预测关键蛋白质的有效性,本文还将动态网络切分方法与动态网络NF-PIN的识别结果进行对比分析.

NF-PIN动态网络在进行酵母实验时,将基因表达数据中的36个时间点分为12个时间段.本文为了单独比较方法的预测性能,将选取与NF-PIN一致的基因表达数据与PPI网络进行方法评估,实验结果如表6所示.由于大肠杆菌的基因表达数据中包含的时间点为8个,在动态网络中难以形成5个有效的周期,鉴于此类情况,本文实验获取了与酵母NF-PIN动态网络中时间相仿的人类膀胱的数据集进行实验,人类膀胱的时间点为11个,实验结果如表7所示.

Table 6 Analysis of Various Prediction Methods for Dynamic Network Segmentation andNF-PIN Dynamic Network in Yeast Data
表6 酵母数据中动态网络切分方法与NF-PIN动态网络各种预测方法分析

方法AUCTop100Top200Top300Top400Top500Top600胜出NF-P5N0.6547771492082592903325NF-PeC0.6333821522052432813182NF-W5N0.6955731392012542993473NF-WDC0.6751751471982562993403NF-E5N0.6713751291862382853217NF-EC0.6536671211762242632930NF-S5N0.6731711301922412883267NF-SC0.6531661191732232552930NF-B5N0.646352991381762252686NF-BC0.635948931371842242551NF-D5N0.6832581201762262683147NF-DC0.6641511111682182653090NF-I5N0.6839591191782282683147NF-IC0.6640511111672182633090NF-N5N0.6730801462092603113435NF-NC0.6562801462032582943320NF-L5N0.6730851452132633003406NF-LAC0.6563841492042482953361

注:黑体数值表示最优值.

Table 7 Analysis of Various Prediction Methods for Dynamic Network Segmentation andNF-PIN Dynamic Network in Human Bladder Data
表7 人类膀胱数据中动态网络切分方法与NF-PIN动态网络各种预测方法分析

方法AUCTop100Top200Top300Top400Top500Top600胜出NF-P5N0.5753871722463203944617NF-PeC0.5328851542192743434010NF-W5N0.5731851572343143864636NF-WDC0.5257791572262963514070NF-E5N0.5669921692533264054797NF-EC0.5219871662453173864430NF-S5N0.5653891692483234024647NF-SC0.5207871662453173864430NF-B5N0.5652731271932633233757NF-BC0.5285691231752302893320NF-D5N0.5657761472142863604257NF-DC0.5188701341992553253770NF-I5N0.5657741512122873604297NF-IC0.5188701341962553253770NF-N5N0.5732841682433143874597NF-NC0.5336801492122843183680NF-L5N0.5736901682463283974647NF-LAC0.5338761572222833384000

注:黑体数值表示最优值.

从表6中可以看出,在动态网络切分与动态网络NF-PIN输入了一致数据的实验中,所有经过切分之后的方法相比原方法,其AUC均得到了一定程度的提升.其中NF-W5N的AUC达到了最高的0.695 5,相比NF-PIN中AUC最高的0.675 1还要高出2.04个百分点,这表明由动态网络切分方法预测的关键蛋白质准确度更高.在中心性方法Top分析中,动态网络切分方法预测出的关键蛋白质数量都基本超过了未经切分的动态网络NF-PIN,其中NF-E5N,NF-S5N,NF-D5N,NF-I5N,NF-N5N相比NF-EC,NF-SC,NF-DC,NF-IC,NF-NC的识别率有全面提升.其中,NF-L5N在研究人员最关注的Top 100中预测了最多的85个关键蛋白质.这表明动态网络NF-PIN利用生物表达的动态性,在识别关键基因中有着较高的准确度,而动态网络切分在利用动态性的基础上进一步结合了生物周期性表达的特性,降低了网络中来自假阳性及假阴性数据的影响,相比仅利用基因表达动态性的动态网络能够有效识别出更多的关键蛋白质.

在表7中可以看出,在人类膀胱的数据集中,所有动态网络切分方法的AUC都要高于原方法.其中,NF-P5N在预测关键基因中AUC达到了最高的0.575 3.从Top分析中可以看出,所有动态网络切分方法相比原方法都得到了较大的提升,其中NF-E5N在Top 100中预测了最多的92个关键基因.实验结果表明,在人类膀胱数据集中,经过切分后的网络在各个方法上都比动态网络NF-PIN的识别率要高.这也说明了融合5个周期的动态网络相比于不切分的动态网络拥有更好的性能,能识别出更多的正确结果.

5 总 结

本文融合基因表达数据中的时序数据扩展了PPI网络的动态性.实验通过对酵母、大肠杆菌及人类膀胱的蛋白质数据的分析探索,将静态PPI网络划分了多个周期及构建融合多个子网信息的动态网络,以尽可能避免静态网络中假阳性和假阴性数据的影响,最大限度地提取在蛋白质随环境变化时所具有的保守性.实验结果表明:在酵母、大肠杆菌及人类膀胱中进行动态网络切分的方法可以有效地提高关键蛋白质的识别率,识别出更多的关键蛋白质.

作者贡献声明:钟坚成和潘毅提出研究思路和实验方案,以及对论文的修改进行审查;钟坚成和彭玮进行研究目标分析和研究方案总结;方卓负责实验推进和论文初稿撰写;瞿佐航负责数据整理和论文校对;钟颖参与实验测试.

参考文献

[1]Asur S, Ucar D, Parthasarathy S. An ensemble framework for clustering protein-protein interaction networks[J]. Bioinformatics, 2007, 23(13): 29-40

[2]Hwang Yihchii, Lin Chenching, Chang Jenyun, et al. Predicting essential genes based on network and sequence analysis[J]. Molecular BioSystems, 2009, 5(12): 1672-1678

[3]Acencio M L, Lemke N. Towards the prediction of essential genes by integration of network topology, cellular localization and biological process information[J]. BMC Bioinformatics, 2009, 10(1): 1-18

[4]Deng Jingyuan, Deng Lei, Su Shengchang, et al. Investigating the predictability of essential genes across distantly related organisms using an integrative approach[J]. Nucleic Acids Research, 2011, 39(3): 795-807

[5]Zhong Jiancheng, Sun Yusui, Peng Wei, et al. XGBFEMF: An XGBoost-based framework for essential protein prediction[J]. IEEE Transactions on Nanobioscience, 2018, 17(3): 243-250

[6]Zeng Min, Li Min, Fei Zhihui, et al. A deep learning framework for identifying essential proteins by integrating multiple types of biological information[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2021, 18(1): 296-305

[7]Dai Wei, Chang Qi, Peng Wei, et al. Network embedding the protein-protein interaction network for human essential genes identification[J]. Genes, 2020, 11(2): 153:1-153:19

[8]Dai Wei, Chen Bingxi, Peng Wei, et al. A novel multi-ensemble method for identifying essential proteins[J]. Journal of Computational Biology, 2021, 28(7): 637-649

[9]Hahn M W, Kern A D. Comparative genomics of centrality and essentiality in three eukaryotic protein-interaction networks[J]. Molecular Biology and Evolution,2005, 22(4): 803-806

[10]Joy M P, Brock A, Ingber D E, et al. High-betweenness proteins in the yeast protein interaction network[J]. Journal of Biomedicine and Biotechnology, 2005, 2005(2): 96-103

[11]Estrada E, Rodriguez-Velazquez J A. Subgraph centrality incomplex networks[J]. Physical Review E, 2005, 71(5): 056103

[12]Bonacich P. Power and centrality: A family of measures[J]. American Journal of Sociology, 1987, 92(5): 1170-1182

[13]Stephenson K, Zelen M. Rethinking centrality: Methods and examples[J]. Social Networks, 1989, 11(1): 1-37

[14]Wang Jianxin, Li Min, Wang Huan, et al. Identification of essential proteins based on edge clustering coefficient[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2011, 9(4): 1070-1080

[15]Li Min, WangJianxin, Chen Xiang, et al. A local average connectivity-based method for identifying essential proteins from the network level[J]. Computational Biology and Chemistry, 2011, 35(3): 143-150

[16]Li Min, Zhang Hanhui, Wang Jianxin, et al. A new essential protein discovery method based on the integration of protein-protein interaction and gene expression data[J]. BMC Systems Biology, 2012, 6(1): 1-9

[17]Tang Xiwei, Wang Jianxin, Zhong Jiancheng, et al. Predicting essential proteins based on weighted degree centrality[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2013, 11(2): 407-418

[18]Lei Xiujuan, Yang Xiaoqin, Fujita H. Random walk based method to identify essential proteins by integrating network topology and biological characteristics[J]. Knowledge-Based Systems, 2019, 167: 53-67

[19]Hu Jian, Zhu Haiwan, Mao Yimin. Identifying essential proteins based on temporal weighted PPI networks with dynamic and conserved proteins[J]. Computer Engineering and Applications, 2019, 55(23): 150-162 (in Chinese)(胡健, 朱海湾, 毛伊敏. 基于时序加权PPI网络的关键蛋白质识别[J]. 计算机工程与应用, 2019, 55(23): 150-162)

[20]Chen Zhiping, Meng Zixuan, Liu Chaoping, et al. A novel model for predicting essential proteins based on heterogeneous protein-domain network[J]. IEEE Access, 2020, 8: 8946-8958

[21]Liu Yan, Liang Hao, Zou Quan, et al. Significance-based essential protein discovery[J/OL]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2020 [2021-03-02]. https://ieeexplore.ieee.org/abstract/document/9123693

[22]Li Min, Meng Xiangmao. Progress in the construction, analysis and application of dynamic protein networks[J]. Journal of Computer Research and Development, 2017, 54(6): 1281-1299 (in Chinese)(李敏, 孟祥茂. 动态蛋白质网络的构建、分析及应用研究进展[J].计算机研究与发展, 2017, 54(6): 1281-1299)

[23]Lichtenberg U D, Jensen L J, Brunak S, et al. Dynamic complex formation during the yeast cell cycle[J]. Science, 2005, 307(5710): 724-727

[24]Xiao Qianghua, Wang Jianxin, Peng Xiaoqing, et al. Identifying essential proteins from active PPI networks constructed with dynamic gene expression[J]. BMC Genomics, 2015, 16(Suppl 3): 1-7

[25]Li Min, Ni Peng, Chen Xiaopei, et al. Construction of refined protein interaction network for predicting essential proteins[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2017, 16(4): 1386-1397

[26]Li Gaoshi, Li Min, Wang Jianxin, et al. United neighborhood closeness centrality and orthology for predicting essential proteins[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2018, 17(4): 1451-1458

[27]Spellman P T, Sherlock G, Zhang M Q, et al. Comprehensive identification of cell cycle-regulated genes of the yeast saccharomyces cerevisiae by microarray hybridization[J]. Molecular Biology of the Cell, 1998, 9(12): 3273-3297

[28]Rustici G, Mata J, Kivinen K, et al. Periodic gene expression program of the fission yeast cell cycle[J]. Nature Genetics, 2004, 36(8): 809-817

[29]Luan Yihui, Li Hongzhe. Model-based methods for identifying periodically expressed genes based on time course microarray gene expression data[J]. Bioinformatics, 2004, 20(3): 332-339

[30]Pagel P, Kovac S, Oesterheld M, et al. The MIPS mammalian protein-protein interaction database[J]. Bioinformatics, 2005, 21(6): 832-834

[31]Dwight S S, Harris M A, Dolinski K, et al. Saccharomyces genome database (SGD) provides secondary gene annotation using the gene ontology (GO)[J]. Nucleic Acids Research, 2002, 30(1): 69-72

[32]Zhang Ren, Lin Yan. DEG 5.0, a database of essential genes in both prokaryotes and eukaryotes[J]. Nucleic Acids Research, 2009, 37(Suppl_1): 455-458

[33]Giaever G, Nislow C. The yeast deletion collection: A decade of functional genomics[J]. Genetics, 2014, 197(2): 451-465

Table A1 In Yeast Data, Parameters Analysis Using Different Gene Activity Expression Matrix Threshold
表A1 针对酵母数据中采用不同的基因活性表达矩阵阈值进行参数分析

方法kAUCTop100Top200Top300Top400Top500Top60010.6660791512082592953381.50.671078150213263308336P5N20.6749801572182773143382.50.66758415521826830534930.65768215621326330434010.7031701311932402913351.50.708672136194244296341W5N20.7152781392012513063402.50.69987414120225930134530.68977814420825531034810.671251881261662102561.50.67815292130176219268D5N20.683949961391932342812.50.67035010214920325428730.66095010215520926029810.622245841151491842261.50.62684484117152189229B5N20.631643831171561952262.50.6253408011716519823030.6231428012416820923810.634138801131511812191.50.64803983122169203249E5N20.6664561041481912312742.50.66356711617923126830530.65687112218523427731810.670551911271682112561.50.67775292133176221268I5N20.684050981391922382792.50.67054910114820325428930.66075010315521125730010.6917771341852382883311.50.691480136195249292338L5N20.6874811452022522953372.50.67498614820625930134730.66638314820225530334110.6915681391902402903381.50.691474144197247296338N5N20.6869791442022553083432.50.67448314320125630234130.66608714220025729934210.632637791131491812211.50.64693785125164202236S5N20.6642531001461882312742.50.65966412017422926530630.655472127186239279322

注:基因活性表达矩阵阈值参数分别设置为1,1.5,2,2.5,3;黑体数值表示本文选中的参数.

Table A2 In E.coli Data, Parameters Analysis Using Different Gene Activity Expression Matrix Threshold
表A2 针对大肠杆菌数据中采用不同的基因活性表达矩阵阈值进行参数分析

方法kAUCTop100Top200Top300Top400Top500Top60010.6589405869881061191.50.658940586988106119P5N20.6589405869881061192.50.65894058698810611930.65894058698810611910.7243396582991111261.50.724339658299111126W5N20.7243396582991111262.50.72433965829911112630.72433965829911112610.72743967891081241321.50.7274396789108124132D5N20.72743967891081241322.50.727439678910812413230.727439678910812413210.7050376281991121241.50.705037628199112124B5N20.7050376281991121242.50.70503762819911212430.70503762819911212410.7269356681981151281.50.726935668198115128E5N20.7269356681981151282.50.72693566819811512830.72693566819811512810.72273863831041181281.50.7227386383104118128I5N20.72273863831041181282.50.722738638310411812830.722738638310411812810.6809335471921121231.50.680933547192112123L5N20.6809335471921121232.50.68093354719211212330.68093354719211212310.6814395870901121241.50.681439587090112124N5N20.6814395870901121242.50.68143958709011212430.68143958709011212410.72974168841031171291.50.7297416884103117129S5N20.72974168841031171292.50.729741688410311712930.7297416884103117129

注:基因活性表达矩阵阈值参数分别设置为1,1.5,2,2.5,3;黑体数值表示本文选中的参数.

Table A3 In Yeast Data, Parameters Analysis by Setting the Period Division of Different Gene Activity Expression Matrix
表A3 针对酵母数据中设定不同的基因活性表达矩阵的周期划分进行参数分析

周期方法AUCTop100Top200Top300Top400Top500Top600P3N0.667380158218267311342P4N0.671380157218269313342P5N0.674980157218277314338P6N0.676380157220275314346P7N0.683481158216274313353W3N0.715178139201253302348W4N0.715478139201253301340W5N0.715278139201251306340W6N0.715275144203257302342W7N0.711475141203259300341D3N0.68204992136186233275D4N0.68224995138188234279D5N0.68394996139193234281D6N0.68404898140197240283D7N0.68514896144200244279B3N0.63124586113155192222B4N0.63134482116153197223B5N0.63164383117156195226B6N0.63334583115161198228B7N0.63494281118164203232E3N0.66134894137175222261E4N0.66155094140178221264E5N0.666456104148191231274E6N0.666960108155195236278E7N0.665759109154194237277I3N0.68054893137186234275I4N0.68265097138189232279I5N0.68405098139192238279I6N0.68455098143200238285I7N0.68634996145203244284L3N0.686482140197250296334L4N0.686682143200252295332L5N0.687481145202252295337L6N0.687381147204257297337L7N0.687182147205257301346N3N0.685875148202246300339N4N0.686176144200250302336N5N0.686979144202255308343N6N0.686879148198257311346N7N0.686479151201254314345S3N0.66024895137175220260S4N0.66225195145178226263S5N0.664253100146188231274S6N0.666458107152198245279S7N0.670258122165210255293

注:将基因活性表达矩阵进行划分3,4,5,6,7个周期来测试周期的划分对实验的影响;黑体数值表示本文选中的参数.

Table A4 In E.coli Data, Parameters Analysis by Setting the Period Division of Different Gene Activity Expression Matrix
表A4 针对大肠杆菌数据中设定不同的基因活性表达矩阵的周期划分进行参数分析

周期方法AUCTop100Top200Top300Top400Top500Top600P3N0.637739576989104122P4N0.637938576988104121P5N0.658940586988106119P6N0.64893652688499120P7N0.643036506886100118W3N0.685838658098109120W4N0.682238658198109121W5N0.724339658299111126W6N0.692338587997107118W7N0.680737578094106117D3N0.7275386789105124132D4N0.7269376788106124132D5N0.7274396789108124132D6N0.7288407088110124133D7N0.7297416889112124132B3N0.706037617999116125B4N0.705135608098114125B5N0.705037628199112124B6N0.706637628198114127B7N0.7074376181101112129E3N0.727636678198116127E4N0.726836658198114127E5N0.726935668198115128E6N0.724737678394109125E7N0.725042678293108125I3N0.7245366385102121131I4N0.7275366283102117127I5N0.7227386383104118128I6N0.7264376586107118132I7N0.7314366585108119133L3N0.681834527793113124L4N0.680734537092112124L5N0.680933547192112123L6N0.682533557694116126L7N0.683234567897116126N3N0.682440587290113126N4N0.681339577090112124N5N0.681439587090112124N6N0.682739607590113126N7N0.683539607591113128S3N0.7293416882104117127S4N0.7292416982103117127S5N0.7297416884103117129S6N0.7323407082105118130S7N0.7329417183105119130

注:将基因活性表达矩阵进行划分3,4,5,6,7个周期来测试周期的划分对实验的影响;黑体数值表示本文选中的参数.

Essential Proteins Prediction Method Based on Dynamic Network Segmentation

Zhong Jiancheng1, Fang Zhuo1, Qu Zuohang1, Zhong Ying1, Peng Wei2, and Pan Yi3

1 (School of Information Science and Engineering, Hunan Normal University, Changsha 410081) 2(School of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500) 3(School of Computer Science and Control Engineering, Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences, Shenzhen, Guangdong 518055)

Abstract Essential proteins, as the essential substances in proteins, are not only of great importance in studying the regulation of cell growth, but also lay a theoretical foundation for the further study of diseases. At present, most of the methods for protein identification are static and dynamic network methods based on gene expression information and protein-protein interaction (PPI) network, but these methods do not consider the periodicity of gene expression regulation, and cannot accurately describe the protein networks periodically regulated by genes. Therefore, the concept of periodic gene expression is introduced on the basis of dynamic gene expression, and a dynamic network segmentation method is proposed. In this method, the noise data in the gene expression data is filtered by constructing the gene “active” expression matrix and the expression at each moment is classified into “active” and “inactive” expression states. The periods are divided according to the gene “active” expression matrix to characterize the dynamic changes of gene expression over continuous time periods. The segmented “active” expression matrix is applied to act on the protein-protein interaction network to generate the protein periodic subnetworks. Finally, the importance of the protein nodes in the network is measured by integrating each protein periodic subnetwork. The experimental results show that the method can effectively improve the prediction rate of essential proteins in yeast, E.coli and human bladder data.

Key words essential proteins; PPI network; dynamic network; periodic subnetworks; dynamic gene expression

收稿日期2021-04-20;修回日期:2021-08-18

基金项目深圳市海外高层次人才创新创业孔雀团队计划(KQTD20200820113106007);湖南省教育厅科学研究重点项目(19A316);教育部产学合作协同育人项目(201902098015);2019年度湖南师范大学教改项目(2019-82);国家大学生创新训练项目(202110542004)

This work was supported by Shenzhen KQTD Project (KQTD20200820113106007), the Scientific Research Key Fund of Hunan Provincial Education Department (19A316), the Collaborative Education Project of Industry University Cooperation of Chinese Ministry of Education (201902098015), the Teaching Reform Project of Hunan Normal University (2019-82), and the National Undergraduate Training Program for Innovation (202110542004).

通信作者潘毅(yipan@gsu.edu)

(jczhongcs@gmail.com)

中图法分类号 TP391

Zhong Jiancheng, born in 1981. PhD, associate professor, master supervisor. Member of CCF. His main research interests include bioinformatics and proteomics.

钟坚成,1981年生.博士,副教授,硕士生导师,CCF会员.主要研究方向为生物信息学和蛋白质组学.

Fang Zhuo, born in 1996. Master. His main research interests include bioinformatics and machine learning.

方 卓,1996年生.硕士.主要研究方向为生物信息学与机器学习.

Qu Zuohang, born in 1997. Master candidate. Her main research interests include machine learning, deep learning, and bioinformatics.

瞿佐航,1997年生.硕士研究生.主要研究方向为机器学习、深度学习和生物信息学.

Zhong Ying, born in 2001. Undergraduate. His main research interest is bioinformatics.

钟 颖,2001年生.本科生.主要研究方向为生物信息学.

Peng Wei, born in 1980. PhD, professor, PhD supervisor. Member of CCF. Her main research interest is bioinformatics.

彭 玮,1980年生.博士,教授,博士生导师,CCF会员.主要研究方向为生物信息学.

Pan Yi, born in 1960. PhD, professor, PhD supervisor. Member of CCF. His main research interests include parallel and distributed computing, networks and bioinformatics.

潘 毅,1960年生.博士,教授,博士生导师,CCF会员.主要研究方向为并行分布式计算、网络和生物信息学.

附录A. 参数分析.

表A1:针对酵母数据,采用不同的基因活性表达矩阵阈值参数,分别设置为1,1.5,2,2.5,3来分析对识别关键蛋白质的影响程度.

表A2:针对大肠杆菌数据,采用不同的基因活性表达矩阵阈值参数,分别设置为1,1.5,2,2.5,3来分析对识别关键蛋白质的影响程度.

表A3:针对酵母数据,设定不同的基因活性表达矩阵的周期划分,将基因活性表达矩阵进行划分3,4,5,6,7个周期来测试周期的划分对实验的影响.

表A4:针对大肠杆菌数据,设定不同的基因活性表达矩阵的周期划分,将基因活性表达矩阵进行划分3,4,5,6,7个周期来测试周期的划分对实验的影响.