网络是一种普遍存在的、可以描述复杂系统中链接关系的数据结构,广泛应用于计算机科学、生物信息学、社会科学等相关领域.网络分析是指利用数据挖掘技术从原始网络分析和挖掘网络的本质特征,发现和理解事物间的内在联系.高效的网络分析方法不仅可以创造巨大的商业价值,而且对社会稳固、经济发展和健康医疗等具有深远的积极影响.因此,网络分析引起了工业界和科研工作者的关注和研究.
节点依附有属性信息的网络称为属性网络[1].传统的网络分析方法通常只关注网络中节点间的链接关系,忽略了节点本身的个性化属性信息.个性化属性信息揭示了物以类聚的同质性效应[2],如具有相同主题、关键字等属性的论文相似性较高,论文间容易出现引用关系.节点属性从微观视角描述节点的个性化信息,网络拓扑从宏观角度描述节点间的链接关系.尽管2种信息异质,但是由于它们描述的是同一对象,因此这2种信息之间存在一致性和互补性关系.如何高效地融合2种异质性信息是影响网络分析任务性能的一个关键问题.
目前的网络分析研究大多建立在同质属性网络(homogeneous attribute network, HoAN)上,即网络中所有节点的类型相同,链接关系的类型也相同.然而,现实世界中的属性网络通常是异质的,即网络中包含多种类型的节点和(或)多种类型的链接关系.如图1所示,网络中包含4种节点类型(作者(A)、论文(P)、主题(T)和会议(C))以及10种关系类型(撰写/被撰写(A-P)、发表/被发表(P-C)、包含/被包含(P-T)、属于/被属于(T-C)和引用/被引用(P-P)).相比同质属性网络,异质属性网络(heterogeneous attribute network, HeAN)具有多样化的节点类型、复杂的网络关系和更丰富的语义信息[3].在图1中,作者间的合著关系(author-paper-author, A-P-A)、不同作者发表了相同研究主题论文的关系(author-paper-theme-paper-author, A-P-T-P-A)及不同作者在相同会议上发表论文的关系(author-paper-conference-paper-author, A-P-C-P-A)等共同描述了网络中丰富多样的语义信息.异质属性网络中多种类型的节点和链接关系给网络分析任务提供丰富语义的同时也带来了新的挑战.
Fig. 1 The citation network among papers
图1 文献引用网络
异质属性网络嵌入(heterogeneous attribute network embedding, HeANE)就是将网络中多种类型的节点和(或)多种类型的链接关系映射到低维、紧凑的空间,同时保护原始异质属性网络中节点的属性特征和不同类型对象之间的异质链接承载的复杂、多样且丰富的语义信息[4].嵌入学习获得的低维表示不仅有利于机器学习算法的应用,而且有助于解决数据存储和高计算复杂度的问题.通常,节点属性被视为位于非线性流形中[5],但现有的HeANE方法没有有效地捕捉这种非线性流形的几何结构,而且节点属性和异质网络拓扑信息的融合效率也有待提升.
为了有效捕捉网络中节点、连边和属性的异质性信息,并提升异质性信息的融合效率,本文提出基于PPMI的异质属性网络嵌入学习方法HANEP.HANEP首先基于属性相似性构建属性图,并依据不同的元路径提取异质网络的拓扑信息;然后基于属性图和拓扑图执行随机冲浪获得属性和元路径的拓扑概率共现(probabilistic co-occurrence, PCO)矩阵,进而计算属性和元路径拓扑的正点对互信息(positive point-wise mutual information, PPMI);最后,将PPMI输入到考虑局部图正则的多个自编码器(auto-encoder, AE)完成嵌入.在HANEP中,基于属性相似性构建的属性图描述了节点属性的非线性流行结构;基于不同元路径提取的拓扑图有效捕捉了不同类型节点间的异质链接承载的丰富的语义信息,并且属性图和拓扑图是2种异质性信息的同质表示,不仅方便以相同的方法处理而且有利于提高异质信息的融合效率.另外,PCO矩阵捕捉了不同节点间的转移概率,PPMI较好地维持了图的结构特征以捕捉节点的高阶近邻信息,AE有效地捕捉了潜在的非线性关系.
本文的工作主要贡献有3个方面:
1) 提出了一种基于PPMI的异质属性网络嵌入模型HANEP,通过属性相似性和不同元路径抽取的网络拓扑构建属性图和拓扑图,进而计算PCO矩阵和PPMI矩阵,利用AE有效捕捉并融合网络中的多种异质性信息.
2) 设计了属性图和元路径拓扑图的局部图正则以增强属性和元路径拓扑的局部一致性,并给出了HANEP的算法描述.
3) 在3个真实异质属性网络数据集上通过节点分类、节点聚类、消融实验、可视化和参数敏感性分析实验,结果表明本文所提的HANEP方法的性能优于基线算法.
近年来,许多属性网络嵌入模型被提出,本节将主要介绍同质属性网络嵌入和异质属性网络嵌入的相关工作.
为了在同质属性网络嵌入中结合节点属性和网络拓扑信息,ASNE[2]提出在级联2种信息时引入1个权值参数来调整属性的重要性.DANE[6]设计2个允许交互的AE保护节点属性和网络拓扑的一致性和互补性关系.ANRL[7]采用邻域增强的策略将节点属性作为编码器的输入,在网络拓扑信息的指导下重构节点的目标邻居.AANE[8]采用分布式的方法考虑节点的属性特征,加速嵌入学习的过程.GAT[9]基于图注意力机制为中心节点的邻域节点分配不同的权重,然后加权得到中心样本的新表示.ONE[10]提出一种非监督的异常值检测算法,通过最小化离群节点的影响生成健壮的属性网络嵌入表示.DFANE[11]提出双重融合策略充分捕捉节点属性和网络拓扑的区分性特征和互补性信息.DANEP[12]首先构建与网络拓扑同质表示的属性图,进而设计局部成对约束的图正则以增强局部特征的一致性.PMI[13]通过最大化中心节点与其k阶邻居之间的互信息,从而利用节点的位置信息指导嵌入学习的过程.然而,上述方法仅考虑了相同类型的节点和链接关系,忽略了网络中节点和链接关系的多样化特征.
异质属性网络中不同类型对象间的链接关系承载着更丰富的语义信息,这些语义信息可以通过元路径来捕捉.不同元路径捕捉了节点间不同的关联关系,描述了不同的语义信息.Metapath2vec[4]基于元路径的随机游走获取节点的异质性拓扑信息.HIN2Vec[14]使用不同类型的节点和链接关系学习节点及元路径的向量表示.HEER[15]对异质网络中不同的链接类型定义不同的度量空间,以保持统一度量空间下节点的兼容性.HAN[16]提出分层注意力机制考虑节点和元路径在语义空间中的个性化偏好.GANTE[17]考虑属性信息的多元化,同时支持直推式和归纳式2种学习方式.NECS[18]利用异质属性网络中丰富的社区结构指导节点的表示学习.HDGI[19]利用图卷积模块和语义级别的注意力机制捕捉节点的局部表示,通过最大化局部和全局互信息学习节点的低维表示.HeteSpaceyWalk[20]提出基于元路径、元图、元模式的异质个性化空间随机游走方法,集成多条元路径捕获更丰富的拓扑信息.
定义1. 异质属性网络[3].异质属性网络通常被定义为一个无向图G=(V,E,A,Q,U),其中V表示网络中节点的集合,E表示网络中边的集合,A∈
n×m表示节点的属性特征(n表示节点数,m表示节点属性的维度),Q表示节点类型的集合,U表示边类型的集合,|Q|+|U|>2.每个节点对象v∈V属于一个特定的对象类型,每条边e∈E属于一个特定的边类型,节点类型和边类型的映射函数分别为φ:V→Q和φ:E→U.
定义2. 元路径[20].元路径r定义为通过边类型U1,U2,…,UB连接的节点类型序列
其中B表示元路径r的长度.节点和边具体化的元路径称为元路径实例.
Fig. 2 The architecture of HANEP
图2 HANEP模型框架
定义3. 异质属性网络嵌入[15].给定一个异质属性网络G=(V,E,A,Q,U),异质属性网络嵌入学习的目的是找到一个映射函数f:V→
d,该函数能够将异质属性网络中的每个节点v∈V映射为d维空间
d中的一个向量(d≪|V|),同时保留原始网络中多种类型的节点和边关系的本质特征.
定义4. 概率共现(PCO)矩阵[21].给定一个无向图G=(V,E,A),随机排序图中的节点,PCO矩阵描述了从任意节点vi经过k步转移后到达其他节点vj(j≠i)的转移概率.
定义5. 正点对互信息PPMI[22].给定一个无向图G=(V,E,A),点对互信息PMI衡量节点对(vi,vj)间的相关性.通过进一步将PMI矩阵中的负值分配成0,则形成PPMI,其数值越大,说明相关性越高.
为了捕捉和高效地融合多种类型节点的属性和异质链接关系的本质特征,本文提出一种基于PPMI的异质属性网络嵌入方法HANEP. HANEP首先基于节点属性的相似性利用k近邻图[22]的方法构建属性图、依据不同的元路径r1,r2,…,rL提取不同链接关系的网络拓扑图,然后基于属性图和元路径拓扑图进行随机冲浪[22]获得PCO矩阵,并计算属性和元路径拓扑的PPMI.然后,HANEP利用多个神经网络AE分别基于属性图和元路径拓扑图的PPMI学习节点属性和元路径拓扑的固有本质,同时使用局部成对约束的图正则增强局部结构特征.属性图和拓扑图的PPMI表示有利于保护属性和拓扑的高阶近邻信息和复杂的非线性结构.HANEP模型框架如图2所示.
节点属性描述了节点的个性化信息,通常被视为位于某种非线性流形中[5].属性图有利于捕捉属性信息的非线性流形结构.设A∈
n×m表示网络中节点的属性矩阵,Anew∈
n×n表示节点属性的相似性矩阵,其中元素
表示节点vi和vj的属性ai和aj的相似性,余弦相似性的计算如式(1)所示:
(1)
其中运算符“·”表示向量间的点积运算,“×”表示标量间的乘积运算,
表示a*的L2范数.节点间的距离越近,相似性越高.因此,本文在属性相似性矩阵Anew上运用k近邻的方法构建属性图,其中每个节点与前
个相似性最高的节点连接.设C∈
n×n表示属性图的邻接表示,元素cij>0表示节点vi和vj的属性之间存在边,否则cij=0.
异质属性网络中节点对象包含丰富的链接关系,依附于链接关系的语义信息可以通过元路径来捕捉.如图1所示,元路径APA,APTPA,APCPA可以分别描述作者的合著关系、相同研究主题关系、在相同会议上的发表论文关系.依据元路径r1,r2,…,rL可以抽取不同链接关系的网络拓扑,令S1,S2,…,SL∈
n×n表示元路径拓扑的邻接矩阵,元素
表示节点vi和vj在元路径rl上可达;否则![]()
基于属性图C和元路径拓扑图S1,S2,…,SL执行随机冲浪分别来获得属性和元路径拓扑PCO矩阵
随机冲浪过程如式(2)所示.属性图C和元路径拓扑图S1,S2,…,SL是2种异质信息的同质表示,不仅便于采用相同的方法处理,而且可以提高节点属性和网络拓扑的融合效率.
pk=α·pk-1P+(1-α)p0,
(2)
其中pk是一个行向量,其第j项表示从节点vi经过k步转移后到达节点vj的概率,p0是第i个元素为1、其余元素均为0的初始化one-hot向量,α表示随机冲浪过程中节点跳转到下一个节点的概率,1-α表示节点返回原顶点重启随机冲浪过程的概率.
基于属性和元路径拓扑PCO矩阵
通过式(3)计算属性和元路径拓扑的PMI矩阵
(3)
其中p(vi,vj)表示节点vi和vj共同出现在同一上下文中的次数,
和p(vj)分别表示节点vi和vj的出现次数.通过式(4)将属性和元路径拓扑PMI矩阵
中的负值分配成0形成节点属性和元路径拓扑PPMI矩阵
表示有利于捕捉属性和不同元路径拓扑的高阶近邻信息和潜在复杂非线性关系.
MPPMIvi,vj=max(MPMIvi,vj,0),
(4)
HANEP模型利用1+L个自编码器(auto-encoder, AE)来捕捉节点属性和元路径拓扑的本质特征,AE的输入分别是属性和元路径拓扑PPMI矩阵
其第i行行向量分别记为
表示节点vi的属性和基于元路径r1,r2,…,rL的拓扑
是输入数据
的低维嵌入学习结果,
是
的重构表示.令AE有2K-1层,1,2,…,K层是编码器,K,K+1,…,2K-1层是解码器,第K层由编码器和解码器共享,yi,k和
分别是AE的低维嵌入和重构数据表示.
对于节点属性
和
定义如下:
(5)
(6)
(7)
![]()
(k=2,3,…,K-1),
(8)
(9)
其中f(·)表示非线性激活函数,
是节点属性AE的权重和偏置参数,
是节点vi的属性的低维表示.
对于第l(1≤l≤L)个网络拓扑
表示节点vi依据第l条元路径抽取的网络拓扑
和
定义如下:
(10)
(11)
(12)
![]()
(k=2,3,…,K-1),
(13)
(14)
其中f(·)表示非线性激活函数,
和
分别是第l个网络拓扑AE的权重和偏置参数,
是节点vi基于第l条元路径抽取的网络拓扑信息的低维表示.
为了训练HANEP捕捉异质属性网络中节点属性特征和节点间的丰富链接关系,本文定义局部节点对约束损失Llocal和重构损失Lrec作为惩罚项,以反向传播的方法训练AE,提高嵌入学习的质量.Llocal和Lrec定义为:
(15)
其中![]()
n×n是对角矩阵,元素
相似地,
∈
n×n,元素
属性图和元路径拓扑图中的节点对关系被考虑作为图正则增强图的局部特征结构.
(16)
其中
和
分别是属性AE的编码器的输入和解码器的重构输出,
和
分别是依据第l条元路径抽取的网络拓扑AE的编码器的输入和解码器的重构输出.对于网络中任意节点vi,级联属性AE的低维表示
和L个网络拓扑AE的低维表示
得到嵌入学习的最终结果![]()
综上所述,HANEP模型在训练学习过程中考虑局部节点对约束损失Llocal和重构损失Lrec.因此,HANEP模型的损失函数定义如式(17)所示,其中参数α和β是用来平衡局部节点对约束损失和重构损失之间的权重.
L=αLlocal+βLrec.
(17)
本文利用Adam[23]算法在训练过程中迭代优化AE直到模型收敛或迭代次数达到设定的迭代阈值,HANEP算法描述如算法1:
算法1. 异质属性网络嵌入HANEP算法.
输入:异质属性图G=(V,E,A,Q,U),元路径r1,r2,…,rL,参数α,β,嵌入维度d,学习率λ,迭代损失阈值ε,迭代次数阈值τ;
输出:嵌入表示hi.
① 基于属性相似性构建属性近邻图C;
② 基于元路径r1,r2,…,rL抽取网络拓扑S1,S2,…,SL;
③ 基于属性图和元路径拓扑图C,S1,S2,…,SL通过式(3)(4)计算
矩阵和
矩阵;
④ 初始化参数θ={θC,θSl}(1≤l≤L);
⑤ repeat
⑥ for each node vi∈V
⑦ 训练AE,更新参数θ;
⑧ end for
⑨ until迭代损失小于ε or 迭代次数等于τ;
⑩ 输出表示![]()
本节从节点分类、节点聚类、消融实验、可视化和参数敏感性分析5个方面分别来评估HANEP模型的性能.
4.1.1 数据集
本文实验使用了ACM,DBLP,IMDB这3个公共可用的异质属性网络数据集来评估和验证HANEP模型的有效性,其中ACM包含3 025篇论文、5 835位作者、56个研究主题和3种类标签,论文关键字的bag-of-words表示为1 870维的特征向量;DBLP包含14 328篇论文、4 057位作者、20个会议、8 789个主题和4种类标签,作者信息表示为334维的特征向量;IMDB数据集包含3 550场电影、4 441位演员、1 726个导演和3种类标签,电影信息表示为2 000维的特征向量.与文献[16,19]中的HAN和HDGI模型相似,本文分别依据元路径{PAP,PTP},{APA,APCPA,APTPA},{MAM,MDM}提取数据集ACM,DBLP,IMDB的网络拓扑信息.数据集的详细信息如表1所示:
Table 1 Information Statistics of the Datasets Features
表1 数据集特征信息统计表
数据集关系(A-B)节点A数节点B数元路径元路径数标签数特征数ACMPaper-Author30255835PAP26256Paper-Theme302556PTP220773631870DBLPAuthor-Paper405714328APA7056Conference-Author204057APCPA4996438Term-Paper878914328APTPA67722784334IMDBMovie-Author35504441MAM66428Movie-Director35501726MDM1378842000
4.1.2 基线算法
本文选择了11种方法作为基线,包括:4种网络拓扑嵌入方法(DeepWalk[24],GraRep[26],SDNE[25],DNGR[22]),4种同质属性网络嵌入方法(PRRE[27],DANE[6],DFANE[11],DANEP[12])和3种异质属性网络嵌入方法(HAN[16],HDGI[19],HANEP-A).实验中所有基线算法与HANEP使用相同元路径抽取的网络拓扑信息.具体来说,网络拓扑嵌入方法不区分依据元路径抽取的网络拓扑信息的异质性,将依据不同元路径抽取的所有网络拓扑信息汇聚成一个网络拓扑进行训练学习;同质属性网络嵌入方法使用与网络拓扑嵌入方法相同的方式学习网络拓扑,同时考虑了网络中节点的属性信息;异质属性网络嵌入方法区分依据元路径抽取的网络拓扑信息的异质性,即对依据不同元路径抽取的网络拓扑信息分别处理,并同时考虑节点的属性信息.同质属性网络嵌入和异质属性网络嵌入的基线算法介绍如下.
DANE[6].DANE考虑节点属性和网络拓扑的一致性和互补性关系,首先通过随机游走获得邻域拓扑,然后采用2个对称的、允许相互交互的AE捕捉节点属性和邻域拓扑的高阶非线性信息.节点属性AE和网络拓扑AE在嵌入学习中实时交互,捕捉2种信息的一致性和互补性关系.
DFANE[11].DFANE包括基于早期融合策略的早期融合组件和基于后期融合策略的后期融合组件,前者主要负责捕捉节点属性和网络拓扑的互补性信息;后者负责从2种异质信息中提取各自的独特本质,这2个组件在一致性损失函数的约束下协同训练以实现信息交互.
DANEP[12].DANEP是一种基于PPMI的同质属性网络嵌入方法,该方法首先基于样本属性间的相似性构建属性图;然后分别对属性图和网络拓扑图进行随机冲浪获得属性和拓扑PCO矩阵并计算其PPMI;最后级联属性图和拓扑图的PPMI矩阵输入共享AE学习节点的低维表示.
PRRE[27].PRRE考虑节点属性和网络拓扑的部分相关性,即节点属性相似但网络拓扑不相似或网络拓扑相似但节点属性不相似.PRRE首先利用期望最大化算法训练2个阈值来区分节点属性和网络拓扑的相关性,进而定义节点属性和网络拓扑的积极、模糊和消极的相关关系.
HAN[16].HAN扩展图神经网络到异质信息图,首先使用指定的元路径捕捉网络中不同语义关系的邻居节点,然后利用分层注意力机制考虑每个邻居和每条元路径的不同注意力权重,聚合邻居信息,获取目标节点的嵌入表示.
HDGI[19].HDGI基于互信息最大化实现无监督的图神经网络嵌入学习,使用注意力机制捕捉不同元路径上节点的局部表示,通过最大化局部和全局互信息学习节点的低维表示.
HANEP-A.HANEP-A是HANEP模型的变体,HANEP-A汇聚不同元路径抽取的链接关系构建异质网络拓扑图.相比HANEP依据不同的元路径构建相对应的拓扑图,HANEP-A汇聚多条元路径构建异质网络的综合拓扑图.通过HANEP和变体HANEP-A,本文想探究依据单条元路径构建多个拓扑图和汇聚多条元路径构建单个综合的网络拓扑图对嵌入学习的影响.此外,通过变体HANEP-A和DANEP,本文想探究对称独立的节点属性AE和网络拓扑AE与级联节点属性和网络拓扑信息的共享AE对嵌入学习效果的影响.
实验中所有基线算法都进行了参数调优,使用最好结果进行比较.
4.1.3 参数设置
参数α和β是用来平衡局部节点对约束损失Llocal和重构损失Lrec之间的权重.在实验中,本文通过网格搜索算法调整参数α和β用于节点分类、节点聚类和可视化任务.为了达到精确和直观的评估效果,本文在节点分类、节点聚类和可视化任务上应用相同的参数.此外,本文基于数据集ACM,DBLP,IMDB设置相同的神经元层次结构(属性特征数或节点数-512-128-64).每个数据集对应的参数α和β数值,以及神经网络层的神经元个数如表2所示.具体来说,节点属性编码器的第1层输入对应节点的属性信息,而第l(1≤l≤L)个网络拓扑编码器的第1层输入对应节点在元路径rl上可达的网络拓扑信息.
Table 2 The Parameters and Structures of Neural Network for Each Dataset
表2 每个数据集对应的参数和神经网络结构
数据集参数αβ学习资源神经元层次ACM0.01100Attribute1870-512-128-64PAP3025-512-128-64PTP3025-512-128-64DBLP1100Attribute334-512-128-64APA4057-512-128-64APCPA4057-512-128-64APTPA4057-512-128-64IMDB0.001200Attribute2000-512-128-64MAM3550-512-128-64MDM3550-512-128-64
本文选择节点分类和节点聚类任务评估模型嵌入学习的性能.实验中,随机选取10%,30%,50%的节点作为训练集,余下的节点作为测试集,SVM[7]作为分类器;Micro-F1和Macro-F1作为分类指标;k-means++[6]作为聚类算法;精确度(accuracy, ACC)和标准化互信息(normalized mutual information, NMI)[11]作为聚类指标.指标数值越高说明性能越好,本文重复实验过程10次统计指标的平均值示于表3.
从表3可以看到:
1) HANEP在数据集ACM和DBLP上取得了最优的Micro-F1和Macro-F1;在数据集IMDB上取得了次优的Micro-F1和Macro-F1;变体HANEP-A在数据集IMDB上获得了最优的Micro-F1和Macro-F1;在数据集ACM和DBLP上获得了次优的Micro-F1和Macro-F1,这些结果表明基于属性图和元路径拓扑图的PPMI在嵌入学习过程中有利于捕捉异质属性网络中多种类型节点的个性化信息和异质链接承载的丰富语义信息.
2) 变体HANEP-A在数据集DBLP上获得了最优的聚类指标ACC和NMI;在数据集IMDB上获得了最高的NMI值,表明汇聚多条元路径构建单个综合的网络拓扑图学到的嵌入比依据不同元路径构建多个拓扑图学到的嵌入更有利于聚类,进一步说明依据不同元路径构建多个拓扑图捕捉到了多种类型节点的个性化信息.
3) 基线HAN在数据集ACM上获得了最优的聚类指标ACC和NMI、在数据集DBLP上获得了次优的NMI、在数据集IMDB上获得了最优的ACC;HDGI在数据集ACM上获得了次优的ACC和NMI、在数据集DBLP上获得了次优的ACC;说明注意力在嵌入学习中是值得考虑的因素.
4) 变体HANEP-A优于基线DANEP,说明独立的学习节点属性和网络拓扑比级联的学习方式更有利于捕捉异质网络中节点的本质特征.HANEP-A在节点分类和节点聚类任务上优于DANE,DFANE,PRRE,说明属性图和拓扑图的PPMI表示有利于捕捉高阶近邻信息和复杂的非线性结构.
5) 在网络拓扑嵌入模型中,除了Deepwalk和Grarep在数据集DBLP上比同质属性网络嵌入模型获得较好的分类结果外,在其余情况下同质属性网络嵌入模型的节点分类和节点聚类结果都比网络拓扑嵌入模型好,说明节点属性信息在异质网络嵌入学习中提供了有效的辅助作用.
本节以DBLP数据集为例,通过消融实验分别评估了单条元路径APA,APCPA,APTPA;多条元路径APA+APCPA,APA+APTPA,APCPA+APTPA,APA+APCPA+APTPA和节点属性Attribute在异质属性网络嵌入学习中的贡献,以探究元路径和节点属性对嵌入结果的影响.消融实验模型设置与HANEP相似,消融实验设置和结果示于表4,其中“学习资源”列中的APA,APA+APCPA,APA+Attribute分别表示利用单条元路径APA、多条元路径APA+APCPA、元路径APA和属性信息进行训练学习,其余消融实验的设置与此类似,不再一一列举.
Table 3 Performance Evaluation of Node Classification and Node Clustering
表3 节点分类和节点聚类性能评估
数据集基线方法节点分类 10%30%50%Micro-F1Macro-F1Micro-F1Macro-F1Micro-F1Macro-F1节点聚类ACCNMIACMDeepWalk0.80760.80750.81870.81590.82290.81290.68600.4368Grarep0.71390.70900.73610.73140.71650.71230.50050.1412SDNE0.80870.78720.81730.79840.82090.80120.66020.4123DNGR0.70400.69250.73110.72490.73350.72790.63640.4184PRRE0.81890.82290.83240.83330.84470.84460.64790.4094DANE0.89090.89260.90980.90930.92070.92160.64890.4119DFANE0.89940.90090.91360.91480.91470.91710.65360.4199DANEP0.89840.89900.91570.91620.91990.92050.65500.3966HAN0.88810.88910.90590.90670.91160.91220.87750.6404HDGI0.86810.86910.89210.89450.90070.90380.69240.5122HANEP-A0.91520.91630.92350.92460.92070.92270.65020.4133HANEP0.92560.92640.93030.93110.9410.94260.64910.4122DBLPDeepWalk0.85230.84850.87960.87170.88520.87980.27160.0008Grarep0.89770.89120.91690.91100.92610.92070.26650.0009SDNE0.29600.11420.29720.11450.29870.11500.37220.0876DNGR0.28700.11140.29100.11270.29330.11340.39430.1500PRRE0.75740.74830.77320.76600.77770.77160.43870.1710DANE0.82720.81660.87620.86920.87880.86960.87880.7005DFANE0.84120.82970.86730.85610.87580.86540.46610.2435DANEP0.78500.77860.80180.79560.80810.80180.70340.3841HAN0.92290.91360.93170.92370.93570.92640.87860.7086HDGI0.89640.89070.90140.89510.90020.89420.89480.6935HANEP-A0.92470.91980.93720.93280.93930.93510.93040.7787HANEP0.93240.92690.94050.93630.94240.93700.63100.4381IMDBDeepWalk0.48860.48020.52150.51030.54250.52990.37130.0071Grarep0.51360.50370.54570.53400.54480.52830.35940.0035SDNE0.48040.46220.49580.47930.50310.48910.38810.0172DNGR0.43280.42690.49400.48460.51680.50520.42360.0280PRRE0.64780.64750.67680.67970.68690.68730.52840.1557DANE0.59530.59200.65920.65980.67210.67290.35750.0100DFANE0.61630.60870.65760.65750.67940.68010.50620.0976DANEP0.62120.61960.65480.65610.66960.67140.54740.1671HAN0.61710.61220.62270.61870.63400.63080.59090.1656HDGI0.58620.58710.62750.63060.64690.65110.48710.0983HANEP-A0.65080.64940.68500.68610.71540.71730.53010.1683HANEP0.63230.62960.67810.67940.70010.70220.52130.1420
注:分别随机选取10%,30%,50%的节点作为训练集来评估节点分类任务,粗体和下划线数字分别表示最优和次优结果.
Table 4 Performance Evaluation of the Ablation Experiment on the DBLP Dataset
表4 在DBLP数据集上消融实验性能评估
学习资源节点分类 10%30%50%Micro-F1Macro-F1Micro-F1Macro-F1Micro-F1Macro-F1节点聚类ACCNMIAPA0.44370.38590.50240.46410.50560.47400.38750.0751APCPA0.76010.75100.78100.77080.78250.77380.40330.0893APTPA0.90660.89920.92320.91720.91780.91140.90240.7177APA+ APCPA0.77180.76140.79810.78780.80670.79680.40730.0934APA+APTPA0.89650.88750.91660.91070.91690.91130.39320.0853APCPA+APTPA0.92320.91620.93450.92920.93070.92530.91200.7353APA+APCPA+APTPA0.92050.91340.93110.92550.92930.92390.62050.4255APA+ Attribute0.78030.77220.79210.78410.79720.78970.42150.1326APCPA+ Attribute0.78720.78110.79030.78250.80480.79710.71710.3883APTPA+ Attribute0.93100.92550.93980.93540.94030.93540.92530.7666APA+ APCPA+ Attribute0.79090.78380.80450.79560.81690.80970.42250.1338APA+APTPA+ Attribute0.92610.92070.93990.93550.93700.93220.58560.3819APCPA+APTPA+ Attribute0.93370.92810.94080.93530.93970.93470.93090.7765APA+APCPA+APTPA+Attribute0.93240.92690.94050.93630.94240.93700.63100.4381
注:分别随机选取10%,30%,50%的节点作为训练集来评估节点分类任务,粗体和下划线数字分别表示最优和次优结果.
从表4可以看到:
1) 单条元路径APA,APCPA,APTPA的性能差异明显,其中APTPA性能明显优于APA,APCPA,说明不同元路径在嵌入学习中捕捉异质网络拓扑信息时有不同的贡献;元路径APA+APCPA,APA+APTPA,APCPA+APTPA分别优于其各自对应的单条元路径性能,说明不同元路径在嵌入学习过程中可以提供互补信息.
2) 元路径APTPA的性能优于APA+APCPA,说明实验性能不仅取决于元路径的条数,也取决于元路径在描述异质网络拓扑中的重要性.元路径APCPA+APTPA的性能优于APA+APCPA+APTPA、APCPA+APTPA+Attribute的性能优于APA+APCPA+APTPA+Attribute,加入APA后嵌入学习性能反而降低了,说明元路径APA存在噪声.此外,单条元路径APA嵌入学习时的性能明显劣于APCPA和APTPA,也证实了APA存在噪声.
3) 同时考虑节点属性和元路径(APA+APCPA+APTPA+Attribute,APCPA+APTPA+Attribute,APA+APTPA+Attribute,APA+APCPA+Attribute,APTPA+Attribute, APCPA+Attribute,APA+Attribute)时的学习性能优于只考虑元路径(APA+APCPA+APTPA,APCPA+APTPA,APA+APTPA,APA+APCPA,APTPA,APCPA,APA)时的学习性能,说明节点属性在异质属性网络嵌入学习中提供了有效的辅助作用.
本文使用t-SNE[28]方法将节点的低维嵌入表示投影到2维空间,布局中的点表示网络中的节点,其中不同的颜色表示节点的类标签.期望的布局是相同颜色的点相互聚集,不同颜色的点相互分离且有明显的分离界线.相同颜色的节点越聚集、不同颜色的节点越疏远说明节点的低维表示捕捉了原始节点的固有本质和区分性特征,即嵌入学习效果越好.图3给出DBLP数据集的可视化结果作为代表案例,其中布局里的点表示论文,节点的颜色表示论文的类别.
Fig. 3 The visualization results of different methods on the DBLP dataset
图3 不同方法在DBLP数据集上的可视化结果
Fig. 4 The sensitivity of HANEP on α and β
图4 HANEP关于参数α和β的敏感性
观察图3可知:HANEP和变体HANEP-A的可视化表现最佳(图3(l)(k)),表现为布局中相同颜色的节点彼此靠近,不同颜色的节点相互远离且有清晰的分离边界;HDGI和HAN获得了次优的可视化结果(图3(j)(i)),表现为相同颜色节点的聚集程度和不同颜色节点的分离效果差于HANEP和HANEP-A;DeepWalk(图3(a))表现为相同颜色的节点聚集在一起,不同颜色节点的分离边界不清晰;其余基线的可视化表现为不同颜色的节点混合在一起(图3(b)~(h)).可视化结果再次表明本文所提模型HANEP在异质属性网络嵌入学习中的有效性.
HANEP使用参数α和β平衡节点属性和元路径拓扑的局部节点对约束损失Llocal和重构损失Lrec的权重.如图4所示,本文统计节点分类指标Micro-F1和节点聚类指标ACC在DBLP数据集上随参数α和β的变化情况作为代表来分析HANEP的参数敏感性.如果模型性能对参数不敏感,则说明模型有良好的健壮性和稳定性;反之,则说明模型的健壮性和稳定性较差.从图4可见,节点分类指标Micro-F1和节点聚类指标ACC值在数据集ACM,DBLP,IMDB上随参数α和β的变化情况是稳定的,几乎没有明显的波动,说明HANEP在节点分类和节点聚类任务上有良好的健壮性和稳定性.
本文提出了一种基于PPMI的异质属性网络嵌入学习模型HANEP,该模型基于属性相似性构建的属性图描述了节点属性的非线性流行结构,基于不同元路径提取的拓扑图有效捕捉了不同类型节点间的异质链接承载的丰富的语义信息,并且属性图和拓扑图是2种异质性信息的同质表示,不仅方便用相同的方法处理而且有利于提高异质信息的融合效率.另外,PCO矩阵捕捉了不同节点间的转移概率,PPMI较好地维持了图的结构特征以捕捉节点的高阶近邻信息,AE有效地捕捉了潜在的非线性关系,设计的图正则增强了局部特征的一致性.在3个数据集上的实验结果验证了HANEP算法的有效性.
本文工作中,元路径由用户指定,并且所有元路径间相互独立.在未来工作中,我们将考虑识别元路径间的耦合关系来指导节点的嵌入学习过程,消除元路径信息的噪声,以获得更高质量的嵌入表示.
作者贡献声明:东坤杰负责实验思路构思、方法设计和程序设计、数据整理、实验探究、数据分析、初稿撰写;周丽华负责实验监督、数据分析、初稿的审阅和修改指导;朱月英、杜国王、黄通负责数据整理、实验探究、数据分析、实验结果可视化.
[1]Cai Hongyun, Zheng V, Chang K. A comprehensive survey of graph embedding: Problems, techniques, and applications[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(9): 1616-1637
[2]Liao Lizi, He Xiangnan, Zhang Hanwang, et al. Attributed social network embedding[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(12): 2257-2270
[3]Shi Chuan, Sun Yizhou. Research progress in heterogeneous network representation learning[J]. Communications of China Computer Society, 2018, 14(3): 16-20(石川, 孙怡舟. 异质网络表征学习的研究进展[J]. 中国计算机学会通讯, 2018, 14(3): 16-20)
[4]Dong Yuxiao, Chawla N, Swami A. Metapath2vec: Scalable representation learning for heterogeneous networks[C] //Proc of the 23rd ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2017: 135-144
[5]Liu Yang, Gu Zhonglei, Cheung Yiu-ming, et al. Multi-view manifold learning for media interestingness prediction[C] //Proc of the 2017 ACM Int Conf on Multimedia Retrieval. New York: ACM, 2017: 308-314
[6]Gao Hongchang, Huang Heng. Deep attributed network embedding[C] //Proc of the 27th Int Joint Conf on Artificial Intelligence. San Francisco, CA: Margan Kaufmann, 2018: 3364-3370
[7]Zhang Zhen, Yang Hongxia, Bu Jiajun, et al. ANRL: Attributed network representation learning via deep neural networks[C] //Proc of the 27th Int Joint Conf on Artificial Intelligence. San Francisco, CA: Margan Kaufmann, 2018: 3155-3161
[8]Huang Xiao, Li Jundong, and Hu Xia. Accelerated attributed network embedding[C] //Proc of the 2017 SIAM Int Conf on Data Mining. Philadelphia, PA: SIAM, 2017: 633-641
[9]Veli
kovi
P, Cucurull G, Casanova A, et al. Graph attention networks[C/OL] //Proc of the 6th Int Conf on Learning Representations. (2018-02-04)[2020-04-12]. https://arxiv.org/abs/1710.10903v3
[10]Bandyopadhyay S, Lokesh N, Murty M. Outlier aware network embedding for attributed networks[C] //Proc of the 33rd AAAI Conf on Artificial Intelligence. Menlo Park: AAAI Press, CA, 2019: 12-19
[11]Dong Kunjie, Zhou Lihua, Kong Bing, et al. A dual fusion model for attributed network embedding[G] //LNCS 12274: Proc of the 13th Int Conf on Knowledge Science, Engineering and Management. Berlin: Springer, 2020: 86-94
[12]Dong Kunjie, Huang Tong, Zhou Lihua, et al. Deep attributed network embedding based on the PPMI[G] //LNCS 12680: Proc of the 6th Int Workshop on Mobile Data Management, Mining, and Computing on Social Network. Berlin: Springer 2021: 251-266
[13]Chu Xiaokai, Fan Xinxin, Bi Jingping. Position-aware network representation learning via K-step mutual information estimation[J]. Journal of Computer Research and Development, 2021, 58(8): 1612-1623 (in Chinese)(储晓恺, 范鑫鑫, 毕经平. 基于K阶互信息估计的位置感知网络表征学习[J]. 计算机研究与发展, 2021, 58(8): 1612-1623)
[14]Fu Taoyang, Lee W, Lei Zhen. HIN2Vec: Explore meta-paths in heterogeneous information networks for representation learning[C] //Proc of the 26th ACM Conf on Information and Knowledge Management. New York: ACM, 2017: 1797-1806
[15]Shi Yu, Zhu Qi, Guo Fang, et al. Easing embedding learning by comprehensive transcription of heterogeneous information networks[C] //Proc of the 24th ACM SIGKDD Int Conf on Knowledge Discovery & Data Mining. New York: ACM, 2018: 2190-2199
[16]Wang Xiao, Ji Houye, Shi Chuan, et al. Heterogeneous graph attention network[C] //Proc of the 28th World Wide Web Conf. New York: ACM, 2019: 2022-2032
[17]Cen Yukuo, Zou Xu, Zhnag Hongxia, et al. Representation learning for attributed multiplex heterogeneous network[C] //Proc of the 25th ACM SIGKDD Int Conf on Knowledge Discovery & Data Mining. New York: ACM, 2019: 1358-1368
[18]Li Yu, Wang Ying, Zhang Tingting, et al. Learning network embedding with community structural information[C] //Proc of the 28th Int Joint Conf on Artificial Intelligence. San Francisco, CA: Margan Kaufmann, 2019: 2937-2943
[19]Ren Yuxiang, Liu Bo, Huang Chao, et al. Heterogeneous deep graph infomax, v5.0[EB/OL]. (2020-11-13)[2021-04-12]. https://arxiv.org/abs/1911.08538v5
[20]He Yu, Song Yangqiu, Li Jianxin, et al. HeteSpaceyWalk: A heterogeneous spacey random walk for heterogeneous information network embedding[C] //Proc of the 28th ACM Int Conf on Information and Knowledge Management. New York: ACM, 2019: 639-648
[21]Ruan Jianhua, Dean A, Zhang Weixiong. A general co-expression network-based approach to gene expression analysis: Comparison and applications[J]. BMC Systems Biology, 2010, 4(8)
[22]Cao Shaosheng, Lu Wei, Xu Qiongkai. Deep neural networks for learning graph representations[C] //Proc of the 30th AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI Press, 2016: 1145-1152
[23]Kingma D, Ba J. Adam: A method for stochastic optimization[C/OL] //Proc of the 3rd Int Conf on Learning Representations. (2015-07-23) [2021-04-12]. https://arxiv.org/abs/1412.6980v8
[24]Perozzi B, Al-Rfou R, Skiena A. DeepWalk: Online learning of social representations[C] //Proc of the 20th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2014: 701-710
[25]Wang Daixin, Cui Peng, Zhu Wenwu. Structural deep network embedding[C] //Proc of the 22nd ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2016: 1225-1234
[26]Cao Shaosheng, Lu Wei, Xu Qiongkai. GraRep: Learning graph representations with global structural information[C] //Proc of the 24th Int Conf on Information and Knowledge Management. New York: ACM, 2015: 891-900
[27]Zhou Sheng, Yang Hongxia, Wang Xin, et al. PRRE: Personalized relation ranking embedding for attributed networks[C] //Proc of the 27th Int Conf on Information and Knowledge Management. New York: ACM, 2018: 823-832
[28]Laurens V, Hinton G. Visualizing data using t-SNE[J]. Machine Learning Research, 2008, 9(86): 2579-2605
Dong Kunjie, born in 1994. Master. His main research interests include data mining and network embedding.
东坤杰,1994年生.硕士.主要研究方向为数据挖掘、网络嵌入.
Zhou Lihua, born in 1968. PhD, professor, PhD supervisor. Senior member of CCF. Her main research interests include data mining and social network analysis.
周丽华,1968年生.博士,教授,博士生导师.CCF高级会员.主要研究方向为数据挖掘、社交网络分析.
Zhu Yueying, born in 1993. Master. Her main research interests include natural language processing and emotion analysis.
朱月英,1993年生.硕士.主要研究方向为自然语言处理、情感分析.
Du Guowang, born in 1994. PhD. His main research interests include data mining and multi-view clustering.
杜国王,1994年生.博士.主要研究方向为数据挖掘、多视角聚类.
Huang Tong, born in 1994. Master. His main research interests include data mining and representation learning.
黄 通,1994年生.硕士.主要研究方向为数据挖掘、表示学习.