基于双指导注意力网络的属性情感分析模型

谢 珺 王雨竹 陈 波 张泽华 刘 琴

(太原理工大学信息与计算机学院 山西晋中 030600)(xiejun@tyut.edu.cn)

摘 要 鉴于深度学习技术的不断发展,越来越多的研究者倾向于使用深度神经网络学习文本特征表示用于情感分析,其中序列模型(sequence models)和图神经网络(graph neural networks)已得到广泛的应用,并取得了不错的效果.然而,对于属性情感分类任务,属性对象与其他单词之间存在远距离的依赖关系,虽然序列型神经网络能捕获句子的上下文语义信息,但是对词语之间的远距离依赖关系无法进行有效学习;而图神经网络虽然可以通过图结构聚合更多的属性依赖信息,但会忽略有序词语间的上下文语义联系.因此结合双向长短时记忆网络(bi-directional long short-term memory, BiLSTM)和图卷积神经网络(graph convolutional network, GCN),提出一种基于双指导注意力网络(bi-guide attention network, BiG-AN)的属性情感分析模型.该模型通过交互指导注意力机制,同时关注到文本的上下文信息和远距离依赖信息,提高了模型对于文本属性级别情感特征的表示学习能力.在4个公开数据集Laptop,Rest14,Rest16,Twitter的实验结果表明,与其他几种基准模型相比,所提模型能够提取到更丰富的属性文本特征,有效提高属性情感分类的结果.

关键词 双向长短时记忆网络;图卷积神经网络;依存关系树;注意力机制;属性情感分析

情感分析,又称为观点挖掘,是自然语言处理领域文本挖掘任务中的一个重要研究方向[1].从文本分析的层面来看,情感分析可以分为粗粒度和细粒度2种层次[2].其中,属性情感分析(aspect based sentiment analysis, ABSA),又称为基于评价对象的情感分析,就是一种细粒度的情感分析任务,目的是识别文本中不同评价对象的情感极性[1-2].例如,给定一条有关相机的评论“I bought a camera. The picture quality is amazing but the battery life is too short”,“picture quality”和“battery”就是评论语句中的2个不同的评价对象(也称属性),相应具有不同的情感极性.对于评价对象“picture”,情感是正向的,而对于“battery”,则是负面的情感.属性情感分析任务的目的就是挖掘句子中不同评价对象对应的情感倾向.

属性情感分析作为细粒度的情感分析任务,与句子级别的情感分析相比,评价对象属性的情感极性不仅与句子的上下文信息有关,还依赖于属性相关的特征信息[3].因此,评价对象属性的特征信息提取包括2个方面的关键技术:一方面是与评价对象有关的文本上下文特征信息的提取,这也是进行所有文本分析任务的首要步骤;另一方面是对于评价对象的多词远距离依赖特征信息的捕获,比如评价对象属性词与其他单词之间存在的句法依存关系[4].句子的依存分析是一种用来解释句法结构、分析句子各成分依赖关系的关键技术,可以通过依存分析图来进行可视化.如图1所示,使用stanfordnlp工具(1)https://stanfordnlp.github.io/CoreNLP/demo.html对句子进行句法依存分析的结果显示,“short”和“amazing”分别有多条指向其他单词的有向弧,表示“short”和“amazing”与其他多个单词之间存在依赖关系,如图1中显示的“nsubj”“cop”“conj”等关系,学习特定评价对象与其他单词,特别是情感描述词汇之间的依赖关系对于属性情感分析任务来说十分重要.

Fig. 1 Dependency tree
图1 依存关系树

在进行属性情感分析任务的时候,除了传统机器学习算法结合人工设计的特征之外,越来越多的研究人员专注于设计相应的深度神经网络模型来提取有关评价对象的关键特征.由于文本表达的上下文关联性,序列型神经网络尤其是基于长短期记忆(long short-term memory, LSTM)网络的相关技术[5-7],已经在文本情感分析领域得到了广泛的应用.LSTM神经网络是传统循环神经网络(recurrent neural network, RNN)的变种,通过引入门控机制解决了传统RNN模型由于序列长度递增而存在的梯度消失和梯度爆炸问题.如图2所示,BiLSTM(bi-directional long short-term memory)可以对输入特征序列进行双向编码表示,学习句子的上下文语义信息.但BiLSTM无法进一步捕获单词与单词之间的远距离依赖关系,利用评价对象与其他单词之间存在的句法依存关系可以引入与评价对象相关的远距离依赖信息.为了对句法依存关系树等非结构化数据进行局部信息编码,以GCN(graph convolutional network)为代表的图神经网络技术[8-10]在近几年的研究中获得更多的关注.如图3所示,GCN是一种基于图结构的卷积神经网络,可以视为传统卷积神经网络(convolutional neural network, CNN)在非欧式空间的扩展.但是GCN在聚合学习的过程中丢失了词序信息,忽略了句子的上下文关系.

Fig. 2 BiLSTM network structure
图2 BiLSTM网络结构

Fig. 3 GCN network structure
图3 GCN网络结构

针对序列型神经网络和图神经网络在评价对象特征提取过程中的不足,本文结合BiLSTM,GCN和指导注意力机制,设计出一种基于双指导注意力网络的属性情感分析模型BiG-AN(bi-guide attention network),用于对相关评价对象的上下文语义特征以及远距离依赖特征进行学习,并使用注意力机制增强模型的特征表达能力,进一步提升模型的实际效果.

本文的主要贡献包括3个方面:

1) 利用BiLSTM捕获句子的上下文信息,在此基础上,通过句法依存关系分析,建立句子的依存关系邻接矩阵,并通过GCN捕获评价对象的远距离依赖信息.

2) 设计了一种融合CGA(context guide aspect)和DGA(dependency guide aspect)注意力的双指导注意力网络BiG-AN,将评价对象的上下文语义特征和远距离依赖特征进行融合表示.

3) 将多头自注意力机制引入本文所提模型中,融合评价对象的上下文信息和远距离依赖信息,聚合学习评价对象的情感特征表示,提高了情感分类的结果.

1 相关工作

属性情感分类属于细粒度层次的情感分析任务,旨在对给定对象属性的情感极性进行判别.许多学者对其展开研究,设计了不同的神经网络结构去融合文本信息和属性信息,提取相应的属性情感特征进行情感极性预测.Tang等人[5]基于LSTM提出一种属性情感分析模型TD-LSTM,把句子按照评价对象属性词的位置进行切分,输入序列从左到右的上文信息和从右到左的下文信息,然后将2个LSTM输出的隐含状态特征向量进行拼接,最后使用softmax进行属性情感分类.Wang等人[7]考虑到句子的情感极性除了与句子的上下文信息有关以外,还与属性本身密切相关,为了更好地利用属性本身的信息,提出一种融合属性信息的ATAE-LSTM情感分析模型,使用LSTM学习句子与属性的共同表示.同样地,Liang等人[11]通过设计一种深度转换结构,将属性信息引入到句子编码阶段,利用门机制指导复杂特征的选择和抽取.Ma等人[12]认为,由评价对象属性词构成的序列应该与句子序列分开,单独进行建模,并且句子序列与属性词序列之间具有交互关系,以往的工作仅仅是针对其中某一序列,或者是将二者单独进行分析,没有考虑到二者之间的交互性,因此提出一种基于LSTM和交互注意力机制的IAN属性情感分析模型,在使用LSTM分别对句子序列和属性词序列进行隐含特征学习之后,采用交互注意力机制实现了二者的交互融合.Fan等人[13]认为IAN模型在进行交互注意力之前,对句子序列和评价对象属性词序列所进行的池化操作过于简单,可能会导致信息的丢失,因此提出了一种多粒度的注意力网络MGAN,用于捕获评价对象属性词和上下文单词之间的词级交互特征,减少粗粒度注意力机制中的信息损失.在之后的工作中,Tang等人[14]将深层记忆网络引入到属性情感分析的任务中,结合注意力机制学习每个上下文单词对属性特征的重要性.Peng等人[15]认为距离评价对象属性越近的单词对属性情感的影响越大,距离对象属性越远的单词对属性情感的影响越小,因此在LSTM输出每个隐含状态之后,通过距离度量计算每个隐含状态对应的权重,然后经过多层的注意力机制,提取得到更复杂特征,用于最后的属性情感分类任务.同样地,刘全等人[16]考虑到当前句子的上下文信息对于属性情感分类的重要性,提出一种LSTM深度分层网络模型,分别获取待分类句子内部单词之间的相互联系,以及待分类句子和评论中其他句子之间的情感关联,并通过分层注意力机制来获取特定属性在句子当中的局部特征和获取整个评论中的远距离依赖特征.

注意力机制在以往的属性情感分析模型当中发挥了重要的作用,使网络模型在训练的过程中可以高度关注特定的属性目标,从而加强学习与评价对象属性语义关系更为密切的上下文特征,有效识别不同属性的情感极性.Song等人[17]设计了一个注意力编码网络AEN来捕获评价对象属性词、上下文单词之间的隐含状态特征和语义交互特征,强化与评价对象属性词相关的特征表达.梁斌等人[18]提出一种融合多注意力机制的属性情感分析模型,该模型通过多种注意力机制的融合,有效弥补了仅仅依赖内容层面注意力机制的不足,使模型可以获取更深层次的情感特征信息.同样地,孙小婉等人[19]提出一种面向双注意力网络的属性情感分析模型,结合上下文自注意力信息和评价对象属性的注意力信息,共同作为属性情感预测的依据.He等人[20]在基于注意力方法的基础上,提出了2种新的方法来提高注意力的有效性,首先提出一种评价对象属性的表示方法,更好地捕获属性相关的上下文语义特征;其次将句法依存关系整合到注意力机制中,使用依存关系树中的相对距离来计算注意力权重,提升了模型的表现能力.

句法依存关系通过分析给定的语法体系来推导出句子的句法结构,建立依存关系树来识别句子中单词与单词之间的相互依存关系[4].对于属性情感分析任务来说,学习评价对象属性词与其他单词之间的依赖关系有助于提升模型的实际效果.Li等人[21]设计了一种规则,将依存关系树转换为1棵二叉树,其中属性词位于根节点的2个子节点之一的位置,之后通过使用递归神经网络将属性词的情感信息自下而上地传递到属性词的周围,得到句子的向量表示之后进行属性情感的判别.同样使用递归神经网络,Nguyen等人[22]同时考虑了句子的依存树和成分树,丰富了属性词的情感特征表达.然而,依存关系树的结构更像是一种非结构化的图结构,如图1所示,一个单词节点可能与多个单词之间存在依赖关系,文献[21-22]工作不能够对图结构进行有效的建模.最近的研究工作表明,结合依存关系树和GCN的方法在关系提取[8]、情感分析[23-26]等任务上取得了不错的效果.Huang等人[23]根据单词之间的依存关系树构建图神经网络,之后使用图注意力机制和LSTM学习与属性相关的依赖信息.Liang等人[24]使用GCN和CNN分别捕获单词之间的依存关系和N元关系,从而丰富属性词的特征信息.Sun等人[9]认为基于依存关系树建立的图卷积神经网络模型可以缩短属性词与其他单词之间的距离,使得单词之间的依存关系能够在较长句子的信息传递过程中得以保留,因此提出一种基于依存关系树的图卷积神经网络模型CDT用于属性情感分类任务.Zhang等人[25]考虑到在属性情感分析任务当中,以往的模型可能会将句法层面不相关的上下文单词识别为与评价对象属性相关的情感特征词,降低最后的分类效果,因此在依存关系树的基础上建立了一个多层图卷积神经网络模型ASGCN,融合注意力机制进一步提升模型的分类效果.Zhang等人[26]在依存关系树的基础上,加入了语料库级别的单词共现信息,提出一种基于全局词汇图的GCN属性情感特征表示方法,并结合BiLSTM学习得到的隐含状态特征信息、使用交叉融合网络得到评价对象属性的聚合表示,用于最后的属性情感分类任务.

本文提出一种基于双指导注意力网络的属性情感分析模型BiG-AN,实现了评价对象的上下文信息和依赖信息的有效融合,最后通过实验验证了所提模型的实际效果.

2 模型描述

本文提出BiG-AN模型的整体结构如图4所示,包括上下文信息编码模块、依赖信息编码模块、特征信息融合模块和情感分类模块4个部分.

1) 上下文信息编码模块.通过BiLSTM神经网络对词嵌入信息w进行编码,捕获句子级文本的上下文信息hc.

2) 依赖信息编码模块.将1)中编码的上下文信息隐含状态向量hc作为输入,通过构建基于句法依存关系的图卷积神经网络,捕获句子级文本的远距离依赖特征信息hd.

3) 特征信息融合模块.为了让1)和2)实现更有效的信息融合,针对评价对象,分别采用CGA和DGA注意力机制学习其上下文信息和依赖信息.

4) 情感分类模块.将3)中的融合向量hcd经过一个多头自注意力模块f,得到对特定评价对象最终的聚合表示,并经过一个全连接层,使用softmax激活函数进行激活,得到属性表示的情感标签概率分布.

Fig. 4 The overall framework of BiG-AN model
图4 BiG-AN模型网络整体框架

2.1 上下文信息编码模块

本文考虑使用BiLSTM神经网络对文本信息进行编码,捕获单词的上下文信息(context infor-mation).假设给定单词序列s=[w1,w2,…,wa1,wa2,…,wn],其中[wa1,wa2,…,wam]是句子当中评价对象的序列.使用Glove[27]词向量将文本单词嵌入到dw维的特征空间当中,将离散的单词序列进行映射,得到对应的连续词向量表示e=(e1,e2,…,ea1,ea2,…,en),exdw.接着将词向量输入到BiLSTM中,得到引入了上下文信息的句子表示hc

(1)

(2)

(3)

其中,n×dl表示前向隐含状态向量序列,示后向隐含状态向量序列,hcn×2dl表示BiLSTM编码输出的隐含状态向量序列,dl是单向LSTM输出的隐含状态向量的维数,2dl表示时间步长为t的隐含状态向量.

接着,使用针对评价对象的Mask方法,对隐含状态向量序列hc中的非评价对象词的状态进行Mask,同时保持评价对象词对应的状态向量不变,得到序列hc的Zero-Mask嵌入表示:

(4)

通过Zero-Mask的操作,可以减少与评价对象无关的上下文信息的影响,保留与评价对象相关的特征信息,最终得到融合了上下文信息的评价对象的隐含状态序列

(5)

其中,2dl表示评价对象ai的上下文信息特征向量,i∈[1,m].A={a1,a2,…,am}为所有评价对象的集合.

2.2 依赖信息编码模块

GCN区别于传统的LSTM模型,是一种处理非结构化信息数据的有效手段,本文通过对单词序列进行依存关系图形建模,使用多层GCN模型(GCNs)学习单词与单词之间的依赖关系.

任何一个句子的依存关系树均可以看作是1张包含N个节点的有向图,其中每个节点代表句子中对应的单词,每条边代表依存关系图中单词与单词之间的句法依存关系.根据图1所示依存关系树的分析结果,构建如图5所示的邻接矩阵关系图,用于GCNs的依赖信息建模.矩阵构建的规则为:

1) 邻接矩阵是一个对角矩阵,维度是固定句子的长度,矩阵的行表示目标节点i,矩阵的列表示邻域节点j,矩阵元素的值表示目标节点i与邻域节点j的几何关系,即单词与单词之间的依赖情况.

2) 本文所构建的邻接矩阵重点关注单词与单词之间是否存在依赖关系,所以不考虑依赖关系的类型,即邻接矩阵中不存储依存分析图中的有向弧的标签信息,如conj,nsubj等.因此,如果节点i与节点j存在依存关系,则Aij=1,否则Aij=0.以图1所示的句子为例,单词“quality”与“amazing”之间存有向弧连接,则矩阵中的对应位置用“1”来填充,而单词“quality”没有指向“battary”的边存在,则相应位置处用“0”来表示.另外,关于是否考虑单词本身的依赖关系,本文在构建邻接矩阵的时候,均考虑单词对于自身的依赖,即当i=jAij=1.

Fig. 5 Adjacency matrix diagram
图5 邻接矩阵关系图

在构建好邻接矩阵关系图之后,本文考虑使用GCNs来捕获单词与单词之间的依赖信息.GCNs可以有效地利用依存关系路径来进行信息传递,并通过对传递的信息进行聚合,来更新节点的表示状态.在本文的具体操作中,认为单词之间的依赖信息可以在k阶邻域内进行传递,所以,节点i的状态更新采用式(6)表示:

(6)

其中,表示节点j在GCNs当中第lgcn-1层的输入隐含状态,Wd是线性变换权重矩阵,bd是偏置项,di+1是归一化常数,用来防止度大的节点具有过大的特征值,节点i的度计算公式是是非线性激活函数(本文选择ReLU).此外,表示节点i的初始化状态,对于本文来说,依存关系图中的节点采用2.1节中BiLSTM学习得到的上下文信息隐含状态向量hcn×2dl,以及单词的词性向量epn×dp和位置向量eptn×dpt的组合向量gcn×(2dl+dp+dpt)进行初始化,组合方式如式(7)所示.融合了依赖信息(dependency information)的句子的隐含特征表示如式(8)所示.

gc=(hc;ep;ept),

(7)

(8)

其中,符号“;”表示向量拼接操作,hlgcnn×dg表示来自GCNs编码输出的隐含状态向量序列,表示节点i在第lgcn层GCN的输出,dg是GCNs输出的隐含状态向量的维数.

将隐含状态向量序列hlgcn简写为hd.同样地,对其中非评价对象词对应的隐含状态进行Zero-Mask,最终得到融合了依赖信息的评价对象的隐含状态的特征表示

(9)

(10)

其中dg表示评价对象ai的依赖信息特征向量,i∈[1,m].

2.3 特征信息融合模块

在分别获得融合了上下文信息和依赖信息的评价对象特征表示之后,本文设计一种新颖的基于信息指导的注意力机制CGA-Attention和DGA-Attention,针对特定评价对象,对2种信息进行交互融合,捕获评价对象属性向量ha的精确表示.

以依赖信息指导的注意力DGA-Attention为例,捕获融合依赖信息的评价对象属性的特征表示详细的实现过程如图6所示.其思想是使用2.1节评价对象的上下文信息状态作为查询,从GCNs输出的融合了依赖信息的隐含状态向量当中检索与评价对象语义相关的重要特征,并相应地计算每个上下文单词的注意力权重.在本文的实现过程中,注意力权重α(ai,j)的计算过程为:

(11)

(12)

其中,Wa2dl+dg是可学习的权重矩阵,fs表示注意力打分函数,用于计算之间语义相关性.因此,通过式(13)计算DGA-Attention最后的输出dg,得到基于依赖信息指导注意力的评价对象的特征表示如式(14)所示.

(13)

(14)

同样地,使用2.2节评价对象的隐含状态序列作为查询序列q,使用2.1节中BiLSTM输出的隐含状态向量序列hc作为键值序列k,来计算指导注意力CGA-Attention最后的特征输出2dl,得到基于上下文信息指导注意力的评价对象的特征表示计算过程为:

Attention(k,q)=softmax(fs(k,q))·k,

(15)

(16)

(17)

Fig. 6 DGA-Attention implementation process
图6 DGA-Attention实现过程图

2.4 情感分类模块

本文针对属性情感分类的任务,为了得到评价对象的聚合特征表示,首先将2.3节得到的评价对象的特征表示进行拼接,得到同时融合了上下文信息和依赖信息的属性特征特征维度用dhid表示.然后使用多头自注意力机制MHA,即让多头注意力机制定义中的k=q ,从而进一步学习评价对象之间的关系.最后通过最大池化层MaxPool输出特定评价对象的聚合特征表示ha,计算过程为:

(18)

(19)

(20)

(21)

其中,Wmhadhid×dhid是特征隐射矩阵,ohdhidH 表示第h头注意力输出,h∈[1,H] ,“∥”表示相除并向下取整.

在获得评价对象的最终聚合表示hadhid之后,将它经过一个全连接层和softmax归一化层,得到最终的情感标签概率分布pdc.

p=softmax(Wp·ha+bp),

(22)

其中Wpdc×rbpdc分别是权重矩阵和偏置项,dc是情感标签概率分布的维数.

2.5 模型训练

本文最终将评价对象的聚合表示通过一个softmax函数激活的全连接层,得到文本表示在不同情感极性上的概率分布,然后通过反向传播对模型进行训练,并使用带有L2正则化项的交叉熵误差函数作为模型待优化的目标函数.

(23)

其中,C是不同情感类别的集合,ycC是用one-hot向量表示的真实标签的集合,元素取值为0或是模型输出层预测的情感标签分布,Θ是BiLSTM和GCNs中可训练的参数集合,λ是L2正则化的衰减系数,用于防止模型出现过拟合现象.

3 实验分析

3.1 实验数据集

本文在4个公开数据集上进行实验,评估所提模型的分类性能.分别是SemEval-2014 Task 4(2)https://alt.qcri.org/semeval2014/task4/,该任务包括Rest14和Laptop数据集.另外2个数据集是来自SemEval-2016 Task 5(3)https://alt.qcri.org/semeval2016/task5/中的Rest16和Li等人[21]提供的Twitter数据集.4个数据集分别拆分了训练集和测试集,并给出了评价对象所对应的3类情感标签.详细的数据集统计情况如表1所示:

Table 1 Statistics of Datasets

表1 数据集统计数据

数据集PositiveNeutralNegative训练测试训练测试训练测试Twitter150717230163361528169Laptop976337455167851128Rest142164727637196807196Rest16165761110144748204

3.2 实验设置

1) 实验超参数设置

在本文所有的实验中,模型的权重参数使用均匀分布进行初始化.为了获得模型参数的最优组合,所有需要调节的超参数如表2所示:

Table 2 Hyper Parameters Setting of Model

表2 模型超参数设置

超参数描述取值词向量维度300BiLSTM的隐层维度100GCNs的隐层维度100学习率0.01L2正则化参数0.0001Dropout比率(0.1,0.7)Mini-batch(32,64,128)迭代次数100

本文所提模型是基于PyTorch 1.0.0版本的深度学习框架进行实现的.模型的输入均采用预训练的300维Glove词向量,即dw=300.LSTM和GCNs的隐含层单元数量分别设置为50和100,即dl=50,dg=100.多头自注意力输出的向量维度设置为100,即dhid=100.模型训练采用Adamax优化器进行优化,学习率设置为0.01.为了防止模型的过拟合,除了增加L2正则化损失项之外,还分别对BiLSTM和GCNs的输入和输出采用Dropout机制,比率分别设置为0.7和0.1.针对不同的数据集规模,设置不同的Mini-batch大小,其中Laptop数据集设置为32,Rest14数据集设置为64,Rest16和Twitter数据集设置为128,所有训练过程均进行100次迭代.

2) 评估标准

为了验证本文所提模型的提升效果,采用准确率AccMarco-F1值来衡量模型最终的分类效果,计算过程如式(24)(25)所示,同时采用混淆矩阵来直观地判别模型分类性能的好坏.分别选取3个固定的随机种子进行实验,以减少实验过程的随机性.实验结果在测试集上进行评估,选择最优的超参数,然后选取3次实验的AccMarco-F1的平均值作为最终的实验结果.

(24)

(25)

其中,All表示所有类别样本的总数,T表示所有样本中预测正确的总数.PcRc分别是针对类别c的精确率和召回率,考虑到本实验所选数据集的样本分布,单独计算每个类别的F1值,然后取各类别F1值的平均值作为最后的评价标准,即Marco-F1.

3.3 对比实验

本文选用了近年来表现相对优异的8种方法来进行实验的对比分析,包括基于LSTM和基于GCN的2类基准模型.

1) ATAE-LSTM[7].一种经典的基于LSTM的属性情感分析模型.该模型主要通过注意力机制来捕获上下文信息和评价对象之间的重要关系,将评价对象的词向量表征加入到每个单词向量中,结合注意力机制与LSTM对句子进行语义建模.

2) IAN[12].一种基于LSTM和交互注意力机制的属性情感分析模型.该模型采用LSTM分别对单词序列和评价对象序列进行建模,通过交互注意力机制捕获评价对象和句子向量之间的重要性表征.

3) RAM[15].一种基于多重注意力机制的属性情感分析模型.该模型将多重注意力捕获的远距离语义特征和LSTM捕获的上下文特征进行非线性组合,得到句子的最终表示.

4) AEN[17].一种基于注意力编码网络的属性情感分析模型.该模型通过注意力编码层学习输入单词向量之间的语义表示,然后经过LSTM进一步捕获句子的深层语义表达.

5) TD-GAT[23].一种基于图注意力网络的属性情感分析模型.该模型使用图注意力网络来学习单词与单词之间的依赖信息,之后通过LSTM学习评价对象与句子向量的上下文表征.

6) ASGCN[25].一种结合注意力机制和图卷积神经网络的属性情感分析模型.该模型通过特定属性的注意力机制,结合图卷积网络学习与评价对象有关的句子特征,用于最终的情感分类任务.

7) CDT[9].一种结合句法依存关系和图卷积神经网络的属性情感分析模型.该模型使用LSTM学习句法关系强化的上下文特征,然后经过图卷积网络捕获评价对象的远距离依赖信息.

8) BiGCN[26].一种基于双向图卷积神经网络的属性情感分析模型.该模型通过建立层次句法图和层次词汇图,之后经过双层交互式图卷积神经网络捕获句子之间的聚合信息.

3.4 消融实验

为了验证所提模型可以同时捕获特定评价对象的上下文信息和远距离依赖信息,本文设计了以下3组消融实验进行分析.

1) CGA-AN.去掉模型中的上下文信息编码模块,直接将DGA-Attention的输出向量输入到自注意力模块,学习最终将评价对象的聚合表示ha.

2) DGA-AN.去掉模型中的依赖信息编码模块,直接将CGA-Attention的输出向量输入到自注意力模块,学习最终将评价对象的聚合表示ha.

3) BiG-AN w/o MHA.将模型CGA-Attention和DGA-Attention的输出向量进行拼接,得到作为最终将评价对象的聚合表示ha.

3.5 实验结果分析

本文主要进行了2组实验:一是将本文提出的BiG-AN模型与基于LSTM构建的属性情感分析模型进行对比;二是将BiG-AN模型与不同的GCN基准模型进行对比,对比实验结果如表3所示:

Table 3 Comparison Results of Different Models

表3 不同模型对比的实验结果 %

模型分组模型数据集TwitterLaptopRest14Rest16AccMarco-F1AccMarco-F1AccMarco-F1AccMarco-F1LSTM基准模型GCN基准模型本文模型ATAE-LSTM69.6567.4069.1463.1877.3266.57IAN72.5070.8172.0567.3879.2670.09RAM69.3667.3074.4971.3580.2370.80AEN72.8369.8173.5169.0480.9872.14TD-GAT72.2070.4575.6370.7481.3271.72ASGCN72.1570.4075.5571.0580.7772.0288.9967.48CDT74.6673.6677.1972.9982.3074.0285.5869.93BiGCN74.1673.3574.5971.8481.7973.4888.9670.84BiG-AN74.8973.3279.7575.4282.4873.6686.2670.51

注:最优的2种结果进行加粗显示.

从表3的实验结果可以看出,本文提出的BiG-AN模型的分类准确率和Marco-F1值均取得了不错的结果.其中,在Twitter,Laptop,Rest14数据集上均取得了最优的分类准确率,分别达到了74.89%,79.75%,82.48%,相较于基准模型的最优结果分类准确率分别提高了0.31,3.32,0.22个百分点.其Marco-F1值也是较优的,在Twitter,Rest14,Rest16数据集上,相较于最优的Marco-F1值分别相差0.34,0.36,0.33个百分点.另外,BiG-AN在Laptop数据集上,AccMarco-F1值均达到了最优结果,而且有较大的提升,分别提升了3.32,3.33,2.43个百分点,验证了BiG-AN相较于其他模型的优越性.

根据上述对比实验结果可知,基于GCN构建的模型效果基本上优于仅使用LSTM构建的模型效果,说明GCN可以学习到除了上下文语义信息以外的其他信息,辅助评价对象的情感判别.具体来说,LSTM更关注单词的上下文信息,而且随着句子长度的增加,学习到的与评价对象情感判别无关的噪声信息也增加,而GCN可以通过构图来实现单词与单词之间的远距离连接和信息传递.另外,通过句法依存关系树进行建图,可以进一步学习单词与单词之间的依赖关系,得到基于依赖关系的评价对象的最终表示.

为了更直观地显示模型的实验效果,本文使用混淆矩阵对分类结果进行可视化,图7(a)~(d)依次为Twitter,Laptop,Rest14,Rest16数据集情感分类的混淆矩阵,Positive,Neutral,Negative类别分别对应标签值1,0,-1.对于Twitter和Laptop数据集,BiG-AN在3个类别上均有很好的区分,而Rest14和Rest16数据集的混淆矩阵结果显示,在对Neutral类别进行判别的时候,错分的概率较大,这也是导致实验结果的准确率Acc很高,但是相应的Marco-F1值却相对低的原因.具体来说,在计算Marco-F1值的时候,由于Neutral类别的F1值很小,最后对3个类别的F1值进行平均,致使结果大大降低.

Fig. 7 The confusion matrix results of different datasets
图7 不同数据集的混淆矩阵结果图

最后,为了进一步验证所提模型的有效性,分别考虑模型不同的网络结构对实验效果的影响,在模型相应参数保持不变的情况下进行消融实验的结果如图8~11所示.结合AccMacro-F1值2个评价指标,实验结果显示,采用依赖信息指导注意力机制的DGA-AN模型表现普遍均优于采用上下文信息指导注意力机制的CGA-AN模型.这同时表明,在进行情感分类的过程中,与评价对象存在句法依赖关系的单词相较于评价对象相邻的上下文单词具有更重要的语义信息.

Fig. 8 Ablation experimental results of Twitter
图8 Twitter消融实验结果

Fig. 9 Ablation experimental results of Laptop
图9 Laptop消融实验结果

Fig. 10 Ablation experimental results of Rest14
图10 Rest14消融实验结果

Fig. 11 Ablation experimental results of Rest16
图11 Rest16消融实验结果

本文所设计BiG-AN模型结合CGA和DGA注意力机制,可以进一步融合评价对象的上下文语义特征和远距离依赖特征,有助于增强模型的特征表达能力,提高模型的性能.另外,对比BiG-AN w/o MHA和BiG-AN模型的结果可以看出,与直接将融合特征输出到分类层相比,将融合特征通过MHA进行学习表示可以进一步捕获特征之间的重要联系,学习到更高质量的特征信息.

综合上述分析,所提BiG-AN模型可以通过BiLSTM和GCNs网络分别引入评价对象的上下文语义信息和评价对象的远距离句法依赖信息,之后通过CGA和DGA注意力机制增强模型的特征表示学习能力,并通过交互机制学习上下文特征和依赖特征之间的交互关系,最后将融合特征序列通过多头自注意力机制进行结合,进一步提高模型的性能.

4 总 结

本文提出一种基于双指导注意力网络的BiLSTM和GCNs结合的属性情感分析模型BiG-AN,该模型能够通过CGA和DGA注意力机制同时关注到句子中对属性情感极性分类重要的上下文信息和远距离依赖信息,并实现2种特征信息的交互传递,增强模型对于属性级别文本特征的提取表示能力.实验结果表明,BiG-AN模型在Twitter,Laptop,Rest14数据集上均取得了最优的Acc值和较优的Marco-F1值,但是在Rest16数据集上取得的Acc值不佳,可能是因为Rest16数据集是类别严重不平衡的,BiG-AN模型在优化Marco-F1值的时候更多的关注到数据较少的Neutral类别,从而影响了模型最终的Acc.所以,下一步的研究工作将针对存在的问题对模型进行改进,以达到更好的效果.

作者贡献声明:谢珺负责提出算法思路和网络模型;王雨竹负责设计实验方案并撰写论文;陈波负责编写代码完成实验;张泽华负责提出指导意见并修改论文;刘琴负责整理实验结果并绘制图表.

参考文献

[1]Chen Long, Guan Ziyu, He Jinhong, et al. A survey on sentiment classification[J]. Journal of Computer Research and Development, 2017, 54(6): 1150-1170 (in Chinese)(陈龙, 管子玉, 何金红, 等. 情感分类研究进展[J]. 计算机研究与发展, 2017, 54(6): 1150-1170)

[2]Tang Xiaobo, Liu Guangchao. Research review on fine-grained sentiment analysis[J]. Library and Information Service, 2017, 61(5): 132-140 (in Chinese)(唐晓波, 刘广超. 细粒度情感分析研究综述[J]. 图书情报工作, 2017, 61(5): 132-140)

[3]Pontiki M, Galanis D, Pavlopoulos J, et al. SemEval-2014 task 4: Aspect based sentiment analysis[C] //Proc of the 8th Int Workshop on Semantic Evaluation. Stroudsburg, PA: ACL, 2014: 27-35

[4]Zong Chengqing. Statistics Natural Language Processing[M]. Beijing: Tsinghua University Press, 2013 (in Chinese)(宗成庆. 统计自然语言处理[M]. 北京: 清华大学出版社, 2013)

[5]Tang Duyu, Qin Bin, Feng Xiaocheng, et al. Effective LSTMs for target-dependent sentiment classification[C] //Proc of the 26th Int Conf on Computational Linguistics. New York: COLING, 2016: 3298-3307

[6]Vo D, Zhang Yue. Target-dependent Twitter sentiment classification with rich automatic features[C] //Proc of the 24th Int Conf on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2015: 1347-1353

[7]Wang Yequan, Huang Minlie, Zhu Xiaoyan, et al. Attention-based LSTM for aspect-level sentiment classification[C] //Proc of the 2016 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2016: 606-615

[8]Zhang Yuhao, Peng Qi, Manning C D. Graph convolution over pruned dependency trees improves relation extraction[C] //Proc of the 2018 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2018: 2205-2215

[9]Sun Kai, Zhang Richong, Mensah S, et al. Aspect-level sentiment analysis via convolution over dependency tree[C] //Proc of the 2019 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2019: 5679-5688

[10]Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[EB/OL]. [2020-07-01]. https://arxiv.org/pdf/1609.-02907.pdf

[11]Liang Yunlong, Meng Fandong, Zhang Jinchao, et al. A novel aspect-guided deep transition model for aspect based sentiment analysis[C] //Proc of the 2019 Conf on Empirical Methods in Natural Language Processing and the 9th Int Joint Conf on Natural Language Processing. Stroudsburg, PA: ACL, 2019: 5572-5584

[12]Ma Dehong, Li Sujian, Zhang Xiaodong, et al. Interactive attention networks for aspect-level sentiment classification[C] //Proc of the 26th Int Joint Conf on Artificial Intelligence Main Track. Palo Alto, CA: AAAI Press, 2017: 4068-4074

[13]Fan Feifan, Feng Yansong, Zhao Dongyan. Multi-grained attention network for aspect-level sentiment classification[C] //Proc of the 2018 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2018: 3433-3442

[14]Tang Duyu, Qin Bin, Liu Ting. Aspect level sentiment classification with deep memory network[C] //Proc of the 2016 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2016: 214-224

[15]Peng Chen, Sun Zhongqian, Bing Lidong, et al. Recurrent attention network on memory for aspect sentiment analysis[C] //Proc of the 2017 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2017: 452-461

[16]Liu Quan, Liang Bin, Xu Jin, et al. A deep hierarchical neural network model for aspect-based sentiment analysis[J]. Chinese Journal of Computers, 2018, 41(12): 2637-2652 (in Chinese)(刘全, 梁斌, 徐进, 等. 一种用于基于方面情感分析的深度分层网络模型[J]. 计算机学报, 2018, 41(12): 2637-2652)

[17]Song Youwei, Wang Jiahai, Jiang Tao, et al. Targeted sentiment classification with attentional encoder network[C] //Proc of the 28th Int Conf on Artificial Neural Networks. Berlin: Springer, 2019: 93-103

[18]Liang Bin, Liu Quan, Xu Jin, et al. Aspect-based sentiment analysis based on multi-attention CNN[J]. Journal of Computer Research and Development, 2017, 54(8): 1724-1735 (in Chinese)(梁斌, 刘全, 徐进, 等. 基于多注意力卷积神经网络的特定目标情感分析[J]. 计算机研究与发展, 2017, 54(8): 1724-1735)

[19]Sun Xiaowan, Wang Ying, Wang Xin, et al. Aspect-based sentiment analysis model based on dual-attention networks[J]. Journal of Computer Research and Development, 2019, 56(11): 2384-2395 (in Chinese)(孙小婉, 王英, 王鑫, 等. 面向双注意力网络的特定方面情感分析模型[J]. 计算机研究与发展, 2019, 56(11): 2384-2395)

[20]He Ruidan, Lee S, Ng H, et al. Effective attention modeling for aspect-level sentiment classification[C] //Proc of the 27th Int Conf on Computational Linguistics. Stroudsburg, PA: ACL, 2018: 1121-1131

[21]Li Dong, Wei Furu, Tan Chuanqi, et al. Adaptive recursive neural network for target-dependent Twitter sentiment classification[C] //Proc of the 52nd Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2014: 49-54

[22]Nguyen T H, Kiyoaki S. Phrase RNN: Phrase recursive neural network for aspect-based sentiment analysis[C] //Proc of the 2015 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2015: 2509-2514

[23]Huang Binxuan, Carley K M. Syntax-aware aspect level sentiment classification with graph attention networks[C] //Proc of the 2019 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2019: 5469-5477

[24]Liang Yunlong, Meng Fandong, Zhang Jinchao, et al. A dependency syntactic knowledge augmented interactive architecture for end-to-end aspect-based sentiment analysis[J]. Neurocomputing, 2020, 454: 291-302

[25]Zhang Chen, Li Qiuchi, Song Dawei. Aspect-based sentiment classification with aspect-specific graph convolutional networks[C] //Proc of the 2019 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2019: 4568-4578

[26]Zhang Mi, Qian Tieyun. Convolution over hierarchical syntactic and lexical graphs for aspect level sentiment analysis[C] //Proc of the 2020 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2020: 3540-3549

[27]Pennington J, Socher R, Manning C D. Glove: global vectors for word representation[C] //Proc of the 2014 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2014: 1532-1543

Aspect-Based Sentiment Analysis Model with Bi-Guide Attention Network

Xie Jun, Wang Yuzhu, Chen Bo, Zhang Zehua, and Liu Qin

(College of Information and Computer, Taiyuan University of Technology, Jinzhong, Shanxi 030600)

Abstract Due to the development of deep learning technology, an increasing number of researchers tend to use deep neural network to learn text feature representation for sentiment analysis, where sequence models and graph neural networks have been widely used and achieved good results. However, for aspect based sentiment analysis tasks, there is a long-distance dependency between aspect objects and other words. Although the sequential neural network can capture the contextual semantic information of sentences, the long-distance dependency between words cannot be effectively learned. Graph neural networks can aggregate more aspect-dependent information through graph structures, while ignoring contextual semantic relationships between ordered words. Thus an aspect-based sentiment analysis model named BiG-AN (bi-guide attention network) is proposed. The model combines the advantages of bi-directional long short-term memory (BiLSTM) and graph convolution network (GCN) to capture sentiment features at the aspect level of text, using interactively guiding attention mechanism to focus on contextual and long-distance dependency information in the sentence. The experimental results on four open-source datasets, including Laptop, Rest14, Rest16 and Twitter, show that the proposed model can extract richer aspect-based text features and effectively improve the results of aspect based sentiment classification compared with other benchmark models.

Key words bi-directional long short-term memory network; graph convolution neural network; dependency tree; attention mechanism; aspect-based sentiment analysis

中图法分类号 TP391

DOI:10.7544/issn1000-1239.20210708

收稿日期2021-06-24;修回日期:2022-01-21

基金项目山西省回国留学人员科研资助项目(2020-040);山西省应用基础研究项目(201801D221190)

This work was supported by the Research Project of Shanxi Scholarship Council of China (2020-040) and the Applied Basic Research Project of Shanxi Province (201801D221190).

Xie Jun, born in 1979. PhD. Master supervisor. Member of CCF. Her main research interests include data mining, recommendation system and intelligent information processing.

谢 珺,1979年生.博士,硕士生导师.CCF会员.主要研究方向为数据挖掘、推荐系统和智能信息处理.

Wang Yuzhu, born in 1997. Master candidate. Her main research interests include multimodal representation learning and sentiment analysis.

王雨竹,1997年生. 硕士研究生.主要研究方向为多模态表示学习和情感分析.

Chen Bo, born in 1996. Master candidate. His main research interests include intelligent information processing and sentiment analysis.

陈 波,1996年生.硕士研究生.主要研究方向为智能信息处理和情感分析.

Zhang Zehua, born in 1981. PhD. Master supervisor. Member of CCF. His main research interests include granular computing, uncertain reasoning and knowledge discovery.

张泽华,1981年生.博士,硕士生导师.CCF会员.主要研究方向为粒计算、不确定性推理和知识发现.

Liu Qin, born in 1997. Master candidate. Her main research interests include intelligent information processing and emotion recognition in conversation.

刘 琴,1997年生.硕士研究生.主要研究方向为智能信息处理和对话情感识别.