基于公共情感特征压缩与融合的轻量级图文情感分析模型

甘臣权; 付祥; 冯庆东; 祝清意

doi:10.7544/issn1000-1239.202111218

基于公共情感特征压缩与融合的轻量级图文情感分析模型

1.
重庆邮电大学通信与信息工程学院　重庆　400065
2.
重庆邮电大学网络空间安全与信息法学院　重庆　400065

基金项目: 国家自然科学基金项目(61702066, 61903056)；重庆市教委科学技术重点研究项目(KJZD-M201900601)；重庆市基础研究与前沿技术研究计划项目(cstc2021jcyj-msxmX0761)

详细信息

作者简介:
甘臣权: 1987年生. 博士，副教授，硕士生导师. 主要研究方向为网络安全和情感分析

付祥: 1997年生. 硕士研究生. 主要研究方向为深度学习和情感分析

冯庆东: 1994年生. 硕士. 主要研究方向为计算机病毒传播动力学和情感分析

祝清意: 1987年生. 博士，副教授，硕士生导师. CCF高级会员. 主要研究方向为网络安全、复杂系统和区块链

中图分类号: TP391
计量
- 文章访问数: 346
- HTML全文浏览量: 78
- PDF下载量: 155
出版历程
- 收稿日期: 2021-12-06
- 修回日期: 2022-06-06
- 网络出版日期: 2023-02-26
- 刊出日期: 2023-04-30

A Lightweight Image-Text Sentiment Analysis Model Based on Public Emotion Feature Compression and Fusion

1.
School of Communication and Information Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065
2.
School of Cyber Security and Information Law, Chongqing University of Posts and Telecommunications, Chongqing 400065

Funds: This work was supported by the National Natural Science Foundation of China (61702066, 61903056), the Major Project of Science and Technology Research Program of Chongqing Education Commission of China (KJZD-M201900601), and the Chongqing Research Program of Basic Research and Frontier Technology (cstc2021jcyj-msxmX0761).

More Information

Author Bio:
Gan Chenquan: born in 1987. PhD, associate professor, master supervisor. His main research interests include cybersecurity and sentiment analysis

Fu Xiang: born in 1997. Master candidate. His main research interests include deep learning and sentiment analysis

Feng Qingdong: born in 1994. Master. His main research interests include computer virus propagation dynamics and sentiment analysis

Zhu Qingyi: born in 1987. PhD, associate professor, master supervisor. Senior member of CCF. His main research interests include cyber security, complex systems, and blockchain

摘要

摘要:
由于图文结合更能反映用户的态度和立场，图文情感分析已成为研究热点之一. 然而，现有图文情感分析方法无法有效地提取融合图文信息，致使模型性能低、参数量大、不易部署. 对此，提出了一种基于公共情感特征压缩与融合的轻量级图文情感分析模型. 该模型结合卷积层和全连接层设计的图文特征压缩模块在提取图文特征的同时也进行了压缩，降低了特征维度. 此外，提出了一种基于门控机制的公共情感特征融合模块，将图文特征映射到相同的情感空间，消除了图文特征间的异构性，通过提取、融合图像和文本的公共情感特征，减少了冗余信息. 在Twitter，Flickr，Getty Images这3个基线数据集上的实验结果表明：所提模型比早期模型更有效地提取融合了图文情感信息；和最新模型相比，所提模型大大减少了模型参数并具有更优越的性能，更易部署.
- 图文情感分析 /
- 公共情感特征 /
- 特征压缩 /
- 特征融合 /
- 轻量级
Abstract:
Due to the combination of image and text can better reflect the users’ attitude and standpoint, image-text sentiment analysis has become a research hotspot. However, the existing sentiment analysis methods cannot extract and fuse image-text emotion information effectively, which results in low performance, large amount of parameters, and difficulty in deployment. In this paper, a lightweight image-text sentiment analysis model using public emotion feature compression and fusion is proposed. This model designs the image and text feature compression module by combining the convolution layer and fully connected layer to extract and compress the feature for reducing the feature dimension simultaneously. In addition, a public emotion feature fusion module based on the gating mechanism is proposed to eliminate the heterogeneity of image-text features through mapping the image and text features to the same emotional space and reduce the redundant information by extracting and fusing the public emotion features of image-text. Experimental results on 3 baseline datasets of Twitter, Flickr, and Getty Images show that the proposed model can extract and fuse the emotional information of image-text more effectively than the early models. Compared with the latest models, the proposed model greatly reduces model parameters and has better performance, and is easier to be deployed.
- image-text sentiment analysis /
- public emotion feature /
- feature compression /
- feature fusion /
- lightweight

HTML全文

情感分析原本是指提取分析文本中表达的态度、情绪和观点，是自然语言处理的一项基础性任务^[1]，一直以来都受到国内外学者的广泛关注. 近年来，随着网络的迅速发展和社交平台的普及，人们不再满足于使用单一的文本而更乐于联合图像和文本等多种载体表达自我和相互沟通. 由于图像也反映了用户的观点，联合图文的多模态数据包含了更加丰富的情感信息. 因此，对图文等多模态数据的情感分析有助于进一步了解人们对热门话题或某些重要事件的立场和态度，这在民意调查^[2]、票房预测^[3]、产品分析^[4]和推荐系统^[5]等方面存在巨大的应用价值.

传统的情感分析大多只针对文本^[6-9]，其中一些工作通过训练词向量^[6]完成对文本的情感分析，另一些则在此基础上利用深度学习的方法改进了模型性能^[7-9]. 然而，这些工作都忽略了图像包含的情感和观点. 随着多模态数据在其他自然语言处理任务上的应用取得成功^[10]，许多学者也尝试同时提取文本和图像中的观点信息进行情感分析^[11-12]，但他们忽略了文本和图像之间的信息关联. 于是，通过深度学习在特征层面上融合图文信息进行情感分析的方法取得了不错的效果^[13-19]，然而这些方法需要消耗较多的资源提取融合图文特征，且不能准确快速地学习数据的情感倾向. 因此，如何准确有效地融合文本特征和图像特征是图文情感分析的一大挑战. 而如何减少模型参数，让模型快速地学习图文的情感倾向，并用于工业部署则是另外一个值得研究的问题.

为解决上述问题，本文提出了一种轻量级的图文情感分析模型. 在该模型中，降低了图文特征维度，提取融合了包含图文共享情感信息的公共情感特征，并通过情感分类器实现图文情感分析. 概括来说，本文贡献主要有3个方面：

1）提出了一种基于公共情感特征压缩与融合的轻量级图文情感分析模型，通过压缩图文特征后再融合公共情感特征，更有效地提取图文的情感信息，从而实现了有效的情感分析；

2）采用图文特征压缩模块降低特征维度，并提出一种门控机制的公共情感特征融合模块提取并融合包含图文共享情感信息的公共情感特征，减少了冗余信息，降低了模型参数量；

3）在Twitter，Flickr，Getty Images这3种真实世界的基线数据集上对本文模型进行了验证，与早期和最新模型相比，本文模型能够以更小的参数量获得更优的情感分析性能.

1. 相关工作

1.1 文本情感分析

早期的文本情感分析侧重识别每个词的情感语义. 如在文献[6]中，就提出了一种混合有监督和无监督的混合模型，它通过学习词向量来捕捉文本的语义信息和情感内容. 这种方式虽然简单迅速，但忽略了词间关系，在长文本上的情感分析中并不理想. 于是，Atzeni等人^[7]提出采用一种依赖注意力机制和双向长短期记忆（bi-directional long short-term memory, BiLSTM）的模型，在微调后的词向量上获取词间关系，学习情感分布. 此外，在文献[8]的工作中，词向量被分别送入卷积神经网络（convolutional neural network, CNN）和双向门控循环单元（bi-directional gated recurrent unit, BiGRU）中来提取文本的局部特征和词间关系，丰富了文本的特征表达. 类似地，文献[9]将词向量分别送入BiLSTM和BiGRU中获取词间关系，再由CNN对文本特征进行降维，进而实现情感分析. 这些模型都通过深度学习较为有效地学习了文本的词间关系，实现了情感倾向分类. 然而，在文献[7]中，微调词向量的单独训练和维度较高的文本特征会加大后续处理的资源开销；文献[8]中并行使用CNN和BiGRU的方式难以减少文本特征中的冗余信息；文献[9]中将BiLSTM和BiGRU的输出送到CNN中的方式在降维之前或许会消耗较多资源，提取不相关的信息. 这些工作为本文的文本特征提取部分提供了思路.

1.2 图文情感分析

有研究发现，利用多种模态信息（如图像和文本）比只利用文本信息的情感分析更加有效^[20]. 一些学者尝试采用晚期融合的方法，通过集成图像和文本情感分类器的分类结果提高情感分析的正确率^[11-12]. 早在2013年，文献[11]就通过分别对图文情感分类器预测的情感得分分配不同的权重并相加来判断情感倾向，但该工作采用的手工图文特征在大数据环境下并不能有效捕捉情感分布. 于是，文献[12]通过深度学习获取图文特征并分别用于文本情感分析、图像分析和图像内容分析，与文献[11]类似，再将这3个部分的得分进行加权融合，提升了模型性能. 虽然这类晚期融合的方法在一定程度上提高了模型在图文情感分析任务上的表现，但由于这种方法是独立地对图文信息进行分析，忽略了图文之间的情感相关性，使得模型不能有效地联合利用图文信息. You等人^[13]在2016年将微调CNN提取的图像特征与词向量组成多模态特征，并采用跨模一致性回归进行训练，进而实现图文情感分析，但由于其提取特征的方式较为简单，致使多模态特征中包含的图文情感信息不够丰富，无法有效提升模型的情感倾向分类能力. 后来，文献[14]采用深度CNN分别提取了更加丰富的图文特征，并将它们连接成联合特征送入到分类器学习情感分布. 相比于晚期融合，这种在特征层面融合图文信息的早期融合方式对图文信息的联合利用更加深入，但其忽略了图文特征间存在的异构性，使得在融合过程中容易引入噪声和冗余.

上述对图文信息进行联合分析的2类方法由于自身的局限性导致它们在情感分类的性能提升上并不理想. 于是，另一些学者尝试改进融合方式或设计不同的注意力机制，加深图文信息的融合程度，从而提高模型性能^[15-19]. 文献[15]除了分别应用深度CNN和长短期记忆（long short-term memory, LSTM）进行图像情感分析和文本情感分析，还融合了提取的图文特征进行多模态情感倾向分类，最后采用晚期融合的方式综合这3个部分的结果，这样在特征层面和决策层面融合图文信息，能较深地获取图文间的关系，提高情感分析的准确率. 文献[16]将图像的视觉特征映射到文本特征空间，通过视觉语义注意力机制提取与文本相关的特征来获取图文间的情感相关性，并设计了一种门控长短记忆力网络来融合图文特征，通过自注意力机制进一步提取情感信息，这种方法在一定程度上消除了图文特征间的异构性，减少了冗余信息. 区别于文献[15-16]，Zhang等人^[17]从图像重要的视觉区域中提取特征，采用注意力机制将这些视觉特征与文本特征融合，并通过一种类别词典来建立图像内容对文本语义的依赖，获得更丰富的情感信息. 此外，文献[18]提出的双向多级注意力模型先将图像分割成不同的目标，再通过注意力机制学习更丰富的图文相关信息. 类似地，Yang等人^[19]通过图神经网络提取文本特征和图像的目标特征、场景特征，并采用多头注意力交互机制学习特征间的相关性的同时进行特征融合.

这些模型更加深入地学习了图文之间的相关性，提高了模型性能. 但它们基本采用VGG19^[21]或ResNet50^[22]等模型先行提取图像特征，使得特征维数较高，并且学习的图文相关信息较为模糊. 为更全面地学习图文相关信息，需要提取更丰富的特征，这使得模型参数量增大，不利于部署应用. 而在其他多模态任务如多模态聚类中，一些学者将不同模态的信息划分为共享信息和私有信息来更加清晰地学习模态间的相关信息^[23]. 类似地，在视频多模态情感分析中，Wu等人^[24]利用Transformer获取不同特征间的共享表示和私有表示来提升模型性能，增强模型的健壮性. 文献[23-24]证明了模态间的共享信息和私有信息对情感分析的积极作用，其中，共享信息的作用尤为显著.

受此启发，本文提出了一种基于公共情感特征压缩与融合的轻量级图文情感分析模型. 此模型针对上述图文情感分析模型特征维度高等问题，提出了一种图文特征压缩模块，利用卷积层和全连接层在提取图文特征的同时也进行压缩，降低了特征维度. 此外，还设计了一种公共情感特征融合模块，通过将压缩后的图文特征映射到相同的情感空间来消除特征异构性，进一步提取并融合包含图文共享情感信息的公共情感特征，减少冗余信息. 结合这2种模块，使得本文模型在提高性能的同时大大减少了参数量，更易于实际部署应用.

2. 本文所提模型

如图1所示，本文提出的基于公共情感特征压缩融合的轻量级图文情感分析模型主要包含3个部分：特征提取、公共情感特征融合和情感分类. 在特征提取部分，设计了文本特征压缩模块和图像特征压缩模块分别对文本特征和图像特征压缩降维，减少模型参数. 在公共情感特征融合部分，设计了公共情感特征融合模块提取并融合图文公共情感特征，去除冗余信息，提高模型效率. 在情感分类部分，将公共情感特征送入到分类器实现情感倾向的预测.

图 1 模型处理流程图

Figure 1. Model processing flow chart

下载: 全尺寸图片幻灯片

2.1 特征提取

特征提取分为文本特征提取与压缩、图像特征提取与压缩2个部分，分别用于提取压缩文本特征和图像特征.

2.1.1 文本特征提取与压缩

文本是情感最主要的表现形式之一，在图文情感分析中，文本特征的提取直接影响到模型的性能.

对于输入的原始文本，本文所提模型采用词嵌入的方式将文本 ${{w_1},{w_2}, … ,{w_m}}$ 映射为词向量 ${{\boldsymbol{t}}_1},{{\boldsymbol{t}}_2}, … , {{\boldsymbol{t}}_m}$ ，其中 $m$ 代表文本的单词数. 为方便处理，对于长度大于 $k$ 和小于 $k$ 的文本，分别通过裁剪和零填充的方式处理使输入文本长度固定为 $k$ . 于是，输入的文本词向量矩阵 ${\boldsymbol{T}}$ 表示为

${\boldsymbol{T}} = {{\boldsymbol{t}}_1} \oplus {{\boldsymbol{t}}_2} \oplus … \oplus {{\boldsymbol{t}}_k} \text{，}$

(1)

其中 $\oplus$ 为连接符号， ${\boldsymbol{T}}\in {\mathbb{R}}^{d\times k}$ ， $d$ 代表词向量维度. 由于输入的词向量矩阵不一定契合模型，故需要对其进行微调，微调后的词向量矩阵将被送入文本特征压缩模块提取文本特征. 如图1所示，文本特征压缩模块主要由卷积层和全连接层组成，该模块采用卷积层提取文本特征 ${{\boldsymbol{P}}_1}$ 和 ${{\boldsymbol{P}}_{\text{2}}}$ . 由于 ${{\boldsymbol{P}}_1}$ 和 ${{\boldsymbol{P}}_{\text{2}}}$ 维度较高，不便于计算，故采用全连接层和卷积层分别从整体和局部压缩特征：

${{\boldsymbol{Q}}_1} = {\rm{tanh}}\left( {{\boldsymbol{W}}_1^{\rm{T}}{{\boldsymbol{P}}_1} + {{\boldsymbol{b}}_1}} \right) \text{，}$

(2)

${{\boldsymbol{Q}}_2} = relu\left( {Con{v_{\left( {{\text{1, 1}}} \right)}}\left( {{{\boldsymbol{P}}_2}} \right)} \right) \text{，}$

(3)

其中 ${{\boldsymbol{W}}_1}$ ， ${{\boldsymbol{b}}_1}$ 是全连接层的训练参数. 为保证特征的丰富性，将连接 ${{\boldsymbol{Q}}_1}$ 和 ${{\boldsymbol{Q}}_2}$ 得到的特征 ${\boldsymbol{\hat Q}}$ 送入到卷积层和全连接层充分融合：

${\boldsymbol{Q}} = {\rm{tanh}}\left( {{\boldsymbol{W}}_2^{\rm{T}}{\rm{tanh}}\left( {Con{v_{\left( {1,{\text{ }}1} \right)}}\left( {\hat{\boldsymbol{ Q}}} \right)} \right) + {{\boldsymbol{b}}_2}} \right) \text{，}$

(4)

其中 ${{\boldsymbol{W}}_2}$ ， ${{\boldsymbol{b}}_2}$ 是全连接层的训练参数， ${\boldsymbol{Q}}$ 是对 ${{\boldsymbol{Q}}_1}$ 和 ${{\boldsymbol{Q}}_2}$ 充分融合后的特征.

不同于文献[8-9]，由于 ${\boldsymbol{Q}}$ 是经过压缩后的特征，故采用LSTM^[25]即可建模特征序列的依赖关系，提取出包含词间关系的文本特征 ${\boldsymbol{E}}$ ：

${\boldsymbol{E}}{\text{ = }}{L_{\rm{LSTM} }}\left( {{\boldsymbol{Q}}{\text{ }};{\text{ }}\theta } \right) \text{，}$

(5)

其中 ${L}_{\mathrm{LSTM}}(·)$ 代表LSTM函数， $\theta$ 是LSTM中的训练参数.

2.1.2 图像特征提取与压缩

图像应用广泛，可以承载丰富的情感信息. 在图文情感分析中，图像可以对文本情感信息进行补充，提高模型对情感倾向的判别能力.

为方便本文所提模型处理不同图像，输入的原始图像需要先处理成相同的形状. 在图像特征提取中，首先采用不同卷积提取图像 ${\boldsymbol{I}}$ 不同尺度的低级特征以获取丰富的情感信息，然后进行加权加性融合，得到多尺度低级特征 $\hat {\boldsymbol{ I}}$ .

虽然特征 $\hat {\boldsymbol{ I}}$ 包含信息丰富，但是其维度高，不便于模型进一步处理. 于是，采用图像特征压缩模块（其结构如图1所示）对特征 $\hat {\boldsymbol{ I}}$ 进行压缩. 类似文本特征压缩模块，图像特征压缩模块通过卷积层进一步提取特征 ${{\boldsymbol{A}}_{\text{1}}}$ 和 ${{\boldsymbol{A}}_{\text{2}}}$ ，然后通过全连接层分别将它们压缩，得到特征 ${\hat{\boldsymbol{ A}}_{\text{1}}}$ 和特征 ${\hat{\boldsymbol{ A}}_{\text{2}}}$ . 为有效利用 ${\hat{\boldsymbol{ A}}_{\text{1}}}$ 和 ${\hat{\boldsymbol{ A}}_{\text{2}}}$ 包含的情感信息，将它们连接得到特征 $\hat{\boldsymbol{ A}}$ ，然后送入卷积层充分融合：

${\hat{\boldsymbol{ A}}_i} = relu\left( {{\boldsymbol{W}}_{{{\boldsymbol{A}}_i}}^{\rm{T}}{{\boldsymbol{A}}_i} + {{\boldsymbol{b}}_{{{\boldsymbol{A}}_i}}}} \right),i = 1,2 \text{，}$

(6)

$\hat{\boldsymbol{ A}} = concat\left( {{{\hat{\boldsymbol{ A}}}_1},{{\hat{\boldsymbol{ A}}}_2}} \right) \text{，}$

(7)

${\boldsymbol{G}} = relu\left( {Con{v_{\left( {1,{\text{ 1}}} \right)}}\left( {\hat{\boldsymbol{ A}}} \right)} \right) \text{，}$

(8)

其中 ${{\boldsymbol{W}}_{{A_i}}}$ ， ${{\boldsymbol{b}}_{{A_i}}}$ 是全连接层的训练参数， ${\boldsymbol{G}}$ 是充分融合后的图像特征.

2.2 公共情感特征融合

多数情况下，2.1.2节提取的图像特征 ${\boldsymbol{G}}$ 和文本特征 ${\boldsymbol{E}}$ 中的情感信息并不完全一致，而图文情感分析任务主要关注的是图像与文本的公共情感倾向. 因此，为提取公共情感特征和提高模型判别效率，本文设计了一种基于门控机制的公共情感特征融合模块，其结构如图2所示.

图 2 公共情感特征融合模块结构

Figure 2. Structure of public emotion feature fusion module

下载: 全尺寸图片幻灯片

在提取图文公共情感特征前，为消除不同模态特征的异构性，需要将文本特征和图像特征映射到相同的情感空间中，具体为

${{\boldsymbol{E}}_{\rm{pub}}} = {\rm{tanh}}\left( {\left( {{\boldsymbol{W}}_{\boldsymbol{E}}^T{\boldsymbol{E}} + {{\boldsymbol{b}}_{\boldsymbol{E}}}} \right){{\boldsymbol{W}}_{{{\boldsymbol{E}}_{\rm{pub}}}}} + {{\boldsymbol{b}}_{{{\boldsymbol{E}}_{\rm{pub}}}}}} \right) \text{，}$

(9)

${{\boldsymbol{G}}_{\rm{pub}}} = {\rm{tanh}}\left( {\left( {{\boldsymbol{W}}_{\boldsymbol{G}}^T{\boldsymbol{G}} + {{\boldsymbol{b}}_{\boldsymbol{G}}}} \right){{\boldsymbol{W}}_{{{\boldsymbol{G}}_{\rm{pub}}}}} + {{\boldsymbol{b}}_{{{\boldsymbol{G}}_{\rm{pub}}}}}} \right) \text{，}$

(10)

其中 ${{\boldsymbol{W}}_{\boldsymbol{E}}}$ ， ${{\boldsymbol{W}}_{{{\boldsymbol{E}}_{\rm{pub}}}}}$ ， ${{\boldsymbol{b}}_{\boldsymbol{E}}}$ ， ${{\boldsymbol{b}}_{{{\boldsymbol{E}}_{\rm{pub}}}}}$ 表示文本特征映射的训练参数， ${{\boldsymbol{W}}_{\boldsymbol{G}}}$ ， ${{\boldsymbol{W}}_{{{\boldsymbol{G}}_{\rm{pub}}}}}$ ， ${{\boldsymbol{b}}_{\boldsymbol{G}}}$ ， ${{\boldsymbol{b}}_{{{\boldsymbol{G}}_{\rm{pub}}}}}$ 表示图像特征映射的训练参数， ${{\boldsymbol{E}}_{\rm{pub}}}$ ， ${{\boldsymbol{G}}_{\rm{pub}}}$ 分别表示公共情感空间中的文本特征和图像特征.

为提取图文公共情感特征，首先采用谷本系数（Tanimoto coefficient）^[26]计算不同模态特征间的相似度 ${\boldsymbol{\alpha}}$ ：

${\boldsymbol{\alpha}} = \frac{{su{m_{a = 1}}\left( {{\boldsymbol{E}}_{\rm{pub}}^{\rm{T}}{{\boldsymbol{G}}_{\rm{pub}}}} \right)}}{{{{\left\| {{{\boldsymbol{E}}_{\rm{pub}}}} \right\|}^2} + {{\left\| {{{\boldsymbol{G}}_{\rm{pub}}}} \right\|}^2} - su{m_{a = 1}}\left( {{\boldsymbol{E}}_{\rm{pub}}^{\rm{T}}{{\boldsymbol{G}}_{\rm{pub}}}} \right)}} \text{，}$

(11)

其中 $su{m}_{a=1}(·)$ 表示在第一个维度上求和. 然后引入2个权重矩阵 ${{\boldsymbol{S}}_{{{\boldsymbol{E}}_{\rm{sim}}}}}$ ， ${{\boldsymbol{S}}_{{{\boldsymbol{G}}_{\rm{sim}}}}}$ ，用于获取公共情感特征提取矩阵，进而提取图文公共情感特征：

${{\boldsymbol{E}}}_{{\rm{sim}}}={\left({\boldsymbol{\alpha}} ·{{\boldsymbol{S}}}_{{{\boldsymbol{E}}}_{{\rm{sim}}}}\right)}^{{\rm{T}}}{{\boldsymbol{E}}}_{{\rm{pub}}} \text{，}$

(12)

${{\boldsymbol{G}}}_{{\rm{sim}}}={\left({\boldsymbol{\alpha}} ·{{\boldsymbol{S}}}_{{{\boldsymbol{G}}}_{{\rm{sim}}}}\right)}^{{\rm{T}}}{{\boldsymbol{G}}}_{{\rm{pub}}} \text{，}$

(13)

其中 ${{\boldsymbol{E}}_{\rm{sim}}}$ ， ${{\boldsymbol{G}}_{\rm{sim}}}$ 分别代表文本公共情感特征与图像公共情感特征.

为充分有效利用图文特征中的共享情感信息，采用加权连接的方式融合图文特征 ${{\boldsymbol{E}}_{\rm{sim}}}$ ， ${{\boldsymbol{G}}_{\rm{sim}}}$ ，得到公共情感特征 ${\boldsymbol{N}}$ ：

${\boldsymbol{N}}= concat\left( {{\boldsymbol{W}}_{{{\boldsymbol{E}}_{\rm{sim}}}}^{\rm{T}}{{\boldsymbol{E}}_{\rm{sim}}},{\boldsymbol{W}}_{{{\boldsymbol{G}}_{\rm{sim}}}}^{\rm{T}}{{\boldsymbol{G}}_{\rm{sim}}}} \right) \text{，}$

(14)

其中 ${{\boldsymbol{W}}_{{{\boldsymbol{E}}_{\rm{sim}}}}}$ ， ${{\boldsymbol{W}}_{{{\boldsymbol{G}}_{\rm{sim}}}}}$ 是图文公共情感特征融合时的权重.

2.3 情感分类

在得到公共情感特征 ${\boldsymbol{N}}$ 后，本文利用一个情感分类器计算情感概率分布，实现情感分析.

首先，将送入的公共情感特征 ${\boldsymbol{N}}$ 映射到情感倾向的判决空间. 然后，为了增强模型的鲁棒性和改善分类效果，添加了1个偏置项来调整公共情感特征 ${\boldsymbol{N}}$ 的分布. 最后，通过激活函数softmax计算概率分布 ${\boldsymbol{M}}$ . 具体为

${\boldsymbol{M}} = {softmax} \left( {{\boldsymbol{W}}_{\boldsymbol{M}}^{\rm{T}}{\boldsymbol{N}} + {{\boldsymbol{b}}_{\boldsymbol{M}}}} \right) \text{，}$

(15)

其中 ${{\boldsymbol{W}}_{\boldsymbol{M}}}$ ， ${{\boldsymbol{b}}_{\boldsymbol{M}}}$ 分别是分类器的训练权重和偏置. 为保证分布结果的一致性和优化的高效性，采用交叉熵作为损失函数：

$loss = - \frac{1}{n}\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^2 {{Y_{ij}}\ln {M_{ij}}} } \text{，}$

(16)

其中 ${M_{ij}}$ 表示1个批次中第i个样本的情感概率分布 ${\boldsymbol{M}}$ 在第 $j$ 个维度上的数值， ${Y_{ij}}$ 表示1个批次中第i个样本编码后的真实标签在第 $j$ 个维度上的数值， $n$ 代表每个训练批次的大小. 于是，利用反向传播，就可以通过最小化损失函数来训练模型.

3. 实验分析

为验证本文所提模型的有效性，本文模型与最新的图文分析模型^{[13, 15-17]}进行了对比验证，并进行了自我消融实验分析与样例分析.

3.1 数据集

本文搜集了Twitter，Flickr，Getty Images这3个基线数据集用于实验验证，数据集详情如表1所示.

表 1 数据集分布

Table 1. Dataset Distribution

数据集	样本数		总数
数据集	积极	消极	总数
Twitter	12307	7884	20191
Flickr	76953	31255	108208
Getty Images	180533	300470	481003

下载: 导出CSV

| 显示表格

1） Twitter. 从文献[27]中收集10万条带有图像的推文，采用VADER^[28]进行情感标注，并过滤掉重复低质量的样本，选取VADER评分靠前的样本组成图文数据集.

2） Flickr. 删除从Flickr^[29]收集数据中的文本超过100个单词和少于5个单词的样本后重新组成的数据集.

3） Getty Images. Getty Images是一家图片库机构，其中的图像通常带有文本描述，并可通过搜索系统查询. 受文献[29]启发，从平衡情感词表中收集37个积极（positive）词和64个消极（negative）词用于在Getty Images查询得到数据样本，组成数据集.

3.2 对比模型

为全面评估模型，本文选取了最先进的图文情感分析模型作为对比进行实验分析，并去掉所提模型的关键部分作为消融对比模型进行消融实验分析.

选取的最先进的图文情感分析模型具体为：

1）图像情感分析模型OIG^[22]. 用微调后的预训练模型ResNet50^[22]提取图像特征，通过softmax分类器实现情感分析.

2）文本情感分析模型OTT^[30]. 将词向量矩阵^[30]送入softmax分类器实现情感分析.

3）早期融合模型EFIT^{[22, 30]}. 将OIG中的图像特征^[22]和OTT中的词向量矩阵^[30]连接在一起，送入到softmax分类器实现图文情感分析.

4）晚期融合模型LFIT^{[22, 30]}. 取OIG情感得分与OTT情感得分之和的平均值作为图文情感分析的情感得分.

5） CCR^[13]. 一种用于图文情感分析的跨模态一致性回归模型.

6） DMAF^[15]. 提出了2种独立的单模态注意力机制，得到分别基于图像和文本2种模态的情感预测模型，并与一种多模态注意模型通过晚期融合结合，构建了一个深度多模态注意力融合模型.

7） AMGN^[16]. 采用视觉语义注意力机制提取视觉特征，并采用门控LSTM融合图文特征，构建了一种基于注意力的多模态门控模型.

8） SCC^[17]. 采用一种类别词典处理文本的语义特征，通过内类依赖LSTM获取跨模态非线性相关性，构建了一种基于深度匹配和层次网络的交叉模态语义内容关联模型.

由于当前所有文献的数据集样本量各不相同，故这些实验结果都无法直接对比. 为保证对比的公平性，所提模型将分别在本文数据集和最新文献[17]的数据集上进行实验分析. 其中，在本文数据集上，我们对前7种模型^{[13, 15-16, 22, 30]}进行了复现并与之对比. 进一步地，为展示所提模型的优越性，在最新文献[17]的数据集上，与文献[17]模型SCC进行了对比.

为验证本文所提图文特征压缩和公共情感特征融合的有效性与合理性，需要去除核心模块图文特征压缩（FE）和公共情感特征融合（PE）并忽略词向量矩阵微调（WR），进行消融实验. 具体的方案有：

1） MF. 用一般卷积层代替图文特征压缩模块，用连接融合代替公共情感特征融合模块，不采用词向量微调的基本模型.

2） MF+FE. 在基本模型上加上图文特征压缩模块，用连接融合代替公共情感特征融合模块的模型.

3） MF+FE+PE. 在基本模型上加上图文特征压缩模块和公共情感特征融合模块的模型.

4） MF+FE+PE+WR（本文）. 在基本模型上加上图文特征压缩模块、公共情感特征融合模块，并对词向量进行微调，是本文提出的模型.

为消除不同数据预处理方式对模型性能的影响，保证实验分析的有效性和可靠性，所有模型的输入数据都采用本文的预处理方法处理.

3.3 参数设置

在整个实验中，将原始图像处理成 ${\text{224}} \times {\text{224}}$ 的RGB图像作为模型的图像输入，用于提取图像低级特征的卷积层分别是2个卷积核大小为 $\left( {{\text{3, 3}}} \right)$ 的卷积层、1个卷积核大小为 $\left( {{\text{5, 5}}} \right)$ 的卷积层、1个卷积核大小为 $\left( {{\text{3, 3}}} \right)$ 且膨胀率（dilation rate）为 $\left( {{\text{2, 2}}} \right)$ 的空洞卷积层（dilated convolutional layer）^[31]，卷积核数量都为3，文本的输入序列长度 $k$ =50，采用Word2Vec^[30]技术将文本中每个单词训练成128维的词向量. 文本特征提取部分的激活函数采用tanh函数，图像特征提取部分的激活函数采用relu函数. 在训练过程中，优化器使用Adam^[32]，损失函数采用交叉熵. 为防止过拟合，在2个加权融合之后采用最大池化（max-pooling）处理. 为提高结果的可靠性，采用5折交叉验证法（5-fold cross-validation）^[33]用于训练和测试，其中对每一折而言，将20%的样本作为测试集，剩下样本中的10%作为验证集、90%作为训练集. 其他训练参数设置如表2所示.

表 2 实验训练参数设置

Table 2. Experimental Training Parameter Setting

参数	含义	取值
Batch_size	每一个批次的训练样本数量	32
Learning_rate	初始学习率大小	0.002
ReduceLROnPlateau_patience	模型性能不提升而缩小学习率的忍耐值	2
EarlyStopping_ patience	模型性能不提升而停止训练的忍耐值	5

下载: 导出CSV

| 显示表格

此外，本实验采用正确率（accuracy）、查准率（precision）、查全率（recall）和F1 （F1-score）这4个指标作为评价指标.

3.4 实验结果与分析

根据3.3节所述的参数设置，将本文模型与所有对比模型在最新文献[17]的数据集上进行对比分析，并在Twitter，Flickr，Getty Images上与3.2节所述的前7种模型进行对比分析与消融实验，还结合了具体样例进行分析.

3.4.1 对比实验

在Twitter数据集上的实验结果如表3所示. 可见与7种对比模型相比，本文模型在该数据集上的表现更为优越. 因为OIG，OTT只分别利用了图像数据和文本数据，所以性能较差. 而OTT效果比OIG好很多，这大概是因为该数据集的标签是基于文本的弱标签. EFIT，LFIT虽然融合了图文信息，但对模型性能的提升效果并不理想，证明了简单的早期融合和晚期融合方式并不能有效融合图文信息. 在3个最新图文情感分析模型中，AMGN在Twitter数据集上的表现最好，而本文模型在4个指标上都超越了AMGN. 原因是在本文模型的公共情感融合模块是将图文特征映射到相同的情感空间中，相比AMGN将图像特征映射到文本特征空间的方式，消除特征异构性的效果更佳. 此外，本文提取融合图文公共情感特征的方式能更精确地提取图像和文本中的有用情感信息以进行更有效的情感分析.

表 3 Twitter数据集上的对比实验结果

Table 3. Comparative Experimental Results on Twitter Dataset

模型	正确率	查准率	查全率	F1
OIG^[22]	0.569	0.621	0.758	0.674
OTT^[30]	0.752	0.787	0.816	0.801
EFIT^{[22, 30]}	0.764	0.845	0.752	0.795
LFIT^{[22, 30]}	0.749	0.785	0.815	0.798
CCR^[13]	0.751（0.809）	0.825（0.831）	0.751（0.805）	0.786（0.818）
DMAF^[15]	0.796（0.763）	0.865（0.778）	0.793（0.760）	0.818（0.769）
AMGN^[16]	0.861（0.790）	0.895（0.781）	0.874（0.757）	0.884（0.768）
本文模型	0.928	0.945	0.938	0.941
注：“（）”内的数据表示原文献中的实验结果.

下载: 导出CSV

| 显示表格

在Flickr数据集上的实验结果如表4所示. CCR的正确率略高于DMAF，这大概是Flickr数据集中积极情感样本数更多，情感表达更显著的原因. 相比CCR，DMAF，AMGN这3种最新模型，本文模型在正确率、查准率和F1这3个指标上取得了更优的效果. 但在查全率上本文模型并未得到最高分数，原因是Flickr数据集的积极样本数更多，而在本文模型中提取的公共情感特征更加均衡，能同时有效地学习积极情感和消极情感.

表 4 Flickr数据集上的对比实验结果

Table 4. Comparative Experimental Results on Flickr Dataset

模型	正确率	查准率	查全率	F1
OIG^[22]	0.661	0.718	0.864	0.776
OTT^[30]	0.803	0.877	0.840	0.858
EFIT^{[22, 30]}	0.810	0.873	0.860	0.865
LFIT^{[22, 30]}	0.795	0.883	0.820	0.850
CCR^[13]	0.823	0.895	0.851	0.872
DMAF^[15]	0.821（0.859）	0.825（0.855）	0.960（0.845）	0.885（0.850）
AMGN^[16]	0.839（0.873）	0.867（0.874）	0.914（0.862）	0.890（0.868）
本文模型	0.868	0.919	0.894	0.906
注：“（）”内的数据表示原文献中的实验结果.

下载: 导出CSV

| 显示表格

由于CCR采用与其他模型不同的损失函数，最佳收敛时的损失值与其他模型相差较大，于是通过前10次迭代的归一化损失值收敛曲线来进一步分析模型在Flickr上的收敛情况，如图3所示. 本文模型相比其他模型能更快地收敛到最优值，说明本文模型能够更快、更准确地学习到图文中的情感信息. 此外，CCR的收敛速度仅次于本文模型，证明CCR中的跨模一致性损失能够加快模型收敛速度.

图 3 归一化损失值收敛曲线

Figure 3. Convergence curve of normalized loss value

下载: 全尺寸图片幻灯片

在Getty Images数据集上的实验结果，如表5所示. 表5表明，本文模型在该数据集上的表现比在Twitter和Flickr两个数据集上更好，这是因为Getty Images数据集中的样本更加正式，样本间的情感关联性更强. 在该数据集上，本文模型依然具有更优的性能，这是因为经过图文特征压缩模块压缩后，图文特征能包含更大比重的情感信息，再经由公共情感特征融合模块，可以更精准地学习情感分布. 而AMGN的性能低于DMAF，说明在该数据集上，运用多种融合方式对提取情感信息更加有效，同时证明相比AMGN，DMAF，本文模型的鲁棒性更好. 此外，EFIT在该数据集上的表现不如LFIT，说明若不消除图文特征间的异构性，在数据情感关联性更强的情况下，早期融合不如晚期融合有效.

表 5 Getty Images数据集上的对比实验结果

Table 5. Comparative Experimental Results on Getty Images Dataset

模型	正确率	查准率	查全率	F1
OIG^[22]	0.696	0.620	0.500	0.548
OTT^[30]	0.787	0.736	0.676	0.705
EFIT^{[22, 30]}	0.779	0.714	0.642	0.686
LFIT^{[22, 30]}	0.837	0.783	0.782	0.782
CCR^[13]	0.827（0.800）	0.763（0.846）	0.784（0.759）	0.773（0.800）
DMAF^[15]	0.958（0.869）	0.930（0.882）	0.962（0.851）	0.945（0.866）
AMGN^[16]	0.935（0.882）	0.905（0.898）	0.925（0.876）	0.914（0.887）
本文模型	0.961	0.936	0.960	0.948
注：“（）”内的数据表示原文献中的实验结果.

下载: 导出CSV

| 显示表格

为进一步验证模型在Getty Images上的稳定性，在图4中展示了模型在该数据集上5折验证的正确率. 可以发现，DMAF和本文模型在每折上都展现了更高的正确率且变化更小、更加稳定，证明本文模型能够更加稳定有效地进行情感分析.

图 4 Getty Images上5折的正确率

Figure 4. Accuracy of 5 folds on Getty Images

下载: 全尺寸图片幻灯片

在这3个数据集上，本文提出的模型都有较好的表现，证明其在图文情感分析任务上是有效的. 而对比模型的结果与原文献的结果都存在差别，主要是因为数据集的样本和数据预处理方式与原文献有所不同.

为验证所提模型的轻巧性，在3个数据集上采用相同的超参数，通过数据集各自的文本得到的Word2Vec词典对所提模型与对比模型分别训练，并进行参数比较，如图5所示.

图 5 模型参数量对比

Figure 5. Comparison of model parameters

下载: 全尺寸图片幻灯片

由图5可知，DMAF的参数量最多，OTT参数量最少；本文提出的模型参数量仅多于OTT且远少于DMAF和AMGN，原因是本文模型中的图文特征压缩模块通过压缩图文特征降低了特征维度，减小了后续处理的资源消耗. 图5的结果表明，本文模型有更小的参数量，更易部署应用. 值得一提的是，所有模型在3个数据集上的参数量都不同，这主要是由于3个数据集的样本量不同，在通过Word2Vec进行词嵌入时，参数随着数据集的样本量增大而增加.

为进一步验证所提模型的优越性，本文还在文献[17]的Flickr，Getty Images数据集上（为与本文数据集区分，此处分别命名为Flickr2，Getty Images2）与文献[17]进行了对比，实验结果如表6所示. 可以看出，本文模型在Flickr2，Getty Images2上的所有评价指标都超越了SCC，表明本文模型比SCC更能有效地提取情感信息.

表 6 文献[17]数据集上的对比实验结果

Table 6. Comparative Experimental Results on the Datasets of Ref [17]

模型	Flickr2				Getty Images2
模型	正确率	查准率	查全率	F1	正确率	查准率	查全率	F1
OIG^[22]	0.551	0.580	0.444	0.480	0.639	0.661	0.875	0.752
OTT^[30]	0.720	0.741	0.710	0.724	0.708	0.769	0.766	0.766
EFIT^{[22, 30]}	0.728	0.756	0.708	0.729	0.712	0.757	0.796	0.775
LFIT^{[22, 30]}	0.708	0.753	0.656	0.699	0.706	0.782	0.735	0.758
CCR^[13]	0.723	0.755	0.692	0.705	0.722	0.781	0.773	0.777
DMAF^[15]	0.786	0.830	0.745	0.783	0.744	0.819	0.790	0.798
AMGN^[16]	0.785	0.805	0.775	0.789	0.750	0.767	0.864	0.813
SCC^[17]	0.842	0.841	0.836	0.834	0.806	0.832	0.791	0.810
本文模型	0.879	0.901	0.862	0.881	0.819	0.855	0.857	0.856

下载: 导出CSV

| 显示表格

3.4.2 消融实验

为评估设计模块的合理性和有效性，在Twitter，Flickr，Getty Images这3个数据集上进行消融实验. 如表7所示，在3个数据集上本文模型的性能都更优越. 具体来看，在Twitter，Getty Images这2个数据集上，MF的性能较低，且加入FE后性能提升较大，这是因为FE能够进一步提取压缩图文特征，帮助模型更稳定有效地学习图文情感信息. PE可以提取公共情感特征，去除冗余信息，提升模型在Twitter，Flickr上的性能. 而在Getty Images上，加入PE后并没有提高正确率，这是因为Getty Images中样本间的情感关联性更高，PE在提取公共情感特征时损失了部分情感信息. 此外，在加入WR后，模型在3个数据集上的表现都有不同的提升，说明经过微调的词向量矩阵更契合模型，有助于模型提取特征. 从总体上看，加入FE，PE能够提高模型在图文情感分析上的表现，证明本文设计的图文特征压缩模块和公共情感特征融合模块是合理有效的.

表 7 3个数据集上的消融实验结果

Table 7. Ablation Results on the 3 Datasets

数据集	MF		MF+FE		MF+FE+PE		MF+FE+PE+WR（本文）
数据集	正确率	F1	正确率	F1	正确率	F1	正确率	F1
Twitter	0.768	0.710	0.878	0.898	0.886	0.905	0.928	0.941
Flickr	0.846	0.888	0.844	0.887	0.854	0.899	0.868	0.906
Getty Images	0.592	0.407	0.959	0.946	0.955	0.941	0.961	0.948
注：“MF”是用一般卷积层代替图文特征压缩模块，用连接融合代替公共情感特征融合模块，不采用词向量微调的基本模型；“FE”代表图文特征压缩模块；“PE”代表公共情感特征融合模块；“WR”代表词向量微调；“+”代表增加新模块.

下载: 导出CSV

| 显示表格

3.4.3 样例分析

3.4.1节和3.4.2节所述的实验从宏观上验证了本文模型的优良性能. 为更具体地比较不同模型在不同样本上的表现，从Twitter中挑选出3个积极样本和3个消极样本，其中“积极”标注为“1”，“消极”标注为“0”；进一步地，为更直观地比较预测的情感极性分布与样本真实分布，将“1”和“0”分别编码为“[0, 1]”和“[1, 0]”. 为方便叙述分析，将样本编号为1~6. 样本细节和各模型的预测结果如表8所示.

表 8 Twitter的6个样本在不同模型上的细节和性能

Table 8. Details and Performance of 6 Samples of Twitter on Different Models

样本序号	图像	文本	标签	OIG	OTT
1		you guys! my pals, & wrote this awesome book! jack and louisa musical theater nerds	[0, 1]	[0.348, 0.652]	[0.374, 0.656]
2		um. yeah. so we just won leMans. kinda mega!	[0, 1]	[0.194, 0.806]	[0.680, 0.320]
3		and just like that, with <number> simple letters, gives me the biggest laugh of my week.	[0, 1]	[0.223, 0.777]	[0.415, 0.585]
4		this band of lunatics demands your full attention! see suicide squad in theatres now:	[1, 0]	[0.186, 0.814]	[0.718, 0.282]
5		serious injury accident on cumming hwy at watertank rd. only one lane open. avoid area if possible. lt. jay baker	[1, 0]	[0.160, 0.840]	[0.811, 0.189]
6		new suspect in french priest killing formally charged	[1, 0]	[0.202, 0.798]	[0.623, 0.377]

EFIT	LFIT	CCR	DMAF	AMGN	本文模型
[0.099, 0.901]	[0.875, 0.125]	[0.312, 0.688]	[0.633, 0.367]	[0.910, 0.090]	[0.838, 0.162]
[0.348, 0.652]	[0.723, 0.277]	[0.385, 0.615]	[0.734, 0.266]	[0.771, 0.229]	[0.570, 0.430]
[0.002, 0.998]	[0.973, 0.027]	[0.165, 0.835]	[0.902, 0.098]	[0.963, 0.037]	[0.967, 0.033]
[0.425, 0.575]	[0.383, 0.617]	[0.428, 0.572]	[0.255, 0.745]	[0.691, 0.369]	[0.864, 0.136]
[0.170, 0.830]	[0.469, 0.531]	[0.026, 0.974]	[0.915, 0.085]	[0.984, 0.016]	[0.996, 0.004]
[0.011, 0.989]	[0.202, 0.798]	[0.005, 0.995]	[0.949, 0.051]	[1.000, 0.000]	[1.000, 0.000]

下载: 导出CSV

| 显示表格

结合模型在样本1和样本3的表现可以发现，对于“积极”的情感较为强烈的样本，所有模型都能够准确地判断. 在样本2上，文本的情感表现不如样本1和样本3明显，此时获取文本的情感信息更加困难，因此只利用文本信息预测情感极性的OTT更易出错. 尽管样本2的图像中包含丰富的情感信息，但是EFIT，LFIT，CCR仍预测错误，说明这3种模型更依赖文本信息，不能有效结合图像中的情感信息. 此外，DMAF，AMGN和本文模型都正确地判断了3个积极样本的情感极性，其中本文模型预测的情感分布更加接近真实分布，在样本2文本情感不明显的情况下依然有较好的表现，这表明本文模型的鲁棒性更为优越.

在样本4上，可以发现DMAF不能正确判断其情感极性，这是因为该样本中图像的消极情感表现不明显，DMAF无法准确提取情感信息. 另外，在3个消极样本上，CCR，AMGN预测的概率分布都较接近真实分布，是因为这2种模型对消极情感信息敏感. 而本文模型的预测结果比CCR，AMGN更接近真实分布，说明本文模型更有效地提取了消极情感信息. 值得一提的是，在样本5和样本6上本文预测的样本分布并非就是[1, 0]，而是因为概率分布极为接近真实分布，经过四舍五入后的近似值.

综合模型在这6个样本上的表现可以看出，OIG只能较为准确地预测积极情感，原因是在缺乏文本信息的指导下，OIG无法准确提取图像中的情感信息；此外，数据集含有更多的积极样本也可能使模型更偏向学习积极情感. 虽然DMAF能较为准确地判断情感极性，但与真实分布差别较大，这是因为DMAF提取了较多的冗余信息. 对比DMAF，AMGN，本文模型能更准确地预测这6个样本的情感极性，且在不同样本上的表现变化较小，证明本文模型能够更准确有效地联合利用图文中的情感信息，有更强的稳定性.

4. 结束语

现有图文情感分析模型不能同时保证高性能与低参数量，使得模型难以用于实际部署. 针对这个问题，本文提出了一种基于公共情感特征压缩与融合的轻量级图文情感分析模型. 首先设计了图文特征压缩模块，通过卷积层与全连接层压缩图文特征，降低了特征维度；然后提出一种基于门控机制的公共特征融合模块，通过将图文特征映射到相同的情感空间来消除特征异构性，并融合图文公共情感特征以减少冗余信息. 结合这2种模块，提高了模型性能，减少了参数量，使得模型更易部署应用. 在3个基线数据集上的实验证明本文所提模型是有效的.

虽然本文模型在多个数据集上都有着更优越的表现，然而实验中还是暴露了2个问题：1）为了减少参数量，在处理过程中舍弃了许多特征信息，导致在样本量较小的情况下，模型无法有效地学习情感分布；2）在模态信息处理上，本文是以图像辅助文本，对文本长度和规范的要求更高，在文本有混合语言、长度过短或者有单词错误缺失问题的数据集上，本文模型难以取得满意的结果. 在未来的工作中，我们将尝试通过探索新的特征提取方法保证在不同大小的数据集上都能准确地提取情感信息. 此外，我们还希望能够引入社交关系等其他信息，进行更有效的情感分析.

作者贡献声明：甘臣权和付祥负责论文撰写和修改；冯庆东负责数据集搜集与整理；祝清意负责设计论文框架并指导实验分析.

图 1 模型处理流程图

Figure 1. Model processing flow chart

下载: 全尺寸图片幻灯片

图 2 公共情感特征融合模块结构

Figure 2. Structure of public emotion feature fusion module

下载: 全尺寸图片幻灯片

图 3 归一化损失值收敛曲线

Figure 3. Convergence curve of normalized loss value

下载: 全尺寸图片幻灯片

图 4 Getty Images上5折的正确率

Figure 4. Accuracy of 5 folds on Getty Images

下载: 全尺寸图片幻灯片

图 5 模型参数量对比

Figure 5. Comparison of model parameters

下载: 全尺寸图片幻灯片

表 1 数据集分布

Table 1 Dataset Distribution

数据集	样本数		总数
数据集	积极	消极	总数
Twitter	12307	7884	20191
Flickr	76953	31255	108208
Getty Images	180533	300470	481003

下载: 导出CSV

表 2 实验训练参数设置

Table 2 Experimental Training Parameter Setting

参数	含义	取值
Batch_size	每一个批次的训练样本数量	32
Learning_rate	初始学习率大小	0.002
ReduceLROnPlateau_patience	模型性能不提升而缩小学习率的忍耐值	2
EarlyStopping_ patience	模型性能不提升而停止训练的忍耐值	5

下载: 导出CSV

表 3 Twitter数据集上的对比实验结果

Table 3 Comparative Experimental Results on Twitter Dataset

模型	正确率	查准率	查全率	F1
OIG^[22]	0.569	0.621	0.758	0.674
OTT^[30]	0.752	0.787	0.816	0.801
EFIT^{[22, 30]}	0.764	0.845	0.752	0.795
LFIT^{[22, 30]}	0.749	0.785	0.815	0.798
CCR^[13]	0.751（0.809）	0.825（0.831）	0.751（0.805）	0.786（0.818）
DMAF^[15]	0.796（0.763）	0.865（0.778）	0.793（0.760）	0.818（0.769）
AMGN^[16]	0.861（0.790）	0.895（0.781）	0.874（0.757）	0.884（0.768）
本文模型	0.928	0.945	0.938	0.941
注：“（）”内的数据表示原文献中的实验结果.

下载: 导出CSV

表 4 Flickr数据集上的对比实验结果

Table 4 Comparative Experimental Results on Flickr Dataset

模型	正确率	查准率	查全率	F1
OIG^[22]	0.661	0.718	0.864	0.776
OTT^[30]	0.803	0.877	0.840	0.858
EFIT^{[22, 30]}	0.810	0.873	0.860	0.865
LFIT^{[22, 30]}	0.795	0.883	0.820	0.850
CCR^[13]	0.823	0.895	0.851	0.872
DMAF^[15]	0.821（0.859）	0.825（0.855）	0.960（0.845）	0.885（0.850）
AMGN^[16]	0.839（0.873）	0.867（0.874）	0.914（0.862）	0.890（0.868）
本文模型	0.868	0.919	0.894	0.906
注：“（）”内的数据表示原文献中的实验结果.

下载: 导出CSV

表 5 Getty Images数据集上的对比实验结果

Table 5 Comparative Experimental Results on Getty Images Dataset

模型	正确率	查准率	查全率	F1
OIG^[22]	0.696	0.620	0.500	0.548
OTT^[30]	0.787	0.736	0.676	0.705
EFIT^{[22, 30]}	0.779	0.714	0.642	0.686
LFIT^{[22, 30]}	0.837	0.783	0.782	0.782
CCR^[13]	0.827（0.800）	0.763（0.846）	0.784（0.759）	0.773（0.800）
DMAF^[15]	0.958（0.869）	0.930（0.882）	0.962（0.851）	0.945（0.866）
AMGN^[16]	0.935（0.882）	0.905（0.898）	0.925（0.876）	0.914（0.887）
本文模型	0.961	0.936	0.960	0.948
注：“（）”内的数据表示原文献中的实验结果.

下载: 导出CSV

表 6 文献[17]数据集上的对比实验结果

Table 6 Comparative Experimental Results on the Datasets of Ref [17]

模型	Flickr2				Getty Images2
模型	正确率	查准率	查全率	F1	正确率	查准率	查全率	F1
OIG^[22]	0.551	0.580	0.444	0.480	0.639	0.661	0.875	0.752
OTT^[30]	0.720	0.741	0.710	0.724	0.708	0.769	0.766	0.766
EFIT^{[22, 30]}	0.728	0.756	0.708	0.729	0.712	0.757	0.796	0.775
LFIT^{[22, 30]}	0.708	0.753	0.656	0.699	0.706	0.782	0.735	0.758
CCR^[13]	0.723	0.755	0.692	0.705	0.722	0.781	0.773	0.777
DMAF^[15]	0.786	0.830	0.745	0.783	0.744	0.819	0.790	0.798
AMGN^[16]	0.785	0.805	0.775	0.789	0.750	0.767	0.864	0.813
SCC^[17]	0.842	0.841	0.836	0.834	0.806	0.832	0.791	0.810
本文模型	0.879	0.901	0.862	0.881	0.819	0.855	0.857	0.856

下载: 导出CSV

表 7 3个数据集上的消融实验结果

Table 7 Ablation Results on the 3 Datasets

数据集	MF		MF+FE		MF+FE+PE		MF+FE+PE+WR（本文）
数据集	正确率	F1	正确率	F1	正确率	F1	正确率	F1
Twitter	0.768	0.710	0.878	0.898	0.886	0.905	0.928	0.941
Flickr	0.846	0.888	0.844	0.887	0.854	0.899	0.868	0.906
Getty Images	0.592	0.407	0.959	0.946	0.955	0.941	0.961	0.948
注：“MF”是用一般卷积层代替图文特征压缩模块，用连接融合代替公共情感特征融合模块，不采用词向量微调的基本模型；“FE”代表图文特征压缩模块；“PE”代表公共情感特征融合模块；“WR”代表词向量微调；“+”代表增加新模块.

下载: 导出CSV

表 8 Twitter的6个样本在不同模型上的细节和性能

Table 8 Details and Performance of 6 Samples of Twitter on Different Models

样本序号	图像	文本	标签	OIG	OTT
1		you guys! my pals, & wrote this awesome book! jack and louisa musical theater nerds	[0, 1]	[0.348, 0.652]	[0.374, 0.656]
2		um. yeah. so we just won leMans. kinda mega!	[0, 1]	[0.194, 0.806]	[0.680, 0.320]
3		and just like that, with <number> simple letters, gives me the biggest laugh of my week.	[0, 1]	[0.223, 0.777]	[0.415, 0.585]
4		this band of lunatics demands your full attention! see suicide squad in theatres now:	[1, 0]	[0.186, 0.814]	[0.718, 0.282]
5		serious injury accident on cumming hwy at watertank rd. only one lane open. avoid area if possible. lt. jay baker	[1, 0]	[0.160, 0.840]	[0.811, 0.189]
6		new suspect in french priest killing formally charged	[1, 0]	[0.202, 0.798]	[0.623, 0.377]

EFIT	LFIT	CCR	DMAF	AMGN	本文模型
[0.099, 0.901]	[0.875, 0.125]	[0.312, 0.688]	[0.633, 0.367]	[0.910, 0.090]	[0.838, 0.162]
[0.348, 0.652]	[0.723, 0.277]	[0.385, 0.615]	[0.734, 0.266]	[0.771, 0.229]	[0.570, 0.430]
[0.002, 0.998]	[0.973, 0.027]	[0.165, 0.835]	[0.902, 0.098]	[0.963, 0.037]	[0.967, 0.033]
[0.425, 0.575]	[0.383, 0.617]	[0.428, 0.572]	[0.255, 0.745]	[0.691, 0.369]	[0.864, 0.136]
[0.170, 0.830]	[0.469, 0.531]	[0.026, 0.974]	[0.915, 0.085]	[0.984, 0.016]	[0.996, 0.004]
[0.011, 0.989]	[0.202, 0.798]	[0.005, 0.995]	[0.949, 0.051]	[1.000, 0.000]	[1.000, 0.000]

下载: 导出CSV

参考文献(33)

[1]	Li Zuhe, Fan Yangyu, Jiang Bin, et al. A survey on sentiment analysis and opinion mining for social multimedia[J]. Multimedia Tools and Applications, 2019, 78(6): 6939−6967 doi: 10.1007/s11042-018-6445-z
[2]	Bouko C. Emotions through texts and images: A multimodal analysis of reactions to the Brexit vote on Flickr[J]. Pragmatics, 2020, 30(2): 222−246 doi: 10.1075/prag.18060.bou
[3]	Asur S, Huberman B A. Predicting the future with social media[C]//Proc of the 9th IEEE/WIC/ACM Int Conf on Web Intelligence and Intelligent Agent Technology. Piscataway, NJ: IEEE, 2010: 492−499
[4]	吴璠,王中卿,周夏冰,等. 基于用户和产品表示的情感分析和评论质量检测联合模型[J]. 软件学报,2020,31(8):2492−2507 doi: 10.13328/j.cnki.jos.005895 Wu Fan, Wang Zhongqing, Zhou Xiabing, et al. Joint model for sentiment analysis and review quality detection with user and product representations[J]. Journal of Software, 2020, 31(8): 2492−2507 (in Chinese) doi: 10.13328/j.cnki.jos.005895
[5]	张宜浩,朱小飞,徐传运,等. 基于用户评论的深度情感分析和多视图协同融合的混合推荐方法[J]. 计算机学报,2019,42(6):1316−1333 doi: 10.11897/SP.J.1016.2019.01316 Zhang Yihao, Zhu Xiaofei, Xu Chuanyun, et al. Hybrid recommendation approach based on deep sentiment analysis of user reviews and multi-view collaborative fusion[J]. Chinese Journal of Computers, 2019, 42(6): 1316−1333 (in Chinese) doi: 10.11897/SP.J.1016.2019.01316
[6]	Maas A L, Daly R E, Pham P T, et al. Learning word vectors for sentiment analysis[C]//Proc of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: ACL, 2011: 142−150
[7]	Atzeni M, Recupero D R. Multi-domain sentiment analysis with mimicked and polarized word embeddings for human-robot interaction[J]. Future Generation Computer Systems, 2020, 110: 984−999 doi: 10.1016/j.future.2019.10.012
[8]	程艳,尧磊波,张光河,等. 基于注意力机制的多通道CNN和BiGRU的文本情感倾向性分析[J]. 计算机研究与发展,2020,57(12):2583−2595 doi: 10.7544/issn1000-1239.2020.20190854 Cheng Yan, Yao Leibo, Zhang Guanghe, et al. Text sentiment orientation analysis of multi-channels CNN and BiGRU based on attention mechanism[J]. Journal of Computer Research and Development, 2020, 57(12): 2583−2595 (in Chinese) doi: 10.7544/issn1000-1239.2020.20190854
[9]	Basiri M E, Nemati S, Abdar M, et al. ABCDM: An attention-based bidirectional CNN-RNN deep model for sentiment analysis[J]. Future Generation Computer Systems, 2021, 115: 279−294 doi: 10.1016/j.future.2020.08.005
[10]	刘金硕,冯阔,Pan J Z,等. MSRD:多模态网络谣言检测方法[J]. 计算机研究与发展,2020,57(11):2328−2336 doi: 10.7544/issn1000-1239.2020.20200413 Liu Jinshuo, Feng Kuo, Pan J Z, et al. MSRD: Multi-modal Web rumor detection method[J]. Journal of Computer Research and Development, 2020, 57(11): 2328−2336 (in Chinese) doi: 10.7544/issn1000-1239.2020.20200413
[11]	Liu Ningning, Dellandréa E, Chen Liming, et al. Multimodal recognition of visual concepts using histograms of textual concepts and selective weighted late fusion scheme[J]. Computer Vision and Image Understanding, 2013, 117(5): 493−512 doi: 10.1016/j.cviu.2012.10.009
[12]	Gaspar A, Alexandre L A. A multimodal approach to image sentiment analysis[C]//Proc of the 20th Int Conf on Intelligent Data Engineering and Automated Learning. Berlin: Springer, 2019: 302−309
[13]	You Quanzeng, Luo Jiebo, Jin Hailin, et al. Cross-modality consistent regression for joint visual-textual sentiment analysis of social multimedia[C]//Proc of the 9th ACM Int Conf on Web Search and Data Mining. New York: ACM, 2016: 13−22
[14]	Felicetti A, Martini M, Paolanti M, et al. Visual and textual sentiment analysis of daily news social media images by deep learning[C]//Proc of the 20th Int Conf on Image Analysis and Processing. Berlin: Springer, 2019: 477−487
[15]	Huang Feiran, Zhang Xiaoming, Zhao Zhonghua, et al. Image–text sentiment analysis via deep multimodal attentive fusion[J]. Knowledge-Based Systems, 2019, 167: 26−37 doi: 10.1016/j.knosys.2019.01.019
[16]	Huang Feiran, Wei Kaimin, Weng Jian, et al. Attention-based modality-gated networks for image-text sentiment analysis[J]. ACM Transactions on Multimedia Computing, Communications, and Applications, 2020, 16(3): 1−19
[17]	Zhang Ke, Zhu Yunwen, Zhang Wenjun, et al. Cross-modal image sentiment analysis via deep correlation of textual semantic[J]. Knowledge-Based Systems, 2021, 216: 106803
[18]	Xu Jie, Huang Feiran, Zhang Xiaoming, et al. Visual-textual sentiment classification with bi-directional multi-level attention networks[J]. Knowledge-Based Systems, 2019, 178: 61−73 doi: 10.1016/j.knosys.2019.04.018
[19]	Yang Xiaocui, Feng Shi, Zhang Yifei, et al. Multimodal sentiment detection based on multi-channel graph neural networks[C]//Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th Int Joint Conf on Natural Language Processing (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2021: 328−339
[20]	李霞,卢官明,闫静杰,等. 多模态维度情感预测综述[J]. 自动化学报,2018,44(12):2142−2159 doi: 10.16383/j.aas.2018.c170644 Li Xia, Lu Guanming, Yan Jingjie, et al. A survey of dimensional emotion prediction by multimodal cues[J]. Acta Automatica Sinica, 2018, 44(12): 2142−2159 (in Chinese) doi: 10.16383/j.aas.2018.c170644
[21]	Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint, arXiv: 1409.1556, 2015
[22]	He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 770−778
[23]	闫小强,叶阳东. 共享和私有信息最大化的跨媒体聚类[J]. 计算机研究与发展,2019,56(7):1370−1382 doi: 10.7544/issn1000-1239.2019.20180470 Yan Xiaoqiang, Ye Yangdong. Cross-media clustering by share and private information maximization[J]. Journal of Computer Research and Development, 2019, 56(7): 1370−1382 (in Chinese) doi: 10.7544/issn1000-1239.2019.20180470
[24]	Wu Yang, Lin Zijie, Zhao Yanyan, et al. A text-centered shared-private framework via cross-modal prediction for multimodal sentiment analysis[C]//Proc of the 59th Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. Stroudsburg, PA: ACL, 2021: 4730−4738
[25]	Greff K, Srivastava R K, Koutník J, et al. LSTM: A search space odyssey[J]. IEEE Transactions on Neural Networks and Learning Systems, 2016, 28(10): 2222−2232
[26]	Yang Zhengling, Wang Ruxue, Shi Bofeng, et al. Estimations of confidence intervals for six common similarity indices by numerical simulations[C]//Proc of the 39th Chinese Control Conf (CCC). Piscataway, NJ: IEEE, 2020: 6129−6134
[27]	Hu Yuting, Zheng Liang, Yang Yi, et al. Twitter100k: A real-world dataset for weakly supervised cross-media retrieval[J]. IEEE Transactions on Multimedia, 2017, 20(4): 927−938
[28]	Hutto C, Gilbert E. VADER: A parsimonious rule-based model for sentiment analysis of social media text[J]. Proceedings of the International AAAI Conf on Web and Social Media, 2014, 8(1): 216−225
[29]	Borth D, Ji Rongrong, Chen Tao, et al. Large-scale visual sentiment ontology and detectors using adjective noun pairs[C]//Proc of the 21st ACM Int Conf on Multimedia. New York: ACM, 2013: 223−232
[30]	Mikolov T, Chen Kai, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint, arXiv: 1301.3781, 2013
[31]	Yu F, Koltun V. Multi-scale context aggregation by dilated convolutions[J]. arXiv preprint, arXiv: 1511.07122, 2016
[32]	Bock S, Goppold J, Weiß M. An improvement of the convergence proof of the ADAM-Optimizer[J]. arXiv preprint, arXiv: 1804.10587, 2018
[33]	Wong T T, Yeh P Y. Reliable accuracy estimates from k-fold cross validation[J]. IEEE Transactions on Knowledge and Data Engineering, 2019, 32(8): 1586−1594

施引文献(4)

期刊类型引用(2)

1.	冯勇，申锦涛，徐红艳，王嵘冰，刘婷婷，张永刚. 基于Translate机制的交叉融合多模态情感分析模型. 数据分析与知识发现. 2025(03): 16-27 . 百度学术
2.	余本功，邢钰，张书文. 多模态协同对比学习的方面级情感分析模型. 数据分析与知识发现. 2024(11): 22-32 . 百度学术