基于元优化特征解耦的多模态跨域情感分析算法

贾熹滨; 李宸; 王珞; 张沐晨; 刘潇健; 张旸旸; 温家凯

doi:10.7544/issn1000-1239.202440624

基于元优化特征解耦的多模态跨域情感分析算法

贾熹滨^{1, 2,},
李宸¹,
王珞¹,
张沐晨¹,
刘潇健¹,
张旸旸³,
温家凯⁴

1.
北京工业大学计算机学院　北京　100124
2.
北京人工智能研究院（北京工业大学）　北京　100124
3.
中国电子技术标准化研究院　北京　100007
4.
广西达译科技有限公司　南宁　530006

基金项目: 国家自然科学基金面上项目（62476015）；北京工业大学研究生教育教学优秀成果培育项目（GER202316）.

详细信息

作者简介:
贾熹滨: 1969年生. 教授. 博士生导师. CCF杰出会员（29295D）. 主要研究方向为视觉计算、多模态深度学习、情感计算、智能医学影像、行为理解与计算

李宸: 1998年生. 硕士研究生. 主要研究方向为多模态情感、迁移学习

王珞: 1990年生. 博士. 讲师. CCF会员（P4015M）. 主要研究方向为计算机视觉、深度学习

张沐晨: 2002年生. 硕士研究生. 主要研究方向为多模态深度学习、计算机视觉

刘潇健: 1989年生. 博士. 高级工程师. CCF会员（P2866M）. 主要研究方向为软件工程和网络安全

张旸旸: 1976年生. 硕士. 教授级高工. CCF会员（E9145M）. 主要研究方向为软件与系统工程、信息技术标准化

温家凯: 1979年生. 学士. 高级工程师. CCF会员（C2990M）. 主要研究方向为机器翻译与大数据

中图分类号: TP391
计量
- 文章访问数: 32
- HTML全文浏览量: 2
- PDF下载量: 14
出版历程
- 收稿日期: 2024-07-19
- 修回日期: 2025-01-14
- 录用日期: 2025-03-02
- 网络出版日期: 2025-03-02

A Multimodal Cross-Domain Sentiment Analysis Algorithm Based on Feature Disentanglement Meta-Optimization

1.
College of Computer, Beijing University of Technology, Beijing 100124
2.
Beijing Institute of Artificial Intelligence(Beijing University of Technology), Beijing 100124
3.
China Electronics Standardization Institute, Beijing 100007
4.
Guangxi Daring Technology Co., Ltd, Nanning 530006

Funds: This work was supported by the General Program of the National Natural Science Foundation of China (62476015) and the Cultivation Program for Excellent Achievements in Graduate Education and Teaching at Beijing University of Technology (GER202316).

More Information

Author Bio:
Jia Xibin: born in 1969. Professor. Member of distinguished CCF(29295D). Her main research interests include visual computing, multi-modality deep learning, affection computing, intelligent medical image, behaviour understanding and computing

Li Chen: born in 1998. Master. Her main research interests include multimodal sentiment and transfer learning

Wang Luo: born in 1990. PhD. Lecturer. Member of CCF(P4015M). His main research interests include computer vision and deep learning

Zhang Muchen: born in 2002. Master candidate. Her main research interests include multi-modality deep learning and computer vision

Liu Xiaojian: born in 1989. PhD. Senior engineer. Member of CCF(P2866M). His main research interests include software engineering and cybersecurity

Zhang Yangyang: born in 1976. Master. Professorial senior engineer. Member of CCF(E9145M). Her main research interests include Software and Systems Engineering, Standardization of IT

Wen Jiakai: born in 1979. Bachelor. Senior engineer. Member of CCF(C2990M). His main research interests include machine translation and big data

摘要

摘要:
多模态情感分析旨在利用多模态点评等数据识别用户情感倾向. 为实现存在域偏移的跨域应用，常用无监督领域自适应方法. 然而，该类方法着重于领域不变特征提取，忽略了目标领域特定特征的重要作用. 为此，提出基于元优化的领域不变及领域特定特征解耦网络. 首先，通过嵌入情感适配器对预训练大模型微调，建立图文融合情感特征编码器. 进而，构建基于因子分解的特征解耦模块，分别利用领域对抗及领域分类、协同独立性约束，实现知识可传递的领域不变特征编码的同时，提取领域特定特征以增强目标域情感分类性能. 为保证特征解耦与情感分类的总体优化方向一致性，提出基于元学习的元优化训练策略，实现情感分析网络的协同优化. 基于MVSA和Yelp数据集构建的双向情感迁移任务的对比实验表明，较之其他先进的图文情感迁移算法，所提算法于双向情感迁移任务的精确率、召回率和F1值3项评价指标均取得了优异的性能.
- 多模态情感分析 /
- 无监督领域自适应 /
- 跨领域情感分类 /
- 特征解耦 /
- 元优化
Abstract:
Multimodal sentiment analysis aims to utilize the multimodal customer comments and other data to identify users' sentimental tendencies. To realize cross-domain application with the domain bias, commonly used solutions are unsupervised domain adaptation methods. Nevertheless, this type of solutions focuses on the extraction of domain-invariant features, and it neglects the significance of domain-specific features at the target domain. Thus, a meta-optimization based domain-invariant and domain-specific feature disentanglement network is proposed. First, by embedding adapters into the pre-trained large model with fine-tuning fitting, the image-text fused sentiment feature encoder is accordingly constructed. Then, a feature disentanglement module is constructed on the basis of the factorization operation, which utilizes domain adversary and domain classification, together with collaborative independence constraints, respectively, to achieve knowledge-transferable domain-invariant feature embedding while extracting the domain-specific features to enhance the performance of sentiment classification at the target domain. To ensure the consistency of the overall optimization tendency for feature disentanglement and sentiment classification, a meta-learning-based meta-optimization training strategy is put forward to synergistically optimize the sentiment analysis network. Comparative experiments on bidirectional sentiment transfer tasks constructed by MVSA and Yelp datasets demonstrate that compared to other advanced image-text sentiment transfer algorithms, the proposed algorithm achieves superior performance on bidirectional sentiment transfer tasks in terms of three consensus metrics: Precision, Recall and F1 score.
- multimodal sentiment analysis /
- unsupervised domain adaptation /
- cross-domain sentiment classification /
- feature disentanglement /
- meta-optimization

HTML全文

情感分析^[1]是一种语境挖掘技术，用来识别人们对某种事物的情感倾向，如对用户点评态度分类，为商家决策、商品推荐等提供参考等. 随着富媒体形式的广泛存在，加之图文多模态大模型的快速发展，有效利用图文等多模态数据实现多模态情感分析有助于克服单模态歧义性，成为情感分析的主流. 然而，大量有标签图文数据对的获取费时费力. 此外，由于不同应用领域的情感态度表达方式亦存在差异性，在实际应用中存在域偏移现象，阻碍了源域训练获得的多模态情感分析算法在目标领域的应用性能. 为提高不同场景下的应用性能，降低目标域标注需求，跨领域情感分析^[2]被提出，其目的是研究如何利用来自具有良好标注的源域可迁移知识来指导无标注或少标注目标域的高性能情感分类模型优化.

其中，无监督领域自适应^[3]因其无目标域数据标注要求，为跨领域情感分析模型学习带来了更为高效的解决思路. 目前，基于领域对抗^[4-5]和基于分布度量^[6-7]的2种主流无监督领域自适应方法被广泛应用于跨领域情感分析任务中，它们的共同原理是尽可能去除领域特定特征以充分提取领域不变的共有特征，降低领域分布的差异，实现源域标签监督信息指导下目标域情感分析算法的优化学习，获得更为精准的目标域情感极性分类. 然而，情感表达与情感态度判别的界定与特定领域密切相关，忽略目标域类别可判别的领域特定特征不利于网络更全面理解和表达本领域情感信息^[8-9]，因此，仅依赖领域不变的共有特征不足以实现从源域到目标域的最佳迁移，尤其是当目标域样本多样性较大时此问题更为明显.

为了解决上述问题，本文面向图文多模态跨领域情感分析任务，提出了一种基于元优化的领域不变及领域特定特征解耦网络（meta-optimization-based domain-invariant and domain-specific feature disentanglement network，MDISN）. 从基于预训练模型的情感适配调优、基于解耦的领域不变特征和领域特定特征编码器构建以及基于元优化策略的模型训练3个方面进行了模型改进和优化. 主要工作和贡献包括：1）为实现图文多模态情感表示的适配，建立更为轻量化的多模态特征提取网络以减少所需的训练数据量，利用适配调优机制，即在基于Transformer预训练模型的特征编码器中引入情感适配器，在情感数据集上进行训练优化，提取适用于下游分类的有效情感特征；2）利用因子解耦构建特征解耦网络，将融合情感特征解耦为领域不变特征和领域特定特征，利用领域不变特征实现源域到目标域的共有情感分类知识的迁移，同时利用领域特定特征实现专有情感分类知识表达，通过领域不变特征及领域特定特征的协同学习增强目标域的情感分类性能；3）在模型学习中，为了缓解解耦目标和分类目标的优化方向不一致问题，提出利用基于元学习的元优化训练策略，提升图文情感分类模型的域适应迁移学习总体性能；4）在MVSA和Yelp这2个图文情感分类数据集上构建的双向迁移实验数据集进行的实验证明所提出的算法在图文多模态情感迁移任务上取得了更具竞争力的迁移和情感极性分类性能.

1. 相关工作

多模态情感分析：随着社交媒体的飞速发展，用户发表的内容数据也更多呈现图片与短文本并用的多模态表达形式. 利用数据样本中不同模态相互补充，可以为基于文本的语义理解和语义消歧提供额外的线索. 因此，多模态情感分析逐渐成为研究热点.

近年来，基于深度学习的多模态情感分析方法，围绕情感分类目标，重点研究多模态特征融合算法. 例如，Zadeh等人^[10]提出了一种端到端的张量融合网络TFN，以动态建模在线视频中的模态内和模态间的交互. 受图像-文本情感相关性的内在特征启发，Truong等人^[11]提出了一种视觉方面注意力网络VistaNet，将图像作为与文本内容一致的注意力来源. Gui等人^[12]针对社交媒体中抑郁症的检测问题，提出了一种融合文本和视觉信息的多智能体强化学习方法. 近年来，随着基于Transformer预训练模型方法的巨大成功，越来越多的研究人员尝试将基于Transformer预训练模型的方法引入多模态情感分析中. Ling等人^[13]针对多模态方面级情感分析问题提出了一种特定于任务的视觉语言预训练框架MABSA，在预训练过程中设计特定的预训练任务，以识别细粒度方面和观点助力图文的跨模态对齐.

无监督领域自适应：传统的情感分析方法只讨论了模型于单一领域的性能，但情感表达用于的领域差异性，导致情感分析模型跨域应用性能受限，领域自适应，特别是无监督领域自适应方法的提出使跨领域情感分类的模型迁移成为可能. 无监督领域自适应是一种源域数据有标签、目标域数据无标签，源任务和目标任务相同，但源域和目标域数据分布不同的迁移学习方法. 主流的无监督领域自适应方法目前主要分为2大类，即基于领域对抗的方法和基于分布度量的方法.

Ganin等人^[14]构建了领域对抗性神经网络DANN，通过领域判别器混淆领域来源以学习尽可能多的领域不变特征. Zhu等人^[7]提出了一种基于分布度量的领域自适应方法，该方法设计了一个局部最大平均差异LMMD度量，通过对齐不同领域间领域特定层的相关子域分布来减小领域差异. 结合以上2种方法的优势，Jia等人^[15]从全局和局部2个方面对齐了领域分布，提出了一种基于领域对抗类别对齐网络DACAN.

多模态领域自适应：广泛的领域自适应研究在计算机视觉和自然语言处理方面取得了巨大的成功，因而被逐渐引入到多模态情感分析领域中. 黄学坚等人^[16]提出了一种基于样本内外多模态协同的表示方法，分别学习模态特有与共享特征并实现协同优化，设计了基于注意力机制和门控神经网络的自适应多模态融合方法，在情感数据集上实验结果优于基线方法. Qi等人^[17]提出了多模态领域自适应神经网络MDANN，通过构建混合域约束来提高模型在跨领域情感识别任务中的分类性能. Ma等人^[18]引入了多模态对抗网络MMAN来解决基于图像-文本数据对中存在的领域自适应问题，所提出的MMAN在多模态社会事件识别任务中表现最佳.

综上，多模态情感自适应为解决跨域的高性能情感识别提供了解决路径，但不同模态间的差异使多模态情感跨领域知识迁移变得更为复杂. 近年来，多模态大模型预训练不断完善，能够为下游任务提供大量图文对齐先验知识. 因此，本文利用预训练大模型作为迁移网络的骨干网络，并在其中嵌入情感适配器以实现有效的下游情感任务鲁棒的多模态融合特征提取. 以此模型为基础，本文探讨有效的域适应技术，实现多模态融合特征的跨域迁移学习，进一步挖掘前述工作中忽略的领域特有特征对于情感分类的重要作用，建立同时利用领域不变与领域特有特征的多模态情感分析算法.

2. 本文方法

针对跨领域多模态情感分类问题，在将预训练大模型通用知识与下游情感知识相结合，提取图文融合特征的基础上，本文提出显式地解耦领域不变特征和领域特定特征，同时引入元学习的思想协调解耦任务和分类任务的优化一致性，实现源域标签监督下的目标域的多模态情感分类模型的领域适应迁移学习. 具体网络设计及优化训练方法阐述如下.

2.1 总体框架

本文所提的基于元优化的领域不变及领域特定特征解耦网络（MDISN）框架如图1所示. 总体网络包括：特征提取模块、特征解耦模块和分类模块.

图 1 基于元优化的领域不变及领域特定特征解耦网络框架

Figure 1. Meta-optimization-based framework for domain-invariant and domain-specific feature decoupling networks

下载: 全尺寸图片幻灯片

特征提取模块以基于Transformer块的图文大模型预训练特征编码器为基础，在每层Transformer块添加情感适配器. 也就是说，利用情感数据微调的适配层构建图文融合的多模态情感特征编码器；特征解耦模块包括2个并行分支，其中一个分支由领域不变特征编码器和领域判别器构成，另一个分支由领域特定特征编码器和领域分类器构成，实现图文融合特征分解，分别输出解耦后的领域不变特征和领域特定特征；分类模块为一个情感分类头，利用组合后的图文多模态解耦特征进行分类，实现情感极性预测.

在网络训练过程中，训练数据集由有标注源域数据与无标注目标域数据构成，以所构建网络为基础，采用领域不变特征编码分支的领域对抗约束、领域特定编码分支的领域分类约束以及2分支解耦得到特征间的特征独立性约束以及源域分类标签的一致性监督约束，实现目标域多模态情感分析网络的迁移学习. 此外，为保证特征解耦任务和情感分类任务的网络训练优化整体性能，制定元优化任务无关训练策略，支持多模态情感分析算法的优化学习.

2.2 基于情感适配Transformer块的特征提取模块

如图1左侧所示，此模块用于提取多模态融合特征X. 为克服情感图文对多模态标注数据不足下，应对多模态下领域适应与图文对齐混叠带来的复杂度增加的挑战，充分利用基于Transformer的视觉-语言预训练大模型^[19]对多模态特征的提取能力与对齐能力，本文以公认的融合前对齐即ALBEF^[20]模型作为所特征提取模块的骨干模型. 考虑到预训练大模型的特征表示通识性强，但缺少对特定领域的鉴别特征建模，经典的全量网络调优需要大规模标注数据，现实应用场景下难以满足. 因此，借鉴Adaptformer^[21]的适配调优方法，本文在原始Transformer块中嵌入一种自适应、可拓展的适配器，建立SenA-Transformer块. 本文将所采用的骨干网络ALBEF^[20]模型中的所有原始Transformer块替换为SenA-Transformer块，构建基于情感适配Transformer块的多模态特征提取模块.

1）SenA-Transformer块结构. 如图2所示，左侧表示原始的Transformer块结构，右侧表示本文所引入的轻量级情感适配器. 为每个原始Transformer块嵌入情感适配器，对SenA-Transformer块的情感适配优化时，冻结预训练Transformer块的参数，仅对适配器利用情感数据调优，建立情感适配Transformer块SenA-Transformer. 该方法有利于在仅添加有限可学习参数的情况下，结合预训练大模型通用知识和任务相关情感知识，提取情感图文多模态融合特征.

图 2 SenA-Transformer块

Figure 2. SenA-Transformer block

下载: 全尺寸图片幻灯片

多模态特征编码器由多个SenA-Transformer块组成，每层适配后Transformer对特征进行变换处理，具体而言，所示为第l层SenA-Transformer块的计算过程. 其输入为第 $l-1$ 层SenA-Transformer块的输出 ${\boldsymbol{x}}_{l-1}$ . 在经由原始Transformer块的多头注意

力（multi-head attention）与层归一化（layer normalization）处理后，得到中间特征 $\boldsymbol{x}'_{l}$ . 此时，将 $\boldsymbol{x}'_{l}$ 输入情感适配器，得到情感分支输出 ${\tilde{\boldsymbol{x}}}_{l}$ ，如式(1)所示：

${\tilde{\boldsymbol{x}}}_{l}=ReLU\left(\boldsymbol{x}'_{l}\cdot {\boldsymbol{W}}_{\mathrm{D}\mathrm{o}\mathrm{w}\mathrm{n}}\right)\cdot {\boldsymbol{W}}_{\mathrm{U}\mathrm{p}} .$

(1)

情感适配器的网络设计如右侧所示，左侧分支为Transformer块结构，右侧分支为适配器. 适配器采用限制参数数量的瓶颈结构变换网络，其中包括1个由参数 ${\boldsymbol{W}}_{\mathrm{D}\mathrm{o}\mathrm{w}\mathrm{n}}$ 构成的下线性投影层、1个由参数 ${\boldsymbol{W}}_{\mathrm{U}\mathrm{p}}$ 的上线性投影层和2个投影层之间 $ReLU$ 激活层. 适配器加在Transformer块的前馈层. 将 ${\tilde{\boldsymbol{x}}}_{l}$ 与缩放因子 $s$ 相乘，再将 $\boldsymbol{x}'_{l}$ 输入前馈层 $\mathrm{M}\mathrm{L}\mathrm{P}$ ，将2项输出与 $\boldsymbol{x}'_{l}$ 计算求和即得到第l层SenA-Transformer块的输出 ${\boldsymbol{x}}_{l}$ . 最终的SenA-Transformer块输出特征 ${\boldsymbol{x}}_{l}$ 如式（2）所示：

${\boldsymbol{x}}_{l}=LN\left(MLP\left(\boldsymbol{x}'_{l}\right)+\boldsymbol{x}'_{l}+s\times {\tilde{\boldsymbol{x}}}_{l}\right) .$

(2)

2）SenA-Transformer块调优. 在网络训练阶段，对SenA-Transformer块进行训练调优，如所示仅对情感适配器网络参数 ${\boldsymbol{\theta }}_{G}={(\boldsymbol{W}}_{\mathrm{D}\mathrm{o}\mathrm{w}\mathrm{n}},{\boldsymbol{W}}_{\mathrm{U}\mathrm{p}})$ 进行训练优化，同时冻结此块其余部分的网络参数. 也就是说，情感适配器的网络参数利用情感数据集进行优化更新，基础Transformer块的参数从预训练模型中加载权重，在训练中保持这些参数冻结. 通过对并行的情感适配器调优训练，提取适用于特定领域下游任务的多模态融合情感特征，同时利用ALBEF^[20]预训练模型对图文情感数据对齐，为情感极性分类任务的领域自适应学习提供有效的图文情感特征.

2.3 领域不变及领域特定特征解耦模块

为有效利用源域的标签监督实现无标注目标域的高性能多模态情感分析，一方面，本文利用领域对抗约束学习源域与目标域共有的领域不变特征，支持跨域知识迁移；另一方面，采用领域分类约束挖掘目标域情感极性判别所需的目标领域专有的领域特定特征. 在双分支特征解耦编码器模块构建基础上，设计多个损失约束，实现跨域情感分析算法的优化学习.

1）领域不变特征损失约束 ${L}_{\mathrm{I}}$ . 将特征提取模块得到的多模态融合特征X，输入领域不变特征编码器 $Q$ ，通过对抗性训练框架^[22]学习得到领域不变特征 ${\boldsymbol{Z}}_{\mathrm{I}}$ . 领域判别器 ${D}_{\mathrm{I}}$ 用于最小化领域标签的预测损失，通过在 ${D}_{\mathrm{I}}$ 前设置梯度反转层GRL使领域不变特征编码器 $Q$ 的优化目标转变为最大化领域标签预测损失，通过最小-最大化的对抗关系混淆领域来源，提取领域不变的特征. 领域不变特征损失约束 ${L}_{\mathrm{I}}$ 的计算方法以及对应的特征编码器和领域分类器参数 ${\boldsymbol{\theta }}_{Q}$ 和 ${\boldsymbol{\theta }}_{{D}_{\mathrm{I}}}$ 的优化目标函数如式（3）所示：

$\underset{{\boldsymbol{\theta }}_{Q}}{\mathrm{m}\mathrm{i}\mathrm{n}}\underset{{\boldsymbol{\theta }}_{{D}_{\mathrm{I}}}}{\mathrm{m}\mathrm{a}\mathrm{x}}\left\{{L}_{\mathrm{I}}:=-{E}_{\boldsymbol{x},\boldsymbol{d}~\boldsymbol{X},\boldsymbol{D}}\left[\boldsymbol{d}\mathrm{ln}{D}_{\mathrm{I}}\left({\boldsymbol{Z}}_{\mathrm{I}}\right)\right]\right\} .$

(3)

2）领域特定特征损失约束 ${L}_{\mathrm{S}}$ . 将特征提取模块得到的多模态融合特征X，输入领域特定特征编码器R，得到领域特定特征 ${\boldsymbol{Z}}_{\mathrm{S}}$ . 与领域不变特征相反，为训练优化 ${\boldsymbol{Z}}_{\mathrm{S}}$ ，采用领域分类器 ${D}_{\mathrm{S}}$ ，通过预测领域标签的一致性约束，鼓励领域分类器 ${D}_{\mathrm{S}}$ 区分领域来源. 领域特定特征损失约束 ${L}_{\mathrm{S}}$ 的计算方法以及对应的特征编码器和领域分类器参数 ${\boldsymbol{\theta }}_{R}$ 和 ${\boldsymbol{\theta }}_{{D}_{\mathrm{S}}}$ 的优化目标函数如式（4）所示：

$\underset{{\boldsymbol{\theta }}_{R},{\boldsymbol{\theta }}_{{D}_{\mathrm{S}}}}{\mathrm{m}\mathrm{i}\mathrm{n}}\left\{{L}_{\mathrm{S}}:=-{E}_{\boldsymbol{x},\boldsymbol{d}~\boldsymbol{X},\boldsymbol{D}}\left[\boldsymbol{d}\mathrm{ln}{D}_{\mathrm{S}}\left({\boldsymbol{Z}}_{\mathrm{S}}\right)\right]\right\} .$

(4)

3）特征独立性约束 ${L}_{\mathrm{D}}.$ 为保证学习得到的2解耦特征间的独立性，考虑到最小化2个随机变量之间的协方差相当于最小化它们之间的互信息^[23]，因此可将2特征 ${\boldsymbol{Z}}_{\mathrm{I}}$ 和 ${\boldsymbol{Z}}_{\mathrm{S}}$ 之间的解耦约束条件设置为计算协方差矩阵 $\boldsymbol{C}\boldsymbol{o}\boldsymbol{v}({\boldsymbol{Z}}_{\mathrm{I}},{\boldsymbol{Z}}_{\mathrm{S}})$ ，并 $\mathrm{使}$ 其趋近于0. 基此，领域不变特征编码器 $Q$ 和领域特定特征编码器 $R$ 的参数 ${\boldsymbol{\theta }}_{Q}$ 和 ${\boldsymbol{\theta }}_{R}$ 的优化目标函数如式（5）所示：

$\underset{{\boldsymbol{\theta }}_{Q},{\boldsymbol{\theta }}_{R}}{\mathrm{m}\mathrm{i}\mathrm{n}}\left\{{L}_{\mathrm{D}}:={E}_{\boldsymbol{x}~\boldsymbol{X}}\left[{\|\boldsymbol{C}\boldsymbol{o}\boldsymbol{v}({\boldsymbol{Z}}_{\mathrm{I}},{\boldsymbol{Z}}_{\mathrm{S}})\|}_{2}\right]\right\} \text{，}$

(5)

其中 ${\|\cdot \|}_{2}$ 为 ${L}_{2}$ 范数.

4）特征解耦损失. 对上述优化目标函数项加权求和，则特征解耦模块的总损失函数如式（6）所示：

${L}_{\mathrm{d}\mathrm{i}\mathrm{s}\mathrm{e}} = {{\lambda }_{\mathrm{D}}L}_{\mathrm{D}}+{\lambda }_{\mathrm{I}}{L}_{\mathrm{I}}+{{\lambda }_{\mathrm{S}}L}_{\mathrm{S}} \text{，}$

(6)

其中 ${\lambda }_{\mathrm{D}}$ ， ${\lambda }_{\mathrm{I}}$ ， ${\lambda }_{\mathrm{S}}$ 为超参数，表示特征独立性约束、领域不变特征损失约束和领域特定特征损失约束的权重.

2.4 情感分类模块

在得到领域不变特征 ${\boldsymbol{Z}}_{\mathrm{I}}$ 和领域特定特征 ${\boldsymbol{Z}}_{\mathrm{S}}\mathrm{的}$ 基础上，令 ${\boldsymbol{Z}}_{\mathrm{I}}\oplus {\boldsymbol{Z}}_{\mathrm{S}}$ 为输入，构建情感分类器. 在网络训练阶段，利用源域的情感标签与情感极性分类预测一致性为约束进行模型训练. 令 $\boldsymbol{y}$ 为真实标签，情感分类器 $C$ 的优化损失函数 ${L}_{C}$ 如式（7）所示：

$\underset{{\boldsymbol{\theta }}_{Q},{\boldsymbol{\theta }}_{R},{\boldsymbol{\theta }}_{C}}{\mathrm{m}\mathrm{i}\mathrm{n}}\left\{{L}_{C}:=-{E}_{\boldsymbol{x},\boldsymbol{y}\sim \boldsymbol{X},\boldsymbol{Y}}\left[\boldsymbol{y}\mathrm{ln}C({\boldsymbol{Z}}_{\mathrm{I}},{\boldsymbol{Z}}_{\mathrm{S}})\right]\right\} .$

(7)

2.5 元优化训练策略

依据典型训练流程，特征解耦任务和情感分类任务的优化各自独立. 一方面，模型利用源域有标注数据和无标注目标域数据，在领域对抗损失、领域判别损失和特征独立性约束下，进行特征解耦任务训练，获得图文融合数据的领域不变特征及领域特定特征的解耦表示. 另一方面，模型利用源域有标注数据，进行情感分类任务的优化学习，实现情感极性分类. 然而，如（a）所示，在该过程中，受任务差异影响，2项任务易出现优化方向不一致问题，即共享网络参数 $\phi$ 的梯度下降方向不一致，导致特征编码器优化过程无法向最优目标点收敛，难以学习到可判别情感特征，制约域适应迁移学习下多模态情感分类性能.

图 3 特征解耦任务和情感分类任务的交互优化训练过程

Figure 3. Interactive optimization training process for feature decoupling task and sentiment classification task

下载: 全尺寸图片幻灯片

受任务无关的MetaAlign^[24]元学习方法启发，本文在模型优化过程中引入元学习策略，提出一种基于元优化的训练方法，以缓解特征解耦和情感分类任务的优化不一致问题. 具体地，如图3（b）所示，本文将特征解耦任务和情感分类任务视为元学习方案中的2个任务，利用元训练确保域适应策略下领域不变特征提取性能的同时，结合元测试任务验证同一组样本的优化效果，深入发掘领域特定特征与情感判别特征的内在联系，鼓励模型以协调的方式对2项任务同时进行优化，从而在目标域时能快速精准的提取适用于目标域情感分类性能的特征.

通过该元优化训练方法，实现对本文提出的情感极性分类网络进行特征解耦和情感分类的联合优化训练. 在元训练过程，模型主要对特征解耦网络进行学习，优化领域判别器参数 ${\boldsymbol{\theta }}_{{D}_{\mathrm{I}}}$ 和领域分类器参数 ${\boldsymbol{\theta }}_{{D}_{\mathrm{S}}}$ . 在元测试阶段，通过使用情感分类来评估模型优化对元训练任务（特征解耦）的影响，对情感分类器参数 ${\boldsymbol{\theta }}_{C}$ 进行优化. 在整个元优化过程中，特征提取模块和领域不变、领域特定特征编码器均同时参与了2项任务，实现模型参数 $\phi ={\{\boldsymbol{\theta }}_{G},{\boldsymbol{\theta }}_{Q},{\boldsymbol{\theta }}_{R}\}$ 的优化.

据此，总体元优化目标如式(8)所示：

$\begin{split} & \underset{\phi ,{\boldsymbol{\theta }}_{C}}{\mathrm{m}\mathrm{i}\mathrm{n}}\underset{{\boldsymbol{\theta }}_{{D}_{\mathrm{I}}},{\boldsymbol{\theta }}_{{D}_{\mathrm{S}}}}{\mathrm{m}\mathrm{a}\mathrm{x}}{L}_{\mathrm{d}\mathrm{i}\mathrm{s}\mathrm{e}}\left(\phi ,{\boldsymbol{\theta }}_{{D}_{\mathrm{I}}},{\boldsymbol{\theta }}_{{D}_{\mathrm{S}}}\right)+{L}_{C}\left(\phi ,{\boldsymbol{\theta }}_{C}\right) \\& -\alpha {\nabla }_{\phi }{{L}_{C}\left(\phi ,{\boldsymbol{\theta }}_{C}\right)\nabla }_{\phi }{L}_{\mathrm{d}\mathrm{i}\mathrm{s}\mathrm{e}}\left(\phi ,{\boldsymbol{\theta }}_{{D}_{\mathrm{I}}},{\boldsymbol{\theta }}_{{D}_{\mathrm{S}}}\right) \text{，} \end{split}$

(8)

其中 $\alpha$ 表示元学习率. 式（8）的前2项为2.3节和2.4节提出的基于领域不变及领域特定特征解耦模块与情感分类模块的损失项，而最后一项为任务无关的元优化损失项，使得 ${\nabla }_{\phi }{L}_{C}$ 和 ${\nabla }_{\phi }{L}_{\mathrm{d}\mathrm{i}\mathrm{s}\mathrm{e}}$ 的内积最大化，增强2项任务优化时的梯度下降方向的一致性，保证总体目标向最优点收敛，由此促进特征解耦和情感分类协同优化.

协同优化过程中，作为元测试的分类任务，可以验证元训练的特征解耦效果，并指导模型将对解耦模块的优化调整至更有利于情感分类的方向. 进而，模型在泛化到目标域时，将能够根据优化过程中积累的经验，调整特征解耦模块的参数. 因此，在目标域进行应用测试阶段，分别用2个解码器获得类可判别的领域不变和领域特定特征，融合后分类，有助于提升跨域情感分类性能.

基于元优化的领域不变及领域特定特征解耦网络（MDISN）的域适应训练和情感预测过程的具体描述如算法1所示.

算法1. 网络的训练和推理过程.

训练阶段输入：源域样本 $S$ 和目标域样本 $T$ ，可学习参数 $\varPsi =\left\{\phi ,{\boldsymbol{\theta }}_{{D}_{\mathrm{I}}},{\boldsymbol{\theta }}_{{D}_{\mathrm{S}}},{\boldsymbol{\theta }}_{C}\right\}$ ， $\phi =\left\{{\boldsymbol{\theta }}_{G},{\boldsymbol{\theta }}_{Q},{\boldsymbol{\theta }}_{R}\right\}$ ，学习率 $\eta ,\alpha$ ；

输出：优化后的网络参数 ${\varPsi }^{\boldsymbol{*}}=\left\{{\varphi }^{\boldsymbol{*}},{\boldsymbol{\theta }}_{{D}_{\mathrm{I}}}^{\boldsymbol{*}},{\boldsymbol{\theta }}_{{D}_{\mathrm{S}}}^{\boldsymbol{*}},{\boldsymbol{\theta }}_{C}^{\boldsymbol{*}}\right\}$ ， ${\phi }^{\boldsymbol{*}}=\left\{{\boldsymbol{\theta }}_{G}^{\boldsymbol{*}},{\boldsymbol{\theta }}_{Q}^{\boldsymbol{*}},{\boldsymbol{\theta }}_{R}^{\boldsymbol{*}}\right\}$ .

①for $t=1\to iterations$ do

② 　元训练：

③ 　　计算特征解耦损失 ${L}_{\mathrm{d}\mathrm{i}\mathrm{s}\mathrm{e}}$ ，如式(6)；

④ 　　通过 ${L}_{\mathrm{d}\mathrm{i}\mathrm{s}\mathrm{e}}$ 优化更新 $\phi$ ：

$\qquad\quad {\phi }^{t+1}\leftarrow{\phi }^{t}-\alpha {\nabla }_{{\phi }^{t}}{L}_{\mathrm{d}\mathrm{i}\mathrm{s}\mathrm{e}}({\phi }^{t},{\boldsymbol{\theta }}_{{D}_{\mathrm{I}}}^{t},{\boldsymbol{\theta }}_{{D}_{\mathrm{S}}}^{t}) \text{；}$

⑤ 　元测试：

⑥ 　　计算分类损失 ${L}_{C}({\varphi }^{t+1},{\boldsymbol{\theta }}_{C}^{t})$ ，如式(7)；

⑦ 　元优化：

⑧ 　　计算网络总体损失，如式(8)；

⑨ 　　优化更新参数： ${\varPsi }^{t+1}\leftarrow{\varPsi }^{t}-\eta {\nabla }_{{\varPsi }^{t}}{L}_{\mathrm{t}\mathrm{o}\mathrm{t}\mathrm{a}\mathrm{l}}$ ；

⑩end for

推理阶段输入：目标域样本 $T$ ，优化后的网络参数 ${\Psi }^{\boldsymbol{*}}=\left\{{\phi }^{\boldsymbol{*}},{\boldsymbol{\theta }}_{C}^{\boldsymbol{*}}\right\}$ ， ${\phi }^{\boldsymbol{*}}=\left\{{\boldsymbol{\theta }}_{G}^{\boldsymbol{*}},{\boldsymbol{\theta }}_{Q}^{\boldsymbol{*}},{\boldsymbol{\theta }}_{R}^{\boldsymbol{*}}\right\}$ ；

输出：情感极性分类预测结果 $y\text{'}$ .

3. 实验结果与分析

3.1 数据集

本文采用了2个常用的公共多模态情感数据集：MVSA^[25]和Yelp^[11]. 在MVSA数据集中，积极、中性和消极样本分别为11 899个、4 170个和1 500个. 在Yelp数据集中，积极、中性和消极样本分别为17 722个、8 861个和17 722个. 对数据集进行随机划分，80%的数据用于训练，5%用于验证，15%用于测试.

MVSA数据集的每幅图片或文本样本由3个志愿者打上标签. 遵循相关文献[26]的主流做法，当2个及以上志愿者为某图片给出相同的标签时，该标签视作该图片（或文本）的情感标签，同时筛选具有相同图片和文本情感标签的实例作为实验数据样本.

Yelp数据集的每个图文样本对包含了5个等级的情感量级评分. 本文将原始的Yelp数据集评分标签合并为（1，2），3，（4，5）3组，并将它们重新分配为消极、中性和积极，以保持标签空间的一致性.

利用MVSA和Yelp数据集交替作为源域和目标域，构建了2个多模态跨领域情感分类任务，即：MVSA→Yelp和Yelp→MVSA.

3.2 对比方法

为了验证算法的有效性，本文将MDISN与3类情感分类多个主流先进方法进行了比较. 具体如下，加粗的为对比方法名称.

1）单模态深度分类对比方法. 视觉模态情感分析模型中，VisualSent^[27]是在预训练的VGG-16网络^[28]基础上建立的逻辑回归模型；ViT^[29]是一种基于Transformer架构的经典视觉处理模型. 文本模态情感分析模型中，TextualSent^[27]是在带有LSTM单元的BiRNN基础上建立的逻辑回归模型；BERT^[30]使用双向的Transformer编码器捕捉文本的上下文信息.

2）多模态融合分类对比方法. EarlySent^[27]是一种采用经典早期特征融合策略方法，整合了VGG-16和BiRNN分别提取的图像和文本特征，并将联合表征输入逻辑回归模型进行情感分类. LateSent^[27]采用经典晚期决策融合策略方法，综合并平均VisualSent^[27]和TextualSent^[27]分别对图像和文本的预测结果，生成最终预测的情感标签. TFN^[10]采用了张量融合层，将图片和文本特征结合起来进行情感分类. VistaNet^[11]应用图像方面注意力来模拟编码后的图像和文本特征之间的相互作用. ALBEF^[20]，BLIP^[31]为图文预训练大模型. ITIN^[32]利用图文交互网络探究情感图像区域和文本关联关系，利用自适应跨模态门控实现多模态融合表示，而MDSE^[33]采用模态无关对比学习方法建立统一的多模态融合表示，是具有先进性能的多模态情感表示方法.

3）多模态领域自适应对比方法. MMAN^[18]采用堆叠注意力模块获取多模态表征，并通过对抗训练减少领域偏移. MDANN^[17]由多模态注意力、融合模块和混合域约束组成，通过对抗学习来提取领域不变特征. DACAN^[15]构建领域对抗模块和类别对齐模块，从全局和局部2方面对齐领域分布，为了适应多模态图文分类任务，本文中使用ALBEF^[20]作为DACAN^[15]的骨干模型. DiSRAN^[27]采用模态交叉注意力计算图文联合表示基础上，利用解耦去除领域风格，并通过对抗训练获得领域不变特征.

3.3 实施细节

实验中本文所提出的基于元优化的领域不变及领域特定特征解耦网络MDISN采用增加情感适配的预训练大模型ALBEF^[20]分别作为特征提取模块的骨干模型.

训练初始阶段，使用Xavier初始化对模型中的权重进行初始化. 训练期间采用AdamW优化器，元学习率 $\alpha$ 设置为 $2\times {10}^{-3}$ ，是学习率 $\eta$ 的10倍. 损失函数中的超参数设置情况为 ${\lambda }_{\mathrm{D}}=10.0$ ， ${\lambda }_{\mathrm{I}}=1.0$ ， ${\lambda }_{\mathrm{S}}=1.0$ .

所提出的框架使用PyTorch实现，并在NVIDIA TITAN RTX显卡上进行训练和测试.

3.4 评价指标

在实验中，使用精确率、召回率和F1值来评估模型性能，并为这3项指标计算宏观平均值. 考虑到数据集存在标签空间不平衡的影响，未利用准确率作为性能评估指标.

这里采用 $T$ 和 $F$ 分别表示正确和错误， $P$ 和 $N$ 分别表示正例和负例，评价指标分别定义如下：

精确率反映了预测为正例的样本中预测正确的样本的比例. 精确率的计算如式（9）所示：

$Pre=TP/(TP+FP) .$

(9)

召回率反映了正例样本中预测正确的样本数所占的比例. 召回率的计算如式（10）所示：

$Rec=TP/(TP+FN) .$

(10)

F1值是精确率和召回率的调和平均数，其取值范围为[0,1]. F1值越接近于1，分类模型的预测性能越好. F1值的计算如式（11）所示：

$F1=(2\times Pre\times Rec)/(Pre+Rec) .$

(11)

3.5 对比实验及结果分析

表1给出了本文所提出方法MDISN和对比方法在无监督跨领域情感分类任务中的实验结果. 实验中，为了进一步验证本文所提出基于元优化的领域不变及领域特定特征解耦方法的有效性，将多模态特征解码器替换为预训练大模型BLIP^[31]、先进图文融合模型MDSE^[33]和ITIN^[32]进行了改进，记为MDISN-A，MDISN-B，MDISN-C.

表 1 在多模态跨域情感分类任务中的对比实验

Table 1. Comparative Experiments for the Multimodal Cross-Domain Sentiment Classification Tasks %

方法	多模态跨域情感分类任务
	MVSA→Yelp			Yelp→MVSA
	Pre	Rec	F1	Pre	Rec	F1
VisualSent^[27]	22.1	33.2	25.8	21.3	31.1	22.2
TextualSent^[27]	27.8	41.5	32.4	22.1	34.2	24.8
ViT^[29]	35.4	34.7	28.4	22.6	33.3	26.9
BERT^[30]	38.2	40.3	32.7	28.2	37.2	27.0
EearlySent^[27]	13.2	33.3	16.8	19.1	34.1	18.9
LateSent^[27]	26.2	36.1	27.6	20.3	33.1	24.5
TFN^[10,27]	33.0	33.1	31.1	32.2	31.6	16.4
VistaNet^[11,27]	40.3	41.3	33.1	40.4	40.3	35.1
ALBEF^[20]	40.8	42.1	35.0	41.1	41.7	35.4
BLIP^[31]	57.9	41.2	25.4	55.1	43.4	45.2
ITIN^[32]	47.5	39.6	31.3	−	−	−
MDSE^[33]	56.6	40.5	26.2	61.8	45.7	48.7
MMAN^[18,27]	42.9	45.3	40.1	43.1	41.4	36.0
MDANN^[17,27]	46.9	46.3	43.9	40.1	40.3	36.9
DACAN^[15]	51.7	47.7	44.6	43.7	44.5	39.6
DiSRAN^[27]	53.8	51.0	49.2	46.7	45.6	42.4
MDISN（本文）	54.0	50.4	47.4	46.7	44.9	41.7
MDISN-A（本文）	51.5	42.0	30.2	56.2	50.6	50.5
MDISN-B（本文）	41.4	40.0	26.0	55.1	65.8	58.4
MDISN-C（本文）	51.7	53.1	45.8	−	−	−

下载: 导出CSV

| 显示表格

对于多模态领域自适应方法，即本文的MDISN及改进MDISN，DACAN^[15]，遵循无监督领域自适应的惯例，使用有标签源域数据和无标签目标域数据进行训练，目标域训练集和测试集的没有交集. 对于其他方法，包括单模态方法，即ViT^[29]，BERT^[30]；多模态融合方法，即ALBEF^[20]，BLIP^[31]，MDSE^[33]，在源域应用标准的有监督训练，然后将学习到的模型直接用到目标域进行测试. ITIN^[32]为论文提供的在MVSA数据集训练和的开源测试代码，直接用于目标域进行测试. 多模态领域自适应方法DiSRAN^[27]的结果为文献发表结果. 表中对比方法VisualSent^[27]，TextualSent^[27]，EearlySent^[27]，LateSent^[27]，TFN^[10]，VistaNet^[11]，MDANN^[17]，MMAN^[18]的结果来自文献[27].

表1可以观察到，所提出的MDISN模型及改进模型在MVSA→Yelp和Yelp→MVSA这2个跨域多模态情感分析任务上均取得了相较对比方法具有竞争性的指标值，证明了MDISN在多模态跨领域情感分类任务上的优越性能. 对表1实验结果的详细讨论与分析如下.

对于单模态深度分类方法，由于Transformer编码器可以通过自注意力机制捕获上下文依赖关系，有利于图像和文本的全局语义理解，因而ViT^[29]模型和BERT^[30]模型的性能优于VisualSent^[27]模型和TextualSent^[27]模型. 对于多模态融合分类方法，可以发现EearlySent^[27]方法和LateSent^[27]方法在目标域上的精确率甚至不如单模态方法. 这一观察结果表明仅将多模态特征简单拼接会由于模态间存在不一致性与领域差异混叠，导致有噪迁移，加剧情感极性分类性能的退化. 而TFN^[10]，VistaNet^[11]，ALBEF ^[20]，BLIP^[31]，ITIN^[32]，MDSE^[33]模型通过跨模态对齐融合多模态特征，有利于文本模态与图像模态间的互补信息的利用，其中图文大模型ALBEF^[20]和BLIP^[31]在多个公共数据集进行预训练，具备了多模态对齐融合先验知识；ITIN^[32]和MDSE^[33] 采用了克服模态异质性影响等先进学习方法，在单领域上具有相对更佳的多模态融合性能，在直接跨域应用仍获得了非常优秀的分类性能.

在多模态领域自适应方法中，无标签的目标域数据也参与训练，从而极大提高了自适应性能. DACAN^[14]在利用对抗学习对齐全局分布的同时，通过类别加权方式对齐了类别相关的细粒度领域特定信息，从而获得了比MDANN^[17]和MMAN^[18]更好的迁移性能. 同时，不同于DACAN^[15]隐式对齐领域特定信息的方式，本文提出的MDISN利用元优化训练策略显式地将情感特征解耦为领域不变特征和领域特定特征，通过利用领域特定信息，促进目标领域的情感分类性能，并取得了更优的自适应性能. 从利用多模态融合先进方法及预训练大模型的直接跨域结果，与本文所提出的方法采用了领域适应策略的实验结果进行对比可以发现，本文MDISN在MVSA上训练，跨域应用到Yelp上，召回率和F1值更高，改进MDISN-C相较原多模态图文融合模型直接跨域3项指标更高，且取得了最高召回率. 改进MDISN-A和MDISN-B在Yelp上训练，跨域应用到MVSA上，3项指标略低于最高的次优性能. 该结果验证了相对跨域直接应用，本文所提域适应方法有助于克服领域偏差的影响. 进一步分析本文提出3种模型，MDISN加入情感适配，有助于融合特征适应源域多模态融合特征学习，后续可以在改进MDISN-A和MDISN-B加入情感适配进一步优化训练，提升跨域迁移的多模态情感分类整体性能.

与主流先进方法DiSRAN^[27]相比，融合领域特定特征与领域不变特征，采用有标注训练样本规模接近的MVSA数据集上训练，在Yelp上的识别性能精度更高；在Yelp到MVSA的领域适应情感识别任务上，本文所提方法MDISN在Yelp上有标注训练样本数更少，且由于Yelp数据对关联性弱，领域不变特征表征学习难的条件下，MDISN仍取得了相同的情感分类精度，改进MDISN-A和MDISN-B的3项评价指标都远高于DiSRAN^[27]. 这里DiSRAN^[27]在Yelp数据集的有标注样本为积极、中性和消极各21 261个，而本文的Yelp数据集上仅部分样本，数目如4.1节所列，根据参与训练的标注样本数为80%计算，积极、中性和消极分别为14 178个、7 089个和14 178个，本文只使用了Yelp数据集约70%数据量. 与先进的多模态情感融合方法MDSE^[33]相比，在其上加入本文提出的域适应网络后，改进的MDISN-B在召回率和F1值取得了10%左右提升. 究其原因，与DiSRAN^[27]采用领域风格解耦，在统一框架下提升领域不变特征学习相比，本文利用元优化策略学习结合解耦思路，更有助于目标域类可判别领域特定特征，融合跨域迁移的领域不变特征，对目标域具有更好的领域适应性. 因而，在图文融合领域适应情感极性识别实验取得了具有竞争力的结果. 后续可考虑采用数据增强方法和样本均衡策略，克服数据规模局限性，在保证预测精度下，进一步提高总体分类性能.

3.6 同域对比实验及结果分析

表2给出了本文所提出方法MDISN在同域，即无跨域性能对比实验结果. 实验在MVSA和Yelp这2个独立数据集上（无跨域）分别进行了全监督训练和测试，训练和测试样本来自同一个数据集，按照3.1节比例划分.

表 2 在同域上情感分类性能实验 %

Table 2. Sentiment Classification Performance Experiment on the Same Domain

方法	数据集
	MVSA			Yelp
	Pre	Rec	F1	Pre	Rec	F1
EearlySent^[27]	40.1	38.3	36.4	39.7	36.1	32.4
LateSent^[27]	40.7	42.8	32.7	41.6	41.5	39.5
TFN^[10,27]	43.3	45.1	41.7	45.6	44.8	43.9
VistaNet^[11,27]	41.7	48.5	37.6	62.2	62.9	61.5
DiSRAN^[27]	47.6	53.2	46.6	69.8	69.9	69.1
MDSE^[33]	66.8	69.1	67.6	76.7	77.5	77.0
ALBEF^[20]	65.3	69.8	65.2	56.5	59.0	54.1
BLIP^[31]	65.8	58.6	61.1	47.9	35.4	34.3
MDISN（本文）	66.3	70.1	66.4	57.8	60.0	55.7
MDISN-A（本文）	63.8	68.5	64.4	45.7	43.1	43.9

下载: 导出CSV

| 显示表格

同域性能分析实验中，对比了本文方法MDISN（即ALBEF^[20]+情感适配为骨干），MDISN-A（即BLIP^[31]为骨干）与多模态融合基准和SOTA方法TFN^[10]，VistaNet^[11]，DiSRAN^[27]，MDSE^[33]，基准方法ALBEF^[20]，其中EearlySent^[27]，LateSent^[27]，TFN^[10]，VistaNet^[11]，DiSRAN^[27]为文献[27]发表结果；MDSE^[33]，ALBEF^[20]和本文方法为实验结果. 本文方法是去除了域解耦处理，仅保留分类损失进行模型学习，训练中预训练大模型骨干的参数冻结，只训练其余参数.

在同域上的实验结果表明，本文所提方法在同域的多模态情感分类任务上，能够取得具有竞争力的性能. 与基准ALBEF^[20]相比，在MVSA数据集上，ALBEF^[20]情感适配器模型的F1值达到了66.4%，相较于基础ALBEF^[20]模型的65.2%有所提升；在Yelp数据集上，F1值提升至55.7%，相较于基础模型的54.1%也有提升.

对比VistaNet^[11]，DiSRAN^[27]，MDSE^[33]模型，在MVSA数据集上，本文方法取得了最优和次优结果，特别是加上适配微调，证明了利用了预训练大模型的知识，在下游任务具有很好的适应性. 但在YELP数据集上的分类性能略低. 剖析原因，相对MVSA数据图文对情感针对同一对象或场景，其情感语义关联性强，Yelp数据集的图文对数据关于特定主题的餐厅评价数据，其情感语义关联性弱，因此，与采用了先进的图文对齐融合方法相比，仅利用预训练大模型构建的多模态融合特征编码器下，虽然未达到最优，但其同域情感性能具有竞争力.

考虑到本文的元优化领域不变和领域特有解耦方法更多面向目标域任务，进一步结合跨域实验，对本文所提方法有效性进行了深入分析. 结合表1中单域训练直接跨域的实验结果，可以发现在MVSA数据集上，单域的3项指标远高于无域适应跨域Yelp→MVSA的结果. Yelp数据集与MVSA→Yelp的结果也如此. 引入了本文所提出的MDISN模型，即通过在情感适配的ALBEF^[20]的基础上加入领域特征解耦模块，实验结果表明MDISN在跨域任务中的F1值分别提升至47.4%（MVSA→Yelp）和41.7%（Yelp→MVSA）显著优于无域适应的跨域ALBEF^[20]模型. 对比表1和表2中本文利用BLIP^[31]作为图文融合解码器的同域结果，和跨域BLIP^[31]模型及所提出的MDISN-A模型的实验结果可以发现，相较其他方法在同域性能更高，在Yelp上BLIP^[31]同域的指标反而低于跨域的结果，以F1值为例，同域为43.9%，直接跨域45.2%，而本文提出的MDISN-A模型为50.5%. 究其原因，Yelp数据集中的图文对数据关联性较弱，导致BLIP^[31]在学习领域不变特征时表现出较低的表征能力，这在同域情感分类任务中成为限制因素. 与之相比，本文提出的域特定特征元训练解耦方法，提取了具有更高质量图文对的数据的目标域领域特定特征，克服了BLIP^[31]在领域不变特征学习中的局限性，如Yelp→MVSA跨域任务中，在源域Yelp图文对数据关联性较弱的情况下，联合所提取的目标域MVSA的领域特定特征，在跨域自适应的情感性能取得了最优结果.

总之，实验表明跨域域适应学习仍是解决无标注目标域情感分类的有效方法. 通过同域与跨域性能分析实验，验证了本文利用预训练大模型在同域任务中的有效性，证明了本文所提方法提升了模型跨域应用有效性.

3.7 消融实验

为验证所提出MDISN方法中各模块和策略的有效性，对未采用相应模块的网络进行消融实验，结果如表3所示. 其中，MDISN_SA-代表从MDISN中去除情感适配器；MDISN_DI-代表只学习领域特定特征、从MDISN中去除领域不变编码器和领域判别器；MDISN_DS-代表只学习领域不变特征、从MDISN中去除领域特定编码器和领域分类器；MDISN_MO-代表在MDISN未采用元优化训练.

表 3 MDISN在跨域情感分类任务上的消融实验

Table 3. Ablation Study on MDISN for Cross-Domain Sentiment Classification Tasks %

方法	多模态跨域情感分类任务
	MVSA→Yelp			Yelp→MVSA
	Pre	Rec	F1	Pre	Rec	F1
MDISN_SA-	51.4	49.1	46.7	39.7	44.7	39.3
MDISN_DI-	52.6	44.7	40.1	44.6	38.0	31.9
MDISN_DS-	50.4	47.9	44.7	40.5	40.4	36.5
MDISN_MO-	52.0	47.2	42.8	41.0	44.0	37.0
MDISN（本文）	54.0	50.4	47.4	46.7	44.9	41.7

下载: 导出CSV

| 显示表格

从表3的实验结果可以看出，与MDISN_SA-和MDISN_MO-相比，加入情感适配器及任务无关元学习的MDISN性能更优，证明了情感适配器和元优化训练策略在进行跨领域情感分类时发挥了不可或缺的作用，增强了网络对多模态情感特征的表征能力，并在特征解耦任务与情感分类任务的协同优化下，保证了总体优化目标. 此外，无论是在MVSA→Yelp迁移任务还是Yelp→MVSA迁移任务上，MDISN_DI-均获得了最低的F1值，这表明领域不变特征的提取对自适应性能的提升起到了重要的作用. 而相较于MDISN，仅采用领域特定特征的MDISN_DI-和领域共有特征的MDISN_DS-的多模态情感分类性能均有不同程度的降低，证明了同时利用领域不变特征与领域特定特征有助于提升跨领域自适应情感分类性能.

3.8 情感适配器方案确定实验

为探讨情感适配器在基于ALBEF^[20]的特征提取模型中采用不同插入位置和不同参数时的调优性能，确定适配器嵌入调优方案，仍采用参数量、精确率、召回率和F1值作为性能指标，使用完全相同的训练配置进行对比分析实验.

ALBEF^[20]的图像编码器使用ViT-B/16进行初始化，文本编码器则使用BERT_base模型的前6层进行初始化，而多模态编码器使用BERT_base模型的最后6层进行初始化. 针对该设计，表4对比了4种嵌入调优方法，其中Fine-tune表示对MDISN的特征提取模块的骨干网络（即ALBEF^[20]图文特征提取模型）进行全量微调；SenA-T#L表示只在ALBEF^[20]低层，也即ViT前6层与BERT的编码器部分的Transformer块插入情感适配器，并冻结其余部分；类似地，SenA-T#H表示只在ALBEF^[20]高层，也即ViT后6层与多模态融合特征模块部分的Transformer块插入情感适配器，并冻结其余部分；SenA-T表示在所有Transformer块的所有层插入情感适配器. 表4中，加粗的值表示每列评价指标的最高值，有下划线的值表示每列的次高值.

表 4 4种调优方法在跨域情感分类任务上的实验对比

Table 4. Comparative Experiments of Four Optimization Methods for Cross-Domain Sentiment Classification Tasks

方法	参数量/M	多模态跨域情感分类任务
		MVSA→Yelp			Yelp→MVSA
		Pre/%	Rec/%	F1/%	Pre/%	Rec/%	F1/%
Fine-tune	196.57	53.6	50.1	47.1	47.5	45.6	42.1
SenA-T#L	1.26	52.0	49.2	45.4	44.4	42.5	40.3
SenA-T#H	1.26	53.4	50.1	46.9	45.9	43.8	41.1
SenA-T	2.52	54.0	50.4	47.4	46.7	44.9	41.7

下载: 导出CSV

| 显示表格

在对比情感适配器在基于ALBEF^[20]的特征提取模型的不同插入位置的分类性能后，可以发现SenA-T的性能最好，SenA-T#H次之，SenA-T#L最差. 这一观察结果表明，特征提取器较低层表征通用特征，在数据集之间相似度差异较小的情况下，仅训练部分低层Transformer块对于下游任务的适应效果提升不大；而较高层表征特定特征，与下游情感数据的分类直接相关，因此具有较高的训练价值. 对ALBEF^[20]模型的所有层均插入情感适配器进行调优可以在较低的计算资源消耗的基础上，兼顾通用表征特征和类判别特征，促进域不变迁移学习和域特有特征挖掘，从而获得下游分类任务的性能提升.

从表4的实验结果还可以发现全量微调Fine-tune的调优方法在MVSA→Yelp迁移任务上的性能甚至不如SenA-T. 其原因在于由于MVSA数据集规模相对较小，且类别不平衡问题严重，在需要训练大规模参数的条件下，模型容易拟合到具有高占比的积极类别中，从而导致总体性能不佳. 这也进一步证明了利用适配器调优的SenA-Transformer块可以在少量目标域数据下可获得使目标任务判别性能更优的特征表示.

4. 结　　论

利用预训练图文大模型对图文跨模态数据的优秀表征性能，本文首先以图文预训练大模型为基础，利用情感适配器获得良好跨模态情感融合特征. 在此基础上，重点针对跨领域情感分类任务，研究基于解耦的特征提取网络，在提取领域不变特征的同时提取并利用领域特定特征. 为应对特征解耦任务与情感分类任务的优化不一致问题，提出利用任务无关元训练策略，实现特征解耦与情感分类网络的元优化域适应迁移学习.

所提出的基于元优化特征解耦的跨领域情感分析方法面向多模态图文情感数据，利用情感适配Transformer块改进预训练大模型，避免了同时进行跨模态对齐与域偏移去除学习带来的复杂性，在少量训练数据下实现下游情感多模态特征提取. 进一步地，将多模态融合情感特征显式解耦为有助于跨领域迁移的领域不变特征和有助于情感分类的领域特定特征，并采用协同特征解耦和情感分类的任务无关元优化策略，实现跨领域知识迁移的性能提升. 于MVSA和Yelp这2个图文情感数据集上构建的双向迁移任务上进行的实验表明，所提出的模型在精确率、召回率和F1值上均获得了有竞争力的性能，证明了所提出模型的有效性. 消融实验分析进一步说明，情感表达依赖于特定领域，同时利用领域对抗所提取的领域不变特征和领域分类引导的领域特定特征使模型理解和提取更具判别性的该领域的情感分类特征，提高无标注目标域的多模态情感分析性能.

此外，所提出的元优化域适应学习方法亦可应用于其他的多模态跨域任务，特别是目标域特征空间与源域存在更大属性差异、领域不变特征对目标域任务表征能力有限下的任务场景. 为此，在下一步工作中，从提升多模态融合性能、利用数据增强等角度加强多模态特征表征能力，并在其他多模态任务开展元优化域适应方法研究.

作者贡献声明：贾熹滨指导算法研发和论文组织；李宸提出算法完成实验并撰写论文；王珞参与算法研讨并论文修订；张沐晨参与完成实验并修改论文；刘潇健对算法优化提供建议并参与论文修订；张旸旸提出论文修改建议；温家凯对算法优化提供建议.

图 1 基于元优化的领域不变及领域特定特征解耦网络框架

Figure 1. Meta-optimization-based framework for domain-invariant and domain-specific feature decoupling networks

下载: 全尺寸图片幻灯片

图 2 SenA-Transformer块

Figure 2. SenA-Transformer block

下载: 全尺寸图片幻灯片

图 3 特征解耦任务和情感分类任务的交互优化训练过程

Figure 3. Interactive optimization training process for feature decoupling task and sentiment classification task

下载: 全尺寸图片幻灯片

表 1 在多模态跨域情感分类任务中的对比实验

Table 1 Comparative Experiments for the Multimodal Cross-Domain Sentiment Classification Tasks %

方法	多模态跨域情感分类任务
	MVSA→Yelp			Yelp→MVSA
	Pre	Rec	F1	Pre	Rec	F1
VisualSent^[27]	22.1	33.2	25.8	21.3	31.1	22.2
TextualSent^[27]	27.8	41.5	32.4	22.1	34.2	24.8
ViT^[29]	35.4	34.7	28.4	22.6	33.3	26.9
BERT^[30]	38.2	40.3	32.7	28.2	37.2	27.0
EearlySent^[27]	13.2	33.3	16.8	19.1	34.1	18.9
LateSent^[27]	26.2	36.1	27.6	20.3	33.1	24.5
TFN^[10,27]	33.0	33.1	31.1	32.2	31.6	16.4
VistaNet^[11,27]	40.3	41.3	33.1	40.4	40.3	35.1
ALBEF^[20]	40.8	42.1	35.0	41.1	41.7	35.4
BLIP^[31]	57.9	41.2	25.4	55.1	43.4	45.2
ITIN^[32]	47.5	39.6	31.3	−	−	−
MDSE^[33]	56.6	40.5	26.2	61.8	45.7	48.7
MMAN^[18,27]	42.9	45.3	40.1	43.1	41.4	36.0
MDANN^[17,27]	46.9	46.3	43.9	40.1	40.3	36.9
DACAN^[15]	51.7	47.7	44.6	43.7	44.5	39.6
DiSRAN^[27]	53.8	51.0	49.2	46.7	45.6	42.4
MDISN（本文）	54.0	50.4	47.4	46.7	44.9	41.7
MDISN-A（本文）	51.5	42.0	30.2	56.2	50.6	50.5
MDISN-B（本文）	41.4	40.0	26.0	55.1	65.8	58.4
MDISN-C（本文）	51.7	53.1	45.8	−	−	−

下载: 导出CSV

表 2 在同域上情感分类性能实验 %

Table 2 Sentiment Classification Performance Experiment on the Same Domain

方法	数据集
	MVSA			Yelp
	Pre	Rec	F1	Pre	Rec	F1
EearlySent^[27]	40.1	38.3	36.4	39.7	36.1	32.4
LateSent^[27]	40.7	42.8	32.7	41.6	41.5	39.5
TFN^[10,27]	43.3	45.1	41.7	45.6	44.8	43.9
VistaNet^[11,27]	41.7	48.5	37.6	62.2	62.9	61.5
DiSRAN^[27]	47.6	53.2	46.6	69.8	69.9	69.1
MDSE^[33]	66.8	69.1	67.6	76.7	77.5	77.0
ALBEF^[20]	65.3	69.8	65.2	56.5	59.0	54.1
BLIP^[31]	65.8	58.6	61.1	47.9	35.4	34.3
MDISN（本文）	66.3	70.1	66.4	57.8	60.0	55.7
MDISN-A（本文）	63.8	68.5	64.4	45.7	43.1	43.9

下载: 导出CSV

表 3 MDISN在跨域情感分类任务上的消融实验

Table 3 Ablation Study on MDISN for Cross-Domain Sentiment Classification Tasks %

方法	多模态跨域情感分类任务
	MVSA→Yelp			Yelp→MVSA
	Pre	Rec	F1	Pre	Rec	F1
MDISN_SA-	51.4	49.1	46.7	39.7	44.7	39.3
MDISN_DI-	52.6	44.7	40.1	44.6	38.0	31.9
MDISN_DS-	50.4	47.9	44.7	40.5	40.4	36.5
MDISN_MO-	52.0	47.2	42.8	41.0	44.0	37.0
MDISN（本文）	54.0	50.4	47.4	46.7	44.9	41.7

下载: 导出CSV

表 4 4种调优方法在跨域情感分类任务上的实验对比

Table 4 Comparative Experiments of Four Optimization Methods for Cross-Domain Sentiment Classification Tasks

方法	参数量/M	多模态跨域情感分类任务
		MVSA→Yelp			Yelp→MVSA
		Pre/%	Rec/%	F1/%	Pre/%	Rec/%	F1/%
Fine-tune	196.57	53.6	50.1	47.1	47.5	45.6	42.1
SenA-T#L	1.26	52.0	49.2	45.4	44.4	42.5	40.3
SenA-T#H	1.26	53.4	50.1	46.9	45.9	43.8	41.1
SenA-T	2.52	54.0	50.4	47.4	46.7	44.9	41.7

下载: 导出CSV

参考文献(33)

[1]	Das R, Singh T D. Multimodal sentiment analysis: A survey of methods, trends, and challenges[J]. ACM Computing Surveys, 2023, 55(13s): 1−38
[2]	Chan J Y L, Bea K T, Leow S M H, et al. State of the art: A review of sentiment analysis based on sequential transfer learning[J]. Artificial Intelligence Review, 2023, 56(1): 749−780 doi: 10.1007/s10462-022-10183-8
[3]	Singhal P,Walambe R,Ramanna S,et al. Domain adaptation:Challenges,methods,datasets,and applications[J]. IEEE Access,2023,11:6973-7020(没有期
[4]	Azuma C, Ito T, Shimobaba T. Adversarial domain adaptation using contrastive learning[J]. Engineering Applications of Artificial Intelligence, 2023, 123: 106394 doi: 10.1016/j.engappai.2023.106394
[5]	Zhou Qianyu, Gu Qiqi, Pang Jiangmiao, et al. Self-adversarial disentangling for specific domain adaptation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(7): 8954−8968
[6]	Li Jingjing, Chen Erpeng, Ding Zhengming, et al. Maximum density divergence for domain adaptation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 43(11): 3918−3930
[7]	Zhu Yongchun, Zhuang Fuzhen, Wang Jindong, et al. Deep subdomain adaptation network for image classification[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 32(4): 1713−1722
[8]	Zhao Han, Des Combes R T, Zhang Kun, et al. On learning invariant representations for domain adaptation[C]//Proc of the 36th Int Conf on Machine Learning. New York: PMLR, 2019: 7523−7532
[9]	Johansson F D, Sontag D, Ranganath R. Support and invertibility in domain-invariant representations[C]//Proc of the 22nd Int Conf on Artificial Intelligence and Statistics. New York: PMLR, 2019: 527−536
[10]	Zadeh A, Chen Minghai, Poria S, et al. Tensor fusion network for multimodal sentiment analysis[C]//Proc of the 2017 Conf on Empirical Methods in Natural Language Processing. New York: PMLR, 2017: 1103−1114
[11]	Truong Q T, Lauw H W. Vistanet: Visual aspect attention network for multimodal sentiment analysis[C]//Proc of the 33rd Association for the Advancement of Artificial Intelligence. Palo Alto, CA: AAAI, 2019: 305−312
[12]	Gui Tao, Zhu Liang, Zhang Qi, et al. Cooperative multimodal approach to depression detection in twitter[C]//Proc of the 33rd Association for the Advancement of Artificial Intelligence. Palo Alto, CA: AAAI, 2019: 110−117
[13]	Ling Yan, Yu Jianfei, Xia Rui. Vision-language pre-Training for multimodal aspect-based sentiment analysis[C]//Proc of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2022: 2149−2159
[14]	Ganin Y, Ustinova E, Ajakan H, et al. Domain-adversarial training of neural networks[J]. Journal of Machine Learning Research, 2016, 17(59): 1−35
[15]	Jia Xibin, Li Chen, Zeng Meng, et al. An improved unified domain adversarial category-wise alignment network for unsupervised cross-domain sentiment classification[J]. Engineering Applications of Artificial Intelligence, 2023, 126: 107108 doi: 10.1016/j.engappai.2023.107108
[16]	黄学坚,马廷淮,王根生. 基于样本内外协同表示和自适应融合的多模态学习方法[J]. 计算机研究与发展,2024,61(5):1310−1324 doi: 10.7544/issn1000-1239.202330722 Huang Xuejian, Ma Tinghuai, Wang Gensheng. Multimodal Learning Method Based on Intra- and Inter-Sample Cooperative Representation and Adaptive Fusion[J]. Journal of Computer Research and Development, 2024, 61(5): 1310−1324 (in Chinese) doi: 10.7544/issn1000-1239.202330722
[17]	Qi Fan, Yang Xiaoshan, Xu Changsheng. A unified framework for multimodal domain adaptation[C]//Proc of the 26th ACM Int Conf on Multimedia. New York, NY: ACM, 2018: 429−437
[18]	Ma Xinhong, Zhang Tianzhu, Xu Changsheng. Deep multi-modality adversarial networks for unsupervised domain adaptation[J]. IEEE Transactions on Multimedia, 2019, 21(9): 2419−2431 doi: 10.1109/TMM.2019.2902100
[19]	Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 31st Int Conf on Neural Information Processing Systems. New York: ACM, 2017: 6000−6010
[20]	Li Junnan, Selvaraju R, Gotmare A, et al. Align before fuse: Vision and language representation learning with momentum distillation[J]. Advances in Neural Information Processing Systems, 2021, 34: 9694−9705
[21]	Chen Shoufa, Ge Chongjian, Tong Zhan, et al. Adaptformer: Adapting vision transformers for scalable visual recognition[J]. Advances in Neural Information Processing Systems, 2022, 35: 16664−16678
[22]	Li Ya, Tian Xinmei, Gong Mingming, et al. Deep domain generalization via conditional invariant adversarial networks[C]//Proc of the 2018 European Conf on Computer Vision(ECCV). Berlin: Springer, 2018: 624−639
[23]	Bui M H, Tran T, Tran A, et al. Exploiting domain-specific features to enhance domain generalization[J]. Advances in Neural Information Processing Systems, 2021, 34: 21189−21201
[24]	Wei Guoqiang, Lan Cuiling, Zeng Wenjun, et al. Metaalign: Coordinating domain alignment and classification for unsupervised domain adaptation[C]//Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition(CVPR). Piscataway, NJ: IEEE, 2021: 16643−16653
[25]	Niu Teng, Zhu Shiai, Pang Lei, et al. Sentiment analysis on multi-view social data[C]//Proc of the 22nd Int Conf on Multimedia Modeling. Berlin: Springer, 2016: 15−27
[26]	刘琦玮,李俊,顾蓓蓓,等. TSAIE:图像增强文本的多模态情感分析模型[J]. 数据与计算发展前沿,2022,4(3):131−140 Liu Qiwei, Li Jun, Gu Beibei, et al. TSAIE: Text sentiment analysis model based on image enhancement[J]. Frontiers of Data & Computing, 2022, 4(3): 131−140 (in Chinese)
[27]	Zhang Yuhao, Zhang Ying, Guo Wenya, et al. Learning disentangled representation for multimodal cross-domain sentiment analysis[J]. IEEE Transactions on Neural Networks and Learning Systems, 2022, 34(10): 7956−7966
[28]	Baltrušaitis T, Ahuja C, Morency L P. Multimodal machine learning: A survey and taxonomy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 41(2): 423−443
[29]	Dosovitskiy A. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint, arXiv: 2010.11929, 2020
[30]	Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint, arXiv: 1810.04805, 2018
[31]	Li Junnan, Li Dongxu, Xiong Caiming, et al. Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation[C]//Proc of the 39th Int Conf on Machine Learning. New York: PMLR, 2022: 12888−12900
[32]	Zhu Tong, Li Leida, Yang Jufeng, et al. Multimodal sentiment analysis with image-text interaction network[J]. IEEE Transactions on Multimedia, 2022, 25: 3375−3385
[33]	Li Jingzhe, Wang Chengji, Luo Zhiming, et al. Modality-dependent sentiments exploring for multi-modal sentiment classification[C]//Proc of the 2024 IEEE Int Conf on Acoustics, Speech and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2024: 7930−7934