Processing math: 9%
  • 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

一种面向指代短语理解的关系聚合网络

郭文雅, 张莹, 刘胜哲, 杨巨峰, 袁晓洁

郭文雅, 张莹, 刘胜哲, 杨巨峰, 袁晓洁. 一种面向指代短语理解的关系聚合网络[J]. 计算机研究与发展, 2023, 60(11): 2611-2623. DOI: 10.7544/issn1000-1239.202220019
引用本文: 郭文雅, 张莹, 刘胜哲, 杨巨峰, 袁晓洁. 一种面向指代短语理解的关系聚合网络[J]. 计算机研究与发展, 2023, 60(11): 2611-2623. DOI: 10.7544/issn1000-1239.202220019
Guo Wenya, Zhang Ying, Liu Shengzhe, Yang Jufeng, Yuan Xiaojie. Relationship Aggregation Network for Referring Expression Comprehension[J]. Journal of Computer Research and Development, 2023, 60(11): 2611-2623. DOI: 10.7544/issn1000-1239.202220019
Citation: Guo Wenya, Zhang Ying, Liu Shengzhe, Yang Jufeng, Yuan Xiaojie. Relationship Aggregation Network for Referring Expression Comprehension[J]. Journal of Computer Research and Development, 2023, 60(11): 2611-2623. DOI: 10.7544/issn1000-1239.202220019
郭文雅, 张莹, 刘胜哲, 杨巨峰, 袁晓洁. 一种面向指代短语理解的关系聚合网络[J]. 计算机研究与发展, 2023, 60(11): 2611-2623. CSTR: 32373.14.issn1000-1239.202220019
引用本文: 郭文雅, 张莹, 刘胜哲, 杨巨峰, 袁晓洁. 一种面向指代短语理解的关系聚合网络[J]. 计算机研究与发展, 2023, 60(11): 2611-2623. CSTR: 32373.14.issn1000-1239.202220019
Guo Wenya, Zhang Ying, Liu Shengzhe, Yang Jufeng, Yuan Xiaojie. Relationship Aggregation Network for Referring Expression Comprehension[J]. Journal of Computer Research and Development, 2023, 60(11): 2611-2623. CSTR: 32373.14.issn1000-1239.202220019
Citation: Guo Wenya, Zhang Ying, Liu Shengzhe, Yang Jufeng, Yuan Xiaojie. Relationship Aggregation Network for Referring Expression Comprehension[J]. Journal of Computer Research and Development, 2023, 60(11): 2611-2623. CSTR: 32373.14.issn1000-1239.202220019

一种面向指代短语理解的关系聚合网络

基金项目: 国家自然科学基金-联合基金(U1903128)
详细信息
    作者简介:

    郭文雅: 1994年生. 博士. 主要研究方向为多模态数据处理和情感分析

    张莹: 1986年生. 博士,教授,博士生导师. 主要研究方向为自然语言处理、情感分析、多模态数据分析

    刘胜哲: 1998年生. 硕士. 主要研究方向为弱监督视觉文本定位

    杨巨峰: 1980年生. 博士,教授,博士生导师. 主要研究方向为视觉情感计算、细粒度分类、医疗图像识别和图像检索

    袁晓洁: 1963年生. 博士,教授,博士生导师. 主要研究方向为大数据分析、数据挖掘和数据库技术

    通讯作者:

    张莹(yingzhang@nankai.edu.cn

  • 中图分类号: TP391

Relationship Aggregation Network for Referring Expression Comprehension

Funds: This work was supported by the National Natural Science Foundation of China-Joint Fund (U1903128).
More Information
    Author Bio:

    Guo Wenya: born in 1994. PhD. Her main research interests include multimodal data processing and sentiment analysis

    Zhang Ying: born in 1986. PhD, professor, PhD supervisor. Her main research interests include natural language processing, sentiment analysis, and multimodal data analysis

    Liu Shengzhe: born in 1998. Master. His main research interest includes weakly supervised visual grounding

    Yang Jufeng: born in 1980. PhD, professor, PhD supervisor. His main research interests include visual sentiment analysis, fine-grained classification, medical image recognition, and image retrieval

    Yuan Xiaojie: born in 1963. PhD, professor, PhD supervisor. Her main research interests include big data analysis, data mining, and database technology

  • 摘要:

    指代短语理解(referring expression comprehension,REC)任务的目的是定位输入短语所指代的图像区域,其中最主要的挑战之一是在图像中建立和定位由输入短语描述的物体之间的关系. 现有的主流方法之一是根据物体本身的特性以及与其他物体的关系对当前物体进行打分,将得分最高的物体作为预测的被指代区域. 然而,这类方法往往只考虑物体与其周围环境之间的关系,而忽略了输入短语中所描述的周围环境之间的交互关系,这大大影响了对物体间关系的建模. 为了解决这一问题,提出了关系聚合网络(relationship aggregation network,RAN)来构建物体之间的关系,进而预测输入短语所指代的内容. 具体来说,利用图注意力网络建模图像物体之间完备的关系;然后利用跨模态注意力方法选择与输入短语最相关的关系进行聚合;最后,计算目标区域与输入短语之间的匹配分数. 除此之外,对指代短语理解中的擦除方法进行了改进,通过自适应扩充擦除范围的方式促使模型利用更多的线索来定位正确的区域. 在3个广泛使用的基准数据集上进行了大量的实验,结果证明了所提出方法的优越性.

    Abstract:

    In this paper, we focus on the task of referring expression comprehension (REC), which aims to locate the corresponding regions in images referred by expressions. One of the main challenges is to visually ground the object relationships described by the input expressions. The existing mainstream methods mainly score objects based on their visual attributes and the relationships with other objects, and the object with the highest score is predicted as the referred region. However, these methods tend to only consider the relationships between the current evaluated region and its surroundings, but ignore the informative interactions among the multiple surrounding regions, which are important for matching the input expressions and visual content in image. To address this issue, we propose a relationship aggregation network (RAN) to construct comprehensive relationships and then aggregate them to predict the referred region. Specifically, we construct both the two kinds of aforementioned relationships based on graph attention networks. Then, the relationships most relevant to the input expression are selected and aggregated with a cross-modality attention mechanism. Finally, we compute the matching scores according to the aggregated features, based on which we predict the referred regions. Additionally, we improve the existing erase strategies in REC by erasing some continuous words to encourage the model find and use more clues. Extensive experiments on three widely-used benchmark datasets demonstrate the superiority of the proposed method.

  • 神经认知学研究表明人类在视听信息感知的时候具有将人脸和语音进行关联的能力. 例如,当人们在跟朋友打电话时,虽然只能听见对方的声音,但是脑海中会下意识地构建出他们的样貌特征,以及当看到好友的照片时,能瞬间回忆起对方熟悉的声音. 心理学研究将人类这种跨人脸-语音的交互能力称为“麦格克效应”[1],其表明人在跟外界交谈时,能够在人脸信息和语音信息之间进行交互关联. 同时,大量神经科学研究表明,人类的大脑存在着多个模块感知区域[2],这些区域之间通过脑神经连接来并行处理信息,其中视觉模块跟听觉模块的神经连接通路更为紧密. 基于此,人们可以较好地对人脸与语音进行跨模态感知,例如当人们在观看有声电视节目时,能以较高的准确率从当前说话人声音中匹配出正确的人物身份. 在跨模态生物特征感知方面,人脸信息跟语音信息都能有效地作为刻画人物特定语义的特征载体,比如说身份、性别、年龄、种族和国籍等,这些反映特定语义的生物特征信息可以隐式地从人脸或语音信息中进行提取,从而基于人脸和语音的跨模态交互关联研究具有一定的可行性.

    上述现象表明,人脸信息与语音信息之间存在显著的关联特性. 因此,有效的人脸-语音相关性挖掘和跨模态匹配研究能够促进认知科学和人工智能技术创新实践的发展,具有重要的现实意义. 受此启发,越来越多的研究者认识到探索人脸-语音关联的研究已迫在眉睫. 该研究有广阔的应用前景,例如基于语音视频的说话人身份标注、视频人脸及语音信息时态同步和基于声音的人脸面部特征还原等[3-5]. 从国内外研究进展分析,目前的跨人脸-语音模态的研究还依然处于起步阶段[6],大量人脸-语音关联语义的研究等待着人们去探索.

    跨人脸-语音模态关联性学习方法的研究作为一项新颖的课题,存在着许多具有挑战性的任务. 一些方法[7]虽然也对人脸-语音进行了关联性学习,但在跨模态匹配任务的表现中只取得了比随机概率略好的性能表现. 根据现有的人脸-语音关联学习方法,目前跨人脸-语音模态的研究依然面临着3个主要挑战:1) 样本复杂性,人脸样本和语音样本分别通过不同的传感器获取,它们的特征属性及数据类型完全不同,因此无法直接进行人脸-语音特征间的交互关联,从而导致语义表征间存在着巨大的语义鸿沟. 2) 监督信息匮乏,基于有限的标签信息去监督人脸-语音特征,挖掘出的跨模态特征表示过度依赖于人为监督,导致获取的跨模态连接并不可靠,从而无法得到模态间紧密的语义关联. 同时基于有监督的标签生成需要人工的手动注释,其过程繁琐且成本高昂. 3) 语义关联不足,现有的大多数人脸-语音跨模态关联方法只是利用损失函数进行简单的特征关联,其从本质上忽略了人脸-语音模态间潜在语义的关联特性,且无法满足实际应用的需求.

    针对上述挑战,设计一种可以利用潜在语义促进跨人脸-语音模态关联性学习的方法尤为重要. 值得注意的是,自监督学习旨在通过对原始数据特征中潜在语义的挖掘生成伪标签进而监督整体特征学习,这种从数据本身出发学习特征表示的方法为跨模态关联学习提供了借鉴意义.

    基于自监督学习对潜在语义挖掘的思想,本文提出了一种基于双向伪标签自监督学习的跨人脸-语音匹配方法(cross face-voice matching method via bi-pseudo label based self-supervised learning, Bi-Pcm),用于跨模态下的人脸-语音关联与匹配. 具体来说,首先,设计了一个跨模态加权残差网络(cross-modal weighted residual network, CMWR)模块,在解决人脸-语音特征异构性的同时,学习到模态间的共享嵌入特征. 接着引入自监督学习模块,通过人脸和语音特征间的潜在语义生成伪标签,实现跨模态下的双向监督,进而获取潜在语义关联. 然后,本文对2种模态下生成的伪标签构建关联损失,约束伪标签生成,从而获取基于潜在语义生成的强跨模态嵌入. 最后,通过本文方法获取的跨模态表示将在所有人脸-语音跨模态匹配任务上进行测评. 本文的主要贡献包括4点:

    1) 提出了一种新颖的基于双向伪标签自监督学习的方法用于获取人脸-语音间的跨模态关联. 据文献[6-7]所知,本文提出的方法是利用伪标签来促进跨人脸-语音模态下的关联性学习.

    2) 设计了一种高效的伪标签生成方法,旨在利用特征空间的关联促进潜在语义对齐,增强相同人脸-语音特征相关性,并扩大不相关人脸-语音之间的特征差异,从而生成高质量伪标签进行监督约束.

    3) 创新性地提出了一种基于自监督跨模态学习框架来获取人脸-语音间的共享特征嵌入,并通过一种模态的伪标签语义作为监督信号来监督另一种模态的特征学习,从而高效地进行跨模态语义关联.

    4) 大量实验结果表明,本文方法相比较于现有的跨人脸-语音匹配工作,可扩展性更强,并在多个跨人脸-语音模态匹配任务上都取得了全面的提升.

    人类面部视觉及语音信息是人机交互过程中最为直接和灵活的方式,因此基于人脸和语音的跨模态感知吸引了研究学者的广泛关注. 从生物特征角度来看,来自相同身份的人脸和语音数据,对应着许多相似的语义特征,例如性别、种族还有年龄[8],因此人脸和语音具有表征相同身份的语义关联信息. 目前基于人脸-语音关联特征的方法主要分为2类: 基于分类损失和基于空间距离度量. 基于分类损失的代表方法是SVHF[9](seeing voices and hearing faces: cross-modal biometric matching),它利用卷积神经网络(convolutional neural network, CNN)架构学习人脸-语音间的关联表示,进而解决跨模态匹配任务. 基于空间距离度量的代表方法是PINs[10](learnable pins: cross-modal embeddings for person identity),该方法通过获取人脸图片和语音片段构建正负例人脸-语音样本对,然后构造个人身份节点,利用对比损失最小化正例样本的空间距离来学习人脸-语音间的嵌入特征. 上述2种方法在一些具有挑战性的实验中,可以达到与人类相当的水平,但是却拥有局限性,即它们所学习出来的特征只能运用于特定的跨模态匹配任务上,当任务更改时网络也需要重新训练.

    随着跨人脸-语音模态关联研究的发展,设计能用于多个跨模态匹配任务的通用特征表示引起注意. 在FV-CME[11](face-voice matching using cross-modal embeddings)中首先利用2个分支网络来分别学习人脸和语音模态下的特征表示,并利用N对损失来规范特征对应. 这种方法虽然可以运用于多种人脸-语音的跨模态匹配任务,但需要大量的参数用于模型的优化. LAFV[12](on learning associations of faces and voices)利用对人脸-语音公共信息的整合,学习交叉模态下的特征关联,从而减少跨模态差异,且可以达到与文献[7,13]中方法相似的结果. DIMNet[5](disjoint mapping network for cross-modal matching of voices and faces)使用不相交映射网络(disjoint mapping network)将关联特征映射到共享协变量中,实现了人脸-语音匹配任务上的性能提升. 然而这种学习需要对大规模训练数据进行标签注释,过程耗时且成本昂贵. 为避免使用三元组损失[14],SSNet[3](deep latent space learning for cross-modal mapping of audio and visual signals)采用类中心学习来探索人脸-语音间的特征关联. 类似的LDJE[15](learning discriminative joint embeddings for efficient face and voice association)通过使用双向五元组约束、身份约束和中心约束训练网络. SSNet和LDJE这2种方法都主要通过中心约束来监督嵌入特征,不能充分地利用潜在语义学习更可靠的跨模态关联.

    得益于深度学习的发展,将表示学习和聚类算法结合是深度神经网络最具前途的方法之一. 而自监督学习作为目前最热门的框架,旨在使用原始特征生成监督网络训练的伪标签,通过潜在特征关联进行学习. 深度聚类DeepCluster[16](online deep clustering for unsupervised representation learning)中引入了学习图像表示的自监督方法,通过对特征无监督聚类的结果约束图像的特征表示. 而将自监督学习运用于跨模态关联,需要考虑模态间自监督学习的可适用性以及跨模态下自监督学习生成特征的异构性.

    本文所提出的双向伪标签自监督学习的跨人脸-语音学习方法总体框架如图1所示,该框架由2个主要模块组成,即跨模态加权残差网络模块和自监督学习模块. 前一个模块旨在学习跨模态公共嵌入特征,生成模态间的通用特征表示;而后一个模块创新性地利用自监督学习方法生成伪标签,并将一种模态下生成的伪标签作为唯一的监督信号去监督另一种模态的特征学习,实现双向伪标签关联. 这2个模块相互结合进行训练,以促进人脸-语音的跨模态关联学习.

    图  1  本文跨人脸-语音模态学习方法的总体架构
    Figure  1.  The overall framework of the proposed cross-modal face-voice learning method

    为了方便对本文的陈述,将对变量及符号进行形式化定义. 人脸数据集和语音数据集分别用Xface={xfacei}Ni=1Xvoice={xvoicei}Ni=1表示,其中N表示样本总数,而xfaceixvoicei表示第i条人脸-语音数据对. 人脸和语音对应着共享的标签集Y={yic}Ni=1,其中yci表示样本i对应有c个标签类别. 通过人脸子网络和语音子网络对样本i的人脸-语音数据进行高级特征提取分别表示为Dface(xfacei)Dvoice(xvoicei).

    人脸-语音由于模态的不同,异构特征间存在着巨大的语义鸿沟. 要想探索跨模态下人脸-语音的关联,如何跨越异构特征之间的语义鸿沟至关重要. 受多模态深度学习[17]启发,双流深度网络能兼容学习和探索异构特征间的通用表示. 现有的人脸-语音方法[9]局限于使用权值共享的单一全连接层获取通用特征,而单层的网络结构无法挖掘人脸-语音特征中的非线性相关性. 为解决这个问题,本文设计了跨模态加权残差网络模块来学习跨模态下异构特征的通用表示. 其思想是使双流深度网络和残差网络结构[18]相结合,在保留原始特征的同时,学习到人脸-语音特征间的非线性相关性. 跨模态加权残差网络结构由2个全连接层(fully connected layer)组成,它们的加权参数分别用ω1ω2表示. 人脸或者语音数据用 {\boldsymbol{x}} 表示,将数据经过2个全连接层处理表示为 FC({\boldsymbol{x}}) = d({\omega _2}\sigma ({\omega _1}{\boldsymbol{x}})) ,其中 \sigma( \cdot ) 为双曲正切激活函数tanh(·) , d( \cdot ) 表示权重丢弃层(dropout layer),用于减少特征冗余,提高网络的泛化能力. 通过人脸和语音子网络提取的特征,将通过共享权重的相同结构进行处理,得到的人脸高级特征和语音高级特征分别定义为

    {\boldsymbol{f}}_i^ * = \sigma ({D^{\rm{face}}}(x_i^{\rm{face}}) + \alpha \cdot FC({D^{\rm{face}}}(x_i^{\rm{face}}))) , (1)
    {\boldsymbol{v}}_i^ * = \sigma ({D^{\rm{voice}}}(x_i^{\rm{voice}}) + \alpha \cdot FC({D^{\rm{voice}}}(x_i^{\rm{voice}}))) , (2)

    其中 \sigma( \cdot ) 可用于避免训练过程中的梯度过度波动,缩放因子 \alpha [19]是一个可学习的参数. 残差网络结构将输出特征进行跳跃连接,在缓解网络梯度消失的同时,使得原始特征得以保留. 而2个模态之间的全连接层进行权值共享,有助于实现模态间的兼容性学习. 基于此,通过跨模态加权残差网络,可以有效地学习人脸-语音模态间异构特征的通用表示.

    对于跨模态嵌入特征的学习,要想建立人脸-语音特征之间的关联,学习器应该将不同模态下的数据映射到一个共同的特征空间中,且需要保证来自相同身份的人脸-语音数据对在特征空间中更加接近,不同身份的人脸-语音对更加疏远. 现有的大多数方法[13,15]都只是利用正则化有限的损失函数来学习人脸-语音间的跨模态对应关系,这在很大程度上忽略了人脸-语音在潜在语义上的关联. 而自监督学习旨在通过探索原始的特征分布产生伪标签,进而训练模型学习潜在语义关联. 因此,基于自监督学习生成的伪标签有利于捕获人脸-语音间的弱相关性.

    本文所提出的架构旨在创新性地利用模态下生成的伪标签信息实现模态间双向监督,并且从每种模态中学习到的伪标签应该很好地与下游任务对应. 为此,本文研究了这样一个假设,即想要捕获跨人脸-语音模态间的对应关系,可以从自监督学习下获取的伪标签中揭示出有效的潜在语义信息. 而为了生成更有效的伪标签监督信号,本文还考虑了人脸-语音数据在2种模态下伪标签分布之间的对应关系. 对于通过跨模态加权残差网络得到的人脸高级特征 {\boldsymbol{f}}_i^ * 和语音高级特征 {\boldsymbol{v}}_i^ * ,它们的特征维度都为 {\mathbb{R}^{1 \times K}} . 因为本文采取小批量训练方案,每个小批量中包含 B 个样本,所以会得到一个 B \times K 维的特征矩阵 {\boldsymbol{M}} . 为消除矩阵 {\boldsymbol{M}} 中特征之间单位和尺度差异的影响,需要对 {\boldsymbol{M}} 进行归一化处理. 定义 \bar {\boldsymbol{x}} \in {\mathbb{R}^{B \times {\text{1}}}} 表示矩阵 {{\boldsymbol{M}}_{(B,K)}} 中的列向量,则其归一化表示为

    {{\boldsymbol{x}}^ * } = {\varepsilon _1} + \frac{{(\bar {\boldsymbol{x}} - \min (\bar {\boldsymbol{x}}))({\varepsilon _2} - {\varepsilon _1})}}{{\max (\bar {\boldsymbol{x}}) - \min (\bar {\boldsymbol{x}})}} , (3)

    其中 {\varepsilon _1} {\varepsilon _2} 的取值分别为−1和1, \max (\bar {\boldsymbol{x}}) \min (\bar {\boldsymbol{x}}) 分别表示列向量 \bar {\boldsymbol{x}} 中的最大特征值和最小特征值. 经过归一化处理后得到特征矩阵 {\boldsymbol{M}}_{(B,K)}^ * ,基于其中 B K 维特征,这里设置特征原型 {\boldsymbol{\eta }} \in {\mathbb{R}^{1 \times K}} . 而 {\boldsymbol{\eta }}的获取需要符合约束条件:

    \mathrm{min}{\displaystyle\sum _{{\begin{aligned}{{\boldsymbol{x}}}'\text{为} {{\boldsymbol M}}^{\ast }{\text{的列向量}};\\{{\boldsymbol{x}}}'\in {\mathbb{R}}^{1\times K}\quad\;\;\;\end{aligned}}}dis({\boldsymbol{\eta}} ,{{\boldsymbol{x}}}')} , (4)

    其中 dis( \cdot , \cdot ) 表示欧氏空间距离. 对于特征矩阵 {{\boldsymbol{M}}^ * } ,为了探索特征空间中的隐式语义,通过设置聚类总数为 q 的无监督算法K-means,对其进行迭代聚类,直至收敛. 因此,特征矩阵 {{\boldsymbol{M}}^ * } 中的 B 个样本将被划分到 q 个簇中,而每个簇在迭代过程中都有其对应的中心特征({{\boldsymbol{o}}_1},{{\boldsymbol{o}}_2},… ,{{\boldsymbol{o}}_q}; {{\boldsymbol{o}}_i} \in {\mathbb{R}^{1 \times K}} ). 我们根据特征向量 {{\boldsymbol{o}}_i} 与特征原型 {\boldsymbol{\eta}} 的空间关系为簇分配伪标签,且需要保证每个簇有自己唯一的伪标签,簇与簇之间的伪标签不存在差异性,所以采用独热编码(one-hot)的方式生成伪标签,过程如图2所示. q 个簇将对应大小为 {{\boldsymbol{L}}_x} \in {\mathbb{R}^{1 \times q}} 的0,1的编码(例如: {{\boldsymbol{L}}_x} = (0,\;0,\;1,\;0,\;0) q = 5 ). 基于簇的 q 个特征向量 {{\boldsymbol{o}}_i} 与特征原型 {\boldsymbol{\eta}} 的欧氏空间距离 dis({{\boldsymbol{o}}_i},{\boldsymbol{\eta}} ) 排序后,为距离 {\boldsymbol{\eta}} 最近的簇分配伪标签向量{{\boldsymbol{L}}_x} = (1,\;0,\;0,\; … \;,0),为距离 {\boldsymbol{\eta}} 最远的簇分配伪标签向量{{\boldsymbol{L}}_x} = (0,\; …, \;0,\;0,\;1). 基于这种空间排序依次为簇分配伪标签,保证了每个簇生成的伪标签是唯一的,且伪标签之间不存在差异性. 因此,批中的 B 个样本根据其所在的簇,通过无监督聚类及簇中心特征和特征原型空间距离约束,被分配伪标签向量 {{\boldsymbol{L}}_x} . 对于自监督学习下的人脸-语音关联,需要保持相同身份的人脸-语音数据在分配伪标签后语义的一致性,同时显示出不相关人脸-语音对的差异性. 本文将从2种模态下获取的伪标签进行跨模态语义关联. 假设第 i 个样本的人脸-语音数据,在通过伪标签分配后得到的伪标签向量分别为 {\boldsymbol{L}}_{\rm{face}}^i {\boldsymbol{L}}_{\rm{voice}}^i ,则跨模态伪标签关联得分表示为

    图  2  基于特征原型的伪标签分配
    Figure  2.  Pseudo-label assignment based on feature prototype
    {S_i} = {\boldsymbol{L}}_{\rm{face}}^i{({\boldsymbol{L}}_{\rm{voice}}^i)^{\rm T}} = \left\{ {\begin{array}{*{20}{c}} 1,&{{\boldsymbol{L}}_{\rm{face}}^i = {\boldsymbol{L}}_{\rm{voice}}^i\;\;,} \\ 0,&{{\boldsymbol{L}}_{\rm{face}}^i \ne {\boldsymbol{L}}_{\rm{voice}}^i\;\;.} \end{array}} \right. (5)

    如当相同身份的人脸-语音样本通过伪标签分配后得到的伪标签相同时,从特征语义上说明了样本的2种模态语义更加相似,因此将给予自监督学习模块得分奖励. 反之,相同样本的人脸-语音数据在2种模态下分配的伪标签不同时,学习模块则没有得分奖励. 通过伪标签关联得分可以反映出自监督学习产生的人脸和语音伪标签之间的对应关系. 基于此,本文构建的伪标签关联损失定义为

    {\mathcal{L}_{{\text{cma}}}} = \frac{1}{B}\sum\limits_{i = 1}^B {\exp ( - {S_i})} , (6)

    其中 B 是小批量学习的样本数, \exp ( \cdot ) 为以 {\text{e}} 为底的指数函数. 模型在训练中,随相同身份的人脸-语音数据通过自监督学习产生的特征语义越接近,伪标签关联得分 S 会越高,伪标签关联损失 {\mathcal{L}_{{\text{cma}}}} 则会更小. 跨模态伪标签关联损失的减小意味着人脸-语音数据通过自监督学习生成的伪标签在跨模态下的语义一致性得以保留,同时为自监督学习的下游任务提供了稳定的伪标签监督信号.

    为理解 {\mathcal{L}_{{\text{cma}}}} 损失的反向传播如何影响特征网络,本文通过获取关联得分时参数矩阵 {\boldsymbol{X}} 的优化进行解释,其优化过程如算法1所示.

    算法1. 参数矩阵优化算法.

    输入: {\boldsymbol{a}} = ({\phi _{\rm{face}}}( {{\boldsymbol{f}}}_i^ * ) \circ {{\boldsymbol{w}}_{\rm{face}}}({{\boldsymbol{L}}_{\rm{face}}})) \in {\mathbb{R}^{K \times 1}}{\boldsymbol{b}} = ({\phi _{\rm{voice}}} ( {\boldsymbol{v}}_i^ * ) \circ {{\boldsymbol{w}}_{\rm{voice}}}({{\boldsymbol{L}}_{\rm{voice}}})) \in {\mathbb{R}^{K \times 1}}{{\boldsymbol{w}}_{\rm{face}}}{{\boldsymbol{w}}_{\rm{voice}}}为伪标签向量分别对应的权重向量, {\phi _{\rm{face}}} {\phi _{\rm{voice}}} 分别为{\boldsymbol{f}}_i^ *{\boldsymbol{v}}_i^ *的特征判别器,设{\boldsymbol{X}} \in {\mathbb{R}^{K \times K}}为待优化参数矩阵;

    输出: S = {{\boldsymbol{a}}^{\rm T}}{\text{exp(}}{\boldsymbol{Xb}}{\text{)}} {\text{exp(}} \cdot {\text{)}} 为逐个元素求指数,方便矩阵求导,基于此对{\boldsymbol{X}}进行优化.

    {\rm{d}}S = {{\boldsymbol{a}}^{\rm T}}{\text{(exp(}}{\boldsymbol{Xb}}{\text{)}} \odot {\text{(}}{\rm{d}}{\boldsymbol{Xb}}{\text{))}}

    ②根据迹\left\{\begin{array}{c}\text{tr(}{{\boldsymbol{A}}}^{{\rm T}}\text{(}{\boldsymbol{B}}\odot {\boldsymbol{C}}\text{))}=\text{tr((}{\boldsymbol{A}}\odot {\boldsymbol{B}}{\text{)}}^{{\rm T}}{\boldsymbol{C}}\text{)},\\ \text{tr(}{\boldsymbol{AB}}\text{)}=\text{tr(}{\boldsymbol{BA}}\text{)};\end{array} \right.

    ③根据导数微分关联{\rm{d}}S = {\text{tr}}\left(\left({\dfrac{{\partial S}}{{\partial {\boldsymbol{X}}}}^{\rm T}}\right){\rm{d}}{\boldsymbol{X}}\right)

    ④基于②和③对①进行优化变换,即优化

    \frac{{\partial S}}{{\partial {\boldsymbol{X}}}} = {{\text{(}}{\boldsymbol{b}}{{\text{(}}{\boldsymbol{a}} \odot {\text{exp(}}{\boldsymbol{Xb}}{\text{))}}^{\rm T}}{\text{)}}^{\rm T}} = {\text{(}}{\boldsymbol{a}} \odot {\text{exp(}}{\boldsymbol{Xb}}{\text{))}}{{\boldsymbol{b}}^{\rm T}} .

    其中对于 {\boldsymbol{f}}_i^* {\boldsymbol{v}}_i^* 将会有判别学习器{\phi _{\rm{face}}} {\phi _{\rm{voice}}} 生成可用特征,并将其用于人脸-语音伪标签向量对应的权重向量得到 {\boldsymbol{a}} {\boldsymbol{b}} \in {\mathbb{R}^{K \times 1}} ,最后通过算法1中的迹变换和微分关联来对参数矩阵 {\boldsymbol{X}} 进行优化.

    值得注意的是,随着当前小批量样本训练的完成,本轮的特征原型{\boldsymbol{ \eta}}将保留并参与下一轮批量训练中特征原型的更新迭代:

    {{\boldsymbol{\eta}} ^{(n)}} \leftarrow {\boldsymbol{\lambda}} {{\boldsymbol{\eta}} ^{(n)}} + (1 - \lambda ){{\boldsymbol{\eta}} ^ * }^{(n - 1)} , (7)

    其中{{\boldsymbol{\eta}} ^ * }表示前 n - 1 轮批量学习中特征原型的平均特征,参数 \lambda =0.9. 特征原型的更新迭代保证了每轮样本的训练特征得以保留,使得更新后的特征原型更具稳定性. 且基于特征原型划分的伪标签在簇数更多时,不会受个别样本特征的干扰,从而生成的伪标签作为跨模态关联的监督信号更具鲁棒性和可解释性.

    基于自监督学习方法生成的人脸-语音伪标签,本文实现跨模态伪标签信号的双向监督,进而增强人脸-语音模态间的语义关联. 对于样本 i 的人脸特征和语音特征,其通过自监督学习得到的人脸伪标签和语音伪标签分别为{\boldsymbol{L}}_{\rm{face}}^i{\boldsymbol{L}}_{\rm{voice}}^i,将其作为对方模态下的监督信号,进而得到双向伪标签关联损失:

    {\mathcal{L}_{{\text{Bi-P}}}} = \sum\limits_{i = 1}^B {\{ \ell ({\phi _{{\rm{face}},{\rm{voice}}}}({\boldsymbol{f}}_i^ * ),{\boldsymbol{L}}_{\rm{voice}}^i)} + \ell ({\phi _{{\rm{face}},{\rm{voice}}}}({\boldsymbol{v}}_i^ * ),{\boldsymbol{L}}_{\rm{face}}^i)\} , (8)

    其中 \ell ( \cdot , \cdot ) 为交叉熵损失,{\phi _{{\rm{face}},{\rm{voice}}}}表示判别学习器. 双向伪标签关联损失从跨模态角度利用2个模态下的伪标签实现跨模态交叉监督,从而同时优化2个模态间的关联损失,增强相同身份的人脸-语音数据对之间的语义相关性,并扩大不相关人脸-语音对之间的差异性. 基于此,双向伪标签关联损失可以有效地挖掘模态间的潜在语义,提高跨模态下生成的人脸-语音关联表示的鲁棒性和模型的泛化能力.

    为了帮助整体网络更好地学习人脸-语音之间的跨模态关联,本文设计并使用了2个辅助损失函数加速模型收敛,促进整体网络的学习.

    1) 身份预测损失. 据文献[5]可知,有限的监督信息能够增强人脸-语音嵌入特征的判别性,同时增强跨模态加权残差网络处理异构特征时的可分离性. 本文基于ID损失和性别约束,通过参数分类器来学习人脸-语音潜在语义的判别性嵌入,其中身份预测损失为:

    {\mathcal{L}_{{\text{id}}}} = \sum\limits_{i = 1}^B {\sum\limits_{c \in \{ ID,g\} } {\{ \ell ({\phi _c}({\boldsymbol{f}}_i^ * ),y_i^c) + \ell ({\phi _c}({\boldsymbol{v}}_i^ * ),y_i^c)\} } } , (9)

    其中 {\phi _c} 对应在ID和性别约束g下的全连接判别学习器. 该损失将用于加速网络模型的收敛,促进跨模态加权残差网络对判别性特征的学习.

    2) 伪标签分布损失. 为了进一步规范2种模态下来自相同身份伪标签之间的一致性,学习框架将训练中 B 个样本的伪标签分布视为一个整体,通过归一化函数softmax获取样本伪标签概率分布. 我们将 B 个样本的人脸和语音数据对应的伪标签概率分布分别表示为 p(f) p(v) ,并基于KL散度(Kullback Leibler divergence)生成跨模态下的伪标签分布损失:

    {\mathcal{L}_{{\text{KL}}}} = \alpha ({F_{{\text{KL}}}}(p(f)\left\| {p(v)} \right.) + {F_{{\text{KL}}}}(p(v)\left\| {p(f)} \right.)) , (10)

    其中 \alpha =0.5, {F_{{\text{KL}}}}( \cdot ) 为KL散度计算函数. 使用{F_{{\text{KL}}}}(p(f)|| {p(v)}) {F_{{\text{KL}}}}(p(v)||{p(f)}) 相结合是为了保持损失的对称性. 有且仅当自监督学习到的人脸-语音伪标签概率分布相同时, {\mathcal{L}_{{\text{KL}}}} =0. 最小化伪标签分布损失是从整体跨模态关联角度,通过相同身份个体的人脸-语音特征更接近,扩展到2个模态下的伪标签分布一致性,使得在自监督模块注重相同身份的人脸-语音对应性学习,从而强制深度网络学习到的跨模态关联特征更具鲁棒性.

    本文构建的整体损失函数表示为

    \mathcal{L}=\mathcal{L}_{\text {cma }}+\gamma_1 \mathcal{L}_{\mathrm{Bi}\text{-}\mathrm{P}}+\gamma_2 \mathcal{L}_{\mathrm{id}}+\mathcal{L}_{\mathrm{KL}}. (11)

    默认情况下, {\gamma _1} {\gamma _2} 的权重系数分别设置为10和0.1. 跨模态伪标签关联损失 {\mathcal{L}_{{\text{cma}}}} 和伪标签分布损失 {\mathcal{L}_{{\text{KL}}}} 的权重系数都设置为1,一方面保证了它们在促进模态间潜在语义特征挖掘中的协同作用,另一方面加速了整体损失函数在训练中更快地迭代与收敛. 本文将每批次训练的样本数设置为128,并选择结合了动量技术、RMSprop(root mean square prop)修正的Adam[20](adaptive moment estimation)方法作为优化模型. 在训练期间,学习率会随着训练轮数的增加而衰减,初始的学习率设置为10−3,衰减到的最小学习率为10−8. 值得注意的是,在实践中,本文通过设置不同簇数 q 来获取多种人脸-语音伪标签,并在实验中通过多种伪标签组合来挖掘人脸-语音间的潜在语义关联,从而探索出更深层的跨模态人脸-语音联系.

    为了充分评估本文所提出算法的有效性,本文在公开的Voxceleb1[21]和VGGFace[22]语音视频数据集上进行实验,并采取基准的评价准则进行量化评估. 具体的实验细节与设置如下.

    Voxceleb1中总计包含10万多条音频和2万多条视频,而VGGFace中包含2622个身份信息. 在实验中,对这2个数据集的数据交集共1225个身份进行数据集划分,其中训练集、验证集和测试集中包含的人物身份个数分别为924,112,189. 为了保证实验评估时的有效性和鲁棒性,本文在实验中选取的训练集和验证集以及测试集之间个体身份信息完全不相交.

    1)人脸数据处理.首先对原始检测的人脸图像进行缩放,然后通过随机裁剪函数进行裁剪,并统一图像大小为224×224×3. 在训练阶段采用概率为50%的随机水平翻转处理. 人脸子网络使用ResNet-34[23]架构实现,最终输出的人脸特征维数为256.

    2)语音数据处理. 语音数据首先通过语音检测函数清洗后除去原始音频中包含的静音片段,然后根据语音片段时长进行裁剪. 如果语音片段时长大于10 s,则随机保留10 s;若片段时长小于10 s,则会随机复制增加语音长度到10 s. 语音处理使用帧长25 ms、帧间隔10 ms的梅尔倒谱系数,并对处理后的语音片段进行归一化处理. 语音子网络采用DIMNet-voice[5]架构实现,最终输出的语音特征维数为256.

    为了验证本文方法的有效性,实验将在4种人脸-语音跨模态匹配任务上进行测试.

    1) 跨模态验证任务

    跨模态验证用来判断给定的人脸数据和语音数据是否属于相同身份,该任务使用曲线下面积(area under curve, AUC)作为唯一的评价指标.

    2) 跨模态检索任务

    在跨模态检索任务中将给定一种模态的待测样本,需要从总数据集中查询与待测样本匹配的正例,所以该任务挑战难度更大. 本任务将采用平均准确率(mean average precision, mAP)作为评价指标.

    3) 1∶2匹配任务

    1∶2匹配任务由人脸图片检索语音片段(F-V)和语音片段检索人脸图片(V-F)这2种情况组成. 对于F-V的1∶2匹配,给定一张人脸图片,需要从2段语音片段中判断出哪个和人脸图片身份相同. 同理可知V-F的1∶2匹配,给定一段语音片段,需要从2张人脸图片中判断出哪个和语音身份相同. 本任务中采用百分制的准确率(accuracy, ACC)作为评价指标.

    4) 1∶N匹配任务

    1∶N匹配任务是1∶2匹配任务的扩展,其将待匹配的样本总数增加到N,且需要从中识别出唯一的正例. 同样地,1∶N匹配也存在F-V和V-F的2种情况,且随着样本总数N的增加,任务难度也逐渐增加. 该任务也采用准确率ACC作为评价指标.

    为了验证本文所提出方法的有效性,将通过3.3节中所涉及的4种跨人脸-语音模态匹配任务进行测试. 值得注意的是,本文所提出的跨模态学习架构,由于伪标签生成跟簇数 q 有关,而不同的伪标签会对学习到的人脸-语音关联表示产生影响,所以在实验中尝试了不同的伪标签组合. 本文实验中使用了簇数分别为8,32,64来生成伪标签,其形式化标记分别对应Bi-Pcm-F(first),Bi-Pcm-S(second),Bi-Pcm-T(third)方法. 除此之外,本文还尝试设置了不同的伪标签组合来探索更多跨人脸-语音模态的潜在语义关联. 本文设置了4种伪标签组合:1)8和32组合;2)8和64组合;3)32和64组合;4)8,32,64组合. 这4种组合分别对应Bi-Pcm-FS,Bi-Pcm-FT,Bi-Pcm-ST,Bi-Pcm-FST方法. 实验中,当不同伪标签数的方法进行组合后,伪标签的分配以及训练的过程并行执行,最后生成的整体损失也将进行叠加.

    1) 跨模态验证

    参考文献[5],本文与现有方法的实验比较如表1所示,实验在不同分类数据上进行. 其中“U”表示人脸-语音数据对没有进行分类,“G”(gender)表示人脸-语音数据对中的2个测试者性别相同,“N”(nationality)表示人脸-语音数据对中的2个测试者的国籍相同,“A”(age)表示人脸-语音数据对中的2个测试者年龄相同. 而对于“GNA”这种情况,则是2个测试者的性别、国籍和年龄都相同. 从表1可知,本文所提出的Bi-Pcm-FST方法相比较于PINs,SSNet方法,实验性能在各个验证任务上平均提升5个百分点. 实验表明本文模型在不同的任务上都更具有效性.

    表  1  跨模态验证任务的AUC值
    Table  1.  AUC Values of Cross-Modal Verification Task
    方法UGNAGNA
    PINs[10]78.561.177.274.958.8
    SSNet[3]78.862.453.173.551.4
    DIMNet-I[5]82.571.081.977.762.8
    DIMNet-IG[5]83.271.281.978.062.8
    本文(Bi-Pcm-FST)85.071.284.379.664.7
    注:U为未分类,G以性别分类,N以国籍分类,A以年龄分类,GNA以性别、国籍和年龄共同分类. 黑体数值表示最佳结果.
    下载: 导出CSV 
    | 显示表格

    2) 跨模态检索

    跨模态检索任务的实验结果如表2所示. 本文在F-V和V-F的2个情景上都进行了检索实验. 为了与未进行学习的特征进行对比,本文在实验中增加了随机情况下(Chance)的实验结果,Chance方法将在跨模态检索以及1∶N匹配任务中使用. 方法Bi-Pcm-FST的平均mAP为6.20,高于目前先进的DIMNet-IG方法将近2个百分点,这说明基于本文的特征表示在面对大量数据检索任务时更具健壮性.

    表  2  跨模态检索中mAP的性能
    Table  2.  Performance mAP of Cross-Modal Retrieval
    方法ChanceF-VV-F平均值
    FV-CME[11]0.462.181.962.07
    VFMR3[24]2.155.00
    DIMNet-I[5]1.074.174.254.21
    DIMNet-IG[5]1.074.234.424.33
    本文(Bi-Pcm-FST)1.016.046.366.20
    注:F-V为人脸图片检索语音片段,V-F为语音片段检索人脸图片,平均表示F-V和V-F的平均值. 黑体数值表示最佳结果.
    下载: 导出CSV 
    | 显示表格

    3) 1∶2匹配

    1∶2匹配在不同分类数据上的测试结果如表3所示,其中数据分组“U”“G”“N”的方式同本节跨模态检索中的描述一致. 此任务共包括2种情景,分别为F-V和V-F. 本文基于不同伪标签组合的Bi-Pcm方法,在2种情景下进行了多组实验以探索多种伪标签语义对人脸-语音关联的影响. 从实验结果可知,本文基于Bi-Pcm-FST的多伪标签组合相比较其他伪标签组合在多种1∶2匹配任务上性能表现更佳,所以本文中其他的对比实验均以Bi-Pcm-FST作为代表. 在1∶2匹配任务中,Bi-Pcm-FST与目前主流的LDJE相比虽然只获得了少量的提升,但是LDJE方法在训练中使用了大量的人为监督标签来构造双向五元组约束,并利用中心约束以及身份约束,本质上过度依赖有监督学习,况且监督标签的获取成本昂贵且十分耗时. 而Bi-Pcm-FST更注重自监督学习生成可用伪标签来代替这些传统的有监督标签,且取得了更好的性能表现,这种获取可用伪标签的方法为跨人脸-语音模态的研究开创了一种更加新颖的思维. 跨模态1∶2匹配的实验结果也表明,本文基于双向伪标签关联的自监督学习能够为人脸-语音探索出更多的潜在语义信息.

    表  3  跨模态1∶2匹配任务的准确率
    Table  3.  ACC on Cross-Modal 1∶2 Matching Task %
    方法F-VV-F
    UGNGNUGNGN
    SVHF[9]79.5063.4081.0063.90
    FV-CME[11]77.8060.8078.1061.70
    LAFV[12]78.6061.6078.2062.90
    PINs[10]83.80
    DIMNet-I[5]83.5271.7882.4170.9083.4570.9181.8769.89
    DIMNet-IG[5]84.0371.6582.9670.7884.1271.3282.6570.39
    LDJE[15]85.4273.5284.4871.1185.1874.2983.9770.70
    Bi-Pcm-F (本文)84.8171.9383.8170.8984.7772.0883.5670.53
    Bi-Pcm-S (本文)84.6572.0583.9671.0784.8072.1183.7270.77
    Bi-Pcm-T (本文)85.1372.2284.0771.1284.8272.3783.8670.69
    Bi-Pcm-FS (本文)85.2772.2884.2571.0885.1172.5584.0270.78
    Bi-Pcm-FT (本文)85.3472.4684.4471.1485.2372.9484.1770.84
    Bi-Pcm-FST (本文)85.8373.0185.0071.4585.6973.3384.2671.10
    注:F-V为人脸图片匹配语音片段,V-F为语音片段匹配人脸图片,U表示未分类,G表示以性别分类,N表示以国籍分类,GN表示以性别和国籍分类. 黑体数值表示当前任务中的最佳结果.
    下载: 导出CSV 
    | 显示表格

    4) 1∶N匹配

    1∶N匹配结果如图3所示. 此项任务随待匹配样本数N的增加,实验难度也进一步增大. 可以发现各项工作的准确率也随N的增加而逐渐降低. 但是Bi-Pcm-FST方法在V-F和F-V两种情景下,与其他主流方法相比,依然具有更好的表现. 由准确率曲线可以发现,Bi-Pcm-FST方法随待匹配样本数N的增加,匹配准确率相比较其他方法衰减得更加平缓,即使在V-F的1∶N匹配任务中难度较大的“G”分组上,当N=6时,匹配准确率也能比主流的DIMNet方法提高2个百分点. 通过1∶N匹配任务的实验结果进一步说明本文架构具有更强的潜在语义挖掘能力.

    图  3  跨模态1∶N匹配的性能对比
    Figure  3.  Comparison of cross-modal 1∶N matching performance

    本文所提出的框架主要由2个模块组成,即跨模态加权残差网络模块和基于双向伪标签关联的自监督学习模块. 使用不同模块的消融实验如表4所示,其中CMWR表示跨模态加权残差网络,id表示可用语义信息的嵌入,self-learn表示自监督学习模块. 从表4中各个模块的消融实验可以发现,当单独使用跨模态加权残差网络或者单独使用自监督学习模块时,虽然整体网络的性能都能有所提升,但是提升幅度很小,例如在跨模态验证任务的“U”分组上只能提升1.7个百分点. 但将2种模块进行结合后,整体性能在“U”分组上提升4个百分点,说明2个模块之间的相互协作对促进整体网络的性能表现有重要的影响. 依次来看,跨模态加权残差网络能够跨越模态间语义鸿沟,从而有效地学习人脸-语音间的关联表示;而基于双向伪标签关联的自监督学习模块可以生成高效伪标签来促进整体网络性能的提升.

    表  4  跨模态验证上的消融实验
    Table  4.  Ablation Studies of Cross-Modal Verification
    方法UGNAGNA
    id81.267.480.677.561.1
    id+self-learn82.768.882.078.662.1
    CMWR+id82.969.582.778.463.3
    CMWR+id+self-learn85.071.284.379.664.7
    注:U为未分类,G以性别分类,N以国籍分类,A以年龄分类,GNA以性别、国籍和年龄共同分类. 黑体数值表示当前任务中的最佳结果.
    下载: 导出CSV 
    | 显示表格

    在本文中,损失函数是用来约束人脸-语音特征表示的关键因素. 因此,实验中进一步研究了损失函数对跨模态匹配性能的影响,图4展示了不同损失函数对F-V跨模态1∶2匹配任务的消融结果. 需要注意,双向伪标签关联损失 {\mathcal{L}_{{\text{Bi-P}}}} 和伪标签分布损失 {\mathcal{L}_{{\text{KL}}}} 的构成都需要跨模态伪标签关联损失 {\mathcal{L}_{{\text{cma}}}} 的协助,所以无法进行将 {\mathcal{L}_{{\text{cma}}}} 单独移除的实验. 从消融结果可以发现,当总体网络缺少 {\mathcal{L}_{{\text{Bi-P}}}} 时,实验准确率下降得最为明显,总体性能下降1.4个百分点,说明双向伪标签关联约束对促进网络性能提升有着重要作用. 消融实验中,移除跨模态分布损失 {\mathcal{L}_{{\text{KL}}}} 后,整体网络性能轻微下降了0.4个百分点. 而 {\mathcal{L}_{{\text{cma}}}} 通过得分奖励机制,使得自监督学习模块生成人脸-语音伪标签,进而参与 {\mathcal{L}_{{\text{Bi-P}}}} {\mathcal{L}_{{\text{KL}}}} 来约束跨模态特征学习. 因此,在移除 {\mathcal{L}_{{\text{cma}}}} 后将无法得到伪标签. 除此之外,从图4中关于 {\mathcal{L}_{{\text{cma}}}} 的单独消融实验可知,当使用 {\mathcal{L}_{{\text{cma}}}} 时整体网络性能只有微小的提高,其原因是只基于 {\mathcal{L}_{{\text{cma}}}} 产生的伪标签并没有被用于下游任务中,而将 {\mathcal{L}_{{\text{cma}}}} 生成伪标签用于 {\mathcal{L}_{{\text{Bi-P}}}} {\mathcal{L}_{{\text{KL}}}} 时,整体网络性能才能有不错的提升,说明 {\mathcal{L}_{{\text{cma}}}}更多的作用是辅助获取高效稳定的跨模态伪标签用于下游任务的学习.

    图  4  在1∶2匹配任务上损失函数的消融实验
    Figure  4.  Ablation studies of loss function on 1∶2 matching task

    综上所述, {\mathcal{L}_{{\text{cma}}}} 帮助自监督模块生成高效伪标签用于下游任务, {\mathcal{L}_{{\text{Bi-P}}}} 将利用上游伪标签挖掘潜在语义关联,而 {\mathcal{L}_{{\text{KL}}}} 将辅助 {\mathcal{L}_{{\text{Bi-P}}}} 提高特征关联的有效性. 跨模态匹配任务的实验表现和消融结果说明了本文的多种损失相互协助,相比较现有的方法,可在多种跨人脸-语音匹配任务上取得更佳的性能表现.

    对于跨模态检索任务,具有代表性的V-F检索结果如图5所示,其中与语音身份相同的人脸图片已由加粗方框标注. 从跨模态检索结果可以发现,即使待检索样本规模为整个数据集时,本文在跨模态检索任务上依然取得了不错的性能表现.

    图  5  跨模态检索结果
    Figure  5.  Cross-modal retrieval results

    此外,如图6所示,本文进一步利用t-SNE[25](t-distributed stochastic neighbor embedding)算法对学习到的高维人脸-语音嵌入特征进行2维可视化,其中相同颜色的数据点来自同一身份样本. 图6(a)是初始特征分布,人脸特征与语音特征由于模态间差异,被划分为2类,但是模态内的这2种特征却因没有进行辨别性学习而被混淆在一起. 图6(b)是通过本文方法学习后的结果,可以明显看出相同身份的人脸和语音特征的空间分布更为接近,且不同身份的特征之间更加地疏远,说明本文中基于双向伪标签关联的自监督学习方法确实能学习到更具判别性的跨模态特征.

    图  6  嵌入特征的t-SNE可视化
    Figure  6.  Visualization of embedding characteristics on t-SNE

    为了验证 {\mathcal{L}_{{\text{cma}}}} 损失可实现跨模态数据的编码,本文进行了人脸-语音伪标签相似度匹配实验. 如图7所示,我们在训练集和测试集上分别对样本的人脸-语音伪标签进行了相似度统计. 本文共用到3种伪标签数:8,32,64. 伪标签数为8时,虽然实验收敛得更快,但是最后得到的伪标签相似度低(准确率约77%);伪标签数为64时,网络虽然收敛更慢,但是获得的伪标签相似度更高(准确率约81%). 综上, {\mathcal{L}_{{\text{cma}}}} 损失可以帮助实现高效的跨模态数据编码.

    图  7  基于{\mathcal{L}_{{\text{cma}}}} 损失的人脸-语音伪标签相似度
    Figure  7.  Face-voice pseudo-label similarity based on cma-loss

    为了验证本文 {\mathcal{L}_{{\text{Bi-P}}}} 对模型泛化能力的影响,本文在现有的训练集基础上减少了100个人脸-语音数据进行模型重新训练,并在测试集上评估. 泛化能力评估实验结果如图8所示,当使用全部的损失后,V-F的1∶2匹配任务上实验准确率只下降了0.6个百分点,但是在移除 {\mathcal{L}_{{\text{Bi-P}}}} 损失后,实验准确率下降了1.3个百分点,说明 {\mathcal{L}_{{\text{Bi-P}}}} 能保证模型的泛化能力尽可能得到保留,验证了 {\mathcal{L}_{{\text{Bi-P}}}}能够提高跨模态下生成的人脸-语音关联表示的鲁棒性和模型的泛化能力.

    图  8  在1∶2匹配任务上的泛化能力评估
    Figure  8.  Generalization ability assessment on 1∶2 matching task

    本文提出了基于双向伪标签自监督学习的方法,该方法可有效地用于人脸-语音跨模态关联和匹配. 首先构建了跨模态加权残差网络来学习人脸-语音间的共享嵌入,然后创新性地提出双向伪标签关联方法生成高效伪标签,并用其监督人脸-语音实现潜在语义学习. 本文获得的模态间增强语义嵌入可适用于各种人脸-语音匹配任务. 与现有工作比较,本文在大量跨模态匹配任务中都取得了最佳的性能表现.

    作者贡献声明:朱明航负责算法设计与实验;柳欣负责模型优化和算法分析;于镇宁负责模型可行性分析;徐行负责算法优化;郑书凯负责实验多样性分析.

  • 图  1   指代短语理解中的关系聚合示意图

    Figure  1.   Illustration of relationship aggregation in REC

    图  2   关系聚合网络示意图

    Figure  2.   Illustration of RAN

    图  3   Liu等人和本文的文本擦除策略示意

    Figure  3.   Illustration of Liu et al’s and our erase strategies

    图  4   σ设置为不同值时RefCOCO的验证集效果

    Figure  4.   Performance on the validation split of RefCOCO when σ is set as different values

    图  5   MattNet[1] 和RAN在RefCOCO数据集的预测结果可视化

    注:单实线框和虚线框分别代表正确预测的结果和错误预测的结果,双实线框代表对结果预测贡献最大的上下文区域.

    Figure  5.   Visualization of MattNet[1] and RAN on RefCOCO dataset

    图  6   失败样例

    Figure  6.   Failure cases

    表  1   与现有的基于真实区域的指代短语理解方法的比较

    Table  1   Comparison with the State-of-the-Art Methods for REC Based on Ground-truth Regions %

    方法特征抽取的网络RefCOCO RefCOCO+ RefCOCOg
    valtestAtestBvaltestAtestBval*valtest
    MMI[19]VGG1671.7271.09 58.4251.23 62.14
    visdif[21]VGG1667.5771.1952.4447.5159.25
    visdif+MMI[21]VGG1673.9876.5959.1755.6264.02
    NegBag[20]VGG1676.9075.678.0068.40
    Speaker[22]VGG1679.5678.9580.2262.2664.659.6272.63
    Attr[43]VGG1978.8578.0761.4757.2269.83
    VC[44]VGG1678.9882.3962.5662.973.98
    A-ATT[38]VGG1681.2781.1780.0165.5668.7660.6373.18
    MattNet[1]VGG1680.9479.9982.363.0765.0461.7773.0873.0472.79
    CMRIN[33]VGG1684.0284.5182.5971.4675.3864.7476.1676.25
    DGA[11]VGG1683.7383.5682.5168.9972.7262.9875.7675.79
    LGRANs[31]VGG1682.0081.2084.0066.667.665.575.474.7
    MattNet[1]ResNet10185.6585.2684.5771.0175.1366.1778.178.12
    CM-Att[14]ResNet10186.2386.5785.3672.3674.6467.0778.6878.58
    CM-Att-Erase[14]ResNet10187.4788.1286.3273.7477.5868.8580.2380.37
    CMRIN[33]ResNet10186.9987.6384.7375.5280.9368.9980.4580.66
    NMTREE[34]ResNet10185.6585.6385.0872.8475.7467.6278.0378.5778.21
    SGMN[12]ResNet10186.6785.3678.6669.7781.42
    Zhang等人[45]ResNet10185.8186.3884.572.4875.8567.1479.7479.32
    DGA[11]ResNet10186.3486.6484.7973.5678.3168.1580.2180.26
    RAN(本文)ResNet10187.9288.7787.1674.6778.9269.9480.9081.85
    注:testA集合主要针对人的短语描述,testB集合针对的是其他对象. 黑体数值表示最优值.
    下载: 导出CSV

    表  2   与现有的基于自动检测区域的指代短语理解方法的比较

    Table  2   Comparison with the State-of-the-Art Methods for REC Based on Automatically Detected Regions %

    方法特征RefCOCO RefCOCO+ RefCOCOg
    valtestAtestBvaltestAtestBval*valtest
    MMI[19]VGG1664.9054.51 54.0342.81 45.85
    NegBag[20]VGG1658.6056.4039.50
    CMN[13]VGG1671.0365.7754.3247.7657.47
    Speaker[22]VGG1672.8863.4360.4348.7459.51
    Attr[43]VGG1972.0857.2957.9746.252.35
    VC[44]VGG1673.3367.4458.4053.1862.30
    LGRANs[31]VGG1676.6066.4064.0053.462.50
    MattNet[1]ResNet10176.6581.1469.9965.3371.6256.0266.5867.27
    CM-Att-Erase[14]ResNet10178.3583.1471.3268.0973.6558.0367.9968.67
    NMTREE[34]ResNet10176.4181.2170.0966.4672.0257.5264.6265.8766.44
    DGA[11]ResNet10178.4265.5369.0751.9963.28
    Ref-NMS[46]ResNet10180.7084.0076.0468.2573.6859.4270.5570.62
    Sun等人[47]ResNet-10174.2768.1071.0558.2570.05
    RCCF(*)[35]DLA-3481.0671.8570.3556.3265.73
    SSG(*)[48]Darknet5376.5167.562.1449.2747.4758.80
    One-Stage(*)[36]Darknet5372.0574.8167.5955.7260.3748.5448.1459.0358.70
    ReSC(*)[49]DarkNet5376.5978.2273.2563.2366.6455.5360.9664.8764.87
    MCN(*)[50]DarkNet-5380.0882.2974.9867.1672.8657.3166.4666.00
    LBYLNet(*)[51]DarkNet-5379.6782.9174.1568.6473.3859.4962.70
    RAN(本文)ResNet10178.9783.7672.1368.8474.2858.6368.4569.77
    RAN+Ref-NMS(本文)ResNet10180.9684.1676.2169.7274.6659.6971.1670.79
    注:testA集合主要针对人的短语描述,testB集合针对的是其他对象. “(*)”代表单阶段方法,直接从图像中定位被指代区域. 黑体数值表示最优值.
    下载: 导出CSV

    表  3   与现有的指代短语分割方法的比较

    Table  3   Comparison with the State-of-the-Art RES Methods %

    评价指标方法RefCOCO RefCOCO+ RefCOCOg
    valtestAtestBvaltestAtestBvaltest
    P@0.5D+RMI+DCRF[54]42.9942.9944.99 20.5221.2220.78
    MattNet[1]75.1679.5568.8764.1170.1254.8264.4865.60
    Chain[34]73.3677.5567.3061.6067.1552.2459.6460.29
    NMTREE[34]74.7179.7168.9365.0670.2456.1563.7764.63
    RAN(本文)76.7681.2370.1765.2870.7556.6565.3466.72
    IoUD+RMI+DCRF[54]45.1845.6945.57 29.8630.4829.50
    MattNet[1]56.5162.3751.7046.6752.3940.0847.6448.61
    Chain[34]55.2960.9951.3644.7449.8338.5042.5543.99
    NMTREE[34]56.5963.0252.0647.4053.0141.5646.5947.88
    RAN(本文)58.1664.3953.1848.1053.1541.6347.9849.32
    注:黑体数值表示最优值.
    下载: 导出CSV

    表  4   RefCOCO数据集中消融实验结果

    Table  4   Results of Ablation Study on RefCOCO Dataset

    RCRAErasevaltestAtestB
    ×××85.6985.3085.04
    ×86.2086.5785.29
    ×86.7286.9986.01
    ‡187.5188.2986.50
    ‡387.4788.4386.69
    87.9288.7787.16
    注:“√”和“×”表示相应的模块是否有被使用,“‡”表示模块用不同的方式实现.
    下载: 导出CSV
  • [1]

    Yu Licheng, Lin Zhe, Shen Xiaohui, et al. MattNet: Modular attention network for referring expression comprehension[C] //Proc of the 36th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 1307−1315

    [2] 孟祥申,江爱文,刘长红,等. 基于Spatial-DCTHash 动态参数网络的视觉问答算法[J]. 中国科学:信息科学,2017,47(8):60−74

    Meng Xiangshen, Jiang Aiwen, Liu Changhong, et al. Visual question answering based on spatial DCTHash dynamic parameter network[J]. SCIENTIA SINICA Informations, 2017, 47(8): 60−74 (in Chinese)

    [3]

    Li Guohao, Wang Xin, Zhu Wenwu. Boosting visual question answering with context-aware knowledge aggregation[C] //Proc of the 28th ACM Int Conf on Multimedia. New York: ACM, 2020: 1227−1235

    [4]

    Zhou Yiyi, Ji Rongrong, Sun Xiaoshuai, et al. K-armed bandit based multi-modal network architecture search for visual question answering[C] //Proc of the 28th ACM Int Conf on Multimedia. New York: ACM, 2020: 1245−1254

    [5]

    Xu K, Ba J, Kiros R, et al. Show, attend and tell: Neural image caption generation with visual attention[C] //Proc of the 36th Int Conf on Machine Learning. Piscataway, NJ: IEEE, 2015: 2048−2057

    [6]

    Zhang Beichen, Li Liang, Su Li, et al. Structural semantic adversarial active learning for image captioning[C] //Proc of the 28th ACM Int Conf on Multimedia. New York: ACM, 2020: 1112−1121

    [7]

    Wang Yong, Zhang Wenkai, Liu Qing, et al. Improving intra- and inter-modality visual relation for image captioning[C] //Proc of the 28th ACM Int Conf on Multimedia. New York: ACM, 2020: 4190−4198

    [8]

    Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint, arXiv: 1409.1556, 2014

    [9]

    He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C] //Proc of the 34th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 770−778

    [10]

    Liu Yongfei , Wan Bo, Zhu Xiaodan, et al. Learning cross-modal context graph for visual grounding[C] //Proc of the 34th Association for the Advancement of Artificial Intelligence. Palo Alto, CA: AAAI, 2020: 11645−11652

    [11]

    Yang Sibei, Li Guanbin, Yu Yizhou. Dynamic graph attention for referring expression comprehension[C] //Proc of the 17th Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2019: 4643−4652

    [12]

    Yang Sibei, Li Guanbin, Yu Yizhou. Graph-structured referring expression reasoning in the wild[C] //Proc of the 38th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 9949−9958

    [13]

    Hu Ronghang, Rohrbach M, Andreas J, et al. Modeling relationships in referential expressions with compositional modular networks[C] // Proc of the 35th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 4418−4427

    [14]

    Liu Xihui, Wang Zihao, Shao Jing, et al. Improving referring expression grounding with cross-modal attention-guided erasing[C] //Proc of the 36th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 1950−1959

    [15]

    Velickovic P, Cucurull G, Casanova A, et al. Graph attention networks[J]. arXiv preprint, arXiv: 1710.10903, 2017

    [16] 许晶航, 左万利, 梁世宁, 等. 基于图注意力网络的因果关系抽取[J]. 计算机研究与发展, 2020, 57(1): 159-174

    Xu Jinghang, Zuo Wanli, Liang Shining, et al. Causal relation extraction based on graph attention networks[J]. Journal of Computer Research and Development, 2020, 57(1): 159-174 (in Chinese)

    [17]

    Zhang Xiaolin, Wei Yunchao, Feng Jiashi, et al. Adversarial complementary learning for weakly supervised object localization[C] //Proc of the 36th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 1325−1334

    [18]

    Luo Ruotian, Shakhnarovich G. Comprehension-guided referring expressions[C] //Proc of the 35th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 3125−3134

    [19]

    Mao Junhua, Huang J, Toshev A, et al. Generation and comprehension of unambiguous object descriptions[C] //Proc of the 34th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 11−20

    [20]

    Nagaraja V K, Morariu V I, Davis L S. Modeling context between objects for referring expression understanding[C] //Proc of the 14th European Conf on Computer Vision. Berlin: Springer, 2016: 792−807

    [21]

    Yu Licheng, Poirson P, Yang Shan, et al. Modeling context in referring expressions[C] //Proc of the 14th European Conf on Computer Vision. Berlin: Springer, 2016: 69−85

    [22]

    Yu Licheng, Tan Hao, Bansal M, et al. A joint speaker-listener-reinforcer model for referring expressions[C] //Proc of the 35th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 3521−3529

    [23]

    Fukui A, Park D H, Yang D, et al. Multimodal compact bilinear pooling for visual question answering and visual grounding[C] //Proc of the 21st Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2016: 457−468

    [24]

    Rohrbach A, Rohrbach M, Hu Ronghang, et al. Grounding of textual phrases in images by reconstruction[C] //Proc of the 14th European Conf on Computer Vision. Berlin: Springer, 2016: 817−834

    [25]

    Andreas J, Rohrbach M, Darrell T, et al. Neural module networks[C] //Proc of the 34th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 39−48

    [26]

    Hu Ronghang, Andreas J, Rohrbach M, et al. Learning to reason: End-to-end module networks for visual question answering[C] //Proc of the 16th Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2017: 804−813

    [27] 鲜光靖,黄永忠. 基于神经网络的视觉问答技术研究综述[J]. 网络安全技术与应用,2018,1:42−47

    Xian Guangjing, Huang Yongzhong. A survey of visual question answering technology based on neural network[J]. Network Security Technology & Application, 2018, 1: 42−47 (in Chinese)

    [28]

    Johnson J, Hariharan B, Van D M L, et al. Inferring and executing programs for visual reasoning[C] //Proc of the 16th Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2017: 3008−3017

    [29] 杜鹏飞,李小勇,高雅丽. 多模态视觉语言表征学习研究综述[J]. 软件学报,2021,32(2):327−348

    Du Pengfei, Li Xiaoyong, Gao Yali, et al. Survey on multimodal visual language representation learning[J]. Journal of Software, 2021, 32(2): 327−348 (in Chinese)

    [30]

    Andreas J, Klein D, LevinE S. Modular multitask reinforcement learning with policy sketches[C] //Proc of the 38th Int Conf on Machine Learning. New York: ACM, 2017: 166−175

    [31]

    Wang Peng, Wu Qi, Cao Jiewei, et al. Neighbourhood watch: Referring expression comprehension via language-guided graph attention networks[C] //Proc of the 37th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 1960−1968

    [32]

    Bajaj M, Wang Lanjun, Sigal L. G3raphground: Graph-based language grounding[C] //Proc of the 17th Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2019: 4280−4289

    [33]

    Yang Sibei, Li Guanbin, Yu Yizhou. Cross-modal relationship inference for grounding referring expressions[C] //Proc of the 37th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 4145−4154

    [34]

    Liu Daqing, Zhang Hanwang, Zha Zhengjun, et al. Learning to assemble neural module tree networks for visual grounding[C] //Proc of the 17th Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2019: 4672−4681

    [35]

    Liao Yue, Liu Si, Li Guanbin, et al. A real-time cross-modality correlation filtering method for referring expression comprehension[C] //Proc of the 38th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 10877−10886

    [36]

    Yang Zhengyuan, Gong Boqing, Wang Liwei, et al. A fast and accurate one-stage approach to visual grounding[C] //Proc of the 17th Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2019: 4682−4692

    [37]

    Yu Zhou, Yu Jun, Xiang Chenchao, et al. Rethinking diversified and discriminative proposal generation for visual grounding[C] //Proc of the 27th Int Joint Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2018: 1114−1120

    [38]

    Deng Chaorui, Wu Qi, Wu Qingyao, et al. Visual grounding via accumulated attention[C] //Proc of the 36th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 7746−7755

    [39]

    Hu Zhiwei, Feng Guang, Sun Jiayu, et al. Bi-directional relationship inferring network for referring image segmentation[C] //Proc of the 38th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 4423−4432

    [40]

    Zhuang Bohan, Wu Qi, Shen Chunhua, et al. Parallel attention: A unified framework for visual object discovery through dialogs and queries[C] //Proc of the 36th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 4252−4261

    [41]

    Ren Shaoqing, He Kaiming, Girshick R B, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis Machine Intelligence, 2017, 39(6): 1137−1149 doi: 10.1109/TPAMI.2016.2577031

    [42]

    Pennington J, Socher R, Manning C D. Glove: Global vectors for word representation[C] //Proc of the 19th Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2014: 1532−1543

    [43]

    Liu Jingyu, Wang Liang, Yang Ming-Hsuan. Referring expression generation and comprehension via attributes[C] //Proc of the 16th Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2017: 4866−4874

    [44]

    Zhang Hanwang, Niu Yuelei, Chang S. Grounding referring expressions in images by variational context[C] //Proc of the 36th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 4158−4166

    [45]

    Zhang Chao, Li Weiming, Ouyang Wanli, et al. Referring expression comprehension with semantic visual relationship and word mapping[C] //Proc of the 27th ACM Int Conf on Multimedia. New York: ACM, 2019: 1258−1266

    [46]

    Chen Long, Ma Wenbo, Xiao Jun, et al. Ref-NMS: Breaking proposal bottlenecks in two-stage referring expression grounding[C] //Proc of the 35th Association for the Advancement of Artificial Intelligence. Palo Alto, CA: AAAI, 2021: 1036−1044

    [47]

    Sun Mingjie, Xiao Jimin, Lim E G. Iterative shrinking for referring expression grounding using deep reinforcement learning[C] //Proc of the 39th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2021: 14060−14069

    [48]

    Chen Xinpeng, Ma Lin, Chen Jingyuan, et al. Real-time referring expression comprehension by single-stage grounding network[J]. arXiv preprint, arXiv: 1812.03426, 2018

    [49]

    Yang Zhengyuan, Chen Tianlang, Wang Liwei, et al. Improving one-stage visual grounding by recursive sub-query construction[C] //Proc of the 16th European Conf on Computer Vision. Berlin: Springer, 2020: 387−404

    [50]

    Luo Gen, Zhou Yiyi, Sun Xiaoshuai, et al. Multi-task collaborative network for joint referring expression comprehension and segmentation[C] //Proc of the 38th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 10031−10040

    [51]

    Huang Binbin, Lian Dongze, Luo Weixin, et al. Look before you leap: Learning landmark features for one-stage visual grounding[C] //Proc of the 39th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2021: 16888−16897

    [52]

    Kazemzadeh S, Ordonez V, Matten M, et al. Referitgame: Referring to objects in photographs of natural scenes[C] //Proc of the 19th Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2014: 787−798

    [53]

    Lin T, Maire M, Belongie S J, et al. Microsoft COCO: Common objects in context[C] //Proc of the 13th European Conf on Computer Vision. Berlin: Springer, 2014: 740−755

    [54]

    Liu Chenxi, Lin Zhe, Shen Xiaohui, et al. Recurrent multimodal interaction for referring image segmentation[C] //Proc of the 16th Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2017: 1280−1289

    [55]

    Hu Ronghang, Rohrbach M, Darrell T. Segmentation from natural language expressions[C] //Proc of the 14th European Conf on Computer Vision. Berlin: Springer, 2016: 108−124

  • 期刊类型引用(1)

    1. 张凯威,张玲. 颜色感知的双通道反射消除算法. 计算机系统应用. 2025(03): 277-285 . 百度学术

    其他类型引用(1)

图(6)  /  表(4)
计量
  • 文章访问数:  142
  • HTML全文浏览量:  31
  • PDF下载量:  69
  • 被引次数: 2
出版历程
  • 收稿日期:  2022-01-03
  • 修回日期:  2023-01-08
  • 网络出版日期:  2023-06-25
  • 刊出日期:  2023-10-31

目录

/

返回文章
返回