Processing math: 8%
  • 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

基于异常特征模式的心电数据标签清洗方法

韩京宇, 陈伟, 赵静, 郎杭, 毛毅

韩京宇, 陈伟, 赵静, 郎杭, 毛毅. 基于异常特征模式的心电数据标签清洗方法[J]. 计算机研究与发展, 2023, 60(11): 2594-2610. DOI: 10.7544/issn1000-1239.202220334
引用本文: 韩京宇, 陈伟, 赵静, 郎杭, 毛毅. 基于异常特征模式的心电数据标签清洗方法[J]. 计算机研究与发展, 2023, 60(11): 2594-2610. DOI: 10.7544/issn1000-1239.202220334
Han Jingyu, Chen Wei, Zhao Jing, Lang Hang, Mao Yi. A Label Cleaning Method of ECG Data Based on Abnormality-Feature Patterns[J]. Journal of Computer Research and Development, 2023, 60(11): 2594-2610. DOI: 10.7544/issn1000-1239.202220334
Citation: Han Jingyu, Chen Wei, Zhao Jing, Lang Hang, Mao Yi. A Label Cleaning Method of ECG Data Based on Abnormality-Feature Patterns[J]. Journal of Computer Research and Development, 2023, 60(11): 2594-2610. DOI: 10.7544/issn1000-1239.202220334
韩京宇, 陈伟, 赵静, 郎杭, 毛毅. 基于异常特征模式的心电数据标签清洗方法[J]. 计算机研究与发展, 2023, 60(11): 2594-2610. CSTR: 32373.14.issn1000-1239.202220334
引用本文: 韩京宇, 陈伟, 赵静, 郎杭, 毛毅. 基于异常特征模式的心电数据标签清洗方法[J]. 计算机研究与发展, 2023, 60(11): 2594-2610. CSTR: 32373.14.issn1000-1239.202220334
Han Jingyu, Chen Wei, Zhao Jing, Lang Hang, Mao Yi. A Label Cleaning Method of ECG Data Based on Abnormality-Feature Patterns[J]. Journal of Computer Research and Development, 2023, 60(11): 2594-2610. CSTR: 32373.14.issn1000-1239.202220334
Citation: Han Jingyu, Chen Wei, Zhao Jing, Lang Hang, Mao Yi. A Label Cleaning Method of ECG Data Based on Abnormality-Feature Patterns[J]. Journal of Computer Research and Development, 2023, 60(11): 2594-2610. CSTR: 32373.14.issn1000-1239.202220334

基于异常特征模式的心电数据标签清洗方法

基金项目: 国家自然科学基金项目(62002174)
详细信息
    作者简介:

    韩京宇: 1976年生. 博士,教授. CCF会员. 主要研究方向为生物信息处理、数据库系统和机器学习

    陈伟: 1995年生. 硕士研究生. 主要研究方向为生物信息处理和机器学习

    赵静: 1996年生. 硕士. 主要研究方向为机器学习和数据库系统

    郎杭: 1999年生. 硕士研究生. 主要研究方向为机器学习和生物信息学

    毛毅: 1985年生. 博士,讲师. 主要研究方向为生物信息处理和机器学习

  • 中图分类号: TP391.5;TP181

A Label Cleaning Method of ECG Data Based on Abnormality-Feature Patterns

Funds: This work was supported by the National Natural Science Foundation of China (62002174).
More Information
    Author Bio:

    Han Jingyu: born in 1976. PhD, professor. Member of CCF. His main research interests include biomedical information processing, database system, and machine learning

    Chen Wei: born in 1995. Master candidate. His main research interests include biomedical information processing and machine learning

    Zhao Jing: born in 1996. Master. Her main research interests include machine learning and database systems

    Lang Hang: born in 1999. Master candidate. His main research interests include machine learning and bioinformatics

    Mao Yi: born in 1985. PhD, lecturer. Her main research interests include biomedical information processing and machine learning

  • 摘要:

    心电图(electrocardiogram, ECG)异常的自动检测是一个典型的多标签分类问题,训练分类器需要大量有高质量标签的样本. 但心电数据集异常标签经常缺失或错误,如何清洗弱标签得到干净的心电数据集是一个亟待解决的问题. 在一个标签完整且准确的示例数据集辅助下,提出一种基于异常特征模式 (abnormality-feature pattern, AFP) 的方法对弱标签心电数据进行标签清洗,以获取所有正确的异常标签. 清洗分2个阶段,即基于聚类的规则构造和基于迭代的标签清洗. 在第1阶段,通过狄利克雷过程混合模型(Dirichlet process mixture model, DPMM)聚类,识别每个异常标签对应的不同特征模式,进而构建异常发现规则、排除规则和1组二分类器. 在第2阶段,根据发现和排除规则辨识初始相关标签集,然后根据二分类器迭代扩展相关标签并排除不相关标签. AFP方法捕捉了示例数据集和弱标签数据集的共享特征模式,既应用了人的知识,又充分利用了正确标记的标签;同时,渐进地去除错误标签和填补缺失标签,保证了标签清洗的可靠性. 真实和模拟数据集上的实验证明了AFP方法的有效性.

    Abstract:

    Automatic detection of electrocardiogram (ECG) abnormality is a typical multi-label classification problem, which heavily relies on sufficient samples with high-quality abnormality labels for model training. Unfortunately, we often face ECG datasets with partial and incorrect labels, so how to clean weakly-labelled datasets to obtain the clean datasets with all the correct abnormality labels is becoming a pressing concern. Under the assumption that we can have a small-sized example dataset with full and correct labels, we propose an abnormality-feature pattern (AFP) based method to automatically clean the weakly-labelled datasets, thus obtaining all the correct abnormality labels. The cleaning process proceeds with two stages, clustering-based rule construction and iteration-based label cleaning. During the first stage, we construct a set of label inclusion and exclusion rules and a set of binary discriminators by exploiting the different abnormality-feature patterns which are identified through Dirichlet process mixture model (DPMM) clustering. During the second stage, we first identify the relevant abnormalities according to the label inclusion and exclusion rules, and then refine the relevant abnormalities with iterations. AFP method takes advantage of the abnormality-feature patterns shared by the example dataset and weakly-labelled dataset, which is based on both the human intelligence and the correct label information from the weakly-labelled dataset. Further, the method stepwise removes the incorrect labels and fills in the missing ones with an iteration, thus ensuring a reliable cleaning process. The experiments on real and synthetic datasets prove the effectiveness of our method.

  • 神经认知学研究表明人类在视听信息感知的时候具有将人脸和语音进行关联的能力. 例如,当人们在跟朋友打电话时,虽然只能听见对方的声音,但是脑海中会下意识地构建出他们的样貌特征,以及当看到好友的照片时,能瞬间回忆起对方熟悉的声音. 心理学研究将人类这种跨人脸-语音的交互能力称为“麦格克效应”[1],其表明人在跟外界交谈时,能够在人脸信息和语音信息之间进行交互关联. 同时,大量神经科学研究表明,人类的大脑存在着多个模块感知区域[2],这些区域之间通过脑神经连接来并行处理信息,其中视觉模块跟听觉模块的神经连接通路更为紧密. 基于此,人们可以较好地对人脸与语音进行跨模态感知,例如当人们在观看有声电视节目时,能以较高的准确率从当前说话人声音中匹配出正确的人物身份. 在跨模态生物特征感知方面,人脸信息跟语音信息都能有效地作为刻画人物特定语义的特征载体,比如说身份、性别、年龄、种族和国籍等,这些反映特定语义的生物特征信息可以隐式地从人脸或语音信息中进行提取,从而基于人脸和语音的跨模态交互关联研究具有一定的可行性.

    上述现象表明,人脸信息与语音信息之间存在显著的关联特性. 因此,有效的人脸-语音相关性挖掘和跨模态匹配研究能够促进认知科学和人工智能技术创新实践的发展,具有重要的现实意义. 受此启发,越来越多的研究者认识到探索人脸-语音关联的研究已迫在眉睫. 该研究有广阔的应用前景,例如基于语音视频的说话人身份标注、视频人脸及语音信息时态同步和基于声音的人脸面部特征还原等[3-5]. 从国内外研究进展分析,目前的跨人脸-语音模态的研究还依然处于起步阶段[6],大量人脸-语音关联语义的研究等待着人们去探索.

    跨人脸-语音模态关联性学习方法的研究作为一项新颖的课题,存在着许多具有挑战性的任务. 一些方法[7]虽然也对人脸-语音进行了关联性学习,但在跨模态匹配任务的表现中只取得了比随机概率略好的性能表现. 根据现有的人脸-语音关联学习方法,目前跨人脸-语音模态的研究依然面临着3个主要挑战:1) 样本复杂性,人脸样本和语音样本分别通过不同的传感器获取,它们的特征属性及数据类型完全不同,因此无法直接进行人脸-语音特征间的交互关联,从而导致语义表征间存在着巨大的语义鸿沟. 2) 监督信息匮乏,基于有限的标签信息去监督人脸-语音特征,挖掘出的跨模态特征表示过度依赖于人为监督,导致获取的跨模态连接并不可靠,从而无法得到模态间紧密的语义关联. 同时基于有监督的标签生成需要人工的手动注释,其过程繁琐且成本高昂. 3) 语义关联不足,现有的大多数人脸-语音跨模态关联方法只是利用损失函数进行简单的特征关联,其从本质上忽略了人脸-语音模态间潜在语义的关联特性,且无法满足实际应用的需求.

    针对上述挑战,设计一种可以利用潜在语义促进跨人脸-语音模态关联性学习的方法尤为重要. 值得注意的是,自监督学习旨在通过对原始数据特征中潜在语义的挖掘生成伪标签进而监督整体特征学习,这种从数据本身出发学习特征表示的方法为跨模态关联学习提供了借鉴意义.

    基于自监督学习对潜在语义挖掘的思想,本文提出了一种基于双向伪标签自监督学习的跨人脸-语音匹配方法(cross face-voice matching method via bi-pseudo label based self-supervised learning, Bi-Pcm),用于跨模态下的人脸-语音关联与匹配. 具体来说,首先,设计了一个跨模态加权残差网络(cross-modal weighted residual network, CMWR)模块,在解决人脸-语音特征异构性的同时,学习到模态间的共享嵌入特征. 接着引入自监督学习模块,通过人脸和语音特征间的潜在语义生成伪标签,实现跨模态下的双向监督,进而获取潜在语义关联. 然后,本文对2种模态下生成的伪标签构建关联损失,约束伪标签生成,从而获取基于潜在语义生成的强跨模态嵌入. 最后,通过本文方法获取的跨模态表示将在所有人脸-语音跨模态匹配任务上进行测评. 本文的主要贡献包括4点:

    1) 提出了一种新颖的基于双向伪标签自监督学习的方法用于获取人脸-语音间的跨模态关联. 据文献[6-7]所知,本文提出的方法是利用伪标签来促进跨人脸-语音模态下的关联性学习.

    2) 设计了一种高效的伪标签生成方法,旨在利用特征空间的关联促进潜在语义对齐,增强相同人脸-语音特征相关性,并扩大不相关人脸-语音之间的特征差异,从而生成高质量伪标签进行监督约束.

    3) 创新性地提出了一种基于自监督跨模态学习框架来获取人脸-语音间的共享特征嵌入,并通过一种模态的伪标签语义作为监督信号来监督另一种模态的特征学习,从而高效地进行跨模态语义关联.

    4) 大量实验结果表明,本文方法相比较于现有的跨人脸-语音匹配工作,可扩展性更强,并在多个跨人脸-语音模态匹配任务上都取得了全面的提升.

    人类面部视觉及语音信息是人机交互过程中最为直接和灵活的方式,因此基于人脸和语音的跨模态感知吸引了研究学者的广泛关注. 从生物特征角度来看,来自相同身份的人脸和语音数据,对应着许多相似的语义特征,例如性别、种族还有年龄[8],因此人脸和语音具有表征相同身份的语义关联信息. 目前基于人脸-语音关联特征的方法主要分为2类: 基于分类损失和基于空间距离度量. 基于分类损失的代表方法是SVHF[9](seeing voices and hearing faces: cross-modal biometric matching),它利用卷积神经网络(convolutional neural network, CNN)架构学习人脸-语音间的关联表示,进而解决跨模态匹配任务. 基于空间距离度量的代表方法是PINs[10](learnable pins: cross-modal embeddings for person identity),该方法通过获取人脸图片和语音片段构建正负例人脸-语音样本对,然后构造个人身份节点,利用对比损失最小化正例样本的空间距离来学习人脸-语音间的嵌入特征. 上述2种方法在一些具有挑战性的实验中,可以达到与人类相当的水平,但是却拥有局限性,即它们所学习出来的特征只能运用于特定的跨模态匹配任务上,当任务更改时网络也需要重新训练.

    随着跨人脸-语音模态关联研究的发展,设计能用于多个跨模态匹配任务的通用特征表示引起注意. 在FV-CME[11](face-voice matching using cross-modal embeddings)中首先利用2个分支网络来分别学习人脸和语音模态下的特征表示,并利用N对损失来规范特征对应. 这种方法虽然可以运用于多种人脸-语音的跨模态匹配任务,但需要大量的参数用于模型的优化. LAFV[12](on learning associations of faces and voices)利用对人脸-语音公共信息的整合,学习交叉模态下的特征关联,从而减少跨模态差异,且可以达到与文献[7,13]中方法相似的结果. DIMNet[5](disjoint mapping network for cross-modal matching of voices and faces)使用不相交映射网络(disjoint mapping network)将关联特征映射到共享协变量中,实现了人脸-语音匹配任务上的性能提升. 然而这种学习需要对大规模训练数据进行标签注释,过程耗时且成本昂贵. 为避免使用三元组损失[14],SSNet[3](deep latent space learning for cross-modal mapping of audio and visual signals)采用类中心学习来探索人脸-语音间的特征关联. 类似的LDJE[15](learning discriminative joint embeddings for efficient face and voice association)通过使用双向五元组约束、身份约束和中心约束训练网络. SSNet和LDJE这2种方法都主要通过中心约束来监督嵌入特征,不能充分地利用潜在语义学习更可靠的跨模态关联.

    得益于深度学习的发展,将表示学习和聚类算法结合是深度神经网络最具前途的方法之一. 而自监督学习作为目前最热门的框架,旨在使用原始特征生成监督网络训练的伪标签,通过潜在特征关联进行学习. 深度聚类DeepCluster[16](online deep clustering for unsupervised representation learning)中引入了学习图像表示的自监督方法,通过对特征无监督聚类的结果约束图像的特征表示. 而将自监督学习运用于跨模态关联,需要考虑模态间自监督学习的可适用性以及跨模态下自监督学习生成特征的异构性.

    本文所提出的双向伪标签自监督学习的跨人脸-语音学习方法总体框架如图1所示,该框架由2个主要模块组成,即跨模态加权残差网络模块和自监督学习模块. 前一个模块旨在学习跨模态公共嵌入特征,生成模态间的通用特征表示;而后一个模块创新性地利用自监督学习方法生成伪标签,并将一种模态下生成的伪标签作为唯一的监督信号去监督另一种模态的特征学习,实现双向伪标签关联. 这2个模块相互结合进行训练,以促进人脸-语音的跨模态关联学习.

    图  1  本文跨人脸-语音模态学习方法的总体架构
    Figure  1.  The overall framework of the proposed cross-modal face-voice learning method

    为了方便对本文的陈述,将对变量及符号进行形式化定义. 人脸数据集和语音数据集分别用Xface={xfacei}Ni=1Xvoice={xvoicei}Ni=1表示,其中N表示样本总数,而xfaceixvoicei表示第i条人脸-语音数据对. 人脸和语音对应着共享的标签集Y={yic}Ni=1,其中yci表示样本i对应有c个标签类别. 通过人脸子网络和语音子网络对样本i的人脸-语音数据进行高级特征提取分别表示为Dface(xfacei)Dvoice(xvoicei).

    人脸-语音由于模态的不同,异构特征间存在着巨大的语义鸿沟. 要想探索跨模态下人脸-语音的关联,如何跨越异构特征之间的语义鸿沟至关重要. 受多模态深度学习[17]启发,双流深度网络能兼容学习和探索异构特征间的通用表示. 现有的人脸-语音方法[9]局限于使用权值共享的单一全连接层获取通用特征,而单层的网络结构无法挖掘人脸-语音特征中的非线性相关性. 为解决这个问题,本文设计了跨模态加权残差网络模块来学习跨模态下异构特征的通用表示. 其思想是使双流深度网络和残差网络结构[18]相结合,在保留原始特征的同时,学习到人脸-语音特征间的非线性相关性. 跨模态加权残差网络结构由2个全连接层(fully connected layer)组成,它们的加权参数分别用ω1ω2表示. 人脸或者语音数据用 {\boldsymbol{x}} 表示,将数据经过2个全连接层处理表示为 FC({\boldsymbol{x}}) = d({\omega _2}\sigma ({\omega _1}{\boldsymbol{x}})) ,其中 \sigma( \cdot ) 为双曲正切激活函数tanh(·) , d( \cdot ) 表示权重丢弃层(dropout layer),用于减少特征冗余,提高网络的泛化能力. 通过人脸和语音子网络提取的特征,将通过共享权重的相同结构进行处理,得到的人脸高级特征和语音高级特征分别定义为

    {\boldsymbol{f}}_i^ * = \sigma ({D^{\rm{face}}}(x_i^{\rm{face}}) + \alpha \cdot FC({D^{\rm{face}}}(x_i^{\rm{face}}))) , (1)
    {\boldsymbol{v}}_i^ * = \sigma ({D^{\rm{voice}}}(x_i^{\rm{voice}}) + \alpha \cdot FC({D^{\rm{voice}}}(x_i^{\rm{voice}}))) , (2)

    其中 \sigma( \cdot ) 可用于避免训练过程中的梯度过度波动,缩放因子 \alpha [19]是一个可学习的参数. 残差网络结构将输出特征进行跳跃连接,在缓解网络梯度消失的同时,使得原始特征得以保留. 而2个模态之间的全连接层进行权值共享,有助于实现模态间的兼容性学习. 基于此,通过跨模态加权残差网络,可以有效地学习人脸-语音模态间异构特征的通用表示.

    对于跨模态嵌入特征的学习,要想建立人脸-语音特征之间的关联,学习器应该将不同模态下的数据映射到一个共同的特征空间中,且需要保证来自相同身份的人脸-语音数据对在特征空间中更加接近,不同身份的人脸-语音对更加疏远. 现有的大多数方法[13,15]都只是利用正则化有限的损失函数来学习人脸-语音间的跨模态对应关系,这在很大程度上忽略了人脸-语音在潜在语义上的关联. 而自监督学习旨在通过探索原始的特征分布产生伪标签,进而训练模型学习潜在语义关联. 因此,基于自监督学习生成的伪标签有利于捕获人脸-语音间的弱相关性.

    本文所提出的架构旨在创新性地利用模态下生成的伪标签信息实现模态间双向监督,并且从每种模态中学习到的伪标签应该很好地与下游任务对应. 为此,本文研究了这样一个假设,即想要捕获跨人脸-语音模态间的对应关系,可以从自监督学习下获取的伪标签中揭示出有效的潜在语义信息. 而为了生成更有效的伪标签监督信号,本文还考虑了人脸-语音数据在2种模态下伪标签分布之间的对应关系. 对于通过跨模态加权残差网络得到的人脸高级特征 {\boldsymbol{f}}_i^ * 和语音高级特征 {\boldsymbol{v}}_i^ * ,它们的特征维度都为 {\mathbb{R}^{1 \times K}} . 因为本文采取小批量训练方案,每个小批量中包含 B 个样本,所以会得到一个 B \times K 维的特征矩阵 {\boldsymbol{M}} . 为消除矩阵 {\boldsymbol{M}} 中特征之间单位和尺度差异的影响,需要对 {\boldsymbol{M}} 进行归一化处理. 定义 \bar {\boldsymbol{x}} \in {\mathbb{R}^{B \times {\text{1}}}} 表示矩阵 {{\boldsymbol{M}}_{(B,K)}} 中的列向量,则其归一化表示为

    {{\boldsymbol{x}}^ * } = {\varepsilon _1} + \frac{{(\bar {\boldsymbol{x}} - \min (\bar {\boldsymbol{x}}))({\varepsilon _2} - {\varepsilon _1})}}{{\max (\bar {\boldsymbol{x}}) - \min (\bar {\boldsymbol{x}})}} , (3)

    其中 {\varepsilon _1} {\varepsilon _2} 的取值分别为−1和1, \max (\bar {\boldsymbol{x}}) \min (\bar {\boldsymbol{x}}) 分别表示列向量 \bar {\boldsymbol{x}} 中的最大特征值和最小特征值. 经过归一化处理后得到特征矩阵 {\boldsymbol{M}}_{(B,K)}^ * ,基于其中 B K 维特征,这里设置特征原型 {\boldsymbol{\eta }} \in {\mathbb{R}^{1 \times K}} . 而 {\boldsymbol{\eta }}的获取需要符合约束条件:

    \mathrm{min}{\displaystyle\sum _{{\begin{aligned}{{\boldsymbol{x}}}'\text{为} {{\boldsymbol M}}^{\ast }{\text{的列向量}};\\{{\boldsymbol{x}}}'\in {\mathbb{R}}^{1\times K}\quad\;\;\;\end{aligned}}}dis({\boldsymbol{\eta}} ,{{\boldsymbol{x}}}')} , (4)

    其中 dis( \cdot , \cdot ) 表示欧氏空间距离. 对于特征矩阵 {{\boldsymbol{M}}^ * } ,为了探索特征空间中的隐式语义,通过设置聚类总数为 q 的无监督算法K-means,对其进行迭代聚类,直至收敛. 因此,特征矩阵 {{\boldsymbol{M}}^ * } 中的 B 个样本将被划分到 q 个簇中,而每个簇在迭代过程中都有其对应的中心特征({{\boldsymbol{o}}_1},{{\boldsymbol{o}}_2},… ,{{\boldsymbol{o}}_q}; {{\boldsymbol{o}}_i} \in {\mathbb{R}^{1 \times K}} ). 我们根据特征向量 {{\boldsymbol{o}}_i} 与特征原型 {\boldsymbol{\eta}} 的空间关系为簇分配伪标签,且需要保证每个簇有自己唯一的伪标签,簇与簇之间的伪标签不存在差异性,所以采用独热编码(one-hot)的方式生成伪标签,过程如图2所示. q 个簇将对应大小为 {{\boldsymbol{L}}_x} \in {\mathbb{R}^{1 \times q}} 的0,1的编码(例如: {{\boldsymbol{L}}_x} = (0,\;0,\;1,\;0,\;0) q = 5 ). 基于簇的 q 个特征向量 {{\boldsymbol{o}}_i} 与特征原型 {\boldsymbol{\eta}} 的欧氏空间距离 dis({{\boldsymbol{o}}_i},{\boldsymbol{\eta}} ) 排序后,为距离 {\boldsymbol{\eta}} 最近的簇分配伪标签向量{{\boldsymbol{L}}_x} = (1,\;0,\;0,\; … \;,0),为距离 {\boldsymbol{\eta}} 最远的簇分配伪标签向量{{\boldsymbol{L}}_x} = (0,\; …, \;0,\;0,\;1). 基于这种空间排序依次为簇分配伪标签,保证了每个簇生成的伪标签是唯一的,且伪标签之间不存在差异性. 因此,批中的 B 个样本根据其所在的簇,通过无监督聚类及簇中心特征和特征原型空间距离约束,被分配伪标签向量 {{\boldsymbol{L}}_x} . 对于自监督学习下的人脸-语音关联,需要保持相同身份的人脸-语音数据在分配伪标签后语义的一致性,同时显示出不相关人脸-语音对的差异性. 本文将从2种模态下获取的伪标签进行跨模态语义关联. 假设第 i 个样本的人脸-语音数据,在通过伪标签分配后得到的伪标签向量分别为 {\boldsymbol{L}}_{\rm{face}}^i {\boldsymbol{L}}_{\rm{voice}}^i ,则跨模态伪标签关联得分表示为

    图  2  基于特征原型的伪标签分配
    Figure  2.  Pseudo-label assignment based on feature prototype
    {S_i} = {\boldsymbol{L}}_{\rm{face}}^i{({\boldsymbol{L}}_{\rm{voice}}^i)^{\rm T}} = \left\{ {\begin{array}{*{20}{c}} 1,&{{\boldsymbol{L}}_{\rm{face}}^i = {\boldsymbol{L}}_{\rm{voice}}^i\;\;,} \\ 0,&{{\boldsymbol{L}}_{\rm{face}}^i \ne {\boldsymbol{L}}_{\rm{voice}}^i\;\;.} \end{array}} \right. (5)

    如当相同身份的人脸-语音样本通过伪标签分配后得到的伪标签相同时,从特征语义上说明了样本的2种模态语义更加相似,因此将给予自监督学习模块得分奖励. 反之,相同样本的人脸-语音数据在2种模态下分配的伪标签不同时,学习模块则没有得分奖励. 通过伪标签关联得分可以反映出自监督学习产生的人脸和语音伪标签之间的对应关系. 基于此,本文构建的伪标签关联损失定义为

    {\mathcal{L}_{{\text{cma}}}} = \frac{1}{B}\sum\limits_{i = 1}^B {\exp ( - {S_i})} , (6)

    其中 B 是小批量学习的样本数, \exp ( \cdot ) 为以 {\text{e}} 为底的指数函数. 模型在训练中,随相同身份的人脸-语音数据通过自监督学习产生的特征语义越接近,伪标签关联得分 S 会越高,伪标签关联损失 {\mathcal{L}_{{\text{cma}}}} 则会更小. 跨模态伪标签关联损失的减小意味着人脸-语音数据通过自监督学习生成的伪标签在跨模态下的语义一致性得以保留,同时为自监督学习的下游任务提供了稳定的伪标签监督信号.

    为理解 {\mathcal{L}_{{\text{cma}}}} 损失的反向传播如何影响特征网络,本文通过获取关联得分时参数矩阵 {\boldsymbol{X}} 的优化进行解释,其优化过程如算法1所示.

    算法1. 参数矩阵优化算法.

    输入: {\boldsymbol{a}} = ({\phi _{\rm{face}}}( {{\boldsymbol{f}}}_i^ * ) \circ {{\boldsymbol{w}}_{\rm{face}}}({{\boldsymbol{L}}_{\rm{face}}})) \in {\mathbb{R}^{K \times 1}}{\boldsymbol{b}} = ({\phi _{\rm{voice}}} ( {\boldsymbol{v}}_i^ * ) \circ {{\boldsymbol{w}}_{\rm{voice}}}({{\boldsymbol{L}}_{\rm{voice}}})) \in {\mathbb{R}^{K \times 1}}{{\boldsymbol{w}}_{\rm{face}}}{{\boldsymbol{w}}_{\rm{voice}}}为伪标签向量分别对应的权重向量, {\phi _{\rm{face}}} {\phi _{\rm{voice}}} 分别为{\boldsymbol{f}}_i^ *{\boldsymbol{v}}_i^ *的特征判别器,设{\boldsymbol{X}} \in {\mathbb{R}^{K \times K}}为待优化参数矩阵;

    输出: S = {{\boldsymbol{a}}^{\rm T}}{\text{exp(}}{\boldsymbol{Xb}}{\text{)}} {\text{exp(}} \cdot {\text{)}} 为逐个元素求指数,方便矩阵求导,基于此对{\boldsymbol{X}}进行优化.

    {\rm{d}}S = {{\boldsymbol{a}}^{\rm T}}{\text{(exp(}}{\boldsymbol{Xb}}{\text{)}} \odot {\text{(}}{\rm{d}}{\boldsymbol{Xb}}{\text{))}}

    ②根据迹\left\{\begin{array}{c}\text{tr(}{{\boldsymbol{A}}}^{{\rm T}}\text{(}{\boldsymbol{B}}\odot {\boldsymbol{C}}\text{))}=\text{tr((}{\boldsymbol{A}}\odot {\boldsymbol{B}}{\text{)}}^{{\rm T}}{\boldsymbol{C}}\text{)},\\ \text{tr(}{\boldsymbol{AB}}\text{)}=\text{tr(}{\boldsymbol{BA}}\text{)};\end{array} \right.

    ③根据导数微分关联{\rm{d}}S = {\text{tr}}\left(\left({\dfrac{{\partial S}}{{\partial {\boldsymbol{X}}}}^{\rm T}}\right){\rm{d}}{\boldsymbol{X}}\right)

    ④基于②和③对①进行优化变换,即优化

    \frac{{\partial S}}{{\partial {\boldsymbol{X}}}} = {{\text{(}}{\boldsymbol{b}}{{\text{(}}{\boldsymbol{a}} \odot {\text{exp(}}{\boldsymbol{Xb}}{\text{))}}^{\rm T}}{\text{)}}^{\rm T}} = {\text{(}}{\boldsymbol{a}} \odot {\text{exp(}}{\boldsymbol{Xb}}{\text{))}}{{\boldsymbol{b}}^{\rm T}} .

    其中对于 {\boldsymbol{f}}_i^* {\boldsymbol{v}}_i^* 将会有判别学习器{\phi _{\rm{face}}} {\phi _{\rm{voice}}} 生成可用特征,并将其用于人脸-语音伪标签向量对应的权重向量得到 {\boldsymbol{a}} {\boldsymbol{b}} \in {\mathbb{R}^{K \times 1}} ,最后通过算法1中的迹变换和微分关联来对参数矩阵 {\boldsymbol{X}} 进行优化.

    值得注意的是,随着当前小批量样本训练的完成,本轮的特征原型{\boldsymbol{ \eta}}将保留并参与下一轮批量训练中特征原型的更新迭代:

    {{\boldsymbol{\eta}} ^{(n)}} \leftarrow {\boldsymbol{\lambda}} {{\boldsymbol{\eta}} ^{(n)}} + (1 - \lambda ){{\boldsymbol{\eta}} ^ * }^{(n - 1)} , (7)

    其中{{\boldsymbol{\eta}} ^ * }表示前 n - 1 轮批量学习中特征原型的平均特征,参数 \lambda =0.9. 特征原型的更新迭代保证了每轮样本的训练特征得以保留,使得更新后的特征原型更具稳定性. 且基于特征原型划分的伪标签在簇数更多时,不会受个别样本特征的干扰,从而生成的伪标签作为跨模态关联的监督信号更具鲁棒性和可解释性.

    基于自监督学习方法生成的人脸-语音伪标签,本文实现跨模态伪标签信号的双向监督,进而增强人脸-语音模态间的语义关联. 对于样本 i 的人脸特征和语音特征,其通过自监督学习得到的人脸伪标签和语音伪标签分别为{\boldsymbol{L}}_{\rm{face}}^i{\boldsymbol{L}}_{\rm{voice}}^i,将其作为对方模态下的监督信号,进而得到双向伪标签关联损失:

    {\mathcal{L}_{{\text{Bi-P}}}} = \sum\limits_{i = 1}^B {\{ \ell ({\phi _{{\rm{face}},{\rm{voice}}}}({\boldsymbol{f}}_i^ * ),{\boldsymbol{L}}_{\rm{voice}}^i)} + \ell ({\phi _{{\rm{face}},{\rm{voice}}}}({\boldsymbol{v}}_i^ * ),{\boldsymbol{L}}_{\rm{face}}^i)\} , (8)

    其中 \ell ( \cdot , \cdot ) 为交叉熵损失,{\phi _{{\rm{face}},{\rm{voice}}}}表示判别学习器. 双向伪标签关联损失从跨模态角度利用2个模态下的伪标签实现跨模态交叉监督,从而同时优化2个模态间的关联损失,增强相同身份的人脸-语音数据对之间的语义相关性,并扩大不相关人脸-语音对之间的差异性. 基于此,双向伪标签关联损失可以有效地挖掘模态间的潜在语义,提高跨模态下生成的人脸-语音关联表示的鲁棒性和模型的泛化能力.

    为了帮助整体网络更好地学习人脸-语音之间的跨模态关联,本文设计并使用了2个辅助损失函数加速模型收敛,促进整体网络的学习.

    1) 身份预测损失. 据文献[5]可知,有限的监督信息能够增强人脸-语音嵌入特征的判别性,同时增强跨模态加权残差网络处理异构特征时的可分离性. 本文基于ID损失和性别约束,通过参数分类器来学习人脸-语音潜在语义的判别性嵌入,其中身份预测损失为:

    {\mathcal{L}_{{\text{id}}}} = \sum\limits_{i = 1}^B {\sum\limits_{c \in \{ ID,g\} } {\{ \ell ({\phi _c}({\boldsymbol{f}}_i^ * ),y_i^c) + \ell ({\phi _c}({\boldsymbol{v}}_i^ * ),y_i^c)\} } } , (9)

    其中 {\phi _c} 对应在ID和性别约束g下的全连接判别学习器. 该损失将用于加速网络模型的收敛,促进跨模态加权残差网络对判别性特征的学习.

    2) 伪标签分布损失. 为了进一步规范2种模态下来自相同身份伪标签之间的一致性,学习框架将训练中 B 个样本的伪标签分布视为一个整体,通过归一化函数softmax获取样本伪标签概率分布. 我们将 B 个样本的人脸和语音数据对应的伪标签概率分布分别表示为 p(f) p(v) ,并基于KL散度(Kullback Leibler divergence)生成跨模态下的伪标签分布损失:

    {\mathcal{L}_{{\text{KL}}}} = \alpha ({F_{{\text{KL}}}}(p(f)\left\| {p(v)} \right.) + {F_{{\text{KL}}}}(p(v)\left\| {p(f)} \right.)) , (10)

    其中 \alpha =0.5, {F_{{\text{KL}}}}( \cdot ) 为KL散度计算函数. 使用{F_{{\text{KL}}}}(p(f)|| {p(v)}) {F_{{\text{KL}}}}(p(v)||{p(f)}) 相结合是为了保持损失的对称性. 有且仅当自监督学习到的人脸-语音伪标签概率分布相同时, {\mathcal{L}_{{\text{KL}}}} =0. 最小化伪标签分布损失是从整体跨模态关联角度,通过相同身份个体的人脸-语音特征更接近,扩展到2个模态下的伪标签分布一致性,使得在自监督模块注重相同身份的人脸-语音对应性学习,从而强制深度网络学习到的跨模态关联特征更具鲁棒性.

    本文构建的整体损失函数表示为

    \mathcal{L}=\mathcal{L}_{\text {cma }}+\gamma_1 \mathcal{L}_{\mathrm{Bi}\text{-}\mathrm{P}}+\gamma_2 \mathcal{L}_{\mathrm{id}}+\mathcal{L}_{\mathrm{KL}}. (11)

    默认情况下, {\gamma _1} {\gamma _2} 的权重系数分别设置为10和0.1. 跨模态伪标签关联损失 {\mathcal{L}_{{\text{cma}}}} 和伪标签分布损失 {\mathcal{L}_{{\text{KL}}}} 的权重系数都设置为1,一方面保证了它们在促进模态间潜在语义特征挖掘中的协同作用,另一方面加速了整体损失函数在训练中更快地迭代与收敛. 本文将每批次训练的样本数设置为128,并选择结合了动量技术、RMSprop(root mean square prop)修正的Adam[20](adaptive moment estimation)方法作为优化模型. 在训练期间,学习率会随着训练轮数的增加而衰减,初始的学习率设置为10−3,衰减到的最小学习率为10−8. 值得注意的是,在实践中,本文通过设置不同簇数 q 来获取多种人脸-语音伪标签,并在实验中通过多种伪标签组合来挖掘人脸-语音间的潜在语义关联,从而探索出更深层的跨模态人脸-语音联系.

    为了充分评估本文所提出算法的有效性,本文在公开的Voxceleb1[21]和VGGFace[22]语音视频数据集上进行实验,并采取基准的评价准则进行量化评估. 具体的实验细节与设置如下.

    Voxceleb1中总计包含10万多条音频和2万多条视频,而VGGFace中包含2622个身份信息. 在实验中,对这2个数据集的数据交集共1225个身份进行数据集划分,其中训练集、验证集和测试集中包含的人物身份个数分别为924,112,189. 为了保证实验评估时的有效性和鲁棒性,本文在实验中选取的训练集和验证集以及测试集之间个体身份信息完全不相交.

    1)人脸数据处理.首先对原始检测的人脸图像进行缩放,然后通过随机裁剪函数进行裁剪,并统一图像大小为224×224×3. 在训练阶段采用概率为50%的随机水平翻转处理. 人脸子网络使用ResNet-34[23]架构实现,最终输出的人脸特征维数为256.

    2)语音数据处理. 语音数据首先通过语音检测函数清洗后除去原始音频中包含的静音片段,然后根据语音片段时长进行裁剪. 如果语音片段时长大于10 s,则随机保留10 s;若片段时长小于10 s,则会随机复制增加语音长度到10 s. 语音处理使用帧长25 ms、帧间隔10 ms的梅尔倒谱系数,并对处理后的语音片段进行归一化处理. 语音子网络采用DIMNet-voice[5]架构实现,最终输出的语音特征维数为256.

    为了验证本文方法的有效性,实验将在4种人脸-语音跨模态匹配任务上进行测试.

    1) 跨模态验证任务

    跨模态验证用来判断给定的人脸数据和语音数据是否属于相同身份,该任务使用曲线下面积(area under curve, AUC)作为唯一的评价指标.

    2) 跨模态检索任务

    在跨模态检索任务中将给定一种模态的待测样本,需要从总数据集中查询与待测样本匹配的正例,所以该任务挑战难度更大. 本任务将采用平均准确率(mean average precision, mAP)作为评价指标.

    3) 1∶2匹配任务

    1∶2匹配任务由人脸图片检索语音片段(F-V)和语音片段检索人脸图片(V-F)这2种情况组成. 对于F-V的1∶2匹配,给定一张人脸图片,需要从2段语音片段中判断出哪个和人脸图片身份相同. 同理可知V-F的1∶2匹配,给定一段语音片段,需要从2张人脸图片中判断出哪个和语音身份相同. 本任务中采用百分制的准确率(accuracy, ACC)作为评价指标.

    4) 1∶N匹配任务

    1∶N匹配任务是1∶2匹配任务的扩展,其将待匹配的样本总数增加到N,且需要从中识别出唯一的正例. 同样地,1∶N匹配也存在F-V和V-F的2种情况,且随着样本总数N的增加,任务难度也逐渐增加. 该任务也采用准确率ACC作为评价指标.

    为了验证本文所提出方法的有效性,将通过3.3节中所涉及的4种跨人脸-语音模态匹配任务进行测试. 值得注意的是,本文所提出的跨模态学习架构,由于伪标签生成跟簇数 q 有关,而不同的伪标签会对学习到的人脸-语音关联表示产生影响,所以在实验中尝试了不同的伪标签组合. 本文实验中使用了簇数分别为8,32,64来生成伪标签,其形式化标记分别对应Bi-Pcm-F(first),Bi-Pcm-S(second),Bi-Pcm-T(third)方法. 除此之外,本文还尝试设置了不同的伪标签组合来探索更多跨人脸-语音模态的潜在语义关联. 本文设置了4种伪标签组合:1)8和32组合;2)8和64组合;3)32和64组合;4)8,32,64组合. 这4种组合分别对应Bi-Pcm-FS,Bi-Pcm-FT,Bi-Pcm-ST,Bi-Pcm-FST方法. 实验中,当不同伪标签数的方法进行组合后,伪标签的分配以及训练的过程并行执行,最后生成的整体损失也将进行叠加.

    1) 跨模态验证

    参考文献[5],本文与现有方法的实验比较如表1所示,实验在不同分类数据上进行. 其中“U”表示人脸-语音数据对没有进行分类,“G”(gender)表示人脸-语音数据对中的2个测试者性别相同,“N”(nationality)表示人脸-语音数据对中的2个测试者的国籍相同,“A”(age)表示人脸-语音数据对中的2个测试者年龄相同. 而对于“GNA”这种情况,则是2个测试者的性别、国籍和年龄都相同. 从表1可知,本文所提出的Bi-Pcm-FST方法相比较于PINs,SSNet方法,实验性能在各个验证任务上平均提升5个百分点. 实验表明本文模型在不同的任务上都更具有效性.

    表  1  跨模态验证任务的AUC值
    Table  1.  AUC Values of Cross-Modal Verification Task
    方法UGNAGNA
    PINs[10]78.561.177.274.958.8
    SSNet[3]78.862.453.173.551.4
    DIMNet-I[5]82.571.081.977.762.8
    DIMNet-IG[5]83.271.281.978.062.8
    本文(Bi-Pcm-FST)85.071.284.379.664.7
    注:U为未分类,G以性别分类,N以国籍分类,A以年龄分类,GNA以性别、国籍和年龄共同分类. 黑体数值表示最佳结果.
    下载: 导出CSV 
    | 显示表格

    2) 跨模态检索

    跨模态检索任务的实验结果如表2所示. 本文在F-V和V-F的2个情景上都进行了检索实验. 为了与未进行学习的特征进行对比,本文在实验中增加了随机情况下(Chance)的实验结果,Chance方法将在跨模态检索以及1∶N匹配任务中使用. 方法Bi-Pcm-FST的平均mAP为6.20,高于目前先进的DIMNet-IG方法将近2个百分点,这说明基于本文的特征表示在面对大量数据检索任务时更具健壮性.

    表  2  跨模态检索中mAP的性能
    Table  2.  Performance mAP of Cross-Modal Retrieval
    方法ChanceF-VV-F平均值
    FV-CME[11]0.462.181.962.07
    VFMR3[24]2.155.00
    DIMNet-I[5]1.074.174.254.21
    DIMNet-IG[5]1.074.234.424.33
    本文(Bi-Pcm-FST)1.016.046.366.20
    注:F-V为人脸图片检索语音片段,V-F为语音片段检索人脸图片,平均表示F-V和V-F的平均值. 黑体数值表示最佳结果.
    下载: 导出CSV 
    | 显示表格

    3) 1∶2匹配

    1∶2匹配在不同分类数据上的测试结果如表3所示,其中数据分组“U”“G”“N”的方式同本节跨模态检索中的描述一致. 此任务共包括2种情景,分别为F-V和V-F. 本文基于不同伪标签组合的Bi-Pcm方法,在2种情景下进行了多组实验以探索多种伪标签语义对人脸-语音关联的影响. 从实验结果可知,本文基于Bi-Pcm-FST的多伪标签组合相比较其他伪标签组合在多种1∶2匹配任务上性能表现更佳,所以本文中其他的对比实验均以Bi-Pcm-FST作为代表. 在1∶2匹配任务中,Bi-Pcm-FST与目前主流的LDJE相比虽然只获得了少量的提升,但是LDJE方法在训练中使用了大量的人为监督标签来构造双向五元组约束,并利用中心约束以及身份约束,本质上过度依赖有监督学习,况且监督标签的获取成本昂贵且十分耗时. 而Bi-Pcm-FST更注重自监督学习生成可用伪标签来代替这些传统的有监督标签,且取得了更好的性能表现,这种获取可用伪标签的方法为跨人脸-语音模态的研究开创了一种更加新颖的思维. 跨模态1∶2匹配的实验结果也表明,本文基于双向伪标签关联的自监督学习能够为人脸-语音探索出更多的潜在语义信息.

    表  3  跨模态1∶2匹配任务的准确率
    Table  3.  ACC on Cross-Modal 1∶2 Matching Task %
    方法F-VV-F
    UGNGNUGNGN
    SVHF[9]79.5063.4081.0063.90
    FV-CME[11]77.8060.8078.1061.70
    LAFV[12]78.6061.6078.2062.90
    PINs[10]83.80
    DIMNet-I[5]83.5271.7882.4170.9083.4570.9181.8769.89
    DIMNet-IG[5]84.0371.6582.9670.7884.1271.3282.6570.39
    LDJE[15]85.4273.5284.4871.1185.1874.2983.9770.70
    Bi-Pcm-F (本文)84.8171.9383.8170.8984.7772.0883.5670.53
    Bi-Pcm-S (本文)84.6572.0583.9671.0784.8072.1183.7270.77
    Bi-Pcm-T (本文)85.1372.2284.0771.1284.8272.3783.8670.69
    Bi-Pcm-FS (本文)85.2772.2884.2571.0885.1172.5584.0270.78
    Bi-Pcm-FT (本文)85.3472.4684.4471.1485.2372.9484.1770.84
    Bi-Pcm-FST (本文)85.8373.0185.0071.4585.6973.3384.2671.10
    注:F-V为人脸图片匹配语音片段,V-F为语音片段匹配人脸图片,U表示未分类,G表示以性别分类,N表示以国籍分类,GN表示以性别和国籍分类. 黑体数值表示当前任务中的最佳结果.
    下载: 导出CSV 
    | 显示表格

    4) 1∶N匹配

    1∶N匹配结果如图3所示. 此项任务随待匹配样本数N的增加,实验难度也进一步增大. 可以发现各项工作的准确率也随N的增加而逐渐降低. 但是Bi-Pcm-FST方法在V-F和F-V两种情景下,与其他主流方法相比,依然具有更好的表现. 由准确率曲线可以发现,Bi-Pcm-FST方法随待匹配样本数N的增加,匹配准确率相比较其他方法衰减得更加平缓,即使在V-F的1∶N匹配任务中难度较大的“G”分组上,当N=6时,匹配准确率也能比主流的DIMNet方法提高2个百分点. 通过1∶N匹配任务的实验结果进一步说明本文架构具有更强的潜在语义挖掘能力.

    图  3  跨模态1∶N匹配的性能对比
    Figure  3.  Comparison of cross-modal 1∶N matching performance

    本文所提出的框架主要由2个模块组成,即跨模态加权残差网络模块和基于双向伪标签关联的自监督学习模块. 使用不同模块的消融实验如表4所示,其中CMWR表示跨模态加权残差网络,id表示可用语义信息的嵌入,self-learn表示自监督学习模块. 从表4中各个模块的消融实验可以发现,当单独使用跨模态加权残差网络或者单独使用自监督学习模块时,虽然整体网络的性能都能有所提升,但是提升幅度很小,例如在跨模态验证任务的“U”分组上只能提升1.7个百分点. 但将2种模块进行结合后,整体性能在“U”分组上提升4个百分点,说明2个模块之间的相互协作对促进整体网络的性能表现有重要的影响. 依次来看,跨模态加权残差网络能够跨越模态间语义鸿沟,从而有效地学习人脸-语音间的关联表示;而基于双向伪标签关联的自监督学习模块可以生成高效伪标签来促进整体网络性能的提升.

    表  4  跨模态验证上的消融实验
    Table  4.  Ablation Studies of Cross-Modal Verification
    方法UGNAGNA
    id81.267.480.677.561.1
    id+self-learn82.768.882.078.662.1
    CMWR+id82.969.582.778.463.3
    CMWR+id+self-learn85.071.284.379.664.7
    注:U为未分类,G以性别分类,N以国籍分类,A以年龄分类,GNA以性别、国籍和年龄共同分类. 黑体数值表示当前任务中的最佳结果.
    下载: 导出CSV 
    | 显示表格

    在本文中,损失函数是用来约束人脸-语音特征表示的关键因素. 因此,实验中进一步研究了损失函数对跨模态匹配性能的影响,图4展示了不同损失函数对F-V跨模态1∶2匹配任务的消融结果. 需要注意,双向伪标签关联损失 {\mathcal{L}_{{\text{Bi-P}}}} 和伪标签分布损失 {\mathcal{L}_{{\text{KL}}}} 的构成都需要跨模态伪标签关联损失 {\mathcal{L}_{{\text{cma}}}} 的协助,所以无法进行将 {\mathcal{L}_{{\text{cma}}}} 单独移除的实验. 从消融结果可以发现,当总体网络缺少 {\mathcal{L}_{{\text{Bi-P}}}} 时,实验准确率下降得最为明显,总体性能下降1.4个百分点,说明双向伪标签关联约束对促进网络性能提升有着重要作用. 消融实验中,移除跨模态分布损失 {\mathcal{L}_{{\text{KL}}}} 后,整体网络性能轻微下降了0.4个百分点. 而 {\mathcal{L}_{{\text{cma}}}} 通过得分奖励机制,使得自监督学习模块生成人脸-语音伪标签,进而参与 {\mathcal{L}_{{\text{Bi-P}}}} {\mathcal{L}_{{\text{KL}}}} 来约束跨模态特征学习. 因此,在移除 {\mathcal{L}_{{\text{cma}}}} 后将无法得到伪标签. 除此之外,从图4中关于 {\mathcal{L}_{{\text{cma}}}} 的单独消融实验可知,当使用 {\mathcal{L}_{{\text{cma}}}} 时整体网络性能只有微小的提高,其原因是只基于 {\mathcal{L}_{{\text{cma}}}} 产生的伪标签并没有被用于下游任务中,而将 {\mathcal{L}_{{\text{cma}}}} 生成伪标签用于 {\mathcal{L}_{{\text{Bi-P}}}} {\mathcal{L}_{{\text{KL}}}} 时,整体网络性能才能有不错的提升,说明 {\mathcal{L}_{{\text{cma}}}}更多的作用是辅助获取高效稳定的跨模态伪标签用于下游任务的学习.

    图  4  在1∶2匹配任务上损失函数的消融实验
    Figure  4.  Ablation studies of loss function on 1∶2 matching task

    综上所述, {\mathcal{L}_{{\text{cma}}}} 帮助自监督模块生成高效伪标签用于下游任务, {\mathcal{L}_{{\text{Bi-P}}}} 将利用上游伪标签挖掘潜在语义关联,而 {\mathcal{L}_{{\text{KL}}}} 将辅助 {\mathcal{L}_{{\text{Bi-P}}}} 提高特征关联的有效性. 跨模态匹配任务的实验表现和消融结果说明了本文的多种损失相互协助,相比较现有的方法,可在多种跨人脸-语音匹配任务上取得更佳的性能表现.

    对于跨模态检索任务,具有代表性的V-F检索结果如图5所示,其中与语音身份相同的人脸图片已由加粗方框标注. 从跨模态检索结果可以发现,即使待检索样本规模为整个数据集时,本文在跨模态检索任务上依然取得了不错的性能表现.

    图  5  跨模态检索结果
    Figure  5.  Cross-modal retrieval results

    此外,如图6所示,本文进一步利用t-SNE[25](t-distributed stochastic neighbor embedding)算法对学习到的高维人脸-语音嵌入特征进行2维可视化,其中相同颜色的数据点来自同一身份样本. 图6(a)是初始特征分布,人脸特征与语音特征由于模态间差异,被划分为2类,但是模态内的这2种特征却因没有进行辨别性学习而被混淆在一起. 图6(b)是通过本文方法学习后的结果,可以明显看出相同身份的人脸和语音特征的空间分布更为接近,且不同身份的特征之间更加地疏远,说明本文中基于双向伪标签关联的自监督学习方法确实能学习到更具判别性的跨模态特征.

    图  6  嵌入特征的t-SNE可视化
    Figure  6.  Visualization of embedding characteristics on t-SNE

    为了验证 {\mathcal{L}_{{\text{cma}}}} 损失可实现跨模态数据的编码,本文进行了人脸-语音伪标签相似度匹配实验. 如图7所示,我们在训练集和测试集上分别对样本的人脸-语音伪标签进行了相似度统计. 本文共用到3种伪标签数:8,32,64. 伪标签数为8时,虽然实验收敛得更快,但是最后得到的伪标签相似度低(准确率约77%);伪标签数为64时,网络虽然收敛更慢,但是获得的伪标签相似度更高(准确率约81%). 综上, {\mathcal{L}_{{\text{cma}}}} 损失可以帮助实现高效的跨模态数据编码.

    图  7  基于{\mathcal{L}_{{\text{cma}}}} 损失的人脸-语音伪标签相似度
    Figure  7.  Face-voice pseudo-label similarity based on cma-loss

    为了验证本文 {\mathcal{L}_{{\text{Bi-P}}}} 对模型泛化能力的影响,本文在现有的训练集基础上减少了100个人脸-语音数据进行模型重新训练,并在测试集上评估. 泛化能力评估实验结果如图8所示,当使用全部的损失后,V-F的1∶2匹配任务上实验准确率只下降了0.6个百分点,但是在移除 {\mathcal{L}_{{\text{Bi-P}}}} 损失后,实验准确率下降了1.3个百分点,说明 {\mathcal{L}_{{\text{Bi-P}}}} 能保证模型的泛化能力尽可能得到保留,验证了 {\mathcal{L}_{{\text{Bi-P}}}}能够提高跨模态下生成的人脸-语音关联表示的鲁棒性和模型的泛化能力.

    图  8  在1∶2匹配任务上的泛化能力评估
    Figure  8.  Generalization ability assessment on 1∶2 matching task

    本文提出了基于双向伪标签自监督学习的方法,该方法可有效地用于人脸-语音跨模态关联和匹配. 首先构建了跨模态加权残差网络来学习人脸-语音间的共享嵌入,然后创新性地提出双向伪标签关联方法生成高效伪标签,并用其监督人脸-语音实现潜在语义学习. 本文获得的模态间增强语义嵌入可适用于各种人脸-语音匹配任务. 与现有工作比较,本文在大量跨模态匹配任务中都取得了最佳的性能表现.

    作者贡献声明:朱明航负责算法设计与实验;柳欣负责模型优化和算法分析;于镇宁负责模型可行性分析;徐行负责算法优化;郑书凯负责实验多样性分析.

  • 图  1   AFP方法的步骤

    Figure  1.   The steps of AFP

    图  2   WD上模式排序算法流程图

    Figure  2.   Flow chart of algorithm for pattern ordering on WD

    图  3   迭代清洗算法流程图

    Figure  3.   Flow chart of iterative cleaning algorithm

    图  4   二分类器更新算法流程图

    Figure  4.   Flow chart of updateDiscriminator

    图  5   噪音水平10%时准确率随置信度阈值的变化

    Figure  5.   acc changing with ct at noise level 10%

    图  6   噪音水平30%时准确率随置信度阈值的变化

    Figure  6.   acc changing with ct at noise level 30%

    图  7   噪音水平10%时准确率随正相关阈值的变化

    Figure  7.   acc changing with rt at noise level 10%

    图  8   噪音水平30%时准确率随正相关阈值的变化

    Figure  8.   acc changing with rt at noise level 30%

    图  9   噪音水平10%时准确率随阈值ε的变化

    Figure  9.   acc changing with threshold ε at noise level 10%

    图  10   噪音水平30%时准确率随阈值ε的变化

    Figure  10.   acc changing with threshold ε at noise level 30%

    图  11   噪声5%的消融实验

    Figure  11.   Ablation experiment at noise level 5%

    图  12   噪声10%的消融实验

    Figure  12.   Ablation experiment at noise level 10%

    图  13   噪声20%的消融实验

    Figure  13.   Ablation experiment at noise level 20%

    图  14   噪声30%的消融实验

    Figure  14.   Ablation experiment at noise level 30%

    图  15   噪声40%的消融实验

    Figure  15.   Ablation experiment at noise level 40%

    图  16   真实数据集上的消融实验

    Figure  16.   Ablation experiment on real dataset

    图  17   在SCHE上噪声5%时的性能比较

    Figure  17.   Performance comparison over SCHE at noise level 5%

    图  18   SCHE上噪声10%时的性能对比

    Figure  18.   Performance comparison over SCHE at noise level 10%

    图  19   SCHE上噪声20%时的性能对比

    Figure  19.   Performance comparison over SCHE at noise level 20%

    图  20   SCHE上噪声30%时的性能对比

    Figure  20.   Performance comparison over SCHE at noise level 30%

    图  21   SCHE上噪声40%时的性能对比

    Figure  21.   Performance comparison over SCHE at noise level 40%

    图  22   SMIT上噪声5%时的性能对比

    Figure  22.   Performance comparison over SMIT at noise level 5%

    图  23   SMIT上噪声20%时的性能对比

    Figure  23.   Performance comparison over SMIT at noise level 20%

    图  24   SMIT上噪声40%时的性能对比

    Figure  24.   Performance comparison over SMIT at noise level 40%

    表  1   CHE和CHW实验数据集中的异常标签

    Table  1   Abnormality Labels in CHE and CHW Datasets

    标签名 标签名
    心房颤动 室性期前收缩
    窦性心动过缓交界性期前收缩
    窦性心律不齐左前分支阻滞
    I度房室传导阻滞左心室肥大
    窦性心动过速下壁心肌梗死
    前间壁心肌梗死完全性左束支阻滞
    左心房肥大不完全性右束支阻滞
    完全性右束支阻滞房性期前收缩
    下载: 导出CSV

    表  2   本文中主要符号含义

    Table  2   Meanings of Key Notations in Our Paper

    符号含义
    U=\{l^1,…,l^{\,k},…,l^{\,u}\} 所有异常(标签)
    objfk实例,特征
    ftob实例ob的特征向量
    EDWD示例数据集、弱标签数据集
    CD干净数据集
    TDEDWD中锚标签样本形成的数据集
    clobi),rlobiobi的弱标签集和相关标签集
    al(ob)实例ob的锚标签集
    \overline {ED}l),\underline {ED}lED中含和不含标签l的样本
    \overline {WD} l),\underline {WD} lWD中含和不含标签l的样本
    {\overline {FC} ^{}} l),{\underline {FC} ^{}}l标签l的正样本和负样本上的所有类簇
    {\overline C _i}l),{\underline {C}_{\,i} }l标签l的正样本和负样本上的第i个类簇
    fpjll对应的第j个异常特征模式
    \overline {FP} l),FPll正样本和负样本上异常特征模式集
    fql标签l在数据集上的出现次数
    AWDFP1FP2异常特征模式集合FP1FP2的平均Wasserstein距离
    supp,conf,cort支持度、置信度和正相关度
    stctrt支持度、置信度和正相关度的阈值
    drobl标签l属于实例ob的判别比
    \theta^{\,l}标签l属于实例的分割阈值
    \rho^{\,l} 标签l属于实例的模糊间隔长度
    lfob实例ob的生存指数
    下载: 导出CSV

    表  3   MIT-BIH数据集中的异常标签

    Table  3   Abnormality Labels in MIT-BIH Dataset

    标签名 标签名
    左束支传导阻滞 右束支传导阻滞
    心室融合心跳房性期前收缩
    交界性逸搏正常心跳
    室性期前收缩异常房性早搏
    下载: 导出CSV

    表  4   TP, FP, FN的含义

    Table  4   Meanings of TP, FP and FN

    指标名称含义
    TP将正例预测为正例的数量
    FP将负例预测为正例的数量
    FN将正例预测为负例的数量
    下载: 导出CSV

    表  5   真实数据集上AFP,CV,DDF方法的对比

    Table  5   Comparison of AFP, CV and DDF on Real Dataset %

    方法precisionrecallF1df1
    不清洗57.7455.9555.24
    AFP62.7060.4560.435.19
    CV-S161.1556.0356.301.06
    CV-S258.2655.6955.460.22
    CV-S358.5956.5155.07−0.17
    DDF63.6557.4158.373.13
    下载: 导出CSV
  • [1]

    World Health Organization. Cardio-vascular diseases (CVDs) [EB/OL]. [2021-06-11]. https:// www.who.int/en/news-room/fact-sheets/detail/cardiovascular-diseases-(cvds)

    [2]

    Liu Feifei, Liu Chengyu, Zhao Lina, et al. An open access database for evaluating the algorithms of electrocardiogram rhythm and morphology abnormality detection[J]. Journal of Medical Imaging and Health Informatics, 2018, 8(7): 1368−1373 doi: 10.1166/jmihi.2018.2442

    [3] 杨虎. 心肌梗死心电图诊断与进展[M]//心电图专业人员培训教材. 北京: 北京大学医学出版社, 2005: 18−34

    Yang Hu. Diagnosis of myocardial infarction in electrocardiogram and recent progress [M]//Course Book of Electrocardiogram Specialty. Beijing: Beijing University Medical Press, 2005: 18−34 (in Chinese)

    [4] 田枫,沈旭昆. 弱标签环境下基于语义邻域学习的图像标注[J]. 计算机研究与发展,2014,51(8):1821−1832

    Tian Feng, Shen Xukun. Image annotation by semantic neighborhood learning from weakly labeled dataset[J]. Journal of Computer Research and Development, 2014, 51(8): 1821−1832 (in Chinese)

    [5] 金林鹏,董军. 面向临床心电图分析的深层学习算法研究[J]. 中国科学:信息科学,2015,45(3):398−416

    Jin Linpeng, Dong Jun. Deep learning research on clinical electrocardiogram analysis[J]. SCIENTIA SINICA Informationis, 2015, 45(3): 398−416 (in Chinese)

    [6] 郑伟哲,仇鹏,韦娟. 弱标签环境下基于多尺度注意力融合的声音识别检测[J]. 计算机科学,2020,47(5):120−123

    Zheng Weizhe, Qiu Peng, Wei Juan. Sound recognition and detection based on multi-scale attention fusion in weak label environment[J]. Computer Science, 2020, 47(5): 120−123 (in Chinese)

    [7]

    Li Yaoguang, Cui Wei. Identifying the mislabeled training samples of ECG signals using machine learning[J]. Biomedical Signal Processing and Control, 2019, 47: 168−176 doi: 10.1016/j.bspc.2018.08.026

    [8]

    Pasolli E, Melgani F. Genetic algorithm-based method for mitigating label noise issue in ECG signal classification[J]. Biomedical Signal Processing and Control, 2015, 19: 130−136 doi: 10.1016/j.bspc.2014.10.013

    [9]

    Clifford G D, Liu Chengyu, Moody B, et al. AF classification from a short single lead ECG recording: The PhysioNet/computing in cardiology challenge 2017[C/OL]//Proc of the 18th Computing in Cardiology(CinC). Piscataway, NJ: IEEE, 2017[2022-02-02]. https://cinc.org/archives/ 2017/pdf/065−469.pdf

    [10]

    Cristina G V, Alexander B, Oriella G, et al. Two will do: Convolutional neural network with asymmetric loss, self-learning label correction, and hand-crafted features for imbalanced multi-label ECG data classification[C/OL]//Proc of the 22nd Computing in Cardiology. Piscataway, NJ: IEEE, 2021[2022-02-02]. https://www.cinc.org/archives/ 2021/pdf/CinC2021−024.pdf

    [11]

    Frenay B, Verleysen M. Classification in the presence of label noise: A survey[J]. IEEE Transactions on Neural Networks and Learning Systems, 2014, 25(5): 845−869 doi: 10.1109/TNNLS.2013.2292894

    [12]

    Han Yufei, Sun Guolei, Shen Yun, et al. Multi-label learning with highly incomplete data via collaborative embedding[C]//Proc of the 24th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2018: 1494−1503

    [13]

    Wu Lei, Jin Rong, Jain A K. Tag completion for image retrieval[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(3): 716−727 doi: 10.1109/TPAMI.2012.124

    [14]

    Zhou Zhihua. A brief introduction to weakly supervised learning[J]. National Science Review, 2017, 5(1): 44−53

    [15]

    Varma P, Ré C. Snuba: Automating weak supervision to label training data[J]. Proceedings of the VLDB Endowment, 2018, 12(3): 223−236 doi: 10.14778/3291264.3291268

    [16]

    Lee W S, Liu Bing. Learning with positive and unlabeled examples using weighted logistic regression[C]//Proc of the 20th Int Conf on Machine Learning. Palo Alto, CA: AAAI, 2003: 448−455

    [17]

    Na B, Kim H, Song K, et al. Deep generative positive-unlabeled learning under selection bias[C]// Proc of the 29th ACM Int Conf on Information and Knowledge Management. New York: ACM, 2020: 1155–1164

    [18]

    Dong Haochen, Li Yufeng, Zhou Zhihua. Learning from semi-supervised weak-label data [C]// Proc of the 32nd AAAI on Artificial Intelligence. Palo Alto, CA: AAAI, 2018: 2926−2933

    [19] 丁家满,刘楠,周蜀杰,等. 基于正则化的半监督弱标签分类方法[J]. 计算机学报,2022,45(1):69−81

    Ding Jiaman, Liu Nan, Zhou Shujie, et al. Semi-supervised weak-label classification method by regularization[J]. Chinese Journal of Computers, 2022, 45(1): 69−81 (in Chinese)

    [20]

    Ding Hu, Xu Jinhui. Random gradient descent tree: A combinatorial approach for SVM with outliers [C]// Proc of the 29th AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2015: 2561−2567

    [21]

    Xu Guibiao, Cao Zheng, Hu Baogang, et al. Robust support vector machines based on the rescaled hinge loss function[J]. Pattern Recognition, 2017, 63: 139−148 doi: 10.1016/j.patcog.2016.09.045

    [22]

    He Fengxiang, Liu Tongliang, Geoffrey I W, et al. Instance-dependent PU learning by Bayesian optimal relabeling [J]. arXiv preprint, arXiv: 1808. 02180, 2018

    [23]

    Basile T M A, Mauro N D, Esposito F, et al. Density estimators for positive-unlabeled learning[M]// New Frontiers in Mining Complex Patterns. Berlin: Springer, 2017: 49−64

    [24]

    Chaudhari S, Shevade S. Learning from positive and unlabelled examples using maximum margin clustering[C]// LNCS 7665: Proc of the 19th Int Conf on Neural Information Processing. Berlin: Springer, 2012: 465−473

    [25]

    Gong Chen, Shi Hong, Liu Tongliang, et al. Loss decomposition and centroid estimation for positive and unlabeled learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(3): 918−932 doi: 10.1109/TPAMI.2019.2941684

    [26]

    Zhang Minling, Zhou Zhihua. A review on multi-label learning algorithms[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(8): 1819−1837 doi: 10.1109/TKDE.2013.39

    [27]

    Gibaja E, Ventura S. A tutorial on multilabel learning[J]. ACM Computing Surveys, 2015, 47(3): 1−38

    [28]

    Boutell M R, Luo Jiebo, Shen Xipeng, et al. Learning multi-label scene classification[J]. Pattern Recognition, 2004, 37(9): 1757−1771 doi: 10.1016/j.patcog.2004.03.009

    [29]

    Read J, Pfahringer B, Holmes G, et al. Classifier chains for multi-label classification[J]. Machine Learning, 2011, 85(3): 333−359 doi: 10.1007/s10994-011-5256-5

    [30]

    Fürnkranz J, Hüllermeier E, Mencía E L, et al. Multilabel classification via calibrated label ranking[J]. Machine Learning, 2008, 73(2): 133−153 doi: 10.1007/s10994-008-5064-8

    [31]

    Tsoumakas G, Katakis I, Vlahavas I. Random K-Labelsets for multi-label classification[J]. IEEE Transactions on Knowledge and Data Engineering, 2011, 23(7): 1079−1089 doi: 10.1109/TKDE.2010.164

    [32]

    Zhang Minling, Zhou Zhihua. ML-KNN: A lazy learning approach to multi-label learning[J]. Pattern Recognition, 2007, 40(7): 2038−2048 doi: 10.1016/j.patcog.2006.12.019

    [33]

    Clare A, King R D. Knowledge discovery in multi-label phenotype data[C]//Proc of the 5th European Conf on Principles of Data Mining and Knowledge Discovery. Berlin: Springer, 2001: 42−53

    [34]

    Elisseeff A, Weston J. A kernel method for multi-labelled classification[C]// Proc of the 14th Int Conf on Neural Information Processing Systems: Natural and Synthetic. Cambridge, MA: MIT Press, 2001: 681−687

    [35] 李峰,苗夺谦,张志飞,等. 基于互信息的粒化特征加权多标签学习K近邻算法[J]. 计算机研究与发展,2017,54(5):1024−1035

    Li Feng, Miao Duoqian, Zhang Zhifei, et al. Mutual information based granular feature weighted k-nearest neighbors algorithm for multi-label learning[J]. Journal of Computer Research and Development, 2017, 54(5): 1024−1035 (in Chinese)

    [36]

    Liu Tongliang, Tao Dacheng. Classification with noisy labels by importance reweighting[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(3): 447−461 doi: 10.1109/TPAMI.2015.2456899

    [37]

    Himanshu K, Naresh M, Sastry P S. Robust learning of multi-label classifiers under label noise[C]// Proc of the 7th ACM India Special Interest Group on Knowledge Discovery and Data Mining. New York: ACM, 2020: 90−97

    [38] 陈庆强,王文剑,姜高霞. 基于数据分布的标签噪声过滤[J]. 清华大学学报:自然科学版,2019,59(4):262−269

    Chen Qingqiang, Wang Wenjian, Jiang Gaoxia. Label noise filtering based on the data distribution[J]. Journal of Tsinghua University: Science and Technology, 2019, 59(4): 262−269 (in Chinese)

    [39]

    Han Jingyu, Sun Guangpeng, Song Xinhai, et al. Detecting ECG abnormalities using an ensemble framework enhanced by Bayesian belief network[J]. Biomedical Signal Processing and Control, 2022, 72(A): 103320

    [40]

    Liu F T, Ting K M, Zhou Zhihua. Isolation-based anomaly detection[J]. ACM Transactions on Knowledge Discovery from Data, 2012, 6(1): 1−39

    [41]

    Ferguson T S. A Bayesian analysis of some nonparametric problems[J]. The Annals of Statistics, 1973, 1(2): 209−230

    [42]

    David M B, Michael I J. Variational methods for the Dirichlet process[C]// Proc of the 21st Int Conf on Machine Learning. New York: ACM, 2004: 89−96

    [43]

    Černý V. Thermo dynamical approach to the traveling salesman problem: An efficient simulation algorithm[J]. Journal of Optimization Theory and Applications, 1985, 45: 41−51 doi: 10.1007/BF00940812

    [44]

    Han Jiawei, Kamber M, Pei Jian. Data Mining: Concepts and Techniques[M]. 3rd ed. San Francisco: Morgan Kaufmann, 2012: 38−47

    [45]

    George M, Roger M. MIT-BIH Arrhythmia Database [DB/OL]. (2005-02-24)[2021-03-07]. https://physionet.org/content/mitdb/1.0.0/

  • 期刊类型引用(1)

    1. 张凯威,张玲. 颜色感知的双通道反射消除算法. 计算机系统应用. 2025(03): 277-285 . 百度学术

    其他类型引用(1)

图(24)  /  表(5)
计量
  • 文章访问数:  173
  • HTML全文浏览量:  39
  • PDF下载量:  92
  • 被引次数: 2
出版历程
  • 收稿日期:  2022-04-24
  • 修回日期:  2022-12-08
  • 网络出版日期:  2023-07-31
  • 刊出日期:  2023-11-14

目录

/

返回文章
返回