Processing math: 8%
  • 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

基于区块链和可信执行环境的属性签名身份认证方案

冉津豪, 蔡栋梁

冉津豪, 蔡栋梁. 基于区块链和可信执行环境的属性签名身份认证方案[J]. 计算机研究与发展, 2023, 60(11): 2555-2566. DOI: 10.7544/issn1000-1239.202330268
引用本文: 冉津豪, 蔡栋梁. 基于区块链和可信执行环境的属性签名身份认证方案[J]. 计算机研究与发展, 2023, 60(11): 2555-2566. DOI: 10.7544/issn1000-1239.202330268
Ran Jinhao, Cai Dongliang. Attribute Signature Identity Authentication Scheme Based on Blockchain and Trusted Execution Environment[J]. Journal of Computer Research and Development, 2023, 60(11): 2555-2566. DOI: 10.7544/issn1000-1239.202330268
Citation: Ran Jinhao, Cai Dongliang. Attribute Signature Identity Authentication Scheme Based on Blockchain and Trusted Execution Environment[J]. Journal of Computer Research and Development, 2023, 60(11): 2555-2566. DOI: 10.7544/issn1000-1239.202330268
冉津豪, 蔡栋梁. 基于区块链和可信执行环境的属性签名身份认证方案[J]. 计算机研究与发展, 2023, 60(11): 2555-2566. CSTR: 32373.14.issn1000-1239.202330268
引用本文: 冉津豪, 蔡栋梁. 基于区块链和可信执行环境的属性签名身份认证方案[J]. 计算机研究与发展, 2023, 60(11): 2555-2566. CSTR: 32373.14.issn1000-1239.202330268
Ran Jinhao, Cai Dongliang. Attribute Signature Identity Authentication Scheme Based on Blockchain and Trusted Execution Environment[J]. Journal of Computer Research and Development, 2023, 60(11): 2555-2566. CSTR: 32373.14.issn1000-1239.202330268
Citation: Ran Jinhao, Cai Dongliang. Attribute Signature Identity Authentication Scheme Based on Blockchain and Trusted Execution Environment[J]. Journal of Computer Research and Development, 2023, 60(11): 2555-2566. CSTR: 32373.14.issn1000-1239.202330268

基于区块链和可信执行环境的属性签名身份认证方案

基金项目: 国家重点研发计划(2019YFB2101703);国家自然科学基金项目(62272107,U19A2066);上海市科技创新行动计划(21511102200);广东省重点领域研发计划(2020B0101090001)
详细信息
    作者简介:

    冉津豪: 1999年生. 硕士研究生. 主要研究方向为区块链、属性基密码、可信执行环境

    蔡栋梁: 2000年生. 博士研究生. 主要研究方向为区块链、属性基密码、零知识证明

    通讯作者:

    蔡栋梁(22110240060@m.fudan.edu.cn

  • 中图分类号: TP399

Attribute Signature Identity Authentication Scheme Based on Blockchain and Trusted Execution Environment

Funds: This work was supported by the National Key Research & Development Program of China (2019YFB2101703),the National Natural Science Foundation of China (62272107,U19A2066) ,the Innovation Action Plan of Shanghai Science and Technology (21511102200),the Key-Area Research and Development Program of Guangdong Province (2020B0101090001).
More Information
    Author Bio:

    Ran Jinhao: born in 1998. Master candidate. His main research interests include blockchain, attribute based encryption, and trusted execution environment

    Cai Dongliang: born in 2000. PhD candidate. His main research interests include blockchain, attribute based encryption, and zero-knowledge proof

  • 摘要:

    身份认证是当前数字化世界中广泛应用的一项技术,对于流量至上的时代,安全而便捷的身份验证方案对于应用服务吸引用户是至关重要的. 去中心化身份通过使用完全去中心化的技术如区块链,让用户完全控制自己的身份. 为了进一步提高身份认证的安全性与便捷性,提出一种基于区块链和可信执行环境(TEE)的属性签名身份认证方案. 现有的身份验证方法存在用户身份凭证管理繁重、安全性不足等问题. 用户利用属性签名生成指向应用服务的持久性凭据,并且凭据是可扩充的. 而用户反复扩充凭据的过程相比单次生成凭据保存更有被攻击者植入木马的风险,可信执行环境则可以在签名过程中提供硬件级别的保护,避免中间参数的泄露. 同时还用较小的额外验证代价实现了对用户身份泄露、冒用的审计,进一步提高了方案的安全性.

    Abstract:

    Identity authentication is a technology widely used in the current digital world. In the era of traffic supremacy, a secure and convenient identity authentication solution is crucial for attracting users to application services. Decentralized identity gives users complete control over their identity by using a fully decentralized technology such as blockchain. In order to further improve the security and convenience of identity authentication, an attribute signature authentication scheme based on blockchain and trusted execution environment is proposed. Existing identity verification methods have problems such as heavy management of user identity certificates and insufficient security. Attribute signatures are used by users to generate persistent credentials pointing to application services, and credentials are extensible. In the process of repeatedly expanding credentials, the user is more likely to be implanted with a Trojan horse than a single generation of credentials. The trusted execution environment can provide hardware-level protection during the signing process to avoid the leakage of intermediate parameters. At the same time, the audit of user identity leakage and fraudulent use is realized with a small additional verification cost, which further improves the security of the scheme.

  • 神经认知学研究表明人类在视听信息感知的时候具有将人脸和语音进行关联的能力. 例如,当人们在跟朋友打电话时,虽然只能听见对方的声音,但是脑海中会下意识地构建出他们的样貌特征,以及当看到好友的照片时,能瞬间回忆起对方熟悉的声音. 心理学研究将人类这种跨人脸-语音的交互能力称为“麦格克效应”[1],其表明人在跟外界交谈时,能够在人脸信息和语音信息之间进行交互关联. 同时,大量神经科学研究表明,人类的大脑存在着多个模块感知区域[2],这些区域之间通过脑神经连接来并行处理信息,其中视觉模块跟听觉模块的神经连接通路更为紧密. 基于此,人们可以较好地对人脸与语音进行跨模态感知,例如当人们在观看有声电视节目时,能以较高的准确率从当前说话人声音中匹配出正确的人物身份. 在跨模态生物特征感知方面,人脸信息跟语音信息都能有效地作为刻画人物特定语义的特征载体,比如说身份、性别、年龄、种族和国籍等,这些反映特定语义的生物特征信息可以隐式地从人脸或语音信息中进行提取,从而基于人脸和语音的跨模态交互关联研究具有一定的可行性.

    上述现象表明,人脸信息与语音信息之间存在显著的关联特性. 因此,有效的人脸-语音相关性挖掘和跨模态匹配研究能够促进认知科学和人工智能技术创新实践的发展,具有重要的现实意义. 受此启发,越来越多的研究者认识到探索人脸-语音关联的研究已迫在眉睫. 该研究有广阔的应用前景,例如基于语音视频的说话人身份标注、视频人脸及语音信息时态同步和基于声音的人脸面部特征还原等[3-5]. 从国内外研究进展分析,目前的跨人脸-语音模态的研究还依然处于起步阶段[6],大量人脸-语音关联语义的研究等待着人们去探索.

    跨人脸-语音模态关联性学习方法的研究作为一项新颖的课题,存在着许多具有挑战性的任务. 一些方法[7]虽然也对人脸-语音进行了关联性学习,但在跨模态匹配任务的表现中只取得了比随机概率略好的性能表现. 根据现有的人脸-语音关联学习方法,目前跨人脸-语音模态的研究依然面临着3个主要挑战:1) 样本复杂性,人脸样本和语音样本分别通过不同的传感器获取,它们的特征属性及数据类型完全不同,因此无法直接进行人脸-语音特征间的交互关联,从而导致语义表征间存在着巨大的语义鸿沟. 2) 监督信息匮乏,基于有限的标签信息去监督人脸-语音特征,挖掘出的跨模态特征表示过度依赖于人为监督,导致获取的跨模态连接并不可靠,从而无法得到模态间紧密的语义关联. 同时基于有监督的标签生成需要人工的手动注释,其过程繁琐且成本高昂. 3) 语义关联不足,现有的大多数人脸-语音跨模态关联方法只是利用损失函数进行简单的特征关联,其从本质上忽略了人脸-语音模态间潜在语义的关联特性,且无法满足实际应用的需求.

    针对上述挑战,设计一种可以利用潜在语义促进跨人脸-语音模态关联性学习的方法尤为重要. 值得注意的是,自监督学习旨在通过对原始数据特征中潜在语义的挖掘生成伪标签进而监督整体特征学习,这种从数据本身出发学习特征表示的方法为跨模态关联学习提供了借鉴意义.

    基于自监督学习对潜在语义挖掘的思想,本文提出了一种基于双向伪标签自监督学习的跨人脸-语音匹配方法(cross face-voice matching method via bi-pseudo label based self-supervised learning, Bi-Pcm),用于跨模态下的人脸-语音关联与匹配. 具体来说,首先,设计了一个跨模态加权残差网络(cross-modal weighted residual network, CMWR)模块,在解决人脸-语音特征异构性的同时,学习到模态间的共享嵌入特征. 接着引入自监督学习模块,通过人脸和语音特征间的潜在语义生成伪标签,实现跨模态下的双向监督,进而获取潜在语义关联. 然后,本文对2种模态下生成的伪标签构建关联损失,约束伪标签生成,从而获取基于潜在语义生成的强跨模态嵌入. 最后,通过本文方法获取的跨模态表示将在所有人脸-语音跨模态匹配任务上进行测评. 本文的主要贡献包括4点:

    1) 提出了一种新颖的基于双向伪标签自监督学习的方法用于获取人脸-语音间的跨模态关联. 据文献[6-7]所知,本文提出的方法是利用伪标签来促进跨人脸-语音模态下的关联性学习.

    2) 设计了一种高效的伪标签生成方法,旨在利用特征空间的关联促进潜在语义对齐,增强相同人脸-语音特征相关性,并扩大不相关人脸-语音之间的特征差异,从而生成高质量伪标签进行监督约束.

    3) 创新性地提出了一种基于自监督跨模态学习框架来获取人脸-语音间的共享特征嵌入,并通过一种模态的伪标签语义作为监督信号来监督另一种模态的特征学习,从而高效地进行跨模态语义关联.

    4) 大量实验结果表明,本文方法相比较于现有的跨人脸-语音匹配工作,可扩展性更强,并在多个跨人脸-语音模态匹配任务上都取得了全面的提升.

    人类面部视觉及语音信息是人机交互过程中最为直接和灵活的方式,因此基于人脸和语音的跨模态感知吸引了研究学者的广泛关注. 从生物特征角度来看,来自相同身份的人脸和语音数据,对应着许多相似的语义特征,例如性别、种族还有年龄[8],因此人脸和语音具有表征相同身份的语义关联信息. 目前基于人脸-语音关联特征的方法主要分为2类: 基于分类损失和基于空间距离度量. 基于分类损失的代表方法是SVHF[9](seeing voices and hearing faces: cross-modal biometric matching),它利用卷积神经网络(convolutional neural network, CNN)架构学习人脸-语音间的关联表示,进而解决跨模态匹配任务. 基于空间距离度量的代表方法是PINs[10](learnable pins: cross-modal embeddings for person identity),该方法通过获取人脸图片和语音片段构建正负例人脸-语音样本对,然后构造个人身份节点,利用对比损失最小化正例样本的空间距离来学习人脸-语音间的嵌入特征. 上述2种方法在一些具有挑战性的实验中,可以达到与人类相当的水平,但是却拥有局限性,即它们所学习出来的特征只能运用于特定的跨模态匹配任务上,当任务更改时网络也需要重新训练.

    随着跨人脸-语音模态关联研究的发展,设计能用于多个跨模态匹配任务的通用特征表示引起注意. 在FV-CME[11](face-voice matching using cross-modal embeddings)中首先利用2个分支网络来分别学习人脸和语音模态下的特征表示,并利用N对损失来规范特征对应. 这种方法虽然可以运用于多种人脸-语音的跨模态匹配任务,但需要大量的参数用于模型的优化. LAFV[12](on learning associations of faces and voices)利用对人脸-语音公共信息的整合,学习交叉模态下的特征关联,从而减少跨模态差异,且可以达到与文献[7,13]中方法相似的结果. DIMNet[5](disjoint mapping network for cross-modal matching of voices and faces)使用不相交映射网络(disjoint mapping network)将关联特征映射到共享协变量中,实现了人脸-语音匹配任务上的性能提升. 然而这种学习需要对大规模训练数据进行标签注释,过程耗时且成本昂贵. 为避免使用三元组损失[14],SSNet[3](deep latent space learning for cross-modal mapping of audio and visual signals)采用类中心学习来探索人脸-语音间的特征关联. 类似的LDJE[15](learning discriminative joint embeddings for efficient face and voice association)通过使用双向五元组约束、身份约束和中心约束训练网络. SSNet和LDJE这2种方法都主要通过中心约束来监督嵌入特征,不能充分地利用潜在语义学习更可靠的跨模态关联.

    得益于深度学习的发展,将表示学习和聚类算法结合是深度神经网络最具前途的方法之一. 而自监督学习作为目前最热门的框架,旨在使用原始特征生成监督网络训练的伪标签,通过潜在特征关联进行学习. 深度聚类DeepCluster[16](online deep clustering for unsupervised representation learning)中引入了学习图像表示的自监督方法,通过对特征无监督聚类的结果约束图像的特征表示. 而将自监督学习运用于跨模态关联,需要考虑模态间自监督学习的可适用性以及跨模态下自监督学习生成特征的异构性.

    本文所提出的双向伪标签自监督学习的跨人脸-语音学习方法总体框架如图1所示,该框架由2个主要模块组成,即跨模态加权残差网络模块和自监督学习模块. 前一个模块旨在学习跨模态公共嵌入特征,生成模态间的通用特征表示;而后一个模块创新性地利用自监督学习方法生成伪标签,并将一种模态下生成的伪标签作为唯一的监督信号去监督另一种模态的特征学习,实现双向伪标签关联. 这2个模块相互结合进行训练,以促进人脸-语音的跨模态关联学习.

    图  1  本文跨人脸-语音模态学习方法的总体架构
    Figure  1.  The overall framework of the proposed cross-modal face-voice learning method

    为了方便对本文的陈述,将对变量及符号进行形式化定义. 人脸数据集和语音数据集分别用Xface={xfacei}Ni=1Xvoice={xvoicei}Ni=1表示,其中N表示样本总数,而xfaceixvoicei表示第i条人脸-语音数据对. 人脸和语音对应着共享的标签集Y={yic}Ni=1,其中yci表示样本i对应有c个标签类别. 通过人脸子网络和语音子网络对样本i的人脸-语音数据进行高级特征提取分别表示为Dface(xfacei)Dvoice(xvoicei).

    人脸-语音由于模态的不同,异构特征间存在着巨大的语义鸿沟. 要想探索跨模态下人脸-语音的关联,如何跨越异构特征之间的语义鸿沟至关重要. 受多模态深度学习[17]启发,双流深度网络能兼容学习和探索异构特征间的通用表示. 现有的人脸-语音方法[9]局限于使用权值共享的单一全连接层获取通用特征,而单层的网络结构无法挖掘人脸-语音特征中的非线性相关性. 为解决这个问题,本文设计了跨模态加权残差网络模块来学习跨模态下异构特征的通用表示. 其思想是使双流深度网络和残差网络结构[18]相结合,在保留原始特征的同时,学习到人脸-语音特征间的非线性相关性. 跨模态加权残差网络结构由2个全连接层(fully connected layer)组成,它们的加权参数分别用ω1ω2表示. 人脸或者语音数据用 {\boldsymbol{x}} 表示,将数据经过2个全连接层处理表示为 FC({\boldsymbol{x}}) = d({\omega _2}\sigma ({\omega _1}{\boldsymbol{x}})) ,其中 \sigma( \cdot ) 为双曲正切激活函数tanh(·) , d( \cdot ) 表示权重丢弃层(dropout layer),用于减少特征冗余,提高网络的泛化能力. 通过人脸和语音子网络提取的特征,将通过共享权重的相同结构进行处理,得到的人脸高级特征和语音高级特征分别定义为

    {\boldsymbol{f}}_i^ * = \sigma ({D^{\rm{face}}}(x_i^{\rm{face}}) + \alpha \cdot FC({D^{\rm{face}}}(x_i^{\rm{face}}))) , (1)
    {\boldsymbol{v}}_i^ * = \sigma ({D^{\rm{voice}}}(x_i^{\rm{voice}}) + \alpha \cdot FC({D^{\rm{voice}}}(x_i^{\rm{voice}}))) , (2)

    其中 \sigma( \cdot ) 可用于避免训练过程中的梯度过度波动,缩放因子 \alpha [19]是一个可学习的参数. 残差网络结构将输出特征进行跳跃连接,在缓解网络梯度消失的同时,使得原始特征得以保留. 而2个模态之间的全连接层进行权值共享,有助于实现模态间的兼容性学习. 基于此,通过跨模态加权残差网络,可以有效地学习人脸-语音模态间异构特征的通用表示.

    对于跨模态嵌入特征的学习,要想建立人脸-语音特征之间的关联,学习器应该将不同模态下的数据映射到一个共同的特征空间中,且需要保证来自相同身份的人脸-语音数据对在特征空间中更加接近,不同身份的人脸-语音对更加疏远. 现有的大多数方法[13,15]都只是利用正则化有限的损失函数来学习人脸-语音间的跨模态对应关系,这在很大程度上忽略了人脸-语音在潜在语义上的关联. 而自监督学习旨在通过探索原始的特征分布产生伪标签,进而训练模型学习潜在语义关联. 因此,基于自监督学习生成的伪标签有利于捕获人脸-语音间的弱相关性.

    本文所提出的架构旨在创新性地利用模态下生成的伪标签信息实现模态间双向监督,并且从每种模态中学习到的伪标签应该很好地与下游任务对应. 为此,本文研究了这样一个假设,即想要捕获跨人脸-语音模态间的对应关系,可以从自监督学习下获取的伪标签中揭示出有效的潜在语义信息. 而为了生成更有效的伪标签监督信号,本文还考虑了人脸-语音数据在2种模态下伪标签分布之间的对应关系. 对于通过跨模态加权残差网络得到的人脸高级特征 {\boldsymbol{f}}_i^ * 和语音高级特征 {\boldsymbol{v}}_i^ * ,它们的特征维度都为 {\mathbb{R}^{1 \times K}} . 因为本文采取小批量训练方案,每个小批量中包含 B 个样本,所以会得到一个 B \times K 维的特征矩阵 {\boldsymbol{M}} . 为消除矩阵 {\boldsymbol{M}} 中特征之间单位和尺度差异的影响,需要对 {\boldsymbol{M}} 进行归一化处理. 定义 \bar {\boldsymbol{x}} \in {\mathbb{R}^{B \times {\text{1}}}} 表示矩阵 {{\boldsymbol{M}}_{(B,K)}} 中的列向量,则其归一化表示为

    {{\boldsymbol{x}}^ * } = {\varepsilon _1} + \frac{{(\bar {\boldsymbol{x}} - \min (\bar {\boldsymbol{x}}))({\varepsilon _2} - {\varepsilon _1})}}{{\max (\bar {\boldsymbol{x}}) - \min (\bar {\boldsymbol{x}})}} , (3)

    其中 {\varepsilon _1} {\varepsilon _2} 的取值分别为−1和1, \max (\bar {\boldsymbol{x}}) \min (\bar {\boldsymbol{x}}) 分别表示列向量 \bar {\boldsymbol{x}} 中的最大特征值和最小特征值. 经过归一化处理后得到特征矩阵 {\boldsymbol{M}}_{(B,K)}^ * ,基于其中 B K 维特征,这里设置特征原型 {\boldsymbol{\eta }} \in {\mathbb{R}^{1 \times K}} . 而 {\boldsymbol{\eta }}的获取需要符合约束条件:

    \mathrm{min}{\displaystyle\sum _{{\begin{aligned}{{\boldsymbol{x}}}'\text{为} {{\boldsymbol M}}^{\ast }{\text{的列向量}};\\{{\boldsymbol{x}}}'\in {\mathbb{R}}^{1\times K}\quad\;\;\;\end{aligned}}}dis({\boldsymbol{\eta}} ,{{\boldsymbol{x}}}')} , (4)

    其中 dis( \cdot , \cdot ) 表示欧氏空间距离. 对于特征矩阵 {{\boldsymbol{M}}^ * } ,为了探索特征空间中的隐式语义,通过设置聚类总数为 q 的无监督算法K-means,对其进行迭代聚类,直至收敛. 因此,特征矩阵 {{\boldsymbol{M}}^ * } 中的 B 个样本将被划分到 q 个簇中,而每个簇在迭代过程中都有其对应的中心特征({{\boldsymbol{o}}_1},{{\boldsymbol{o}}_2},… ,{{\boldsymbol{o}}_q}; {{\boldsymbol{o}}_i} \in {\mathbb{R}^{1 \times K}} ). 我们根据特征向量 {{\boldsymbol{o}}_i} 与特征原型 {\boldsymbol{\eta}} 的空间关系为簇分配伪标签,且需要保证每个簇有自己唯一的伪标签,簇与簇之间的伪标签不存在差异性,所以采用独热编码(one-hot)的方式生成伪标签,过程如图2所示. q 个簇将对应大小为 {{\boldsymbol{L}}_x} \in {\mathbb{R}^{1 \times q}} 的0,1的编码(例如: {{\boldsymbol{L}}_x} = (0,\;0,\;1,\;0,\;0) q = 5 ). 基于簇的 q 个特征向量 {{\boldsymbol{o}}_i} 与特征原型 {\boldsymbol{\eta}} 的欧氏空间距离 dis({{\boldsymbol{o}}_i},{\boldsymbol{\eta}} ) 排序后,为距离 {\boldsymbol{\eta}} 最近的簇分配伪标签向量{{\boldsymbol{L}}_x} = (1,\;0,\;0,\; … \;,0),为距离 {\boldsymbol{\eta}} 最远的簇分配伪标签向量{{\boldsymbol{L}}_x} = (0,\; …, \;0,\;0,\;1). 基于这种空间排序依次为簇分配伪标签,保证了每个簇生成的伪标签是唯一的,且伪标签之间不存在差异性. 因此,批中的 B 个样本根据其所在的簇,通过无监督聚类及簇中心特征和特征原型空间距离约束,被分配伪标签向量 {{\boldsymbol{L}}_x} . 对于自监督学习下的人脸-语音关联,需要保持相同身份的人脸-语音数据在分配伪标签后语义的一致性,同时显示出不相关人脸-语音对的差异性. 本文将从2种模态下获取的伪标签进行跨模态语义关联. 假设第 i 个样本的人脸-语音数据,在通过伪标签分配后得到的伪标签向量分别为 {\boldsymbol{L}}_{\rm{face}}^i {\boldsymbol{L}}_{\rm{voice}}^i ,则跨模态伪标签关联得分表示为

    图  2  基于特征原型的伪标签分配
    Figure  2.  Pseudo-label assignment based on feature prototype
    {S_i} = {\boldsymbol{L}}_{\rm{face}}^i{({\boldsymbol{L}}_{\rm{voice}}^i)^{\rm T}} = \left\{ {\begin{array}{*{20}{c}} 1,&{{\boldsymbol{L}}_{\rm{face}}^i = {\boldsymbol{L}}_{\rm{voice}}^i\;\;,} \\ 0,&{{\boldsymbol{L}}_{\rm{face}}^i \ne {\boldsymbol{L}}_{\rm{voice}}^i\;\;.} \end{array}} \right. (5)

    如当相同身份的人脸-语音样本通过伪标签分配后得到的伪标签相同时,从特征语义上说明了样本的2种模态语义更加相似,因此将给予自监督学习模块得分奖励. 反之,相同样本的人脸-语音数据在2种模态下分配的伪标签不同时,学习模块则没有得分奖励. 通过伪标签关联得分可以反映出自监督学习产生的人脸和语音伪标签之间的对应关系. 基于此,本文构建的伪标签关联损失定义为

    {\mathcal{L}_{{\text{cma}}}} = \frac{1}{B}\sum\limits_{i = 1}^B {\exp ( - {S_i})} , (6)

    其中 B 是小批量学习的样本数, \exp ( \cdot ) 为以 {\text{e}} 为底的指数函数. 模型在训练中,随相同身份的人脸-语音数据通过自监督学习产生的特征语义越接近,伪标签关联得分 S 会越高,伪标签关联损失 {\mathcal{L}_{{\text{cma}}}} 则会更小. 跨模态伪标签关联损失的减小意味着人脸-语音数据通过自监督学习生成的伪标签在跨模态下的语义一致性得以保留,同时为自监督学习的下游任务提供了稳定的伪标签监督信号.

    为理解 {\mathcal{L}_{{\text{cma}}}} 损失的反向传播如何影响特征网络,本文通过获取关联得分时参数矩阵 {\boldsymbol{X}} 的优化进行解释,其优化过程如算法1所示.

    算法1. 参数矩阵优化算法.

    输入: {\boldsymbol{a}} = ({\phi _{\rm{face}}}( {{\boldsymbol{f}}}_i^ * ) \circ {{\boldsymbol{w}}_{\rm{face}}}({{\boldsymbol{L}}_{\rm{face}}})) \in {\mathbb{R}^{K \times 1}}{\boldsymbol{b}} = ({\phi _{\rm{voice}}} ( {\boldsymbol{v}}_i^ * ) \circ {{\boldsymbol{w}}_{\rm{voice}}}({{\boldsymbol{L}}_{\rm{voice}}})) \in {\mathbb{R}^{K \times 1}}{{\boldsymbol{w}}_{\rm{face}}}{{\boldsymbol{w}}_{\rm{voice}}}为伪标签向量分别对应的权重向量, {\phi _{\rm{face}}} {\phi _{\rm{voice}}} 分别为{\boldsymbol{f}}_i^ *{\boldsymbol{v}}_i^ *的特征判别器,设{\boldsymbol{X}} \in {\mathbb{R}^{K \times K}}为待优化参数矩阵;

    输出: S = {{\boldsymbol{a}}^{\rm T}}{\text{exp(}}{\boldsymbol{Xb}}{\text{)}} {\text{exp(}} \cdot {\text{)}} 为逐个元素求指数,方便矩阵求导,基于此对{\boldsymbol{X}}进行优化.

    {\rm{d}}S = {{\boldsymbol{a}}^{\rm T}}{\text{(exp(}}{\boldsymbol{Xb}}{\text{)}} \odot {\text{(}}{\rm{d}}{\boldsymbol{Xb}}{\text{))}}

    ②根据迹\left\{\begin{array}{c}\text{tr(}{{\boldsymbol{A}}}^{{\rm T}}\text{(}{\boldsymbol{B}}\odot {\boldsymbol{C}}\text{))}=\text{tr((}{\boldsymbol{A}}\odot {\boldsymbol{B}}{\text{)}}^{{\rm T}}{\boldsymbol{C}}\text{)},\\ \text{tr(}{\boldsymbol{AB}}\text{)}=\text{tr(}{\boldsymbol{BA}}\text{)};\end{array} \right.

    ③根据导数微分关联{\rm{d}}S = {\text{tr}}\left(\left({\dfrac{{\partial S}}{{\partial {\boldsymbol{X}}}}^{\rm T}}\right){\rm{d}}{\boldsymbol{X}}\right)

    ④基于②和③对①进行优化变换,即优化

    \frac{{\partial S}}{{\partial {\boldsymbol{X}}}} = {{\text{(}}{\boldsymbol{b}}{{\text{(}}{\boldsymbol{a}} \odot {\text{exp(}}{\boldsymbol{Xb}}{\text{))}}^{\rm T}}{\text{)}}^{\rm T}} = {\text{(}}{\boldsymbol{a}} \odot {\text{exp(}}{\boldsymbol{Xb}}{\text{))}}{{\boldsymbol{b}}^{\rm T}} .

    其中对于 {\boldsymbol{f}}_i^* {\boldsymbol{v}}_i^* 将会有判别学习器{\phi _{\rm{face}}} {\phi _{\rm{voice}}} 生成可用特征,并将其用于人脸-语音伪标签向量对应的权重向量得到 {\boldsymbol{a}} {\boldsymbol{b}} \in {\mathbb{R}^{K \times 1}} ,最后通过算法1中的迹变换和微分关联来对参数矩阵 {\boldsymbol{X}} 进行优化.

    值得注意的是,随着当前小批量样本训练的完成,本轮的特征原型{\boldsymbol{ \eta}}将保留并参与下一轮批量训练中特征原型的更新迭代:

    {{\boldsymbol{\eta}} ^{(n)}} \leftarrow {\boldsymbol{\lambda}} {{\boldsymbol{\eta}} ^{(n)}} + (1 - \lambda ){{\boldsymbol{\eta}} ^ * }^{(n - 1)} , (7)

    其中{{\boldsymbol{\eta}} ^ * }表示前 n - 1 轮批量学习中特征原型的平均特征,参数 \lambda =0.9. 特征原型的更新迭代保证了每轮样本的训练特征得以保留,使得更新后的特征原型更具稳定性. 且基于特征原型划分的伪标签在簇数更多时,不会受个别样本特征的干扰,从而生成的伪标签作为跨模态关联的监督信号更具鲁棒性和可解释性.

    基于自监督学习方法生成的人脸-语音伪标签,本文实现跨模态伪标签信号的双向监督,进而增强人脸-语音模态间的语义关联. 对于样本 i 的人脸特征和语音特征,其通过自监督学习得到的人脸伪标签和语音伪标签分别为{\boldsymbol{L}}_{\rm{face}}^i{\boldsymbol{L}}_{\rm{voice}}^i,将其作为对方模态下的监督信号,进而得到双向伪标签关联损失:

    {\mathcal{L}_{{\text{Bi-P}}}} = \sum\limits_{i = 1}^B {\{ \ell ({\phi _{{\rm{face}},{\rm{voice}}}}({\boldsymbol{f}}_i^ * ),{\boldsymbol{L}}_{\rm{voice}}^i)} + \ell ({\phi _{{\rm{face}},{\rm{voice}}}}({\boldsymbol{v}}_i^ * ),{\boldsymbol{L}}_{\rm{face}}^i)\} , (8)

    其中 \ell ( \cdot , \cdot ) 为交叉熵损失,{\phi _{{\rm{face}},{\rm{voice}}}}表示判别学习器. 双向伪标签关联损失从跨模态角度利用2个模态下的伪标签实现跨模态交叉监督,从而同时优化2个模态间的关联损失,增强相同身份的人脸-语音数据对之间的语义相关性,并扩大不相关人脸-语音对之间的差异性. 基于此,双向伪标签关联损失可以有效地挖掘模态间的潜在语义,提高跨模态下生成的人脸-语音关联表示的鲁棒性和模型的泛化能力.

    为了帮助整体网络更好地学习人脸-语音之间的跨模态关联,本文设计并使用了2个辅助损失函数加速模型收敛,促进整体网络的学习.

    1) 身份预测损失. 据文献[5]可知,有限的监督信息能够增强人脸-语音嵌入特征的判别性,同时增强跨模态加权残差网络处理异构特征时的可分离性. 本文基于ID损失和性别约束,通过参数分类器来学习人脸-语音潜在语义的判别性嵌入,其中身份预测损失为:

    {\mathcal{L}_{{\text{id}}}} = \sum\limits_{i = 1}^B {\sum\limits_{c \in \{ ID,g\} } {\{ \ell ({\phi _c}({\boldsymbol{f}}_i^ * ),y_i^c) + \ell ({\phi _c}({\boldsymbol{v}}_i^ * ),y_i^c)\} } } , (9)

    其中 {\phi _c} 对应在ID和性别约束g下的全连接判别学习器. 该损失将用于加速网络模型的收敛,促进跨模态加权残差网络对判别性特征的学习.

    2) 伪标签分布损失. 为了进一步规范2种模态下来自相同身份伪标签之间的一致性,学习框架将训练中 B 个样本的伪标签分布视为一个整体,通过归一化函数softmax获取样本伪标签概率分布. 我们将 B 个样本的人脸和语音数据对应的伪标签概率分布分别表示为 p(f) p(v) ,并基于KL散度(Kullback Leibler divergence)生成跨模态下的伪标签分布损失:

    {\mathcal{L}_{{\text{KL}}}} = \alpha ({F_{{\text{KL}}}}(p(f)\left\| {p(v)} \right.) + {F_{{\text{KL}}}}(p(v)\left\| {p(f)} \right.)) , (10)

    其中 \alpha =0.5, {F_{{\text{KL}}}}( \cdot ) 为KL散度计算函数. 使用{F_{{\text{KL}}}}(p(f)|| {p(v)}) {F_{{\text{KL}}}}(p(v)||{p(f)}) 相结合是为了保持损失的对称性. 有且仅当自监督学习到的人脸-语音伪标签概率分布相同时, {\mathcal{L}_{{\text{KL}}}} =0. 最小化伪标签分布损失是从整体跨模态关联角度,通过相同身份个体的人脸-语音特征更接近,扩展到2个模态下的伪标签分布一致性,使得在自监督模块注重相同身份的人脸-语音对应性学习,从而强制深度网络学习到的跨模态关联特征更具鲁棒性.

    本文构建的整体损失函数表示为

    \mathcal{L}=\mathcal{L}_{\text {cma }}+\gamma_1 \mathcal{L}_{\mathrm{Bi}\text{-}\mathrm{P}}+\gamma_2 \mathcal{L}_{\mathrm{id}}+\mathcal{L}_{\mathrm{KL}}. (11)

    默认情况下, {\gamma _1} {\gamma _2} 的权重系数分别设置为10和0.1. 跨模态伪标签关联损失 {\mathcal{L}_{{\text{cma}}}} 和伪标签分布损失 {\mathcal{L}_{{\text{KL}}}} 的权重系数都设置为1,一方面保证了它们在促进模态间潜在语义特征挖掘中的协同作用,另一方面加速了整体损失函数在训练中更快地迭代与收敛. 本文将每批次训练的样本数设置为128,并选择结合了动量技术、RMSprop(root mean square prop)修正的Adam[20](adaptive moment estimation)方法作为优化模型. 在训练期间,学习率会随着训练轮数的增加而衰减,初始的学习率设置为10−3,衰减到的最小学习率为10−8. 值得注意的是,在实践中,本文通过设置不同簇数 q 来获取多种人脸-语音伪标签,并在实验中通过多种伪标签组合来挖掘人脸-语音间的潜在语义关联,从而探索出更深层的跨模态人脸-语音联系.

    为了充分评估本文所提出算法的有效性,本文在公开的Voxceleb1[21]和VGGFace[22]语音视频数据集上进行实验,并采取基准的评价准则进行量化评估. 具体的实验细节与设置如下.

    Voxceleb1中总计包含10万多条音频和2万多条视频,而VGGFace中包含2622个身份信息. 在实验中,对这2个数据集的数据交集共1225个身份进行数据集划分,其中训练集、验证集和测试集中包含的人物身份个数分别为924,112,189. 为了保证实验评估时的有效性和鲁棒性,本文在实验中选取的训练集和验证集以及测试集之间个体身份信息完全不相交.

    1)人脸数据处理.首先对原始检测的人脸图像进行缩放,然后通过随机裁剪函数进行裁剪,并统一图像大小为224×224×3. 在训练阶段采用概率为50%的随机水平翻转处理. 人脸子网络使用ResNet-34[23]架构实现,最终输出的人脸特征维数为256.

    2)语音数据处理. 语音数据首先通过语音检测函数清洗后除去原始音频中包含的静音片段,然后根据语音片段时长进行裁剪. 如果语音片段时长大于10 s,则随机保留10 s;若片段时长小于10 s,则会随机复制增加语音长度到10 s. 语音处理使用帧长25 ms、帧间隔10 ms的梅尔倒谱系数,并对处理后的语音片段进行归一化处理. 语音子网络采用DIMNet-voice[5]架构实现,最终输出的语音特征维数为256.

    为了验证本文方法的有效性,实验将在4种人脸-语音跨模态匹配任务上进行测试.

    1) 跨模态验证任务

    跨模态验证用来判断给定的人脸数据和语音数据是否属于相同身份,该任务使用曲线下面积(area under curve, AUC)作为唯一的评价指标.

    2) 跨模态检索任务

    在跨模态检索任务中将给定一种模态的待测样本,需要从总数据集中查询与待测样本匹配的正例,所以该任务挑战难度更大. 本任务将采用平均准确率(mean average precision, mAP)作为评价指标.

    3) 1∶2匹配任务

    1∶2匹配任务由人脸图片检索语音片段(F-V)和语音片段检索人脸图片(V-F)这2种情况组成. 对于F-V的1∶2匹配,给定一张人脸图片,需要从2段语音片段中判断出哪个和人脸图片身份相同. 同理可知V-F的1∶2匹配,给定一段语音片段,需要从2张人脸图片中判断出哪个和语音身份相同. 本任务中采用百分制的准确率(accuracy, ACC)作为评价指标.

    4) 1∶N匹配任务

    1∶N匹配任务是1∶2匹配任务的扩展,其将待匹配的样本总数增加到N,且需要从中识别出唯一的正例. 同样地,1∶N匹配也存在F-V和V-F的2种情况,且随着样本总数N的增加,任务难度也逐渐增加. 该任务也采用准确率ACC作为评价指标.

    为了验证本文所提出方法的有效性,将通过3.3节中所涉及的4种跨人脸-语音模态匹配任务进行测试. 值得注意的是,本文所提出的跨模态学习架构,由于伪标签生成跟簇数 q 有关,而不同的伪标签会对学习到的人脸-语音关联表示产生影响,所以在实验中尝试了不同的伪标签组合. 本文实验中使用了簇数分别为8,32,64来生成伪标签,其形式化标记分别对应Bi-Pcm-F(first),Bi-Pcm-S(second),Bi-Pcm-T(third)方法. 除此之外,本文还尝试设置了不同的伪标签组合来探索更多跨人脸-语音模态的潜在语义关联. 本文设置了4种伪标签组合:1)8和32组合;2)8和64组合;3)32和64组合;4)8,32,64组合. 这4种组合分别对应Bi-Pcm-FS,Bi-Pcm-FT,Bi-Pcm-ST,Bi-Pcm-FST方法. 实验中,当不同伪标签数的方法进行组合后,伪标签的分配以及训练的过程并行执行,最后生成的整体损失也将进行叠加.

    1) 跨模态验证

    参考文献[5],本文与现有方法的实验比较如表1所示,实验在不同分类数据上进行. 其中“U”表示人脸-语音数据对没有进行分类,“G”(gender)表示人脸-语音数据对中的2个测试者性别相同,“N”(nationality)表示人脸-语音数据对中的2个测试者的国籍相同,“A”(age)表示人脸-语音数据对中的2个测试者年龄相同. 而对于“GNA”这种情况,则是2个测试者的性别、国籍和年龄都相同. 从表1可知,本文所提出的Bi-Pcm-FST方法相比较于PINs,SSNet方法,实验性能在各个验证任务上平均提升5个百分点. 实验表明本文模型在不同的任务上都更具有效性.

    表  1  跨模态验证任务的AUC值
    Table  1.  AUC Values of Cross-Modal Verification Task
    方法UGNAGNA
    PINs[10]78.561.177.274.958.8
    SSNet[3]78.862.453.173.551.4
    DIMNet-I[5]82.571.081.977.762.8
    DIMNet-IG[5]83.271.281.978.062.8
    本文(Bi-Pcm-FST)85.071.284.379.664.7
    注:U为未分类,G以性别分类,N以国籍分类,A以年龄分类,GNA以性别、国籍和年龄共同分类. 黑体数值表示最佳结果.
    下载: 导出CSV 
    | 显示表格

    2) 跨模态检索

    跨模态检索任务的实验结果如表2所示. 本文在F-V和V-F的2个情景上都进行了检索实验. 为了与未进行学习的特征进行对比,本文在实验中增加了随机情况下(Chance)的实验结果,Chance方法将在跨模态检索以及1∶N匹配任务中使用. 方法Bi-Pcm-FST的平均mAP为6.20,高于目前先进的DIMNet-IG方法将近2个百分点,这说明基于本文的特征表示在面对大量数据检索任务时更具健壮性.

    表  2  跨模态检索中mAP的性能
    Table  2.  Performance mAP of Cross-Modal Retrieval
    方法ChanceF-VV-F平均值
    FV-CME[11]0.462.181.962.07
    VFMR3[24]2.155.00
    DIMNet-I[5]1.074.174.254.21
    DIMNet-IG[5]1.074.234.424.33
    本文(Bi-Pcm-FST)1.016.046.366.20
    注:F-V为人脸图片检索语音片段,V-F为语音片段检索人脸图片,平均表示F-V和V-F的平均值. 黑体数值表示最佳结果.
    下载: 导出CSV 
    | 显示表格

    3) 1∶2匹配

    1∶2匹配在不同分类数据上的测试结果如表3所示,其中数据分组“U”“G”“N”的方式同本节跨模态检索中的描述一致. 此任务共包括2种情景,分别为F-V和V-F. 本文基于不同伪标签组合的Bi-Pcm方法,在2种情景下进行了多组实验以探索多种伪标签语义对人脸-语音关联的影响. 从实验结果可知,本文基于Bi-Pcm-FST的多伪标签组合相比较其他伪标签组合在多种1∶2匹配任务上性能表现更佳,所以本文中其他的对比实验均以Bi-Pcm-FST作为代表. 在1∶2匹配任务中,Bi-Pcm-FST与目前主流的LDJE相比虽然只获得了少量的提升,但是LDJE方法在训练中使用了大量的人为监督标签来构造双向五元组约束,并利用中心约束以及身份约束,本质上过度依赖有监督学习,况且监督标签的获取成本昂贵且十分耗时. 而Bi-Pcm-FST更注重自监督学习生成可用伪标签来代替这些传统的有监督标签,且取得了更好的性能表现,这种获取可用伪标签的方法为跨人脸-语音模态的研究开创了一种更加新颖的思维. 跨模态1∶2匹配的实验结果也表明,本文基于双向伪标签关联的自监督学习能够为人脸-语音探索出更多的潜在语义信息.

    表  3  跨模态1∶2匹配任务的准确率
    Table  3.  ACC on Cross-Modal 1∶2 Matching Task %
    方法F-VV-F
    UGNGNUGNGN
    SVHF[9]79.5063.4081.0063.90
    FV-CME[11]77.8060.8078.1061.70
    LAFV[12]78.6061.6078.2062.90
    PINs[10]83.80
    DIMNet-I[5]83.5271.7882.4170.9083.4570.9181.8769.89
    DIMNet-IG[5]84.0371.6582.9670.7884.1271.3282.6570.39
    LDJE[15]85.4273.5284.4871.1185.1874.2983.9770.70
    Bi-Pcm-F (本文)84.8171.9383.8170.8984.7772.0883.5670.53
    Bi-Pcm-S (本文)84.6572.0583.9671.0784.8072.1183.7270.77
    Bi-Pcm-T (本文)85.1372.2284.0771.1284.8272.3783.8670.69
    Bi-Pcm-FS (本文)85.2772.2884.2571.0885.1172.5584.0270.78
    Bi-Pcm-FT (本文)85.3472.4684.4471.1485.2372.9484.1770.84
    Bi-Pcm-FST (本文)85.8373.0185.0071.4585.6973.3384.2671.10
    注:F-V为人脸图片匹配语音片段,V-F为语音片段匹配人脸图片,U表示未分类,G表示以性别分类,N表示以国籍分类,GN表示以性别和国籍分类. 黑体数值表示当前任务中的最佳结果.
    下载: 导出CSV 
    | 显示表格

    4) 1∶N匹配

    1∶N匹配结果如图3所示. 此项任务随待匹配样本数N的增加,实验难度也进一步增大. 可以发现各项工作的准确率也随N的增加而逐渐降低. 但是Bi-Pcm-FST方法在V-F和F-V两种情景下,与其他主流方法相比,依然具有更好的表现. 由准确率曲线可以发现,Bi-Pcm-FST方法随待匹配样本数N的增加,匹配准确率相比较其他方法衰减得更加平缓,即使在V-F的1∶N匹配任务中难度较大的“G”分组上,当N=6时,匹配准确率也能比主流的DIMNet方法提高2个百分点. 通过1∶N匹配任务的实验结果进一步说明本文架构具有更强的潜在语义挖掘能力.

    图  3  跨模态1∶N匹配的性能对比
    Figure  3.  Comparison of cross-modal 1∶N matching performance

    本文所提出的框架主要由2个模块组成,即跨模态加权残差网络模块和基于双向伪标签关联的自监督学习模块. 使用不同模块的消融实验如表4所示,其中CMWR表示跨模态加权残差网络,id表示可用语义信息的嵌入,self-learn表示自监督学习模块. 从表4中各个模块的消融实验可以发现,当单独使用跨模态加权残差网络或者单独使用自监督学习模块时,虽然整体网络的性能都能有所提升,但是提升幅度很小,例如在跨模态验证任务的“U”分组上只能提升1.7个百分点. 但将2种模块进行结合后,整体性能在“U”分组上提升4个百分点,说明2个模块之间的相互协作对促进整体网络的性能表现有重要的影响. 依次来看,跨模态加权残差网络能够跨越模态间语义鸿沟,从而有效地学习人脸-语音间的关联表示;而基于双向伪标签关联的自监督学习模块可以生成高效伪标签来促进整体网络性能的提升.

    表  4  跨模态验证上的消融实验
    Table  4.  Ablation Studies of Cross-Modal Verification
    方法UGNAGNA
    id81.267.480.677.561.1
    id+self-learn82.768.882.078.662.1
    CMWR+id82.969.582.778.463.3
    CMWR+id+self-learn85.071.284.379.664.7
    注:U为未分类,G以性别分类,N以国籍分类,A以年龄分类,GNA以性别、国籍和年龄共同分类. 黑体数值表示当前任务中的最佳结果.
    下载: 导出CSV 
    | 显示表格

    在本文中,损失函数是用来约束人脸-语音特征表示的关键因素. 因此,实验中进一步研究了损失函数对跨模态匹配性能的影响,图4展示了不同损失函数对F-V跨模态1∶2匹配任务的消融结果. 需要注意,双向伪标签关联损失 {\mathcal{L}_{{\text{Bi-P}}}} 和伪标签分布损失 {\mathcal{L}_{{\text{KL}}}} 的构成都需要跨模态伪标签关联损失 {\mathcal{L}_{{\text{cma}}}} 的协助,所以无法进行将 {\mathcal{L}_{{\text{cma}}}} 单独移除的实验. 从消融结果可以发现,当总体网络缺少 {\mathcal{L}_{{\text{Bi-P}}}} 时,实验准确率下降得最为明显,总体性能下降1.4个百分点,说明双向伪标签关联约束对促进网络性能提升有着重要作用. 消融实验中,移除跨模态分布损失 {\mathcal{L}_{{\text{KL}}}} 后,整体网络性能轻微下降了0.4个百分点. 而 {\mathcal{L}_{{\text{cma}}}} 通过得分奖励机制,使得自监督学习模块生成人脸-语音伪标签,进而参与 {\mathcal{L}_{{\text{Bi-P}}}} {\mathcal{L}_{{\text{KL}}}} 来约束跨模态特征学习. 因此,在移除 {\mathcal{L}_{{\text{cma}}}} 后将无法得到伪标签. 除此之外,从图4中关于 {\mathcal{L}_{{\text{cma}}}} 的单独消融实验可知,当使用 {\mathcal{L}_{{\text{cma}}}} 时整体网络性能只有微小的提高,其原因是只基于 {\mathcal{L}_{{\text{cma}}}} 产生的伪标签并没有被用于下游任务中,而将 {\mathcal{L}_{{\text{cma}}}} 生成伪标签用于 {\mathcal{L}_{{\text{Bi-P}}}} {\mathcal{L}_{{\text{KL}}}} 时,整体网络性能才能有不错的提升,说明 {\mathcal{L}_{{\text{cma}}}}更多的作用是辅助获取高效稳定的跨模态伪标签用于下游任务的学习.

    图  4  在1∶2匹配任务上损失函数的消融实验
    Figure  4.  Ablation studies of loss function on 1∶2 matching task

    综上所述, {\mathcal{L}_{{\text{cma}}}} 帮助自监督模块生成高效伪标签用于下游任务, {\mathcal{L}_{{\text{Bi-P}}}} 将利用上游伪标签挖掘潜在语义关联,而 {\mathcal{L}_{{\text{KL}}}} 将辅助 {\mathcal{L}_{{\text{Bi-P}}}} 提高特征关联的有效性. 跨模态匹配任务的实验表现和消融结果说明了本文的多种损失相互协助,相比较现有的方法,可在多种跨人脸-语音匹配任务上取得更佳的性能表现.

    对于跨模态检索任务,具有代表性的V-F检索结果如图5所示,其中与语音身份相同的人脸图片已由加粗方框标注. 从跨模态检索结果可以发现,即使待检索样本规模为整个数据集时,本文在跨模态检索任务上依然取得了不错的性能表现.

    图  5  跨模态检索结果
    Figure  5.  Cross-modal retrieval results

    此外,如图6所示,本文进一步利用t-SNE[25](t-distributed stochastic neighbor embedding)算法对学习到的高维人脸-语音嵌入特征进行2维可视化,其中相同颜色的数据点来自同一身份样本. 图6(a)是初始特征分布,人脸特征与语音特征由于模态间差异,被划分为2类,但是模态内的这2种特征却因没有进行辨别性学习而被混淆在一起. 图6(b)是通过本文方法学习后的结果,可以明显看出相同身份的人脸和语音特征的空间分布更为接近,且不同身份的特征之间更加地疏远,说明本文中基于双向伪标签关联的自监督学习方法确实能学习到更具判别性的跨模态特征.

    图  6  嵌入特征的t-SNE可视化
    Figure  6.  Visualization of embedding characteristics on t-SNE

    为了验证 {\mathcal{L}_{{\text{cma}}}} 损失可实现跨模态数据的编码,本文进行了人脸-语音伪标签相似度匹配实验. 如图7所示,我们在训练集和测试集上分别对样本的人脸-语音伪标签进行了相似度统计. 本文共用到3种伪标签数:8,32,64. 伪标签数为8时,虽然实验收敛得更快,但是最后得到的伪标签相似度低(准确率约77%);伪标签数为64时,网络虽然收敛更慢,但是获得的伪标签相似度更高(准确率约81%). 综上, {\mathcal{L}_{{\text{cma}}}} 损失可以帮助实现高效的跨模态数据编码.

    图  7  基于{\mathcal{L}_{{\text{cma}}}} 损失的人脸-语音伪标签相似度
    Figure  7.  Face-voice pseudo-label similarity based on cma-loss

    为了验证本文 {\mathcal{L}_{{\text{Bi-P}}}} 对模型泛化能力的影响,本文在现有的训练集基础上减少了100个人脸-语音数据进行模型重新训练,并在测试集上评估. 泛化能力评估实验结果如图8所示,当使用全部的损失后,V-F的1∶2匹配任务上实验准确率只下降了0.6个百分点,但是在移除 {\mathcal{L}_{{\text{Bi-P}}}} 损失后,实验准确率下降了1.3个百分点,说明 {\mathcal{L}_{{\text{Bi-P}}}} 能保证模型的泛化能力尽可能得到保留,验证了 {\mathcal{L}_{{\text{Bi-P}}}}能够提高跨模态下生成的人脸-语音关联表示的鲁棒性和模型的泛化能力.

    图  8  在1∶2匹配任务上的泛化能力评估
    Figure  8.  Generalization ability assessment on 1∶2 matching task

    本文提出了基于双向伪标签自监督学习的方法,该方法可有效地用于人脸-语音跨模态关联和匹配. 首先构建了跨模态加权残差网络来学习人脸-语音间的共享嵌入,然后创新性地提出双向伪标签关联方法生成高效伪标签,并用其监督人脸-语音实现潜在语义学习. 本文获得的模态间增强语义嵌入可适用于各种人脸-语音匹配任务. 与现有工作比较,本文在大量跨模态匹配任务中都取得了最佳的性能表现.

    作者贡献声明:朱明航负责算法设计与实验;柳欣负责模型优化和算法分析;于镇宁负责模型可行性分析;徐行负责算法优化;郑书凯负责实验多样性分析.

  • 图  1   Schnorr协议交互流程[31]

    Figure  1.   The interactive flow of Schnorr protocol[31]

    图  2   本方案系统模型

    Figure  2.   The system model of our scheme

    图  3   本方案流程图

    Figure  3.   Flowchart of our scheme

    图  4   普通环境中的VC生成时间及验证算法时间

    Figure  4.   VC generation time and verification algorithm time in common environment

    图  5   VC生成时间及VC扩充时间

    Figure  5.   VC generation time and expansion time

    图  6   不同环境中VC生成流程时间

    Figure  6.   VC generation process time in different environments

    图  7   各验证凭据占用存储空间大小及proofCNT生成时间

    Figure  7.   The storage space occupied by each authentication credential and the generation time of proofCNT

    表  1   中心化身份、联邦身份和自我主权身份对比

    Table  1   Comparison of Centralized Identity,Federated Identity and Self-Sovereign Identity

    特征中心化身份联邦身份自我主权身份
    用户管理登录凭证数量较少唯一
    密钥管理主动权归属应用服务身份提供者用户
    数字身份保存集中程度分散集中分散
    安全风险
    下载: 导出CSV

    表  2   符号及其描述

    Table  2   Symbols and Their Description

    符号描述 符号描述
    GP系统全局参数 m 签名明文信息
    \varOmega应用服务信息属性合集\$ \sigma 属性签名
    AppInfo 应用服务信息属性CNT登录次数计数明文
    SK, x 应用服务私钥{proof}_{{\rm{ZK}}}零知识证明凭据
    PK, y 应用服务公钥 {proof}_{CNT} 身份冒用审计凭据
    ASK, k 属性私钥{r}_{i},{t}_{i},{c}_{i}, {d}_{i}, {R}_{i},{T}_{i}签名中间参数
    APK, r 属性公钥 {C}_{1i},{C}_{2i} 零知识证明承诺
    USK, {s}_{p} 用户私钥 zkc 零知识证明挑战值
    GID, {pk}_{p} 用户全局标识、
    用户公钥
    z 零知识证明响应值
    AK, e 用户属性基密钥{w}_{{\rm{last}}}上轮验证中的ElGamal加密随机参数
    Param, param 属性基密钥中间参数 w ElGamal加密随机参数
    {H}_{1},{H}_{2},{H}_{3},{H}_{4} 哈希函数{h}_{ {{Use} }{ {{r} } }_{ {{p} } } }登录次数计数哈希
    下载: 导出CSV

    表  3   身份认证方案特性对比

    Table  3   Feature Comparison of Identity Authentication Schemes

    方案抗重放攻击安全秘钥计算自我主权身份
    文献[19]
    文献[20]
    文献[27]
    本文方案
    注:“√”表示相关方案具有相应的特性.
    下载: 导出CSV

    表  4   服务器实验环境配置说明

    Table  4   Server Experimental Environment Configuration Instructions

    硬件/软件型号/版本
    CPUIntel® Xeon®Gold 6142 CPU @ 2.60 GHz
    内核数4
    内存8 GB
    操作系统Ubuntu22.04
    Linux 5.15.0-43-generic
    Go1.20.2 Linux/AMD64
    EGov1.2.0
    Solidityv0.6.12+commit.27d51765
    Trufflev5.7.4
    Ganachev7.7.3
    Node.jsv19.6.0
    Web3.jsv1.8.2
    下载: 导出CSV
  • [1] 国家互联网信息办公室. 中央网信办等十六部门联合公布国家区块链创新应用试点名[EB/OL]. 2022[2023-02-28]. http://www.cac.gov.cn/2022−01/29/c_1645059212139691.htm

    Ciberspace Administration of China. Sixteen departments including the central network information office jointly announced the name of the national blockchain innovative application pilot[EB/OL]. 2022[2023-02-28]. http://www.cac.gov.cn/2022−01/29/c_1645059212139691.htm(in Chinese)

    [2]

    Gayvoronskaya T, Meinel C. Blockchain: Hype or Innovation[M]. Cham, Switzerland: Springer, 2020

    [3]

    Nakamoto S. Bitcoin: A peer-to-peer electronic cash system[EB/OL]. 2008[2023-02-28]. https://bitcoin.org/bitcoin.pdf

    [4]

    Haber S, Stornetta W S. How to Time-stamp a Digital Document[M]. Berlin: Springer, 1991

    [5]

    Dwork C, Naor M. Pricing via processing or combatting junk mail[C] //Proc of the 12th Annual Int Cryptology Conf on Advances in Cryptology. Berlin: Springer, 1993: 139−147

    [6]

    Back A. Hashcash−a denial of service counter-measure[EB/OL]. 2002[2023-05-23]. http://www.hashcash.org/papers/hashcash.pdf

    [7]

    Vukolic M. Eventually returning to strong consistency[J]. IEEE Data Engineering Bulletin, 2016, 39(1): 39−44

    [8] 国家统计局. 中华人民共和国2022年国民经济和社会发展统计公报[EB/OL]. 2023[2023-02-28]. http://www.stats.gov.cn/xxgk/sjfb/zxfb2020/202302/t20230228_1919001.html

    National Bureau of Statistics. Statistical Bulletin of the People’s Republic of China on National Economic and Social Development in 2022[EB/OL]. 2023[2023-02-28]. http://www.stats.gov.cn/xxgk/sjfb/zxfb2020/202302/t20230228_1919001.html (in Chinese)

    [9]

    Avellaneda O, Bachmann A, Barbir A, et al. Decentralized identity: Where did it come from and where is it going?[J]. IEEE Communications Standards Magazine, 2019, 3(4): 10−13 doi: 10.1109/MCOMSTD.2019.9031542

    [10] 魏亮,黄振杰,陈群山. 去中心基于属性不可否认签名[J]. 计算机工程与科学,2020,42(6):1003−1011

    Wei Liang, Huang Zhenjie, Chen Qunshan. Decentralized attribute-based non-repudiation signature[J]. Computer Engineering and Science, 2020, 42(6): 1003−1011 (in Chinese)

    [11]

    Dib O, Toumi K. Decentralized identity systems: Architecture, challenges, solutions and future directions[J]. Annals of Emerging Technologies in Computing, 2020, 4(5): 19−40 doi: 10.33166/AETiC.2020.05.002

    [12]

    Dell’Amico M, Michiardi P, Roudier Y. Password strength: An empirical analysis[C] //Proc of IEEE INFOCOM 2010. Piscataway, NJ: IEEE, 2010: 1−9

    [13]

    Maler E, Reed D. The venn of identity: Options and issues in federated identity management[J]. IEEE Security & Privacy, 2008, 6(2): 16−23

    [14]

    Groß T. Security analysis of the SAML single sign-on browser/artifact profile[C] //Proc of 19th Annual Computer Security Applications Conf. Piscataway, NJ: IEEE, 2003: 298−307

    [15]

    Hardt D. The OAuth 2.0 authorization framework[EB/OL]. 2012[2023-05-30]. https://www.rfc-editor.org/rfc/rfc6749

    [16]

    Naik N, Jenkins P. uPort open-source identity management system: An assessment of self-sovereign identity and user-centric data platform built on blockchain[C] //Proc of 2020 IEEE Int Symp on Systems Engineering (ISSE). Piscataway, NJ: IEEE, 2020: 1−7

    [17]

    Ali M, Nelson J, Shea R, et al. Blockstack: A global naming and storage system secured by blockchains[C] //Proc of the 2016 USENIX Annual Technical Conf. Berkeley, CA: USENIX Association, 2016: 181−194

    [18]

    Maram D, Malvai H, Zhang Fan, et al. Candid: Can-do decentralized identity with legacy compatibility, sybil-resistance, and accountability[C] //Proc of 2021 IEEE Symp on Security and Privacy (SP). Piscataway, NJ: IEEE, 2021: 1348−1366

    [19] 袁和昕,刘百祥,阚海斌,等. 基于区块链和去中心不可否认属性签名的分布式公钥基础设施方案[J]. 中国科学:信息科学,2022,52(6):1135−1148

    Yuan Hexin, Liu Baixiang, Kan Haibin, et al. Distributed public key infrastructure scheme based on blockchain and decentralized non-repudiation attribute signature[J]. SCIENTIA SINICA Informationis, 2022, 52(6): 1135−1148 (in Chinese)

    [20]

    Alangot B, Szalachowski P, Dinh T T A, et al. Decentralized identity authentication with auditability and privacy[J]. Algorithms, 2022, 16(1): 4−25 doi: 10.3390/a16010004

    [21]

    Mckeen F , Alexandrovich I , Berenzon A , et al. Innovative instructions and software model for isolated execution[C/OL] //Proc of the 2nd Int Workshop on Hardware and Architectural Support for Security and Privacy. New York: ACM, 2013.[2023-05-30]. https://doi.org/10.1145/2487726.2488368

    [22]

    Hoekstra M , Lal R , Pappachan P , et al. Using innovative instructions to create trustworthy software solutions[C/OL] //Proc of the 2nd Int Workshop on Hardware and Architectural Support for Security and Privacy. New York: ACM, 2013[2023-05-30]. https://doi.org/10.1145/2487726.2488370

    [23]

    Weisse O, Bertacco V, Austin T. Regaining lost cycles with HotCalls: A fast interface for SGX secure enclaves[J]. ACM SIGARCH Computer Architecture News, 2017, 45(2): 81−93 doi: 10.1145/3140659.3080208

    [24]

    Zhang F, Cecchetti E, Croman K, et al. Town crier: An authenticated data feed for smart contracts[C] //Proc of the 2016 ACM SIGSAC Conf on Computer and Communications Security. New York: ACM, 2016: 270−282

    [25]

    Dong Chuntao, Shen Qingni, Ding Xuhua, et al. T-Counter: Trustworthy and efficient CPU resource measurement using SGX in the cloud[J]. IEEE Transactions on Dependable and Secure Computing, 2023, 20(1): 867−885 doi: 10.1109/TDSC.2022.3145814

    [26]

    Schuster F, Costa M, Fournet C, et al. VC3: Trustworthy data analytics in the cloud using SGX[C] //Proc of 2015 IEEE Symp on Security and Privacy. Piscataway, NJ: IEEE, 2015: 38−54

    [27]

    Song Tianlin, Wang Wei, Lang Fan, et al. P2A: Privacy preserving anonymous authentication based on blockchain and SGX[C] //Proc of the 16th Int Conf on Information Security and Cryptology. Berlin: Springer, 2021: 257−276

    [28]

    Zhao Bo, Xiao Yu, Huang Yuqing, et al. A private user data protection mechanism in TrustZone architecture based on identity authentication[J]. Tsinghua Science and Technology, 2017, 22(2): 218−225 doi: 10.23919/TST.2017.7889643

    [29]

    ElGamal T. A public key cryptosystem and a signature scheme based on discrete logarithms[J]. IEEE Transactions on Information Theory, 1985, 31(4): 469−472 doi: 10.1109/TIT.1985.1057074

    [30]

    Damgård I. On Σ-protocols[EB/OL]. 2002[2023-05-30]. https://www.cs.au.dk/~ivan/Sigma.pdf

    [31]

    Schnorr C P. Efficient signature generation by smart cards[J]. Journal of Cryptology, 1991, 4: 161−174 doi: 10.1007/BF00196725

    [32]

    Fiat A, Shamir A. How to prove yourself: Practical solutions to identification and signature problems[C]//Proc on Advances in Cryptology (CRYPTO’86). Berlin: Springer, 1987: 186−194

    [33]

    Zhang Qiong, Wang Yuke, Jue J P. A key management scheme for hierarchical access control in group communication[J]. International Journal of Network Security, 2008, 7(3): 323−334

    [34]

    Garg N, Wazid M, Das A K, et al. BAKMP-IoMT: Design of blockchain enabled authenticated key management protocol for Internet of medical things deployment[J]. IEEE Access, 2020, 8: 95956−95977 doi: 10.1109/ACCESS.2020.2995917

    [35]

    Ahmad S, Mehfuz S, Beg J. Cloud security framework and key management services collectively for implementing DLP and IRM[J]. Materials Today:Proceedings, 2022, 62(7): 4828−4836

    [36]

    Edgeless Systems. EGo [EB/OL]. [2023-02-28]. https://github.com/edgelesssys/ego

  • 期刊类型引用(1)

    1. 张凯威,张玲. 颜色感知的双通道反射消除算法. 计算机系统应用. 2025(03): 277-285 . 百度学术

    其他类型引用(1)

图(7)  /  表(4)
计量
  • 文章访问数:  343
  • HTML全文浏览量:  52
  • PDF下载量:  158
  • 被引次数: 2
出版历程
  • 收稿日期:  2023-04-02
  • 修回日期:  2023-06-05
  • 网络出版日期:  2023-06-25
  • 刊出日期:  2023-11-14

目录

/

返回文章
返回