Processing math: 1%
  • 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

基于自步学习的开放集领域自适应

刘星宏, 周毅, 周涛, 秦杰

刘星宏, 周毅, 周涛, 秦杰. 基于自步学习的开放集领域自适应[J]. 计算机研究与发展, 2023, 60(8): 1711-1726. DOI: 10.7544/issn1000-1239.202330210
引用本文: 刘星宏, 周毅, 周涛, 秦杰. 基于自步学习的开放集领域自适应[J]. 计算机研究与发展, 2023, 60(8): 1711-1726. DOI: 10.7544/issn1000-1239.202330210
Liu Xinghong, Zhou Yi, Zhou Tao, Qin Jie. Self-Paced Learning for Open-Set Domain Adaptation[J]. Journal of Computer Research and Development, 2023, 60(8): 1711-1726. DOI: 10.7544/issn1000-1239.202330210
Citation: Liu Xinghong, Zhou Yi, Zhou Tao, Qin Jie. Self-Paced Learning for Open-Set Domain Adaptation[J]. Journal of Computer Research and Development, 2023, 60(8): 1711-1726. DOI: 10.7544/issn1000-1239.202330210

基于自步学习的开放集领域自适应

基金项目: 国家自然科学基金项目(62106043);江苏省自然科学基金项目 (BK20210225);南京市留学人员科技创新项目 (1109002305)
详细信息
    作者简介:

    刘星宏: 1996年生. 硕士研究生. CCF学生会员. 主要研究方向为计算机视觉和机器学习

    周毅: 1990年生. 博士,副教授. CCF会员. 主要研究方向为计算机视觉、机器学习、医学图像分析

    周涛: 1986年生. 博士,教授,博士生导师. CCF会员. 主要研究方向为医学图像分析、机器学习、计算机视觉

    秦杰: 1989年生. 博士,教授. CCF会员. 主要研究方向为计算机视觉和机器学习

    通讯作者:

    周毅(yizhou.szcn@gmail.com

  • 中图分类号: TP391

Self-Paced Learning for Open-Set Domain Adaptation

Funds: This work was supported by the National Natural Science Foundation of China (62106043), the Natural Science Foundation of Jiangsu Province (BK20210225), and the Technological Innovation Foundation for Overseas Graduates of Nanjing City (1109002305).
More Information
    Author Bio:

    Liu Xinghong: born in 1996. Master candidate. Student member of CCF. His main research interests include computer vision and machine learning

    Zhou Yi: born in 1990. PhD, associate professor. Member of CCF. His main research interests include computer vision, machine learning, and medical image analysis

    Zhou Tao: born in 1986. PhD, professor, PhD supervisor. Member of CCF. His main research interests include medical image analysis, machine learning, and computer vision. (taozhou.ai@gmail.com

    Qin Jie: born in 1989. PhD, professor. Member of CCF. His main research interests include computer vision and machine learning. (qinjiebuaa@gmail.com)

  • 摘要:

    领域自适应的目的是将从源领域获得的知识泛化到具有不同数据分布的目标领域. 传统的领域自适应方法假设源域和目标域的类别是相同的,但在现实世界的场景中并非总是如此. 为了解决这个缺点,开放集领域自适应在目标域中引入了未知类以代表源域中不存在的类别. 开放集领域自适应旨在不仅识别属于源域和目标域共享的已知类别样本,还要识别未知类别样本. 传统的领域自适应方法旨在将整个目标域与源域对齐以最小化域偏移,这在开放集领域自适应场景中不可避免地导致负迁移. 为了解决开放集领域自适应带来的挑战,提出了一种基于自步学习的新颖框架SPL-OSDA (self-paced learning for open-set domain adaptation),用于精确区分已知类和未知类样本,并进行领域自适应. 为了利用未标记的目标域样本实现自步学习,为目标域样本生成伪标签,并为开放集领域自适应场景设计一个跨领域混合方法. 这种方法最大程度地减小了伪标签的噪声,并确保模型逐步从简单到复杂的例子中学习目标域的已知类特征. 为了提高模型在开放场景的可靠性以满足开放场景可信人工智能的要求,引入了多个准则以区分已知类和未知类样本. 此外,与现有的需要手动调整超参数阈值以区分已知类和未知类的开集领域自适应方法不同,所提方法可以自动调整合适的阈值,无需在测试过程中进行经验性调参. 与经验性调整阈值相比,所提的模型在不同超参数及实验设定下都表现出了良好的鲁棒性. 实验结果表明,与各种最先进的方法相比,所提方法在不同的基准测试中始终取得卓越的性能.

    Abstract:

    Domain adaptation tackles the challenge of generalizing knowledge acquired from a source domain to a target domain with different data distributions. Traditional domain adaptation methods presume that the classes in the source and target domains are identical, which is not always the case in real-world scenarios. Open-set domain adaptation (OSDA) addresses this limitation by allowing previously unseen classes in the target domain. OSDA aims to not only recognize target samples belonging to known classes shared by source and target domains but also perceive unknown class samples. Traditional domain adaptation methods aim to align the entire target domain with the source domain to minimize domain shift, which inevitably leads to negative transfer in open-set domain adaptation scenarios. We propose a novel framework based on self-paced learning to distinguish known and unknown class samples precisely, referred to as SPL-OSDA (self-paced learning for open-set domain adaptation). To utilize unlabeled target samples for self-paced learning, we generate pseudo labels and design a cross-domain mixup method tailored for OSDA scenarios. This strategy minimizes the noise from pseudo labels and ensures our model progressively to learn known class features of the target domain, beginning with simpler examples and advancing to more complex ones. To improve the reliability of the model in open-set scenarios to meet the requirements of trustworthy AI, multiple criteria are utilized in this paper to distinguish between known and unknown samples. Furthermore, unlike existing OSDA methods that require manual hyperparameter threshold tuning to separate known and unknown classes, our propused method self-tunes a suitable threshold, eliminating the need for empirical tuning during testing. Compared with empirical threshold tuning, our model exhibits good robustness under different hyperparameters and experimental settings. Comprehensive experiments illustrate that our method consistently achieves superior performance on different benchmarks compared with various state-of-the-art methods.

  • 深度学习方法最吸引人的一点是:经过数百万个标注样本的训练[1-4],模型在与训练集独立同分布的新数据上可以获得出色的性能. 然而,当它们被部署到与源域具有显著不同的域分布的目标域中时,其性能通常会急剧下降,这种不匹配的域分布称为域偏移. 域偏移由各种视角、各种照明条件和不同传感器引起,但可以利用迁移学习方法[5-6]最小化域偏移. 一种直观的方法是对目标域样本人工标注标签并对已经训练好的模型进行微调. 然而,在目标域上标注大量标签是耗时且昂贵的.

    为了解决这个问题,无监督领域自适应(unsupervised domain adaptation, UDA)方法[7-10]提出将标签知识从有标注的源域迁移到无标注的目标域,同时克服源域和目标域间的域偏移. 无监督领域自适应的经典方案[8,11]是:利用领域硬标签,即将源域样本标记为1,将目标域样本标记为0,然后应用梯度反转层(gradient reverse layer, GRL)来最小化源域和目标域之间的边缘分布差异. 在实际场景中,目标域中的部分样本可能不属于源域中的任何类别,即未知类(unknown class). 开放集领域自适应[12-13](open-set domain adaptation, OSDA)提出:在无监督领域自适应的基础上,模型还需区分出那些不属于源域已知类别的未知类样本. 在这种情形下,若强制性地将整个目标域与源域进行对齐,那么将不可避免地导致负迁移. 我们观察到,直接采用领域硬标签进行开放集领域自适应将会对齐整个目标域与源域,导致未知类样本会被分类器错误地预测为源域和目标域共享的已知类(known class).

    为了应对开放集领域自适应的额外挑战,我们提出了一种基于自步学习的新框架,其仅将目标域中的已知类与源域对齐,使模型学习域不变特征,并区分目标域中的已知类和未知类样本. 自步学习(self-paced learning)是一种训练机器学习模型的策略. 这种策略的主要思想是模拟人类的学习过程,即在训练初期,模型只关注那些相对容易正确分类的样本;然后随着学习的深入,模型会逐渐开始处理更具挑战性的样本. 自步学习模型在训练过程中可以自动从易到难,选择合适的样本进行学习. 利用自步学习的优点在于:模型在训练初期主要关注易于学习的、噪声较低的样本,而在训练后期再处理那些更难、包含更多噪声的样本. 这种方式可以使模型避免在训练初期就被噪声数据所迷惑.

    为了将目标域中的已知类与源域对齐,我们提出了双重多分类器模块. 一方面,双重多分类器可以引导模型仅对齐目标域的已知类,而不是将整个目标域与源域对齐,从而防止将整个目标域对齐到源域时出现负迁移. 另一方面,利用未标记的目标域样本,双重多分类器可以根据不同训练阶段逐步调整阈值. 为了学习目标域中的已知类特征,基于自步学习,我们提出了多准则跨域混合模块. 多准则跨域混合模块混合带真实标签的源域样本和带伪标签的目标域样本以降低伪标签的噪声并使得模型具备学习域不变特征. 在初始训练阶段,双重多分类器会计算出较高阈值,此时多准则跨域混合模块仅混合少量带伪标签的目标域样本. 随着训练的进行,阈值逐渐调整到合适的值,从而允许模型利用更多具有伪标签的目标域样本. 因此,模型可以从目标域中较简单的样本到较复杂的样本中逐渐学习得到域不变特征. 此时,由于阈值的下降,增加了带有伪标签的目标域样本输入数量,增加了由伪标签带来的噪声,但由于模型的学习率已经相对较低,因此对模型性能的负面影响较小. 进一步地,为了使模型满足开放场景中可信人工智能的需求,我们结合了各种标准,包括熵(entropy)、一致性(consistency)和置信度(confidence),从而能更精确地区分目标域中的已知类和未知类. 我们认识到仅依靠置信度值不能准确区分已知类和未知类,因为置信度缺乏对不确定程度的区分能力. 结合熵和置信度,二者相互补充,覆盖了平滑和非平滑类分布[11],还引入一致性,以修正置信度导致的预测错误[11]. 此外,我们期望模型可以自动计算合适的阈值,无需在测试过程中进行经验性调参从而使得模型在不同超参数及实验设定下拥有良好的鲁棒性以满足开放场景可信人工智能的要求. 基于以上思想,本文提出了基于自步学习的开放集领域自适应(self-paced learning for open-set domain adaptation,SPL-OSDA)模型. SPL-OSDA可以将目标域的已知类与源域对齐,学习域不变特征,并区分已知类和未知类样本.

    本文的主要贡献包括3个方面:

    1)为了有效地筛选从简单到复杂的目标域样本并避免领域硬标签引起的负迁移,提出了双重多分类器. 双重多分类器用于匹配目标域与源域2个域之间的已知类而非将整个目标域与源域进行对齐. 此外,双重多分类器会自动计算用于区分目标域中已知类和未知类的阈值. 这种自调整阈值策略使得模型由较简单的样本到较复杂的样本中逐渐学习域不变特征. 此外,本文方法无需在测试阶段进行经验性调参来找出区分已知类和未知类样本的最佳阈值.

    2)引入了一种新颖的基于自步学习的方法,称为多准则跨域混合. 该方法可以有效学习域不变特征并准确区分已知类和未知类. 通过跨域混合,模型学习域不变特征的能力得到了显著增强. 同时,这种方法还能最小化伪标签引起的噪声. 与仅依靠置信度值相比,利用多准则有助于更好地区分已知类和未知类样本,使得模型能满足开放场景可信人工智能的要求.

    3)在3个公开基准数据集上进行了全面的实验,比较了本文的方法与各种最先进的技术. 本文模型始终表现出卓越的性能,说明其有效性;还对模型的各组件进行了深入分析,以便更好地理解它们对模型整体性能的贡献.

    无监督领域自适应的目标是将源域的标签知识迁移到无标签的目标域上以减轻由于域差异而导致的性能下降. 无监督领域自适应的数学本质是最小化联合分布偏移,这可以分为边缘分布偏移和条件分布偏移.Ben-David等人[14]在理论上证明了,通过减小边缘分布偏移并同时最小化在源域上的分类损失,可以实现无监督领域自适应的目标. Ganin等人[8]受到生成对抗网络(generative adversarial nets, GAN)[15]的启发,设计了一个对抗域模块来衡量域之间的差异,并引入了一个梯度反转层来最小化源域和目标域之间的边缘分布偏移. 梯度反转层可以帮助模型学习域不变特征. Wu等人[16]指出,仅利用来自源域和目标域的有限样本进行学习不能保证潜在空间中的特征是域不变的. 他们引入了跨域和跨类别混合的方法,以指导分类器在更连续的潜在空间中学习域不变特征. Xu等人[17]提出了一种基于像素和特征级别的跨域混合方法. 该方法混合不同比例的源域样本和目标域样本,从而生成代表不同状态的各种特征. 文献[16-17]在生成了更连续的潜在空间后最小化边缘分布偏移,以保证特征是域不变的. Long等人[18]认为,仅仅是减少边缘分布差异可能无法准确地对齐具有多模态分布的2个域. 他们构建了一个具有条件鉴别器的模型来减少条件分布差异. Yu等人[10]指出,在实际应用中边缘分布和条件分布具有不同的重要性. 他们提出了一个动态对抗因子来定量评估边缘和条件分布的相对重要性. 与文献[8]相比,文献[10]提高了模型的性能. 针对交通图像语义分割,文献[19]提出了通过采用优化上采样方法和focal loss的损失函数以改进交通图像中数据量较小的类别难以被正确分割的问题. 文献[20]通过最大化模型中2个分类器的分类差异,并通过分类器和特征提取器间对抗学习的方式来最小化目标域和源域间的域差异. 这些传统的无监督领域适应方法是针对封闭集领域自适应(closed-set domain adaptation, CSDA)任务设计的,不能直接应用于开放集领域自适应问题.

    与封闭集领域自适应任务相比,开放集领域自适应的额外挑战是模型需要在没有目标域标签的情况下区分目标域的已知类和未知类. 代表性的封闭集领域自适应学习范式是将源域和目标域样本分别标记为1和0,并设计了一个梯度反转层来减少2个域之间的边缘分布差异. 然而,在开放集领域自适应场景中将整个目标域与源域匹配是不明智的,因为这会导致模型将未知类样本分类为已知类.Saito等人[13]设计了一个带有额外未知类的分类器,以区分目标域中的未知类别. 他们提出了一种带经验性超参数的损失函数来训练分类器. Liu等人[21]采用了一种从粗到细的加权机制,逐步将目标域中的已知类和未知类分开. 他们的方法允许在训练阶段对不同样本的重要性进行加权;他们还提出了开放度(openness)指标,用于衡量目标域中未知类的比例. Shermin等人[22]也有类似于文献[21]的想法. 他们引入了一个补充分类器,用于为每个样本分配不同的权重.Luo等人[23]提出了一种使用图神经网络来抑制潜在条件移位的新方法. 随后,他们采用对抗学习来最小化源域和目标域之间的差异. Pan等人[24]设计了一个称为SE-CC(self-ensembling with category-agnostic clusters)的模型. 他们将所有未标记的目标域样本聚类以获取类别无关的聚类,这有助于揭示与目标域相关的特征空间结构. 此外,他们还应用互信息来提高模型性能. Zhou等人[25]则提出了一种协作区域聚类和对齐方法(collaborative regional clustering and alignment method)来识别类别无关的共有局部特征. 所有上述开放集领域自适应方法[13,21-25]都依靠模型在测试阶段产生的置信度来区分已知类和未知类,这在某些情况下并不十分可靠,特别是当目标域的开放度很大时. 相比之下,我们提出了在更连续的潜在空间中学习域不变特征,并结合多个标准来精确分离已知/未知类的方法.

    自步学习范式是许多有监督学习模型的核心,特别是带有噪声标签的模型[26-30]. 最近,一些研究将自适应学习与无监督领域适应相结合,例如PCDA[31]和SPCL[32]. 然而,PCDA是专门为封闭集领域自适应设计的,因此不适用于开放集领域自适应场景. 另一方面,SPCL假设目标域样本均属于未知类别,这意味着目标域和源域类别之间没有重叠. 这种假设也阻碍了SPCL在目标域和源域具有共享的已知类的开放集领域自适应场景中的应用. 此外,Li等人[33]为部分领域自适应问题(partial domain adaptation,PDA)设计了自适应源类权重方案(adaptive source class weighting scheme),从而使得模型能在不同的训练阶段动态调整目标域样本的预测值. 但部分领域自适应问题与开放集领域自适应问题不同在于:开放集领域自适应问题中目标域存在未知类样本;而部分领域自适应问题的目标域中并不存在未知类样本. 因而文献[33]提出的CSDN模型也无法直接地应用到开放集领域自适应问题.

    定义1. 在传统的无监督领域自适应场景中,具有NS个样本的、有标签的源域DS={(xsi,ysi)}NSi=1,以及具有NT个样本的、无标签的目标域DT={(xti)}NTi=1. 其中源域的分布p与目标域的分布q显著不同.

    定义2. 定义源域类别集合为CS,目标域类别集合为CT,那么在开放集领域自适应场景中,我们有CSCT. 即,源域类别集合是目标域类别集合的非空真子集. 对于目标域的任一类别ct,若ct\in CS,则称其为已知类;反之,若ct \notin CS,则称其为未知类.

    定义3. 开放集领域自适应问题的目标是通过领域自适应,将与源域样本存在域偏移的目标域已知类样本正确分类为CS中相对应的类别,同时还需将不属于CS的目标域样本正确分类为未知类别.

    定义4. 对于开放集领域自适应场景,我们定义开放度O = 1 - \dfrac{{\left| {{C^{\rm{S}}}} \right|}}{{\left| {{C^{\rm{T}}}} \right|}},其中|\cdot|代表集合的势.

    定义5. 在领域自适应任务中,梯度反转层在前向传播过程中不改变输入数据,但在反向传播过程中会改变梯度的符号. 在前向传播阶段,设xin为梯度反转层的输入,xout为输出,则有xout=xin;在反向传播阶段,设传入的梯度为\dfrac{{{\rm{d}}L}}{{{\rm{d}}{x_{{\text{out}}}}}},其中L是损失函数,则经过梯度反转层后输出的梯度为\dfrac{{{\rm{d}}L}}{{{\rm{d}}{x_{{\text{in}}}}}} = - \dfrac{{{\rm{d}}L}}{{{\rm{d}}{x_{{\text{out}}}}}}.

    图1(a)展示了SPL-OSDA的整体架构. SPL-OSDA包括双重多分类器模块和多准则跨域混合cross-domain mix-up with multiple criteria (CMMC)模块. 双重多分类器模块由一个对抗学习分类器GC和一个辅助分类器Gaux组成. 我们利用双重多分类器模块将目标域中的已知类与源域对齐,该模块还利用无标签的目标域样本生成阈值h并传递给多准则跨域混合模块. 多准则跨域混合模块由m个分类器组成,我们将其标记为{G^{{{\rm{M}}_1}}}\sim{G^{{{\rm{M}}_m}}}. 多准则跨域混合模块用于区分目标域中的已知类和未知类. 基于自步学习,我们在多准则跨域混合模块中设计了跨域混合方法,以降低伪标签的噪声并使得模型在更连续的潜在空间中学习域不变特征. 图2展示了多准则跨域混合模块中实现跨域混合的方式. 其中\hat y_j^{\rm{t}}是由GC预测的对于目标域样本x_j^{\rm{t}}的伪标签. 若\hat y_j^{\rm{t}} = y_i^{\rm{s}}且其多准则系数\omega _j^{\rm{t}} \geqslant h,则将目标域样本x_j^{\rm{t}}与源域样本x_i^{\rm{s}}进行像素级的跨域混合,λ是人为设定的超参数.

    图  1  SPL-OSDA示意图及自步学习流程
    Figure  1.  Illustration of SPL-OSDA and self-paced learning process
    图  2  CMMC模块中的跨域混合方法
    Figure  2.  Cross-domain mix-up method in CMMC module

    为了将目标域中的已知类与源域对齐,我们设计了双重多分类器模块,从而计算样本属于已知类的概率. 具体地说,该模块对于已知类的目标域样本和所有源域样本会输出较高的概率值,我们可以利用概率值精确地将目标域中的已知类和源域进行对齐.

    传统的无监督封闭集领域自适应问题使用的通常是闭集域分类器,即为分类器设置|CS|个分类头. 但在开放集领域自适应问题中,仅使用闭集域分类器会造成模型过度自信地(overconfidently)对未知类样本输出较高的概率值. 因此,开放集领域自适应[13,21-22]的模型范式通常是为分类器设置|CS|+1个分类头,以避免模型过度自信地将未知类样本分类为已知类. 基于上述思想,我们在双重多分类器模块中设计了分类器GC. 具体来说,给定样本x,分类器GC输出一个|CS|+1维的概率向量GCx),形式化的定义为:

    {{\boldsymbol{G}}^{\rm{C}}}(x) = \left( {p_1^{{G^{\rm{C}}}},p_2^{{G^{\rm{C}}}},…,p_{\left| {{C^{\rm{S}}}} \right| + 1}^{{G^{\rm{C}}}}} \right) . (1)

    第|CS|+1个元素p_{\left| {{C^{\rm{S}}}} \right| + 1}^{{G^{\rm{C}}}}代表由分类器GC输出的该样本x属于未知类的概率,其余的|CS|个元素代表由分类器GC输出的样本x属于各已知类别[1, 2, …, |CS|]的概率. 属于已知类的目标域样本和所有源域样本会有较大的\displaystyle\sum\limits_{c = 1}^{\left| {{C^{\rm{S}}}} \right|} {p_{{c}}^{{G^{\rm{C}}}}}和较小的 p_{\left| {{C^{\rm{S}}}} \right| + 1}^{{G^{\rm{C}}}} . 我们使用softmax公式计算GC(x):

    {{\boldsymbol{G}}^{\rm{C}}}(x) = \dfrac{{{\text{exp}}\left( {{{\boldsymbol{l}}^{{G^{\rm{C}}}}}} \right)}}{{\displaystyle\sum\limits_{c = 1}^{\left| {{C^{\rm{S}}}} \right| + 1} {{\text{exp}}\left( {{\boldsymbol{l}}_c^{{{{G}}^{\rm{C}}}}} \right)} }} , (2)

    其中{{\boldsymbol{l}}^{{{{G}}^{\rm{C}}}}}GC产生的logit向量. 我们定义分类器GC在源域上的分类损失为:

    \mathcal{E}_{{G^{\rm{C}}}}^{\rm{S}} = {\mathbb{E}_{{x^{\rm{s}}}\sim p}}\left[ {{L_{{\text{CE}}}}\left( {{x^{\rm{s}}},{y^{\rm{s}}}} \right)} \right] , (3)

    其中 {L_{{\text{CE}}}} 是标准的交叉熵损失函数.

    给定样本x,辅助分类器Gaux输出一个|CS|维的概率向量{\boldsymbol{G}}^{\mathrm{a}\mathrm{u}\mathrm{x}}\left(\mathrm{x}\right),形式化的定义为:

    {{\boldsymbol{G}}^{{\text{aux}}}}(x) = \left( {p_1^{{G^{{\text{aux}}}}},p_2^{{G^{{\text{aux}}}}},. ..,p_{\left| {{C^{\rm{S}}}} \right|}^{{G^{{\text{aux}}}}}} \right) . (4)

    式(4)中各元素代表由分类器Gaux输出的样本x属于各已知类别\left\{{1,2},… ,\left|{{C}}^{\mathrm{S}}\right|\right\}的概率. 我们使用文献[34]中提出的leaky-softmax函数来计算Gaux(x),形式化的定义为:

    {{\boldsymbol{G}}^{{\text{aux}}}}(x) = \dfrac{{{\text{exp}}\left( {{{\boldsymbol{l}}^{{G^{{\text{aux}}}}}}} \right)}}{{\left| {{C^{\rm{S}}}} \right| + \displaystyle\sum\limits_{c = 1}^{\left| {{C^{\rm{S}}}} \right|} {{\text{exp}}\left( {{\boldsymbol{l}}_c^{{G^{{\text{aux}}}}}} \right)} }} , (5)

    其中{{\boldsymbol{l}}^{{G^{{\text{aux}}}}}}{{G}}^{\mathrm{a}\mathrm{u}\mathrm{x}}产生的logit向量. 我们定义{{G}}^{\mathrm{a}\mathrm{u}\mathrm{x}}在源域上的分类损失

    \mathcal{E}_{{G^{{\text{aux}}}}}^{\rm{S}} = {\mathbb{E}_{{x^{\rm{s}}}\sim p}}\left[ {{L_{{\text{BCE}}}}\left( {{x^{\rm{s}}},{\boldsymbol{y}}'^{\rm{s}}} \right)} \right] , (6)

    其中{{\boldsymbol{y}}{'^{\rm{s}}}}是one-hot形式的样本xs的类别真实标签,维度为1×|CS|; {L_{{\text{BCE}}}} 是标准的二元交叉熵损失函数. 二元交叉熵损失函数不仅适用于二分类任务,其同时也适用于单标签的多分类任务. 例如,给定样本xs及类别标签ys = 0,若|CS| = 3,则有one-hot形式的类别标签{{\boldsymbol{y}}{'^{\rm{s}}}} = (1,0,0). 若概率向量{{G}}^{\mathrm{a}\mathrm{u}\mathrm{x}}\left({{x}}^{{{\rm{s}}}}\right)=\left({0.5,0.4,0.05}\right)(由于{{G}}^{\mathrm{a}\mathrm{u}\mathrm{x}}\left({x}^{\rm{s}}\right)是使用leaky-softmax函数来计算概率向量的,因此概率向量中各元素值之和小于1),则二元交叉熵损失函数值

    \begin{aligned} \mathcal{E}_{{G^{{\text{aux}}}}}^S = &- \frac{1}{3}[ {( {1 \times {\text{ln0}}{\text{.5 + 0}} \times {\text{ln0}}{\text{.5}}} ) + }( {0 \times {\text{ln0}}{\text{.4 + 1}} \times {\text{ln0}}{\text{.6}}} ) + \\ &( {0 \times {\text{ln0}}{\text{.05 + 1}} \times {\text{ln0}}{\text{.95}}} ) ] = 0.4. \end{aligned}

    分类器 {{G}}^{\mathrm{C}} {{G}}^{\mathrm{a}\mathrm{u}\mathrm{x}} 使用不同的分类损失函数是为了避免两者陷入同一鞍点.

    我们结合 {{G}}^{\mathrm{C}} {{G}}^{\mathrm{a}\mathrm{u}\mathrm{x}} 来计算给定样本x属于已知类的概率Pknown(x),其计算公式为:

    \begin{aligned} {P_{{\text{known}}}}(x) = {S_1}(x) \times {S_2}(x),\\ \end{aligned} (7)
    \begin{aligned} &{S_1}(x) = \sum\limits_{c = 1}^{\left| {{C^{\rm{S}}}} \right|} {p_c^{{G^{\rm{C}}}}} , \\ &{S_2}(x) = \sum\limits_{c = 1}^{\left| {{C^{\rm{S}}}} \right|} {p_c^{{G^{{\text{aux}}}}}} . \end{aligned}

    我们利用 {{P}}_{\mathrm{k}\mathrm{n}\mathrm{o}\mathrm{w}\mathrm{n}}\left(\mathrm{x}\right) {{G}}^{\mathrm{C}}将目标域中的已知类与源域进行对齐,损失函数为:

    \begin{gathered} \mathcal{E}_{{G^{\rm{C}}},{\text{adv}}}^{\rm{D}} = {\mathbb{E}_{{x^{\rm{t}}}\sim q}}\left[ { - {P_{{\text{known}}}}\left( {{x^{\rm{t}}}} \right)\left( {\log p_{\left| {{C^{\rm{S}}}} \right| + 1}^{{G^{\rm{C}}}} + {\text{log}}\left( {1 - p_{\left| {{C^{\rm{S}}}} \right| + 1}^{{G^{\rm{C}}}}} \right)} \right)} \right] +\\ {\mathbb{E}_{{x^{\rm{s}}}\sim p}}\left[ { - \left( {1 - {P_{{\text{known}}}}\left( {{x^{\rm{s}}}} \right)} \right)\left( {\log p_{\left| {{C^{\rm{S}}}} \right| + 1}^{{G^{\rm{C}}}} + {\text{log}}\left( {1 - p_{\left| {{C^{\rm{S}}}} \right| + 1}^{{G^{\rm{C}}}}} \right)} \right)} \right]. \\ \end{gathered} (8)

    传统的无监督领域自适应是通过引入二元判别器实现领域间的对齐. 但在开放集领域自适应问题中,使用二元判别器会对齐整个目标域和源域,从而使得模型无法在测试阶段区分出目标域中的已知类和未知类样本. 开放集领域自适应模型[13,22]通常使用分类器输出的概率值、带权重的log函数与梯度反转层相结合作为对齐目标域已知类和源域的范式. 因此,为了精确地将目标域中的已知类样本和源域进行对齐并避免由于对齐目标域未知类样本和源域带来的负迁移,我们设计了损失函数项\mathcal{E}_{{G^{\rm{C}}},{\text{adv}}}^{\rm{D}}. 具体来看,对于目标域样本xt来说,当且仅当S1(xt)和S2(xt)都接近1,即GCGaux都认为xt是来自于已知类时,模型才会为xt赋以较大的权重Pknown(xt),从而使得模型找到目标域已知类样本并将其与源域对齐. 反之,较小的Pknown(xt)对损失函数项\mathcal{E}_{{G^{\rm{C}}},{\text{adv}}}^{\rm{D}}的贡献较小,从而避免模型将目标域未知类样本与源域对齐. 具体来说,当Pknown(xt)较大时,GC会利用梯度下降来降低\log p_{\left| {{C^{\rm{S}}}} \right| + 1}^{{G^{\rm{C}}}} + {\text{log}}\left( {1 - p_{\left| {{C^{\rm{S}}}} \right| + 1}^{{G^{\rm{C}}}}} \right)的值;另一方面,由于梯度反转层的影响,特征提取器F会增大\log p_{\left| {{C^{\rm{S}}}} \right| + 1}^{{G^{\rm{C}}}} + {\text{log}}\left( {1 - p_{\left| {{C^{\rm{S}}}} \right| + 1}^{{G^{\rm{C}}}}} \right)的值,从而使得F对抗性地学习目标域中的已知类和源域的域不变特征. 对于源域样本xs来说,S1(xs)和S2(xs)会接近1但不等于1,从而使得1−Pknown(xs)接近0但不等于0. 我们的研究发现:1)引入分类器Gaux可以使得模型更加精准地将目标域的已知类和源域对齐. 2)式(8)等号右边的第2项(即基于源域样本的期望损失)可以避免模型过度自信地将目标域中的未知类样本分类为已知类. 我们认为这是由于第2项会给源域样本特征带来微小的扰动,从而避免了将具有相似特征的未知类目标域样本与源域对齐. 使用Nuclear-norm Wasserstein discrepancy[35]来训练Gaux以使其能区分源域和目标域样本. 形式化的定义为:

    \mathcal{E}_{{G^{{\text{aux}}}}}^{\rm{D}} = {\mathbb{E}_{{x^s}\sim p,{x^t}\sim q}}\left[ \big\| {{\boldsymbol{G}}^{{\text{aux}}}}\left( {{x^t}} \right) \big\|_ * - \big\| {{\boldsymbol{G}}^{{\text{aux}}}}\left( {{x^s}} \right) \big\|_* \right] , (9)

    其中\left\|\cdot \right\|_*表示核范数. 需要注意的是,如图1(a)所示,我们不会将式(9)损失函数的梯度回传至特征提取器F. 假设我们回传梯度至F,且设置一个梯度反转层,那么会使得整个目标域与源域对齐,从而引起负迁移;假设我们回传梯度至F,且不设置梯度反转层,那么回传的梯度会灾难性地破坏F学习域不变特征的能力.

    双重多分类器模块的优化目标形式化地表示为:

    \theta _{{G^{\rm{C}}}}^* = \mathop {{\text{arg\;min}}}\limits_{{\theta _{{G^{\rm{C}}}}}} \mathcal{E}_{{G^{\rm{C}}}}^{\rm{S}} + \mathcal{E}_{{G^{\rm{C}}},{\text{adv}}}^{\rm{D}}, (10)
    \theta _F^* = \mathop {{\text{arg\;min}}}\limits_{{\theta _F}} \mathcal{E}_{{G^{\rm{C}}}}^{\rm{S}} - \mathcal{E}_{{G^{\rm{C}}},{\text{adv}}}^{\rm{D}}, (11)
    \theta _{{G^{{\text{aux}}}}}^* = \mathop {{\text{arg\;min}}}\limits_{{\theta _{{G^{{\text{aux}}}}}}} \mathcal{E}_{{G^{{\text{aux}}}}}^{\rm{S}} + \mathcal{E}_{{G^{{\text{aux}}}}}^{\rm{D}}. (12)

    在介绍如何计算阈值之前,考虑目标域中可能存在的3种情况:1)未知类样本的数量比已知类多得多. 此时应当设置较高的阈值,以防止将大量未知类样本错误地被分类到已知类中. 2)目标域包含许多已知类样本,而未知类样本很少. 在这种情况下,应当设置较低的阈值,否则会将大量的已知类样本误分为未知类. 3)已知类和未知类样本的数量接近. 我们应当将阈值设置为情形1)和2)之间的中间值.

    同时在阈值自调整时,还应考虑到自步学习训练过程的学习范式. 自步学习的目标是使模型从简单到复杂的样本中逐渐学习目标域中已知类的特征. 通过采用阈值自调整的方法,应当使阈值逐渐降低到合适的值,从而可以以阈值作为参考,逐步将带有伪标签的目标域已知类样本输入到模型中. 由于在训练的初始阶段源域和目标域间存在较大的域偏移,因此阈值应当接近1. 因此,只有一些与源域非常相似的、容易被模型区分出的目标域样本被用于自步学习. 随着训练的进行,源域和目标域已知类将逐渐对齐,阈值将逐渐降低至一个合适的数值,从而更多的目标域样本被用于自步学习.

    基于上述想法,提出了每次迭代中模型阈值自调整的计算公式:

    \begin{split} h = 1 - {\mathbb{E}_{x_i^{\rm{t}},x_j^{\rm{t}}\sim q}}\Bigg[ {\sum\limits_{c = 1}^{\left| {{C^{\rm{S}}}} \right|} {\left( {{\lambda _1}\left( {{{\boldsymbol{G}}^{\rm{C}}}\left( {x_i^{\rm{t}}} \right) + {{\boldsymbol{G}}^{\rm{C}}}\left( {x_j^{\rm{t}}} \right)} \right)} \right.} } \odot \\ {\left. {\left( {1 - {\lambda _1}} \right)\left( {{{\boldsymbol{G}}^{\rm{C}}}\left( {x_i^{\rm{t}}} \right) + {{\boldsymbol{G}}^{\rm{C}}}\left( {x_j^{\rm{t}}} \right)} \right)} \right)} \Bigg], \end{split} (13)

    其中{i},{j} 是随机抽取的目标域样本的序号. {{\lambda }}_{1}\in \left[{0.5,1.0}\right] 是人为设定的超参数,用于控制阈值的下降速度. 当λ1接近0.5时,阈值下降更快;当λ1接近1.0时,阈值下降更慢. 实验证明,本文的模型对超参数λ1不敏感,具有良好的鲁棒性. \odot 代表点乘,用于防止阈值下降过快、过低而导致模型性能不稳定.{\displaystyle \sum _{c=1}^{\left|{C}^{S}\right|}(\cdot)}代表舍弃概率向量{{{\boldsymbol{G}}}}^{\mathrm{C}}\left({{x}}^{{{\rm{t}}}}\right)的第|{{C}}^{{{\rm{S}}}}|+1项元素,仅使用GC(xt)的前|CS|项元素进行向量间的加法和点乘. 假设|CS|=2,有分别属于已知类别1和已知类别2的目标域样本x_1^{\rm{t}}x_2^{\rm{t}},其中x_1^{\rm{t}}与源域更为相似,较易被模型区分. 在训练阶段前期和后期分别有: {\boldsymbol{G}}_{{\text{early}}}^{\rm{C}}\left( {x_1^{\rm{t}}} \right) = \left( {0.9,0.09,0.01} \right){\boldsymbol{G}}_{{\text{early}}}^{\rm{C}}\left( {x_2^{\rm{t}}} \right) = \left( {0.1,0.4,0.5} \right){\boldsymbol{G}}_{{\text{late}}}^{\rm{C}}\left( {x_1^{\rm{t}}} \right) = \left( {0.95,0.04,0.01} \right){\boldsymbol{G}}_{{\text{late}}}^{\rm{C}}\left( {x_2^{\rm{t}}} \right) = \left( {0.08,0.8,0.12} \right),此时舍弃概率向量GC(xt)的第3项元素并使用式(13)的计算阈值,那么在训练阶段前期得到的阈值相较于后期得到的阈值更高. 从而使得模型在训练前期会使用x_1^{\rm{t}}生成类别1的跨域混合样本,在训练后期会使用x_1^{\rm{t}}x_2^{\rm{t}}生成类别1和2的跨域混合样本.

    图3展示了在不同开放度的数据集上阈值h随训练阶段的变化情况. 当开放度较高时,从目标域中随机抽取的2个样本属于未知类样本的概率较高,因此模型自调整的阈值较高;反之,当开放度较低时,模型自调整至较低的阈值. 此外,在训练的初始阶段的阈值较高,从而避免了将目标域的未知类样本与源域样本跨域混合,有效地降低由伪标签带来的噪声.

    图  3  阈值在多个数据集中的变化
    Figure  3.  Changes in threshold values across multiple datasets

    为了降低带伪标签的目标域样本在自步学习中带来的噪音,设计了跨域混合样本xmix,并将其作为多准则跨域混合模块的输入. 图1(b)展示了不同训练阶段的xmix的变化. 一方面,将具有真实标签的源域样本和带有伪标签的目标域样本混合在一起而非使用整个目标域样本作为输入,可以最小化由伪标签引起的噪声. 另一方面,在早期的训练阶段,当阈值较高时,由于仅有少量的目标域已知类样本可以使用,具有真实标签的源域样本提供了多样的样本特征. 这种方法有效利用了源域和目标域样本的优势,保证了自步学习过程的平稳.

    在多准则跨域混合模块中,我们设置了m个分类器,对于每个分类器{G^{{{\rm{M}}_k}}},其输出{{\boldsymbol{G}}^{{{\rm{M}}_k}}}(x)是|CS|维的概率向量,其形式化的定义为:

    {{\boldsymbol{G}}^{{{\rm{M}}_k}}}(x) = \left[ {p_1^{{G^{{\rm{M}}_{{k}}}}},p_2^{{G^{{\rm{M}}_{{k}}}}},…,p_{\left| {{C^{\rm{S}}}} \right|}^{{G^{{\rm{M}}_{{k}}}}}} \right]. (14)

    我们使用标准的softmax函数计算{{\boldsymbol{G}}^{{{\rm{M}}_k}}}(x),形式化的定义为:

    {{\boldsymbol{G}}^{{{\rm{M}}_k}}}(x) = \dfrac{{{\text{exp}}\left( {{{\boldsymbol{l}}^{{G^{{{\rm{M}}_k}}}}}} \right)}}{{\displaystyle\sum\limits_{c = 1}^{\left| {{C^S}} \right|} {{\text{exp}}\left( {{\boldsymbol{l}}_c^{^{{G^{{{\rm{M}}_k}}}}}} \right)} }}. (15)

    图2所示,若目标域样本xt的多准则系数ωt大于阈值h,则使用将这个带有伪标签的目标域样本与带有真实标签的源域样本跨域混合,从而获得xmix作为{G^{{{\rm{M}}_k}}}以优化{G^{{{\rm{M}}_k}}}. 具体来说,{G^{{{\rm{M}}_k}}}的损失函数定义为:

    \begin{gathered} {\mathcal{E}_{{G^{{{\rm{M}}_k}}}}} = {\mathbb{E}_{\left( {{x^{\rm{s}}},{y^{\rm{s}}}} \right)\sim p,{x^{\rm{t}}}\sim q}}\left[ {{L_{{\text{CE}}}}\left( {\left( {1 - {\lambda _2}} \right){x^{\rm{s}}} + {\lambda _2}{x^{\rm{t}}},{y^{\rm{s}}}} \right)} \right] \\ {\rm{s.t.}}\quad {\omega ^{\rm{t}}} \geqslant h,{\hat y^{\rm{t}}} = {y^{\rm{s}}}. \end{gathered} (16)

    其中λ2是控制跨域样本混合比例的超参数,{\hat y^{\rm{t}}}是由GC 预测的关于样本xt的伪标签.

    现有的开放集领域自适应大多数仅依赖于置信度以区分目标域的已知类和未知类,置信度即经过softmax函数归一化后的概率值. 但仅考虑置信度并不是一个明智的选择,因为置信度缺乏对模型不确定程度的区分能力. 图6的结果显示,仅依赖置信度的模型无法良好地识别目标域中的未知类样本,因此,为了满足开放场景可信人工智能的要求,有必要基于不同的准则来区分目标域中的已知类和未知类. 受到文献[11]的启发,我们结合熵、一致性和置信度计算多准则系数ωt来区分目标域中的已知类和未知类.

    图  6  模型对于D→W任务的未知类分类准确率
    Figure  6.  The unknown class accuracy of models for the D→W task

    使用多准则跨域混合中m个分类器{G^{{{\rm{M}}_k}}}对每个目标域样本xt所输出的概率向量{{\boldsymbol{G}}^{{{\rm{M}}_k}}}({x^t})计算熵ωent、一致性ωcons和置信度ωconf. 形式化的定义为:

    {\omega ^{{\text{ent}}}} = \frac{1}{m}\sum\limits_{k = 1}^m {\sum\limits_{c = 1}^{\left| {{C^{\rm{S}}}} \right|} { - p_c^{{G^{{{\rm{M}}_k}}}}\log p_c^{{G^{{{\rm{M}}_k}}}}} } , (17)
    {\omega ^{{\text{cons}}}} = \frac{1}{{m\left| {{C^{\rm{S}}}} \right|}}\sum\limits_{k = 1}^m {\sum\limits_{c = 1}^{\left| {{C^{\rm{S}}}} \right|} {\left( {p_c^{{G^{{{\rm{M}}_k}}}} - \frac{1}{m}\sum\limits_{k = 1}^m {p_c^{{G^{{{\rm{M}}_k}}}}} } \right)} } , (18)
    {\omega ^{{\text{conf}}}} = \frac{1}{m}\sum\limits_{k = 1}^m {{\text{max}}\left( {{{\boldsymbol{G}}^{{{\rm{M}}_k}}}\left( {{x^{\rm{t}}}} \right)} \right)} . (19)

    对于一个目标域样本xt来说,若其属于未知类,则ωent较大. 反之,若xt属于已知类,则ωent较小. ωcons则表示m个分类器的一致性,其对于预测错误更加鲁棒,因为所有分类器都犯同样的错误的概率很低. 这意味着即使一些分类器错误地预测了一个样本并将其预测到了同一个类中,其他分类器仍然可能提供正确的预测. 因此,一致性可以弥补仅依赖置信度值可能导致的预测错误. 结合ωent, ωconsωconf,我们可以计算出xt的多准则系数ωt,其形式化的定义为:

    {\omega ^{\rm{t}}} = \frac{1}{3}({\left( {1 - {\omega ^{{\text{ent}}}}} \right) + \left( {1 - {\omega ^{{\text{cons}}}}} \right) + {\omega ^{{\text{conf}}}}}). (20)

    较小的ωt意味着xt有着更小的可能性来自于已知类. 多准则跨域混合模块的优化目标是:

    \theta _{{G^{{{\rm{M}}_k}}}|_{k = 1}^m}^* = \mathop {{\text{arg\;min}}}\limits_{{\theta _{{G^{{{\rm{M}}_k}}}}}} {\mathcal{E}_{{G^{{{\rm{M}}_k}}}}} . (21)

    算法1. 基于自步学习的开放集领域自适应算法.

    输入:有标签源域DS,无标签目标域DT,特征提取器F,对抗学习分类器GC,辅助分类器Gaux和多准则跨域混合模块的m个分类器{G^{{{\rm{M}}_1}}}\sim{G^{{{\rm{M}}_m}}}

    输出:已学习的F, GC,Gaux{G^{{{\rm{M}}_1}}}\sim{G^{{{\rm{M}}_m}}}.

    预训练阶段

    ① for i =1 to MaxPreIter do

    ②  for k = 1 to m do

    ③   采样一组源域样本\left\{{{x}}^{{{\rm{s}}}},{{y}}^{{{\rm{s}}}}\right\}\in {D}^{{{\rm{S}}}}

    ④   计算标准交叉熵损失 {G^{{{\rm{M}}_k}}} by {\mathcal{E}}_{{{G}}^{{{{\rm{M}}}}_{{k}}}}^{\mathrm{p}\mathrm{r}\mathrm{e}}={\mathbb{E}}_{\left({{x}}^{{{\rm{s}}}},{{y}}^{{{\rm{s}}}}\right)\sim {p}}\left[{{L}}_{\mathrm{C}\mathrm{E}}\left({{x}}^{{{\rm{s}}}},{{y}}^{{{\rm{s}}}}\right)\right]

    ⑤  end for

    ⑥  优化F和分类器 {G^{{{\rm{M}}_1}}}\sim{G^{{{\rm{M}}_m}}}

    ⑦ end for

    训练阶段

    ⑧ for i = 1 to MaxEpoches do

    ⑨  for j = 1 to IterPerEpoch do

    ⑩   采样一组源域样本 (xs, ys)\in DS 和一组目标 域样本 (xt)\inDT

    ⑪   \mathcal{E}_{{G^{\rm{C}}}}^{\rm{S}}由式(3)计算;

    ⑫   \mathcal{E}_{{G^{{\text{aux}}}}}^{\rm{S}}由式(6)计算;

    ⑬   \mathcal{E}_{{G^{\rm{C}}},{\text{adv}}}^{\rm{D}}由式(8)计算;

    ⑭   \mathcal{E}_{{G^{{\text{aux}}}}}^{\rm{D}}由式(9)计算;

    ⑮   由式(10)(11)(12)优化F, GC and Gaux

    ⑯  end for

    ⑰  由式(13)计算阈值h

    ⑱  for j = 1 to IterPerEpoch do

    ⑲   for k = 1 to m do

    ⑳    采样一组源域样本 (xs, ys)\in DS 和一组目 标域样本(xt)\in DT

    ㉑    由式(16)进行跨域样本混合并计算 {\mathcal{E}_{{G^{{{\rm{M}}_k}}}}}

    ㉒   end for

    ㉓   由式(21)优化分类器{G^{{{\rm{M}}_1}}}\sim{G^{{{\rm{M}}_m}}}

    ㉔  end for

    ㉕ end for

    ㉖ return F, GC, Gaux and {G^{{{\rm{M}}_1}}}\sim{G^{{{\rm{M}}_m}}}.

    算法1概述了SPL-OSDA的训练过程,首先,需要使用源域样本对多准则跨域混合模块和特征提取器F进行预训练. 预训练的目的是预热F和多准则跨域混合模块,以使得模型在训练阶段能更快速地收敛以及减少伪标签噪声的影响. 在训练阶段,交替训练双重多分类器模块和多准则跨域混合模块. 值得注意的是,我们在训练阶段训练多准则跨域混合模块时不会更新F的参数,因为我们希望在测试阶段中保持多准则跨域混合模块中分类器的输出多样性.

    图4展示了SPL-OSDA在测试阶段的架构. 在测试阶段,从SPL-OSDA中去除辅助分类器Gaux. 同时使用无标签目标域样本以及式(13)来计算阈值h,而非手动设置. 若ωt<h,则SPL-OSDA把目标域样本xt分类为未知类;反之,则将xt传递给GC, GC将进一步地将xt分类为某个特定的已知类.

    图  4  测试阶段的SPL-OSDA架构
    Figure  4.  Architecture of SPL-OSDA in the testing phase

    将SPL-OSDA与其他方法进行比较:

    1)开放集领域自适应方法:OSBP[13],DAMC[22],STA[21],PGL[23]和UADAL[36].

    2)通用集领域自适应(universal domain adaptation, UniDA)方法:CMU[11],DCC[37]和OVANet[38]. 通用集领域自适应假设源域和目标域都有私有类,因此通用集领域自适应方法原生支持开放集领域自适应任务.

    3)修改后的封闭集领域自适应方法DANN [8]被文献[39-40]修改后使其适用于开放集领域自适应场景;参考文献[39-40]中的修改方法使得MCD[20]和DALN[35]这2个模型能应用于开放集领域自适应场景中.

    本文选择了3个基准数据集来评估本文模型,并将本文的方法与开放领域适应的最先进方法进行比较,并使用文献[39]和文献[40]提供的标签文件作为标签列表.

    Office-31[41]是一个用于域适应的基准数据集,包含Amazon(A),DSLR(D)和Webcam(W)这3个领域中的31个物体类别. 我们选择文件中按标签顺序排列的前10个类别作为已知类,剩余的21个类别作为目标域的未知类. 文件中的标签顺序与字母顺序相同.

    Office-Home[42]是一个用于计算机视觉域自适应的具有挑战性的数据集,其中包含艺术(art, Ar)、剪贴画(clipart, Cl)、产品(product, Pr)和真实世界(real world, Rw)这4个领域中的65个类别. 本文遵循文献[22]的方法,将前10个类别构造为源域和目标域共享的已知类,将其余55个类别作为未知类. 我们还使用标签顺序来排序类别. 标签文件中的标签顺序与字母顺序不同. 具体来说,前10个类别分别是钻头(drill)、出口标志(exit sign)、瓶子(bottle)、眼镜(glasses)、电脑(computer)、文件柜(file cabinet)、架子(shelf)、玩具(toys)、水槽(sink)和笔记本电脑(laptop). 按照标签排序的优点是,即使已知类处于Office-Home数据集的按字母顺序排序的末尾,我们仍能使用其评估类别的模型性能.

    VisDA-2017[43]专注于将合成图像适应到真实图像上,它涵盖了12个类别,分为2个域:合成(synthetic)和真实(real). 按照标签顺序将6个类别划分为源域和目标域的已知类,将另外6个类别作为目标域的未知类. 文件中的标签顺序与字母顺序相同. 使用该数据集可以验证模型在大规模领域适应任务中的有效性.

    本文使用2个评价标准来评估不同模型的性能:OSHOS[11,44]. OS用于评估模型在|CS|+1个类别的准确率,包含模型在|CS|个已知类的准确率和1个总的未知类准确率. HOS是在|CS|个已知类上的平均准确率OS*与在1个总的未知类上的准确率Unk的调和平均数. 形式化的定义为:

    HOS = 2 \times \frac{{O{S^*} \times Unk}}{{O{S^*} + Unk}}. (22)

    需要注意的是,与无监督领域自适应问题关注模型对于已知类分类的平均准确率OS*不同,开放集领域自适应更关注HOS得分. “高OS*、低Unk”导致较低的HOS是开放集领域自适应问题所期望避免的.

    为了公平对比,本文使用在ImageNet[45]预训练的ResNet-50作为所有模型的特征提取器. 使用Nesterov momentum SGD作为SPL-OSDA的优化器,其中动量设置为0.9,衰减权重设置为5e − 4. 遵循文献[11]的学习率衰减方式,使用(1+γ×iβ的衰减因子,其中i表示当前的迭代次数,设置学习率衰减参数γ = 1e − 3和β = 0.75. 此外,式(13)中的λ1 = 0.5,式(16)中的λ2 = 0.5. 本文在多准则跨域混合模块中设置了5个分类器. 对于Office-31和VisDA-2017数据集,批量大小设置为48;对于Office-Home数据集,批量大小设置为72.

    表1展示了不同模型在Office-31和VisDA-2017数据集上的OSHOS表2展示了Office-Home数据集上的OSHOS.

    表  1  Office-31和VisDA-2017数据集上的OSHOS
    Table  1.  OS and HOS on Office-31and VisDA-2017 Datasets %
    模型Office-31VisDA-2017
    A→DA→WD→AD→WW→AW→D平均值OSHOS
    OSHOSOSHOSOSHOSOSHOSOSHOSOSHOSOSHOS
    DANN[8]87.8375.7877.1373.1661.7972.2594.4893.9165.0971.0796.2394.8980.4380.1851.3151.41
    MCD[20]80.4980.6381.8482.1465.7974.0495.4894.6967.5376.1195.6596.6781.8384.0556.7955.69
    DALN[35]71.8074.5164.8671.5667.6970.3485.6185.9064.5472.1587.5891.9073.6877.7363.5557.68
    OSBP[13]90.8281.2886.9178.6278.1373.3898.3690.0975.2973.6998.6592.0088.0381.5162.5162.78
    DAMC[22]90.6181.6686.5084.2176.7979.0997.3889.3275.5679.9397.5784.5687.4083.1340.4647.60
    STA[21]88.3139.1989.5649.2578.4158.3894.6658.4174.0856.6593.6846.7786.4551.4460.5251.23
    PGL[23]87.9169.4483.1966.4572.4259.2287.8462.9475.0461.0686.2667.8482.1164.4972.6134.57
    UADAL[36]88.1487.2684.7385.5974.9977.1198.3395.0370.2375.8699.2495.6585.9486.0859.5761.26
    CMU[11]87.5565.5586.2863.4073.4370.5596.9579.8372.8569.7396.5176.2686.3370.8954.0051.70
    DCC[37]83.1483.6583.9983.3580.0481.8196.0092.5175.4979.8298.3990.2786.4784.8959.3359.08
    OVANet[38]88.1981.7787.6284.3066.0275.5194.2395.6268.5677.6098.9493.8383.9384.7746.1357.53
    SPL-OSDA91.3284.6590.2085.0577.4381.2999.7198.3777.1581.5899.6698.0789.2388.1763.5963.23
    注:黑体字表示最佳性能.
    下载: 导出CSV 
    | 显示表格
    表  2  Office-Home数据集上的OSHOS
    Table  2.  OS and HOS on Office-Home Dataset %
    模型Office-Home
    Ar→ClAr→PrAr→RwCl→ArCl→PrCl→RwPr→Ar
    OSHOSOSHOSOSHOSOSHOSOSHOSOSHOSOSHOS
    DANN[8]52.7261.9466.2371.8671.3974.7949.7953.4868.4770.4661.0666.5052.0557.55
    MCD[20]54.1062.9465.9873.0674.3578.8051.3058.9467.7274.9764.7769.3152.6861.09
    DALN[35]52.0762.6363.4370.5071.2675.8553.7859.1567.3072.0858.1166.1451.4056.87
    OSBP[13]58.6659.4171.5066.0979.1870.5871.8166.7881.7969.9072.3466.6569.6766.49
    DAMC[22]54.0459.4066.2670.1076.4874.2067.6567.1474.6766.5066.8667.3462.3265.96
    STA[21]61.4743.5073.6447.9680.3043.9467.1937.6279.9036.6874.9434.7867.6153.41
    PGL[23]64.0553.2975.3958.0483.2360.7768.6455.2982.5059.9581.6959.8971.8920.41
    UADAL[36]63.2461.0873.4070.8480.9676.2765.2662.1882.4871.3873.0266.9359.1964.48
    CMU[11]45.6355.9459.0268.5067.8074.1446.2855.8457.6965.9558.3866.2742.0652.50
    DCC[37]54.4557.0376.3073.8181.7079.8556.1835.0368.8774.6267.5268.9347.1855.74
    OVANet[38]55.0363.2070.2773.0378.6475.1158.0564.1578.9168.6371.4066.7452.1261.02
    SPL-OSDA54.4863.3572.7574.2678.8878.2662.6766.1674.7372.2268.4170.1461.9366.30
    模型Office-Home
    Pr→ClPr→RwRw→ArRw→ClRw→Pr平均值
    OSHOSOSHOSOSHOSOSHOSOSHOSOSHOS
    DANN[8]45.8353.5167.8172.3961.8769.3150.8659.5574.9874.6660.2565.50
    下载: 导出CSV 
    | 显示表格
    表2(续)
    模型Office-Home
    Pr→ClPr→RwRw→ArRw→ClRw→Pr平均值
    OSHOSOSHOSOSHOSOSHOSOSHOSOSHOS
    MCD[20]45.3655.0569.9374.2867.3470.5852.5959.4774.6777.6061.7368.01
    DALN[35]46.9254.3363.8371.0859.9867.5651.4758.7269.1375.3659.0665.86
    OSBP[13]53.1054.8778.5069.6373.2069.2560.2656.4378.6367.0570.7265.26
    DAMC[22]49.6656.9471.0772.0269.3772.3855.0360.4971.6372.2065.4266.44
    STA[21]57.9439.5178.6249.1675.2849.1663.2242.6681.8233.8471.8342.69
    PGL[23]46.9342.2977.0651.4774.2752.0258.5844.8482.3251.8172.2150.84
    UADAL[36]55.4660.0173.9973.7376.5872.3359.7660.8981.6171.9370.4167.67
    CMU[11]39.8849.8360.7568.6260.4168.0746.3255.4668.0673.1754.3662.86
    DCC[37]45.8752.6074.0162.0859.7364.6352.3154.6274.0068.8763.1862.32
    OVANet[38]46.8255.6670.9773.2769.3473.2652.5560.5279.6673.2265.3167.32
    SPL-OSDA49.1957.3068.2772.6370.0372.6855.3863.6674.8777.6665.9769.55
    注:黑体字表示最佳性能.
    下载: 导出CSV 
    | 显示表格

    本文提出的方法SPL-OSDA在Office-31数据集上的OSHOS均优于现有方法. 这表明SPL-OSDA在面对较小的源域和目标域之间的域偏移时表现出色. 此外,SPL-OSDA在Office-Home数据集上的HOS指标也超过了已有方法. 这表明当我们处理更具有挑战性的开放集领域自适应任务时,即源域和目标域之间存在较大的域偏移时,SPL-OSDA能将源域和目标域的已知类特征精确对齐,从而使得模型在区分已知类和未知类的衡量指标HOS上与已有方法相对比取得较大的领先. 我们注意到,SPL-OSDA在OS指标上的表现仍有提升空间,这将是我们未来工作的研究方向.

    除了与PGL以外的现有方法相比较,本文模型在VisDA-2017数据集上的表现最好,显著提高了OSHOS.PGL在VisDA-2017数据集上取得了较高的OS,但其HOS得分较低,这意味着PGL倾向于将大量的未知类样本分类为已知类. 事实上,这与开放集领域自适应的目标相冲突. 在VisDA-2017数据集上的结果表明,SPL-OSDA可以从合成图像中学习到语义信息,并将该信息迁移到在不同场景拍摄的真实图像. 与Office-31和Office-Home数据集相比较,VisDA-2017数据集的图片更多、场景更复杂,因而其结果更具有说服力. 此外,VisDA-2017数据集可以评估模型对于具有复杂场景图像的分类性能的鲁棒性.

    1)已知类和未知类的区分. 为了减少源域和目标域之间的边缘分布差异,Ganin等人[8]构建了一个对抗网络,使用领域硬标签来欺骗域鉴别器,然后将整个目标域与源域对齐. 然而,这些针对封闭集领域自适应设计的学习范式在开放集领域自适应场景中会导致模型将目标域中的未知类样本特征与源域样本特征对齐,从而使得大量的未知类样本被模型分类为已知类. 文献[11]提出为每个源域样本和目标域样本计算权重ωsωt以缓解领域硬标签的负面影响. 图5展示了SPL-OSDA,CMU[11]和DAMC[22]这3个不同的模型针对Office-31数据集的D→W任务的t-SNE[46]特征可视化的示例. 图6是SPL-OSDA,CMU和DAMC在Office-31数据集上D→W任务中的关于未知类样本的分类准确率.CMU-w/o-weight指移除CMU的域鉴别器模块的权重ωsωt. 如图5(a)和图6所示,由于使用了领域硬标签将整个目标域和源域对齐,CMU在区分已知类和未知类方面的性能不佳,无法满足开放集领域自适应可信人工智能的需求. 此外,如图6所展示的相较于无样本权重的版本,CMU的样本权重使得其模型性能不够稳定. 正如图5(a)(c)和图6所示,SPL-OSDA在区分已知类和未知类方面的性能比使用领域硬标签的模型(即CMU)更好. 与仅依赖置信度来区分已知/未知类的DAMC模型相比,SPL-OSDA在多准则跨域混合模块中结合了熵、一致性和置信度3个准则来区分已知类和未知类样本. 通过比较图5(b)(c)和图6,可以得出结论:SPL-OSDA在区分已知/未知类方面的性能比DAMC更好,分类结果在不同迭代次数中表现更加稳定,因此SPL-OSDA相较于DAMC等仅依赖置信度进行分类的模型来说更加地可信. 以上的结果表明,SPL-OSDA可以精确地识别目标域和源域的已知类样本特征,并将它们对齐,因此SPL-OSDA可以避免将目标域的未知类样本分类为已知类,从而满足开放场景可信人工智能的要求.

    图  5  Office-31数据集中D→W 任务上使用t-SNE[46]进行的特征可视化示例
    Figure  5.  An example of feature visualization with t-SNE for the D→W task on Office-31 dataset

    2)模型在不同已知类数量|CS|下的性能. 模型在不同数量的已知类|CS|对Office-31和Office-Home数据集上HOS的变化如图7所示.SPL-OSDA克服了OSBP和DAMC模型的缺点,在开放度较大时取得了良好的表现. 此外,我们注意到一些模型,例如UADAL、OSBP、DAMC和STA等在|CS| = 5的D→W任务中表现不佳. 这意味着当源域和目标域间的域偏移较小且开放度较大时,仅依靠置信度来区分已知类和未知类样本不是一个可靠的方法,无法满足可信人工智能的要求. 具体来说,这些模型会错误地将未知类样本识别为已知类. 当增大|CS|时,SPL-OSDA的表现也更好于大多数方法,这展现了SPL-OSDA在开放场景可信人工智能需求下的鲁棒性. 此外,我们注意到,若开放度较小,则依赖置信度的模型可以在开放集领域自适应任务上获得良好的性能. 但SPL-OSDA在较小的开放度的场景中也能取得良好的表现,这意味着SPL-OSDA在不同场景中的开放集领域自适应任务中更具有泛化性. 对于大多数任务,CMU和DANN在不同的开放度上表现都不佳. 这表明使用领域硬标签不利于开放集领域自适应.

    图  7  HOS在不同|CS|下的变化
    Figure  7.  HOS varies with |CS|

    3)消融实验. 我们在Office-31, Office-Home和VisDA-2017这3个数据集上分别评估了SPL-OSDA不同组件的有效性. ① GC-w/o-2nd-term表示移除式(8)等号右侧的第2项. ② SPL-OSDA-w/o-Gaux表示去除掉双重多分类器中的辅助分类器Gaux ,仅使用GC来计算式(8)中的样本权重来将目标域的已知类与源域进行对齐. 此时,式(8)中的Pknown(x) = S1(x)而非Pknown(x) = S1(xS2(x). ③ SPL-OSDA-w/o-CMMC表示去除掉SPL-OSDA中的多准则跨域混合模块. 在这个设定下,使用GC的输出以预测目标域样本的类别,若\forall p_c^{{G^{\rm{C}}}} \geqslant h, c \in \left[ {1,\left| {{C^{\rm{S}}}} \right|} \right],则将这个样本分类为特定的已知类,否则将其分类为未知类. ④ SPL-OSDA-w/o-CMMC-h与③相似,但是使用{\text{max}}\left( {p_c^{{G^{\rm{C}}}}} \right),c \in \left[ {1,\left| {{C^{\rm{S}}}} \right| + 1} \right]来预测样本属于特定已知类或是未知类,而非通过将置信度与阈值进行比较. ⑤ SPL-OSDA-w/o-mixup表示在多准则跨域混合模块中不使用跨域样本混合方法进行自步学习,而仅仅采用源域样本作为多准则跨域混合模块的输入. 这个设定可以评估通过跨域样本混合方法进行自步学习的有效性. 表3表4中呈现的结果展示了SPL-OSDA模型中各个模块的作用. 其中,式(8)中等号右侧的第2项有助于模型区分目标域的已知类和未知类,即此项可以阻止模型过度自信地将未知类样本误分类为已知类. 辅助分类器Gaux可以辅助模型计算更合适的Pknown(x),从而实现更精确的2个域之间的对齐. 观察表3表4中的SPL-OSDA-w/o-CMMC和SPL-OSDA-w/o-CMMC-h的结果可以发现:将熵、一致性和置信度相结合相较于仅依赖置信度来说更可靠,使得模型更能符合基于开放集领域自适应场景下可信人工智能的要求. SPL-OSDA-w/o-mixup的结果说明,通过引入跨域样本混合方法有助于模型在更连续的特征空间内学习域不变特征,特别是源域和目标域间存在显著域偏移时.

    表  3  Office-31和VisDA-2017数据集上的OSHOS
    Table  3.  OS and HOS on Office-31 and VisDA-2017 Datasets %

    模型
    Office-31VisDA-2017
    A→DA→WD→AD→WW→AW→D平均值OSHOS
    OSHOSOSHOSOSHOSOSHOSOSHOSOSHOSOSHOS
    GC-w/o-2nd-term92.7282.6092.7084.5476.3278.4499.2297.0977.1280.2799.1895.2889.5486.3767.0261.91
    SPL-OSDA-w/o-Gaux90.1784.4392.5886.3772.6078.7599.6397.9075.2181.6799.7198.3888.3287.9261.4162.99
    SPL-OSDA-w/o-CMMC92.2586.9685.6285.4264.7874.2391.7594.6765.9775.7699.2698.9483.2786.0051.6459.21
    SPL-OSDA-w/o-CMMC-h82.5681.4889.5680.6075.3978.0798.0394.3973.8378.1499.1094.8086.4184.5862.9860.07
    SPL-OSDA-w/o-mixup90.8885.3888.6085.4674.4880.9399.6998.2773.2280.4499.6698.0787.7688.0962.9563.20
    SPL-OSDA91.3284.6590.2085.0577.4381.2999.7198.3777.1581.5899.6698.0789.2388.1763.5963.23
    下载: 导出CSV 
    | 显示表格
    表  4  Office-Home数据集上的OSHOS
    Table  4.  OS and HOS on Office-Home Dataset %
    模型Office-Home
    Ar→ClAr→PrAr→RwCl→ArCl→PrCl→RwPr→Ar
    OSHOSOSHOSOSHOSOSHOSOSHOSOSHOSOSHOS
    GC-w/o-2nd-term55.9861.9573.2971.8880.1576.3166.0066.8472.3370.8671.0168.5259.5365.98
    SPL-OSDA-w/o-Gaux54.7162.3072.4473.5479.6477.4064.4766.8973.9272.2669.8370.0960.9465.90
    SPL-OSDA-w/o-CMMC45.2855.8562.8771.5168.4275.4648.9159.1369.2373.5361.3668.3343.1953.91
    SPL-OSDA-w/o-CMMC-h56.1059.3873.0470.8179.9275.4469.5864.5278.7364.3273.9664.0464.4964.87
    SPL-OSDA-w/o-mixup51.3360.9769.2175.0277.4678.6961.3466.8671.0972.0671.8870.4655.6164.10
    SPL-OSDA54.4863.3572.7574.2678.8878.2662.6766.1674.7372.2268.4170.1461.9366.30
    模型Office-Home
    Pr→ClPr→RwRw→ArRw→ClRw→Pr平均值
    OSHOSOSHOSOSHOSOSHOSOSHOSOSHOS
    GC-w/o-2nd-term48.9156.5268.3073.0566.9171.6355.5561.5374.6977.4066.0568.54
    SPL-OSDA-w/o-Gaux47.3056.8367.0873.1067.6472.4655.3662.2073.5677.9365.5769.24
    SPL-OSDA-w/o-CMMC38.9049.0161.3970.8259.9369.3046.5157.2571.1376.4456.4365.05
    SPL-OSDA-w/o-CMMC-h52.2264.6375.4168.6974.3069.5157.3857.3978.3670.6569.4565.35
    SPL-OSDA-w/o-mixup45.5054.6468.6274.1466.2973.0055.4662.9774.5878.2964.0369.27
    SPL-OSDA49.1957.3068.2772.6370.0372.6855.3863.6674.8777.6665.9769.55
    下载: 导出CSV 
    | 显示表格

    4)超参数的鲁棒性. 通过在Office-31数据集的A→D和D→W任务以及Office-Home数据集的Cl→Pr任务上调节超参数λ1λ2以评估模型对于不同超参数的鲁棒性. 如图8所示,与调整超参数相比较,手动调整阈值会显著地影响模型的性能,无法满足开放场景中可信人工智能的要求. 与之相反地,本文模型对于不同的超参数λ1λ2具有更为稳定的性能表现,使得其能满足开放场景中可信人工智能的要求. 因此,SPL-OSDA无需仔细地、经验性地调整超参数或者是手动设置一个阈值. 同时,还探索了多准则跨域混合模块中不同分类器数量m对于模型性能的影响. 如表5所示,SPL-OSDA在不同的分类器数量m下仍能保持稳定的性能. 以上结果说明了SPL-OSDA为开放集领域自适应的可信人工智能提供了保证.

    图  8  模型对于超参数λ1λ2的敏感性
    Figure  8.  Sensitivity of hyperparameters λ1 and λ2
    表  5  在Office-31, Office-Home和VisDA-2017 数据集上不同m 设定下的OSHOS
    Table  5.  OS and HOS with Various m on Office-31 , Office-Home and VisDA-2017 Datasets %
    m的取值Office-31Office-HomeViSDA-2017
    OSHOSOSHOSOSHOS
    m=388.5587.9965.4969.4763.2163.38
    m=488.5487.7266.3769.2363.1563.72
    m=589.2388.1765.9769.5563.5963.23
    下载: 导出CSV 
    | 显示表格

    本文提出了一种新的面向开放集领域自适应的自适应学习框架SPL-OSDA. 该框架包括2个关键模块:双重多分类器模块和多准则跨域混合模块. 双重多分类器模块将目标域中的已知类与源域对齐,而非对齐整个目标域,同时其利用未标记的目标域样本为多准则跨域混合模块的自步学习计算合适的阈值. 多准则跨域混合模块通过跨域样本混合最小化目标域伪标签的噪音,同时也帮助模型能进一步地学习到目标域中的已知类特征. 本文模型结合了多个准则:熵、一致性和置信度以区分已知类和未知类,相较于仅依赖置信度的模型更鲁棒,使得SPL-OSDA满足了开放场景中对于可信人工智能的需求. 在3个开放集领域自适应数据集的基准测试中,SPL-OSDA总体上取得了最优的表现,尤其是当开放度较大时. 此外,SPL-OSDA对于超参数的变化不敏感,能提供稳定的性能.

    在未来的工作中,我们将继续改进SPL-OSDA在Office-Home数据集上的OS得分,同时计划将其扩展到解决通用领域自适应场景中的任务.

    作者贡献声明:刘星宏提出了方法思路和实验方案,并完成实验和撰写论文;周毅指导研究方案设计并修改论文;周涛和秦杰提出指导性意见并修改论文.

  • 图  1   SPL-OSDA示意图及自步学习流程

    Figure  1.   Illustration of SPL-OSDA and self-paced learning process

    图  2   CMMC模块中的跨域混合方法

    Figure  2.   Cross-domain mix-up method in CMMC module

    图  3   阈值在多个数据集中的变化

    Figure  3.   Changes in threshold values across multiple datasets

    图  6   模型对于D→W任务的未知类分类准确率

    Figure  6.   The unknown class accuracy of models for the D→W task

    图  4   测试阶段的SPL-OSDA架构

    Figure  4.   Architecture of SPL-OSDA in the testing phase

    图  5   Office-31数据集中D→W 任务上使用t-SNE[46]进行的特征可视化示例

    Figure  5.   An example of feature visualization with t-SNE for the D→W task on Office-31 dataset

    图  7   HOS在不同|CS|下的变化

    Figure  7.   HOS varies with |CS|

    图  8   模型对于超参数λ1λ2的敏感性

    Figure  8.   Sensitivity of hyperparameters λ1 and λ2

    表  1   Office-31和VisDA-2017数据集上的OSHOS

    Table  1   OS and HOS on Office-31and VisDA-2017 Datasets %

    模型Office-31VisDA-2017
    A→DA→WD→AD→WW→AW→D平均值OSHOS
    OSHOSOSHOSOSHOSOSHOSOSHOSOSHOSOSHOS
    DANN[8]87.8375.7877.1373.1661.7972.2594.4893.9165.0971.0796.2394.8980.4380.1851.3151.41
    MCD[20]80.4980.6381.8482.1465.7974.0495.4894.6967.5376.1195.6596.6781.8384.0556.7955.69
    DALN[35]71.8074.5164.8671.5667.6970.3485.6185.9064.5472.1587.5891.9073.6877.7363.5557.68
    OSBP[13]90.8281.2886.9178.6278.1373.3898.3690.0975.2973.6998.6592.0088.0381.5162.5162.78
    DAMC[22]90.6181.6686.5084.2176.7979.0997.3889.3275.5679.9397.5784.5687.4083.1340.4647.60
    STA[21]88.3139.1989.5649.2578.4158.3894.6658.4174.0856.6593.6846.7786.4551.4460.5251.23
    PGL[23]87.9169.4483.1966.4572.4259.2287.8462.9475.0461.0686.2667.8482.1164.4972.6134.57
    UADAL[36]88.1487.2684.7385.5974.9977.1198.3395.0370.2375.8699.2495.6585.9486.0859.5761.26
    CMU[11]87.5565.5586.2863.4073.4370.5596.9579.8372.8569.7396.5176.2686.3370.8954.0051.70
    DCC[37]83.1483.6583.9983.3580.0481.8196.0092.5175.4979.8298.3990.2786.4784.8959.3359.08
    OVANet[38]88.1981.7787.6284.3066.0275.5194.2395.6268.5677.6098.9493.8383.9384.7746.1357.53
    SPL-OSDA91.3284.6590.2085.0577.4381.2999.7198.3777.1581.5899.6698.0789.2388.1763.5963.23
    注:黑体字表示最佳性能.
    下载: 导出CSV

    表  2   Office-Home数据集上的OSHOS

    Table  2   OS and HOS on Office-Home Dataset %

    模型Office-Home
    Ar→ClAr→PrAr→RwCl→ArCl→PrCl→RwPr→Ar
    OSHOSOSHOSOSHOSOSHOSOSHOSOSHOSOSHOS
    DANN[8]52.7261.9466.2371.8671.3974.7949.7953.4868.4770.4661.0666.5052.0557.55
    MCD[20]54.1062.9465.9873.0674.3578.8051.3058.9467.7274.9764.7769.3152.6861.09
    DALN[35]52.0762.6363.4370.5071.2675.8553.7859.1567.3072.0858.1166.1451.4056.87
    OSBP[13]58.6659.4171.5066.0979.1870.5871.8166.7881.7969.9072.3466.6569.6766.49
    DAMC[22]54.0459.4066.2670.1076.4874.2067.6567.1474.6766.5066.8667.3462.3265.96
    STA[21]61.4743.5073.6447.9680.3043.9467.1937.6279.9036.6874.9434.7867.6153.41
    PGL[23]64.0553.2975.3958.0483.2360.7768.6455.2982.5059.9581.6959.8971.8920.41
    UADAL[36]63.2461.0873.4070.8480.9676.2765.2662.1882.4871.3873.0266.9359.1964.48
    CMU[11]45.6355.9459.0268.5067.8074.1446.2855.8457.6965.9558.3866.2742.0652.50
    DCC[37]54.4557.0376.3073.8181.7079.8556.1835.0368.8774.6267.5268.9347.1855.74
    OVANet[38]55.0363.2070.2773.0378.6475.1158.0564.1578.9168.6371.4066.7452.1261.02
    SPL-OSDA54.4863.3572.7574.2678.8878.2662.6766.1674.7372.2268.4170.1461.9366.30
    模型Office-Home
    Pr→ClPr→RwRw→ArRw→ClRw→Pr平均值
    OSHOSOSHOSOSHOSOSHOSOSHOSOSHOS
    DANN[8]45.8353.5167.8172.3961.8769.3150.8659.5574.9874.6660.2565.50
    下载: 导出CSV
    表2(续)
    模型Office-Home
    Pr→ClPr→RwRw→ArRw→ClRw→Pr平均值
    OSHOSOSHOSOSHOSOSHOSOSHOSOSHOS
    MCD[20]45.3655.0569.9374.2867.3470.5852.5959.4774.6777.6061.7368.01
    DALN[35]46.9254.3363.8371.0859.9867.5651.4758.7269.1375.3659.0665.86
    OSBP[13]53.1054.8778.5069.6373.2069.2560.2656.4378.6367.0570.7265.26
    DAMC[22]49.6656.9471.0772.0269.3772.3855.0360.4971.6372.2065.4266.44
    STA[21]57.9439.5178.6249.1675.2849.1663.2242.6681.8233.8471.8342.69
    PGL[23]46.9342.2977.0651.4774.2752.0258.5844.8482.3251.8172.2150.84
    UADAL[36]55.4660.0173.9973.7376.5872.3359.7660.8981.6171.9370.4167.67
    CMU[11]39.8849.8360.7568.6260.4168.0746.3255.4668.0673.1754.3662.86
    DCC[37]45.8752.6074.0162.0859.7364.6352.3154.6274.0068.8763.1862.32
    OVANet[38]46.8255.6670.9773.2769.3473.2652.5560.5279.6673.2265.3167.32
    SPL-OSDA49.1957.3068.2772.6370.0372.6855.3863.6674.8777.6665.9769.55
    注:黑体字表示最佳性能.
    下载: 导出CSV

    表  3   Office-31和VisDA-2017数据集上的OSHOS

    Table  3   OS and HOS on Office-31 and VisDA-2017 Datasets %


    模型
    Office-31VisDA-2017
    A→DA→WD→AD→WW→AW→D平均值OSHOS
    OSHOSOSHOSOSHOSOSHOSOSHOSOSHOSOSHOS
    GC-w/o-2nd-term92.7282.6092.7084.5476.3278.4499.2297.0977.1280.2799.1895.2889.5486.3767.0261.91
    SPL-OSDA-w/o-Gaux90.1784.4392.5886.3772.6078.7599.6397.9075.2181.6799.7198.3888.3287.9261.4162.99
    SPL-OSDA-w/o-CMMC92.2586.9685.6285.4264.7874.2391.7594.6765.9775.7699.2698.9483.2786.0051.6459.21
    SPL-OSDA-w/o-CMMC-h82.5681.4889.5680.6075.3978.0798.0394.3973.8378.1499.1094.8086.4184.5862.9860.07
    SPL-OSDA-w/o-mixup90.8885.3888.6085.4674.4880.9399.6998.2773.2280.4499.6698.0787.7688.0962.9563.20
    SPL-OSDA91.3284.6590.2085.0577.4381.2999.7198.3777.1581.5899.6698.0789.2388.1763.5963.23
    下载: 导出CSV

    表  4   Office-Home数据集上的OSHOS

    Table  4   OS and HOS on Office-Home Dataset %

    模型Office-Home
    Ar→ClAr→PrAr→RwCl→ArCl→PrCl→RwPr→Ar
    OSHOSOSHOSOSHOSOSHOSOSHOSOSHOSOSHOS
    GC-w/o-2nd-term55.9861.9573.2971.8880.1576.3166.0066.8472.3370.8671.0168.5259.5365.98
    SPL-OSDA-w/o-Gaux54.7162.3072.4473.5479.6477.4064.4766.8973.9272.2669.8370.0960.9465.90
    SPL-OSDA-w/o-CMMC45.2855.8562.8771.5168.4275.4648.9159.1369.2373.5361.3668.3343.1953.91
    SPL-OSDA-w/o-CMMC-h56.1059.3873.0470.8179.9275.4469.5864.5278.7364.3273.9664.0464.4964.87
    SPL-OSDA-w/o-mixup51.3360.9769.2175.0277.4678.6961.3466.8671.0972.0671.8870.4655.6164.10
    SPL-OSDA54.4863.3572.7574.2678.8878.2662.6766.1674.7372.2268.4170.1461.9366.30
    模型Office-Home
    Pr→ClPr→RwRw→ArRw→ClRw→Pr平均值
    OSHOSOSHOSOSHOSOSHOSOSHOSOSHOS
    GC-w/o-2nd-term48.9156.5268.3073.0566.9171.6355.5561.5374.6977.4066.0568.54
    SPL-OSDA-w/o-Gaux47.3056.8367.0873.1067.6472.4655.3662.2073.5677.9365.5769.24
    SPL-OSDA-w/o-CMMC38.9049.0161.3970.8259.9369.3046.5157.2571.1376.4456.4365.05
    SPL-OSDA-w/o-CMMC-h52.2264.6375.4168.6974.3069.5157.3857.3978.3670.6569.4565.35
    SPL-OSDA-w/o-mixup45.5054.6468.6274.1466.2973.0055.4662.9774.5878.2964.0369.27
    SPL-OSDA49.1957.3068.2772.6370.0372.6855.3863.6674.8777.6665.9769.55
    下载: 导出CSV

    表  5   在Office-31, Office-Home和VisDA-2017 数据集上不同m 设定下的OSHOS

    Table  5   OS and HOS with Various m on Office-31 , Office-Home and VisDA-2017 Datasets %

    m的取值Office-31Office-HomeViSDA-2017
    OSHOSOSHOSOSHOS
    m=388.5587.9965.4969.4763.2163.38
    m=488.5487.7266.3769.2363.1563.72
    m=589.2388.1765.9769.5563.5963.23
    下载: 导出CSV
  • [1]

    He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C] //Proc of the 29th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 770−778

    [2]

    Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint, arXiv: 1409.1556, 2014

    [3]

    Ren Shaoqing, He Kaiming, Girshick R B, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C] //Proc of the 29th Int Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2015: 91−99

    [4]

    He Kaiming, Gkioxari G, Dolla ́r P, et al. Mask R-CNN[C] //Proc of the 30th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 2980−2988

    [5]

    Quiñonero-Candela J, Sugiyama M, Schwaighofer A, et al. Dataset Shift in Machine Learning[M]. Cambridge, MA: MIT, 2008

    [6]

    Pan Sinno Jialin, Yang Qiang. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10): 1345−1359 doi: 10.1109/TKDE.2009.191

    [7]

    Long Mingsheng, Cao Yue, Wang Jianmin, et al. Learning transferable features with deep adaptation networks[C] //Proc of the 32nd Int Conf on Machine Learning. New York: ACM, 2015: 97−105

    [8]

    Ganin Y, Ustinova E, Ajakan H, et al. Domain-adversarial training of neural networks[J]. Journal of Machine Learning Research, 2016, 17: (59): 1–35

    [9]

    Wang Jindong, Chen Yiqiang, Feng Wenjie, et al. Transfer learning with dynamic distribution adaptation[J]. ACM Transactions on Intelligent Systems and Technology, 2020, 11(1): 6: 1–6: 25

    [10]

    Yu Chaohui, Wang Jindong, Chen Yiqiang, et al. Transfer learning with dynamic adversarial adaptation network[C] //Proc of the 19th IEEE Conf on Int Conf on Data Mining. Piscataway, NJ: IEEE, 2019: 778−786

    [11]

    Fu Bo, Cao Zhangjie, Long Mingsheng, et al. Learning to detect open classes for universal domain adaptation[C] //Proc of the 16th European Conf on Computer Vision. Berlin: Springer, 2020: 567−583

    [12]

    Busto P P, Gall J. Open set domain adaptation[C] //Proc of the 30th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 754−763

    [13]

    Saito K, Yamamoto S, Ushiku Y, et al. Open set domain adaptation by backpropagation[C] //Proc of the 15th European Conf on Computer Vision. Berlin: Springer, 2018: 156−171

    [14]

    Ben-David S, Blitzer J, Crammer K, et al. Analysis of representations for domain adaptation[C] //Proc of the 21st Int Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2007: 137−144

    [15]

    Goodfellow J, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C] //Proc of the 28th Int Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2014: 2672−2680

    [16]

    Wu Yuan, Inkpen D, El-Roby A. Dual mixup regularized learning for adversarial domain adaptation[C] //Proc of the 16th European Conf on Computer Vision. Berlin: Springer, 2020: 540−555

    [17]

    Xu Minghao, Zhang Jian, Ni Bingbing, et al. Adversarial domain adaptation with domain mixup[C] //Proc of the 34th AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2020: 6502−6509

    [18]

    Long Mingsheng, Cao Zhangjie, Wang Jianmin, et al. Conditional adversarial domain adaptation[C] //Proc of the 32nd Int Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2018: 1645−1655

    [19] 贾颖霞,郎丛妍,冯松鹤. 基于类别相关的领域自适应交通图像语义分割方法[J]. 计算机研究与发展,2020,57(4):876−887 doi: 10.7544/issn1000-1239.2020.20190475

    Jia Yingxia, Lang Congyan, Feng Songhe. A semantic segmentation method of traffic scene based on categories-aware domain adaptation[J]. Journal of Computer Research and Development, 2020, 57(4): 876−887 (in Chinese) doi: 10.7544/issn1000-1239.2020.20190475

    [20]

    Saito K, Watanabe K, Ushiku Y, et al. Maximum classifier discrepancy for unsupervised domain adaptation[C] //Proc of the 31st IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 3723−3732

    [21]

    Liu Hong, Cao Zhangjie, Long Mingsheng, et al. Separate to adapt: Open set domain adaptation via progressive separation[C] //Proc of the 32nd IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 2927−2936

    [22]

    Shermin T, Lu Guojun, Teng S W, et al. Adversarial network with multiple classifiers for open set domain adaptation[J]. IEEE Transactions on Multimedia, 2021, 23: 2732−2744 doi: 10.1109/TMM.2020.3016126

    [23]

    Luo Yadan, Wang Zijian, Huang Zi, et al. Progressive graph learning for open-set domain adaptation[C] //Proc of the 37th Int Conf on Machine Learning. New York: ACM, 2020: 6468−6478

    [24]

    Pan Yingwei, Yao Ting, Li Yehao, et al. Exploring category-agnostic clusters for open-set domain adaptation[C] //Proc of the 33rd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 13864−13872

    [25]

    Zhou Yi, Bai Shaochen, Zhou Tao, et al. Delving into local features for open-set domain adaptation in fundus image analysis [C] //Proc of the 25th Int Conf on Medical Image Computing and Computer Assisted Intervention. Berlin: Springer, 2022: 682−692

    [26]

    Kumar M, Packer B, Koller D. Self-paced learning for latent variable models[C] //Proc of the 24th Int Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2010: 1189−1197

    [27]

    Ge Yixiao, Wang Haibo, Zhu Feng, et al. Self-supervising fine-grained region similarities for large-scale image localization[C] //Proc of the 15th European Conf on Computer Vision. Berlin: Springer, 2018: 369−386

    [28]

    Guo Sheng, Huang Weilin, Zhang Haozhi, et al. Curriculumnet: Weakly supervised learning from large-scale web images[C] //Proc of the 15th European Conf on Computer Vision. Berlin: Springer, 2018: 139−154

    [29]

    Jiang Lu, Zhou Zhengyuan, Leung T, et al. MentorNet: Learning data-driven curriculum for very deep neural networks on corrupted labels[C] //Proc of the 35th Int Conf on Machine Learning. New York: ACM, 2018: 2304−2313

    [30]

    Lin Liang, Wang Keze, Meng Deyu, et al. Active self-paced learning for cost-effective and progressive face identification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(1): 7−19 doi: 10.1109/TPAMI.2017.2652459

    [31]

    Choi J, Jeong M, Kim T, et al. Pseudo-labeling curriculum for unsupervised domain adaptation[J]. arXiv preprint, arXiv: 1908.00262, 2019

    [32]

    Ge Yixiao, Zhu Feng, Chen Dapeng, et al. Self-paced contrastive learning with hybrid memory for domain adaptive object Re-ID[C] //Proc of the 34th Int Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2020: 11309–11321

    [33]

    Li Shuang, Gong Kaixiong, Xie Binhui, et al. Critical classes and samples discovering for partial domain adaptation[J]. IEEE Transactions on Cybernetics. DOI: 10.1109/TCYB.2022.3163432

    [34]

    Cao Zhangjie, You Kaichao, Long Mingsheng, et al. Learning to transfer examples for partial domain adaptation[C] //Proc of the 32nd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2019: 2985−2994

    [35]

    Chen Lin, Chen Huaian, Wei Zhixiang, et al. Reusing the task-specific classifier as a discriminator: Discriminator-free adversarial domain adaptation[C] //Proc of the 35th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2022: 7181−7190

    [36]

    Jang J, Na B, Shin D, et al. Unknown-aware domain adversarial learning for open-set domain adaptation[C] //Proc of the 36th Int Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2022: 16755−16767

    [37]

    Li Guangrui, Kang Guoliang, Zhu Yi, et al. Domain consensus clustering for universal domain adaptation[C] //Proc of the 34th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2021: 9752−9761

    [38]

    Saito K, Saenko K. Ovanet: One-vs-all network for universal domain adaptation[C] //Proc of the 18th IEEE Int Conf on Computer Vision. Piscataway, NJ: IEEE, 2021: 8980−8989

    [39]

    Jiang Junguang, Shu Yang, Wang Jianmin, et al. Transferability in deep learning: A survey [J]. arXiv preprint, arXiv: 2201.05867, 2022

    [40]

    Jiang Junguang, Chen Baixu, Fu Bo, et al. Transfer learning library, [CP/OL]. Github, (2022-08-03) [2023-03-30].https://github.com/thuml/Transfer-Learning-Library

    [41]

    Saenko K, Kulis B, Fritz M, et al. Adapting visual category models to new domains[C] //Proc of the 11th European Conf on Computer Vision. Berlin: Springer, 2010: 213−226

    [42]

    Venkateswara H, Eusebio J, Chakraborty S. Deep hashing network for unsupervised domain adaptation[C] //Proc of the 30th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 5385–5394

    [43]

    Peng Xingchao, Usman B, Kaushik N, et al. VisDa: The visual domain adaptation challenge[J]. arXiv preprint, arXiv: 1710.06924, 2017

    [44]

    Bucci S, Loghmani M R, Tommasi T. On the effectiveness of image rotation for open set domain adaptation[C] //Proc of the 16th European Conf on Computer Vision. Berlin: Springer, 2020: 422−438

    [45]

    Deng Jia, Dong Wei, Socher R, et al. ImageNet: A large-scale hierarchical image database[C] //Proc of the 22nd IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 248−255

    [46]

    Van der Maaten L, Hinton G. Visualizing data using t-SNE[J]. Journal of Machine Learning Research, 2008, 9(86): 2579−2605

  • 期刊类型引用(0)

    其他类型引用(1)

图(8)  /  表(6)
计量
  • 文章访问数:  329
  • HTML全文浏览量:  44
  • PDF下载量:  158
  • 被引次数: 1
出版历程
  • 收稿日期:  2023-03-30
  • 修回日期:  2023-06-01
  • 网络出版日期:  2023-06-12
  • 刊出日期:  2023-07-31

目录

/

返回文章
返回