基于区块链辅助的半中心化联邦学习框架

施宏建; 马汝辉; 张卫山; 管海兵

doi:10.7544/issn1000-1239.202330286

基于区块链辅助的半中心化联邦学习框架

施宏建^{1, 2,},
马汝辉^{1, 2, ,},
张卫山³,
管海兵^{1, 2}

1.
上海交通大学电子信息与电气工程学院　上海　200240
2.
上海市可扩展计算与系统重点实验室（上海交通大学）　上海　200240
3.
中国石油大学（华东）青岛软件学院、计算机科学与技术学院　山东青岛　266580

基金项目: 无锡物联网创新促进中心物联网专项课题(2022SP-T13-C)；中国航天科技集团有限公司第八研究院产学研合作基金资助项目(USCAST2022-17)

详细信息

作者简介:
施宏建: 1998年生. 博士研究生. 主要研究方向为分布式机器学习和人工智能系统

马汝辉: 1984年生. 博士，副研究员，博士生导师. 主要研究方向为云计算系统、人工智能系统和机器学习

张卫山: 1970年生. 博士，教授，博士生导师. 主要研究方向为大数据处理、人工智能和物联网中间件

管海兵: 1971年生. 博士，教授，博士生导师. 主要研究方向为云/分布式计算和机器学习

通讯作者:
马汝辉（ruhuima@sjtu.edu.cn）

中图分类号: TP39
计量
- 文章访问数: 350
- HTML全文浏览量: 64
- PDF下载量: 188
出版历程
- 收稿日期: 2023-04-02
- 修回日期: 2023-06-12
- 网络出版日期: 2023-07-12
- 刊出日期: 2023-11-14

Blockchain-Assisted Semi-Centralized Federated Learning Framework

Shi Hongjian^{1, 2,},
Ma Ruhui^{1, 2, ,},
Zhang Weishan³,
Guan Haibing^{1, 2}

1.
School of Electronic Information and Electrical Engineering, Shanghai Jiao Tong University, Shanghai 200240
2.
Shanghai Key Laboratory of Scalable Computing and Systems, Shanghai 200240
3.
Qingdao Institute of Software, College of Computer Science and Technology, China University of Petroleum (East China), Qingdao, Shandong 266580

Funds: This work was supported by Internet of Things Special Subject Program from Wuxi IoT Innovation Promotion Center (2022SP-T13-C) and the Industry-university-research Cooperation Funding Project from the Eighth Research Institute in China Aerospace Science and Technology Corporation (USCAST2022-17).

More Information

Author Bio:
Shi Hongjian: born in 1998. PhD candidate. His main research interests include distributed machine learning and AI systems

Ma Ruhui: born in 1984. PhD, associate professor, PhD supervisor. His main research interests include cloud computing systems, AI systems, and machine learning

Zhang Weishan: born in 1970. PhD, professor, PhD supervisor. His main research interests include big data processing, AI, and middleware for Internet of things

Guan Haibing: born in 1971. PhD, professor, PhD supervisor. His main research interests include cloud/distributed computing and machine learning

摘要

摘要:
随着网络技术的发展，如何构建可信任的新一代信息管理系统成为了必要需求，区块链技术提供了去中心化、透明、不可篡改的可信分布式底座. 随着人工智能技术的发展，网络数据计算领域出现了数据孤岛问题，各开发者之间的不信任导致难以联合利用各方数据进行协同训练，联邦学习虽然提供了数据隐私性保障，但是服务器端安全性仍存在隐患. 传统方法通过将联邦学习框架中的服务器端替换为区块链系统以提供不可篡改的全局模型数据库，但是这种方式并未利用物联网场景中所有可用网络连接，并缺少了针对联邦学习任务的区块结构设计. 提出了基于区块链辅助的半中心化联邦学习框架，从物联网场景需求出发，构建了半中心化的物联网场景，利用了所有可信的网络连接以支撑联邦学习任务，同时通过区块链技术为不可信、距离远的客户端之间构建了不可篡改的模型库，相比传统区块链联邦学习框架有更小的通信开销和更好的普适性. 所提框架包含两大设计，半中心化的联邦学习框架通过客户端之间的可信连接减少聚合所带来的通信开销，并通过区块链存储客户端模型以便于距离较远或者相互不可信的客户端进行聚合；设计了针对联邦学习任务的区块链区块，使区块链能够支持底层联邦学习训练的需求. 实验证明所提框架在多个数据集上相比传统联邦学习算法有至少8%的准确率提升，并大幅度减少了客户端之间相互等待带来的通信开销，为实际场景下的区块链联邦学习系统部署提供了指导.
- 物联网 /
- 区块链系统 /
- 联邦学习 /
- 半中心化架构 /
- 模型聚合
Abstract:
With the development of network technology, building a trusted new-generation information management system is necessary. Blockchain technology provides a decentralized, transparent, and tamper-proof distributed base. On the other hand, with the development of artificial intelligence technology, data islands have been a common issue in the field of network data computing. The distrust among developers has made it difficult to jointly utilize all parties’ data for collaborative training. Although federated learning provides data privacy protection, there are still hidden dangers in server-side security. The traditional methods replace the server in the federated learning framework with a blockchain system to provide a tamperproof global model database. However, this approach does not utilize all available network connections in the Internet of things scenario and lacks a block structure design for federated learning tasks. We propose a blockchain-assisted semi-centralized federated learning framework. Starting from the requirements of the Internet of things scenario, our approach constructs a semi-centralized Internet of things structure and utilizes all trusted network connections to support federated learning tasks. At the same time, our approach constructs a tamper-proof model database for untrusted and remote clients through blockchain technology. Compared with traditional blockchain federated learning frameworks, our approach has a smaller communication overhead and better universality. The framework includes two major designs. The semi-centralized federated learning framework reduces the communication overhead brought by aggregation through trusted connections between clients, and stores client models through blockchain for aggregation on remote or untrusted clients to improve the universality and performance of local models. The design of blockchain blocks for federated learning tasks can support the needs of underlying federated learning training. Experiments have shown that this framework has an accuracy improvement at least 8% compared with traditional federated learning algorithms on multiple datasets, and significantly reduces the communication overhead caused by the waiting aggregation process between clients, providing guidance for the deployment of blockchain federated learning systems in practical scenarios.
- Internet of things /
- blockchain system /
- federated learning /
- semi-centralized structure /
- model aggregation

HTML全文

科技资讯聚焦了中外高新技术的前沿动态. 实时跟进最新的科技资讯，有助于促进国家战略科技力量的发展，驱动科技创新，进而确保国家高质量发展^[1]. 科技资讯中包含大量的多媒体信息（如图像、文本等），具备体量大、来源丰富、类型多样等特点^[2-3]. 随着用户感兴趣的科技资讯模态不再单一，检索需求也呈现出从单一模态到跨模态的发展态势^[4-5]. 凭借跨媒体科技资讯检索，用户能够从多源异构的海量科技资源中获取目标科技资讯；研究者亦能近一步设计出符合用户需求的应用，包括科技资讯推荐^[6]、个性化科技资讯检索^[7]等. 跨媒体科技资讯检索作为当下的研究热点，仍旧面临着多媒体数据间异构鸿沟和语义鸿沟亟待打破的难题^[8-9]. 本文旨在解决现有跨媒体科技资讯检索中仅考虑了媒体内数据判别损失和媒体间数据在映射后的不变性损失，却忽略了媒体间数据在映射前后的语义一致性损失和语义内的媒体判别性损失，使得跨媒体检索效果存在局限性的问题.

跨媒体科技资讯检索方法种类繁多. 先前的工作^[10-14]聚焦于传统的统计关联分析方法，通过优化统计值来学习公共空间的线性投影矩阵^[15]，目的是建立一个共享子空间，使得不同媒体类型的数据对象的相似性可以映射到该子空间中，再使用常见的距离进行度量. 然而，文献[10-14]所述的方法依赖于数据的线性表示，仅通过线性投影很难完全模拟现实世界中跨媒体数据的复杂相关性. 因此，一些研究^[16-20]通过深度学习方法解决上述问题，利用其强大的抽象能力处理多媒体数据的多层非线性变换，进行跨媒体相关学习. 然而，现有的基于深度学习的跨媒体检索模型通常只专注于保留耦合的跨媒体样本（例如图像和文本）的成对相似性^[21]，却忽略了一种媒体的一个样本可能存在多个相同媒体的语义不同的样本，因此无法保留跨媒体语义结构. 保留跨媒体语义结构需要使得相同语义不同媒体的数据间距离最小化，且相同媒体不同语义的数据间距离最大化. 最近的工作^[22-26]引入对抗学习的思想，通过联合执行标签预测并保留数据中的底层跨媒体语义结构，为公共子空间中不同媒体的样本生成媒体不变表示. 然而，文献[22-26]所述的方法聚焦于建模媒体内数据的语义判别性和媒体间数据在子空间映射后的语义不变性，却忽略了媒体间数据在映射前后的语义一致性和语义内的媒体判别性，使得跨媒体检索效果存在局限性.

针对上述问题，引入语义内的媒体约束来加强将不同类型的媒体数据映射到共享高级语义空间的能力，提出一种面向科技资讯的基于语义对抗和媒体对抗的跨媒体检索（semantics-adversarial and media-adversarial cross-media retrieval，SMCR）方法. SMCR方法采用对抗博弈^[27]的思想，构建特征映射器和媒体判别器，进行极小化极大化游戏.SMCR方法追随先前工作^[28-29]，采用标签预测来确保数据在特征投影后仍保留在媒体内的区别. 与先前工作不同的是，SMCR方法同时最小化相同语义的文本−图像对中不同媒体的数据分别在特征映射前和特征映射后的距离，以确保不同媒体间数据在映射过程中的语义一致性得以保留. 此外，通过构建基础映射网络和精炼映射网络共同辅助建模语义内的媒体约束，使映射后的数据做到语义上接近自身和媒体上远离自身，来增强特征映射网络混淆媒体判别网络的能力. 媒体判别网络负责区分数据的原始媒体，一旦媒体判别网络被欺骗，整个博弈过程收敛.

本文的主要贡献包括3个方面：

1）提出一种面向科技资讯的基于语义对抗和媒体对抗的跨媒体检索方法（SMCR），通过端到端的方式同时保持媒体内的语义判别性、媒体间的语义一致性、语义内的媒体判别性，能够有效地学习异构数据的公共表示；

2）通过构建基础特征映射网络和精炼特征映射网络联合进行多媒体数据特征映射，辅助语义内的媒体约束，有效地增强了特征映射网络混淆媒体判别网络的能力；

3）在2个数据集上进行的大量实验表明，本文提出的SMCR方法优于当前最前沿的跨媒体检索方法，包括传统的方法和基于深度学习的方法.

1. 相关工作

科技资讯跨媒体检索是近年来的研究热点，旨在学习一个公共子空间^[13,24,30]，使得不同媒体的数据在该子空间中可以直接相互比较，以跨越不同媒体间存在的语义鸿沟.

一类经典的方法当属传统的统计关联分析方法^[10-14]，它是公共空间学习方法的基本范式和基础，主要通过优化统计值来学习公共空间的线性投影矩阵. 例如，Hardoon等人^[12]提出典型关联分析（canonical correlation analysis，CCA）方法，CCA方法是一种关联2个多维变量之间线性关系的方法，可以被视为使用复杂标签作为引导特征选择朝向底层语义的一种方式. 该方法利用同一语义对象的2个视角来提取语义的表示. Wang等人^[13]提出一种基于耦合特征选择和子空间学习的联合学习（joint feature selection and subspace learning，JFSSL），受CCA和线性最小二乘法之间潜在关系的启发，将耦合线性回归用于学习投影矩阵，使来自不同媒体的数据映射到公共子空间中. 同时，JFSSL将 ${l_2}$ 正则用于同时从不同的特征空间中选择相关和不相关的特征，并且在映射时使用多媒体图正则化来保留媒体间和媒体内的相似性关系.Zhai等人^[14]提出了一种新的跨媒体数据特征学习算法，称为联合表示学习（joint representation learning，JRL）. 该方法能够在统一的优化框架中联合探索相关性和语义信息，并将所有媒体类型的稀疏和半监督正则化集成到一个统一的优化问题中. JRL旨在同时学习不同媒体的稀疏投影矩阵，并将原始异构特征直接投影到联合空间中. 然而，仅通过线性投影很难完全模拟现实世界中跨媒体数据的复杂相关性.

随着深度学习的兴起，许多研究聚焦于将能够实现多层非线性变换的深度神经网络应用于跨媒体检索中^[16-20]. 例如，Yan等人^[17]提出一种基于深度典型相关分析（deep canonical correlation analysis，DCCA）的跨媒体图像字幕匹配方法. 通过解决非平凡的复杂性和过度拟合问题，使该方法适用于高维图像和文本表示以及大型数据集.Peng等人^[18]提出一种跨媒体多重深度网络（cross-media multiple deep network，CMDN），通过分层学习来利用复杂而丰富的跨媒体相关性. 在第1阶段，CMDN不像先前工作仅利用媒体内的分离表示，而是联合学习每种媒体类型的2种互补的分离表示；在第2阶段，由于每种媒体类型都有2个互补的独立表示，该方法在更深的2级网络中分层组合单独的表示，以便联合建模媒体间和媒体内的信息以生成共享表示. 然而，现有的基于深度神经网络的跨媒体检索模型通常只专注于保留耦合的跨媒体样本（例如图像和文本）的成对相似性，却忽略了一种媒体的一个样本，可能存在多个相同媒体的语义不同的样本，因此无法保留跨媒体语义结构.

近年来，相关研究转而向对抗学习^[31]进行探索. 虽然它在图像生成^[32]中应用较广，但研究者也将其用作正则化器^[33]. 一些研究将其思想应用于跨媒体检索，并取得了显著的效果^[22-26]. 例如，Wang等人^[24]提出一种基于对抗跨媒体检索（adversarial cross-modal retrieval，ACMR）方法来解决跨媒体语义结构难保留的问题. 该方法使用特征投影器，通过联合执行标签预测并保留数据中的底层跨媒体语义结构，为公共子空间中不同媒体的样本生成媒体不变表示. ACMR的目的是混淆充当对手的媒体分类器，媒体分类器试图根据它们的媒体来区分样本，并以这种方式引导特征投影器的学习. 通过这个过程的收敛，即当媒体分类器失败时，表示子空间对于跨媒体检索是最优的. Zhen等人^[25]提出一种深度监督跨媒体检索（deep supervised cross-modal retrieval，DSCMR）方法，旨在找到一个共同的表示空间，以便在其中直接比较来自不同媒体的样本. 该方法将标签空间和公共表示空间中的判别损失最小化，以监督模型学习判别特征. 同时最小化媒体不变性损失，并使用权重共享策略来消除公共表示空间中多媒体数据的跨媒体差异，以学习媒体不变特征. 刘翀等人^[26]提出一种基于对抗学习和语义相似度的社交网络跨媒体搜索方法（semantic similarity based adversarial cross media retrieval，SSACR），SSACR使用语义分布及相似度作为特征映射网训练依据，使得相同语义下的不同媒体数据在该空间距离小、不同语义下的相同媒体数据距离大，最终在同一空间内使用相似度来排序并得到搜索结果. 然而，文献[24-26]聚焦于建模媒体内数据语义损失和媒体间数据在映射后的语义损失，却忽略了媒体间数据在映射前后的语义一致性和语义内的媒体判别性，使得跨媒体检索效果存在局限性.

2. 问题定义

多媒体数据种类繁多，为了不失通用性，本文聚焦于文本、图像2种媒体的跨媒体检索. 给定一系列语义相关的图像-文本对 $m = \{ {m_1},{m_2}, … ,{m_{|m|}}\}$ ，其中 ${m_i} = ({{\boldsymbol{v}}_i},{{\boldsymbol{t}}_i})$ 表示 $m$ 中的第 $i$ 个图像-文本对， ${{\boldsymbol{v}}_i} \in {\mathbb{R}^{{d_{\rm{vis}}}}}$ 表示维度为 ${d_{\rm{vis}}}$ 的图像特征向量， ${{\boldsymbol{t}}_i} \in {\mathbb{R}^{{d_{\rm{tex}}}}}$ 表示维度为 ${d_{\rm{tex}}}$ 的文本特征向量. 每个图像-文本对都对应着一个语义类别向量 ${{\boldsymbol{l}}_i} = ({y_1},{y_2}, … ,{y_C}) \in {\mathbb{R}^C}$ ，用来表示图像-文本对的语义分布，也可以表示类别标签分布. 其中 $C$ 表示语义类别总数，假设 ${{\boldsymbol{l}}_i}$ 属于第 $j$ 个语义类别，则记 ${y_j} = 1$ ，否则记 ${y_j} = 0$ . 记 $m$ 中所有的图像、文本、语义类别所对应的特征矩阵为 ${\boldsymbol{V}} = ({{\boldsymbol{v}}_1},{{\boldsymbol{v}}_2}, … ,{{\boldsymbol{v}}_N}) \in {\mathbb{R}^{{d_{\rm{vis}}} \times N}}$ ， ${\boldsymbol{T}} = ({{\boldsymbol{t}}_1}, {{\boldsymbol{t}}_2}, … ,{{\boldsymbol{t}}_N}) \in {\mathbb{R}^{{d_{\rm{tex}}} \times N}}$ ， ${\boldsymbol{L}} = ({{\boldsymbol{l}}_1},{{\boldsymbol{l}}_2}, … ,{{\boldsymbol{l}}_N}) \in {\mathbb{R}^{C \times N}}$ .

我们的目标是利用一种媒体的数据（如图像 ${{\boldsymbol{v}}_i}$ 或文本 ${{\boldsymbol{t}}_i}$ ）检索另一种媒体的数据（如文本 ${{\boldsymbol{t}}_i}$ 或图像 ${{\boldsymbol{v}}_i}$ ）. 为了比较不同媒体数据之间的语义相似性，我们设计2个特征映射网络——基础映射网络和精炼映射网络. 基础映射网络将图像特征和文本特征映射到统一的隐语义空间 $S$ 中以进行语义相似性的对比. 图像特征 ${\boldsymbol{V}}$ 映射到隐语义空间 $S$ 后的特征记为 ${S_{\boldsymbol{V}}} = {f_{\boldsymbol{V}}}({\boldsymbol{V}};{\theta _{\boldsymbol{V}}})$ ，文本特征 ${\boldsymbol{T}}$ 映射到隐语义空间 $S$ 后的特征记为 ${S_{\boldsymbol{T}}} = {f_{\boldsymbol{T}}}({\boldsymbol{T}};{\theta _{\boldsymbol{T}}})$ . 其中 ${f_{\boldsymbol{V}}}({\boldsymbol{V}};{\theta _{\boldsymbol{V}}})$ 和 ${f_{\boldsymbol{T}}}({\boldsymbol{T}};{\theta _{\boldsymbol{T}}})$ 分别表示图像和文本的映射函数. 为了近一步提高特征映射质量，我们用精炼映射网络对基础映射网络的输出特征进行映射. 图像特征 ${S_{\boldsymbol{V}}}$ 映射后的特征记为 $S_{\boldsymbol{V}}' = {g_{{S_{\boldsymbol{V}}}}}({S_{\boldsymbol{V}}};{\theta _{{S_{\boldsymbol{V}}}}})$ ，文本特征 ${S_{\boldsymbol{T}}}$ 映射后的特征记为 $S_{\boldsymbol{T}}' = {g_{{S_{\boldsymbol{T}}}}}({S_{\boldsymbol{T}}};{\theta _{{S_{\boldsymbol{T}}}}})$ . 其中 ${g_{{S_{\boldsymbol{V}}}}}({S_{\boldsymbol{V}}};{\theta _{{S_{\boldsymbol{V}}}}})$ 和 ${g_{{S_{\boldsymbol{T}}}}}({S_{\boldsymbol{T}}};{\theta _{{S_{\boldsymbol{T}}}}})$ 表示图像特征和文本特征的映射函数.

3. 面向科技资讯的基于语义对抗和媒体对抗的跨媒体检索方法

本文提出一种面向科技资讯的基于语义对抗和媒体对抗的跨媒体检索方法（SMCR）.SMCR的框架如图1所示. 本文的目的是利用对抗学习的思想不断在语义与媒体间进行对抗，学习到一个公共子空间，使不同媒体的数据在该子空间中可以直接相互比较.

图 1 SMCR的整体框架

Figure 1. The overall framework of SMCR

下载: 全尺寸图片幻灯片

3.1 特征映射网络

本文采用特征映射网络是为了将不同媒体的特征映射到统一的隐语义空间以便进行语义相似性的比较. 同时，特征映射网络也扮演着GAN^[27]中“生成器”的角色，目的是为了迷惑媒体判别网络（将在3.2节介绍）. 为了使映射后的特征表示充分考虑2类媒体数据的语义相似性和媒体相似性，本文设计的特征映射网络由3部分组成：媒体内的标签预测、媒体间的语义保留、语义内的媒体约束. 媒体内的标签预测使得映射在隐语义空间 $S$ 中的特征依然能够以原始的语义标签为真值进行语义分类；媒体间的语义保留使得语义相同媒体不同的数据在映射前后都能保留语义相似性；语义内的媒体约束使得映射后的数据更加逼近原本语义.

3.1.1 标签预测

为了保证映射到隐语义空间 $S$ 中的特征依然能够保留原始语义，以原始的语义标签为真值进行语义分类. 在每个特征映射网络的最后加入一个保持线性激活的softmax层. 将图像-文本对 ${m_i} = ({{\boldsymbol{v}}_i},{{\boldsymbol{t}}_i})$ 作为样本进行训练，并输出每个数据对应语义类别的概率分布. 采用在文献[24]中介绍的损失函数来计算媒体内的判别损失：

${L_{{\rm{imd}}}}({\theta _{{\rm{imd}}}}) = - \frac{1}{n}\sum\limits_{i = 1}^n {({{\boldsymbol{l}}_i} · (\ln {{\hat p}_i}({{\boldsymbol{v}}_i}) + \ln {{\hat p}_i}({{\boldsymbol{t}}_i})))} .$

(1)

其中 ${L_{{\rm{imd}}}}$ 表示对所有图像-文本对进行语义类别分类的交叉熵损失， ${\theta _{{\rm{imd}}}}$ 表示分类器的参数， ${{\boldsymbol{l}}_i}$ 是每个样本 ${m_i}$ 的真值， ${\hat p_i}$ 是样本中每个数据（图像或文本）所得到的概率分布.

3.1.2 语义保留

语义保留模块致力于保证语义相同、媒体不同的数据在映射前后都能保留语义相似性，即媒体不同、语义相同的数据距离较近，媒体不同、语义不同的数据距离较远. 在映射到隐语义空间 $S$ 之前，每个样本 ${m_i}$ 中的图像数据与文本数据的语义分布分别为 ${{\boldsymbol{l}}_{\rm{vis}}}$ 和 ${{\boldsymbol{l}}_{\rm{tex}}}$ ，那么2个不同媒体数据间的语义一致性损失用 ${l_2}$ 范数表示为

${l_2}({{\boldsymbol{l}}_{\rm{vis}}},{{\boldsymbol{l}}_{\rm{tex}}}) = {\left\| {{{\boldsymbol{l}}_{\rm{vis}}} - {{\boldsymbol{l}}_{\rm{tex}}}} \right\|_2} .$

(2)

在映射到隐语义空间 $S$ 之后，每个样本 ${m_i}$ 中的图像数据特征 ${S_{\boldsymbol{V}}}$ 与文本数据的特征 ${S_{\boldsymbol{T}}}$ 之间的语义一致性损失同样用 ${l_2}$ 范数表示为

${l_2}({S_{\boldsymbol{V}}},{S_{\boldsymbol{T}}}) = {\left\| {{f_{\boldsymbol{V}}}({\boldsymbol{V}};{\theta _{\boldsymbol{V}}}) - {f_{\boldsymbol{T}}}({\boldsymbol{T}};{\theta _{\boldsymbol{T}}})} \right\|_2} .$

(3)

因此，整体的媒体间一致性损失可以建模为 ${l_2}({{\boldsymbol{l}}_{\rm{vis}}},{{\boldsymbol{l}}_{\rm{tex}}})$ 和 ${l_2}({S_{\boldsymbol{V}}},{S_{\boldsymbol{T}}})$ 两者的结合：

${L_{{\rm{imi}}}}({\theta _{\boldsymbol{V}}},{\theta _{\boldsymbol{T}}}) = {l_2}({{\boldsymbol{l}}_{\rm{vis}}},{{\boldsymbol{l}}_{\rm{tex}}}) + {l_2}({S_{\boldsymbol{V}}},{S_{\boldsymbol{T}}}) ,$

(4)

其中 ${L_{{\rm{imi}}}}$ 表示媒体间同时考虑映射前与映射后的语义一致性损失.

3.1.3 媒体约束

除了便于度量不同媒体数据间的语义相似性之外，特征映射网络的另一个作用是生成映射后的特征来欺骗媒体判别网络，让它无法区分出数据的原始媒体. 因此，引入语义内的媒体约束模块. 为了能够更加逼真地映射出难以区分媒体的特征，在基础的特征映射网络 ${P_1}$ 之外，构造另一个相同结构的特征映射网络 ${P_2}$ ，称为精炼网络. 精炼网络 ${P_2}$ 的输入是 ${P_1}$ 的输出结果 ${S_{\boldsymbol{V}}}$ 或 ${S_{\boldsymbol{T}}}$ . ${P_2}$ 的输出是 $S_{\boldsymbol{V}}' = {g_{{S_{\boldsymbol{V}}}}}({S_{\boldsymbol{V}}};{\theta _{{S_{\boldsymbol{V}}}}})$ 或 $S_{\boldsymbol{T}}' = {g_{{S_{\boldsymbol{T}}}}}({S_{\boldsymbol{T}}};{\theta _{{S_{\boldsymbol{T}}}}})$ . 其中 $S_{\boldsymbol{V}}'$ 和 $S_{\boldsymbol{T}}'$ 分别表示 ${S_{\boldsymbol{V}}}$ 和 ${S_{\boldsymbol{T}}}$ 经过特征映射网络 ${P_2}$ 映射后的特征， ${g_{{S_{\boldsymbol{V}}}}}({S_{\boldsymbol{V}}};{\theta _{{S_{\boldsymbol{V}}}}})$ 和 ${g_{{S_{\boldsymbol{T}}}}}({S_{\boldsymbol{T}}};{\theta _{{S_{\boldsymbol{T}}}}})$ 分别表示 ${S_{\boldsymbol{V}}}$ 和 ${S_{\boldsymbol{T}}}$ 这2种特征的映射函数.

对每一个图像-文本对 ${m_i}$ 而言，目标是让精炼网络 ${P_2}$ 映射出的特征（ $S_{\boldsymbol{V}}'$ 或 $S_{\boldsymbol{T}}'$ ）距离基础网络 ${P_1}$ 映射的特征（ ${S_{\boldsymbol{V}}}$ 或 ${S_{\boldsymbol{T}}}$ ）较远，距离相同语义的特征（ ${S_{\boldsymbol{T}}}$ 或 ${S_{\boldsymbol{V}}}$ ）较近. 受到文献[34-36]启发，语义内的媒体判别损失采用如下约束损失进行计算：

${L_{{\rm{con}},{\boldsymbol{V}}}}({\theta _{\boldsymbol{V}}},{\theta _{\boldsymbol{T}}},{\theta _{{S_{\boldsymbol{V}}}}}) = \max \left(0,{\left\| {S_{\boldsymbol{V}}' - {S_{\boldsymbol{T}}}} \right\|_2} - {\left\| {S_{\boldsymbol{V}}' - {S_{\boldsymbol{V}}}} \right\|_2}\right) ,$

(5)

${L_{{\rm{con}},{\boldsymbol{T}}}}({\theta _{\boldsymbol{T}}},{\theta _{\boldsymbol{V}}},{\theta _{{S_{\boldsymbol{T}}}}}) = \max \left(0,{\left\| {S_{\boldsymbol{T}}' - {S_{\boldsymbol{V}}}} \right\|_2} - {\left\| {S_{\boldsymbol{T}}' - {S_{\boldsymbol{T}}}} \right\|_2}\right) .$

(6)

其中 ${L_{{\rm{con}},{\boldsymbol{V}}}}$ 表示图像媒体数据的约束损失， ${L_{{\rm{con}},{\boldsymbol{T}}}}$ 表示文本媒体数据的约束损失.

因此，整体语义内的媒体判别损失可以建模为图像媒体数据的约束损失 ${L_{{\rm{con}},{\boldsymbol{V}}}}({\theta _{\boldsymbol{V}}},{\theta _{\boldsymbol{T}}},{\theta _{{S_{\boldsymbol{V}}}}})$ 与文本媒体数据的约束损失 ${L_{{\rm{con}},{\boldsymbol{T}}}}({\theta _{\boldsymbol{T}}},{\theta _{\boldsymbol{V}}},{\theta _{{S_{\boldsymbol{T}}}}})$ 的结合：

${L_{{\rm{con}}}}({\theta _{\boldsymbol{V}}},{\theta _{\boldsymbol{T}}},{\theta _{{S_{\boldsymbol{V}}}}},{\theta _{{S_{\boldsymbol{T}}}}}) = {L_{{\rm{con}},{\boldsymbol{V}}}}({\theta _{\boldsymbol{V}}},{\theta _{\boldsymbol{T}}},{\theta _{{S_{\boldsymbol{V}}}}}) + {L_{{\rm{con}},{\boldsymbol{T}}}}({\theta _{\boldsymbol{T}}},{\theta _{\boldsymbol{V}}},{\theta _{{S_{\boldsymbol{T}}}}}).$

(7)

3.1.4 特征映射网络损失

整个特征映射网络的映射性损失由媒体内的判别损失 ${L_{{\rm{imd}}}}$ 、媒体间的一致性损失 ${L_{{\rm{imi}}}}$ 、语义内的判别损失 ${L_{{\rm{com}}}}$ 共同组成，记为 ${L_{{\rm{emb}}}}$ ：

${L_{{\rm{emb}}}}({\theta _{\boldsymbol{V}}},{\theta _{\boldsymbol{T}}},{\theta _{{S_{\boldsymbol{V}}}}},{\theta _{{S_{\boldsymbol{T}}}}},{\theta _{{\rm{imd}}}}) = \alpha · {L_{{\rm{imi}}}} + \beta · {L_{{\rm{con}}}} + {L_{{\rm{imd}}}},$

(8)

其中 $\alpha$ 和 $\beta$ 为可调节参数，用以控制 ${L_{{\rm{imi}}}}$ 和 ${L_{{\rm{con}}}}$ 这2类损失在整个特征映射网络损失中的参与度.

3.2 媒体判别网络

媒体判别网络扮演着GAN^[27]中“判别器”的角色，用来判断映射到隐语义空间后的数据的原始媒体. 令经过图像映射函数的数据标签为0，经过文本映射函数的数据标签为1.本文使用一个参数为 ${\theta _{\rm{dis}}}$ 的3层全连接网络作为判别网络，充当特征映射网络的对手. 其目标是最小化媒体分类损失，也称为对抗性损失 ${L_{{\rm{adv}}}}$ ，定义为

${L_{{\rm{adv}}}}({\theta _{\rm{dis}}}) = - \frac{1}{n}\sum\limits_{i = 1}^n {(\ln D({{\boldsymbol{v}}_i};{\theta _{\rm{dis}}}) + \ln (1 - D({{\boldsymbol{t}}_i};{\theta _{\rm{dis}}})))} ,$

(9)

其中 ${L_{{\rm{adv}}}}$ 表示媒体判别网络中每个样本 ${m_i}$ 的交叉熵损失， $D( · ;{\theta _{\rm{dis}}})$ 表示样本中每个数据（图像或文本）所得到的媒体概率分布.

3.3 对抗学习

对抗学习的目的旨在通过同时最小化式（8）的映射性损失和式（9）的对抗性损失，来学习得到最优的特征表示网络参数，定义如下所示：

$\begin{aligned} &({\theta _{\boldsymbol{V}}},{\theta _{\boldsymbol{T}}},{\theta _{{S_{\boldsymbol{V}}}}},{\theta _{{S_{\boldsymbol{T}}}}},{\theta _{{\rm{imd}}}}) =\\ & \mathop {\arg \min }\limits_{{\theta _{\boldsymbol{V}}},{\theta _{\boldsymbol{T}}},{\theta _{{S_{\boldsymbol{V}}}}},{\theta _{{S_{\boldsymbol{T}}}}},{\theta _{{\rm{imd}}}}} ({L_{{\rm{emb}}}}({\theta _{\boldsymbol{V}}},{\theta _{\boldsymbol{T}}},{\theta _{{S_{\boldsymbol{V}}}}},{\theta _{{S_{\boldsymbol{T}}}}},{\theta _{{\rm{imd}}}}) - {L_{{\rm{adv}}}}({\theta _{\rm{dis}}})) \end{aligned} ,$

(10)

${\theta _{\rm{dis}}} = \mathop {\arg \max }\limits_{{\theta _{\rm{dis}}}} ({L_{{\rm{emb}}}}({\theta _{\boldsymbol{V}}},{\theta _{\boldsymbol{T}}},{\theta _{{S_{\boldsymbol{V}}}}},{\theta _{{S_{\boldsymbol{T}}}}},{\theta _{{\rm{imd}}}}) - {L_{{\rm{adv}}}}({\theta _{\rm{dis}}})) .$

(11)

具体的对抗学习训练过程如算法1所示.

算法1. SMCR的对抗训练过程.

输入：图像特征矩阵 ${\boldsymbol{V }}= ({{\boldsymbol{v}}_1},{{\boldsymbol{v}}_2}, … ,{{\boldsymbol{v}}_N})$ , 文本特征矩阵 ${\boldsymbol{T}} = ({{\boldsymbol{t}}_1},{{\boldsymbol{t}}_2}, … ,{{\boldsymbol{t}}_N})$ , 真值语义标签矩阵 ${\boldsymbol{L}} = ({{\boldsymbol{l}}_1}, {{\boldsymbol{l}}_2}, … , {{\boldsymbol{l}}_N})$ , 迭代次数 $k$ , 学习率 $\mu$ , 每个批次的数据量 $m$ , 损失参数 $\lambda$ ；

输出：参数 ${\theta _{\boldsymbol{V}}}$ , ${\theta _{\boldsymbol{T}}}$ , ${\theta _{{S_{\boldsymbol{V}}}}}$ , ${\theta _{{S_{\boldsymbol{T}}}}}$ .

①随机初始化模型参数；

②while未收敛do

③ 　for iter =1 to k do

④　　通过随机梯度下降更新参数 ${\theta _{\boldsymbol{V}}},{\theta _{\boldsymbol{T}}},{\theta _{{S_{\boldsymbol{V}}}}},$ ${\theta _{{S_{\boldsymbol{T}}}}}$ ,　　　　　　 ${\theta _{{\rm{imd}}}}$ ；

⑤ 　　 ${\theta _{\boldsymbol{V}}} \leftarrow {\theta _{\boldsymbol{V}}} - \mu \cdot {\nabla _{{\theta _{\boldsymbol{V}}}}}\dfrac{1}{m}({L_{{\rm{emb}}}} - {L_{{\rm{adv}}}})$ ；

⑥ 　　 ${\theta _{\boldsymbol{T}}} \leftarrow {\theta _{\boldsymbol{T}}} - \mu \cdot {\nabla _{{\theta _{\boldsymbol{T}}}}}\dfrac{1}{m}({L_{{\rm{emb}}}} - {L_{{\rm{adv}}}})$ ；

⑦ 　　 ${\theta _{{S_{\boldsymbol{V}}}}} \leftarrow {\theta _{{S_{\boldsymbol{V}}}}} - \mu \cdot {\nabla _{{\theta _{{S_{\boldsymbol{V}}}}}}}\dfrac{1}{m}({L_{{\rm{emb}}}} - {L_{{\rm{adv}}}})$ ；

⑧ 　　 ${\theta _{{S_{\boldsymbol{T}}}}} \leftarrow {\theta _{{S_{\boldsymbol{T}}}}} - \mu \cdot {\nabla _{{\theta _{{S_{\boldsymbol{T}}}}}}}\dfrac{1}{m}({L_{{\rm{emb}}}} - {L_{{\rm{adv}}}})$ ；

⑨ 　　 ${\theta _{{\rm{imd}}}} \leftarrow {\theta _{{\rm{imd}}}} - \mu \cdot {\nabla _{{\theta _{{\rm{imd}}}}}}\dfrac{1}{m}({L_{{\rm{emb}}}} - {L_{{\rm{adv}}}})$ ；

⑩ 　end for

⑪end while

⑫通过随机梯度上升更新参数 ${\theta _{\rm{dis}}}$ ；

⑬ ${\theta _{\rm{dis}}} \leftarrow {\theta _{\rm{dis}}} + \mu \cdot \lambda \cdot {\nabla _{{\theta _{\rm{dis}}}}}\dfrac{1}{m}({L_{{\rm{emb}}}} - {L_{{\rm{adv}}}})$ .

4. 实验设置

本文分别阐述对实验部分至关重要的研究问题、数据集、对比算法、评价指标等4个方面.

4.1 研究问题

本文通过3个研究问题来引导实验的设置.

研究问题1. 面向科技资讯的基于语义对抗和媒体对抗的跨媒体检索方法SMCR的表现能否优于前沿的跨媒体检索算法.

研究问题2. SMCR方法的主要组成部分对于跨媒体检索是否存在贡献.

研究问题3. SMCR方法是否对参数敏感.

4.2 数据集

为了回答上述3个研究问题，使用爬取自科技资讯网站SciTechDaily^[37]的数据集进行实验. 数据集包括5217个图像-文本对，将其中的4173对数据作为训练集，1044对数据作为测试集. 为了验证本文模型的通用性，同时使用Wikipedia^[38]数据集进行实验. Wikipedia数据集包括2866个图像-文本对，将其中的2292对数据作为训练集，574对数据作为测试集. 这2个数据集的详细信息如表1所示.

表 1 实验使用的2个数据集的属性

Table 1. Attributes of Two Datasets Used for the Experiments

数据集	训练样本数/测试样本数	标签数	图像特征	文本特征
SciTechDaily	4173/1044	8	4096d VGG	6500d BoW
Wikipedia	2292/574	10	4096d VGG	5000d BoW

下载: 导出CSV

| 显示表格

4.3 对比算法

本文将SMCR与相关的基准算法和前沿算法进行比较，对比算法如下.

1）典型关联分析（canonical correlation analysis，CCA）. 该模型^[12]为不同的媒体类型的数据学习一个公共子空间，使2组异构数据之间的关联最大化.

2）基于耦合特征选择和子空间学习的联合学习（joint feature selection and subspace learning，JFSSL）. 该模型^[13]学习投影矩阵将多媒体数据映射到一个公共子空间，并同时从不同的特征空间中选择相关的和有区别的特征.

3）跨媒体多重深度网络（cross-media multiple deep network，CMDN）. 该模型^[18]通过分层学习来利用复杂的跨媒体相关性. 在第1阶段，联合对媒体内和媒体信息进行建模；在第2阶段，分层组合媒体间表示和媒体内表示来进一步学习丰富的跨媒体相关性.

4）基于对抗的跨媒体检索（adversarial cross-modal retrieval，ACMR）. 该模型^[24]基于对抗性学习寻求有效的公共子空间. 对特征投影器施加3重约束，以最小化来自具有相同语义标签、不同媒体的所有样本表示之间的差距，同时最大化语义不同的图像和文本之间的距离.

5）深度监督跨媒体检索（deep supervised cross-modal retrieval，DSCMR）. 该模型^[25]同样基于对抗性学习的思想，将标签空间和公共表示空间中的判别损失最小化，同时最小化媒体不变性损失，并使用权重共享策略来消除公共表示空间中多媒体数据的跨媒体差异.

6）基于对抗学习和语义相似度的社交网络跨媒体搜索（SSACR）. 该模型^[26]同样基于对抗性学习的思想，将映射到同一语义空间的不同媒体数据的特征向量进行了相似度计算, 并与原本的语义特征向量之间的相似度进行比较，以消除同一语义下不同媒体数据的差异.

4.4 评价指标

本文采用跨媒体检索^[39-40]中经典的评价指标——平均精度均值（mean average precision，mAP），在文本检索图像txt2img和图像检索文本img2txt 这2个任务上，分别对SMCR和所有对比算法进行评价. 计算mAP，首先需计算 $R$ 个检索出的文档的平均精度 $AP = \dfrac{1}{T}\displaystyle\sum_{r = 1}^R {P(r)\delta (r)}$ . 其中 $T$ 是检索出的文档中的相关文档数量， $P(r)$ 表示前 $r$ 个检索出的文档的精度，如果第 $r$ 个检索出的文档是相关的，则 $\delta (r) = 1$ ，否则 $\delta (r) = 0$ . 然后通过对查询集中所有查询的AP值进行平均来计算mAP. mAP值越大，说明跨媒体检索结果越精准.

5. 实验结果与分析

本节对所有实验结果进行分析，来回答4.1节提出的研究问题.

5.1 SMCR算法的有效性

为了回答研究问题1，将SMCR和6个前沿算法分别在SciTechDaily，Wikipedia这2个数据集上进行对比. 对比算法为：1）基于统计关联分析的方法CCA^[12]，JFSSL^[13]；2）基于深度学习的方法CMDN^[18]，ACMR^[24]，DSCMR^[25]，SSACR^[26].

表2展示了本文在文本检索图像txt2img和图像检索文本img2txt这2个任务上，对前5个、前25个、前50个的检索结果计算mAP值（mAP@5，mAP@25，mAP@50）和2个检索任务的mAP均值的结果.

表 2 在SciTechDaily和Wikipedia数据集上的跨媒体检索性能比较

Table 2. Comparison of Cross-Media Retrieval Performance on SciTechDaily and Wikipedia Datasets

数据集	算法		mAP@5			mAP@25			mAP@50
数据集	算法	txt2img	img2txt	均值	txt2img	img2txt	均值	txt2img	img2txt	均值
SciTechDaily	CCA	0.2337	0.1806	0.2071	0.2328	0.1761	0.2044	0.2225	0.1789	0.2007
	JFSSL	0.3984	0.2852	0.3418	0.3817	0.2777	0.3297	0.3699	0.2647	0.3173
	CMDN	0.4483	0.3514	0.3998	0.4299	0.3443	0.3871	0.4206	0.3229	0.3717
	ACMR	0.5131	0.4382	0.4756	0.4943	0.4471	0.4707	0.4966	0.4259	0.4612
	DSCMR	0.5042	0.4577	0.4809	0.4812	0.4646	0.4729	0.4810	0.4467	0.4638
	SSACR	0.5091	0.4572	0.4831	0.5049	0.4487	0.4768	0.5072	0.4355	0.4713
	SMCR（本文）	0.5270	0.4790	0.5030	0.5291	0.4727	0.5009	0.5191	0.4426	0.4808
Wikipedia	CCA	0.2639	0.2154	0.2396	0.2883	0.2255	0.2569	0.2575	0.2152	0.2363
	JFSSL	0.4432	0.3481	0.3956	0.4266	0.3528	0.3897	0.4152	0.3479	0.3815
	CMDN	0.5265	0.4194	0.4729	0.5046	0.4171	0.4608	0.4874	0.3938	0.4406
	ACMR	0.6372	0.4920	0.5646	0.6251	0.4937	0.5594	0.5887	0.4824	0.5355
	DSCMR	0.6413	0.4963	0.5688	0.6514	0.5082	0.5798	0.6452	0.4973	0.5712
	SSACR	0.6642	0.4927	0.5784	0.6608	0.5089	0.5848	0.6416	0.4956	0.5686
	SMCR（本文）	0.7014	0.5059	0.6036	0.6714	0.5003	0.5858	0.6503	0.4959	0.5731
注：黑体数值表示最优值.

下载: 导出CSV

| 显示表格

从表2中，我们有以下发现：

1）SMCR的表现优于所有前沿算法，包括基于统计关联分析的方法和基于深度学习的方法. 其中SMCR方法在前5个、前25个、前50个的检索结果上的mAP均值在2个数据集上均优于目前最前沿的SSACR算法. 这表明，虽然SSACR同样建模了媒体内语义损失和媒体间语义损失，SMCR引入语义内的媒体约束模块，通过更加逼真地映射出难以区分媒体的特征表示，有助于进一步提升跨媒体检索性能.

2）SMCR和JFSSL，CMDN，ACMR，DSCMR，SSACR等同时建模媒体内相似性和媒体间相似性的模型，效果优于基于图像-文本对建模媒体间相似性的CCA，表明同时考虑媒体内相似性和媒体间相似性能够提高跨媒体检索精度.

3）SMCR和ACMR，DSCMR，SSACR的跨媒体检索性能优于在多任务学习框架中同样建模了媒体间不变性和媒体内判别性的CMDN，表明对抗学习有助于进一步提升媒体间不变性和媒体内判别性的建模.

4）SMCR通过分别建模相同语义、不同媒体数据在映射前和映射后的语义相似性，表现优于仅建模相同语义、不同媒体间数据在映射后的语义相似性的ACMR和DSCMR. 这表示建模不同媒体的数据在映射前后的语义不变性有助于提高跨媒体检索精度.

5）SMCR和所有前沿算法在SciTechDaily，Wikipedia这2个数据集上的表现一致，表明SMCR算法不仅局限于跨媒体科技资讯的检索，而且在通用的跨媒体检索任务中同样具备良好效果.

5.2 SMCR方法主要组成部分的贡献

为了回答研究问题2，我们将SMCR与去掉媒体间语义损失 ${L_{{\rm{imi}}}}$ 的SMCR、去掉语义内媒体损失 ${L_{{\rm{con}}}}$ 的SMCR在SciTechDaily和Wikipedia这2个数据集上进行对比. 由于采用标签分类建模的媒体内语义损失 ${L_{{\rm{imd}}}}$ 并非本文创新，因此不对去掉 ${L_{{\rm{imd}}}}$ 的SMCR进行对比，结果如表3、表4所示. 从表3、表4中有2点发现：

表 3 SMCR与其变种在SciTechDaily数据集上的表现

Table 3. Performance of SMCR and Its Variants in SciTechDaily Dataset

本文方法	mAP	txt2img	img2txt	均值
SMCR （去掉 ${L_{{\rm{imi}}} }$ ）	mAP@5	0.5196	0.4627	0.4911
	mAP@25	0.5187	0.4525	0.4856
	mAP@50	0.5024	0.4408	0.4716
SMCR （去掉 ${L_{{\rm{con}}} }$ ）	mAP@5	0.5155	0.4513	0.4834
	mAP@25	0.5073	0.4474	0.4773
	mAP@50	0.4972	0.4386	0.4679
SMCR	mAP@5	0.5270	0.4790	0.5030
	mAP@25	0.5291	0.4727	0.5009
	mAP@50	0.5191	0.4426	0.4808

下载: 导出CSV

| 显示表格

表 4 SMCR与其变体在Wikipedia数据集上的表现

Table 4. Performance of SMCR and Its Variants in Wikipedia Dataset

本文算法	mAP	txt2img	img2txt	均值
SMCR （去掉 ${L_{{\rm{imi}}} }$ ）	mAP@5	0.6919	0.4983	0.5951
	mAP@25	0.6622	0.4937	0.5779
	mAP@50	0.6418	0.4901	0.5659
SMCR （去掉 ${L_{{\rm{con}}} }$ ）	mAP@5	0.6806	0.5038	0.5922
	mAP@25	0.6596	0.4980	0.5788
	mAP@50	0.6416	0.4938	0.5677
SMCR	mAP@5	0.7014	0.5059	0.6036
	mAP@25	0.6714	0.5003	0.5858
	mAP@50	0.6503	0.4959	0.5731

下载: 导出CSV

| 显示表格

1）去掉媒体间语义损失 ${L_{{\rm{imi}}}}$ 的SMCR和去掉语义内媒体损失 ${L_{{\rm{con}}}}$ 的SMCR，相比SMCR，跨媒体检索mAP值均有所下降. 这表明在特征映射网络中同时优化媒体间语义损失 ${L_{{\rm{imi}}}}$ 和语义内媒体损失 ${L_{{\rm{con}}}}$ 相比单独优化其中一个更有助于提升跨媒体检索表现.

2）SMCR与其变体在SciTechDaily，Wikipedia这2个数据集上的跨媒体检索表现一致，再次表明SMCR方法并不局限于跨媒体科技资讯检索，而在通用的跨媒体检索任务上同样有效.

5.3 SMCR方法的参数敏感性

本节回答研究问题3. 式（8）中的特征映射网络的映射性损失 ${L_{{\rm{emb}}}}$ 有 $\alpha$ 和 $\beta$ 这2个参数，分别控制媒体间语义损失 ${L_{{\rm{imi}}}}$ 和语义内媒体损失 ${L_{{\rm{con}}}}$ 在整体映射性损失 ${L_{{\rm{emb}}}}$ 中的参与度. 本节在Wikipedia数据集上改变 $\alpha$ 和 $\beta$ 的取值，以测试SMCR算法的参数敏感性. 将 $\alpha$ 和 $\beta$ 分别取值0.1，1，10，100，特别而言，当 $\alpha = 0$ 时SMCR退化为去掉媒体间语义损失 ${L_{{\rm{imi}}}}$ 的SMCR；当 $\beta = 0$ 时SMCR退化为去掉语义内媒体损失 ${L_{{\rm{con}}}}$ 的SMCR. 因此 $\alpha$ 和 $\beta$ 的取值不为0. 固定一个参数（如 $\alpha$ ）的前提下，改变另一个参数（如 $\beta$ ）进行实验，并采用mAP@50分别评估文本检索图像效果、图像检索文本效果、平均检索效果，结果如图2所示.

图 2 Wikepedia数据集上在

$\alpha$ 和

$\beta$ 下的检索效果

Figure 2. Retrieval performance with

$\alpha$ and

$\beta$ in Wikipedia dataset

下载: 全尺寸图片幻灯片

从中可见，当 $\alpha$ 取值为0.1, 1, 10和 $\beta$ 取值为0.1, 1, 10, 100时，SMCR表现较好. 这表明SMCR对参数不敏感，即泛化能力较好. 特别地，在文本检索图像任务上，当 $\alpha = 0.1$ 且 $\beta = 0.1$ 时，SMCR表现最优；在图像检索文本任务上，当 $\alpha = 1$ 且 $\beta = - 1$ 时，SMCR取得最优检索效果；在平均检索效果上，当 $\alpha = - 1$ 且 $\beta = - 1$ 时，SMCR表现最好.

6. 结　　论

本文提出一种面向科技资讯的基于语义对抗和媒体对抗的跨媒体检索方法（SMCR），能够同时学习跨媒体检索中的媒体内判别性、媒体间一致性、语义内判别性表示. SMCR基于对抗学习方法，在极小化极大化游戏中涉及2个过程：生成具有媒体内判别性、媒体间一致性、语义间判别性表示的特征映射网络和试图辨别给定数据原始媒体的媒体判别网络. 本文引入媒体间一致性损失，以确保映射前后的媒体间数据保留语义一致性；此外，引入语义内媒体判别性损失，以确保映射后的数据在语义上接近自身，媒体上远离自身来增强特征映射网络混淆媒体判别网络的能力. 在2个跨媒体数据集上进行的综合实验结果证明了SMCR方法的有效性，且在跨媒体检索上的表现优于最前沿的方法.

作者贡献声明：李昂负责论文初稿撰写及修改、实验设计验证与核实；杜军平负责论文审阅与修订、研究课题监管与指导；寇菲菲负责指导实验方法设计；薛哲负责指导论文选题；徐欣和许明英负责实际调查研究；姜阳负责数据分析与管理.

图 1 联邦学习架构、区块链架构及区块链联邦学习框架

Figure 1. Federated learning structures, blockchain structures, and blockchain-based federated learning frameworks

下载: 全尺寸图片幻灯片

图 2 本文提出的基于区块链辅助的半中心化联邦学习框架

Figure 2. Our proposed blockchain-assisted semi-centralized federated learning framework

下载: 全尺寸图片幻灯片

图 3 半中心化联邦学习框架的训练流程

Figure 3. The training procedure of the semi-centralized federated learning framework

下载: 全尺寸图片幻灯片

图 4 区块链系统中的区块结构设计

Figure 4. The design of the block structures in the blockchain system

下载: 全尺寸图片幻灯片

图 5 不同客户端在FMNIST数据集的PAT分布和DIR分布

Figure 5. The PAT and DIR distribution of FMNIST dataset for different clients

下载: 全尺寸图片幻灯片

图 6 实验中运用的神经网络模型结构

Figure 6. Structure of the neural network model used in the experiment

下载: 全尺寸图片幻灯片

表 1 本文所用符号及其表述

Table 1 The Used Notations and Their Descriptions in Our Paper

符号	符号表述	符号	符号表述	符号	符号表述
$N$	客户端数量	${C_i}$	第i个客户端	$T$	最大训练轮次
${D_i}$	${C_i}$ 上的本地数据集	${N_i}$	${D_i}$ 中的样本数	$\alpha$	本地学习率
${\theta ^{\;{t}}}$	第 $t$ 轮中的全局模型	$\theta _i^{\;{t} }$	第 $t$ 轮中 ${C_i}$ 上的本地模型	$\tilde \theta _i^{\;{t} }$	第 $t$ 轮中 ${C_i}$ 上训练后的本地模型
$L(\theta _i^{\;{t} }\|{D_i})$	$\theta _i^{\;{t} }$ 在 ${D_i}$ 上的损失函数	$w_i^{\;{t} }$	第 $t$ 轮中 $\theta _i^{\;{t} }$ 的聚合权重	$C_i^{{\text{neigh}}}$	${C_i}$ 的邻居可信客户端集合
$t_i^{}$	客户端 ${C_i}$ 当前所处的轮次	$w_{{\text{1}},i}^{\;{t} }$	本地第 $t$ 轮时，从 ${C_i}$ 接收到的模型的准确率所决定的聚合权重	$w_{{\text{2}},i}^{\;{t} }$	本地第 $t$ 轮时，从 ${C_i}$ 接收到的模型的延迟轮次所决定的聚合权重
$\tau _i^{\;{t} }$	${C_i}$ 在第 $t$ 轮的总用时	$\tau _{i,{\text{cal}}}^{\;{t} }$	${C_i}$ 在第 $t$ 轮的计算用时	$\tau _{i,{\text{wait}}}^{\;{t} }$	${C_i}$ 在第 $t$ 轮的等待用时

下载: 导出CSV

表 2 本文框架与其他联邦学习框架在FMNIST-DIR下的结果

Table 2 Results of Our Framework and Other Federated Learning Frameworks Under FMNIST-DIR

算法框架	测试准确率	测试AUC	平均训练时间/s	设备计算时长比例/%
FedAvg	0.7995±0.0024	0.9666±0.0245	1.3887±0.0600	35.64±3.77
FedAvg + loss	0.8051±0.0054	0.9699±0.0212	1.7406±0.0795	30.93±3.22
FedProx	0.7993±0.0022	0.9666±0.0246	1.5989±0.0752	36.27 ±3.39
FedBN	0.7994±0.0023	0.9666±0.0245	1.6163±0.0395	33.21±1.74
FedPer	0.9735±0.0001	0.9967±0.0057	1.4584±0.0864	26.43±1.84
FedRep	0.9743±0.0005	0.9974±0.0061	2.2325±0.1026	38.73±4.17
FedBABU	0.7685±0.0070	0.9950±0.0090	1.4313±0.0733	35.48±3.38
APFL	0.9720±0.0002	0.9976±0.0077	3.6855±0.1621	29.11±1.21
FedPHP	0.0919±0.0185	0.5072±0.2313	3.9221±0.3462	36.44±1.55
Ditto	0.9714±0.0005	0.9986±0.0103	3.5450±0.2870	30.81±1.29
FedFomo	0.9719±0.0004	0.9971±0.0179	2.0139±0.2788	38.14±1.94
FedAMP	0.9720±0.0006	0.9971±0.0114	1.6826±0.0546	29.34±2.52
APPLE	0.9638±0.0006	0.9907±0.0206	30.1721±13.1385	36.25±4.49
FedAsync	0.8352±0.0372	0.9482±0.1870	1.4260±0.0749	100.00±0.00
Ours	0.8901±0.0092	0.9760±0.1303	1.8396±0.0213	100.00±0.00
Ours − delay	0.8749±0.0070	0.9714±0.1291	1.6460±0.0517	100.00±0.00
Ours − delay −loss	0.6595±0.0772	0.8994±0.2153	1.4766±0.0417	100.00±0.00

下载: 导出CSV

表 3 本文框架与其他联邦学习框架在CIFAR10-DIR下的结果

Table 3 Results of Our Framework and Other Federated Learning Frameworks Under CIFAR10-DIR

算法框架	测试准确率	测试AUC	平均训练时间/s	设备计算时长比例/%
FedAvg	0.4301±0.0021	0.8561±0.0549	1.2659±0.0474	38.91±2.24
FedAvg + loss	0.4595±0.0076	0.8610±0.0563	1.1305±0.0672	40.96±5.34
FedProx	0.4302±0.0020	0.8562±0.0549	1.4661±0.0645	38.39±3.94
FedBN	0.4302±0.0020	0.8563±0.0548	1.2281±0.0551	35.13±2.84
FedPer	0.8925±0.0020	0.9833±0.0205	1.1360±0.0295	40.44±3.78
FedRep	0.8997±0.0019	0.9846±0.0195	1.7977±0.0863	36.00±3.34
FedBABU	0.8757±0.0014	0.9838±0.0209	1.1933±0.0375	40.64±4.58
APFL	0.8884±0.0019	0.9837±0.0230	2.8463±0.0869	46.31±3.31
FedPHP	0.1075±0.0124	0.5079±0.1991	3.4474±0.1919	37.39±2.10
Ditto	0.8857±0.0012	0.9878±0.0209	2.7539±0.1707	38.90±1.99
FedFomo	0.8818±0.0010	0.9824±0.0236	1.4675±0.1869	46.03±3.48
FedAMP	0.8879±0.0020	0.9834±0.0230	1.2760±0.0729	37.19±3.04
APPLE	0.8807±0.1081	0.9803±0.0241	25.1646±5.6199	38.39±1.33
FedAsync	0.4668±0.1338	0.8354±0.2422	1.5402±0.0704	100.00±0.00
Ours	0.7660±0.0087	0.9453±0.1356	1.2732±0.0270	100.00±0.00
Ours − delay	0.7581±0.0139	0.9328±0.1549	1.2224±0.0755	100.00±0.00
Ours − delay −loss	0.4886±0.0708	0.8120±0.2309	1.4171±0.0325	100.00±0.00

下载: 导出CSV

表 4 本文框架与其他联邦学习框架在没有系统异构性时CIFAR10-DIR下的结果

Table 4 Results of Our Framework and Other Federated Learning Frameworks Under CIFAR10-DIR Without Straggler

算法框架	测试准确率	测试AUC	平均训练时间/s	设备计算时长比例/%
FedAvg	0.4301±0.0021	0.8561±0.0548	0.6146±0.0313	49.09±3.27
FedAvg + loss	0.4599±0.0079	0.8610±0.0563	0.8905±0.0640	47.46±7.65
FedProx	0.4302±0.0021	0.8562±0.0548	0.6358±0.0340	50.02±5.27
FedBN	0.4268±0.0020	0.8531±0.0561	0.6033±0.0355	47.07±4.87
FedPer	0.8926±0.0020	0.9833±0.0205	0.5881±0.0331	47.00±3.10
FedRep	0.9000±0.0020	0.9850±0.0191	0.6616±0.0754	45.42±2.78
FedBABU	0.8820±0.0015	0.9830±0.0215	0.5911±0.0514	47.98±5.39
APFL	0.8913±0.0019	0.9845±0.0214	1.1764±0.0454	51.42±3.74
FedPHP	0.0937±0.0000	0.4940±0.2182	1.5001±0.1175	49.82±3.76
Ditto	0.8868±0.0013	0.9879±0.0197	1.2254±0.1079	49.81±4.40
FedFomo	0.8817±0.0013	0.9824±0.0237	0.6885±0.0796	50.95±4.06
FedAMP	0.8880±0.0021	0.9834±0.0232	0.6157±0.0286	49.27±3.35
APPLE	0.8806±0.1080	0.9803±0.0240	5.4571±3.2784	51.05±1.32
FedAsync	0.4860±0.1133	0.8698±0.2055	1.0339±0.0166	100.00 ±0.00
Ours	0.7645±0.0041	0.9454±0.1103	0.9208±0.0256	100.00±0.00
Ours − delay	0.7634±0.0073	0.9376±0.1423	0.9084±0.0324	100.00±0.00
Ours − delay − loss	0.4915±0.0686	0.7698±0.2595	0.8530±0.0095	100.00±0.00

下载: 导出CSV

表 5 本文框架与其他联邦学习框架在CIFAR10-PAT下的结果

Table 5 Results of Our Framework and Other Federated Learning Frameworks Under CIFAR10-PAT

算法框架	测试准确率	测试AUC	平均训练时间/s	设备计算时长比例/%
FedAvg	0.4768±0.0061	0.8612±0.0026	1.4768±0.0871	46.85±6.29
FedAvg + loss	0.4776±0.0062	0.8475±0.0032	1.4969±0.0633	49.41±6.30
FedProx	0.4757±0.0057	0.8610±0.0026	1.8383±0.0688	48.47±8.44
FedBN	0.4757±0.0056	0.8611±0.0026	1.5648±0.0796	49.13±5.27
FedPer	0.8902±0.0021	0.9852±0.0004	1.6138±0.1298	49.99±6.19
FedRep	0.8991±0.0011	0.9863±0.0004	2.6912±0.1777	52.31±5.64
FedBABU	0.4592±0.0051	0.8486±0.0034	1.5556±0.0561	51.59±4.13
APFL	0.8800±0.0005	0.9904±0.0001	4.3322±0.2562	55.91±4.95
FedPHP	0.0934±0.0000	0.4899±0.0000	4.9342±0.1641	57.63±4.52
Ditto	0.4766±0.0059	0.8613±0.0026	3.8891±0.1343	59.30±4.16
FedFomo	0.8973±0.0010	0.9907±0.0003	2.6377±0.1473	54.42±4.84
FedAMP	0.8804±0.0005	0.9904±0.0001	1.6699±0.0790	45.50±6.23
APPLE	0.8510±0.0030	0.9787±0.0005	6.1596±0.1381	65.08±2.53
FedAsync	0.4588±0.0062	0.8781±0.0423	1.5071±0.0317	100.00±0.00
Ours	0.5848±0.0755	0.9271±0.0513	1.5536±0.0544	100.00±0.00
Ours − delay	0.5533±0.0684	0.9246±0.0702	1.4886±0.0297	100.00±0.00
Ours − delay − loss	0.2761±0.0314	0.7752±0.0409	1.4526±0.0373	100.00±0.00

下载: 导出CSV

参考文献(54)

[1]	Yang Yang, Ma Mulei, Wu Hequan, et al. 6G network AI architecture for everyone-centric customized services[J/OL]. IEEE Network, 2022: 1−10. [2023-05-28].https://ieeexplore.ieee.org/document/9839652
[2]	Zhang Rui, Chu Xuesen, Ma Ruhui, et al. OSTTD: Offloading of splittable tasks with topological dependence in multi-tier computing networks[J]. IEEE Journal on Selected Areas in Communications, 2023, 41(2): 555−568 doi: 10.1109/JSAC.2022.3227023
[3]	Akabane A T, Immich R, Pazzi R W, et al. TRUSTed: A distributed system for information management and knowledge distribution in VANETs[C] //Proc of 2018 IEEE Symp on Computers and Communications. Piscataway, NJ: IEEE, 2018: 1−6
[4]	Yuan Shijing, Li Jie, Wu Chentao. JORA: Blockchain-based efficient joint computing offloading and resource allocation for edge video streaming systems[J]. Journal of Systems Architecture, 2022, 133: 102740 doi: 10.1016/j.sysarc.2022.102740
[5]	Lin Yangfei, Li Jie, Kimura S, et al. Consortium blockchain-based public integrity verification in cloud storage for IoT[J]. IEEE Internet of Things Journal, 2021, 9(5): 3978−3987
[6]	Zhang Weishan, Sun Gang, Xu Liang, et al. A trustworthy safety inspection framework using performance-security balanced blockchain[J]. IEEE Internet of Things Journal, 2022, 9(11): 8178−8190 doi: 10.1109/JIOT.2021.3121512
[7]	Shi Hongjian, Wang Hao, Ma Ruhui, et al. Robust searching-based gradient collaborative management in intelligent transportation system[J/OL]. ACM Transactions on Multimedia Computing, Communications, and Applications, 2022[2023-05-28].https://dl.acm.org/doi/10.1145/3549939
[8]	Zheng Lianmin, Li Zhuohan, Zhang Hao, et al. Alpa: Automating inter- and intra-operator parallelism for distributed deep learning[C] //Proc of the 16th USENIX Symp on Operating Systems Design and Implementation. Berkeley, CA: USENIX Association, 2022: 559−578
[9]	Zhang Jiaru, Hua Yang, Song Tao, et al. Improving Bayesian neural networks by adversarial sampling[C] //Proc of the AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2022, 36(9): 10110−10117
[10]	Du Zhaoyang, Wu C, Yoshinaga T, et al. Federated learning for vehicular Internet of things: Recent advances and open issues[J]. IEEE Open Journal of the Computer Society, 2020, 1: 45−61 doi: 10.1109/OJCS.2020.2992630
[11]	Zhang Jianqing, Hua Yang, Wang Hao, et al. FedALA: Adaptive local aggregation for personalized federated learning[C]//Proc of the AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2023, 37(9):11237−11244
[12]	Guo Hanxi, Wang Hao, Song Tao, et al. Siren: Byzantine-robust federated learning via proactive alarming[C]//Proc of ACM Symp on Cloud Computing. New York: ACM, 2021: 47−60
[13]	Zhang Weishan, Zhou Tao, Lu Qinghua, et al. Dynamic-fusion-based federated learning for COVID-19 detection[J]. IEEE Internet of Things Journal, 2021, 8(21): 15884−15891 doi: 10.1109/JIOT.2021.3056185
[14]	Qu Youyang, Uddin M P, Gan Chenquan, et al. Blockchain-enabled federated learning: A survey[J]. ACM Computing Surveys, 2023, 55(4): 70: 1−70: 35
[15]	Issa W, Moustafa N, Turnbull B P, et al. Blockchain-based federated learning for securing Internet of things: A comprehensive survey[J]. ACM Computing Surveys, 2023, 55(9): 191: 1−191: 43
[16]	Singh S K, Yang L T, Park J H. FusionFedBlock: Fusion of blockchain and federated learning to preserve privacy in industry 5.0[J]. Information Fusion, 2023, 90: 233−240 doi: 10.1016/j.inffus.2022.09.027
[17]	Zhang Weishan, Lu Qinghua, Yu Qiuyu, et al. Blockchain-based federated learning for device failure detection in industrial IoT[J], IEEE Internet of Things Journal, 2021, 8(7): 5926−5937
[18]	Guo Shaoyong, Zhang Keqin, Gong Bei, et al. Sandbox computing: A data privacy trusted sharing paradigm via blockchain and federated learning[J]. IEEE Transactions on Computers, 2023, 72(3): 800−810
[19]	Lu Yunlong, Huang Xiaohong, Zhang Ke, et al. Blockchain and federated learning for 5G beyond[J]. IEEE Network, 2021, 35(1): 219−225 doi: 10.1109/MNET.011.1900598
[20]	Feng Lei, Zhao Yiqi, Guo Shaoyong, et al. BAFL: A blockchain-based asynchronous federated learning framework[J]. IEEE Transactions on Computers, 2022, 71(5): 1092−1103 doi: 10.1109/TC.2021.3072033
[21]	Gao Liang, Li Li, Chen Yingwen, et al. FGFL: A blockchain-based fair incentive governor for federated learning[J]. Journal of Parallel and Distributed Computing, 2022, 163: 283−299 doi: 10.1016/j.jpdc.2022.01.019
[22]	Nguyen D C, Hosseinalipour S, Love D J, et al. Latency optimization for blockchain-empowered federated learning in multi-server edge computing[J]. IEEE Journal of Selected Areas in Communications, 2022, 40(12): 3373−3390 doi: 10.1109/JSAC.2022.3213344
[23]	Qu Youyang, Gao Longxiang, Xiang Yong, et al. FedTwin: Blockchain-enabled adaptive asynchronous federated learning for Digital Twin networks[J]. IEEE Network, 2022, 36(6): 183−190 doi: 10.1109/MNET.105.2100620
[24]	Shayan M, Fung C, Yoon C J M, et al. Biscotti: A blockchain system for private and secure federated learning[J]. IEEE Transactions on Parallel and Distributed Systems, 2021, 32(7): 1513−1525 doi: 10.1109/TPDS.2020.3044223
[25]	Wang Yuntao, Peng Haixia, Su Zhou, et al. A platform-free proof of federated learning consensus mechanism for sustainable blockchains[J]. IEEE Journal of Selected Areas in Communications, 2022, 40(12): 3305−3324 doi: 10.1109/JSAC.2022.3213347
[26]	Wang Weilong, Wang Yingjie, Huang Yan, et al. Privacy protection federated learning system based on blockchain and edge computing in mobile crowdsourcing[J]. Computer Networks, 2022, 215: 109206 doi: 10.1016/j.comnet.2022.109206
[27]	Wan Yichen, Qu Youyang, Gao Longxiang, et al. Privacy-preserving blockchain-enabled federated learning for B5G-Driven edge computing[J]. Computer Networks, 2022, 204: 108671 doi: 10.1016/j.comnet.2021.108671
[28]	Ruckel T, Sedlmeir J, Hofmann P. Fairness, integrity, and privacy in a scalable blockchain-based federated learning system[J]. Computer Networks, 2022, 202: 108621 doi: 10.1016/j.comnet.2021.108621
[29]	周炜,王超,徐剑,等. 基于区块链的隐私保护去中心化联邦学习模型[J]. 计算机研究与发展,2022,59(11):2423−2436 doi: 10.7544/issn1000-1239.20220470 Zhou Wei, Wang Chao, Xu Jian, et al. Privacy-preserving and decentralized federated learning model based on the blockchain[J]. Journal of Computer Research and Development, 2022, 59(11): 2423−2436 (in Chinese) doi: 10.7544/issn1000-1239.20220470
[30]	Li Zonghang, Yu Hongfang, Zhou Tianyao, et al. Byzantine resistant secure blockchained federated learning at the edge[J]. IEEE Network, 2021, 35(4): 295−301 doi: 10.1109/MNET.011.2000604
[31]	Tang Fengxiao, Wen Cong, Luo Linfeng, et al. Blockchain-based trusted traffic offloading in space-air-ground integrated networks (SAGIN): A federated reinforcement learning approach[J]. IEEE Journal of Selected Areas in Communications, 2022, 40(12): 3501−3516 doi: 10.1109/JSAC.2022.3213317
[32]	Cui Laizhong, Su Xiaoxin, Zhou Yipeng. A fast blockchain-based federated learning framework with compressed communications[J]. IEEE Journal of Selected Areas in Communications, 2022, 40(12): 3358−3372 doi: 10.1109/JSAC.2022.3213345
[33]	Pokhrel S R, Choi J. Federated learning with blockchain for autonomous vehicles: Analysis and design challenges[J]. IEEE Transactions on Computers, 2020, 68(8): 4734−4746
[34]	Li Yuzheng, Chen Chuan, Liu Nan, et al. A blockchain-based decentralized federated learning framework with committee consensus[J]. IEEE Network, 2021, 35(1): 234−241 doi: 10.1109/MNET.011.2000263
[35]	Feng Lei, Yang Zhixiang, Guo Shaoyong, et al. Two-layered blockchain architecture for federated learning over the mobile edge network[J]. IEEE Network, 2022, 36(1): 45−51 doi: 10.1109/MNET.011.2000339
[36]	Li Jun, Shao Yumeng, Wei Kang, et al. Blockchain assisted decentralized federated learning (BLADE-FL): Performance analysis and resource allocation[J]. IEEE Transactions on Parallel and Distributed Systems, 2022, 33(10): 2401−2415 doi: 10.1109/TPDS.2021.3138848
[37]	Zhang Weishan, Yu Fa, Wang Xiao, et al. R2Fed: Resilient reinforcement federated learning for industrial applications[J/OL]. IEEE Transactions on Industrial Informatics, 2022[2023-05-28].https://ieeexplore.ieee.org/document/9950718
[38]	McMahan B, Moore E, Ramage D, et al. Communication-efficient learning of deep networks from decentralized data[C] //Proc of the 20th Int Conf on Artificial Intelligence and Statistics. New York: PMLR, 2017, 54: 1273−1282
[39]	Li Tian, Sahu A K, Zaheer M, et al. Federated optimization in heterogeneous networks[C] //Proc of Machine Learning and Systems. Indio, CA: Systems and Machine Learning Foundation, 2020: 429−450
[40]	Li Qinbin, He Bingsheng, Song D. Model-contrastive federated learning[C] //Proc of IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2021: 10713−10722
[41]	Acar D A E, Zhao Yue, Navarro R M, et al. Federated learning based on dynamic regularization[C/OL] //Proc of the 9th Int Conf on Learning Representations. OpenReview. net, 2021[2023-05-28].https://openreview.net/forum?id=B7v4QMR6Z9w
[42]	Li Xiaoxiao, Jiang Meirui, Zhang Xiaofei, et al. FedBN: Federated learning on non-IID features via local batch normalization[C/OL] //Proc of the 9th Int Conf on Learning Representations. OpenReview. net, 2021[2023-05-28].https://openreview.net/forum?id=6YEQUn0QICG
[43]	Arivazhagan M G, Aggarwal V, Singh A K, et al. Federated learning with personalization layers[J/OL]. arXiv preprint, arXiv: 1912.00818, 2019[2023-05-28].https://arxiv.org/abs/1912.00818
[44]	Collins L, Hassani H, Mokhtari A, et al. Exploiting shared representations for personalized federated learning[C] //Proc of the 38th Int Conf on Machine Learning. New York: PMLR, 2021, 139: 2089−2099
[45]	Oh J, Kim S, Yun S Y. FedBABU: Towards enhanced representation for federated image classification[J/OL]. arXiv preprint, arXiv: 2106.06042, 2021[2023-05-28].https://arxiv.org/abs/2106.06042
[46]	Deng Yuyang, Kamani M M, Mahdavi M. Adaptive personalized federated learning[J/OL]. arXiv preprint, arXiv: 2003.13461, 2020[2023-05-28].https://arxiv.org/abs/2003.13461
[47]	Li Xinchun, Zhan Dechuan, Shao Yunfeng, et al. FedPHP: Federated personalization with inherited private models[C] //Proc of Machine Learning and Knowledge Discovery in Databases. Berlin: Springer, 2021, 12975: 587−602
[48]	Li Tian, Hu Shengyuan, Beirami A, et al. Ditto: Fair and robust federated learning through personalization[C] //Proc of the 38th Int Conf on Machine Learning. New York: PMLR, 2021, 139: 6357−6368
[49]	Zhang M, Sapra K, Fidler S, et al. Personalized federated learning with first order model optimization[C/OL] //Proc of the 9th Int Conf on Learning Representations. OpenReview. net, 2021[2023-05-28].https://openreview.net/forum?id=ehJqJQk9cw
[50]	Huang Yutao, Chu Lingyang, Zhou Zirui, et al. Personalized cross-silo federated learning on non-IID data[C] //Proc of the 35th AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2021: 7865−7873
[51]	Luo Jun, Wu Shandong. Adapt to adaptation: Learning personalization for cross-silo federated learning[C] //Proc of the 31st Int Joint Conf on Artificial Intelligence. California: ijcai. org, 2022: 2166−2173
[52]	Fraboni Y, Vidal R, Kameni L, et al. A general theory for federated optimization with asynchronous and heterogeneous clients updates[J/OL]. arXiv preprint, arXiv: 2206.10189, 2022[2023-05-28].https://arxiv.org/abs/2206.10189
[53]	Zalando. Fashion-MNIST[DB/OL]. [2023-04-01].https://github.com/zalandoresearch/fashion-mnist
[54]	Krizhevsky A, Nair V, Hinton G. The CIFAR-10 dataset[DB/OL]. [2023-04-01].https://www.cs.toronto.edu/~kriz/cifar.html