Processing math: 0%
  • 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

面向数据混合分布的联邦自适应交互模型

郭松岳, 王阳谦, 柏思远, 刘永恒, 周骏, 王梦鸽, 廖清

郭松岳, 王阳谦, 柏思远, 刘永恒, 周骏, 王梦鸽, 廖清. 面向数据混合分布的联邦自适应交互模型[J]. 计算机研究与发展, 2023, 60(6): 1346-1357. DOI: 10.7544/issn1000-1239.202111090
引用本文: 郭松岳, 王阳谦, 柏思远, 刘永恒, 周骏, 王梦鸽, 廖清. 面向数据混合分布的联邦自适应交互模型[J]. 计算机研究与发展, 2023, 60(6): 1346-1357. DOI: 10.7544/issn1000-1239.202111090
Guo Songyue, Wang Yangqian, Bai Siyuan, Liu Yongheng, Zhou Jun, Wang Mengge, Liao Qing. Federated Adaptive Interaction Model for Mixed Distribution Data[J]. Journal of Computer Research and Development, 2023, 60(6): 1346-1357. DOI: 10.7544/issn1000-1239.202111090
Citation: Guo Songyue, Wang Yangqian, Bai Siyuan, Liu Yongheng, Zhou Jun, Wang Mengge, Liao Qing. Federated Adaptive Interaction Model for Mixed Distribution Data[J]. Journal of Computer Research and Development, 2023, 60(6): 1346-1357. DOI: 10.7544/issn1000-1239.202111090
郭松岳, 王阳谦, 柏思远, 刘永恒, 周骏, 王梦鸽, 廖清. 面向数据混合分布的联邦自适应交互模型[J]. 计算机研究与发展, 2023, 60(6): 1346-1357. CSTR: 32373.14.issn1000-1239.202111090
引用本文: 郭松岳, 王阳谦, 柏思远, 刘永恒, 周骏, 王梦鸽, 廖清. 面向数据混合分布的联邦自适应交互模型[J]. 计算机研究与发展, 2023, 60(6): 1346-1357. CSTR: 32373.14.issn1000-1239.202111090
Guo Songyue, Wang Yangqian, Bai Siyuan, Liu Yongheng, Zhou Jun, Wang Mengge, Liao Qing. Federated Adaptive Interaction Model for Mixed Distribution Data[J]. Journal of Computer Research and Development, 2023, 60(6): 1346-1357. CSTR: 32373.14.issn1000-1239.202111090
Citation: Guo Songyue, Wang Yangqian, Bai Siyuan, Liu Yongheng, Zhou Jun, Wang Mengge, Liao Qing. Federated Adaptive Interaction Model for Mixed Distribution Data[J]. Journal of Computer Research and Development, 2023, 60(6): 1346-1357. CSTR: 32373.14.issn1000-1239.202111090

面向数据混合分布的联邦自适应交互模型

基金项目: 广东省基础与应用基础研究重大项目(2019B030302002)
详细信息
    作者简介:

    郭松岳: 1998年生. 硕士研究生. CCF学生会员. 主要研究方向为联邦学习、数据挖掘

    王阳谦: 1996年生. 硕士. 主要研究方向为联邦学习、隐私保护、声纹识别

    柏思远: 1998年生. 学士,研发工程师. 主要研究方向为联邦学习、机器学习

    刘永恒: 1982年生. 硕士,高级工程师. 主要研究方向为云计算、系统优化

    周骏: 1978年生. 硕士,高级工程师. 主要研究方向为人工智能、隐私计算

    王梦鸽: 1997年生. 硕士,数据分析师. 主要研究方向为人工智能、隐私计算

    廖清: 1988年生. 博士,教授. CCF高级会员. 主要研究方向为人工智能、数据挖掘

    通讯作者:

    廖清(liaoqing@hit.edu.cn)

  • 中图分类号: TP391;TP181

Federated Adaptive Interaction Model for Mixed Distribution Data

Funds: This work was supported by the Guangdong Major Project of Basic and Applied Basic Research (2019B030302002).
More Information
    Author Bio:

    Guo Songyue: born in 1998. Master candidate. Student member of CCF. His main research interests include federated learning and data mining

    Wang Yangqian: born in 1996. Master. His main research interests include federated learning, privacy preserving, and voiceprint recognition

    Bai Siyuan: born in 1998. Bachelor, research and development engineer. His main research interests include federated learning and machine learning

    Liu Yongheng: born in 1982. Master, senior engineer. His main research interests include cloud computing and system optimizing

    Zhou Jun: born in 1978. Master, senior engineer. His main research interests include artificial intelligence and privacy computing

    Wang Mengge: born in 1997. Master, data analyst. Her main research interests include artificial intelligence and privacy computing

    Liao Qing: born in 1988. PhD, professor. Senior member of CCF. Her main research interests include artificial intelligence and data mining

  • 摘要:

    联邦学习作为一种新兴的分布式机器学习方法,保证了物联网(Internet of things,IoT)设备在数据不出本地的前提下,仅通过传递模型参数来共同维护中央服务器模型,从而达到保护数据隐私安全的目的. 传统的联邦学习方法常常在基于设备数据独立同分布的场景下进行联合学习. 然而,在实际场景中各设备间的数据样本分布存在差异,使得传统联邦学习方法在非独立同分布(non-independent and identically distributed,Non-IID)的场景下效果不佳. 面向Non-IID场景下的混合数据分布问题,提出了新型的联邦自适应交互模型(federated adaptive interaction model,FedAIM)框架,该框架可以同时对不同偏置程度的混合数据进行自适应地交互学习. 具体来说,首先,通过引入陆地移动距离(earth mover's distance,EMD)对各客户端的数据分布进行偏置程度度量(bias measurement),并设计极偏服务器和非极偏服务器2个模块分别处理不同偏置程度的数据分布. 其次,提出了基于信息熵的模型参数交互机制,使得FedAIM可以有效地聚合极偏服务器和非极偏服务器产生的模型参数,从而有效提高模型的准确率和减少服务器之间的交互轮次. 经实验表明,FedAIM在Non-IID混合数据分布场景下的MNIST,Fashion-MNIST,CIFAR-10,SVHN,FEMNIST数据集上准确率均优于已有方法.

    Abstract:

    Federated learning is an emerging distributed machine learning method that enables mobile phones and IoT devices to learn a shared machine learning model with only transferring model parameters to protect private data. However, traditional federated learning models usually assume training data samples are independent and identically distributed (IID) on the local devices which are not feasible in the real-world, due to the data distributions are different in the different local devices. Hence, existing federated learning models cannot achieve satisfied performance for mixed distribution on the Non-IID data. In this paper, we propose a novel federated adaptive interaction model (FedAIM) for mixed distribution data that can jointly learn IID data and Non-IID data at the same time. In FedAIM, earth mover's distance (EMD) to measure the degree of bias for different client users is introduced for the first time. Then, an extremely biased server and a non-extremely biased server are built to separately process client users with different bias degrees. At the last, a new aggregation mechanism based on information entropy is designed to aggregate and interact model parameters to reduce the number of communication rounds among servers. The experimental results show that the FedAIM outperforms state-of-the-art methods on MNIST, CIFAR-10, Fashion-MNIST, SVHN and FEMNIST of real-world image datasets.

  • 机器学习需要收集大量用户数据作为样本进行训练,但包含隐私的数据经由多方处理,势必在数据传输、交换时造成泄露风险. 例如,Facebook泄露的用户隐私数据就曾经被滥用于总统大选的预测,最终引发了股票的大跌和群众抗议活动. 2018年,欧盟正式推行《通用数据保护条例》(General Data Protection Regulation,GDPR)[1],而中国也于2017年6月1日开始实施《中华人民共和国网络安全法》,并将个人信息安全列入重点保护范围[2],近期国务院决定于2021年9月1日开始正式施行《中华人民共和国数据安全法》,从而进一步完善对个人信息的保护. 《中华人民共和国数据安全法》和GDPR法案的施行表明了民众和政府对数据隐私的保护意识逐渐增强,这无疑给传统机器学习方式带来了严峻的挑战[3]. 而联邦学习(federated learning,FL)[4]可以在保证数据隐私安全的前提下,进行机器学习模型的训练.

    联邦学习是一种新兴的分布式机器学习框架,该框架不直接将用户数据暴露给服务器和网络,而是在客户端对隐私数据进行模型训练,并选择性地传递模型参数至中央服务器,从而共同建立一个中央服务器模型. 这个中央服务器的性能表现与将整个用户数据集放在一起进行训练的性能表现相差不大[5-6],同时保证了数据的隐私安全.

    传统的联邦学习方法侧重于独立同分布场景下的训练分析,并假设用户设备的数据分布相同或近似[7]. 然而,在实际场景中由于用户的使用习惯不同,其产生的本地数据会存在不同程度的差异,从而导致用户数据的分布不同. 如图1所示,用户A是电子产品经销商,拍摄的照片多为显卡、手机等电子设备图片;而用户B是户外运动爱好者,更喜欢风景、美食等图片. 因此用户AB的数据在样本分布上存在差异,我们称这种差异为数据的非独立同分布(non-independent and identically distributed,Non-IID). Non-IID现象的存在会令联邦学习出现严重的性能下降,最终导致联邦学习模型的训练效果远不如预期效果. 因此在联邦学习场景中,如何处理非独立同分布数据是亟待解决的问题[8-9].

    图  1  用户A、用户B图片样本类别
    Figure  1.  Image sample categories of user A and user B

    本文提出了一种新型的联邦自适应交互模型(federated adaptive interaction model,FedAIM)框架,该框架可以同时对不同偏置程度的混合数据进行自适应地交互学习,从而有效地提升Non-IID样本下的的准确精度,其主要贡献包括3个方面:

    1)针对Non-IID场景下的混合数据分布问题,提出了自适应联邦学习交互框架FedAIM,该框架可以同时处理不同偏置程度的混合数据.

    2)FedAIM引入陆地移动距离(earth mover’s distance,EMD)对客户端数据进行偏置程度度量和客户端划分,并设计极偏服务器和非极偏服务器2类模块分别处理不同偏置程度的客户端数据,从而提高联邦学习的模型准确率.

    3) 在FedAIM中,本文提出了一种基于信息熵(information entropy)的模型参数交互机制,使得FedAIM的中央服务器可以有效地聚合2类服务器产生的模型参数,从而减少联邦学习中服务器间的交互轮次.

    本节主要介绍经典的联邦学习方法和Non-IID场景下的联邦学习方案.

    McMahan等人[10]提出的联邦平均(federated averaging, FedAvg)框架是最常见的联邦学习框架. FedAvg的具体流程为:客户端使用本地数据输入模型进行训练,将模型参数上传中央服务器,中央服务器模型通过聚合客户端模型参数并对模型参数重分配的方式进行联合学习.

    FedAvg的具体流程为:令 {\boldsymbol{w}}_{t}^{C} 表示中央服务器 C t 轮迭代时的模型参数. 设共有 K 个客户端,且第 k 个客户端的数据集为 {D}_{k} ,数据量为 {n}_{k} ,同时客户端 k 的第 i 个数据样本 \left({\boldsymbol{x}}^{i},{\boldsymbol{y}}^{i}\right) 符合 {P}_{\mathrm{d}\mathrm{a}\mathrm{t}\mathrm{a}}^{k} 的概率分布, L (·)为损失函数(loss function). 因此,客户端 k t+1 轮的本地模型参数的变化值为

    \mathrm{\delta }{\boldsymbol{w}}_{t+1}^{k}=\eta \nabla {\boldsymbol{w}}_{t}^{k}\dfrac{1}{{n}_{k}}\displaystyle\sum_{i\in {D}_{k}}L\left(f\left({\boldsymbol{x}}^{i};{\boldsymbol{w}}_{t}^{C}\right),{\boldsymbol{y}}^{i}\right) \text{,} (1)

    其中 \eta 是学习率, \nabla {\boldsymbol{w}}_{t}^{k} 为客户端 k 在第 t 轮的模型参数梯度, {\boldsymbol{x}}^{i} 为客户端 k 的第 i 个数据样本, {\boldsymbol{y}}^{i} {\boldsymbol{x}}^{i} 的标签.

    此时中央服务器 C t+1 轮加权聚合后的模型参数为

    {\boldsymbol{w}}_{t+1}^{C}={\boldsymbol{w}}_{t}^{C}-\displaystyle\sum _{k=1}^{K}\frac{{n}_{k}}{n}\mathrm{\delta }{\boldsymbol{w}}_{t+1}^{k} \text{,} (2)

    其中 n 为所有客户端的数据总量.

    国内外已有大量研究表明,Non-IID的存在对FedAvg的训练效果造成极大的影响. 特别是在偏置程度较大时,客户端拥有极度偏置的数据样本分布. 此时局部梯度的加权不再是对宏观收敛方向的无偏估计,从而会对训练效果造成严重的影响[11].

    Zhao等人[5]在Non-IID场景下,基于对FedAvg框架的改进提出了FedShare框架,该框架会根据客户端的样本分布偏置程度,向客户端分配n份IID的共享数据来减弱客户端样本分布的偏置程度. Li等人[12]提出了FedProx框架,FedProx在FedAvg的基础上通过在优化目标上引入二次近侧项 {\left|\left|{\boldsymbol{w}}^{k}-{\boldsymbol{w}}^{C}\right|\right|}^{2} 来确保客户端本地模型不会与中央服务器模型相差过大,从而在一定程度上解决Non-IID数据问题. Smith等人[13]提出的MOCHA框架使用多任务学习训练中央服务器模型,但MOCHA不能解决如深度学习这类的非凸问题. Duan等人[14]提出Astraea框架,Astraea使用KL(Kullback-Leibler)散度对客户端的数据分布的偏置程度进行度量,并按KL散度将客户端重新分配到中介服务器下进行异步训练,从而达到缓解客户端偏置程度的目的. Zhang等人[15]采取了基于客户端选择的方式在FedAvg上进行改进,提出了CSFedAvg框架. 该框架通过收集客户端本地模型,筛选出本地数据分布较全、模型收敛效果较好的客户端模型,使用筛选后的那部分客户端参与FedAvg的模型聚合过程,从而降低Non-IID对联邦学习的影响.

    然而,现有方法大多侧重于单一偏置程度的Non-IID数据,忽略了解决不同偏置程度的混合数据分布问题. 本文提出的FedAIM框架同时考虑了极偏数据和非极偏数据的混合分布情况,并引入EMD对各客户端数据偏置程度进行度量,从而将拥有不同数据偏置程度的客户端分配至极偏服务器和非极偏服务器2个模块. 此外,本文还提出了一种新型的基于信息熵的模型参数交互机制,使得FedAIM可以有效地聚合2类服务器的模型参数,从而提升模型对混合数据分布的准确率和收敛速度.

    本节主要介绍Non-IID下传统联邦学习的表现以及Non-IID数据偏置程度的度量方式EMD.

    为了探究FedAvg在Non-IID下的表现,本文在MNIST数据集上进行了不同偏置程度客户端组合的混合场景实验. 将MNIST图片数据集按照标签划分为10类,在FedAvg-IID的场景中,每个客户端从10类样本中每类随机挑选300张图片,因每个客户端拥有的样本类别和数目一样,数据分布不存在极偏现象.

    在FedAvg-NonIID(0)的场景中,每个客户端从10类样本中随机挑选8类样本,并从每类中随机挑选300张图片,因每个客户端拥有的样本类别大部分重合,数据分布存在较弱的偏置程度. 在FedAvg-NonIID(1)场景中,每个客户端从10类样本中随机挑选5类样本,并从每类中随机挑选300张图片,因每个客户端拥有的样本类别部分重合,数据分布存在中等的偏置程度. 在FedAvg-NonIID(2)场景中,每个客户端则是从10类样本中随机挑选2类样本,并从每类中随机挑选300张图片,此时因每个客户端拥有的样本类别大部分不重合,所以数据分布存在较强的偏置程度.

    图2展示了在MNIST数据集下,FedAvg框架在不同数据偏置程度下的模型准确率. 其中FedAvg-IID 表示在IID场景下FedAvg的模型准确率,而FedAvg-NonIID(0)~FedAvg-NonIID(3)表示FedAvg框架在Non-IID场景下随着样本偏置程度逐渐增加时的模型准确率. 可以发现FedAvg在IID场景下能够快速收敛并获得较好的模型准确率,而随着数据偏置程度的增加FedAvg的模型准确率急剧降低. 因此,FedAvg的传统联邦学习方法难以在偏置程度较高的Non-IID场景下获得满意的模型效果.

    图  2  FedAvg在不同程度Non-IID下的准确率
    Figure  2.  Accuracy of FedAvg under different degrees of Non-IID

    为了有效地解决混合Non-IID场景下数据不同偏置程度的度量问题,我们引入EMD作为Non-IID数据偏置程度的度量方式. EMD可以定量地计算2个数据分布的距离[16-17],而其中距离 W\left({P}_{\mathrm{r}},{P}_{\mathrm{a}}\right) 定义为

    W\left({P}_{\mathrm{r}},{P}_{\mathrm{a}}\right)=\underset{\gamma \sim S\left({P}_{\mathrm{r}},{P}_{\mathrm{a}}\right)}{\mathrm{i}\mathrm{n}\mathrm{f}}{E}_{\left(x,y\right) \sim \gamma }\left[\right\|x-y\left\|\right] \text{,} (3)

    其中 {P}_{\mathrm{r}},{P}_{\mathrm{a}} 是2个不同的概率分布, S\left({P}_{\mathrm{r}},{P}_{\mathrm{a}}\right) 是组合P_{\mathrm{r}}{P}_{\mathrm{a}} 分布的所有可能的联合分布集合. 对于每一个可能的联合分布 \gamma x y \gamma 中的随机变量,则样本对距离的期望值为{E}_{\left(x,y\right) \sim \gamma }\left[\right\|x-y\left\|\right]. 在所有的联合分布中,对期望值取下界便是 {P}_{\mathrm{r}},{P}_{\mathrm{a}} 的EMD距离.

    相较于传统的联邦学习使用JS(Jensen-Shannon)散度和KL散度进行数据偏置程度度量,EMD对数据的偏置程度具有更好的可度量性. 例如,使用JS或KL散度对2个没有重合的数据分布进行度量时,度量值常为定值或无穷值. 而EMD仍然可以度量2个数据分布之间的距离. 因此,EMD在Non-IID环境下可以适应不同偏置程度的混合数据分布.

    为了进一步探究在联邦学习中EMD与模型训练精度的关系,我们使用CIFAR-10数据集在Non-IID场景下对经典的联邦学习框架FedAvg进行实验. 如图3所示,随着EMD数值的增大,即数据偏置程度变大,FedAvg的准确率下降,且当客户端数据分布EMD=3时,FedAvg的准确率急剧下降. 这说明在Non-IID场景下存在EMD-Accuracy阈值{\theta }_{{E}{M}{D}},因此可以根据EMD阈值{\theta }_{{E}{M}{D}}将客户端划分为极偏客户端(extremely biased clients,EBC)和非极偏客户端(non-extremely biased clients,NEBC).

    图  3  在数据集CIFAR-10下EMD和准确率的关系
    Figure  3.  Relationship between EMD and accuracy on CIFAR-10 dataset

    本文考虑到Non-IID场景下的混合数据分布问题,提出了FedAIM框架. 本节首先结合图4对FedAIM框架的基本结构进行了表述. 其次,阐述客户端的分类规则和流程,并设计了极偏服务器和非极偏服务器2个模块. 最后,提出了一种基于信息熵的模型参数交互机制,使得FedAIM中央服务器可以有效地聚合极偏服务器和非极偏服务器产生的模型参数.

    图  4  FedAIM框架结构
    Figure  4.  The structure of FedAIM framwork

    图4所示,本文的FedAIM主要分为中央服务器(central sever,CS)、极偏服务器(extremely biased server,EBS)和非极偏服务器(non-extremely biased server,NEBS) 3个部分. 在FedAIM中,首先使用EMD阈值划分出极偏客户端和非极偏客户端. 在极偏服务器中,各极偏客户端被分入不同的中介服务器(mediator server,MS),设计了FedSeq对中介服务器中的客户端进行模型参数更新;在非极偏服务器中,采用FedAvg对非极偏客户端进行模型参数更新. 在中央服务器中,设计了基于信息熵的模型参数交互机制对极偏服务器模型参数 {\boldsymbol{w}}^{\mathrm{E}\mathrm{B}\mathrm{S}} 和非极偏服务器模型参数 {\boldsymbol{w}}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}} 进行聚合和更新.

    本节基于EMD计算各客户端Non-IID分布的偏置程度,并将客户端划分为极偏客户端和非极偏客户端. 当客户端的EDM > {\theta }_{\mathrm{E}\mathrm{M}\mathrm{D}}时,客户端的样本分布均衡程度低,划分为极偏客户端;当客户端的EDM < {\theta }_{\mathrm{E}\mathrm{M}\mathrm{D}}时,客户端的样本分布较为均衡,划分为非极偏客户端. 客户端划分的具体流程为:

    1)各客户端依据全局样本种类计算客户端的EMD值.

    2)当客户端EMD< {\theta }_{\mathrm{E}\mathrm{M}\mathrm{D}} 时,客户端归入非极偏服务器.

    3)当客户端EMD> {\theta }_{\mathrm{E}\mathrm{M}\mathrm{D}} 时,客户端归入极偏服务器,并按照中介服务器的数据样本总体分布偏置程度最低的原则,对极偏客户端进行中介服务器的分配.

    基于EMD划分客户端流程如算法1所示.

    算法1. 基于EMD的客户端划分算法.

    输入:参与联邦学习的客户端数量K,各个客户端数据集{\left\{D_k\right\}}_{k=0}^{K}

    输出:非极偏客户端序列 {L}_{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{C}} ,极偏客户端序列 {L}_{\mathrm{E}\mathrm{B}\mathrm{C}} .

    {L}_{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{C}} =[ ], {L}_{\mathrm{E}\mathrm{B}\mathrm{C}} =[ ];

    ② for k =1:K do

    ③  if {J}_{\mathrm{E}\mathrm{M}\mathrm{D}} ({D}_{k}) {\theta }_{\mathrm{E}\mathrm{M}\mathrm{D}} then

    /* 根据各个客户端的EMD值和EMD阈值    相比划分极偏非极偏客户端*/

    ④    将k插入{L}_{\mathrm{E}\mathrm{B}\mathrm{C}}

    ⑤  else

    ⑥   将k插入{L}_{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{C}}

    ⑦  end if

    ⑧ end for

    ⑨ return {L}_{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{C}} {L}_{\mathrm{E}\mathrm{B}\mathrm{C}} .

    由于非极偏服务器模块中的非极偏客户端样本分布较全Non-IID程度小因此我们选择FedAvg的方式进行训练. 非极偏服务器训练的具体流程为:

    各客户端接收非极偏服务器第 t 轮的模型参数 {\boldsymbol{w}}_{t}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}} 作为客户端本地模型初始参数为

    {\boldsymbol{w}}_{t}^{0}={\boldsymbol{w}}_{t}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}} \text{,} (4)

    客户端在 t+1 轮的本地模型参数的变化值为

    \delta {\boldsymbol{w}}_{t+1}^{k}=\eta \nabla {\boldsymbol{w}}_{t}^{k}\frac{1}{{n}_{k}}\sum _{i\in {D}_{k}}L\left(f\right({\boldsymbol{x}}^{i};{\boldsymbol{w}}_{t}^{k}),{\boldsymbol{y}}^{i}) \text{,} (5)

    其中第 k 个客户端的数据集为 {D}_{k} ,数据量为 {n}_{k} ,在 t 轮时的模型参数为 {\boldsymbol{w}}_{t}^{k} . 同时客户端 k 的第 i 个数据样本 \left({\boldsymbol{x}}^{i},{\boldsymbol{y}}^{i}\right) 符合 {P}_{\mathrm{d}\mathrm{a}\mathrm{t}\mathrm{a}}^{k} 的概率分布, {\boldsymbol{x}}^{i} 为客户端 k 的第 i 个数据样本, {\boldsymbol{y}}^{i} {\boldsymbol{x}}^{i} 的标签. L(·)为损失函数. \eta 是学习率, {\nabla \boldsymbol{w}}_{t}^{k} 为客户端 k 在第 t 轮的模型梯度. 变化值 \delta {\boldsymbol{w}}_{t+1}^{k} 是上一轮的客户端 k 的本地模型梯度 \nabla {\boldsymbol{w}}_{t}^{k} , 是损失函数L(·)和学习率 \eta 相乘得到的.

    由此可以得到非极偏服务器的模型参数在 t+1 轮的加权聚合为

    {\boldsymbol{w}}_{t+1}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}}={\boldsymbol{w}}_{t}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}}-\sum _{k\in {L}_{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{C}}}\frac{{n}_{k}}{n}\delta {\boldsymbol{w}}_{t+1}^{k} \text{,} (6)

    其中 {L}_{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{C}} 为非极偏客户端序列, n 为所有非极偏客户端的数据总量. 此外,在每个交流轮次结束时,非极偏服务器都会将非极偏服务器模型参数 {\boldsymbol{w}}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}} 上传至中央服务器.

    在极偏服务器中,我们设计了一种新型的客户端训练方式FedSeq,通过将客户端划分为多个集群并引入中介服务器对集群进行并行式训练. 该训练方式既可降低极偏服务器单个训练迭代的时间,也可通过对客户端再分配的方式降低集群中数据样本分布的偏置程度,从而增强模型对Non-IID场景下的鲁棒性.FedSeq在中介服务器中训练具体流程为:

    在极偏服务器第 t 轮训练中,中介服务器 m 接收极偏服务器的模型参数 {\boldsymbol{w}}_{t}^{\mathrm{E}\mathrm{B}\mathrm{S}} 作为初始参数,初始参数为

    {\boldsymbol{w}}_{t}^{m}={\boldsymbol{w}}_{t}^{\mathrm{E}\mathrm{B}\mathrm{S}} \text{.} (7)

    中介服务器 m 下的第1个客户端 {m}_{1} 的模型参数为

    {\boldsymbol{w}}_{t}^{{m}_{1}}={\boldsymbol{w}}_{t}^{m}\text{.} (8)

    而中介服务器 m 下的第 k 个客户端 {m}_{k} 的模型参数为

    {\boldsymbol{w}}_{t}^{{m}_{k}}={\boldsymbol{w}}_{t}^{{m}_{k-1}}-\delta {\boldsymbol{w}}_{t}^{{m}_{k}} \text{,} (9)

    其中 \mathrm{\delta }{\boldsymbol{w}}_{t}^{{m}_{k}} 为第 k 个客户端 {m}_{k} 的本地模型参数的变化值,

    \mathrm{\delta }{\boldsymbol{w}}_{t}^{{m}_{k}}=\eta \nabla {\boldsymbol{w}}_{t-1}^{{m}_{k}}\frac{1}{{n}_{{m}_{k}}}\displaystyle\sum_{i\in {D}_{{m}_{k}}}L\left(f\left({\boldsymbol{x}}^{i};{\boldsymbol{w}}_{t-1}^{{m}_{k}}\right),{\boldsymbol{y}}^{i}\right) \text{,} (10)

    其中 \eta 是学习率, \nabla {\boldsymbol{w}}_{t-1}^{{m}_{k}} 为极偏服务器 t-1 轮中客户端 {m}_{k} 的模型参数梯度, {D}_{{m}_{k}} 为客户端 {m}_{k} 的数据集, {n}_{{m}_{k}} {D}_{{m}_{k}} 的数据量,L(·)为损失函数, {\boldsymbol{x}}^{i} 为客户端 {m}_{k} 的第 i 个数据样本, {\boldsymbol{y}}^{i} 为数据样本 {\boldsymbol{x}}^{i} 的标签, {\boldsymbol{w}}_{t-1}^{{m}_{k}} 为客户端 {m}_{k} t-1 轮的模型参数.

    由此,得到更新后的中介服务器 m 的模型参数为

    {\boldsymbol{w}}_{t}^{m}={\boldsymbol{w}}_{t}^{{m}_{K}}\text{,} (11)

    其中 K 为中介服务器 m 的客户端总数, {\boldsymbol{w}}_{t}^{{m}_{K}} 为中介服务器 m 下的最后一个客户端 {m}_{K} 的模型参数.

    当所有中介服务器都完成1轮迭代后,FedAIM将进行中介服务器之间的模型参数交互. 在中介服务器模型参数交换过程中,考虑到当中介服务器中数据分布偏置程度较大或数据量较小均会导致极偏服务器训练效果不佳的情况,从而设计了一种中介服务器权重分配机制. 该机制考虑到各中介服务器中的数据偏置程度和数据量对中介服务器权重进行合理重分配,让训练效果较好的中介服务器在极偏服务器中获得较大的权重;让训练效果较差的中介服务器在极偏服务器中获得较小的权重.

    定义中介服务器 m 在极偏服务器的权重 {B}_{m}

    {B}_{m}=\displaystyle\sum_{k\in m}{B}_{k} \text{,} (12)

    其中{B}_{k}=\dfrac{{n}_{k}}{{J}_{EMD,k}} {n}_{k} 为客户端 k 的数据量, {J}_{EMD,k} 为客户端 k EMD值.

    t+1 轮的极偏服务器模型参数由所有中介服务器的模型参数聚合而成,极偏服务器模型参数为

    {\boldsymbol{w}}_{t+1}^{\mathrm{E}\mathrm{B}\mathrm{S}}=\displaystyle\sum_{m\in \mathcal{M}}\dfrac{{B}_{m}}{B}{\times {\boldsymbol{w}}}_{t}^{m} \text{,} (13)

    其中 \mathcal{M} 为所有中介服务器的集合, B 为所有中介服务器的权重总和, {\boldsymbol{w}}_{t}^{m} 为FedSeq更新后的中介服务器 m 的模型参数.

    考虑到传统联邦学习中,中央服务器因为模型参数频繁交互导致的通信代价大,本文提出了基于信息熵的模型参数交互机制,从而帮助中央服务器以较小的交互轮次获得较高的模型准确率.

    首先,需要确定在中央服务器中基于信息熵的模型参数交互机制的条件:当非极偏服务器模型处于较为稳定的状态,且极偏服务器模型与中央服务器模型产生较大差别时,进行极偏服务器模型与中央服务器模型的参数交互.

    参照文献[5,18-19]计算极偏服务器模型参数 {\boldsymbol{w}}_{t}^{\mathrm{E}\mathrm{B}\mathrm{S}} 和中央服务器模型参数 {\boldsymbol{w}}_{t}^{C} 的权重发散(weight divergence, WD)程度,如式(14)所示:

    \frac{\left|\left|{\boldsymbol{w}}_{t}^{\mathrm{E}\mathrm{B}\mathrm{S}}-{\boldsymbol{w}}_{t}^{C}\right|\right|}{\Vert {\boldsymbol{w}}_{t}^{C}\Vert } > {\theta }_{\mathrm{W}\mathrm{D}} \text{,} (14)

    其中 {\boldsymbol{w}}_{t}^{\mathrm{E}\mathrm{B}\mathrm{S}} 表示第 t 轮的极偏服务器模型参数. 当权重发散程度超过阈值 {\theta }_{\mathrm{W}\mathrm{D}} 时,我们认为极偏服务器和中央服务器模型参数之间产生了较大差异. 在本文中,设定 {\theta }_{\mathrm{W}\mathrm{D}} =0.015.

    用损失函数差值作为衡量模型稳定的标准,如式(15)所示:

    \frac{L\left(f\left({\boldsymbol{x}}^{i};{\boldsymbol{w}}_{t+1}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}}\right),{\boldsymbol{y}}^{i}\right)-L\left(f\left({\boldsymbol{x}}^{i};{\boldsymbol{w}}_{t}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}}\right),{\boldsymbol{y}}^{i}\right)}{L\left(f\left({\boldsymbol{x}}^{i};{\boldsymbol{w}}_{t}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}}\right),{\boldsymbol{y}}^{\boldsymbol{i}}\right)}\le {\theta }_{{\rm{loss}}} \text{,} (15)

    其中 L\left(f\left({\boldsymbol{x}}^{i};{\boldsymbol{w}}_{t+1}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}}\right),{\boldsymbol{y}}^{i}\right) 表示非极偏服务器模型在 t+1 轮时的损失. 当损失函数差值小于阈值{\theta }_{{\rm{loss}}},我们认为当前非极偏服务器模型处于较为稳定的状态. 在本文中,设定{\theta }_{{\rm{loss}}}=0.1.

    其次,考虑到信息熵在一定程度上可以反映模型包含的信息量[20-22],而信息量越大的模型在混合分布场景下可能意味着训练样本数据规模越大、数据种类越齐全. 因此在模型参数交互阶段,通过极偏服务器和非极偏服务器模型参数的信息熵来自适应调整非极偏服务器的权重为

    \alpha \text={A}\left(\mathrm{arctan}\left(c\left(H\left({\boldsymbol{w}}_{t}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}}\right)-H\left({\boldsymbol{w}}_{t}^{\mathrm{E}\mathrm{B}\mathrm{S}}\right)\right)\right)\right)+0 \text{,} (16)

    其中 \mathrm{a}\mathrm{r}\mathrm{c}\mathrm{t}\mathrm{a}\mathrm{n}(· ) 为反正切函数, A 的大小可以代表当一个模型的信息量远大于另一个模型时信息量小的模型保留的比例, c 是用来缩放2个模型信息量差值的大小. 在本文中,设定 A=0.5 c=1 . 而 H\left({\boldsymbol{w}}_{t}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}}\right) H\left({\boldsymbol{w}}_{t}^{\mathrm{E}\mathrm{B}\mathrm{S}}\right) 则分别表示非极偏服务器模型参数和极偏服务器模型参数的信息熵,由式(17)(18)计算得到.

    H\left({\boldsymbol{w}}_{t}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}}\right)=-\displaystyle\sum_{y=1}^{Y}{p}_{y}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}}\mathrm{lg}{p}_{y}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}} \text{,} (17)
    H\left({\boldsymbol{w}}_{t}^{\mathrm{E}\mathrm{B}\mathrm{S}}\right)=-\displaystyle\sum_{y=1}^{Y}{p}_{y}^{\mathrm{E}\mathrm{B}\mathrm{S}}\mathrm{lg}{p}_{y}^{\mathrm{E}\mathrm{B}\mathrm{S}} \text{.} (18)

    先将模型参数 {\boldsymbol{w}}_{t}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}} {\boldsymbol{w}}_{t}^{\mathrm{E}\mathrm{B}\mathrm{S}} 的参数取值区间划分为 y 个等长区间,进而计算模型参数在各区间 y 上的概率 {p}_{y}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}} {p}_{y}^{\mathrm{E}\mathrm{B}\mathrm{S}}

    {p}_{y}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}}=\frac{{N}_{{\boldsymbol{w}}_{t}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}}}^{y}}{{N}_{{\boldsymbol{w}}_{t}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}}}} \text{,} (19)
    {p}_{y}^{\mathrm{E}\mathrm{B}\mathrm{S}}=\frac{{N}_{{\boldsymbol{w}}_{t}^{\mathrm{E}\mathrm{B}\mathrm{S}}}^{y}}{{N}_{{\boldsymbol{w}}_{t}^{\mathrm{E}\mathrm{B}\mathrm{S}}}} \text{,} (20)

    其中 {N}_{{\boldsymbol{w}}_{t}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}}}^{y} {N}_{{\boldsymbol{w}}_{t}^{\mathrm{E}\mathrm{B}\mathrm{S}}}^{y} 分别表示模型参数 {\boldsymbol{w}}_{t}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}} {\boldsymbol{w}}_{t}^{\mathrm{E}\mathrm{B}\mathrm{S}} 在区间 y 内的参数个数, {N}_{{\boldsymbol{w}}_{t}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}}} {N}_{{\boldsymbol{w}}_{t}^{\mathrm{E}\mathrm{B}\mathrm{S}}} 分别表示模型参数 {\boldsymbol{w}}_{t}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}} {\boldsymbol{w}}_{t}^{\mathrm{E}\mathrm{B}\mathrm{S}} 的总参数个数.

    最后,当模型参数交互条件满足时,在极偏服务器和非极偏服务器模型参数交互阶段采用式(21)进行极偏服务器和非极偏服务器的自适应聚合,更新中央服务器模型

    {\boldsymbol{w}}_{t}^{C}=\alpha \times {\boldsymbol{w}}_{t}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}}\text+\left(1-\alpha \right)\times {\boldsymbol{w}}_{t}^{\mathrm{E}\mathrm{B}\mathrm{S}} \text{,} (21)

    其中 {\boldsymbol{w}}_{t}^{C} {\boldsymbol{w}}_{t}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}} {\boldsymbol{w}}_{t}^{\mathrm{E}\mathrm{B}\mathrm{S}} 分别为满足模型参数交互条件时的中央服务器模型参数、非极偏服务器模型参数以及极偏服务器模型参数, \alpha 是非极偏服务器的权重.

    FedAIM框架具体流程如算法2所示.

    算法2. FedAIM自适应联邦学习框架算法.

    输入:参与联邦学习的客户端数量 K ,各个客户端数据集{\left\{D_k\right\}}_{k=1}^{K},最大交流轮数T

    输出:中央服务器模型的最终模型参数 {\boldsymbol{w}}_{T}^{C} .

    {L}_{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{C}} {L}_{\mathrm{E}\mathrm{B}\mathrm{C}} \leftarrow EMD_Divison({{\rm{D}}}_{{\rm{k}}});

    /* 根据各个客户端的数据集和   客户端划分算法得到{L}_{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{C}} {L}_{\mathrm{E}\mathrm{B}\mathrm{C}}

    Reshedule {L}_{\mathrm{E}\mathrm{B}\mathrm{C}} );

    /*将极偏客户端调度分配至各中介服务器*/

    ③ for i \leftarrow 1:T do

    ④ 客户端根据式(4)~(6)和式(7)~(13)进行     模型训练;

    ⑤   D_value \leftarrow \dfrac{\left|\left|{\boldsymbol{w}}_{\boldsymbol{i}}^{\mathrm{E}\mathrm{B}\mathrm{S}}-{\boldsymbol{w}}_{i}^{C}\right|\right|}{\Vert {\boldsymbol{w}}_{i}^{C}\Vert }

    /*计算极偏服务器模型和中央服务器服     务器模型的权重发散程度*/

    ⑥   loss \leftarrow L\left(f\left({\boldsymbol{x}}^{n};{\boldsymbol{w}}_{i}^{\mathrm{N}\mathrm{E}\mathrm{B}\mathrm{S}}\right),{\boldsymbol{y}}^{n}\right) ;/*计算非极

    偏服务器模型的loss损失*/

    ⑦   if loss−last_loss { \le \theta }_{\mathrm{l}\mathrm{o}\mathrm{s}\mathrm{s}}

    D_value { \ge \theta }_{\mathrm{w}\mathrm{a}}

    then

    /*判断是否进行极偏与非极偏的模

    型聚合*/

    ⑧   参照式(16)计算自适应权重 \alpha

    ⑨   根据式(21)进行模型聚合;

    ⑩    last_loss \leftarrow loss

    ⑪  end if

    ⑫ end for

    ⑬ return {\boldsymbol{w}}_{T}^{C} .

    本节首先介绍了关于MNIST,CIFAR-10,Fashion-MNIST,SVHN,FEMNIST共5个实验数据集的基本信息以及运行软硬件配置和本地迭代次数(epoch)的选取设置. 其次,在固定极偏占比 \lambda 的混合数据分布下,将FedAIM与7种对比方法进行了分析. 最后,还针对极偏占比 \lambda 设计了相应的对比分析实验.

    本文实验采用的5个数据集,各数据集样本示例如图5所示.

    图  5  各数据集的样本示例
    Figure  5.  Examples of datasets samples

    1)MNIST. 手写数字数据集,分为数字0~9共10类样本,训练集为60 000个样本,测试集为10 000个样本.

    2)CIFAR-10. 常用图片数据集,分为10类衣物,标签为数字0~9,训练集为50 000个样本,测试集为10 000个样本.

    3)Fashion-MNIST. 衣物图片类MNIST数据集,分为10类衣物,训练集为60 000个样本,测试集为10 000个样本.

    4)SVHN. 街景门牌号码数据集,分为数字1~10共10类样本,训练集为73 257个样本,测试集为26 032个样本.

    5)FEMNIST. 适用于联邦学习的图片分类数据集,图像种类除了包含有数字0~9,还有26个大写字母和26个小写字母,共62类,客户端平均样本数为226.83个,客户端数量3 550个.

    表1展示了对比实验在各个实验数据集上的实验设置. 例如,在MNIST数据集中,设置了客户端本地模型LeNet CNN[23]架构进行训练,优化器采用随机梯度下降SGD方法[24],同时设置学习率为0.01,冲量为0.78. 各客户端中模型批大小为64,其他数据集上实验数值设置与MNIST数据集相近似.

    表  1  在不同数据集上的实验设置
    Table  1.  Experimental Setting on Different Datasets
    实验参数MNISTCIFAR-10Fashion-MNISTSVHNFEMNIST
    K 5050505050
    \mathrm{\alpha } 4040404040
    M 33333
    客户端模型LeNet CNNResNet-18[25]LeNet CNNLeNet CNNLeNet CNN
    学习率0.010.10.010.010.1
    冲量0.780.850.950.860.82
    批大小6464646464
    优化器SGDSGDSGDSGDSGD
    下载: 导出CSV 
    | 显示表格

    由2.2节得知,Non-IID场景下存在EMD-Accuracy阈值,且当EMD阈值 {\theta }_{{E}{M}{D}}\ge 3 时FedAvg的训练精度急剧下降. 在本文实验中,各客户端随机从训练数据集中抽取 n 类数据的图片样本进行模型训练,并计算各客户端EMD值,当 {\theta }_{{E}{M}{D}}\ge 3 时被划分为极偏客户端,反之则为非极偏客户端.

    本文实验使用Python-3.6.4作为编程语言, 利用Pytorch框架建立神经网络架构. 表2展示了本文实验所需的软件及硬件配置参数.

    表  2  实验软硬件配置
    Table  2.  Software and Hardware Configurations in Experiment
    软硬件配置
    操作系统Linux 64 位发行版 Ubuntu 16.04 LTS
    CPUIntel® Xeon® Silver 4110 CPU @ 2.10GHz
    内存/GB32
    硬盘/TB2
    GPUNVIDIA Tesla V100
    显存/GB32
    硬件加速5120 CUDA cores
    下载: 导出CSV 
    | 显示表格

    为了验证FedAIM在混合Non-IID数据下的性能表现,将FedAIM框架与7种方法进行了对比.

    1)FedShare[5]. 各客户端共享中央服务器中部分数据进行模型训练.

    2)Astraea[14]. 引入KL散度对数据进行偏置程度度量,进而将客户端分配到各中介服务器进行模型训练.

    3)CSFedAvg[15]. 中央服务器只选择客户端中数据分布较全的非极偏客户端参加训练.

    4)FedAvg[10] . 经典的联邦平均算法.

    5)FedProx[12]. 引入二次近侧项使得本地模型与全局模型不会差异过大.

    6)FedNova[26]. 在FedAvg的基础上,通过标准平均后的本地参数变化值来抑制客户端偏移.

    7)SCAFFOLD[27]. 引入控制因子来矫正客户端偏移现象.

    表3展示了当客户端极偏占比 \lambda =40%时FedAIM和对比方法在MNIST,CIFAR-10,Fashion-MNIST,SVHN,Fashion-MNIST数据集上的模型准确率. 如表3所示,FedAIM在MNIST,CIFAR-10,Fashion-MNIST,SVHN,FEMNIST数据集上的模型最终准确率均优于现有的对比方法. 其中FedAvg在5个数据集上的准确率最低,因为FedAvg方法更适合于IID数据场景. 而针对Non-IID数据场景设计的CSFedAvg,Astraea,FedProx,FedNova,SCAFFOLD,FedShare在5个数据集上的识别准确率均有不同程度的提高. 在MNIST数据集中,FedAIM的准确率达到了98.54%. 此外,在CIFAR-10,Fashion-MNIST,SVHN,FEMNIST数据集中FedAIM的准确率比第2优的Astraea方法的准确率分别提高百分比约2.5,3,3.9,2.7. 这是因为Astraea忽略了各中介服务器之间Non-IID程度不同的影响,而FedAIM可以通过极偏服务器和非极偏服务器2类模块分别处理不同偏置程度的数据,即针对不同偏置程度的数据使用不同的训练方式. 因此,FedAIM可以有效地提升学习模型的准确率.

    表  3  不同数据集下各方法的准确率对比
    Table  3.  Accuracy comparisons of Each Method on Different Datasets %
    方法MNISTCIFAR-10Fashion-MNISTSVHNFEMNIST
    FedAIM(本文)98.5482.5784.3485.3582.13
    Astraea97.9280.1181.3681.4179.46
    FedShare95.2572.6473.1271.8468.97
    FedAvg70.1365.4768.3868.1358.49
    CSFedAvg98.2775.8374.9773.7870.72
    FedProx96.6574.4976.5474.1775.69
    FedNova97.2379.4780.7375.7876.65
    SCAFFOLD94.4275.7377.9476.4478.54
    注:黑体数字表示最优值.
    下载: 导出CSV 
    | 显示表格

    图6展示了在MNIST,CIFAR-10,Fashion-MNIST数据集上,FedAIM 与7种对比方法的模型识别准确率随着交流轮次的变化情况. 在MNIST数据集上,当交流轮次达到1000时FedAvg准确率最低,这是因为FedAvg更适用于处理IID场景下数据,而在Non-IID场景下FedAvg鲁棒性较差. 此外,针对Non-IID场景下的FedAIM,CSFedAvg,Astraea,FedShare,FedNova,FedProx,SCAFFOLD框架均获得较好的准确率(>95%)并且,CSFedAvg只使用了较少的交流轮次就达到了95%的准确率,这是因为CSFedAvg在训练时会抛弃部分极偏客户端进行训练,而在较为简单的MNIST数据集上抛弃部分客户端数据对模型识别影响不大. 所有对比方法在最终收敛稳定时,FedAIM框架仍获得了最高的准确率.在CIFAR-10数据集上,FedAIM只需要500交流轮次即可获得约82.0%的较高准确率,而Astraea方法则需要1250交流轮次才可达到约80.0%的准确率. 这是因为Astraea每次交流轮次结束时都需要各中介服务器之间的模型聚合,而FedAIM只有在满足非极偏服务器模型稳定且极偏服务器模型与中央服务器模型差异较大的模型参数交互条件时才会进行模型聚合,故FedAIM 交流轮次更少. 此外,CSFedAvg方法虽然在500交流轮次时模型准确率基本稳定,但准确率只有75.0%,FedShare和SCAFFLOD的准确率也仅约72.6%和75.7%.

    图  6  MNIST, CIFAR-10, Fashion-MNIST数据集在不同交流轮次下的模型准确率
    Figure  6.  Model accuracy on MNIST, CIFAR10, Fashion-MNIST datasets under different communication rounds

    同样地,在Fashion-MNIST数据集上,FedAIM只需要最少的交流轮次即可获得最高的准确率. 例如,FedAIM在1000交流轮次时准确率约为84.0%,比第2优的Astraea准确率高了约3%,而第3优的FedNova 准确率只有80.7%. 此外,FedSha re,FedProx,CSFedAvg方法的准确率分别为73.1%,76.5%,74.9%,而FedAvg方法则只有68.0%左右. 因此,在数据混合分布场景下,FedAIM只需较少的交流轮次就能达到更高的准确率.

    图7展示了在SVHN和FEMNIST 2个数据集上8种方法的识别准确率随交流轮次的变化. FedAIM在SVHN和FEMNIST数据集上同样只需要较少的交流轮次即可获得最高的准确率,而第2优的Astraea方法则需要最少2倍多的交流轮次才可达到相近的准确率. 此外,之前在MNIST,Fashion-MNIST,CIFAR-10数据集上表现较好的FedNova在SVHN和FEMNIST数据集上的准确率大幅度下降,这是因为SVHN和FEMNIST训练样本中的噪声较多,会导致各个客户端在本地更新时的模型参数变化值并没有被有效纠正,从而影响了模型的准确率.

    图  7  SVHN和FEMNIST数据集在不同交流轮次下的模型准确率
    Figure  7.  Model accuracy on SVHN and FEMNIST datasets under different communication rounds

    为了进一步探究混合分布场景的极偏客户端占比 \lambda 对于模型准确率的影响,本文选择了SVHN数据集和Fashion-MNIST数据集作为实验数据集,实验结果如图8所示.

    图  8  不同\lambda数值下在SVHN和Fashion-MNIST数据集上的模型准确率
    Figure  8.  Model accuracy on SVHN and Fashion-MNIST datasets under different \lambda values

    图8所示,随着极偏占比 \lambda 值的增加即极偏客户端占比提高,所有方法的模型准确率都会出现大幅度下降,而FedAIM即使在 \lambda =80%的情况下,与 \lambda =40%相比,在SVHN,FEMNIST上模型准确率也分别只下降了约1.4%,1.3%,这说明FedAIM即使在极偏客户端占绝大多数的混合分布场景中仍然可以生成性能优越的识别模型,这得益于FedAIM将极偏客户端和非极偏客户端分别分入了极偏服务器和非极偏服务器;分别采用了适合客户端数据分布极偏程度的训练流程. 而CSFedAvg由于随着 \lambda 值的增大,极偏客户端占比增加,可供CSFedAvg主动选择的客户端数量迅速减少,所以CSFedAvg的模型准确率会随着\lambda 的增加急剧降低. FedProx,FedNova,SCAFFOLD随着 \lambda 的增加,模型准确率下降的程度大致相同,原因在于它们都是采用在损失函数和优化目标的层面上进行限制本地模型更新的策略.

    为了探究本地迭代次数对于模型准确率的影响,本文以客户端总数 K = 50, \lambda = 40%,中介服务器个数M=3为实验设置,在MNIST,CIFAR-10,Fashion-MNIST数据集上进行实验,实验结果如表4所示.

    表  4  不同本地迭代次数下的模型准确率
    Table  4.  Model Accuracy Under Different Local Epochs
    数据集本地迭代次数准确率/%
    FedAIMAstraea
    MNIST298.5497.44
    898.8597.92
    CIFAR-10282.3280.11
    882.5780.34
    Fashion-MNIST284.3481.36
    884.6381.61
    下载: 导出CSV 
    | 显示表格

    表4中,我们发现在这3个数据集上,随着客户端本地迭代次数的增大,FedAIM和Astraea的模型准确率并没有显著地提升或降低. 考虑到本地迭代次数增大时模型训练时间较长,但模型准确率提升幅度不大这一现象,因此在本文的实验最后将客户端本地迭代次数统一设定为2.

    本文针对Non-IID场景下不同客户端数据混合分布所导致的联邦学习效果不佳的问题,提出了一种联邦自适应学习交互框架FedAIM. 该框架基于EMD对客户端进行偏置程度度量并构建2类服务器模块分别处理极偏数据和非极偏数据,从而缓解客户端数据混合分布的问题,提高模型准确率. 此外,我们提出了基于信息熵的模型参数交互机制,使得FedAIM可以有效地聚合2类服务器产生的模型参数,从而有效地减少服务器之间的交互轮次,降低通信代价. 在未来的工作中,我们会将FedAIM框架作进一步扩展,使得FedAIM框架能够更细粒度地处理数据混合分布.

    作者贡献声明:郭松岳负责方案的构思与实施、实验结果整理与分析、论文撰写与修订;王阳谦指导方案设计;柏思远负责方案设计与实施;刘永恒参与方案可行性讨论;周骏负责框架工程化指导;王梦鸽负责集成框架至浦发银行波塞冬隐私计算产品中;廖清指导论文撰写与论文修订.

  • 图  1   用户A、用户B图片样本类别

    Figure  1.   Image sample categories of user A and user B

    图  2   FedAvg在不同程度Non-IID下的准确率

    Figure  2.   Accuracy of FedAvg under different degrees of Non-IID

    图  3   在数据集CIFAR-10下EMD和准确率的关系

    Figure  3.   Relationship between EMD and accuracy on CIFAR-10 dataset

    图  4   FedAIM框架结构

    Figure  4.   The structure of FedAIM framwork

    图  5   各数据集的样本示例

    Figure  5.   Examples of datasets samples

    图  6   MNIST, CIFAR-10, Fashion-MNIST数据集在不同交流轮次下的模型准确率

    Figure  6.   Model accuracy on MNIST, CIFAR10, Fashion-MNIST datasets under different communication rounds

    图  7   SVHN和FEMNIST数据集在不同交流轮次下的模型准确率

    Figure  7.   Model accuracy on SVHN and FEMNIST datasets under different communication rounds

    图  8   不同\lambda数值下在SVHN和Fashion-MNIST数据集上的模型准确率

    Figure  8.   Model accuracy on SVHN and Fashion-MNIST datasets under different \lambda values

    表  1   在不同数据集上的实验设置

    Table  1   Experimental Setting on Different Datasets

    实验参数MNISTCIFAR-10Fashion-MNISTSVHNFEMNIST
    K 5050505050
    \mathrm{\alpha } 4040404040
    M 33333
    客户端模型LeNet CNNResNet-18[25]LeNet CNNLeNet CNNLeNet CNN
    学习率0.010.10.010.010.1
    冲量0.780.850.950.860.82
    批大小6464646464
    优化器SGDSGDSGDSGDSGD
    下载: 导出CSV

    表  2   实验软硬件配置

    Table  2   Software and Hardware Configurations in Experiment

    软硬件配置
    操作系统Linux 64 位发行版 Ubuntu 16.04 LTS
    CPUIntel® Xeon® Silver 4110 CPU @ 2.10GHz
    内存/GB32
    硬盘/TB2
    GPUNVIDIA Tesla V100
    显存/GB32
    硬件加速5120 CUDA cores
    下载: 导出CSV

    表  3   不同数据集下各方法的准确率对比

    Table  3   Accuracy comparisons of Each Method on Different Datasets %

    方法MNISTCIFAR-10Fashion-MNISTSVHNFEMNIST
    FedAIM(本文)98.5482.5784.3485.3582.13
    Astraea97.9280.1181.3681.4179.46
    FedShare95.2572.6473.1271.8468.97
    FedAvg70.1365.4768.3868.1358.49
    CSFedAvg98.2775.8374.9773.7870.72
    FedProx96.6574.4976.5474.1775.69
    FedNova97.2379.4780.7375.7876.65
    SCAFFOLD94.4275.7377.9476.4478.54
    注:黑体数字表示最优值.
    下载: 导出CSV

    表  4   不同本地迭代次数下的模型准确率

    Table  4   Model Accuracy Under Different Local Epochs

    数据集本地迭代次数准确率/%
    FedAIMAstraea
    MNIST298.5497.44
    898.8597.92
    CIFAR-10282.3280.11
    882.5780.34
    Fashion-MNIST284.3481.36
    884.6381.61
    下载: 导出CSV
  • [1] 微众银行. 联邦学习白皮书 V2.0 [EB/OL]. 2020[2020-11-01].https: //www.fedai.org/#

    WeBank. White paper V2.0 of federated learning [EB/OL]. 2020 [2020-11-01].https://www.fedai.org/# (in Chinese)

    [2] 芦效峰,廖钰盈,Lio P,等. 一种面向边缘计算的高效异步联邦学习机制[J]. 计算机研究与发展,2020,57(12):2571−2582 doi: 10.7544/issn1000-1239.2020.20190754

    Lu Xiaofeng, Liao Yuying, Lio P, et al. An asynchronous federated learning mechanism for edge network computing[J]. Journal of Computer Research and Development, 2020, 57(12): 2571−2582 (in Chinese) doi: 10.7544/issn1000-1239.2020.20190754

    [3] 董业,侯炜,陈小军,等. 基于秘密分享和梯度选择的高效安全联邦学习[J]. 计算机研究与发展,2020,57(10):2241−2250 doi: 10.7544/issn1000-1239.2020.20200463

    Dong Ye, Hou Wei, Chen Xiaojun, et al. Efficient and secure federated learning based on secret sharing and gradients selection[J]. Journal of Computer Research and Development, 2020, 57(10): 2241−2250 (in Chinese) doi: 10.7544/issn1000-1239.2020.20200463

    [4]

    Yang Qiang, Liu Yang, Chen Tianjian, et al. Federated machine learning: Concept and applications[J]. ACM Transactions on Intelligent Systems and Technology, 2019, 10(2): 1−19

    [5]

    Zhao Yue, Li Ming, Lai Liangzhen, et al. Federated learning with Non-IID data [J]. arxiv preprint, arXiv: 1806.00582, 2018

    [6]

    Huang Xixi, Jian Guan, Zhang Bin, et al. Differentially private convolutional neural networks with adaptive gradient descent [C] //Proc of the 4th IEEE Int Conf on Data Science in Cyberspace (DSC). Piscataway, NJ: IEEE, 2019: 642−648

    [7]

    Huang Xixi, Ding Ye, Zoe L, et al. DP-FL: A novel differentially private federated learning framework for the unbalanced data[J]. World Wide Web, 2020, 23(4): 2529−2545 doi: 10.1007/s11280-020-00780-4

    [8]

    Chen Yujing, Ning Yue, Slawski M, et al. Asynchronous online federated learning for edge devices with Non-IID data [C] //Proc of the 8th IEEE Int Conf on Big Data. Piscataway, NJ: IEEE, 2020: 15−24

    [9]

    Kairouz P, McMahan H, Avent B, et al. Advances and open problems in federated learning[J]. Foundations and Trends in Machine Learning, 2021, 14(1): 1−210

    [10]

    McMahan B, Moore E, Ramage D, et al. Federated learning: Communication-efficient learning of deep networks from decentralized data [C] //Proc of the 20th Int Conf on Artificial Intelligence and Statistics. Cambridge, MA: MIT, 2017: 1273−1282

    [11]

    Sattler F, Wiedemann S, Muller K, et al. Robust and communication-efficient federated learning from Non-IID[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019, 31(9): 3400−3413

    [12]

    Li Tian, Sahu A, Zaheer M, et al 2020. Federated optimization in heterogeneous networks [C] //Proc of the 3rd Conf on Machine Learning and Systems (MLSys). Cambridge, MA: MIT, 2020 : 429−450

    [13]

    Smith V, Chiang C, Sanjabi M, et al. Federated multi-task learning [C] //Proc of the 31st Neural Information Processing Systems (NIPS). Cambridge, MA: MIT, 2017: 4424−4434

    [14]

    Duan M, Liu Duo, Chen Xianzhang, et al. Astraea: Self-balancing federated learning for improving classification accuracy of mobile deep learning applications [C] //Proc of the 37th IEEE Int Conf on Computer Design (ICCD). Piscataway, NJ: IEEE, 2019 : 246−254

    [15]

    Zhang Wwenyu, Wang Xiumin, Zhou Pan, et al. Client selection for federated learning with Non-IID data in mobile edge computing[J]. IEEE Access, 2021, 9: 24462−24474 doi: 10.1109/ACCESS.2021.3056919

    [16]

    Rubner Y, Tomasi C, Guibas J, et al. The earth mover’s distance as a metric for image retrieval[J]. International Journal of Computer Vision, 2000, 40(2): 99−121 doi: 10.1023/A:1026543900054

    [17]

    Ren Jinfu, Liu Yang, Liu Jiming. EWGAN: Entropy-based wasserstein gan for imbalanced learning [C] //Proc of the 33rd AAAI Conf on Artificial Intelligence (AAAI). Palo Alto, CA: AAAI, 2019: 10011−10012

    [18]

    Yao Xin, Huang Tianchi, Wu Chenglei, et al. Towards faster and better federated learning: A feature fusion approach [C] //Proc of the 26th IEEE Int Conf on Image Processing (ICIP). Piscataway, NJ: IEEE, 2019: 175−179

    [19]

    Li Xiang, Huang Kaixuan, Yang Wenhao, et al. On the convergence of fedavg on Non-IID data [C/OL] //Proc of the 8th Int Conf on Learning Representations (ICLR). Piscataway, NJ: IEEE, 2020[2021-08-17].https://arxiv.org/abs/1907.02189

    [20]

    Meng Fanxu, Cheng Hao, Li Ke, et al. Filter grafting for deep neural networks [C] //Proc of the 22nd IEEE/CVF Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2020 : 6599−6607

    [21]

    Cheng Hao, Lian Dongze, Gao Shenghua, et al. Utilizing information bottleneck to evaluate the capability of deep neural networks for image classification[J]. Entropy, 2019, 21(5): 456−456 doi: 10.3390/e21050456

    [22]

    Shwartz-Ziv R, Tishby N. Opening the black box of deep neural networks via information [J]. arXiv preprint, arXiv: 1703.00810, 2017

    [23]

    Lecun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278−2324 doi: 10.1109/5.726791

    [24]

    LeCun Y, Bottou L, Orr G, et al. Efficient backprop [G] //LNCS 2172: Proc of the 3rd Int Conf on Coopertive Information Systems. Berlin: Springer, 1998: 9−48

    [25]

    He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition [C] //Proc of the 21st IEEE/CVF Conf on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ: IEEE, 2016: 770−778

    [26]

    Wang Jianyu, Liu Qinghua, Liang Hao, et al. Tackling the objective inconsistency problem in heterogeneous federated optimization [C] //Proc of the 34th Neural Information Processing Systems (NIPS). Cambridge, MA: MIT, 2020: 7611−7623

    [27]

    Karimireddy S, Kale S, Mohri M, et al. Scaffold: Stochastic controlled averaging for federated learning [C] //Proc of the 37th Int Conf on Machine Learning (ICML). New York: ACM, 2020: 5132−5143

图(8)  /  表(4)
计量
  • 文章访问数:  274
  • HTML全文浏览量:  24
  • PDF下载量:  147
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-11-07
  • 修回日期:  2022-08-28
  • 网络出版日期:  2023-03-16
  • 刊出日期:  2023-05-31

目录

/

返回文章
返回