随着物联网、大数据、5G网络架构的发展,机器学习(machine learning, ML)在自动驾驶、信息检索、能源检测等领域得到了广泛应用.机器学习通过训练模型对数据进行分析,提取有用的信息.随着手机等智能设备的快速发展,数据分布趋向于本地化.单个用户或机构通常拥有较小规模或较低质量的数据,仅使用这些数据进行训练容易导致模型过拟合,所以需要将参与方数据汇集到一起来训练模型.然而,出于数据的隐私考虑,各方通常不愿意将自己的数据直接共享给别人,从而形成数据孤岛问题.联邦学习(federated learning, FL)是面向这种数据孤岛现实场景而设计的机器学习范式.通过分享模型参数或梯度的方式,联邦学习参与方可在保持数据本地私有的情况下协作训练一个高性能的共同模型[1].
联邦学习自2016年由谷歌提出以后,就引起了学术界和信息产业界的巨大关注.这使得联邦学习场景下的许多方向也都得到了迅速发展,如安全和隐私保护.研究表明,仅上传部分参数或梯度,本地训练数据仍有可能会泄露给诚实但好奇的服务器[2].因此联邦学习通常与差分隐私[3]、同态加密[4]、安全多方计算[5]等技术结合来保护数据隐私[6].当联邦学习应用于银行借贷、预测警务、犯罪评估等重大决策场景时,公平性也引起了人们的重视.然而,传统的联邦学习并没有考虑公平性的问题,聚合模型可能会潜在地歧视一些特殊群体,特别是当训练数据本身就存在偏见时.一个典型的例子是在“替代性制裁的惩罚性罪犯管理分析”(correctional offender management profiling for alternative sanctions, COMPAS)算法中.美国法院使用该算法预测一个人再次犯罪的概率,从而对罪犯做出假释审核.研究发现,在同等条件下使用该软件,与白种人相比,非裔美国人会得到更高的犯罪评分[7].
造成联邦学习中这种不公平现象的原因之一是它的目标函数,联邦学习的目标函数是最小化各个参与者的局部损失和样本比例的加权平均,从而使模型可以拟合大多数设备的本地数据.在真实场景中,参与者之间的数据通常是高度异构的.且因为网络、设备、用户习惯等因素的影响,参与者拥有的数据量差距也比较大.因此简单使用上述方式可能得到较高的平均准确率,但不能保证单个参与者的性能.即最终聚合模型在参与者本地数据之间的准确率悬殊较大,这是不公平的,可能会影响聚合效果.因此设计一种优化算法来使联邦学习参与者之间性能分布更公平是非常重要的.
目前有许多文献致力于联邦学习公平研究,如文献[8]提出了一种名为AFL(agnostic federated learning)的联邦学习框架,在此框架下全局模型可以优化任何客户分布混合而成的目标函数但是它们仅优化单个最差客户的性能,适用于小规模客户且缺乏灵活性.文献[9]中作者提出了一种新的目标函数q-FFL(q-Fair Federated Learning)来使参与者准确率分布更均匀,但该方法无法提前确定最佳的参数q值来达到公平性和有效性的平衡,且算法在本地数据异构较强时较难收敛.
在本文中我们提出了α -FedAvg算法,引入Jain’s Index和α-fairness来研究联邦学习模型公平性和有效性的平衡.该算法可以在保持联邦学习模型整体性能不损失的情况下,有效减小各参与方准确率分布的方差,使准确率分布更均衡.与文献[9]相比,我们的方法更简单,并且可通过算法在训练之前确定参数α的取值,而不需要该文中所述使用多个参数值训练获得全局模型后,验证模型性能再从中选择表现较好的参数值.
在本文的设定中,参与者是诚实的,它会如实地执行协议并向服务器上传最新的梯度和准确率.以合作的方式,获得比单独训练较好的本地模型.服务器是诚实但好奇的,它在诚实执行协议的同时可能会从参与者上传的参数中推测出一些敏感信息.因此我们的算法中也有相应的隐私保护机制.我们的应用场景为一些金融或医疗机构.在这些机构中,协同训练中谎报参数可能会付出沉重的法律代价.对于法律约束较弱的一般场景,参与者可能是自私的,会通过谎报模型在本地数据上的准确率来影响聚合过程的情况,我们在3.4节扩展部分也给出了解决方案.
本文的主要贡献包括4个方面:
1) 将Jain’s Index引入联邦学习领域来度量公平,并同时给出了系统有效性的度量.
2) 通过研究α-fairness中参数α对联邦学习模型公平性和有效性的影响,我们采用一种基于梯度的算法来确定最佳α值达到二者之间的权衡.
3) 提出了α -FedAvg算法,在保证原有模型性能的基础上有效提高公平性,且该算法具有可扩展性,可与已有的隐私保护技术相结合.
4) 我们在2个标准数据集MNIST和CIFAR-10上评估了α-FedAvg算法.并分别在图像、表格、文本类的数据集上与最新的其他3种公平方案进行了对比.实验结果表明,本文提出的算法实现了联邦学习模型公平性和有效性的平衡,且效果优于其他方案.
近几年,机器学习算法的公平性得到了人们的高度重视,公平方向的研究不断涌现.总的来说,一个公平的算法不会基于其需要的特征歧视或者偏向于某些特定群体.通常机器学习算法消除歧视追求公平的方法可分为3类[10]:
1) 预处理(pre-processing).预处理考虑到算法不公平的原因可能是训练数据的问题,即受保护变量的分布是有歧视/不平衡的,因此预处理通常会改变受保护变量的样本分布来消除歧视.如文献[11]中作者提出了一种歧视意识(discrimination-aware)的审计过程,它与常规训练分类器的过程类似,主要是增加了歧视测试模型.文献[12]中作者借用了生成对抗网络(GAN)的思想,提出了FairGAN,它可以从在保证数据可用性的基础上从原始数据中生成更公平的数据用于训练,从而产生公平的模型.
2) 中处理(in-processing).中处理考虑到算法本身可能会产生偏见,因此中处理通常会尝试修改算法或增加一些公平约束,从而消除模型训练过程的歧视.如文献[13]中作者针对回归问题损失函数引入了公平正则器(fairness regularizers),且通过改变正则化权重来权衡给定数据集的准确性和公平性.文献[14]中作者通过增加约束来从训练集中学习到一个非歧视预测器.
3) 后处理(post-processing).后处理中将算法和模型视为黑盒,它倾向于对模型输出进行一定变换来提高预测的公平性.如文献[15]中作者介绍了一个开源的Python工具包AIF360(AI Fairness 360),为公平研究者提供一套共享和评估算法的通用框架,它包括一套完整的数据和模型公平度量标准以及缓解歧视的办法,研究人员可根据需求选择最适合的工具应用.
先前的机器学习公平研究大都聚焦于中心化设置而没有考虑分布式情况.联邦学习作为一种有前景的分布式机器学习范式,近几年也吸引了大量公平研究者的目光.由于应用场景不同,对公平的需求也不一样.总的来说,以联邦学习为主的分布式机器学习公平性研究也可分为2个方向:
1) 引入激励机制,参与者根据自己在聚合中的贡献得到不同的奖励(如金钱激励或得到不同的最终模型).如文献[16-17]中作者都设计了一种本地信誉互评机制,这种机制会评估参与者在学习过程中的贡献并迭代更新信誉值,使得参与者最终获得与其贡献相匹配的聚合模型.不同的是文献[17]中作者使用区块链进行交易,改变了传统联邦学习的B/S模式,且设计了一种3层洋葱式加密方案来保护参与者隐私.文献[18]中作者提出了一种分层联邦学习框架,首先基于参与者本地数据量的多少将其分为几个不同的贡献水平,在此框架下进行训练,不同水平的用户将收到不同的模型更新.
2) 参与者获得有效模型的机会均等.减小参与方之间或参与者内部训练和测试数据准确率分布的方差[8-9,19-21].本文的工作也属于这一方向.在文献[20]中作者证明了经验风险损失最小随着时间的推移会扩大群体之间的差异,因此作者开发了一种基于分布式鲁棒性的优化方法.与文献[7]相似,这种方法通过优化少数最坏群体的风险损失来达到公平.文献[19]中作者提出了AgnosticFair框架,解决当测试数据与训练数据分布不同时,在未知测试数据上达到公平的问题.文献[21]中作者提出了一种算法FedFa,它基于双动量梯度,可以加快模型收敛,并且采用了一种基于参与者训练数据准确率和训练频率的权重选择算法来达到公平.
在本节中,我们主要介绍本文用到的相关理论,包括联邦学习和公平度量(fairness measure).
联邦学习是一种分布式机器学习框架,旨在保护数据隐私.联邦学习中通常有2种实体:参与者(数据拥有者)和服务器(模型聚合者).参与者有多个,记为{P1,P2,…,PN}.他们拥有各自的数据集{D1,D2,…,DN}.在联邦学习框架下,参与者之间不需要交换原始私有数据集,通过本地训练更新模型参数,并上传参数至中央服务器聚合的方式协同训练模型.
在联邦学习框架中,令K表示每轮聚合时的参与者个数,Dk表示第k个参与者拥有的数据集,其元素个数为|Dk|=nk,n表示所有参与者的样本总数,则联邦学习的目标是优化全局损失函数[1]:
(1)
其中
表示参与者k的局部损失函数,pk表示参与者k的本地模型在中央服务器聚合时所占的权重,且满足pk≥0和
通常设置
为样本(xi,yi)在模型参数w的预测损失,即fi(w)=l(xi,yi,w).由上述定义可知,联邦学习全局损失函数是对各个参与者的局部损失的加权平均.
在资源分配中,决策者进行资源分配时,不仅要考虑资源分配的有效性,还需考虑它的公平性.公平度量是资源分配中量化当前分配方式公平程度的方法,它通过一个函数f(x)将向量x∈![]()
映射为一个实数,且需满足5个性质[22]:
1) 连续性.公平度量f(x)是关于变量x∈![]()
的连续函数.
2) 单调性.当有2个用户时,公平性f(θ,1-θ)随着2元素之间差异|1-2θ|的增加而减小.
3) 同质性(homogeneity).公平度量f(x)的值与x代表的数学含义无关,只需统一即可.f(x)是一个齐次函数,满足f(x)=f(x)×t0=f(x×t),∀t>0,且对于任何单个用户都有|f(x)|=1.
4) 渐进饱和(asymptotic saturation).f(x)的值与参与的用户数无关,系统公平性不受系统用户数目的多少影响,满足![]()
5) 划分无关(irrelevance of partition).f(x)的值与x的划分无关,如果对x进行划分,可通过一定公式递归计算得到最终结果.
受到公平资源分配的启示,在本文中我们将联邦学习中的全局模型作为一种资源,其在各个参与者本地数据集上的准确率分布组成向量,使用Jain’s Index和α-fairness公平度量,保证联邦学习的公平性和有效性.Jain’s Index的定义为
![]()
![]()
![]()
(2)
J(x)的取值范围为
的值越大表示系统分配越公平,J(x)=1表示最公平的情况,即所有参与者准确率分布相等,方差最小.
表示最不公平的分配.
α-fairness通过改变参数α的取值来达到系统公平和效率之间的权衡,α值越高代表分配越公平,但同时系统有效性可能随之减小.在此框架下单个用户效用定义为
![]()
(3)
在本节,我们首先会给出联邦学习过程中公平性和有效性的度量方法;然后提出一种算法确定最佳的α值,达到二者之间的权衡;最后我们利用求出的α值对联邦学习聚合过程重新加权,提出了一种α-FedAvg算法来产生更加公平的全局模型,并在扩展部分给出了应对自私参与者的解决方案.
参考2.1节所述的联邦学习的训练过程,我们用K表示每轮聚合时的参与者个数,pk表示参与者k本地训练的模型在中央服务器聚合时所占的权重,集合{a1,a2,…,aK}表示聚合后的全局模型wg用于各参与者本地数据上的准确率,用Rk=akpk表示聚合后参与者k获得的实际效用(utility),则本次训练过程中系统有效性(effificiency)量化为
(4)
系统公平性量化为
(5)
E和J都是0~1之间的实数,E值越大代表聚合模型越有效,加权平均准确率越高.J值越大表示聚合模型越公平,参与者之间准确率分布越均匀.
在本节中,我们利用α-fairness公平度量,研究参数α对联邦学习系统公平性和有效性的影响.在最大化效用总和
的约束下,我们可以得到权重pk的最优解:
(6)
进一步求得
的值,将求得的Rk(α)的值带入式(4)(5),即可将系统公平函数J和有效性函数E重写成与参数α相关的式子:
(7)
为了研究函数J(α)和E(α)的单调性,我们在α的定义域内分别对这2个式子求导,判断导数的正负.当α>1时,得到了2条定理,详细证明过程参考附录部分.
定理1. 联邦学习系统公平性J(α)随α的增大而增大.
定理2. 联邦学习系统有效性E(α)随α的增大而减小.
类似的工作在资源分配领域已经取得了巨大的进展,如文献[23-24].通过定理1、定理2可知,α取值会影响联邦学习系统有效性和公平性,因此我们需确定最佳的α取值来达到二者之间的平衡.我们的目标是在确保达到经典联邦学习最终模型同等有效性ET(阈值)的基础上,最大化系统公平性,即可以被描述为优化问题:
![]()
(8)
由定理1,2可知,当E(α)=ET时,α的取值为最优解.因为等式E(α)=ET中α在指数位置直接求解较为困难,利用该函数的单调性,我们使用一种更为简单有效的基于梯度的方法求解,通过逼近阈值ET来确定最佳α的取值.该方法可总结为算法1,其中{a1,a2,…,aK}为准确率,ET为有效性阈值;参数λ表示容忍误差,Λ表示改变步长大小,τ表示迭代过程中当α取负数时代替它的最小正实数,i表示迭代次数.
算法1. 基于梯度的逼近算法.
输入:{a1,a2,…,aK},ET;
输出:α .
① 初始化λ=10-5,Λ=1,τ=10-10,α0=1,i=0;
② repeat
③ αi+1![]()
④ if (E(αi+1)-ET)(E(αi)-ET)<0 then
⑤ Λ←Λ/2;
⑥ end if
⑦ i←i+1;
⑧ until (|E(αi)-ET|<λ).
算法1中行③逼近公式是从导数的定义E′(αi)=
中变形得来的,且令E(αi+1)=ET.行④中(E(αi+1)-ET)(E(αi)-ET)<0意味着从αi到αi+1的变化量过大,因此要减小改变的步长.通过此算法,我们可以确定聚合中超参数α的最佳值,达到联邦学习系统公平和有效性的权衡.
基于3.2节提出的联邦学习系统公平和有效性的权衡方法,在本节我们给出公平联邦学习算法α-FedAvg.总的来说,该算法是在经典联邦学习算法FedAvg[1]的基础上做了改进,收集每轮全局模型在参与者本地数据上的准确率分布,运用求得的式(6)对聚合过程重新加权,从而达到我们的公平需求.我们首先给出本文提出的公平联邦学习系统框架,如图1所示.K个参与者在一个中央服务器的协助下共同训练一个全局模型.在我们的设定中,参与者的本地数据是非独立同分布(Non-IID)且不平衡的,更符合大多数真实场景的情况.参与者会诚实地执行协议,服务器可能是诚实但好奇的,因此下述Step3中参与者在上传本地模型
时,可以与已有的隐私保护手段相结合,如差分隐私、同态加密等.在开始训练之前,参与者需进行本地数据划分,分为训练集、测试集和验证集,它们的数据特征分布相同.服务器需要进行一些初始化工作,包括选择算法、超参数,初始化全局模型
等,然后重复下述步骤直至模型收敛.
Fig. 1 Fair federated learning framework
图1 公平联邦学习框架
Step1. 服务器将当前轮全局模型
参数广播给被选定的参与者,参与者下载后用其替代本地模型.
Step2. 参与者统计全局模型
在其本地测试集上的准确率,在训练集上运行SGD算法或其变体[25](如mini-batch SGD)更新本地模型![]()
Step3. 参与者将其得到的准确率
和更新后的本地模型
发送给服务器.
Step4. 服务器收到全局模型在所有参与者本地数据上的准确率后,根据
公式分别计算所有参与者在本轮训练聚合时的权重![]()
Step5. 服务器收到来自所有参与方的模型后,聚合更新后得到全局模型![]()
我们的方案可总结为算法2,其中服务器端行
的计算公式是在α-fairness思想下最大化效用总和求出的最优解,它能有效调整参与方聚合时的加权系数,使准确率低(损失函数高)的参与方权重较高,准确率高的参与方(损失函数低)权重较低,从而使聚合后参与者准确率分布更均匀,方差更小(更公平),且α值越大这种趋势越明显,但会影响系统的有效性.因此我们需要在训练前确定理想的α取值.我们的目标是在达到经典联邦学习FedAvg算法同等有效性的基础上提升其公平性.因此可使用FedAvg得到的最终聚合模型在各个参与者本地数据的准确率{a1,a2,…,aK}和训练过程的权重{p1,p2,…,pK}(本地数据集样本数占所有参与者样本总数的比重)来计算阈值
或者指定想要达到的合理的阈值ET和准确率集合{a1,a2,…,aK}.将它们带入算法1,计算得到需要的α取值.实践证明α的取值在(1,5]之间较为合理.
算法2. α-FedAvg.
输入:参与者个数K,聚合次数T,本地批大小B,本地时期数E,学习率η,参数α;
输出:全局模型wg.
服务器执行:
① 初始化![]()
② for轮数t从0~T-1
③ SK←选择K个参与者;
④ for参与者k∈SK,并行执行
⑤ if t≠0
⑥![]()
⑦ end if
⑧![]()
⑨ end for
⑩ for参与者k从1~K
if t≠0
end if
end for
end for
参与者k执行:
①![]()
② Bk←将数据集Dk划分为小批量;
③ for时期e从1~E
④ for批量b∈Bk
⑤![]()
⑥ end for
⑦ end for
⑧ 返回
给服务器;
⑨ end function
⑩![]()
收集
在Dk上的准确率;
返回
给服务器;
end function
算法2中共有2个实体:服务器和参与者.服务器和参与者执行不同的伪代码,且参与者之间是并行的.其中
函数表示参与者在下载本轮全局模型后用其替代本地模型,在其本地数据上进行训练,并将更新后的模型参数上交给服务器.
表示收集本轮全局模型在参与者本地测试数据上的准确率.而在服务器端,主要进行聚合操作.每轮中在收到各个参与者的提交的本地模型
和准确率
后,计算它们的权重
在收到并计算完本轮所有参与者
和
后,利用行
公式进行聚合,并将最新的聚合模型
发送给参与者,整个过程重复T次.算法2是本文思想的重要体现,通过此算法,可以在保证联邦学习有效性的基础上,使参与者在本地数据上的准确率分布更均衡.
α-FedAvg算法设定每轮中所有参与者都会诚实地向服务器汇报本地模型参数和准确率,这使得它的应用场景具有很大的局限性.对于一般场景中可能存在的会谎报准确率的参与者,我们也给出了解决方案:通过参与者提交部分合成数据、服务器进行验证的方式,保证参与者汇报准确率的真实性.同时服务器可通过设定容忍参数将超出阈值的参与者踢出聚合过程.
合成数据发布技术是通过发布合成的数据集,来取代对原始数据集的查询结果,且生成的合成数据可以隐藏原始数据中的敏感信息.目前,该领域的发展已经非常成熟.我们可使用文献[26]中提出的基于贝叶斯网络的差分隐私合成数据发布方法.在预处理阶段,每个参与者都先与服务器约定好密钥,使用该方法,以本地测试数据为原型生成合成数据集并将加密后的数据发送给服务器.服务器端收到后解密并存储数据.服务器端设定2个参数:容忍误差λg和容忍次数阈值Tg.服务器可在每轮中选取部分参与者,验证全局模型在该参与者的合成数据集上的准确率与参与者提交的准确率是否一致,误差超过λg则容忍次数加1,容忍次数超出阈值Tg则将会被服务器标记为不可信,无法参与后续的聚合过程.该方法有效地保证了参与者提交准确率的真实性,保障了存在自私参与者中的α-FedAvg算法的公平性.
表1展示了每一轮迭代中2种算法的计算和通信开销对比,其中K代表参与者个数,n代表模型参数个数,t1代表前向传播计算时间,t2代表反向传播时间,E代表本地训练轮数.
1) 通信开销.对于传统的FedAvg算法,服务器需要与K个参与者通信,因此其通信开销为O(K).每个参与者仅需与服务器通信,因此其通信开销为O(1),本文所提的α-FedAvg算法也是如此.
2) 计算开销.传统的FedAvg算法中,服务器基于参与者上传的K个模型计算全局模型,每个模型包含n个参数,对于每个参数计算其平均值,因此时间复杂度为O(Kn).我们提出的α-FedAvg算法在此基础上,通过K个准确率计算对应的模型权重,其时间复杂度为O(2K),因此总的时间复杂度为O(2K+Kn).传统的FedAvg算法中,参与者基于本地数据优化模型,本地训练轮数为E,每一轮中,通过神经网络优化算法更新模型参数,包括一次前向传播和反向传播,因此其时间复杂度为O(E(t1+t2)).我们所提的α-FedAvg算法在此基础上,需要根据全局模型计算准确率,其相当于一次前向传播过程,时间复杂度为O(t1),因此总的时间复杂度为O(E((t1+t2)+t1).
Table 1 Communication Cost and Computation Cost
表1 通信开销和计算开销
开销FedAvgα-FedAvg服务器的通信开销O(K)O(K)参与者的通信开销O(1)O(1)服务器的计算开销O(Kn)O(2K+Kn)参与者的计算开销O(E(t1+t2))O(E((t1+t2)+t1)在MNIST上的运行时间∕s11771241在CIFAR-10上的运行时间∕s24202538
我们在实验过程中记录了相同条件下多次运行100轮经典联邦学习FedAvg和本文算法所需要的平均运行时间,它们的差值约在2 min以内.总的来说,我们所提的算法在保证联邦学习公平性和有效性的基上,复杂度与原来相差不大,不会引入过多的计算开销和通信开销.
在本节中,我们评估了本文所提算法α-FedAvg的性能.首先我们描述了实验设置,包括数据集和本地模型;然后展示了α-FedAvg相比于经典联邦学习算法FedAvg的有效性;最后将α-FedAvg和已有的其他公平联邦学习算法作了对比.
1) 数据集.我们在深度学习常用的2个基准数据集上实现了我们的算法,第1个是手写数字识别数据集MNIST,它包含了60 000个训练样本和10 000个测试样本,每张图片为数字0~9中的1个,且数字位于图片中央.为了提高算法的泛化能力,我们在训练之前对原始数据做了一些增强处理,如将每张图片旋转任意角度或进行平移变换.为了更好地模拟真实世界,将数据集在参与者间进行划分时采用non-IID不平衡划分方式.首先我们将数据集按照数字标签排序,然后将其划分为1 200个分片,每个分片包含50张数据,设定每个参与者拥有的最大分片数为30,最小分片数为1.实验中共100个参与者,每个参与者拥有一定分片的数据,且所有参与者分片总数一定.这种划分方式保证了每个参与者最多拥有3个类别的数字样本,且相互之间样本数量差距悬殊.第2个是CIFAR-10数据集,它包含50 000个训练样本和10 000个测试样本,共10个类别,每个类别有6 000个图像,每张样本是由32×32个像素点组成的彩色图像,这个数据集最大的特点在于将识别迁移到了普适物体,数据中需要提取的特征较大且含有大量噪声,识别物体的比例也不一样,因此CIFAR-10数据集对于图像识别任务更具有挑战性.CIFAR-10数据集在参与者间的划分方式也采用non-IID不平衡设定,实现细节和MNIST类似.
2) 模型.如图2所示,我们在实验中用到了2种模型:①一个最简单的多层感知器(MLP),包含一个隐藏层;②一个经历2次卷积和最大池化的卷积神经网络(CNN).2种模型中激活函数都使用ReLU并加入Dropout层缓解过拟合的发生.
Fig. 2 Neural network architectures
图2 神经网络结构
3) 实现.我们在深度学习框架Pytorch上实现了我们的代码,用电脑模拟了联邦学习的训练过程,虚拟对象包括一台服务器和100个参与者.
Fig. 3 Changes of the number of participants under different test accuracy intervals in two algorithms
图3 2种算法中参与者个数在不同测试准确率区间的变化
为了突出本文所提算法α-FedAvg的公平和有效性,我们将其与经典联邦学习算法FedAvg做了比对.为了排除无关因素的影响,我们控制2种算法的实现条件基本相同,包括参与者之间的数据划分、全局模型初始化数值和一些参数设置.实验中,我们设置每轮聚合中参与者个数K=10,本地批大小B=5,本地时期E=5,学习率n=0.01.我们用MNIST和CIFAR-10数据集及其模型组合共进行了4组实验,分别测试最终模型在各个参与者本地数据集上的准确率,得到1组数值.我们将整个准确率区间0~1共分为50份,统计这组数值落入对应区间的客户数目,画出频数分布直方图.图3展示了α-FedAvg和FedAvg算法经过100轮聚合后,最终模型在各个参与者的准确率分布图,曲线部分为准确率数组的核密度估计,通过核密度估计图可以比较直观地看出数据样本本身的分布特征.以图3(a)为例,通过左右2部分子图对比,我们可以看出α-FedAvg算法中参与者准确率分布更集中,曲线更陡峭,从而反映出参与者之间准确率方差更小,系统更公平.
表2进一步描述了2种算法得到的参与者准确率的统计分布和系统度量对比,其中T表示中央聚合次数,E表示有效度量,J表示公平度量.我们选取了T=5和T=100的情况研究聚合次数是否对算法表现造成影响.从表2中可以看出,无论是T=5或T=100,本文所提的α-FedAvg算法都可以提升聚合模型的公平和有效性,且在保持参与者的平均准确率不变或略有增加的情况下,提升最坏参与者的准确率,降低最好参与者的准确率,减小参与者之间准确率分布的方差,即α-FedAvg算法可在达到公平需求的同时保持总体性能不受影响.
Table 2 Statistics of the Test Accuracy Distribution for Our Algorithm Compared with Normal Federated Learning Algorithm FedAvg
表2 本文算法与常规联邦学习算法FedAvg相比在测试集上的准确率分布
数据集模型T算法EJ平均准确率∕%最坏10%准确率∕%最好10%准确率∕%方差MNISTMLPCNN51005100α-FedAvg0.75710.932476.0526.2397.85428.75FedAvg0.72510.915473.6121.6599.21513.44α-FedAvg0.90050.999790.7776.2010052.06FedAvg0.88950.999689.7869.7610078.23α-FedAvg0.77660.942677.2235.2299.00365.69FedAvg0.75880.919076.1522.9599.07514.05α-FedAvg0.96830.995996.8289.3010011.53FedAvg0.96810.994696.6788.0810015.00CIFAR-10MLPCNN51005100α-FedAvg0.30980.756632.120.9360.71334.36FedAvg0.28880.672429.960.0063.85439.35α-FedAvg0.40580.884742.4916.4771.01247.10FedAvg0.40050.824442.226.5473.91392.46α-FedAvg0.38030.779136.617.1369.71347.73FedAvg0.35140.802139.973.1479.00473.59α-FedAvg0.53880.947554.7233.4975.44138.17FedAvg0.54180.921453.3325.2677.20208.25
Fig. 4 Training loss and average accuracy changing with the communication rounds
图4 训练损失和平均准确率随聚合次数的变化
α-FedAvg算法取得的公平性已在图3和表2得到了论证.接下来我们会进一步研究它的有效性.在训练中,我们记录每一轮聚合后的模型在参与者本地训练数据上的平均准确率和损失函数值,画出图4所示曲线.从图4(a)中可以看出,本文提出的α-FedAvg算法与经典联邦学习算法FedAvg的收敛速度基本一致;从图4(b)中可以看出,2种算法在训练集上的平均准确率变化情况也大致相同.图4再一次说明我们的算法是有效的,在追求公平需求的同时不会影响联邦学习的整体性能.
Fig. 5 Changes of the number of participants under different test accuracy intervals in three algorithms
图5 3种算法中参与者个数在不同测试准确率区间的变化
在本节中,我们将α-FedAvg与已发表的其他在联邦学习中施加公平约束的方案作了对比,与我们工作相似的最新成果是2020年发表的文献[9,21].在文献[9]中,该文作者提出了一种新的更公平的联邦学习优化目标q-FFL,为了解决这一优化目标,设计了一种高效的学习算法q-FedAvg,它能有效降低学习到的最终模型在设备间准确率分布的方差,同时保证平均准确率不受影响.文献[21]中作者提出了算法FedFa,它通过参与者的频率和准确率来调整聚合权重,使最终模型对参与者来说更公平.我们分别复现它们在Vehicle,Sent140,Synthetic,Femnist[27]数据集上的实验结果,并在此基础上实现了我们的算法和基准算法FedAvg.其中Vehicle为图像数据集,由23个传感器中收集的声学、地震和红外传感器数据组成.我们将每个传感器作为一个参与者,模型使用SVM完成基本的二分类问题.Sent140数据集是用于情感分析任务的文本数据集,模型使用2层长短期记忆网络(LSTM)和一个密集连接层.Synthetic是一个采用文献[28]中设定的合成数据集,使用简单的回归模型来做分类任务.Femnist是一个衣物图像数据集,模型使用MLP.图5展示了α-FedAvg与其他2种算法在相同条件下训练得到的最终模型在参与者本地数据集上准确率的分布情况.可以看出相比于FedAvg,α-FedAvg的曲线更陡峭,直方图更集中,方差更小;q-FFL与α-FedAvg结果较为接近.
我们在表3中进一步报告了最终准确率的统计分布,包括平均准确率、最坏10%准确率、最好10%准确率和方差.可以看出,在其他3个数据集上,α-FedAvg算法在保证平均准确率与基准算法FedAvg相似甚至略好的情况下,参与者之间的准确率方差都比其他2种公平算法更小一点.而q-FFL虽然在Sent140上方差小于α-FedAvg,但相较于基准算法,损失了准确率.而α-FedAvg算法既保证了有效性又保证了公平性.
同时,我们也验证了当测试数据与训练数据存在一些分布转移时,我们的算法在这种测试数据上的准确率表现.文献[19]的工作就是为了解决这一问题.该文作者在文中提出了agnostic FL优化目标,并为优化该目标提出了AgnosticFair算法.我们在Adult数据集上实现了α-FedAvg算法.该数据集是从人口普查数据库中提取出来的,用于预测一个成年人的年收入是否超过5万元.我们将性别作为敏感属性,按照文献[19]中划分训练和测试数据的方式进行了实验.表4展示结果对比,其中RD(risk difference)表示率差,
用于衡量保护敏感属性的公平程度,率差越小越公平,S表示敏感属性.AgnosticFair-a表示优化agnostic目标但是没有加入任何公平约束.
Table 3 Statistics of the Test Accuracy Distribution for Our Algorithm Compared with q-FFL and FedFa
表3 本文算法与q-FFL, FedAvg和FedFa相比在测试集上的准确率分布统计
数据集算法平均准确率∕%最坏10%准确率∕%最好10%准确率∕%方差α-FedAvg87.1669.8893.9940.58Vehicleq-FFL87.3368.7393.7248.24FedAvg85.8847.2895.26247.31Sent140α-FedAvg70.0043.1092.85197.10q-FFL68.3845.2589.61157.01FedAvg69.4335.3795.08345.74FedFa68.8342.6695.71319.04Synthetic_iidα-FedAvg92.2770.76100.0085.24q-FFL89.8869.37100.0091.29FedAvg90.0767.04100.00105.52FedFa85.7071.46100.0098.74α-FedAvg82.5845.42100.00263.45FemnistFedAvg81.8831.95100.00391.47FedFa77.9648.99100.00368.93
Table 4 Model Performance Under Data Distribution Shift
表4 在数据分布转移下的模型性能
算法训练准确率∕%测试准确率∕%测试RDα-FedAvg78.6279.850.0721AgnosticFair74.1376.260.0196AgnosticFair-a78.2082.940.1306
从表4中可以看出,我们的算法测试准确率和公平性都介于不加公平约束的AgnosticFair-a和AgnosticFair算法之间.这说明算法α-FedAvg在测试集存在分布转移时也是有一定公平作用的,因为我们在每轮中收集了测试集上的准确率来调整权重.AgnosticFair算法在该场景下能达到较好的公平性,但是可能会以牺牲准确率为代价.
在本文中,我们提出了一种新的联邦学习算法α-FedAvg,使聚合模型在参与者本地数据上的准确率分布更均衡.首先,类比资源分配领域,我们给出了联邦学习系统公平和有效性的度量方法;然后我们引入了α-fairness并研究了参数α对公平和有效性的影响,通过一种算法确定了我们需要的α值;最后根据求得的α值和权重pk计算公式对聚合过程重新加权,提出了α-FedAvg算法.α-FedAvg可在保持与经典联邦学习算法FedAvg同等有效性的基础上,使参与者之间准确率方差更小,即聚合结果更公平,实验结果证明了我们提出的方法是有效的.进一步的工作也非常具有吸引力.特别是,研究如何抵御上传伪造模型参数来影响聚合模型公平的恶意攻击者,并设计适用于本文算法的激励机制,鼓励更多的参与者加入我们的聚合过程.
作者贡献声明:田家会提出研究思路,设计研究方案,负责实验设计和撰写论文;赵斌提出研究思路,设计研究方案;吕锡香、邹仁朋和李一戈参与论文修订.
[1]McMahan B, Moore E, Ramage D, et al. Communication-efficient learning of deep networks from decentralized data[C] //Proc of the 20th AISTATS 2017. Cambridge, MA: JMLR, 2017: 1273-1282
[2]Shokri R, Shmatikov V. Privacy-preserving deep learning[C] //Proc of the 22nd CCS’15. New York: ACM, 2015: 1310-1321
[3]Abadi M, Chu A, Goodfellow I, et al. Deep learning with differential privacy[C] //Proc of the 23rd CCS’16. New York: ACM, 2016: 308-318
[4]Aono Y, Hayashi T, Wang Lihua, et al. Privacy-preserving deep learning via additively homomorphic encryption[J]. IEEE Transactions on Information Forensics and Security, 2017, 13(5): 1333-1345
[5]Mohassel P,Zhang Yupeng. SecureML: A system for scalable privacy-preserving machine learning[C] //Proc of S&P 2017. Piscataway, NJ: IEEE, 2017: 19-38
[6]Liu Junxu, Meng Xiaofeng.Survey on privacy-preserving machine learning[J]. Journal of Computer Research and Development, 2020, 57(2): 346-362 (in Chinese)(刘俊旭, 孟小峰. 机器学习的隐私保护研究综述[J]. 计算机研究与发展, 2020, 57(2): 346-362)
[7]Mehrabi N, Morstatter F, Saxena N, et al. A survey on bias and fairness in machine learning[J]. arXiv preprint, arXiv:1908.09635, 2019
[8]Mohri M, Sivek G, Suresh A T. Agnostic federated learning[C] //Proc of the 36th ICML. Cambridge, MA: JMLR, 2019: 4615-4625
[9]Li Tian, Sanjabi M, Beirami A, et al. Fair resource allocation in federated learning[J]. arXiv preprint, arXiv:1905.10497, 2019
[10]Caton S, Haas C.Fairness in machine learning: A survey[J]. arXiv preprint, arXiv:2010.04053, 2020
[11]D’Alessandro B, O’Neil C, Lagatta T. Conscientious classification: A data scientist’s guide to discrimination-aware classification[J]. Big Data, 2017, 5(2): 120-134
[12]Xu Depeng, Yuan Shuhan, Zhang Lu, et al. FairGAN: Fairness-aware generative adversarial networks[C] //Proc of IEEE Big Data. Piscataway, NJ: IEEE, 2018: 570-575
[13]Berk R, Heidari H, Jabbari S, et al. A convex framework for fair regression[J]. arXiv preprint, arXiv:1706.02409, 2017
[14]Woodworth B, Gunasekar S, Ohannessian M I, et al. Learning non-discriminatory predictors[C] //Proc of the 34th COLT 2017. Cambridge, MA: JMLR, 2017: 1920-1953
[15]Bellamy R K E, Dey K, Hind M, et al. AIfairness 360: An extensible toolkit for detecting, understanding, and mitigating unwanted algorithmic bias[J]. arXiv preprint,arXiv:1810.01943, 2018
[16]Lyu Lingjuan, Yu Jiangshan, Nandakumar K, et al. Towards fair and privacy-preserving federated deep models[J]. IEEE Transactions on Parallel and Distributed Systems, 2020, 31(11): 2524-2541
[17]Lyu Lingjuan, Xu Xinyi, Wang Qian, et al. Collaborative fairness in federated learning[M] //Federated Learning. Switzerland: Springer, Cham, 2020: 189-204
[18]Zhang Jingfeng, Li Cheng,Robles-Kelly A, et al. Hierarchically fair federated learning[J]. arXiv preprint,arXiv:2004.10386, 2020
[19]Du Wei, Xu Depeng, Wu Xintao, et al. Fairness-aware agnostic federated learning[C] //Proc of SDM.Philadelphia, PA: SIAM, 2021: 181-189
[20]Hashimoto T, Srivastava M, Namkoong H, et al. Fairness without demographics in repeated loss minimization[C] //Proc of the 35th ICML. Cambridge, MA: JMLR, 2018: 1929-1938
[21]Huang Wei, Li Tianrui, Wang Dexian, et al. Fairness and accuracy in federated learning[J]. arXiv preprint, arXiv:2012.10069, 2020
[22]Lan Tian, Kao David, Chiang Mung, et al. An Axiomatic Theory of Fairness in Network Resource Allocation[M]. Piscataway, NJ: IEEE, 2010: 1-9
[23]Guo Chongtao, Sheng Min, Zhang Yan, et al. A Jain’s index perspective on α-fairness resource allocation over slow fading channels[J]. IEEE Communications Letters, 2013, 17(4): 705-708
[24]Sediq A B, Bin A, Gohary R H, et al. Optimal tradeoff between sum-rate efficiency and Jain’s fairness index in resource allocation[J]. IEEE Transactions on Wireless Communications, 2013, 12(7): 3496-3509
[25]Danner G, Jelasity M. Fully distributed privacy preserving mini-batch gradient descent learning[C] //Proc of DAIS 2015. Berlin: Springer, 2015: 30-44
[26]Xiao Yafei. Research on the theory and method of differential privacy synthetic data publication[D]. Huainan: Anhui University of Science & Technology, 2018 (in Chinese)(肖亚飞. 差分隐私合成数据发布理论及方法研究[D]. 淮南: 安徽理工大学, 2018)
[27]Cohen G, Afshar S, Tapson J, et al, Emnist: Extending MNIST to handwritten letters[C] //Proc of IJCNN. Piscataway, NJ: IEEE, 2017: 2921-2926
[28]Shamir O, Srebro N, Zhang T. Communication-efficient distributed optimization using an approximate newton-type method[C] //Proc of the 31st ICML. Cambridge, MA: JMLR, 2014: 1000-1008
附录A. 正文的定理1和定理2证明.
正文的定理1证明.研究参数α对定义的系统公平性J(α)的影响时,将α看作自变量,集合{a1,a2,…,aK}为准确率在评估模型时已知.求J(α)对α的导数:
![]()
J′(α)式子中
恒为正,因此只需判断A的正负性.又因
和ln x同为增函数,可得:
![]()
所以J′(α)≥0,且当a1=a2=…=aK时等号成立.由此可得J(α)随α单调递增.
正文的定理2证明.
![]()
同理根据ln x为增函数,1/x为减函数,可得B≤0,从而E′(α)≤0,且当a1=a2=…=aK时等号成立.由此可得E(α)随α单调递减.
![]()
从本文所提算法通过收集准确率,影响联邦学习参与者聚合时的权重pk(α)的角度,定理2依然成立,证明如下.
1) 整体来看,当每一轮中{a1,a2,…,aK}为确定值,参数α对模型权重pk的影响:
![]()
的正负与C的正负一致,而C的值与ak的大小相关.对于{a1,a2,…,aK}中的最大值amax,ln ai-ln amax<0,因此C<0.对于{a1,a2,…,aK}中的最小值amin,ln ai-ln amin>0,因此C>0.所以存在某个at,使得C=0.综上所述,对于较小的准确率ak(ak<at),α越大聚合权重pk越大;对于较大的准确率ak(ak>at),α越大聚合权重越小.所以α越大,准确率越低、性能越差的参与者在下一轮联邦学习优化目标
中占比越高,优化效果越明显,模型性能提升越好.准确率高的优化效果不那么明显,这也与我们定理1的结论是符合的.
2) 局部来看,在每一轮中参数α固定时准确率ak对模型权重pk的影响:
由此可得
所以当参数α>1时,准确率ak越高的参与者聚合权重越低,准确率越低的聚合权重越高,优化效果越明显,满足我们的公平需求;当α=1时对应聚合时平等加权;而当α<1时无法保证聚合模型的公平性.所以在应用算法追求公平时应保证参数α>1.
对于参数α取值不同对联邦学习系统公平性和有效性的影响,我们在MNIST和CIFAR-10数据集上也进行了实验验证,实验结果如图A1所示.在保持其他聚合条件相同的情况下,任意选取了一些满足定义的α取值,记录最终聚合模型的有效性E(α)和公平性J(α)的取值.其中星状点为通过算法1计算出的α取值.
从图A1中可以看出,当α<1时,模型有效性可能还不错,但公平性得不到保障;α=1时(平等加权)有效性和公平性都不是最理想的;而当α>1时,整体趋势是满足定理1和定理2的.
证毕.
Tian Jiahui, born in 1998. Master. Her main research interests include fairness and privacy protection in federated learning.
田家会,1998年生.硕士.主要研究方向为联邦学习中的公平性和隐私保护.
Lü Xixiang, born in 1978. PhD, professor, PhD supervisor. Her main research interests include network and protocol security, machine learning security, cryptographic algorithms and protocols.
吕锡香,1978年生.博士,教授,博士生导师.主要研究方向为网络与协议安全、机器学习安全、密码算法与协议.
Zou Renpeng, born in 1993. PhD. His main research interest is blockchain privacy protection.
邹仁朋,1993年生.博士.主要研究方向为区块链隐私保护.
Zhao Bin, born in 1996. Master. His main research interests include IoT security and machine learning.
赵 斌,1996年生.硕士.主要研究方向为物联网安全和机器学习.
Li Yige, born in 1995. PhD. His main research interest is machine learning security.
李一戈,1995年生.博士.主要研究方向为机器学习安全.