-
摘要:
随着网络技术的发展,如何构建可信任的新一代信息管理系统成为了必要需求,区块链技术提供了去中心化、透明、不可篡改的可信分布式底座. 随着人工智能技术的发展,网络数据计算领域出现了数据孤岛问题,各开发者之间的不信任导致难以联合利用各方数据进行协同训练,联邦学习虽然提供了数据隐私性保障,但是服务器端安全性仍存在隐患. 传统方法通过将联邦学习框架中的服务器端替换为区块链系统以提供不可篡改的全局模型数据库,但是这种方式并未利用物联网场景中所有可用网络连接,并缺少了针对联邦学习任务的区块结构设计. 提出了基于区块链辅助的半中心化联邦学习框架,从物联网场景需求出发,构建了半中心化的物联网场景,利用了所有可信的网络连接以支撑联邦学习任务,同时通过区块链技术为不可信、距离远的客户端之间构建了不可篡改的模型库,相比传统区块链联邦学习框架有更小的通信开销和更好的普适性. 所提框架包含两大设计,半中心化的联邦学习框架通过客户端之间的可信连接减少聚合所带来的通信开销,并通过区块链存储客户端模型以便于距离较远或者相互不可信的客户端进行聚合;设计了针对联邦学习任务的区块链区块,使区块链能够支持底层联邦学习训练的需求. 实验证明所提框架在多个数据集上相比传统联邦学习算法有至少8%的准确率提升,并大幅度减少了客户端之间相互等待带来的通信开销,为实际场景下的区块链联邦学习系统部署提供了指导.
Abstract:With the development of network technology, building a trusted new-generation information management system is necessary. Blockchain technology provides a decentralized, transparent, and tamper-proof distributed base. On the other hand, with the development of artificial intelligence technology, data islands have been a common issue in the field of network data computing. The distrust among developers has made it difficult to jointly utilize all parties’ data for collaborative training. Although federated learning provides data privacy protection, there are still hidden dangers in server-side security. The traditional methods replace the server in the federated learning framework with a blockchain system to provide a tamperproof global model database. However, this approach does not utilize all available network connections in the Internet of things scenario and lacks a block structure design for federated learning tasks. We propose a blockchain-assisted semi-centralized federated learning framework. Starting from the requirements of the Internet of things scenario, our approach constructs a semi-centralized Internet of things structure and utilizes all trusted network connections to support federated learning tasks. At the same time, our approach constructs a tamper-proof model database for untrusted and remote clients through blockchain technology. Compared with traditional blockchain federated learning frameworks, our approach has a smaller communication overhead and better universality. The framework includes two major designs. The semi-centralized federated learning framework reduces the communication overhead brought by aggregation through trusted connections between clients, and stores client models through blockchain for aggregation on remote or untrusted clients to improve the universality and performance of local models. The design of blockchain blocks for federated learning tasks can support the needs of underlying federated learning training. Experiments have shown that this framework has an accuracy improvement at least 8% compared with traditional federated learning algorithms on multiple datasets, and significantly reduces the communication overhead caused by the waiting aggregation process between clients, providing guidance for the deployment of blockchain federated learning systems in practical scenarios.
-
移动群智感知(mobile crowdsensing, MCS)是Ganti等人[1]提出的,是一种在用户或社区之间感知和共享数据的新方法. Guo等人[2]给MCS更为明确的定义:“MCS是一种新的感知范式,使普通公民能够贡献从移动设备感知或生成的数据,聚合和融合云中的数据,用于人群智能提取和以人为中心的服务交付. ”[3]随着高性能的便携式移动设备与高速智能网络的普及,移动群智感知技术快速发展并深入到智慧医疗、交通流量预测以及智慧城市等各个领域,需要采集处理的数据集也日渐庞大,MCS系统需要大量用户的参与和贡献[4],如何在数量庞大的参与者中选择合适的参与者完成给定的感知计算任务,且最大化平台和用户的收益显得格外重要. 任务分配系统主要由3部分组成:平台(任务发布者)、工人(用户,携带移动智能设备负责采集感知数据)和任务(如收集某地区的空气质量数据、监测某路段的交通流量等). 如图1所示,任务由平台基于一定的收益计算机制分配给工人,然后工人利用移动智能设备到指定任务点进行相关感知数据的收集并上传到平台获取相应报酬. 一方面,考虑到任务的时效性以及预算,任务应当被合理地分配给合适的工人,保证任务分配合理化的同时尽可能最大化平台总收益;另一方面,工人上传信息时通常无法避免暴露自身位置等隐私信息. 因此,在MCS系统中,合理的任务分配机制与工人信息的隐私保护问题尤为重要. 传统的任务分配算法,如蚂蚁算法、贪婪算法,适合于小规模数据集,应用于工人与任务信息固定的静态系统,但实际问题中工人与任务的位置、状态信息会不断改变,因此,深度学习被越来越多的研究者引入到这样的动态系统中来解决相应的动态规划问题.
深度强化学习(deep reinforcement learning, DRL)可以基于过去的经验,通过智能体选择动作与环境交互并获得相应的状态和回报[5],在每次进行决策的过程中,智能体的策略选择的概率分布不断调整,最终达到最优的全局策略. 因此在动态的MCS问题中,DRL往往能发挥更好的性能. 在DRL的众多方法中,DQN(deep Q-network)[6]和A3C(asynchronous advantage actor-critic)[7]可以表现出良好性能,但仅限在离散的动作空间中;DDPG(deep deterministic policy gradient)[8]是一种离线的、确定性的方法,相对不适合需要实时控制解决方案的动态场景;TRPO(trust region policy optimization)[9]采用信任区域方法,其性能优于许多随机在线策略梯度方法,更适合于需要更多探索的场景;PPO(proximal policy optimization)[10]是一种无模型的、基于策略的、基于梯度的强化学习方法,它在连续控制问题的表现极其优异,并具有TRPO的相应优点且实现复杂性要低得多. 本文的算法采用了PPO框架,该框架可以更好地适配离散型和连续型的状态/动作集合,甚至在复合型的状态/动作集合的表现也较为良好,并且相对于其他的DRL方法,PPO的表现也较为优异,具有更快的收敛性.
同时,考虑到工人在与平台进行数据交互时往往会暴露自己的移动轨迹信息,因而本文采用本地差分隐私在工人与平台的交互中进行隐私保护. 差分隐私的概念最早由Dwork[11]提出,建立在严格的数学理论基础上,对隐私保护提供了量化的评估方法和严谨的数学证明. 本文方法在平台与工人的信息交互中,利用本地差分隐私的方法,对其位置信息加入随机噪声,最大限度地保护工人的隐私信息.
本文是面向MCS任务分配问题,使用DRL与差分隐私方法在保护隐私的前提下获得优化的任务分配策略. 将动态环境下的任务分配问题定义为一个基于离散型数据集来进行动态规划的优化问题,并使用基于DRL的算法来解决动态环境下的任务分配问题. 具体来说,在每次迭代开始时,该算法观察了之前迭代中平台的分配策略、平台收益、工人收益、现有任务信息以及工人信息. 根据观察结果,由基于DRL的算法来决定工人分配到的任务以及任务的顺序,在此过程中利用差分隐私来对工人相关隐私信息做了模糊化处理. 本文的目标是最大化平台的总收益和工人收益,被定义为工人收益与平台总收益的联合约束问题,此外还考虑了隐私保护的相关问题. 本文的主要贡献总结为4个方面:
1)将MCS动态场景下的任务分配问题建模为一个多目标优化问题,并证明为NP-hard问题. 充分考虑了在MCS的任务分配问题中,工人与任务状态信息不断变化的动态系统,以及工人与平台进行数据交互的隐私保护的必要性.
2)提出基于DRL的PPO方法求解该优化问题. 相比于传统方法,DRL在中大型数据集的MCS问题中表现性能良好、收敛性好,能更快达到最优解,同时考虑了真实的MCS中工人和任务的动态性,利用DRL方法更适用于解决此类动态的、非确定性的MCS问题.
3)提出基于差分隐私的任务分配方法. 在工人的智能移动设备与中央服务器交互中利用本地差分隐私的方法,对工人的位置信息加入随机噪声,模糊化工人位置信息,进而解决中央服务器收集工人信息时存在的隐私泄露问题.
4)通过实验评估本文方法的有效性和高性能. 通过模拟数据集的实验,对比了传统方法与现有方法,验证了本文的模型具有稳定性能,且收敛效果较好;此外还进行了消融实验,证明了加入隐私保护方法的有效性.
1. 相关工作
1.1 传统任务分配方法
Cheung等人[12]研究了时间敏感和位置依赖的感知任务的分配问题. 考虑到具有不同初始位置、移动成本和速度以及声誉级别的异构用户,提出了一种贪婪算法来计算该问题的近似解. 该算法要求每个用户专注于自己的收益,并向用户提供一个异步的分布式算法来计算用户的移动性计划. 该算法的设计目标是最大化用户收益,但无法适用于工人状态信息变化的动态系统. 在文献[13]中,Li等人提出了基于蚁群算法ACO(ant colony optimization)的启发式多任务调度算法来确定任务调度策略,对工人福利的计算模型进行理论分析,利用基于ACO的启发式多任务调度算法来确定任务调度策略,以最大限度地提高工人的利益. 但该方法同样仅适用于静态系统,对于动态系统,越来越多的研究者倾向于基于DRL的算法[14-15].
1.2 基于DRL的算法
2013年谷歌的DeepMind团队发表了利用强化学习玩Atari游戏的文章[16],DRL开始炙手可热,相关算法被更多的研究者引入到各个领域. Kim等人[17]将DRL的方法应用于无人机的任务分配问题上,用基于Q值的深度强化学习算法 DQN来实现快速策略收敛,从而有可能适用于更大规模的系统,进而解决难以量化的由随机环境引起的无人机移动性的随机性问题. Tao等人[18]使用双深度Q网络(double deep Q-network, DDQN)来解决任务分配问题,作为一个具有时间窗的路径规划问题,考虑了感知任务的位置依赖性和时间敏感性,以及工人在最大旅行距离方面的资源限制. 在文献[19]中,Patel等人针对联邦环境下计算资源分配问题,提出了一个旨在使系统总成本最小化的优化问题,并将其定义为训练时间和能量消耗的加权和. 考虑到非线性约束的难度和网络质量的不稳定,该团队设计了一种基于DRL的经验驱动算法,该算法可以在不了解网络质量的情况下收敛到接近最优解.
1.3 差分隐私
在文献[11]中,差分隐私的概念被Dwork首次提出,该文章通过严谨的数学证明,可以保证数据变化时用户隐私不受攻击者所知的背景知识的影响. 之后Dwork对原有差分隐私的概念进行改进,提出本地化差分隐私[20],将信息的隐私处理工作转移到用户端,对差分隐私进行量化,每个用户单独对敏感数据进行处理,使得隐私保护更为彻底. Chen等人[21]将本地差分隐私应用于位置数据保护,通过对位置数据加入拉普拉斯噪声,实现对位置数据的隐私保护. Wang等人[22]提出了一种基于差分隐私以及Hilbert曲线的位置保护方法,将位置映射到一维空间中,通过拉普拉斯噪声对位置信息进行扰动,将处理后的位置信息发送给平台来实现位置信息保护.
2. 问题定义
假设在该系统中有n个携带智能移动设备的工人W={w1, w2, …, wn},m个任务V={v1, v2,… , vm}. 进而工人的智能移动设备可用Dev={Dev1, Dev2, …, Devn}表示,并定义第i个工人由wi={Pwi, Vwi, xi, yi}表示,第j个任务由vj={tvj, rvj, xj, yj, rpj}表示,其中(xi, yi)和(xj, yj)表示坐标,Pwi是第i个工人该时刻所有任务的开销集合,Vwi是该工人当前被分配到的任务队列,tvj表示第j个任务所需时间,rvj表示该任务的奖励,rpj表示完成该任务平台可获取的收益. 该系统是动态的,即工人与任务状态位置信息不断改变,在不同时刻下工人完成已有任务后会有“闲置状态”,此时需要在每次迭代时将“闲置”的工人重新放入在“待分配”工人的队列里,同时每个工人可接受的任务也是有限的,这需要根据工人的报酬以及任务对于工人的收益进行约束,例如距离较远的任务的开销大于收益则不会分配给工人,进而间接限制了工人所接受任务的数量,这就避免了任务分配不均的问题.
工人完成任务是有时效性的,因此在每个工人与任务里加入了时间戳,记录工人完成任务的时间,并标注出每个任务的完成时间限制. 此外,考虑到工人开销的差异性,即任务对于每个工人的开销应该是不一样的,因而加入了笛卡儿坐标系,为每个工人和任务设置了位置坐标,每个工人依据距离和自己未完成的任务量计算任务开销. 例如对于第i个工人,计算第m个任务开销时,距离越远,任务开销越大,自身未完成任务量(加权后的任务数量)越多,任务开销越大,反之亦然. 这里,定义第i个工人对于第j个任务的开销为:
Pjwi=ζ√(xi−xj)2−(yi−yj)2+αθi, (1) θi=∑vj∈Vwitvj, (2) 其中θi表示该工人的完成任务所需总时间,ξ表示第i个工人到第j个任务点的欧氏距离权重,α为时间权重,这里体现出了每个工人的任务开销的差异性.
可定义第i个工人的收益以及平台总收益为
ri=∑vj∈Vwi(rvj−Pjwi), (3) Rp=∑vj∈Vout(rpj−rvj), (4) 其中ri表示第i个工人的收益,Rp表示此时平台总收益,Vout表示此时所有被分配出去的任务集合.
最终,将这一个基于离散型数据集的动态策略优化问题定义为
max{λ1Rp+λ2ri}, (5) s.t. 0<Pmin⩽ (6) 其中式(5)代表最大化平台总收益同时也要最大化当前第i个工人的收益,λ1与λ2为两者的收益权重,在式(6)中的约束代表第i个工人完成第j个任务时的报酬要保证不小于最小值Pmin,且Pmin是一个大于0的常量.
从式(3)(4)中可以看出平台总收益与工人的收益是负相关的,而在本文的问题中,更希望两者都能达到最大化,因此采用联合优化方式,通过调节权重值来平衡双方利益,实现双方的纳什均衡.
由上述的问题定义可证明MCS的任务分配问题是一个NP-hard问题. 首先假设一个特殊情况,即只有一个工人,任务集合不变. 然后,该工人有一个设定的最大旅行距离,且支付给工人的报酬设置为0. 最后,平台的总利润等于该工人完成任务的报酬,这也映射到定向运动问题,且该问题已被证明为NP-hard问题[23],则可推论本文的问题同样是NP-hard问题.
3. 系统模型及算法
3.1 系统模型概述
本文的系统模型如图2所示,任务发布者在模型中作为中央服务器,每个工人的智能移动设备可看作分布式的小型处理器. 在整个系统中,中央服务器与各个工人的移动设备在隐私保护的环境中进行信息交互. 首先,每个工人智能移动设备将相关信息经过差分隐私的处理后传至中央服务器. 之后,中央服务器获取该时刻全局的工人与任务的状态信息,经过基于DRL的动态策略优化算法,制定相应的分配策略,最终传给各工人智能移动设备. 同时在交互过程中,中央服务器中采用PPO的算法进行训练并决策,在每轮训练时考虑了系统的动态性与差异性问题,即不同工人对于相同的任务会受到距离以及未完成的任务量影响,进而每个任务对不同工人的开销应是不一样的,且在每轮迭代时可能会产生完成了当前任务的“空闲”工人,在模型定义中考虑了以上问题,在每轮迭代会动态更新全局信息,最终得到全局最优的策略.
3.2 PPO模型
中央服务器中应用了基于DRL的动态策略优化算法PPO进行决策推演. 传统的PPO算法源于A-C网络[24]的思想,如图3所示,该算法由actor网络和critic网络构成,每一次迭代时,actor网络会根据一定的动作决策概率分布进行动作选择,并与环境进行交互,获得该时刻的状态和相应的回报,此时critic网络将根据动作、状态和回报的集合计算相应的收益函数(有时是TD-error,用于评价actor网络的动作),并传给actor网络和环境,actor网络基于此调整动作的决策概率分布,并进行下一步动作选择,最终获得最优策略.
在本文的算法中,将传统PPO框架做了调整,即在收益函数的定义上采用了双约束. 动作空间、状态空间以及回报约束定义为:
1)动作空间. 动作集中包含了工人与任务的匹配信息,并采用2维向量表来表示,其中定义第i个工人在第k次迭代时被分配的任务集合为 c_k^i . 同时,每个工人设备中将存储任务分配记录以及任务完成顺序. 每次迭代时由中央服务器决策进行分配,中央服务器依据上一轮交互所得到的全局信息(工人和任务数量、工人报酬、任务收益等),计算平台总收益,并进行匹配. 其定义为
{\boldsymbol{a}}_k^{} = (c_k^1,…,c_k^i,…,c_k^n) . (7) 2)状态空间. 状态集合中,记录了工人与任务的相关信息(工人的任务时序、各任务的收益、雇佣工人的开销、可用工人数量和剩余任务数量等),这里由第k个状态可用工人集合Wk与可用任务集合Vk来表示. 每次迭代开始,每个工人根据中央服务器传递的数据,计算各个任务对于自己的开销与收益,并于中央服务器进行交互,更新此时的本地信息以及中央服务器的全局信息. 综上所述,将状态集合定义为
s_k^{} = \{ {W_k},{V_k}\} . (8) 3)回报约束. 参照式(5)的联合约束,力求保证平台收益最大化的同时,尽可能增加工人的累积收益. 将该问题视为平台与工人间非合作性竞争的纳什均衡问题. 将平台总收益的计算定义为平台整体收益减去所有工人开销,而单个工人的收益定义为工人获得报酬减去完成任务的开销. 回报约束中的平台总收益的优先级高于单个工人优先级,此处根据收益权重进行调整. 这里回报约束定义为
r_k^{} = {\lambda _1}{R_p} + {\lambda _2}\sum\limits_{{w_i} \in {W_{{\text{out}}}}\bigcup {{W_k}} } {{r_{{w_i}}}} , (9) 其中Wout为已分配任务的工人集合,Wk为未分配的任务集合.
在PPO模型的训练过程中,critic网络根据回报rk以及动作/状态集合{a, s}计算其Value值以及优势函数Ak,进而对于下一次actor网络中动作选择的策略π进行调整,相关定义为:
{A_k} = \sum\limits_{i = 0}^\infty {{{(\gamma \lambda )}^i}{\partial _{k + i}}} , (10) Valu{e_\pi }({s_k}) = \sum\limits_{a \in A} {\pi ({a_k},{s_k})\left[r{}_k + \gamma \sum\limits_{{s_k} \in S} {{P_{{s_k}{s_{k + 1}}}}} Valu{e_\pi }({s_{k + 1}})\right]} , (11) Loss = {\hat E_k}[{(A_k^{} + Valu{e_\pi }({s_k}) - Value_\pi ^{{\text{old}}}({s_k}))^2}] , (12) {\partial _k} = {r_k} + \gamma Valu{e_\pi }({s_{k + 1}}) - Valu{e_\pi }({s_k}) , (13) 其中第k轮迭代时的价值函数为Valueπ(sk),γ为折扣率, P_{{s_{k} {s}_{k+1}} }为状态转换概率,Ak为此时的优势函数,λ为优势函数权重,最终损失函数可用Loss表示.
3.3 本地差分隐私
这里引入地理不可区分性的概念,即存在2个位置点x和x'\in X ,Z是X通过映射机制D的输出结果,若D满足地理不可区分性,则对所有欧几里得距离 d({x},{x'}) ≤ r,其中r为该映射机制保护的范围,报告位置点 z∈Z,则有
D(x)(z) \leqslant {{\text{e}}^{\varepsilon d(x,x')}}D(x')(z) , x, x' \in X, z\in Z, (14) D(x)(z) = \dfrac{{{\varepsilon ^2}}}{{2{\text{π }}}}{{\text{e}}^{{\text{ -}}\varepsilon d{\text{(}}x{\text{,}}x'{\text{)}}}} . (15) 式(14)(15)输入为x和x' 时,根据该映射机制D的查询函数D(x)(z),将得到相同输出z的概率. 位置信息中应用差分隐私是为了使真实位置点信息与其近似位置点信息拥有地理不可区分性,从而达到隐私保护的目的.
本文采用本地差分隐私的算法. 首先,工人的移动设备定位当前位置信息(xreal, yreal). 其次,根据当前位置坐标划定模糊位置范围,该范围是一个以R为模糊半径的圆形区域. 在该范围内指定ε∈R2,根据机制D确定候选的位置坐标集合,并根据拉普拉斯机制随机噪声,敏感度设为Δf,该噪声服从(0, Δf/ε)的拉普拉斯分布. 最后在候选坐标集合中随机选取模糊化后的位置坐标(x, y),并作为位置信息上传至平台.
3.4 基于PPO的任务分配算法
基于A-C网络的思想,利用PPO模型训练并学习任务分配策略,该方法与本文的问题非常匹配,并已成功地应用于许多其他领域. 在DRL的众多策略优化方法中,PPO在易于实现样本复杂性和易于调优之间取得了平衡,以最小化目标函数进行计算和更新,同时确保与以前策略的偏差相对较小. 因此,在本文算法中的策略优化过程采用了PPO算法.
在本文的模型里包括了一个历史策略缓冲区Cache、策略π、actor网络与critic网络,在算法1中展示了该模型算法的伪代码. 首先,初始化PPO框架,随机赋予actor网络与critic网络的相关参数相应的初始值θa和θv,将θa作为初始的策略参数(行①). 随后迭代开始,最大迭代次数为K(行②). 在环境中获取当前的可用工人集合Wk以及可用任务集合Vk的信息,其中工人的位置信息根据本地差分隐私已做模糊化处理,最终得到第k次迭代的状态(行③~⑧). 然后,基于状态sk根据当前策略在actor网络中进行动作选择(行⑨),将此时的动作集合ak输入到环境中计算相应的回报rk以及下一轮的状态集合sk+1(行⑩). critic网络中计算Ak以及Valuek,并将集合{sk+1, sk, ak, rk, Ak, Valuek}存储到历史策略缓冲区Cache中(行⑪~⑫). 当Cache装满时计算偏导数,并基于根据梯度上升策略更新策略参数θa(行⑬~⑮). 在从Cache中学习信息后,actor网络的新参数θa分配给策略进行下一次采样. 同时,历史策略缓冲区被清空(行⑯).
算法1. 基于PPO的动态策略优化算法.
① 分别利用权重θa和θv随机初始化actor网络
与critic网络, \theta _a^{{\text{old}}} \leftarrow {\theta _a} ;
② for k = 1, 2, …, K do
③ for n = 1, 2, …, N do
④ W_k^n = {w_n} ;
⑤ V_k^n = {v_n} ;
⑥ end for
⑦ 获取当前可用工人集合和任务集合
W_k^{} = \{ W_k^{\text{1}},W_k^{\text{2}},…,W_k^n\} , V_k^{} = \{ V_k^{\text{1}},V_k^{\text{2}},…,V_k^n\};
⑧ 获取当前状态集合 s_k^{} = \{ {W_k},{V_k}\} ;
⑨ 根据 \pi ({a}_{k}|{s}_{k},{\theta }_{a}^{\text{old}}) 获取动作集合ak ;
⑩ 获取rk以及下一轮的状态集合sk+1 ;
⑪ critic网络中计算Ak以及Valuek ;
⑫ 将{sk+1, sk, ak, rk, Ak, Valuek}存储到Cache中 ;
⑬ if t%|Cache| == 0 then
⑭ {{\Delta }}{\theta _a} = \dfrac{1}{|Cache|}\displaystyle\sum\limits_{j = 1}^{|Cache|} \{ [{r_j} + \gamma Value({s_{j + 1}};{\theta _v})- Value({s_{j}};{\theta _v})]^2,{A_k}\};
⑮ 根据梯度上升策略,利用Δθa更新θa ;
⑯ \theta _a^{{\text{old}}} \leftarrow {\theta _a} ,清空Cache ;
⑰ end if
⑱ end for
4. 实 验
4.1 实验参数设置
本文选用Gowalla和TaskMe这2个数据集进行模拟实验,从中提取部分数据的位置以及时间信息,并将添加在一定范围内随机生成的数据作为任务奖励等其他信息,最终生成拥有2000个任务和1000个工人的模拟数据集合. 其中,每个任务的奖励设置在8~20的范围内并按照N~(12, 4)的正态分布进行随机生成,任务的时间则设置在10~60的范围内随机生成. 最后,根据实验的不同要求,选用该数据集中部分任务以及工人的数据信息在一个200×200的正方形传感区域空间内进行模拟实验.
首先,设置了不同的工人与任务数量下损失函数的对比实验,目的是验证工人与任务数量对损失函数的收敛性的影响. 在一个200×200的正方形传感区域空间内,分别测试了80个任务和5个工人、300个任务和15个工人、800个任务和30个工人这3种不同情境下的损失函数. 其次,与现有的传统方法(贪婪算法、蚂蚁算法)以及其他DRL方法(DDQN)针对收敛速度、最大收益以及任务覆盖率的对比实验. 该部分将蚂蚁算法中蚂蚁数、迭代次数和随机选择的概率分别设置为10,30000,0.1,对于基于DDQN的算法将其重播内存容量设为10000次,迭代次数设为30000次,随机选择的概率从0.9开始,然后逐渐衰减到0.1. 最后,通过消融实验来验证隐私保护的有效性. 在该实验中将本文算法与DDQN的算法以及去除掉差分隐私时的算法进行比较,实验设置参数与对比实验相同.
4.2 模型损失
本节进行了不同工人数量以及任务数量的模拟实验,图4(a)中迭代次数在100次以内,大约在第70次时达到收敛;图4(b)中模型在迭代次数约120次时达到收敛;图4(c)中在迭代280次时达到收敛. 可以看出,该算法收敛效果主要受到工人与任务的数量影响,随着其数量的增多,收敛速度将变慢.
4.3 对比实验
本节实验不仅针对传统MCS任务分配方法(即蚂蚁算法和贪婪算法的对比),而且加入了同为基于DRL的任务分配算法(即基于DDQN的算法),在任务覆盖率、性能、收敛性以及最大收益上做了相应对比实验. 在图5中,可以看到基于DDQN以及基于PPO的2种DRL算法在系统平均开销的收敛情况,结果表示基于DDQN的算法虽然可以比本文算法能更快收敛,但本文算法可以达到更小的平均系统开销. 图6展示了4种算法的平台收益情况,贪婪算法和蚁群算法由于是静态的算法,因而不需要多轮迭代,但其平台收益与基于DRL的算法相比差距甚远;而基于DDQN的算法同样有更快的收敛性,但本文的基于PPO的算法可以最终达到最大收益.
首先引入任务覆盖率的概念:当一个任务在其可接受的时间范围内被分配出去且完成,则可称为该任务被覆盖. 因此任务覆盖率可被定义为被分配掉的任务数与总任务数的比值. 如表1所示,在平台最大利润和任务覆盖率上,基于DDQN和PPO的2种DRL算法均远高于贪婪算法和蚁群算法等传统方法,且基于PPO算法比基于DDQN的算法表现更为优异. 图7~9展示了4种算法在平均开销、总开销以及工人平均收益上的对比,结果表明本文的基于PPO算法均优于其他算法,而贪婪算法表现最差.
表 1 最大利润与覆盖率的对比Table 1. Comparison of Maximum Profit and Coverage Ratio算法 最大利润 覆盖率 贪婪算法 298 0.41 蚁群算法 352 0.52 基于DDQN算法 502 0.72 基于PPO算法(本文) 512 0.76 4.4 消融实验
如图10所示,本文针对差分隐私的有效性做了消融实验,实验中对比了有差分隐私的性能以及没有差分隐私的性能,并与基于DDQN的算法模型进行对比. 实验结果表明,去除差分隐私性能会有更好的效果,是因为模糊化的位置信息影响了模型的计算性能,但加入差分隐私的方法可以在不损失过多性能的前提下保护工人信息的隐私. 此外,为了验证该算法的性能随差分隐私保护程度的变化,消融实验中加入了不同的隐私保护机制覆盖范围下的算法性能的对比实验,如图11所示,其中r表示本文3.3节所提到的差分隐私机制的保护范围,当保护范围越大时,则需保证该范围的地理不可区分性,故保护程度越高. 由此可见,随着保护范围的增加算法性能所受影响较大,需选择合适的保护强度,实现在保护隐私的前提下保证算法性能.
5. 结论与展望
在本文中,针对MCS的感知任务分配问题,在工人与任务的位置、状态信息不断改变的动态系统中,考虑了任务分配机制的合理性与工人信息的隐私保护等问题,将其定义为一个基于离散型数据集来进行动态规划的优化问题,并利用差分隐私和深度强化学习的相关算法及模型去解决该问题. 将PPO模型作为决策模型训练和学习,在每次迭代中,考虑当前状态下的每个工人开销的差异性以及完成任务的时序性等因素,利用联合约束,在保证平台收益最大化的同时,尽可能增加工人的累积收益,在这样的动态系统中不断优化分配策略. 此外,还在工人的移动设备与中央服务器的交互中加入了差分隐私的方法来保证工人的隐私. 实验结果也证明了本文方法的有效性.
在未来的工作中,将探索更多隐私保护的策略,并且在保证隐私的同时进一步提升模型的性能. 此外,也考虑在该模型中加入数据预测的机制,在收集处理感知数据的同时,基于历史经验数据进行某一范围内的数据预测,提升模型整体效率.
作者贡献声明:杨明川负责实验及相关研究工作,并完成论文撰写;朱敬华提出算法思路,设计论文整体框架;李元婧负责数据分析并协助撰写论文;奚赫然提出修改意见并修改论文.
-
表 1 本文所用符号及其表述
Table 1 The Used Notations and Their Descriptions in Our Paper
符号 符号表述 符号 符号表述 符号 符号表述 N 客户端数量 {C_i} 第i个客户端 T 最大训练轮次 {D_i} {C_i} 上的本地数据集 {N_i} {D_i} 中的样本数 \alpha 本地学习率 {\theta ^{\;{t}}} 第 t 轮中的全局模型 \theta _i^{\;{t} } 第 t 轮中 {C_i} 上的本地模型 \tilde \theta _i^{\;{t} } 第 t 轮中 {C_i} 上训练后的本地模型 L(\theta _i^{\;{t} }|{D_i}) \theta _i^{\;{t} }在 {D_i} 上的损失函数 w_i^{\;{t} } 第 t 轮中 \theta _i^{\;{t} } 的聚合权重 C_i^{{\text{neigh}}} {C_i} 的邻居可信客户端集合 t_i^{} 客户端 {C_i} 当前所处的轮次 w_{{\text{1}},i}^{\;{t} } 本地第 t 轮时,从 {C_i} 接收到的模型的准确率所决定的聚合权重 w_{{\text{2}},i}^{\;{t} } 本地第 t 轮时,从 {C_i} 接收到的模型的延迟轮次所决定的聚合权重 \tau _i^{\;{t} } {C_i} 在第 t 轮的总用时 \tau _{i,{\text{cal}}}^{\;{t} } {C_i} 在第 t 轮的计算用时 \tau _{i,{\text{wait}}}^{\;{t} } {C_i} 在第 t 轮的等待用时 表 2 本文框架与其他联邦学习框架在FMNIST-DIR下的结果
Table 2 Results of Our Framework and Other Federated Learning Frameworks Under FMNIST-DIR
算法框架 测试准确率 测试AUC 平均训练时间/s 设备计算时长比例/% FedAvg 0.7995±0.0024 0.9666±0.0245 1.3887±0.0600 35.64±3.77 FedAvg + loss 0.8051±0.0054 0.9699±0.0212 1.7406±0.0795 30.93±3.22 FedProx 0.7993±0.0022 0.9666±0.0246 1.5989±0.0752 36.27 ±3.39 FedBN 0.7994±0.0023 0.9666±0.0245 1.6163±0.0395 33.21±1.74 FedPer 0.9735±0.0001 0.9967±0.0057 1.4584±0.0864 26.43±1.84 FedRep 0.9743±0.0005 0.9974±0.0061 2.2325±0.1026 38.73±4.17 FedBABU 0.7685±0.0070 0.9950±0.0090 1.4313±0.0733 35.48±3.38 APFL 0.9720±0.0002 0.9976±0.0077 3.6855±0.1621 29.11±1.21 FedPHP 0.0919±0.0185 0.5072±0.2313 3.9221±0.3462 36.44±1.55 Ditto 0.9714±0.0005 0.9986±0.0103 3.5450±0.2870 30.81±1.29 FedFomo 0.9719±0.0004 0.9971±0.0179 2.0139±0.2788 38.14±1.94 FedAMP 0.9720±0.0006 0.9971±0.0114 1.6826±0.0546 29.34±2.52 APPLE 0.9638±0.0006 0.9907±0.0206 30.1721±13.1385 36.25±4.49 FedAsync 0.8352±0.0372 0.9482±0.1870 1.4260±0.0749 100.00±0.00 Ours 0.8901±0.0092 0.9760±0.1303 1.8396±0.0213 100.00±0.00 Ours − delay 0.8749±0.0070 0.9714±0.1291 1.6460±0.0517 100.00±0.00 Ours − delay −loss 0.6595±0.0772 0.8994±0.2153 1.4766±0.0417 100.00±0.00 表 3 本文框架与其他联邦学习框架在CIFAR10-DIR下的结果
Table 3 Results of Our Framework and Other Federated Learning Frameworks Under CIFAR10-DIR
算法框架 测试准确率 测试AUC 平均训练时间/s 设备计算时长比例/% FedAvg 0.4301±0.0021 0.8561±0.0549 1.2659±0.0474 38.91±2.24 FedAvg + loss 0.4595±0.0076 0.8610±0.0563 1.1305±0.0672 40.96±5.34 FedProx 0.4302±0.0020 0.8562±0.0549 1.4661±0.0645 38.39±3.94 FedBN 0.4302±0.0020 0.8563±0.0548 1.2281±0.0551 35.13±2.84 FedPer 0.8925±0.0020 0.9833±0.0205 1.1360±0.0295 40.44±3.78 FedRep 0.8997±0.0019 0.9846±0.0195 1.7977±0.0863 36.00±3.34 FedBABU 0.8757±0.0014 0.9838±0.0209 1.1933±0.0375 40.64±4.58 APFL 0.8884±0.0019 0.9837±0.0230 2.8463±0.0869 46.31±3.31 FedPHP 0.1075±0.0124 0.5079±0.1991 3.4474±0.1919 37.39±2.10 Ditto 0.8857±0.0012 0.9878±0.0209 2.7539±0.1707 38.90±1.99 FedFomo 0.8818±0.0010 0.9824±0.0236 1.4675±0.1869 46.03±3.48 FedAMP 0.8879±0.0020 0.9834±0.0230 1.2760±0.0729 37.19±3.04 APPLE 0.8807±0.1081 0.9803±0.0241 25.1646±5.6199 38.39±1.33 FedAsync 0.4668±0.1338 0.8354±0.2422 1.5402±0.0704 100.00±0.00 Ours 0.7660±0.0087 0.9453±0.1356 1.2732±0.0270 100.00±0.00 Ours − delay 0.7581±0.0139 0.9328±0.1549 1.2224±0.0755 100.00±0.00 Ours − delay −loss 0.4886±0.0708 0.8120±0.2309 1.4171±0.0325 100.00±0.00 表 4 本文框架与其他联邦学习框架在没有系统异构性时CIFAR10-DIR下的结果
Table 4 Results of Our Framework and Other Federated Learning Frameworks Under CIFAR10-DIR Without Straggler
算法框架 测试准确率 测试AUC 平均训练时间/s 设备计算时长比例/% FedAvg 0.4301±0.0021 0.8561±0.0548 0.6146±0.0313 49.09±3.27 FedAvg + loss 0.4599±0.0079 0.8610±0.0563 0.8905±0.0640 47.46±7.65 FedProx 0.4302±0.0021 0.8562±0.0548 0.6358±0.0340 50.02±5.27 FedBN 0.4268±0.0020 0.8531±0.0561 0.6033±0.0355 47.07±4.87 FedPer 0.8926±0.0020 0.9833±0.0205 0.5881±0.0331 47.00±3.10 FedRep 0.9000±0.0020 0.9850±0.0191 0.6616±0.0754 45.42±2.78 FedBABU 0.8820±0.0015 0.9830±0.0215 0.5911±0.0514 47.98±5.39 APFL 0.8913±0.0019 0.9845±0.0214 1.1764±0.0454 51.42±3.74 FedPHP 0.0937±0.0000 0.4940±0.2182 1.5001±0.1175 49.82±3.76 Ditto 0.8868±0.0013 0.9879±0.0197 1.2254±0.1079 49.81±4.40 FedFomo 0.8817±0.0013 0.9824±0.0237 0.6885±0.0796 50.95±4.06 FedAMP 0.8880±0.0021 0.9834±0.0232 0.6157±0.0286 49.27±3.35 APPLE 0.8806±0.1080 0.9803±0.0240 5.4571±3.2784 51.05±1.32 FedAsync 0.4860±0.1133 0.8698±0.2055 1.0339±0.0166 100.00 ±0.00 Ours 0.7645±0.0041 0.9454±0.1103 0.9208±0.0256 100.00±0.00 Ours − delay 0.7634±0.0073 0.9376±0.1423 0.9084±0.0324 100.00±0.00 Ours − delay − loss 0.4915±0.0686 0.7698±0.2595 0.8530±0.0095 100.00±0.00 表 5 本文框架与其他联邦学习框架在CIFAR10-PAT下的结果
Table 5 Results of Our Framework and Other Federated Learning Frameworks Under CIFAR10-PAT
算法框架 测试准确率 测试AUC 平均训练时间/s 设备计算时长比例/% FedAvg 0.4768±0.0061 0.8612±0.0026 1.4768±0.0871 46.85±6.29 FedAvg + loss 0.4776±0.0062 0.8475±0.0032 1.4969±0.0633 49.41±6.30 FedProx 0.4757±0.0057 0.8610±0.0026 1.8383±0.0688 48.47±8.44 FedBN 0.4757±0.0056 0.8611±0.0026 1.5648±0.0796 49.13±5.27 FedPer 0.8902±0.0021 0.9852±0.0004 1.6138±0.1298 49.99±6.19 FedRep 0.8991±0.0011 0.9863±0.0004 2.6912±0.1777 52.31±5.64 FedBABU 0.4592±0.0051 0.8486±0.0034 1.5556±0.0561 51.59±4.13 APFL 0.8800±0.0005 0.9904±0.0001 4.3322±0.2562 55.91±4.95 FedPHP 0.0934±0.0000 0.4899±0.0000 4.9342±0.1641 57.63±4.52 Ditto 0.4766±0.0059 0.8613±0.0026 3.8891±0.1343 59.30±4.16 FedFomo 0.8973±0.0010 0.9907±0.0003 2.6377±0.1473 54.42±4.84 FedAMP 0.8804±0.0005 0.9904±0.0001 1.6699±0.0790 45.50±6.23 APPLE 0.8510±0.0030 0.9787±0.0005 6.1596±0.1381 65.08±2.53 FedAsync 0.4588±0.0062 0.8781±0.0423 1.5071±0.0317 100.00±0.00 Ours 0.5848±0.0755 0.9271±0.0513 1.5536±0.0544 100.00±0.00 Ours − delay 0.5533±0.0684 0.9246±0.0702 1.4886±0.0297 100.00±0.00 Ours − delay − loss 0.2761±0.0314 0.7752±0.0409 1.4526±0.0373 100.00±0.00 -
[1] Yang Yang, Ma Mulei, Wu Hequan, et al. 6G network AI architecture for everyone-centric customized services[J/OL]. IEEE Network, 2022: 1−10. [2023-05-28].https://ieeexplore.ieee.org/document/9839652
[2] Zhang Rui, Chu Xuesen, Ma Ruhui, et al. OSTTD: Offloading of splittable tasks with topological dependence in multi-tier computing networks[J]. IEEE Journal on Selected Areas in Communications, 2023, 41(2): 555−568 doi: 10.1109/JSAC.2022.3227023
[3] Akabane A T, Immich R, Pazzi R W, et al. TRUSTed: A distributed system for information management and knowledge distribution in VANETs[C] //Proc of 2018 IEEE Symp on Computers and Communications. Piscataway, NJ: IEEE, 2018: 1−6
[4] Yuan Shijing, Li Jie, Wu Chentao. JORA: Blockchain-based efficient joint computing offloading and resource allocation for edge video streaming systems[J]. Journal of Systems Architecture, 2022, 133: 102740 doi: 10.1016/j.sysarc.2022.102740
[5] Lin Yangfei, Li Jie, Kimura S, et al. Consortium blockchain-based public integrity verification in cloud storage for IoT[J]. IEEE Internet of Things Journal, 2021, 9(5): 3978−3987
[6] Zhang Weishan, Sun Gang, Xu Liang, et al. A trustworthy safety inspection framework using performance-security balanced blockchain[J]. IEEE Internet of Things Journal, 2022, 9(11): 8178−8190 doi: 10.1109/JIOT.2021.3121512
[7] Shi Hongjian, Wang Hao, Ma Ruhui, et al. Robust searching-based gradient collaborative management in intelligent transportation system[J/OL]. ACM Transactions on Multimedia Computing, Communications, and Applications, 2022[2023-05-28].https://dl.acm.org/doi/10.1145/3549939
[8] Zheng Lianmin, Li Zhuohan, Zhang Hao, et al. Alpa: Automating inter- and intra-operator parallelism for distributed deep learning[C] //Proc of the 16th USENIX Symp on Operating Systems Design and Implementation. Berkeley, CA: USENIX Association, 2022: 559−578
[9] Zhang Jiaru, Hua Yang, Song Tao, et al. Improving Bayesian neural networks by adversarial sampling[C] //Proc of the AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2022, 36(9): 10110−10117
[10] Du Zhaoyang, Wu C, Yoshinaga T, et al. Federated learning for vehicular Internet of things: Recent advances and open issues[J]. IEEE Open Journal of the Computer Society, 2020, 1: 45−61 doi: 10.1109/OJCS.2020.2992630
[11] Zhang Jianqing, Hua Yang, Wang Hao, et al. FedALA: Adaptive local aggregation for personalized federated learning[C]//Proc of the AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2023, 37(9):11237−11244
[12] Guo Hanxi, Wang Hao, Song Tao, et al. Siren: Byzantine-robust federated learning via proactive alarming[C]//Proc of ACM Symp on Cloud Computing. New York: ACM, 2021: 47−60
[13] Zhang Weishan, Zhou Tao, Lu Qinghua, et al. Dynamic-fusion-based federated learning for COVID-19 detection[J]. IEEE Internet of Things Journal, 2021, 8(21): 15884−15891 doi: 10.1109/JIOT.2021.3056185
[14] Qu Youyang, Uddin M P, Gan Chenquan, et al. Blockchain-enabled federated learning: A survey[J]. ACM Computing Surveys, 2023, 55(4): 70: 1−70: 35
[15] Issa W, Moustafa N, Turnbull B P, et al. Blockchain-based federated learning for securing Internet of things: A comprehensive survey[J]. ACM Computing Surveys, 2023, 55(9): 191: 1−191: 43
[16] Singh S K, Yang L T, Park J H. FusionFedBlock: Fusion of blockchain and federated learning to preserve privacy in industry 5.0[J]. Information Fusion, 2023, 90: 233−240 doi: 10.1016/j.inffus.2022.09.027
[17] Zhang Weishan, Lu Qinghua, Yu Qiuyu, et al. Blockchain-based federated learning for device failure detection in industrial IoT[J], IEEE Internet of Things Journal, 2021, 8(7): 5926−5937
[18] Guo Shaoyong, Zhang Keqin, Gong Bei, et al. Sandbox computing: A data privacy trusted sharing paradigm via blockchain and federated learning[J]. IEEE Transactions on Computers, 2023, 72(3): 800−810
[19] Lu Yunlong, Huang Xiaohong, Zhang Ke, et al. Blockchain and federated learning for 5G beyond[J]. IEEE Network, 2021, 35(1): 219−225 doi: 10.1109/MNET.011.1900598
[20] Feng Lei, Zhao Yiqi, Guo Shaoyong, et al. BAFL: A blockchain-based asynchronous federated learning framework[J]. IEEE Transactions on Computers, 2022, 71(5): 1092−1103 doi: 10.1109/TC.2021.3072033
[21] Gao Liang, Li Li, Chen Yingwen, et al. FGFL: A blockchain-based fair incentive governor for federated learning[J]. Journal of Parallel and Distributed Computing, 2022, 163: 283−299 doi: 10.1016/j.jpdc.2022.01.019
[22] Nguyen D C, Hosseinalipour S, Love D J, et al. Latency optimization for blockchain-empowered federated learning in multi-server edge computing[J]. IEEE Journal of Selected Areas in Communications, 2022, 40(12): 3373−3390 doi: 10.1109/JSAC.2022.3213344
[23] Qu Youyang, Gao Longxiang, Xiang Yong, et al. FedTwin: Blockchain-enabled adaptive asynchronous federated learning for Digital Twin networks[J]. IEEE Network, 2022, 36(6): 183−190 doi: 10.1109/MNET.105.2100620
[24] Shayan M, Fung C, Yoon C J M, et al. Biscotti: A blockchain system for private and secure federated learning[J]. IEEE Transactions on Parallel and Distributed Systems, 2021, 32(7): 1513−1525 doi: 10.1109/TPDS.2020.3044223
[25] Wang Yuntao, Peng Haixia, Su Zhou, et al. A platform-free proof of federated learning consensus mechanism for sustainable blockchains[J]. IEEE Journal of Selected Areas in Communications, 2022, 40(12): 3305−3324 doi: 10.1109/JSAC.2022.3213347
[26] Wang Weilong, Wang Yingjie, Huang Yan, et al. Privacy protection federated learning system based on blockchain and edge computing in mobile crowdsourcing[J]. Computer Networks, 2022, 215: 109206 doi: 10.1016/j.comnet.2022.109206
[27] Wan Yichen, Qu Youyang, Gao Longxiang, et al. Privacy-preserving blockchain-enabled federated learning for B5G-Driven edge computing[J]. Computer Networks, 2022, 204: 108671 doi: 10.1016/j.comnet.2021.108671
[28] Ruckel T, Sedlmeir J, Hofmann P. Fairness, integrity, and privacy in a scalable blockchain-based federated learning system[J]. Computer Networks, 2022, 202: 108621 doi: 10.1016/j.comnet.2021.108621
[29] 周炜,王超,徐剑,等. 基于区块链的隐私保护去中心化联邦学习模型[J]. 计算机研究与发展,2022,59(11):2423−2436 doi: 10.7544/issn1000-1239.20220470 Zhou Wei, Wang Chao, Xu Jian, et al. Privacy-preserving and decentralized federated learning model based on the blockchain[J]. Journal of Computer Research and Development, 2022, 59(11): 2423−2436 (in Chinese) doi: 10.7544/issn1000-1239.20220470
[30] Li Zonghang, Yu Hongfang, Zhou Tianyao, et al. Byzantine resistant secure blockchained federated learning at the edge[J]. IEEE Network, 2021, 35(4): 295−301 doi: 10.1109/MNET.011.2000604
[31] Tang Fengxiao, Wen Cong, Luo Linfeng, et al. Blockchain-based trusted traffic offloading in space-air-ground integrated networks (SAGIN): A federated reinforcement learning approach[J]. IEEE Journal of Selected Areas in Communications, 2022, 40(12): 3501−3516 doi: 10.1109/JSAC.2022.3213317
[32] Cui Laizhong, Su Xiaoxin, Zhou Yipeng. A fast blockchain-based federated learning framework with compressed communications[J]. IEEE Journal of Selected Areas in Communications, 2022, 40(12): 3358−3372 doi: 10.1109/JSAC.2022.3213345
[33] Pokhrel S R, Choi J. Federated learning with blockchain for autonomous vehicles: Analysis and design challenges[J]. IEEE Transactions on Computers, 2020, 68(8): 4734−4746
[34] Li Yuzheng, Chen Chuan, Liu Nan, et al. A blockchain-based decentralized federated learning framework with committee consensus[J]. IEEE Network, 2021, 35(1): 234−241 doi: 10.1109/MNET.011.2000263
[35] Feng Lei, Yang Zhixiang, Guo Shaoyong, et al. Two-layered blockchain architecture for federated learning over the mobile edge network[J]. IEEE Network, 2022, 36(1): 45−51 doi: 10.1109/MNET.011.2000339
[36] Li Jun, Shao Yumeng, Wei Kang, et al. Blockchain assisted decentralized federated learning (BLADE-FL): Performance analysis and resource allocation[J]. IEEE Transactions on Parallel and Distributed Systems, 2022, 33(10): 2401−2415 doi: 10.1109/TPDS.2021.3138848
[37] Zhang Weishan, Yu Fa, Wang Xiao, et al. R2Fed: Resilient reinforcement federated learning for industrial applications[J/OL]. IEEE Transactions on Industrial Informatics, 2022[2023-05-28].https://ieeexplore.ieee.org/document/9950718
[38] McMahan B, Moore E, Ramage D, et al. Communication-efficient learning of deep networks from decentralized data[C] //Proc of the 20th Int Conf on Artificial Intelligence and Statistics. New York: PMLR, 2017, 54: 1273−1282
[39] Li Tian, Sahu A K, Zaheer M, et al. Federated optimization in heterogeneous networks[C] //Proc of Machine Learning and Systems. Indio, CA: Systems and Machine Learning Foundation, 2020: 429−450
[40] Li Qinbin, He Bingsheng, Song D. Model-contrastive federated learning[C] //Proc of IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2021: 10713−10722
[41] Acar D A E, Zhao Yue, Navarro R M, et al. Federated learning based on dynamic regularization[C/OL] //Proc of the 9th Int Conf on Learning Representations. OpenReview. net, 2021[2023-05-28].https://openreview.net/forum?id=B7v4QMR6Z9w
[42] Li Xiaoxiao, Jiang Meirui, Zhang Xiaofei, et al. FedBN: Federated learning on non-IID features via local batch normalization[C/OL] //Proc of the 9th Int Conf on Learning Representations. OpenReview. net, 2021[2023-05-28].https://openreview.net/forum?id=6YEQUn0QICG
[43] Arivazhagan M G, Aggarwal V, Singh A K, et al. Federated learning with personalization layers[J/OL]. arXiv preprint, arXiv: 1912.00818, 2019[2023-05-28].https://arxiv.org/abs/1912.00818
[44] Collins L, Hassani H, Mokhtari A, et al. Exploiting shared representations for personalized federated learning[C] //Proc of the 38th Int Conf on Machine Learning. New York: PMLR, 2021, 139: 2089−2099
[45] Oh J, Kim S, Yun S Y. FedBABU: Towards enhanced representation for federated image classification[J/OL]. arXiv preprint, arXiv: 2106.06042, 2021[2023-05-28].https://arxiv.org/abs/2106.06042
[46] Deng Yuyang, Kamani M M, Mahdavi M. Adaptive personalized federated learning[J/OL]. arXiv preprint, arXiv: 2003.13461, 2020[2023-05-28].https://arxiv.org/abs/2003.13461
[47] Li Xinchun, Zhan Dechuan, Shao Yunfeng, et al. FedPHP: Federated personalization with inherited private models[C] //Proc of Machine Learning and Knowledge Discovery in Databases. Berlin: Springer, 2021, 12975: 587−602
[48] Li Tian, Hu Shengyuan, Beirami A, et al. Ditto: Fair and robust federated learning through personalization[C] //Proc of the 38th Int Conf on Machine Learning. New York: PMLR, 2021, 139: 6357−6368
[49] Zhang M, Sapra K, Fidler S, et al. Personalized federated learning with first order model optimization[C/OL] //Proc of the 9th Int Conf on Learning Representations. OpenReview. net, 2021[2023-05-28].https://openreview.net/forum?id=ehJqJQk9cw
[50] Huang Yutao, Chu Lingyang, Zhou Zirui, et al. Personalized cross-silo federated learning on non-IID data[C] //Proc of the 35th AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2021: 7865−7873
[51] Luo Jun, Wu Shandong. Adapt to adaptation: Learning personalization for cross-silo federated learning[C] //Proc of the 31st Int Joint Conf on Artificial Intelligence. California: ijcai. org, 2022: 2166−2173
[52] Fraboni Y, Vidal R, Kameni L, et al. A general theory for federated optimization with asynchronous and heterogeneous clients updates[J/OL]. arXiv preprint, arXiv: 2206.10189, 2022[2023-05-28].https://arxiv.org/abs/2206.10189
[53] Zalando. Fashion-MNIST[DB/OL]. [2023-04-01].https://github.com/zalandoresearch/fashion-mnist
[54] Krizhevsky A, Nair V, Hinton G. The CIFAR-10 dataset[DB/OL]. [2023-04-01].https://www.cs.toronto.edu/~kriz/cifar.html
-
期刊类型引用(1)
1. 齐凤林,沈佳杰,王茂异,张凯,王新. 人工智能在高校信息化中的应用研究综述. 计算机工程. 2025(04): 1-14 . 百度学术
其他类型引用(2)