-
摘要:
随着边缘智能需求的快速增长,联邦学习(federated learning,FL)技术在产业界受到了极大的关注. 与传统基于云计算的集中式机器学习相比,边缘网络环境下联邦学习借助移动边缘设备共同训练机器学习模型,不需要把大量本地数据发送到云端进行处理,缩短了数据处理计算节点与用户之间的距离,在满足用户低时延需求的同时,用户数据可以在本地训练进而实现数据隐私保护. 在边缘网络环境下,由于通信资源和计算资源受限,联邦学习的性能依赖于无线网络状态、终端设备资源以及数据质量的综合限制. 因此,面向边缘智能应用,首先分析了边缘智能环境下高效联邦学习面临的挑战,然后综述联邦学习在客户端选择、模型训练与模型更新等关键技术方面的研究进展,最后对边缘智能联邦学习的发展趋势进行了展望.
Abstract:With the increasing demand of edge intelligence, federated learning (FL) has been now of great concern to the industry. Compared with the traditionally centralized machine learning that is mostly based on cloud computing, FL collaboratively trains the neural network model over a large number of edge devices in a distributed way, without sending a large amount of local data to the cloud for processing, which makes the compute-extensive learning tasks sunk to the edge of the network closed to the user. Consequently, the users’ data can be trained locally to meet the needs of low latency and privacy protection. In mobile edge networks, due to the limited communication resources and computing resources, the performance of FL is subject to the integrated constraint of the available computation and communication resources during wireless networking, and also data quality in mobile device. Aiming for the applications of edge intelligence, the tough challenges for seeking high efficiency FL are analyzed here. Next, the research progresses in client selection, model training and model updating in FL are summarized. Specifically, the typical work in data unloading, model segmentation, model compression, model aggregation, gradient descent algorithm optimization and wireless resource optimization are comprehensively analyzed. Finally, the future research trends of FL in edge intelligence are prospected.
-
Keywords:
- federated learning /
- edge computing /
- edge intelligence /
- model aggregation /
- resource constraints
-
深度学习(deep learning,DL)技术已被广泛应用于众多业务场景,研发人员根据业务场景的目标特征构建深度神经网络(deep neural network,DNN)模型,并在特定数据集上反复训练,直至模型精度维持在一个预期的水平,从而达到在业务场景中对目标行为进行预测的目的. 随着业务场景的复杂程度提高,需要结构更加复杂且层数更多的DNN模型来获得更高的精度. 同时,数据集的规模也在不断地增长,导致训练一个DNN模型需要很长时间. 因此,通过构建分布式深度学习(distributed deep learning,DDL)任务,在GPU集群上对DNN模型进行训练,从而加快训练的过程[1],受到了工业界和学术界的广泛关注. 主流的机器学习框架,如PyTorch[2],TensorFlow[3],都对DDL提供了完整的技术支持.
不同于大型公司或企业所部署的高性能计算中心[4-5]这类高度专业化的平台,考虑到GPU设备的成本和组建难度,众多中小型企业、研究所和高校通常会采购GPU服务器组建一个小规模的GPU集群来处理多个用户的DDL任务,如图1所示. GPU集群的计算资源有限,且各GPU服务器的算力、内部通信方式等处于异构性质,如何对其进行高效的资源调度具有重要意义.
现有的集群调度器,例如Yarn[6],Mesos[7],Kubernetes[8],在对DDL任务调度时表现出资源分配不当、运行效率不高的问题,从而无法满足用户需求. 例如,在某实验室使用Yarn进行资源管理的GPU集群[9]中,同一机架和跨机架分别采用InfiniBand和以太网对GPU设备之间进行互联,由于GPU设备间的带宽差异,不同资源布局方式会导致DNN模型的训练效率不同,该集群上的历史调度日志表明该集群的平均资源利用率仅有50%. 此外,对于集群用户而言,任务截止时间是衡量用户满意度的关键指标,根据文献[10]中的研究得知,在大多数情况下,用户可以接受在截止时间之前完成的任务,而当任务结束时间超过截止时间时,用户对于集群的性能满意度会大幅度下降.
基于以上分析,本文提出一种面向GPU集群的动态资源调度(dynamic resource scheduling,DRS)方法,以解决异构GPU集群环境下具有截止时间需求的多DNN调度问题. DRS考虑了带宽差异和资源布局对任务训练时间的影响,并结合截止时间需求指导资源方案的生成,其目标在于优化截止时间保证率和集群节点的资源利用率.
本文的主要贡献包括4个方面:
1)基于Ring-AllReduce通信架构下的DNN模型迭代特征和GPU设备间的带宽差异,构建了资源-时间模型,以计算不同资源方案下的任务运行时间. 该模型能够较为充分地体现分布式DNN训练的特征以及异构带宽所带来的影响.
2)根据资源数量、任务运行时间和任务截止时间构建了资源-性能模型,利用该模型筛选多个满足截止时间需求的资源方案并得到最优方案,以提高资源利用效率.
3)结合资源-时间模型、资源-性能模型以及资源布局,设计了DRS算法,进行DDL任务的资源方案决策. 再基于最近截止时间原则选择调度任务,进行实际资源分配,以最大化截止时间保证率并提高集群节点的资源利用率. 此外,还引入了迁移机制减少动态调度过程中出现的资源碎片.
4) 在一个包含4个节点,每个节点有4个NVIDIA GeForce RTX 2080 Ti的GPU集群上,使用到达时间服从泊松分布的DDL任务队列,并对DRS进行了对比实验. 结果表明,相较于对比算法, DRS的截止时间保证率提升了39.53%,资源利用率达到了91.27%.
1. 相关工作
随着DL技术的发展和大规模应用,许多专家和学者对GPU集群资源调度上的优化指标进行了研究,现有相关工作主要从减少任务完成时间和提升集群性能指标这2方面进行研究.
为减少任务的完成时间,文献[11]提出了基于GPU集群的任务调度算法Optimus,该算法通过预测训练过程中的模型收敛性,建立性能模型来估计模型的训练速度,并利用贪心策略分配计算资源,最小化任务完成时间. 然而,该工作仅考虑任务自身的完成时间,无法保证用户需求的截止时间. 文献[12]构建了一个任务性能模型,以量化分布式训练中不同并行方式下的模型分区形式和对系统可伸缩性的影响,确定任务的最优资源方案,使得任务的完成时间最小化. 然而,该工作采用静态配置的方式完成资源分配,不能根据集群负载和任务运行情况动态地调整资源分配方案. 文献[13]提出了基于强化学习技术的任务调度器Chic,通过集群调度日志不断优化学习模型和决策任务的最优资源方案. 然而,当集群规模扩展时需要收集新的日志并耗费额外时间重新训练,导致该方法不能很好地扩展. 文献[11-13]的工作均以参数服务器(parameter server,PS)[14]方式作为分布式训练的通信架构,本文则基于Ring-AllReduce[15]通信架构进行研究,它能够减少GPU之间的通信开销.
文献[16]提出了集群调度框架Gandiva,借助透明迁移和分时作业,使多个DDL任务在不同时刻复用GPU设备,从而提高资源利用率. 然而,该工作以提升资源利用率作为优化目标,而不是最大化截止时间保证率. 文献[17]提出了基于云PS架构的资源配置框架Cynthia,通过资源消耗的性能分析模型预测任务的完成时间,从而提供最优成本收益下的资源分配方案. 然而,该工作关注的是资源成本需求,而不是截止时间需求. 文献[18]则设计了面向服务质量感知的动态调度框架GENIE,它借助负载预测估计任务的完成时间,得到预期运行时间内的最优资源方案,最大化集群服务质量. 然而,该工作限制资源分配为对称形式并遵循整合约束[19]来获得PS架构的最优训练效率[11],导致集群中存在空闲的GPU设备无法立即使用,造成任务排队延迟和资源利用率不足[20].
现有相关工作能够较为有效地解决GPU集群的资源调度问题,但其中尝试结合资源分配、资源布局和截止时间需求的研究工作较少,对于异构环境下最大化截止时间保证率仍存在一定的局限性. 本文提出的DRS方法,基于Ring-AllReduce通信架构,将资源配置、资源布局和截止时间需求相结合,能够最大化截止时间保证率并提高集群节点的资源利用率.
2. 系统模型
本节主要介绍异构GPU集群场景下的动态资源调度模型、基础模型、资源-时间模型、截止时间模型以及资源-性能模型,以及对目标函数进行了描述.
2.1 动态资源调度模型
本文提出的DRS框架如图2所示. 用户提交含有截止时间需求的DDL任务到达GPU集群时,会被放置到一个等待队列中. 调度器在感知等待队列有新的任务加入或者集群上有任务运行结束时,便执行调度算法,选择DDL任务至GPU集群运行. 在此过程中,首先利用时间模型获取任务在不同资源方案下的运行时间;其次利用性能模型指导DDL任务的最优资源方案生成;然后基于最近截止时间原则选择调度任务;最后进行资源分配确定资源方案的物理资源位置,生成含有节点序号和GPU数量的运行方案. 借助机器学习框架API在GPU集群服务器上启动任务运行脚本,完成资源调度过程. 并引入迁移机制减少调度过程中出现的资源碎片.
2.2 基础模型
对于一个GPU集群而言,需要提供自身所包含的节点数量和每个节点上的空闲GPU数量等信息,以供调度算法进行决策. 本文使用
R={Nodei(s,cfree)|1≤i≤Nnode} 来表示集群的资源列表,其中,Nnode 是集群的节点总数,Nodei(s,cfree) 表示节点对象,s 和cfree 分别表示节点对象的序号以及空闲GPU数量.当任务被提交到集群时,任务本身应包含DNN模型训练的所有必需信息. 本文将一个任务对象表示为
t=⟨Pmodel,Pdataset⟩ ,其中Pmodel 和Pdataset 分别表示任务对象所携带的模型和数据集属性. 具体来说,Pmodel 包含了模型名称、模型结构和模型参数量Nparam 等信息;Pdataset 包含了数据集名称、数据集大小Sdataset 、批次大小Sbatch 和迭代回合Nepoch 等信息.DDL任务的一个资源配置方案则使用
Rt={Nodei(s,cused)|1≤i≤Nnode} 来表示,其中,cused 表示任务在序号为s 的节点上所使用的GPU数量.2.3 资源-时间模型
在分布式深度学习场景下,模型训练通常采用分布式数据并行[21]的方式来完成,如图3所示. 分布式数据并行首先通过在多个GPU设备上装载完整的DNN模型副本;然后将数据集均分为多个子数据集并分配到各个GPU设备上,并保证每个GPU设备上所持有的数据集各不相同;最后每个GPU设备独立地对DNN模型副本进行迭代训练,并在每次更新自身DNN模型参数之前与其他设备借助网络通信交换梯度参数,使用平均后的梯度参数对自身DNN模型权重进行更新. 由于增加了DNN模型对于数据集的吞吐率,因而实现了DNN模型训练加速的目的. Ring-AllReduce通信架构能够有效减少参数同步阶段所需要的通信时间,目前已成为主流机器学习框架中分布式训练模块的默认选择. 该架构将参与训练的所有GPU在逻辑上以环形的方式相互连接,每个设备在环上都有各自相邻的其他设备,参数同步时将自身参数发送给右邻居设备,同时接收从左邻居设备发送过来的参数,如图4所示. 同一节点上的GPU设备借助PCIe(peripheral component interconnect express)和QPI(quick path interconnect)进行通信,节点和节点之间则借助InfiniBand进行通信,其中虚线部分便是Ring-AllReduc通信架构在逻辑上所组织的环形结构. 后续的时间、性能模型和对比实验中的DNN模型训练过程都将基于Ring-AllReduce架构进行.
采用分布式数据并行进行模型训练的DDL任务的实际运行时间主要由2部分构成:第1部分是在单个GPU设备上的计算时间;第2部分是参数同步阶段所花费的通信时间. 本文将DDL任务在某个资源方案下的实际运行时间
Trun 表示为:Trun=Tstep×Nstep×Nepoch, (1) 其中
Tstep 是模型训练一个批次大小的数据集所花费的时间,Nstep 是模型在一个迭代回合中可输入的一个批次大小的数据集个数. 随着任务在集群上的运行时间的增加,Nepoch 会逐渐减少,直至为0,此时DNN模型训练结束.Tstep 由单个GPU设备上的计算时间Tcal 和设备间的通信时间Tcomm 所组成,其计算公式为:Tstep=Tcal+Tcomm. (2) Nstep 会随着资源方案所包含的GPU总数不同而发生变化,数量越多,则Nstep 会相应地减少.Nstep ,Sdataset ,Sbatch 和GPU总数NGPU 在分布式数据并行训练过程中的关系为:Nstep=SdatasetSbatch×NGPU, (3) 其中
NGPU 由资源方案上每个节点的cused 累加得到,由于Sdataset 和Sbatch 保持不变,因此NGPU 的增加会使得Nstep 减少.计算时间
Tcal 和模型计算量以及GPU设备的物理环境有关,通过在真实环境下对模型进行少量迭代来获得真实的Tcal 值. 通过将模型放置在单个GPU设备上进行若干批次的迭代,并记录对应的运行时间,由于不涉及多设备通信,因此该运行时间仅包含Tcal . 将单个GPU设备上的计算时间Tcal 表示为:Tcal=T′stepN′step, (4) 其中
T′step 是若干次迭代的运行时间,N′step 是相应的迭代次数. 在计算任务实际运行时间Trun 时,对于深度学习这类长时间运行的任务来说,若干次迭代的时间可以被忽略不计.如果不存在通信时间,那么任务的运行时间
Trun 和资源方案所包含的GPU总数NGPU 将为反比关系,即随着NGPU 上升,Trun 将会成比例下降. 而存在通信时间时,则会导致运行效率的下降. 由于GPU设备可能被部署在集群的多个节点上,因而设备间可能涉及跨节点通信. 在本文中,根据文献[15]中的理论,将Ring-AllReduce通信架构下的通信时间Tcomm 表示为:Tcomm=2×(NGPU−1)×NparamNGPU×B, (5) 其中
B 是设备之间的带宽速度,如果资源方案所包含的GPU设备都处于同一个节点上,则B 就是节点内GPU设备之间的带宽,如果包含的GPU设备跨多个节点,则B 就是节点间的网络带宽.2.4 截止时间模型
本文设用户对于任务的截止时间需求由任务到达时间、任务优先级以及任务最大运行时间所组成,其中最大运行时间是任务仅在单个GPU设备上的运行时间. 由于任务结束时间和任务到达集群后的排队时间、集群空闲资源情况以及所使用的资源调度算法有关,对于GPU集群的用户而言,在提交DDL任务时,通过指定任务优先级来表示任务的紧急程度比预估一个合理的截止时间要来得容易. 为了简化该问题,本文根据文献[22]中的研究,定义若干任务优先级,将优先级转换为任务的期望运行时间
Texp ,其计算公式表示为:Texp=α×T∗run,α∈{0.5,1.0,1.5}, (6) 其中
α 对应任务优先级,α 值越小说明优先级越高,而T∗run 则是任务在单个GPU设备上的运行时间.设任务的到达时间和运行开始时间分别为
Tarr 和Tstart ,则任务的截止时间Tdl 和运行结束时间Tend 可分别表示为式(7)和式(8):Tdl=Tarr+Texp, (7) Tend=Tstart+Trun. (8) 当任务的截止时间
Tdl 和运行结束时间Tend 满足式(9)时,说明任务运行结束时满足用户的截止时间需求.Tend≤Tdl. (9) 2.5 资源-性能模型
在分布式深度学习过程中,存在着带宽敏感性[20],即2个
NGPU 相同的资源方案,会由于GPU设备的布局方式不同而造成任务运行时间上的不同,这是由于设备间的带宽差异所造成的. 当资源方案所持有的GPU设备都位于同一节点上时,其带宽速度为GPU设备之间的直连带宽;而当资源方案所持有的GPU设备位于不同节点上时,其带宽速度则为节点和节点之间的网络带宽. 由式(5)可知,在NGPU 和Nparam 不变的情况下,Tcomm 随着B 的减少而增加,而当设备间的带宽性能不足以支撑分布式训练时,就会出现多机分布式训练的运行时间比单机训练的运行时间要来得长的情况. 将式(2)(3)带入到式(1)中,并要求多机训练的运行时间比单机训练的运行时间要来得短,则可以得到不等式:(Tcal+Tcomm)×SdatasetSbatch×NGPU<Tcal×SdatasetSbatch, (10) 其中不等式号左边部分和右边部分分别表示模型在多机和单机上训练一个迭代回合的时间,化简式(10)可得
Tcomm<(NGPU−1)×Tcal. (11) 故当模型在进行多机分布式训练时,
Tcomm ,NGPU ,Tcal 只有符合式(11)才能达到模型训练加速的目的.为了更好地展示不同资源方案以及带宽差异对任务性能的影响. 在包含4个节点,其中每个节点包含4个NVIDIA GeForce RTX 2080 Ti的异构带宽GPU集群上测量了多个DNN模型在不同GPU数量下的迭代回合时间. 节点内设备借助PCIe和QPI进行互连,其平均带宽速度为10 GBps;节点间设备借助InfiniBand进行互连,其带宽速度为6 GBps. 参与测量的模型信息如表1所示,模型所采用的数据集为CIFAR-100[29],批次大小统一为16,测量结果如图5所示.
如图5(a)所示,在异构GPU集群环境下,DNN模型的迭代回合时间总体上是随着GPU数量的增加而减少. 其中,VGG-16在GPU数量为2以及AlexNet在GPU数量为2和4时,其迭代回合时间反而比GPU数量为1时的迭代回合时间还要长. 主要原因是DNN模型属于参数量较多的一类模型,其通信时间比起参数量较少的模型要长,在迭代一个批次的数据时,大部分时间都花费在参数同步阶段. 故当带宽性能存在瓶颈时,对于DNN模型而言,增加少量GPU设备所带来的吞吐率上升并不足以抵消参数同步阶段的通信开销,从而导致多机训练无法达到训练加速的目的. 由于可能出现此类资源方案的运行时间仍能满足截止时间需求的情况,本文方法将采用式(11)对可用资源方案进行筛选,保留可进行有效分布式训练的资源方案,减少出现资源浪费的现象.
图5(b)(c)分别展示了在上述环境下,VGG-16和ResNet-50在单节点设备和跨节点设备上的迭代回合时间. 可以看出VGG-16这类参数量多的模型对于带宽的敏感性较强,在单节点上可以得到训练加速的效果,而在相同GPU数量的跨节点方案上由于没有完全抵消通信开销而无法得到训练加速的效果. 而ResNet-50这类模型无论在单节点还是跨节点场景下都可以得到训练加速的效果,只是在跨节点时由于带宽性能较低,因而导致迭代回合时间略慢于单节点. 故在异构带宽GPU集群中,调度算法在进行资源分配时应考虑不同模型在单节点和跨节点资源布局方式上的带宽差异,过于追求减少当前任务的完成时间而选择单节点资源方案时,可能会造成后续到达任务在需要单节点资源方案时的排队延迟和资源利用率的下降.
基于上述分析,为了衡量任务在不同资源方案下的性能,并在满足截止时间需求的多个资源方案中选择运行效率最高的资源方案,充分发挥资源性能. 本文将资源方案的性能公式定义为:
PRt=Tdl−TendNGPU. (12) 式(12)表明,如果一个资源方案使用的资源数目越少且能得到的任务运行结束时间越短,则发挥的资源性能越高.
2.6 目标函数
本文方法的目标是在一个资源有限且带宽异构的GPU集群上,对于一个到达时间服从泊松分布的DDL任务队列
trace={t1,t2,…,tM} ,在集群资源限制和任务截止时间需求上进行权衡,确定每一个DDL任务的执行顺序以及最优资源方案,最大化截止时间保证率. 本文将保证率Rtrace 定义为:Rtrace=NsatiM, (13) 其中
Nsati 和M 分别表示任务队列中满足截止时间需求的任务数量和队列中的任务总数.故将本文方法的目标函数表示为:
maxRtraces.t.R∗t={Nodeji(s,cused)|1≤i≤Nnode},j∈{1,2,…,M},|R∗t|≤Nnode,cused≤Gnode. (14) 其中,
R∗t 表示每个DDL任务的最优资源方案,方案中的节点数量不超过集群节点数量Nnode ,每个节点上的GPU数量不超过可用GPU数量Gnode .3. 本文方法
本节介绍了资源方案决策、实际资源分配、资源迁移机制以及DRS算法. DRS算法将遍历等待队列并执行资源方案决策得到每个任务的最优资源方案,再基于最近截止时间原则选择调度任务,并执行实际资源分配. 在集群运行过程中,引入资源迁移机制减少动态调度过程中资源碎片所带来的影响. 本节将分别对资源方案决策、实际资源分配和资源迁移机制进行介绍,并展示DRS算法的伪代码和复杂度分析.
3.1 资源方案决策
在资源方案决策部分,首先会为等待队列中的每个任务基于集群空闲资源和资源布局生成可用资源方案列表,然后根据2.5节中的性能模型并结合集群节点负载情况,确定每个任务的最优资源方案. 资源方案决策的步骤有4个:
1)获取资源列表
R ,并设cfree>0 的资源节点数量为n ,资源节点cfree 的最大值为max(cfree) 及其累加和为sum(cfree) ,最后初始化一个单节点资源方案列表ls 和一个跨节点资源方案列表lm .2)生成
cused 从1~max(cfree) 的资源方案Rt 添加到ls 中,如果n>1 ,则再生成cused 从1~sum(cfree) 的资源方案Rt 添加到lm 中. 根据式(1)和式(8)计算ls 和lm 中Rt 的Trun 和Tend ,并根据式(11)过滤部分资源方案Rt .3)根据式(12)得到
ls 中PRt≥0 且PRt 最大时的资源方案Rt ,设为单节点预期方案Rset ;以及ls 中Tend>Tdl 且Tend 最小的资源方案Rt ,设为单节点非预期方案¯Rset . 按照相同的思路从lm 中得到跨节点预期方案Rmet 和跨节点非预期方案¯Rmet . 注意其中Rset 和Rmet 可能不存在.4)如果
Rmet 存在且集群存在0<cfree<NGPU 的资源节点,说明当前任务存在跨节点资源方案可以利用局部资源并在Tdl 内结束运行,此时设最优资源方案R∗t=Rmet . 如果条件不成立但Rset 存在,则设R∗t=Rset ;如果Rset 仍不存在,说明集群当前空闲资源无法令当前任务在Tdl 内结束运行,则先后对¯Rmet 和¯Rset 以相同的思路选择其一作为当前任务的R∗t .3.2 实际资源分配
在实际资源分配部分,将根据任务的最优资源方案
R∗t 执行实际资源节点分配过程. 其步骤有3个:1)获取资源列表
R 并按照节点的cfree 升序排序.2)如果
R∗t 为单节点资源方案. 遍历R ,找到cfree≥NGPU 的资源节点Node(s,cfree) ,从该节点扣除NGPU 个GPU设备,将Node(s,NGPU) 添加到R∗t 中,结束遍历.3)如果
R∗t 为跨节点资源方案. 设Nused=NGPU ,遍历R ,找到cfree>0 的资源节点Node(s,cfree) ,从该节点和Nused 分别扣除min{cfree,Nused} 个GPU设备,将Node(s,min{cfree,NGPU}) 添加到R∗t 中,以此类推,直到Nused=0 ,结束遍历.3.3 资源迁移机制
由于无法预知将来提交到集群的任务情况,动态调度方法在根据当前资源做出资源方案抉择时就可能出现仅有的跨节点资源被当前任务所使用,在一段时间后和其他任务运行结束后释放的资源形成资源碎片的场景. 结合2.5节可知,资源碎片会造成单个资源节点的高性能无法被单个模型充分利用.
DDL任务的特性允许中途停止模型训练过程并在之后任意时间点重启,比如利用PyTorch框架可以通过参数设置设定模型权重文件的保存时机,该权重文件会保留目前已经训练好的参数信息和迭代次数,之后可以基于该权重文件在先前已经训练的基础上继续后续的训练过程. 基于DDL任务的这项特性,本文通过引入资源迁移机制来减少资源碎片所带来的影响,尽可能发挥单个节点的性能优势. 资源迁移的过程如图6(a)(b)所示,其中阴影部分表示GPU设备正处于运行状态,空白部分则处于空闲状态,虚线框部分为某个运行任务的实际资源配置.
在每次执行任务调度之前,DRS算法将分析已运行任务情况,决定是否进行资源迁移过程. 将资源列表中处于运行状态但运行设备数量不超过自身总设备数量一半的节点定义为可迁移节点
Nodem(s,cfree) ,当Nodem(s,cfree) 数量超过Nnode 的一半时,暂停全体运行任务并执行资源迁移过程. 其步骤有2个:1) 初始化任务列表
ls 和lm . 遍历运行任务队列Qrun ,将原处于单节点运行的任务t 添加到ls 中,将原处于跨节点运行的任务t 添加到lm 中.2)将
ls 和lm 中的任务t 根据R∗t 的NGPU 降序排序. 首先遍历ls ,对其中的任务t 执行3.2节中的实际资源分配过程,然后遍历lm ,对其中的任务t 同样执行3.2节中的实际资源分配过程.3.4 调度算法流程
每当有新任务到达且GPU集群存在空闲资源或有任务运行结束时,调度器会根据调度算法选择新的任务运行. 算法接收等待任务队列
Qwait 、资源列表R 和当前时间Tcurr 作为输入参数,其中Tcurr 以单位时间增加,当DDL任务的到达时间Tarr=Tcurr 时,将任务添加到队列Qwait 中,此时会根据式(7)预先计算任务的截止时间Tdl . 本文将DRS算法的具体步骤定义为:1)根据集群资源的负载情况,尝试执行3.3节的资源迁移过程. 2)遍历等待队列Qwait ,对任务t 执行3.1节的资源方案决策得到t 的最优资源方案R∗t . 3)初始化预期任务队列Qexp 和非预期任务队列¯Qexp ,如果任务的运行结束时间Tend 和截止时间Tdl 满足式(9),则将任务t 添加到队列Qexp 中,反之则添加到队列¯Qexp 中. 将队列Qexp 中的任务t 根据Tdl−Tend 的值升序排序,此时排在队头的任务t 在资源方案R∗t 下的Tend 越接近Tdl . 将队列¯Qexp 中的任务t 根据Tend 的值升序排序,排在队头的任务t 在资源方案R∗t 下的Tend 越接近Tdl . 注意队列Qexp 可能为空. 4)如果队列Qexp 不为空,则选择排头任务t 作为调度任务t∗ ,否则选择队列¯Qexp 中的排头任务t 作为调度任务t∗ ,并对t∗ 执行3.2节的实际资源分配过程.本文将DRS算法的伪代码表示为:
算法1. DRS算法.
输入:等待任务队列
Qwait 、资源列表R 、当前时间Tcurr ;输出:调度结果.
① 资源迁移;
② 初始化预期任务队列
Qexp 和非预期任务队列¯Qexp ;③ for
i=1 to|Qwait| do④ 对任务
ti 执行资源方案决策得到最优资源 方案R∗t ;⑤ if
Tend≤Tdl then⑥ 将
ti 添加到队列Qexp 中;⑦ else
⑧ 将
ti 添加到队列¯Qexp 中;⑨ end if
⑩ end for
⑪ if
|Qexp|≥1 then⑫ 对
Qexp 根据任务t 的Tdl−Tend 的值升序排序, 选择队头任务t 作为t∗ ;⑬ else
⑭ 对
¯Qexp 根据任务t 的Tend 的值升序排序,选择 队头任务t 作为t∗ ;⑮ 对任务
t∗ 执行实际资源分配;⑯ end if
⑰ return.
3.5 复杂度分析
在本文所提出的DRS算法伪代码流程中,资源方案决策部分的最坏时间复杂度为
O(Nnode×Gnode) ,即所有节点皆处于空闲状态时,最多可以得到Gnode 个单节点资源方案和Nnode×Gnode 个跨节点资源方案. 而实际资源分配部分的最坏时间复杂度为O(Nnode) ,即所有节点皆处于非满载状态时,可以对Nnode 个资源节点进行资源分配过程. 资源迁移机制部分的最坏时间复杂度为O(|Qrun|×Nnode) ,即对|Qrun| 个运行任务进行Nnode 个资源节点的分配过程. 在任务决策部分,其最坏时间复杂度为O(|Qwait|×Nnode×Gnode) ,即对|Qwait| 个等待任务最多执行Nnode×Gnode 个跨节点资源方案下的最优资源方案选择过程.执行包含资源迁移过程的DRS算法时间复杂度为
O(nN)+O(mNG)=O(N(n+mG)) ,其中n ,m ,N ,G 分别表示运行任务数量、等待任务数量、节点数量和节点上的最大可用GPU设备数量.4. 对比实验
本节首先在异构带宽GPU集群上对DRS和多种调度算法进行对比;研究了任务抵达率、节点数量、紧急任务数量、任务接收时间和带宽性能对于各个调度算法的性能影响;使用截止时间保证率、平均等待时间和平均完成时间作为性能指标. 然后还对比了各个算法在运行过程中集群总体节点的资源利用率. 最后分别介绍实验准备和各个对比实验,并对实验结果进行分析.
4.1 实验准备
本文的GPU集群包含4个节点,每个节点有4个NVIDIA GeForce RTX 2080 Ti,节点内的GPU通过PCIe和QPI进行互连,其平均带宽速度为10 GBps;节点间设备借助InfiniBand进行互连,其带宽速度为6 GBps,因此GPU之间的通信具有异构性质. GPU服务器运行Ubuntu 18.04操作系统和PyTorch 1.7.1框架,其分布式训练API默认采用分布式数据并行的方式进行模型训练,并采用NCCL(NVIDIA collective communication library)通信库[30]实现Ring-AllReduce通信架构.
为了提升DDL任务的多样性,在DNN模型方面除了采用表1当中的图像分类模型,还引入了用于动作识别场景下的TSN[31], R(2+1)D[32], TSM[33], SlowOnly[34]等模型,图像分类模型依旧采用CIFAR-100数据集,而动作识别模型则采用UCF-101[35]数据集. DDL任务可携带的工作负载的具体信息如表2所示,其中计算时间是模型在上述集群单个GPU设备上训练一个迭代回合的时间.
表 2 工作负载Table 2. Workloads模型 模型类别 参数量 数据集 批次大小 迭代回合 计算时间/s AlexNet 图像分类 60.97×106 CIFAR-100 16 200 31.25 GoogLeNet 图像分类 23.82×106 CIFAR-100 16 200 199.63 VGG-16 图像分类 138.36×106 CIFAR-100 16 200 139.53 ResNet-50 图像分类 25.53×106 CIFAR-100 16 200 157.47 DenseNet-201 图像分类 20.00×106 CIFAR-100 16 200 437.88 ResNeXt-50 图像分类 25.00×106 CIFAR-100 16 200 347.97 TSN 动作识别 25.53×106 UCF-101 8 80 153.98 R(2+1)D 动作识别 21.79×106 UCF-101 8 180 511.28 TSM 动作识别 25.53×106 UCF-101 8 50 421.05 SlowOnly 动作识别 25.53×106 UCF-101 8 256 523.31 在随机生成到达时间
Tarr 符合泊松分布的任务队列时,本文设定集群默认的任务接收时间范围为0~24 h. 默认的任务抵达率λ=4 ,即平均每小时有4个任务到达集群. 将任务队列的任务优先级0.5,1,1.5的默认比例分别设置为10%,30%,60%.除DRS外,本文还引入了常见的调度策略和具有代表性的GPU集群资源调度算法进行对比.
1)EDF(earliest deadline first)[36]. 从等待队列中选择截止时间最小的任务并使用整体GPU资源进行资源分配.
2)FIFO(first in first out). 从等待任务队列中选择到达时间最小的任务并使用整体GPU资源进行资源分配.
3)Themis[37]. 将GPU资源根据完成时间公平性分配给多个等待任务并将任务一次性调度至集群运行,尽可能保证任务之间具有相近的完成时间.
4)NoRM(no resource migration). 为了验证DRS引入迁移机制的有效性,将DRS中的迁移机制部分移除之后,再与DRS比较各种性能指标.
本文方法的目标在于最大化截止时间保证率
Rtrace ,因此将Rtrace 作为主要性能指标. 除此之外,任务平均等待时间Twait 和任务平均完成时间Tcomp 同样是重要的性能指标[38]. 后续实验将从Rtrace ,Twait ,Tcomp 这3个指标对各个调度算法进行分析比较,Rtrace 依据式(13)进行计算,Twait 和Tcomp 则各自根据Twait=(Tstart−Tarr)/M 和Tcomp=(Tend−Tarr)/M 计算得到,其中M 是任务队列中的任务总数.4.2 任务抵达率
本节研究了任务抵达率
λ 对于各个调度算法性能的影响. 在保持任务队列其他参数不变和控制λ =2,4,6,8,10变化的基础上,进行了对比实验,实验结果如图7所示.由图7(a)可知,由于资源有限,所有算法的
Rtrace 随着λ 的增大而减少,其中DRS和NoRM的表现要优于其他算法. EDF由于只关心任务的截止时间需求,没有考虑实际资源配置对于任务运行时间的影响,会导致在任务数量较多时,运行时间超过截止时间的等待任务比未超过截止时间的任务优先得到了调度. FIFO仅考虑了任务的次序而忽视了截止时间需求,当任务队列中预先到达的都是一些长时间任务时,则后续到达的任务在短时间内都无法得到资源,导致超过截止时间的任务都无法运行. Themis仅考虑了资源配置对任务完成时间公平性的影响,导致在调度过程中,资源优先倾向后续到达的任务,先前到达的任务则无法得到足够的资源在截止时间内结束运行. 本文所设计的DRS算法考虑了任务的截止时间需求和资源方案性能,实现了截止时间保证率和资源利用之间的权衡,在不同λ 下的Rtrace 相较于EDF,FIFO,Themis,NoRM能够分别提升39.53%,41.41%,45.49%,3.11%的性能. DRS通过引入迁移机制减少了动态调度过程中资源碎片带来的影响,性能上要略优于NoRM,证明了引入资源迁移机制的有效性.由图7(b),图7(c)可知,任务的
Twait 和Tcomp 普遍随着λ 的增大而增大,由于资源的有限性和任务的随机性,因此在部分λ 值之间,Twait 和Tcomp 会有下降的趋势,其中DRS的性能表现最好. DRS基于资源方案性能为任务分配合适的设备数量,减少资源浪费,将其余资源保留给后续到达的任务,使得后续任务能够被及时响应,同时也为任务基于现有资源确定了运行效率最高的资源方案,故在Twait 和Tcomp 指标表现上能够优于其他算法.4.3 节点数量
本节研究了节点数量
Nnode 对于各个调度算法性能的影响. 在保持任务队列其他参数不变和控制Nnode =2,3,4变化的基础上,进行了对比实验,实验结果如图8所示.由图8可知,随着
Nnode 的增加,各个算法在Rtrace ,Twait ,Tcomp 指标上都得到了优化,原因在于节点数量的增加使得各个算法可以为更多的任务执行资源调度. EDF,FIFO,Themis在不同集群规模下依旧基于任务自身指标确定任务执行顺序,而DRS能够在不同集群规模下基于集群资源情况和整体任务截止时间需求动态调整等待任务的执行顺序,以最大化Rtrace 为前提选择被调度任务,故其性能表现最佳. 另外,图8(a)中,DRS和NoRM的性能几乎一致,原因在于资源数量对于λ=4 的任务队列来说远远不够,且队列中的任务运行时间皆较长,故在集群运行过程中,资源节点几乎都处于满载状态,资源碎片出现的频率较低,减少了DRS执行资源迁移的次数.4.4 紧急任务数量比例
本节研究了紧急任务数量比例对于各个调度算法性能的影响. 在保持任务队列其他参数不变和控制任务优先级
α=0.5 时,进行了对比实验,实验结果如图9所示.由图9(a)可知,随着
α=0.5 的任务数量比例增加,DRS和NoRM在Rtrace 指标上都有所下降,原因在于部分任务的截止时间缩短,需要更多的资源来满足这部分任务的截止时间需求,但是受到集群资源的限制,无法满足所有任务的截止时间需求,对比其他算法DRS表现依旧出色. 由图9(b)(c)可知,FIFO和Themis在不同优先级比例下的Twait 和Tcomp 完全不变,原因在于二者并没有考虑任务的截止时间需求,因此紧急任务比例的变化没有影响到算法的调度决策. 而EDF虽基于截止时间需求决策调度顺序,但是没有结合资源配置进行考虑,依旧使用全体资源作为任务的资源配置,因此在Twait 和Tcomp 指标上仅有细微的变化.4.5 任务接收时间
本节研究了任务接收时间对于各个调度算法性能的影响. 在保持任务队列其他参数不变和控制任务接收时间上限在12,24,48,72 h变化的基础上,进行了对比实验,实验结果如图10所示.
由图10可知,随着任务接收时间的增加,各个算法在
Rtrace ,Twait ,Tcomp 指标上性能逐渐下降,这是因为对于本文集群而言,长时间接收深度学习这类运行时间普遍较长的任务,由于资源的有限性,会导致等待队列中出现任务堆积的现象而导致性能下降. 可以注意到当任务接收时间范围在[0,12] 时,EDF和FIFO在Rtrace 指标上都有不错的性能表现,原因在于此时的资源数量对于任务队列来说,足够完成大多数任务的调度安排,并且使用整体资源能够获得最短的运行时间,故在Tcomp 指标上二者性能和DRS相近,但是随着等待任务的堆积,没有合理进行资源配置的EDF和FIFO的总体性能不如DRS,DRS在长时间任务接收中会根据等待任务情况和集群负载动态调整任务的执行顺序,故DRS对集群长时间接收任务的场景适应性最好.4.6 带宽性能
本节研究带宽性能对于各个调度算法性能的影响. 保持任务队列其他参数不变,并控制工作负载中为AlexNet,VGG-16这类模型占比由表2的1/5提升为1/3生成限定任务队列. 将限定任务队列和随机任务队列进行了对比实验,实验结果如图11所示.
由图11(a)可知,EDF和FIFO在限定任务队列上性能表现不如随机任务队列. 通过2.5节可以了解到对于AlexNet,VGG-16这类参数量大但计算时间少的模型来说,在此时的集群环境下,GPU数量的大幅提升对于这类模型的训练效率来说没有其他模型来得明显. EDF考虑了截止时间,对于限定任务队列来说,1/3比例任务的截止时间都较小,故EDF提前了这部分任务的执行顺序,但也导致了其他任务的延后训练. FIFO没有改变任务的执行顺序,但由于任务性能提升不明显,故这部分任务在到达集群后没有及时得到调度,即使分配了全体资源也无法在截止时间内结束训练. Themis,NoRM,DRS在限定任务队列的性能表现上都比随机任务队列要好,其原因在于限定任务属于短时间任务,分配适当数量的资源并不会延长过多的运行时间,因此能尽快释放资源到其他任务以满足截止时间需求. 由图11(b)(c)可知,Themis,NoRM,DRS在限定任务队列上的性能都比随机任务队列优化明显,也是由于同样的原因.
DRS在资源方案选择上会过滤无效的资源方案,并考虑单节点和跨节点之间的带宽差异,优先选择能够利用局部资源运行的跨节点资源方案,为后续需要单节点完整性能的任务提供条件,特别是AlexNet和VGG-16这类工作负载,因此DRS在限定任务队列上的综合表现最好.
4.7 资源利用率
本节对比了在各个调度算法的决策下集群总体节点的资源利用率,即单位时间内处于运行状态的设备数量和总数量的比值. 节点的资源利用率越高,表明动态调度过程中出现的资源碎片越少,节点性能发挥越充分. 实验结果如图12所示,本文记录了FIFO,Themis,NoRM,DRS在默认任务队列下的性能表现.
由图12(a)可知,FIFO几乎全程保持了最高的资源利用率,原因在于FIFO每次调度时都为任务分配全体资源,并且任务数量能够保证每次调度时都存在等待任务,此结果和原因对于EDF也同样适用. 由图12(b)可知,Themis出现了间歇性的最高资源利用率,原因在于资源配置对于不同工作负载的性能影响不会完全相同,当一次性调度多个作业时,即使追求完成时间公平性,仍会出现部分任务的运行时间要远大于其他任务的时间,导致较早结束运行的任务所释放的资源出现了空闲现象. 而由图12(c)(d)可知,NoRM和DRS仅在集群运行过程的后半段出现了资源利用率逐渐下降的情况,这是因为后续到达集群的任务较少时,仍选择性能最高的资源方案,没有完全利用剩余的空闲资源,而DRS因为额外引入了资源迁移机制,因此在集群运行的后半段过程中下降趋势相比NoRM更加平缓,二者在默认任务队列上的总体节点资源利用率分别达到了79.13%和91.27%.
5. 结束语
本文针对异构带宽GPU集群上对于具有截止时间需求的DDL任务的资源调度问题,提出了一种面向GPU集群的动态资源调度方法DRS. 通过资源-时间模型得到不同资源方案下的任务运行时间,然后通过资源-性能模型对资源方案进行性能分析并选择最优的资源方案,将资源分配、资源布局和截止时间需求相结合,最大化集群的截止时间保证率. 另外,还引入了迁移机制来减少动态调度过程中产生的资源碎片. 在实际的GPU集群上进行的对比实验证明DRS具有可行性和有效性. 在未来工作中,我们将对DRS进一步优化,考虑集群设备的能耗问题以及设备故障后的容错问题,尝试结合集群调度日志研究资源伸缩的可能性.
作者贡献声明:傅懋钟实施实验方案和论文撰写;胡海洋负责论文的修改;李忠金负责论文方案的提出和论文修改.
-
表 1 现有联邦学习综述研究对比
Table 1 Comparison of Studies on Existing Federated Learning Reviews
表 2 联邦学习客户端选择方案比较
Table 2 Comparison of Federated Learning Client Selection Schemes
方案类型 方案思路 客户端目标 服务器端目标 计算与通信资源优化 剔除不必要的模型更新[17]、客户端分层[18]、控制学习节奏[19]、基于聚类实现自组织学习[20]、长期能耗约束下的带宽分配[21]、设置学习期限[25]、基于设备的计算能力进行选择[26] 激励机制 契约理论[28]:基于信誉进行激励反馈鼓励可靠的终端设备参与学习 奖励和能耗的平衡 最大化由全局迭代时间与补偿给客户端的报酬之间的差异所获得的利润 Stackelberg博弈[31]:实现高质量无线通信效率的全局模型 奖励(即准确率等级)和成本(即通信和计算成本)的平衡 获取不同准确率的凹函数 拍卖理论[32-33]:最大限度地降低客户端投标的成本 奖励和成本的平衡 最小化投标成本 修订目标函数权重[30] 为了引入潜在的公平性并降低训练精度方差,通过在q-FedAvg中分配更高的相对权重来强调具有高经验损失的本地设备 表 3 模型压缩技术总结
Table 3 Summary of Model Compression Techniques
方法 优化手段 优缺点 结构化和草图更新机制[48] 压缩传输模型,提升客户端到服务器的通信效率 客户端到服务器参数压缩;代价是复杂的模型结构可能出现收敛问题 服务端-客户端更新[49] 压缩传输模型,提升服务器到客户端的通信效率 服务器到客户端参数压缩;代价是准确性降低,可能有收敛问题
草图[50]使用计数草图压缩模型更新,然后利用草图的可合并性来组合来自客户端的模型更新 解决了客户端参与稀少而导致的收敛问题,建立在假设网络;已经尽了最大努力使通信效率最大化;可能遇到网络瓶颈 Adam[1] 通过使用Adam优化和压缩方案改进了FedAvg算法 Adam优化加快了收敛速度,压缩方案降低了通信开销 模型蒸馏[51-52] 交换模型输出模型状态信息,即其有效载荷大小仅取决于输出维度的标签数量;然后使用联邦蒸馏实现权重更新规则 解决了数据独立同分布的问题;代价是无线信道对模型训练精度的影响 表 4 模型训练优化方法及特点
Table 4 Optimization Methods and Characteristics of Model Training
表 5 主要联邦学习模型聚合技术的比较总结
Table 5 A Comparative Summary of Major Federated Learning Mode Aggregation Technologies
聚合技术 优化角度 主要思想 特点 FedAvg[7] 统计异构性 客户端对其本地数据执行多个批处理更新,并与服务器传输更新的权重,而不是梯度. 从统计的角度看,FedAvg已被证明设备间数据分布不一致的情况下开始发散;从系统的角度看,FedAvg不允许参与学习的设备根据其底层系统限制执行可变数量的本地更新. FedProx[55] 统计异构性 在每个客户端上的本地训练子问题中添加一项,以限制每个本地模型更新对全局模型的影响. FedProx的提出是为了提高统计异质性数据的收敛性. 与FedAvg类似,在FedProx中,所有设备在全局聚合阶段的权重相等,因为没有考虑设备功能(例如硬件、电量)的差异. FedPAQ[53] 通信 在与服务器共享更新之前,允许客户端在模型上执行多个本地更新. 与FedAvg类似,FedPAQ中的新全局模型为局部模型的平均值,但这在强凸和非凸设置中都需要很高的复杂性. FedMA[54] 统计异构性 在执行聚合前考虑神经元的排列不变性,并允许全局模型大小自适应. 使用贝叶斯非参数机制根据数据分布的异构性调整中心模型的大小;FedMA中的贝叶斯非参数机制容易受到模型中毒攻击,在这种情况下,对手可以很容易地欺骗系统扩展全局模型,以适应任何中毒的本地模型. Turbo-Aggregate[62] 通信和安全 一种多组策略,其中客户端被分成几个组,模型更新以循环方式在组之间共享和一种保护用户隐私数据的附加秘密共享机制. Turbo-Aggregate非常适合无线拓扑,在这种拓扑中,网络条件和用户可用性可能会快速变化. Turbo-Aggregate中嵌入的安全聚合机制虽然能有效处理用户流失,但无法适应加入网络的新用户. 因此,通过重新配置系统规范(即多组结构和编码设置)以确保满足弹性和隐私保证,开发一种可自我配置的协议来扩展它的. 自适应聚合[63] 通信和统计
异构性在给定的资源预算下确定局部更新和全局参数聚合之间的最佳折中的自适应控制算法. 改变了全局聚合频率,以确保期望的模型性能,同时确保在FL训练过程中有效利用可用资源,例如能量,可用于边缘计算中的FL. 自适应聚合方案的收敛性保证目前只考虑凸损失函数. HierFAVG[65] 通信 一种分层的客户端—边缘—云聚合体系结构,边缘服务器聚合其客户端的模型更新,然后将它们发送到云服务器进行全局聚合. 这种多层结构能够在现有的客户端—云架构上实现更高效的模型交换. HierFAVG仍然容易出现掉队和终端设备掉线的问题. 自适应任务分配[66] 设备异构性、通信、计算 在保证异构信道上的数据分发/聚合总次数和异构设备上的本地计算,在延迟约束下最大化学习精度. 自适应任务分配方案,该方案将最大化分布式学习者的本地学习迭代次数(从而提高学习精度),同时遵守时间限制. 该方案没考虑动态参数,如变化的信道状态和数据到达时间. 公平聚合[67] 设备异构性、任务异构性、通信、计算 一种具有自适应学习率的定制学习算法,以适应不同的精度要求,并加快本地训练过程. 为边缘服务器提出了一个公平的全局聚合策略,以最小化异构终端设备之间的精度差异. 一种学习率自适应的CuFL算法,以最小化总学习时间. 考虑到终端设备的任务异质性,CuFL允许终端设备在满足其独特的精度要求后提前退出训练. 该方案没考虑动态参数,如变化的信道状态和数据到达时间. 表 6 边缘网络下基于联邦学习的无人机应用
Table 6 Unmanned Aerial Vehicle Application Based on Federated Learning in Edge Network
挑战 联邦学习 结果 客户端 服务器 数据特征 本地和全局模型 边缘内容
缓存[95-96]UAVs 边缘服务器
边缘服务器内容特征(新鲜度、位置、占用内存、内容请求历史等) 内容受欢迎度预测 有效地确定哪些内容应该存储在每个缓存中 无人机作
为基站[93]地面用户 关于地面用户可移动性的信息(位置、方向、速度等) 地面用户模式(移动性
和内容负荷)的预测优化无人机基站部署、提高网络覆盖和连通性、有效提供热门内容. 无人机轨
迹规划[92]UAVs 边缘服务器或云 源、目的点位置、无人机机动性信息(速度、方向、位置、高度等)、无人机能量消耗、物理障碍、服务需求等. 每条潜在路径的性能预测 无人机选择最优轨迹、优化服务性能、优化无人机能耗 -
[1] Mills J, Hu Jia, Min Geyong. Communication-efficient federated learning for wireless edge intelligence in IoT[J]. IEEE Internet of Things Journal, 2019, 7(7): 5986−5994
[2] Covington P, Adams J, Sargin E. Deep neural networks for YouTube recommendations[C] //Proc of the 10th ACM Conf on Recommender Systems. New York: ACM, 2016: 191−198
[3] Parkhi O M, Vedaldi A, Zisserman A. Deep face recognition[C] //Proc of the 15th IEEE Int Conf on Computer Vision Workshop. Piscataway, NJ: IEEE, 2015: 258−266
[4] Mowla N I, Tran N H, Doh I, et al. Federated learning-based cognitive detection of jamming attack in flying ad-hoc network[J]. IEEE Access, 2020, 8: 4338−4350 doi: 10.1109/ACCESS.2019.2962873
[5] Brik B, Ksentini A, Bouaziz M. Federated learning for UAVs-enabled wireless networks: Use cases, challenges, and open problems[J]. IEEE Access, 2020, 8: 53841−53849 doi: 10.1109/ACCESS.2020.2981430
[6] Abbas N, Zhang Yan, Taherkordi A, et al. Mobile edge computing: A survey[J]. IEEE Internet of Things Journal, 2017, 5(1): 450−465
[7] Mcmahan B, Moore E, Ramage D, et al. Communication-efficient learning of deep networks from decentralized data[C] //Proc of the 20th Int Conf on Artificial Intelligence and Statistics. New York: PMLR, 2017 : 1273−1282.
[8] Yang Qiang, Liu Yang, Chen Tianjian, et al. Federated machine learning: Concept and applications[J]. ACM Transactions on Intelligent Systems and Technology, 2019, 10(2): 1−19
[9] Zhou Zhi, Yang Song, Pu Lingjun, et al. CEFL: Online admission control, data scheduling, and accuracy tuning for cost-efficient federated learning across edge nodes[J]. IEEE Internet of Things Journal, 2020, 7(10): 9341−9356 doi: 10.1109/JIOT.2020.2984332
[10] Ruder S. An overview of gradient descent optimization algorithms[J]. arXiv preprint, arXiv: 1609.04747, 2016
[11] Lim W Y B, Luong N C, Hoang D T, et al. Federated learning in mobile edge networks: A comprehensive survey[J]. IEEE Communications Surveys & Tutorials, 2020, 22(3): 2031−2063
[12] Li Tian, Sahu A K, Talwalkar A, et al. Federated learning: Challenges, methods, and future directions[J]. IEEE Signal Processing Magazine, 2020, 37(3): 50−60 doi: 10.1109/MSP.2020.2975749
[13] Li Qinbin, Wen Zeyi, Wu Zhaomin, et al. A survey on federated learning systems: Vision, hype and reality for data privacy and protection[J]. arXiv preprint, arXiv: 1907.09693, 2019
[14] Wang Xiaofei, Han Yiwen, Wang Chenyang, et al. In-edge AI: Intelligentizing mobile edge computing, caching and communication by federated learning[J]. IEEE Network, 2019, 33(5): 156−165 doi: 10.1109/MNET.2019.1800286
[15] Kairouz P, Mcmahan H B, Avent B, et al. Advances and open problems in federated learning[J]. arXiv preprint, arXiv: 1912.04977, 2019
[16] 王艳,李念爽,王希龄,等. 编码技术改进大规模分布式机器学习性能综述[J]. 计算机研究与发展,2020,57(3):542−561 doi: 10.7544/issn1000-1239.2020.20190286 Wang Yan, Li Nianshuang, Wang Xiling, et al. Coding-based performance improvement of distributed machine learning in large-scale clusters[J]. Journal of Computer Research and Development, 2020, 57(3): 542−561 (in Chinese) doi: 10.7544/issn1000-1239.2020.20190286
[17] Jin Yibo, Jiao Lei, Qian Zhuzhong, et al. Resource-efficient and convergence-preserving online participant selection in federated learning[C] //Proc of the 40th IEEE Int Conf on Distributed Computing Systems (ICDCS). Piscataway, NJ: IEEE, 2020: 606−616
[18] Chai Z, Ali A, Zawad S, et al. TiFL: A tier-based federated learning system[C] //Proc of the 29th Int Symp on High-Performance Parallel and Distributed Computing. New York: ACM, 2020: 125−136
[19] Li Li, Xiong Haoyi, Guo Zhishan, et al. SmartPC: Hierarchical pace control in real-time federated learning system[C] //Proc of the 40th IEEE Real-Time Systems Symp (RTSS). Piscataway, NJ: IEEE, 2019: 406−418
[20] Khan L U, Alsenwi M, Han Zhu, et al. Self organizing federated learning over wireless networks: A socially aware clustering approach[C] //Proc of the 34th Int Conf on Information Networking (ICOIN). Piscataway, NJ: IEEE, 2020: 453−458
[21] Xu Jie, Wang Heqiang. Client selection and bandwidth allocation in wireless federated learning networks: A long-term perspective[J]. IEEE Transactions on Wireless Communications, 2020, 20(2): 1188−1200
[22] Damaskinos G, Guerraoui R, Kermarrec A M, et al. Fleet: Online federated learning via staleness awareness and performance prediction[C] //Proc of the 21st Int Middleware Conf. New York: ACM, 2020: 163−177
[23] Sprague M R, Jalalirad A, Scavuzzo M, et al. Asynchronous federated learning for geospatial applications[C] //Proc of the Joint European Conf on Machine Learning and Knowledge Discovery in Databases. Cham, Switzerland: Springer, 2018: 21−28
[24] Wu Wentai, He Ligang, Lin Weiwei, et al. Safa: A semi-asynchronous protocol for fast federated learning with low overhead[J]. IEEE Transactions on Computers, 2020, 70(5): 655−668
[25] Nishio T, Yonetani R. Client selection for federated learning with heterogeneous resources in mobile edge[C/OL] //Proc of the 53rd IEEE Int Conf on Communications. Piscataway, NJ: IEEE, 2019[2022-09-05].https://ieeexplore.ieee.org/document/8761315
[26] Yoshida N, Nishio T, Morikura M, et al. Hybrid-FL for wireless networks: Cooperative learning mechanism using non-IID data[C/OL] //Proc of the 54th IEEE Int Conf on Communications (ICC). Piscataway, NJ: IEEE, 2020[2022-09-05].https://ieeexplore.ieee.org/abstract/document/9149323
[27] Khan L U, Pandey S R, Tran N H, et al. Federated learning for edge networks: Resource optimization and incentive mechanism[J]. IEEE Communications Magazine, 2020, 58(10): 88−93 doi: 10.1109/MCOM.001.1900649
[28] Kang Jiawen, Xiong Zehui, Niyato D, et al. Incentive mechanism for reliable federated learning: A joint optimization approach to combining reputation and contract theory[J]. IEEE Internet of Things Journal, 2019, 6(6): 10700−10714 doi: 10.1109/JIOT.2019.2940820
[29] Kim H, Park J, Bennis M, et al. Blockchained on-device federated learning[J]. IEEE Communications Letters, 2019, 24(6): 1279−1283
[30] Li Tian, Sanjabi M, Beirami A, et al. Fair resource allocation in federated learning[J]. arXiv preprint, arXiv: 1905.10497, 2020
[31] Pandey S R, Tran N H, Bennis M, et al. A crowdsourcing framework for on-device federated learning[J]. IEEE Transactions on Wireless Communications, 2020, 19(5): 3241−3256 doi: 10.1109/TWC.2020.2971981
[32] Le T H T, Tran N H, Tun Y K, et al. Auction based incentive design for efficient federated learning in cellular wireless networks[C/OL] //Proc of the IEEE Wireless Communications and Networking Conf (WCNC). Piscataway, NJ: IEEE, 2020[2022-09-05].https://ieeexplore.ieee.org/abstract/document/9120773
[33] Jiao Yutao, Wang Ping, Niyato D, et al. Toward an automated auction framework for wireless federated learning services market[J]. IEEE Transactions on mobile Computing, 2020, 20(10): 3034−3048
[34] Gao Xiaozheng, Wang Ping, Niyato D, et al. Auction-based time scheduling for backscatter-aided RF-powered cognitive radio networks[J]. IEEE Transactions on Wireless Communications, 2019, 18(3): 1684−1697 doi: 10.1109/TWC.2019.2895340
[35] Ko BongJun, Wang Shiqiang, He Ting, et al. On data summarization for machine learning in multi-organization federations[C] //Proc of the 7th IEEE Int Conf on Smart Computing (SMARTCOMP). Piscataway, NJ: IEEE, 2019: 63−68
[36] Valerio L, Passarella A, Conti M. Optimal trade-off between accuracy and network cost of distributed learning in mobile edge Computing: An analytical approach[C/OL] //Proc of the 18th Int Symp on a World of Wireless, Mobile and Multimedia Networks (WoWMoM). Piscataway, NJ: IEEE, 2017[2022-09-05].https://ieeexplore.ieee.org/abstract/document/7974310
[37] Skatchkovsky N, Simeone O. Optimizing pipelined computation and communication for latency-constrained edge learning[J]. IEEE Communications Letters, 2019, 23(9): 1542−1546 doi: 10.1109/LCOMM.2019.2922658
[38] Huang Yutao, Zhu Yifei, Fan Xiaoyi, et al. Task scheduling with optimized transmission time in collaborative cloud-edge learning[C/OL] //Proc of the 27th Int Conf on Computer Communication and Networks (ICCCN). Piscataway, NJ: IEEE, 2018[2022-09-05].https://ieeexplore.ieee.org/abstract/document/8487352
[39] Dey S, Mukherjee A, Pal A, et al. Partitioning of CNN models for execution on fog devices[C] //Proc of the 1st ACM Int Workshop on Smart Cities and Fog Computing. New York: ACM, 2018: 19−24
[40] Zhang Shigeng, Li Yinggang, Liu Xuan, et al. Towards real-time cooperative deep inference over the cloud and edge end devices[J]. Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies, 2020, 4(2): 1−24
[41] Dey S, Mukherjee A, Pal A. Embedded deep inference in practice: Case for model partitioning[C] //Proc of the 1st Workshop on Machine Learning on Edge in Sensor Systems. New York: ACM, 2019: 25−30
[42] Lin Bing, Huang Yinhao, Zhang Jianshan, et al. Cost-driven off-loading for DNN-based applications over cloud, edge, and end devices[J]. IEEE Transactions on Industrial Informatics, 2019, 16(8): 5456−5466
[43] Wang Lingdong, Xiang Liyao, Xu Jiayu, et al. Context-aware deep model compression for edge cloud computing[C] //Proc of the 40th Int Conf on Distributed Computing Systems (ICDCS). Piscataway, NJ: IEEE, 2020: 787−797
[44] Wang Ji, Zhang Jianguo, Bao Weidong, et al. Not just privacy: Improving performance of private deep learning in mobile cloud[C] //Proc of the 24th ACM SIGKDD Int Conf on Knowledge Discovery & Data Mining. New York: ACM, 2018: 2407−2416
[45] Zhang Jiale, Wang Junyu, Zhao Yanchao, et al. An efficient federated learning scheme with differential privacy in mobile edge computing[C] //Proc of the Int Conf on Machine Learning and Intelligent Communications. Berlin: Springer, 2019: 538−550
[46] Ivkin N, Rothchild D, Ullah E, et al. Communication-efficient distributed SGD with sketching[J]. Advances in Neural Information Processing Systems, 2019, 32: 13144−13154
[47] Zhang Boyu, Davoodi A, Hu Yuhen. Exploring energy and accuracy tradeoff in structure simplification of trained deep neural networks[J]. IEEE Journal on Emerging and Selected Topics in Circuits and Systems, 2018, 8(4): 836−84 doi: 10.1109/JETCAS.2018.2833383
[48] Konen J, Mcmahan H B, Yu F X, et al. Federated learning: Strategies for improving communication efficiency[J]. arXiv preprint, arXiv: 1610.05492, 2016
[49] Caldas S, Konečny J, Mcmahan H B, et al. Expanding the reach of federated learning by reducing client resource requirements[J]. arXiv preprint, arXiv: 1812.07210, 2018
[50] Rothchild D, Panda A, Ullah E, et al. FetchSGD: Communication-efficient federated learning with sketching[C] //Proc of the 37th Int Conf on Machine Learning. New York: PMLR, 2020: 8253−8265
[51] Jeong E, Oh S, Kim H, et al. Communication-efficient on-device machine learning: Federated distillation and augmentation under non-IID private data[J]. arXiv preprint, arXiv: 1811.11479, 2018
[52] Ahn J H, Simeone O, Kang J. Wireless federated distillation for distributed edge learning with heterogeneous data[C/OL] //Proc of the 30th Annual Int Symp on Personal, Indoor and Mobile Radio Communications (PIMRC). Piscataway, NJ: IEEE, 2019[2022-09-05]. https://ieeexplore.ieee.org/abstract/document/8904164
[53] Reisizadeh A, Mokhtari A, Hassani H, et al. FedPAQ: A communication-efficient federated learning method with periodic averaging and quantization[C] //Proc of the 23rd Int Conf on Artificial Intelligence and Statistics. New York: PMLR, 2020: 2021−2031
[54] Karimireddy S P, Kale S, Mohri M, et al. SCAFFOLD: Stochastic controlled averaging for federated learning[C] //Proc of the 37th Int Conf on Machine Learning. New York: PMLR, 2020: 5132−5143
[55] Li Tian, Sahu A K, Zaheer M, et al. Federated optimization in heterogeneous networks[J]. Proceedings of Machine Learning and Systems, 2020, 2: 429−450
[56] Wang Hongyi, Yurochkin M, Sun Yuekai, et al. Federated learning with matched averaging[J]. arXiv preprint, arXiv: 2002.06440, 2020
[57] Pillutla K, Kakade S M, Harchaoui Z. Robust aggregation for federated learning[J]. IEEE Transactions on Signal Processing, 2022, 70: 1142−1154 doi: 10.1109/TSP.2022.3153135
[58] Grama M, Musat M, Muñoz-González L, et al. Robust aggregation for adaptive privacy preserving federated learning in healthcare[J]. arXiv preprint, arXiv: 2009.08294, 2020
[59] Ang Fan, Chen Li, Zhao Nan, et al. Robust federated learning with noisy communication[J]. IEEE Transactions on Communications, 2020, 68(6): 3452−3464 doi: 10.1109/TCOMM.2020.2979149
[60] Lu Yanyang, Fan Lei. An efficient and robust aggregation algorithm for learning federated CNN[C/OL] //Proc of the 3rd Int Conf on Signal Processing and Machine Learning. New York: ACM, 2020[2022-09-05].https://dl.acm.org/doi/abs/10.1145/3432291.3432303
[61] Chen Zhou, Lv Na, Liu Pengfei, et al. Intrusion detection for wireless edge networks based on federated learning[J]. IEEE Access, 2020, 8: 217463−217472 doi: 10.1109/ACCESS.2020.3041793
[62] So J, Güler B, Avestimehr A S. Turbo-aggregate: Breaking the quadratic aggregation barrier in secure federated learning[J]. IEEE Journal on Selected Areas in Information Theory, 2021, 2(1): 479−489 doi: 10.1109/JSAIT.2021.3054610
[63] Wang Shiqiang, Tuor T, Salonidis T, et al. Adaptive federated learning in resource constrained edge computing systems[J]. IEEE Journal on Selected Areas in Communications, 2019, 37(6): 1205−1221 doi: 10.1109/JSAC.2019.2904348
[64] Zhang Xiongtao, Zhu Xiaomin, Wang Ji, et al. Federated learning with adaptive communication compression under dynamic bandwidth and unreliable networks[J]. Information Sciences, 2020, 540(5): 242−262
[65] Liu Lumin, Zhang Jun, Song Shenghui, et al. Client-edge-cloud hierarchical federated learning[C/OL] //Proc of the 54th IEEE Int Conf on Communications (ICC). Piscataway, NJ: IEEE, 2020[2022-09-05].https://ieeexplore.ieee.org/abstract/document/9148862
[66] Mohammad U, Sorour S. Adaptive task allocation for mobile edge learning[C/OL] //Proc of the Wireless Communications and Networking Conf Workshop (WCNCW). Piscataway, NJ: IEEE, 2019[2022-09-05].https://ieeexplore.ieee.org/abstract/document/8902527
[67] Jiang Hui, Liu Min, Yang Bo, et al. Customized federated learning for accelerated edge computing with heterogeneous task targets[J]. Computer Networks, 2020, 183(12): 107569−107569
[68] Lin Yujun, Han Song, Mao Huizi, et al. Deep gradient compression: Reducing the communication bandwidth for distributed training[J]. arXiv preprint, arXiv: 1712.01887, 2017
[69] Liu Wei, Chen Li, Chen Yunfei, et al. Accelerating federated learning via momentum gradient descent[J]. IEEE Transactions on Parallel and Distributed Systems, 2020, 31(8): 1754−1766 doi: 10.1109/TPDS.2020.2975189
[70] Abdi A, Saidutta Y M, Fekri F. Analog compression and communication for federated learning over wireless MAC[C/OL] //Proc of the 21st Int Workshop on Signal Processing Advances in Wireless Communications (SPAWC). Piscataway, NJ: IEEE, 2020[2022-09-05]. https://ieeexplore.ieee.org/abstract/document/9154309
[71] Alistarh D, Grubic D, Li J, et al. QSGD: Communication-efficient SGD via gradient quantization and encoding[J]. Advances in Neural Information Processing Systems, 2017, 30: 1709−1720
[72] Bernstein J, Wang Yuxiang, Azizzadenesheli K, et al. signSGD: Compressed optimisation for non-convex problems[C] //Proc of the 35th Int Conf on Machine Learning. New York: PMLR, 2018: 560−569
[73] Zhu Guangxu, Wang Yong, Huang Kaibin. Broadband analog aggregation for low-latency federated edge learning[J]. IEEE Transactions on Wireless Communications, 2019, 19(1): 491−506
[74] Amiri M M, Gündüz D. Federated learning over wireless fading channels[J]. IEEE Transactions on Wireless Communications, 2020, 19(5): 3546−3557 doi: 10.1109/TWC.2020.2974748
[75] Wu Jiaxiang, Huang Weidong, Huang Junzhou, et al. Error compensated quantized SGD and its applications to large-scale distributed optimization[C] //Proc of the 35th Int Conf on Machine Learning. New York: PMLR, 2018: 5325−5333
[76] Basu D, Data D, Karakus C, et al. Qsparse-local-SGD: Distributed SGD with quantization, sparsification, and local computations[J]. arXiv preprint, arXiv: 1906.02367, 2019
[77] Xin Ran, Kar S, Khan U A. An introduction to decentralized stochastic optimization with gradient tracking[J]. arXiv preprint, arXiv: 1907.09648, 2019
[78] Haddadpour F, Kamani M M, Mokhtari A, et al. Federated learning with compression: Unified analysis and sharp guarantees[C] //Proc of the 24th Int Conf on Artificial Intelligence and Statistics. New York: PMLR, 2021: 2350−2358
[79] Tang Hanlin, Lian Xiangru, Yan Ming, et al. D2: Decentralized training over decentralized data[C] //Proc of the 35th Int Conf on Machine Learning. New York: PMLR, 2018: 4848−4856
[80] Amiri M M, Gündüz D. Machine learning at the wireless edge: Distributed stochastic gradient descent over-the-air[J]. IEEE Transactions on Signal Processing, 2020, 68(1): 2155−2169
[81] Zhu Guangxu, Du Yuqing, Gündüz D, et al. One-bit over-the-air aggregation for communication-efficient federated edge learning: Design and convergence analysis[J]. IEEE Transactions on Wireless Communications, 2020, 20(3): 2120−2135
[82] Lu Yunlong, Huang Xiaohong, Dai Yueyue, et al. Differentially private asynchronous federated learning for mobile edge computing in urban informatics[J]. IEEE Transactions on Industrial Informatics, 2019, 16(3): 2134−2143
[83] Sun Jun, Chen Tianyi, Giannakis G B, et al. Communication-efficient distributed learning via lazily aggregated quantized gradients[J]. arXiv preprint, arXiv: 1909.07588, 2019
[84] Shokri R, Shmatikov V. Privacy-preserving deep learning[C] //Proc of the 22nd ACM SIGSAC Conf on Computer and Communications Security. New York: ACM, 2015: 1310−1321
[85] Elgabli A, Park J, Bedi A S, et al. Q-GADMM: Quantized group ADMM for communication efficient decentralized machine learning[J]. IEEE Transactions on Communications, 2020, 69(1): 164−181
[86] Elgabli A, Park J, Bedi A S, et al. GADMM: Fast and communication efficient framework for distributed machine learning[J]. Journal of Machine Learning Research, 2020, 21(76): 1−39
[87] Elgabli A, Park J, Ahmed S, et al. L-FGADMM: Layer-wise federated group ADMM for communication efficient decentralized deep learning[C/OL] //Proc of the IEEE Wireless Communications and Networking Conf(WCNC). Piscataway, NJ: IEEE, 2020[2022-09-05].https://ieeexplore.ieee.org/abstract/document/9120758
[88] Zhang Wei, Gupta S, Lian Xiangru, et al. Staleness-aware async-SGD for distributed deep learning[J]. arXiv preprint, arXiv: 1511.05950, 2015
[89] Tao Zeyi, Li Qun. eSGD: Communication efficient distributed deep learning on the edge[C/OL] //Proc of the 1st USENIX Workshop on Hot Topics in Edge Computing (HotEdge 18). Berkeley, CA: USENIX Association, 2018[2022-09-05].https://www.usenix.org/conference/hotedge18/presentation/tao
[90] Wang Luping, Wang Wei, Li Bo. CMFL: Mitigating communication overhead for federated learning[C] //Proc of the 39th Int Conf on Distributed Computing Systems (ICDCS). Piscataway, NJ: IEEE: 954−964
[91] Xing Hong, Simeone O, Bi Suzhi. Decentralized federated learning via SGD over wireless D2D networks[C/OL] //Proc of the 21st Int Workshop on Signal Processing Advances in Wireless Communications (SPAWC). Piscataway, NJ: IEEE, 2020[2022-09-05].https://ieeexplore.ieee.org/abstract/document/9154332
[92] Shiri H, Park J, Bennis M. Communication-efficient massive UAV online path control: Federated learning meets mean-field game theory[J]. IEEE Transactions on Communications, 2020, 68(11): 6840−6857 doi: 10.1109/TCOMM.2020.3017281
[93] Zeng Tengchan, Semiari O, Mozaffari M, et al. Federated learning in the sky: Joint power allocation and scheduling with UAV swarms[C/OL] //Proc of the 54th IEEE Int Conf on Communications (ICC). Piscataway, NJ: IEEE, 2020[2022-09-05].https://ieeexplore.ieee.org/abstract/document/9148776
[94] Pham Q V, Zeng Ming, Ruby R, et al. UAV communications for sustainable federated learning[J]. IEEE Transactions on Vehicular Technology, 2021, 70(4): 3944−3948 doi: 10.1109/TVT.2021.3065084
[95] Fadlullah Z M, Kato N. HCP: Heterogeneous computing platform for federated learning based collaborative content caching towards 6G networks[J]. IEEE Transactions on Emerging Topics in Computing, 2020, 10(1): 112−123
[96] Chen Mingzhe, Mozaffari M, Saad W, et al. Caching in the sky: Proactive deployment of cache-enabled unmanned aerial vehicles for optimized quality-of-experience[J]. IEEE Journal on Selected Areas in Communications, 2017, 35(5): 1046−1061 doi: 10.1109/JSAC.2017.2680898
[97] Lahmeri M A, Kishk M A, Alouini M S. Artificial intelligence for UAV-enabled wireless networks: A survey[J]. IEEE Open Journal of the Communications Society, 2021, 2: 1015−1040 doi: 10.1109/OJCOMS.2021.3075201
[98] Wang Yuntao, Su Zhou, Zhang Ning, et al. Learning in the air: Secure federated learning for UAV-assisted crowdsensing[J]. IEEE Transactions on Network Science and Engineering, 2020, 8(2): 1055−1069
[99] Lim W Y B, Huang Jianqiang, Xiong Zehui, et al. Towards federated learning in UAV-enabled Internet of vehicles: A multi-dimensional contract-matching approach[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 22(8): 5140−5154 doi: 10.1109/TITS.2021.3056341
[100] Samarakoon S, Bennis M, Saad W, et al. Distributed federated learning for ultra-reliable low-latency vehicular communications[J]. IEEE Transactions on Communications, 2019, 68(2): 1146−1159
[101] Ye Dongdong, Yu Rong, Pan Miao, et al. Federated learning in vehicular edge computing: A selective model aggregation approach[J]. IEEE Access, 2020, 8: 23920−23935 doi: 10.1109/ACCESS.2020.2968399
[102] Lu Yunlong, Huang Xiaohong, Dai Yueyue, et al. Federated learning for data privacy preservation in vehicular cyber-physical systems[J]. IEEE Network, 2020, 34(3): 50−56 doi: 10.1109/MNET.011.1900317
[103] Du Zhaoyang, Wu Celimuge, Yoshinaga T, et al. Federated learning for vehicular Internet of things: Recent advances and open issues[J]. IEEE Open Journal of the Computer Society, 2020, 1: 45−61 doi: 10.1109/OJCS.2020.2992630
[104] Deveaux D, Higuchi T, Uçar S, et al. On the orchestration of federated learning through vehicular knowledge networking[C/OL] //Proc of IEEE Vehicular Networking Conf (VNC). Piscataway, NJ: IEEE, 2020[2022-09-05].https://ieeexplore.ieee.org/abstract/document/9318386
[105] Chen Mingzhe, Semiari O, Saad W, et al. Federated echo state learning for minimizing breaks in presence in wireless virtual reality networks[J]. IEEE Transactions on Wireless Communications, 2019, 19(1): 177−191
[106] Mozaffari M, Saad W, Bennis M, et al. A tutorial on UAVs for wireless networks: Applications, challenges, and open problems[J]. IEEE Communications Surveys & Tutorials, 2019, 21(3): 2334−2360
[107] Samarakoon S, Bennis M, Saad W, et al. Federated learning for ultra-reliable low-latency V2V communications[C/OL] //Proc of the IEEE Global Communications Conf (GLOBECOM). Piscataway, NJ: IEEE, 2018[2022-09-05].https://ieeexplore.ieee.org/abstract/document/8647927
[108] Feyzmahdavian H R, Aytekin A, Johansson M. An asynchronous mini-batch algorithm for regularized stochastic optimization[J]. IEEE Transactions on Automatic Control, 2016, 61(12): 3740−3754 doi: 10.1109/TAC.2016.2525015
[109] Lu Yunlong, Huang Xiaohong, Zhang Ke, et al. Blockchain empowered asynchronous federated learning for secure data sharing in Internet of vehicles[J]. IEEE Transactions on Vehicular Technology, 2020, 69(4): 4298−4311 doi: 10.1109/TVT.2020.2973651
[110] Yin Feng, Lin Zhidi, Kong Qinglei, et al. FedLoc: Federated learning framework for data-driven cooperative localization and location data processing[J]. IEEE Open Journal of Signal Processing, 2020, 1: 187−215 doi: 10.1109/OJSP.2020.3036276
[111] Merluzzi M, Di Lorenzo P, Barbarossa S. Dynamic resource allocation for wireless edge machine learning with latency and accuracy guarantees[C] //Proc of the 45th IEEE Int Conf on Acoustics, Speech and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2020: 9036−9040
[112] Yang Zhaohui, Chen Mingzhe, Saad W, et al. Energy efficient federated learning over wireless communication networks[J]. IEEE Transactions on Wireless Communications, 2020, 20(3): 1935−1949
[113] Luo Siqi, Chen Xu, Wu Qiong, et al. Hfel: Joint edge association and resource allocation for cost-efficient hierarchical federated edge learning[J]. IEEE Transactions on Wireless Communications, 2020, 19(10): 6535−6548 doi: 10.1109/TWC.2020.3003744
[114] Abad M S H, Ozfatura E, Gunduz D, et al. Hierarchical federated learning across heterogeneous cellular networks[C] //Proc of the 45th IEEE Int Conf on Acoustics, Speech and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2020: 8866−8870
[115] Liu Dongzhu, Zhu Guangxu, Zhang Jun, et al. Data-importance aware user scheduling for communication-efficient edge machine learning[J]. IEEE Transactions on Cognitive Communications and Networking, 2020, 7(1): 265−278
[116] Zhan Yufeng, Li Peng, Guo Song. Experience-driven computational resource allocation of federated learning by deep reinforcement learning[C] //Proc of the 34th 2020 IEEE Int Parallel and Distributed Processing Symp (IPDPS). Piscataway, NJ: IEEE, 2020: 234−243
[117] Zeng Qunsong, Du Yuqing, Huang Kaibin, et al. Energy-efficient radio resource allocation for federated edge learning[C/OL] //Proc of the 54th 2020 IEEE Intl Conf on Communications Workshops (ICC Workshops). Piscataway, NJ: IEEE, 2020[2022-09-05]. https://ieeexplore.ieee.org/abstract/document/9145118
[118] Chen Mingzhe, Poor H V, Saad W, et al. Convergence time optimization for federated learning over wireless networks[J]. IEEE Transactions on Wireless Communications, 2020, 20(4): 2457−2471
[119] Mo Xiaopeng, Xu Jie. Energy-efficient federated edge learning with joint communication and computation design[J]. Journal of Communications and Information Networks, 2021, 6(2): 110−124 doi: 10.23919/JCIN.2021.9475121
[120] Ren Jinke, Yu Guanding, Ding Guangyao. Accelerating DNN training in wireless federated edge learning systems[J]. IEEE Journal on Selected Areas in Communications, 2020, 39(1): 219−232
[121] Anh T T, Luong N C, Niyato D, et al. Efficient training management for mobile crowd-machine learning: A deep reinforcement learning approach[J]. IEEE Wireless Communications Letters, 2019, 8(5): 1345−1348 doi: 10.1109/LWC.2019.2917133
[122] Nguyen H T, Luong N C, Zhao J, et al. Resource allocation in mobility-aware federated learning networks: A deep reinforcement learning approach[C/OL] //Pro of the 6th World Forum on Internet of Things (WF-IoT). Piscataway, NJ: IEEE, 2020[2022-09-05].https://ieeexplore.ieee.org/abstract/document/9221089
[123] Zhang Xueqing, Liu Yanwei, Liu Jinxia, et al. D2D-assisted federated learning in mobile edge computing networks [C/OL] //Pro of the 2021 IEEE Wireless Communications and Networking Conf (WCNC). Piscataway, NJ: IEEE, 2021[2022-09-05].https://ieeexplore.ieee.org/abstract/document/9417459
[124] Yang Kai, Jiang Tao, Shi Yuanming, et al. Federated learning via over-the-air computation[J]. IEEE Transactions on Wireless Communications, 2020, 19(3): 2022−2035 doi: 10.1109/TWC.2019.2961673
[125] Qin Zhijin, Li G Y, Ye Hao. Federated learning and wireless communications[J]. IEEE Wireless Communications, 2021, 28(5): 134−140 doi: 10.1109/MWC.011.2000501
[126] Amiria M M, Dumanb T M, Gündüzc D, et al. Collaborative machine learning at the wireless edge with blind transmitters[C/OL] //Proc of the 7th IEEE Global Conf on Signal and Information Processing. Piscataway, NJ: IEEE, 2019[2022-09-05].https://iris.unimore.it/handle/11380/1202665
[127] Chen Mingzhe, Yang Zhaohui, Saad W, et al. A joint learning and communications framework for federated learning over wireless networks[J]. IEEE Transactions on Wireless Communications, 2020, 20(1): 269−283
[128] Yang H H, Arafa A, Quek T Q, et al. Age-based scheduling policy for federated learning in mobile edge networks[C] //Proc of the 45th IEEE Int Conf on Acoustics, Speech and Signal Processing (ICASSP). Piscataway, NJ: IEEE: 8743−8747
[129] Dinh C, Tran N H, Nguyen M N, et al. Federated learning over wireless networks: Convergence analysis and resource allocation[J]. IEEE/ACM Transactions on Networking, 2020, 29(1): 398−409
[130] Yang Hao, Liu Zuozhu, Quek T Q, et al. Scheduling policies for federated learning in wireless networks[J]. IEEE Transactions on Communications, 2019, 68(1): 317−333
[131] Shi Wenqi, Zhou Sheng, Niu Zhisheng. Device scheduling with fast convergence for wireless federated learning[C/OL] //Proc of the 54th IEEE Int Conf on Communications (ICC). Piscataway, NJ: IEEE, 2020[2022-09-05]. https://ieeexplore.ieee.org/abstract/document/9149138
[132] Amiri M M, Gündüz D, Kulkarni S R, et al. Update aware device scheduling for federated learning at the wireless edge[C] //Proc of the 2020 IEEE Int Symp on Information Theory (ISIT). Piscataway, NJ: IEEE, 2020: 2598−2603
[133] Bonawitz K, Ivanov V, Kreuter B, et al. Practical secure aggregation for privacy-preserving machine learning[C] //Proc of the ACM SIGSAC Conf on Computer and Communications Security. New York: ACM, 2017: 1175−1191
-
期刊类型引用(1)
1. 彭兰. 与数字人共存将带来什么?. 新闻界. 2024(09): 4-14 . 百度学术
其他类型引用(0)