-
摘要:
随着物联网(Internet of things, IoT)和人工智能(artificial intelligence, AI)技术的快速发展,大量的数据被物联网设备收集. 使用机器学习或深度学习等人工智能技术可以对这些数据进行训练. 训练好的模型是物联网中分析网络环境、提高服务质量(quality of service, QoS)的重要组成部分. 然而,大多数数据提供者 (物联网终端用户) 不愿意将个人数据直接分享给任何第三方进行学术研究或商业分析,因为个人数据中包含私人敏感信息. 因此,研究物联网中的安全与隐私保护是一个重要研究方向. 联邦学习 (federated learning,FL) 允许多方物联网终端用户作为训练参与者将数据保存在本地,仅上传本地训练模型至参数服务器以进行聚合,通过这种方式可以保护参与者数据隐私. 具体来说,FL面临的攻击主要有2种,即推理攻击和投毒攻击. 为了同时抵抗推理攻击和检测投毒攻击,提出了一个全新的源匿名数据洗牌方案Re-Shuffle. 提出的Re-Shuffle采用不经意传输协议实现FL中参与者模型的匿名上传,保证参数服务器只能获得参与者的原始本地模型,而不知道来自哪个参与者. 此外,为了更适应IoT环境,Re-Shuffle采用了秘密共享机制,在保证梯度数据原始性的同时,解决了传统shuffle协议中参与者的退出问题.Re-Shuffle既保证了局部模型的原始性,又保证了局部模型的隐私性,从而在保护隐私的同时检查中毒攻击. 最后给出了安全证明,对方案的检测效果进行了评价,并在Re-Shuffle方案下对2种投毒攻击检测方案的计算开销进行了评估. 结果表明Re-Shuffle能够在可接受的开销下为毒化攻击检测方案提供隐私保护.
Abstract:With the rapid development of Internet of things (IoT) and artificial intelligence (AI) technology, a large amount of data are collected by IoT devices. These data can be trained by using AI techniques such as machine learning or deep learning. A well-trained model is an important part of analyzing network environment and improving quality of service (QoS) in IoT. However, most data providers (IoT end users) are reluctant to share personal data directly with any third party for academic research or business analysis because personal data contains private or sensitive information. Therefore, it is an important research direction to study the security and privacy protection in the IoT. Federated learning (FL) allows different participants to keep their data locally and only upload the local training models to the parameter server for model aggregation, which protects the data privacy of each participant. However, FL still faces some security challenges. Concretely, there are two main attacks FL faces, i.e., inference attack and poisoning attack. In order to resist inference attacks and detect poisoning attacks simultaneously, we propose a source anonymous data shuffle scheme, Re-Shuffle. The proposed Re-Shuffle uses the oblivious transfer protocol to realize the anonymous upload of participant models in FL. It ensures that in the process of poisoning attack detection, the parameter server can obtain the local model of the participant, who is unknown. In addition, to be more suitable for the IoT environment, Re-Shuffle adopts a secret sharing mechanism, which ensures the rawness of gradient data and solves the problem of participants dropline in the traditional shuffle protocol. In this way, both the rawness and privacy of the local model are ensured, so that the poisoning attacks can be checked while the privacy is protected. Finally, we provide the security proof and evaluate the scheme’s detection effect. Besides, the computation overheads of Re-Shuffle under two kinds of poisoning attack detection schemes are evaluated. The results show that Re-Shuffle can provide privacy protection for the poisoning attacks detection scheme at an acceptable cost.
-
强化学习(reinforcement learning, RL)作为一种机器学习方法,其主要思想是使智能体通过最大化从环境中获得的累积奖励来学习最优策略. Q-learning是单智能体强化学习领域中的经典方法之一,但其难以应对动作空间和状态空间维数较高的环境. 深度Q网络(deep Q-network, DQN)利用深度神经网络逼近价值函数来解决这个困难. 得益于DQN在高维空间中展现出的优越性能,学者们基于此方法提出诸多深度强化学习(deep reinforcement learning, DRL)[1-4]方法.
随着DRL在机器控制[5-7]、人机游戏[8-10]等单智能体领域取得显著成功,许多工作将单智能体DRL方法扩展到多智能体设置并应用到真实环境中,如自动驾驶[11-12]、交通控制[13-14]. 然而,实现高效的多智能体强化学习通常会面临2个主要困难:可扩展性问题和部分可观测性限制. 一方面,利用环境的所有信息进行决策可能会导致大规模的联合状态动作空间. 随着智能体的数量增加,状态动作空间规模将呈指数增长,这导致智能体的规模难以扩展,即产生可扩展性问题. 另一方面,部分可观测性限制要求智能体只根据自己的局部观测历史来选择动作和做出决策. 这虽然提高了决策效率,但也严重限制智能体探索最优动作的能力,同时造成了环境的不稳定性.
为应对部分可观测性限制带来的问题,Lowe等人[15]提出了多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient, MADDPG)方法. 该方法引入集中训练和分散执行(centralized training with decentralized execution, CTDE)框架:在集中训练阶段,智能体可以访问全局信息;在分散执行阶段智能体只根据局部观测历史选择动作[16-18]. 随着MADDPG方法在应对部分可观测限制情况时展现出的优越性能,基于CTDE框架的多智能体强化学习(multi-agent reinforcement learning, MARL)方法不断涌现,CTDE框架也成为MARL中最常用的框架之一. 此外,为了解决CTDE范式的可扩展性问题,学者们提出了各种价值函数分解方法[19-22].
尽管MADDPG已成为MARL中最常用的基线方法之一,以MADDPG为代表的CTDE方法存在的Q值高估问题没有得到广泛研究. Q值高估问题源于bootstrapping目标中常用的max算子. 具体地,Q-learning中的max算子用最大估计值逼近最大期望值,这将导致价值高估:E[max,其中 {X_{{a_i}}} 表示给定状态下动作{a_i}的Q值的随机变量. Q值高估问题会损害智能体的行为,导致智能体学得次优的策略[23-24].
在CTDE方法中,Q值高估问题同样存在. 具体地,假设有{\kern 1pt} n个智能体,每个智能体有 {\kern 1pt} L{\kern 1pt} 个动作,每个动作的Q值独立地由均匀分布U(0,1)得到,则{\max _{{a_i}}}E[{X_{{a_i}}}] = 1/2.同时 E[{\max _{{a_i}}}{X_{{a_i}}}] = {L^n}/({L^n} + 1 ),由于联合动作空间的大小 {\kern 1pt} L{\kern 1pt} 随智能体的数量呈指数增长, E[{\max _{{a_i}}}{X_{{a_i}}}] 趋向于1,且大于 {\max _{{a_i}}}E[{X_{{a_i}}}] ,由此可得CTDE方法存在Q值高估问题. 在CTDE方法中,个体智能体的决策质量取决于集中训练的评论家网络,评论家网络的价值函数高估问题可能会造成更严重的影响. 因此,研究MADDPG为代表的CTDE方法中存在的价值高估问题显得尤为必要和具有挑战性.
为应对这个挑战,本文提出基于双评论家的多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient method based on double critics, MADDPG-DC)方法来避免价值函数的过高估计. 本文的核心思想是通过在双评论家网络上的最小值操作来避免价值高估. 此外,为保证学习的稳定性和效率,本文采用延迟策略更新技术. 通过延迟行动者网络更新,减少了使用没变化的评论家网络得到的Q值来指导行动者网络重复更新的可能性,从而实现更高质量的策略更新. 本文的主要贡献和创新点有3点:
1) 从理论和实验层面上分别证明了MADDPG-DC存在严重的高估问题,并通过引入双评论家网络结构避免价值高估,从而促进更好的策略学习.
2) 为保证策略学习的效率和稳定性,在提出的MADDPG-DC中引入延迟行动者网络更新的方法,进一步提高策略更新的质量,使智能体更高效地学习最优策略.
3) 在多智能体粒子环境和交通信号控制环境上对所提出的MADDPG-DC方法进行了实验评估,实验结果表明提出的方法在仿真环境和实际系统上都具有可行性和优越性.
1. 基础理论
1.1 Dec-POMDP
MARL问题一般建模为去中心化部分可观测马尔可夫决策过程(decentralized partially observable Markov decision process, Dec-POMDPs)[25]. 具体地,Dec-POMDPs用元组{\kern 1pt} G = \langle S,A,P,R,O,n,\gamma \rangle 表示,其中部分可观测环境的状态记为{\kern 1pt} s \in S{\kern 1pt} ,智能体{\kern 1pt} i{\kern 1pt} 可获得的局部观测值记为{\kern 1pt} {o_i} \in O{{\kern 1pt} _i}. 智能体{\kern 1pt} {\kern 1pt} i{\kern 1pt} 根据其局部观测值{o_i}决定其动作{\kern 1pt} {a_i} \in A{\kern 1pt} , 联合动作表示为{\kern 1pt} a = ({a_1},{a_2},…,{a_N}) \in A{\kern 1pt},环境状态基于状态转移函数{\kern 1pt} P:S \times A \to S和联合动作转移至下一个状态. 智能体{\kern 1pt} i{\kern 1pt} 的学习目标是最大化其累计折扣奖励值{R_i} = \displaystyle\sum _{t = 0}^T{\gamma\;^t}r_i\;^t,其中{\kern 1pt} \gamma \in [0,1]{\kern 1pt} 为折扣因子, r_i\;^t 表示智能体{\kern 1pt} i{\kern 1pt} 在时间步{\kern 1pt} t获得的奖励值.
1.2 多智能体深度确定性策略梯度
MADDPG方法的关键思想是:在训练阶段,每个智能体都接收全局信息来学习一个集中的Q函数;在执行阶段,每个智能体只使用局部信息来选择动作. MADDPG利用CTDE框架与行动者-评论家结构,其中集中训练的评论家网络获得了全局信息,而分散的行动者网络只能获得个体的局部观测历史.
具体地,假设一个包含 {\kern 1pt} N{\kern 1pt} 个智能体的环境,智能体的策略是连续的,用\mu = \{ {\mu _1},{\mu _2},…,{\mu _N}\}表示,策略的参数是\varphi = \{ {\varphi _1},{\varphi _2},…,{\varphi _N}\},智能体{\kern 1pt} i{\kern 1pt} 的策略梯度J({\varphi _i}) = E[{R_i}]表示为
{\nabla _{{\varphi _i}}}J({\varphi _i}) = {E_{o,a \sim D}}[{\mu _i}({o_i})\nabla {a_i}Q_i^\mu (o,a)\left| {{a_i} = {\mu _i}({o_i})} \right.] \text{,} (1) 其中 Q_i^\mu (o,a) 是智能体{\kern 1pt} i{\kern 1pt} 的价值函数,函数的输入是全部智能体的联合动作 a = ({a_1},{a_2},…,{a_N}) 和观测信息 o = ({o_1},{o_2},…,{o_N}) ,输出是Q值. 经验回放池 {\kern 1pt} D{\kern 1pt} 由元组(o,o',{a_1},{a_2},…,{a_N},{r_1},{r_2},…,{r_N})组成,记录所有智能体的历史样本. 价值函数通过目标函数进行更新:
L({\varphi _i}) = {E_{o,a,r,o'}}{[Q_i^\mu (o,a) - y]^2} \text{,} (2) \left. {y = {r_i} + \gamma Q_i^{\mu '}(o',a')} \right|{a'_j} = {\mu '_j}({o_j})\text{,} (3) 其中\mu ' = \{ {\mu _{{{\varphi }_1'}}},{\mu _{{{\varphi }_2'}}}…,{\mu _{{{\varphi }_N'}}}\}是目标策略的集合. 值得注意的是,集中的评论家网络只在训练阶段使用,而在分散执行阶段,每个智能体只使用本地信息{o_i}和行动者网络{\mu _{{{\varphi }_i'}}}作出决策.
2. MADDPG-DC方法
在本节中,首先通过理论和实验证明,MADDPG存在过高估计价值函数的问题,然后介绍提出的改进方法,即基于双评论家网络的多智能体深度确定性策略梯度方法.
2.1 MADDPG中的价值函数高估问题
首先,给出理论证明以论证MADDPG中存在价值函数的过高估计问题. 定义策略参数 \varphi ,\varphi _i^{{\rm{ap}}}表示智能体{\kern 1pt} i{\kern 1pt} 的由对应评论家网络 Q_i^\theta (o,a) 指导的行动者网络的近似参数,并用\varphi _i^{{\rm{tr}}}表示由真实价值函数 Q_i^\mu (o,a) 指导的行动者网络的参数:
\varphi _i^{{\rm{ap}}}{\text{ = }}\varphi + \frac{\alpha }{{{Z_1}}}E[{\nabla _\varphi }{\mu _\varphi }({o_i})\nabla {a_i}Q_i^\theta (o,a)\left| {{a_i} = {\mu _\varphi }({o_i})} \right.] \text{,} (4) \varphi _i^{{\rm{tr}}}{\text{ = }}\varphi + \frac{\alpha }{{{Z_2}}}E[{\nabla _\varphi }{\mu _\varphi }({o_i})\nabla {a_i}Q_i^\mu (o,a)\left| {{a_i} = {\mu _\varphi }({o_i})} \right.] . (5) 然后,根据参数\varphi _i^{{\rm{ap}}}和参数\varphi _i^{{\rm{tr}}}定义最优策略{\mu _{{\rm{ap}}}}和{\mu _{{\rm{tr}}}}. 由于策略梯度是局部最大化操作,于是存在一个足够小的 {\varepsilon _1} ,当 \alpha \leqslant {\varepsilon _1} 时,{\mu _{{\rm{ap}}}}的近似值以{\mu _{{\rm{tr}}}}的近似值为下界.
E[Q_i^\theta (o,a)\left| {{a_i} = {\mu _{{\rm{ap}}}}({o_i})} \right.] \geqslant E[Q_i^\theta (o,a)\left| {{a_i} = {\mu _{{\rm{tr}}}}({o_i})} \right.]. (6) 相反,存在一个足够小的 {\varepsilon _2} ,当 \alpha \leqslant {\varepsilon _2} 时{\mu _{{\rm{ap}}}}的真实值以{\mu _{{\rm{tr}}}}的真实值为上界.
E[Q_i^\mu (o,a)\left| {{a_i} = {\mu _{{\rm{tr}}}}({o_i})} \right.] \geqslant E[Q_i^\mu (o,a)\left| {{a_i} = {\mu _{{\rm{ap}}}}({o_i})} \right.]. (7) 又因为价值估计的期望不小于对应的真实策略{\mu _{{\rm{tr}}}}的真实值的期望:
E[Q_i^\theta (o,a)\left| {{a_i} = {\mu _{{\rm{tr}}}}({o_i})} \right.] \geqslant E[Q_i^\mu (o,a)\left| {{a_i} = {\mu _{{\rm{tr}}}}({o_i})} \right.]. (8) 因此存在足够小的 {\varepsilon _1} 和 {\varepsilon _2} ,当 \alpha \leqslant \min ({\varepsilon _1},{\varepsilon _2}) 时,MADDPG中的价值函数会被高估:
\begin{split}& E[Q_i^\theta (o,a)\left| {{a_i} = {\mu _{{\rm{ap}}}}({o_i})} \right.] \geqslant E[Q_i^\theta (o,a)\left| {{a_i} = {\mu _{{\rm{tr}}}}({o_i})} \right.] \geqslant \\& E[Q_i^\mu (o,a)\left| {{a_i} = {\mu _{{\rm{tr}}}}({o_i})} \right.] \geqslant E[Q_i^\mu (o,a)\left| {{a_i} = {\mu _{{\rm{ap}}}}({o_i})} \right.]. \end{split} (9) 2.2 MADDPG-DC
MADDPG中存在的价值函数过高估计一般会导致2个问题:一方面,价值高估会在多次更新后导致显著的偏差;另一方面,价值估计偏差会进一步导致策略更新的不准确. 评论家网络对次优动作进行过高的评估,从而导致在接下来的策略更新中引导行动者网络对次优动作的选择.
在降低单智能体深度强化学习中的价值函数过高估计问题方面,已有多项工作取得了成功,其中深度双Q网络采用目标值网络和当前值网络结构来进行独立的价值估计,利用当前值网络的价值估计来选择最优动作,利用目标值网络的价值估计来评估最优动作,将最优动作的选择和价值估计分开,降低了对次优动作过高估计价值的可能性[2].
MADDPG方法中的评论家网络也采取相似的目标值网络和当前值网络结构进行更新:
{y_i} = {r_i} + \gamma \left. {Q_i^{{{\theta '}_i}}(o',a)} \right|{a_i} = {\mu _{{\varphi _i}}}({o'_i}) . (10) 然而,由于MADDPG方法的策略变化缓慢,导致目标值网络与当前值网络过于相似,难以进行有效的独立的价值估计,过高估计的问题仍然存在. 如图1所示,本文实验评估了MADDPG中存在的估计偏差问题.
在多智能体粒子环境(multi-agent particle environment)中的捕食者猎物(predator-prey)环境上,测量MADDPG和MADDPG-DC在学习过程中的价值估计的估计偏差、采样状态和经验回放池的动作,确定真实的和估计的Q值. 结果如图1所示,一个非常明显的过高估计偏差发生在MADDPG的学习过程中,而MADDPG-DC在学习过程中不存在明显的估计偏差.
MADDPG-DC使用双评论家网络结构来避免价值高估,2个评论家网络的目标函数分别为
{y_{i,1}} = {r_i} + \gamma \left. {Q_i^{{{\theta '}_{i,1}}}(o',a)} \right|{a_i} = {\mu _{{\varphi _{i,1}}}}({o'_i}) \text{,} (11) {y_{i,2}} = {r_i} + \gamma \left. {Q_i^{{{\theta '}_{i,2}}}(o',a)} \right|{a_i} = {\mu _{{\varphi _{i,2}}}}({o'_i}) . (12) MADDPG-DC通过在双评论家网络上进行最小值操作,能够避免价值估计过高的问题. 虽然该更新规则可能会导致价值低估,但价值低估不会在策略更新过程中显式传播[26-28]. MADDPG-DC方法的评论家网络的目标函数为
{y_i} = {r_i} + \gamma \mathop {\min }\limits_{k = 1,2} \left. {Q_i^{{{\theta '}_{i,k}}}(o',a)} \right|{a_i} = {\mu _{{\varphi _{i,k}}}}({o'_i}) . (13) MADDPG-DC方法利用目标网络来减少目标更新过程中的误差. 由于高误差状态下的策略更新会导致智能体动作的发散,MADDPG-DC方法引入延迟行动者网络更新的方法,将行动者网络的更新频率设置为低于评论家网络的更新频率,以使得行动者网络的策略更新前的误差最小化. 具体地,设定评论家网络每更新3次后,行动者网络更新1次. 同时为确保误差最小,缓慢地更新目标网络:
{\theta '_{i,k}} \leftarrow \tau {\theta _{i,k}} + (1 - \tau ){\theta '_{i,k}} \text{,} (14) {\varphi '_i} \leftarrow \tau {\varphi _i} + (1 - \tau ){\varphi '_i} . (15) 在评论家网络每3次迭代后,对于智能体{\kern 1pt} i{\kern 1pt} ,基于评论家网络 Q_i^{{\theta _i}} 利用确定性策略梯度方法更新行动者网络 {\mu _{{\varphi _i}}} . 通过延迟行动者网络更新,MADDPG-DC方法减少了使用没变化的评论家网络得到的Q值来指导行动者网络重复更新的可能性,从而实现更高质量的策略更新.
图2展示了MADDPG-DC的网络结构,在训练阶段,只对行动者网络和双评论家网络进行训练,而行动者目标网络和评论家目标网络用于稳定行动者网络和双评论家网络的学习效果. 算法1给出了MADDPG-DC的伪代码.
算法1. MADDPG-DC.
输入:每个智能体 {\kern 1pt} i{\kern 1pt} 的观测 {\kern 1pt} {o_i}{\kern 1pt} , 奖励函数 R ;
输出:评论家和行动者目标网络参数.
初始化:每个智能体 {\kern 1pt} i{\kern 1pt} 的评论家网络 Q_i^{{\theta _1}} , Q_i^{{\theta _2}} ;行动者网络 \mu _i^\varphi ;经验回放池 D .
① for 回合数 = 1 to M (最大回合数)
② for 时间步数 = 1 to T (最大时间步数)
③ for 智能体 {\kern 1pt} i{\kern 1pt}
④ 接收本地局部观测{\kern 1pt} {o_i};
⑤ 根据策略网络选择动作 {a_i} \sim \mu _i^\varphi ({\kern 1pt} {\kern 1pt} {o_i}{\kern 1pt} ) ;
⑥ 接收奖励值{r_i}和新的局部观测{\kern 1pt} {o'_i};
⑦ 存储历史样本({o_i},{a_i},{r_i},{o'_i})到 D ;
⑧ 从 D 中抽取小批量样本 S 用于训练;
⑨ 最小化目标函数来更新评论家网络:
L({\theta _{i,k}}) = {S^{ - 1}}\displaystyle\sum {({y_i} - } Q_i^{{{\theta '}_{i,k}}}(o',a){)^2};
⑩ for 时间步数 mod 3
⑪ 更新行动者网络 {\varphi _{i,k}} : {\nabla _{{\varphi _i}}}J({\varphi _i}) = {S^{ - 1}}\displaystyle\sum [{\mu _{{\varphi _i}}}({o_i})\nabla {a_i} Q_i^\mu (o,a)\left| {{a_i} = {\mu _{{\varphi _i}}}({o_i})} \right.];
⑫ 更新评论家目标网络和行动者 目标网络: {\theta '_{i,k}} \leftarrow \tau {\theta _{i,k}} + (1 - \tau ){\theta '_{i,k}} , {\varphi '_i} \leftarrow \tau {\varphi _i} + (1 - \tau ){\varphi '_i} ;
⑬ end for
⑭ end for
⑮ end for
⑯ end for
2.3 方法复杂度分析
MADDPG-DC方法使用神经网络来促进评论家的训练,其中神经网络使用多层感知器(multilayer perceptron, MLP)架构. 首先,对于使用MLP架构的单智能体强化学习方法而言,其训练复杂度是O(M \times T(S \times H + H \times A)). 其中 M 为回合数, T 是每回合的时间步数; S 表示输入层的大小,也表示智能体的观测集合的大小, H 表示神经网络隐藏层的大小; A 表示输出层的大小,也表示智能体的动作集合的大小.
对于MADDPG-DC的训练阶段,每个评论家网络用单一的值来评估多个智能体的联合动作和观测结果,其复杂度为 O(M \times T(N \times (A + S) \times H + H \times 1)) , N 表示智能体的数量. 在执行阶段的复杂度方面,由于每个智能体都是独立行动,不需要评论家网络和其他智能体的交互,因此每个智能体在给定时间步数上执行1个动作的复杂度为 O(S \times H + H \times A) . MADDPG方法的复杂度与MADDPG-DC一致.
3. 实验结果
本节在各种复杂的平台和任务上进行了实验,以验证MADDPG-DC方法的优越性和有效性. 首先在MARL领域中广泛使用的多智能体粒子环境进行了仿真实验;然后在交通信号控制环境的真实系统中评估MADDPG-DC方法,以证明该方法在真实环境中应用的可行性.
3.1 多智能体粒子环境
首先使用MARL中常用的多智能体粒子环境进行实验. 实验配置如表1所示. 环境是2维连续的,包含K个相互协作的智能体、Z个地标和L个敌对的智能体. 本文在多智能体粒子环境中的3个环境上进行了实验,以验证所提方法的有效性.
表 1 多智能体粒子环境的实验配置Table 1. Experimental Configuration for Multi-Agent Particle Environments环境 动作维度 状态维度 观测维度 (K, Z, L) 捕食-猎物 5 16 62 (3, 1, 2) 物理欺骗 5 10 28 (2, 1, 2) 世界 5 34 200 (4, 2, 1) 1)捕食者-猎物环境. 如图3所示,这个环境包含了3个合作的捕食者,即智能体1,2,3;1个移动速度更快的猎物,即敌方智能体和2个阻碍前进的障碍. 捕食者需要协作来追赶猎物,如果捕食者成功捕获猎物,捕食者得到奖励,而猎物得到惩罚.
2)物理欺骗(physical deception)环境. 该环境包括2个合作的智能体、1个敌对的智能体和2个地标物体. 2个合作智能体的目标是在敌对智能体不知道地标物体的情况下,从一个地标到达另一个地标. 合作智能体的奖励取决于其中一个智能体到达目的地的最小距离.
3)世界(world)环境. 在包含4个移动较慢的智能体和2个移动较快的敌对智能体的世界环境中,较慢的智能体的目标是学会合作以捕获2个移动较快的敌对智能体.
本文将提出的MADDPG-DC方法与多种基线方法在以上3个环境中进行对比实验. 实验选择了MADDPG[15]、反事实的多智能体策略梯度[18] (counterfactual multi-agent policy gradient, COMA)、值分解网络[19] (value-decomposition networks, VDN)方法、QMIX[20]这4种基于CTDE框架的方法作为基线方法. COMA使用一个基于反事实基线的评论家网络结构来推导智能体学习策略的优势函数. VDN和QMIX是价值函数分解方法的代表性方法,使用个体价值函数的组合来估计联合价值函数.
由于这些基线方法全部基于CTDE框架,于是都存在价值函数高估问题. 所有实验在CPU Intel Xeon Silver 4210和GPU Nvidia RTX 2080上使用5个随机种子构建. 对于MADDPG和COMA,使用与MADDPG-DC相同的参数,如表2所示. VDN和QMIX包括更复杂的网络结构,参数如表3所示.
表 2 MADDPG-DC, MADDPG, COMA在多智能体粒子环境上的超参数Table 2. Hyperparameters of MADDPG-DC, MADDPG, COMA on Multi-Agent Particle Environments超参数 取值 评论家网络学习率 10−3 行动者网络学习率 10−4 目标网络更新率 10−2 RNN类型 GRU 批量大小 100 折扣因子 0.95 优化函数 Adam 训练回合 106 表 3 VDN和QMIX在多智能体粒子环境上的超参数Table 3. Hyperparameters of VDN and QMIX on Multi-Agent Particle Environments超参数 取值 学习率 10−4 RNN类型 LSTM & GRU 超网络 Have & None 批量大小 100 折扣因子 0.95 训练回合 106 优化函数 Adam 图4~6展示了各方法的平均奖励值. 在捕食者-猎物环境中,在参数相对一致的情况下,MADDPG和QMIX方法下的智能体未学得稳定的策略,导致平均奖励呈下降状态. 本文提出的MADDPG-DC方法在训练一开始的表现低于价值函数分解方法VDN,但最终收敛到更高的平均奖励值. 在物理欺骗环境下,MADDPG-DC收敛得最快且学得的平均奖励值最高,而MADDPG,COMA,VDN方法未能学得最优的策略. 在世界环境下,除了QMIX以外的大部分方法都采用收敛到稳定的策略,而MADDPG-DC同样取得了最好的表现. 综上,对比其他存在价值高估问题的基线方法,MADDPG-DC方法取得了更好的性能.
此外,为探讨双评论家网络结构和延迟行动者网络更新这2个因素对性能提升的影响,本文设计了消融实验. 实验中使用2个变体:使用双评论家网络结构但不延迟行动者网络更新的MADDPG-D和不使用双评论家网络结构但延迟行动者网络更新的MADDPG-C. 将这2个变体与原始MADDPG方法以及同时使用双评论家网络结构和延迟行动者网络更新的MADDPG-DC进行了比较. 首先,比较MADDPG-D与MADDPG的性能表现. 图7~9展示了不同多智能体粒子环境环境下的消融实验. 实验结果表明,在捕食者-猎物环境和世界环境下,MADDPG-D的学习性能显著,并持续优于MADDPG且收敛到稳定的策略. 在物理欺骗环境下,虽然MADDPG-D的表现持续优于MADDPG,但其学习曲线在后期也呈现下降趋势.
进一步,为验证延迟行动者网络的有效性,首先对比MADDPG,MADDPG-C,MADDPG-D在3个环境中,MADDPG-C的性能相比MADDPG有一定的提升, 但无法超过MADDPG-D的性能. 接下来,对比MADDPG-D和MADDPG-DC的表现. 如图7~9所示,在捕食者-猎物环境和世界环境下,MADDPG-DC收敛更快,且收敛至更高的奖励值. 在物理欺骗环境下,MADDPG-DC相比MADDPG-D,其可以收敛到稳定的最优策略. 由此可见双评论家网络结构和延迟行动者网络更新这2个因素对方法的性能都有提升作用,且同时使用2个改进因素的效果大于单独使用任意1个的效果.
3.2 交通信号控制环境
随着城市化的快速发展,车辆数量的增加不可避免地导致交通拥堵程度的增加. 通过优化管理方法可以实现交通系统的可持续发展[29]. 交通信号控制(traffic signal control, TSC)是一种有效的优化策略,它有助于改善交通状况、减少拥堵、缩短出行时间[30-31]. 为了应对TSC的规模需求,学者们尝试在多智能体系统中使用RL.
在局部观测和通信受限的情况下,将TSC定义为由分散的强化学习智能体控制交叉口的协作MARL问题是一种有效且通用的方法. 其中一种思路是使用独立Q学习(independent Q-learning, IQL)方法建模[32],在这种方法中,分散的强化学习智能体独立地学习各自的策略,并将其他智能体当作环境的一部分. IQL方法可以解决可扩展性问题,但当其他智能体改变自己的策略[33]时,IQL会出现不收敛和不稳定性问题.
然而,现有的工作包括IQL方法通常采用分散训练和分散执行框架,这个框架通常会存在环境不稳定性问题[34]. 基于CTDE框架的MARL是一种有效的改进,如MADDPG方法. 然而,在TSC中,MADDPG方法的性能表现一般[35]. 其原因可能是在复杂环境下,MADDPG中价值估计的不准确导致了智能体行为的发散或者智能体学得了次优的策略. 同时,MADDPG在分散执行阶段缺乏通信学习机制[36-38],而通信学习机制对于保证整体交通状态的控制稳定性和效果具有重要意义.
本文应用MADDPG-DC和CTDE框架来处理TSC问题. 为验证MADDPG-DC在实际系统中的可行性和有效性,本文在成都市实际交通网络[39-40]上进行了实验. 利用城市交通平台模拟真实的交通状况. 实验将每个交叉口的交通信号控制器建模为一个智能体,将网络交通状态建模为全局状态.
在真实的交通信号控制环境中,为证明MADDP-DC方法的有效性,选择IQL[32]、MADDPG[15]和最大压力控制(max pressure control)[41]等3种方法作为基线方法. IQL[32]基于分散训练分散执行框架,分散的智能体独立地学习各自的策略,而MADDPG利用CTDE框架. 最大压力控制是TSC领域最先进的控制方法之一,通过选择信号相位,最大化通过交叉口的车辆数量.
评价结果以各交叉口的交通拥堵情况和车辆通行效率为主要评价指标,包括3个主要指标: 平均队列长度、平均延迟和平均行驶时间. 平均队列长度是指在交叉口的所有车辆的平均等待队列长度. 平均延迟是指交通路口的所有车辆的平均等待时间除以队列长度. 这二者的值越高,表示方法的性能越差. 平均行驶时间是指整个交通网络中车辆从起点行驶到终点所花费的平均时间. 同样地,平均行驶时间的值越高,表示该方法的性能越差.
首先,本文从合成道路数据集中随机选取合成交通网络来训练MADDPG-DC方法以及其他基线方法,仿真实验运行了8000回合. 交通信号控制环境下的MADDPG-DC的超参数如表4所示. 基线MADDPG和MADDPG-D也设置相同的超参数进行训练. IQL的超参数如表5所示. 最大压力控制不是一种MARL方法,其参数设置保持和文献[41]一致.
表 4 交通信号控制环境下MADDPG, MADDPG-D, MADDPG-DC的超参数Table 4. Hyperparameters of MADDPG, MADDPG-D, MADDPG-DC Under Traffic Signal Control Environments超参数 取值 评论家网络学习率 10−3 行动者网络学习率 10−4 批量大小 64 折扣因 0.99 训练回合 8000 优化函数 Adam 表 5 交通信号控制环境下IQL的参数Table 5. Hyperparameters of IQL Under Traffic Signal Control Environments超参数 取值 学习率 10−4 批量大小 64 折扣因子 0.99 训练回合 8000 优化函数 Adam 然后,在真实交通网络中对训练后的方法分别进行1h的时变交通流训练. 考虑到计算成本,实验在1h后停止评估. 图10和图11分别展示了各方法下的真实交通网络中的平均队列长度和平均延迟. 从图11可以看出,MADDPG-DC方法的平均队列长度小于其他基线方法. 在模拟时间为2700 s时,MADDPG-DC方法下的平均队列长度达到峰值,约为0.63辆. 而对于其他基线方法,MADDPG方法在2980 s时达到约为1.41辆的峰值,MADDPC-D方法在2980 s时的峰值在0.92辆以上,IQL方法在3010 s时的峰值在2.69辆以上,最大压力控制方法在2730 s时的峰值在1.65辆左右.
对比图10和图11可以发现,不同方法的曲线大部分都有相似的趋势. 大多数曲线在前期增加,然后在不同的时间到达峰值,最后趋于下降. 因此,可以推断这2个指标是相关的. 随着车辆队列的增加,交叉口的平均延迟也会增加. 值得注意的是,所有方法通过积累的交通数据进行学习后,都不同程度地减少了队列长度.
表6给出了不同方法在实际交通网络中多个的评价指标下的表现. 可以发现,MADDPG-DC的表现优于MADDPG-D,说明延迟行动者网络更新的有效性. 同时MADDPG-D的表现其次,证明双评论家网络结构实现了更准确的价值估计,进而促进更高质量的策略学习.
表 6 不同方法在真实交通网络中的性能Table 6. Performance of Different Methods in Real Traffic Networks方法 平均延迟/(s/辆) 平均队列长度/辆 平均行驶时间/s Max Pressure 40.94 1.82 269.45 IQL 48.61 2.15 285.23 MADDPG 37.73 1.53 253.67 MADDPG-D 24.08 1.21 216.32 MADDPG-DC 21.62 0.82 192.65 注: 黑体数字表示性能最优. 图11展示了所有方法的平均队列长度变化曲线. 如图11所示,MADDPG-DC方法在所有方法中表现最好,且MADDPG-D的表现其次. 2种变体方法在初期的曲线非常接近,但MADDPG-DC在3050 s达到约26.42 s/辆的峰值,而MADDPG-D在时间3250 s达到的峰值超过44.02 s/辆. MADDPG曲线虽然在模拟时间1700~1900 s之间有所下降,但之后一直呈现上升趋势. IQL方法和最大压力控制方法都直到结束时才出现一定程度的下降.
此外,值得注意的是,所有平均延迟曲线在前期均呈平稳上升趋势. 最大压力控制方法和IQL方法在后期仍然呈上升趋势,而MADDPG-D方法和MADDPG-DC方法在前期达到峰值,但在后期趋于下降. 无论是IQL方法还是最大压力控制方法都不能依靠一种可持续的策略来快速恢复拥堵的交通网络. 与MADDPG相比,MADDPG-D受益于更准确的价值估计可以学得更好的策略. 与MADDPG-D相比,MADDPG-DC倾向于一种更稳定和可持续的策略,能够实现更快的交通拥堵恢复. MADDPG-DC的平均队列长度趋于0,说明该方法对于减少交叉口拥堵,提高车辆行驶效率发挥了重要作用.
4. 总结和展望
为更好地估计MARL方法中的价值函数,本文提出基于双评论家网络的多智能体深度确定性策略梯度方法. 通过理论和实验论证MADDPG存在价值高估问题,并提出双评论家网络结构来避免价值高估. 此外,为提高策略更新的质量,延迟行动者网络更新. 实验结果表明,本文提出的方法在多智能体粒子环境的多个环境上的表现显著优于MADDPG等其他基线方法. 此外,交通信号控制环境上的实验结果证明所提方法在真实环境中的可行性.
然而,大多数基于CTDE框架的MARL方法可能都存在价值高估或低估的问题,本文没有对其他基于CTDE的MARL方法进行深入研究,这是未来的一个有趣且有价值的研究方向. 同时,在价值函数分解方法和其他CTDE方法中实现更好的价值估计将是我们下一步的工作.
作者贡献声明:丁世飞提出论文的研究方向及指导论文写作;杜威负责论文的撰写及研究框架设计;郭丽丽、张健、徐晓负责实验指导及论文写作指导.
-
表 1 符号定义
Table 1 Notations Definition
符号 定义 PS 参数服务器 CA 证书认证机构 {P_i} 第 i 个参与者 U 在线参与者列表 {N_P} 参与者的数量 {N_{{\rm{drop}}} } 掉线参与者数量 W_i^T 参与者Pi在T轮的本地训练模型 W_{\rm{g}}^T 在T轮的全局模型 G_i^T 参与者Pi在T轮的梯度数据 \text{α} 学习率 k 用户可选位置个数 s 模型位置 {L_W} 模型列表 L 请求列表 t 秘密分享阈值 {r_i} 参与者 {P_i} 的模型掩码 {y_{i,j}} {P_i} 发送给 {P_j} 的 {r_i} 秘密分享份额 (p{k_{\rm{p}}},s{k_{\rm{p}}}) 参数服务器的公私钥 (p{k_{{i} } },s{k_{i } }) 参与者 {P_i} 的公私钥 表 2 现有工作对比
Table 2 Comparison of Existing Work
方案 梯度隐私 毒化攻击
防御扩展抗共谋 隐私保护方法 掉线恢复 PPDC √ √ √ 源匿名 × PPDL √ × × 同态加密 PPML √ × √ 秘密分享 √ EPFDL √ × √ 差分隐私/
同态加密Re-Shuffle √ √ √ 不经意传输/
秘密分享√ 注: "√"表示具有特性;"×"表示不具有特性. 表 3 计算开销对比
Table 3 Comparison of Computation Cost
方案 服务器开销 参与者开销 PPDC O( {\delta {N_p}\log {N_p}} ) O( \delta ) PPML O( {\delta N_p^2} ) O( {N_p^2 + \delta {N_p}} ) PPDL O( {\delta {N_p}} ) O( \delta ) EPFDL O( {N_p^2 + \delta {N_p}} ) O( \delta ) Re-Shuffle O( {\delta N_p^2} ) O( {\delta {N_p}} ) -
[1] Sadhu P K, Yanambaka V P, Abdelgawad A. Internet of things: Security and solutions survey[J]. Sensors, 2022, 22(19): 7433
[2] Rind Y M, Raza M H, Zubair M, et al. Smart energy meters for smart grids, an Internet of things perspective[J]. Energies, 2023, 16(4): 1974
[3] Garg S, Mehrotra D, Pandey H M, et al. Static to dynamic transition of RPL protocol from IoT to IoV in static and mobile environments[J]. Cluster Computing, 2023, 26(1): 847−862 doi: 10.1007/s10586-022-03689-x
[4] Zhang Caiming, Lu Yang. Study on artificial intelligence: The state of the art and future prospects[J]. Journal of Industrial Information Integration, 2021, 23: 100224 doi: 10.1016/j.jii.2021.100224
[5] Dey R, Tang Cong, Ross K, et al. Estimating age privacy leakage in online social networks[C]//Proc of 2012 IEEE INFOCOM. Piscataway, NJ: IEEE, 2012: 2836−2840
[6] Zhu Youwen, Zhang Yue, Li Xingxin, et al. Improved collusion-resisting secure nearest neighbor query over encrypted data in cloud[J]. Concurrency and Computation: Practice and Experience, 2019, 31(21): e4681
[7] Li Fenghua, Li Hui, Niu Ben, et al. Privacy computing: Concept, computing framework, and future development trends[J]. Engineering, 2019, 5(6): 1179−1192 doi: 10.1016/j.eng.2019.09.002
[8] McMahan B, Moore E, Ramage D, et al. Communication-efficient learning of deep networks from decentralized data[C]//Proc of the Artificial Intelligence and Statistics. New York: PMLR, 2017: 1273−1282
[9] Kumar R, Khan A A, Kumar J, et al. Blockchain-federated-learning and deep learning models for Covid-19 detection using CT imaging[J]. IEEE Sensors Journal, 2021, 21(14): 16301−16314 doi: 10.1109/JSEN.2021.3076767
[10] Li Yijing, Tao Xiaofeng, Zhang Xuefei, et al. Privacy-preserved federated learning for autonomous driving[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 23(7): 8423−8434
[11] Yu Shuai, Chen Xu, Zhou Zhi, et al. When deep reinforcement learning meets federated learning: Intelligent multitimescale resource management for multiaccess edge computing in 5G ultradense network[J]. IEEE Internet of Things Journal, 2020, 8(4): 2238−2251
[12] Aono Y, Hayashi T, Wang Lihua, et al. Privacy-preserving deep learning via additively homomorphic encryption[J]. IEEE Transactions on Information Forensics and Security, 2017, 13(5): 1333−1345
[13] Bonawitz K, Ivanov V, Kreuter B, et al. Practical secure aggregation for privacy-preserving machine learning[C]//Proc of the 2017 ACM SIGSAC Conf on Computer and Communications Security. New York: ACM, 2017: 1175−1191
[14] Liu Xiaoyuan, Li Hongwei, Xu Guowen, et al. Privacy-enhanced federated learning against poisoning adversaries[J]. IEEE Transactions on Information Forensics and Security, 2021, 16: 4574−4588 doi: 10.1109/TIFS.2021.3108434
[15] Xu Guowen, Li Hongwei, Liu Sen, et al. Verifynet: Secure and verifiable federated learning[J]. IEEE Transactions on Information Forensics and Security, 2019, 15: 911−926
[16] Hardy S, Henecka W, Ivey-Law H, et al. Private federated learning on vertically partitioned data via entity resolution and additively homomorphic encryption[J]. arXiv preprint, arXiv: 1711. 10677, 2017
[17] Bagdasaryan E, Veit A, Hua Yiqing, et al. How to backdoor federated learning[C]//Proc of the Int Conf on Artificial Intelligence and Statistics. New York: PMLR, 2020: 2938−2948
[18] Zhang Yuan, Chen Qingjun, Zhong Sheng. Privacy-preserving data aggregation in mobile phone sensing[J]. IEEE Transactions on Information Forensics and Security, 2016, 11(5): 980−992 doi: 10.1109/TIFS.2016.2515513
[19] Blanchard P, El Mhamdi E M, Guerraoui R, et al. Machine learning with adversaries: Byzantine tolerant gradient descent[C]. Advances in Neural Information Processing Systems New York: Curran Associates, Inc, 2017:119−129
[20] Liu Yining, Wang Yanping, Wang Xiaofen, et al. Privacy-preserving raw data collection without a trusted authority for IoT[J]. Computer Networks, 2019, 148: 340−348 doi: 10.1016/j.comnet.2018.11.028
[21] Yin Dong, Chen Yudong, Kannan R, et al. Byzantine-robust distributed learning: Towards optimal statistical rates[C] //Proc of the Int Conf on Machine Learning. New York: ACM, 2018: 5650−5659
[22] Xu Guowen, Li Hongwei, Liu Sen, et al. VerifyNet: Secure and verifiable federated learning[J]. IEEE Transactions on Information Forensics and Security, 2019, 15: 911−926
[23] Zhang Li, Xu Jianbo, Vijayakumar P, et al. Homomorphic encryption-based privacy-preserving federated learning in iot-enabled healthcare system[J]. IEEE Transactions on Network Science and Engineering, 2022[2023−08−18].http://dx.doi.org/10.1109/TNSE.2022.3185327
[24] Mothukuri V, Parizi R M, Pouriyeh S, et al. A survey on security and privacy of federated learning[J]. Future Generation Computer Systems, 2021, 115: 619−640 doi: 10.1016/j.future.2020.10.007
[25] Warnat-Herresthal S, Schultze H, Shastry K L, et al. Swarm learning for decentralized and confidential clinical machine learning[J]. Nature, 2021, 594(7862): 265−270 doi: 10.1038/s41586-021-03583-3
[26] Feng Lei, Zhao Yiqi, Guo Shaoyong, et al. Blockchain-based asynchronous federated learning for internet of things[J]. IEEE Transactions on Computers, 2021, 99: 1
[27] Li Yuzheng, Chen Chuan, Liu Nan, et al. A blockchain-based decentralized federated learning framework with committee consensus[J]. IEEE Network, 2020, 35(1): 234−241
[28] Geyer R C, Klein T, Nabi M. Differentially private federated learning: A client level perspective[J]. arXiv preprint, arXiv: 1712. 07557, 2017
[29] Yang Ziqi, Shao Bin, Xuan Bohan, et al. Defending model inversion and membership inference attacks via prediction purification[J]. arXiv preprint, arXiv: 2005.03915, 2020
[30] Park C, Itoh K, Kurosawa K. Efficient anonymous channel and all/nothing election scheme[C]//Proc of Workshop on the Theory and Application of of Cryptographic Techniques. Berlin: Springer, 1993: 248−259
[31] Li Yang, Zhao Yunlong, Ishak S, et al. An anonymous data reporting strategy with ensuring incentives for mobile crowd-sensing[J]. Journal of Ambient Intelligence and Humanized Computing, 2018, 9(6): 2093−2107 doi: 10.1007/s12652-017-0529-x
[32] Chen Jingxue, Liu Gao, Liu Yining. Lightweight privacy-preserving raw data publishing scheme[J]. IEEE Transactions on Emerging Topics in Computing, 2020, 9(4): 2170−2174
[33] Zhao Xinxin, Li Lingjun, Xue Guoliang, et al. Efficient anonymous message submission[J]. IEEE Transactions on Dependable and Secure Computing, 2016, 15(2): 217−230
[34] Shamir A. How to share a secret[J]. Communications of the ACM, 1979, 22(11): 612−613 doi: 10.1145/359168.359176
[35] Lai Jianchang, Mu Yi, Guo Fuchun, et al. Efficient k-out-of-n oblivious transfer scheme with the ideal communication cost[J]. Theoretical Computer Science, 2018, 714: 15−26 doi: 10.1016/j.tcs.2017.12.019
[36] Hao Meng, Li Hongwei, Xu Guowen, et al. Towards efficient and privacy-preserving federated deep learning[C] // Proc of 2019 IEEE Int Conf on Communications(ICC). Piscataway, NJ: IEEE, 2019: 1−6
[37] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278−2324 doi: 10.1109/5.726791
[38] Akinyele J A, Garman C, Miers I, et al. Charm: A framework for rapidly prototyping cryptosystems[J]. Journal of Cryptographic Engineering, 2013, 3(2): 111−128 doi: 10.1007/s13389-013-0057-3
[39] Rouselakis Y, Waters B. Efficient statically-secure large-universe multi-authority attribute-based encryption[C] // Proc of 2019 IEEE Int Conf on Communications(ICC). Piscataway, NJ: IEEE, 2019: 1−6