Machine Learning Based Runtime Detection and Recovery Method Against UAV Sensor Attacks
-
摘要:
针对无人机(unmanned aerial vehicles, UAV)飞行控制系统的传感器注入攻击能够诱导无人机接受错误的传感器信号或数据,错误估计系统状态,从而威胁无人机的飞行安全. 当前针对无人机传感器注入攻击的在线检测和恢复方法存在检测精度不高、系统状态恢复缺乏持续性、控制模型精度及检测精度受无人机硬件算力限制的问题. 提出了一种基于轻量级机器学习模型的无人机传感器攻击在线检测和恢复方法(machine learning based runtime detection and recovery method against UAV sensor attacks, LDR),利用机器学习模型对非线性反馈控制系统的表征能力相比线性模型更强的特点,构建各传感器对应的预测模型,对不同传感器对应的无人机系统状态进行准确预测,结合提出的缓解预测误差短时振荡的攻击检测算法,对GPS传感器攻击和陀螺仪读数攻击进行有效的检测和系统状态恢复. 实验结果表明,所提方法的开销满足飞控系统的实时性要求,具有高可靠性和预测有效性,对典型攻击的在线检测和恢复效果相比现有工作更好.
Abstract:The sensor attacks towards the flight controller of unmanned aerial vehicle (UAV) induce the UAV to take false sensor signals or data and estimate fault system states, threatening the flight safety of UAVs. The state-of-the-art runtime sensor attack detection and recovery approaches have limited detection accuracy and lacked persistence on the recovery effect. The computational resource limit of the UAV hardware also impacts the accuracy of the detection model and the respective attack detection. We propose a runtime UAV sensor attack detection and recovery approach, called LDR, based on lightweight machine-learning models. We leverage the advantage of the machine-learning model’s representation ability on nonlinear feedback control systems compared with the linear system models to build the machine-learning model for each UAV sensor and predict the system states corresponding to each sensor. We also propose a new attack detection algorithm to mitigate the short-time vibration of the prediction deviation to reduce the potential errors. We apply our approach to detect and recover the GPS sensor attacks and gyroscope attacks. The experimental results show that the performance overhead of our approach meets the flight controller’s real-time requirements. Our approach is highly robust on normal flight tasks, and the prediction model is effective. The comparisons between our approach and related work demonstrate the effectiveness of our approach.
-
强化学习(reinforcement learning, RL)作为一种机器学习方法,其主要思想是使智能体通过最大化从环境中获得的累积奖励来学习最优策略. Q-learning是单智能体强化学习领域中的经典方法之一,但其难以应对动作空间和状态空间维数较高的环境. 深度Q网络(deep Q-network, DQN)利用深度神经网络逼近价值函数来解决这个困难. 得益于DQN在高维空间中展现出的优越性能,学者们基于此方法提出诸多深度强化学习(deep reinforcement learning, DRL)[1-4]方法.
随着DRL在机器控制[5-7]、人机游戏[8-10]等单智能体领域取得显著成功,许多工作将单智能体DRL方法扩展到多智能体设置并应用到真实环境中,如自动驾驶[11-12]、交通控制[13-14]. 然而,实现高效的多智能体强化学习通常会面临2个主要困难:可扩展性问题和部分可观测性限制. 一方面,利用环境的所有信息进行决策可能会导致大规模的联合状态动作空间. 随着智能体的数量增加,状态动作空间规模将呈指数增长,这导致智能体的规模难以扩展,即产生可扩展性问题. 另一方面,部分可观测性限制要求智能体只根据自己的局部观测历史来选择动作和做出决策. 这虽然提高了决策效率,但也严重限制智能体探索最优动作的能力,同时造成了环境的不稳定性.
为应对部分可观测性限制带来的问题,Lowe等人[15]提出了多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient, MADDPG)方法. 该方法引入集中训练和分散执行(centralized training with decentralized execution, CTDE)框架:在集中训练阶段,智能体可以访问全局信息;在分散执行阶段智能体只根据局部观测历史选择动作[16-18]. 随着MADDPG方法在应对部分可观测限制情况时展现出的优越性能,基于CTDE框架的多智能体强化学习(multi-agent reinforcement learning, MARL)方法不断涌现,CTDE框架也成为MARL中最常用的框架之一. 此外,为了解决CTDE范式的可扩展性问题,学者们提出了各种价值函数分解方法[19-22].
尽管MADDPG已成为MARL中最常用的基线方法之一,以MADDPG为代表的CTDE方法存在的Q值高估问题没有得到广泛研究. Q值高估问题源于bootstrapping目标中常用的max算子. 具体地,Q-learning中的max算子用最大估计值逼近最大期望值,这将导致价值高估:E[maxaiXai]⩾,其中 {X_{{a_i}}} 表示给定状态下动作{a_i}的Q值的随机变量. Q值高估问题会损害智能体的行为,导致智能体学得次优的策略[23-24].
在CTDE方法中,Q值高估问题同样存在. 具体地,假设有{\kern 1pt} n个智能体,每个智能体有 {\kern 1pt} L{\kern 1pt} 个动作,每个动作的Q值独立地由均匀分布U(0,1)得到,则{\max _{{a_i}}}E[{X_{{a_i}}}] = 1/2.同时 E[{\max _{{a_i}}}{X_{{a_i}}}] = {L^n}/({L^n} + 1 ),由于联合动作空间的大小 {\kern 1pt} L{\kern 1pt} 随智能体的数量呈指数增长, E[{\max _{{a_i}}}{X_{{a_i}}}] 趋向于1,且大于 {\max _{{a_i}}}E[{X_{{a_i}}}] ,由此可得CTDE方法存在Q值高估问题. 在CTDE方法中,个体智能体的决策质量取决于集中训练的评论家网络,评论家网络的价值函数高估问题可能会造成更严重的影响. 因此,研究MADDPG为代表的CTDE方法中存在的价值高估问题显得尤为必要和具有挑战性.
为应对这个挑战,本文提出基于双评论家的多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient method based on double critics, MADDPG-DC)方法来避免价值函数的过高估计. 本文的核心思想是通过在双评论家网络上的最小值操作来避免价值高估. 此外,为保证学习的稳定性和效率,本文采用延迟策略更新技术. 通过延迟行动者网络更新,减少了使用没变化的评论家网络得到的Q值来指导行动者网络重复更新的可能性,从而实现更高质量的策略更新. 本文的主要贡献和创新点有3点:
1) 从理论和实验层面上分别证明了MADDPG-DC存在严重的高估问题,并通过引入双评论家网络结构避免价值高估,从而促进更好的策略学习.
2) 为保证策略学习的效率和稳定性,在提出的MADDPG-DC中引入延迟行动者网络更新的方法,进一步提高策略更新的质量,使智能体更高效地学习最优策略.
3) 在多智能体粒子环境和交通信号控制环境上对所提出的MADDPG-DC方法进行了实验评估,实验结果表明提出的方法在仿真环境和实际系统上都具有可行性和优越性.
1. 基础理论
1.1 Dec-POMDP
MARL问题一般建模为去中心化部分可观测马尔可夫决策过程(decentralized partially observable Markov decision process, Dec-POMDPs)[25]. 具体地,Dec-POMDPs用元组{\kern 1pt} G = \langle S,A,P,R,O,n,\gamma \rangle 表示,其中部分可观测环境的状态记为{\kern 1pt} s \in S{\kern 1pt} ,智能体{\kern 1pt} i{\kern 1pt} 可获得的局部观测值记为{\kern 1pt} {o_i} \in O{{\kern 1pt} _i}. 智能体{\kern 1pt} {\kern 1pt} i{\kern 1pt} 根据其局部观测值{o_i}决定其动作{\kern 1pt} {a_i} \in A{\kern 1pt} , 联合动作表示为{\kern 1pt} a = ({a_1},{a_2},…,{a_N}) \in A{\kern 1pt},环境状态基于状态转移函数{\kern 1pt} P:S \times A \to S和联合动作转移至下一个状态. 智能体{\kern 1pt} i{\kern 1pt} 的学习目标是最大化其累计折扣奖励值{R_i} = \displaystyle\sum _{t = 0}^T{\gamma\;^t}r_i\;^t,其中{\kern 1pt} \gamma \in [0,1]{\kern 1pt} 为折扣因子, r_i\;^t 表示智能体{\kern 1pt} i{\kern 1pt} 在时间步{\kern 1pt} t获得的奖励值.
1.2 多智能体深度确定性策略梯度
MADDPG方法的关键思想是:在训练阶段,每个智能体都接收全局信息来学习一个集中的Q函数;在执行阶段,每个智能体只使用局部信息来选择动作. MADDPG利用CTDE框架与行动者-评论家结构,其中集中训练的评论家网络获得了全局信息,而分散的行动者网络只能获得个体的局部观测历史.
具体地,假设一个包含 {\kern 1pt} N{\kern 1pt} 个智能体的环境,智能体的策略是连续的,用\mu = \{ {\mu _1},{\mu _2},…,{\mu _N}\}表示,策略的参数是\varphi = \{ {\varphi _1},{\varphi _2},…,{\varphi _N}\},智能体{\kern 1pt} i{\kern 1pt} 的策略梯度J({\varphi _i}) = E[{R_i}]表示为
{\nabla _{{\varphi _i}}}J({\varphi _i}) = {E_{o,a \sim D}}[{\mu _i}({o_i})\nabla {a_i}Q_i^\mu (o,a)\left| {{a_i} = {\mu _i}({o_i})} \right.] \text{,} (1) 其中 Q_i^\mu (o,a) 是智能体{\kern 1pt} i{\kern 1pt} 的价值函数,函数的输入是全部智能体的联合动作 a = ({a_1},{a_2},…,{a_N}) 和观测信息 o = ({o_1},{o_2},…,{o_N}) ,输出是Q值. 经验回放池 {\kern 1pt} D{\kern 1pt} 由元组(o,o',{a_1},{a_2},…,{a_N},{r_1},{r_2},…,{r_N})组成,记录所有智能体的历史样本. 价值函数通过目标函数进行更新:
L({\varphi _i}) = {E_{o,a,r,o'}}{[Q_i^\mu (o,a) - y]^2} \text{,} (2) \left. {y = {r_i} + \gamma Q_i^{\mu '}(o',a')} \right|{a'_j} = {\mu '_j}({o_j})\text{,} (3) 其中\mu ' = \{ {\mu _{{{\varphi }_1'}}},{\mu _{{{\varphi }_2'}}}…,{\mu _{{{\varphi }_N'}}}\}是目标策略的集合. 值得注意的是,集中的评论家网络只在训练阶段使用,而在分散执行阶段,每个智能体只使用本地信息{o_i}和行动者网络{\mu _{{{\varphi }_i'}}}作出决策.
2. MADDPG-DC方法
在本节中,首先通过理论和实验证明,MADDPG存在过高估计价值函数的问题,然后介绍提出的改进方法,即基于双评论家网络的多智能体深度确定性策略梯度方法.
2.1 MADDPG中的价值函数高估问题
首先,给出理论证明以论证MADDPG中存在价值函数的过高估计问题. 定义策略参数 \varphi ,\varphi _i^{{\rm{ap}}}表示智能体{\kern 1pt} i{\kern 1pt} 的由对应评论家网络 Q_i^\theta (o,a) 指导的行动者网络的近似参数,并用\varphi _i^{{\rm{tr}}}表示由真实价值函数 Q_i^\mu (o,a) 指导的行动者网络的参数:
\varphi _i^{{\rm{ap}}}{\text{ = }}\varphi + \frac{\alpha }{{{Z_1}}}E[{\nabla _\varphi }{\mu _\varphi }({o_i})\nabla {a_i}Q_i^\theta (o,a)\left| {{a_i} = {\mu _\varphi }({o_i})} \right.] \text{,} (4) \varphi _i^{{\rm{tr}}}{\text{ = }}\varphi + \frac{\alpha }{{{Z_2}}}E[{\nabla _\varphi }{\mu _\varphi }({o_i})\nabla {a_i}Q_i^\mu (o,a)\left| {{a_i} = {\mu _\varphi }({o_i})} \right.] . (5) 然后,根据参数\varphi _i^{{\rm{ap}}}和参数\varphi _i^{{\rm{tr}}}定义最优策略{\mu _{{\rm{ap}}}}和{\mu _{{\rm{tr}}}}. 由于策略梯度是局部最大化操作,于是存在一个足够小的 {\varepsilon _1} ,当 \alpha \leqslant {\varepsilon _1} 时,{\mu _{{\rm{ap}}}}的近似值以{\mu _{{\rm{tr}}}}的近似值为下界.
E[Q_i^\theta (o,a)\left| {{a_i} = {\mu _{{\rm{ap}}}}({o_i})} \right.] \geqslant E[Q_i^\theta (o,a)\left| {{a_i} = {\mu _{{\rm{tr}}}}({o_i})} \right.]. (6) 相反,存在一个足够小的 {\varepsilon _2} ,当 \alpha \leqslant {\varepsilon _2} 时{\mu _{{\rm{ap}}}}的真实值以{\mu _{{\rm{tr}}}}的真实值为上界.
E[Q_i^\mu (o,a)\left| {{a_i} = {\mu _{{\rm{tr}}}}({o_i})} \right.] \geqslant E[Q_i^\mu (o,a)\left| {{a_i} = {\mu _{{\rm{ap}}}}({o_i})} \right.]. (7) 又因为价值估计的期望不小于对应的真实策略{\mu _{{\rm{tr}}}}的真实值的期望:
E[Q_i^\theta (o,a)\left| {{a_i} = {\mu _{{\rm{tr}}}}({o_i})} \right.] \geqslant E[Q_i^\mu (o,a)\left| {{a_i} = {\mu _{{\rm{tr}}}}({o_i})} \right.]. (8) 因此存在足够小的 {\varepsilon _1} 和 {\varepsilon _2} ,当 \alpha \leqslant \min ({\varepsilon _1},{\varepsilon _2}) 时,MADDPG中的价值函数会被高估:
\begin{split}& E[Q_i^\theta (o,a)\left| {{a_i} = {\mu _{{\rm{ap}}}}({o_i})} \right.] \geqslant E[Q_i^\theta (o,a)\left| {{a_i} = {\mu _{{\rm{tr}}}}({o_i})} \right.] \geqslant \\& E[Q_i^\mu (o,a)\left| {{a_i} = {\mu _{{\rm{tr}}}}({o_i})} \right.] \geqslant E[Q_i^\mu (o,a)\left| {{a_i} = {\mu _{{\rm{ap}}}}({o_i})} \right.]. \end{split} (9) 2.2 MADDPG-DC
MADDPG中存在的价值函数过高估计一般会导致2个问题:一方面,价值高估会在多次更新后导致显著的偏差;另一方面,价值估计偏差会进一步导致策略更新的不准确. 评论家网络对次优动作进行过高的评估,从而导致在接下来的策略更新中引导行动者网络对次优动作的选择.
在降低单智能体深度强化学习中的价值函数过高估计问题方面,已有多项工作取得了成功,其中深度双Q网络采用目标值网络和当前值网络结构来进行独立的价值估计,利用当前值网络的价值估计来选择最优动作,利用目标值网络的价值估计来评估最优动作,将最优动作的选择和价值估计分开,降低了对次优动作过高估计价值的可能性[2].
MADDPG方法中的评论家网络也采取相似的目标值网络和当前值网络结构进行更新:
{y_i} = {r_i} + \gamma \left. {Q_i^{{{\theta '}_i}}(o',a)} \right|{a_i} = {\mu _{{\varphi _i}}}({o'_i}) . (10) 然而,由于MADDPG方法的策略变化缓慢,导致目标值网络与当前值网络过于相似,难以进行有效的独立的价值估计,过高估计的问题仍然存在. 如图1所示,本文实验评估了MADDPG中存在的估计偏差问题.
在多智能体粒子环境(multi-agent particle environment)中的捕食者猎物(predator-prey)环境上,测量MADDPG和MADDPG-DC在学习过程中的价值估计的估计偏差、采样状态和经验回放池的动作,确定真实的和估计的Q值. 结果如图1所示,一个非常明显的过高估计偏差发生在MADDPG的学习过程中,而MADDPG-DC在学习过程中不存在明显的估计偏差.
MADDPG-DC使用双评论家网络结构来避免价值高估,2个评论家网络的目标函数分别为
{y_{i,1}} = {r_i} + \gamma \left. {Q_i^{{{\theta '}_{i,1}}}(o',a)} \right|{a_i} = {\mu _{{\varphi _{i,1}}}}({o'_i}) \text{,} (11) {y_{i,2}} = {r_i} + \gamma \left. {Q_i^{{{\theta '}_{i,2}}}(o',a)} \right|{a_i} = {\mu _{{\varphi _{i,2}}}}({o'_i}) . (12) MADDPG-DC通过在双评论家网络上进行最小值操作,能够避免价值估计过高的问题. 虽然该更新规则可能会导致价值低估,但价值低估不会在策略更新过程中显式传播[26-28]. MADDPG-DC方法的评论家网络的目标函数为
{y_i} = {r_i} + \gamma \mathop {\min }\limits_{k = 1,2} \left. {Q_i^{{{\theta '}_{i,k}}}(o',a)} \right|{a_i} = {\mu _{{\varphi _{i,k}}}}({o'_i}) . (13) MADDPG-DC方法利用目标网络来减少目标更新过程中的误差. 由于高误差状态下的策略更新会导致智能体动作的发散,MADDPG-DC方法引入延迟行动者网络更新的方法,将行动者网络的更新频率设置为低于评论家网络的更新频率,以使得行动者网络的策略更新前的误差最小化. 具体地,设定评论家网络每更新3次后,行动者网络更新1次. 同时为确保误差最小,缓慢地更新目标网络:
{\theta '_{i,k}} \leftarrow \tau {\theta _{i,k}} + (1 - \tau ){\theta '_{i,k}} \text{,} (14) {\varphi '_i} \leftarrow \tau {\varphi _i} + (1 - \tau ){\varphi '_i} . (15) 在评论家网络每3次迭代后,对于智能体{\kern 1pt} i{\kern 1pt} ,基于评论家网络 Q_i^{{\theta _i}} 利用确定性策略梯度方法更新行动者网络 {\mu _{{\varphi _i}}} . 通过延迟行动者网络更新,MADDPG-DC方法减少了使用没变化的评论家网络得到的Q值来指导行动者网络重复更新的可能性,从而实现更高质量的策略更新.
图2展示了MADDPG-DC的网络结构,在训练阶段,只对行动者网络和双评论家网络进行训练,而行动者目标网络和评论家目标网络用于稳定行动者网络和双评论家网络的学习效果. 算法1给出了MADDPG-DC的伪代码.
算法1. MADDPG-DC.
输入:每个智能体 {\kern 1pt} i{\kern 1pt} 的观测 {\kern 1pt} {o_i}{\kern 1pt} , 奖励函数 R ;
输出:评论家和行动者目标网络参数.
初始化:每个智能体 {\kern 1pt} i{\kern 1pt} 的评论家网络 Q_i^{{\theta _1}} , Q_i^{{\theta _2}} ;行动者网络 \mu _i^\varphi ;经验回放池 D .
① for 回合数 = 1 to M (最大回合数)
② for 时间步数 = 1 to T (最大时间步数)
③ for 智能体 {\kern 1pt} i{\kern 1pt}
④ 接收本地局部观测{\kern 1pt} {o_i};
⑤ 根据策略网络选择动作 {a_i} \sim \mu _i^\varphi ({\kern 1pt} {\kern 1pt} {o_i}{\kern 1pt} ) ;
⑥ 接收奖励值{r_i}和新的局部观测{\kern 1pt} {o'_i};
⑦ 存储历史样本({o_i},{a_i},{r_i},{o'_i})到 D ;
⑧ 从 D 中抽取小批量样本 S 用于训练;
⑨ 最小化目标函数来更新评论家网络:
L({\theta _{i,k}}) = {S^{ - 1}}\displaystyle\sum {({y_i} - } Q_i^{{{\theta '}_{i,k}}}(o',a){)^2};
⑩ for 时间步数 mod 3
⑪ 更新行动者网络 {\varphi _{i,k}} : {\nabla _{{\varphi _i}}}J({\varphi _i}) = {S^{ - 1}}\displaystyle\sum [{\mu _{{\varphi _i}}}({o_i})\nabla {a_i} Q_i^\mu (o,a)\left| {{a_i} = {\mu _{{\varphi _i}}}({o_i})} \right.];
⑫ 更新评论家目标网络和行动者 目标网络: {\theta '_{i,k}} \leftarrow \tau {\theta _{i,k}} + (1 - \tau ){\theta '_{i,k}} , {\varphi '_i} \leftarrow \tau {\varphi _i} + (1 - \tau ){\varphi '_i} ;
⑬ end for
⑭ end for
⑮ end for
⑯ end for
2.3 方法复杂度分析
MADDPG-DC方法使用神经网络来促进评论家的训练,其中神经网络使用多层感知器(multilayer perceptron, MLP)架构. 首先,对于使用MLP架构的单智能体强化学习方法而言,其训练复杂度是O(M \times T(S \times H + H \times A)). 其中 M 为回合数, T 是每回合的时间步数; S 表示输入层的大小,也表示智能体的观测集合的大小, H 表示神经网络隐藏层的大小; A 表示输出层的大小,也表示智能体的动作集合的大小.
对于MADDPG-DC的训练阶段,每个评论家网络用单一的值来评估多个智能体的联合动作和观测结果,其复杂度为 O(M \times T(N \times (A + S) \times H + H \times 1)) , N 表示智能体的数量. 在执行阶段的复杂度方面,由于每个智能体都是独立行动,不需要评论家网络和其他智能体的交互,因此每个智能体在给定时间步数上执行1个动作的复杂度为 O(S \times H + H \times A) . MADDPG方法的复杂度与MADDPG-DC一致.
3. 实验结果
本节在各种复杂的平台和任务上进行了实验,以验证MADDPG-DC方法的优越性和有效性. 首先在MARL领域中广泛使用的多智能体粒子环境进行了仿真实验;然后在交通信号控制环境的真实系统中评估MADDPG-DC方法,以证明该方法在真实环境中应用的可行性.
3.1 多智能体粒子环境
首先使用MARL中常用的多智能体粒子环境进行实验. 实验配置如表1所示. 环境是2维连续的,包含K个相互协作的智能体、Z个地标和L个敌对的智能体. 本文在多智能体粒子环境中的3个环境上进行了实验,以验证所提方法的有效性.
表 1 多智能体粒子环境的实验配置Table 1. Experimental Configuration for Multi-Agent Particle Environments环境 动作维度 状态维度 观测维度 (K, Z, L) 捕食-猎物 5 16 62 (3, 1, 2) 物理欺骗 5 10 28 (2, 1, 2) 世界 5 34 200 (4, 2, 1) 1)捕食者-猎物环境. 如图3所示,这个环境包含了3个合作的捕食者,即智能体1,2,3;1个移动速度更快的猎物,即敌方智能体和2个阻碍前进的障碍. 捕食者需要协作来追赶猎物,如果捕食者成功捕获猎物,捕食者得到奖励,而猎物得到惩罚.
2)物理欺骗(physical deception)环境. 该环境包括2个合作的智能体、1个敌对的智能体和2个地标物体. 2个合作智能体的目标是在敌对智能体不知道地标物体的情况下,从一个地标到达另一个地标. 合作智能体的奖励取决于其中一个智能体到达目的地的最小距离.
3)世界(world)环境. 在包含4个移动较慢的智能体和2个移动较快的敌对智能体的世界环境中,较慢的智能体的目标是学会合作以捕获2个移动较快的敌对智能体.
本文将提出的MADDPG-DC方法与多种基线方法在以上3个环境中进行对比实验. 实验选择了MADDPG[15]、反事实的多智能体策略梯度[18] (counterfactual multi-agent policy gradient, COMA)、值分解网络[19] (value-decomposition networks, VDN)方法、QMIX[20]这4种基于CTDE框架的方法作为基线方法. COMA使用一个基于反事实基线的评论家网络结构来推导智能体学习策略的优势函数. VDN和QMIX是价值函数分解方法的代表性方法,使用个体价值函数的组合来估计联合价值函数.
由于这些基线方法全部基于CTDE框架,于是都存在价值函数高估问题. 所有实验在CPU Intel Xeon Silver 4210和GPU Nvidia RTX 2080上使用5个随机种子构建. 对于MADDPG和COMA,使用与MADDPG-DC相同的参数,如表2所示. VDN和QMIX包括更复杂的网络结构,参数如表3所示.
表 2 MADDPG-DC, MADDPG, COMA在多智能体粒子环境上的超参数Table 2. Hyperparameters of MADDPG-DC, MADDPG, COMA on Multi-Agent Particle Environments超参数 取值 评论家网络学习率 10−3 行动者网络学习率 10−4 目标网络更新率 10−2 RNN类型 GRU 批量大小 100 折扣因子 0.95 优化函数 Adam 训练回合 106 表 3 VDN和QMIX在多智能体粒子环境上的超参数Table 3. Hyperparameters of VDN and QMIX on Multi-Agent Particle Environments超参数 取值 学习率 10−4 RNN类型 LSTM & GRU 超网络 Have & None 批量大小 100 折扣因子 0.95 训练回合 106 优化函数 Adam 图4~6展示了各方法的平均奖励值. 在捕食者-猎物环境中,在参数相对一致的情况下,MADDPG和QMIX方法下的智能体未学得稳定的策略,导致平均奖励呈下降状态. 本文提出的MADDPG-DC方法在训练一开始的表现低于价值函数分解方法VDN,但最终收敛到更高的平均奖励值. 在物理欺骗环境下,MADDPG-DC收敛得最快且学得的平均奖励值最高,而MADDPG,COMA,VDN方法未能学得最优的策略. 在世界环境下,除了QMIX以外的大部分方法都采用收敛到稳定的策略,而MADDPG-DC同样取得了最好的表现. 综上,对比其他存在价值高估问题的基线方法,MADDPG-DC方法取得了更好的性能.
此外,为探讨双评论家网络结构和延迟行动者网络更新这2个因素对性能提升的影响,本文设计了消融实验. 实验中使用2个变体:使用双评论家网络结构但不延迟行动者网络更新的MADDPG-D和不使用双评论家网络结构但延迟行动者网络更新的MADDPG-C. 将这2个变体与原始MADDPG方法以及同时使用双评论家网络结构和延迟行动者网络更新的MADDPG-DC进行了比较. 首先,比较MADDPG-D与MADDPG的性能表现. 图7~9展示了不同多智能体粒子环境环境下的消融实验. 实验结果表明,在捕食者-猎物环境和世界环境下,MADDPG-D的学习性能显著,并持续优于MADDPG且收敛到稳定的策略. 在物理欺骗环境下,虽然MADDPG-D的表现持续优于MADDPG,但其学习曲线在后期也呈现下降趋势.
进一步,为验证延迟行动者网络的有效性,首先对比MADDPG,MADDPG-C,MADDPG-D在3个环境中,MADDPG-C的性能相比MADDPG有一定的提升, 但无法超过MADDPG-D的性能. 接下来,对比MADDPG-D和MADDPG-DC的表现. 如图7~9所示,在捕食者-猎物环境和世界环境下,MADDPG-DC收敛更快,且收敛至更高的奖励值. 在物理欺骗环境下,MADDPG-DC相比MADDPG-D,其可以收敛到稳定的最优策略. 由此可见双评论家网络结构和延迟行动者网络更新这2个因素对方法的性能都有提升作用,且同时使用2个改进因素的效果大于单独使用任意1个的效果.
3.2 交通信号控制环境
随着城市化的快速发展,车辆数量的增加不可避免地导致交通拥堵程度的增加. 通过优化管理方法可以实现交通系统的可持续发展[29]. 交通信号控制(traffic signal control, TSC)是一种有效的优化策略,它有助于改善交通状况、减少拥堵、缩短出行时间[30-31]. 为了应对TSC的规模需求,学者们尝试在多智能体系统中使用RL.
在局部观测和通信受限的情况下,将TSC定义为由分散的强化学习智能体控制交叉口的协作MARL问题是一种有效且通用的方法. 其中一种思路是使用独立Q学习(independent Q-learning, IQL)方法建模[32],在这种方法中,分散的强化学习智能体独立地学习各自的策略,并将其他智能体当作环境的一部分. IQL方法可以解决可扩展性问题,但当其他智能体改变自己的策略[33]时,IQL会出现不收敛和不稳定性问题.
然而,现有的工作包括IQL方法通常采用分散训练和分散执行框架,这个框架通常会存在环境不稳定性问题[34]. 基于CTDE框架的MARL是一种有效的改进,如MADDPG方法. 然而,在TSC中,MADDPG方法的性能表现一般[35]. 其原因可能是在复杂环境下,MADDPG中价值估计的不准确导致了智能体行为的发散或者智能体学得了次优的策略. 同时,MADDPG在分散执行阶段缺乏通信学习机制[36-38],而通信学习机制对于保证整体交通状态的控制稳定性和效果具有重要意义.
本文应用MADDPG-DC和CTDE框架来处理TSC问题. 为验证MADDPG-DC在实际系统中的可行性和有效性,本文在成都市实际交通网络[39-40]上进行了实验. 利用城市交通平台模拟真实的交通状况. 实验将每个交叉口的交通信号控制器建模为一个智能体,将网络交通状态建模为全局状态.
在真实的交通信号控制环境中,为证明MADDP-DC方法的有效性,选择IQL[32]、MADDPG[15]和最大压力控制(max pressure control)[41]等3种方法作为基线方法. IQL[32]基于分散训练分散执行框架,分散的智能体独立地学习各自的策略,而MADDPG利用CTDE框架. 最大压力控制是TSC领域最先进的控制方法之一,通过选择信号相位,最大化通过交叉口的车辆数量.
评价结果以各交叉口的交通拥堵情况和车辆通行效率为主要评价指标,包括3个主要指标: 平均队列长度、平均延迟和平均行驶时间. 平均队列长度是指在交叉口的所有车辆的平均等待队列长度. 平均延迟是指交通路口的所有车辆的平均等待时间除以队列长度. 这二者的值越高,表示方法的性能越差. 平均行驶时间是指整个交通网络中车辆从起点行驶到终点所花费的平均时间. 同样地,平均行驶时间的值越高,表示该方法的性能越差.
首先,本文从合成道路数据集中随机选取合成交通网络来训练MADDPG-DC方法以及其他基线方法,仿真实验运行了8000回合. 交通信号控制环境下的MADDPG-DC的超参数如表4所示. 基线MADDPG和MADDPG-D也设置相同的超参数进行训练. IQL的超参数如表5所示. 最大压力控制不是一种MARL方法,其参数设置保持和文献[41]一致.
表 4 交通信号控制环境下MADDPG, MADDPG-D, MADDPG-DC的超参数Table 4. Hyperparameters of MADDPG, MADDPG-D, MADDPG-DC Under Traffic Signal Control Environments超参数 取值 评论家网络学习率 10−3 行动者网络学习率 10−4 批量大小 64 折扣因 0.99 训练回合 8000 优化函数 Adam 表 5 交通信号控制环境下IQL的参数Table 5. Hyperparameters of IQL Under Traffic Signal Control Environments超参数 取值 学习率 10−4 批量大小 64 折扣因子 0.99 训练回合 8000 优化函数 Adam 然后,在真实交通网络中对训练后的方法分别进行1h的时变交通流训练. 考虑到计算成本,实验在1h后停止评估. 图10和图11分别展示了各方法下的真实交通网络中的平均队列长度和平均延迟. 从图11可以看出,MADDPG-DC方法的平均队列长度小于其他基线方法. 在模拟时间为2700 s时,MADDPG-DC方法下的平均队列长度达到峰值,约为0.63辆. 而对于其他基线方法,MADDPG方法在2980 s时达到约为1.41辆的峰值,MADDPC-D方法在2980 s时的峰值在0.92辆以上,IQL方法在3010 s时的峰值在2.69辆以上,最大压力控制方法在2730 s时的峰值在1.65辆左右.
对比图10和图11可以发现,不同方法的曲线大部分都有相似的趋势. 大多数曲线在前期增加,然后在不同的时间到达峰值,最后趋于下降. 因此,可以推断这2个指标是相关的. 随着车辆队列的增加,交叉口的平均延迟也会增加. 值得注意的是,所有方法通过积累的交通数据进行学习后,都不同程度地减少了队列长度.
表6给出了不同方法在实际交通网络中多个的评价指标下的表现. 可以发现,MADDPG-DC的表现优于MADDPG-D,说明延迟行动者网络更新的有效性. 同时MADDPG-D的表现其次,证明双评论家网络结构实现了更准确的价值估计,进而促进更高质量的策略学习.
表 6 不同方法在真实交通网络中的性能Table 6. Performance of Different Methods in Real Traffic Networks方法 平均延迟/(s/辆) 平均队列长度/辆 平均行驶时间/s Max Pressure 40.94 1.82 269.45 IQL 48.61 2.15 285.23 MADDPG 37.73 1.53 253.67 MADDPG-D 24.08 1.21 216.32 MADDPG-DC 21.62 0.82 192.65 注: 黑体数字表示性能最优. 图11展示了所有方法的平均队列长度变化曲线. 如图11所示,MADDPG-DC方法在所有方法中表现最好,且MADDPG-D的表现其次. 2种变体方法在初期的曲线非常接近,但MADDPG-DC在3050 s达到约26.42 s/辆的峰值,而MADDPG-D在时间3250 s达到的峰值超过44.02 s/辆. MADDPG曲线虽然在模拟时间1700~1900 s之间有所下降,但之后一直呈现上升趋势. IQL方法和最大压力控制方法都直到结束时才出现一定程度的下降.
此外,值得注意的是,所有平均延迟曲线在前期均呈平稳上升趋势. 最大压力控制方法和IQL方法在后期仍然呈上升趋势,而MADDPG-D方法和MADDPG-DC方法在前期达到峰值,但在后期趋于下降. 无论是IQL方法还是最大压力控制方法都不能依靠一种可持续的策略来快速恢复拥堵的交通网络. 与MADDPG相比,MADDPG-D受益于更准确的价值估计可以学得更好的策略. 与MADDPG-D相比,MADDPG-DC倾向于一种更稳定和可持续的策略,能够实现更快的交通拥堵恢复. MADDPG-DC的平均队列长度趋于0,说明该方法对于减少交叉口拥堵,提高车辆行驶效率发挥了重要作用.
4. 总结和展望
为更好地估计MARL方法中的价值函数,本文提出基于双评论家网络的多智能体深度确定性策略梯度方法. 通过理论和实验论证MADDPG存在价值高估问题,并提出双评论家网络结构来避免价值高估. 此外,为提高策略更新的质量,延迟行动者网络更新. 实验结果表明,本文提出的方法在多智能体粒子环境的多个环境上的表现显著优于MADDPG等其他基线方法. 此外,交通信号控制环境上的实验结果证明所提方法在真实环境中的可行性.
然而,大多数基于CTDE框架的MARL方法可能都存在价值高估或低估的问题,本文没有对其他基于CTDE的MARL方法进行深入研究,这是未来的一个有趣且有价值的研究方向. 同时,在价值函数分解方法和其他CTDE方法中实现更好的价值估计将是我们下一步的工作.
作者贡献声明:丁世飞提出论文的研究方向及指导论文写作;杜威负责论文的撰写及研究框架设计;郭丽丽、张健、徐晓负责实验指导及论文写作指导.
-
表 1 主要攻击缓解方案特点对比
Table 1 Comparison on the Characteristics of Primary Attack Mitigation Schemes
表 2 传感器预测模型和对应的系统状态变量及预测输出
Table 2 Sensor’s Prediction Model and Corresponding System State Variables and Prediction Output
传感器 无人机
状态变量目标
状态值预测输
出转换传感器
预测输出陀螺仪 角速度矢量
\{ {\omega _x},{\omega _y},{\omega _{\textit{z}}}\}目标角速度矢量 角速度矢量 加速度计 速度矢量
\{ {v_x},{v_y},{v_{\textit{z} } }\}目标速度矢量 速度→
加速度加速度矢量 GPS 位置矢量
\{ {p_x},{p_y},{p_{\textit{z}}}\}目标位置矢量 位置矢量 磁力计 偏航角\psi 目标偏航角 偏航角 表 3 无人机状态变量和对应的机器学习预测模型结构
Table 3 UAV State Variables and Corresponding Structures of Machine Learning Prediction Models
状态变量 神经网络层数 每层神经元个数 1次训练样本数 第一层 第二层 第三层 角速度 {\omega _x} 2 2 1 1024 {\omega _y} 2 2 1 1024 {\omega _{\textit{z}}} 2 4 1 128 速度 {v_x} 2 2 1 256 {v_y} 2 2 1 256 {v_{\textit{z}}} 3 4 2 1 256 位置 {p_x} 2 2 1 256 {p_y} 2 4 1 256 {p_{\textit{z}}} 2 2 1 512 偏航角 \psi 3 2 2 1 256 表 4 评估用无人机类型及传感器数量
Table 4 UAV Types and Number of Sensors for Evaluations
飞控硬件 控制软件 传感器数量 GPS 陀螺仪 加速度计 磁力计 ArduPilot Mega
SITLArduCopter 4.1.0 1 2 2 1 雷迅V5+ ArduCopter 4.1.0 1 3 3 1 表 5 真实无人机的传感器配置
Table 5 Sensor Configuration of Real UAV
传感器 型号 传感器数量 GPS Neo V2 1 IMU
(每单元含1个加速度计
和1个陀螺仪)ICM20602 1 ICM20689 1 BMI055 1 磁力计 IST8310 1 -
[1] 王金永,黄志球,杨德艳,等. 面向无人驾驶时空同步约束制导的安全强化学习[J]. 计算机研究与发展,2021,58(12):2585−2603 doi: 10.7544/issn1000-1239.2021.20211023 Wang Jinyong, Huang Zhiqiu, Yang Deyan, et al. Spatio-clock synchronous constraint guided safe reinforcement learning for autonomous driving[J]. Journal of Computer Research and Development, 2021, 58(12): 2585−2603 (in Chinese) doi: 10.7544/issn1000-1239.2021.20211023
[2] Dash P, Karimibiuki M, Pattabiraman K. Out of control: Stealthy attacks against robotic vehicles protected by control-based techniques [C] //Proc of the 35th Annual Computer Security Applications Conf. New York: ACM, 2019: 660−672
[3] Lu Xiaozhen, Jie Jingfang, Lin Zihan, et al. Reinforcement learning based energy efficient robot relay for unmanned aerial vehicles against smart jamming[J]. Science China Information Sciences, 2022, 65(1): 112304 doi: 10.1007/s11432-020-3170-2
[4] Kune D F, Backes J, Clark S S, et al. Ghost talk: mitigating EMI signal injection attacks against analog sensors [C] //Proc of IEEE Symp on Security and Privacy. Piscataway, NJ: IEEE, 2013: 145−159
[5] Shoukry Y, Martin P, Tabuada P, et al. Non-invasive spoofing attacks for anti-lock braking systems [C] //Proc of 15th Int Workshop on Cryptographic Hardware and Embedded Systems. Berlin: Springer, 2013: 55−72
[6] Cao Yulong, Xiao Chaowei, Cyr B, et al. Adversarial sensor attack on lidar-based perception in autonomous driving [C] //Proc of the 2019 ACM SIGSAC Conf on Computer and Communications Security. New York: ACM, 2019: 2267−2281
[7] Schmidt D, Radke K, Camtepe S, et al. A survey and analysis of the GNSS spoofing threat and countermeasures[J]. ACM Computing Surveys, 2016, 48(4): 1−31
[8] Tu Zhan, Fei Fan, Eagon M, et al. Flight recovery of MAVs with compromised IMU [C] //Proc of IEEE/RSJ Int Conf on Intelligent Robots and Systems. Piscataway, NJ: IEEE, 2019: 3638−3644
[9] Fei Fan, Tu Zhan, Yu Ruikun, et al. Cross-layer retrofitting of UAVs against cyber-physical attacks [C] //Proc of IEEE Int Conf on Robotics and Automation. Piscataway, NJ: IEEE, 2018: 550−557
[10] Choi H, Lee W C, Aafer Y, et al. Detecting attacks against robotic vehicles: A control invariant approach [C] //Proc of the 2018 ACM SIGSAC Conf on Comupter and Communications Security. New York: ACM, 2018: 801−816
[11] Quinonez R, Giraldo J, Salazar L E, et al. SAVIOR: Securing autonomous vehicles with robust physical invariants[C] // Proc of the 29th USENIX Security Symp. Berkeley, CA: USENIX Association, 2020: 895−912
[12] Choi H, Kate S, Aafer Y, et al. Software-based realtime recovery from sensor attacks on robotic vehicles [C] //Proc of the 23rd Int Symp on Research in Attacks, Intrusions and Defenses. Berkeley, CA: USENIX Association, 2020: 349−364
[13] Dash P, Li Guanpeng, Chen Zitao, et al. PID-Piper: Recovering robotic vehicles from physical attacks [C] //Proc of the 51st Annual IEEE/IFIP Int Conf on Dependable Systems and Networks. Piscataway, NJ: IEEE, 2021: 26−38
[14] Nassi B, Bitton R, Masuoka R, et al. SoK: Security and privacy in the age of commercial drones [C] //Proc of IEEE Symp on Security and Privacy. Piscataway, NJ: IEEE, 2021: 1434−1451
[15] Kwon C, Liu Weiyi, Hwang I. Analysis and design of stealthy cyber attacks on unmanned aerial systems[J]. Journal of Aerospace Information Systems, 2014, 11(8): 525−539 doi: 10.2514/1.I010201
[16] Kwon C, Yantek S, Hwang I. Real-time safety assessment of unmanned aircraft systems against stealthy cyber attacks[J]. Journal of Aerospace Information Systems, 2016, 13(1): 27−45 doi: 10.2514/1.I010388
[17] Aboutalebi P, Abbaspour A, Forouzannezhad P, et al. A novel sensor fault detection in an unmanned quadrotor based on adaptive neural observer[J]. Journal of Intelligent and Robotic Systems, 2018, 90: 473−484 doi: 10.1007/s10846-017-0690-7
[18] Chen Wenxin, Dong Yingfei, Duan Zhenhai, Accurately redirecting a malicious drone [C] //Proc of 19th Annual Consumer Communications and Networking Conf. Piscataway, NJ: IEEE, 2022: 827−834
[19] Kerns A J, Shepard D P, Bhatti J A, et al. Unmanned aircraft capture and control via GPS spoofing[J]. Journal of Field Robotics, 2014, 31(4): 617−636 doi: 10.1002/rob.21513
[20] Noh J, Kwon Y, Son Y, et al. Tractor beam: Safe-hijacking of consumer drones with adaptive GPS spoofing [J]. ACM Transactions on Privacy and Security, 2019, 22(2): 12: 1−12: 26
[21] Son Y, Shin H, Kim D, et al. Rocking drones with intentional sound noise on gyroscopic sensors [C] //Proc of the 24th USENIX Security Symp. Berkeley, CA: USENIX Association, 2015: 881−896
[22] Trippel T, Weisse O, Xu Wenyuan, et al. WALNUT: Waging doubt on the integrity of MEMS accelerometers with acoustic injection attacks [C] //Proc of IEEE European Symp on Security and Privacy. Piscataway, NJ: IEEE, 2017: 3−18
[23] Davidson D, Wu Hao, Jellinek R, et al. Controlling UAVs with sensor input spoofing attacks [C] //Proc of the 10th USENIX Workshop on Offensive Technologies. Berkeley, CA: USENIX Association, 2016: 1−11
[24] Chen Wenxin, Duan Zhenhai, Dong Yingfei. False data injection on EKF-based navigation control [C] //Proc of the Int Conf on Unmanned Aircraft Systems. Piscataway, NJ: IEEE, 2017: 1608−1617
[25] Xue Nian, Niu Liang, Hong Xianbin, et al. DeepSIM: GPS spoofing detection on UAVs using satellite imagery matching [C] // Proc of the 36th Annual Computer Security Applications Conf. New York: ACM, 2020: 304−319
[26] Whelan J, Sangarapillai T, Minawi O, et al. Novelty-based intrusion detection of sensor attacks on unmanned aerial vehicles [C] //Proc of the 16th ACM Symp on QoS and Security for Wireless and Mobile Networks. New York: ACM, 2020: 23−28
[27] Henderson D M. Euler angles, Quaternions, and transformation matrices for space shuttle analysis[R]. NASA STI Repository. 1977 [2023-05-23]. https://ntrs.nasa.gov/citations/19770019231
[28] Oppenheim A V, Willsky A S, Nawab S H. Signals and Systems [M]. Upper Saddle River, NJ: Prentice Hall, 1997
[29] Sakoe H, Chiba S. Dynamic programming algorithm optimization for spoken word recognition[J]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1978, 26(1): 43−49 doi: 10.1109/TASSP.1978.1163055
[30] Tobias Hermann. frugally-deep [EB/OL]. [2023-05-23]. https://github.com/Dobiasd/frugally-deep
[31] Wang Jinwen, Li Ao, Li Haoran, et al. RT-TEE: Real-time system availability for cyber-physical systems using ARM TrustZone [C] //Proc of IEEE Symp on Security and Privacy. Piscataway, NJ: IEEE, 2022: 352−369