-
摘要:
生成对抗模仿学习(generative adversarial imitation learning, GAIL)是一种基于生成对抗框架的逆向强化学习(inverse reinforcement learning, IRL)方法,旨在从专家样本中模仿专家策略. 在实际任务中,专家样本往往由多模态策略产生. 然而,现有的GAIL方法大部分假设专家样本产自于单一模态策略,导致生成对抗模仿学习只能学习到部分模态策略,即出现模式塌缩问题,这极大地限制了模仿学习方法在多模态任务中的应用. 针对模式塌缩问题,提出了基于余弦相似度的多模态模仿学习方法(multi-modal imitation learning method with cosine similarity,MCS-GAIL). 该方法引入编码器和策略组,通过编码器提取专家样本的模态特征,计算采样样本与专家样本之间特征的余弦相似度,并将其加入策略组的损失函数中,引导策略组学习对应模态的专家策略. 此外,MCS-GAIL使用新的极小极大博弈公式指导策略组以互补的方式学习不同模态策略. 在假设条件成立的情况下,通过理论分析证明了MCS-GAIL的收敛性. 为了验证方法的有效性,将MCS-GAIL用于格子世界和MuJoCo平台上,并与现有模式塌缩方法进行比较. 实验结果表明,MCS-GAIL在所有环境中均能有效学习到多个模态策略,且具有较高的准确性和稳定性.
Abstract:Generative adversarial imitation learning is an inverse reinforcement learning (IRL) method based on generative adversarial framework to imitate expert policies from expert demonstrations. In practical tasks, expert demonstrations are often generated from multi-modal policies. However, most of the existing generative adversarial imitation learning (GAIL) methods assume that the expert demonstrations are generated from a single modal policy, which leads to the mode collapse problem where the generative adversarial imitation learning can only partially learn the modal policies. Therefore, the application of the method is greatly limited for multi-modal tasks. To address the mode collapse problem, we propose the multi-modal imitation learning method with cosine similarity (MCS-GAIL). The method introduces an encoder and a policy’s group, extracts the modal features of the expert demonstrations by the encoder, calculates the cosine similarity of the features between the sample of policy sampling and the expert demonstrations, and adds them to the loss function of the policy’s group to help the policy’s group learn the expert policies of the corresponding modalities. In addition, MCS-GAIL uses a new min-max game formulation for the policy’s group to learn different modal policies in a complementary way. Under the assumptions, we prove the convergence of MCS-GAIL by theoretical analysis. To verify the effectiveness of the method, MCS-GAIL is implemented on the Grid World and MuJoCo platforms and compared with the existing mode collapse methods. The experimental results show that MCS-GAIL can effectively learn multiple modal policies in all environments with high accuracy and stability.
-
模仿学习[1-2](imitation learning,IL)在不显式设计强化学习奖赏信号的情况下,从专家样本中模仿专家策略. 近年来模仿学习已经成功应用于自动驾驶、机器控制和自然语言处理等领域,并成为人工智能领域研究的热点之一. 模仿学习方法包含行为克隆方法[3]和逆向强化学习[4-5](inverse reinforcement learning,IRL)方法.
行为克隆方法无需设定奖赏函数,使用经典的监督学习方法建立从状态到动作的映射函数,不需要与环境交互即可学习专家策略. 由于行为克隆方法难以准确表征复杂状态—动作空间中的映射关系,导致其在复杂连续状态空间任务中表现不佳. 逆向强化学习方法从专家样本中学习奖赏函数,构建马尔可夫决策过程,并利用强化学习方法学习专家策略. 与行为克隆方法相比,逆向强化学习方法中不存在复合误差问题,且具有较好的鲁棒性与泛化性.
Ho等人[6]将生成对抗网络[7](generative adversarial network,GAN)中的极小极大博弈思想应用到模仿学习中,提出了生成对抗模仿学习(generative adversarial imitation learning, GAIL)方法. GAIL从占有率度量的角度出发,以最大因果熵为正则化项,通过极小极大博弈的方式,解决模仿学习问题. 与传统逆向强化学习方法相比,GAIL在解决大规模的模仿学习问题时,具有优异的性能[8].
GAIL使用JS(Jensen Shannon)散度衡量专家策略与当前策略之间的差异,并通过最小化该差异,促使当前策略逼近专家策略. 但是使用JS散度作为度量方式可能会导致策略出现梯度消失问题. 针对该问题,Zhang等人[9]以f-散度作为度量方式提出了GAIL的变体:学习f-散度的生成对抗模仿学习(learning f-divergence for generative adversarial imitation learning,f-GAIL). f-GAIL自动从f-散度家族中学习最优差异度量,并学习一种能够产生专家行为的策略. 此外,Zhang等人[10]提出一种基于Wasserstein距离的对抗模仿学习方法(Wasserstein distance guided adversarial imitation learning,WDIL). 该方法不仅引入Wasserstein距离,使对抗训练过程中获得更适合的度量,而且通过探索奖赏函数的形状适应不同的任务,进一步提升方法的性能.
GAIL及其大部分扩展方法都假设专家样本来自单一模态策略,忽略了专家策略由多个模态构成,导致智能体学习到的策略难以满足专家策略的多样性. f-GAIL和WDIL方法虽然在绝大部分模仿学习任务中表现不俗,但均未考虑模式塌缩问题. 在GAIL中鉴别器负责计算样本来自专家样本分布的概率,而策略负责与环境交互,产生趋近专家样本分布的状态-动作对. 在策略更新过程中,策略倾向于朝着更容易欺骗鉴别器的若干个模态的方向进行更新,而忽略不易于欺骗鉴别器的模态,这便是GAIL中出现模式塌缩问题的原因.
近年来,为了解决GAIL中的模式塌缩问题,针对生成对抗框架[11-13]提出了大量的改进. Merel等人[14]对GAIL进行改进,提出了条件生成对抗模仿学习(conditional generative adversarial imitation learning, CGAIL). CGAIL将模态标签加入专家样本数据中,并在策略训练过程中使用模态标签作为条件约束,学习专家样本中的多模态数据. CGAIL虽然使用模态标签作为指导,解决模式塌缩问题,但并没有考虑使用专家样本中的抽象特征. Lin等人[15]提出利用辅助分类器区分模态的GAIL方法,即基于辅助分类器的生成对抗模仿学习(generative adversarial imitation learning with auxiliary-classifier, ACGAIL). ACGAIL在CGAIL基础上引入辅助分类器,有效利用了不同模态专家数据中的抽象特征. ACGAIL虽然引入模态的特征来区分不同模态策略,但分类器通过共享参数与鉴别器协作,导致分类器和鉴别器之间的更新可能会互相影响. Li等人[16]基于最大互信息原理提出基于互信息最大化的生成对抗模仿学习(information maximizing generative adversarial imitation learning, InfoGAIL). InfoGAIL在模态标签信息未给定的情况下,通过互信息最大化识别专家样本中的显著因素,然后使用这些显著因素学习多模态专家策略. Wang等人[17]受到基于变分自编码器的生成对抗网络[18]VAE-GANs的启发,将变分自编码器(VAE)与GAIL结合,提出了基于变分自编码器的生成对抗模仿学习VAE-GAIL. InfoGAIL和VAE-GAIL虽然使用不同的方式推断模态标签,但是两者都在不考虑任务上下文和语义信息的情况下区分潜在模态标签,导致推断出的模态标签并不能完全表征真实的专家样本.
大部分基于GAIL的方法利用已有专家样本模态标签,或由推断出的模态标签来区分多种模态策略. 但是这些方法使用单一策略对模态进行区分,在训练过程中不同模态策略共享网络参数,导致不同模态策略之间的更新相互影响. 而且,这些方法仅仅建立了模态标签到相应专家策略的映射,而没有利用模态特征之间的关系. 为了更好地解决模式塌缩问题,提出了基于余弦相似度的多模态模仿学习方法(multi-modal imitation learning method with cosine similarity, MCS-GAIL). MCS-GAIL使用余弦相似度衡量不同模态专家样本间的特征关系,并引入多个策略学习多模态的专家策略,提高不同模态策略间的区分度. 此外,余弦相似度可以提高当前策略分布对专家策略分布的拟合程度,使当前策略组能够更好地学习到不同模态的专家策略.
本文主要贡献有3点:
1)提出一种新的生成对抗模仿学习框架,该框架使用策略组代替单一策略来学习模态信息. 在模仿学习过程中,利用预训练的编码器提取样本的特征向量,并根据特征向量计算余弦项,以余弦项作为约束来更新策略组.
2)根据新的生成对抗模仿学习框架,提出了一种新的极小极大博弈公式,并通过理论分析,证明了所提方法的收敛性.
3)在2个经典的模仿学习实验平台上,将MCS-GAIL与现有解决模式塌缩的方法进行对比,验证了MCS-GAIL的优越性.
1. 背景知识
1.1 强化学习
强化学习[19-20](reinforcement learning, RL)过程是智能体与环境进行交互,学习最优决策的过程. 智能体依据现有策略采取动作,从环境中获得奖赏,同时转移到下一个状态. 强化学习方法利用马尔可夫决策过程(Markov decision process, MDP)对强化学习过程进行建模,定义有限空间下的马尔可夫决策过程为四元组
(S,A,R,γ) .1)
S 表示状态空间,st∈S 表示在时刻t 智能体所处的状态.2)
A 表示动作空间,at∈A(s) 表示在时刻t 智能体所选择的动作.3)
R:S×A→R 表示奖赏函数. 对于任意st∈S ,at∈A(s) ,其奖赏值可以表示为Rt+1(st,at)=∑r∈Rr∑st+1∈S P(st+1, r|st,at) ,其中r 表示智能体在状态转移后得到的环境反馈奖赏,P(st+1,r|st,at) 表示智能体位于状态st 采取动作at 时转移到状态st+1 并得到奖赏r 的概率.4)
γ∈[0,1] 为折扣因子,表示未来奖赏对当前状态的重要性程度.γ 越小,未来奖赏对当前状态的累积奖赏影响越小,反之则越大.强化学习的目标是通过最大化累积折扣奖赏求解最优策略
π* . 为了更好地评估策略性能,在策略训练过程中,通常使用状态函数或动作函数评估策略的累积折扣奖赏. 定义状态函数值为Vπ(s)=Eπ[T∑n=tγn−tRn+1|s=st] ,其中T 表示智能体与环境交互到达终止状态的时刻. 定义动作函数为Qπ(s,a)=Eπ[T∑n=tγn−tRn+1|s=st,a=at] . 为了减小方差、提高策略的学习效率,将策略的优势函数[21]定义为Aπ(s,a)=Qπ(s,a)−Vπ(s) . 在策略更新过程中,智能体一般使用负的价值函数(状态函数、动作函数或优势函数)作为策略损失. 将从开始时刻到终止时刻,智能体与环境交互的完整过程称为1个情节,另外,用τ 表示1个情节的状态-动作对顺序序列. 将1个情节奖赏的和记为回报.1.2 GAIL
模仿学习的目的是在没有人工设定奖赏函数的情况下,学习与专家样本分布的尽可能相似策略. 早期的模仿学习方法表征方式和奖赏函数的设定都比较简单,而且奖赏函数设置通常由人工经验选取,所以早期模仿学习方法存在表达能力有限、实现难度大、训练不稳定等问题.
GAN是一种通过对抗性过程估计生成样本分布的方法,其主要由生成器
G 和鉴别器D 这2个组件构成. 生成器负责根据输入的噪声z ,生成趋近专家样本分布的新样本;鉴别器负责判别样本为真实样本的概率. GAN是一个极小极大博弈过程,通过不断地更新迭代,使鉴别器难以判断生成器输出的样本是否为真实样本. 对GAN进行极小极大博弈的公式为min (1) 其中
{p_z}(z) 为输入鉴别器的先验噪声分布,{p_{{\text{data}}}}(x) 为训练样本的分布.GAIL方法结合GAN与模仿学习,将模仿学习过程抽象为求解奖赏函数的逆向强化学习过程和求解最优策略的强化学习过程. GAIL示意图如图1所示,在强化学习过程中,智能体与环境进行交互,采样得到状态-动作对样本. 一方面,这些样本被用来求解奖赏函数,进一步利用奖赏函数构建优势函数,智能体使用优势函数作为损失更新策略. 另一方面,将这些样本作为采样样本,用于鉴别器的后续更新. 在逆向强化学习过程中,使用存储的采样样本和专家样本作为输入更新鉴别器,提高鉴别器区分专家样本与采样样本的能力. 在GAIL中,智能体采集的状态-动作对等价于GAN中生成器的输出. 与GAN模型不同,GAIL中的鉴别器不仅负责区分采样样本和专家样本,而且需要根据鉴别器计算的概率值求解奖赏函数. GAIL通过进行强化学习过程与逆向强化学习过程的交替迭代,最终得到最优策略.
GAIL进行极小极大博弈的公式为
\begin{aligned}[b] &\mathop {\min }\limits_\pi \mathop {\max }\limits_D {L_{{\text{GAIL}}}}(\pi ,D) = {\mathbb{E}_{(s,a) \sim {p_{\text{e}}}}}[\log (D(s,a))] + \\ &{\mathbb{E}_{(s,a) \sim \pi }}[\log (1 - D(s,a))] - \eta H(\pi ). \end{aligned} (2) 其中,
\pi 为智能体的策略,负责指导智能体与环境交互.D 为鉴别器,负责区分专家样本与采样样本;{p_{\text{e}}} 为已知的专家样本的分布;H(\pi ) \triangleq {\mathbb{E}_\pi }[ - \log \pi (a|s)] 表示将策略的因果熵作为正则化项(在状态s 下选择动作a 的概率分布熵);\eta 为熵正则化系数. 为了简明表达,后续部分基于GAIL架构的公式中均省去了H(\pi ) 项. 在求解最优策略的过程中,为了构建完整的MDP四元组,更新策略\pi ,定义奖赏函数为r = - \log (1 - D(s,a)) . 通俗地理解,策略采样样本分布越接近专家样本分布{p_{\text{e}}} ,则由鉴别器给出该样本来自专家样的概率值越大,奖赏值r 越大.1.3 多模态模仿学习
GAIL假设专家样本由单一模态的专家策略产生,即单一风格的专家策略. 实际上,专家策略可能由多个不同风格的子策略构成. 在GAIL的训练过程中,策略模型在更新的过程中会朝着更容易欺骗鉴别器模态策略的方向更新,导致最终的生成样本分布只能满足部分甚至单一的专家样本分布,因此难以学习到完整的多模态专家策略. 多模态的模仿学习方法不再假设专家策略模态是唯一的,而是认为专家策略是由多个模态的子策略构成的. 多模态模仿学习方法在这种设定下研究如何更好地完成多模态的模仿学习任务,缓解GAIL中的模式塌缩问题.
目前,对于GAIL的模式塌缩问题的解决方法大致分为2类:一类是有监督的GAIL方法,该类方法在学习多模态策略时,需要使用专家样本的模态标签信息,例如CGAIL,ACGAIL等;另一类是无监督的GAIL方法,此类方法从没有模态标签的专家样本中学习多模态策略,例如VAE-GAIL, InfoGAIL. 按照模态标签数据类型的不同,多模态的GAIL方法可划分为离散模态标签与连续模态标签的多模态模仿学习方法. 其中CGAIL,ACGAIL,InfoGAIL的模态标签均为离散的形式,而VAE-GAIL推断的模态隐变量为连续的形式.
另外Fei等人[22]将各个模态定义为不同的技能,在GAIL模型基础上增加了辅助选择器,提出了Triple-GAIL. 在Triple-GAIL中,辅助选择器根据智能体所处的不同状态,选择适合的技能.
1.4 余弦相似度
余弦相似度(cosine similarity)又称余弦相似性,是一种通过计算2个向量之间的余弦值来评估两者相似程度的方法. 当2个向量正交时,则称它们线性无关,其余弦相似度为0;当2个向量平行且同向时,它们的余弦相似度为1. 定义在线性空间
{\mathbb{R}} 中有限维空间{\mathcal{V}} 中任意2个非零向量{\boldsymbol{\alpha}} ,{\boldsymbol{\beta}} \in {\mathbb{R}} .{\boldsymbol{\alpha }} 和{\boldsymbol{ \beta}} 的余弦相似度可以定义为\cos ({\boldsymbol{\alpha}} ,{\boldsymbol{\beta}} ) = \frac{{{\boldsymbol{\alpha}} \cdot {\boldsymbol{\beta}} }}{{\left| {\boldsymbol{\alpha}} \right| \times \left| {\boldsymbol{\beta}} \right|}}. (3) 余弦相似度反映了向量之间的相关性,向量之间的余弦值越大,表示2个向量包含的相似信息越多. 在MCS-GAIL中,将智能体根据不同模态策略分别采集的样本和专家样本输入编码器. 编码器根据不同模态的状态-动作对,输出相应的特征向量. 对于不同模态的样本,编码器输出的特征向量各不相同. 另外,将不同模态的专家样本输入编码器,得到不同模态特征向量的信息也各不相同. 在采样样本与专家样本中,相同模态样本的特征向量应该是相似的. 使用余弦相似度衡量特征向量的相似度,并将余弦项加入智能体的策略损失中,对策略组进行梯度下降,在强化学习方法的指导下求解不同模态的最优策略
\pi _i^* . 通过计算不同模态特征向量间的余弦相似度,使各个模态的策略以互补的方式学习专家策略.2. MCS-GAIL
2.1 整体框架
如图2所示,基于MCS-GAIL由策略组(policies)、鉴别器(discriminator)和编码器(encoder)构成. 策略组和鉴别器延续GAIL中的结构. 其中策略组的输入为智能体所处的状态s,输出为在所处状态下智能体根据策略选择的动作a. 鉴别器和编码器的输入均为状态-动作对(s, a). 鉴别器的输出为状态-动作对来自专家样本的概率,编码器则根据不同模态的状态-动作对,输出不同的特征向量. 在MCS-GAIL中,策略组中子策略模块的个数与专家策略模态数量相同,每一个子策略模块根据输入的状态与模态标签,输出对应模态的动作. 在训练策略组时,MCS-GAIL以各个子模态采样样本的模态特征与各个专家样本的模态特征计算余弦项,并使用余弦项引导各个子策略学习相应模态的专家策略.
在MCS-GAIL训练开始前,以不同模态间的余弦相似度作为约束,预训练编码器,使编码器可以根据不同模态的专家样本输出不同的模态特征. 在MCS-GAIL训练时,智能体依据策略组与环境进行交互,采集当前策略组的样本. 在逆向强化学习过程中,根据智能体采集到的样本与专家样本共同更新鉴别器,提高鉴别器的辨别能力. 在强化学习过程中,使用策略损失更新策略组,MCS-GAIL的策略损失由2部分构成:1)根据编码器输出的样本特征向量计算的余弦项;2)根据鉴别器输出的概率值而计算的优势函数. 通过强化学习过程与逆向强化学习过程的交替迭代,智能体利用专家样本中不同模态样本的特征信息以及特征信息间的余弦关系,学习不同模态的专家策略.
2.2 编码器的预训练
为了构建样本的特征向量,编码器将不同模态的样本分布映射到不同的样本特征分布. 在GAIL模型训练结束时,当前策略采样的样本分布会趋近于专家的样本分布. 此时,采样样本与专家样本间相同模态的特征向量一一对应. 另外,在进行策略开始训练之前,可以使用专家样本对编码器进行预训练,加快策略模型的训练速度,提高训练的稳定性.
如何使用专家样本对编码器进行预训练是一个关键的问题. 为了解决该问题,MCS-GAIL利用不同模态样本特征向量的余弦相似度对编码器进行预训练. 2个向量之间的夹角范围为
[0,\pi ] ,2个向量的余弦相似度绝对值的范围为[0,1] . 在向量的余弦相似度关系中,当2个向量正交时,两者包含的相似信息最少;而当2个向量平行时,两者包含的相似信息最多. 在专家样本的余弦相似度关系中,相同模态专家样本的特征向量应该是相似甚至相同的,所以相同模态专家样本的特征向量应该是平行同向的,故2个特征向量之间余弦相似度值应该为1,不同模态专家样本之间的特征向量应该是不同的,所以不同模态专家样本的特征向量应该是正交的,故余弦相似度值应该为0. 综合上述信息,编码器应该使相同模态样本的特征向量平行,即相同模态样本特征向量间的余弦相似度值为1. 同样,编码器应该使得不同模态样本间的特征向量正交,即不同模态样本特征向量间的余弦值为0. 故预训练专家样本特征向量间的余弦相似度关系公式为\begin{aligned}[b] & \sum\limits_{i = 1}^k {\displaystyle\sum\limits_{j = 1,j \ne i}^k {|\cos (E({s_i},{a_i}),E({s_j},{a_j}))|} } - \\ &\displaystyle\sum\limits_{i = 1}^k {\cos (E({s_i},{a_i}),E({s_i},{a_i}))} , \end{aligned} (4) 其中
E 表示编码器,\cos () 表示余弦函数,(s,a) 表示专家样本的状态-动作对,状态和动作下标对应不同的模态标签,k 表示模态的数量.对编码器进行预训练如算法1所示:
算法1. 编码器的预训练算法.
输入:初始化编码器参数
{\varphi _0} ,设置样本集的采样数量m ,编码器更新精度\varepsilon ,专家样本的状态-动作对;输出:编码器
E ;① 初始化编码器
E ;② 从不同模态专家样本中采样;
③ 计算专家样本特征向量的余弦误差
\phi :\begin{gathered} \phi = \displaystyle\sum_{i = 1}^k {\displaystyle\sum_{j = 1,i \ne j}^k {|\cos (E({s_i},{a_i}),E({s_j},{a_j}))|} } - \\ \displaystyle\sum_{i = 1}^k {\cos (E({s_i},{a_i}),E({s_i},{a_i}))} ; \end{gathered} ③ while
\phi > \varepsilon do④ 根据损失函数
los{s_\varphi } = \phi 更新编码器E ;⑤ 分别从不同模态专家样本中采样;
⑥ 计算专家样本特征向量的余弦误差
\phi ;⑧ end while
2.3 算法分析
与GAIL相同,MCS-GAIL仍然是一个最大化鉴别器
D 和最小化策略{\pi _{1:k}} 的极小极大博弈问题. 即智能体采集的样本应该与专家样本相似,使鉴别器难以区分专家样本和采样样本. 而鉴别器负责抽取专家样本的特征,并利用这些特征区分专家样本与采样样本. 策略组与鉴别器在互相博弈中逐渐优化,最终收敛. 另外,在MCS-GAIL方法中,不同模态的策略采集的样本各不相同,这是由于编码器构建的余弦项对策略组的约束. 综上所述,MCS-GAIL方法进行极小极大博弈的公式为\begin{aligned} & \mathop {\min }\limits_{{\pi _{1:k}}} \mathop {\max }\limits_D {L_{{\text{MCS-GAIL}}}}({\pi _{1:k}},D) = {\mathbb{E}_{(s,a) \sim {p_{\text{e}}}}}[\log (D(s,a)] + \\ &\frac{1}{k}\displaystyle\sum_{i = 1}^k {{\mathbb{E}_{(s,a) \sim {\pi _i}(a|s)}}[\log (1 - D(s,a))]} + \\ &\displaystyle\sum_{i = 1}^k {\displaystyle\sum_{j = 1,i \ne j}^k {\lambda {\mathbb{E}_{({s_{\text{e}}},{a_{\text{e}}}) \sim {p_{{{\text{e}}_i}}},({s_\pi },{a_\pi }) \sim {\pi _j}(a|s)}}} } [|\cos (E({s_{\text{e}}},{a_{\text{e}}}),E({s_\pi },{a_\pi }))|] - \\ & \displaystyle\sum_{i = 1}^k {\mu {\mathbb{E}_{({s_{\text{e}}},{a_{\text{e}}}) \sim {p_{{{\text{e}}_i}}},({s_\pi },{a_\pi }) \sim {\pi _i}(a|s)}}} [\cos (E({s_{\text{e}}}{\text{,}}{a_{\text{e}}}),E({s_\pi },{a_\pi }))]. \end{aligned} (5) 其中,
k 表示策略组中不同模态策略的数量,\lambda 和\mu 为余弦相似度关系的系数;E 表示编码器,用于提取k 个模态策略采集样本的特征向量;\pi (a|s) 表示智能体位于状态为s 时,根据策略\pi 选择的动作为a ;\pi{i(a|s)} 和\pi{j(a|s)} 分别表示模态i和模态j选择动作的策略;{p_{\text{e}i}} 表示模态i专家样本的分布.在MCS-GAIL的强化学习过程中,策略组以余弦项作为约束,学习对应模态的专家策略,使鉴别器难以区分采样样本与专家样本. 在MCS-GAIL的逆向强化学习过程中,通过提升鉴别器
D(s,{\pi _{1:k}}(a|s)) 的分类能力,使鉴别器可以最大限度地将正确标签分配给采样样本和专家样本. MCS-GAIL优化鉴别器D 与策略{\pi _{1:k}} 的公式分别为\begin{aligned} &\mathop {\max }\limits_D {L_{{\text{MCS - GAIL}}}}({\pi _{1:k}},D) = {\mathbb{E}_{(s,a) \sim {p_{\text{e}}}}}[\log (D(s,a))] + \\ &\frac{1}{k}\sum\limits_{i = 1}^k {{\mathbb{E}_{(s,a) \sim {\pi _i}(a|s)}}[\log (1 - D(s,a))]} , \\ &\mathop {\min }\limits_{{\pi _{1:k}}} {L_{{\text{MCS - GAIL}}}}({\pi _{1:k}},D) = \frac{1}{k}\sum\limits_{i = 1}^k {{\mathbb{E}_{(s,a) \sim {\pi _i}(a|s)}}[\log (1 - D(s,a))]} + \\ &\sum\limits_{i = 1}^k {\sum\limits_{j = 1,i \ne j}^k {\lambda {\mathbb{E}_{({s_{{\text{e}},}}{a_{\text{e}}}) \sim {p_{{{\text{e}}_i}}},({s_\pi },{a_\pi }) \sim {\pi _j}(a|s)}}} } [{\text{|}}\cos {\text{(}}E({s_{\text{e}}},{a_{\text{e}}}),E({s_\pi },{a_\pi }))|] - \\ &\sum\limits_{i = 1}^k {\mu {\mathbb{E}_{({s_{\text{e}}},{a_{\text{e}}}) \sim {p_{{e_i}}},({s_\pi },{a_\pi }) \sim {\pi _i}(a|s)}}} [\cos (E({s_{\text{e}}},{a_{\text{e}}}),E({s_\pi },{a_\pi }))]. \end{aligned} (6) 在MCS-GAIL中,策略组在余弦项的约束下,与鉴别器进行极小极大博弈,最终达到纳什均衡. 此时
{p_{{\pi _i}}} 与{p_{{{\text{e}}_i}}} 基本重叠. 当策略{\pi _i} 的样本分布与{p_{{{\text{e}}_i}}} 完全重叠时,鉴别器也会收敛到最优值{D^*}(s,a) ,即鉴别器D 将会在{p_{\text{e}}} = ({p_{{\pi _1}}} + {p_{{\pi _2}}} + … + {p_{{\pi _k}}})/k 处取得最优值. 为了简化推导过程,本文后续部分将{p_{{\pi _1}}} + {p_{{\pi _2}}} + … + {p_{{\pi _k}}} 记为{p_\pi } .引理 1. 对于策略
{\pi _{1:k}} ,最优鉴别器{D^*}(s,a) 为{D^*}(s,a) = \frac{{{p_{\text{e}}}}}{{{p_{\text{e}}} + {{{p_\pi }} \mathord{\left/ {\vphantom {{{p_\pi }} k}} \right. } k}}}. (7) 证明. 在给定策略组
{\pi _1},{\pi _2}, …,{\pi _k} 联合构成分布的情况下,通过最大化MCS-GAIL的目标函数,对鉴别器D进行更新. MCS-GAIL目标函数为\begin{aligned} & {L_{{\text{MCS - GAIL}}}}({\pi _{1:k}},D) = \int\limits_{(s,a) \sim {p_{\text{e}}}} {{p_{\text{e}}}\log (D(s,a)){\text{d}}(s,a)} + \\ & \frac{1}{k}\left( {\int\limits_{(s,a) \sim {p_{{\pi _1}}}} {{p_\pi }\log (1 - D(s,a)){\text{d}}(s,a)} } \right. + \\ & \int\limits_{(s,a) \sim {p_{{\pi _2}}}} {{p_\pi }\log (1 - D(s,a)){\text{d}}(s,a)} + … + \\& \left. {\int\limits_{(s,a) \sim {p_{{\pi _k}}}} {{p_\pi }\log (1 - D(s,a)){\text{d}}(s,a)} } \right) = \\ & \int\limits_{(s,a)} {\left( {\left( {{p_{\text{e}}}\log (D(s,a} \right. ))} \right. } + \frac{1}{k}\left( {{p_{{\pi _1}}}\log (1 - D(s,a))} \right. +\\& {p_{{\pi _2}}}\log (1 - D(s,a)) + … + \left. {\left. {{p_{{\pi _k}}}\log (1 - D(s,a))} \right)} \right){\text{d}}(s,a) = \\ & \int\limits_{(s,a)} {\left( {{p_{\text{e}}}\log (D(s,a)) + } \right. } \dfrac{{p_\pi }}{k}\times \left. {\log (1 - D(s,a))} \right){\text{d}}(s,a). \end{aligned} (8) 计算鉴别器函数关于
(s,a) 的偏导数,并令该项为0,整理得到\frac{{{p_{\text{e}}}}}{{D(s,a)}} = \frac{1}{k} \times \frac{{{p_\pi }}}{{1 - D(s,a)}}. (9) 进一步整理,目标函数
{L_{{\text{MCS - GAIL}}}}({\pi _{1:k}},D) 在点{D^*}(s,a) = {p_{\text{e}}}/({p_{\text{e}}} + {p_\pi }/k) 处取得最优值{D^*}(s,a) = 1/2 ,此时{p_{\text{e}}} = {p_\pi }/k .证毕.结合引理1,将式(7)代入式(5),得到
\begin{aligned} &\mathop {\min }\limits_{{\pi _{1:k}}} \mathop {\max }\limits_D L({\pi _{1:k}},D) = {\mathbb{E}_{(s,a) \sim {p_{\text{e}}}}}[\log ({D^*}(s,a))] + \\ &\quad\quad\frac{1}{k}\sum\limits_{i = 1}^k {{\mathbb{E}_{(s,a) \sim {\pi _i}(a|s)}}[\log } {\text{(}}1 - {D^*}(s,a))] + \\ &\quad\quad\sum\limits_{i = 1}^k {\sum\limits_{j = 1,i \ne j}^k {\lambda {\mathbb{E}_{({s_{\text{e}}},{a_{\text{e}}}) \sim {p_{{{\text{e}}_i}}},({s_\pi },{a_\pi }) \sim {\pi _j}(a|s)}}} } [{\text{cos}}(E({s_{\text{e}}},{a_{\text{e}}}),\\ &\quad\quad E({s_\pi },{a_\pi })){\text{]}} - \sum\limits_{i = 1}^k {\mu {\mathbb{E}_{({s_{\text{e}}},{a_{\text{e}}}) \sim {p_{{{\text{e}}_i}}},({s_\pi },{a_\pi }) \sim {\pi _i}(a|s)}}} [\cos (E({s_{\text{e}}},{a_{\text{e}}}), \\ &\quad\quad E({s_\pi },{a_\pi }))]. \end{aligned} (10) 当鉴别器为最优值时,策略损失中的余弦项取得最小值,将式(10)中后2项,即余弦项记作
\delta . 并将式(10)进一步整理得到式(11):\begin{aligned} &\mathop {\min }\limits_{{\pi _{1:k}}} \mathop {\max }\limits_D {L_{{\text{MCS - GAIL}}}}({\pi _{1:k}},D) ={\mathbb{E}_{(s,a) \sim {p_{\text{e}}}}}[\log ({D^*}(s,a))] + \\ & \frac{1}{k}\sum\limits_{i = 1}^k {{\mathbb{E}_{({s_\pi },{a_\pi }) \sim {\pi _i}(a|s)}}}[\log \left(1 - {D^*}\left({s_\pi },{a_\pi }\right)\right)] + \delta = \\ & {\mathbb{E}_{{p_{\text{e}}}}}\log \left(\frac{{{p_{\text{e}}}}}{{{p_{\text{e}}} + {p_{\pi}' }}}\right) +\frac{1}{k}{\mathbb{E}_{{p_{{\pi _i}}}}}\log \left(\frac{{{p_{\pi}' }}}{{{p_{\text{e}}} + {p_{\pi}' }}}\right) + \delta = \\ & \int {{p_{\text{e}}}\log \left(\frac{{{p_{\text{e}}}}}{{{p_{\text{e}}} + {p_{\pi}' }}}\right){\text{d}}(s,a)} + \\ & \frac{1}{k} \times \sum\limits_{i = 1}^k {\int {{p_{{\pi _i}}}\log \left(\frac{{{p_{\pi}' }}}{{{p_{\text{e}}} + {p_{\pi}' }}}\right)} } {\text{d}}(s,a) + \delta = \\ &\int {{p_{\text{e}}}\log \left(\frac{{{p_{\text{e}}}}}{{{p_{\text{e}}} + {p_{\pi}' }}}\right) + } \frac{1}{k}\sum\limits_{i = 1}^k {{p_{{\pi _i}}}\log \left(\frac{{{p_{\pi}' }}}{{{p_{\text{e}}} + {p_{\pi}' }}}\right)} {\text{d}}(s,a) + \delta = \\ & \int {{p_{\text{e}}}\log \left(\frac{{{p_{\text{e}}}}}{{{p_{\text{e}}} + {p_{\pi}' }}}\right) + } {p_{\pi}' }\log \left(\frac{{{p_{\pi}' }}}{{{p_{\text{e}}} + {p_{\pi}' }}}\right){\text{d}}(s,a) + \delta = \\ &\int {{p_{\text{e}}}\log \left(\frac{{{p_{\text{e}}}}}{{{{({p_{\text{e}}} + {p_{\pi}' })} \mathord{\left/ {\vphantom {{({p_{\text{e}}} + {p_{\pi}' })} 2}} \right. } 2}}}\right)} + {p_{\pi}' }\int {{p_{\text{e}}}\log \left(\frac{{{p_{\pi}' }}}{{{{({p_{\text{e}}} + {{p}_\pi' })} \mathord{\left/ {\vphantom {{({p_{\text{e}}} + {p_{\pi}' })} 2}} \right. } 2}}}\right)} {\text{d}}(s,a) - \\ & 2\log 2 + \delta \approx - 2\log 2 + 2{f_{{\text{JS}}}}({p_{\text{e}}}||{p_{\pi}' }) + \delta , \end{aligned} (11) 其中
{f_{{\text{JS}}}} 表示JS散度,{p'_\pi } 表示策略组的联合分布{p_\pi }/k . 从式(11)可知,MCS-GAIL的目标函数主要由2部分构成:1)策略组的联合样本分布与专家样本分布间的JS散度;2)专家样本特征向量与采样样本特征向量间余弦关系的约束项.定理1. 当且仅当每个模态策略的样本分布与对应模态的专家样本分布重合时,MCS-GAIL的目标函数取得的最优值
{L^*}_{{\text{MCS - GAIL}}}({\pi _{1:k}},D) = - 2\log 2 + \delta .证明. 由引理1可知,当策略组的分布与专家样本分布相等时,即
{p_{\text{e}}} = {p_\pi }/k ,鉴别器的目标函数取得的最优值{D^*}(s,a) = 1/2 . 由JS散度的数学性质可知,式(11)中,专家样本分布与策略采集的样本分布之间的JS散度是非负的. 而且当策略组的分布满足{p_{\text{e}}} = {p_\pi } /k 时,JS散度达到最小值0;当策略组样本分布逐渐趋近于专家样本的分布,满足引理1时,JS散度达到最小值,余弦项也到达最小值. 此时MCS-GAIL的目标函数取得的最优值{L^*}_{{\text{MCS - GAIL}}}({\pi _{1:k}},D) = - 2\log 2 + \delta .证毕.
另外,在基于单模态设定的GAIL中,当初始策略的样本分布与专家样本分布完全没有重叠或重叠部分可以忽略不计时,策略的样本分布与专家样本分布之间的JS散度是一个常数. 此时,出现梯度消失问题,策略模型难以更新. 而在MCS-GAIL中,即使初始的策略组的样本分布与专家样本分布完全没有重叠,MCS-GAIL仍然可以学习到最优策略. 假设在某个时刻策略组样本分布与专家样本分布完全没有重叠,2个分布的JS散度值为
2\log 2 . 在这种情况下,虽然难以通过策略组的损失项更新策略组,但仍然可以通过余弦项更新策略组. 因此,在MCS-GAIL的策略更新过程中不会出现梯度消失问题.算法2. MCS-GAIL算法.
输入:策略组
{\pi _i} 、鉴别器D 、价值网络Q 、编码器、设置训练时的采样数量为m 、专家样本状态-动作对;输出:策略组
{\pi _{{\theta _i}}} ;① 初始化策略组
{\pi _{{\theta _i}}} 和价值网络Q ;② 初始化编码器
E ;/*加载预训练后编码器的参 数{\varphi _{{\text{end}}}} */③ for
i in update_num /*update_num为更新策略 组的迭代次数*/④ 从不同模态专家样本中采样;
⑤ 不同模态策略与环境交互采样;
⑥ 根据损失函数
los{s_\omega } 更新鉴别器{D_\omega } ;los{s_\omega } = \log ({D_\omega }({s_{\text{e}}},{a_{\text{e}}})) + \log (1 - {D_\omega }({s_\pi },{a_\pi })) ;⑦ 计算根据余弦关系计算余弦项
\delta :\begin{gathered} \delta = \displaystyle\sum_{i = 1}^k {\displaystyle\sum_{j = 1,i \ne j}^k {\lambda {\mathbb{E}_{({s_{\text{e}}},{a_{\text{e}}}) \sim {p_{{{\text{e}}_i}}},({s_\pi },{a_\pi }) \sim {\pi _j}(a|s)}}} } [{\text{|}}\cos (E({s_{\text{e}}},\\ {a_{\text{e}}}),E({s_\pi },{a_\pi }))|] - \\ \displaystyle\sum_{i = 1}^k {\mu {\mathbb{E}_{({s_{\text{e}}},{a_{\text{e}}}) \sim {p_{{{\text{e}}_i}}},({s_\pi },{a_\pi }) \sim {\pi _i}(a|s)}}} [\cos (E({s_{\text{e}}}{\text{,}} \\ {a_{\text{e}}}),E({s_\pi },{a_\pi }))]; \end{gathered} ⑧ 根据损失函数
los{s_\theta } 更新策略组{\pi _{{\theta _i}}} :los{s_{{\theta _i}}} = \delta {\text{ + }}{1 \mathord{\left/ {\vphantom {1 k}} \right. } k}\sum_{i = 1}^k {{\mathbb{E}_{(s,a)\sim{\pi _{{\theta _i}}}}}} [\log {\pi _{{\theta _i}}}(a|s) A(s,a)] ;/*其中A(s,a) 为奖赏函数r = - \log (1 - {D_\omega }(s,a)) 所计算的优势函数*/⑨ end for
如式(10)(11)所示,MCS-GAIL方法仍然是一个极小极大博弈问题,其目标函数
L({\pi _{1:k}},D) 是一个凸函数. 根据Sion极小极大定理[23],凸函数的最大值一定包含在其上确界的次导数中,即如果任意\alpha ,{f_\alpha }(x) 对于x 都是凸函数,并有f(x) = \mathop{ \sup \limits_{\alpha \in {\mathcal{A}}}}{f_\alpha }(x) ,则\partial {f_\beta }(x) \in \partial f, \beta = \mathop{\arg {\rm{sup}}}\limits _{\alpha \in {\mathcal{A}}}{f_\alpha }(x) . 设{p_{\text{e}}} 和p{'_\pi } 是2个线性拓扑空间的非空凸紧子集,有\mathop {\min }\limits_{{\pi _{1:k}}} \mathop {\max }\limits_D L({\pi _{1:k}},D) \geqslant \mathop {\max }\limits_D \mathop {\min }\limits_{{\pi _{1:k}}} L({\pi _{1:k}},D) . 在给定最优鉴别器D 和1组策略组的情况下,对策略组进行梯度下降,更新当前的策略组,优化当前策略分布{p_{{\pi _{1:k}}}} . 在优化过程中\mathop {\sup\limits _D}L({\pi _{1:k}},D) 是凸的,具有唯一的全局最优,因此{p_{{\pi _{1:k}}}} 在足够小的更新下可以收敛到{p_{\text{e}}} .3. 实 验
本节主要介绍MCS-GAIL的实验部分. 为了更全面地比较各个模式塌缩方法的性能,MCS-GAIL既选取了较为简单的离散状态-动作空间的格子世界任务作为实验环境,又选取了较为复杂的连续状态-动作空间的MuJoCo[24]平台作为实验环境.
MCS-GAIL基于已知模态标签的设定进行模式塌缩问题的研究,选取2种已知模态标签的多模态模仿学习方法与MCS-GAIL进行对比.
3.1 格子世界环境
3.1.1 实验环境
如图3所示,MCS-GAIL使用状态空间为
7 \times 7 的格子世界环境,格子世界的状态数值范围为从左下角开始向右依次递增,分别为\{0,1,…,48\} ,动作空间为{上,下,左,右}. 图3中的圆形为智能体;白色格子为智能体可到达的状态;黑色格子为智能体不可到达的状态,即放置了障碍物.智能体从左上角格子出发,到达右下角五角星格子时,视为完成任务,当前情节结束. 若智能体与障碍物碰撞,则会停留在原地,并获得负奖赏. 在这种设定下,智能体应该尽量避免与障碍物发生碰撞,并以尽可能短的路径到达终点.
3.1.2 专家数据
由于格子世界任务较为简单,故使用经典的强化学习方法Q-Learning训练专家策略,并使用专家策略采集专家样本. 在格子世界的模式塌缩问题中,不同模态策略完成任务的轨迹各不相同. 在此次实验中,设置6种不同模态的专家策略,6种策略完成任务的路径各不相同.
专家样本中不同模态策略的状态轨迹如图4所示. 其中黑色格子为障碍物,箭头表示采样轨迹中智能体移动的轨迹.
3.1.3 实验结果
在格子世界任务中,各个方法均使用深度神经网络对鉴别器进行建模,鉴别器均包含一层全连接层和一层输出层. 全连接层由32个神经元组成,并使用tanh函数作为激活函数,同时使用RMSprop优化算法更新鉴别器. 由于格子世界环境较为简单,故使用经典的Q-Learning方法学习多模态策略. 其中,价值函数的维度为
6,49,4 ,这3个维度分别表示模态数量、状态维度以及动作维度,并使用\varepsilon {\text{-greedy}} 方式更新价值函数. 在训练结束后,使用策略分别对环境进行采样,评估各个模态方法采集的样本状态轨迹与专家样本状态轨迹之间的差异. 在格子世界环境中设置式(5)中\lambda 和\mu 参数的值均为0.8,另外表1给出了格子世界任务中3个多模态方法的超参数.表 1 格子世界任务中方法的超参数Table 1. Hyperparameters of Methods in Grid World Task参数 取值 Q-Learning中的折扣因子 0.8 Q-Learning中的学习率 0.2 Q-Learning中的探索参数 0.2 鉴别器中的学习率 30000 训练步长 35000 1)GAIL策略的状态轨迹如图5所示,GAIL并没有考虑专家样本的多样性,而是将多模态专家样本学习到单个策略中. 为了更清楚地展示GAIL中的模式塌缩问题,使用6个随机种子对GAIL进行训练. 从图5中可以看出,GAIL虽然可以完成格子世界任务,但进行6次模型训练后,仅仅从6种模态专家样本中学习到3种模态的专家策略和1种混合专家路径的策略. 综上所述,在1次训练中,GAIL没有考虑专家样本中的多模态特性,只能学习到1个模态的专家策略或1个混合专家路径的策略;在6倍于模式塌缩模仿学习方法训练量的情况下,GAIL的策略也难以覆盖全部的模态策略.
2)CGAIL策略采样的状态轨迹如图6所示,CGAIL将模态标签加入策略中,学习多种模态的专家策略. 从图6中可以看出,CGAIL可以学习到大部分模态的专家策略. 但与专家状态轨迹相比,CGAIL并没有学习到所有模态的专家策略. CGAIL中5个模态的策略采样状态轨迹与图4中专家的状态轨迹相同. 而模态4的策略采样的状态轨迹为混合专家状态轨迹. 由此可见,CGAIL在解决具有多模态的模仿学习问题中仍有缺陷.
3)图7为ACGAIL的策略采样状态轨迹,ACGAIL虽然在CGAIL的基础上增加了辅助分类器,将专家样本的模态特征加入模型训练,但是ACGAIL的策略与鉴别器共享参数,导致在训练过程中神经网络的更新会相互影响. 与CGAIL相比,ACGAIL虽然也只学习到5种模态的专家策略,但是ACGAIL学习到的重复的策略状态轨迹与专家模态6的轨迹相同.
4)MCS-GAIL在格子世界中的策略采样状态轨迹如图8所示,MCS-GAIL将各个模态特征向量间的余弦相似度关系加入模型训练后,各个模态策略的状态轨迹与专家的状态轨迹完全一致. 由此可见,与其他3种方法相比,MCS-GAIL可以准确学习到所有模态的专家策略,很好地完成多模态模仿学习任务.
3.2 MuJoCo环境
Gym是人工智能公司OpenAI针对强化学习方法开发的仿真平台,涵盖了丰富的实验环境,例如经典控制游戏、Box2D环境、Atari游戏环境以及MuJoCo环境等.
3.2.1 实验环境
为了探究多模态模仿学习方法在复杂连续状态-动作空间环境中的性能,使用MuJoCo环境中的3个环境区分机器人速度的任务(Hopper-v2, HalfCheetah-v2, Walker2d-v2). 这3个实验环境的状态空间和动作空间均为连续空间,其具体介绍如表2所示.
表 2 MuJoCo实验环境介绍Table 2. Introduction for MuJoCo Experimental Environment环境 状态维度 动作维度 实验任务 Hopper-v2 11 3 单足跳跃机器人 Walker2d-v2 17 6 双足行走机器人 HalfCheetah-v2 16 6 双足跳跃机器人 CGAIL,ACGAIL,MCS-GAIL在MuJoCo环境训练过程中,对各个模态策略进行若干个情节的评估,得到平均每情节回报,简称平均回报. 在训练结束后,将GAIL加入评估,比较在MuJoCo环境中4种方法的回报误差率[25].
3.2.2 专家样本数据集
在MuJoCo环境中,使用柔性行动者-评论家 (soft actor-critic, SAC)算法训练专家策略[26]. 为了区分不同模态,在每个实验环境下均训练2个不同速度的专家策略,并使用训练后的专家策略对环境进行采样,得到专家样本数据集. 每个数据集包含1500个状态-动作对序列,每个序列包含1000个状态-动作对.
在MuJoCo环境中,智能体的速度与平均回报的大小成正比. 速度较快的状态-动作对与速度较慢的状态-动作对相比,具有较大的奖赏,所以在进行模型评估时,速度较快的专家策略的平均回报也比速度较慢的专家策略的大. 因此,可以将策略的平均回报作为模态的区分准则. 在MuJoCo各个环境的数据集中,不同模态专家样本的平均回报如表3所示.
表 3 MuJoCo专家样本中不同模态的平均回报Table 3. Average Returns for Different Modals in the MuJoCo Expert Demonstrations环境 速度快的模态专家
样本的平均回报速度慢的模态专家
样本的平均回报Hopper-v2 3231 1036 Walker2d-v2 2243 924 HalfCheetah-v2 6304 3388 3.2.3 评价标准
在模仿学习方法中,一般通过比较专家策略平均回报与模仿学习方法策略平均回报之间的差异,衡量方法的性能. 为了准确衡量不同方法的性能,首先计算策略与专家策略之间期望回报的误差,然后将该误差与专家策略期望回报之间的比率作为评价标准,称为回报误差率. 回报误差率公式为
\eta =\sum\limits_{c = 1}^k {p(c)\frac{{\left| {{{\overline r }_\pi }(c) - {{\overline r }_{\text{e}}}(c)} \right|}}{{{{\overline r }_{\text{e}}}(c)}}} , (12) 其中
k 为模态的数量,{\overline r _\pi }(c) 表示模态标签为c 的策略评估的平均回报,{\overline r _{\text{e}}}(c) 表示模态c 的专家样本的平均回报,p(c) 表示模态c 出现的概率分布.3.2.4 实验结果
在策略的训练过程中,每次强化学习迭代后,将策略进行10次评估的平均回报作为当前策略的回报. 另外,在评价最终模型的回报误差率时,将GAIL加入对比,评估GAIL中的模态丢失情况.
在MuJoCo实验中,各个方法均使用深度神经网络对策略、鉴别器以及编码器进行建模. 鉴别器、策略以及编码器均使用3层全连接层和1层输出层,全连接层由100个神经元组成,并使用tanh函数作为激活函数,同时使用RMSprop优化算法更新策略模型,但是在更新编码器和鉴别器时使用Adam优化算法;在强化学习过程中策略的更新均使用信赖域策略优化[27](trust region policy optimization, TRPO)算法. MuJoCo环境中设置式(5)中
\lambda 和\mu 参数的值均为0.8,另外表4给出了MuJoCo任务中3个多模态方法的超参数.表 4 MuJoCo任务中方法的超参数Table 4. Hyperparameters of Methods in MuJoCo Task参数 取值 策略中的折扣因子\gamma 0.995 策略中的学习率 30000 编码器中的学习率 30000 鉴别器中的学习率 30000 图9给出了MCS-GAIL与其他基线模型在3个MuJoCo实验环境训练过程中所获得的平均回报. 其中实线表示在迭代过程中评估的平均回报,虚线表示专家样本的平均回报. 为了区分不同的模态,使用不同颜色表示不同模态策略的平均回报. 图9(a)~(c)为MCS-GAIL在训练过程中的平均回报,图9(d)~(f)为CGAIL在训练过程中的平均回报,图9(g)~(i)为ACGAIL在训练过程中的平均回报.
根据图9可以看出MCS-GAIL在多模态任务中的表现明显优于CGAIL和ACGAIL,具体分析有4点.
1)MCS-GAIL中2个模态策略的分离程度远远大于基线方法,MCS-GAIL中2个模态策略的平均回报分离程度明显超越了CGAIL和ACGAIL. 这是因为余弦项对不同模态策略的约束,提高了不同模态策略的区分程度,避免策略学习其他模态的专家样本信息.
2)由于余弦项对同模态专家样本与当前采样样本的约束,在策略组的迭代过程中,MCS-GAIL策略朝着对应模态专家策略的方向更新,增加了MCS-GAIL策略与对应专家模态策略的近似程度. 从图9中可以看出,MCS-GAIL的策略与同模态专家策略的平均回报的趋近程度远远优于其余2种方法.
3)在训练过程中,3种方法平均回报的值都存在一定的波动,但是MCS-GAIL的波动相对较小. 平均回报产生波动的原因有2个方面:1)强化学习训练过程中,策略参数的更新,即使策略参数变化很小,也会导致整个情节的状态-动作对产生很大的改变. 2)生成对抗框架的不稳定性,这是由于训练最优鉴别器与最小化策略之间相互矛盾所致[28]. MCS-GAIL在余弦项的约束下,大大减小了在训练过程中平均回报的波动程度.
4)在强化学习过程中,随机种子不同的情况下,MCS-GAIL策略的方差远小于其余2种方法. 可见,相比于其他2种方法,MCS-GAIL具有更好的鲁棒性.
综上所述,在MuJoCo实验平台下,MCS-GAIL在训练过程中更加平稳、高效,充分表明了该方法在解决多模态模仿学习问题过程中的优越性.
图10展示了在HalfCheetah-v2环境的训练过程中,MCS-GAIL采样样本与专家样本特征向量间的余弦损失. 从图10(a)可以看出,MCS-GAIL采样样本与同模态专家样本特征间的余弦损失随着迭代次数的增加而增大. 当同模态策略越接近时,采样样本特征间向量的余弦损失越大. 从图10(b)中可以看出MCS-GAIL的样本与不同模态专家样本间的特征值随着迭代次数的增加而减小. 当不同模态策略分离程度越大时,采样样本间特征向量的余弦损失越小. 综上所述,特征向量间的余弦损失可以准确地反映模态间关系,并以此为依据训练策略,使其更为接近专家策略.
在MCS-GAIL的训练初期,各个模态策略的样本分布与对应模态的专家样本分布相距较远,余弦项也不符合预期. 在训练中期,利用式(11)的最终结果作为损失函数对策略组进行梯度下降,策略损失随着神经的更新而减小,同时余弦损失也在减小. 在训练末期,各个模态策略的样本分布接近对应模态专家样本的分布,余弦项的值也逐渐接近最小值. 在训练结束时,各个模态策略的样本分布与对应模态的专家样本分布完全重合,余弦项也取得最小值.
图11展示了在HalfCheetah-v2训练过程中,鉴别器对采样样本和专家样本的分类正确率. 从图11可以看出,在训练的开始阶段,鉴别器判别样本的正确率会急剧上升到1. 0附近. 这是由于在训练的开始阶段,MCS-GAIL的采样样本与专家样本差距较大,两者样本特征的差距同样很大,鉴别器很容易区分专家样本和MCS-GAIL的样本. 随着训练次数的逐渐增加,MCS-GAIL策略逐渐逼近专家策略. 此时MCS-GAIL的样本分布与专家样本分布的重合程度越来越高,鉴别器难以区分样本是来自于MCS-GAIL还是专家样本. 在训练的最后阶段,鉴别器已经完全无法区分样本是否为专家样本,即可以认为该策略的决策与专家行为一致.
为了更全面地对多模态模仿学习方法进行比较,3个多模态方法的时间成本如表5所示. 表5中数据的单位为每运行10000个时间步所花费的秒数. 从表5中可知,由于CGAIL仅仅使用模态标签对学习多模态数据进行指导,故其在3个MuJoCo环境中的时间成本均为最小. 而ACGAIL在CGAIL的基础上增加了辅助分类器提取模态特征,因此时间成本有所增加. MCS-GAIL相对ACGAIL来说不仅增加了组件提取模态特征,而且增加了模态特征余弦关系的运算. 因此与ACGAIL相比,MCS-GAIL在3个MuJoCo环境中的时间成本有略微地提高. 但MCS-GAIL更侧重于提高多模态模仿学习方法的准确性,以微小的时间成本换取学习多模态专家策略的精度,这表明了MCS-GAIL具有较高的应用价值.
表 5 多模态方法的时间成本Table 5. Time Cost of Multi-Modal Methodss 环境 CGAIL ACGAIL MCS-GAIL Hopper-v2 41.53 53.82 54.30 HalfCheetah-v2 45.24 59.64 60.78 Walker2d-v2 41.28 46.64 47.04 各种方法均使用5个随机种子对MuJoCo环境中的3个任务进行采样,不同多模态模仿学习方法的回报误差率如表6所示. 从表6中可以看出,在3个环境中,GAIL在多模态生成对抗模仿学习任务中只能学习到单一模态的策略,导致训练完成后策略的回报误差率比较高;而CGAIL和ACGAIL利用专家样本模态信息优化策略,从而大大降低了回报误差率;MCS-GAIL不仅利用模态信息优化策略,而且在策略的损失函数中加入余弦项,进一步缩小学习策略与专家策略间的差距,提高了学习策略与专家策略的拟合程度. 从表6可以看出,MCS-GAIL的回报误差率远小于其他3种方法,表明了MCS-GAIL方法可以很好地解决模仿学习中的模态塌缩问题,准确地学习到专家策略.
表 6 MuJoCo环境下不同方法的回报误差率Table 6. Return Error Rates of Different Methods in MuJoCo Environment% 方法 环境 Hopper-v2 Walker2d-v2 HalfCheetah-v2 GAIL 57.47 75.75 8.77 CGAIL 19.42 26.66 11.49 ACGAIL 10.64 38.01 12.46 MCS-GAIL 1.53 1.83 2.41 4. 结 论
本文提出了用于解决模式塌缩问题的多模态模仿学习方法MCS-GAIL. MCS-GAIL首先在编码器提取专家样本特征向量的同时,对编码器进行预训练;然后将依据余弦关系构建的余弦项加入强化学习的策略损失中,更新策略组. 现有的大部分多模态模仿学习方法仅使用模态标签,或者利用模态特征学习专家策略,而没有衡量所学策略与专家策略间的样本分布的趋近程度. 与现有多模态对抗模仿学习方法相比,MCS-GAIL在使用模态标签和模态特征的基础上,使用余弦相似度衡量策略与专家策略间样本分布的关系. 策略组在余弦项的约束下模仿专家样本学习专家策略,使策略组可以更准确地学习专家策略. 另外,通过理论分析证明了,在假设条件成立的情况下,MCS-GAIL的收敛性.
在实验方面,MCS-GAIL使用离散状态-动作空间的格子世界环境和连续状态-动作空间的MuJoCo平台对现有多模态模仿学习方法的性能进行评估. 实验结果表明:在格子世界问题中,与现有模式塌缩问题的方法相比,MCS-GAIL可以准确地学习到多个模态的专家策略. 在MuJoCo环境训练过程中,随着迭代次数的增加,相同模态采样样本的特征向量间的余弦值越来越大,不同模态采样样本的特征向量间的余弦值越来越小. 这表明随着迭代次数的增加,训练的策略越来越接近相同模态的专家策略,而远离不同模态的专家策略. 在MuJoCo平台上对4种多模态模仿学习方法的回报误差率进行比较,MCS-GAIL的回报误差率远远低于其他方法,充分证明了所提方法的可行性、稳定性以及优越性.
作者贡献声明:郝少璞提出整体研究思路、撰写与修改论文;刘全负责论文结构设计指导;徐平安负责方法的整理与部分章节内容的修订;张立华负责部分章节的内容设计和修订;黄志刚负责文章的格式修改、插图设计.
-
表 1 格子世界任务中方法的超参数
Table 1 Hyperparameters of Methods in Grid World Task
参数 取值 Q-Learning中的折扣因子 0.8 Q-Learning中的学习率 0.2 Q-Learning中的探索参数 0.2 鉴别器中的学习率 30000 训练步长 35000 表 2 MuJoCo实验环境介绍
Table 2 Introduction for MuJoCo Experimental Environment
环境 状态维度 动作维度 实验任务 Hopper-v2 11 3 单足跳跃机器人 Walker2d-v2 17 6 双足行走机器人 HalfCheetah-v2 16 6 双足跳跃机器人 表 3 MuJoCo专家样本中不同模态的平均回报
Table 3 Average Returns for Different Modals in the MuJoCo Expert Demonstrations
环境 速度快的模态专家
样本的平均回报速度慢的模态专家
样本的平均回报Hopper-v2 3231 1036 Walker2d-v2 2243 924 HalfCheetah-v2 6304 3388 表 4 MuJoCo任务中方法的超参数
Table 4 Hyperparameters of Methods in MuJoCo Task
参数 取值 策略中的折扣因子\gamma 0.995 策略中的学习率 30000 编码器中的学习率 30000 鉴别器中的学习率 30000 表 5 多模态方法的时间成本
Table 5 Time Cost of Multi-Modal Methods
s 环境 CGAIL ACGAIL MCS-GAIL Hopper-v2 41.53 53.82 54.30 HalfCheetah-v2 45.24 59.64 60.78 Walker2d-v2 41.28 46.64 47.04 表 6 MuJoCo环境下不同方法的回报误差率
Table 6 Return Error Rates of Different Methods in MuJoCo Environment
% 方法 环境 Hopper-v2 Walker2d-v2 HalfCheetah-v2 GAIL 57.47 75.75 8.77 CGAIL 19.42 26.66 11.49 ACGAIL 10.64 38.01 12.46 MCS-GAIL 1.53 1.83 2.41 -
[1] Osa T, Pajarinen J, Neumann G, et al. An algorithmic perspective on imitation learning[J]. Foundations and Trends in Robotics, 2018, 7(1/2): 1−179
[2] 张凯峰,俞扬. 基于逆强化学习的示教学习方法综述[J]. 计算机研究与发展,2019,56(2):254−261 doi: 10.7544/issn1000-1239.2019.20170578 Zhang Kaifeng, Yu Yang. Methodologies for imitation learning via inverse reinforcement learning: A review[J]. Journal of Computer Research and Development, 2019, 56(2): 254−261 (in Chinese) doi: 10.7544/issn1000-1239.2019.20170578
[3] Maeda G J, Neumann G, Ewerton M, et al. Probabilistic movement primitives for coordination of multiple human–robot collaborative tasks[J]. Autonomous Robots, 2017, 41(3): 593−612 doi: 10.1007/s10514-016-9556-2
[4] Ng A Y, Russell S. Algorithms for inverse reinforcement learning [C] //Proc of the 17th Int Conf on Machine Learning. San Francisco, CA: Morgan Kaufmann, 2000: 663−670
[5] Arora S, Doshi P. A survey of inverse reinforcement learning: Challenges, methods and progress[J]. Artificial Intelligence, 2021, 297: 103500 doi: 10.1016/j.artint.2021.103500
[6] Ho J, Ermon S. Generative adversarial imitation learning [C] //Advances in Neural Information Processing Systems 29. Cambridge, MA: MIT, 2016: 4565−4573
[7] Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets [C] //Advances in Neural Information Processing Systems 27. Cambridge, MA: MIT, 2014: 2672−2680
[8] 林嘉豪,章宗长,姜冲,等. 基于生成对抗网络的模仿学习综述[J]. 计算机学报,2020,43(2):326−351 doi: 10.11897/SP.J.1016.2020.00326 Lin Jiahao, Zhang Zongzhang, Jiang Chong, et al. A survey of imitation learning based on generative adversarial nets[J]. Chinese Journal of Computers, 2020, 43(2): 326−351 (in Chinese) doi: 10.11897/SP.J.1016.2020.00326
[9] Zhang Xin, Li Yanhua, Zhang Ziming, et al. f-gail: Learning f-divergence for generative adversarial imitation learning [C] //Advances in Neural Information Processing Systems 33. Cambridge, MA: MIT, 2020: 12805−12815
[10] Zhang Ming, Wang Yawei, Ma Xiaoteng, et al. Wasserstein distance guided adversarial imitation learning with reward shape exploration [C] //Proc of the 9th IEEE Data Driven Control and Learning Systems Conf. Piscataway, NJ: IEEE, 2020: 1165−1170
[11] Liu Yuchen, Shu Zhixin, Li Yijun, et al. Content-aware GAN compression [C] //Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2021: 12156−12166
[12] Armandpour M, Sadeghian A, Li Chunyuan, et al. Partition-guided gans [C] //Proc of the IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2021: 5099−5109
[13] Li Wei, Fan Li, Wang Zhenyu, et al. Tackling mode collapse in multi-generator GANs with orthogonal vectors[J]. Pattern Recognition, 2021, 110: 107646 doi: 10.1016/j.patcog.2020.107646
[14] Merel J, Tassa Y, Tb D, et al. Learning human behaviors from motion capture by adversarial imitation [J]. arXiv preprint, arXiv: 1707.02201, 2017
[15] Lin Jiahao, Zhang Zongzhang. Acgail: Imitation learning about multiple intentions with auxiliary classifier gans [C] //Proc of the 15th Pacific Rim Int Conf on Artificial Intelligence. Berlin: Springer, 2018: 321−334
[16] Li Yunzhu, Song Jiaming, Ermon S. Infogail: Interpretable imitation learning from visual demonstrations [C] //Advances in Neural Information Processing Systems 30. Cambridge, MA: MIT, 2017: 3812−3822
[17] Wang Ziyu, Merel J S, Reed S E, et al. Robust imitation of diverse behaviors [C] //Advances in Neural Information Processing Systems 30. Cambridge, MA: MIT, 2017: 5320−5329
[18] Larsen A B L, Sønderby S K, Larochelle H, et al. Autoencoding beyond pixels using a learned similarity metric [C] //Proc of the 33rd Int Conf on Machine Learning. New York: ACM, 2016: 1558−1566
[19] Sutton R S, Barto A G. Reinforcement Learning: An Introduction [M]. Cambridge, MA: MIT Press, 2018
[20] 刘全,翟建伟,章宗长,等. 深度强化学习综述[J]. 计算机学报,2018,41(1):1−27 doi: 10.11897/SP.J.1016.2019.00001 Quan Liu, Zhai Jianwei, Zhang Zongzhang, et al. A survey on deep reinforcement learning[J]. Chinese Journal of Computers, 2018, 41(1): 1−27 (in Chinese) doi: 10.11897/SP.J.1016.2019.00001
[21] Schulman J, Moritz P, Levine S, et al. High-dimensional continuous control using generalized advantage estimation [J]. arXiv preprint, arXiv: 1506.02438, 2015
[22] Fei Cong, Wang Bin, Zhuang Yuzheng, et al. Triple-gail: A multi-modal imitation learning framework with generative adversarial nets [C] //Proc of the 29th Int Joint Conf on Artificial Intelligence. San Francisco, CA: Morgan Kaufmann, 2020: 2929−2935
[23] Sion M. On general minimax theorems[J]. Pacific Journal of Mathematics, 1958, 8(1): 171−176 doi: 10.2140/pjm.1958.8.171
[24] Todorov E, Erez T, Tassa Y. MuJoCo: A physics engine for model-based control [C] //Proc of the 2012 IEEE/RSJ Int Conf on Intelligent Robots and Systems. Piscataway, NJ: IEEE, 2012: 5026−5033
[25] Zhu Jjiacheng, Jiang Chong. Tac-gail: A multi-modal imitation learning method [C] //Proc of the 27th Int Conf on Neural Information Processing. Berlin: Springer, 2020: 688−699
[26] Haarnoja T, Zhou A, Abbeel P, et al. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor [C] //Proc of the 35th Int Conf on Machine Learning. New York: ACM, 2018: 1861−1870
[27] Schulman J, Levine S, Abbeel P, et al. Trust region policy optimization [C] //Proc of the 32nd Int Conf on Machine Learning. New York: ACM, 2015: 1889−1897
[28] 谭宏卫,周林勇,王国栋,等. 生成式对抗网络的不稳定性分析及其处理技术[J]. 中国科学:信息科学,2021,51(4):602−617 doi: 10.1360/SSI-2019-0205 Tan Hongwei, Zhou Linyong, Wang Guodong, et al. Instability analysis for generative adversarial networks and its solving techniques[J]. SCIENTIA SINICA Informationis, 2021, 51(4): 602−617 (in Chinese) doi: 10.1360/SSI-2019-0205
-
期刊类型引用(9)
1. 邢海波,李杰. 基于时频自监督学习的弱标记滚动轴承故障诊断研究. 现代制造工程. 2025(01): 148-155 . 百度学术
2. 段尧清,凌榕. 融合TextRank4ZH与余弦相似度的代表作观点贡献度评价方法研究. 图书情报知识. 2025(01): 124-134+145 . 百度学术
3. 魏泉增,李瑞,尚怡帆,房靖晶. 紫外可见光谱结合人工神经网络识别迷迭香产地. 食品工业. 2024(04): 277-282 . 百度学术
4. 殷晓娟,殷晓露,黄智,常超,段一鑫,曾钦林. 基于雷达图法的卷烟机劈刀盘健康状况评估. 中国新技术新产品. 2024(08): 68-71 . 百度学术
5. 袁建华,谈顺,刘闯. 基于改进灰狼算法优化LSTM的光伏发电功率短期预测. 电力学报. 2024(02): 111-118 . 百度学术
6. 陈思萱,刘莉莉. 基于数据挖掘的中医特色治疗绩效考核指标研究. 现代信息科技. 2024(16): 118-122 . 百度学术
7. 郭天颖,茆晓阳,段齐骏,马迪. 基于知识图谱的地震救援装备智能管理方法. 中国安全科学学报. 2024(07): 239-245 . 百度学术
8. 周瑛,严林志. 双碳背景下新能源汽车政策文本量化评价. 软科学. 2024(07): 127-134+144 . 百度学术
9. 崔铭,龚声蓉. 视觉导向的对抗型模仿学习研究综述. 计算机科学与探索. 2023(09): 2075-2091 . 百度学术
其他类型引用(7)