-
摘要:
Option框架作为分层强化学习的一种常用时序抽象方法,允许智能体在不同的时间尺度上学习策略,可以有效解决稀疏奖励问题. 为了保证Option可以引导智能体访问更多的状态空间,一些方法通过引入基于互信息的内部奖励和终止函数来提升Option内部策略的多样性. 但这会导致算法学习速度慢和内部策略的知识迁移能力低等问题,严重影响了算法性能. 针对以上问题,提出基于兴趣函数优化的多样化Option-Critic算法(diversity-enriched Option-Critic algorithm with interest functions,DEOC-IF). 该算法在多样化Option-Critic算法(diversity-enriched Option-Critic,DEOC)的基础上,通过引入兴趣函数约束上层策略对Option内部策略的选择,既保证了Option集合的多样性,又使得学习到的内部策略可以关注状态空间的不同区域,有利于提高算法的知识迁移能力,加快学习速度. 此外,DEOC-IF算法引入一种新的兴趣函数更新梯度,有利于提高算法的探索能力. 为了验证算法的有效性和知识迁移能力,分别在4房间导航任务、Mujoco和MiniWorld实验环境中,将DEOC-IF算法与其他最新算法进行对比实验. 结果表明,DEOC-IF算法具有更好的性能优势和策略迁移能力.
-
关键词:
- 强化学习 /
- 时序抽象 /
- Option框架 /
- 兴趣函数 /
- Option-Critic算法
Abstract:As a common temporal abstraction method for hierarchical reinforcement learning, Option framework allows agents to learn strategies at different time scales, which can effectively solve sparse reward problems. In order to ensure that options can guide agents to access more state space, some methods improve the diversity of options by introducing mutual information in internal reward and termination functions. However, it will lead to slow algorithm learning speed and low knowledge transfer ability of internal strategy, which seriously affect algorithm performance. To address the above problems, diversity-enriched option-critic algorithm with interest functions(DEOC-IF) is proposed. Based on the diversity-enriched option-critic (DEOC) algorithm, the algorithm constrains the selection of the upper-level strategy on the internal strategy of Option by introducing the interest function, which not only ensures the diversity of the Option set, but also makes the learned internal strategies focus on different regions of the state space, which is conducive to improving the knowledge transfer ability of the algorithm and accelerating the learning speed. In addition, DEOC-IF introduces a new interest function update gradient, which is beneficial to improve the exploration ability of the algorithm. In order to verify the effectiveness and option reusability of the algorithm, the algorithm comparison experiments are carried out in four-room navigation task, Mujoco, and MiniWorld. Experimental results show that DEOC-IF algorithm has better performance and option reusability compared with other algorithms.
-
强化学习[1](reinforcement learning,RL)是机器学习研究领域的一个重要分支,主要以马尔可夫决策过程(Markov decision process,MDP)为理论基础,是一种交互式学习方法. 深度强化学习[2-3](deep reinforcement learning,DRL)把深度学习(deep learning,DL)应用到强化学习中,使得学习过程同时具备深度学习的感知能力和强化学习的决策能力. DRL可以用来解决强化学习中具有高维状态和动作空间的任务. 在深度Q网络[4](deep q-network,DQN)提出之后,出现了多种改进的经典算法[5-8],提升了DRL智能体的探索能力和算法鲁棒性. 然而,DRL算法在面对稀疏奖励任务、长时序延迟奖励任务和具有分层结构的任务时,问题的求解会变得很困难,智能体很难学习到最优的策略. 分层强化学习[9](hierarchical reinforcement learning,HRL)的抽象机制可以用来解决上述问题. 分层强化学习以半马尔可夫决策过程[10](semi-Markov decision process,SMDP)为理论基础,通过分层抽象机制提高智能体的探索能力和策略的知识迁移能力. Kulkarni等人[11]将深度学习与分层强化学习结合,提出了深度分层强化学习(deep hierarchical reinforcement learning,DHRL). DHRL形成了上层策略控制下层策略探索环境的问题求解方式,实现了更强的特征提取能力和策略学习能力. 近年来DHRL已经被成功应用于推荐系统[12]、自动驾驶[13]和自然语言处理[14]等领域,成为强化学习领域的研究热点之一. 关于DHRL的研究,其方向主要包括2种类型:1)基于子目标[15]. 该种方法利用特征提取把状态空间中部分状态位置作为子目标. 其解决任务的过程为上层策略产生子目标,下层策略负责指导智能体到达子目标,重复此过程直到智能体到达最终目标位置. 2)基于Option[10]. 上层策略调用下层网络学习到的一组内部策略解决整个任务. 关于Option深度分层强化学习的研究热点,主要集中于Option集合的多样性,以及Option内部策略的可重复利用性. 本文提出的方法为基于Option分层强化学习.
Option框架作为分层控制机制的一种,可以被视为一种特殊的技能,允许强化学习智能体使用长时序行为去表征和规划,从而改善策略的学习效率以及策略的知识迁移能力. 如何端到端地学习到好的下层Option内部策略一直以来是Option框架的一个挑战. Bacon等人[16]提出了OC(Option-Critic)框架,把策略梯度理论应用到Option学习上,从而可以通过梯度更新参数的方式端到端地学习Option内部策略、终止函数以及上层策略. 然而,在策略学习过程中,OC框架中的下层Option内部策略集合会出现退化问题. 比如,下层Option内部策略频繁终止使得Option变为简单行为;一个Option内部策略控制了整个任务,其他Option内部策略得不到及时更新;以及下层Option内部策略集合的状态-动作分布变得非常相似. 上述问题严重影响了智能体的实验性能以及策略的知识迁移能力. 为了阻止Option内部策略频繁终止,Harb等人[17]在OC框架的基础上通过引入思考成本(deliberation cost)η,提出了异步优势Option-Critic(asynchronous advantage Option-Critic,A2OC)算法. A2OC算法提出一种新的优化目标,在最大化奖励函数的同时,最小化下层Option内部策略的切换代价. 因此,A2OC算法鼓励下层内部策略执行的步数更长,解决了OC框架的退化问题. Klissarov等人[18]把近端策略优化[19](proximal policy optimization,PPO)算法与OC框架相结合,提出了近端策略Option-Critic(proximal policy Option-Critic,PPOC)算法,提高了算法学习速度和算法实验性能. 为了解决下层Option内部策略集合相似的问题,Li等人[20]提出了一种基于异策略的软Option行动者-评论家(soft Option actor-critic,SOAC)算法. SOAC算法基于最大熵模型,引入了基于信息论的内部奖励,提高了智能体对环境的探索能力,从而可以学习到多样化的Option集合. 为了学习到适合探索的多样化Option内部策略,Kanagawa等人[21]提出了信息最大化选项-评论家(infomax Option-Critic,IMOC)算法. IMOC算法引入信息最大化终止目标,从而保证Option集合的多样性. 大多数关于学习多样化Option的研究文章使用状态区分和特殊化Option内部策略集合[22-24]. 与此不同,Kamat等人[25]根据Option内部策略的动作分布来评价其多样性,提出了多样化Option-Critic(diversity-enriched Option-Critic,DEOC)算法,并且在DEOC算法的基础上,为了保证最大熵伪奖励函数产生作用,引入了新的终止函数,提出TDEOC(termination-DEOC)算法. 在状态信息不够完整以及智能体旨在任务之间迁移知识时,TDEOC算法可以获得很好的性能. 本文在TDEOC算法基础上,把Option初始集表示为兴趣函数[26],不再假设每一个Option在每个状态都会被选择到,而是限制上层策略对Option的可选择性.
目前,关于Option集合的学习的主要难点包括:1)上层策略如何在特定状态选择合适的下层Option内部策略,保证学习到的Option具有知识迁移能力;2)终止函数如何确定恰当的终止位置,阻止Option集合的退化问题. 针对这2个问题,本文提出一种基于兴趣函数的多样化Option-Critic算法(diversity-enriched Option-Critic algorithm with interest functions,DEOC-IF). DEOC-IF算法把Option的初始集合表示为参数化的兴趣函数,限制下层Option内部策略在特定状态的可选择性,不仅降低了TDEOC算法在Option选择时的性能开销,还提高了Option关于状态的特殊性,有利于提高算法学习速度和实验性能,以及下层策略的知识迁移能力.
本文的贡献主要包括3个方面:
1) 提出了一种新的学习多样化Option内部策略的DEOC-IF算法框架,该框架在TDEOC算法的基础上引入了兴趣函数,有利于提高算法学习速度和知识迁移能力;
2) 提出一种新的兴趣函数参数更新梯度,可以提高智能体对环境的探索能力,有效提高算法性能;
3) 通过基础实验和迁移实验,将DEOC-IF算法与常见的DRL算法和同类型的DHRL算法进行对比,验证所提算法的优越性.
1. 背景知识
1.1 强化学习
强化学习是一种智能体通过不断地试错与环境进行交互的学习方式,然后利用环境的反馈信息通过反向传播改善策略网络. 强化学习训练模型通常以马尔可夫决策过程为理论基础,目标是最大化期望折扣累计奖励. 马尔可夫决策过程通常被定义为一个五元组(S,A,γ,R,P),其中S是所有环境状态的集合,A是所有智能体可采取动作的集合,γ是折扣因子. 奖励函数R:S×A→R是关于状态和动作的映射函数,P表示状态转移函数. 在强化学习过程中,假设智能体当前观察状态为st∈S,根据策略π选择动作at∈A,与环境交互获得奖赏r∈R,并转移到下一状态st+1,重复该过程,直至到达终止状态. 给定一个策略π,状态值函数V被定义为
Vπ(s)=Eπ[∞∑t=0γtrt+1|s0=s]. (1) 在状态s下采取动作a的动作值函数Q被定义为
Qπ(s,a)=Eπ[∞∑t=0γtrt+1|s0=s,a0=a]. (2) 状态值函数Vπ满足贝尔曼等式:
Vπ(s)=∑aπ(a|s)(r(s,a)+γ∑s′P(s′|s,a)Vπ(s′)). (3) 强化学习的目标是找到一个最优策略π∗,使得期望折扣累计奖赏最大,即策略满足Vπ∗(s)=max. 策略梯度理论[27]提供了一种使用期望折扣累计回报优化随机策略 {\pi _\theta } 的方法,期望折扣累计回报关于参数 \theta 的梯度为
\frac{\partial L(\theta )}{\partial \theta }=E\left[\frac{\partial \mathrm{log}\pi ({A}_{t}|{S}_{ t})}{\partial \theta }{A}^{\pi }({S}_{ t},{A}_{t})\right]\text{,} (4) 其中 {A^\pi }({S_{ t}},{A_t}) = {Q_\pi }({S_{ t}},{A_t}) - {V_\pi }({S_{ t}}) 是优势函数, {S_{ t}} 和 {A_t} 分别为时刻 t 的状态和动作.
目前,深度强化学习融合了深度学习的感知能力和强化学习的决策能力,成为人工智能领域研究热点,并在很多方面得到应用. 在星际争霸游戏中,DeepMind团队研发的Alpha Star击败了人类选手;谷歌把深度强化学习用于YouTube视频推荐,取得优异效果.
1.2 OC(Option-Critic)框架
Option框架是分层强化学习中分层机制的一种. 一个Option内部策略 o \in \varOmega 由三元组 ({I_o},{\pi _o},{\beta _o}) 定义,其中 {I_o} \subseteq S 是下层内部策略的初始状态集合, {\pi _o} 表示Option内部策略,终止条件 {\beta _o}:S \to [0,1] 是当前选择的Option内部策略在到达下一个状态 s' 后的终止概率. 在Option框架下,假设智能体当前所在状态为s,上层策略可以选择的下层Option内部策略集合为 \varOmega (s) . 则Option框架的执行过程为:上层策略 {\pi _\varOmega }(s) 从集合 \varOmega (s) 中选择一个Option内部策略o,智能体按照内部策略 {\pi _o} 执行动作,直到满足终止条件 {\beta _o} . 然后上层策略重新选择一个下层Option内部策略 o' ,重复执行上述过程,直至完成整个任务.
OC框架提出了一种学习下层Option内部策略和终止函数参数的梯度更新方法,假定了所有Option内部策略在每个状态都可以被上层策略选择. OC框架使用 {\pi _{o,\theta }} 表示参数化后的Option内部策略,使用 {\beta _{o,\vartheta }} 表示参数化后的Option终止函数. 其中, \theta 和 \vartheta 分别为 {\pi _o} 和 {\beta _o} 的参数,可以根据策略梯度定理进行参数优化. 在OC框架中,Option值函数通常被定义为
{Q}_{\varOmega }(s,o)={\displaystyle \sum _{a}{\pi }_{o,\theta }(a|s){Q}_{U}(s,o,a)\text{,}} (5) 其中 {Q_U}:S \times \varOmega \times A \to \mathbb{R} 是指在状态 s 根据内部策略 o 选择动作 a 时的值函数. 可以表示为
{Q_U}(s,o,a) = r(s,a) + \gamma \sum\limits_{s'} {P(s'|s,a)U(o,s')} . (6) U:\varOmega \times S \to \mathbb{R} 反映的是智能体选择内部策略 o 后,到达下一状态 s' 的价值函数,可定义为
U(o,s') = (1 - {\beta _{o,\vartheta }}(s')){Q_\varOmega }(s',o) + {\beta _{o,\vartheta }}(s'){V_\varOmega }(s'). (7) 给定内部策略参数 \theta 和初始状态策略对 ({s_0},{o_0}) ,那么期望折扣累计回报关于参数 \theta 的梯度为
{\displaystyle \sum _{s,o}{\mu }_{\varOmega }(s,o|{s}_{0},{o}_{0}){\displaystyle \sum _{a}\frac{\partial {\pi }_{o,\theta }(a|s)}{\partial \theta }{Q}_{U}(s,o,a)\text{,}}} (8) 其中 {\mu _\varOmega }(s,o|{s_0},{o_0}) 表示从 ({s_0},{o_0}) 到 (s,o) 轨迹的折扣权重. 给定终止函数参数 \vartheta 和初始状态策略对 ({s_1},{o_0}) ,则期望折扣累计回报关于参数 \vartheta 的梯度为
-{\displaystyle \sum _{{s'} ,o}{\mu }_{\varOmega }({s'} ,o|{s}_{1},{o}_{0})\frac{\partial {\beta }_{o,\vartheta }({s'})}{\partial \vartheta }{A}_{\varOmega }({s'} ,o)\text{,}} (9) 其中 {\mu _\varOmega }(s',o|{s_1},{o_0}) 表示从 ({s_1},{o_0}) 到 (s',o) 轨迹的折扣权重.
1.3 多样化Option-Critic算法
OC框架以一种无模型的、端到端的方式学习长时序动作策略,改善了智能体策略学习和动作规划的效率. 然而,这种方式学习到的下层Option内部策略集合会出现退化问题. 比如Option内部策略之间的区分度较低,以及Option内部策略频繁终止等. 这些退化问题严重影响了OC框架的实验性能. Kamat等人[25]提出了TDEOC算法,可以有效地解决上述问题. 大多数研究工作根据状态学习到多样化的Option内部策略集合,而TDEOC算法根据Option内部策略的动作分布评价其多样性. 当环境的状态空间为部分可观测或智能体旨在多个任务之间迁移知识时,这种方法非常合适. 为了保证Option内部策略集合的多样性,TDEOC算法使用信息熵构造伪奖励. 在实验环境中,TDEOC算法使用2个Option内部策略. 因此,引入的伪奖励函数可表示为
{R}_{\text{bonus}}=H({A}^{{\pi }_{{o}_{1}}}|S)+H({A}^{{\pi }_{{o}_{2}}}|S)+ H({O}^{{\text{π}}_{\text{Ω}}}|S)+H({A}^{{\pi }_{{o}_{1}}};{A}^{{\pi }_{{o}_{2}}}|S)\text{,} (10) 其中 H 表示底数为e的香农熵, A 表示动作分布. 式(10)等号右侧的前2项是为了增加下层内部策略选择动作时的随机性;第3项是为了增加上层策略在选择下层内部策略时的随机性;第4项是为了鼓励不同的Option内部策略彼此之间动作分布的多样性. 把上述伪奖励函数引入到标准强化学习框架中,得到增广奖励函数:
{R}_{\text{aug}}({S}_{ t},{A}_{t})=(1-\tau )R({S}_{ t},{A}_{t})+\tau {R}_{\text{bonus}}({S}_{ t})\text{,} (11) 其中, \tau 是一个超参数,控制伪奖励函数在增广奖励函数中的相对重要程度. 当 \tau \to 0 时,增广奖励函数趋近于标准强化学习目标. 通过最大化香农熵的奖励函数目标,可以鼓励下层内部策略动作分布的多样性. 实验表明,增广奖励函数阻止策略快速收敛到局部最优,表现出了更强的探索能力以及策略的鲁棒性.
但是,当一个Option内部策略正在被执行时,集合中其他的Option内部策略只能保持休眠. 这会导致没有被选择到的Option内部策略无法得到及时的更新,最大熵目标就没有发挥出真正的作用. 因此,TDEOC算法提出新的终止函数:
L({\theta }_{\beta })=E[\beta ({S}_{ t},{O}_{t})D({S}_{ t})]\text{,} (12) 其中 D({S_{ t}}) 表示Option内部策略集合在给定状态的相对多样性,被定义为
D({S}_{ t})=\frac{{R}_{\text{bonus}}({S}_{ t})-{\mu }_{{R}_{\text{bonus}}}}{{\sigma }_{{R}_{\text{bonus}}}}\text{,} (13) 其中, {\mu _{{R_{{\text{bonus}}}}}},{\sigma _{{R_{{\text{bonus}}}}}} 分别为 {R_{{\text{bonus}}}} 的平均值和标准差. 与OC框架的终止函数相比,终止函数不再最大化期望折扣累计回报,而是关注Option内部策略集合的动作多样性. 当未被选择的Option内部策略在当前状态展现出不同的动作时,被选择到的Option内部策略则倾向于终止在此状态.
2. 基于兴趣函数优化的Option-Critic算法
本节主要阐述DEOC-IF算法的具体架构以及理论分析. 其中2.1节介绍兴趣Option-Critic(interest-Option-Critic,IOC)算法框架[26],2.2节介绍DEOC-IF算法的整体框架.
2.1 IOC框架
人类常会利用已掌握的经验知识或者技能来尝试解决新的任务. 即使存在多种任务的解决方案,人类也会考虑根据效率、兴趣等因素去除一些低满意度的解决方案,从剩下的一组方案中选择最优的解决方案. Option框架借鉴这一思想,用了一个类似的概念,即下层Option内部策略的初始集. 在数学中,指示函数 {1_I}:S \to {\text{\{ }}0,1{\text{\} }} 是定义在集合 S 上的函数,表示其中有哪些元素属于某一子集 I ,即
1_I\text{(}s\text{)}=\left\{\begin{aligned} & 1,\; \; 若s\in I\mathrm{\mathrm{\mathit{\mathrm{,}\mathrm{ }}\mathit{ }}\mathrm{ }} \\ & 0,\; \; 若s\notin I.\end{aligned}\right. (14) Khetarpal等人[26]把指示函数推广到兴趣函数 {I_o}:S \times \varOmega \to {\mathbb{R}_ + } 来表示下层内部策略 o 的初始状态集合. 若下层内部策略 o 可以在状态 s 处被初始化,则 {I_o}(s) > 0 . {I_o}(s) 的值越大,表示在状态 s 处上层策略对于下层内部策略 o 的兴趣值越大. 为了学习优化 {I_o} , {I_o} 被表示为参数化的函数 {I_{o,z}} ,可通过策略梯度方法更新其参数 z . IOC算法定义兴趣上层策略为
{\pi _{{I_{o,z}}}}(o|s) = {{{I_{o,z}}(s){\pi _\varOmega }(o|s)} \Big/{\sum\limits_{o'}^{} {{I_{o' ,z}}(s)} {\pi _\varOmega }(o'|s)}}. (15) 假定 {o_t} 在时刻 t 被初始化或者被启动,那么从元组 ({s_t},{o_t}) 转移到元组 ({s_{t + 1}},{o_{t + 1}}) 的一步折扣概率为
\begin{split} & P_\gamma ^{(1)}({s_{t + 1}},{o_{t + 1}}|{s_t},{o_t}) = \sum\limits_a {{\pi _{{o_t},\theta }}(a|{s_t})\gamma P({s_{t + 1}}|{s_t},a)}\Bigg( (1 - \\ &\quad {\beta _{{o_t},\vartheta }}({s_{t + 1}})){{1}_{{o_t} = {o_{t + 1}}}} + {\beta _{{o_t},\vartheta }}({s_{t + 1}})\Bigg( {{I_{{o_{t + 1}},z}}({s_{t + 1}}){\pi _\varOmega }({o_{t + 1}}|{s_{t + 1}})} \Big/ \\&\quad {\sum\limits_o^{} {{I_{o,z}}({s_{t + 1}}){\pi _\varOmega }(o|{s_{t + 1}})} } \Bigg) \Bigg).\\[-1pt] \end{split} (16) 通过迭代, k 步折扣概率可以被表示为
\begin{split} &{P}_{\gamma }^{(k)}({s}_{t+k},{o}_{t+k}|{s}_{t},{o}_{t})=\displaystyle \sum _{{s}_{t+1}}\displaystyle \sum _{{o}_{t+1}}\big({P}_{\gamma }^{(1)}({s}_{t+1},{o}_{t+1}|\\ &\quad {s}_{t},{o}_{t}){P}_{\gamma }^{(k-1)}({s}_{t+k},{o}_{t+k}|{s}_{t+1},{o}_{t+1})\big).\end{split} (17) 则期望折扣回报关于参数 z 的梯度为
\frac{{\partial {Q_\varOmega }(s,o)}}{{\partial z}} = \frac{\partial }{{\partial z}}\left\{ {\sum\limits_a {{\pi _{o,\theta }}(a|s){Q_U}(s,o,a)} } \right\}. (18) 使用式(6)(7)对式(8)展开,有
\begin{split} \frac{{\partial {Q_\varOmega }(s,o)}}{{\partial z}} = &\sum\limits_a {\pi _{o,\theta }}(a|s){\sum\limits_{s'}} {\gamma P(s'|s,a)} \Bigg( (1 - \\ &{\beta _{o,\vartheta }}(s'))\frac{{\partial {Q_\varOmega }(s',o)}}{{\partial z}} + {{\beta _{o,\vartheta }}(s')\frac{{\partial {V_\varOmega }(s')}}{{\partial z}}} \Bigg). \end{split} (19) 又 {V_\varOmega }(s) = \displaystyle\sum\limits_o {{\pi _{{I_{o,z}}}}(o|s){Q_\varOmega }(s,o)} ,将其和式(15)代入式(19),得
\begin{split} \frac{{\partial {Q_\varOmega }(s,o)}}{{\partial z}} =& \sum\limits_a {\pi _{o,\theta }}(a|s)\sum\limits_{s'} {\gamma P(s'|s,a)\sum\limits_{o'} {{\beta _{o,\vartheta }}(s')} } \times\\ & \Bigg( {\frac{{\partial {\pi _{{I_{o,z}}}}(o'|s')}}{{\partial z}}{Q_\varOmega }(s',o')} \Bigg) + \sum\limits_{s'} \sum\limits_{o'}\times\\ & \Bigg( \sum\limits_a {\pi _{o,\theta }}(a|s)\gamma P(s'|s,a)\Bigg( ( {1 - {\beta _{o,\vartheta }}(s')} ){{1}_{o = o'}} + \\ & {\beta _{o,\vartheta }}(s'){\pi _{{I_{o,z}}}}(o'|s') \Bigg) \Bigg)\frac{{\partial {Q_\varOmega }(s',o')}}{{\partial z}}.\\[-1pt] \end{split} (20) 把式(16)代入式(20)并推广到 k 步,可得
\begin{split}\frac{\partial {Q}_{\varOmega }(s,o)}{\partial z}= & {\displaystyle \sum _{k=0}^{\infty }{\displaystyle \sum _{{s'} ,{o'}}{P}_{\gamma }^{(k)}({s'} ,{o'}|s,o)}}\times \\ & \Bigg({\beta }_{o,\vartheta }({s'})\frac{\partial {\pi }_{{I}_{o,z}}({o'}|{s'})}{\partial z}{Q}_{\varOmega }({s'} ,{o'})\Bigg)\text{,}\end{split} (21) 故期望折扣回报关于兴趣函数参数 z 的梯度为
{\displaystyle \sum _{{s'} ,{o'}}{\hat{\mu }}_{\varOmega }({s'} ,{o'}|s,o){\beta }_{o}({s'})\frac{\partial {\pi }_{{I}_{o,z}}({o'}|{s'})}{\partial z}{Q}_{\varOmega }({s'} ,{o'})\text{,}} (22) 其中 {\hat \mu _\varOmega }(s',o'|s,o) = \displaystyle\sum\limits_{k = 0}^\infty {{P_\gamma }^{(k)}(s',o'|s,o)} 表示根据兴趣上层策略 {\pi _{{I_{o,z}}}} 从 (s,o) 到 (s',o') 轨迹采样的折扣权重.
2.2 DEOC-IF算法描述
虽然兴趣函数能够限制上层策略根据兴趣值的大小去选择恰当的下层Option内部策略最大化期望折扣回报,但是并没有保证Option内部策略集合的多样性. OC框架中出现的Option集合关于状态-动作分布非常相似的退化问题仍然会出现,从而影响最终的算法性能. TDEOC算法假设在每一个状态下层所有Option内部策略都会被选择到,并没有考虑到Option和状态的相关性,会使得上层策略选择到不恰当的Option,从而影响了策略的知识迁移能力. 而且,TDEOC算法为了保证下层内部策略的多样性,引入的伪奖励会导致算法整体的学习速度变慢. 针对以上问题,本文提出了基于兴趣函数优化的多样化Option-Critic算法,即DEOC-IF算法. DEOC-IF算法继承了TDEOC算法中引入的伪奖励函数和新的终止函数,保证了Option集合的多样性. 同时,DOEC-IF算法把Option元组中的初始集合推广为兴趣函数 {I_{o,z}} ,在上层策略选择下层Option内部策略时,就会更关注Option内部策略的适用程度. 例如,一个在红绿灯路口指导智能体执行直行和停步动作的Option内部策略,只有遇到下一个红绿灯路口才会被上层策略重新选择. 这样,学习到的Option集合更具有解释性,有利于迁移学习. 但是,为了进一步提升智能体对环境的探索能力,当上层策略在选择下层内部策略时,不仅考虑兴趣函数值的大小,还考虑下层内部策略的探索能力. 这里用随机性来衡量下层内部策略对环境的探索能力. 为实现此目的,修改兴趣函数的梯度为
\frac{\partial L(z)}{\partial z}= E\left[{\beta }_{o,\vartheta }({s'})\frac{\partial {\pi }_{{I}_{o,z}}({o'}|{s'})}{\partial z}\big({Q}_{\varOmega }({s'} ,{o'})+ cH\left({\pi }_{{o'}}(\cdot |{s'})\right)\big)\right]\text{,} (23) 其中 c 是正则项系数. 当该系数非常小时,正则项的引入对于性能没有危害,反而会鼓励上层策略选择探索能力强的下层内部策略以提升实验性能,后文会通过消融实验进行证明.
当下层内部策略采用正态分布的形式表示时,正则项的信息熵可以推导为
\begin{split} H = &- \int {p(x)\ln p(x){\text{d}}x} = - \int_{ - \infty }^\infty {{(2\pi {\sigma ^2})}^{ - \tfrac{1}{2}}}{{\rm e}^{ - {{(x - \mu )}^2}/2{\sigma ^2}}}\times\\ &\ln \Big[ {{{(2\pi {\sigma ^2})}^{ - \tfrac{1}{2}}}{{\rm e}^{ - {{(x - \mu )}^2}/2{\sigma ^2}}}} \Big]{\mathrm{d}}x = \frac{1}{2}\ln (2{\pi }{\sigma ^2}) \int_{ - \infty }^\infty {{(2{\pi }{\sigma ^2})}^{ - \tfrac{1}{2}}}\times\\ &{{\rm e}^{ - {{(x - \mu )}^2}/2{\sigma ^2}}}{{\mathrm{d}}}x + \frac{1}{{2{\sigma ^2}}}\int_{ - \infty }^\infty {{{(2{\pi }{\sigma ^2})}^{ - \tfrac{1}{2}}}{{(x - \mu )}^2}{{\rm e}^{ - {{(x - \mu )}^2}/2{\sigma ^2}}}{{\mathrm{d}}}x} = \\ &\frac{1}{2}(\ln (2{\pi }{\sigma ^2}) + 1).\\[-1pt] \end{split} (24) 故正态分布的信息熵仅与方差 \sigma 有关,可以表示为方差的函数.
基于兴趣函数优化的多样化Option-Critic算法模型的整体框架如图1所示. 智能体根据兴趣上层策略选择一个下层Option策略 o ,然后根据策略 o 选取动作作用于环境进入下一个状态. DEOC-IF算法根据环境给予的奖励求出梯度值并反向优化网络参数. 重复此过程,直至满足优化目标.
算法1介绍了DEOC-IF算法的整个过程,其是对图1的详细描述. 与TDEOC算法不同,上层策略不再完全依赖于 {\pi _\varOmega } 来选取下层内部策略,而是根据兴趣上层策略 {\pi _{{I_{o,z}}}} 选取合适的下层内部策略 o ,如行②所示. 行③~⑮是策略评估过程,行⑯~⑱是策略优化过程,即对各参数的更新优化. 其中,行⑥是引入的增广奖励函数,行⑯是对内部策略 o 的参数更新,行⑰是对终止函数参数的更新,行⑱是对兴趣函数参数的更新. 算法1整体采用表格式内部Option Q-learning更新方式.
算法1. 基于兴趣函数优化的多样化Option-Critic算法.
输入:超参数 \tau 和 c ,折扣率 \gamma ,Option内部学习率 {\alpha _\theta } ,终止函数学习率 {\alpha _\vartheta } ,兴趣函数学习率 {\alpha _z} ;
输出:网络参数.
① 初始化: {\pi _\varOmega },{\pi _o},{\beta _o} 以及关于参数 z 的兴趣函数 {I_{o,z}} ;
② 根据 {\pi _{{I_{o,z}}}} 选择一个 o ;
③ Repeat:
④ 根据策略 {\pi _{o,\theta }}(a|s) 选择一个动作 a ;
⑤ 执行动作 a ,观测状态 s' ,得到奖赏 r ;
⑥ r' = (1 - \tau )r + \tau {r_{{\text{bonus}}}}(s) ;
⑦ if o 在状态 s' 终止
⑧ 根据 {\pi _{{I_{o,z}}}}( \cdot |s') 选择一个新的 o' ;
⑨ else
⑩ o' = o ;
⑪ end if
⑫ 根据 {r_{{\text{bonus}}}}(s) 正则化采样得到 D(s) ;
⑬ \delta \leftarrow r' - {Q_U}(s,o,a) ;
⑭ \delta \leftarrow \delta +\gamma (1-{\beta }_{o}({s'})){Q}_{\varOmega }({s'} ,{o'})+ \gamma {\beta }_{o}({s'})\underset{{o'}}{\text{max}}{Q}_{\varOmega }({s'} ,{o'}) ;
⑮ {Q_U}(s,o,a) \leftarrow {Q_U}(s,o,a) + \alpha \delta ;
⑯ \theta \leftarrow \theta + {\alpha _\theta }\dfrac{{\partial \log {\pi _{o,\theta }}(a|s)}}{{\partial \theta }}{Q_U}(s,o,a) ;
⑰ \vartheta \leftarrow \vartheta - {\alpha _\vartheta }\dfrac{{\partial {\beta _{o,\vartheta }}(s')}}{{\partial \vartheta }}({Q_\varOmega }(s',o) - {V_\varOmega }(s')) ;
⑱ z\leftarrow z+{\alpha }_{z}{\beta }_{o,\vartheta }({s'})\dfrac{\partial {\pi }_{{I}_{o,z}}({o'}|{s'})}{\partial z}({Q}_{\varOmega }({s'} ,{o'})+ cH\left({\pi }_{{o'}}(\cdot |{s'})\right)) ;
⑲ Until s' 是终止状态.
3. 实 验
为了评估DEOC-IF算法的性能优势和策略的知识迁移能力,分别在离散环境、连续环境以及迁移环境下进行实验. 同时,为了验证正则项的引入对实验性能的益处,在3.5节做了消融实验. 本文选择PPO作为基础算法,因为PPO不仅可以应用在连续控制任务中,还可以应用在离散控制任务中,并获得很好的性能表现. 而且,OC框架已经在PPO上得到了扩展,即PPOC算法,在Mujoco实验上取得了优异效果. 本节实验旨在评估DEOC-IF算法的3个方面:
1) 兴趣函数的引入是否可以提高算法学习速度和实验性能;
2) 学习到的Option集合的知识迁移能力是否提高;
3) 带正则项的兴趣函数更新方式是否有益于实验性能.
3.1 4房间导航任务
本文首先在经典的4房间导航任务[10]中测试DEOC-IF算法的性能以及Option集合的知识迁移能力.
3.1.1 实验环境及设置
4房间环境是分层强化学习常用的离散环境. 与经典4房间环境不同的是本文提高了环境的难度,并增加了迁移实验部分. 起初,智能体从不包含目标位置的状态空间中随机选择一个状态作为起始位置,目标位置为房间的右面过道处,如图2所示. 实验经过
1000 个情节之后,在右下方房间随机选择一个新的位置作为目标状态. 如果智能体到达了目标位置,会获得+1奖赏,到达其他位置获得的奖赏为0.下层Option内部策略采用的是内部Option Q-learning方式进行参数更新,所有权重均被初始化为0. 为了与对比算法保持一致,对于DEOC-IF算法,本实验使用4个下层Option内部策略,一个情节的最大步长数为
1000 ,正则项系数为0.001. 其他超参数如表1所示.表 1 4房间导航任务超参数Table 1. Hyper-Parameters of Four-Room Navigation Task超参数 参数值 {\alpha _\vartheta } 0.25 {\alpha _\theta } 0.25 \gamma 0.99 {\alpha _z} 0.15 3.1.2 实验结果分析
本节把DEOC-IF算法和TDEOC算法、OC算法进行实验对比. 这3种算法都可以达到目标位置,使用对应情节下的累积奖赏值作为纵坐标不易看出这3种算法的区别. 本文使用智能体到达目标位置所需要的时间步数作为纵坐标,可以明显看出3种算法的差异. 实验效果如图3所示,每个算法的实验性能取自300次运行的平均值. 在开始的时候,智能体的移动方向是不确定的,在训练中逐渐改变移动方向的概率. 在前
1000 个情节中,3种算法几乎有相同的收敛速度. 在改变目标状态的位置之后,与TDEOC算法和OC算法相比,DEOC-IF算法能更快使得智能体到达改变后的目标位置,且有更好的收敛效果. TDEOC算法引入伪奖励,并且采用了新的终止函数,提高了算法的探索能力,从而能够保证学习到的Option集合具有多样性,导致TDEOC算法的性能优于OC算法的性能. 而DEOC-IF算法在TDEOC算法的基础上引入了兴趣函数,保证学习到的不同Option内部策略关注房间的不同区域,例如直行处和拐弯处. 而且,DEOC-IF算法的上层策略在选择下层内部策略时,不仅考虑兴趣函数值的大小,同时考虑下层内部策略的随机程度,因此具有更好的实验效果. DEOC-IF算法相比于TDEOC算法和OC算法,实验性能提升了20步左右.3.2 Mujoco环境实验
3.2.1 实验环境和设置
OpenAI Gym[28]是强化学习中常用的实验仿真平台,其中包含很多常用的环境测试接口,例如Box2D,Atari等游戏环境以及Mujoco物理引擎等. 为了有效评估DEOC-IF算法和其他对比算法在连续控制任务中的性能差异,本文选取Mujoco物理引擎中的连续控制任务Humanoid-v2,Hopper-v2,Walker2d-v2,HalfCheetah-v2作为实验环境,如图4所示.
4个实验环境的状态空间及动作空间的具体介绍如表2所示. 4个实验环境的任务目标为:Humanoid-v2训练一个3维双腿机器人向前走. Hopper-v2训练一个2维单腿机器人在不摔倒的前提下尽可能快地向前跳. Walker2d-v2训练一个2维双腿机器人在不摔倒的前提下尽可能快地向前走. HalfCheetah-v2训练一个豹形机器人在不摔倒的前提下快速奔跑.
表 2 Mujoco实验环境介绍Table 2. Introduction to Mujoco Experimental Environments环境名称 动作空间维度 状态空间维度 Humanoid-v2 17 376 Hopper-v2 3 11 Walker2d-v2 6 17 HalfCheetah-v2 6 17 本文提出的DEOC-IF算法在TDEOC算法的基础上引入了参数化的兴趣函数,并使用3个独立的网络分别对应于终止函数、兴趣函数、上层策略 {\pi _\varOmega } 与Option内部策略. 每个网络包含2个隐层,隐层神经元个数都为64. 终止函数和兴趣函数网络都使用sigmoid函数作为激活函数,而上层策略使用softmax函数作为激活函数. 对于Mujoco任务,实验对比曲线都取自5个不同随机种子的平均值. 其他超参数如表3所示.
表 3 Mujoco实验环境超参数Table 3. Hyper-Parameters of Mujoco Experimental Environment超参数 Humanoid-v2 Hopper-v2 Walker2d-v2 HalfCheetah-v2 \tau 0.4 0.2 0.2 0.7 c 0.01 0.01 0.01 0.01 {\alpha _\vartheta } 5E–7 5E–7 5E–7 5E–7 {\alpha _\theta } 3E–4 1E–4 1E–4 1E–4 {\alpha _z} 1E–4 1E–4 1E–4 5E–4 3.2.2 实验结果分析
在本实验中,把DEOC-IF算法与TDEOC算法、OC算法以及PPO算法进行性能对比,其学习曲线如图5所示. DEOC-IF算法相较于其他算法的优势是充分考虑了每个Option内部策略在每个状态的特殊性,同时保证了在策略学习过程中具有更强的探索能力和稳定性,在所有对比实验中DEOC-IF算法相比于TDEOC,OC和PPO算法均有不同程度的性能提升.
从图5中可以看出,OC算法很快收敛到局部最优情况,TDEOC算法性能持续提升. 这是因为OC算法探索能力低,导致任务相关的Option个数减少. 在1个Option终止之后,由于噪声等因素上层策略选择了次优的Option. 而TDEOC算法引入伪奖励,并提出了新的终止函数,从而能够阻止1个Option解决整个任务的情况. DEOC-IF算法是对TDEOC算法的改进,引入了兴趣函数且充分考虑了下层内部策略的探索能力,从而能够加快学习速度以及提高实验性能. 在Walker2d-v2环境中,DEOC-IF算法出现了波动,这是因为该环境的任务是训练2维双足智能体尽可能快地向前走,与其他环境相比环境更复杂.
3.3 迁移实验
Option内部策略学习的一个关键优势是学习到的技能可以在类似的任务中被重复使用. 在3.1节,评估了DEOC-IF算法在离散环境中的知识迁移能力. 本节主要评估DEOC-IF算法在连续环境中的知识迁移能力,分别在变种HalfCheetah,HalfCheetahWall,HopperIceWall任务上与TDEOC,IOC,PPO,OC等算法进行对比. 实验环境和对比曲线如图6所示. 在迁移环境中,DEOC-IF算法的性能明显优于另外4个算法. 这表明DEOC-IF算法学习到的Option集合具有更高的可重复利用性.
1) HalfCheetah(forward/backward)
在迁移实验之前,环境的设置与OpenAI Gym中的HalfCheetah一样,即智能体受到奖励驱动,尽可能快地向前跑,如图6(d)所示. 在150个迭代(大约30万步数)之后,调整奖励函数,驱动智能体尽可能快地向后跑[29],如图6(e)所示. 从图6(a)中可以看出,迁移实验之前,PPO算法优于其他4个算法,150个迭代后改变了奖励函数,DEOC-IF算法的性能明显优于另外4个算法,表明DEOC-IF算法学习到的Option集合具有更强的知识迁移能力.
2) HalfCheetahWall
通过这个实验,评估智能体对于路径上障碍物属性改变时的反应能力. 迁移实验之前,HalfCheetahWall环境[30]中障碍物的高度为0.12个单位,如图6(f)所示. 在
1000 个迭代(大约200万步数)之后,障碍物的高度被调整到0.2个单位,如图6(g)所示. 从图6(b)可以看出,一开始PPO算法的实验性能是最高的,500个迭代之后,DEOC-IF算法和TDEOC算法的性能都比PPO算法高,而且DEOC-IF算法的性能始终比TDEOC算法的性能更优,说明兴趣函数的引入使得上层策略能根据状态选择更恰当的Option内部策略. DEOC-IF算法的阴影部分最少,说明DEOC-IF算法具有更好的稳定性. 在改变障碍物的高度之后,DEOC-IF算法中的上层策略在选择下层内部策略时充分考虑了下层内部策略在当前状态的适用程度和探索能力. 因此DEOC-IF算法的实验性能明显优于其他对比算法.3) HopperIceWall
此环境与OpenAI Gym中Hopper-v2环境不同之处是在智能体前方2.8个单位处放置了一个障碍物,长宽高分别为0.25,0.4,0.12个单位[30],如图6(h)所示. 在500个迭代(大约100万步数)之后,把智能体和障碍物之间的距离由2.8增加至3.3,如图6(i)所示. 实验效果如图6(c)所示,起初,DEOC-IF算法和TDEOC算法几乎有相同的学习速度,在改变环境之后,DEOC-IF算法具有更好的学习性能.
3.4 OneRoom实验
本文仍然使用了MiniWorld框架[31]中更加复杂的3D视觉导航环境——OneRoom任务. 在OneRoom任务中,智能体需要在一个封闭的房间内到达一个随机产生的盒子的位置. 这需要智能体环顾整个房间,发现盒子并能到达盒子位置,如图7所示.
OneRoom房间的观测空间是一个3通道RGB图片,行为空间包含8个离散行为. 每个情节开始时,盒子的位置是随机的. 如果智能体到达盒子位置或者180个时间步被执行完时,情节终止. 实验使用深度卷积神经网络作为函数逼近器,CNN结构与DQN保持一致. 兴趣函数和每个Option的终止函数使用sigmoid函数作为激活函数,其他网络架构与TDEOC算法一致. 基础算法是PPOC算法,实验性能取自5个独立种子的平均值,如图8所示.
从图8中可以看出,OC算法的性能是最低的. 引入带正则项的兴趣函数之后,DEOC-IF算法的性能收敛速度比TDEOC算法快,比PPO算法的性能更优. 实验表明,引入兴趣函数使得上层策略具有更好的方向感,能够选择出更好的Option,指导智能体快速到达盒子位置.
3.5 消融实验
为了验证正则项的引入可以提升智能体对环境的探索能力,从而提升实验性能,本节在Hopper-v2环境中把带正则项的DEOC-IF算法和不带正则项的DEOC-IF算法进行了对比实验. 实验结果表明当正则项系数很小时,可以提升实验性能,如图9所示.
3.6 算法运行时间与符号表
DEOC-IF算法与其他对比算法的运行时间如表4所示,文中所用的主要数学符号如表5所示. 从表4中可以看出TDEOC算法因为使用伪奖励保证内部策略的多样性,所以策略的训练速度缓慢. DEOC-IF算法因为引入兴趣函数可以约束上层策略选择下层策略时的开销,因此可以加快学习速度.
表 4 Mujoco环境中算法运行时间Table 4. Running Time of Algorithm in Mujoco Environmentsh 环境 OC PPO TDEOC DEOC-IF(本文) Hopper-v2 8.7 6.9 10.2 9.5 Walker2d-v2 13.6 10.3 17.2 15.1 Humanoid-v2 19.1 16.2 23.7 21.3 HalfCheetah-v2 8.3 7.1 9.4 8.9 表 5 数学符号表Table 5. The Table of Mathematical Symbols符号 符号含义 符号 符号含义 S 状态集合 \varOmega Option集合 A 动作集合 o Option下层策略 \gamma 奖励折扣系数 \theta 下层策略参数 r 奖励 U 到达值函数 P 状态转移概率 \mu 轨迹折扣权重 \pi 行为策略 {R_{{\text{bonus}}}} 伪奖励函数 V 状态值函数 H 香农熵 Q 动作值函数 \tau 伪奖励超参数 {I_o} Option初始状态集合 c 正则项系数 {\beta _o} Option终止函数 z 兴趣函数参数 4. 结 论
本文提出了一种结合TDEOC算法和兴趣函数的DEOC-IF算法. 该算法不再假设每个Option的初始状态集为整个状态空间,而是把Option框架中的初始集推广为一种兴趣函数,可以通过策略梯度更新参数的方式进行优化. DEOC-IF算法既保证了Option集合的多样性,又限制了Option框架中初始集的大小,降低了上层策略选择Option内部策略时的性能开销,从而提高算法学习速度. 通过实验表明,兴趣函数类似于一种注意力机制,可以实现更快的学习速度,并且获得更好的稳定性以及策略迁移能力. 本文通过离散任务、连续控制任务、3D导航任务以及迁移实验验证了DEOC-IF算法具有更优异的效果.
本文提出的兴趣函数的参数和终止函数的参数是完全独立的,但它们共同决定了整个算法的好坏程度. 因此,下一步的研究重点是探究兴趣函数和终止函数的关系,在保证Option集合多样性的同时,进一步提高算法的性能.
作者贡献声明:栗军伟提出论文思路,负责实验和撰写论文;刘全负责论文审核;黄志刚负责全文修订及部分实验图的绘制;徐亚鹏负责部分实验的完善.
-
表 1 4房间导航任务超参数
Table 1 Hyper-Parameters of Four-Room Navigation Task
超参数 参数值 {\alpha _\vartheta } 0.25 {\alpha _\theta } 0.25 \gamma 0.99 {\alpha _z} 0.15 表 2 Mujoco实验环境介绍
Table 2 Introduction to Mujoco Experimental Environments
环境名称 动作空间维度 状态空间维度 Humanoid-v2 17 376 Hopper-v2 3 11 Walker2d-v2 6 17 HalfCheetah-v2 6 17 表 3 Mujoco实验环境超参数
Table 3 Hyper-Parameters of Mujoco Experimental Environment
超参数 Humanoid-v2 Hopper-v2 Walker2d-v2 HalfCheetah-v2 \tau 0.4 0.2 0.2 0.7 c 0.01 0.01 0.01 0.01 {\alpha _\vartheta } 5E–7 5E–7 5E–7 5E–7 {\alpha _\theta } 3E–4 1E–4 1E–4 1E–4 {\alpha _z} 1E–4 1E–4 1E–4 5E–4 表 4 Mujoco环境中算法运行时间
Table 4 Running Time of Algorithm in Mujoco Environments
h 环境 OC PPO TDEOC DEOC-IF(本文) Hopper-v2 8.7 6.9 10.2 9.5 Walker2d-v2 13.6 10.3 17.2 15.1 Humanoid-v2 19.1 16.2 23.7 21.3 HalfCheetah-v2 8.3 7.1 9.4 8.9 表 5 数学符号表
Table 5 The Table of Mathematical Symbols
符号 符号含义 符号 符号含义 S 状态集合 \varOmega Option集合 A 动作集合 o Option下层策略 \gamma 奖励折扣系数 \theta 下层策略参数 r 奖励 U 到达值函数 P 状态转移概率 \mu 轨迹折扣权重 \pi 行为策略 {R_{{\text{bonus}}}} 伪奖励函数 V 状态值函数 H 香农熵 Q 动作值函数 \tau 伪奖励超参数 {I_o} Option初始状态集合 c 正则项系数 {\beta _o} Option终止函数 z 兴趣函数参数 -
[1] Sutton R S, Barto A G. Reinforcement Learning: An Introduction[M]. Cambridge, MA: MIT, 2018
[2] 刘全,翟建伟,章宗长,等. 深度强化学习综述[J]. 计算机学报,2018,41(1):1−27 doi: 10.11897/SP.J.1016.2019.00001 Liu Quan, Zhai Jianwei, Zhang Zongzhang, et al. A survey on deep reinforcement learning[J]. Chinese Journal of Computers, 2018, 41(1): 1−27 (in Chinese) doi: 10.11897/SP.J.1016.2019.00001
[3] 刘建伟,高峰,罗雄麟. 基于值函数和策略梯度的深度强化学习综述[J]. 计算机学报,2019,42(6):1406−1438 doi: 10.11897/SP.J.1016.2019.01406 Liu Jianwei, Gao Feng, Luo Xionglin. Survey of deep reinforcement learning based on value function and policy gradient[J]. Chinese Journal of Computers, 2019, 42(6): 1406−1438 (in Chinese) doi: 10.11897/SP.J.1016.2019.01406
[4] Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529−533 doi: 10.1038/nature14236
[5] Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning[J]. arXiv preprint, arXiv: 1509.02971, 2015
[6] Fujimoto S, Hoof H, Meger D. Addressing function approximation error in actor-critic methods[C]//Proc of the 35th Int Conf on Machine Learning. New York: ACM, 2018: 1582−1591
[7] Schulman J, Levine S, Abbeel P, et al. Trust region policy optimization[C]//Proc of the 32nd Int Conf on Machine Learning. New York: ACM, 2015: 1889−1897
[8] Haarnoja T, Zhou A, Abbeel P, et al. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor[C]//Proc of the 35th Int Conf on Machine Learning. New York: ACM, 2018: 1861−1870
[9] 赖俊,魏竞毅,陈希亮. 分层强化学习综述[J]. 计算机工程与应用,2021,57(3):72−79 doi: 10.3778/j.issn.1002-8331.2010-0038 Lai Jun, Wei Jingyi, Chen Xiliang. Overview of hierarchical reinforcement learning[J]. Computer Engineering and Applications, 2021, 57(3): 72−79 (in Chinese) doi: 10.3778/j.issn.1002-8331.2010-0038
[10] Sutton R S, Precup D, Singh S. Between MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning[J]. Artificial Intelligence, 1999, 112(1/2): 181−211
[11] Kulkarni T D, Narasimhan K, Saeedi A, et al. Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation[C]//Proc of the 29th Advances in Neural Information Processing Systems. Cambridge, MA: MIT, 2016: 3675−3683
[12] Zhao Dongyang, Zhang Liang, Zhang Bo, et al. Mahrl: Multi-goals abstraction based deep hierarchical reinforcement learning for recommendations[C]//Proc of the 43rd Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2020: 871−880
[13] Duan Jingliang, Li Shengbo, Guan Yang, et al. Hierarchical reinforcement learning for self-driving decision-making without reliance on labelled driving data[J]. IET Intelligent Transport Systems, 2020, 14(5): 297−305 doi: 10.1049/iet-its.2019.0317
[14] Liu Jianfeng, Pan Feiyang, Luo Ling. Gochat: Goal-oriented chatbots with hierarchical reinforcement learning[C]//Proc of the 43rd Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2020: 1793−1796
[15] Levy A, Konidaris G, Platt R, et al. Learning multi-level hierarchies with hindsight[J]. arXiv preprint, arXiv: 1712.00948, 2017
[16] Bacon P L, Harb J, Precup D. The option-critic architecture[C]//Proc of the 31st AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2017: 1726−1734
[17] Harb J, Bacon P L, Klissarov M, et al. When waiting is not an option: Learning options with a deliberation cost[C]//Proc of the 32nd AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2018: 3165−3172
[18] Klissarov M, Bacon P L, Harb J, et al. Learnings options end-to-end for continuous action tasks[J]. arXiv preprint, arXiv: 1712.00004, 2017
[19] Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms[J]. arXiv preprint, arXiv: 1707.06347, 2017
[20] Li Chenghao, Ma Xiaoteng, Zhang Chongjie, et al. Soac: The soft option actor-critic architecture[J]. arXiv preprint, arXiv: 2006.14363, 2020
[21] Kanagawa Y, Kaneko T. Diverse exploration via infomax options[J]. arXiv preprint, arXiv: 2010.02756, 2020
[22] Eysenbach B, Gupta A, Ibarz J, et al. Diversity is all you need: Learning skills without a reward function[J]. arXiv preprint, arXiv: 1802.06070, 2018
[23] Gregor K, Rezende D J, Wierstra D. Variational intrinsic control[J]. arXiv preprint, arXiv: 1611.07507, 2016
[24] Harutyunyan A, Dabney W, Borsa D, et al. The termination critic[C]//Proc of the 22nd Int Conf on Artificial Intelligence and Statistics. New York: PMLR, 2019: 2231−2240
[25] Kamat A, Precup D. Diversity-enriched option-critic[J]. arXiv preprint, arXiv: 2011.02565, 2020
[26] Khetarpal K, Klissarov M, Chevalier-Boisvert M, et al. Options of interest: Temporal abstraction with interest functions[C]//Proc of the 34th AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2020: 4444−4451
[27] Sutton R S, McAllester D A, Singh S P, et al. Policy gradient methods for reinforcement learning with function approximation[C]//Proc of the 14th Advances in Neural Information Processing Systems. Cambridge, MA: MIT, 2000: 1057−1063
[28] Brockman G, Cheung V, Pettersson L, et al. OpenAI gym[J]. arXiv preprint, arXiv: 1606.01540, 2016
[29] Finn C, Abbeel P, Levine S. Model-agnostic meta-learning for fast adaptation of deep networks[C]//Proc of the 34th Int Conf on Machine Learning. New York: ICML, 2017: 1126−1135
[30] Henderson P, Chang W D, Shkurti F, et al. Benchmark environments for multitask learning in continuous domains[J]. arXiv preprint, arXiv: 1708.04352, 2017
[31] Chevalier-Boisvert M, Bolun D, Mark T, et al. Gym-miniworld environment for OpenAI Gym[EB/OL]. 2018[2022-11-22]. https://github.com/maximecb/gym-miniworld