基于内在动机的深度强化学习探索方法综述

曾俊杰; 秦龙; 徐浩添; 张琪; 胡越; 尹全军

doi:10.7544/issn1000-1239.202220388

基于内在动机的深度强化学习探索方法综述

国防科技大学系统工程学院　长沙　410073

基金项目: 国家自然科学基金项目（62103420, 62103428, 62306329）；湖南省自然科学基金项目(2021JJ40702, 2023JJ40676)

详细信息

作者简介:
曾俊杰: 1996年生. 硕士，助理研究员. 主要研究方向为强化学习和系统仿真

秦龙: 1984年生. 博士，副研究员. 主要研究方向为复杂系统建模与仿真

徐浩添: 1998年生. 博士研究生. 主要研究方向为多智能体系统、智能行为建模

张琪: 1988年生. 博士，讲师. 主要研究方向为智能行为建模、系统仿真

胡越: 1994年生. 博士，讲师. 主要研究方向为智能启发式搜索、系统仿真

尹全军: 1976年生. 博士，研究员. 主要研究方向为建模仿真理论、复杂系统行为建模

通讯作者:
胡越（huyue11@nudt.edu.cn）

中图分类号: TP391
计量
- 文章访问数: 591
- HTML全文浏览量: 138
- PDF下载量: 244
出版历程
- 收稿日期: 2022-05-16
- 修回日期: 2022-09-15
- 网络出版日期: 2023-04-13
- 刊出日期: 2023-09-30

Exploration Approaches in Deep Reinforcement Learning Based on Intrinsic Motivation: A Review

College of Systems Engineering, National University of Defense Technology, Changsha 410073

Funds: This work was supported by the National Natural Science Foundation of China (62103420, 62103428, 62306329) and the Natural Science Foundation of Hunan Province (2021JJ40702, 2023JJ40676).

More Information

Author Bio:
Zeng Junjie: born in 1996. Master, research associate. His main research interests include reinforcement learning and system simulation

Qin Long: born in 1984. PhD, associate researcher. His main research interest includes complex system modeling and simulation

Xu Haotian: born in 1998. PhD candidate. His main research interests include multi-agent system and intelligent behavior modeling

Zhang Qi: born in 1988. PhD, lecturer. His main research interests include intelligent behavior modeling and system simulation

Hu Yue: born in 1994. PhD, lecturer. His main research interests include intelligent heuristic search and system simulation

Yin Quanjun: born in 1976. PhD, researcher. His main research interests include theory of modeling and simulation, and behavior modeling in complex systems

摘要

摘要:
近年来，深度强化学习(deep reinforcement learning, DRL)在游戏人工智能、机器人等领域取得了诸多重要成就. 然而，在具有稀疏奖励、随机噪声等特性的现实应用场景中，该类方法面临着状态动作空间探索困难的问题. 基于内在动机的深度强化学习探索方法是解决上述问题的一种重要思想. 首先解释了深度强化学习探索困难的问题内涵，介绍了3种经典探索方法，并讨论了这3种方法在高维或连续场景下的局限性；接着描述了内在动机引入深度强化学习的背景和算法模型的常用测试环境，在此基础上详细梳理各类探索方法的基本原理、优势和缺陷，包括基于计数、基于知识和基于能力3类方法；然后介绍了基于内在动机的深度强化学习技术在不同领域的应用情况；最后总结亟需解决的难以构建有效状态表示等关键问题以及结合表示学习、知识积累等领域方向的研究展望.
- 深度强化学习 /
- 探索 /
- 内在动机 /
- 内在奖励 /
- 启发式
Abstract:
In recent years, deep reinforcement learning has made many important achievements in game artificial intelligence, robotics and other fields. However, in the realistic application scenarios with sparse rewards and random noises, such methods are suffering much from exploring the large state-action space. Introducing the notion of intrinsic motivation from psychology into deep reinforcement learning is an important idea to solve the above problem. Firstly, the connotation of the difficulty of exploration in deep reinforcement learning is explained, and three classical exploration methods are introduced, and their limitations in high-dimensional or continuous scenarios are discussed. Secondly, the background of the introduction of intrinsic motivation into deep reinforcement learning and the common testing environments of algorithms and models are described. On this basis, the basic principles, advantages and disadvantages of various exploration methods are analyzed in detail, including count-based, knowledge-based and competency-based approaches. Then, the applications of deep reinforcement learning based on intrinsic motivation in different fields are introduced. Finally, this paper throws light on the key problems that need to be solved for more advanced algorithms, such as the difficulty in constructing effective state representation, and also pinpoints some prospective research directions such as representation learning and knowledge accumulation. Hopefully, this review can provide readers with guidance of designing suitable intrinsic rewards for problems in hand and devising more effective exploration algorithms.
- deep reinforcement learning (DRL) /
- exploration /
- intrinsic motivation /
- intrinsic rewards /
- heuristic
https://github.com/mgbellemare/Arcade-Learning-Environment

https://github.com/rllab/rllab

https://github.com/mwydmuch/ViZDoom

https://gym.openai.com

HTML全文

强化学习（reinforcement learning, RL）是监督学习、无监督学习之外的另一机器学习范式, 通过设置反映目标任务的奖励函数, 驱动智能体在与环境的交互与试错中学习能使累计收益最大化的策略^[1]. 强化学习一般采用马尔可夫决策过程（Markov decision process, MDP）进行问题形式化描述. MDP可表示为五元组 $M=(⟨S,A,P,R,\gamma ⟩)$ , 其中 $S$ 表示一个有限的状态集合; $A$ 表示一个有限的动作集合； $P:S\times A\to {\mathcal{P}}_{S}$ 表示状态转移分布，即 $P(s,a)$ 为智能体在状态 $s\in S$ 下采取动作 $a\in A$ 的后继状态的概率分布； $R:S\times A\to {\mathcal{P}}_{\mathbb{R}}$ 表示奖励分布，即 $R(s,a)$ 为智能体在状态 $s$ 下采取动作 $a$ 能够获得的奖励值的概率分布； $\gamma \in \left[\mathrm{0,1}\right]$ 为折扣因子.

初始时, 智能体处于按照某种规则设定的初始状态 ${s}_{0}\in S$ , 然后采取动作 ${a}_{0}$ 将环境状态转移至 ${s}_{1}\sim P({s}_{0},{a}_{0})$ , 并获得即时奖励 ${r}_{0}\sim R({s}_{0},{a}_{0})$ . 按此步骤, 循环往复. 强化学习智能体的目标是学习一个策略 $\pi :S\to {\mathcal{P}}_{A}$ ,表示从状态到动作概率的映射. 在该策略下定义的价值函数为 ${V}^{\pi }\left({s}_{t}\right)$ , 动作价值函数为 ${Q}^{\pi }({s}_{t}, {a}_{t})$ , 其中 ${s}_{t}\in S$ 和 ${a}_{t}\in A$ 为时刻 $t$ 下的状态和动作. 价值函数公式为

$\begin{array}{r}{V}^{\pi }\left({s}_{t}\right)=E\left[\displaystyle\sum _{i=0}^{\infty }{\gamma }^{i}{r}_{t+i}\right],\end{array}$

(1)

其中期望值E在 $P$ 和 $R$ 的概率分布下计算得到. 所有可行策略中的最优策略记为

$\begin{array}{r}{\pi }^{*}=\underset{\pi }{\mathrm{arg}\;\mathrm{m}\mathrm{a}\mathrm{x}}{V}^{\pi }\left({s}_{t}\right).\end{array}$

(2)

在最优策略下的价值函数为最优价值函数，记为

$\begin{array}{r}{V}^{*}\left({s}_{t}\right)={V}^{{\pi }^{*}}\left({s}_{t}\right).\end{array}$

(3)

深度强化学习（deep reinforcement learning, DRL）是在强化学习提供的最优决策能力的基础上, 结合深度学习（deep learning, DL）强大的高维数据表征能力来拟合价值函数或策略, 进而基于交互样本训练得到最优价值函数或最优策略, 被认为是结合感知智能和认知智能的有效方法.

深度强化学习在游戏人工智能、机器人、自然语言处理、金融等诸多领域取得了超越人类的性能表现^[2-3], 但在具备稀疏奖励、随机噪声等特性的环境中, 难以通过随机探索方法获得包含有效奖励信息的状态动作样本, 导致训练过程效率低下甚至无法学习到有效策略^[4]. 具体来说, 一方面现实应用中往往存在大量奖励信号十分稀疏甚至没有奖励的场景. 智能体在这类场景探索时需要执行一系列特定的动作, 以到达少数特定的状态来获得奖励信号, 这使得在初始时缺乏所处环境知识的智能体很难收集到有意义的奖励信号来进行学习. 例如, 多自由度机械臂在执行移动物体任务中, 需要通过系列复杂的位姿控制将物体抓取并放置到指定位置, 才能获得奖励. 另一方面, 现实环境往往具有高度随机性, 存在意料之外的无关环境要素（如白噪声等）, 大大降低了智能体的探索效率, 使其难以构建准确的环境模型来学习有效策略. 例如, 部署应用在商场的服务机器人在执行视觉导航任务时, 既要受到商场中大量的动态广告图片或视频的传感干扰, 又可能面临动作执行器与环境交互时的结果不确定性, 同时长距离的导航任务也使其难以获得有效正奖励信号. 因此深度强化学习领域亟需解决探索困难问题, 这对提高DRL的策略性能和训练效率都十分重要.

针对奖励稀疏、随机噪声等引起的探索困难问题, 研究者们提出了基于目标、不确定性度量、模仿学习等的探索方法, 但对任务指标的提升效果有限, 并增加了额外的数据获取的代价. 近年来, 源自心理学的内在动机（intrinsic motivation）概念因对人类发育过程的合理解释, 逐渐被广泛应用在DRL的奖励设计中以解决探索问题, 成为了ICML, ICLR, NeurIPS, ICRA等顶级学术会议上的热点方向, 受到来自清华、斯坦福、牛津、谷歌等顶级高校与研究机构的关注. 虽然已有文献[5-8]介绍内在动机在深度强化学习领域的研究现状, 但据我们所知, 尚没有文献全面深入研究各类基于内在动机的DRL探索方法, 并逐步深入讨论其应用于贴近真实世界的复杂动态场景中所面临的关键问题以及未来的发展方向. 我们从出发点、研究角度分析了相关综述文献与本文的主要区别, 如表1所示.

表 1 本文与已发表相关论文的异同

Table 1. Similarities and Differences of Our Paper Compared with Published Related Papers

相关综述	出发点	研究角度	与本文的主要区别
文献[5]	解决RL面临的抽象动作（及其时序）和抽象状态表示, 以及在其基础上的高层序贯决策问题.	借鉴发育学习理论, 依托分层强化学习、课程学习、状态表征等方法, 详细阐述了如何结合内在动机与深度强化学习方法帮助智能体获取知识和学习技能.	该文重点阐述发育学习理论中2种主要的内在动机模型如何与RL相结合, 以解决稀疏奖励、表征学习、option发现、课程学习等问题, 然而对于内在动机如何解决各类探索问题并未深入研究.
文献[6]	为适应学习系统的行为, 研究如何优化值函数集合的学习问题.	将并行价值函数学习建模为强化学习任务, 在提出的并行学习测试环境中, 基于带非静态目标的在线多预测任务设定, 研究和比较不同的内在奖励机制的表现.	该文重点研究如何利用内在奖励从共享的经验流中学习价值函数集合, 以适应内在驱动学习系统的行为.
文献[7]	解决深度强化学习和多智能体强化学习在现实场景中的广泛应用和部署面临的瓶颈挑战——探索问题.	从单智能体和多智能体角度出发, 系统性阐述了各类探索方法在深度强化学习领域的研究情况, 并在常见的基准环境中对典型的探索方法进行了综合对比.	该文聚焦于阐述覆盖深度强化学习和多智能体强化学习的解决探索问题的多类方法, 基于内在动机的方法并非该论文的研究重点, 因此导致基于内在动机的探索方法覆盖面较小, 讨论深度不够.
文献[8]	解决未知且随机环境中序贯决策面临的探索问题.	从智能体探索使用的信息类型出发, 全面阐述了无奖励探索、随机动作选择、基于额外奖励或基于优化的探索等方法在基于MDP的强化学习领域的研究情况.	该文聚焦于为强化学习解决序贯决策问题中所涉及到的探索方法提供广泛的高层综述, 仅初步介绍了一些基于内在动机的探索方法.

下载: 导出CSV

| 显示表格

基于上文梳理的深度强化学习面临的探索困难问题, 本文首先介绍3种经典探索方法以及它们在高维或连续场景下的局限性, 接着全面梳理3类不同的基于内在动机的DRL探索方法的基本原理、优势和缺陷, 随后介绍上述基于内在动机的方法在不同领域的应用情况, 最后总结亟需解决的关键问题以及发展方向.

1. 经典探索方法

为提高智能体在未知环境中的探索效率, 研究者们提出了简单的随机扰动方法, 例如 $\varepsilon$ -贪婪方法. 除此之外,研究者们在小规模状态动作空间下提出了许多具有理论保证的经典探索方法, 并推导出对应的累计后悔值或样本复杂度的理论上界. 根据统计学中认识世界不确定性的观点, 本文将它们分为频率派方法与贝叶斯派方法.

1.1 随机扰动方法

随机扰动方法可按照加入噪声的位置差异分为2类: 一是在动作选择的过程中增加随机性或噪声, 如在 $\varepsilon$ -贪婪算法中, 以 $1-\varepsilon$ 的概率选择当前估值最高的动作, 以 $\varepsilon$ 的概率在所有动作中随机选择. 在此基础上, Boltzmann策略在学习初期设置较大的 $\varepsilon$ 值以促进探索, 使 $\varepsilon$ 值随学习过程逐渐减小, 当策略收敛后完全利用当前模型以持续获得最大奖励. 类似地, 深度确定性策略梯度算法^[9]对策略网络输出的动作加入随机噪声过程进行扰动, 以此增加探索. 二是在拟合策略的网络参数上加入噪声, 比如参数空间噪声模型^[10]和NoisyNet模型^[11]等.

1.2 频率派方法

频率派基于实际数据样本的估计来衡量状态的不确定性, 在数据量有限的情况下一般采用带有置信水平的区间估计方法. 以随机多臂赌博机（multi-arm bandit, MAB）问题为例^[12]，假设某赌博机有 $K\in {\mathbb{N}}_{+}$ 条垂臂, 每次可拉下其中1条 $i\in \{\mathrm{1,2},…,K\}$ , 即动作 ${a}_{t}\in \{{1,2},…,K\}$ . 每条垂壁对应的奖励值符合概率分布 ${r}_{i}\sim {R}_{i}$ , 期望为 ${u}_{i}$ , 基于当前样本的均值为 ${\overline{u}}_{i}$ . 记当前总步数为 $T$ , ${n}_{t}\left(a\right)$ 为到时刻 $t$ 为止动作 $a$ 被选中的次数, 因此有 $\sum\limits_a {n}_{t}\left(a\right)=T$ . 根据大数定理, 有 $\mathop {{\mathrm{l}\mathrm{i}\mathrm{m}} }\limits_{{{n}_{t}\left(a\right)\to \mathrm{\infty }}}{\overline{u}}_{t}\left(a\right)= u\left(a\right)$ . 又根据Hoeffding集中不等式, $u\left(a\right)$ 所在的区间的置信度为 $1-\dfrac{2}{{T}^{2\alpha }}$ , 如式（4）所示：

$u\left(a\right)\in \left[{\overline{u}}_{t}\left(a\right)-\sqrt{\frac{\alpha \mathrm{log}T}{{n}_{t}\left(a\right)}},{\overline{u}}_{t}\left(a\right)+\sqrt{\frac{\alpha \mathrm{log}T}{{n}_{t}\left(a\right)}}\right],$

(4)

其中 $\alpha$ 为正数, $\sqrt{\dfrac{\alpha \mathrm{log}T}{{n}_{t}\left(a\right)}}$ 为置信半径, $\overline{u}\left(a\right)+\sqrt{\dfrac{\alpha \mathrm{log}T}{{n}_{t}\left(a\right)}}$ 称为上置信界（upper confidence bound, UCB）. 从上述理论结果可以看出, 在同等置信水平下, 选中次数较少的动作对应置信区间较大, 即区间估计的不确定性更大. 随着实验次数增加, 各个动作的置信区间都逐渐减小, 置信度也逐渐提高.

据此提出的UCB算法按照“面对不确定性的乐观”（optimism in the face of uncertainty, OFU）哲学^[13], 在时刻 $t$ 遵循原则选择动作:

${a}_{t}=\underset{a\in A}{\mathrm{arg}\;\mathrm{m}\mathrm{a}\mathrm{x}{f}_{\mathrm{U}\mathrm{C}\mathrm{B}}^{t}}\left(a\right)，$

(5)

其中， ${f}_{\mathrm{U}\mathrm{C}\mathrm{B}}^{t}$ 是 UCB值的计算函数，较大的UCB值既可能表明过往通过选择动作 $a$ 获得的平均奖励值较高, 也可能是因为选择该动作次数较少. 因此, UCB算法可以有效提高探索效率, 并兼顾利用策略带来的累积收益, 而无需显性地识别已知或未知动作.

除MAB问题外, 大量研究成果将带有置信水平的区间估计作为工具扩展到不同的MDP场景中, 推导出不同的值函数更新策略以及对应的样本复杂度. 例如, MBIE-EB（model-based interval estimation-exploration bonus）^[14]在回合制MDP的背景下, 通过推导状态动作对奖励值和状态转移向量的上置信界, 提出在状态动作值更新公式中加入探索奖励:

${R}_{\mathrm{E}\mathrm{B}}=\frac{\beta }{\sqrt{n(s,a)}},$

(6)

其中 $\beta$ 是该算法的输入，是一个常量， $n(s,a)$ 是对状态动作对 $(s,a)$ 的已访问次数.

此外, 依托基于模型的RL方法有UCRL2^[15]和 UCBVI^[16]等基于UCB的探索方法, 依托无模型的RL方法包括UCB-H和UCB-B等^[17].

1.3 贝叶斯派方法

贝叶斯学派观点认为, 面对未知环境人们维护着对于所有可能模型的概率分布以表达其不确定性, 随着观测证据的增多, 后验分布一般比先验分布更能反映不同备选模型与真实模型的接近程度. 由于在选择动作时不仅依据观测状态, 也必须考虑对信念状态的更新, 贝叶斯强化学习方法被认为有助于提高探索效率, 防止陷入局部最优, 且同时考虑利用现有策略最大化累积收益^[18]. 其在无折扣MDP下对应的贝尔曼最优方程为

$\begin{split} {V}_{H}^{\mathrm{*}}(b,s) =&\underset{a}{\mathrm{m}\mathrm{a}\mathrm{x}}\left\{R\right(s,a)+\\ & \sum _{s'}P\left(s'\right|b,s,a\left){V}_{H-1}^{{*}}\right(b',s')\}, \end{split}$

(7)

其中 $s$ 和 $s'$ 为前状态与后继状态, $b$ 和 $b'$ 为前信念状态与后继信念状态, $H$ 表示从 $s$ 开始接下来 $H$ 个步长. 然而, 信念状态的数量与观测状态和动作数量成指数关系, 难以用值迭代等方法精确计算得到最优贝叶斯策略. 为此, 研究者们设计了许多近似或采样方法以在多项式步数内得到贝叶斯意义上的次优策略. 例如, 基于启发式贝叶斯的BEB（Bayesian exploration bonus）^[18]算法, 通过在式（7）对应的更新公式右侧加入探索奖励:

${R}_{\mathrm{B}\mathrm{E}\mathrm{B}}=\frac{\beta }{1+n(s,a)},$

(8)

使其可以通过迭代方法得到贝叶斯次优值函数 ${V}_{H}(b,s)\ge {V}_{H}^{\mathrm{*}}(b,s)-$ ε , 其中 ε $> 0$ . 与基于UCB的MBIE-EB^[14]算法相比, BEB算法的探索奖励随观测次数的增多而衰减的速度更快, 因此所需探索样本复杂度也更低.

贝叶斯方法中另一类经典方法是汤普森采样框架^[19]，它以状态转移概率等系统参数的先验概率分布为起始, 通过迭代逐步接近真实的模型参数. 在此框架基础上, 研究者们提出了各种利用采样方法近似求解贝叶斯MDP模型的方法^[20-21].

1.4 小　结

随机扰动方法缺少对具体状态和动作探索作用的评估, 难以依据对状态的某种度量引导探索过程, 因此无法形成有启发性的探索过程, 也被称为无指导探索^[22]. 频率派方法或贝叶斯派方法, 大多仅是在小规模场景中推导出了样本复杂度或期望后悔值的上界, 具有一定理论保证, 但很难直接应用到更加复杂的环境如具有动态性和不确定性的实际场景. 例如MEIB-EB^[14]和BEB^[18]算法都需要对状态动作对有准确的计数, 在小规模的状态和动作空间条件下是可行的, 但无法应用于动态、高维或连续场景中, 亟需启发性更强、计算效率更高的探索方法.

2. 基于内在动机的深度强化学习探索方法

为解决大规模状态动作空间中由稀疏奖励、随机噪声干扰等产生的探索困难问题, 研究者们提出了基于目标、不确定性度量和内在动机等深度强化学习探索方法^[7-8]. 基于目标探索的方法通过对兴趣状态进行分析来生成探索性子目标, 同时对如何到达子目标的过程进行控制, 以提高智能体在复杂环境中的探索效率. 这类方法偏规划, 重点在于存储状态和轨迹信息, 并根据存储的信息规划生成子目标点, 然后学习如何到达子目标点. 基于不确定性度量的方法通常采用价值函数的贝叶斯后验来显示建模认知不确定性, 或者采用分布式价值函数来额外评估环境内在不确定性, 以鼓励智能体探索具有高度认知不确定性的状态动作对, 并尽量避免访问具有高度内在不确定性的区域. 该方法更多偏向于挖掘价值函数中的不确定性, 体现的是计算思维.

与基于目标探索的方法和基于不确定性度量的方法相比, 本文所关注的基于内在动机的方法从行为学和心理学中内在动机驱动高等生物自主探索未知环境的机理出发, 将“新颖性”等多种源自内在动机的启发式概念形式化为内在奖励信号, 以驱动智能体自主高效探索环境, 体现的是一种更抽象和拟人的思维. 具体来说, 内在动机源于高等生物在追求提高自主性和能力或掌控力的过程中获得的愉悦感, 是驱动无外界刺激条件下探索未知环境的动力. 内在动机在DRL中, 可以被映射为内在奖励信号^[23], 与基于值函数或策略梯度的深度强化学习方法相结合, 形成具备强启发性的探索策略, 以提高智能体探索复杂未知环境的效率.

如何在内在奖励信号中形式化“新颖性”“好奇心”“学习提升”“多样性”“控制力”等源自内在动机的启发式概念, 是设计基于内在动机的DRL探索方法的关键内容. 根据内在奖励信号的不同启发式来源并参考文献[24]中设想的各类基于内在动机的计算框架, 本文将基于内在动机的深度强化学习探索方法主要分为3类: 基于计数的方法、基于知识的方法和基于能力的方法，如图1所示.

图 1 基于内在动机的深度强化学习探索方法分类

Figure 1. Method classification of exploration approaches in deep reinforcement learning based on intrinsic motivation

下载: 全尺寸图片幻灯片

2.1 内在动机的背景

为便于深入理解基于内在动机的DRL探索方法构建的强启发性探索策略, 本节从行为学和心理学的角度阐述了内在动机的概念和功能.

2.1.1 概　念

内在动机是源自行为学和心理学的概念, 对它的发现和讨论最早见于1950年Harlow^[25]对于猕猴在无任何外界奖励条件下数小时乐此不疲地解决特制机械谜题现象的解释. 类似现象的不断发生打破了此前动机理论或驱动力理论的观点, 即所有行为都是受生理需求（如饥渴、疼痛、性需求）的直接驱动^[26]. 此后数十年间, 心理学家、神经生物学家等对内在动机的机理和功能的研究持续不断^[27-28].

总体上说, 内在动机来自人们对各类能够提供新颖性、惊奇、好奇心或挑战的活动的最自然的兴趣^[29]. 在进行这类活动时, 大脑能够感受到动态的愉悦、兴奋或满足感, 驱使人们关注过程本身（例如探索未知环境、了解未知知识、掌握新技能等过程）, 而非关注外界的奖惩信号. 从技能学习角度出发, 有研究人员认为对认知的挑战在一定限度内（既不过分困难又不过于容易），学习提升明显的探索任务是最能激发大脑兴趣的场景^[30]. 此外, 设定符合发育心理学观点的难度和复杂度递增的学习进程, 能够稳步推进对多元化技能和知识的掌握, 从而有效提升探索未知环境的效率和能力^[31]. 总而言之, 内在动机的本质可以理解为大脑对实现自主性和提高能力或掌控力的追求^[32].

2.1.2 功　能

内在动机有别于以外在奖励的形式为人们所熟知的外在动机（extrinsic motivation）. 从进化意义上来说, 2种动机驱动的行为都能够提高生物体对环境的适应能力、增加存活和繁殖的概率, 但却具有各自不同的实现途径^[33]. 外在动机以身体恢复内稳态为目标, 通过生物体与外部环境的交互来学习特定的策略, 以增强个体对外界动态环境的适应力. 因此外在动机产生的学习信号强弱与内稳态需求紧密相关. 内在动机产生的信号则来源于大脑神经信号, 通常不与身体的内稳态、特定任务目标直接相关, 会促使生物体在探索环境的过程中获取更丰富的知识, 提升自身技能水平, 以产生和掌握有助于完成外界任务的复杂长序列行为^[34]. 因此内在动机信号的强弱与获得知识或提升技能的过程密切相关.

2.2 常用测试环境

本节梳理了基于内在动机的DRL探索方法的常用测试基准环境, 以方便比较各类探索方法的性能表现：

1）Atari街机游戏集^[35]
1. 该游戏集中共57个游戏, 其中有7个奖励非常稀疏、探索难度较高的游戏（Atari hard exploration games, Atari-HEG）, 其包括Atari-MR （Atari Montezuma’s Revenge）和Atari-FW （Atari Freeway）等, 如图2（a）（c）所示.

图 2 常用测试环境示例

Figure 2. Examples of common test environments

下载: 全尺寸图片幻灯片

2）多自由度的连续控制任务环境rllab^[36]
2. 该环境包括基本任务（如Pendulum）和多类型的运动控制（如Swimmer, Ant, Half-Cheetah等）, 见图2（b）.

3）游戏Doom的3维仿真环境VizDoom^[37]
3. 高维的图像输入、部分可观的场景以及结构复杂的迷宫环境, 如Doom-MWH （Doom MyWayHome）, 见图2（d）. 一般要求在初始环境未知条件下, 进行探索或目标驱动的导航.

4）OpenAI Gym^[38]
4. OpenAI开发的工具箱, 集成了包括Atari、棋类游戏、采用MuJoCo物理引擎的rllab任务和Doom等, 并设计了公共接口.

2.3 基于计数的方法

在高维连续环境中, 难以采用表格化的方式来表示状态, 并且几乎没有任何2个观测状态完全相同, 绝大多数状态的真实访问次数都不会超过1次, 直接采用经典探索理论方法中基于频率派或贝叶斯派的方法, 得到的计数值无法有效衡量状态新颖性. 针对上述问题, 基于计数的方法一方面借鉴了UCB算法的思路, 继承了“面对不确定性的乐观”思想, 即向访问次数较少的状态或状态动作对赋予更高的奖励, 以鼓励智能体尽快探索状态空间的未知部分；另一方面采用基于相似性的状态泛化的解决思路. 该类方法的实现途径包括伪计数方法^[39]和状态抽象方法^[40], 其中伪计数方法可细分为基于密度模型的伪计数和间接伪计数方法.

2.3.1 基于密度模型的伪计数方法

由于在高维或连续环境条件下无法对状态或状态动作对的出现次数进行准确计量, 那么一个自然的思路便是寻找具有类似性质的变量以代替真实计数. 具有开创性和奠基性的工作是Bellemare等人^[39]发表于2016年的基于密度模型的伪计数（pseudo-count, PC）算法. 它隐性地利用了状态间的相似性, 若当前状态与此前出现过的其他状态较为相似, 则将其赋予相近计数值, 从而一定程度实现了邻近状态间的泛化, 并避免了统计真实次数的需要. 其中用到的上下文树切换（context tree switching, CTS）的密度模型^[41-42], 其本质是生成式模型. 式（9）（10）（11）简要说明了PC的计算过程:

${\rho }_{n}\left(x\right)=\rho (x;{x}_{1:n})=\frac{{\hat{N}}_{n}\left(x\right)}{\hat{n}},$

(9)

$\rho {'}_{n}\left(x\right)=\rho (x;{x}_{1:n}x)=\frac{{\hat{N}}_{n}\left(x\right)+1}{\hat{n}+1},$

(10)

${\hat{N}}_{n}\left(x\right)=\frac{{\rho }_{n}\left(x\right)(1-\rho {'}_{n}(x\left)\right)}{\rho {'}_{n}\left(x\right)-{\rho }_{n}\left(x\right)}.$

(11)

如式（9）所示, ${\hat{N}}_{n}\left(x\right)$ 表示伪计数函数, $\hat{n}$ 表示总伪计数值, $\rho (x;{x}_{1:n})$ 是时刻1~ $n$ 的状态序列 ${x}_{1:n}$ 条件下状态 $x$ 出现的条件概率, 通过CTS技术计算, 用以表示 ${\hat{N}}_{n}\left(x\right)$ 与 $\hat{n}$ 的比值. 通过联立递推式（10）, 即可得到 ${\hat{N}}_{n}\left(x\right)$ 的计算式（11）.

参考MBIE-EB^[14]的奖励设置方式, PC采用了额外探索奖励:

${r}_{n}^+(x,a)=\frac{\beta }{\sqrt{{\hat{N}}_{n}(x,a)+0.01}}.$

(12)

加入额外探索奖励的改进DDQN （double deep q-network）^[43]算法在探索难度巨大的Atari-MR游戏中, 将分数从此前算法的基本0分提高到了均值超过3000分, 成为一大突破. 该算法可将基于计数的探索方法泛化到大规模状态空间, 且存在理论上最优性保证, 然而其采用的CTS模型在可解释性、可扩展性和数据高效性方面受限.

为解决CTS模型面临的问题, Ostrovski等人^[44]采用基于PixelCNN （pixel convolutional neural networks）^[45]的卷积神经网络密度模型替换CTS模型. PixelCNN 估计的计数更为准确和更具可解释性, 且提高了训练速度和稳定性. 在Atari-MR场景中, 与PC算法相比, PixelCNN 的预测收益更加平滑, 在新颖事件出现时才会给予更强烈的信号, 使其得分达到了6600分.

然而, PixelCNN 和PC这2种算法都是在原始状态空间上构建密度模型来估计计数, 对于未访问过的高维复杂状态的泛化性较差. 针对此问题, Martin等人^[46]提出的 $\varphi$ -EB （ $\varphi$ -exploration bonus）算法在基于原始状态空间编码得到的特征空间上构建密度函数, 提高了训练数据的利用率, 增强了在大规模状态空间的泛化性.

总之, 这类伪计数方法通过密度模型在一定程度上实现了邻近状态间的计数值泛化, 并基于OFU设计额外探索奖励, 可有效应对大规模状态空间中的探索困难问题, 但是当观察数据更为复杂时, 比如VizDoom^[37]中以自我为中心的图像观察, 会导致其依赖的生成式模型的训练非常困难.

2.3.2 间接伪计数方法

与基于密度模型的伪计数方法不同, 间接伪计数方法无需构建状态或观察的生成式模型, 可通过设计相关的变量或模型, 来间接估计状态或状态动作对的真实访问次数, 然后在此基础上设计内在奖励, 以启发智能体在复杂环境下进行探索.

例如, UC Berkeley的Fu等人^[47]提出的 ${\mathrm{E}\mathrm{X}}^{2}$ （exploration with exemplar models）算法通过训练模板模型作为分类器, 输出当前状态与此前访问的各个状态的差异程度以衡量状态的新颖性, 并推导出这一输出与状态访问次数间的关系. 该算法的优点是不需要依赖密度模型等生成式或预测模型, 可以有效应对观察或状态更为复杂的环境, 然而其模板模型在训练过程中遇到过拟合和欠拟合问题时, 仅能通过手动调节超参数来缓解. 基于这一隐式计数的内在奖励, 该算法在更为复杂的Doom-MWH任务的性能表现明显优于其他基于生成式模型的方法.

Choshen等人^[48]提出了DORA （directed outreaching reinforcement action-selection）算法, 提出了探索价值（ $\mathrm{E}$ -value）的概念, 可作为泛化的计数器来估计访问次数. 类似于动作价值函数的定义, 状态动作对 $(s,a)$ 的探索价值, 不仅代表在 $(s,a)$ 处值得探索的知识, 还应反映 $(s,a)$ 的后续状态序列蕴含的潜在知识. 因此, DORA模仿Q-learning的状态动作值更新方式设定了 $\mathrm{E}$ -value的更新规则. 该算法设计的探索价值不仅考虑了当前状态的不确定性, 还考虑了后续状态的不确定性, 可以更精确地估计访问次数. DORA算法在Atari-FW游戏中取得了30左右的均分, 是基于CTS密度模型的伪计数方法^[39]得分的2倍.

Machado等人^[49]受后继表示（successor representation, SR）对环境结构的表达能力的启发^[50], 采用SR范数的倒数作为内在奖励来鼓励探索.该算法无需依赖任务领域相关知识（如密度模型等）来估计状态计数, 对于进一步研究表征学习与探索之间的联系有较好的启发作用. 与CTS^[39]和PixcelCNN^[44]密度模型的伪计数方法相比, 该算法在Atari-MR等探索困难的场景中, 取得了性能相当的效果.

总之, 间接伪计数方法无需依赖观察或状态的生成式模型, 可借鉴其他领域的思想来灵活设计相关变量与模型对状态的真实计数进行估计, 大大提高了伪计数方法的泛化性以及处理复杂高维观察的能力, 进一步扩展了伪计数方法的应用范围.

2.3.3 基于状态抽象的计数方法

针对大规模或连续状态空间中难以采用真实计数获得启发信息的问题, 基于密度模型和间接的伪计数方法采用伪计数方式来估计访问次数, 但计数值的估计在绝大多数的情况下存在一定偏差, 会影响由此计算得到的内在奖励的准确性. 与这2类方法相比, 基于状态抽象的计数方法采用抽象状态的方式压缩状态空间来避免或降低伪计数的偏差. 其核心是相似性度量^[51], 使得在状态转移关系中相近的具体状态可以获得相似的抽象表示^[52].

例如, UC Berkeley的Tang等人^[53]提出 $\#$ Exploration算法运用Hash函数将高维状态映射到整数空间, 即 $\varphi :S\to \mathbb{Z}$ , 再定义探索奖励为 $\dfrac{\beta }{\sqrt{n\left(\varphi \right(s\left)\right)}}$ . 为在Hash码上将差异明显的状态区分开, 该算法采用局部敏感Hash 中的SimHash技术, 用角距离度量状态间的相似度^[54]. 此外还提出了基于自编码器（autoencoder, AE）学习的AE-SimHash, 以适应特征提取较困难的高维状态环境. 该算法采用Hash函数离散化状态空间的方法, 可有效解决高维连续状态空间中的状态计数问题, 但是其严重依赖Hash函数的选择来确保合适的离散化粒度.

为解决抽象状态仅依赖观测相似性而忽视了任务相关特征的问题, Choi等人^[40]提出了CoEX （contingency-aware exploration）算法. 该算法借鉴了认知科学中常用的概念contingency awareness^[55], 即大脑在发育过程中逐渐能够意识到自身行为在周围环境中能够产生影响的部分, 从而构建了可解释性强的状态抽象模型——注意动力学模型（attentive dynamics model, ADM）. 该模型主要采用3类信息构成具体状态的表示 $\psi \left({s}_{t}\right)$ , 如式（13）所示:

$\psi \left({s}_{t}\right)=\left({\alpha }_{t},c\left({s}_{t}\right),{R}_{t}^{\mathrm{e}\mathrm{x}\mathrm{t}}\right),$

(13)

其中： ${\alpha }_{t}$ 表示整个可观区域中智能体的可控部分,一般用2维坐标表示； $c\left({s}_{t}\right)$ 表示在Atari-MR等游戏中不同房间的标识, 与 ${\alpha }_{t}$ 构成了2层的空间位置表示； ${R}_{t}^{\mathrm{e}\mathrm{x}\mathrm{t}}$ 表示当前的累积外在奖励, 被用于提供智能体行为的上下文. CoEX算法得到的抽象状态更关注于环境中可控动力学信息, 使得智能体能够获取自身位置等任务特征信息. 得益于合理的抽象状态表示, 在Atari-MR游戏中, 该算法结合PPO （proximal policy optimization）^[56]算法, 通过20亿帧的训练, 取得了超过11000分的成绩, 但是其未能有效抽象环境中不可控元素的动力学信息.

受contingency awareness思想和图像分割方法启发, Song等人^[57]提出了Mega-Reward算法, 认为抽象状态的关键在于提取环境中实体控制特征信息. 文献[]将环境中实体的控制区分为直接控制和隐式控制, 前者可直接采用ADM^[40]进行抽象, 后者需要关系转移模型来建立其与前者的联系.该算法对不同控制力进行量化学习与加权求和得到累计的控制力, 并以其数值的时间差分作为内在奖励. 虽然该算法与ADM^[40]提供了新的状态抽象思路, 但 ${\alpha }_{t}$ 等抽象特征都与Atari游戏全局可观的像素环境紧密相关, 通用性较为有限.

2.3.4 小　结

表2简要总结了本节介绍的主要方法. 尽管基于计数的方法不仅有较强的理论保证（如MEIB-EB^[14]和BEB^[18]等）, 并且能有效扩展到高维环境中（如PC^[39], AE-SimHash^[53]等）, 但其对探索效率的作用依赖于一个基本假设, 即状态访问次数的增加必然能提升模型估计的确定性. 这一假设在静态环境中能够一定程度被满足, 但在动态变化的场景或状态/动作空间层次性较强的场景中, 访问次数与模型估计精度之间很难具有明确关系^[62]. 因此仅采用基于计数值或蕴含计数信息的变量的函数作为内在奖励, 在面对动态场景或动作空间层次性较强的场景时, 其探索效率将显著降低. 另一方面, 这类方法均衡对待所有的状态或区域, 忽略了它们在引导探索进程或积累模型知识方面潜在的差异性, 这种一致性可能导致计算资源分配的不合理以及影响下游任务完成的效果^[6]. 此外, O’Donoghue等人^[63]指出基于OFU原则对MDP进行区间估计可能导致上置信界过分乐观的累计效应, 从而影响探索效率.

表 2 基于计数的主要方法小结

Table 2. Summary of Main Methods Based on Count

分类	算法	内在奖励形式	状态表示	主要测试环境和效果
基于密度模型的伪计数	PC^[39] （NIPS-16）	CTS密度模型+ 伪计数的均方根		Atari-MR: 50M帧训练后得到2461均分, 100M帧训练后得到3439均分.
基于密度模型的伪计数	PixelCNN^[44] （ICML-17）	PixelCNN密度模型+伪计数的均方根		Atari-MR: 100M帧训练后得到6600均分.
间接伪计数	${\mathrm{E}\mathrm{X}}^{2}$ ^[47] （NIPS-17）	判别器评估状态新颖性, 作为间接密度	CNN	Doom-MWH: 平均成功率大于 $74\mathrm{\%}$ , 显著高于VIME^[58], #Exploration^[53], TRPO^[59].
	DORA^[48] （ICLR-18）	探索价值 $\mathrm{E}$ -value 作为间接计数		Atari-FW: DORA^[48]在 $2\times {10}^{6}$ 训练步数内收敛, 而PC需 $1\times {10}^{7}$ 训练步数收敛^[39].
	SR^[49] （AAAI-20）	SR的范数作为伪计数		Atari-HEG: 与PC^[39], PixelCNN^[44], RND^[60]性能相当或略高.
状态抽象	#Exploration^[53] （NIPS-17）	基于状态Hash的计数	Pixel, BASS, AE	Atari-HEG: 在除Atari-MR的问题上比PC^[39]得分高, 在Atari-MR上显著低于PC.
状态抽象	CoEX^[40] （ICLR-19）	基于contingency-awareness状态表示的伪计数	逆动力学预测训练卷积，注意力mask提取位置信息	Atari-HEG: 在大部分问题上都比A3C+^[39], TRPO-AE-SimHash^[53], Sarsa- $\varphi$ -EB^[46], DQN-PixelCNN^[44], Curiosity^[61]效果好.
注：CNN （convolutional neural networks）, TRPO （trust region policy optimization）, RND （random network distillation）.

下载: 导出CSV

| 显示表格

2.4 基于知识的方法

第2大类方法认为人们自主探索的一大动力来自于降低外部环境的不确定性^[64]. 人在发育过程中逐渐形成对于环境运行的知识, 大脑因此对未来的观测状态存在自上而下的期望, 当未来状态与该期望差异明显时, “好奇心”“惊奇”“学习提升”“多样化”等启发性信息将会驱使个体对这一现象进行探究. 这种认知现象在自适应共振^[65]和内在动机^[33]等理论中都有描述. 照此不断修正自我认知的DRL探索方法, 称为基于知识的方法^[24], 大致可以分为基于预测模型^[66]和基于信息论的方法.

2.4.1 基于预测模型的方法

现有大量方法为智能体建立和维护一个对动作结果和状态转移进行预测的模型, 以模型精度表达外部环境的不确定性. 以此预测模型为基础, 智能体根据某些新颖性或可预测性的衡量指标学习价值函数或策略. 依据产生内在奖励指标的不同, 基于预测模型的方法可以分为基于预测误差、预测结果不一致性和预测精度提升的方法.

1）预测误差

早在DRL成为研究热点之前, 基于预测误差的强化学习方法就已受到关注^[23,67-68]. 预测误差是指预测模型的输出与预测对象的真实取值之间的差别, 用来形式化“惊奇”“好奇心”等概念, 也被称为对抗式好奇心^[69]. 这类方法在预测对象是可学习的、确定性的或带有同质噪声的情况下, 学习效率较高^[70]. 然而, 在更实际或复杂的场景中, 它们容易被环境中的不可控成分（如白噪声）严重影响, 而陷入局部状态空间中，导致探索进程受阻. 因此这类方法的研究重点在于预测模型的建构（包括对状态的表示和/或对动力学的预测）能否有效反映与探索相关的观测信息.

较早期的工作包括Stadie等人^[71]2015年提出的模块化框架: 对观测状态进行特征提取 $\sigma :S\to {\mathbb{R}}^{d}$ , 再为智能体建立动力学预测模型 $\mathcal{M}:\sigma \left(S\right)\times A\to \sigma \left(S\right)$ . $\sigma \left({s}_{t}\right)$ 由自编码器的隐藏层提供, $\sigma '\left({s}_{t+1}\right)=\mathcal{M}\left(\sigma \right({s}_{t}),{a}_{t})$ 则由全连接网络训练得到, 而内在奖励则是预测误差 $e({s}_{t},{a}_{t})=\left|\right|\sigma \left({s}_{t+1}\right)-\sigma '\left({s}_{t+1}\right)|{|}_{2}^{2}$ 的函数.虽然该算法实现了构建正向动力学预测模型, 以预测误差的形式提供内在奖励, 但是其编码器易受来自环境的随机噪声干扰, 且在部分Atari游戏上相对Boltzmann策略、Thompson采样和DQN （deep q-network）^[72]的优势比较有限.

除正向的动力学预测模型外, Pathak等人^[61]为去除状态表示中与智能体动作无关的随机部分, 设计逆动力学模型 ${\hat{a}}_{t}=g\left(\phi \right({s}_{t}),\phi ({s}_{t+1});{\theta }_{\mathrm{I}})$ 从状态转移中预测动作. 其中, $\phi$ 为状态表示函数, ${\theta }_{\mathrm{I}}$ 为逆动力学模型的网络参数. 此模型与正向模型 $\hat{\phi }\left({s}_{t+1}\right)=f\left(\phi \right({s}_{t}), {a}_{t};{\theta }_{\mathrm{F}})$ 联合, 以自监督学习方式进行训练, 同时以状态预测误差的2范数平方为内在奖励训练智能体的动作策略. 内在奖励生成模型称为ICM （intrinsic curiosity module）算法. 在稀疏奖励下的VizDoom^[37]环境的导航、空间探索任务下ICM算法的均分是当时的SOTA算法VIME^[58]的2倍以上. ICM算法依靠逆动力学模型可以在一定程度上缓解白噪声问题, 但是其仅考虑动作的即时效果, 无法解决长周期决策中动作效果延时的问题.

与ICM算法类似, Kim等人^[73]提出的EMI （exploration with mutual information）算法除构建正向动力学预测模型外, 也构建了相似的动作预测模型, 但其在状态和动作的嵌入向量基础上人为施加线性的动力学约束和误差. 此外, EMI算法将嵌入特征和动力学模型的学习与内在奖励的生成分离, 规避了ICM算法中逆动力学特征（inverse dynamics features, IDF）预测误差不稳定的问题^[61]. 在探索难度较大的Atari游戏和机器人控制任务中EMI算法取得了相较 ${\mathrm{E}\mathrm{X}}^{2}$ ^[47], ICM^[61], AE-SimHash^[53]等方法更优或可比的结果, 但是无法有效应对长周期决策问题.

为探究不同的状态特征提取方法和不同测试环境对基于动力学模型的ICM效果的影响, Burda等人^[74]将像素级特征（pixels）、权重随机初始化后固定其权重的网络的输出特征向量、变分自编码器（variational autoencoders, VAE）^[75]和ICM算法的IDF分别作为ICM算法中的 $\phi \left({s}_{t}\right)$ . 在不同类型的54个测试场景的实验结果表明, 利用Pixels特征难以学到有效的预测模型, 基于VAE的好奇心模块则表现不稳定；但意想不到的是, RF则在所有环境中取得了与IDF相当的表现, 但其在向未见过的新环境泛化时不如IDF. 上述结果说明, 即使随机的特征提取也能较好地用于表征状态间的差异, 从而表达出环境信息的不确定性. 另外, 当面对状态转移随机性较强的环境（如存在noisy TV等白噪声干扰）时, RF和IDF的学习效率都受到剧烈影响.

相对IDF特征, 随机网络输出的特征是确定的, 不随训练过程而改变, 因此能够提供更稳定的预测误差. 基于这一观察, Burda等人^[60]提出非动力学的预测误差形式化算法, 即预测对象并非状态转移, 而是状态的嵌入式特征向量. 预测目标产生于随机初始化且权重固定的神经网络 $f:S\to {\mathbb{R}}^{k}$ , 预测信号则来自于同结构的预测网络 $\hat{f}:S\to {\mathbb{R}}^{k}$ , 其训练目标是均方误差 $\left|\right|\hat{f}(s;{\theta }_{\hat{f}})-f\left(s\right)|{|}_{2}^{2}$ 的最小化, 即将随机网络的权重向预测网络蒸馏. 因此这一算法称为随机网络蒸馏（random network distillation, RND）. 这一预测误差有效避免了动力学预测中的状态迁移随机性、预测目标不稳定以及预测信号与目标间未知的异质性等问题. 在多个探索困难的Atari场景中, 包括Atari-MR等, RND算法在表现上显著优于基于动力学预测误差的方法, 但其训练步长显著增加, 达到了 $1.97\times {10}^{9}$ 步. 此外, 文献[60]承认RND仅能解决短期决策中的局部探索问题, 不能解决长周期的全局探索问题.

针对环境观察中存在白噪声干扰问题, 一些研究人员考虑利用时序上邻接状态间天然的相似性, 降低新颖性判别时与智能体行为无关的成分^[76-77]. 例如, Savinov等人^[76]提出的EC （episodic curiosity）算法以间隔 $k$ 步以内的状态对为正样本、 $k$ 步以外的状态对为负样本训练一个比对网络 ${C}_{\mathrm{N}\mathrm{e}\mathrm{t}}$ , 用于状态新颖性判别. EC算法在探索过程中建立情节记忆时, 通过 ${C}_{\mathrm{N}\mathrm{e}\mathrm{t}}$ 判断当前状态与记忆中状态的差异性, 若差异显著则加入情节记忆. 其内在奖励是 ${C}_{\mathrm{N}\mathrm{e}\mathrm{t}}$ 输出值的函数. EC算法可以有效应对干扰, 在存在噪声干扰的DMLab场景中, 其均分达到了26, 是ICM算法得分的4倍以上. 然而, EC算法在计算内在奖励时需要比较当前状态和情节记忆中的每个状态的差异, 导致其在大规模状态空间中计算代价过高. Ermolov等人^[77]利用邻近状态对训练了特定的状态隐特征提取网络, 从而在特征表示中去除随机成分, 以其为基础构建前馈的隐世界模型（latent world model, LWM）, 将状态预测误差作为内在奖励. 得益于时序关系启发式思想的利用, LWM算法在多个Atari-HEG环境中取得了优于EMI算法的分数.

另一个引起关注的问题是, 在截断式设定下, 开始新情节时, 某些尚未探索到的区域直接因基于预测模型的内在奖励较低无法得到访问. 为解决此问题, NGU （never give up）^[78]算法中设计了双层的内在奖励机制：情节内（per-episode）, 基于初始清空的情节记忆进行状态相似性比较, 鼓励在多个情节中周期性地重访熟悉但尚未充分探索的状态；情节间（inter-episode）, 训练RND模型输出预测误差作为降调制因子, 逐步降低已熟悉状态的奖励值. 得益于该奖励设计, NGU在Atari-MR上取得了当时最高的得分表现——16800分.

2）预测结果不一致性

1）中提及的基于预测误差的方法仅采用单一预测模型的预测误差作为内在奖励, 容易使探索进程受到随机因素影响. 最近有研究者提出可以利用多个模型预测结果间的不一致性, 表示状态空间的探索程度.

Pathak等人^[79]提出了Disagreement算法, 采用极大似然估计训练一组随机初始化的前向动力学模型, 以不同模型预测的下一时刻状态特征的方差作为内在奖励. 在探索程度较低的区域, 此方差值较大, 可激励智能体加强探索；在较为熟悉的区域, 这些模型的输出都趋向均值, 因此方差较小, 从而避免单模型输出与受随机因素的真实观测间差异较大的情况. 而Shyam等人^[80]提出的MAX （model-based active exploration）算法则利用模型间的信息熵度量其不一致性. 这2种算法利用多模型集成的方式, 可以在一定程度上解决随机噪声干扰的问题, 但由于需要训练多个前向动力学模型导致计算复杂度较高.

Ratzlaff等人^[81]利用生成式模型估计智能体对环境动力学信念的贝叶斯不确定性, 基于此模型的多次采样近似环境的后验表示, 以采样输出的方差作为内在奖励. 在机械臂操控、机器人导航等奖励稀疏的连续场景上的实验结果表明, 该算法的性能表现优于基于模型集成方法^[79-80], 且数据利用率更高.

3）预测精度提升

利用基于预测误差值设计的内在奖励启发智能体探索环境容易因预测误差自身的偏差影响探索过程的稳定性. 针对此问题, 早在1991年, Schmidhuber^[51]提出可以量化预测模型的精度提升, 以产生内在奖励信号, 在量化内在动机和驱动探索方面更具鲁棒性. 具体而言, 在对于降低预测误差没有帮助的任务场景（如远远超出当前技能的挑战、早已熟练掌握的任务以及完全随机而不可控不可学习的环境状态）, 智能体不会陷入其中而会寻找对于学习效果更有提升的状态动作空间. 因此这类内在奖励的形式化方法能促进智能体像人类一般具有稳健而循序渐进的心智发育和技能掌握^[23,70].

早期的一些工作包括Oudeyer等人^[70]在2007年提出的基于区域划分的预测误差进步评估方法. Lopes等人^[62]在2012年以负对数似然作为预测误差, 以 $k$ 步内误差的提升作为精度提升的量化, 用它替代BEB^[18]算法中的访问计数, 在简单环境下的探索效率取得显著提升. 近些年, Graves等人^[82]在模型预测的损失函数基础上, 渐进地设计了多种损失降低（即精度提升）或模型复杂度（即数据编码的容量）提升的奖励信号. 该算法在合成语言建模等任务上显著提升了学习效率, 在某些情况下甚至提高了1倍的学习效率.

4）小结

为方便对比, 表3对各类基于预测模型的主要算法进行了简要总结, 列写了它们的内在奖励设计形式、状态表示方法、抗噪能力以及实验效果等. 从文献数量和年份来看, 预测误差仍然是这类方法中最主要的“好奇心”内在动机形式. 其中因为对环境状态的预测天然地容易受到环境噪声的影响, 必须辅以谨慎的状态特征提取方法, 才能使智能体仅关注具有探索价值的状态子空间. 例如, 尽管ICM^[61]考虑利用逆动力学预测任务, 在状态表示中仅保留对智能体有影响的特征, 但当噪声与智能体动作存在关联时, ICM也无法较好地从噪声区域摆脱^[74]. 而LWM^[77]所依靠的辅助任务则与状态间的时序关系相关, 其特征表示的意义更加明确. 另外, RND^[60]提供了改变预测对象来提升探索效率的新思路.

表 3 基于预测模型的主要算法小结

Table 3. Summary of Main Algorithms Based on Predictive Models

算法类型	算法	内在奖励形式	状态表示	抗噪	主要测试环境和效果
基于预测误差	Static/Dynamic AE^[71] （arXiv 15）	前向动力学模型（仅2层网络）的状态预测误差的2范数平方	Autoencoder 的隐层	否	14个Atari游戏: 与DQN^[72], Thompson sampling, Boltzman方法相比, 优势有限.
	ICM^[61] （ICML-17）	前向动力学模型的状态预测误差的2范数平方	逆动力学辅助训练CNN+ELU	部分	Doom-MWH: 探索和导航效率显著高于TRPO-VIME^[58].
	文献[74] （ICLR-19）	前向动力学模型的状态预测误差的2范数平方	Pixels, RF, VAE^[75], 逆动力学特征IDF	部分	在48个Atari游戏、SuperMarioBros、2个Roboschool场景、Two-player Pong、2个Unity迷宫等环境中, Pixel表现较差， VAE^[75]不稳定, RF和IDF表现较好, IDF迁移泛化能力强, RF和IDF学习效率受到随机因素影响.
	RND^[60] （ICLR-19）	状态嵌入预测误差的2范数平方	PPO^[56]策略网络中的卷积层	是	Atari: 1970M帧训练, 在多个Atari-HEG（包括Atari-MR上获得 $\le$ 8000均分）效果显著好于动力学预测方法.
	EMI^[73] （ICML-19）	前向动力学模型的状态预测误差的2范数平方	前向和逆向动力学互信息最大化		rllab任务: 显著优于ICM^[61], RND^[60], ${\mathrm{E}\mathrm{X} }^{2}$ ^[47], AE-SimHash^[53], VIME^[58]；Atari-HEG:大部分游戏中稍优于上述方法.
	LWM^[77] （NeurIPS-20）	前向动力学模型的状态预测误差的2范数平方	最小化时序邻近状态的特征向量W-MSE损失函数	是	Atari-HEG: 50M帧, 大部分游戏上明显优于EMI^[73], ${\mathrm{E}\mathrm{X} }^{2}$ ^[47], ICM^[61], RND^[60], AE-SimHash^[53].
预测结果不一致性	Disagreement^[79] （ICML-19）	一组前向动力学状态预测误差的方差	随机特征/Image-Net预训练的ResNet-18特征	是	Unity迷宫导航: 在noisy TV设置下探索效率明显高于RF下的前馈模型^[74].
预测结果不一致性	文献[81] （ICML-20）	对动力学模型后验分布的采样方差		是	rllab任务: 优于Disagreement^[79], MAX^[80], ICM^[61].
预测精度提升	文献[82] （ICML-17）	基于预测损失的提升或网络复杂度的提升的多种奖励			语言建模任务（n-gram模型，repeat copy任务和bAbI任务）: 显著提升了学习效率, 甚至达到了1倍.

下载: 导出CSV

| 显示表格

从另一个角度看, 基于误差的方法依赖于单一预测模型的质量和其预测结果的置信程度, 容易受到模型构建方法（例如神经网络）本身固有缺陷（如过拟合、欠拟合等）的影响^[79]. 相较而言, 基于多模型^[79]和单模型误差的二阶形式（即精度提升）^[82]的方法, 则能更系统性地避免此问题. 目前, 运用这种学习提升概念的形式化方法在基于预测模型类方法中研究较少, 而在基于信息论的方法中较多.

2.4.2 基于信息论的方法

信息论中以熵（entropy）为基础的一系列概念, 天然地为衡量现实世界中的不确定性而生, 因此信息度量也成为形式化启发式概念, 生成内在奖励的重要工具^[83], 用于促进智能体高效探索未知区域. 以离散变量为例, 熵的定义式^[84]为

$H\left(X\right)=-\sum _{i=1}^{n}p\left({x}_{i}\right)\mathrm{log}p\left({x}_{i}\right).$

(14)

与之紧密相关的互信息（mutual information, MI）则指通过观测随机变量 $Y$ 而获得关于 $X$ 的信息量, 即2个变量的相互依赖程度，其定义为

$\begin{split} I(X;Y) =&\displaystyle\sum _{i=1}^{n}\displaystyle\sum _{j=1}^{m}p({x}_{i},{y}_{j})\mathrm{l}\mathrm{o}\mathrm{g}\frac{p({x}_{i},{y}_{j})}{p\left({x}_{i}\right)p\left({y}_{j}\right)}=\\ & H\left(Y\right)-H\left(Y\right|X). \end{split}$

(15)

相对熵, 又称KL散度（Kullback–Leibler divergence）, 表达2个分布 $P$ 和 $Q$ 间的差异, 表示为

${D}_{\mathrm{K}\mathrm{L}}\left(P\right|\left|Q\right)=\displaystyle\sum _{x\in \mathcal{X}}P\left(x\right)\mathrm{l}\mathrm{o}\mathrm{g}\dfrac{P\left(x\right)}{Q\left(x\right)},$

(16)

其中 $\mathcal{X}$ 为2个分布共同的概率空间.

在上述互信息、相对熵等度量基础上, 受“学习提升”“多样性”“控制力”等启发式概念的影响, 研究者们从不同视角提出了多种内在奖励量化方法^[85-87], 可大致分为基于信息增益、基于最大熵和基于互信息的探索方法.

1）信息增益

Sun等人^[88]从贝叶斯法则角度指出, 估计的环境模型参数分布 $\varTheta$ 在智能体接收到新观测数据时进行更新, 可用此时的 $\varTheta '$ 与 $\varTheta$ 间的相对熵表征信息增益（information gain, IG）, 作为智能体探索过程的学习提升. 在此基础上, Houthooft等人^[58]提出最大化动力学上的累计熵减, 对应每一时刻，即最大化式（17）所描述的变量.

$\begin{split} & H\left(\varTheta \right|{\xi }_{t},{a}_{t})-H(\varTheta |{S}_{t+1},{\xi }_{t},{a}_{t})=I({S}_{t+1};\varTheta |{\xi }_{t},{a}_{t})=\\ & \sum _{{s}_{t+1}\sim P\left(\cdot |{\xi }_{t},{a}_{t}\right)}\sum _{\theta \in \varTheta }p\left({s}_{t+1},\theta \right)\mathrm{log}\frac{p({s}_{t+1},\theta )}{p\left({s}_{t+1}\right)p\left(\theta \right)}=\\ & {E}_{{s}_{t+1}\sim P(\cdot |{\xi }_{t},{a}_{t})}{D}_{\mathrm{K}\mathrm{L}}\left(p\right(\theta |{\xi }_{t},{a}_{t},{s}_{t+1})\left|\right|p\left(\theta \right|{\xi }_{t}\left)\right), \end{split}$

(17)

其中 ${\xi }_{t}=\{{s}_{1},{a}_{1},{s}_{2},{a}_{2},…,{s}_{t},{a}_{t}\}$ 是当前轨迹. 然而, 要在高维环境中将此KL散度作为内在奖励, 必须解决后验 $p\left(\theta \right|{\xi }_{t},{a}_{t},{s}_{t+1})$ 的近似计算问题. 为此, 该工作提出VIME （variational information maximizing exploration）算法, 将此问题转化为变分推断的ELBO （evidence lower bound）优化问题, 并用贝叶斯神经网络对环境模型参数化. 在基于稀疏奖励的高维连续控制任务中, VIME算法性能显著优于基于贝叶斯神经网络预测误差的内在奖励方法. 然而, 该算法的内在奖励计算需要高额的计算代价, 导致其难以应用到复杂场景中.

在VIME算法的基础上, Chien等人^[89]提出同时最大化ELBO、基于隐状态的预测误差和抽象空间中 ${s}_{t+1}$ 与 ${a}_{t}$ 之间的互信息来驱动探索. 该算法整合了多种内在奖励, 可以有效提升探索过程的样本利用率, 其在任务型对话系统PyDial中的表现优于VIME^[58]算法和ICM^[61]算法. 然而, 在稀疏奖励下的超级马里奥兄弟游戏中, 其仅取得了与ICM^[61]算法相当的表现, 且算法复杂度更高.

为解决VIME^[58]面临的计算复杂度过高的问题, Achiam等人^[90]采用基于神经网络拟合的全因子高斯分布代替基于贝叶斯网络的环境模型，此外, 将“惊奇”定义为真实转移概率和模型之间的KL散度. 由于真实模型无从获得, 因此给出2种近似的内在奖励, 分别是“惊奇”（surprisal）和 $k$ 步学习提升, 对应 $-\mathrm{log}{P}_{\phi }\left(s'\right|s,a)$ 和 $\mathrm{log}{P}_{{\phi }_{t}}\left(s'\right|s,a)-\mathrm{log}{P}_{{\phi }_{t-k}}\left(s'\right|s,a)$ . 与VIME算法相比, 文献[90]算法可扩展性好, 计算效率显著提升, 然而在连续控制任务场景中, 该算法性能提升非常有限, 甚至在个别任务上表现出了负提升, 且还存在内存耗费过高的问题. 为解决此问题, Kim等人^[69]采用指数衰减的加权混合方法表示旧的环境模型, 该方法虽然在视觉元素多样而复杂的环境中取得显著高于Surprisal^[90], RND^[60], Disagreement^[79], ICM^[61]等方法的模型精度, 但并未指出如何解决此类环境中面向多类物体的结构化表示学习问题^[91].

2）最大熵

除了基于信息增益的方法, 受基于计数方法的启发, 研究者们还提出了一种思路, 即最大化状态分布的熵以激励智能体充分探索不同状态的方法.

Hazan等人^[92]提出MaxEnt算法将探索策略诱导下的状态分布的信息熵最大化, 促使智能体充分访问不同状态；同时指出相关优化思路也可以用于优化其他信息度量, 如最小化状态分布与某指定的目标分布间的KL散度或目标分布与状态分布的交叉熵. 对于MaxEnt算法中涉及的基于状态分布匹配的优化过程, Lee等人^[93]指出可将其作为一种通用框架, 将基于预测误差或互信息等度量的方法视为分布匹配框架中的特例.

考虑到MaxEnt算法在原始状态空间上进行状态分布匹配的优化时存在计算代价过高的问题, Vezzani等人^[94]提出利用相关任务采集到的先期数据, 学习与任务相关的状态表示、去除不相关的特征维度, 以压缩状态空间, 从而提高探索策略效率.

在Vezzani等人^[94]工作的基础上, 后续还有一些研究者提出在高维环境中利用状态抽象表示的最大熵方法, 包括Novelty^[52], APT （active pre-training）^[95], RE3 （random encoders for efficient exploration）^[96]等. 其中Novelty和APT分别利用前向预测和对比学习等任务辅助完成状态编码, RE3则直接采用权重随机初始化的卷积网络输出状态的低维特征向量, 去除了表示学习的复杂过程. 同时, 为避免复杂的状态密度建模, Novelty, APT, RE3算法都采用了 $k$ 近邻方法对状态熵进行估计.

3）互信息

互信息可以反映2个变量间的依赖程度. 一种很自然地在探索中应用互信息的方式, 就是最大化环境动力学模型中, 从当前状态动作对到下一个状态的互信息, 以增加智能体在探索过程中对环境的认知. 根据香农的信息率失真理论^[84], Still等人^[97]认为可将从状态 ${s}_{t}$ 到动作 ${a}_{t}$ 的映射看作有损压缩, 而后解码为下一时刻状态 ${s}_{t+1}$ . 以信道两端互信息量 $I\left(\right\{{s}_{t},{a}_{t}\},{s}_{t+1})$ 的最大化为优化目标, 则能使智能体在好奇心驱使下不断追求提升自身对外部环境的预测能力.

另一种在探索过程中应用互信息的方式, 是量化重要的内在动机概念Empowerment^[98]. 量化Empowerment并不直接强调提升对观测数据的理解或预测, 而是指对动作结果有较强控制能力, 能在后续时刻获得更多的状态选择, 因此也被称为多样性启发式^[99]. 如果将环境模型中的状态转移考虑为将动作 $a$ 转换为未来状态 $s'$ 的信道, 信道容量则可看作是Empowerment. 直观讲, Empowerment代表智能体能够通过动作序列 $\mathit{a}$ 向未来状态注入的最大信息量. Mohamed等人^[100]提出VMI （variational mutual information）算法, 以互信息为基础描述为

$\begin{array}{r}\mathcal{E}\left(s\right)=\underset{\omega }{\mathrm{m}\mathrm{a}\mathrm{x}}I(\boldsymbol{a};s'|s),\end{array}$

(18)

其中 $\omega$ 为探索策略. 以 $\mathcal{E}\left(s\right)$ 为内在奖励, 可使智能体能观测到最大数量未来状态的中间状态转移. 由于高维条件下没有快速有效的互信息计算方法, 该工作借助变分推断近似表达了动作的后验分布, 从而推导出了可用深度神经网络优化的变分下界.

在此基础上, 若将式（18）中的原子动作 $a$ 扩展为option（即在原子动作基础上的抽象动作、技能或策略）^[101], 则有公式^[99,102]

$\begin{split} I(S;Z)& =H\left(Z\right)-H\left(Z\right|S)({反向形式})=\\ & H\left(S\right)-H\left(S|Z\right)({正向形式}), \end{split}$

(19)

其中Z和S分别表示option的隐变量和状态变量. 对其反向形式的最大化优化过程, 意味着提高option的多样性和给定终止状态时option的确定性（或辨识度）；对其正向形式的最大化, 则意味着增强option对环境不确定性的削弱作用.

以反向形式为例, Gregor等人^[99]于2016年提出了该研究方向的奠基性算法——VIC （variational intrinsic control）算法. 该算法将提前预设的动作序列（被称为开环options）扩展为以终止状态区分的options （被称为闭环options）. 具体来说, 在开环options中智能体在执行option时, 将盲目地遵循对应的动作序列, 而不考虑环境状态；而在闭环options中, 智能体的每一次动作选择都是基于当前环境状态慎重考虑的, 大大提高了智能体对于环境状态的Empowerment. 在实验环境为存在噪声的网格世界中, VIC算法显著优于开环options, 可有效修正环境噪声, 但是该算法在2维网格世界中学习的options相对较为简单, 面临难以应用于复杂环境的问题. 为解决该问题, 研究者们在其基础上开展了一系列工作.

例如, 为克服VIC集中学习少数技能的问题, Eysenbach等人^[103]提出了DIAYN （diversity is all you need）算法, 在最大化 $I(S;Z)$ 的同时, 还将先验 $p\left(z\right)$ 固定为均匀分布, 提升了技能丰富性. 针对VIC在随机环境中的偏差问题, Kwon^[104]利用转移概率模型和高斯混合模型来构建环境的动力学模型, 以达到最大化的Empowerment. Achiam等人^[105]提出了VALOR （variational autoencoding learning of options by reinforcement）算法, 其设计了更为通用的框架, 将终止状态或单一状态延伸为状态动作轨迹, VIC和DIAYN等方法都成为其中特例. 针对VIC^[99], DIAYN^[103], VALOR^[105] 等方法中存在的状态空间覆盖有限问题, Campos等人^[102]提出一个基于固定状态分布的3阶段分解方案EDL （explore, discover and learn）以更充分地探索状态空间. 另外, 为解决VIC^[99]等option发现方法中存在的泛化性差和推断低效问题, Hansen等人^[106]提出将行为互信息与后继特征结合互补, 提高option内插泛化的效率.

目前采用正向形式进行技能学习的方法相对较少. Sharma等人^[107]提出的DADS （dynamics-aware discovery of skills）算法利用条件熵 $H\left(s'\right|s,z)$ 的最小化作为优化目标之一, 提高在技能 $z$ 条件下状态转移的可预测性, 从而能够将预训练阶段得到的options及其对应的动力学过程有效应用到基于模型预测控制的任务规划中.

上述无论是基于反向形式还是正向形式的方法都能一定程度使智能体自主演化出复杂程度递增的生存技能, 可为时间跨度更长或结构复杂的下游任务提供有效的初始化基础.

4）小结

表4简要总结了信息论基础上各类内在奖励设计方法. 不难看出, 基于信息增益的方法与2.4.1节中基于预测模型精度提升的方法有较强关联, 是用KL散度等指标对学习提升概念更理论化的描述, 可以看作预测模型方法的延展. 基于最大熵的方法通过最大化原始/抽象状态分布的熵来提高探索效率, 可有效结合其他状态表示方法来进一步提高算法性能. 基于互信息度量的方法通过量化Empowerment, 以多样性启发的方式来鼓励探索, 成为解决自动技能发现问题的重要工具. 这些方法以自动演化出的原子行为为基础, 正逐渐服务于具有更强层次性的技能组织、技能迁移、任务规划等下游场景^[107]. 为提高信息度量指标的计算效率, 可对信息度量进行一定程度近似, 如变分下界^[58]和模型估计的差分^[90], 但如何进一步提升信息度量的计算或近似效率仍是许多研究者关心的问题.

表 4 基于信息论的主要方法小结

Table 4. Summary of Main Methods Based on Information Theory

算法类型	算法	内在奖励形式	状态表示	抗噪	主要测试环境和效果
信息增益	VIME^[58] （NIPS-16）	预测模型参数的累计熵减（推导为前后参数的KL散度）		是	rllab的多个任务（包括层次性较强的SwimmerGather）: 得分显著高于TRPO和基于L2预测误差的TRPO.
	Surprisal^[90] （arXiv 17）	惊奇：真实转移模型与学习模型参数之间的KL散度近似		是	多个较困难的rllab任务和部分Atari游戏：仅在部分环境下探索效率高于VIME^[58], 但在其他环境与VIME有一定差距.
	AWML^[69] （ICML-20）	基于加权混合的新旧动力学模型损失函数之差	假定智能体具有面向物体的特征表示能力	是	多类动态物体的复杂3维环境：精度明显高于Surprisal^[90], RND^[60], Disagreement^[79], ICM^[61]等方法.
最大熵	MaxEnt^[92] （ICML-19）	最大化状态分布的熵为优化目标, 以状态密度分布的梯度为奖励			Pendulum, Ant, Humanoid控制任务作为概念验证环境: 相比随机策略, 诱导出明显更大的状态熵.
最大熵	文献[94] （ICML-19）	隐状态分布的负对数	基于先期任务的奖励预测任务得到最小维度隐状态表示		简单的object-pusher环境: 获得外在奖励的效率显著高于无隐状态表示的MaxEnt^[92].
互信息	VMI^[100] （NIPS-15）	当前状态下开环option 与终止状态的互信息	CNN处理像素观测信息		简单的静态、动态和追逃的网格世界: 展示了对关键状态的有效识别.
	VIC^[99] （arXiv 16）	当前状态下闭环option 与终止状态的互信息			简单的网格世界: 证明了对Empowerment的估计比VMI算法^[100]更准确.
	DIAYN^[103] （ICLR-19）	当前状态下闭环option与每一状态的互信息、option下动作的信息熵最大化			2D导航和连续控制任务: 相对VIC^[99]能演化出更多样的技能.
	DADS^[107] （ICLR-20）	式（19）的正向形式, 兼顾多样性和可预测性			OpenAI Gym的多个控制任务: 与DIYAN^[103]相比, 原子技能丰富且稳定, 更有利于组装层次化行为; 大幅提升下游基于模型规划任务的学习效率.

下载: 导出CSV

| 显示表格

2.5 基于能力的方法

基于能力的方法重点在于权衡达到目标的挑战性和能否达成的能力, 与其直接相关的心理学理论还包括效能、自我决定和心流等学说^[24]. Mirolli等人^[108]认为以内在动机为基础的学习是层次化的, 不同类型的动机在不同层次上发挥功能性角色. 其中基于知识的动机驱动个体在理解未预期事件的过程中, 学习如何发现可用技能和训练技能；基于能力的动机则工作在更高层次上, 负责在不同场景中对已有能力进行调度使用和效果监测, 从而阶段化完成自身设定的子目标和总目标. 因此, 对此类动机进行量化的核心是对自定目标实现难度的衡量和对动作效果的观测.

在Barto等人^[23]于2004年提出的IMRL （intrinsically motivated reinforcement learning）算法中, 内在奖励基于option的目标状态而产生, 可认为是一种基于能力的内在动机的形式化方法.

与Barto等人^[23]提出的算法相比, Schembri等人^[109]提出了更直接的基于能力的模型. 该模型既包含很多由actor-critic神经网络模型构成的“专家”, 采用时序差分的方式学习动作策略；又包含一个“选择者”, 以“专家”的时序差分误差为内在动机负责在不同条件下将控制权分配给不同“专家”. 在仿真机器人场景下, 该模型可用于训练智能体学习多种不同的导航任务. Santucci等人^[110]提出了GRAIL （goal-discovering robotic architecture for intrisically-motivated learning）算法. 该算法采用一个4层的内在动机学习框架, 能够实现对动作效应的观察、基于内在动机的目标选择、为实现目标进行资源调度以及对实现进程的监控等功能.

然而, 尽管Oudeyer等人^[24]在2007年就提出了多种基于能力的内在动机学习的模型设想, 但目前将此类动机显式应用到DRL的方法并不多. 一个可能的原因是在高维或动态条件下, 该模型涉及对复杂环境和任务空间的分解、层次化和渐进式的技能获得等, 需要与多种方法结合来实现.

2.6 小　结

与UCB^[111]和BEB^[18]为代表的传统方法相比, 基于内在动机的DRL方法虽然缺乏对最（次）优性和采样复杂度的严格理论保证, 但能一定程度解决公共测试集中高维状态动作空间中的探索, 从而帮助学习环境动力学模型或动作策略. 具体来说, 基于计数的内在动机方法受新颖性的启发, 一方面继承了UCB方法中“面向不确定性的乐观”思想, 另一方面采用基于相似性的状态泛化, 能够有效应对大规模状态动作空间的探索问题, 但其多用于静态环境中, 难以有效应对动态性较强和随机噪声干扰较多的环境.

基于知识的方法采用“好奇心”“惊奇”“学习提升”“多样化”等启发性信息来快速积累对于环境演化的知识, 以降低外部环境不确定性对决策的影响. 对于这类方法而言, 复杂动态环境中随机噪声（包括环境白噪声、动作执行中不可预期的噪声等）的处理直接关系探索效率. 一方面, 可以通过学习隐特征空间一定程度过滤随机成分: 最基本地, 采用通用设计的CNN或自编码器等特征提取模块^[47,53]；更进一步, 设计辅助任务仅学习与任务相关的特征, 如ICM^[61], CoEX^[40]中的逆动力学预测任务, 以及奖励预测任务^[94]等. 然而, 当噪声源和智能体的动作存在关联时, 上述方法的抗噪能力也十分有限^[74]. 另一方面, 多模型集成^[79]和信息增益^[69]等方法则能够更系统性地评估智能体动作对于提升环境模型表达能力的价值. 然而, 在高维的连续空间等条件下, 此类方法的难点在于计算复杂度和相关信息量估值精度间的平衡.

与基于知识的方法相比, 受控制力启发的基于能力的方法从智能体本身出发, 工作在更高抽象的层次, 负责在不同场景中通过对自定目标实现难度的定量分析, 来调度使用已有能力并对效果进行检测, 从而实现高效引导探索过程. 该类方法研究重点包括如何恰当表达智能体动作或option与环境状态之间的影响, 以及互信息的高效且无偏的估计算法.

3. 应用研究

基于内在动机的DRL探索方法起初应用于游戏领域的智能体策略生成, 随着DRL算法在现实场景中的落地应用, 基于内在动机的DRL探索方法目前也扩展到机器人运动、机械臂操控、空间探索与导航等诸多应用领域.

3.1 机器人运动

在机器人运动领域中, 基于内在动机的DRL探索方法主要应用于奖励稀疏的多自由度复杂运动控制任务中, 为受DRL驱动的机器人增强探索过程的启发性, 进一步提高采样效率, 从而实现高效学习各关节的控制策略. 例如, 针对rllab^[36]的多足仿真机器人运动任务, Houthooft等人^[58]提出了基于信息增益的VIME算法, 将其与TRPO^[59]深度强化学习算法相结合, 可高效学习复杂运动控制策略. 在 $\mathcal{S}\in {\mathbb{R}}^{335}, \mathcal{A}\in {\mathbb{R}}^{35}$ 的复杂类人机器人Toddler的仿真环境中, Achiam等人^[105]提出的基于互信息的VALOR算法经过15000次迭代能学习到40种运动技能. 针对四旋翼飞行器的激进运动控制任务, Sun等人^[112]提出了基于预测模型的DRL探索方法, 并引入了基于相似性的好奇心模块来加速训练过程，其在模拟环境中训练的策略可以直接迁移到现实世界中应用. 在多机器人运动控制任务中, Perovic等人^[113]引入了受人类好奇行为启发的内在奖励来应对稀疏奖励问题, 并在构建的3维物理仿真环境中检验了算法的有效性.

3.2 机械臂操作

在机械臂操作应用中，基于内在动机的DRL探索方法能够帮助真实机械臂在没有关于自身动作空间先验知识的条件下，尝试对其他物体完成移动、抓取、推动、移动等的操作任务^[114]. 例如，Lee等人^[93]提出的基于最大熵的SMM （state marginal matching）算法，在仿真环境中的Fetch任务和现实世界的爪形机械臂抓取任务中，能够探索到比PC^[39]和ICM^[61]算法更高的状态熵，帮助完成复杂的机械臂操作策略学习. 在更为复杂的任务设置中，要求现实世界的机械臂抓取随机摆放的多个物体，其动作空间被离散化为 $224\times 224\times 16\times 16$ 的规模，Pathak等人^[79]提出的基于预测模型的Disagreement算法在抓取从未见过的物品的准确率上达到了67%.

3.3 空间探索与导航

在空间探索与导航领域, 基于内在动机的DRL探索方法除了可用于解决全局可观的Atari环境中空间探索等相关问题, 还可在一定程度上解决类似现实场景中环境初始未知、局部可观条件下的空间探索和目标导向的导航问题. 在这类复杂探索与导航问题上, 基于内在动机的方法主要用于实现探索效率高的移动策略. 例如, 在Doom-MWH任务中, A3C （asynchronous advantage actor-critic）算法结合基于预测误差的ICM算法, 经过预训练和700万步的再训练后导航成功率能达到66%左右^[61], ${\mathrm{E}\mathrm{X}}^{2}$ 在类似任务中的成功率能达到74%^[47]. 针对复杂环境中机器人无地图导航任务, Shi等人^[115]提出了一种基于预测模型的DRL探索方法, 以基于稀疏的激光测距输入, 克服障碍物和陷阱等影响, 可将仿真环境中训练得到的策略扩展到真实场景中进行实际应用. 下一步, 可考虑在基于内在动机探索方法的基础上, 结合表示学习方法从局部观测信息中估计当前位置或姿态, 以及利用紧凑而准确的空间记忆表示形式来进一步提升在空间探索与导航领域的应用效果.

3.4 小　结

基于内在动机的DRL探索方法通过构建强启发性的探索策略, 可有效应对机器人运动、机械臂操控、空间探索与导航等领域面临的探索困难问题. 此外, 在量化投资、自然语言处理等领域, 基于内在动机的DRL探索方法也发挥着重要作用. 例如, 针对股票市场的自动金融交易策略学习问题, Hirchoua等人^[116]将PPO算法与基于好奇心驱动的风险学习的内在奖励相结合进行交易策略学习, 并在8个真实股票交易上对其训练得到的策略的适用性和有效性进行了验证；针对面向目标的对话策略学习问题, Wesselmann等人^[117]采用基于好奇心的内在奖励来克服稀疏奖励问题, 以改进状态动作空间的探索效率, 从而获取更多有关用户目标的知识来训练对话策略.

4. 关键问题与发展方向

虽然基于内在动机的DRL探索方法在机器人运动等诸多应用中取得了较好效果, 但将其应用于贴近真实世界的复杂动态场景时, 仍面临难以构建有效的状态表示、环境认知效率低、复杂任务空间探索效果差等关键问题. 未来基于内在动机的方法可结合表示学习、知识积累、奖励设计、目标空间探索、课程学习、多智能体强化学习等领域方向来开展研究.

4.1 关键问题

4.1.1 有效的状态表示

如何构建有效的状态表示一直是将基于内在动机的DRL探索方法应用于高维连续状态动作空间所面临的基础且重要的问题. 特别是随着场景不断向现实应用逼近, 环境中要素的种类和数量越来越多, 要素间的关联越来越复杂, 往往包含层次性、级联性等关系, 并且动态性也越来越显著. 在这些情况下, 现有方法难以提取与智能体决策直接或间接相关的状态特征, 因此很难单纯依靠内在奖励的驱动对上述类型的状态空间进行探索.

在基于状态抽象方法中, Choi等人^[40]提出的注意动力学模型可有效抽取可控区域的动力学信息. 而Song等人^[57]提出了Mega-Reward, 在直接可控特征信息^[40]的基础上, 抽取了隐式控制的特征信息. 这2个工作在Atari-MR上都取得了较好的表现. 然而, 在机器人导航、自动驾驶等应用中, 存在更为复杂的多元异构高维信息, 在这类场景下构建有效状态表示是亟需解决的难题.

4.1.2 环境认知效率

对于外部环境形成较为充分的认知是基于知识的方法促使智能体探索的关键所在, 但是随着外部环境进一步复杂化, 如存在随机噪声干扰、不可控的动态环境要素等, 面临环境动力学模型学习效率低等问题.

在基于预测模型的方法中, Burda等人^[60]提出的RND算法大大提高了预测误差精度, 且可以有效应对随机噪声干扰, 但是在Atari-MR等场景中, 该算法需要10亿级的训练步长才能使其环境模型收敛, 达到较好表现. 与Atari-MR相比, 在星际争霸2等存在自适应的对手, 或更为复杂要素的场景中, 如何提高环境认知效率是基于知识的方法所要解决的重要挑战.

4.1.3 复杂任务空间

复杂任务空间往往存在多个可控要素或干扰要素, 且其内部呈现结构化特征, 宛如“迷宫”, 仅依靠内在动机提供的探索方面的引导信息, 难以实现对该类任务空间的有效探索.

Savinov等人^[76]提出的EC算法, 依托基于情节记忆的状态新颖度判别方法, 可引导智能体完成在仿真3维场景下的导航任务, 但由于情节记忆的容量限制, 难以应用于大规模状态空间. 在机器人运动、操控、自主导航等复杂现实应用中, 如何将情节记忆、先验知识等相关任务空间信息与基于内在动机的方法结合, 是提高复杂任务空间探索效果的难点.

4.1.4 小　结

基于内在动机的DRL探索方法在解决复杂现实应用问题时所面临的难以构建有效的状态表示等关键问题, 不是单纯依靠内在动机可以解决的, 往往需要与其他领域方向有机结合, 充分发挥基于内在动机的启发式探索策略的潜力, 以应对复杂动态场景中的探索困难挑战.

4.2 发展方向

Silver等人^[118]撰文分析了奖励函数在促进智能体演化出各种形式的智能方面的重要作用. 鉴于现实世界任务的复杂性（环境要素多元、空间结构复杂、感知信息高维、任务反馈延迟等）, 本文对未来基于内在动机方法的研究方向提出6方面的展望.

4.2.1 表示学习

1）状态表示

本文简述的方法所采用的状态表示方法大多以自动特征提取为主, 各个特征无明确语义, 不能显式描述环境中的要素及其关系, 因此难以针对性提取与智能体决策相关的环境要素来构建有效的状态表示.

在智能体与环境交互获取样本的过程中, 算法一方面应关注行为策略的演化, 但更应该注重环境的表示学习. 具体来说, 先识别和分割环境中的各种要素及其关系, 然后在此基础上, 利用场景中各要素间的层次性、交互关系和局部的动力学等特征信息, 构建蕴含丰富环境信息的有效状态表示. 近年来出现了一些基于无监督或自监督的方法用于构建这些状态表示, 如解耦学习^[119]、对比学习^[120]以及它们与好奇心探索的结合^[121].

目前已有一些研究者认为智能体只会对状态空间中可学习、可控制的部分感兴趣, 其他部分由于不会对下游任务产生显著影响, 因此不应对其浪费探索时间. 研究者们^[40,57,61]从控制性角度设计辅助任务进行表示学习, 但多以黑盒形式输出隐特征, 缺乏对环境中任务相关要素的显式建模. 更具可解释性的状态表示与基于内在动机的探索方法的结合, 将会使智能体更专注于关键区域的探索, 从而提高复杂场景下的策略学习效率.

2）动作表示

动作表示是通过对原子动作的合理抽象, 帮助智能体更好地利用探索方法解决复杂问题, 典型方法包括分层强化学习（hierarchical reinforcement learning, HRL）.

HRL是一类将复杂问题空间层次化地分解为子问题和子任务的强化学习方法, 文献[101]提及的option框架是其中的典型模型. 该框架的底层以状态观测和子目标为输入, 输出达成此目标的原子动作序列的抽象表示, 即option；框架的上层是基于option而非原子动作的策略, 时间尺度相较底层更长. 针对这类框架一般无法自动为底层策略的学习提供奖励函数的问题, 研究人员提出一系列基于内在动机形成的内在奖励, 以提高底层策略的学习效率. 例如, Kulkarni等人^[122]提出h-DQN （hierarchical-DQN）, 其上层的元控制器从预定义的可能目标中为下层的控制器选择当前目标, 并以目标达成与否作为标识为控制器生成二元的内在奖励. Vezhnevets等人^[123]提出的FuNs （feudal networks）则采用了端到端的学习方式, 不仅使上层的“管理者”可自动生成代表状态空间中优势方向的子目标, 还为下层的“工作者”设计状态差分与目标方向的余弦相似度作为内在奖励, 以衡量“工作者”对子目标方向的趋近程度. 然而, 目前研究更多关注在底层策略中利用内在动机提供丰富的奖励信号, 后续可结合内在动机解决HRL中更为关键的自动化学习层次结构问题^[124].

4.2.2 知识积累

尽管内在动机为提高DRL的采样效率提供了有力工具, 但由于内在奖励仅能为智能体提供探索方面的指导性信息, 难以根据问题性质对智能体行为施加约束和引导, 可能使得部分探索动作并不诱导知识的增加. 因此, 本文认为利用探索过程中的累积知识可以有效辅助智能体以简洁的行为模式进行探索. 例如, 在最近备受关注的Go-Explore^[125]算法将人类面对未知环境的探索经验显式地在智能体行为框架中表达出来, 在Atari-MR等任务中取得了数倍于NGU^[78]等此前算法得到的最高分数. 另外, 该算法对有价值状态的回访得益于其对过往经历的记录和提取. 类似地, EC^[76]算法借助情节记忆对不同状态间的可达性进行判别来量化状态新颖性, 在Doom-MWH中以较小的训练代价得到接近100%的成功率；Chen等人^[126]结合空间记忆、模仿学习以及探索覆盖率内在奖励, 在逼真的3维SUNCG环境中, 单纯依赖板载传感器可有效探索未知环境.

除此之外, 对问题进行适当地层次划分^[127]、区域分割^[53]或拓扑提取^[128], 可以降低子空间探索的难度, 产生更流畅的探索行为模式, 从而引导智能体更快积累环境空间的知识. 例如, Chaplot等人^[127]将端到端的学习方式改进为模块化分层框架, 其中全局策略学习空间环境结构, 局部策略应对状态估计的误差, 显著降低了采样复杂度.

4.2.3 奖励设计

1）任务相关的内在奖励设计

从内在动机的角度出发, 源于不同启发思想设计的各种通用的内在奖励函数, 在各类公共测试任务中验证了各自效果. 在通用内在奖励函数的基础上, 研究者在实际应用中可以根据任务特点, 设计更能直接反映目前需求的内在动机. 例如, Berseth等人^[129]提出的SMiRL （surprise minimizing reinforcement learning）算法以熵的最小化为优化目标, 使智能体在非稳定环境中产生趋利避害行为. 更一般地, 信息增益是不同环境模型的KL散度, 比如环境覆盖任务中的探索面积、追逃任务中与目标态势的差距、多智能体通信中的信息容量等. 如果智能体所需达到的目标是复合性的, 奖励信号的来源也可以是多源的, 可以通过学习自适应的调度策略依据当前环境信息和已有的探索轨迹确定当前阶段的子任务目标和奖励信号.

2）内在奖励的自动化获取

除人工设计奖励外, 部分研究者考虑将基于内在动机的内在奖励函数看做函数空间的抽象特征向量, 可采用搜索或学习的方法自动获取与任务匹配的内在奖励函数. 这类方法的基础是Singh等人^[130]提出的最佳奖励框架, 其中将可使RL智能体获得最大外在奖励的内在奖励定义为最佳内在奖励. 在该工作^[130]的基础上,研究者们在小规模离散状态动作空间中采用了简单的遍历式搜索的方法确定最优内在奖励, 但难以扩展至大规模或连续状态动作空间的场景中.

为解决此问题, 研究者们提出了基于策略梯度的内在奖励参数化学习方法, 用于优化蒙特卡洛树搜索等规划算法在稀疏奖励场景下的表现^[131-132]. 在此基础上, 为解决多智能体场景中基于单一的团队奖励区分不同智能体贡献的问题, Zheng等人^[133]将内在奖励的学习与DRL智能体的策略学习相融合, 以最大化与任务相关的累计外在奖励. 该工作采用基于双层优化架构的元强化学习方法, 外层对参数化的内在奖励函数进行学习, 内层将内在奖励函数作为超参数来优化策略. 目前内在奖励自动获取方面的研究大多采用神经网络来拟合内在奖励函数, 虽然该方式无需特定问题背景下的领域知识以及心理学相关的设计方法, 但是其生成的内在奖励函数可解释性差, 后续可以考虑利用基于心理学等方面的设计机理来增强自动化获取的内在奖励函数的可解释性.

4.2.4 目标空间探索

为提高智能体在高维、连续和高度非平稳的目标/任务空间中的探索效率, 近年来有大量研究者将内在动机应用于目标空间探索领域. 例如, Forestier等人^[134]提出了一个机器人控制背景下的基于内在动机的目标探索过程（intrinsically motivated goal exploration processes, IMGEP）机制, 即基于已有技能衡量各目标任务可能带来的能力进步, 以此组织对目标/任务空间的探索策略. 为降低目标空间复杂度, Colas等人^[135]采用灵活的模块化表示方式对目标空间进行编码, 在进行模块和目标选择时考虑预估的学习进步的绝对值, 因此使智能体选择当前能够取得最大进展的目标或因遗忘而可能表现下降的过往目标. 还可以考虑将无监督学习的目标空间表示^[136] 以及解耦的目标空间表示^[91]与内在动机相结合, 进一步提高探索效率.

4.2.5 课程学习

研究者们认为自然智能显著超过目前的机器学习系统的一大能力, 是通过观察外部环境、自我设定目标而持续不断学习并获得技能和知识的渐进提升^[137-138]. 这种复杂程度和难度递增的学习过程在机器学习领域被称为课程学习（curriculum learning, CL）^[139]. 为降低课程学习对于领域知识的需求, 研究者们提出了内在动机与课程学习结合的各种形式.

例如, Jaderberg等人^[140]通过设计辅助的预测任务, 为智能体提供额外的内在奖励, 在增强对环境理解程度的同时提高了应对后续复杂任务的能力. Graves等人^[82]则提出了基于模型预测能力的提升和模型复杂程度有限提高的2类内在奖励, 以解决课程学习中的任务选择问题. Sukhbaatar等人^[141]提出一个非对称自博弈机制, 该机制基于任务难度设计内在奖励, 自动形成任务探索的课程表. 后续可考虑结合内在动机进一步优化课程学习中难度评分器和训练调度器的性能.

4.2.6 多智能体强化学习

多智能体深度强化学习将DRL的思想和算法用于多智能体系统的学习和控制中, 以开发具有群体智能的多智能体系统来高效优化地完成任务^[142]. 在研究者们重点关注的协同与通信问题中, 可结合内在动机的探索方法产生多样化的协同行为, 或增加对于环境及其他智能体的认知, 来实现更有效的协同与通信.

例如, Iqbal等人^[143]在多智能体协同空间探索的设定下, 基于共享信息针对不同的任务需求设计了多种类型的内在奖励, 并学习高层控制器在实际任务环境下选择不同奖励训练得到的策略. Jaques等人^[144]基于反事实推理, 使智能体能够通过仿真获得自身动作对于其他智能体的因果影响, 以此作为内在奖励能够自发地使智能体学习到有意义的通信协议, 促进更加有效的相互协同. 文献[144]还证明该奖励形式等价于最大化不同智能体动作间的互信息. 不仅协同行为可以通过内在奖励生成, Guckelsberger等人^[145]的工作也表明通过最小化Empowerment等手段也可产生对抗性行为. 目前多智能体强化学习领域的探索仍处在起步阶段, 可考虑在集中式控制分布式执行架构下结合现有的基于内在动机的方法, 提高每个智能体的探索效率, 以增加联合动作价值函数估计的准确性.

5. 总　　结

本文首先描述了DRL方法对高效率探索方法的需求、经典方法的原理和局限性, 接着引入了内在动机的概念和功能, 在此基础上重点梳理了内在动机与DRL结合的不同形式，主要包括：1）受新颖性动机驱动的基于计数的内在奖励形式化；2）受好奇心驱动的预测误差的奖励设计；3）受学习提升期望驱动的精度提升和信息增益近似方法；4）以状态多样性为启发式的最大熵方法；5）追求自主性和控制力的互信息量化方法. 然后介绍了基于内在动机的DRL探索技术在机器人运动、机械臂操作、空间探索与导航等领域的应用情况. 最后深入分析了基于内在动机的DRL探索方法在应用于贴近真实的复杂场景时, 仍面临着难以构建有效的状态表示、环境认知效率低、复杂目标/任务空间探索效果差等关键问题, 并对基于内在动机的探索方法结合表示学习、知识积累、奖励设计、目标空间探索、课程学习、多智能体强化学习等领域进行了展望.

作者贡献声明：曾俊杰、秦龙共同负责调研和论文撰写；徐浩添、张琪对论文提出指导意见并完成论文格式修订；胡越负责论文审阅, 并给出详细修改指导意见；尹全军对论文提出指导意见并完成论文格式修订；曾俊杰、秦龙作为共同一作，对本文做出同等贡献.

https://github.com/mgbellemare/Arcade-Learning-Environment

https://github.com/rllab/rllab

https://github.com/mwydmuch/ViZDoom

https://gym.openai.com

图 1 基于内在动机的深度强化学习探索方法分类

Figure 1. Method classification of exploration approaches in deep reinforcement learning based on intrinsic motivation

下载: 全尺寸图片幻灯片

图 2 常用测试环境示例

Figure 2. Examples of common test environments

下载: 全尺寸图片幻灯片

表 1 本文与已发表相关论文的异同

Table 1 Similarities and Differences of Our Paper Compared with Published Related Papers

相关综述	出发点	研究角度	与本文的主要区别
文献[5]	解决RL面临的抽象动作（及其时序）和抽象状态表示, 以及在其基础上的高层序贯决策问题.	借鉴发育学习理论, 依托分层强化学习、课程学习、状态表征等方法, 详细阐述了如何结合内在动机与深度强化学习方法帮助智能体获取知识和学习技能.	该文重点阐述发育学习理论中2种主要的内在动机模型如何与RL相结合, 以解决稀疏奖励、表征学习、option发现、课程学习等问题, 然而对于内在动机如何解决各类探索问题并未深入研究.
文献[6]	为适应学习系统的行为, 研究如何优化值函数集合的学习问题.	将并行价值函数学习建模为强化学习任务, 在提出的并行学习测试环境中, 基于带非静态目标的在线多预测任务设定, 研究和比较不同的内在奖励机制的表现.	该文重点研究如何利用内在奖励从共享的经验流中学习价值函数集合, 以适应内在驱动学习系统的行为.
文献[7]	解决深度强化学习和多智能体强化学习在现实场景中的广泛应用和部署面临的瓶颈挑战——探索问题.	从单智能体和多智能体角度出发, 系统性阐述了各类探索方法在深度强化学习领域的研究情况, 并在常见的基准环境中对典型的探索方法进行了综合对比.	该文聚焦于阐述覆盖深度强化学习和多智能体强化学习的解决探索问题的多类方法, 基于内在动机的方法并非该论文的研究重点, 因此导致基于内在动机的探索方法覆盖面较小, 讨论深度不够.
文献[8]	解决未知且随机环境中序贯决策面临的探索问题.	从智能体探索使用的信息类型出发, 全面阐述了无奖励探索、随机动作选择、基于额外奖励或基于优化的探索等方法在基于MDP的强化学习领域的研究情况.	该文聚焦于为强化学习解决序贯决策问题中所涉及到的探索方法提供广泛的高层综述, 仅初步介绍了一些基于内在动机的探索方法.

下载: 导出CSV

表 2 基于计数的主要方法小结

Table 2 Summary of Main Methods Based on Count

分类	算法	内在奖励形式	状态表示	主要测试环境和效果
基于密度模型的伪计数	PC^[39] （NIPS-16）	CTS密度模型+ 伪计数的均方根		Atari-MR: 50M帧训练后得到2461均分, 100M帧训练后得到3439均分.
基于密度模型的伪计数	PixelCNN^[44] （ICML-17）	PixelCNN密度模型+伪计数的均方根		Atari-MR: 100M帧训练后得到6600均分.
间接伪计数	${\mathrm{E}\mathrm{X}}^{2}$ ^[47] （NIPS-17）	判别器评估状态新颖性, 作为间接密度	CNN	Doom-MWH: 平均成功率大于 $74\mathrm{\%}$ , 显著高于VIME^[58], #Exploration^[53], TRPO^[59].
	DORA^[48] （ICLR-18）	探索价值 $\mathrm{E}$ -value 作为间接计数		Atari-FW: DORA^[48]在 $2\times {10}^{6}$ 训练步数内收敛, 而PC需 $1\times {10}^{7}$ 训练步数收敛^[39].
	SR^[49] （AAAI-20）	SR的范数作为伪计数		Atari-HEG: 与PC^[39], PixelCNN^[44], RND^[60]性能相当或略高.
状态抽象	#Exploration^[53] （NIPS-17）	基于状态Hash的计数	Pixel, BASS, AE	Atari-HEG: 在除Atari-MR的问题上比PC^[39]得分高, 在Atari-MR上显著低于PC.
状态抽象	CoEX^[40] （ICLR-19）	基于contingency-awareness状态表示的伪计数	逆动力学预测训练卷积，注意力mask提取位置信息	Atari-HEG: 在大部分问题上都比A3C+^[39], TRPO-AE-SimHash^[53], Sarsa- $\varphi$ -EB^[46], DQN-PixelCNN^[44], Curiosity^[61]效果好.
注：CNN （convolutional neural networks）, TRPO （trust region policy optimization）, RND （random network distillation）.

下载: 导出CSV

表 3 基于预测模型的主要算法小结

Table 3 Summary of Main Algorithms Based on Predictive Models

算法类型	算法	内在奖励形式	状态表示	抗噪	主要测试环境和效果
基于预测误差	Static/Dynamic AE^[71] （arXiv 15）	前向动力学模型（仅2层网络）的状态预测误差的2范数平方	Autoencoder 的隐层	否	14个Atari游戏: 与DQN^[72], Thompson sampling, Boltzman方法相比, 优势有限.
	ICM^[61] （ICML-17）	前向动力学模型的状态预测误差的2范数平方	逆动力学辅助训练CNN+ELU	部分	Doom-MWH: 探索和导航效率显著高于TRPO-VIME^[58].
	文献[74] （ICLR-19）	前向动力学模型的状态预测误差的2范数平方	Pixels, RF, VAE^[75], 逆动力学特征IDF	部分	在48个Atari游戏、SuperMarioBros、2个Roboschool场景、Two-player Pong、2个Unity迷宫等环境中, Pixel表现较差， VAE^[75]不稳定, RF和IDF表现较好, IDF迁移泛化能力强, RF和IDF学习效率受到随机因素影响.
	RND^[60] （ICLR-19）	状态嵌入预测误差的2范数平方	PPO^[56]策略网络中的卷积层	是	Atari: 1970M帧训练, 在多个Atari-HEG（包括Atari-MR上获得 $\le$ 8000均分）效果显著好于动力学预测方法.
	EMI^[73] （ICML-19）	前向动力学模型的状态预测误差的2范数平方	前向和逆向动力学互信息最大化		rllab任务: 显著优于ICM^[61], RND^[60], ${\mathrm{E}\mathrm{X} }^{2}$ ^[47], AE-SimHash^[53], VIME^[58]；Atari-HEG:大部分游戏中稍优于上述方法.
	LWM^[77] （NeurIPS-20）	前向动力学模型的状态预测误差的2范数平方	最小化时序邻近状态的特征向量W-MSE损失函数	是	Atari-HEG: 50M帧, 大部分游戏上明显优于EMI^[73], ${\mathrm{E}\mathrm{X} }^{2}$ ^[47], ICM^[61], RND^[60], AE-SimHash^[53].
预测结果不一致性	Disagreement^[79] （ICML-19）	一组前向动力学状态预测误差的方差	随机特征/Image-Net预训练的ResNet-18特征	是	Unity迷宫导航: 在noisy TV设置下探索效率明显高于RF下的前馈模型^[74].
预测结果不一致性	文献[81] （ICML-20）	对动力学模型后验分布的采样方差		是	rllab任务: 优于Disagreement^[79], MAX^[80], ICM^[61].
预测精度提升	文献[82] （ICML-17）	基于预测损失的提升或网络复杂度的提升的多种奖励			语言建模任务（n-gram模型，repeat copy任务和bAbI任务）: 显著提升了学习效率, 甚至达到了1倍.

下载: 导出CSV

表 4 基于信息论的主要方法小结

Table 4 Summary of Main Methods Based on Information Theory

算法类型	算法	内在奖励形式	状态表示	抗噪	主要测试环境和效果
信息增益	VIME^[58] （NIPS-16）	预测模型参数的累计熵减（推导为前后参数的KL散度）		是	rllab的多个任务（包括层次性较强的SwimmerGather）: 得分显著高于TRPO和基于L2预测误差的TRPO.
	Surprisal^[90] （arXiv 17）	惊奇：真实转移模型与学习模型参数之间的KL散度近似		是	多个较困难的rllab任务和部分Atari游戏：仅在部分环境下探索效率高于VIME^[58], 但在其他环境与VIME有一定差距.
	AWML^[69] （ICML-20）	基于加权混合的新旧动力学模型损失函数之差	假定智能体具有面向物体的特征表示能力	是	多类动态物体的复杂3维环境：精度明显高于Surprisal^[90], RND^[60], Disagreement^[79], ICM^[61]等方法.
最大熵	MaxEnt^[92] （ICML-19）	最大化状态分布的熵为优化目标, 以状态密度分布的梯度为奖励			Pendulum, Ant, Humanoid控制任务作为概念验证环境: 相比随机策略, 诱导出明显更大的状态熵.
最大熵	文献[94] （ICML-19）	隐状态分布的负对数	基于先期任务的奖励预测任务得到最小维度隐状态表示		简单的object-pusher环境: 获得外在奖励的效率显著高于无隐状态表示的MaxEnt^[92].
互信息	VMI^[100] （NIPS-15）	当前状态下开环option 与终止状态的互信息	CNN处理像素观测信息		简单的静态、动态和追逃的网格世界: 展示了对关键状态的有效识别.
	VIC^[99] （arXiv 16）	当前状态下闭环option 与终止状态的互信息			简单的网格世界: 证明了对Empowerment的估计比VMI算法^[100]更准确.
	DIAYN^[103] （ICLR-19）	当前状态下闭环option与每一状态的互信息、option下动作的信息熵最大化			2D导航和连续控制任务: 相对VIC^[99]能演化出更多样的技能.
	DADS^[107] （ICLR-20）	式（19）的正向形式, 兼顾多样性和可预测性			OpenAI Gym的多个控制任务: 与DIYAN^[103]相比, 原子技能丰富且稳定, 更有利于组装层次化行为; 大幅提升下游基于模型规划任务的学习效率.

下载: 导出CSV

参考文献(145)

[1]	Sutton R S, Barto A G. Reinforcement Learning: An Introduction [M]. Cambridge, MA: MIT Press, 2018
[2]	刘全,翟建伟,章宗长,等. 深度强化学习综述[J]. 计算机学报,2018,41(1):1−27 doi: 10.11897/SP.J.1016.2019.00001 Liu Quan, Zhai Jianwei, Zhang Zongchang, et al. A survey on deep reinforcement learning[J]. Chinese Journal of Computers, 2018, 41(1): 1−27 (in Chinese) doi: 10.11897/SP.J.1016.2019.00001
[3]	Liu Xiaoyang, Yang Hongyang, Gao Jiechao, et al. FinRL: Deep reinforcement learning framework to automate trading in quantitative finance [C] //Proc of the 2nd ACM Int Conf on AI in Finance. New York: ACM, 2022: 1−9
[4]	万里鹏,兰旭光,张翰博,等. 深度强化学习理论及其应用综述[J]. 模式识别与人工智能,2019,32(1):67−81 doi: 10.16451/j.cnki.issn1003-6059.201901009 Wan Lipeng, Lan Xuguang, Zhang Hanbo, et al. A review of deep reinforcement learning theory and application[J]. Pattern Recognition and Artificial Intelligence, 2019, 32(1): 67−81 (in Chinese) doi: 10.16451/j.cnki.issn1003-6059.201901009
[5]	Aubret A, Matignon L, Hassas S. A survey on intrinsic motivation in reinforcement learning [J]. arXiv preprint, arXiv: 1908.06976, 2019
[6]	Linke C, Ady N M, White M, et al. Adapting behavior via intrinsic reward: A survey and empirical study[J]. Journal of Artificial Intelligence Research, 2020, 69: 1287−1332 doi: 10.1613/jair.1.12087
[7]	Yang Tianpei, Tang Hongyao, Bai Chenjia, et al. Exploration in deep reinforcement learning: A comprehensive survey [J]. arXiv preprint, arXiv: 2109.06668, 2021
[8]	Amin S, Gomrokchi M, Satija H, et al. A survey of exploration methods in reinforcement learning [J]. arXiv preprint, arXiv: 2109.00157, 2021
[9]	Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning [C/OL] //Proc of the 4th Int Conf on Learning Representations. 2016 [2022-09-06].https://arxiv.org/abs/1509.02971v6
[10]	Plappert M, Houthooft R, Dhariwal P, et al. Parameter space noise for exploration [C/OL] //Proc of the 6th Int Conf on Learning Representations. 2018 [2022-09-06].https://arxiv.org/abs/1706.01905
[11]	Fortunato M, Azar M G, Piot B, et al. Noisy networks for exploration [C/OL] // Proc of the 6th Int Conf on Learning Representations. 2018 [2022-09-06].https://arxiv.org/abs/1706.10295
[12]	章晓芳, 周倩, 梁斌, 等, 一种自适应的多臂赌博机算法 [J]. 计算机研究与发展, 2019, 56（3）: 643−654 Zhang Xiaofang, Zhou Qian, Liang Bin, et al. An adaptive algorithm in multi-armed bandit problem [J]. Journal of Computer Research and Development, 2019, 56(3): 643−654 (in Chinese)
[13]	Lai T L, Robbins H. Asymptotically efficient adaptive allocation rules[J]. Advances in Applied Mathematics, 1985, 6(1): 4−22 doi: 10.1016/0196-8858(85)90002-8
[14]	Strehl A L, Littman M L. An analysis of model-based interval estimation for Markov decision processes[J]. Journal of Computer and System Sciences, 2008, 74(8): 1309−1331 doi: 10.1016/j.jcss.2007.08.009
[15]	Jaksch T, Ortner R, Auer P. Near-optimal regret bounds for reinforcement learning [C] //Proc of the 21st Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2008: 89–96
[16]	Azar M G, Osband I, Munos R. Minimax regret bounds for reinforcement learning [C] //Proc of the 34th Int Conf on Machine Learning. New York: ACM, 2017: 263–272
[17]	Jin C, Allen-Zhu Z, Bubeck S, et al. Is q-learning provably efficient [C] //Proc of the 32nd Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2018: 4868–4878
[18]	Kolter J Z, Ng A Y. Near-Bayesian exploration in polynomial time [C] //Proc of the 26th Int Conf on Machine Learning. New York: ACM, 2009: 513–520
[19]	Russo D, Van Roy B, Kazerouni A, et al. A tutorial on thompson sampling[J]. Foundations and Trends in Machine Learning, 2018, 11(1): 1−96 doi: 10.1561/2200000070
[20]	Osband I, Van Roy B. Why is posterior sampling better than optimism for reinforcement learning [C] //Proc of the 34th Int Conf on Machine Learning. New York: ACM, 2017: 2701–2710
[21]	Osband I, Blundell C, Pritzel A, et al. Deep exploration via bootstrapped DQN [C] //Proc of the 30th Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2016: 4033–4041
[22]	Thrun S B. Efficient exploration in reinforcement learning [R]. Pittsburgh, CP: School of Computer Science, Carnegie-Mellon University, 1992
[23]	Barto A G, Singh S, Chentanez N. Intrinsically motivated learning of hierarchical collections of skills [C] //Proc of the 3rd Int Conf on Development and Learning. Piscataway, NJ: IEEE, 2004: 112–119
[24]	Oudeyer P Y, Kaplan F. What is intrinsic motivation? A typology of computational approaches [J/OL]. Frontiers in Neurorobotics, 2007 [2022-09-06].https://www.frontiersin.org/articles/10.3389/neuro.12.006.2007/full
[25]	Harlow H F. Learning and satiation of response in intrinsically motivated complex puzzle performance by monkeys[J]. Journal of Comparative and Physiological Psychology, 1950, 43(4): 289−294 doi: 10.1037/h0058114
[26]	Hull C L. Principles of behavior [J/OL]. The Journal of Nervous and Mental Disease, 1945, 101(4): 396. [2022-09-06].https://journals.lww.com/jonmd/Citation/1945/04000/Principles_of_Behavior.26.aspx
[27]	Deci E L, Ryan R M, Intrinsic Motivation and Self-Determination in Human Behavior [M]. Berlin: Springer, 2013
[28]	Ryan R M, Deci E L. Intrinsic and extrinsic motivations: Classic definitions and new directions[J]. Contemporary Educational Psychology, 2000, 25(1): 54−67 doi: 10.1006/ceps.1999.1020
[29]	Barto A, Mirolli M, Baldassarre G. Novelty or surprise [J/OL]. Frontiers in Psychology, 2013, 4: 907. [2023-09-06]. http://www.frontiersin.org/articles/10.3389/fpsyg.2013.00907/full
[30]	Czikszentmihalyi M. Flow: The Psychology of Optimal Experience[M]. New York: Harper & Row, 1990
[31]	Asada M, Hosoda K, Kuniyoshi Y, et al. Cognitive developmental robotics: A survey[J]. IEEE Transactions on Autonomous Mental Development, 2009, 1(1): 12−34 doi: 10.1109/TAMD.2009.2021702
[32]	White R W. Motivation reconsidered: The concept of competence[J]. Psychological Review, 1959, 66(5): 297−333 doi: 10.1037/h0040934
[33]	Baldassarre G. What are intrinsic motivations? A biological perspective [C/OL] //Proc of IEEE Int Conf on Development and Learning. 2011 [2022-09-06].https://ieeexplore.ieee.org/document/6037367
[34]	Schmidhuber J. Formal theory of creativity, fun, and intrinsic motivation (1990–2010)[J]. IEEE Transactions on Autonomous Mental Development, 2010, 2(3): 230−247 doi: 10.1109/TAMD.2010.2056368
[35]	Bellemare M G, Naddaf Y, Veness J, et al. The ARCADE learning environment: An evaluation platform for general agents[J]. Journal of Artificial Intelligence Research, 2013, 47: 253−279 doi: 10.1613/jair.3912
[36]	Duan Y, Chen X, Houthooft R, et al. Benchmarking deep reinforcement learning for continuous control [C] //Proc of the 33rd Int Conf on Machine Learning. New York: ACM, 2016: 1329–1338
[37]	Kempka M, Wydmuch M, Runc G, et al. VizDoom: A doom-based ai research platform for visual reinforcement learning [C/OL] //Proc of IEEE Conf on Computational Intelligence and Games. 2016 [2022-09-06].https://ieeexplore.ieee.org/document/7860433
[38]	Brockman G, Cheung V, Pettersson L, et al. OpenAI gym [J]. arXiv preprint, arXiv: 1606.01540
[39]	Bellemare M G, Srinivasan S, Ostrovski G, et al. Unifying count-based exploration and intrinsic motivation [C] //Proc of the 30th Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2016: 1479–1487
[40]	Choi J, Guo Y, Moczulski M, et al. Contingency-aware exploration in reinforcement learning [C/OL] //Proc of the 7th Int Conf on Learning Representations. 2019 [2022-09-06].https://arxiv.org/abs/1811.01483
[41]	Veness J, Ng K S, Hutter M, et al. Context tree switching [C] //Proc of Data Compression Conf. Piscataway, NJ: IEEE, 2012: 327–336
[42]	Bellemare M, Veness J, Talvitie E. Skip context tree switching [C] //Proc of the 31st Int Conf on Machine Learning. New York: ACM, 2014: 1458–1466
[43]	Hasselt H V, Guez A, Silver D. Deep reinforcement learning with double q-learning [C] //Proc of the 30th AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2016: 2094–2100
[44]	Ostrovski G, Bellemare M G, Oord A, et al. Count-based exploration with neural density models [C] //Proc of the 34th Int Conf on Machine Learning. New York: ACM, 2017: 2721–2730
[45]	Oord A, Kalchbrenner N, Vinyals O, et al. Conditional image generation with PixelCNN decoders [C] //Proc of the 30th Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2016: 4797–4805
[46]	Martin J, Narayanan S S, Everitt T, et al. Count-based exploration in feature space for reinforcement learning [C] //Proc of the 26th Int Joint Conf on Artificial Intelligence. Menlo Park: AAAI, 2017: 2471–2478
[47]	Fu J, Co-Reyes J D, Levine S. EX²: exploration with exemplar models for deep reinforcement learning [C] //Proc of the 31st Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2017: 2574–2584
[48]	Choshen L, Fox L, Loewenstein Y. DORA the explorer: Directed outreaching reinforcement action-selection [C/OL] //Proc of the 6th Int Conf on Learning Representations. 2018 [2022-09-06].https://arxiv.org/abs/1804.04012
[49]	Machado M C, Bellemare M G, Bowling M. Count-based exploration with the successor representation [C] //Proc of the 34th AAAI Conf on Artificial Intelligence. Menlo Park: AAAI, 2020: 5125–5133
[50]	Machado M, Rosenbaum C, Guo Xiaoxiao, et al. Eigenoption discovery through the deep successor representation[C/OL] //Proc of the 6th Int Conf on Learning Representations. 2018 [2022-09-06].https://arxiv.org/abs/1710.11089
[51]	Schmidhuber J. Curious model-building control systems [C] //Proc of Int Joint Conf on Neural Networks. Piscataway, NJ: IEEE, 1991: 1458–1463
[52]	Tao Ruoyu, Franois-Lavet V, Pineau J. Novelty search in representational space for sample efficient exploration[J]. Advances in Neural Information Processing Systems, 2020, 33: 8114−8126
[53]	Tang Haoran, Houthooft R, Foote D, et al. #Exploration: A study of count-based exploration for deep reinforcement learning [C/OL]//Proc of the 31st Conf on Neural Information Processing Systems. Cambridge, MA: MIT. 2017 [2022-09-06].https://proceedings.neurips.cc/paper/2017/hash/3a20f62a0af1aa152670bab3c602feed-Abstract.html
[54]	Charikar M S. Similarity estimation techniques from rounding algorithms [C] //Proc of the 34th ACM Symp on Theory of Computing. New York: ACM, 2002: 380–388
[55]	Bellemare M, Veness J, Bowling M. Investigating contingency awareness using ATARI 2600 games [C/OL] //Proc of the 26th AAAI Conf on Artificial Intelligence. Menlo Park: AAAI. 2012 [2022-09-06].https://www.aaai.org/ocs/index.php/AAAI/AAAI12/paper/view/5162/0
[56]	Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms [J]. arXiv preprint, arXiv: 1707.06347, 2017
[57]	Song Yuhang, Wang Jianyi, Lukasiewicz T, et al. Mega-Reward: Achieving human-level play without extrinsic rewards [C] //Proc of the 34th AAAI Conf on Artificial Intelligence. Menlo Park: AAAI, 2020: 5826–5833
[58]	Houthooft R, Chen Xi, Duan Yan, et al. VIME: Variational information maximizing exploration [C] //Proc of the 30th Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2016: 1117– 1125
[59]	Schulman J, Levine S, Abbeel P, et al. Trust region policy optimization [C] //Proc of the 32nd Int Conf on Machine Learning. New York: ACM, 2015: 1889–1897
[60]	Burda Y, Edwards H, Storkey A. Exploration by random network distillation [C/OL] //Proc of the 7th Int Conf on Learning Representations. 2019 [2022-09-06].https://arxiv.org/abs/1810.12894
[61]	Pathak D, Agrawal P, Efros A A, et al. Curiosity-driven exploration by self-supervised prediction [C] //Proc of the 34th Int Conf on Machine Learning. New York: ACM, 2017: 2778–2787
[62]	Lopes M, Lang T, Toussain M, et al. Exploration in model-based reinforcement learning by empirically estimating learning progress [J/OL]. Advances in Neural Information Processing Systems, 2012 [2022-09-06].https://proceedings.neurips.cc/paper/2012/hash/a0a080f42e6f13b3a2df133f073095dd-Abstract.html
[63]	O’Donoghue B, Osband I, Munos R, et al. The uncertainty Bellman equation and exploration [C] //Proc of the 35th Int Conf on Machine Learning. New York: ACM, 2018: 3836–3845
[64]	Yu A, Dayan P. Expected and unexpected uncertainty: ACh and NE in the neocortex [C] //Proc of the 15th Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2002: 173–180
[65]	Grossberg S. Adaptive resonance theory: How a brain learns to consciously attend, learn, and recognize a changing world[J]. Neural Networks, 2013, 37: 1−47 doi: 10.1016/j.neunet.2012.09.017
[66]	Schmidhuber J. A possibility for implementing curiosity and boredom in model-building neural controllers [C] //Proc of Int Conf on Simulation of Adaptive Behavior: From Animals to Animats. Cambridge, MA: MIT, 1991: 222–227
[67]	Thrun S. Exploration in active learning [J/OL]. Handbook of Brain Science and Neural Networks, 1995 [2022-09-06].https://dl.acm.org/doi/10.5555/303568.303749
[68]	Huang Xiao, Weng J. Novelty and reinforcement learning in the value system of developmental robots [C/OL] //Proc of the 2nd Int Workshop on Epigenetic Robotics: Modeling Cognitive Development in Robotic Systems. Lund, SWE: Lund University Cognitive Studies, 2002: 47–55
[69]	Kim K, Sano M, De Freitas J, et al. Active world model learning with progress curiosity [C] //Proc of the 37th Int Conf on Machine Learning. New York: ACM, 2020: 5306–5315
[70]	Oudeyer P Y, Kaplan F, Hafner V V. Intrinsic motivation systems for autonomous mental development[J]. IEEE Transactions on Evolutionary Computation, 2007, 11(2): 265−286 doi: 10.1109/TEVC.2006.890271
[71]	Stadie B C, Levine S, Abbeel P. Incentivizing exploration in reinforcement learning with deep predictive models [J]. arXiv preprint, arXiv: 1507.00814, 2015
[72]	Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529−533 doi: 10.1038/nature14236
[73]	Kim H, Kim J, Jeong Y, et al. EMI: Exploration with mutual information [C] //Proc of the 36th Int Conf on Machine Learning. New York: ACM, 2019: 3360–3369
[74]	Burda Y, Edwards H, Pathak D, et al. Large-scale study of curiosity-driven learning [C/OL] //Proc of the 7th Int Conf on Learning Representations. 2019 [2022-09-06].https://arxiv.org/abs/1808.04355
[75]	Rezende D J, Mohamed S, Wierstra D. Stochastic backpropagation and approximate inference in deep generative models [C] //Proc of the 31st Int Conf on Machine Learning. New York: ACM, 2014: 1278–1286
[76]	Savinov N, Raichuk A, Vincent D, et al. Episodic curiosity through reachability [C/OL] //Proc of the 7th Int Conf on Learning Representations. 2019 [2022-09-06].https://arxiv.org/abs/1810.02274
[77]	Ermolov A, Sebe N. Latent world models for intrinsically motivated exploration. [C] //Proc of the 34th Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2020, 33: 5565−5575
[78]	Badia A P, Sprechmann P, Vitvitskyi A, et al. Never Give Up: Learning directed exploration strategies [C/OL] //Proc of the 8th Int Conf on Learning Representations. 2020 [2022-09-06].https://arxiv.org/abs/2002.06038
[79]	Pathak D, Gandhi D, Gupta A. Self-supervised exploration via disagreement [C] //Proc of the 36th Int Conf on Machine Learning. New York: ACM, 2019: 5062–5071
[80]	Shyam P, Jaśkowski W, Gomez F. Model-based active exploration [C] //Proc of the 36th Int Conf on Machine Learning. New York: ACM, 2019: 5779–5788
[81]	Ratzlaff N, Bai Q, Fuxin L, et al. Implicit generative modeling for efficient exploration [C] //Proc of the 37th Int Conf on Machine Learning. New York: ACM, 2020: 7985–7995
[82]	Graves A, Bellemare M G, Menick J, et al. Automated curriculum learning for neural networks [C] //Proc of the 34th Int Conf on Machine Learning. New York: ACM, 2017: 1311–1320
[83]	Holm L, Wadenholt G, Schrater P. Episodic curiosity for avoiding asteroids: Per-trial information gain for choice outcomes drive information seeking[J]. Scientific Reports, 2019, 9(1): 1−16 doi: 10.1038/s41598-018-37186-2
[84]	Shannon C E. A mathematical theory of communication[J]. The Bell System Technical Journal, 1948, 27(3): 379−423 doi: 10.1002/j.1538-7305.1948.tb01338.x
[85]	Frank M, Leitner J, Stollenga M, et al. Curiosity driven reinforcement learning for motion planning on humanoids [J/OL]. Frontiers in Neurorobotics, 2014 [2022-09-06].https://frontiersin.yncjkj.com/articles/10.3389/fnbot.2013.00025/full
[86]	Alemi A A, Fischer I, Dillon J V, et al. Deep variational information bottleneck [C/OL] //Proc of the 5th Int Conf on Learning Representations. 2017 [2022-09-06].https://arxiv.org/abs/1612.00410v5
[87]	Kim Y, Nam W, Kim H, et al. Curiosity-bottleneck: Exploration by distilling task-specific novelty [C] //Proc of the 36th Int Conf on Machine Learning. New York: ACM, 2019: 3379–3388
[88]	Sun Yi, Gomez F, Schmidhuber J. Planning to be surprised: Optimal bayesian exploration in dynamic environments [C] //Proc of the 4th Conf on Artificial General Intelligence. Berlin: Springer, 2011: 41–51
[89]	Chien J T, Hsu P C. Stochastic curiosity maximizing exploration [C/OL] //Proc of Int Joint Conf on Neural Networks. Piscataway, NJ: IEEE. 2020 [2022-09-06].https://ieeexplore.ieee.org/abstract/document/9207295
[90]	Achiam J, Sastry S. Surprise-based intrinsic motivation for deep reinforcement learning [J]. arXiv preprint, arXiv: 1703.01732, 2017
[91]	Laversanne-Finot A, Pere A, Oudeyer P Y. Curiosity driven exploration of learned disentangled goal spaces [C] //Proc of the 2nd Conf on Robot Learning. New York: ACM, 2018: 487–504
[92]	Hazan E, Kakade S, Singh K, et al. Provably efficient maximum entropy exploration [C] //Proc of the 36th Int Conf on Machine Learning. New York: ACM, 2019: 2681–2691
[93]	Lee L, Eysenbach B, Parisotto E, et al. Efficient exploration via state marginal matching [C/OL] //Proc of the 8th Int Conf on Learning Representations. 2020 [2022-09-06].https://arxiv.org/abs/1906.05274v1
[94]	Vezzani G, Gupta A, Natale L, et al. Learning latent state representation for speeding up exploration [C/OL] //Proc of the 2nd Exploration in Reinforcement Learning Workshop at the 36th Int Conf on Machine Learning. 2019 [2022-09-06].https://arxiv.org/abs/1905.12621
[95]	Liu H, Abbeel P. Behavior from the void: Unsupervised active pre-training[J]. Advances in Neural Information Processing Systems, 2021, 34: 18459−18473
[96]	Seo Y, Chen L, Shin J, et al. State entropy maximization with random encoders for efficient exploration [C] //Proc of the 38th Int Conf on Machine Learning. New York: ACM, 2021: 9443−9454
[97]	Still S, Precup D. An information-theoretic approach to curiosity-driven reinforcement learning[J]. Theory in Biosciences, 2012, 131(3): 139−148 doi: 10.1007/s12064-011-0142-z
[98]	Salge C, Glackin C, Polani D. Empowerment—An Introduction [M]. Berlin: Springer, 2014
[99]	Gregor K, Rezende D J, Wierstra D. Variational intrinsic control [J]. arXiv preprint, arXiv: 1611.07507, 2016
[100]	Mohamed S, Rezende D J. Variational information maximisation for intrinsically motivated reinforcement learning [C] //Proc of the 29th Int Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2015: 2125– 2133
[101]	Sutton R S, Precup D, Singh S. Between MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning[J]. Artificial Intelligence, 1999, 112(1/2): 181−211
[102]	Campos V, Trott A, Xiong Caiming, et al. Explore, discover and learn: Unsupervised discovery of state-covering skills [C] //Proc of the 36th Int Conf on Machine Learning. New York: ACM, 2020: 1317–1327
[103]	Eysenbach B, Gupta A, Ibarz J, et al. Diversity is all you need: Learning skills without a reward function [C/OL] //Proc of the 7th Int Conf on Learning Representations. 2019 [2022-09-06].https://arxiv.org/abs/1802.06070
[104]	Kwon T. Variational intrinsic control revisited [J]. arXiv preprint, arXiv: 2010.03281, 2020
[105]	Achiam J, Edwards H, Amodei D, et al. Variational option discovery algorithms [J]. arXiv preprint, arXiv: 1807.10299, 2018
[106]	Hansen S, Dabney W, Barreto A, et al. Fast task inference with variational intrinsic successor features [C/OL] //Proc of the 8th Int Conf on Learning Representations. 2020 [2022-09-06].https://arxiv.org/abs/1906.05030
[107]	Sharma A, Gu S, Levine S, et al. Dynamics-aware unsupervised discovery of skills [C/OL] //Proc of the 8th Int Conf on Learning Representations. 2020 [2022-09-06].https://arxiv.org/abs/1907.01657
[108]	Mirolli M, Baldassarre G. Functions and mechanisms of intrinsic motivations [J/OL]. Intrinsically Motivated Learning in Natural and Artificial Systems, 2013 [2022-09-06].https://linkspringer.53yu.com/chapter/10.1007/978−3-642−32375-1_3
[109]	Schembri M, Mirolli M, Baldassarre G. Evolving internal reinforcers for an intrinsically motivated reinforcement-learning robot [C] //Proc of the 6th Int Conf on Development and Learning. Piscataway, NJ: IEEE, 2007: 282–287
[110]	Santucci V G, Baldassarre G, Mirolli M. Grail: A goal-discovering robotic architecture for intrinsically-motivated learning[J]. IEEE Transactions on Cognitive and Developmental Systems, 2016, 8(3): 214−231 doi: 10.1109/TCDS.2016.2538961
[111]	Auer P. Using confidence bounds for exploitation-exploration trade-offs[J]. Journal of Machine Learning Research, 2002, 3(12): 397−422
[112]	Sun Qiyu, Fang Jinbao, Zheng Weixing, et al. Aggressive quadrotor flight using curiosity-driven reinforcement learning[J]. IEEE Transactions on Industrial Electronics, 2022, 69(12): 13838−13848 doi: 10.1109/TIE.2022.3144586
[113]	Perovic G, Li N. Curiosity driven deep reinforcement learning for motion planning in multi-agent environment [C] //Proc of IEEE Int Conf on Robotics and Biomimetics. Piscataway, NJ: IEEE, 2019: 375–380
[114]	陈佳盼,郑敏华. 基于深度强化学习的机器人操作行为研究综述[J]. 机器人,2022,44(2):236−256 Chen Jiapan, Zheng Minhua. A survey of robot manipulation behavior research based on deep reinforcement learning[J]. Robot, 2022, 44(2): 236−256 (in Chinese)
[115]	Shi Haobin, Shi Lin, Xu Meng, et al. End-to-end navigation strategy with deep reinforcement learning for mobile robots[J]. IEEE Transactions on Industrial Informatics, 2019, 16(4): 2393−2402
[116]	Hirchoua B, Ouhbi B, Frikh B. Deep reinforcement learning based trading agents: Risk curiosity driven learning for financial rules-based policy [J/OL]. Expert Systems with Applications, 2021 [2022-09-06].https://www.sciencedirect.com/science/article/abs/pii/S0957417420311970
[117]	Wesselmann P, Wu Y C, Gašić M. Curiosity-driven reinforcement learning for dialogue management [C] //Proc of IEEE In Conf on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2019: 7210–7214
[118]	Silver D, Singh S, Precup D, et al. Reward is enough [J/OL]. Artificial Intelligence, 2021 [2022-09-06].https://www.sciencedirect.com/science/article/pii/S0004370221000862
[119]	文载道,王佳蕊,王小旭,等. 解耦表征学习综述[J]. 自动化学报,2022,48(2):351−374 Wen Zaidao, Wang Jiarui, Wang Xiaoxu, et al. A review of disentangled representation learning[J]. Acta Automatica Sinica, 2022, 48(2): 351−374 (in Chinese)
[120]	Kipf T, Van Der Pol E, Welling M. Contrastive learning of structured world models [C/OL] //Proc of the 7th Int Conf on Learning Representations. 2019 [2022-09-06].https://arxiv.org/abs/1911.12247
[121]	Watters N, Matthey L, Bosnjak M, et al. COBRA: Data-efficient model-based RL through unsupervised object discovery and curiosity-driven exploration [C/OL] //Proc of the 36th Int Conf on Machine Learning. New York: ACM, 2017 [2022-09-06].https://arxiv.org/abs/1905.09275v2
[122]	Kulkarni T D, Narasimhan K R, Saeedi A, et al. Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation [C] //Proc of the 30th Int Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2016: 3682–3690
[123]	Vezhnevets A S, Osindero S, Schaul T, et al. FeUdal networks for hierarchical reinforcement learning [C] //Proc of the 33rd Int Conf on Machine Learning. New York: ACM, 2017: 3540–3549
[124]	Frans K, Ho J, Chen Xi, et al. Meta learning shared hierarchies [C/OL] //Proc of the 5th Int Conf on Learning Representations. 2017 [2022-09-06].https://arxiv.org/abs/1710.09767
[125]	Ecoffet A, Huizinga J, Lehman J, et al. First return, then explore[J]. Nature, 2021, 590(7847): 580−586 doi: 10.1038/s41586-020-03157-9
[126]	Chen T, Gupta S, Gupta A. Learning exploration policies for navigation [C/OL] //Proc of the 7th Int Conf on Learning Representations. 2019 [2022-09-06].https://arxiv.org/abs/1903.01959
[127]	Chaplot D S, Gandhi D, Gupta S, et al. Learning to explore using active neural SLAM [C/OL] //Proc of the 8th Int Conf on Learning Representations. 2020 [2022-09-06].https://arxiv.org/abs/2004.05155
[128]	Chaplot D S, Salakhutdinov R, Gupta A, et al. Neural topological SLAM for visual navigation [C] //Proc of IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 12875–12884
[129]	Berseth G, Geng D, Devin C, et al. SMiRL: Surprise minimizing reinforcement learning in unstable environments [C/OL] //Proc of the 9th Int Conf on Learning Representations. 2021 [2022−09-06].https://arxiv.org/abs/1912.05510
[130]	Singh S, Lewis R L, Barto A G, et al. Intrinsically motivated reinforcement learning: An evolutionary perspective[J]. IEEE Transactions on Autonomous Mental Development, 2010, 2(2): 70−82 doi: 10.1109/TAMD.2010.2051031
[131]	Sorg J, Singh S, Lewis R L. Reward design via online gradient ascent [C] //Proc of the 23rd Int Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2010: 2190–2198
[132]	Guo X, Singh S, Lewis R, et al. Deep learning for reward design to improve Monte Carlo tree search in ATARI games [C] //Proc of the 25th Int Joint Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2016: 1519–1525
[133]	Zheng Zeyu, Oh J, Hessel M, et al. What can learned intrinsic rewards capture [C] //Proc of the 36th Int Conf on Machine Learning. New York: ACM, 2020: 11436–11446
[134]	Forestier S, Portelas R, Mollard Y, et al. Intrinsically motivated goal exploration processes with automatic curriculum learning[J]. Journal of Machine Learning Research, 2022, 23: 1−41
[135]	Colas C, Fournier P, Chetouani M, et al. CURIOUS: Intrinsically motivated modular multigoal reinforcement learning [C] //Proc of the 35th Int Conf on Machine Learning. New York: ACM, 2019: 1331–1340
[136]	Péré A, Forestier S, Sigaud O, et al. Unsupervised learning of goal spaces for intrinsically motivated goal exploration [C/OL] //Proc of the 6th Int Conf on Learning Representations. 2018 [2022-09-06].https://arxiv.org/abs/1803.00781
[137]	Warde-Farley D, Van de Wiele T, Kulkarni T, et al. Unsupervised control through nonparametric discriminative rewards [C/OL] //Proc of the 7th Int Conf on Learning Representations. 2019 [2022-09-06].https://arxiv.org/abs/1811.11359
[138]	Pong V H, Dalal M, Lin S, et al. Skew-fit: State-covering self-supervised reinforcement learning [C] //Proc of the 37th Int Conf on Machine Learning. New York: ACM, 2020: 7783−7792
[139]	Bengio Y, Louradour J, Collobert R, et al. Curriculum learning [C] //Proc of the 26th Int Conf on Machine Learning. New York: ACM, 2009: 41–48
[140]	Jaderberg M, Mnih V, Czarnecki W M, et al. Reinforcement learning with unsupervised auxiliary tasks [C/OL] //Proc of the 5th Int Conf on Learning Representations. 2017 [2022-09-06].https://arxiv.org/abs/1611.05397
[141]	Sukhbaatar S, Lin Z, Kostrikov I, et al. Intrinsic motivation and automatic curricula via asymmetric self-play [C/OL] //Proc of the 6th Int Conf on Learning Representations. 2018 [2022-09-06].https://arxiv.org/abs/1703.05407
[142]	Gronauer S, Diepold K. Multi-agent deep reinforcement learning: A survey[J]. Artificial Intelligence Review, 2022, 55(2): 895−943 doi: 10.1007/s10462-021-09996-w
[143]	Iqbal S, Sha F. Coordinated exploration via intrinsic rewards for multi-agent reinforcement learning [J]. arXiv preprint, arXiv: 1905.12127, 2019
[144]	Jaques N, Lazaridou A, Hughes E, et al. Social influence as intrinsic motivation for multi-agent deep reinforcement learning[C] //Proc of the 35th Int Conf on Machine Learning. New York: ACM, 2019: 3040–3049
[145]	Guckelsberger C, Salge C, Togelius J. New and surprising ways to be mean: Adversarial NPCS with coupled empowerment minimization [C/OL] //Proc of IEEE Conf on Computational Intelligence and Games. 2018 [2022-09-06].https://ieeexplore.ieee.org/abstract/document/8490453

施引文献(7)

期刊类型引用(4)

1.	蔡华洋，黄兴，刘耿耿. 基于深度强化学习的连续微流控生物芯片控制逻辑布线. 计算机研究与发展. 2025(04): 950-962 . 本站查看
2.	周涛，李鑫，周俊临，李奕. 大模型智能体：概念、前沿和产业实践. 电子科技大学学报(社科版). 2024(04): 57-62 . 百度学术
3.	程哲，韦磊，程军圣，胡茑庆. 基于演员-评论家结构的深度强化学习齿轮箱智能故障诊断方法. 失效分析与预防. 2023(03): 141-148+200 . 百度学术
4.	逄金辉，冯子聪. 基于不确定性的深度强化学习探索方法综述. 计算机应用研究. 2023(11): 3201-3210 . 百度学术

其他类型引用(3)

资源附件(0)

图(2) / 表(4)

计量

文章访问数: 591
HTML全文浏览量: 138
PDF下载量: 244
被引次数: 7

1. 经典探索方法
1.1 随机扰动方法
1.2 频率派方法
1.3 贝叶斯派方法
1.4 小　结
2. 基于内在动机的深度强化学习探索方法
2.1 内在动机的背景
2.1.1 概　念
2.1.2 功　能
2.2 常用测试环境
2.3 基于计数的方法
2.3.1 基于密度模型的伪计数方法
2.3.2 间接伪计数方法
2.3.3 基于状态抽象的计数方法
2.3.4 小　结
2.4 基于知识的方法
2.4.1 基于预测模型的方法
2.4.2 基于信息论的方法
2.5 基于能力的方法
2.6 小　结
3. 应用研究
3.1 机器人运动
3.2 机械臂操作
3.3 空间探索与导航
3.4 小　结
4. 关键问题与发展方向
4.1 关键问题
4.1.1 有效的状态表示
4.1.2 环境认知效率
4.1.3 复杂任务空间
4.1.4 小　结
4.2 发展方向
4.2.1 表示学习
4.2.2 知识积累
4.2.3 奖励设计
4.2.4 目标空间探索
4.2.5 课程学习
4.2.6 多智能体强化学习
5. 总　　结

1. 经典探索方法
1.1 随机扰动方法
1.2 频率派方法
1.3 贝叶斯派方法
1.4 小　结
2. 基于内在动机的深度强化学习探索方法
2.1 内在动机的背景
2.1.1 概　念
2.1.2 功　能
2.2 常用测试环境
2.3 基于计数的方法
2.3.1 基于密度模型的伪计数方法
2.3.2 间接伪计数方法
2.3.3 基于状态抽象的计数方法
2.3.4 小　结
2.4 基于知识的方法
2.4.1 基于预测模型的方法
2.4.2 基于信息论的方法
2.5 基于能力的方法
2.6 小　结
3. 应用研究
3.1 机器人运动
3.2 机械臂操作
3.3 空间探索与导航
3.4 小　结
4. 关键问题与发展方向
4.1 关键问题
4.1.1 有效的状态表示
4.1.2 环境认知效率
4.1.3 复杂任务空间
4.1.4 小　结
4.2 发展方向
4.2.1 表示学习
4.2.2 知识积累
4.2.3 奖励设计
4.2.4 目标空间探索
4.2.5 课程学习
4.2.6 多智能体强化学习
5. 总　　结

参考文献(145)

施引文献(7)

资源附件(0)

基于内在动机的深度强化学习探索方法综述

通讯作者: 胡越（huyue11@nudt.edu.cn）

计量

出版历程

Exploration Approaches in Deep Reinforcement Learning Based on Intrinsic Motivation: A Review

1. 经典探索方法

1.1 随机扰动方法

1.2 频率派方法

1.3 贝叶斯派方法

1.4 小 结

2. 基于内在动机的深度强化学习探索方法

2.1 内在动机的背景

2.1.1 概 念

2.1.2 功 能

2.2 常用测试环境

2.3 基于计数的方法

2.3.1 基于密度模型的伪计数方法

2.3.2 间接伪计数方法

2.3.3 基于状态抽象的计数方法

2.3.4 小 结

2.4 基于知识的方法

2.4.1 基于预测模型的方法

2.4.2 基于信息论的方法

2.5 基于能力的方法

2.6 小 结

3. 应用研究

3.1 机器人运动

3.2 机械臂操作

3.3 空间探索与导航

3.4 小 结

4. 关键问题与发展方向

4.1 关键问题

4.1.1 有效的状态表示

4.1.2 环境认知效率

4.1.3 复杂任务空间

4.1.4 小 结

4.2 发展方向

4.2.1 表示学习

4.2.2 知识积累

4.2.3 奖励设计

4.2.4 目标空间探索

4.2.5 课程学习

4.2.6 多智能体强化学习

5. 总 结

期刊类型引用(4)

其他类型引用(3)

计量

出版历程

目录

1. 经典探索方法

1.1 随机扰动方法

1.2 频率派方法

1.3 贝叶斯派方法

1.4 小 结

2. 基于内在动机的深度强化学习探索方法

2.1 内在动机的背景

2.1.1 概 念

2.1.2 功 能

2.2 常用测试环境

2.3 基于计数的方法

2.3.1 基于密度模型的伪计数方法

2.3.2 间接伪计数方法

2.3.3 基于状态抽象的计数方法

2.3.4 小 结

2.4 基于知识的方法

2.4.1 基于预测模型的方法

2.4.2 基于信息论的方法

2.5 基于能力的方法

2.6 小 结

3. 应用研究

3.1 机器人运动

3.2 机械臂操作

3.3 空间探索与导航

3.4 小 结

4. 关键问题与发展方向

4.1 关键问题

4.1.1 有效的状态表示

4.1.2 环境认知效率

4.1.3 复杂任务空间

4.1.4 小 结

通讯作者:
胡越（huyue11@nudt.edu.cn）

1.4 小　结

2.1.1 概　念

2.1.2 功　能

2.3.4 小　结

2.6 小　结

3.4 小　结

4.1.4 小　结

5. 总　　结

1.4 小　结

2.1.1 概　念

2.1.2 功　能

2.3.4 小　结

2.6 小　结

3.4 小　结

4.1.4 小　结

5. 总　　结