基于内在动机的深度强化学习探索方法综述

曾俊杰; 秦龙; 徐浩添; 张琪; 胡越; 尹全军

doi:10.7544/issn1000-1239.202220388

基于内在动机的深度强化学习探索方法综述

国防科技大学系统工程学院　长沙　410073

基金项目: 国家自然科学基金项目（62103420, 62103428, 62306329）；湖南省自然科学基金项目(2021JJ40702, 2023JJ40676)

详细信息

作者简介:
曾俊杰: 1996年生. 硕士，助理研究员. 主要研究方向为强化学习和系统仿真

秦龙: 1984年生. 博士，副研究员. 主要研究方向为复杂系统建模与仿真

徐浩添: 1998年生. 博士研究生. 主要研究方向为多智能体系统、智能行为建模

张琪: 1988年生. 博士，讲师. 主要研究方向为智能行为建模、系统仿真

胡越: 1994年生. 博士，讲师. 主要研究方向为智能启发式搜索、系统仿真

尹全军: 1976年生. 博士，研究员. 主要研究方向为建模仿真理论、复杂系统行为建模

通讯作者:
胡越（huyue11@nudt.edu.cn）

中图分类号: TP391
计量
- 文章访问数: 546
- HTML全文浏览量: 124
- PDF下载量: 237
出版历程
- 收稿日期: 2022-05-16
- 修回日期: 2022-09-15
- 网络出版日期: 2023-04-13
- 刊出日期: 2023-09-30

Exploration Approaches in Deep Reinforcement Learning Based on Intrinsic Motivation: A Review

College of Systems Engineering, National University of Defense Technology, Changsha 410073

Funds: This work was supported by the National Natural Science Foundation of China (62103420, 62103428, 62306329) and the Natural Science Foundation of Hunan Province (2021JJ40702, 2023JJ40676).

More Information

Author Bio:
Zeng Junjie: born in 1996. Master, research associate. His main research interests include reinforcement learning and system simulation

Qin Long: born in 1984. PhD, associate researcher. His main research interest includes complex system modeling and simulation

Xu Haotian: born in 1998. PhD candidate. His main research interests include multi-agent system and intelligent behavior modeling

Zhang Qi: born in 1988. PhD, lecturer. His main research interests include intelligent behavior modeling and system simulation

Hu Yue: born in 1994. PhD, lecturer. His main research interests include intelligent heuristic search and system simulation

Yin Quanjun: born in 1976. PhD, researcher. His main research interests include theory of modeling and simulation, and behavior modeling in complex systems

摘要

摘要:
近年来，深度强化学习(deep reinforcement learning, DRL)在游戏人工智能、机器人等领域取得了诸多重要成就. 然而，在具有稀疏奖励、随机噪声等特性的现实应用场景中，该类方法面临着状态动作空间探索困难的问题. 基于内在动机的深度强化学习探索方法是解决上述问题的一种重要思想. 首先解释了深度强化学习探索困难的问题内涵，介绍了3种经典探索方法，并讨论了这3种方法在高维或连续场景下的局限性；接着描述了内在动机引入深度强化学习的背景和算法模型的常用测试环境，在此基础上详细梳理各类探索方法的基本原理、优势和缺陷，包括基于计数、基于知识和基于能力3类方法；然后介绍了基于内在动机的深度强化学习技术在不同领域的应用情况；最后总结亟需解决的难以构建有效状态表示等关键问题以及结合表示学习、知识积累等领域方向的研究展望.
- 深度强化学习 /
- 探索 /
- 内在动机 /
- 内在奖励 /
- 启发式
Abstract:
In recent years, deep reinforcement learning has made many important achievements in game artificial intelligence, robotics and other fields. However, in the realistic application scenarios with sparse rewards and random noises, such methods are suffering much from exploring the large state-action space. Introducing the notion of intrinsic motivation from psychology into deep reinforcement learning is an important idea to solve the above problem. Firstly, the connotation of the difficulty of exploration in deep reinforcement learning is explained, and three classical exploration methods are introduced, and their limitations in high-dimensional or continuous scenarios are discussed. Secondly, the background of the introduction of intrinsic motivation into deep reinforcement learning and the common testing environments of algorithms and models are described. On this basis, the basic principles, advantages and disadvantages of various exploration methods are analyzed in detail, including count-based, knowledge-based and competency-based approaches. Then, the applications of deep reinforcement learning based on intrinsic motivation in different fields are introduced. Finally, this paper throws light on the key problems that need to be solved for more advanced algorithms, such as the difficulty in constructing effective state representation, and also pinpoints some prospective research directions such as representation learning and knowledge accumulation. Hopefully, this review can provide readers with guidance of designing suitable intrinsic rewards for problems in hand and devising more effective exploration algorithms.
- deep reinforcement learning (DRL) /
- exploration /
- intrinsic motivation /
- intrinsic rewards /
- heuristic
https://github.com/mgbellemare/Arcade-Learning-Environment

https://github.com/rllab/rllab

https://github.com/mwydmuch/ViZDoom

https://gym.openai.com

HTML全文

Gartner指出2022年将有75%的企业数据在边缘侧产生^[1]，IDC预测2025年将有416亿个边缘侧设备实现互联数据量达79.4 ZB^[2]. 由于云计算的实时性差、带宽受限、高能耗、维护费用高、隐私安全等问题^[3-7]，将不能应对边缘侧如此海量的设备与数据,使对用户服务的有效提供面临严峻挑战，促使边缘计算的蓬勃发展^[8]. 边缘计算将计算、存储等资源下沉至用户侧，以其低时延、动态性、移动性以及位置感知等特征,在智能医疗、智能家居、军事及农业等领域发挥了重要作用^[9-13]. 随着通用设备的不断普及、专用设备的不断下沉、虚拟化及中间件技术的飞速发展、设备性能的不断提升以及基础设施运营商的大力投入等^[13]，催生出大量可在边缘侧进行训练与推理的边缘协同技术架构，如FATE,Paddle-Lite,TensorFlow Lite等^[14]，借助多样化的边缘设备协同能力，使单设备下的多业务场景、多设备下的复杂智能业务场景发展迅速. 各种云、边、端间协同技术的不断进步^[15-16]与各种机器学习模型训练优化技术、轻量化技术^[17]的深入研究，促进了边缘智能（edge intelligence, EI）相关方向的飞速发展.边缘智能或智慧边缘计算是指借助边缘侧辅助实现机器学习模型的训练与推理的一系列智能化方法，使智能更加高效、贴近用户、解决人工智能“最后一公里”问题^[18-22]. 边缘协同智能则指在边缘智能的基础上进一步通过边缘节点间的协同，融合边缘计算资源（网络、计算、存储、感知、应用等）核心能力实现的智能. 从其生命周期来看，可划分为训练阶段、推理阶段以及模型的部署更新，而本文则聚焦于其中的推理阶段.

本文第1节对边缘智能侧重于从协同推理角度的发展简史以及整体过程进行纵向总结，引出目前边缘协同推理涉及到的关键技术，描绘出边缘协同推理在边缘协同智能中的整体位置，并给出2个分类标准，将边缘协同推理的智能化方法与边缘协同推理的整体架构，与已有文献进行比较，突出本文贡献；第2节从协同角度根据分类标准对已有的协同推理阶段、部署更新等问题进行总结并结合边缘计算资源特点对不同技术进行横向比较与分析；第3节聚焦于对边缘协同推理在动态场景下的挑战进行总结，本文提到的动态场景^[23]包括有地理位置带来的环境变化、边缘计算资源发散、网络拓扑的变化、服务性能波动大、节点频繁交换导致服务或系统吞吐量的动态变化以及应用、网络、设备等带来的不确定性，标准不统一的场景.并对未来值得关注的研究方向进行初步探讨；第4节总结本文.

1. 边缘协同推理概述

1.1 边缘协同智能发展

图1展示的是在谷歌学术上使用“edge intelligence”关键词进行检索，得到的关于边缘智能的文献数量与年份对应的发展趋势. 从图1来看，截止2020年，边缘智能的发展正处于爆发期，还未达到平稳发展期.

图 1 边缘智能发展趋势

Figure 1. Edge intelligence developmental trend

下载: 全尺寸图片幻灯片

进一步，通过对Web of Science中以关键词“edge intelligen”检索得到的239篇文献进行分析，本文将边缘协同智能划分为3个阶段：萌芽期、技术储备期以及爆发期.本文关注的边缘协同推理在图2中同时给出了所涉及到的推理过程中使用的核心技术及其在边缘智能发展过程中的关键时间节点，从中也可以观察到，人工智能领域涌现出的新技术会极快的同步应用到边缘智能中（图2中相同形状图标表示同一类型技术），如神经网络架构搜索（neural architecture search, NAS）与计算能力受限的硬件资源结合后演变为神经网络架构实现搜索（neural architecture and implementation search, NAIS）.技术突破的关键问题是如何在资源受限的边缘计算场景中应用新技术.这些协同推理关键技术极大促进了边缘智能的发展，下文将在边缘智能的基础上，结合图1、图2，重点对这些关键技术进行归纳总结并同时从协同角度给出分析.

图 2 协同推理关键技术出现时间

Figure 2. Emerging time of key techniques in collaborative inference

下载: 全尺寸图片幻灯片

边缘协同智能萌芽期（2003—2012年）. “edge intelligence”一词最初源自有线网络传输场景，主要目标是提升网络的可靠性、智能性^[24-25]. 随着移动通信技术的发展,多媒体为代表的各类服务在网络中呈爆发态势，用户的移动性给各类服务的管理带来挑战,边缘协同智能被应用于移动用户的管理,主要目标是提升服务管理效率、降低时延^[26-27]. 而此时对如何利用分布式网络中的资源还未形成系统性认识，多为简单的智能算法相互组合，节点间协同性不强，未涉及到与深度学习技术的结合，能支持的智能业务有限.

边缘协同智能技术储备期（2012—2016年）. 该阶段随着深度学习技术的迅速发展，大量引人注目的成果不断涌现，如2012年的AlexNet^[28]和2015年的Inception^[29]分别在ImageNet比赛中取得了令人瞩目的成果.随后，更加轻量化的深度学习模型处理技术被不断提出，并应用到边缘设备上，使边缘设备具有了智能化的推理能力^[30].随着深度学习与边缘计算不断融合，基于边缘协同的智能处理方案开始显现，如在跌倒检测应用中在边缘设备和边缘服务器之间对智能检测算法进行简单拆分^[31].同时，云原生的虚拟化容器技术，如Docker，也开始迅速发展.此时与深度学习结合的边缘智能开始成为主流，一些中间件、虚拟化技术也飞速发展，但还未出现以边缘计算资源特点与深度学习模型结构融合的推理方法.

边缘协同智能爆发期（2017年以后）. 得益于上个阶段的技术储备，该时期大量的深度学习模型与边缘计算结合，众多边缘协同智能处理方案迅速增长，如边缘计算场景下的分布式协同训练^[32]、联邦学习^[33]；基于模型切割、早期退出等技术的分布式协同推理^[34-35]、浅层的宽度学习系统^[36]与虚拟化技术的结合,使边缘协同智能的快速落地成为可能，极大减轻了不同设备间的运维成本^[37-38]. 现阶段用于边缘协同推理的场景复杂多样，用于推理的基础服务或架构还未形成稳定发展的趋势，表现出应用层所具有的多样化特点.

结合边缘智能当前所处的阶段可以看出，其目前正处快速发展阶段，这也说明边缘协同推理方向存在众多问题与挑战，由于目前未对边缘协同推理形成整体概貌，有必要对其进行进一步分析，对相关技术进行归类划分，指明未来的发展方向.

1.2 边缘协同推理的整体过程

边缘协同推理利用节点间的协同，通过不同的训练优化手段，获取用于协同推理的模型并结合场景的资源特点等信息在训练节点或边缘设备等资源上完成部署. 如图3所示，按照边缘协同推理在边缘协同智能中的生命周期位置来看，推理阶段与训练阶段相互结合，是一个不断往复循环、不断提升的过程. 根据推理业务需求，其中还可能涉及模型的更新部署（本文“更新”特指替换服务中的推理模型，而非训练阶段的梯度等的更新）.

图 3 边缘协同推理关键技术、过程及应用场景

Figure 3. Key techniques, processes and application scenarios of edge collaborative inference

下载: 全尺寸图片幻灯片

通过训练得到的模型往往不能直接应用到推理场景，需要额外的模型处理步骤.根据模型的生命周期以及推理场景的资源特点，训练阶段可采用的优化手段有模型选择、模型量化、早期退出、神经网络架构（实现）搜索等.推理阶段可对模型进行2次处理，结合早期退出、模型量化、神经网络架构（实现）搜索等方式对模型进行进一步修改，以及在支持节点协同的情况下,采用模型切割、模型选择等技术对模型进行2次无损处理；在推理阶段的后期，由于时间、业务、数据等的变化涉及到模型的更新，此时多借助重新训练模型、在线学习等技术.

除此之外，通过图3还可看出，边缘计算场景的资源异构性会涉及到不同的推理架构适用性问题. 目前来看推理架构的选择通常与特定的推理模型处理技术相关.本文将从推理的智能化方法与架构2个角度对现有研究展开讨论. 值得一提的是，目前边缘计算方面有着众多优秀的工作，由于篇幅所限，本文主要针对边缘协同中推理阶段的模型处理、更新部署以及运行推理的架构进行阐述.

1.3 与已有综述研究的比较以及本文的贡献

由于推理过程中所用机器学习模型规模大、复杂性高，限制了推理关键技术在边缘计算场景下的训练与应用.目前，有研究者针对模型的推理内容进行了总结.文献[39]探讨了分布式机器学习的发展，讨论了其系统性挑战以及利用高性能计算加速和提高可扩展性的方法，描述了一种分布式机器学习的参考架构,基于此给出了各个阶段的常用算法.文献[40]总结了分布式协同优化中的热点研究方向，包括加速优化算法、非凸优化算法和无梯度优化算法，并结合实际应用场景进行了展望.文献[41]回顾了物联网场景中能够支持机器学习的模型在低性能硬件上执行的主要技术，比较了深度学习、RNN、GAN等可在边缘设备上实现的机器学习算法和这类算法下沉到边缘的过程；作为底层支持，还介绍了基于边缘服务器的架构、支持AI的物联网无线标准、卸载技术、隐私问题处理和训练阶段的边缘实现.文献[42]在深度学习的基础知识和最新技术的基础上，分析了在边缘设备上执行深度神经网络训练和深度学习模型推理的方法和架构，并探讨了在边缘部署深度学习的未来与挑战.文献[43]在文中讨论了加速深度学习推理的不同结构与方法，分为仅设备端执行、仅边缘服务器执行和中间方案3种，以及在边缘设备上训练深度学习模型，重点关注了多设备和隐私处理的分布式训练.文献[18]在概述了深度学习和边缘智能的基本概念与定义后，针对深度学习模型在网络边缘进行训练/推理的总体架构、框架和新兴关键技术作出了介绍.

文献[18，39−43]关注深度神经网络模型压缩与加速技术，并针对边缘设备中的训练和推理作出了总结，与之不同的是，本文充分调研了近几年来边缘智能相关的文献，从动态场景角度，重点关注节点间协同的推理处理方式，分别从推理模型与架构的角度进行描述，总结了用于边缘协同推理的核心技术发展，对边缘智能中训练和推理相关技术面临的机遇与挑战做出了展望.

本文贡献有5个方面：

1）按照关键技术的发展脉络，对边缘协同智能发展史进行了梳理；

2）对边缘协同推理进行分类，将其划分为边缘协同推理的智能化方法与架构；

3）对边缘协同推理中的模型轻量化技术进行归纳整理及分析，并横向比较了不同技术的适用范围；

4）对边缘协同推理中的架构进行归纳整理，分析了不同架构的优缺点及适用场景讨论；

5）除了对每种技术进行单独分析外，本文还对边缘协同推理的共性问题进行了分析，并指出其值得发展的研究方向.

2. 边缘协同推理核心智能化方法与架构

将边缘智能中的协同推理阶段现有研究划分为2个方面：推理智能化方法与架构. 智能化方法指的是与推理任务相关的智能化方法，本文主要针对深度学习（或深度神经网络）. 架构指运行推理任务的底层网络拓扑结构. 通过对智能化方法的观察与分析，归纳出用于边缘协同推理的核心技术；通过对已有工作在架构角度的抽象，归纳出目前协同推理在部署及运行时的特点、适用场景及不足之处.

2.1 边缘协同推理的智能化方法

主流的深度神经网络模型大小通常为几兆字节甚至几百兆字节，计算量较高给低配置的边缘节点带来了挑战^[44]，因此需要考虑如何在边缘节点上对模型进行部署. 一般而言，边缘计算中的各个资源指标是有限的，这就导致在给定的约束条件下会存在多个可行解，需要考虑对存储、计算、通信、能耗、隐私等的“折中”方案，实现“折中”的过程涉及模型的处理方式，主要是对模型进行轻量化的优化技术. 本节就目前相关主流技术进行归纳整理，并在协同推理角度进行分析.

2.1.1 模型切割

深度神经网络模型多具有良好的内部结构，如图4所示，按照模型的内部结构可通过纵切、横切及混切等方式将模型切分成不同粒度且具有相互依赖关系的模型切片^[45]，之后将切片按照依赖关系分别部署在云及边缘端. 如采用纵切方式的DeepThings^[46-47]，横切方式的Neurosurgeon^[34]、MoDNN^[48]、Cogent^[49]. 混切方式的DeepX^[50]、AOFL^[51]、CRIME^[52]、 DeepSlicing^[53]，以模型切割为主压缩等其他轻量化方法为辅的Edgent^[54]， ADCNN^[55]等，通过优化资源（能耗、通信或计算等）的代价函数对模型内部的切割点进行枚举，以寻找满足用户或系统需求的切割方案.模型切割技术在保证模型推理精度不变的前提下，能更好的适应边缘计算. 但由于边缘计算中涉及资源分布广泛、性能不一，尤其是在动态场景下资源地理分布范围广，造成所面临的环境时刻发生变化且不唯一；网络规模变大造成网络拓扑变化；边缘计算场景中计算资源不集中，靠近用户侧，资源发散；应用、网络、设备的异构性等边缘计算资源类型多；由于同一节点运行多种类型服务的情况，资源分配困难使得网络拥堵，服务器波动大；故障频率高、性能波动大、节点协调困难、服务调整趋于被动，存在滞后性并需要分布式思维解决等问题.切割技术中需要引起关注的是切割的整体过程，其中包括切割的执行者、切割时的参考依据如何获取、切片的依赖关系映射、切片更新时间及频率等，这决定了切割的方案在边缘计算环境中的适用性及稳定性，表1给出了不同方法的模型切割过程中涉及的关键步骤的比较.

图 4 模型切割方式

Figure 4. Model partition methods

下载: 全尺寸图片幻灯片

表 1 模型切割方法比较

Table 1. Comparison of Model Partition Methods

方法	模型切割执行者	切割的依据收集方式	切片依赖关系处理/服务发现方式	切片更新方式	优化目标	运行时涉及的切片数量
DeepThings^[46-47]	网关（gateway）	周期性收集节点状态	网关统一调度	节点拥有完整模型	内存、通信	≥2
ADCNN^[55]	中心节点（central node）	基于历史任务执行时延估计	中心节点调度	节点拥有完整模型	时延、通信	≥2
Neurosurgeon^[34]	客户端	实时观测当前网络、能耗状态	IP绑定（固定）	节点拥有完整模型	能耗（时延）	2
MoDNN^[48]	中心节点（group owner）	节点注册到中心节点时获取	中心节点调度	部署一次,无更新	时延	≥2
DeepX^[50]	中心节点（execution planner）	实时收集与线性回归预测	中心节点调度	每次运行推断重新生成执行计划	能耗、内存	≥2
AOFL^[51]	云端或中心节点	周期性收集节点状态	IP绑定（固定）	重新部署	时延、通信	≥2
CRIME^[52]	任意节点	节点实时交互	直接邻居集合	节点拥有完整模型	时延、能耗	≥2
DeepSlicing^[53]	主节点调度（master）	基于历史任务执行时延估计	中心节点调度	节点拥有完整模型	时延、内存	≥2
Edgent^[54]	主节点（边缘服务器）	观测的历史网络数据	IP绑定(固定)	重新部署	准确率、时延	2
文献[45]	中心节点	实时收集节点状态	IP绑定（固定）	节点拥有完整模型	内存	≥2
Cogent^[49]	中心节点（DDPG adgent）	周期性收集节点状态	Kubernetes提供的静态虚拟IP绑定 (固定)	重新部署	准确率、时延	2
文献[56−57]	边缘服务器（server）	根据模型及优化目标折中分析	IP绑定（固定）	重新部署	计算、通信时延	2

下载: 导出CSV

| 显示表格

通过表1可以看出，由于边缘计算资源的可用性会发生变化，因此涉及切片的重新部署. 主流方式多采用中心节点对其他边缘节点状态进行收集，从而作为模型重新切割的依据，之后将模型切片下发到边缘节点. 这种收集节点状态的形式默认对所有的边缘节点具有感知能力，但这个前提并不适用于边缘计算尤其是动态场景^[55,58]. 在模型的重新切割及部署上，涉及2个关键问题：1）模型或数据可支持的并行度对推理速度产生重要影响，由于模型的内部结构采用横切的方式，在并行度上很难提升；纵切虽然可极大提升并行度，但一般会带来数据依赖的问题，因此设计适合纵切的模型是一个重要的研究方向，如考虑计算复用、设计可用于无数据依赖切割的模型等^[45,55]. 2）部署方案更新的频率较高会带来过高的代价，既包括切片本身也包含所涉及的其他组件；此外，切片更新过程中可能会面临无法提供服务问题带来的服务抖动，此时可参考经典的任务冗余（副本）技术解决. 节点拥有整个模型是避免针对同一模型重新切割带来的反复下发调度，提升协同推理灵活性的关键. 但对于运行内存不足的节点而言，拥有整个模型存在较大阻碍，此时可借助其他轻量化技术对模型进行压缩或考虑辅助存储、网络存储的形式减少频繁更新切片带来的额外代价，此外，在线学习、感知学习^[59]等实时更新模型的学习方式也值得关注.

除了关注模型切片的部署之外，推理时切片间依赖关系的处理也值得关注，如根据网络状态自适应决定相邻切片间数据或张量（tensor）的压缩率^[56-60]以应对紧张的通信资源. 在切片间的依赖关系路由或服务发现上，目前多数都采用固定的IP映射的方式，或采用解析节点进行，当部署的切片所涉及的节点数量过多时，固定的IP映射的方式尤其不适合于动态的边缘计算环境，采用解析节点则引入了额外的解析时间^[61]，数据命名网络可为此方面问题提供解决方案^[62]. 此外，多用户方面的协同推理还有所欠缺，目前的解决方案多针对单个场景，涉及的应用不多，用户量不多，默认的是边缘服务器资源充足的场景. 当面临多用户、多应用时，由于边缘计算的地理分布特点，云计算中资源的按需扩展很难在边缘侧实现，这会导致资源紧张，使服务满足不了用户或企业需求，此时可参考计算复用的思想，如多场景共用通用模型的部分切片^[63]. 虽然依据模型的内部结构对模型进行切分的研究成果较为丰富，但多数模型切片部署方案针对的是边缘计算资源状态相对稳定或基于瞬时状态的静态场景，其稳定性易受动态场景影响而出现系统瓶颈，可以参考的方案是从模型的鲁棒性入手，当存在某个瓶颈节点时可直接跳过部分子切片或神经元^[64-65]. 在具体的场景中，由于节点的资源是相对有限的，节点算力存在差异而且处于动态变化中，这增大了对于恰当的模型分割点的选择难度. 无论横切还是纵切的切割方式，划分计算任务时如果不能有效结合节点算力差异，导致任务分配下发不合理，那么节点间的协同效率也会受到较大影响. 另外在节点协同处理问题的情境中，网络状态的处理也十分重要，不仅会直接影响到模型切割的结果，在执行推理的过程中，产生的通信延迟也会明显影响推理服务质量^[66]. 同时现有的模型切割方式存在策略的选择不够全面，为了实现协同，难以兼顾推理效果、推理延迟、服务能耗等问题.

2.1.2 模型压缩^[67]

由于边缘节点内存、计算能力、能耗等有限，模型的鲁棒性、稀疏性等允许我们通过张量分解方法对张量降秩处理^[68]；通过剪枝剔除影响小的参数对模型进行压缩^[17,64]；通过量化方法降低权重和中间计算结果的位宽^[69-70]，进一步降低模型在内存与计算量上的需求，文献[17,64,68−70]方法属于软件优化，在其应用于具体的边端设备时，由于模型的多样性与一些加速芯片的架构特点并不匹配，甚至可能存在“内存墙”问题，在模型的推理速度及能耗提升上还存在阻碍^[71]，为了进一步有效利用资源，结合资源特点进行定制化的压缩，软硬件协同优化^[72-73]也值得关注.

在软件优化方面，除了与训练过程结合生成低稀疏性的紧致模型外，还包括对已有模型的处理，处理技术主要包含剪枝与量化2种技术. 对剪枝而言，从模型的结构出发，可分别对滤波器（filter）^[74]、通道（channel）^[75-76]、神经元^[77]等分别或混合^[78]进行压缩处理. 在剪枝粒度上，主要包含非结构化剪枝与结构化剪枝2种. 非结构化剪枝删除任意位置的权重，其特点是粒度细、压缩率高，如在多次迭代过程中删除冗余参数的知识蒸馏方法^[79]. 但非结构化剪枝并不能显著降低计算量且因存在的稀疏性带来额外开销，需要定制化加速器才能完成计算加速. 结构化剪枝中剪枝粒度大，具有良好的加速效果，如通过后继层对前驱层的重要性反馈删除影响小的通道^[75]，但此类方法压缩率相对较低. 这促进了对混合粒度的剪枝方法研究，如满足一定结构规则性的基于模式的剪枝方案对卷积内核进行修剪以满足特定模式^[80]. 剪枝操作通常会给推理精度带来不利影响，目前主流方法多采用重新训练的方式解决这个问题^[74]，但对重新训练而言，由于计算代价大，重新训练比较适用于精度及效率具有重要意义的场景^[70]，即需要评估模型部署后所带来的收益与重新训练的代价后才考虑是否选择重新训练.

对量化而言，由于模型的参数量巨大,低位宽的数据表示方法可以极大压缩模型尺寸，提升推理速度. 根据取值范围，可将量化分为2值量化、3值量化^[81]、线性量化、非线性量化^[82]，其本质是多对一的映射问题. 2值量化方法中，主要是将权重映射为1和−1^[69]，将激活值映射为1和0^[83]；3值量化主要是在2值量化基础上引入额外的0来增强所能表达的状态空间^[84-85]；线性量化则主要将原始权重数据量化为连续的对硬件友好的定点^[86-90]；非线性量化通常没有特定的映射规则,也有学者称其为参数共享^[91]，如使用不同的哈希映射对网络每一层进行压缩^[92]；使用k-means聚类实现相近参数的压缩^[67,93]，将最近邻居量化到相同位宽^[94]等. 由于数据表示的精度上存在损失，因此，量化方法会对推理精度带来一定影响. 同样的，也可通过重新训练提升推理精度^[94]，进一步地，为了充分贴合硬件的计算性能，可通过编译器的指令优化使算法级压缩与硬件资源优化相融合^[80]，从而达到在可移植的基础上进一步提升推理速度的目的.

在软硬件协同优化方面，硬件敏感的神经结构搜索（hardware-aware neural architecture search, HNAS）成为热点，不同于软件层面的模型压缩方法，HNAS将硬件资源与模型同时考虑在内实现定制化压缩. 定制化的压缩方案极大提升了推理性能. 但有些硬件的结构是可重塑或定制化的，如FPGA. 因此，好的模型压缩方法还需要考虑如何在一个可变的硬件上进行充分压缩，如NAIS，NAIS方法所面对的搜索空间既包含模型本身又包含硬件特点，实现最优的部署需要较高的代价，针对此问题，文献[95]设计了一种可微分的方法来加速该过程；同时，由于模型稀疏性普遍存在,设计高效的跳零架构，直接跳过冗余的零值计算.加速计算过程^[96]以及存内计算（processing in memory）^[97]等也值得关注.

现有大多数方案都基于固定或基于历史数据分析的资源分配，在资源不稳定的情况下，推理运行时的效果也值得关注. 该方面可结合硬件进行实时压缩，考察激活值的稀疏性、动态的压缩激活值. 如，通过区分图像敏感区域，自适应地选择不同的激活值和权重量化位宽^[98]，通过对输入数据按照取值范围编/解码，实现多通道自适应压缩^[99]等. 这方面的研究目前不多，尤其是在边缘计算场景下值得关注.

小结与分析：可以看出，模型压缩涉及范围广泛，从模型的内部结构出发，包含了模型不同的组成部分，从使用的场景出发包含了与硬件资源结合时的优化，单独一个方法很难适用于不同的场景，方法的适用性对边缘计算场景而言至关重要. 由于涉及的资源分布广泛，节点性能存在很大差异，仅靠人工设计网络结构及压缩的方式很难普及，通过软硬件协同的网络压缩自动化方法值得我们进一步挖掘.然而，目前对模型进行压缩及更新替换的多数方法皆通过高性能服务器或云等远端进行^[100]，在不具备这种条件的场景，如野外、战场、隐私安全要求高的环境或通信代价大的场景，需要设备间的协同来完成更新. 但由于边缘计算场景资源异构性的存在，当前压缩方法及精度表示多种多样，在不同设备间移植的兼容性需要进一步考虑.

就量化方法而言，虽然保留了完整的模型，但不同硬件由于功耗上的设计使其可表示的数值精度存在很大差异^[101]，固定位宽的表示方式可能并不适用于临近的所有协同节点，这种情况下接收到的模型与资源的匹配度无法达到最优，2.1.2节提到的多种优化方法也就无法发挥作用，再次压缩处理的模型是否满足需求甚至能否再次训练值得关注. 值得一提的是在边缘协同推理场景，受限资源的分配及调度粒度至关重要，该问题将决定“腾出资源做合适的任务”等资源调度及优化的发展. 除此之外，还需要注意的是，边缘节点的可用资源是不同的、动态变化的，现有的压缩方法对此的适应性存在空白，亟待解决.

2.1.3 模型选择/早期退出

如图5和图6所示，模型选择指首先训练具有不同尺寸大小的模型，之后结合推理场景，自适应地选择合适的模型用于离线推理. 早期退出（early exit）与模型选择相似，不同之处在于早期退出除了最终的输出层之外，还可通过中间层输出结果,避免数据流经整个网络，并可以实现参数共享^[18].

图 5 早期退出模式

Figure 5. Early exit pattern

下载: 全尺寸图片幻灯片

图 6 模型选择模式

Figure 6. Model selection pattern

下载: 全尺寸图片幻灯片

早期退出（典型的如BranchyNet^[102]）通过增加多个推理分支提升模型推理速度. 由于多分支的加入，相比模型切割带来了更多可能性，如文献[32]针对云边协同场景提出分布式深度神经网络（distributed deep neural network，DDNN），以分支为切割点，将切割点的两侧分别部署在边缘端与云端. 与模型选择类似，由于具有多个推理分支，退出点的选择是决定边缘协同推理在云端还是边缘端进行推理的关键. 早期退出通过分支选择器计算分支可信度来决定推理的退出点. 可信度可通过计算Softmax输出层的熵大小或额外增加可信度决策模型得到，如文献[103]提出AO（authentic operation）模块，为每种类型的推理任务建立了个性化的决策阈值，文献[104−105]针对连续多推理请求场景（视频分析），考虑可满足时延要求的退出点，以是否满足时延要求设计收益函数，并以此作为分支选择依据，按照请求的先后次序进行推理，并给出了按先后次序（ordered scheduling structure）调度可以得到的一个最优结果的证明.

在验证方面，如何快速地对所提早期退出算法进行验证是实现快速迭代的前提，文献[106]提出了一款基于MATLAB的DeepFogSim仿真平台，DeepFogSim以能耗-时延为优化目标，模拟云—边—端协同场景，并支持部分资源动态性. 我们前期对目前已有的大量开源边缘计算仿真平台进行了归纳整理，或可为快速验证想法提供有效的技术候选方案^[14]. 同时，针对动态场景特点，我们也研发了开源的仿真平台EasiEI^[107].

在模型选择方面，简单的形式是同时准备2种尺寸的模型分别部署在边缘侧与云端，边缘侧用于初步的推理，当推理结果的可信度不满足给定的阈值时，则选择云端进行推理^[108-109]. 由于模型训练的架构、网络结构不同，在推理时延、能耗以及精度等有所差异，在同一场景下，如何在不同的模型之间进行选择是首先需要考虑的问题，即模型选择器（model selector），如以降低推理时延为目标，通过前置专用的预测模型^[110-112]识别输入数据，自动选择合适的推理模型.在不同场景下，尤其是在资源紧张的边缘计算场景下，单终端节点可能面临多任务推理场景或多租户场景. 此时不同任务之间的竞争、调度等易导致服务质量下降. 这方面的研究主要是对不同领域的模型进行智能选择或模型融合^{[100,106,108,113]}. 如文献[63]结合迁移学习共享了部分计算用于支持不同场景的推理任务.

小结与分析：可以看出，模型选择与早期退出都涉及到如何根据给定的优化目标进行决策的问题，在决策过程中需要针对目标设置合理的阈值.然而，优化目标一般是推理精度与能耗、时延等的折中. 由于边缘计算场景众多、资源类型不一，自动化地确定阈值是该类轻量化方法能否适应不同场景的关键，尤其是在推理过程中，阈值的确定应当根据当前的运行状况进行动态改变.文献[54]考虑了节点协同时网络的动态性，提前计算出不同的早期退出点与切割点候选方案，在推理过程中结合网络变化实时调整推理方案，利用多节点协同共同保证推理精度，满足了一定的实时性.但早期退出方法的退出点数量受限于模型层数，在资源已经受限的边缘协同环境中，由于节点算力差异与变化，按照退出点进行切割然后采用协同推理的方式无法提供更加灵活、更细粒度的资源分配控制，这方面还需要进一步提升. 与其他技术，如模型压缩结合或可提供潜在的解决方案. 在模型选择方面，通过协同方式有效获取节点特点、节点运行状态是选择合适模型的关键. 一种可行的方式是结合不同节点的历史数据与推理模型的算子、结构等来训练用于评估推理效果的模型，近期研究nn-Meter^[114]根据不同类型边缘节点的特点，对在不同节点上进行推理的时延进行预测取得了不错的效果，该研究或可为在边缘节点上如何选择更好的模型提供支持. 除时延指标外，还有能耗等指标值得考虑.

适用于边缘计算场景的轻量化技术还需要根据场景需求对多种技术进行融合.如在时延及推理精度都具有高要求的工业物联网领域，关注的是如何将轻量级模型运行在单个节点或尽可能地降低多节点协同推理时带来的网络代价，此时可将早期退出与模型切割结合，将一部分推理请求提前过滤^[115]；在计算代价大的场景，可考虑将量化与早期退出结合，压缩计算量^[94]；当支持节点协同时，可考虑将模型切割、量化与重训练结合^[55]，从模型尺寸、推理精度方面一起优化，实现更加高效的分布式协同推理；对于动态场景而言，由于节点负载、网络负载的不断变化会导致部署时所采用的优化目标不满足资源约束，多数解决方案通过将完整的模型存储在每个节点上，通过观测当前的系统状态实时调整协同推理的部署方案，以此来满足资源约束.

2.2 整体架构

仅通过云与端实现的推理场景受多方面制约，难在复杂的业务场景中发挥作用，主要表现在对带宽密集型业务的原始数据或中间数据传输代价大、隐私安全要求高的业务数据传输敏感；所处环境恶劣的业务与云端连接不稳定或限制上行带宽；传输链路过长容易出现故障；端侧能耗限制较强等. 这在智能驾驶、在线交易以及军事等领域十分普遍. 边缘协同推理通过云、边等资源联邦，克服数据传输、隐私安全、运行环境等存在的问题，对推理任务“就近”解决. 文献[8]指出,“边缘”是一个连续统，那么，协同推理的架构主要关注点则是如何调集连续统中的资源. 本文按照资源及数据的协同处理方式，从云与边的角度对边缘协同推理进行分析.

从中心化计算与否出发，为了便于在逻辑上描述，此处将云端或边缘服务器端统称为云端，将终端节点或具有计算能力的边端节点统称为边端. 如图7所示，目前主流的用于进行边缘协同推理的框架主要包含4类. 采用模型切割方式的云边协同推理（图7（a））与边边协同推理（图7（b））、基于模型选择的云边协同推理（图7（c））以及基于多个不同任务场景的多模型结果聚合的边边协同推理（图7（d））. 其中图7（b）基于模型切割的边边协同推理架构根据任务处理的流程及网络拓扑结构又可分为2类：根据模型切割时子切片依赖图形成的网状拓扑与以协调节点或推理请求者为中心的呈放射状的星状拓扑.

图 7 主流的边缘计算协同推理架构

Figure 7. Mainstream of collaborative inference framework in edge computing

下载: 全尺寸图片幻灯片

其中图7（a）基于模型切割的云边协同推理依据模型切割技术，将模型分解为具有先后以来关系的不同切片，分别部署在边端与云端. 边端将部分中间结果经过处理后发送至云端完成后续的计算，最终由云端返回推理结果.考虑的指标主要包含隐私安全、通信代价与计算代价的联合优化. 边端除了对数据预处理^[115]、计算一部分中间输出结果外，还可与早期退出结合^[54,116]，将一部分具有推理功能的分支部署在边端，当边端推理结果不满足需求时，通过云端更深层次的模型进行推理.该类架构从逻辑上看仅存在一个云与边之间的切割点. 如文献[34,49,54,56−57]等所述，模型主要切分为2部分，分别部署在边端与云端. 由于切片数量的减少，简化了网络拓扑，利于观测网络中的动态变化和协同推理的实时调整. 如文献[54]根据可用带宽自适应地划分移动设备和边缘服务器之间的深度神经网络（DNN）计算，由于推理速度受到移动设备上其他计算任务的限制，不足以满足严格的时延要求，因此又引入了早退机制来进一步降低延迟. 除带宽外,节点负载状况也需要关注^[116]，文献[117]基于动态场景，包括传输带宽变化与节点计算能力变化，提出建立可靠性指标，评估了时延约束下模型的可靠性.

其中图7（b）基于模型切割的边边协同推理在不具备云端支持，同时单个节点资源不足的场景下，可将模型切片映射或动态调整到到不同的节点，通过节点间的协同完成推理. 该类方式可自发地通过协同交互处理任务，多涉及资源性能受限节点、节点间具有网络连接，关注的指标主要包括能耗、时延、内存等，较适用于动态场景（资源、环境动态变化）下的单方资源受限、无云端控制或控制存在一定阻碍等场景.该类架构从逻辑上看模型存在多个切割点，所涉及的切片数量多大于2个，较基于模型切割的云边协同推理更为灵活. 根据调度方式的不同，逻辑上的网络拓扑可分为网状拓扑与星状拓扑. 网状拓扑的部署方式一般事先固定，按照切片的先后依赖顺序查找后继节点，应对复杂的动态场景能力弱；星状拓扑在部署上一般通过中心协调点（或推理请求节点）对切片按照先后依赖顺序不断收集中间结果并转发到其他节点进行调度（参见表1中的切片依赖关系处理/服务发现方式)，灵活性较网状拓扑更强，但调度频繁易使代价过高.

其中图7（c）基于模型选择的云边协同推理与模型切割与早期退出结合的云边协同类似，基于模型选择的云边协同推理在边端具有完整的推理能力，不同的是边端所运行的推理模型是完整的. 该类架构下一般是针对同一场景训练2个大小不同尺寸的模型，如借助知识蒸馏技术分别部署在云端与边端. 由于边端的模型尺寸小、推理能力相对较弱，因此在推理精度不可靠的情况下会将推理请求转发至云端进行更为精确的推理^[118].该类架构边端与云端的链接是否可靠取决于边端的模型推理精度是否满足需求，本质上由边端的性能决定. 如文献[119]提出在边端运行小模型（SNN），云端（边缘服务器）运行DNN，由边端根据自身运行状态（模型复杂度、推理精度、数据质量、计算能力和通信带宽等）选择是否通过云端获取推理结果.

其中图7（d）基于多模型结果聚合的边边协同推理与多数将推理请求发往云端思路不同，该类架构在概念上与决策级的信息融合相近，中心节点（或推理请求节点）将推理请求下发给多个边端，每个边端具有某一特定任务或领域的推理能力，之后通过汇总来自多个边端的推理结果得出最终结论.不同于基于模型选择的云边协同推理中的场景有限，基于多模型结果聚合的边边协同推理能适应的场景更加多样，这种类似于任务冗余的形式能够提供较高粒度的可靠性及并行性支持.如文献[120]提出基于竞争机制和选择性学习方法，在边端每个节点上运行其所擅长的不同领域的模型，利用多节点的协同，实现多边端协同推理.但由于一个推理请求会同时广播给多个边端，边边协同推理主要关注的是推理精度及速度，在能耗及通信方面值得进一步提升，可通过额外的选择器对多个边端是否执行进行提前筛选^[121].

小结与分析：基于2.2节分类及分析可以看出，从推理结果最终的出处来看，边缘计算协同推理架构可分为2类.一类是用户发出推理请求，多节点通过处理协同推理过程中的中间数据，最终由云端或边端中的单个节点得出推理结果，该类思想与向云端卸载任务一致，如图7（a）~（c）所述.另一类是由边端汇总来自其他多个边端或云端的多个推理结果，之后对比评判得出最终的推理结果，该类思想可参考云端将推理任务卸载到边端或众包，如图7（d）所述.从整体云边端角度分析，第1类涉及对模型的压缩、剪枝、量化、切割等过程，第2类则涉及多边端推理结果融合. 表2给出了不同的架构所采用的关键技术、针对的问题及其适用场景的比较.

表 2 不同架构的比较

Table 2. Comparison of Different Architectures

序号	名称	关键结合技术	针对的问题	适用场景
1	基于模型切割的云边协同推理	模型切割、数据压缩、量化、矩阵分解/压缩、早期退出	边端设备能耗、算力有限、能耗与时延“折中”	有云端支撑、数据预处理、隐私、负载实时调整
2	基于模型切割的边边协同推理	模型切割、数据压缩、量化、矩阵分解/压缩	与云端链接不可靠、单节点资源受限、能耗与时延“折中”	无云端支撑、单节点资源不足且有邻居节点、通信代价低
3	基于模型选择的云边协同推理	数据压缩、模型压缩、知识蒸馏	边端设备推理精度不可靠	推理精度高可信、边端节点资源相对充足
4	基于多模型结果聚合的边边协同推理	数据/模型融合、数据压缩、异/同步通信	协同推理并行度低、推理精度不可靠	多场景协同推理、边端节点资源充足、对时延要求相对较低

下载: 导出CSV

| 显示表格

对于云计算，目前的分布式架构所利用的资源丰富，推理效果好（推理精度高且推理速度快）是关注的重点，而能耗并非核心关注问题.边缘协同推理由于其资源特点，在推理效果好的前提下同时期望得到低代价的部署方案，其所处的复杂环境决定了这是一个“折中”问题. 节点状态、环境及用户等会对问题的解产生动态性影响，使资源的状态发生变化. 为了更好地提升资源利用率，同时确保服务的有效性，就需要对资源进行重新调度或部署.然而，边缘协同推理属于计算及带宽密集型的复杂业务，所处环境多样,用户不一，具有极大的不确定性^[122-123]，不同的调度方式在复杂性及时效性或准确性上存在差异，产生的运维代价不同，服务有效性与资源利用率存在冲突.

在资源调度与控制方面，由于边端设备类型众多,资源涉及多方且参与意愿不同，在协同推理时若非采用资源预分配的手段，很难达到实时的最优协同推理.而资源预分配恰恰是需要统一调度的，这意味着会存在资源上的过度消耗、竞争，调度周期也不好确定，无法及时有效处理多方请求. 因此，对所有资源实现统一调度与控制是不现实的，这导致了推理过程中资源募集能力不一，加剧了边缘协同推理的难度.

从涉及的网络计算资源来看，2节点是分水岭，节点数量影响了调度服务对网络环境、节点负载等的感知能力及处理能力，最终反映在任务调度的实时性上. 单节点自身资源可以支持推理服务的运行，但可靠性差；2节点协同交互简单，方便管理,但不够健壮，处理任务时可调动的资源有限；多节点鲁棒性强，适合动态场景，但模型复杂，管理及优化困难. 目前，2节点主要应用在云边端协同场景，多节点更多应用于IoT场景^[45].

因此，边缘协同推理与众多应用层的服务类似，服务表现碎片化、多角度，很难提供一个通用的基础架构. 如智慧城市场景，单独的轨迹数据处理就涉及到乘客、司机、城市规划、交通等诸多角度^[124]. 可以看出，对于边缘协同推理的框架而言，调度是否灵活、推理过程是否具有弹性、能否支持多设备（用户）并发推理及并行需求是关键. 除此之外，由于在推理过程中可能涉及到不同类型信息的融合，是否可快速移植支持异构平台，如借助虚拟化技术；是否融合异构网络，如智能家居中的各种传感器网络^[125]，也值得关注.随着时间的推移，还会涉及到推理模型的更新问题. 目前来看，这方面主要依据联邦学习^[126]或重新部署的形式，更新的频率及更新的代价与更新后能否带来好的收益值得关注.

边缘计算表现出广泛的异构性、动态性，使不同的优化技术应用在“连续统”中，不同类型的边缘节点上存在巨大挑战^[127]，这些节点往往运行多种基础服务. 目前多数方案都仅关注在模型角度，完整的协同推理过程除了AI模型外还涉及其他服务，如可靠性保障、数据中间传输、数据存储、日志追踪等的基础支撑服务，尽管多数轻量化技术在时延方面可以满足一些场景需求，但涉及的模块过多时推理服务的稳定性值得进一步研究^[128].

3. 边缘协同推理在动态场景下的挑战与展望

本文从边缘智能出发，简要描述了其发展过程. 着重从边缘协同角度对模型推理阶段涉及到的关键技术进行了归纳总结，并从动态场景的角度分别进行了分析. 截至目前,边缘协同智能依然处于快速发展阶段，其大体分为2类：一类是基于原有的智能化方法与边缘计算资源特点不断结合（如深度神经网络架构实现搜索、混合精度量化）；另一类是直接从边缘计算产生的方法（或称边缘原生方法，如模型选择）结合边缘计算资源的特点（地理分布、异构性、动态性等）.目前还存在诸多挑战，下面介绍几个值关注与讨论的方向:

1）推理模型与动态性的适应问题. 以往优化算法较适用于云计算中同质化资源，其资源状态变化不大，一般按需分配、按需扩展，利于结合业务对负载实时调控.然而，在应对具有一定规模的呈地理分布的边缘节点时，由于边缘节点相对于云计算节点的可控性不强，且存在资源异构性及动态性，使当前边缘协同推理智能化的主流方法中还存在一些值得进一步关注的问题，如模型切割技术的整体或部分更新问题；模型压缩技术在不同节点间的可移植性及再训练问题；模型选择/早期退出在面对资源变化时的不同模型问题；分支切换灵活性及资源分配粒度问题. 同时，如2.2节所述，尽管目前已经呈现出不同技术的融合态势，但在协同环境下，边缘协同推理智能化方法依旧面临许多共性问题，如已部署模型的更新替换频率及兼容性问题、动态资源变化与所运行模型（或部分）资源需求的匹配问题、额外的中心调度或部署代价问题等.

2）在边缘协同推理验证方面，动态场景建模将促进协同推理相关方法的良性发展. 动态场景下的边缘计算普遍存在硬件故障、系统及软件的负载变化、人为与环境因素的影响、地理分布广泛以及服务状态复杂多变易受影响等特点，运维成为一大挑战.纵观已有研究，在验证思路时多数通过实际的生产场景，或较为简单的代价评估模型模拟，缺乏动态场景特点上的考虑. 造成这种现状的原因，一是生产场景对于广泛的研究人员并不容易可及，二是模拟场景考虑的影响因素不够全面，在边缘协同推理的有效性评估上还存在困难，给边缘协同智能的落地带来一定阻碍. 除此之外，边缘协同推理作为完整应用，还涉及各种网络、计算中间件的运行，这些中间件无一不需要大量的资源来维护. 因此，提供一个可信的动态仿真场景值得研究.

3）在边缘原生方法方面，在线学习与边缘计算的结合或可为边缘协同智能提供更广阔的适用场景. 目前多数研究或工作将训练与推理分开，界线清晰,较适合于资源丰富且动态性不强的场景. 但对于涉及计算、网络等资源存在限制且动态的场景，单独的训练过程并不适用，如何利用有限的资源对推理模型进行在线更新值得研究，相关研究领域或可参考感知计算、触觉网络等.

4. 结　　语

边缘协同推理具有极大的应用价值，目前，正处于快速发展期，但清晰而又统一的处理方法尚未形成，值得我们重点研究. 本文对边缘协同智能的发展历史进行了简要回顾，对推理过程中涉及到的关键技术进行了归纳整理. 通过对不同关键技术的纵向总结、适用场景分析以及技术间的对比等，重点从动态场景角度提出了边缘协同推理存在的挑战与值得发展的方向. 整体来看，边缘协同推理目前还有极大的发展空间，我们未来的研究工作重点将放在动态场景建模以及动态场景下的边缘协同推理可靠性保障方面.

作者贡献声明：王睿设计了论文框架、调研文献、指导论文写作并修改论文;齐建鹏和陈亮负责文献调研、撰写及修改部分论文；杨龙补充完善论文.

https://github.com/mgbellemare/Arcade-Learning-Environment

https://github.com/rllab/rllab

https://github.com/mwydmuch/ViZDoom

https://gym.openai.com

图 1 基于内在动机的深度强化学习探索方法分类

Figure 1. Method classification of exploration approaches in deep reinforcement learning based on intrinsic motivation

下载: 全尺寸图片幻灯片

图 2 常用测试环境示例

Figure 2. Examples of common test environments

下载: 全尺寸图片幻灯片

表 1 本文与已发表相关论文的异同

Table 1 Similarities and Differences of Our Paper Compared with Published Related Papers

相关综述	出发点	研究角度	与本文的主要区别
文献[5]	解决RL面临的抽象动作（及其时序）和抽象状态表示, 以及在其基础上的高层序贯决策问题.	借鉴发育学习理论, 依托分层强化学习、课程学习、状态表征等方法, 详细阐述了如何结合内在动机与深度强化学习方法帮助智能体获取知识和学习技能.	该文重点阐述发育学习理论中2种主要的内在动机模型如何与RL相结合, 以解决稀疏奖励、表征学习、option发现、课程学习等问题, 然而对于内在动机如何解决各类探索问题并未深入研究.
文献[6]	为适应学习系统的行为, 研究如何优化值函数集合的学习问题.	将并行价值函数学习建模为强化学习任务, 在提出的并行学习测试环境中, 基于带非静态目标的在线多预测任务设定, 研究和比较不同的内在奖励机制的表现.	该文重点研究如何利用内在奖励从共享的经验流中学习价值函数集合, 以适应内在驱动学习系统的行为.
文献[7]	解决深度强化学习和多智能体强化学习在现实场景中的广泛应用和部署面临的瓶颈挑战——探索问题.	从单智能体和多智能体角度出发, 系统性阐述了各类探索方法在深度强化学习领域的研究情况, 并在常见的基准环境中对典型的探索方法进行了综合对比.	该文聚焦于阐述覆盖深度强化学习和多智能体强化学习的解决探索问题的多类方法, 基于内在动机的方法并非该论文的研究重点, 因此导致基于内在动机的探索方法覆盖面较小, 讨论深度不够.
文献[8]	解决未知且随机环境中序贯决策面临的探索问题.	从智能体探索使用的信息类型出发, 全面阐述了无奖励探索、随机动作选择、基于额外奖励或基于优化的探索等方法在基于MDP的强化学习领域的研究情况.	该文聚焦于为强化学习解决序贯决策问题中所涉及到的探索方法提供广泛的高层综述, 仅初步介绍了一些基于内在动机的探索方法.

下载: 导出CSV

表 2 基于计数的主要方法小结

Table 2 Summary of Main Methods Based on Count

分类	算法	内在奖励形式	状态表示	主要测试环境和效果
基于密度模型的伪计数	PC^[39] （NIPS-16）	CTS密度模型+ 伪计数的均方根		Atari-MR: 50M帧训练后得到2461均分, 100M帧训练后得到3439均分.
基于密度模型的伪计数	PixelCNN^[44] （ICML-17）	PixelCNN密度模型+伪计数的均方根		Atari-MR: 100M帧训练后得到6600均分.
间接伪计数	${\mathrm{E}\mathrm{X}}^{2}$ ^[47] （NIPS-17）	判别器评估状态新颖性, 作为间接密度	CNN	Doom-MWH: 平均成功率大于 $74\mathrm{\%}$ , 显著高于VIME^[58], #Exploration^[53], TRPO^[59].
	DORA^[48] （ICLR-18）	探索价值 $\mathrm{E}$ -value 作为间接计数		Atari-FW: DORA^[48]在 $2\times {10}^{6}$ 训练步数内收敛, 而PC需 $1\times {10}^{7}$ 训练步数收敛^[39].
	SR^[49] （AAAI-20）	SR的范数作为伪计数		Atari-HEG: 与PC^[39], PixelCNN^[44], RND^[60]性能相当或略高.
状态抽象	#Exploration^[53] （NIPS-17）	基于状态Hash的计数	Pixel, BASS, AE	Atari-HEG: 在除Atari-MR的问题上比PC^[39]得分高, 在Atari-MR上显著低于PC.
状态抽象	CoEX^[40] （ICLR-19）	基于contingency-awareness状态表示的伪计数	逆动力学预测训练卷积，注意力mask提取位置信息	Atari-HEG: 在大部分问题上都比A3C+^[39], TRPO-AE-SimHash^[53], Sarsa- $\varphi$ -EB^[46], DQN-PixelCNN^[44], Curiosity^[61]效果好.
注：CNN （convolutional neural networks）, TRPO （trust region policy optimization）, RND （random network distillation）.

下载: 导出CSV

表 3 基于预测模型的主要算法小结

Table 3 Summary of Main Algorithms Based on Predictive Models

算法类型	算法	内在奖励形式	状态表示	抗噪	主要测试环境和效果
基于预测误差	Static/Dynamic AE^[71] （arXiv 15）	前向动力学模型（仅2层网络）的状态预测误差的2范数平方	Autoencoder 的隐层	否	14个Atari游戏: 与DQN^[72], Thompson sampling, Boltzman方法相比, 优势有限.
	ICM^[61] （ICML-17）	前向动力学模型的状态预测误差的2范数平方	逆动力学辅助训练CNN+ELU	部分	Doom-MWH: 探索和导航效率显著高于TRPO-VIME^[58].
	文献[74] （ICLR-19）	前向动力学模型的状态预测误差的2范数平方	Pixels, RF, VAE^[75], 逆动力学特征IDF	部分	在48个Atari游戏、SuperMarioBros、2个Roboschool场景、Two-player Pong、2个Unity迷宫等环境中, Pixel表现较差， VAE^[75]不稳定, RF和IDF表现较好, IDF迁移泛化能力强, RF和IDF学习效率受到随机因素影响.
	RND^[60] （ICLR-19）	状态嵌入预测误差的2范数平方	PPO^[56]策略网络中的卷积层	是	Atari: 1970M帧训练, 在多个Atari-HEG（包括Atari-MR上获得 $\le$ 8000均分）效果显著好于动力学预测方法.
	EMI^[73] （ICML-19）	前向动力学模型的状态预测误差的2范数平方	前向和逆向动力学互信息最大化		rllab任务: 显著优于ICM^[61], RND^[60], ${\mathrm{E}\mathrm{X} }^{2}$ ^[47], AE-SimHash^[53], VIME^[58]；Atari-HEG:大部分游戏中稍优于上述方法.
	LWM^[77] （NeurIPS-20）	前向动力学模型的状态预测误差的2范数平方	最小化时序邻近状态的特征向量W-MSE损失函数	是	Atari-HEG: 50M帧, 大部分游戏上明显优于EMI^[73], ${\mathrm{E}\mathrm{X} }^{2}$ ^[47], ICM^[61], RND^[60], AE-SimHash^[53].
预测结果不一致性	Disagreement^[79] （ICML-19）	一组前向动力学状态预测误差的方差	随机特征/Image-Net预训练的ResNet-18特征	是	Unity迷宫导航: 在noisy TV设置下探索效率明显高于RF下的前馈模型^[74].
预测结果不一致性	文献[81] （ICML-20）	对动力学模型后验分布的采样方差		是	rllab任务: 优于Disagreement^[79], MAX^[80], ICM^[61].
预测精度提升	文献[82] （ICML-17）	基于预测损失的提升或网络复杂度的提升的多种奖励			语言建模任务（n-gram模型，repeat copy任务和bAbI任务）: 显著提升了学习效率, 甚至达到了1倍.

下载: 导出CSV

表 4 基于信息论的主要方法小结

Table 4 Summary of Main Methods Based on Information Theory

算法类型	算法	内在奖励形式	状态表示	抗噪	主要测试环境和效果
信息增益	VIME^[58] （NIPS-16）	预测模型参数的累计熵减（推导为前后参数的KL散度）		是	rllab的多个任务（包括层次性较强的SwimmerGather）: 得分显著高于TRPO和基于L2预测误差的TRPO.
	Surprisal^[90] （arXiv 17）	惊奇：真实转移模型与学习模型参数之间的KL散度近似		是	多个较困难的rllab任务和部分Atari游戏：仅在部分环境下探索效率高于VIME^[58], 但在其他环境与VIME有一定差距.
	AWML^[69] （ICML-20）	基于加权混合的新旧动力学模型损失函数之差	假定智能体具有面向物体的特征表示能力	是	多类动态物体的复杂3维环境：精度明显高于Surprisal^[90], RND^[60], Disagreement^[79], ICM^[61]等方法.
最大熵	MaxEnt^[92] （ICML-19）	最大化状态分布的熵为优化目标, 以状态密度分布的梯度为奖励			Pendulum, Ant, Humanoid控制任务作为概念验证环境: 相比随机策略, 诱导出明显更大的状态熵.
最大熵	文献[94] （ICML-19）	隐状态分布的负对数	基于先期任务的奖励预测任务得到最小维度隐状态表示		简单的object-pusher环境: 获得外在奖励的效率显著高于无隐状态表示的MaxEnt^[92].
互信息	VMI^[100] （NIPS-15）	当前状态下开环option 与终止状态的互信息	CNN处理像素观测信息		简单的静态、动态和追逃的网格世界: 展示了对关键状态的有效识别.
	VIC^[99] （arXiv 16）	当前状态下闭环option 与终止状态的互信息			简单的网格世界: 证明了对Empowerment的估计比VMI算法^[100]更准确.
	DIAYN^[103] （ICLR-19）	当前状态下闭环option与每一状态的互信息、option下动作的信息熵最大化			2D导航和连续控制任务: 相对VIC^[99]能演化出更多样的技能.
	DADS^[107] （ICLR-20）	式（19）的正向形式, 兼顾多样性和可预测性			OpenAI Gym的多个控制任务: 与DIYAN^[103]相比, 原子技能丰富且稳定, 更有利于组装层次化行为; 大幅提升下游基于模型规划任务的学习效率.

下载: 导出CSV

参考文献(145)

[1]	Sutton R S, Barto A G. Reinforcement Learning: An Introduction [M]. Cambridge, MA: MIT Press, 2018
[2]	刘全,翟建伟,章宗长,等. 深度强化学习综述[J]. 计算机学报,2018,41(1):1−27 doi: 10.11897/SP.J.1016.2019.00001 Liu Quan, Zhai Jianwei, Zhang Zongchang, et al. A survey on deep reinforcement learning[J]. Chinese Journal of Computers, 2018, 41(1): 1−27 (in Chinese) doi: 10.11897/SP.J.1016.2019.00001
[3]	Liu Xiaoyang, Yang Hongyang, Gao Jiechao, et al. FinRL: Deep reinforcement learning framework to automate trading in quantitative finance [C] //Proc of the 2nd ACM Int Conf on AI in Finance. New York: ACM, 2022: 1−9
[4]	万里鹏,兰旭光,张翰博,等. 深度强化学习理论及其应用综述[J]. 模式识别与人工智能,2019,32(1):67−81 doi: 10.16451/j.cnki.issn1003-6059.201901009 Wan Lipeng, Lan Xuguang, Zhang Hanbo, et al. A review of deep reinforcement learning theory and application[J]. Pattern Recognition and Artificial Intelligence, 2019, 32(1): 67−81 (in Chinese) doi: 10.16451/j.cnki.issn1003-6059.201901009
[5]	Aubret A, Matignon L, Hassas S. A survey on intrinsic motivation in reinforcement learning [J]. arXiv preprint, arXiv: 1908.06976, 2019
[6]	Linke C, Ady N M, White M, et al. Adapting behavior via intrinsic reward: A survey and empirical study[J]. Journal of Artificial Intelligence Research, 2020, 69: 1287−1332 doi: 10.1613/jair.1.12087
[7]	Yang Tianpei, Tang Hongyao, Bai Chenjia, et al. Exploration in deep reinforcement learning: A comprehensive survey [J]. arXiv preprint, arXiv: 2109.06668, 2021
[8]	Amin S, Gomrokchi M, Satija H, et al. A survey of exploration methods in reinforcement learning [J]. arXiv preprint, arXiv: 2109.00157, 2021
[9]	Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning [C/OL] //Proc of the 4th Int Conf on Learning Representations. 2016 [2022-09-06].https://arxiv.org/abs/1509.02971v6
[10]	Plappert M, Houthooft R, Dhariwal P, et al. Parameter space noise for exploration [C/OL] //Proc of the 6th Int Conf on Learning Representations. 2018 [2022-09-06].https://arxiv.org/abs/1706.01905
[11]	Fortunato M, Azar M G, Piot B, et al. Noisy networks for exploration [C/OL] // Proc of the 6th Int Conf on Learning Representations. 2018 [2022-09-06].https://arxiv.org/abs/1706.10295
[12]	章晓芳, 周倩, 梁斌, 等, 一种自适应的多臂赌博机算法 [J]. 计算机研究与发展, 2019, 56（3）: 643−654 Zhang Xiaofang, Zhou Qian, Liang Bin, et al. An adaptive algorithm in multi-armed bandit problem [J]. Journal of Computer Research and Development, 2019, 56(3): 643−654 (in Chinese)
[13]	Lai T L, Robbins H. Asymptotically efficient adaptive allocation rules[J]. Advances in Applied Mathematics, 1985, 6(1): 4−22 doi: 10.1016/0196-8858(85)90002-8
[14]	Strehl A L, Littman M L. An analysis of model-based interval estimation for Markov decision processes[J]. Journal of Computer and System Sciences, 2008, 74(8): 1309−1331 doi: 10.1016/j.jcss.2007.08.009
[15]	Jaksch T, Ortner R, Auer P. Near-optimal regret bounds for reinforcement learning [C] //Proc of the 21st Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2008: 89–96
[16]	Azar M G, Osband I, Munos R. Minimax regret bounds for reinforcement learning [C] //Proc of the 34th Int Conf on Machine Learning. New York: ACM, 2017: 263–272
[17]	Jin C, Allen-Zhu Z, Bubeck S, et al. Is q-learning provably efficient [C] //Proc of the 32nd Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2018: 4868–4878
[18]	Kolter J Z, Ng A Y. Near-Bayesian exploration in polynomial time [C] //Proc of the 26th Int Conf on Machine Learning. New York: ACM, 2009: 513–520
[19]	Russo D, Van Roy B, Kazerouni A, et al. A tutorial on thompson sampling[J]. Foundations and Trends in Machine Learning, 2018, 11(1): 1−96 doi: 10.1561/2200000070
[20]	Osband I, Van Roy B. Why is posterior sampling better than optimism for reinforcement learning [C] //Proc of the 34th Int Conf on Machine Learning. New York: ACM, 2017: 2701–2710
[21]	Osband I, Blundell C, Pritzel A, et al. Deep exploration via bootstrapped DQN [C] //Proc of the 30th Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2016: 4033–4041
[22]	Thrun S B. Efficient exploration in reinforcement learning [R]. Pittsburgh, CP: School of Computer Science, Carnegie-Mellon University, 1992
[23]	Barto A G, Singh S, Chentanez N. Intrinsically motivated learning of hierarchical collections of skills [C] //Proc of the 3rd Int Conf on Development and Learning. Piscataway, NJ: IEEE, 2004: 112–119
[24]	Oudeyer P Y, Kaplan F. What is intrinsic motivation? A typology of computational approaches [J/OL]. Frontiers in Neurorobotics, 2007 [2022-09-06].https://www.frontiersin.org/articles/10.3389/neuro.12.006.2007/full
[25]	Harlow H F. Learning and satiation of response in intrinsically motivated complex puzzle performance by monkeys[J]. Journal of Comparative and Physiological Psychology, 1950, 43(4): 289−294 doi: 10.1037/h0058114
[26]	Hull C L. Principles of behavior [J/OL]. The Journal of Nervous and Mental Disease, 1945, 101(4): 396. [2022-09-06].https://journals.lww.com/jonmd/Citation/1945/04000/Principles_of_Behavior.26.aspx
[27]	Deci E L, Ryan R M, Intrinsic Motivation and Self-Determination in Human Behavior [M]. Berlin: Springer, 2013
[28]	Ryan R M, Deci E L. Intrinsic and extrinsic motivations: Classic definitions and new directions[J]. Contemporary Educational Psychology, 2000, 25(1): 54−67 doi: 10.1006/ceps.1999.1020
[29]	Barto A, Mirolli M, Baldassarre G. Novelty or surprise [J/OL]. Frontiers in Psychology, 2013, 4: 907. [2023-09-06]. http://www.frontiersin.org/articles/10.3389/fpsyg.2013.00907/full
[30]	Czikszentmihalyi M. Flow: The Psychology of Optimal Experience[M]. New York: Harper & Row, 1990
[31]	Asada M, Hosoda K, Kuniyoshi Y, et al. Cognitive developmental robotics: A survey[J]. IEEE Transactions on Autonomous Mental Development, 2009, 1(1): 12−34 doi: 10.1109/TAMD.2009.2021702
[32]	White R W. Motivation reconsidered: The concept of competence[J]. Psychological Review, 1959, 66(5): 297−333 doi: 10.1037/h0040934
[33]	Baldassarre G. What are intrinsic motivations? A biological perspective [C/OL] //Proc of IEEE Int Conf on Development and Learning. 2011 [2022-09-06].https://ieeexplore.ieee.org/document/6037367
[34]	Schmidhuber J. Formal theory of creativity, fun, and intrinsic motivation (1990–2010)[J]. IEEE Transactions on Autonomous Mental Development, 2010, 2(3): 230−247 doi: 10.1109/TAMD.2010.2056368
[35]	Bellemare M G, Naddaf Y, Veness J, et al. The ARCADE learning environment: An evaluation platform for general agents[J]. Journal of Artificial Intelligence Research, 2013, 47: 253−279 doi: 10.1613/jair.3912
[36]	Duan Y, Chen X, Houthooft R, et al. Benchmarking deep reinforcement learning for continuous control [C] //Proc of the 33rd Int Conf on Machine Learning. New York: ACM, 2016: 1329–1338
[37]	Kempka M, Wydmuch M, Runc G, et al. VizDoom: A doom-based ai research platform for visual reinforcement learning [C/OL] //Proc of IEEE Conf on Computational Intelligence and Games. 2016 [2022-09-06].https://ieeexplore.ieee.org/document/7860433
[38]	Brockman G, Cheung V, Pettersson L, et al. OpenAI gym [J]. arXiv preprint, arXiv: 1606.01540
[39]	Bellemare M G, Srinivasan S, Ostrovski G, et al. Unifying count-based exploration and intrinsic motivation [C] //Proc of the 30th Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2016: 1479–1487
[40]	Choi J, Guo Y, Moczulski M, et al. Contingency-aware exploration in reinforcement learning [C/OL] //Proc of the 7th Int Conf on Learning Representations. 2019 [2022-09-06].https://arxiv.org/abs/1811.01483
[41]	Veness J, Ng K S, Hutter M, et al. Context tree switching [C] //Proc of Data Compression Conf. Piscataway, NJ: IEEE, 2012: 327–336
[42]	Bellemare M, Veness J, Talvitie E. Skip context tree switching [C] //Proc of the 31st Int Conf on Machine Learning. New York: ACM, 2014: 1458–1466
[43]	Hasselt H V, Guez A, Silver D. Deep reinforcement learning with double q-learning [C] //Proc of the 30th AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2016: 2094–2100
[44]	Ostrovski G, Bellemare M G, Oord A, et al. Count-based exploration with neural density models [C] //Proc of the 34th Int Conf on Machine Learning. New York: ACM, 2017: 2721–2730
[45]	Oord A, Kalchbrenner N, Vinyals O, et al. Conditional image generation with PixelCNN decoders [C] //Proc of the 30th Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2016: 4797–4805
[46]	Martin J, Narayanan S S, Everitt T, et al. Count-based exploration in feature space for reinforcement learning [C] //Proc of the 26th Int Joint Conf on Artificial Intelligence. Menlo Park: AAAI, 2017: 2471–2478
[47]	Fu J, Co-Reyes J D, Levine S. EX²: exploration with exemplar models for deep reinforcement learning [C] //Proc of the 31st Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2017: 2574–2584
[48]	Choshen L, Fox L, Loewenstein Y. DORA the explorer: Directed outreaching reinforcement action-selection [C/OL] //Proc of the 6th Int Conf on Learning Representations. 2018 [2022-09-06].https://arxiv.org/abs/1804.04012
[49]	Machado M C, Bellemare M G, Bowling M. Count-based exploration with the successor representation [C] //Proc of the 34th AAAI Conf on Artificial Intelligence. Menlo Park: AAAI, 2020: 5125–5133
[50]	Machado M, Rosenbaum C, Guo Xiaoxiao, et al. Eigenoption discovery through the deep successor representation[C/OL] //Proc of the 6th Int Conf on Learning Representations. 2018 [2022-09-06].https://arxiv.org/abs/1710.11089
[51]	Schmidhuber J. Curious model-building control systems [C] //Proc of Int Joint Conf on Neural Networks. Piscataway, NJ: IEEE, 1991: 1458–1463
[52]	Tao Ruoyu, Franois-Lavet V, Pineau J. Novelty search in representational space for sample efficient exploration[J]. Advances in Neural Information Processing Systems, 2020, 33: 8114−8126
[53]	Tang Haoran, Houthooft R, Foote D, et al. #Exploration: A study of count-based exploration for deep reinforcement learning [C/OL]//Proc of the 31st Conf on Neural Information Processing Systems. Cambridge, MA: MIT. 2017 [2022-09-06].https://proceedings.neurips.cc/paper/2017/hash/3a20f62a0af1aa152670bab3c602feed-Abstract.html
[54]	Charikar M S. Similarity estimation techniques from rounding algorithms [C] //Proc of the 34th ACM Symp on Theory of Computing. New York: ACM, 2002: 380–388
[55]	Bellemare M, Veness J, Bowling M. Investigating contingency awareness using ATARI 2600 games [C/OL] //Proc of the 26th AAAI Conf on Artificial Intelligence. Menlo Park: AAAI. 2012 [2022-09-06].https://www.aaai.org/ocs/index.php/AAAI/AAAI12/paper/view/5162/0
[56]	Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms [J]. arXiv preprint, arXiv: 1707.06347, 2017
[57]	Song Yuhang, Wang Jianyi, Lukasiewicz T, et al. Mega-Reward: Achieving human-level play without extrinsic rewards [C] //Proc of the 34th AAAI Conf on Artificial Intelligence. Menlo Park: AAAI, 2020: 5826–5833
[58]	Houthooft R, Chen Xi, Duan Yan, et al. VIME: Variational information maximizing exploration [C] //Proc of the 30th Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2016: 1117– 1125
[59]	Schulman J, Levine S, Abbeel P, et al. Trust region policy optimization [C] //Proc of the 32nd Int Conf on Machine Learning. New York: ACM, 2015: 1889–1897
[60]	Burda Y, Edwards H, Storkey A. Exploration by random network distillation [C/OL] //Proc of the 7th Int Conf on Learning Representations. 2019 [2022-09-06].https://arxiv.org/abs/1810.12894
[61]	Pathak D, Agrawal P, Efros A A, et al. Curiosity-driven exploration by self-supervised prediction [C] //Proc of the 34th Int Conf on Machine Learning. New York: ACM, 2017: 2778–2787
[62]	Lopes M, Lang T, Toussain M, et al. Exploration in model-based reinforcement learning by empirically estimating learning progress [J/OL]. Advances in Neural Information Processing Systems, 2012 [2022-09-06].https://proceedings.neurips.cc/paper/2012/hash/a0a080f42e6f13b3a2df133f073095dd-Abstract.html
[63]	O’Donoghue B, Osband I, Munos R, et al. The uncertainty Bellman equation and exploration [C] //Proc of the 35th Int Conf on Machine Learning. New York: ACM, 2018: 3836–3845
[64]	Yu A, Dayan P. Expected and unexpected uncertainty: ACh and NE in the neocortex [C] //Proc of the 15th Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2002: 173–180
[65]	Grossberg S. Adaptive resonance theory: How a brain learns to consciously attend, learn, and recognize a changing world[J]. Neural Networks, 2013, 37: 1−47 doi: 10.1016/j.neunet.2012.09.017
[66]	Schmidhuber J. A possibility for implementing curiosity and boredom in model-building neural controllers [C] //Proc of Int Conf on Simulation of Adaptive Behavior: From Animals to Animats. Cambridge, MA: MIT, 1991: 222–227
[67]	Thrun S. Exploration in active learning [J/OL]. Handbook of Brain Science and Neural Networks, 1995 [2022-09-06].https://dl.acm.org/doi/10.5555/303568.303749
[68]	Huang Xiao, Weng J. Novelty and reinforcement learning in the value system of developmental robots [C/OL] //Proc of the 2nd Int Workshop on Epigenetic Robotics: Modeling Cognitive Development in Robotic Systems. Lund, SWE: Lund University Cognitive Studies, 2002: 47–55
[69]	Kim K, Sano M, De Freitas J, et al. Active world model learning with progress curiosity [C] //Proc of the 37th Int Conf on Machine Learning. New York: ACM, 2020: 5306–5315
[70]	Oudeyer P Y, Kaplan F, Hafner V V. Intrinsic motivation systems for autonomous mental development[J]. IEEE Transactions on Evolutionary Computation, 2007, 11(2): 265−286 doi: 10.1109/TEVC.2006.890271
[71]	Stadie B C, Levine S, Abbeel P. Incentivizing exploration in reinforcement learning with deep predictive models [J]. arXiv preprint, arXiv: 1507.00814, 2015
[72]	Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529−533 doi: 10.1038/nature14236
[73]	Kim H, Kim J, Jeong Y, et al. EMI: Exploration with mutual information [C] //Proc of the 36th Int Conf on Machine Learning. New York: ACM, 2019: 3360–3369
[74]	Burda Y, Edwards H, Pathak D, et al. Large-scale study of curiosity-driven learning [C/OL] //Proc of the 7th Int Conf on Learning Representations. 2019 [2022-09-06].https://arxiv.org/abs/1808.04355
[75]	Rezende D J, Mohamed S, Wierstra D. Stochastic backpropagation and approximate inference in deep generative models [C] //Proc of the 31st Int Conf on Machine Learning. New York: ACM, 2014: 1278–1286
[76]	Savinov N, Raichuk A, Vincent D, et al. Episodic curiosity through reachability [C/OL] //Proc of the 7th Int Conf on Learning Representations. 2019 [2022-09-06].https://arxiv.org/abs/1810.02274
[77]	Ermolov A, Sebe N. Latent world models for intrinsically motivated exploration. [C] //Proc of the 34th Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2020, 33: 5565−5575
[78]	Badia A P, Sprechmann P, Vitvitskyi A, et al. Never Give Up: Learning directed exploration strategies [C/OL] //Proc of the 8th Int Conf on Learning Representations. 2020 [2022-09-06].https://arxiv.org/abs/2002.06038
[79]	Pathak D, Gandhi D, Gupta A. Self-supervised exploration via disagreement [C] //Proc of the 36th Int Conf on Machine Learning. New York: ACM, 2019: 5062–5071
[80]	Shyam P, Jaśkowski W, Gomez F. Model-based active exploration [C] //Proc of the 36th Int Conf on Machine Learning. New York: ACM, 2019: 5779–5788
[81]	Ratzlaff N, Bai Q, Fuxin L, et al. Implicit generative modeling for efficient exploration [C] //Proc of the 37th Int Conf on Machine Learning. New York: ACM, 2020: 7985–7995
[82]	Graves A, Bellemare M G, Menick J, et al. Automated curriculum learning for neural networks [C] //Proc of the 34th Int Conf on Machine Learning. New York: ACM, 2017: 1311–1320
[83]	Holm L, Wadenholt G, Schrater P. Episodic curiosity for avoiding asteroids: Per-trial information gain for choice outcomes drive information seeking[J]. Scientific Reports, 2019, 9(1): 1−16 doi: 10.1038/s41598-018-37186-2
[84]	Shannon C E. A mathematical theory of communication[J]. The Bell System Technical Journal, 1948, 27(3): 379−423 doi: 10.1002/j.1538-7305.1948.tb01338.x
[85]	Frank M, Leitner J, Stollenga M, et al. Curiosity driven reinforcement learning for motion planning on humanoids [J/OL]. Frontiers in Neurorobotics, 2014 [2022-09-06].https://frontiersin.yncjkj.com/articles/10.3389/fnbot.2013.00025/full
[86]	Alemi A A, Fischer I, Dillon J V, et al. Deep variational information bottleneck [C/OL] //Proc of the 5th Int Conf on Learning Representations. 2017 [2022-09-06].https://arxiv.org/abs/1612.00410v5
[87]	Kim Y, Nam W, Kim H, et al. Curiosity-bottleneck: Exploration by distilling task-specific novelty [C] //Proc of the 36th Int Conf on Machine Learning. New York: ACM, 2019: 3379–3388
[88]	Sun Yi, Gomez F, Schmidhuber J. Planning to be surprised: Optimal bayesian exploration in dynamic environments [C] //Proc of the 4th Conf on Artificial General Intelligence. Berlin: Springer, 2011: 41–51
[89]	Chien J T, Hsu P C. Stochastic curiosity maximizing exploration [C/OL] //Proc of Int Joint Conf on Neural Networks. Piscataway, NJ: IEEE. 2020 [2022-09-06].https://ieeexplore.ieee.org/abstract/document/9207295
[90]	Achiam J, Sastry S. Surprise-based intrinsic motivation for deep reinforcement learning [J]. arXiv preprint, arXiv: 1703.01732, 2017
[91]	Laversanne-Finot A, Pere A, Oudeyer P Y. Curiosity driven exploration of learned disentangled goal spaces [C] //Proc of the 2nd Conf on Robot Learning. New York: ACM, 2018: 487–504
[92]	Hazan E, Kakade S, Singh K, et al. Provably efficient maximum entropy exploration [C] //Proc of the 36th Int Conf on Machine Learning. New York: ACM, 2019: 2681–2691
[93]	Lee L, Eysenbach B, Parisotto E, et al. Efficient exploration via state marginal matching [C/OL] //Proc of the 8th Int Conf on Learning Representations. 2020 [2022-09-06].https://arxiv.org/abs/1906.05274v1
[94]	Vezzani G, Gupta A, Natale L, et al. Learning latent state representation for speeding up exploration [C/OL] //Proc of the 2nd Exploration in Reinforcement Learning Workshop at the 36th Int Conf on Machine Learning. 2019 [2022-09-06].https://arxiv.org/abs/1905.12621
[95]	Liu H, Abbeel P. Behavior from the void: Unsupervised active pre-training[J]. Advances in Neural Information Processing Systems, 2021, 34: 18459−18473
[96]	Seo Y, Chen L, Shin J, et al. State entropy maximization with random encoders for efficient exploration [C] //Proc of the 38th Int Conf on Machine Learning. New York: ACM, 2021: 9443−9454
[97]	Still S, Precup D. An information-theoretic approach to curiosity-driven reinforcement learning[J]. Theory in Biosciences, 2012, 131(3): 139−148 doi: 10.1007/s12064-011-0142-z
[98]	Salge C, Glackin C, Polani D. Empowerment—An Introduction [M]. Berlin: Springer, 2014
[99]	Gregor K, Rezende D J, Wierstra D. Variational intrinsic control [J]. arXiv preprint, arXiv: 1611.07507, 2016
[100]	Mohamed S, Rezende D J. Variational information maximisation for intrinsically motivated reinforcement learning [C] //Proc of the 29th Int Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2015: 2125– 2133
[101]	Sutton R S, Precup D, Singh S. Between MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning[J]. Artificial Intelligence, 1999, 112(1/2): 181−211
[102]	Campos V, Trott A, Xiong Caiming, et al. Explore, discover and learn: Unsupervised discovery of state-covering skills [C] //Proc of the 36th Int Conf on Machine Learning. New York: ACM, 2020: 1317–1327
[103]	Eysenbach B, Gupta A, Ibarz J, et al. Diversity is all you need: Learning skills without a reward function [C/OL] //Proc of the 7th Int Conf on Learning Representations. 2019 [2022-09-06].https://arxiv.org/abs/1802.06070
[104]	Kwon T. Variational intrinsic control revisited [J]. arXiv preprint, arXiv: 2010.03281, 2020
[105]	Achiam J, Edwards H, Amodei D, et al. Variational option discovery algorithms [J]. arXiv preprint, arXiv: 1807.10299, 2018
[106]	Hansen S, Dabney W, Barreto A, et al. Fast task inference with variational intrinsic successor features [C/OL] //Proc of the 8th Int Conf on Learning Representations. 2020 [2022-09-06].https://arxiv.org/abs/1906.05030
[107]	Sharma A, Gu S, Levine S, et al. Dynamics-aware unsupervised discovery of skills [C/OL] //Proc of the 8th Int Conf on Learning Representations. 2020 [2022-09-06].https://arxiv.org/abs/1907.01657
[108]	Mirolli M, Baldassarre G. Functions and mechanisms of intrinsic motivations [J/OL]. Intrinsically Motivated Learning in Natural and Artificial Systems, 2013 [2022-09-06].https://linkspringer.53yu.com/chapter/10.1007/978−3-642−32375-1_3
[109]	Schembri M, Mirolli M, Baldassarre G. Evolving internal reinforcers for an intrinsically motivated reinforcement-learning robot [C] //Proc of the 6th Int Conf on Development and Learning. Piscataway, NJ: IEEE, 2007: 282–287
[110]	Santucci V G, Baldassarre G, Mirolli M. Grail: A goal-discovering robotic architecture for intrinsically-motivated learning[J]. IEEE Transactions on Cognitive and Developmental Systems, 2016, 8(3): 214−231 doi: 10.1109/TCDS.2016.2538961
[111]	Auer P. Using confidence bounds for exploitation-exploration trade-offs[J]. Journal of Machine Learning Research, 2002, 3(12): 397−422
[112]	Sun Qiyu, Fang Jinbao, Zheng Weixing, et al. Aggressive quadrotor flight using curiosity-driven reinforcement learning[J]. IEEE Transactions on Industrial Electronics, 2022, 69(12): 13838−13848 doi: 10.1109/TIE.2022.3144586
[113]	Perovic G, Li N. Curiosity driven deep reinforcement learning for motion planning in multi-agent environment [C] //Proc of IEEE Int Conf on Robotics and Biomimetics. Piscataway, NJ: IEEE, 2019: 375–380
[114]	陈佳盼,郑敏华. 基于深度强化学习的机器人操作行为研究综述[J]. 机器人,2022,44(2):236−256 Chen Jiapan, Zheng Minhua. A survey of robot manipulation behavior research based on deep reinforcement learning[J]. Robot, 2022, 44(2): 236−256 (in Chinese)
[115]	Shi Haobin, Shi Lin, Xu Meng, et al. End-to-end navigation strategy with deep reinforcement learning for mobile robots[J]. IEEE Transactions on Industrial Informatics, 2019, 16(4): 2393−2402
[116]	Hirchoua B, Ouhbi B, Frikh B. Deep reinforcement learning based trading agents: Risk curiosity driven learning for financial rules-based policy [J/OL]. Expert Systems with Applications, 2021 [2022-09-06].https://www.sciencedirect.com/science/article/abs/pii/S0957417420311970
[117]	Wesselmann P, Wu Y C, Gašić M. Curiosity-driven reinforcement learning for dialogue management [C] //Proc of IEEE In Conf on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2019: 7210–7214
[118]	Silver D, Singh S, Precup D, et al. Reward is enough [J/OL]. Artificial Intelligence, 2021 [2022-09-06].https://www.sciencedirect.com/science/article/pii/S0004370221000862
[119]	文载道,王佳蕊,王小旭,等. 解耦表征学习综述[J]. 自动化学报,2022,48(2):351−374 Wen Zaidao, Wang Jiarui, Wang Xiaoxu, et al. A review of disentangled representation learning[J]. Acta Automatica Sinica, 2022, 48(2): 351−374 (in Chinese)
[120]	Kipf T, Van Der Pol E, Welling M. Contrastive learning of structured world models [C/OL] //Proc of the 7th Int Conf on Learning Representations. 2019 [2022-09-06].https://arxiv.org/abs/1911.12247
[121]	Watters N, Matthey L, Bosnjak M, et al. COBRA: Data-efficient model-based RL through unsupervised object discovery and curiosity-driven exploration [C/OL] //Proc of the 36th Int Conf on Machine Learning. New York: ACM, 2017 [2022-09-06].https://arxiv.org/abs/1905.09275v2
[122]	Kulkarni T D, Narasimhan K R, Saeedi A, et al. Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation [C] //Proc of the 30th Int Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2016: 3682–3690
[123]	Vezhnevets A S, Osindero S, Schaul T, et al. FeUdal networks for hierarchical reinforcement learning [C] //Proc of the 33rd Int Conf on Machine Learning. New York: ACM, 2017: 3540–3549
[124]	Frans K, Ho J, Chen Xi, et al. Meta learning shared hierarchies [C/OL] //Proc of the 5th Int Conf on Learning Representations. 2017 [2022-09-06].https://arxiv.org/abs/1710.09767
[125]	Ecoffet A, Huizinga J, Lehman J, et al. First return, then explore[J]. Nature, 2021, 590(7847): 580−586 doi: 10.1038/s41586-020-03157-9
[126]	Chen T, Gupta S, Gupta A. Learning exploration policies for navigation [C/OL] //Proc of the 7th Int Conf on Learning Representations. 2019 [2022-09-06].https://arxiv.org/abs/1903.01959
[127]	Chaplot D S, Gandhi D, Gupta S, et al. Learning to explore using active neural SLAM [C/OL] //Proc of the 8th Int Conf on Learning Representations. 2020 [2022-09-06].https://arxiv.org/abs/2004.05155
[128]	Chaplot D S, Salakhutdinov R, Gupta A, et al. Neural topological SLAM for visual navigation [C] //Proc of IEEE/CVF Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2020: 12875–12884
[129]	Berseth G, Geng D, Devin C, et al. SMiRL: Surprise minimizing reinforcement learning in unstable environments [C/OL] //Proc of the 9th Int Conf on Learning Representations. 2021 [2022−09-06].https://arxiv.org/abs/1912.05510
[130]	Singh S, Lewis R L, Barto A G, et al. Intrinsically motivated reinforcement learning: An evolutionary perspective[J]. IEEE Transactions on Autonomous Mental Development, 2010, 2(2): 70−82 doi: 10.1109/TAMD.2010.2051031
[131]	Sorg J, Singh S, Lewis R L. Reward design via online gradient ascent [C] //Proc of the 23rd Int Conf on Neural Information Processing Systems. Cambridge, MA: MIT, 2010: 2190–2198
[132]	Guo X, Singh S, Lewis R, et al. Deep learning for reward design to improve Monte Carlo tree search in ATARI games [C] //Proc of the 25th Int Joint Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2016: 1519–1525
[133]	Zheng Zeyu, Oh J, Hessel M, et al. What can learned intrinsic rewards capture [C] //Proc of the 36th Int Conf on Machine Learning. New York: ACM, 2020: 11436–11446
[134]	Forestier S, Portelas R, Mollard Y, et al. Intrinsically motivated goal exploration processes with automatic curriculum learning[J]. Journal of Machine Learning Research, 2022, 23: 1−41
[135]	Colas C, Fournier P, Chetouani M, et al. CURIOUS: Intrinsically motivated modular multigoal reinforcement learning [C] //Proc of the 35th Int Conf on Machine Learning. New York: ACM, 2019: 1331–1340
[136]	Péré A, Forestier S, Sigaud O, et al. Unsupervised learning of goal spaces for intrinsically motivated goal exploration [C/OL] //Proc of the 6th Int Conf on Learning Representations. 2018 [2022-09-06].https://arxiv.org/abs/1803.00781
[137]	Warde-Farley D, Van de Wiele T, Kulkarni T, et al. Unsupervised control through nonparametric discriminative rewards [C/OL] //Proc of the 7th Int Conf on Learning Representations. 2019 [2022-09-06].https://arxiv.org/abs/1811.11359
[138]	Pong V H, Dalal M, Lin S, et al. Skew-fit: State-covering self-supervised reinforcement learning [C] //Proc of the 37th Int Conf on Machine Learning. New York: ACM, 2020: 7783−7792
[139]	Bengio Y, Louradour J, Collobert R, et al. Curriculum learning [C] //Proc of the 26th Int Conf on Machine Learning. New York: ACM, 2009: 41–48
[140]	Jaderberg M, Mnih V, Czarnecki W M, et al. Reinforcement learning with unsupervised auxiliary tasks [C/OL] //Proc of the 5th Int Conf on Learning Representations. 2017 [2022-09-06].https://arxiv.org/abs/1611.05397
[141]	Sukhbaatar S, Lin Z, Kostrikov I, et al. Intrinsic motivation and automatic curricula via asymmetric self-play [C/OL] //Proc of the 6th Int Conf on Learning Representations. 2018 [2022-09-06].https://arxiv.org/abs/1703.05407
[142]	Gronauer S, Diepold K. Multi-agent deep reinforcement learning: A survey[J]. Artificial Intelligence Review, 2022, 55(2): 895−943 doi: 10.1007/s10462-021-09996-w
[143]	Iqbal S, Sha F. Coordinated exploration via intrinsic rewards for multi-agent reinforcement learning [J]. arXiv preprint, arXiv: 1905.12127, 2019
[144]	Jaques N, Lazaridou A, Hughes E, et al. Social influence as intrinsic motivation for multi-agent deep reinforcement learning[C] //Proc of the 35th Int Conf on Machine Learning. New York: ACM, 2019: 3040–3049
[145]	Guckelsberger C, Salge C, Togelius J. New and surprising ways to be mean: Adversarial NPCS with coupled empowerment minimization [C/OL] //Proc of IEEE Conf on Computational Intelligence and Games. 2018 [2022-09-06].https://ieeexplore.ieee.org/abstract/document/8490453

施引文献(27)

期刊类型引用(7)

1.	罗宇哲，李玲，侯朋朋，于佳耕，程丽敏，张常有，武延军，赵琛. 面向AIoT的协同智能综述. 计算机研究与发展. 2025(01): 179-206 . 本站查看
2.	王蕴，林霄，楼芝兰，李军，孙卫强. 面向边缘光算力网络的上行链路资源协同调度算法. 光通信技术. 2024(03): 45-51 . 百度学术
3.	王铭源，王正国，李济顺，薛玉君. 层级式机械装备健康指数模型及管理系统构建. 金属矿山. 2024(09): 198-206 . 百度学术
4.	王睿，王岩，尹朴，齐建鹏，孙叶桃，李倩，张易达，张梅奎. 面向边缘智能的协同训练研究进展. 工程科学学报. 2023(08): 1400-1416 . 百度学术
5.	薛建强，史彦军，李波. 面向无人集群的边缘计算技术综述. 兵工学报. 2023(09): 2546-2555 . 百度学术
6.	阴彦磊，王立华，廖伟智，张万达. 融合GRU-Attention与鲸鱼算法的流程制造工艺参数云边联动优化. 计算机集成制造系统. 2023(09): 2991-3005 . 百度学术
7.	许浩，朱晓娟. SDN中基于模型划分的云边协同推理算法. 兰州工业学院学报. 2023(06): 31-37 . 百度学术