计算机研究与发展 ›› 2021, Vol. 58 ›› Issue (12): 2585-2603.doi: 10.7544/issn1000-1239.2021.20211023
所属专题: 2021可解释智能学习方法及其应用专题
王金永1,2,黄志球1,2,杨德艳3,Xiaowei,Huang4,祝义3,华高洋1,2
Wang Jinyong1,2, Huang Zhiqiu1,2, Yang Deyan3, Xiaowei Huang4, Zhu Yi3, Hua Gaoyang1,2
摘要: 无人驾驶系统综合了软件和硬件复杂的交互过程,在系统设计阶段,形式化方法可以保证系统满足逻辑规约和安全需求;在系统运行阶段,深度强化学习被广泛应用于无人驾驶系统决策中.然而,在面对没有经验的场景和复杂决策任务时,基于黑盒的深度强化学习系统并不能保证系统的安全性和复杂任务奖励函数设置的可解释性.为此提出了一种形式化时空同步约束制导的安全强化学习方法.首先,提出了一种形式化时空同步约束规约语言,接近自然语言的安全需求规约使奖励函数的设置更具有解释性.其次,展示了时空同步自动机和状态-动作空间迁移系统,保证强化学习的状态行为策略更加安全.然后,提出了结合形式化时空约束制导的安全强化学习方法.最后,通过无人驾驶汽车在高速场景变道超车的案例,验证所提方法的有效性.
中图分类号: