基于深度强化学习的网约车动态路径规划

郑渤龙; 明岭峰; 胡琦; 方一向; 郑凯; 李国徽

doi:10.7544/issn1000-1239.20210905

基于深度强化学习的网约车动态路径规划

¹(华中科技大学计算机科学与技术学院武汉 430074)
²(香港中文大学(深圳)数据科学学院广东深圳 518172)
³(电子科技大学计算机科学与工程学院成都 610054) (bolongzheng@hust.edu.cn)

基金项目: 国家自然科学基金项目(61902134,62011530437)；湖北省自然科学基金项目(2020CFB871)；中央高校基本科研业务费专项资金(2019kfyXKJC021,2019kfyXJJS091)

详细信息

中图分类号: TP399
计量
- 文章访问数: 1218
- HTML全文浏览量: 19
- PDF下载量: 728
出版历程
- 发布日期: 2022-01-31

Dynamic Ride-Hailing Route Planning Based on Deep Reinforcement Learning

¹(School of Computer Science and Technology, Huazhong University of Science and Technology, Wuhan 430074)
²(School of Data Science, The Chinese University of Hong Kong (Shenzhen), Shenzhen, Guangdong 518172)
³(School of Computer Science and Engineering, University of Electronic Science and Technology of China, Chengdu 610054)

Funds: This work was supported by the National Natural Science Foundation of China (61902134, 62011530437), Hubei Natural Science Foundation (2020CFB871), and the Fundamental Research Funds for the Central Universities (2019kfyXKJC021, 2019kfyXJJS091).

摘要

摘要: 随着移动互联网的快速发展，许多利用手机App打车的网约车平台也应运而生.这些网约车平台大大减少了网约车的空驶时间和乘客等待时间，从而提高了交通效率.作为平台核心模块，网约车路径规划问题致力于调度空闲的网约车以服务潜在的乘客，从而提升平台的运营效率，近年来受到广泛关注.现有研究主要采用基于值函数的深度强化学习算法(如deep Q-network, DQN)来解决这一问题.然而，由于基于值函数的方法存在局限，无法应用到高维和连续的动作空间.提出了一种具有动作采样策略的执行者-评论者(actor-critic with action sampling policy, AS-AC)算法来学习最优的空驶网约车调度策略，该方法能够感知路网中的供需分布，并根据供需不匹配度来确定最终的调度位置.在纽约市和海口市的网约车订单数据集上的实验表明，该算法取得了比对比算法更低的请求拒绝率.
- 移动信息处理系统 /
- 时空数据挖掘 /
- 深度强化学习 /
- 网约车路径规划 /
- 车队调度
Abstract: With the rapid development of the mobile Internet, many online ride-hailing platforms that use mobile apps to request taxis have emerged. Such online ride-hailing platforms have reduced significantly the amounts of the time that taxis are idle and that passengers spend on waiting, and improved traffic efficiency. As a key component, the taxi route planning problem aims at dispatching idle taxis to serve potential requests and improving the operating efficiency, which has received extensive attention in recent years. Existing studies mainly adopt value-based deep reinforcement learning methods such as DQN to solve this problem. However, due to the limitations of value-based methods, existing methods cannot be applied to high-dimensional or continuous action spaces. Therefore, an actor-critic with action sampling policy, called AS-AC, is proposed to learn an optimal fleet management strategy, which can perceive the distribution of supply and demand in the road network, and determine the final dispatch location according to the degree of mismatch between supply and demand. Extensive experiments on New York and Haikou taxi datasets offer insight into the performance of our model and show that it outperforms the comparison approaches.
- mobile information processing systems /
- spatial-temporal data mining /
- deep reinforcement learning /
- ride-hailing route planning /
- fleet management

HTML全文

处理器芯片是信息系统的控制和算力根基. 当前海量应用的不断演进对处理器性能和能效产生了指数级提升的追求，处理器芯片的设计规模和复杂度变得越来越大，设计难度越来越高，现有的层层分解的处理器设计流程已经难以实现全局能效最优. 发展处理器芯片跨层优化设计方法与关键技术，对于提升处理器芯片设计的性能和自动化程度，解决芯片设计门槛高、周期长等难题具有重大的意义.

为进一步推动我国学者在处理器芯片跨层优化领域的研究，及时报道我国学者的相关最新研究成果，我们组织了本期“处理器芯片跨层优化”专题，旨在聚焦促进处理器芯片跨层优化的方法理论、设计与验证关键技术、典型处理器芯片设计应用案例等创新性研究. 本专题2024年1月底征稿结束，经过七十余人次专家的两轮评审，最终收录了8 篇论文，内容涵盖了基于人工智能辅助的处理器设计平台、异构计算平台的跨层优化、处理器跨层设计的新方法和国密算法跨层加速等方面的最新研究进展，希望能够为同行学者带来帮助和启发.

为探索人工智能方法在处理器芯片设计空间探索和加速器跨层优化设计中的应用，翟建旺等人的论文“机器学习辅助微架构功耗建模和设计空间探索综述”，首先介绍了处理器的主要设计流程、微架构设计及其面临的挑战，然后引入机器学习辅助集成电路设计，重点阐述了使用机器学习技术辅助微架构功耗建模和设计空间探索的研究进展；张青等人的论文“容错深度学习加速器跨层优化”，从神经元计算任务和神经元的数据位宽2个维度挖掘深度学习模型对于故障的敏感度差异，利用这些差异从架构和电路层分别对于敏感的部分提供更多的保护以降低容错代价，同时利用贝叶斯优化协同优化算法、架构和电路的跨层设计参数，在保障深度学习可靠性、精度以及性能的前提下，最小化硬件资源开销.

人工智能大模型应用的爆发式增长，使得难以依靠单一节点、单一类型的算力实现应用的规模部署，分布式异构计算成为主流选择. 李仁刚等人的论文“Direct xPU：一种新型节点间通信优化的分布式异构计算架构”探讨了所实现的Direct xPU 分布式异构计算架构，使得异构计算引擎在算力要素和通信要素2方面均具有独立的、专属的设备，实现了数据的零拷贝，并进一步消除了节点间通信过程中处理跨芯片传输数据所带来的能耗和延迟；张园等人的论文“面向多核CPU与GPU平台的图处理系统关键技术综述”，介绍了通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展，使得多核CPU与GPU成为图处理加速的常用平台，详细解读了多核CPU与GPU平台上图处理优化相关技术的演化.

处理器的高性能和敏捷设计越来越依赖于跨层的设计方法优化，何小威等人的论文“高性能自研处理器物理设计频率提升方法”，针对国防科大自主研制的处理器核，基于业内主流的商用工具采取多种措施进行了针对性的实验和优化，包括规整部件网表的手工定制、逻辑和物理设计协同优化、布线规则定制优化、针对时序的物理设计流程与方法学优化等，大幅度提升了处理器核的签核频率；张子卿等人的论文“面向处理器功能验证的硬件化SystemVerilog 断言设计”，针对功能验证在处理器芯片开发流程中有效性与高效性的问题，提出一种将不可综合的断言语言自动转换成逻辑等效但可综合的寄存器传输级电路的方法，实验表明，所提方法和软件仿真相比能取得超过2万倍的验证效率提升.

密码技术是现代信息安全技术产业发展的核心，对硬件加密效率的需求也随之提高，从算法到硬件加速涉及跨层的分析和实现. 郝泽钰等人的论文“国密SM4算法CBC模式的高效设计与实现”，针对国密SM4算法在CBC（cipher block chaining）模式下，由于相邻数据依赖关系导致的流水线技术难以提高硬件设计吞吐率的问题，提出了2种逻辑化简方法，在CBC 模式下获得优化的高吞吐率；芮志清等人的论文“SeChain: 基于国密算法的RISC-V 安全启动机制设计与实现”，为提高开源RISC-V处理器的安全性，设计并实现基于国密SM9 算法的RISC-V 安全启动机制——SeChain，实现了信任根的不可篡改和安全可信，构造了一个可信的安全启动链，基于国密SM9 算法为设备的安全启动和可信执行提供可靠保障.

后摩尔时代处理器的能效提升越来越依赖于微体系结构的创新和软硬件协同的跨层优化，亟需支持处理器芯片跨层优化的开发框架和工具平台，希望本专题能够抛砖引玉，促进我国相关研究的进一步发展. 由于专题征集时间和篇幅有限，无法全面覆盖处理器芯片跨层优化设计领域的近期研究进展，不足之处敬请各位学者谅解和批评指正. 衷心感谢广大作者对本专题组织者的信任和支持，感谢审稿专家对于稿件的认真审查以及中肯的意见和建议！特别感谢本刊编委会和编辑部对本专题的支持，感谢编辑部的辛勤工作!

李华伟　研究员（中国科学院计算技术研究所）

哈亚军　教授（上海科技大学）

姚海龙　教授（北京交通大学）

2024 年5月

参考文献(0)

施引文献

资源附件(0)

计量

文章访问数: 1218
HTML全文浏览量: 19
PDF下载量: 728
被引次数: 0

基于深度强化学习的网约车动态路径规划

计量

出版历程

Dynamic Ride-Hailing Route Planning Based on Deep Reinforcement Learning

计量

出版历程

目录