一种基于异步决策的智能交通信号协调方法

高涵; 罗娟; 蔡乾娅; 郑燕柳

doi:10.7544/issn1000-1239.202220773

一种基于异步决策的智能交通信号协调方法

湖南大学信息科学与工程学院　长沙　410082

基金项目: 国家自然科学基金项目（61972140）

详细信息

作者简介:
高涵: 1998年生. 硕士. 主要研究方向为车联网环境下交通控制方法

罗娟: 1974年生. 博士，教授，博士生导师，CCF高级会员. 主要研究方向为物联网、边缘计算、卫星互联网、人工智能

蔡乾娅: 1997年生. 硕士. 主要研究方向为车联网

郑燕柳: 1995年生. 博士研究生. 主要研究方向为车联网、时空数据挖掘

通讯作者:
罗娟（juanluo@hnu.edu.cn）

中图分类号: TP391
计量
- 文章访问数: 211
- HTML全文浏览量: 48
- PDF下载量: 96
出版历程
- 收稿日期: 2022-08-31
- 修回日期: 2023-02-05
- 网络出版日期: 2023-09-19
- 刊出日期: 2023-11-30

An Intelligent Traffic Signal Coordination Method Based on Asynchronous Decision-Making

College of Computer Science and Electronic Engineering, Hunan University, Changsha 410082

Funds: This work was supported by the National Natural Science Foundation of China (61972140).

More Information

Author Bio:
Gao Han: born in 1998. Master. Her main research interest includes traffic control method in Internet of vehicles environment

Luo Juan: born in 1974. PhD, professor, PhD supervisor. Senior member of CCF. Her main research interests include Internet of things, edge computing, satellite Internet, and AI

Cai Qianya: born in 1997. Master. Her main research interest includes Internet of vehicles

Zheng Yanliu: born in 1995. PhD candidate. Her main research interests include Internet of vehicles and spatio-temporal data mining

摘要

摘要:
智能交通信号控制系统是智慧交通系统（intelligent traffic system，ITS）的重要组成部分，为形成安全高效的交通环境提供实时服务. 然而，现有自适应交通信号控制方法因通信受限难以满足复杂多变的交通需求. 针对通信时延长和信号灯有效利用率低的难题，提出一种基于边缘计算的异步决策的多智能体交通信号自适应协调方法（adaptive coordination method，ADM）. 该方法基于提出的端—边—云架构实现实时采集环境信息，将异步通信引入强化学习的多智能体协调过程，设计一种多智能体之间使用不同决策周期的异步决策机制. 实验结果表明边缘计算技术为高实时性要求的交通信号控制场景提供一种良好的解决思路，此外，相较于固定配时和独立决策的Q学习决策方法IQA（independent Q-learning decision algorithm）而言，ADM方法基于异步决策机制和邻居信息库实现智能体之间的协作，达到降低车辆平均等待长度及提高交叉口时间利用率的目标.
- 异步决策 /
- 协同控制 /
- 边缘计算 /
- 强化学习 /
- 交通信号控制
Abstract:
The intelligent traffic signal control system is a component of the intelligent traffic system (ITS), offering real-time services for the creation of a safe and efficient traffic environment. However, due to restricted communication, conventional adaptive traffic signal-controlled methods are unable to fulfill the complex and changing traffic requirements. A multi-agent adaptive coordination method (ADM) based on asynchronous decision-making and edge computing is presented to address the issues of communication delay and a decrease in signal utilization. Firstly, the end-side-cloud architecture is proposed for real-time environmental information collection and related processing. Then, to enhance the agent coordination process, asynchronous communication is implemented. An approach for calculating the decision cycle of the agent is presented, and an asynchronous decision mechanism employing multiple agents’ decision cycles is devised. The experimental results show that edge computing technology provides a good solution for traffic signal control scenarios with high real-time requirements. In addition, compared with the fixed time (FT) and independent Q-learning decision algorithm (IQA), ADM achieves collaboration among the agents based on the asynchronous decision mechanism and the neighbor information base, and reduces the average vehicle waiting length and improves intersection time utilization.
- asynchronous decision-making /
- coordination control /
- edge computing /
- reinforcement learning /
- traffic signal control

HTML全文

物联网、大数据、边缘计算等新一代人工智能技术飞速发展，为智能交通系统的实现提供技术支持. 智能交通系统（intelligent traffic system，ITS）是一种综合运用多种先进技术的交通运输管理系统，用于营造安全、高效、环保的交通环境. 智能交通信号控制是智能交通系统的核心，它提供动态更新、综合计算、实时决策等功能.

近年来，物联网技术的研究取得突破性进展，也推动智能交通信号控制的广泛应用. 基于物联网技术实现对交通环境的全方位感知，云计算技术为海量数据提供计算服务，以数据为中心进行决策^[1]，具有实时精准的特性. 然而，采用云计算技术难以满足大规模场景下信号控制器低时延、高响应、实时计算的需求. 边缘计算技术将云计算能力从中心下沉到边缘节点，形成端—边—云一体化协同计算系统，实现就近实时计算，更加满足信号控制系统高实时性要求.

与此同时，对交通信号优化控制问题的研究也从未停止，采用整数规划、群体智能方法、传统机器学习方法等传统优化方法寻求最优控制方案的研究取得一定成果. 强化学习^[2]（reinforcement learning，RL）在解决连续决策问题上表现优异，被提出可适用于解决交通场景问题^[3]，在解决大规模交通信号协同控制问题上发挥着越来越重要的作用.

强化学习通过智能体试错的方式探索环境，并根据探索环境得到的经验自学习建立最优行为策略模型，最大化累计奖励. 当环境中智能体数量增加，每个智能体单独进行环境探索并学习. 从单个智能体的角度来看，环境出现非平稳性，方法不利于收敛. 在目前的研究中对多智能体协同方式大部分采用的同步决策机制，即统一时钟频率，以固定的决策周期进行决策.

在实际场景中，由于交叉口地理位置、交通管制要求以及功能的不同，车流通过交叉口的时间往往具有很大差异. 同步决策方式导致交通信号绿灯利用率较低，交叉口通行服务质量下降. 如图1所示，在时刻t交叉口i进行动作决策并切换交通灯相位. 在t+Δt时，交叉口i可通行车道（东西方向车道）已无等待车辆，但仍然持有通行权（绿灯空放现象）. 由于未到约定好的动作决策周期，导致其他车道无法竞争通行权, 从而造成一部分绿灯时间损失，交通信号利用率降低.

图 1 交通信号控制场景图

Figure 1. Traffic signal control scene diagram

下载: 全尺寸图片幻灯片

在本研究中设计一种基于端—边—云协同的交通信号控制架构，并将异步通信与交通信号自适应控制相结合，提出一种多智能体之间可以使用不同决策周期的异步决策机制，降低绿灯损失时间，提高交叉口时间利用率.

本文的主要贡献包括3个方面：

1）针对集中控制系统高、时延低效率这一问题，提出一种基于端—边—云的交通信号分布式控制架构. 实现在边缘节点进行数据预处理，在端节点决策的方式减少传输时延.

2）针对同步决策导致交叉口时间利用率低问题，设计一种基于异步决策的交通信号优化机制. 智能体根据交叉口车辆等待时间更新决策周期的方法，增加单个交叉口有效绿灯时间，避免交叉口绿灯空放现象.

3）针对强化学习智能体之间实时通信受限问题，提出一种基于邻居信息库的多智能体协作交通信号自适应协调方法. 降低因异步方式产生的智能体之间信息不平衡情况，从而提升多参与者协同效率.

1. 相关工作

边缘计算为智慧交通的建设提出高效的分布式计算解决方案，该方案构建计算、存储、决策一体化的边缘开放平台，为交通信号控制系统提供一种新型计算模式^[4]. 在大规模路网的交通信号控制研究中，文献[5]提出一种为每个交叉口控制智能体分配对应边缘学习平台，在协作时仅考虑直接相连的邻居信息的方法. 这种分散协作式具有较高的成本效益，难以适用于大规模路网.

实际交通信号控制应用场景存在环境建模难的问题，基于数据驱动的无模型强化学习方法可以在探索中自身学习，实现控制闭环反馈. 独立学习的单智能体之间不进行相互之间的沟通与协作，每个智能体只能感知自己控制范围内的状态，每次以优化局部Q值最大化为目标. 但当周围环境变得复杂时，不考虑上下游智能体的决策带来的非平稳性的影响将会导致自身学习无法收敛. 基于通信的多智能体联合学习通常采用集中式控制^[6]，以最大化所有区域智能体的联合动作对应的Q值为目标. 全局智能体所需要处理数据庞大，现有计算能力难以实时处理，集中式控制方式的弊端逐渐暴露出来，因此有学者提出分散式多智能体控制方式. 当掌握全局的统领者被撤走后，使用协作图^[7–8]简化多个智能体之间关系或采用博弈论^[9–11]解决智能体之间的联合问题是较为常用的办法. 文献[12]中提出一种完全可扩展的去中心化多智能体强化学习（muti-agent reinforcement learning，MARL）方法，将其他智能体的策略以广播的方式告知环境中的其他代理，并应用空间折现因子缩小距离较远的智能体带来的影响. 除此之外，其他MARL方法应用到多路口场景，如MADDPG^[13]，APE-X DQN^[14]，AC^[15]，A2C^[16]等，也被证明是可行的. 将多智能体协作问题转换成图也被广泛研究，如MARL与GAN^[17]、图卷积^[18–20]等图方法结合.

交通信号控制系统中关于异步的研究集中在降低数据相关性方面. 文献[21]基于并行强化学习范式采用异步梯度下降优化神经网络参数，提高资源利用率，提升训练速度. 文献[22]提出一种异步协同信号框架，信号控制器根据并行方式异步共享的相邻信息进行决策，该框架能够提高实际控制的稳定性，但要求所有控制器必须同步进行决策. 文献[23]提出一种异步多步Q-Learning方法，该方法采样多个步骤后进行估值，降低因估计造成的误差，并利用多核CPU并行模拟多个代理与环境进行交互的过程，异步更新全局参数.

在关于多智能体协同的研究中可以发现，在同一环境下的智能体直接进行通信需要同步决策才能实现同步通信. 本研究采用间接通信方式，借助边缘节点存储的邻居信息库间接实现智能体之间通信，智能体之间不必要求同步决策. 异步决策方式能够达到提高智能体之间的通信效率、优化交通信号配时方案、降低车辆在交叉口的等待时间.

2. 基于端—边—云的交通信号控制架构

本文研究以常见十字交叉口场景为例，每个交叉口内安装多种信息采集装置，由m个十字交叉口构成的路网中分布着n个边缘服务器以及1个中心云服务器，并提出交通信号分层协同控制^[24].

如图2所示，在单个十字交叉口中布设多种智能终端传感设备，如网联车、交通信号控制器、摄像头和传感器等. 这些终端设备用于感知环境信息，并向边缘服务器节点传输环境数据.

图 2 基于端—边—云架构的交通信号控制架构图

Figure 2. Architecture diagram of traffic signal control based on end-edge-cloud

下载: 全尺寸图片幻灯片

根据具体交通需求将m个交叉口划分为n个区域，缩小交通信号控制器控制范围. 每个区域由对应的边缘服务器进行管理，负责初步处理多源异构的感知数据、小规模的智能分析，以及提供存储与决策相关的服务. 此外，边缘节点还需要维护一个小型邻居信息库（参见3.2.1节），用于降低决策时的通信延迟，提升智能体之间的合作效率.

在中心云服务层，云节点核心控制程序从全局角度实现资源调度和决策，同时存储和维护路网整体的邻居信息库，进行深入分析，接收边缘节点定时传输的数据并更新.

3. 智能交通信号协调方法

在基于提出的端—边—云协同交通信号控制架构上，面向多交叉口交通信号控制场景，构建强化学习控制模型，提出一基于边缘计算的异步决策的多智能体交通信号自适应协调方法（adaptive coordination method，ADM），该方法包括交通信号配时优化机制和基于异步决策的多智能体交通信号自适应协调算法. 在3.1节中重点描述决策周期计算方法. 由于系统中多个智能体采取不同决策周期，相互之间的通信方式是需要研究的重点，因此，在3.2节中提出基于邻居信息库的多智能体协作机制，并给出智能体的定义以及学习过程.

3.1 交通信号配时优化机制

根据车辆跟驰方式，车流可划分为饱和连续车流（包含首车及后续连续车流）和非饱和车流. 受到信号灯的控制，当首车状态发生改变后，在停车线前排队等候的车辆传递性发生连续状态改变，形成交通流，并以一定的传播速度向后传播. 能够与前车一起形成连续不间断的车流为饱和连续车流，包含绿灯亮起时已排队车辆以及放行时到达车辆，后加入到队列中的车辆作为队尾进行研究. 后续到达车辆无法与前车构成连续车流时称为非饱和车流，此时车头时距较大，由车辆到达率决定. 因不受前车速度制约，非饱和车流以自由流速度行驶通过交叉口. 通常情况下，在最长绿灯时间允许范围内，最后一辆车驶离停车线后切换信号相位. 然而，实际情况中因非饱和车流通行的不确定性导致通行时间被浪费. 为了贴合实际场景中动态的交通流，提供更好的优化交通信号配时方案， ADM方法基于车辆跟驰理论针对不同交叉口状态实时调整绿信比.

交通模式划分为相对模式（C₁）、相邻模式（C₂）和汇聚模式（C₃），每个模式中含有4个相位，每个相位默认绿灯时间为 ${t}_{{\rm{g}}}$ ，默认黄灯时间为 ${t}_{{\rm{y}}}$ ，信号默认周期 ${t}_{{\rm{a}}}$ 是默认绿灯和黄灯时间之和，如式（1）所示：

${t_{\rm{a}}} = {t_{\rm{g}}} + {t_{\rm{y}}} .$

(1)

根据不同阶段的车头时距，将实际信号周期 ${t}_{a}^{{'}}$ 的计算分为4个部分.

1）首车启动及饱和跟驰阶段 ${t}_{1}$ ，如式（2）所示：

${t}_{1}=\left\{\begin{array}{cc}0,& carN\text{=0,}\\ \dfrac{{t}_{{\rm{a}}}}{3},& carN\ne 0\text{，}waitN\text{= 0,}\\ \dfrac{d}{v},& carN\ne 0\text{，}waitN\ne \text{0,}\end{array}\right.$

(2)

其中carN表示具有通行权车道上的车辆数，waitN表示车道上实际停车数，当车速小于0.1 m/s时视为车辆处于等待状态，d是饱和连续车流末尾车辆所在位置到停车线的距离，v是饱和连续车流正常通行情况下的平均速度估计值.

2）非饱和跟驰阶段t₂，如式（3）所示：

$t_2= \left\{ {\begin{array}{*{20}{c}} {0,}&{runN = 0,} \\ {\dfrac{{{d_{\rm{u}}}}}{{{v_{\rm{u}}}}},}&{runN \ne 0,} \end{array}} \right.$

(3)

其中runN表示具有通行权车道上正在行驶的车辆，d_u为非饱和车流末尾车辆所在位置到停车线的距离，v_u为非饱和车流继续通行时平均行驶速度.

3）当饱和跟驰阶段执行完毕后，再次观察交通环境并计算除当前车道外其他车道的饱和连续通行时间 ${t}_{3}$ ，并判断当前交叉口竞争状态.

①如果 ${t}_{3} < {t}_{2}$ ，交叉口处于弱竞争状态，不需要切换动作；

②如果 ${t}_{3}\ge {t}_{2}$ ，交叉口处于强竞争状态，需要根据邻居信息切换新动作. 根据3.2.3节描述的协调机制，重新选择新动作并执行.

4）黄灯实际执行时间 ${t}_{{\rm{y}}}{{'}}$ ，如式（4）所示：

$t_{\text{y}}' = \max ({t_{\rm{a}}} - ({t_1} + {t_2} + {t_3}),{t_{\rm{y}}}) .$

(4)

修正后的实际相位周期时间 ${t}_{{\rm{a}}}{{'}}$ 为这4部分之和,对应智能体的实际动作执行时间之间与默认动作执行时间存在一定差异，整个系统中智能体难以实现同步决策. 因此，ADM方法引入异步概念，允许智能体根据交通环境情况适当调整自身绿信比. 当前相位执行完毕后无需等待与其他智能体时钟频率同步的时刻，可以直接决策并执行新动作.

3.2 多智能体交通信号自适应协调算法

3.2.1 基于邻居信息库的协调机制

考虑到异步决策机制会降低多智能体之间的通信效率这一问题，ADM算法提出在云节点维护整体路网的邻居信息库，边缘节点维护与其目标节点相关的邻居信息库，并按一定周期将数据同步更新给云节点.

智能体在决策时仅参考与目标交叉口相邻接的交叉口状态信息，并将自身新决策发送给对应边缘节点更新. 邻居信息库中存储交叉口之间邻接信息、每个交叉口的决策时间、决策结果以及持续时间. 当交叉口控制智能体i决策时，向其对应的边缘服务器发送数据请求. 边缘服务器根据交叉口间邻接关系，将其邻接交叉口集合J_i的最新决策信息返回给智能体i，智能体i与邻居协调决策（协调策略详细描述见3.2.3节）后将自己最新决策再次发送给边缘服务器，用于更新存储在边缘节点的局部信息库. 一段时间后，边缘服务器集群集中向云服务器进行同步信息，用于云服务器训练模型，云服务器训练模型后将最新模型参数发送给边缘服务器更新.

3.2.2 模型设置

根据强化学习理论，可以将控制过程建模为马尔可夫决策过程（MDP），使用五元组表示（O, A, R, α, γ）. 其中O表示状态空间向量，A表示动作空间向量，R表示奖励函数R（o，a）：O×A→R，α为智能体的学习率，γ为折扣因子. 控制过程的根本原理是通过试错的方式探索环境，即在智能体执行动作后，环境根据执行该动作产生的效果给予奖励，如果获得较好奖励，表明在当前状态执行该动作较为合适，可以增加该动作的出现概率. 智能体根据探索环境得到的经验进行自身学习，主要学习任务是行为策略，目标是在环境中最大化累计奖励. 要素的具体定义有3方面：

1）状态空间

根据3.1节中划分的3组交通模式，智能体观测空间也由3组不同交通模式共计12种车流的状态向量构成，O = （S₁，S₂，…，S_i）（1≤i≤12）. 其中S_i表示第i种车流的状态，由最长连续等待车流f和与f间隔最小的预计到达车流 ${f}^{{'}}$ 的估计停车等待时间T_w表示，如式（5）所示.

${T_{\rm{w}}} = wait{N'} \times {t_{\rm{w}}} ,$

(5)

$wait{N'} = waitN + runN \times e \text{，}$

(6)

其中 ${waitN}'$ 是车道上估计停车数，waitN是车道上实际停车数， ${t}_{{\rm{w}}}$ 是车道上单位车辆等待时间，e是车道上车辆行驶状态不均衡系数，e计算公式如式（7）所示.

$e = {I'}/({I'} + I) \text{，}$

(7)

其中 ${I}'$ 是车流在理想行驶与实际行驶状态下该统计分布面积之差，I是车流实际状态下该统计分布面积，车流内部以可协调的最大速度同速行驶.

2）动作空间

本文中动作定义采取在预定义的相位方案中选择需要更改的相位方法. 动作空间A = (C₁，C₂，C₃)，根据交通模式划分为3组C₁={NS_s，EW_s，NS_l，EW_l}，C₂={W_sl，S_sl，E_sl，N_sl}，C₃={W_sN_l，S_sW_l，E_sS_l，N_sE_l}，共计12种动作构成. N，S，W，E分别表示北向、南向、西向、东向，下标s和l表示直行和左转. 出于安全性考虑，每个动作执行后均默认执行一个对应的黄灯过渡相位. 由于右转车流不受交通信号控制，因此在相位方案中省去对于右转车辆的指示，默认一直是绿灯状态.

3）奖励函数

累计奖励函数最大是强化学习算法优化学习的目标，其设置需要能够准确反馈动作执行带来的影响. 本文中奖励函数R的定义如式（8）所示：

$R({\boldsymbol{o}},{\boldsymbol{a}}) = {H_{\rm{w}}} \times (1 - \bar e) \text{，}$

(8)

其中 $\bar e$ 是路口整体车流状态不均衡系数，取路口直行和左转车道上行驶车辆状态不均衡系数e的平均值. H_w是执行动作a后路口拥堵状态持续加剧程度的估计值，反映执行绿灯相位对路口拥堵状态变化的影响，计算公式如式（9）所示：

${H_{\rm{w}}} = waitN/wait{N'} .$

(9)

3.2.3 基于多智能体的自适应控制算法

多个智能体在环境中需要相互协调以获得最大累计奖励值，智能体在充分考虑与目标节点邻接的节点的交通状态下，根据道路实际通行情况和交通信号控制器选择结果进行决策投票. 在强竞争场景下实现控制车流传输速度，尽量降低上游路口对下游路口的负面影响.

具体而言，智能体根据观察到的目标交叉口环境状态信息，以ε-greedy策略选取基于动作选择策略选取动作a₁；从邻居经验库中获取目标交叉口邻接交叉口的信息，计算得到根据协同后建议采取动作a₂；当a₁≠a₂时，表示与邻居协同失败，重新选择动作. 根据交叉口估计等待时间最长车道需要先疏通这一原则对车道设置优先级，从动作a₁所属交通模式的相位集合中选择具有最高优先级的车道赋予通行权，即动作a₃. 从动作候选集合{a₁，a₂，a₃}中选择最终动作后得到对应默认执行周期t_a，根据3.1节计算智能体实际执行周期 $t_a'$ . 每次决策后都要将决策结果发给附近边缘节点，智能体通过自适应以及与邻居之间经验不断优化学习，提高协调控制的效果，具体如算法1所示.

算法1. 基于多智能体异步协作的信号优化算法.

输入：学习率α，折扣因子γ，搜索概率ε，最大仿真步数T，交叉口集合J，邻居经验库B；

输出：最优执行动作序列A^*.

① 初始化 o_t←getObservation（），t←0；/*初始化状　　　态和时间*/

② for t=1，2， … ，T do

③ 　for j=1，2， … ，J do

④ 　　if a_{t, j,1}≠a_{t, j,2}

⑤ 　　　a_{t, j} = a_{t, j,1}

⑥ 　　else a_t,j = a_t,j,3； /*智能体根据邻居信息

采用投票策略独立进行决策*/

⑦ 　　end if

⑧ 　　t₁，t₂，t₃←calDescisionTime（）；

⑨ 　　if t₂≥t₃ /*判断交叉口状态*/

⑩ 　　　break；

⑪ 　　end if

⑫ 　　r_t = execute（a_t,j，t₁，t₂，t₃）；

⑬ 　　 ${Q}_{j}（{\boldsymbol{o}}_{t,j}^{*}，{\boldsymbol{a}}_{t,j}^{\mathit{*}}）=（1-\alpha ）\times {Q}_{j}（{\boldsymbol{o}}_{t,j}，{\boldsymbol{a}}_{t,j}）+$

$\alpha [\gamma \times {Q}_{j}（{\boldsymbol{o}}_{t+1,j}，{\boldsymbol{a}}^{{*}}）+R（{\boldsymbol{o}}_{t,j}，{\boldsymbol{a}}_{t,j}）]$ ；　　　　　　/*更新Q-table*/

⑭　　 o_t+1,j←getObservation（）；

⑮ 　end for

⑯ end for

⑰ return {a_1,0^*，a_1,1^*，…，a_1,J^*，…，a_T,0^*，a_T,1^*，…，a_T,J^*}.

4. 实验结果与分析

4.1 仿真实验设置

为了评估所提出的ADM方法，在阿里云服务器上实现云服务核心控制程序、构建全局邻居信息库及相关操作API. 基于RSU设备实现数据预处理、控制决策、区域邻居信息库创建及更新的程序. 在交通仿真软件SUMO中对多交叉口仿真环境进行建模，在SUMO中搭建的路网如图3所示.

图 3 仿真交叉口模型示意图

Figure 3. Schematic diagram of the simulated intersection model

下载: 全尺寸图片幻灯片

ADM方法基于Q学习方法，经过多次实验调整后对方法和道路相关参数设置如表1所示.

表 1 主要参数列表

Table 1. Major Parameter List

参数	取值
学习率α	0.1
折扣因子γ	0.9
搜索概率ε	0.1
最大训练轮次	100
最大仿真步数	7200
信息库更新周期/s	1
道路长度/m	300
车道最大车速/（km·h⁻¹）	40
最大加速度/（m·s⁻²）	2
最大减速度/（m·s⁻²）	4.5
最小车间距/m	2
默认直行绿灯时间/s	33
默认左转绿灯时间/s	25
默认黄灯时间/s	3

下载: 导出CSV

| 显示表格

实验中仿真车流数据使用济南市某交叉口实际数据，数据来自于交叉口附近布设的监控摄像，每个交叉口具有相对完整的记录. 数据集中信息包括地理位置信息、车辆到达时间及其他信息，以及对信息处理后生成与仿真环境匹配的路由文件. 加载路网和车辆路由文件后，使用Python语言编程实现ADM方法，借助Traci接口与仿真环境进行交互获取数据.

4.2 对比实验及评价指标

ADM方法将与2种方法进行对比.

1）传统固定配时法（fixed time, FT）. 按照默认相位方案和信号周期顺序执行. 默认相位方案为{NS_s，EW_s，NS_l，EW_l，W_sl，S_sl，E_sl，N_sl，W_sN_l，S_sW_l，E_sS_l，N_sE_l}，默认直行绿灯时长为33 s，左转绿灯时长为25 s，黄灯时长为3 s.

2）基于Q学习的独立交通信号自适应控制方法IQA（independent Q-learning decision algorithm）. 智能体之间无协同，根据自身信息进行动作选择，并采用同步决策方式.

评价指标包括：路口平均等待车辆数、路口车辆等待时间、路口最大排队长度.

4.3 实验结果

1）控制有效性分析. 在4800 s的仿真实验中，路网中车流量总数约为3000辆，实验中2个交叉口车流量经过优化控制后时变如图4和图5所示，可以看出2个交叉口车流量均呈先增后减的趋势. 受路网通行能力的限制，单位时间内可通行车辆数恒定、流量波动大时，代表交叉口通行效率不稳定. 当流量小时，表示交通畅通或出现绿灯空放现象；当流量大时，表示交通缓慢或已经拥堵.

图 4 路口1车流量变化

Figure 4. Traffic flow variation of intersection 1

下载: 全尺寸图片幻灯片

图 5 路口2车流量变化

Figure 5. Traffic flow variation of intersection 2

下载: 全尺寸图片幻灯片

结合图4和图5可以发现，在FT方法中，相位执行顺序和时长恒定不变，在整个仿真过程中车流量波动较小，对车流具有一定的疏通作用. 而不具有协调机制的IQA方法独立决策，无需考虑相邻交叉口情况. 当路网中流量增大时，因交叉口1和交叉口2无相互协调造成车流量大幅度波动. 最高峰时交叉口1中有近130辆车在行驶或等待，高于同时刻其他2种方法近1倍. 同时，在交叉口2车流明显低于其他2种方法，这表明相邻交叉口之间的协调控制能够有效减少独立控制方式的盲目判断，从而预防大量车辆拥堵现象的产生，最大限度地减少车辆停车次数对于提高路网通行有明显的作用. 本文研究中提出的ADM方法和FT方法的波动大致相同，但ADM整体上低于FT方法对应的曲线. 这表明采用动态信号决策周期能够有效提升信控优化效率. 对于突然大量增加的车流量，也能及时疏导避免在交叉口造成拥堵，展示出具有自适应学习能力和实时决策能力.

2）平均等待长度和平均等待车辆数对比分析. 在仿真过程中对2个交叉口平均等待长度进行记录，并计算出不同方法的平均值，如表2所示. 固定配时平均等待长度和平均等待车辆数这2项指标均较高，这表示车辆在交叉口聚集时间过长，产生拥堵现象，但方法由于不具有自适应性无法调节. 无协同的IQA方法优化效果不明显，经过分析得到，当发生拥堵时IQA能够根据环境变化对相位进行灵活调整，因此控制效果比固定配时方法好. 图6展示在仿真过程中不同方法控制下平均等待车辆数的变化，从图6中可以看出，ADM方法在运行整体调节效果较好，从长远角度考虑决策，尽量避免拥堵情况的发生，降低平均等待车辆数. 图7为在仿真过程中不同等待车辆数出现的频次，可以发现，在ADM方法的调控下，平均等待40辆车甚至更多事件发生的频率明显少于其他2种方法，这表明ADM方法能够有效避免拥堵情况的发生.

表 2 交叉口平均等待车辆数

Table 2. Average Waiting Car Numbers at Intersections

方法	交叉口1车辆数	交叉口2车辆数
ADM（本文）	5.79	4.23
IQA	6.17	5.68
FT	8.81	8.63

下载: 导出CSV

| 显示表格

图 6 交叉口平均等待车辆数

Figure 6. Average waiting car numbers at intersection

下载: 全尺寸图片幻灯片

图 7 交叉口平均等待车辆数分布

Figure 7. Distribution of average waiting car numbers at intersection

下载: 全尺寸图片幻灯片

3）累计等待时间对比分析. 如图8所示，ADM方法相较于其他方法对路口整体的车辆等待通行时间的控制效果更好，可以较稳定地将路口车辆的等待时间控制在较小范围内波动，并且ADM方法的累计等待时间更短并且收敛速度相比其他2种方法更快.

图 8 交叉口累计等待时间

Figure 8. Cumulative waiting time at intersection

下载: 全尺寸图片幻灯片

5. 结　　论

本文提出一种异步决策的多智能体交通信号自适应协调方法，该方法基于边缘计算技术实现，适用于大规模路网分布式控制场景. 基于本文提出的端—边—云架构，实现使用多种物联网终端设备采集环境信息，边缘进行小规模计算及决策，并在云上部署存储设备，进行全局计算和管理. 此外，针对同步决策中绿灯有效时间短问题，本文将异步引入多智能体协调决策中，并提出采用邻居信息库解决多智能体通信效率低的问题，在实验中验证本文提出方法的有效性.

未来拟进行的研究工作包括：考虑在不同拓扑结构的路网中使用智能体协同决策机制^[14]，以及基于分布式多层端—边—云架构的智能交通控制系统的设计，进一步研究部分网联车环境下实时交通信号优化控制方法，以及进行流量预测和行驶路线规划.

作者贡献声明：高涵设计实验方案和验证实验，并撰写论文；罗娟提出研究思路，对论文模型方法提出指导意见；蔡乾雅负责完成对比实验；郑燕柳对论文进行修改和完善.

图 1 交通信号控制场景图

Figure 1. Traffic signal control scene diagram

下载: 全尺寸图片幻灯片

图 2 基于端—边—云架构的交通信号控制架构图

Figure 2. Architecture diagram of traffic signal control based on end-edge-cloud

下载: 全尺寸图片幻灯片

图 3 仿真交叉口模型示意图

Figure 3. Schematic diagram of the simulated intersection model

下载: 全尺寸图片幻灯片

图 4 路口1车流量变化

Figure 4. Traffic flow variation of intersection 1

下载: 全尺寸图片幻灯片

图 5 路口2车流量变化

Figure 5. Traffic flow variation of intersection 2

下载: 全尺寸图片幻灯片

图 6 交叉口平均等待车辆数

Figure 6. Average waiting car numbers at intersection

下载: 全尺寸图片幻灯片

图 7 交叉口平均等待车辆数分布

Figure 7. Distribution of average waiting car numbers at intersection

下载: 全尺寸图片幻灯片

图 8 交叉口累计等待时间

Figure 8. Cumulative waiting time at intersection

下载: 全尺寸图片幻灯片

表 1 主要参数列表

Table 1 Major Parameter List

参数	取值
学习率α	0.1
折扣因子γ	0.9
搜索概率ε	0.1
最大训练轮次	100
最大仿真步数	7200
信息库更新周期/s	1
道路长度/m	300
车道最大车速/（km·h⁻¹）	40
最大加速度/（m·s⁻²）	2
最大减速度/（m·s⁻²）	4.5
最小车间距/m	2
默认直行绿灯时间/s	33
默认左转绿灯时间/s	25
默认黄灯时间/s	3

下载: 导出CSV

表 2 交叉口平均等待车辆数

Table 2 Average Waiting Car Numbers at Intersections

方法	交叉口1车辆数	交叉口2车辆数
ADM（本文）	5.79	4.23
IQA	6.17	5.68
FT	8.81	8.63

下载: 导出CSV

参考文献(24)

[1]	Cao Zhiguang, Jiang Siwei, Zhang Jie, et al. A unified framework for vehicle rerouting and traffic light control to reduce traffic congestion[J]. IEEE Transactions on Intelligent Transportation Systems, 2017, 18(7): 1958−1973 doi: 10.1109/TITS.2016.2613997
[2]	郭宪. 深入浅出强化学习: 原理入门[M]. 北京: 电子工业出版社, 2018 Guo Xian. Intensive Learning in Simple Terms: Introduction to Principles [M]. Beijing: Electronic Industry Press, 2018 (in Chinese)
[3]	Genders W, Razavi S. Using a deep reinforcement learning agent for traffic signal control[J]. arXiv preprint, arXiv:, 1611, 01142: Article No.2016
[4]	Zhou Pengyuan, Chen Xianfu, Liu Zhi, et al. DRLE: Decentralized reinforcement learning at the edge for traffic light control in the IoV[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 22(4): 2262−2273 doi: 10.1109/TITS.2020.3035841
[5]	Jaleel A, Hassan M A, Mahmood T, et al. Reducing congestion in an intelligent traffic system with collaborative and adaptive signaling on the edge[J]. IEEE Access, 2020, 8: 205396−205410 doi: 10.1109/ACCESS.2020.3037348
[6]	Tan Tian, Bao Feng, Deng Yue, et al. Cooperative deep reinforcement learning for large-scale traffic grid signal control[J]. IEEE Transactions on Cybernetics, 2020, 50(6): 2687−2700 doi: 10.1109/TCYB.2019.2904742
[7]	王莹多. 基于深度强化学习的路口自适应控制[D]. 大连: 大连理工大学, 2017 Wang Yingduo. Adaptive control of intersections based on deep reinforcement learning [D]. Dalian: Dalian University of Technology, 2017 (in Chinese)
[8]	喻金忠. 基于多智能体的城市路网交通信号控制研究[D]. 南京: 东南大学, 2019 Yu Jinzhong. Research on traffic signal control of urban road network based on multi-agent [D]. Nanjing: Southeast University, 2019 (in Chinese)
[9]	夏新海. 城市交通信号局部博弈交互下的学习协调控制[J]. 计算机工程与应用,2020,56(23):245−252 doi: 10.3778/j.issn.1002-8331.2001-0061 Xia Xinhai. Learning coordinated control under local game interaction of urban traffic signals[J]. Computer Engineering and Applications, 2020, 56(23): 245−252 (in Chinese) doi: 10.3778/j.issn.1002-8331.2001-0061
[10]	Qu Zhaowei, Pan Zhaotian, Chen Yongheng, et al. A distributed control method for urban networks using multi-agent reinforcement learning based on regional mixed strategy nash-equilibrium[J]. IEEE Access, 2020, 8: 19750−19766 doi: 10.1109/ACCESS.2020.2968937
[11]	卞宇. 基于博弈论的区域交通信号协调及优化控制研究[D]. 南京: 南京邮电大学, 2020 Bian Yu. Research on regional traffic signal coordination and optimal control based on game theory [D]. Nanjing: Nanjing University of Posts and Telecommunications, 2020 (in Chinese)
[12]	Chu Tianshu, Wang Jie, Codeca L, et al. Multi-agent deep reinforcement learning for large-scale traffic signal control [J], IEEE Transactions on Intelligent Transportation Systems, 2020, 21(3): 1086–1095
[13]	Wu Tong, Zhou Pan, Liu Kai, et al. Multi-agent deep reinforcement learning for urban traffic light control in vehicular networks[J]. IEEE Transactions on Vehicular Technology, 2020, 69(8): 8243−8256 doi: 10.1109/TVT.2020.2997896
[14]	Zheng Guanjie , Xiong Yuanhao , Zang Xinshi, et al. Learning phase competition for traffic signal control [C] //Proc of the 28th ACM Int Conf on Information and Knowledge Management. New York: ACM, 2019: 1963–1972
[15]	Genders W, Razavi S. Policy analysis of adaptive traffic signal control using reinforcement learning[J]. Journal of Computing in Civil Engineering, 2020, 34(1): 04019046 doi: 10.1061/(ASCE)CP.1943-5487.0000859
[16]	Wang Min, Wu Libing, Li Jianxin, et al. Traffic signal control with reinforcement learning based on region-aware cooperative strategy[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(7): 6774−6785 doi: 10.1109/TITS.2021.3062072
[17]	Wei Hua, Xu Nan, Zhang Huichu, et al. CoLight: Learning network-level cooperation for traffic signal control [C] //Proc of the 28th ACM Int Conf on Information and Knowledge Management. New York: ACM, 2019: 1913–1922
[18]	Devailly F, Larocque D, Charlin l. IG-RL: Inductive graph reinforcement learning for massive-scale traffic signal control[J]. IEEE Transactions on Intelligent Transportation Systems, 2021, 23(7): 7496−7507
[19]	Zeng Zheng. GraphLight: Graph-based reinforcement learning for traffic signal control [C] //Proc of the 6th Int Conf on Computer and Communication Systems. New York: ACM, 2021: 645–650
[20]	Nishi T, Otaki K, Hayakawa K, et al. Traffic signal control based on reinforcement learning with graph convolutional neural nets [C] //Proc of the 21st Int Conf Intelligent Transportation Systems. New York: ACM, 2018: 877–883
[21]	Mnih V, Badia A P, Mirza M, et al. Asynchronous methods for deep reinforcement learning [C] //Proc of the 33rd Int Conf on Machine Learning. New York: ACM, 2016: 1928–1937
[22]	Zhu Jichen, Ma Chengyuan, Yang Xiaoguang, et al. An asynchronous cooperative signal control framework in urban road network [C] // Proc of the 6th Int Conf on Transportation Information and Safety. Piscataway, NJ: IEEE, 2021: 1105–1111
[23]	Genders W, Razavi S. Asynchronous n-step Q-learning adaptive traffic signal control[J]. Journal of Intelligent Transportation Systems, 2019, 23(4): 319−331 doi: 10.1080/15472450.2018.1491003
[24]	Wang Tong, Cao Jiahua, Hussain A. Adaptive traffic signal control for large-scale scenario with cooperative group-based multi-agent reinforcement learning[J]. Transportation Research Part C Emerging Technologies, 2021, 125(3): 103046