这是arxiv上最新发表的一篇前沿交叉综述报告。主要讨论了如何使用深度强化学习方法解决智能交通系统问题,特别是智能信号灯控制问题。本公众号将分4次发布本综述报告的翻译,仅供大家参考学习。
系列报告
- 深度强化学习智能交通 (I) :深度强化学习概述
- 深度强化学习智能交通 (II) :交通信号灯控制表示为 Deep RL 问题
- 深度强化学习智能交通 (III) :Deep RL 在交通信号灯控制中的应用
- 深度强化学习智能交通 (IV) :自动驾驶、能源管理与道路控制
在 ITS 的其他应用中引入了几种有用的 deep RL 机制。智能交通系统中 AI 的一个主要应用领域是自动驾驶,其中深度强化学习在该领域起到了非常关键的作用。Deep RL 方法能够应用到自主控制问题的多个方面,包括匝道计量、车道变换、速度加减速和交叉口通行等(见表四)。
A 自动驾驶
最初的论文提出的基于 deep RL 的自主车辆控制在 TORCS 游戏环境下进行模型实验[151]。Sallab 等人提出的控制框架。[111]使用了两种类型的深度RL方法:离散行动集的带 RNN 的 DQN 方法和连续行动集的基于 actor critic 的 DDPG 方法。作者在 TORCS 上进行了不使用经验回放的算法实验,结果表明收敛速度更快。Xia 等人[112]提出一种称为带过滤经验的深度 Q-learning(DQFE)的控制策略,用于教授自主车辆如何驾驶。在 TORCS 游戏模拟器上,该方法的学习性能优于神经拟合的 Q-learning 方法。
文献[113]提出的连续控制策略将连续行动的 DDPG 算法与安全控制策略结合起来。这种组合是必要的,因为仅仅依靠过去的经验不能提供一个安全的自动车辆控制。Hoel 等人[115]引入了一个自主驾驶模型,包括使用蒙特卡罗树搜索和 deep RL 进行规划和学习。驾驶规划是通过蒙特卡罗树搜索完成的,学习如何驾驶是通过使用 AlphaGO Zero 算法的 deep RL 智能体完成的[152]。这个工作与 IDM/MOBIL 智能体的专家驾驶行为基准进行了比较[153,154]。
[120]在 VISSIM 上使用 DDDP 方法研究了自主车辆的跟车和换道行为。Makantasis 等人提出了另一种基于 RL 的自动驾驶策略。[121]在混合自治场景中使用具有优先体验回放的 DDQN。在不同的交通密度下,在 SUMO 上对基于 deep RL 的驾驶策略与基于 DP 的最优策略进行了比较。Deep RL 自主驾驶研究通常是在混合自主环境或完全自主环境中寻找最佳驾驶策略的单个智能体。文献[122]提出了一种具有动态协调图的多智能体 deep RL 方法。在这项研究中,自主车辆协同学习如何在高速公路场景中表现。研究了基于身份的动态协调和基于位置的动态协调两种不同的协调图模型。Qian 等人[123]从不同的角度描述了使用双延迟 DDPG 的自动驾驶[155]。他们提出了一个两级策略来填补自主汽车决策和未来规划之间的空白。Zhou 等人提出了在信号交叉口采用 DDPG 方法的自主驾驶[124]。在最近的一项自主驾驶研究[125]中,使用从摄像机采集的 RGB 图像输入,在交通模拟器 CARLA [156]上分析了 RL 方法。作者在[127]中使用一种称为 IPG 汽车制造商的人在回路动态模拟器,对基于 DDPG 的自动驾驶进行了不同的训练和测试策略的试验。当驾驶者在这个软件上控制车辆时,DDPG 智能体学习如何在两种不同的情况下驾驶,向前驾驶和停车。
在交通研究中,利用自主车辆控制停行波是一种新的方法,[130]提出了一种基于 deep RL 的解决方案。为了增加交通流量,作者实现了多个由独立的 deep RL 智能体控制的自主车辆。Isele 等人[128]使用 DQN 方法研究了一种特殊情况下的自动驾驶车辆,即当驾驶员对交叉口有部分了解时,在交叉口进行通行。文中测试了三种行动选择模式。第一个模式是停止或前进,第二个模式是连续行动、加速、减速或保持恒定速度,最后一个模式是前两个行动模式的组合,等待、缓慢移动或前进。三种行动模式都在 5 种不同的情况下进行了测试。
文献[116]提出了一种采用 double DQN 的有包围车辆的自动货车挂车的速度和车道变换框架。为了推广该算法,文中考虑了高速公路交通和双向超车两种交通情况。Sharifzadeh 等人使用逆 deep RL 方法[114]提出了一种在具有连续轨迹的自编程交通模拟器上实现无碰撞换道的驾驶模型。模型包含两个独立的智能体。一个智能体只控制无速度调整的换道,另一个智能体控制有加速度的换道动作。文献[118]中给出了考虑 DQN 和二次 Q 函数近似的自主车辆换道应用。将分层控制技术实现为离散域的变道模块和连续域的间隙调整模块,并分别采用 deep RL 智能体。与其他文献类似,[119]提出了一种基于规则的 DQN 方法来解决自主车辆的换道问题。
大多数基于学习的控制模型的测试都是在汽车自主控制、交通信号控制、交通流控制等模拟器上进行的。Chalaki 等人研究了从模拟器到真实世界实验的第一个学习策略迁移[132]。本研究的实验平台是美国特拉华大学的城市地图,利用 deep RL 控制技术,对环形交叉口内多辆自主车辆的行为进行观测。为了有效地传递策略,在状态空间和行动空间中注入对抗噪声。文献[133]研究了具有高斯噪声的单智能体的初步结果。
B 能源管理
能源管理系统是未来交通运输的重要组成部分。电动汽车有不同的资源分配方案。动力消耗在不同的车辆单元中不同,这会对电池的性能产生很大影响。Chaoui等人提出了一种基于 deep RL 能量管理解决方案,以提高并联电池的生命周期[136]。[138]提出了一个使用 DQN 模式的混合动力汽车能耗优化模型。提出的自适应学习模型通过基于 deep RL 的能量管理方案提供了更好的燃料消耗。吴等人[137]提出了一种基于 actor-critic 的 DDPG 算法的混合动力公交车能量管理解决方案。在考虑乘客数量和交通信息两个参数的情况下,deep RL 智能体可以通过连续控制来优化能耗。
C 道路控制
道路控制人员是智能交通系统中交通控制的重要组成部分。目前,在高速公路的限速控制、收费公路定价、匝道计量等方面都采用了 deep RL 方法,车道间的动态限速控制是交通运输中一项具有挑战性的任务。We 等人[140]研究了一种采用 actor-critic 连续控制方案的变转速限值控制的动态求解方法。文献[143]提出了基于 deep RL 的收费公路车道定价模型,以使多个出入口的总收入最大化。文献[145]提出了另一种快车道动态定价模型,利用多目标 RL 模型和多类小区传输模型来提高 deep RL 智能体的性能,并用信号匝道表来控制来自侧道的高速公路连接。为了提高主干道交通流的效率,[134]提出了一种基于离散化偏微分方程的交通模型多智能体 deep RL 技术。该控制模型在一个模拟的高速公路场景中进行了测试。吴等人[141]针对高速公路的不同路段,提出了一种基于不同智能体的 deep RL 高速公路控制模型。作者建议使用入口匝道表控制智能体、动态车道限速控制智能体和动态车道变更控制器智能体进行协调。传统道路有固定数量的进出车道。为了改善交通流,[146]研究了多智能体 deep RL 和动态图结构下的车道转向,[117]提出了基于DQN的自动制动系统,在需要立即采取行动的情况下提供了交通安全。
D 不同的 ITS 应用
最近,Schultz 提出了一种新的交通模拟器优化工具[149]。交通模拟器的输入(交通特性)和输出(交通拥挤)与使用 DQN 的自适应学习技术相关。Flow 计算接口使得 deep RL 库 RLlib [157]与 SUMO 和Aimsun 很容易集成,以解决 ITS [158]中的各种控制问题。Flow 的用户可以通过 Python 创建一个自定义网络来测试复杂的控制问题,如匝道表控制、自适应交通信号化和具有自主车辆的流量控制。[150]介绍了一种交通模拟器,它为分析自主车辆的行为提供了一种新的环境和协作多智能体学习方法。它能够测试各种流量场景。Min等人[147]提出了一种使用分位数回归 DQN 的驾驶员辅助系统,用于各种控制,如车道保持、车道变换和加速控制。
挑战与开放性研究问题
尽管在基于 deep RL 的 ITS 解决方案方面做了巨大的兴趣和努力,目前也取得了一些有希望的结果,但要产生真实世界的产品,仍有许多重大挑战需要解决。本节我们讨论 deep RL 在 ITS 方面的主要挑战和开放性研究问题。
由于现实应用对生命的威胁,所有基于 RL 的 ITS 控制的研究成果都在模拟器上进行实验。最近,文献[132]提出了一个从模拟到城市级自动驾驶测试环境的策略迁移应用程序,但这一研究仍处于起步阶段。实际部署与使用学习算法的基于模拟器的应用之间存在巨大差距。对于 TSC 和 ITS 中的其他控制应用,需要在实际中进行部署,以证明基于deep RL 的自动控制的适用性。
具体到 TSC,基于模拟的应用有两种方法:一是用人工数据模拟人工路网,二是基于真实数据集模拟路网。虽然第二个测试接近于实际测试,但它只考虑一天中不同时间的交通需求,没有实际的挑战。研究人员需要考虑的另一点是增加模拟环境的真实性,例如包括人工干预场景。为了减少人工干预 TSC,控制系统应能适应最坏情况下不稳定的交通状况。要做到这一点,应该研究具有一些可预测的极端场景的城市网络,而不是标准交通模型,以便了解 deep RL 实现的后果。我们期望在模拟环境中实现行人和公共交通将对学习性能产生很大的影响。
已有文献提出了许多用于交通灯控制的 deep RL 模型。虽然标准 RL 模型之间有相互比较以验证其建议,但 TSC 上的 deep RL 模型与现有的工作没有令人满意的比较。对于多个交叉口,研究者大多选择DQN、标准 RL 和定时控制器作为基准。然而,与文献中的其他多智能体方法,如分布式控制、协调控制等相比,应该更具代表性。另一个具有挑战性的结果是,很少有文献将它们的性能与驱动控制器进行比较,驱动控制器是现实世界中最流行的 TSC 实现方法。
状态定义是 deep RL 应用中的一个关键点。因此,研究人员关注不同硬件系统(如摄像机、环路检测器和传感器)的不同状态形式,但在基于 deep RL 的 TSC 应用中,对状态形式还没有明确的一致性。状态定义高度依赖于静态设备,因此所有这些设备都应始终正确地收集数据。一个新的研究方向可能是研究部分可观测和噪声状态定义,其中一些设备不能正常工作。当基于 RL 的自适应交通信号在交叉口上实现时,系统必须得到保护和稳定(即鲁棒性和弹性),以防此类故障。
关于自主车辆,研究人员一直在提出非常具体的子系统的解决方案,而没有考虑这些子系统之间的相互作用。对于更实际的解决方案,需要对多个组件采用统一的管理和自适应控制策略。例如,一个好的 deep RL 系统应该同时控制车道变换、中断、流量安排和能量管理组件。为不同的自主车辆子系统实现不同的学习算法可能会导致互操作性问题。
总结
考虑到世界人口的增长和城市化的趋势,研究者们一直在利用基于学习的人工智能技术对智能交通应用进行研究。交通系统的动态特性决定了我们无法对所有智能交通系统(ITS)应用使用一个清晰易用的控制机制。通过强化学习(RL)方法控制交通系统在工业界和学术界都越来越流行。近年来,针对智能交通系统中的自动控制问题,例如交通信号灯、自动驾驶、自动中断、车辆能源管理等方面的研究成果层出不穷。在 ITS 中最流行的深度强化学习应用是交叉口的自适应交通信号控制(TSC)。
本文综述了深度强化学习在 ITS 中的应用。讨论了 RL 和 deep RL 的关键概念,以及它们应用于 TSC 的配置。为便于明确比较,使用单独的表格中比较了几个类别的现有工作的特征细节。最后,我们还讨论了开放性的研究方向以及现有研究成果与实际应用的差距。研究表明,在模拟环境中 TSC 有不同的单智能体和多智能体 RL 解决方案,其性能优于标准控制方法。但是,除了针对特定场景的自动车辆应用之外,现有的工作尚未在实际环境中进行测试。