深度强化学习智能交通 (III) :Deep RL 在交通信号灯控制中的应用

2022-03-31 21:26:26 浏览数 (2)

这是arxiv上最新发表的一篇前沿交叉综述报告。主要讨论了如何使用深度强化学习方法解决智能交通系统问题,特别是智能信号灯控制问题。本公众号将分4次发布本综述报告的翻译,仅供大家参考学习。获取英文原论文请在本公众号回复关键词"强化学习智能交通"。

系列预告

  • 深度强化学习智能交通 (I) :深度强化学习概述
  • 深度强化学习智能交通 (II) :交通信号灯控制表示为 Deep RL 问题
  • 深度强化学习智能交通 (III) :Deep RL 在交通信号灯控制中的应用
  • 深度强化学习智能交通 (IV) :自动驾驶、能源管理与道路控制

本节聚焦深度强化学习在自适应 TSC 中的工作。强化学习和深度强化学习方面的工作总结在单独的表格中。我们可以根据智能体的数量将基于学习的模型分为两类:单智能体 RL,使用一个智能体为整个 TSC 网络学习最优策略;多智能体RL,在交通网络中使用多个智能体获得最优策略。对这两类工作,我们都将按照状态、行动、奖励的定义和神经网络结构等特性来讨论模型。

A 标准的 RL 应用

1) 单智能体 RL

20世纪90年代后半页,使用一个可学习的智能体来优化交叉口的研究得到研究人员的极大关注。智能体通过与一个模拟环境进行交互来学习交叉口交通的最优控制策略。虽然最终的目标主要是控制一个协同的交叉口网络,但本研究的第一步是如何用 RL 控制单个交叉口。现在我们介绍一些基于 RL 的单交叉口研究,我们将对这些研究的独特特点进行描述。

文献[56]是基于 RL 的机器学习交通信号控制领域的先驱工作,使用无模型(model-free)的 SARSA 算法应用于单交叉口。在这项工作中,Thorpe and Anderson 考虑了两个场景:一个没有黄灯相位的四车道交叉口;以及一个 4times4 网格状相连的交叉口网络,每一个交叉口单独地学习自己的 Q 值。在这个早期工作以后,研究人员提出了一系列单交叉口和多交叉口交通网络的解决方法,其中最主流的方法包括协作多智能体和多目标 RL。文献[59]提出了一种更现实交通场景下的随机控制机制,这也是一种基于 SARSA 的 TSC 方法。这项工作同时提出了一种特定的状态空间,将汽车的数量划分到稀疏的离散值。作者现实了他们提出的方法比固定时间的控制以及感应式控制的要求更优(使用队列中汽车数量作为评价指标)。

在文献[57]中,作者提出了一种无模型的 Q-learning 单交叉口算法,将队列长度作为状态表示,两个行动周期间的总延迟作为奖励函数。这是第一篇提出简单的二元行动模型(只改变相位方向)的论文。本文的研究结果与固定时间信号控制器在不同交通流模式下的平均车辆延误进行了比较。Camponogara 和Kraus Jr.[58]提出了一个基于 Q-learning 的 RL 模型,该模型基于两个交叉口上的分布式 Q-learning 技术,为每个智能体分配单独的 Q 值。

Abdulhai等人[60]提出了加拿大多伦多的第一个基于 RL 的真实交叉口场景,使用三种不同状态定义的 Q-learning。第一种状态定义是两个值的函数:当前绿灯方向行驶的汽车数量和红灯方向排队的汽车数量。其他的状态定义为队列长度和不考虑红绿灯的累计延迟。这项工作在单交叉口中四个可能相位(NSG,EWG, NSLG, EWLG)中选择一个绿灯相位来代替固定周期下的二元行动模型。该工作被扩展到一个更一般的概念,从实验的角度讨论了几种关于不同状态、动作、奖励定义的on-policy、off-policy RL算法[61]。除了[60]中提出的三种状态表示和可变相位行动模型,作者进一步测试了固定绿灯相位周期的二元行动模型和四种奖励函数,即时延迟、累计延迟、队列长度和停车次数。在单交叉口场景下,Q-learning, SARSA 和 时分误差等模型在不同的状态、行动和奖励下进行了测试。此外,还考虑了两种不同的多交叉口配置,在Paramics simulator上,对多伦多市中心的 5 个交叉口和多伦多市中心的一个大型网络,与定时信号控制进行比较和驱动信号控制模型进行了比较。

Toubhi等人[63]在单交叉口下使用 Q-learning 评估了三个奖励定义、队列长度、累积延迟和吞吐量。在高需求和低需求流量模式下,研究了每个奖励定义的性能。还有一些其他的工作也使用 Q-learning 方法来处理单交叉口控制问题[62,64]。表1 列出了所介绍工作的概要。

表1 单智能体智能交通控制强化学习方法概览

2)多智能体 RL

在一定程度上,对不同的交叉口单独地应用单智能体 RL 算法会是一个好方案,然而这种方法却不适合大型交叉口网络。对整个网络达到最优策略需要一种协作的学习方法。研究者提出了几种用于控制的多智能体学习模型多个交叉口协同工作。

大部分单交叉口的强化学习应用使用的是 Q-learning 和 SARSA 等无模型(model-free)算法。而早期的多智能体文章提出使用状态转移概率的有模型(model-based)强化学习方法。一个重要的大型交通网络的多智能体强化学习工作由 Wiering 提出[65],基于车辆与交叉口之间的协调考虑局部和全局信息的状态函数,提出了三个算法:TC-1,TC-2 和 TC-3 。状态由交通信号灯的配置、汽车的位置和每个交叉口汽车的目的地组成。这个早期工作中的状态表示是不现实的,因为不太可能知道汽车的目的地信息。文中提出的模型迭代地更新值函数来最小化汽车的等待时间。模拟运行的结果与四个标准的 TSC 模型进行了对比:固定时间控制、随机控制、最长队列优先和最多汽车优先。

很多工作从不同的角度对 Wiering 的方法进行了拓展。例如 Steingrover 等人在 TC-1 方法的基础上,进一步将其他交叉口拥堵信息包含进来[66],提出了 TC-SBC 和 TC-GAC 两种拓展模型。前者通过向状态空间中添加拥塞值来增加状态大小,而后者在计算值函数时使用拥塞因子而不是增加状态空间。Isa 等人[67]进一步考虑了拥堵信息和交通事故信息。

前述工作都没有考虑多个智能体之间联合行动选择协调。Kuyer 等人介绍了一种新的方法,能够使用 max-plus 算法支持智能体之间的协调[68]。在这项工作中,智能体之间经过有限的协调迭代,能够找到最优的联合行动。另一个代表性的工作由 Bakker 等人提出,使用相连交叉口的部分状态信息,当系统由于某些原因(如传感器故障)无法访问完整的状态信息时,这种情况很有意义。这些工作[66-69]都使用 Wiering 的方法[65]为基准。

在强化学习中,多目标学习由于其处理复杂环境的能力而受到关注[95]。为整个交通系统选择一个单一的目标,例如 Wiering 的工作中目标数是减小所有汽车的等待时间,可能难以应对不同交通条件下的需求。文献[70]在 多智能体 TSC 工作中使用了一种多目标方法。汽车停车、平均等待时间、最大队列长度分别设置为高、中等和低交通流量下的优化目标。在不同交通流量下, Q 函数使用对应的奖励函数进行更新。Taylor 等人提出了一种非强化学习的算法 DCEE 来解决 TSC 问题。文献[71] 和 [80] 提出了一种基于 SARSA 算法的平铺编码多智能体强化学习方法,在不同交通流量条件下与 DCEE 进行了对比。

Khamis等人在三篇论文[73]-[75]对多目标 RL 交通信号控制进行了研究。在第一篇论文[73]中,作者考虑了贝叶斯转移概率的有模型 RL 方法,使用几个目标来形成奖励函数。第二篇论文采用了同样的方法[74],目标更加明确。第三篇论文[75]将先前的工作扩展到了总共七个目标,具有新的合作探索函数,并在多种道路条件和车辆需求下进行了实验。还从连续控制、概率出行需求等不同角度提高了 GLD 交通仿真系统的实用性。这三篇论文的结果与 Wiering 提出的TC-1 [65] 和自适应 SOTL 方法[76]进行了比较。

最新最具有影响力的基于 RL 的多目标多智能体 TSC 研究是 [77] 。在这项研究中,交通延迟和燃料消耗定义为智能体的学习目标,使用一种称为阈值词典排序的技术来支持在线多目标适应。该工作基于 SARSA 算法使用多种函数逼近器来实验,其中一种是神经网络。需要指出的是,基于 SARSA 算法的 Q 值估计在深度强化学习中通常不多见,因为它不包括经验回放和目标网络技巧,我们将在下一节介绍。

在 DQN 提出以前,函数逼近是一种流行的解决状态空间很大时的 Q 函数学习方法。例如, 文献[78] 和 [79] 提出了基于函数逼近 Q-learning 和 的 actor-critic 策略迭代两种 TSC 强化学习模型。文献[82]对 TSC 问题提出了一种新颖的基于神经网络的多智能体 RL 方法,分别使用了局部和全局智能体。局部智能体通过最长队列优先算法控制交通信号灯,全局智能体则使用一个基于神经网络的 Q-learning 方法控制交通信号灯,这种方法与后文将要介绍的 DQN 十分类似。

基于 actor-critic 的多agent RL 是一个新兴的研究领域,它使用连续的状态空间表示。将状态空间离散化通常会丢失状态信息。Aslani 等人提出了一种多交叉口连续空间 actor-critic 控制模型[88],使用了平铺编码和基于径向基函数的函数逼近器。虽然状态空间是连续的,决定下一个绿灯相位的行动空间是离散的。在实验中,研究人员分别使用离散状态和连续状态的 actor-critic 模型在德黑兰进行了测试。一项工作提出了一个两层多智能体强化学习模型[81],首先使用 Q-learning 为每个交叉口实现单独的智能体,然后在第二层使用基于平铺编码的函数逼近器来控制宽域网络。有几项研究提供了相邻智能体之间的协调以达到联合最优性能。Tantawy等人提出了一种基于 Q-learning 的多智能体道路网络协调 RL 方法[83],[84]。RL 可以直接或间接地学习协调,分别称为 MARLIN-DC 和 MARLIN-IC。

文献[83]提出了一个小规模的道路网,在扩展的文献[84]中,作者研究了多伦多市中心 59 个交叉口的大型道路网。[91]提出了另一种基于协调的 TSC 模型,该模型实现了大型网络中的分布式 Q-learning 智能体,其中相邻智能体之间共享拥堵值。在Paramics仿真环境下,以新加坡的实际交通网络为例,对不同的出行需求配置进行了模拟实验。Xu等人[89]针对多智能体 RL 环境,提出了一种基于非零和Markov游戏的协调模型。将 Q-learning 作为一个单智能体应用于每个交叉口,并采用基于马尔可夫博弈的数学模型对其协调进行控制。

文献[87]利用R-Markov平均奖励技术和 RL 的多目标奖励定义,提出了一种适用于多交叉口环境的新方法。在参数模拟环境下,通过对18个交叉口网络的模拟,将结果与固定时间控制器、驱动控制器、Q-learning 和SARSA 进行了比较。Chu等人[96]提出了一个适用于大规模交通网络的区域到中心的多智能体 R L模型。在低流量密度下,作者认为对于大规模网络,区域间不需要协作,即在局部区域学习流量模型就足以获得全局合适的学习。Araghi等人[94]提出了一种基于分布式 Q-learning 的多智能体 RL 控制器,该控制器预测下一个相位周期的绿相位持续时间。在[85]、[90]、[93]中研究了其他多智能体 RL 应用。表二概述了多智能体 RL 的工作。

B Deep RL 应用

本小节我们考虑基于 Deep RL 的 TSC 应用。表三根据所使用的 Deep RL 算法,网络结构,模拟环境和与基准的比较几个方面对现有工作进行了归纳总结。

1)单智能体 Deep RL

近年来,基于deep RL 的自适应交叉口控制学习工具受到交通研究者的广泛关注。近二十年来,研究人员提出了几种基于标准 RL 的交通场景架构,deep RL 的出现对其研究产生了巨大的影响,尤其是 TSC 。由于其对大状态空间的处理能力,人们提出了许多用于交通灯控制的 deep RL 模型。deep RL 范式基本上是基于深度神经网络逼近 Q 函数。在 TSC 使用这种方法的最早工作是[82],虽然文中提出了一种基于神经网络的 RL 模型,但缺乏***经验回放***和***目标网络*** 这两个 DQN 的重要组成部分[19],因此并不是一个完整的 DQN 算法。

Genders等人[31] 是使用 deep RL 进行控制交通信号的早期研究。在这项工作中,作者使用离散交通状态编码模型,称为 DTSE ,以交通环境中的详细信息为基础,形成一个类似于图像的状态表示。所提出的状态模型是 CNN 的输入,用于逼近离散动作的 Q 值。实验是在 SUMO 模拟环境下进行的,在 SUMO 模拟环境中,选择 4 个绿色相位作为动作。为了显示 CNN 在 DTSE 状态表上的能力,将结果与单层神经网络的 Q-learning 进行了比较。

在[98]中,同样的作者使用 A3C 算法研究了不同状态对交叉口优化的影响。使用动态交通环境在单个交叉口上试验了三种不同的状态定义。文中考虑的第一种状态形式是由每条车道的占用率和平均速度。第二种状态是每条车道的排队长度和车辆密度。第三种状态形式是具有布尔位置信息的类图像表示(DTSE),其中车辆的存在性用 1 表示。结果表明,状态表示的分辨率对 RL 智能体的延迟和队列长度没有影响。在最近的一篇论文[103]中,同样的作者研究了 TSC 的异步 deep RL模型。在异步 n 步 Q-learning [27]中,主任务被划分为多个处理器,每个处理器分别学习其局部最优参数。一般网络的全局参数在每 n 步后更新。在[103]中提出的架构与固定时间和驱动交通控制器相比,性能提高了近40%。

文献[40]中,作者提出了一种基于自动编码器(autoencoder)的动态交通流单交叉口 deep RL 算法。使用自动编码器进行行动选择,将输入队列长度映射到低维行动集。瓶颈层是解码部分的输出,用于 Q 函数逼近。作者与用 Paramics 模拟器进行的标准 Q-learning 进行了比较。目前,这是文献中唯一使用自动编码器来近似行动值的工作。在[33]中,Gao等人提出了一种基于 DTS E的车辆速度和位置相结合的神经网络结构。神经网络的输出是二元行动:保持同一行动还是在预定的相位周期内改变行动。作者将该模型与固定时间控制器和最长队列优先控制器进行了比较。

[28]提出了两种用于控制孤立交叉口的 deep RL 算法:基于价值的DQN 和基于策略的 actor-critic 。两个智能体的状态都是原始的连续图像帧,采用与原始 DQN 完全相同的方法。如文献[19]所述,DQN 算法存在不稳定性问题。[28]表明基于策略的 deep RL 技术通过平滑收敛和收敛后的稳定趋势来解决这个问题。Shabestary 等人[36]提出了一种基于 DQN 的孤立交叉口交通信号自适应控制的新方法。文中定义的奖励和行动是累积延迟和 8 个不同的绿灯相位的变化,而不是常用的二元行动集或单个交叉口的4个绿灯相位。

Choe 等人提出了单交叉口 TSC 场景下基于 RNN 的 DQN 模型[37]。结果表明,与目前流行的 CNN 结构相比,基于 RNN 的 DQN 降低了传输时间。文[29]提出了一种基于策略梯度的 deep RL 自适应交叉口控制方法,该方法在一个新的现实交通环境 Unity3D 上进行了实验,将原始像素作为基于策略的 DQN 的输入状态。该模型与固定时间交叉口控制模型具有相似的结果。Wan等人提出了一种基于行动值的具有新折扣因子的 DQN[45]。提出的动态折扣因子在无穷几何级数的帮助下考虑了执行时间。通过与固定时间控制器和基于 DQN 的标准控制器的比较,利用 SUMO 模拟器在单交叉口上对该模型进行了测试。

[38]中描述了一种新的基于 DQN 的控制器,称为 IntelliLight,具有新的网络结构。奖励函数由多个部分组成:所有车道的排队长度之和、延误时间之和、等待时间之和、红绿灯状态指示灯、自上一个行动以来通过交叉口的车辆数和自上一个行动以来的行驶时间之和。该方法在 SUMO 单交叉口上进行了实验。一个真实的数据集是从中国的真实相机收集到的,作为 SUMO 的输入。在[107]中,IntelliLight被选为一个基准,它引入了一个新的带有批学习框架的迁移学习模型。将相同的真实数据和生成均匀分布交通流的综合迷你数据用于孤立交叉口的试验。文献[50]中提出了另一种基于 DQN 的交通灯控制研究。数据来自黎巴嫩的一个三向非均匀实交叉口。实验结果与实际交叉口使用的固定时间控制器在队列长度和延迟方面进行了比较。

Liang 等人[30]根据行动集和 deep RL 算法研究了不同的 deep RL 模型。此工作将更新阶段周期中的下一阶段持续时间,而不是从绿色相位中选择行动。在一个 4 相单交叉口,定义了相位变化持续时间。选定的阶段持续时间可以从下一个周期阶段的持续时间加上或减去。在该模型中,对于四向交叉口,行动集包含 9 个离散行动。文中提出的算法考虑了新的 DQN 技术,即 dueling DQN 和优先经验重放,以提高性能。在另一篇论文中,Jang 等人[43]讨论了如何通过基于 Java 的AnyLogic 多用途模拟器将 DQN 智能体与交通模拟器集成。Liu 等人提出了一种不同的状态定义方法[105],用于检查 DQN 对线性道路拓扑中绿波模式的影响。实验只在不使用任何流量模拟器,而是根据概率分布创建流量数据的 Python 环境中进行。此外,考虑到车辆到基础设施(V2I)通信的专用短程通信(DSRC)技术,Zhang 等人[106]在交叉口部分检测到车辆的情况下处理 TSC。他们研究未检测车辆的 TSC 的动机来自于并非所有车辆都使用 DSRC 的情况。

2)多智能体 Deep RL

文献[32]提出了第一种基于 deep RL 的多交叉口控制机制,定义了一种新的奖励函数,并提出了一种多交通灯协调工具。文中的奖励定义考虑了特定交通条件的组合,即事故或拥堵、紧急停车和红绿灯改变,以及所有车辆的等待时间。奖励函数适当地惩罚每个特定的交通状况。为了使多个交叉口的协调具有较高的交通流量,本文对较小的一组交叉口采用了转移规划技术,并用 max-plus 协调算法将学习结果与较大的一组交叉口相连接。在这项工作中,基准是[65]中提出的早期基于协调的 RL 方法之一。如预期的那样,基于 DQN 的协调方法优于早期标准的基于 RL 的方法。通过给出单智能体场景和不同多智能体场景的结果,文章扩展为硕士论文[23]。文献[35]与文献[32]相似,提出了一种基于 2 times 2 交叉网格模型的多智能体 deep RL 方法,该方法利用 max-plus 和迁移学习来达到协调的全局最优学习。与文献[32]不同的是,本文主要是用 RNN,特别是 LSTM 层来代替全连通层进行 Q 函数逼近。结果表明,与 Q-learning 和固定时间控制相比,RNN 结构的 deep RL 方法在低流量和高流量需求情况下均能获得较低的平均延迟。

Liu 等人[34]提出了一种用于多智能体控制多个交叉口的协作式 deep RL 模型。该算法是一种基于 ResNet 结构的 DQN 算法。奖励函数根据驾驶员的行为和等待时间使用 BPR 功能对系统进行处罚(见第IV-C节)。通过每 n 步与其他智能体共享策略,保证了智能体之间的合作。在 SUMO 上使用 2 times 2 交叉模型进行了实验,选择 SOTL、Qlearning 和 DQN 作为验证模型的参考点。

多个交通交叉口可以表示为一个网络图,车道通过道路连接形成一个有向图。Nish等人[100]提出了一种基于 GCN 的 RL 智能体神经网络结构。GCN 与一种称为 k 步神经拟合Q迭代[101]的特定 RL 算法相结合,该算法通过为每个交叉点分配一个智能体,以分布式方式更新智能体,同时考虑整个网络以形成状态空间。实验结果表明,与基于固定时间控制器和标准 CNN 的 RL 控制器相比,基于 GCN 的算法减少了 6 个交叉口的等待时间。[44]提出了 TSC 的分级控制结构。下层通过交叉口控制优化局部区域交通,上层通过调整下层局部区域的优化程度优化城市级交通。在本研究中,多交叉口学习是建立在从个别交叉口收集的阈值上。高级控制器的行动集是增加或减少阈值,从而改变每个交叉口对相邻交叉口的灵敏度。与不同于其他基于 deep RL 的交叉口控制器不同的是,它通过一种基于阈值的机制来降低算法复杂度,而不是设置相位周期或相位持续时间。

文献[39]研究了协作多智能体 deep RL 模型。这里,为每个交叉口分配了一个具有 dueling DQN 模型并支持优先级经验重放的智能体。为了提高协调性能,在经验回放中采用了一种特殊的采样技术,即指纹技术。指纹技术通过贝叶斯推理利用邻居代理策略估计Q-函数[108]。该模型在具有异构多交叉口的 SUMO 上进行了验证。结果表明,该算法在多个出行需求场景下均优于固定时间控制器和无经验重放的 DQN 控制器。

多智能体系统中的一种方法是只更新关键边以提高效率。[47]首先使用一种特定排序算法 CRRank 基于多个标准识别重要节点,CRRank 使用双向三部图创建一个 trip 网络。基于数据和三部图,系统根据指定的分数对边缘进行排序。一旦确定了关键交叉口,RNN 结构的 DQN 智能体就学习最优策略。该模型在 SUMO 的20个、50个和100个交叉口上进行了测试,并与固定时间控制器、SOTL 控制器、Q-learning 控制器和 DQN 控制器进行了比较。最近,在文献[46]中提出了一种具有Q值转移的协作 deep RL 方法。在每个交叉口,DQN 智能体通过从其他智能体接收Q值来控制红绿灯,以学习最优策略。该算法在均匀和非均匀交叉口上得到了广泛的实验支持。有一个异质的交通场景是很重要的,因为所有的交叉口不具有相同的特征,如道路数量和车道数量。作者将他们的结果与两篇基准论文进行了比较:协调 Q-learning [32]和分布式 Q-learning[94]方法。

文[41]中的工作研究了深度确定策略梯度(DDPG)算法在城市规模交通网络中的应用。通过连续控制相位持续时间,提出了 DDPG 的 TSC 问题。该模型通过保持总相位周期不变,一次更新所有网络的相位持续时间,以控制整个网络的同步。在这项工作中,一个被称为速度分数的特定信息,使用每个检测器上的最大速度计算,被考虑用于形成状态向量。从小型到大型的交通网络测试了三种交通场景:孤立交叉口、2 times 3 网格交叉口和巴塞罗那市 43 个交叉口的比例尺地图。该方法比多智能体 Q-learning 控制器具有更高的奖励性能。值得注意的是,actor-critic 模型可以应用于大型交叉口模型,而无需任何额外的多智能体控制技术。Genders在博士论文[48]中研究了另一种基于 DDPG 的大规模网络 deep RL 控制器。系统模型由一个并行体系结构组成,每个交叉口都有分散的参与者,每个中心学习者都覆盖交叉口的子集。该策略确定每个交叉口中绿灯相位的持续时间。为了测试该模型的性能,我们在拥有 196 个交叉口的 SUMO 上使用了卢森堡城市地图,这是迄今为止基于 RL 的 TSC 最大的测试环境。

Lin 等人提出了一种考虑 A2C 算法的多行动学习系统。在[42]中多个行动者观察不同的状态,使用不同的探索策略。由于 actor-critic 方法建立在优势函数上,因此作者考虑在学习过程中使用一种称为一般优势估计函数的技术[109]。在 SUMO 的 3times3 交叉网格上进行了实验,并与定时控制器和驱动控制器进行了比较。

自主 Q-learning 是近年来研究较多的多智能体 RL 方法之一。Chu 等人[102]最近将此方法扩展到自主 A2C 多智能体 TSC。利用两种方法,即相邻交叉口的指纹和空间折扣因子来解决稳定性问题。前者为每个智能体提供有关本地策略和邻居智能体流量分布的信息,后者则使每个智能体能够集中精力改善本地流量。A2C 算法使用基于 LSTM 的 RNN 模型的网络结构。采用 5times5 网格的综合交通网络和来自摩纳哥市的30个交叉口的真实交通网络进行性能评估。

在文[104]中,通过合作实现了大规模交通网络的系统学习。将一个大系统划分为若干个子集,其中每个局部区域由 RL 智能体控制。全局学习是通过将学习策略传递给全局智能体来实现的。对于本地控制器,作者研究了两种 deep RL 算法:基于值的 peraction DQN 和基于 actor-critic 的 Wolpertinger DDPG[110]。每个行动 DQN 与标准的 DQN 算法相似,不同的是它将状态行动对作为输入,并生成单个 Q 值。Wolpertinger-DDPG为大规模离散行动空间提供了一种基于 k 近邻方法的新策略方法。在实验中,使用了三种不同的交通网络,并将其结果与一种带有线性函数逼近器的分散 Q-learning 算法和两种基于规则的基准(固定时间和随机时间控制器)进行了比较。

Coskun等人[99]将[28]扩展到多个交叉口使用基于值的 DQN 和基于策略的 A2C 。两种算法在深入学习后的结果与标准 RL 方法在每轮平均奖励方面的结果一致,其中 DQN 的平均奖励高于A2C。

0 人点赞