多智能体深度强化学习(MADRL)在大规模交通信号灯控制中的应用

Posted 码丽莲梦露

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了多智能体深度强化学习(MADRL)在大规模交通信号灯控制中的应用相关的知识,希望对你有一定的参考价值。

《Multi-Agent Deep Reinforcement Learning for Large-Scale Traffic Signal Control》

IEEE Transaction on Intelligent tansportation systems/2020

论文及代码链接https://arxiv.org/abs/1903.04527https://arxiv.org/abs/1903.04527

1 摘要

        强化学习(RL)是解决复杂城市交通网络中自适应交通信号控制(ATSC)的一种很有前途的数据驱动方法,而深度神经网络进一步增强了其学习能力。然而,由于联合动作空间的维数过高,集中式RL不适用于大规模的ATSC。多Agent RL(MARL)通过将全局控制分配给每个局部RL Agent来克服可伸缩性问题,但也带来了新的挑战:现在,由于Agent之间的通信有限,从每个局部Agent的角度来看,环境变得部分可观测。现有的MARL研究大多集中于设计传统Q-学习智能体之间的有效沟通和协调。本文首次在ATSC环境下提出了一种完全可扩展的分布式MARL算法,该算法适用于目前最先进的 deep RL agent--Advantage Actor Critic(A2C)。特别地,通过提高局部智能体的可观测性和降低学习难度,提出了两种稳定学习过程的方法,并在摩纳哥城市大型合成交通网格和大型真实交通网络上模拟高峰时段交通动态,将提出的多智能体A2C算法与独立A2C和独立Q-学习算法进行了比较。实验结果表明,与其他最先进的分散MARL算法相比,该算法具有最优性、稳健性和采样效率。

2 介绍

        自适应交通信号控制(ATSC)的目标是根据实时交通动态调整信号配时,以减少饱和路网中潜在的拥堵。

        集中式RL Agent对于大规模TSC不可行的原因:

        (1)需要收集网络中的所有流量测量数据,并将其作为全局状态反馈给Agent,这种集中状态处理本身将导致高延迟和高故障率,会丢失网络的拓扑信息。

        (2)智能体的联合行动空间在信号交叉口的数量上呈指数增长。

因此,将ASTC描述为一个协作多智能体RL问题是十分有效的,其中每个交叉口由一个本地RL智能体控制。

        为了开发一个稳定和健壮的IA2C系统,进一步提出了两种方法来解决IA2C在有限通信条件下的部分可观测性(partially observable)和非稳态特性(nonstationary):

        (1)我们包含了状态中相邻Agent的观察结果和指纹,这样每个本地Agent就可以获得更多关于区域交通分布和合作策略的信息。

        (2)引入空间折扣率来减少相邻智能体的观察和奖励信号,使每个局部智能体更专注于改善附近的交通状况。

        从收敛角度看,第一种方法提高了拟合能力,而第二种方法降低了拟合难度。

3 MA2C for Traffic signal control

3.1 MDP settings

        考虑Ts时间内的模拟交通环境,定义Δtw为RL Agent和交通环境之间交互的周期。

3.1.1 Action

        动作设置为红路灯组合。

3.1.2 State

        这篇文章将局部状态定义为:

        其中,每个交叉口的进入车道i。wait[s]测量第一辆车的累积延迟,而Wave[veh]测量每个进入车道在交叉口50m内车辆的总数。通过近交叉感应环路检测器(ILD)可以获得Wait和Wave,确保实时TSC。为了简化实现,我们使用SUMO中的laneAreadetector来收集状态信息。 

3.1.3  Reward

         一个合适的MARL奖励应该是可分解且可频繁测量的,这篇文章将奖励定义为:

这篇文章所提算法框架如下图:

 4 实验

        基于MARL的ATSC在两个相扑模拟交通环境中进行了评估:5×5的合成交通网格和从摩纳哥城市[44]提取的真实世界30个十字路口的交通网络,在时变交通流下进行评估。本部分旨在设计具有挑战性和现实性的交通环境,以便在控制器之间进行有趣和公平的比较。

4.1 综合交通网络

         5×5交通网格是由限速20m/s的双车道主干道和限速11m/s的单车道大道组成的,每个交叉口的作用空间包括五个可能的阶段:E-W直行阶段、E-W左转阶段和E、W、N-S三个直行和左转阶段,每个交叉口的作用空间包括五个可能的阶段:E-W直行阶段、E-W左转阶段和E、W、N-S三个直行阶段和左转阶段。

4.2 对比实验图展示

 

 

 

 

 

 

 

 

以上是关于多智能体深度强化学习(MADRL)在大规模交通信号灯控制中的应用的主要内容,如果未能解决你的问题,请参考以下文章

MADRL怎么搭建?CentOS下多智能体强化学习实验环境搭建收藏干货

强化学习|多智能体深度强化学习(博弈论—>多智能体强化学习)

综述 | 多智能体深度强化学习

综述 | 多智能体深度强化学习

常见多智能体强化学习仿真环境介绍{推荐收藏,真的牛}

论文阅读|《基于深度强化学习的紧急订单生产控制方法研究》