Coordinated Deep Reinforcement Learners for Traffic Light Control

本文研究了交通灯的学习控制策略。在交通灯控制问题引入了一种新的奖励函数,并提出了将DQN算法传输规划transfer planning相结合的多代理深度强化学习方法。通过使用传输规划,它避免了之前多代理强化学习中存在的问题,并且允许更快和更可扩展的学习。它优于早期关于多代理交通灯控制的工作,但DQN算法可能会发生振荡,需要进行更多的研究以防止DQN不稳定。

背景

将RL应用于交通灯控制的一个难题是选择特征:状态的数量是巨大的,每个状态描述交叉点周围的确切情况。

我们对单交叉DQN方法【15】进行了修改,并研究了奖励函数的有效表达式。
为了提高训练过程的稳定性,我们测试了在交通控制背景下深度学习领域中一些最新技术的效果【22,5,17】。
此外,我们提出了使用这些技术来协调多交叉口的方法。

有两种方法来稳定DQN算法:
第一种是经验重放【10,14】,其中采样数据点 <s,a,r,s0> 存储在存储器memory中,并且在训练时批量采样这些数据点(或根据 TD-error,如优先经验重放【17】)并用于反向传播backpropagation。

第二种解决方案是 target network freezing【12】,其中Q-value估计被分成两个不同的网络,一个用于估计当前状态的Q(s,a)的值网络value network, 一个计算目标y 的目标网络target network 。

交通灯控制 - 深度强化学习DQN

STATE

我们使用类似图像image-like的表示来表示交叉口周围的状态,如图b示。
在之前的工作【15】中,由交通灯控制的车道上车辆位置的二元矩阵表示状态,如图c示。

因此,卷积神经网络应该能够识别交通堵塞。

在当前模型中,交通灯颜色的表示使用数字来映射。
交通灯信息将是状态空间的额外层,每个交通灯颜色都具有二进制特征。
但是,这会随着状态空间的增加导致replay memory的内存问题,以及较慢的计算。

ACTION

在每个时间步,代理采取的动作在两种不同的交通灯配置间进行选择。代理选择哪个车道获得绿灯。

TRANSITION

从 sts_tst​ 到 st+1s_{t + 1}st+1​ 的转换由SUMO隐式定义,取决于ata_tat​和模拟中的汽车。

REWARD

为交通灯控制问题定义反馈信号并不明确
一个好的指标是旨在减少行驶时间。然而,车辆的平均行驶时间在完成其路线之前无法计算,这导致奖励极度延迟的问题。

因此,将标准进行不同权重的组合,迭代交叉口周围的车辆。其中i是车辆索引,N是代理控制的车道上的车辆数量:
运输惩罚 penalties for teleports j (表示SUMO中的车祸或拥堵)
紧急停止e(减速度超过 4.5m/s24.5m/s^24.5m/s2)
灯光配置是否已更改 c(布尔变量,以防止闪烁flickering)
车辆的延误 d=1 - (vehivle speed / allowed speed)
车辆的等待时间 w

Learning stability

使用上述状态描述和奖励函数,我们研究了“未调整的DQN算法”的性能。结果显示如下,其显示了在每10,000个时间步后的奖励和平均旅行时间。

这清楚地表明,DQN算法虽然很快就能遇到好的策略,但训练曲线中出现大幅振荡。这种不稳定性可能是灾难性忘却catastrophic forgetting 造成的【11】,这是阻碍神经网络技术不断进步的最大绊脚石,即学习解决新任务会导致系统忘记早期的学习结构。另一方面,Q学习中的函数逼近不能保证收敛。

于是,测试了许多不同的参数设置,并使用了优先级经验重放机制
除此之外还测试了Double DQN(DDQN)算法在交通问题上的表现。但是DDQN似乎陷入局部最小值。还尝试使用批量标准化Batch Normalization【5】,发现批量标准化会导致分歧divergence。可见还需要更多的研究来解决在这些算法中遇到的问题。

协作深度强化学习

通过利用 transfer planning【13】 和 ** max-plus coordination algorithm**【6】将单代理DQN扩展到多代理,并在不同的流量场景下评估该方法。

方法

为了在多个代理之间进行协调,我们遵循早期的工作【4,6】并将全局Q函数定义为局部问题的线性组合,其中e对应于邻居代理的子集。

然后,我们使用max-plus协调算法 【6】来优化联合全局动作。

与前面提到的方法【4,6】相反,使用转移计划transfer planning【13】的变体找到函数Qe。

transfer planning中,我们为一个多代理问题的子问题学习Q函数。如果源问题和其他子问题相似,那么我们可以在较大的多代理问题中为每个子问题重用源问题的Q函数,而不是为每个单独的子问题训练Q函数。换句话说,与早期的工作【4,6】不同,transfer planning不会尝试最小化Q的全局近似误差。

这种transfer planning方法避免了之前多代理强化学习中存在的两个问题。第一个是多个代理同时学习和行动导致环境的不平稳性。通过对源问题进行训练,环境动态在学习过程中不会发生变化。第二个是同时培训许多代理的成本。因为源问题是独立的,所以它们可以独立地(例如顺序地)解决。此外,我们利用源问题的对称性,进一步降低了计算成本。

例如,在图3a中的两个代理源问题上训练DQN代理以获得Qsp0,并且使用旋转版本来获得Qsp1,然后使用transfer planning来解决图3b和3c中的多代理问题。

作为对比实验,使用早期算法Wiering 【23】及多代理扩展Kuyer【8】。我们使用Wiering算法来学习双代理方案的策略,然后使用transfer planning和max-plus将他们组合以获得类似于Kuyer的算法。
结果显示DQN方法在大多数情况下优于Wiering / Kuyer方法,但它由于不稳定性有时表现不佳。

[15] Tobias Rijken. DeepLight: Deep reinforcement learning for signalised traffic control, 2015.

[17] Tom Schaul, John Quan, Ioannis Antonoglou, and David Silver. Prioritized experience replay. ICLR 2016, 2016.
[12] Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A Rusu, Joel Veness, Marc G
Bellemare, Alex Graves, Martin Riedmiller, Andreas K Fidjeland, Georg Ostrovski, et al.
Human-level control through deep reinforcement learning. Nature, 518(7540):529–533, 2015.
[5] Sergey Ioffe and Christian Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167, 2015.

[22] Hado van Hasselt, Arthur Guez, and David Silver. Deep reinforcement learning with double Q-learning. CoRR, abs/1509.06461, 2015.

[4] Carlos Guestrin, Michail Lagoudakis, and Ronald Parr. Coordinated reinforcement learning. In ICML, volume 2, pages 227–234, 2002.
[6] Jelle R Kok and Nikos Vlassis. Using the max-plus algorithm for multiagent decision making in coordination graphs. In Robot Soccer World Cup, pages 1–12. Springer, 2005.

[13] Frans A Oliehoek, Shimon Whiteson, and Matthijs TJ Spaan. Approximate solutions for factored Dec-POMDPs with many agents. In Proceedings of the 2013 international conference on Autonomous agents and multi-agent systems, pages 563–570. International Foundation for Autonomous Agents and Multiagent Systems, 2013.

[23] Marco Wiering et al. Multi-agent reinforcement learning for traffic light control. In ICML, 2000
[8] Lior Kuyer, Shimon Whiteson, Bram Bakker, and Nikos Vlassis. Multiagent reinforcement learning for urban traffic control using coordination graphs. In Joint European Conference on Machine Learning and Knowledge Discovery in Databases, pages 656–671. Springer, 2008.

读书笔记-Coordinated Deep Reinforcement Learners for Traffic Light Control相关推荐

  1. Traffic light control using deep policy-gradient and value-function-based reinforcement learning

     ISSN 1751-956X 作者:Seyed Sajad Mousavi1 , Michael Schukat1, Enda Howley 黄生词 蓝牛句 绿公式 红生涩 Abstract: Re ...

  2. 论文记载: Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks

    强化学习论文记载 论文名: Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks ( 车辆网络交通信号灯 ...

  3. 【论文笔记】Deep Reinforcement Learning Control of Hand-Eye Coordination with a Software Retina

    目录 Abstract Keywords 1. INTRODUCTION 2. BACKGROUND A. Software Retina B. Deep Reinforcement Learning ...

  4. IntelliLight: a Reinforcement Learning Approach for Intelligent Traffic Light Control 论文阅读

    IntelliLight 全文脉络 概述 1.本文贡献 1)Experiments with real traffic data. 2)Interpretations of the policy. 3 ...

  5. 【论文笔记】Deep Reinforcement Learning for Robotic Pushing and Picking in Cluttered Environment

    目录 Abstract I. INTRODUCTION II. RELATED WORK III. SYSTEM OVERVIEW IV. ARCHITECTURE A. Robotic Hand S ...

  6. 读书笔记 - 多智能体强化学习在城市交通网络信号的综述2018

    多智能体强化学习在城市交通网络信号 控制方法中的应用综述 交通信号控制系统在物理位置和控制逻辑上分散于动态变化的网络交通环境, 将每个路口的交通信号控制器看做一个异质的智能体, 非常适合采用无模型.自 ...

  7. Human-level control through deep reinforcement learning

    Human-level control through deep reinforcement learning 文章出处:Human-level control through deep reinfo ...

  8. 现代机器人(Modern Robotics):力学,规划,控制读书笔记

    现代机器人:力学,规划,控制读书笔记 在csdn上传主要是可以换积分,文章乱码比较多,有用的话可以来知乎看,目录链接如下,感兴趣可以来看: 现代机器人:力学,规划,控制(chapter1)内容简介 - ...

  9. 强化学习论文分析4---异构网络_强化学习_功率控制《Deep Reinforcement Learning for Multi-Agent....》

    目录 一.文章概述 二.系统目标 三.应用场景 四.算法架构 1.微基站处----DQN 2.宏基站处---Actor-Critic 五.伪代码 六.算法流程图 七.性能表征 1.收敛时间 2.信道总 ...

最新文章

  1. 怎么两边同时取ln_脏辫发型怎么编编发教程图解简单易学!
  2. typedef VS #define —— C语言中的 关键字 与 C指令
  3. mysql notes
  4. cordova 更改app版本_Cordova打包Android应用流程(MAC)
  5. 【SRX】折腾了半天终于我的那对SRX210 升级到了 12.1R1.9
  6. mysql写偏斜_【MySQL】探究之常用SQL
  7. flask 上传excel 前端_flask-restful编写上传图片api
  8. 使用tornado让你的请求异步非阻塞
  9. 负载均衡之让nginx跑起来
  10. 程序员2009精华本 有哪些精彩值得期待
  11. Java学习笔记-Java概述和环境配置
  12. Rose双机热备两款软件原理介绍以及共享存储双机热备方案和镜像双机热备方案介绍
  13. 小米路由器 R1D 可用 java JRE openjdk
  14. 金狐超级软件盘 07.14更新
  15. 雷蛇游戏软件显示无法访问服务器,亦工作亦游戏 Razer雷云设置技巧-鼠标设置软件...
  16. 阿里软件测试工程师推荐|自动化测试——HTTP之URL
  17. 【算法leetcode每日一练】1436. 旅行终点站
  18. linux替换空格、
  19. 麦吉尔大学 计算机科学和阿尔伯特,加拿大低龄留学-阿尔伯特学院-Albert College...
  20. 网易云视频播放器不使用Service实现后台播放

热门文章

  1. 艺术品经营单位备案申报材料和艺术品经营单位备案申请表格式
  2. SAR ADC系列11:分段式CDAC
  3. 在Chrome、Firefox等浏览器中实现低延迟播放海康、大华RTSP
  4. iMatrix平台6.0.0.RC1版本可以在线使用了
  5. Noble - Window平台NodeJs蓝牙BLE开发库
  6. 【Hadoop】HBase 数据模型(Data Model)
  7. 奔腾cpu可以安装黑苹果吗_黑苹果是什么?黑苹果对硬件有什么要求?
  8. sqlserver 根据日期计算年龄问题
  9. 曾经东汉最大的天文台,现在却踪迹全无,究竟是什么原因呢?
  10. Lambda表达式断点排错