《基于强化学习的城市交通信号控制方法研究》

针对TC-GAC交通信号控制方法中只考虑局部拥堵因子的缺陷,引入车辆目的车道的全局拥堵因子,实现了多交叉口控制器Agent之间的简单协作。
由于强化学习迭代求解的过程极为耗时,考虑将启发式强化学习用于交通信号控制问题。通过启发式函数来引导状态动作空间的探索,加快学习速度,改善动作选择策略。
改进的基于信号灯-交叉口联合动作的协作图模型,通过Max-Plus算法实现协作

强化学习用于交通信号控制

交通建模

1)宏观交通建模: 模拟多重交通流特性,如速度、密度、流量等,同时模拟这些特性之间的关系。宏观模型中的仿真是发生在一段一段的道路上,而不是对单独的车辆进行模拟跟踪,不能用来建模车辆之间的交互。
2)微观交通建模: 模拟单个车辆,模拟的动态变量表示微观属性,如单个车辆的速度和位置等。一种设计和模拟车辆行驶规则的方法是采用元胞自动机(CA)

交通信号控制的状态描述

1)基于信号灯的状态: 表示交叉口周围所有可能的交通状况。因为有太多可能的交通状况,这将导致学习空间爆炸问题。
2)基于车辆的状态: 从单个车辆的角度去描述交通状态。值函数评估单个车辆的等待时间,交叉口控制器Agent决策时考虑交叉口周围的所有车辆。

基于模型的强化学习用于交通信号控制

Wiring等人将基于模型的强化学习方法用于交通信号控制【10,11】,即TC1方法,采用基于车辆的状态描述方法进行交通建模。

Bakker和Kuyer等人在TC1方法的基础上,增加了交叉口之间的协作,提出改进方法。

一种是考虑相邻交叉口的拥堵情况,提出了 TC-SBC、TC-GAC、TC-SG【12,13】。
TC-SBC:增加了一位状态空间,用来标识车辆下一目的车道的拥堵情况
TC-GAC:直接在动作决策阶段计算车辆下一目的车道的拥堵因子c,然后用(1-c)对每个车辆的收益值进行折扣
TC-SG:前两者方法的结合

另一种是基于协作算法。如基于协作图建模和Max-Plus算法。


建立于全局拥堵因子的改进控制方法

在TC1方法中,交叉口控制器单独地进行动作决策。因此可以考虑实现简单的协作。
TC-GAC方法中,只考虑车辆的下一目的车道的拥堵因子。本文认为交叉口之间都是相互影响的,应该对全局拥堵因子进行考虑,考虑车辆从当前位置到目的地所要经过的所有目的车道拥堵因子的线性组合

读书笔记 - 基于强化学习的城市交通信号控制方法研究 - 西电MaxPlus相关推荐

  1. 交通计算机专业硕士论文,基于强化学习的交通拥堵控制方法研究-计算机技术专业论文.docx...

    基于强化学习的交通拥堵控制方法研究摘 基于强化学习的交通拥堵控制方法研究 摘要 由于汽车保有量的持续增长,交通拥堵问题已经成为世界各国城市发展中出 现的公共问题.单纯的基础设施建设能够在一定程度上缓解 ...

  2. 论文阅读|Nash Q-Learning for General-Sum Stochastic Games基于强化学习的多智能体研究(附代码)

    论文:Nash Q-learning for general-sum stochastic games 链接:http://www.jmlr.org/papers/volume4/hu03a/hu03 ...

  3. 读书笔记 - 智能体技术在城市交通信号控制系统中应用综述2014

    <智能体技术在城市交通信号控制系统中应用综述>-2014 文中综述了智能体技术在交通信号控制系统中应用的技术与方法,包括系统架构.控制算法.建模与仿真,以及智能交通集成管理等方面:以及具体 ...

  4. 机器学习读书笔记:强化学习

    文章目录 强化学习基本模型 K-摇臂赌博机模型 ϵ\epsilonϵ-贪心 Softmax 有模型学习 策略评估 策略改进 免模型学习 蒙特卡洛强化学习 采样 策略改进 时态差分学习 值函数近似 模仿 ...

  5. 论文浅尝-综述 | 基于强化学习的知识图谱综述

    转载公众号 | 人工智能前沿讲习 论文来源:https://crad.ict.ac.cn/CN/10.7544/issn1000-1239.20211264 摘要:知识图谱是一种用图结构建模事物及事物 ...

  6. 读书笔记 - 多智能体强化学习在城市交通网络信号的综述2018

    多智能体强化学习在城市交通网络信号 控制方法中的应用综述 交通信号控制系统在物理位置和控制逻辑上分散于动态变化的网络交通环境, 将每个路口的交通信号控制器看做一个异质的智能体, 非常适合采用无模型.自 ...

  7. 【论文笔记】基于强化学习的机器人手臂仿人运动规划方法

    文章目录 摘要 关键词 0 引言 学者研究 阶段一:采集运动数据,分析运动过程特征 阶段二:设计仿人变量.建立仿人标准和约束 阶段三:用智能算法提升仿人运动机器人性能 本文工作 1 问题描述及方法架构 ...

  8. 【论文笔记】基于强化学习的连续型机械臂自适应跟踪控制

    文章目录 摘要 关键词 0 引言 1 空间连续型机器人动力学模型 1.1 场景假设 (1) 环境假设 (2) 模型假设 1.2 公式分析 2 空间连续型机器人滑模控制器 3 基于强化学习的滑模控制器 ...

  9. 华为诺亚ICLR 2020满分论文:基于强化学习的因果发现算法

    2019-12-30 13:04:12 人工智能顶会 ICLR 2020 将于明年 4 月 26 日于埃塞俄比亚首都亚的斯亚贝巴举行,不久之前,大会官方公布论文接收结果:在最终提交的 2594 篇论文 ...

最新文章

  1. 月光博客 - 再谈软件保护中软加密和硬加密的安全强度
  2. 使用SeaJS实现模块化JavaScript开发【转】
  3. c语言status显示done6,Netbackup Done status 6 解决方法
  4. HTML页面加载完毕后,再运行JS业务
  5. Window 7下给Rails3.1安装Rmagick
  6. MAP地图报错Unable to preventDefault inside passive event listener invocation.
  7. oracle 12 跟踪,Oracle 12C 块修改跟踪(Block chage tracking) 功能
  8. php gmssl,gmssl
  9. 夏普SHARP MX-3508N 一体机驱动
  10. 2018款联想Y7000 黑苹果外接显示器方案
  11. java 北京时间 东八区时间 Android calendar时区无效问题
  12. centos7 telnet访问mysql出错Connection closed by foreign host
  13. mysql5.1.35_在Windows上安装MySql 5.1.35 Noinstall版
  14. java 微秒_Java中的当前时间(以微秒为单位)
  15. uploadify批量上传文件
  16. 关于计算机春联PPT,春节祝福专题-春联.ppt
  17. sqoop的入门使用
  18. (介孔sio2) 介孔二氧化硅微球的应用
  19. jQuery前端开发学习指南(11)——jQuery属性过滤选择器
  20. C语言程序设计(常用函数说明)

热门文章

  1. lmx2594的verilog驱动
  2. 我整理的CSS - lbx
  3. 基于python的步态分析_基于python实现RFM分析
  4. Java反编译工具――Jode
  5. 用bookdown制作图书
  6. 排列组合数学公式 Java 实现
  7. 越看对方不顺眼,越要跟对方好好相处
  8. 简谈 SDRAM的工作原理
  9. Visual Studio 2012制作MFC计算器-TC王者
  10. 1. 设置电脑只能运行指定的软件,其他软件都不可用