读书笔记 - 基于强化学习的城市交通信号控制方法研究

《基于强化学习的城市交通信号控制方法研究》

针对TC-GAC交通信号控制方法中只考虑局部拥堵因子的缺陷，引入车辆目的车道的全局拥堵因子，实现了多交叉口控制器Agent之间的简单协作。
由于强化学习迭代求解的过程极为耗时，考虑将启发式强化学习用于交通信号控制问题。通过启发式函数来引导状态动作空间的探索，加快学习速度，改善动作选择策略。
改进的基于信号灯-交叉口联合动作的协作图模型，通过Max-Plus算法实现协作

强化学习用于交通信号控制

交通建模

1）宏观交通建模： 模拟多重交通流特性，如速度、密度、流量等，同时模拟这些特性之间的关系。宏观模型中的仿真是发生在一段一段的道路上，而不是对单独的车辆进行模拟跟踪，不能用来建模车辆之间的交互。
2）微观交通建模： 模拟单个车辆，模拟的动态变量表示微观属性，如单个车辆的速度和位置等。一种设计和模拟车辆行驶规则的方法是采用元胞自动机（CA）

交通信号控制的状态描述

1）基于信号灯的状态： 表示交叉口周围所有可能的交通状况。因为有太多可能的交通状况，这将导致学习空间爆炸问题。
2）基于车辆的状态： 从单个车辆的角度去描述交通状态。值函数评估单个车辆的等待时间，交叉口控制器Agent决策时考虑交叉口周围的所有车辆。

基于模型的强化学习用于交通信号控制

Wiring等人将基于模型的强化学习方法用于交通信号控制【10,11】，即TC1方法，采用基于车辆的状态描述方法进行交通建模。

Bakker和Kuyer等人在TC1方法的基础上，增加了交叉口之间的协作，提出改进方法。

一种是考虑相邻交叉口的拥堵情况，提出了 TC-SBC、TC-GAC、TC-SG【12,13】。
TC-SBC：增加了一位状态空间，用来标识车辆下一目的车道的拥堵情况
TC-GAC：直接在动作决策阶段计算车辆下一目的车道的拥堵因子c，然后用（1-c）对每个车辆的收益值进行折扣
TC-SG：前两者方法的结合

另一种是基于协作算法。如基于协作图建模和Max-Plus算法。

建立于全局拥堵因子的改进控制方法

在TC1方法中，交叉口控制器单独地进行动作决策。因此可以考虑实现简单的协作。
TC-GAC方法中，只考虑车辆的下一目的车道的拥堵因子。本文认为交叉口之间都是相互影响的，应该对全局拥堵因子进行考虑，考虑车辆从当前位置到目的地所要经过的所有目的车道拥堵因子的线性组合。