文章目录

摘要
- 关键词
0 引言
1 马尔可夫决策过程与分层强化学习
- 1.1 马尔可夫决策过程
- 1.2 分层强化学习
- 1.3 MAXQ 值函数分解
2 基于动作的层次结构划分方法
- 2.1 动作空间划分的基本思想
- 2.2 自动分层算法描述
- 2.3 子任务的终止条件
3 实验与分析
- 3.1 实验设置
- 3.2 实验结果与分析
4 结语

摘要

针对问题：分层强化学习需要人工给出层次结构这一问题；基于状态空间的自动分层方法在环境状态中没有明显子目标时分层效果并不理想
提出方法：基于动作空间的自动构造层次结构方法；对MAXQ的子任务终止条件进行修改；
细节：动作集合划分子集 →\rightarrow→ 不同状态下识别瓶颈动作 →\rightarrow→ 确定动作子集之间的上下层关系 →\rightarrow→ 构造层次结构
结果：与Q/SARSA相比，可以自动构建层次，具有鲁棒性；

关键词

强化学习;
分层强化学习;
自动分层方法;
马尔可夫决策过程;
子任务;

0 引言

减小“维数灾难”的影响 →\rightarrow→ 将分层、抽象等机制引入强化学习 →\rightarrow→ 本质是：既对状态空间进行降维、又实现任务分层 →\rightarrow→ 较小的低维空间中逐步解决子任务

主流：MAXQ、Option和HAM
HAM →\rightarrow→ Hierarchies of Abstract Machine 分层抽象机
共同点 →\rightarrow→ 需要先验知识

学者	提出	特点
Hengst	HEXQ 方法	状态变量的改变次数进行排序
McGovern 和 Stolle	划分子任务方法	通过寻找瓶颈状态来划分子任务
Mehta	HI-MAT（Hierarchy Induction via Models And Trajectories）	动态贝叶斯网络 + 一条已知的成功轨迹 →\rightarrow→ 一条带因果注释轨迹，在此基础上划分任务
石川	构造Option的方法	利用单向值识别出瓶颈状态
沈晶	OMQ 算法	自动构造 Option，子任务插入到到MAXQ 任务图中

本文工作：

提出一种自动分层算法；
提出了一种新的判断子任务是否结束的方法；

1 马尔可夫决策过程与分层强化学习

1.1 马尔可夫决策过程

分层强化学习会对原始问题进行抽象
→\rightarrow→ 可执行的动作会被替换为需要多个时间步完成的宏动作
→\rightarrow→ 引入"半马尔可夫决策过程"SMDP

SMDP可以分为离散SMDP和连续SMDP
离散SMDP的时间间隔是单步间隔的整数倍
值函数与Q函数在单步间隔的基础上增加额外的单步间隔奖励就行

1.2 分层强化学习

分层强化学习的抽象方法分类：

分类	特点
状态抽象	忽略与当前问题无关的状态分量，减小空间
时态抽象	单次执行的基本动作拓展为需要多个时间步执行的抽象动作 →\rightarrow→ 相当于一套一套地决策，能减少决策次数
状态空间分解	将原始的状态空间分解为多个子空间

典型的强化学习方法分类：

分类	特点
Option	（1）将学习任务抽象为若干Option，每个 Option 都是一个为完成子任务而定义在状态空间上的动作序列。(Option →\rightarrow→ 一套动作序列)（2）这些 Option 作为一种抽象动作加入到原来的动作集中。（动作集里面包含了一些基本动作和这些基本动作组合成的子集）（3）Option内部自己进行强化学习。（4）智能体只需要对Option（本身含义就是"选项"）进行选择。
MAXQ	（1）将原始任务分解为子任务和子策略；（2）子任务可以是不可再划分的原子型子任务和组合型子任务；（3）子任务以最初的任务为根节点，组成了任务图，在任务图中先解决下层子任务再解决上层子任务；（4）需要根据学习的策略改变任务图。
HAM	（1）将MDP过程分解为多个子任务 →\rightarrow→ 多个随机有限状态机（2）当前随机有限状态机所处的内部状态可以执行动作、改变内部状态、调用别的随机有限状态机或者返回调用自己的随机有限状态机。

1.3 MAXQ 值函数分解

MAXQ的核心 →\rightarrow→ MAXQ的值函数分解

aaa既可能是原子型动作，也可能是组合型动作

引入完成函数后可以对Q函数分解成当前的即时奖励和一系列的完成函数

2 基于动作的层次结构划分方法

2.1 动作空间划分的基本思想

识别子目标的常用标准：
访问次数、访问次数落差变化率、单向值
优点 →\rightarrow→ 在简单有限的环境中效果较好
缺点 →\rightarrow→ 连续环境、高维环境表现不好

本文提出一种不需考虑外部环境，只通过划分动作空间构造分层结构的方法。
思路：状态 →\rightarrow→ 抽象成一维的向量 →\rightarrow→ 记录动作的一维向量分量的影响；
原则：执行次数多的子任务 →\rightarrow→ 下层；执行次数高 →\rightarrow→ 上层；
引入瓶颈动作：不执行该动作无法进入下一个子任务。
→\rightarrow→ 特殊地：某个状态下只有一个动作，这个就是瓶颈动作。
→\rightarrow→ 意义：判断子任务是否完成/结束的标志；两个瓶颈动作之间的普通动作走行的状态应该划分成一个子任务。
→\rightarrow→ 在构造分层结构时，记录下瓶颈动作之间的动作执行轨迹(即动作aaa) ，以及动作aaa的执行次数faf_{a}fa。

子任务MiM_{i}Mi的访问频率计算式：

可以认为访问次数比 MbM_{b}Mb 高的 MaM_{a}Ma 在任务图中位于 MbM_{b}Mb 的上层，反之则位于 MbM_{b}Mb的下层。

2.2 自动分层算法描述

步骤	具体信息
输入	动作集 A
输出	根任务，层次结构
1	执行随即策略；统计基本动作执行的次数；划分动作子集
2	根据动作子集的大小，划分复合型任务或者原子型任务
3	执行随即策略；
4	记录执行轨迹和上下层子任务
5	达到终止状态？跳转到11步，记录基本动作序列集合
6	序列集合大于1，在执行轨迹后添加随即动作，返回5步
7	序列集合等于1，当前动作是瓶颈动作，对应任务是根任务；比较前序动作和瓶颈动作的访问频率；
8
9
10	执行瓶颈动作，跳转到4步
11	子任务构造完成

2.3 子任务的终止条件

本文提出一种通过比较当前状态的可用动作和当前子任务包含的基本动作
判断是否终止当前子任务的方法

3 实验与分析

3.1 实验设置

基本动作：东、西、南、北、加燃料、接乘客和放下乘客
奖励函数设置：

因为受到墙壁或燃料限制而无法移动，-10
执行加燃料动作，-1
成功接到乘客或放下乘客，20
没有在正确位置执行，-10

为了增加环境的复杂性 →\rightarrow→ 有 30% 的概率重新选择出租车的起点、乘客所在的站台和目的地

3.2 实验结果与分析

实验结论：

经过自动分层的 MAXQ 方法在整个实验过程中变化趋势较为平稳
前期：比较少的动作执行数完成任务
理由：在完成子任务的过程中可以忽略那些和完成该子任务无关的动作
平均回报的变化趋势：MAXQ较好
MAXQ用的时间最少，比Q和SARSA

4 结语

【论文笔记】基于动作空间划分的MAXQ自动分层方法相关推荐

日冕物质抛射检测matlab,日冕图像论文,关于基于实时数据的日冕物质抛射自动检测方法相关参考文献资料-免费论文范文...
导读:本论文主要论述了日冕图像论文范文相关的参考文献,对您的论文写作有参考作用. (昆明理工大学信息与自动化学院,昆明 650504) (Faculty of Information Engineer ...
论文笔记--基于 FCM 聚类的跨模态人物图像标注方法-2015
期刊论文-基于 FCM 聚类的跨模态人物图像标注方法-2015-微型电脑应用-赵昀,张翌翀文末附人脸标注相关论文下载地址文章目录摘要技术人脸检测与特征表示(与2012年吴伟硕士论文<跨 ...
CVPR 2019 论文解读 | 基于多级神经纹理迁移的图像超分辨方法 (Adobe Research)
基于多级神经纹理迁移的图像超分辨方法超分辨(Super-Resolution)图像恢复旨在从低分辨模糊图像中恢复出高分辨的清晰图像,是计算机视觉中的一个重要任务,在工业界有非常强的应用前景.CVPR ...
[论文笔记]基于 CNN+双向LSTM 实现服饰搭配的生成
论文:<Learning Fashion Compatibility with Bidirectional LSTMs> 论文地址:https://arxiv.org/abs/1707.0 ...
论文笔记 | 基于深度学习的乳腺转移瘤识别（Deep Learning for Identifying Metastatic Breast Cancer）
论文阅读笔记:原文链接摘要生物医学图像国际研讨会(International Symposium on Biomedical Imaging,ISBI)举办了一个在前哨淋巴节点全幻灯图中自动检测转 ...
论文笔记——基于多传感器融合的紧耦合SLAM系统
思路:基于视觉.激光雷达.IMU紧耦合的SLAM系统,实现了一个基于非线性优化的滑动窗口的状态估计方案. 创新点: (1)采用加强平面特征点空间约束的特征提取方案对点云进行特征提取,在降低点云总数的同 ...
论文笔记-基于代码属性图和Bi-GRU的软件脆弱性检测方法
一.摘要提出了一种基于代码属性图和Bi-GRU的软件脆弱性检测方法.该方法通过从函数的代码属性图中提取出抽象语法树序列.控制流图序列作为函数表征的表征方式,减少代码表征过程中的信息的损失,并通过选 ...
论文笔记-基于BiLSTM 模型的漏洞检测
一.摘要首先从源代码中提取方法体,形成方法集:为方法集中的每个方法构建抽象语法树,借助抽象语法树抽取方法中的语句,形成语句集:替换语句集中程序员自定义的变量名.方法名及字符串,并为每条语句分配一 ...
论文笔记——基于多传感器融合的移动机器人SLAM算法研究
创新点: 1.松耦合地图匹配优化算法: 采用了独立运行各SLAM系统并通过附加的管理程序实现各SLAM系统数据的交互.由于激光SLAM在位姿估计精度上优于视觉SLAM,管理程序在SLAM运行过程中实时 ...

【论文笔记】基于动作空间划分的MAXQ自动分层方法