【RL】Markov decision process马尔可夫决策过程(MDP)
参考:蘑菇书-《EasyRL》
本文只是为了方便自己今后的查阅对原文做出的一些概括与摘录,与大家共同学习。
PS:上一节->马尔可夫奖励过程
目录
- 1.马尔可夫决策过程
- 2.策略π
- 3.状态转移
- 4.马尔可夫决策过程中的价值函数
- 5.Q函数 / 动作价值函数
- 6.回顾:状态价值函数
- 7.贝尔曼期望方程
- 8.备份图
1.马尔可夫决策过程
相较于马尔可夫奖励过程,马尔可夫决策过程多了决策,即动作,状态转移与奖励函数也多了动作的条件。未来的状态不仅依赖于当前的状态,也依赖于在当前状态智能体采取的动作。马尔可夫决策过程满足条件:
2.策略π
策略定义了在某一个状态应该采取什么样的动作。知道当前状态后,我们可以把当前状态代入策略函
数来得到一个概率,即
策略不一定是一个概率,可能直接告诉我们当前应该采取什么样的动作。
3.状态转移
已知马尔可夫决策过程和策略 π,我们可以直接把动作进行加和,去掉a,这样我们就可以得到马尔可夫决策过程对于马尔可夫奖励过程的状态转移函数:
如下图所示,马尔可夫过程/马尔可夫奖励过程的状态转移是直接决定的。而在马尔可夫决策过程中,智能体先要决定采取某一个动作,即在当前状态与未来状态转移过程中多了一层决策性。
4.马尔可夫决策过程中的价值函数
其中,期望基于我们采取的策略。当策略决定后,我们通过对策略进行采样来得到一个期望,计算出它的
价值函数。
5.Q函数 / 动作价值函数
Q 函数定义的是在某一个状态采取某一个动作,它有可能得到的回报的一个期望,即
表示从这个动作开始,我们可能获得多大的价值。
对 Q 函数的贝尔曼方程进行推导:
对 Q函数中的动作进行加和,就可以得到价值函数:
注:价值函数泛指状态价值函数,一般不说动作价值函数,而是说Q函数。
6.回顾:状态价值函数
对于马尔可夫奖励过程,状态价值函数被定义成回报的期望,即
表示从这个状态开始,我们可能获得多大的价值。
Gt :折扣回报
7.贝尔曼期望方程
我们可以把状态价值函数和 Q 函数拆解成两个部分:即时奖励和后续状态的折扣价值。
对状态价值函数进行分解,可以得到贝尔曼期望方程。
对动作价值函数进行分解,可以得到(Q 函数的)贝尔曼期望方程。
贝尔曼期望方程定义了当前状态与未来状态之间的关联。
在上文5.中的最后两个公式,代表状态价值函数与 Q 函数之间的关联。
将它们互相代入,可以得到:
上式代表当前状态的价值与未来状态价值之间的关联。
上式代表当前时刻的 Q 函数与未来时刻的 Q 函数之间的关联。
上述两个公式都是贝尔曼期望方程的另一种形式。
8.备份图
备份:类似于自举之间的迭代关系,对于某一个状态,它的当前价值是与它的未来价值线性相关的。
备份图:
这些操作将价值信息从一个状态(或状态-动作对)的后继状态(或状态-动作对)转移回它。
例如,
对状态价值函数的计算分解:
对于上图,第一层加和是对叶子节点进行加和,往上备份一层,我们就可以把未来的价值(s′ 的价值)备份到黑色的节点。第二层加和是对动作进行加和,得到黑色节点的价值后,再往上备份一层,就会得到根节点的价值,即当前状态的价值。
对状态价值函数的计算分解:上述两图对应着上文7.中的最后两个贝尔曼期望方程,可以对应着直观理解。
【RL】Markov decision process马尔可夫决策过程(MDP)相关推荐
- 【EasyRL学习笔记】第二章 Markov Decision Process 马尔可夫决策过程
文章目录 一.马尔可夫过程 1.1 马尔可夫性质 1.2 马尔可夫链 1.3 马尔可夫过程的例子 二.马尔可夫奖励过程 2.1 回报与价值函数 2.2 贝尔曼方程 2.3 计算马尔可夫奖励过程价值的迭 ...
- 增强学习(二)----- 马尔可夫决策过程MDP
1. 马尔可夫模型的几类子模型 大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM).它们具有的一个共同性质就是 ...
- 【学习笔记】传说中的马尔可夫决策过程(MDP)和贝尔曼方程(Bellman Equation)
最近读了几篇paper,都着重涉及到了强化学习,都点到了马尔可夫决策过程(Markov Decision Process) 和贝尔曼方程或者叫贝尔曼等式(Bellman Equation),捧着似懂非 ...
- 强化学习(一)——马尔可夫决策过程MDP
文章目录 1. 马尔可夫过程(Markov Process) 1.1 马尔可夫性质(Markov Property) 1.2 状态转移矩阵(State Transition Matrix) 1.3 马 ...
- python中使用马尔可夫决策过程(MDP)动态编程来解决最短路径强化学习问题
在强化学习中,我们有兴趣确定一种最大化获取奖励的策略.最近我们被客户要求撰写关于MDP的研究报告,包括一些图形和统计输出.假设环境是马尔可夫决策过程 (MDP)的理想模型 ,我们可以应用动态编程方 ...
- 3 有限马尔可夫决策过程(Finite Markov Decision Processes)
[上一篇 2 从Multi-arm Bandits问题分析 - RL进阶] [下一篇 4 动态编程(Dynamic Programming, DP)] 本次总结中的 1-4 小节主要介绍了增强学习中的 ...
- MDP马尔可夫决策过程(二)
增强学习(二)----- 马尔可夫决策过程MDP 1. 马尔可夫模型的几类子模型 大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov ...
- 决策过程并举例_David Silver 增强学习——Lecture 2 马尔可夫决策过程(一)
其他lecture [1]搬砖的旺财:David Silver 增强学习--笔记合集(持续更新) 目录 **David Silver 增强学习--Lecture 2 马尔可夫决策过程(一)**1. 前 ...
- 系统学习机器学习之增强学习(二)--马尔可夫决策过程
参考: http://blog.csdn.net/zz_1215/article/details/44138823 http://www.cnblogs.com/jerrylead/archive/2 ...
最新文章
- AutoML取得最新进展 深兰科技助推复杂场景下智能化应用
- android端 socket长连接 架构
- pycharm pull到github
- Android网格视图(GridView)
- spring导入约束
- matlab绘制三维图形
- excel文件存入mysql_解析excel文件并将数据导入到数据库中
- Golang之不可重入函数实现
- 三年后,人工智能将彻底改变前端开发?
- 吝啬的国度 ---用vector 来构图
- PHP 中检查是否关联数组(多维数组)的方法 (UPDATE!)
- 寻找开发区块链协议的完美编程语言
- 编译器的不同,导致运行结果不一样
- -lc++ 和 添加 libc++.tbd 居然是等价的
- HTTP API 认证授权术
- 【误码率仿真】基于matlab LDPC编译码误码率仿真【含Matlab源码 2079期】
- 大江大河——通信设备商们的2019年
- 使用HiFlow场景连接器查看每天处于地区的疫情
- 用php把图片合成视频,图片音乐合成视频 多张图片合成视频|图片合成视频软件...
- Gearman vs Beanstalkd