马尔可夫决策过程（一）

最近学习了MDP，查看一些资料，本文翻译了维基百科http://en.wikipedia.org/wiki/Markov_decision_process。有许多地方翻译的不好，有翻译错的地方请多多谅解！欢迎给我留下意见，我会尽快更改！

定义

一个很简单的只有3个状态和2个动作的MDP例子。

一个马尔可夫决策过程是一个4 - 元组，其中

S是状态的有限集合，

A是动作的有限集合（或者，As是处于状态s下可用的一组动作的有限集合），

表示 t时刻的动作 a 将导致马尔可夫过程由状态 s 在t+1 时刻转变到状态 s' 的概率。

Ra(s,s') 表示以概率Pa(s,s')从状态 s 转变到状态 s' 后收到的即时奖励（或预计即时奖励）。

（马尔可夫决策过程理论实际上并不需要 S 或 A 这两个集合是有限的，但下面的基本算法假定它们是有限的。）

马尔可夫决策过程（MDPs）以安德烈马尔可夫的名字命名，针对一些决策的输出结果部分随机而又部分可控的情况，给决策者提供一个决策制定的数学建模框架。MDPs对通过动态规划和强化学习来求解的广泛的优化问题是非常有用的。MDPs至少早在20世纪50年代就被大家熟知（参见贝尔曼1957年）。大部分MDPs领域的研究产生于罗纳德.A.霍华德1960年出版的《动态规划与马尔可夫过程》。今天，它们被应用在各种领域，包括机器人技术，自动化控制，经济和制造业领域。

更确切地说，一个马尔可夫决策过程是一个离散时间随机控制的过程。在每一个时阶（each time step），此决策过程处于某种状态 s ，决策者可以选择在状态 s 下可用的任何动作 a。该过程在下一个时阶做出反应随机移动到一个新的状态 s'，并给予决策者相应的奖励 Ra(s,s')。

此过程选择 s'作为其新状态的概率又受到所选择动作的影响。具体来说，此概率由状态转变函数 Pa(s,s')来规定。因此，下一个状态 s' 取决于当前状态 s 和决策者的动作 a 。但是考虑到状态 s 和动作 a，不依赖以往所有的状态和动作是有条件的，换句话说，一个的MDP状态转换具有马尔可夫特性。

马尔可夫决策过程是一个马尔可夫链的扩展；区别是动作（允许选择）和奖励（给予激励）的加入。相反，如果忽视奖励，即使每一状态只有一个动作存在，那么马尔可夫决策过程即简化为一个马尔可夫链。

马尔可夫决策过程（一）相关推荐

增强学习（二）----- 马尔可夫决策过程MDP
1. 马尔可夫模型的几类子模型大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM).它们具有的一个共同性质就是 ...
DeepMind 的马尔可夫决策过程（MDP）课堂笔记
DeepMind Teaching by David Silver 视频课程链接(Youtube资源,需梯子):https://youtu.be/lfHX2hHRMVQ 文章目录 DeepMind T ...
马尔可夫决策过程 Markov decision process MDP, 连续时间Markov chain, CMDP（全）
引言在概率论及统计学中,马尔可夫过程(英语:Markov process)是一个具备了马尔可夫性质的随机过程,因为俄国数学家安德雷·马尔可夫得名.马尔可夫过程是不具备记忆特质的(memoryless ...
如何理解马尔可夫决策过程？
1 引言马尔可夫性:无后效性,指系统的下个状态只与当前状态信息有关,而与更早之前的状态无关: 马尔可夫链(Markov Chain, MC):系统的下一个状态只与当前状态相关: 马尔可夫决策过程(M ...
（二）马尔可夫决策过程
从第一章中了解到强化学习中,智能体通过和环境进行交互获得信息.这个交互过程可以通过马尔可夫决策过程来表示,所以了解一下什么是MDP至关重要. 不过在了解马尔可夫决策过程之前,先要一些预备知识, ...
MDP马尔可夫决策过程（二）
增强学习(二)----- 马尔可夫决策过程MDP 1. 马尔可夫模型的几类子模型大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov ...
马尔可夫决策过程（MDP）
目录智能体与环境马尔科夫决策过程智能体与环境强化学习问题不同于传统机器学习问题,它是一种在交互的过程中学习并实现目标的问题.这里把具有学习能力和决策能力的程序或系统称之为Agent(代理,智能 ...
人工智能必备数学知识· 学习笔记 ·002【马尓可夫链，马尓可夫链奖励过程，马尔可夫决策过程】
注:笔记来自课程人工智能必备数学知识 Tips①:只是记录从这个课程学到的东西,不是推广.没有安利 Tips②:本笔记主要目的是为了方便自己遗忘查阅,或过于冗长.或有所缺省.或杂乱无章,见谅 Ti ...
强化学习组队学习task02——马尔可夫决策过程及表格型方法
文章目录一.马尔科夫决策过程 1.马尔科夫链 2.马尔科夫奖励过程 (1)贝尔曼公式(Bellman equation) (2)迭代法蒙特卡罗办法动态规划方法 3.马尔科夫决策过程 MDP的价值 ...
系统学习机器学习之增强学习（五）--马尔可夫决策过程策略TD求解（SARSA）
转自:https://www.cnblogs.com/pinard/p/9529828.html 1.时间差分法(temporal difference) 蒙特卡洛方法,需要所有的采样序列都是经历完整 ...

马尔可夫决策过程（一）

马尔可夫决策过程（一）

马尔可夫决策过程（一）相关推荐

最新文章

热门文章