马尔可夫决策过程(一)

最近学习了MDP,查看一些资料,本文翻译了维基百科http://en.wikipedia.org/wiki/Markov_decision_process。有许多地方翻译的不好,有翻译错的地方请多多谅解!欢迎给我留下意见,我会尽快更改!

定义

一个很简单的只有3个状态和2个动作的MDP例子。

一个马尔可夫决策过程是一个4 - 元组 ,其中

S是状态的有限集合,

A是动作的有限集合(或者,As是处于状态s下可用的一组动作的有限集合),

   表示 t时刻的动作 a 将导致马尔可夫过程由状态 s 在t+1 时刻转变到状态 s' 的概率 。

Ra(s,s') 表示以概率Pa(s,s')从状态 s 转变到状态 s' 后收到的即时奖励(或预计即时奖励)。

(马尔可夫决策过程理论实际上并不需要 SA 这两个集合是有限的,但下面的基本算法假定它们是有限的。)

马尔可夫决策过程(MDPs)以安德烈马尔可夫的名字命名 ,针对一些决策的输出结果部分随机而又部分可控的情况,给决策者提供一个决策制定的数学建模框架。MDPs对通过动态规划和强化学习来求解的广泛的优化问题是非常有用的。MDPs至少早在20世纪50年代就被大家熟知(参见贝尔曼1957年)。大部分MDPs领域的研究产生于罗纳德.A.霍华德1960年出版的《动态规划与马尔可夫过程》。今天,它们被应用在各种领域,包括机器人技术,自动化控制,经济和制造业领域。

更确切地说,一个马尔可夫决策过程是一个离散时间随机控制的过程。在每一个时阶(each time step),此决策过程处于某种状态 s ,决策者可以选择在状态 s 下可用的任何动作 a。该过程在下一个时阶做出反应随机移动到一个新的状态 s',并给予决策者相应的奖励 Ra(s,s')。

此过程选择 s'作为其新状态的概率又受到所选择动作的影响。具体来说,此概率由状态转变函数 Pa(s,s')来规定。因此,下一个状态 s' 取决于当前状态 s 和决策者的动作 a 。但是考虑到状态 s 和动作 a,不依赖以往所有的状态和动作是有条件的,换句话说,一个的MDP状态转换具有马尔可夫特性。

马尔可夫决策过程是一个马尔可夫链的扩展;区别是动作(允许选择)和奖励(给予激励)的加入。相反,如果忽视奖励,即使每一状态只有一个动作存在,那么马尔可夫决策过程即简化为一个马尔可夫链。

马尔可夫决策过程(一)相关推荐

  1. 增强学习(二)----- 马尔可夫决策过程MDP

    1. 马尔可夫模型的几类子模型 大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM).它们具有的一个共同性质就是 ...

  2. DeepMind 的马尔可夫决策过程(MDP)课堂笔记

    DeepMind Teaching by David Silver 视频课程链接(Youtube资源,需梯子):https://youtu.be/lfHX2hHRMVQ 文章目录 DeepMind T ...

  3. 马尔可夫决策过程 Markov decision process MDP, 连续时间Markov chain, CMDP(全)

    引言 在概率论及统计学中,马尔可夫过程(英语:Markov process)是一个具备了马尔可夫性质的随机过程,因为俄国数学家安德雷·马尔可夫得名.马尔可夫过程是不具备记忆特质的(memoryless ...

  4. 如何理解马尔可夫决策过程?

    1 引言 马尔可夫性:无后效性,指系统的下个状态只与当前状态信息有关,而与更早之前的状态无关: 马尔可夫链(Markov Chain, MC):系统的下一个状态只与当前状态相关: 马尔可夫决策过程(M ...

  5. (二)马尔可夫决策过程

      从第一章中了解到强化学习中,智能体通过和环境进行交互获得信息.这个交互过程可以通过马尔可夫决策过程来表示,所以了解一下什么是MDP至关重要.   不过在了解马尔可夫决策过程之前,先要一些预备知识, ...

  6. MDP马尔可夫决策过程(二)

    增强学习(二)----- 马尔可夫决策过程MDP 1. 马尔可夫模型的几类子模型 大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov ...

  7. 马尔可夫决策过程(MDP)

    目录 智能体与环境 马尔科夫决策过程 智能体与环境 强化学习问题不同于传统机器学习问题,它是一种在交互的过程中学习并实现目标的问题.这里把具有学习能力和决策能力的程序或系统称之为Agent(代理,智能 ...

  8. 人工智能必备数学知识· 学习笔记 ·002【马尓可夫链,马尓可夫链奖励过程,马尔可夫决策过程】

    注:笔记 来自课程 人工智能必备数学知识 Tips①:只是记录从这个课程学到的东西,不是推广.没有安利 Tips②:本笔记主要目的是为了方便自己遗忘查阅,或过于冗长.或有所缺省.或杂乱无章,见谅 Ti ...

  9. 强化学习组队学习task02——马尔可夫决策过程及表格型方法

    文章目录 一.马尔科夫决策过程 1.马尔科夫链 2.马尔科夫奖励过程 (1)贝尔曼公式(Bellman equation) (2)迭代法 蒙特卡罗办法 动态规划方法 3.马尔科夫决策过程 MDP的价值 ...

  10. 系统学习机器学习之增强学习(五)--马尔可夫决策过程策略TD求解(SARSA)

    转自:https://www.cnblogs.com/pinard/p/9529828.html 1.时间差分法(temporal difference) 蒙特卡洛方法,需要所有的采样序列都是经历完整 ...

最新文章

  1. ios开发日记-18上传appStore时,遇到错误,代码为ERROR ITMS-90049
  2. 北京大学年度人物揭榜!发论文、搞科研,看“学神打架”!
  3. 记者因报道大厂负面遭遇死亡威胁,幕后黑手被判入狱18个月
  4. java iterator 将int_ListIteratorlt;Egt; listIterator(int index)_Java.util包|WIKI教程
  5. android sdk 源码解析
  6. Windows2008+sqlserver2008集群安装(图文并貌)
  7. jdk1.6 改 jdk1.7或jdk1.8(改回也可以)(图文详解)
  8. 小程序 json 解析
  9. Facebook首次披露自研AI芯片细节:为视频而生,LeCun挂帅
  10. Android 图标上面添加提醒(一)使用Canvas绘制
  11. PAT 乙级 1051. 复数乘法 (15) Java版
  12. 超越cookie - 使用DOM sessionStorage和localStorage来保存更多信
  13. Nginx+php+mysql+wordpress搭建自己的博客站点
  14. 最好的 6 款 React 后台管理系统模板和框架
  15. 简历是html的怎么改成word文档,excel简历怎样转换为word文档
  16. 旷世英才遭天妒——拉马努金
  17. linux如何使用ntfs格式的优盘
  18. 对话翁志:京东大数据如何让技术真正落地
  19. 「eBay大赛专访特辑」第一轮淘汰在即!已经有同学出单$2500!
  20. idea如何关闭代码提示,设置快捷键提示代码

热门文章

  1. Linux—教你两个方法轻松找回root密码
  2. 二叉树遍历结果推二叉树_二叉树遍历技术
  3. java equest 作用_JSP四大作用域及请求范围总结
  4. linux安装ifconfig
  5. k8s之ceph分布式存储
  6. Matlab:isempty()函数用法
  7. MFC CFile 读写文件
  8. Antigen Detector(新冠试剂盒检测)
  9. 中山大学新华学院计算机,中山大学新华学院信息科学学院电子信息科学与技术、计算机科学与技术、软件...
  10. 两个电脑主机共用一个显示器