马尔可夫链与马尔可夫决策过程

马尔可夫链

简介

马尔可夫链（Markov chain），又称离散时间马尔可夫链（discrete-time Markov chain）为状态空间中经过从一个状态到另一个状态的转换的随机过程。

该过程要求具备“无记忆”的性质：下一状态的概率分布只能由当前状态决定，在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马尔可夫性质。

在马尔可夫链的每一步，系统根据概率分布，可以从一个状态变到另一个状态，也可以保持当前状态。状态的改变叫做转移，与不同的状态改变相关的概率叫做转移概率。

随机漫步就是马尔可夫链的例子。随机漫步中每一步的状态是在图形中的点，每一步可以移动到任何一个相邻的点，在这里移动到每一个点的概率都是相同的（无论之前漫步路径是如何的）。【维基百科】

马尔可夫链的数学表示为：
P ( x t + 1 ∣ ⋯ , x t − 2 , x t − 1 , x t ) = P ( x t + 1 ∣ x t ) P\left(x_{t+1} | \cdots, x_{t-2}, x_{t-1}, x_{t}\right)=P\left(x_{t+1} | x_{t}\right)P(x t+1 ∣⋯,x t−2 ,x t−1 ,x t )=P(x t+1 ∣x t )
既然某一时刻状态转移的概率只依赖前一个状态，那么只要求出系统中任意两个状态之间的转移概率，这个马尔科夫链的模型就定了。

马尔可夫链性质

马尔可夫链的收敛性
如果确定了马尔科夫链模型的状态转移矩阵P，假设初始状态s=[0.2,0.2,0.6]，那么在这样的初始状态下，按照P转移n次，最终都会收敛于一个特定的数，上例最终收敛于[0.624,0.312,0.064]，则第一种事件发生的可能性最大。在排名算法中，则是，该网页的权重更大排名更靠前。

收敛性需要满足的条件
1.可能的状态数是有限的。
2.状态间的转移概率需要固定不变。
3.从任意状态能够转变到任意状态。
4.不能是简单的循环，例如全是从x到y再从y到x。

马尔可夫链是否可约
如果一个马尔可夫链可以从任何其他状态到达任何状态（不一定是在一个时间步内），那么它是不可约的。如果状态空间是有限的，并且链可以用图表示，那么我们可以说不可约马尔可夫链的图是强连通的（图论）。

左边的链是可约的：从3到4我们不能到达1或2。右边的链（添加了一条边）是不可约的：每个状态都可以从任何其他状态到达。

马尔可夫链重现性
若马尔可夫链在到达一个状态后，在演变中能反复回到该状态，则该状态具有重现性或复发性，或该马尔可夫链具有（局部）重现性，反之则具有瞬变性或短暂性

马尔可夫链的讲解视频，不是本人做的可以学习一下。https://www.bilibili.com/video/BV19b4y127oZ?from=search&seid=16939363893852532400&spm_id_from=333.337.0.0

马尔可夫决策过程

MDPs 简单说就是一个智能体（Agent）采取行动（Action）从而改变自己的状态（State）获得奖励（Reward）与环境（Environment）发生交互的循环过程。

MDP 的策略完全取决于当前状态（Only present matters），这也是它马尔可夫性质的体现。

其可以简单表示为：

基本概念

回报

MDP 求解

我们需要找到最优的策略使未来回报最大化，求解过程大致可分为两步,具体内容会在后面展开

预测：给定策略，评估相应的状态价值函数和状态-动作价值函数
行动：根据价值函数得到当前状态对应的最优动作

v 描述了处于一个状态的长期最优化价值，即在这个状态下考虑到所有可能发生的后续动作，并且都挑选最优的动作来执行的情况下，这个状态的价值
q 描述了处于一个状态并执行某个动作后所带来的长期最优价值，即在这个状态下执行某一特定动作后，考虑再之后所有可能处于的状态并且在这些状态下总是选取最优动作来执行所带来的长期价值

参考资料
强化学习（Reinforcement Learning）知识整理 - 我勒个矗的文章 - 知乎
https://zhuanlan.zhihu.com/p/25319023
https://blog.csdn.net/lucky_kai/article/details/97394778

人工智能学习笔记二之马尔可夫链与马尔可夫决策过程

转自：(1条消息) 马尔可夫链与马尔可夫决策过程_我不是zzy1231A的博客-CSDN博客https://blog.csdn.net/dzcera/article/details/122641364

马尔可夫链与马尔可夫决策过程相关推荐

马尔可夫决策过程（MDP）
目录智能体与环境马尔科夫决策过程智能体与环境强化学习问题不同于传统机器学习问题,它是一种在交互的过程中学习并实现目标的问题.这里把具有学习能力和决策能力的程序或系统称之为Agent(代理,智能 ...
马尔可夫决策过程 Markov decision process MDP, 连续时间Markov chain, CMDP（全）
引言在概率论及统计学中,马尔可夫过程(英语:Markov process)是一个具备了马尔可夫性质的随机过程,因为俄国数学家安德雷·马尔可夫得名.马尔可夫过程是不具备记忆特质的(memoryless ...
如何理解马尔可夫决策过程？
1 引言马尔可夫性:无后效性,指系统的下个状态只与当前状态信息有关,而与更早之前的状态无关: 马尔可夫链(Markov Chain, MC):系统的下一个状态只与当前状态相关: 马尔可夫决策过程(M ...
（二）马尔可夫决策过程
从第一章中了解到强化学习中,智能体通过和环境进行交互获得信息.这个交互过程可以通过马尔可夫决策过程来表示,所以了解一下什么是MDP至关重要. 不过在了解马尔可夫决策过程之前,先要一些预备知识, ...
强化学习组队学习task02——马尔可夫决策过程及表格型方法
文章目录一.马尔科夫决策过程 1.马尔科夫链 2.马尔科夫奖励过程 (1)贝尔曼公式(Bellman equation) (2)迭代法蒙特卡罗办法动态规划方法 3.马尔科夫决策过程 MDP的价值 ...
第二章马尔可夫决策过程及表格型方法
马尔可夫决策过程. 在介绍马尔可夫决策过程之前,先介绍它的简化版本:马尔可夫链以及马尔可夫奖励过程,通过跟这两种过程的比较,我们可以更生动地理解马尔可夫决策过程. 第二部分会介绍马尔可夫决策过程中的 ...
强化学习蘑菇书Easy RL第二、三章学习（马尔可夫决策过程、表格型方法）
马尔可夫决策过程概述 Markov Process(MP)通常来说是未来状态的条件概率分布仅依赖于当前的状态.在离散随机过程里,我们需要把随机变量所有可能取值的集合放到一个状态空间里,在强化学习里,我 ...
机器学习——马尔可夫模型及马尔可夫决策过程（MDP）
一.马尔可夫模型 1. 马尔可夫链设表示随机变量X在离散时间t时刻的取值.若该变量随时间变化的转移概率仅依赖于它的当前值,即: 也就是时候状态转移概率指依赖于前一个状态,称这个变量为马尔可夫变量,其 ...
马尔可夫决策过程（一）
马尔可夫决策过程(一) 最近学习了MDP,查看一些资料,本文翻译了维基百科http://en.wikipedia.org/wiki/Markov_decision_process.有许多地方翻译的不好 ...

马尔可夫链与马尔可夫决策过程

马尔可夫链

简介

马尔可夫链性质

马尔可夫决策过程

基本概念

回报

MDP 求解

马尔可夫链与马尔可夫决策过程相关推荐

最新文章

热门文章