51cto强化学习（1）马尔可夫与贝尔曼方程学习笔记

马尔可夫决策的要求：

1，能够检测到理想状态：比如我们想让强化学习算法来实现走迷宫，最后这个迷宫一定是可以走出的，倘若迷宫没有出口便不可以套用马尔可夫。

2，可以多次尝试：依然使用走迷宫的例子，我们可以在走迷宫失败的时候进行多次尝试，而不是失败以后就停止。

3，系统的下个状态只和当前状态信息有关，而和之前的更早的状态无关，在决策的过程中还和当前采取的动作有关：马尔可夫的条件是，下一个状态st+1仅仅和st有关而和st-n（n>0）无关，同时还和st状态下的行动at有关。仅仅和st和at是有关的。例如走迷宫这个问题，下一步的状态（位置）仅仅和当前的位置和当前走的方向有关，和其余都是没关系的。

在此解释一下P，R，y的概念：

P：例如当前状态s下，可以经过动作a1到达状态s1，经过动作s2到达状态s2。智能体agent在状态可以执行动作a1也可以执行a2，并且两者各自有自身的概率，而P便是反应这种概率的。p（s1|s，a1）就是反应“在s状态下执行动作a1到达状态s1的概率”，同理“p（s2|s，a2）就是反应”在s状态下执行动作a2到达状态s2的概率”

R：智能体在执行动作后，会得到即时奖励的集合。举例说明：小明现在写作业便会得到一块糖吃，小明现在看电视就会被拿走一块糖，那么两者的即时奖励就是{+1糖，-1糖}

y：衰减系数γ，系数γ是一个介于0和1之间的数字。反应的是未来的奖励和现在的奖励之间的衰减关系。举例说明，现在10元钱可以买10个鸡蛋，但是未来十元钱可能只能买5个鸡蛋，但是我们无法知道未来的情况，所以我们假设衰减系数γ是0.5。就是用现在的情况来预计未来的情况

马尔可夫过在我理解就是：智能体在状态s0下选择动作a0，到达状态s1；s1下智能体选择a1到达状态s2；以此类推。

在状态s下选择什么动作，我认为是根据p来选择的。

状态价值函数：在t时刻，状态s下所能得到未来回报的期望，用来衡量每一个状态或者动作-状态的优劣。

强化学习的根本目的就是获得最大的累计奖励，而状态价值函数就是用来描述累计奖励的量。

策略：策略其实是一个动作的集合，例如“把大象放进冰箱需要三步：打开冰箱门，把大象放进去，关上冰箱门”这就是一个策略，一个动作的集合。

最优价值函数：其实就是所有的策略中，最高的累积收益。策略有很多，累计收益也各不相同，最优价值函数反应的就是累计收益最高的那个。

贝尔曼方程：将当前的价值分解为当前的即时奖励和下一步的价值。类似于一个迭代的过程，自举的过程。

在贝尔曼方程中，我们要求，状态集合S和动作集合A都是有限的，因为有限的我们可以通过数学方法，计算期望。下面解释一下以上公式中的各个量：

Π：反应的是当前状态s下，所选择各个不同动作a的概率

p：反应的是在当前状态下，选择动作a进入到下一个状态的概率

依旧，贝尔曼方程的含义仍然是：当前的价值等于当前的即时价值，加上下一个状态的价值，但是下一个状态的价值要乘以一个衰减系数γ，因为未来都会存在衰减。

公式第一项就是：所有即时奖励的期望。Π（当前状态s下，所选择各个不同动作a的概率）乘以r（即时奖励）得到的就是即时奖励的期望

公式的第二项就是：下一步价值的期望。p(在当前状态下，选择动作a进入到下一个状态的概率)乘以v(下一个状态的价值)得到的就是下一步价值的期望。

两项加在一起就是当前的价值

通过实例来理解贝尔曼方程：

图中每一个圆形代表一个状态，而方块代表的是终止状态。我们下面用贝尔曼方程计算红色圆形的价值

可见红色圆形可以向上走到达最终状态，也可以向下走到达小圆点状态。我们假设两个动作的概率都是0.5

向上走：即时奖励可见是R+10，但是到达最终状态以后没有下一步状态，所以向上走的价值就是向上走的概率乘以向上走的即时奖励，也就是0.5*10

向下走：即时奖励就是R+1，向下走以后没有到达最终状态，所以我们还要继续看下一步状态。可见走到小圆点以后还有三种状态，其概率分别为0.2，0.4，0.4，他们各自对应的下一步价值分别是-1.3，2.7，7.4。所以向下走的价值便是：概率*即时奖励+概率*下一步的价值

最后的公式就是图中最上面的黑色字体（本例中忽略衰减系数γ）

51cto强化学习（1）马尔可夫与贝尔曼方程学习笔记相关推荐

隐马尔可夫模型HMM学习备忘
隐马尔可夫模型HMM学习备忘目录隐马尔可夫模型HMM学习备忘 1.马尔可夫模型的理解 2.隐马尔可夫模型 2.1.HHM的组成 2.2.HMM解决的三个基本问题隐马尔可夫模型示意图如图[1]: ...
贝尔曼方程动态规划python,【强化学习】马尔科夫决策过程之Bellman Equation（贝尔曼方程）...
前面总结了马尔科夫决策过程之Markov Processes(马尔科夫过程),见下文:马尔科夫决策过程之Markov Processes(马尔科夫过程) 马尔科夫决策过程之Markov Reward ...
【强化学习系列】超详细整理实用资料——1 强化学习概述（包含马尔科夫、贝尔曼方程、蒙特卡洛、时间差分法）
文章目录前言强化学习通用工作方式(敲重点!!) 几个重要概念工作流程模型通用设计要点(每个模型都需要注重的点) 强化学习适用场景马尔科夫马尔可夫链马尔可夫随机过程马尔可夫决策过程(敲重 ...
强化学习——day11 马尔科夫决策过程MDP
第 3 章马尔可夫决策过程 3.1 简介马尔可夫决策过程(Markov decision process,MDP)是强化学习的重要概念.要学好强化学习,我们首先要掌握马尔可夫决策过程的基础知识.前 ...
强化学习——day13 马尔科夫决策过程MDP
马尔科夫决策过程简介马尔可夫过程随机过程马尔可夫性质马尔可夫过程马尔可夫奖励过程回报价值函数马尔可夫决策过程策略状态价值函数动作价值函数贝尔曼期望方程蒙特卡洛方法占用度量 ...
【机器学习】强化学习：马尔科夫决策过程(Markov decision process)
本章是强化学习的基础,主要讲的就是马尔科夫决策过程,以后的内容都是以这一节为基础的,所以对本节的相关概念的理解是很重要的. 这一节的概念比较多,也是后面章节的基础,一开始笔者也是一头雾水,只有多看几遍 ...
强化学习(part2)--马尔科夫决策
学习笔记,仅供参考,有错必纠文章目录马尔科夫决策马尔科夫决策要求马尔科夫决策过程由5个元素构成状态转移过程状态价值函数最优价值函数 Bellman方程马尔科夫决策马尔科夫决策要求能 ...
强化学习note1——马尔科夫奖励过程MRP和马尔科夫决策过程MDP各个函数的定义与区别
马尔科夫奖励过程MRP 状态转移函数:P(St+1=s′∣st=s)P\left(S_{t+1}=s^{\prime} \mid s_{t}=s\right)P(St+1=s′∣st=s) 奖励函 ...
强化学习之马尔科夫过程与马尔科夫链（附py代码，因为是自己打的，没完成的功能慢慢打）
1.马尔可夫过程 1.1马尔可夫性或无后效性马尔可夫过程最显著的特点是:如果在已知目前过程状态的条件下,过程未来的演变不依赖于它以往的演变. 即当随机过程时刻 ti 的状态已知的情况下,过程在t & ...

51cto强化学习（1）马尔可夫与贝尔曼方程学习笔记

51cto强化学习（1）马尔可夫与贝尔曼方程学习笔记相关推荐

最新文章

热门文章