重温强化学习之无模型学习方法：TD(lambda)

2024-06-11 17:01:28

1、多步自举

一步TD:TD(0)，白色圈V函数，黑色Q函数，后继状态V函数更新当前状态V函数，采样，智能体和环境进行交互。根据状态采取一个动作，转为后继状态，环境给一个奖励－－》采样一步得到后继状态

MC 采样到终止状态。MC只采样一步，之后的状态利用之前的值函数进行对当前值函数的估计

多步自举通过采样和自举的方法做一个权衡，TD(0)一步采样之后多步自举，现在多步采样多步自举

n步回报值：

几步为最优？

注意：为了计算n步回报值，需要维护R，S的存储空间，对于后继状态不足n个的，使用MC目标值

2、TD(lambda)

1）简介

将n步回报值平均

lambda回报值

TD(lambda)加权函数

TD(lambda)的两种视角：

前向视角：主要是理解TD(lambda),上述是前向视角

后向视角：比较实用的算法

TD(lambda)的前向视角：

TD(lambda)的后向视角：前向视角提供理论，后向视角提供实用算法，通过后向视角，可以实现在线更新，每步更新，从不完整状态更新

2）资格迹

后向视角的TD(lambda):

简单地来说，后向视角是秋后算账，看前面那个状态贡献比较大，之后对这个状态的资格迹加1，其它状态资格迹不断地衰减

3）TD(lambda)的两种视角的关系

TD(lambda)与TD(0)

TD(1)和MC:

TD(lambda)和TD(0)

当lambda=1时，信度分配会被延迟到终止状态，这里考虑到片断性任务，而且考虑离线更新，考虑一个片段整体的情况下，TD(1)总更新量等价于MC,在每一步更新上可能有差距

对s 的总更新量

前向视角和后向视角的TD(lambda)

两种视角下的等价性：

离线更新：

在线更新：

小结：

3、TD(lambda)优化算法

n步Sarsa:

前向视角的Sarsa（lambda）算法

后向视角的Sarsa(lambda)

Sarsa(lambda)算法：

重温强化学习之无模型学习方法：TD(lambda)相关推荐

重温强化学习之无模型学习方法：时间差分方法
1.时间差分方法简介强化学习中最核心也是最新奇的想法混合DP和MC思想: 与MC类似,TD也从历史经验中学习:与DP类似使用后继状态的值函数更新当前状态的值函数蒙特卡洛只是适用于片 ...
重温强化学习之无模型学习方法：蒙特卡洛方法
1.无模型方法简介无模型属于学习方法的一种,(学习和规划),需要智能体和环境进行交互,一般采用样本备份,需要结合充分的探索 MDPs中未知P,R-无模型交互是为了更加了解环境,了解状态动态规划是 ...
[论文]基于强化学习的无模型水下机器人深度控制
基于强化学习的无模型水下机器人深度控制摘要介绍问题公式 A.水下机器人的坐标框架 B.深度控制问题马尔科夫模型 A.马尔科夫决策 B.恒定深度控制MDP C.弯曲深度控制MDP D.海底追踪的 ...
基于模型的强化学习比无模型的强化学习更好？错！
作者 | Carles Gelada and Jacob Buckman 编辑 | DeepRL 来源 | 深度强化学习实验室(ID:Deep-RL) [导读]许多研究人员认为,基于模型的强化学习(M ...
强化学习4——无模型预测(蒙特卡洛法和TD法)
文章目录强化学习--无模型预测与控制无模型的概念无模型预测蒙特卡洛法基本蒙特卡洛改进增量MC更新算法动态规划(DP)与蒙特卡洛(MC)的区别 Temporal Difference(TD ...
强化学习(四) - 无模型学习(MC、TDL)
上一节讲的是在已知模型的情况下,通过动态规划来解决马尔科夫决策过程(MDP)问题.具体的做法有两个:一个是策略迭代,一个是值迭代. 从这一节开始,我们将要进入模型未知的情况下,如何去解决MDP问题. ...
强化学习4——无模型控制model-free control （On-Policy learning：Sarsa和Off-policy learning：Q-learning）
文章目录前言无模型控制问题思路方法 On-Policy learning MC Sarsa Off-policy learning Q-learning On-Policy learning ...
强化学习之无模型方法一：蒙特卡洛
无模型方法(model-free) 无模型方法是学习方法的一种,MDPs中如果P,R未知,则用无模型方法.该方法需要智能体与环境进行交互(交互的方式多样),一般采用样本备份,需要结合充分的探索. 由于 ...
重温强化学习之基于模型方法：动态规划
基于模型的强化学习,可以用动态规划求解动态规划要求知道马尔科夫五元组:状态集.动作集.状态转移矩阵.奖励.折扣因子 ---使用贝尔曼方程 1.前言什么是动态规划? 2.策略评价 3.策略提升 ...

最新文章

热门文章