1、多步自举

一步TD:TD(0),白色圈V函数,黑色Q函数,后继状态V函数更新当前状态V函数,采样,智能体和环境进行交互。根据状态采取一个动作,转为后继状态,环境给一个奖励--》采样一步得到后继状态

MC 采样到终止状态。MC只采样一步,之后的状态利用之前的值函数进行对当前值函数的估计

多步自举通过采样和自举的方法做一个权衡,TD(0)一步采样之后多步自举,现在多步采样多步自举

n步回报值:

几步为最优?

注意:为了计算n步回报值,需要维护R,S的存储空间,对于后继状态不足n个的,使用MC目标值

2、TD(lambda)

     1)简介

将n步回报值平均

lambda回报值

  TD(lambda)加权函数

TD(lambda)的两种视角:

              前向视角:主要是理解TD(lambda),上述是前向视角

              后向视角:比较实用的算法

       TD(lambda)的前向视角:

  TD(lambda)的后向视角:前向视角提供理论,后向视角提供实用算法,通过后向视角,可以实现在线更新,每步更新,从不完整状态更新

   2)资格迹 

   后向视角的TD(lambda):

 简单地来说,后向视角是秋后算账,看前面那个状态贡献比较大,之后对这个状态的资格迹加1,其它状态资格迹不断地衰减

       3)TD(lambda)的两种视角的关系

  TD(lambda)与TD(0)

TD(1)和MC:

TD(lambda)和TD(0)

     当lambda=1时,信度分配会被延迟到终止状态,这里考虑到片断性任务,而且考虑离线更新,考虑一个片段整体的情况下,TD(1)总更新量等价于MC,在每一步更新上可能有差距

对s 的总更新量

前向视角和后向视角的TD(lambda)

两种视角下的等价性:

离线更新:

在线更新:

小结:

3、TD(lambda)优化算法

n步Sarsa:

前向视角的Sarsa(lambda)算法

后向视角的Sarsa(lambda)

Sarsa(lambda)算法:

重温强化学习之无模型学习方法:TD(lambda)相关推荐

  1. 重温强化学习之无模型学习方法:时间差分方法

    1.时间差分方法简介 强化学习中最核心也是最新奇的想法 混合DP和MC思想:        与MC类似,TD也从历史经验中学习:与DP类似使用后继状态的值函数更新当前状态的值函数 蒙特卡洛只是适用于片 ...

  2. 重温强化学习之无模型学习方法:蒙特卡洛方法

    1.无模型方法简介 无模型属于学习方法的一种,(学习和规划),需要智能体和环境进行交互,一般采用样本备份,需要结合充分的探索 MDPs中未知P,R-无模型 交互是为了更加了解环境,了解状态 动态规划是 ...

  3. [论文]基于强化学习的无模型水下机器人深度控制

    基于强化学习的无模型水下机器人深度控制 摘要 介绍 问题公式 A.水下机器人的坐标框架 B.深度控制问题 马尔科夫模型 A.马尔科夫决策 B.恒定深度控制MDP C.弯曲深度控制MDP D.海底追踪的 ...

  4. 基于模型的强化学习比无模型的强化学习更好?错!

    作者 | Carles Gelada and Jacob Buckman 编辑 | DeepRL 来源 | 深度强化学习实验室(ID:Deep-RL) [导读]许多研究人员认为,基于模型的强化学习(M ...

  5. 强化学习4——无模型预测(蒙特卡洛法和TD法)

    文章目录 强化学习--无模型预测与控制 无模型的概念 无模型预测 蒙特卡洛法 基本蒙特卡洛 改进增量MC更新算法 动态规划(DP)与蒙特卡洛(MC)的区别 Temporal Difference(TD ...

  6. 强化学习(四) - 无模型学习(MC、TDL)

    上一节讲的是在已知模型的情况下,通过动态规划来解决马尔科夫决策过程(MDP)问题.具体的做法有两个:一个是策略迭代,一个是值迭代. 从这一节开始,我们将要进入模型未知的情况下,如何去解决MDP问题. ...

  7. 强化学习4——无模型控制model-free control (On-Policy learning:Sarsa和Off-policy learning:Q-learning)

    文章目录 前言 无模型控制 问题 思路 方法 On-Policy learning MC Sarsa Off-policy learning Q-learning On-Policy learning ...

  8. 强化学习之无模型方法一:蒙特卡洛

    无模型方法(model-free) 无模型方法是学习方法的一种,MDPs中如果P,R未知,则用无模型方法.该方法需要智能体与环境进行交互(交互的方式多样),一般采用样本备份,需要结合充分的探索. 由于 ...

  9. 重温强化学习之基于模型方法:动态规划

    基于模型的强化学习,可以用动态规划求解 动态规划要求知道马尔科夫五元组:状态集.动作集.状态转移矩阵.奖励.折扣因子    ---使用贝尔曼方程 1.前言 什么是动态规划? 2.策略评价 3.策略提升 ...

最新文章

  1. .net中如何同步获取数据方式增加一样数据自动刷新列表_期待已久的动态数据库工具终于来了!...
  2. 循环神经网络 递归神经网络_如何用递归神经网络预测空气污染
  3. android string.xml前后加空格的技巧
  4. C/C++编程的一些技巧
  5. [00004]-[2015-07-16]-[00]-[VC++ 开发Activity控件基础]
  6. multiple versions of scala libraries detected解决方案
  7. 未能加载文件或程序集Microsoft.VisualStudio.Web.PageInspector.Loader
  8. java 蓝桥杯算法训练 求1加到x的和(number)
  9. JS【知识点】------(转)
  10. 使用 openssl 生成证书
  11. DIV 粘贴插入文本或者其他元素后,移动光标到最新处
  12. 西南科技大学OJ题 交换排序算法的设计与实现——冒泡排序1014
  13. 关于英特尔® 处理器显卡技术
  14. 基于Qt的学生信息管理系统
  15. c语言程序如何防止盗用,如何用C语言程序盗取QQ密码
  16. 《正确去掉Win7快捷方式小箭头》
  17. Docker三剑客之Docer Swarm
  18. 苹果发布了Final Cut Pro和Logic Pro的M1新版本
  19. 【数据结构】单链表的创建、插入、删除及合并
  20. ARM最强CPU/GPU来了!A75、G72首发:性能爆炸

热门文章

  1. IE下checkbox或radio隐藏bug
  2. bzoj 1901: Zju2112 Dynamic Rankings
  3. 设计模式之桥接模式实例
  4. 算法提高课-图论-单源最短路的建图方式-AcWing 1127. 香甜的黄油:spfa最短路
  5. PAT甲级1133 Splitting A Linked List:[C++题解]链表
  6. PAT甲级1136 A Delayed Palindrome :[C++题解]回文串和高精度并输出过程
  7. java推送技术_java网络编程 - java服务器推送技术系列方案实战
  8. 用计算机怎么开5次方,用科学计算器来求三的五次方的值,按键顺序是( )?
  9. win10 搭载文件服务器,win10远程文件服务器
  10. java 常量折叠_V8 使用“常量折叠”优化技巧,导致幂(**)运算有时候不等于 Math.pow()...