TD Target Algorithms

1.Sarsa

1.1 名称由来


我们容易求出折扣回报 U t = R t + γ ⋅ U t + 1 U_t=R_t+\gamma\cdot U_{t+1} Ut​=Rt​+γ⋅Ut+1​


可以进行等式变形。


因为无法直接求出期望,考虑用Monte Carlo近似。


1.2表格形式

假设states和actions的个数已知,那么可以建立二维table,不断更新table。


通过observe 一个状态转移,通过策略函数计算 a t + 1 a_{t+1} at+1​,然后查表 Q π Q_{\pi} Qπ​计算TD target。


然后计算TD error,更新表中的 Q π Q_{\pi} Qπ​


1.3 神经网络形式


计算TD target 和 TD error,梯度下降更新训练参数 w w w。


1.4 Summary


2.Q-learning

2.1 与Sarsa的区别



等式变形可以得到上式。


采用Monte Carlo 近似 Q ∗ Q^* Q∗

2.2 Table形式



2.3 DQN形式


2.4 Summary


3.Multi Step TD Target


容易得到 U t U_t Ut​的变形式。


Sarsa本质是Multi Step TD 的特殊形式 ( m = 1 ) (m=1) (m=1)。


Q-learning 同理。


因为Multi Step TD Target 更接近真实值,因为 r t r_t rt​更真实。所以效果会比One-Step 要好,但是需要考虑性能问题(?)

TD Target Algorithms相关推荐

  1. 【Multi-Step TD Target】TD算法的改进

    强化学习相关的TD算法改进的介绍.此处笔记根据B站课程,王树森老师的强化学习记录而来.9.Multi-Step TD Target (TD Learning 3_3)(Av374239425,P9)_ ...

  2. 时间差分算法(TD Learning)(Sarsa、Q-Learning、Multi-Step TD Target)

    学习笔记,欢迎大家一起学习讨论,如有错误还请大家批评指正 一.Sarsa 算法 推导 TD Target Discounted Return定义: U t = R t + r R t + 1 + r ...

  3. TD算法超详细解释,一篇文章看透彻!

    [已解决]TD算法超详细解释和实现(Sarsa,n-step Sarsa,Q-learning)一篇文章看透彻! 郑重声明:本系列内容来源 赵世钰(Shiyu Zhao)教授的强化学习数学原理系列,本 ...

  4. 强化学习—— TD算法(Sarsa算法+Q-learning算法)

    强化学习-- TD算法(Sarsa算法+Q-learning算法) 1. Sarsa算法 1.1 TD Target 1.2 表格形式的Sarsa算法 1.3 神经网络形式的Sarsa算法 2. Q- ...

  5. 强化学习—— Target Network Double DQN(解决高估问题,overestimate)

    强化学习-- Target Network & Double DQN(解决高估问题,overestimate) 1TD算法 2. 高估问题 2.1 Maximization 2.1.1 数学解 ...

  6. 【DQN高级技巧2】DQN高估问题:Target Network和Double DQN

    Bootstrapping 自举 在强化学习中,自举表示用一个估算去更新同类的估算 在更新梯度的时候我们用到了yty_tyt​,但yty_tyt​又部分基于DQN 即为了更新DQN在t时刻的估计,我们 ...

  7. RL 实践(3)—— 悬崖漫步【QLearning Sarsa 各种变体】

    本文介绍如何用 QLeaning 系列和 Sarsa 系列表格方法解经典的悬崖漫步 (Cliff Walking) 问题 完整代码下载:4_[Gym Custom] Cliff Walking (Q- ...

  8. 深度学习和dqn_深度Q学习方面的改进:双重DQN决斗,优先体验重播和固定…

    深度学习和dqn by Thomas Simonini 通过托马斯·西蒙尼(Thomas Simonini) 深度Q学习方面的改进:双重DQN,优先体验重播和固定Q目标 (Improvements i ...

  9. 第二十七课.深度强化学习(二)

    目录 概述 价值学习 Deep Q Network DQN的训练:TD算法(Temporal Difference Learning) 策略学习 Policy Network 策略网络训练:Polic ...

最新文章

  1. CloudHub概述
  2. crontab 知识查阅
  3. Halcon知识: XLD的概念
  4. 【java】带时区的时间格式化
  5. C++虚继承(七) --- 虚继承对基类构造函数调用顺序的影响
  6. Ext.Window更换iframe的地址
  7. Robo 可视化mongoDb的操作
  8. Web 攻防第一阶段 I-03:收集 Web 站点信息
  9. 普度大学计算机科学博士,普渡大学计算机系 Yongle Zhang课题组招收全奖博士生...
  10. 单样本学习(One shot learning)和孪生网络(Siamese Network)简介
  11. zencart和php是什么,什么是ZenCart ZenCart有什么特点 ZenCart模板
  12. 右键快捷菜单压缩文件的消失问题解决办法!
  13. iOS开发中集成阿里云视频上传SDK总结
  14. JAVA基础--java简单知识04(类与对象,封装,继承,多态)
  15. 传奇服务器端回满血文件夹,传奇服务端修改求助
  16. 品优购的界面设计要求_品优购注册页
  17. 计算机安全模式无法启动,老司机教你电脑安全模式进不去怎么办
  18. 数学期望和概率DP题目泛做(为了对应AD的课件)
  19. Tortoises SVN 教程
  20. 这MySQL里的反斜杠(\\)也太坑了吧!!真是醉了

热门文章

  1. 【组队学习】SQL编程语言笔记——Task01
  2. 信息学竞赛一本通-图论-新的开始(建立虚拟节点+最小生成树)
  3. 新手运营适合哪个跨境电商平台
  4. 使用ffmeg提取视频关键帧
  5. NOI题库 1.1 10超级玛丽游戏
  6. 【Qt+FFmpeg】 - FFmpeg解码详细流程
  7. HTML5期末大作业:旅游网页设计与实现——旅游风景区网站HTML+CSS(都景 2页 )
  8. 【图精】五影帝扮女装雷人
  9. 推荐一款设计很赞的装修家居类APP
  10. [Jzoj] 2307. 新年礼物