TD Target Algorithms
TD Target Algorithms
1.Sarsa
1.1 名称由来
我们容易求出折扣回报 U t = R t + γ ⋅ U t + 1 U_t=R_t+\gamma\cdot U_{t+1} Ut=Rt+γ⋅Ut+1
可以进行等式变形。
因为无法直接求出期望,考虑用Monte Carlo近似。
1.2表格形式
假设states和actions的个数已知,那么可以建立二维table,不断更新table。
通过observe 一个状态转移,通过策略函数计算 a t + 1 a_{t+1} at+1,然后查表 Q π Q_{\pi} Qπ计算TD target。
然后计算TD error,更新表中的 Q π Q_{\pi} Qπ
1.3 神经网络形式
计算TD target 和 TD error,梯度下降更新训练参数 w w w。
1.4 Summary
2.Q-learning
2.1 与Sarsa的区别
等式变形可以得到上式。
采用Monte Carlo 近似 Q ∗ Q^* Q∗
2.2 Table形式
2.3 DQN形式
2.4 Summary
3.Multi Step TD Target
容易得到 U t U_t Ut的变形式。
Sarsa本质是Multi Step TD 的特殊形式 ( m = 1 ) (m=1) (m=1)。
Q-learning 同理。
因为Multi Step TD Target 更接近真实值,因为 r t r_t rt更真实。所以效果会比One-Step 要好,但是需要考虑性能问题(?)
TD Target Algorithms相关推荐
- 【Multi-Step TD Target】TD算法的改进
强化学习相关的TD算法改进的介绍.此处笔记根据B站课程,王树森老师的强化学习记录而来.9.Multi-Step TD Target (TD Learning 3_3)(Av374239425,P9)_ ...
- 时间差分算法(TD Learning)(Sarsa、Q-Learning、Multi-Step TD Target)
学习笔记,欢迎大家一起学习讨论,如有错误还请大家批评指正 一.Sarsa 算法 推导 TD Target Discounted Return定义: U t = R t + r R t + 1 + r ...
- TD算法超详细解释,一篇文章看透彻!
[已解决]TD算法超详细解释和实现(Sarsa,n-step Sarsa,Q-learning)一篇文章看透彻! 郑重声明:本系列内容来源 赵世钰(Shiyu Zhao)教授的强化学习数学原理系列,本 ...
- 强化学习—— TD算法(Sarsa算法+Q-learning算法)
强化学习-- TD算法(Sarsa算法+Q-learning算法) 1. Sarsa算法 1.1 TD Target 1.2 表格形式的Sarsa算法 1.3 神经网络形式的Sarsa算法 2. Q- ...
- 强化学习—— Target Network Double DQN(解决高估问题,overestimate)
强化学习-- Target Network & Double DQN(解决高估问题,overestimate) 1TD算法 2. 高估问题 2.1 Maximization 2.1.1 数学解 ...
- 【DQN高级技巧2】DQN高估问题:Target Network和Double DQN
Bootstrapping 自举 在强化学习中,自举表示用一个估算去更新同类的估算 在更新梯度的时候我们用到了yty_tyt,但yty_tyt又部分基于DQN 即为了更新DQN在t时刻的估计,我们 ...
- RL 实践(3)—— 悬崖漫步【QLearning Sarsa 各种变体】
本文介绍如何用 QLeaning 系列和 Sarsa 系列表格方法解经典的悬崖漫步 (Cliff Walking) 问题 完整代码下载:4_[Gym Custom] Cliff Walking (Q- ...
- 深度学习和dqn_深度Q学习方面的改进:双重DQN决斗,优先体验重播和固定…
深度学习和dqn by Thomas Simonini 通过托马斯·西蒙尼(Thomas Simonini) 深度Q学习方面的改进:双重DQN,优先体验重播和固定Q目标 (Improvements i ...
- 第二十七课.深度强化学习(二)
目录 概述 价值学习 Deep Q Network DQN的训练:TD算法(Temporal Difference Learning) 策略学习 Policy Network 策略网络训练:Polic ...
最新文章
- CloudHub概述
- crontab 知识查阅
- Halcon知识: XLD的概念
- 【java】带时区的时间格式化
- C++虚继承(七) --- 虚继承对基类构造函数调用顺序的影响
- Ext.Window更换iframe的地址
- Robo 可视化mongoDb的操作
- Web 攻防第一阶段 I-03:收集 Web 站点信息
- 普度大学计算机科学博士,普渡大学计算机系 Yongle Zhang课题组招收全奖博士生...
- 单样本学习(One shot learning)和孪生网络(Siamese Network)简介
- zencart和php是什么,什么是ZenCart ZenCart有什么特点 ZenCart模板
- 右键快捷菜单压缩文件的消失问题解决办法!
- iOS开发中集成阿里云视频上传SDK总结
- JAVA基础--java简单知识04(类与对象,封装,继承,多态)
- 传奇服务器端回满血文件夹,传奇服务端修改求助
- 品优购的界面设计要求_品优购注册页
- 计算机安全模式无法启动,老司机教你电脑安全模式进不去怎么办
- 数学期望和概率DP题目泛做(为了对应AD的课件)
- Tortoises SVN 教程
- 这MySQL里的反斜杠(\\)也太坑了吧!!真是醉了