TD Target Algorithms

2024-05-30 15:47:13

TD Target Algorithms

1.Sarsa

1.1 名称由来

我们容易求出折扣回报 U t = R t + γ ⋅ U t + 1 U_t=R_t+\gamma\cdot U_{t+1} Ut=Rt+γ⋅Ut+1

可以进行等式变形。

因为无法直接求出期望，考虑用Monte Carlo近似。

1.2表格形式

假设states和actions的个数已知，那么可以建立二维table，不断更新table。

通过observe 一个状态转移，通过策略函数计算 a t + 1 a_{t+1} at+1，然后查表 Q π Q_{\pi} Qπ计算TD target。

然后计算TD error，更新表中的 Q π Q_{\pi} Qπ

1.3 神经网络形式

计算TD target 和 TD error，梯度下降更新训练参数 w w w。

1.4 Summary

2.Q-learning

2.1 与Sarsa的区别

等式变形可以得到上式。

采用Monte Carlo 近似 Q ∗ Q^* Q∗

2.2 Table形式

2.3 DQN形式

2.4 Summary

3.Multi Step TD Target

容易得到 U t U_t Ut的变形式。

Sarsa本质是Multi Step TD 的特殊形式 ( m = 1 ) (m=1) (m=1)。

Q-learning 同理。

因为Multi Step TD Target 更接近真实值，因为 r t r_t rt更真实。所以效果会比One-Step 要好，但是需要考虑性能问题(?)

TD Target Algorithms相关推荐

【Multi-Step TD Target】TD算法的改进
强化学习相关的TD算法改进的介绍.此处笔记根据B站课程,王树森老师的强化学习记录而来.9.Multi-Step TD Target (TD Learning 3_3)(Av374239425,P9)_ ...
时间差分算法（TD Learning）（Sarsa、Q-Learning、Multi-Step TD Target）
学习笔记,欢迎大家一起学习讨论,如有错误还请大家批评指正一.Sarsa 算法推导 TD Target Discounted Return定义: U t = R t + r R t + 1 + r ...
TD算法超详细解释，一篇文章看透彻！
[已解决]TD算法超详细解释和实现(Sarsa,n-step Sarsa,Q-learning)一篇文章看透彻! 郑重声明:本系列内容来源赵世钰(Shiyu Zhao)教授的强化学习数学原理系列,本 ...
强化学习—— TD算法（Sarsa算法+Q-learning算法）
强化学习-- TD算法(Sarsa算法+Q-learning算法) 1. Sarsa算法 1.1 TD Target 1.2 表格形式的Sarsa算法 1.3 神经网络形式的Sarsa算法 2. Q- ...
强化学习—— Target Network Double DQN（解决高估问题，overestimate）
强化学习-- Target Network & Double DQN(解决高估问题,overestimate) 1TD算法 2. 高估问题 2.1 Maximization 2.1.1 数学解 ...
【DQN高级技巧2】DQN高估问题：Target Network和Double DQN
Bootstrapping 自举在强化学习中,自举表示用一个估算去更新同类的估算在更新梯度的时候我们用到了yty_tyt,但yty_tyt又部分基于DQN 即为了更新DQN在t时刻的估计,我们 ...
RL 实践（3）—— 悬崖漫步【QLearning Sarsa 各种变体】
本文介绍如何用 QLeaning 系列和 Sarsa 系列表格方法解经典的悬崖漫步 (Cliff Walking) 问题完整代码下载:4_[Gym Custom] Cliff Walking (Q- ...
深度学习和dqn_深度Q学习方面的改进：双重DQN决斗，优先体验重播和固定…
深度学习和dqn by Thomas Simonini 通过托马斯·西蒙尼(Thomas Simonini) 深度Q学习方面的改进:双重DQN,优先体验重播和固定Q目标 (Improvements i ...
第二十七课.深度强化学习(二)
目录概述价值学习 Deep Q Network DQN的训练:TD算法(Temporal Difference Learning) 策略学习 Policy Network 策略网络训练:Polic ...

最新文章

热门文章