强化学习VPG和PPO的区别

on-policy策略，是指使用当前策略生成的数据来更新当前策略；

off-policy策略，是指可以使用非当前策略生成的数据来更新当前策略；

举例：Agent使用策略 $\pi _{t}$ 与环境互动，生成数据 $D_{t}$ ，使用 $D_t$ 更新策略 $\pi_t$ 获得新的策略 $\pi_{t+1}$ ，数据 $D_t$ 被丢弃，则是on-policy策略；

Agent使用策略 $\pi _{t}$ 与环境互动，生成数据 $D_{t}$ ，使用 $D_1, D_2, D_3, ... , D_t$ 来更新策略 $\pi_t$ 获得新的策略 $\pi_{t+1}$ ，数据 $D_t$ 被存储到数据缓冲池，用于下一次策略的更新，则是off-policy策略。

从定义可以知，on-policy策略的数据利用效率低，off-policy策略可以使用先前策略生成的数据，因此，off-policy的策略较高。

1. VPG是on-policy策略，每次和环境互动（一个epoch），使用当前策略，生产一批数据（batch），然后使用这些数据对当前策略进行一次更新，之后数据被丢弃；

2. DQN是off-policy，每次和环境互动，使用当前策略，生产一批数据，将新生产的数据存储到数据缓冲区，使用缓存区的数据更新t时刻的目标策略，生成t+1时刻的目标策略，接着，继续使用当前策略生成一批数据，存入缓冲区，使用缓冲区数据更新目标策略；经过一定次数的更新后，使用目标策略t+n更新当前策略, 继续上述过程；

3. PPO策略是on-policy策略，相比VPG策略，PPO策略使用当前策略生成的数据，对当前策略进行了多次更新，而非VPG的一次更新。多次更新带来了数据利用率的提升，学习效率的提升，但同时引入了不稳定性，即：由于数据并非更新后的策略生成，导致数据差异与当前策略较大，为了解决这个问题，PPO比较新旧策略的差异，如果差异过大，则进行修剪更新的范围，防止过大的更新导致网络不稳定，从而导致训练过程发散。

以openAI spinning up中代码为例，VPG和PPO代码的主要区别在于，更新函数中，PPO使用同一数据，对策略进行了多次更新（学习），图中的循环train_pi_iters则是该更新的次数。

强化学习VPG和PPO的区别相关推荐

深度强化学习笔记之PPO实现细节（2）
深度强化学习笔记之PPO实现细节(2) 本文主要参考于Coding PPO from Scratch with PyTorch系列,但本文并不会像该系列一样手把手讲解全部的实现细节,只是记录一下自己在 ...
强化学习笔记：PPO 【近端策略优化（Proximal Policy Optimization）】
1 前言我们回顾一下policy network: 强化学习笔记:Policy-based Approach_UQI-LIUWJ的博客-CSDN博客它先去跟环境互动,搜集很多的路径τ.根据它搜集 ...
深度强化学习之：PPO训练红白机1942
本篇是深度强化学习动手系列文章,自MyEncyclopedia公众号文章深度强化学习之:DQN训练超级玛丽闯关发布后收到不少关注和反馈,这一期,让我们实现目前主流深度强化学习算法PPO来打另一个红白机 ...
【深度强化学习】(6) PPO 模型解析，附Pytorch完整代码
大家好,今天和各位分享一下深度强化学习中的近端策略优化算法(proximal policy optimization,PPO),并借助 OpenAI 的 gym 环境完成一个小案例,完整代码可以从我的 ...
【原创】强化学习笔记|从零开始学习PPO算法编程（pytorch版本）
从零开始学习PPO算法编程(pytorch版本)_melody_cjw的博客-CSDN博客_ppo算法 pytorch 从零开始学习PPO算法编程(pytorch版本)(二)_melody_cjw的博 ...
B站学强化学习？港中文周博磊变身up主，中文课程已上线
本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载机器之心整理众所周知,B 站是一个学习网站.在看完罗翔老师的刑法课之后,是时候探索人工智能了. 新冠疫情还未退散, ...
强化学习笔记4：强化学习分类
1 model-free & model-based model-based(有模型) RL agent,它通过学习环境的状态转移来采取动作. model-free(免模型) RL agent ...
交互式机器学习/ 强化学习在图像领域中的应用
交互式机器学习参考: 深度学习在交互式图像分割中的应用 - 知乎 Nat. Methods | ilastik:为生物图像分析而生的交互式机器学习平台_DrugAI-CSDN博客 https://d ...
强化学习经典model-free方法总结
强化学习经典model-free方法总结 1. 基于值函数(value-based)的方法 1.1 sarsa 1.2 Q-learning 1.3 DQN 1.4 Double DQN 1.5 Du ...

强化学习VPG和PPO的区别

强化学习VPG和PPO的区别相关推荐

最新文章

热门文章