文章目录

  • On-policy v.s. Off-policy
  • 将On-policy变为Off-policy
  • PPO算法/TRPO算法
  • PPO2
  • 总结

On-policy v.s. Off-policy

On-Policy方式指的是用于学习的agent与观察环境的agent是同一个,所以参数θ始终保持一致。
Off-Policy方式指的是用于学习的agent与用于观察环境的agent不是同一个,他们的参数θ可能不一样。
比如下围棋,On-Policy方式是agent亲历亲为,而Off-Policy是一个agent看其他的agent下棋,然后去学习人家的东西。

将On-policy变为Off-policy

我在之前的博客里写的Policy gradient用的是On-Policy,现在我们要将其变为Off-policy,那么为什么要变呢?看下图蓝线画的部分,表示的是在某个actor的情况下,或者说是某个参数θ的情况下,随机取样出来不同的┏的期望(可以看看我的这篇博客大致学习一下Policy Gradient详解)然后我们利用梯度上升更新θ,但是θ只要一更新,这个期望就会变,也就是说当theta更新时,我们又必须重新计算期望了。这就导致了想找到一个好的θ太慢了。那么我们使用Off-Policy能解决这个问题,我们使用Πθ‘去和环境做互动,我们可以得到在θ’下所随机取出的样本的期望,然后让Πθ去利用这个这些样本去训练θ,现在,我们介绍一下Importance Sampling.
下图的importance sampling中,那个Ex~p(f(x))表示x从p中取的情况下,f(x)的期望是多少?很明显约等于1/N∑f(xi),但是我们现在规定不准从p中取x,只能从q中取x,那么就有如下的式子转换:蓝框圈的部分是权重,p与q不能相差太多。

上面的那种做法有一个问题,虽然他们的期望可能相等或者相近,但经过证明,最后方差的式子是不一样的,多了红框圈出的部分,再次说明p与q不能差距太大。

看下面这张图,先看等式左半边,在p里面取x,那么p的左半边被取的机率很高,然后左半边又都是正的,然后代入f(x),但是f(x)的左边都是负的,所以整个期望是负的。然后再看等式右边,在q里面取,q在右边被取得几率大,然后q大于p,所以p\q小于1,然后f(x)又是正得,所以为正,但事实果真如此吗?如果我现在sample到了一个左边的点,f(x)就为负了,而且p\q>1,这将影响整个右边的结果,可能为负,所以只有在取更多样本时,下面这个式子才越准确。
然后我们将On-policy转换为Off-policy,如下图所示,注意画蓝线的地方,我们是从θ‘sample的样本,然后我们可以使用θ’的样本去多次训练θ。

那个A就是advantage function,我这篇博客里有这个函数的简介(可以看看我的这篇博客大致学习一下Policy Gradient详解)

PPO算法/TRPO算法

PPO算法是一种新型的Policy Gradient算法,Policy Gradient算法对步长十分敏感,但是又难以选择合适的步长,在训练过程中新旧策略的的变化差异如果过大则不利于学习。PPO提出了新的目标函数可以再多个训练步骤实现小批量的更新,解决了Policy Gradient算法中步长难以确定的问题。


PPO2

总结

Proximal Policy Optimization (PPO)详解相关推荐

  1. Proximal Policy Optimization (PPO) 算法理解:从策略梯度开始

    近端策略优化(PPO)算法是OpenAI在2017提出的一种强化学习算法,被认为是目前强化学习领域的SOTA方法,也是适用性最广的算法之一.本文将从PPO算法的基础入手,理解从传统策略梯度算法(例如R ...

  2. Proximal Policy Optimization (PPO)

    1.On-policy v.s. Off-policy On-policy: 学习的智能体和与环境交互的智能体是同一个 Off-policy: 学习的智能体和与环境交互的智能体不是同一个 大白话就是, ...

  3. 强化学习笔记:PPO 【近端策略优化(Proximal Policy Optimization)】

    1 前言 我们回顾一下policy network: 强化学习笔记:Policy-based Approach_UQI-LIUWJ的博客-CSDN博客 它先去跟环境互动,搜集很多的 路径τ.根据它搜集 ...

  4. 强化学习——Proximal Policy Optimization Algorithms

    文章目录 前言 为什么需要PPO TRPO PPO 前言 本文对论文<Proximal Policy Optimization Algorithms>进行总结,如有错误,欢迎指出. 为什么 ...

  5. 深度增强学习PPO(Proximal Policy Optimization)算法源码走读

    原文地址:https://blog.csdn.net/jinzhuojun/article/details/80417179 OpenAI出品的baselines项目提供了一系列deep reinfo ...

  6. ChatGPT 使用 强化学习:Proximal Policy Optimization算法(详细图解)

    ChatGPT 使用 强化学习:Proximal Policy Optimization算法 强化学习中的PPO(Proximal Policy Optimization)算法是一种高效的策略优化方法 ...

  7. 【文献阅读】Proximal Policy Optimization Algorithms

    Author: John Schulman 原文摘要 我们提出了一种新的强化学习的 策略梯度方法,该方法在 与环境互动中进行采样 和 使用随机梯度提升算法优化"surrogate" ...

  8. 【强化学习】DDPG(Deep Deterministic Policy Gradient)算法详解

    http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html 引用莫凡老师的素材 https://morvanzhou.github.io/tut ...

  9. 【强化学习】Policy Gradient算法详解

    DeepMind公开课https://sites.google.com/view/deep-rl-bootcamp/lectures David Silver教程 http://www0.cs.ucl ...

最新文章

  1. 技术扫盲:关于低代码编程的可持续性交付设计和分析
  2. 独家 | Python利用深度学习进行文本摘要的综合指南(附教程)
  3. i7跑服务器系统,i7主机做服务器
  4. 2030年,逾1亿中国人需要学习新技能并转换岗位,这就是摩擦性失业
  5. Navicat 提示 Access violation at address ***(771B7870) in module ‘ntdll.dll’. Read of address ***(220A
  6. maven如何实现创建带源代码的jar包
  7. 浏览器兼容性问题汇总
  8. ChinaJoy 第二天,是谁独得万千宠爱?
  9. 完美仿MSN右下角弹出广告代码并可自动消失,附带关闭按钮
  10. Dijkstra算法图解
  11. 【智驾深谈】从滴滴Uber合并看中国智能出行“三国演义”
  12. 5款内容超赞的微信小程序,每一个都是深藏!
  13. 谷歌浏览器(1) : 主题
  14. YOGA Tablet 2 1371f 触屏失效,无声卡,蓝牙键盘都无法使用的解决办法
  15. 添加一个pv到vg后,误删新加入的pv,报 pv * not found or rejected by a filter
  16. 快应用中心运营平台项目心得
  17. 腾讯云DNS 域名服务器(nameservers)修改
  18. Pikachu靶场之文件包含漏洞详解
  19. cesium 显示纯色地球
  20. 实战十四:基于线性回归预测环境空气质量 代码+数据

热门文章

  1. 各大程序员兼职平台靠谱嘛?这一篇文章就够了
  2. js禁止鼠标滑轮_js 禁止鼠标滑轮滚动的事件
  3. Android 图片设置坐标点
  4. 计算时间差 html,计算时间差的公式
  5. 软件工程使用的编程语言
  6. 仿照源码,手写一个自定义 Spring MVC 框架
  7. win10易升_小科普 | 彻底关闭Win10自动更新
  8. QT入门之UI设计界面
  9. Wireshark:抓取微信网址
  10. Kotlin-Android世界的一股清流-Class类