前言

如果你对这篇文章可感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。


value-based & policy-based

value-based:

  • 通过建模训练 Q(s, a),测试时基于 s 选取使 Q 值最大的 a
  • 典型算法:Sarsa、Q-learning、DQN

policy-based:

  • 通过建模训练 p(s, a),即基于 s 得到不同 a 的概率,测试时选取概率最大的 a
  • 典型算法:policy-gradient 思想下的 REINFORCE 算法

也有将这两种方式结合起来的算法,例如 Actor-Critic


on-policy & off-policy

on-policy:

  • the target and the behavior polices are the same
  • 典型算法:Sarsa

off-policy:

  • the learning is from the data off the target policy
  • 典型算法:Q-learning

算法对比说明 - Stackoverflow:


关键问题:为什么 Q-learning 是 off-policy 但不需要重要性采样?

  • Q(S,A)←Q(S,A)+α[R+γmax⁡aQ(S′,a)−Q(S,A)]Q(S, A) \leftarrow Q(S, A)+\alpha\left[R+\gamma \max _{a} Q\left(S^{\prime}, a\right)-Q(S, A)\right]Q(S,A)←Q(S,A)+α[R+γmaxa​Q(S′,a)−Q(S,A)]
  • 更新公式中,A 来自 behavior policy,其只是决定了更新 Q 中的哪一个位置,但决定如何更新 Q 的 a 依然选取自 target policy,因此无需重要性采样

model-based & model-free

model-based:

  • 从交互数据中学习到环境模型,并利用这个模型加速策略迭代的过程,减少交互样本数
  • 典型算法:Model-based 强化学习论文合集

model-free:

  • 未使用交互数据做策略迭代之外的事
  • 典型算法:常听到的 DQN、DDPG、PPO 等

offline reinforcement learning

离线强化学习,即利用大量过往数据进行学习,且无可交互环境用于训练。

因此与之相对的,有可交互环境用于训练即为在线强化学习。

强化学习各概念整理(value/policy-based、on/off-policy、model-based/free、offline)相关推荐

  1. MachineLearning(6)-Daviad Silver强化学习课程脉络整理

    强化学习-Daviad Silver强化学习课程脉络整理 1.lecture1 introduction 1.1 强化学习简介 1.2 强化学习类别 1.3 强化学习的主要问题 2.lecture2 ...

  2. 强化学习——基础概念

    强化学习--基础概念 一.强化学习问题的提出 奖励 Reward 环境 Environment 状态 State 二.智能体 Agent 策略 Policy 价值函数 Value function 模 ...

  3. 强化学习的概念及学习过程

    强化学习的概念 强化学习主要由智能体(agent)和环境(environment)两部分组成.智能体代表具有行为能力的物体,环境指智能体执行动作时所处的场景.其目标是寻找一个最优策略,使智能体在运动过 ...

  4. 深度强化学习——基本概念(1)

    一.基本概念 1.状态.动作.智能体  可以认为状态就是第一张图的环境,虽然状态和observation还是有区别 智能体Agent是马里奥,动作Action就是上下左右的运动 2.策略函数(poli ...

  5. 【机器学习】强化学习的概念及马尔科夫决策

    系列文章目录 第十八章 Python 机器学习入门之强化学习 目录 系列文章目录 前言 一.什么是强化学习? 二.强化学习算法的示例:火星探测器 三.强化学习的回报及折扣因子 四. 强化学习中的策略 ...

  6. 【重磅最新】163篇ICML-2021强化学习领域论文整理汇总(2021.06.07)

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 作者:深度强化学习实验室 来源:整理自https: ...

  7. 【强化学习】从强化学习基础概念开始

    在开始探索强化学习的诸多算法之前,我们先来了解一下它所涉及到的具体概念.这些概念将作为基石,一直陪伴着我们的学习之旅.为了能够将这些概念熟记在心,我们这一期做成强化学习概念小卡片,一张一张给大家展示和 ...

  8. 人工智能-强化学习-算法:Critic 【用于评价一个 Actor/Policy π】--> Q-Learning【用于训练出来一个最优 Actor/Policy π,擅长处理离散型 actions】

    一.Critic的作用 Critic就是一个神经网络,以状态 s s s 为输入,以期望的Reward为输出. Critic的作用就是衡量一个Actor在某State状态下的优劣.Given an a ...

  9. 基于深度强化学习的车道线检测和定位(Deep reinforcement learning based lane detection and localization) 论文解读+代码复现

    之前读过这篇论文,导师说要复现,这里记录一下.废话不多说,再重读一下论文. 注:非一字一句翻译.个人理解,一定偏颇. 基于深度强化学习的车道检测和定位 官方源码下载:https://github.co ...

  10. 李宏毅深度强化学习(国语)课程(2018) 笔记(二)Proximal Policy Optimization(PPO)

    李宏毅深度强化学习(国语)课程(2018)_哔哩哔哩_bilibili on-policy:要learn的agent和环境互动的agent是同一个,即agent一边跟环境互动,一边学习: off-po ...

最新文章

  1. hmcl离线登陆_最好用的Java版启动器HMCL
  2. python中的format函数_python中的format 函数是什么?如何使用?
  3. mysql wampmysqld_wamp中mysqld占用内存大mysql5.6 | 学步园
  4. openresty开发系列4--nginx的配置文件说明
  5. 算法编程题的心得体会
  6. unity and MySql
  7. linux的ping工具,用linux下的tcping工具测试已禁ping服务器延迟
  8. php excel 分页,excel分页线怎么增加
  9. 飞鸽传书不能用?这里列出所有解决方法!
  10. C# 连接SQL Server数据库的几种方式--server+data source等方式
  11. 转 .net里如何判断中文字符长度
  12. 彻底火了!这份Python学习贴,90%程序员用的上!
  13. 最新图解 github 修改github地址 用户名
  14. Git使用疑难问题分析
  15. servlet和springMVC框架
  16. 使用PE破解Windows电脑密码
  17. JUnit 5- 概述
  18. 2.3 The 10-armed Testbed 10摇臂老虎机试验台
  19. DelayQueue用例
  20. 微信公众号订阅号与微信服务号有什么不同

热门文章

  1. display:table-cell 在页面中的应用
  2. 在ASP.net MVC中利用ajax配合razor进行局部加载
  3. C++对象数组的实例学习
  4. 编程珠玑:位图法排序
  5. apache log分析
  6. [导入]一个Form验证的方案
  7. js动态显示时间和日期
  8. python 无限循环小程序设计_Python如何实现小程序 无限求和平均
  9. python 做界面时如何使图片保持透明背景_Python利用matplotlib生成图片背景及图例透明的效果...
  10. pandas df中有几个数组_还在抱怨pandas运行速度慢?这几个方法会颠覆你的看法