强化学习各概念整理(value/policy-based、on/off-policy、model-based/free、offline)
前言
如果你对这篇文章可感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。
value-based & policy-based
value-based:
- 通过建模训练 Q(s, a),测试时基于 s 选取使 Q 值最大的 a
- 典型算法:Sarsa、Q-learning、DQN
policy-based:
- 通过建模训练 p(s, a),即基于 s 得到不同 a 的概率,测试时选取概率最大的 a
- 典型算法:policy-gradient 思想下的 REINFORCE 算法
也有将这两种方式结合起来的算法,例如 Actor-Critic
on-policy & off-policy
on-policy:
- the target and the behavior polices are the same
- 典型算法:Sarsa
off-policy:
- the learning is from the data off the target policy
- 典型算法:Q-learning
算法对比说明 - Stackoverflow:
关键问题:为什么 Q-learning 是 off-policy 但不需要重要性采样?
- Q(S,A)←Q(S,A)+α[R+γmaxaQ(S′,a)−Q(S,A)]Q(S, A) \leftarrow Q(S, A)+\alpha\left[R+\gamma \max _{a} Q\left(S^{\prime}, a\right)-Q(S, A)\right]Q(S,A)←Q(S,A)+α[R+γmaxaQ(S′,a)−Q(S,A)]
- 更新公式中,A 来自 behavior policy,其只是决定了更新 Q 中的哪一个位置,但决定如何更新 Q 的 a 依然选取自 target policy,因此无需重要性采样
model-based & model-free
model-based:
- 从交互数据中学习到环境模型,并利用这个模型加速策略迭代的过程,减少交互样本数
- 典型算法:Model-based 强化学习论文合集
model-free:
- 未使用交互数据做策略迭代之外的事
- 典型算法:常听到的 DQN、DDPG、PPO 等
offline reinforcement learning
离线强化学习,即利用大量过往数据进行学习,且无可交互环境用于训练。
因此与之相对的,有可交互环境用于训练即为在线强化学习。
强化学习各概念整理(value/policy-based、on/off-policy、model-based/free、offline)相关推荐
- MachineLearning(6)-Daviad Silver强化学习课程脉络整理
强化学习-Daviad Silver强化学习课程脉络整理 1.lecture1 introduction 1.1 强化学习简介 1.2 强化学习类别 1.3 强化学习的主要问题 2.lecture2 ...
- 强化学习——基础概念
强化学习--基础概念 一.强化学习问题的提出 奖励 Reward 环境 Environment 状态 State 二.智能体 Agent 策略 Policy 价值函数 Value function 模 ...
- 强化学习的概念及学习过程
强化学习的概念 强化学习主要由智能体(agent)和环境(environment)两部分组成.智能体代表具有行为能力的物体,环境指智能体执行动作时所处的场景.其目标是寻找一个最优策略,使智能体在运动过 ...
- 深度强化学习——基本概念(1)
一.基本概念 1.状态.动作.智能体 可以认为状态就是第一张图的环境,虽然状态和observation还是有区别 智能体Agent是马里奥,动作Action就是上下左右的运动 2.策略函数(poli ...
- 【机器学习】强化学习的概念及马尔科夫决策
系列文章目录 第十八章 Python 机器学习入门之强化学习 目录 系列文章目录 前言 一.什么是强化学习? 二.强化学习算法的示例:火星探测器 三.强化学习的回报及折扣因子 四. 强化学习中的策略 ...
- 【重磅最新】163篇ICML-2021强化学习领域论文整理汇总(2021.06.07)
深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 作者:深度强化学习实验室 来源:整理自https: ...
- 【强化学习】从强化学习基础概念开始
在开始探索强化学习的诸多算法之前,我们先来了解一下它所涉及到的具体概念.这些概念将作为基石,一直陪伴着我们的学习之旅.为了能够将这些概念熟记在心,我们这一期做成强化学习概念小卡片,一张一张给大家展示和 ...
- 人工智能-强化学习-算法:Critic 【用于评价一个 Actor/Policy π】--> Q-Learning【用于训练出来一个最优 Actor/Policy π,擅长处理离散型 actions】
一.Critic的作用 Critic就是一个神经网络,以状态 s s s 为输入,以期望的Reward为输出. Critic的作用就是衡量一个Actor在某State状态下的优劣.Given an a ...
- 基于深度强化学习的车道线检测和定位(Deep reinforcement learning based lane detection and localization) 论文解读+代码复现
之前读过这篇论文,导师说要复现,这里记录一下.废话不多说,再重读一下论文. 注:非一字一句翻译.个人理解,一定偏颇. 基于深度强化学习的车道检测和定位 官方源码下载:https://github.co ...
- 李宏毅深度强化学习(国语)课程(2018) 笔记(二)Proximal Policy Optimization(PPO)
李宏毅深度强化学习(国语)课程(2018)_哔哩哔哩_bilibili on-policy:要learn的agent和环境互动的agent是同一个,即agent一边跟环境互动,一边学习: off-po ...
最新文章
- hmcl离线登陆_最好用的Java版启动器HMCL
- python中的format函数_python中的format 函数是什么?如何使用?
- mysql wampmysqld_wamp中mysqld占用内存大mysql5.6 | 学步园
- openresty开发系列4--nginx的配置文件说明
- 算法编程题的心得体会
- unity and MySql
- linux的ping工具,用linux下的tcping工具测试已禁ping服务器延迟
- php excel 分页,excel分页线怎么增加
- 飞鸽传书不能用?这里列出所有解决方法!
- C# 连接SQL Server数据库的几种方式--server+data source等方式
- 转 .net里如何判断中文字符长度
- 彻底火了!这份Python学习贴,90%程序员用的上!
- 最新图解 github 修改github地址 用户名
- Git使用疑难问题分析
- servlet和springMVC框架
- 使用PE破解Windows电脑密码
- JUnit 5- 概述
- 2.3 The 10-armed Testbed 10摇臂老虎机试验台
- DelayQueue用例
- 微信公众号订阅号与微信服务号有什么不同
热门文章
- display:table-cell 在页面中的应用
- 在ASP.net MVC中利用ajax配合razor进行局部加载
- C++对象数组的实例学习
- 编程珠玑:位图法排序
- apache log分析
- [导入]一个Form验证的方案
- js动态显示时间和日期
- python 无限循环小程序设计_Python如何实现小程序 无限求和平均
- python 做界面时如何使图片保持透明背景_Python利用matplotlib生成图片背景及图例透明的效果...
- pandas df中有几个数组_还在抱怨pandas运行速度慢?这几个方法会颠覆你的看法