强化学习各概念整理（value/policy-based、on/off-policy、model-based/free、offline）

前言

如果你对这篇文章可感兴趣，可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」，查看完整博客分类与对应链接。

value-based & policy-based

value-based：

通过建模训练 Q(s, a)，测试时基于 s 选取使 Q 值最大的 a
典型算法：Sarsa、Q-learning、DQN

policy-based：

通过建模训练 p(s, a)，即基于 s 得到不同 a 的概率，测试时选取概率最大的 a
典型算法：policy-gradient 思想下的 REINFORCE 算法

也有将这两种方式结合起来的算法，例如 Actor-Critic

on-policy & off-policy

on-policy：

the target and the behavior polices are the same
典型算法：Sarsa

off-policy：

the learning is from the data off the target policy
典型算法：Q-learning

算法对比说明 - Stackoverflow：

关键问题：为什么 Q-learning 是 off-policy 但不需要重要性采样？

Q(S,A)←Q(S,A)+α[R+γmax⁡aQ(S′,a)−Q(S,A)]Q(S, A) \leftarrow Q(S, A)+\alpha\left[R+\gamma \max _{a} Q\left(S^{\prime}, a\right)-Q(S, A)\right]Q(S,A)←Q(S,A)+α[R+γmaxaQ(S′,a)−Q(S,A)]
更新公式中，A 来自 behavior policy，其只是决定了更新 Q 中的哪一个位置，但决定如何更新 Q 的 a 依然选取自 target policy，因此无需重要性采样

model-based & model-free

model-based：

从交互数据中学习到环境模型，并利用这个模型加速策略迭代的过程，减少交互样本数
典型算法：Model-based 强化学习论文合集

model-free：

未使用交互数据做策略迭代之外的事
典型算法：常听到的 DQN、DDPG、PPO 等

offline reinforcement learning

离线强化学习，即利用大量过往数据进行学习，且无可交互环境用于训练。

因此与之相对的，有可交互环境用于训练即为在线强化学习。

强化学习各概念整理（value/policy-based、on/off-policy、model-based/free、offline）相关推荐

MachineLearning(6)-Daviad Silver强化学习课程脉络整理
强化学习-Daviad Silver强化学习课程脉络整理 1.lecture1 introduction 1.1 强化学习简介 1.2 强化学习类别 1.3 强化学习的主要问题 2.lecture2 ...
强化学习——基础概念
强化学习--基础概念一.强化学习问题的提出奖励 Reward 环境 Environment 状态 State 二.智能体 Agent 策略 Policy 价值函数 Value function 模 ...
强化学习的概念及学习过程
强化学习的概念强化学习主要由智能体(agent)和环境(environment)两部分组成.智能体代表具有行为能力的物体,环境指智能体执行动作时所处的场景.其目标是寻找一个最优策略,使智能体在运动过 ...
深度强化学习——基本概念(1)
一.基本概念 1.状态.动作.智能体可以认为状态就是第一张图的环境,虽然状态和observation还是有区别智能体Agent是马里奥,动作Action就是上下左右的运动 2.策略函数(poli ...
【机器学习】强化学习的概念及马尔科夫决策
系列文章目录第十八章 Python 机器学习入门之强化学习目录系列文章目录前言一.什么是强化学习? 二.强化学习算法的示例:火星探测器三.强化学习的回报及折扣因子四. 强化学习中的策略 ...
【重磅最新】163篇ICML-2021强化学习领域论文整理汇总(2021.06.07)
深度强化学习实验室官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 作者:深度强化学习实验室来源:整理自https: ...
【强化学习】从强化学习基础概念开始
在开始探索强化学习的诸多算法之前,我们先来了解一下它所涉及到的具体概念.这些概念将作为基石,一直陪伴着我们的学习之旅.为了能够将这些概念熟记在心,我们这一期做成强化学习概念小卡片,一张一张给大家展示和 ...
人工智能-强化学习-算法：Critic 【用于评价一个 Actor/Policy π】--＞ Q-Learning【用于训练出来一个最优 Actor/Policy π，擅长处理离散型 actions】
一.Critic的作用 Critic就是一个神经网络,以状态 s s s 为输入,以期望的Reward为输出. Critic的作用就是衡量一个Actor在某State状态下的优劣.Given an a ...
基于深度强化学习的车道线检测和定位（Deep reinforcement learning based lane detection and localization）论文解读+代码复现
之前读过这篇论文,导师说要复现,这里记录一下.废话不多说,再重读一下论文. 注:非一字一句翻译.个人理解,一定偏颇. 基于深度强化学习的车道检测和定位官方源码下载:https://github.co ...
李宏毅深度强化学习(国语)课程(2018) 笔记（二）Proximal Policy Optimization（PPO）
李宏毅深度强化学习(国语)课程(2018)_哔哩哔哩_bilibili on-policy:要learn的agent和环境互动的agent是同一个,即agent一边跟环境互动,一边学习: off-po ...