实战深度强化学习DQN-理论和实践：https://www.jianshu.com/p/10930c371cac
DQN三大改进(一)-Double DQN：https://www.jianshu.com/p/fae51b5fe000
DQN三大改进(二)-Prioritised replay：https://www.jianshu.com/p/db14fdc67d2c
DQN三大改进(三)-Dueling Network：https://www.jianshu.com/p/b421c85796a2

基于值的强化学习算法的基本思想是根据当前的状态，计算采取每个动作的价值，然后根据价值贪心的选择动作。如果我们省略中间的步骤，即直接根据当前的状态来选择动作。

在强化学习中，还有另一种很重要的算法，即策略梯度(Policy Gradient)。之前我们已经介绍过策略梯度的基本思想和实现了，大家可以有选择的进行预习和复习：
深度强化学习-Policy Gradient基本实现:https://www.jianshu.com/p/2ccbab48414b

本文介绍的Actor-Critic算法呢，就是结合了上面两种算法的基本思想而产生的，什么是Actor？什么是Critic？二者是如何结合的，通过这篇文章，我们来一探究竟。

本篇文章的大部分内容均学习自莫烦老师的强化学习课程，大家可以在b站上找到相关的视频：https://www.bilibili.com/video/av16921335/#page=22

1、Actor-Critic算法原理

我们为什么要有Actor-Critic呢，下面的话摘自莫烦老师的文章：

我们有了像 Q-learning这么伟大的算

Actor-Critic 网络相关推荐

【MATLAB强化学习工具箱】学习笔记--actor网络和critic网络的结果放在哪里？
原算例见 [MATLAB强化学习工具箱]学习笔记--在Simulink环境中训练智能体Create Simulink Environment and Train Agent_bear_miao的博客- ...
【强化学习】Actor Critic原理
PG算法是一种只基于policy的一种方法,存在的问题就是该算法需要完整的状态序列,且单独对策略函数进行迭代更新,不太容易收敛. Actor-critic方法呢是一种将策略(Policy Based ...
深度增强学习--Actor Critic
Actor Critic value-based和policy-based的结合实例代码 1 import sys 2 import gym 3 import pylab 4 import nump ...
强化学习论文笔记：Soft Actor Critic算法
Soft Actor Critic是伯克利大学团队在2018年的ICML(International Conference on Machine Learning)上发表的off-policy mod ...
【强化学习笔记】2020 李宏毅强化学习课程笔记（PPO、Q-Learning、Actor + Critic、Sparse Reward、IRL）
前言如果你对这篇文章感兴趣,可以点击「[访客必读 - 指引页]一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接. 文章目录前言 Introduction Two Learning Mod ...
actor critic玩cartpole
只能玩到reward=200多,git actor critic采用单步更新,每一步游戏后Actor和Critic都进行学习. Actor网络使用交叉熵损失,是因为r_s为正时需要增加选择a_s的概率 ...
CS294(285) Actor Critic算法系列
CS294(285) Actor Critic算法系列 CS294(285) Actor Critic之agents(https://duanzhihua.blog.csdn.net/article/ ...
An Actor–Critic based controller for glucose regulation in type 1 diabetes
a b s t r a c t \qquad 控制器基于Actor-Critic(AC)算法,受强化学习和最优控制理论(optimal control theory)的启发.控制器的主要特性是: 同时 ...
强化学习中的调参经验与编程技巧（on policy篇）
©PaperWeekly 原创 · 作者|张恒瑞单位|北京交通大学研究方向|强化学习在强化学习的训练过程中,常常会遇见以下问题: 在某一环境中可以 work 的超参数拿去训练别的环境却训练不出来 ...
人工智能-强化学习-算法：Critic 【用于评价一个 Actor/Policy π】--＞ Q-Learning【用于训练出来一个最优 Actor/Policy π，擅长处理离散型 actions】
一.Critic的作用 Critic就是一个神经网络,以状态 s s s 为输入,以期望的Reward为输出. Critic的作用就是衡量一个Actor在某State状态下的优劣.Given an a ...

Actor-Critic 网络

1、Actor-Critic算法原理

Actor-Critic 网络相关推荐

最新文章

热门文章