实战深度强化学习DQN-理论和实践:https://www.jianshu.com/p/10930c371cac
DQN三大改进(一)-Double DQN:https://www.jianshu.com/p/fae51b5fe000
DQN三大改进(二)-Prioritised replay:https://www.jianshu.com/p/db14fdc67d2c
DQN三大改进(三)-Dueling Network:https://www.jianshu.com/p/b421c85796a2

基于值的强化学习算法的基本思想是根据当前的状态,计算采取每个动作的价值,然后根据价值贪心的选择动作。如果我们省略中间的步骤,即直接根据当前的状态来选择动作。

在强化学习中,还有另一种很重要的算法,即策略梯度(Policy Gradient)。之前我们已经介绍过策略梯度的基本思想和实现了,大家可以有选择的进行预习和复习:
深度强化学习-Policy Gradient基本实现:https://www.jianshu.com/p/2ccbab48414b

本文介绍的Actor-Critic算法呢,就是结合了上面两种算法的基本思想而产生的,什么是Actor?什么是Critic?二者是如何结合的,通过这篇文章,我们来一探究竟。

本篇文章的大部分内容均学习自莫烦老师的强化学习课程,大家可以在b站上找到相关的视频:https://www.bilibili.com/video/av16921335/#page=22

1、Actor-Critic算法原理

我们为什么要有Actor-Critic呢,下面的话摘自莫烦老师的文章:

我们有了像 Q-learning这么伟大的算

Actor-Critic 网络相关推荐

  1. 【MATLAB强化学习工具箱】学习笔记--actor网络和critic网络的结果放在哪里?

    原算例见 [MATLAB强化学习工具箱]学习笔记--在Simulink环境中训练智能体Create Simulink Environment and Train Agent_bear_miao的博客- ...

  2. 【强化学习】Actor Critic原理

    PG算法是一种只基于policy的一种方法,存在的问题就是该算法需要完整的状态序列,且单独对策略函数进行迭代更新,不太容易收敛. Actor-critic方法呢是一种将 策略(Policy Based ...

  3. 深度增强学习--Actor Critic

    Actor Critic value-based和policy-based的结合 实例代码 1 import sys 2 import gym 3 import pylab 4 import nump ...

  4. 强化学习论文笔记:Soft Actor Critic算法

    Soft Actor Critic是伯克利大学团队在2018年的ICML(International Conference on Machine Learning)上发表的off-policy mod ...

  5. 【强化学习笔记】2020 李宏毅 强化学习课程笔记(PPO、Q-Learning、Actor + Critic、Sparse Reward、IRL)

    前言 如果你对这篇文章感兴趣,可以点击「[访客必读 - 指引页]一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接. 文章目录 前言 Introduction Two Learning Mod ...

  6. actor critic玩cartpole

    只能玩到reward=200多,git actor critic采用单步更新,每一步游戏后Actor和Critic都进行学习. Actor网络使用交叉熵损失,是因为r_s为正时需要增加选择a_s的概率 ...

  7. CS294(285) Actor Critic算法系列

    CS294(285) Actor Critic算法系列 CS294(285) Actor Critic之agents(https://duanzhihua.blog.csdn.net/article/ ...

  8. An Actor–Critic based controller for glucose regulation in type 1 diabetes

    a b s t r a c t \qquad 控制器基于Actor-Critic(AC)算法,受强化学习和最优控制理论(optimal control theory)的启发.控制器的主要特性是: 同时 ...

  9. 强化学习中的调参经验与编程技巧(on policy篇)

    ©PaperWeekly 原创 · 作者|张恒瑞 单位|北京交通大学 研究方向|强化学习 在强化学习的训练过程中,常常会遇见以下问题: 在某一环境中可以 work 的超参数拿去训练别的环境却训练不出来 ...

  10. 人工智能-强化学习-算法:Critic 【用于评价一个 Actor/Policy π】--> Q-Learning【用于训练出来一个最优 Actor/Policy π,擅长处理离散型 actions】

    一.Critic的作用 Critic就是一个神经网络,以状态 s s s 为输入,以期望的Reward为输出. Critic的作用就是衡量一个Actor在某State状态下的优劣.Given an a ...

最新文章

  1. 获取Gitlab项目的Token
  2. 抽象工厂模式(abstract factory)
  3. JAVA WEB快速入门之从编写一个JSP WEB网站了解JSP WEB网站的基本结构、调试、部署...
  4. Android 根证书管理与证书验证
  5. 《深入理解Android》一2.1 浏览器工作原理概述
  6. TypeScript 的 type predicates
  7. std::ostream_iterator、std::cout、std:copy实现输出
  8. java实现邮件发送准备工作(前期配置)
  9. Newtonsoft.Json反序列化(Deserialize)出错:Bad JSON escape sequence
  10. python static 的用法_Python中static相关知识小结
  11. TikZ学习笔记番外篇: 使用tikzcd包绘制交换图
  12. 基于Java的网络教学系统
  13. 计算机无法登陆提示rpc服务器不可用,电脑提示RPC服务器不可用的解决方法
  14. 【ZYNQ】从入门到秃头01 初识ZYNQ(PS和PL之间连接)
  15. 三维人脸_无法打开gl\glaux.h头文件及无法生成 SAFESEH 映像的解决方法
  16. python的seed和tensorflow的seed
  17. 第二届SLAM暑期学校和全国技术论坛有感
  18. 技巧 | 如何画出漂亮的深度学习模型图
  19. 学习rtklib(三)
  20. 资源网站合集 五个值得你收藏的网站

热门文章

  1. diea快捷键及自动补全
  2. 太空物体(一般情况)
  3. vue如何引入icon图标并使用
  4. 优秀案例:25个伟大的企业 LOGO 设计
  5. pyqt5在图像上绘制矩形框
  6. mmread、mmplay 用法
  7. TinyXml Documentation 翻译 TinyXML Tutorial翻译
  8. Sprint评审会目的、内容及谁会参与?
  9. 一篇文章看懂变量提升(hoisting)
  10. Do not stand at my grave and weep