之前学习了机器学习,深度学习,NLP,都是均有涉猎,也不是贪心不足,而是保持着对新奇领域的好奇心,不断去学习,看看是啥样子的,
最近看了李宏毅老师的教学视频,感觉哈,要学习的东西好多,AI领域太广泛了。
不过,千里之行始于足下,Bettr late than never。
希望能得出其中的一些精髓性的东西来,跨领域会带俩不一样的思路哦。

一:强化学习(Reinforcement Learning)

简单的一句话就是,我们有一个Actor π,会从环境Environment观测到状态State(s),采取一定的措施 Action 比如a,在此同时,还会得到一定的奖励Reward比如 r。
Actor的目标就是去学习采取怎么的措施去最大化reward。

常见的场景就是,游戏博弈,棋类博弈等。让机器去学习下棋,打电玩游戏,某项特定任务等等。还运用在自动驾驶,飞行器,文本生成领域。

举个例子,打游戏,王者荣耀吧,让机器看到的是像素画面,产生的Action则是正确的动作,如移动上下左右,发一二三招,回城等。每一个action就是a_T,每一步骤获得的reward是r_T。等一轮结束后,这一轮叫做一个回合,也就是一个episode。

总的来说呢,我们有三种模型的强化学习,
一个是Policy-based,基于策略的,学习一个操作者Actor。也是本文要学习的。
一个是Value-based,基于价值的,学习一个评价者Critic。
一个是Model-based,基于模型的。
当然还有Policy-Value-based的混合型后面也会学习到。

二:基于策略的Policy Grident

好,有了上面的基础概念呢,我们就开始基于策略的RL学习之旅。
我们说了,基于策略的学习就是为了学习出一个好的Actor,让Actor根据环境State做出最好的Action,什么是最好的呢,就是得到的Reward是最大化的,或者结果玩游戏赢了就行。

我们把Actor产生Action的策略称为函数π。它的输入是从Environment观测的到state,输出是Action。我们的目的就是训练出这个Policy函数。

那它长什么样呢?它是一个Neural Network。以打游戏举例,输入就是游戏画面,在当前参数情况下。


三:怎么评估这个策略函数呢?

按照我们之前的经验,要得到一个网络,得先找到评估他好坏的方法,损失函数/代价函数就是这么来的啊,那我们也可以得到Actor的好坏评估,是骡子是马拉出来溜溜不就知道好坏了么,让他Actor跟环境好好交互一番,打N轮回合,看看得分情况,输赢情况就知道了好坏了,因此如果我们知道了怎么评估Actor的函数,不就可以用梯度下降去求解了么。


因此我们需要求出其偏导数。

四:具体计算





五:优化点



六:算法描述

强化学习《基于策略 - Policy Grident》相关推荐

  1. 深度强化学习-基于价值的强化学习-TD算法和Q学习(三)

    本文主要介绍TD算法和Q学习算法 目录 TD算法: Q学习算法: 同策略,异策略: TD算法: 即时间差分 (Temporal Difference):此处用举例子方法来帮助大家理解 1.假设我从天津 ...

  2. 强化学习入门 : 一文入门强化学习 (Sarsa、Q learning、Monte-carlo learning、Deep-Q-Network等)

    最近博主在看强化学习的资料,找到这两个觉得特别适合入门,一个是"一文入门深度学习",一个是"莫烦PYTHON". 建议:看资料的时候可以多种资料一起参考,一边调 ...

  3. [强化学习实战]出租车调度-Q learning SARSA

    出租车调度-Q learning & SARSA 案例分析 实验环境使用 同策时序差分学习调度 异策时序差分调度 资格迹学习调度 结论 代码链接 案例分析 本节考虑Gym库里出租车调度问题(T ...

  4. 深度强化学习-基于价值学习的高级技巧(五-1)

    之前讲了TD算法和DQN,但实际上原始的DQN效果并不是很理想,因此本节主要讲解一些TD算法或者DQN的改进策略.包括经验回放, 高估问题(目标网络target network,double Q-le ...

  5. 深度强化学习-基于价值学习的高级技巧-对决网络(五-2)

    对决网络实属比较复杂和难以理解,我在博客末尾加上一点自己的总结与理解,虽然可能不太严谨,但绝对通俗易懂,大家一看就会!如有问题欢迎留言,本人几乎全天在线. 目录 公式: 网络: maxA的作用: 再理 ...

  6. 强化学习 | 基于Novelty-Pursuit的高效探索方法

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ Li, Ziniu, and Xiong-Hui ...

  7. 强化学习 最前沿之Hierarchical reinforcement learning(一)

    强化学习-最前沿系列 深度强化学习作为当前发展最快的方向,可以说是百家争鸣的时代.针对特定问题,针对特定环境的文章也层出不穷.对于这么多的文章和方向,如果能撇一隅,往往也能够带来较多的启发. 本系列文 ...

  8. 分层强化学习综述:Hierarchical reinforcement learning: A comprehensive survey

    论文名称:Hierarchical reinforcement learning: A comprehensive survey 论文发表期刊:ACM Computing Surveys 期刊影响因子 ...

  9. dqn 应用案例_强化学习(十二) Dueling DQN

    在强化学习(十一) Prioritized Replay DQN中,我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法,本文讨论另一种优化方法,Dueling DQN.本章内容主要参考了I ...

  10. 强化学习(十二) Dueling DQN

    在强化学习(十一) Prioritized Replay DQN中,我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法,本文讨论另一种优化方法,Dueling DQN.本章内容主要参考了I ...

最新文章

  1. 记录值上调10_「阴阳师」10月16日维护更新公告,海国迷踪,迷影重重
  2. html5自带表单验证-美化改造
  3. mysql系统变量_MySQL 系统变量(system variables)
  4. 洛谷-DFS-1019-单词接龙-个人AC题解和公共AC题解笔记
  5. 剪绳子 算法_[校招-算法题]动态规划
  6. MCU VR班會(07)記錄
  7. c语言冒泡排序法程序填空_五种数组的排序方法(C语言)Part1
  8. java高级能力_java高级技术工程师该具备哪些能力?
  9. 车联网在智慧城市中的发展与应用
  10. 3DMAX卸载/完美解决安装失败/如何彻底卸载清除干净3DMAX各种残留注册表和文件的方法
  11. “鉴别服务开创者”沦为笑柄?裁判文书曝出得物APP无法鉴别真伪
  12. CSI笔记【9】:阵列信号处理及MATLAB实现(第2版)阅读随笔(一)
  13. python读数据库的通信协议是什么_Python中TCP协议的理解
  14. 数据挖掘之监督学习篇
  15. C语言入门 | c语言基础知识
  16. 判断N维矩阵是否是Monge矩阵的Java实现
  17. 5xx 系列内部服务器错误
  18. 第一章 JavaWEB专题之Http基础协议解析
  19. 【论文翻译笔记】Test Roll: Profit-Maximizing A/B Tests
  20. Advanced Installer 制作带升级功能的安装包

热门文章

  1. 万法归宗之Hadoop编程无界限
  2. 在Oracle DG Standby库上启用flashback database功能
  3. 四旋翼飞行器的研究方向
  4. MySQL innodb load data.vs.insert 前因后果
  5. 试hp服务器不识别网卡一则
  6. 2006的最后一篇之学车大结局
  7. Serverless 实战 —— Serverless 的运行原理与组件架构
  8. 数据库面试 - 如何设计才可以让系统从未分库分表动态切换到分库分表上?
  9. Web实验一 国内旅游界面
  10. 如何设计一个良好的接口