强化学习《基于策略 - Policy Grident》
之前学习了机器学习,深度学习,NLP,都是均有涉猎,也不是贪心不足,而是保持着对新奇领域的好奇心,不断去学习,看看是啥样子的,
最近看了李宏毅老师的教学视频,感觉哈,要学习的东西好多,AI领域太广泛了。
不过,千里之行始于足下,Bettr late than never。
希望能得出其中的一些精髓性的东西来,跨领域会带俩不一样的思路哦。
一:强化学习(Reinforcement Learning)
简单的一句话就是,我们有一个Actor π,会从环境Environment观测到状态State(s),采取一定的措施 Action 比如a,在此同时,还会得到一定的奖励Reward比如 r。
Actor的目标就是去学习采取怎么的措施去最大化reward。
常见的场景就是,游戏博弈,棋类博弈等。让机器去学习下棋,打电玩游戏,某项特定任务等等。还运用在自动驾驶,飞行器,文本生成领域。
举个例子,打游戏,王者荣耀吧,让机器看到的是像素画面,产生的Action则是正确的动作,如移动上下左右,发一二三招,回城等。每一个action就是a_T,每一步骤获得的reward是r_T。等一轮结束后,这一轮叫做一个回合,也就是一个episode。
总的来说呢,我们有三种模型的强化学习,
一个是Policy-based,基于策略的,学习一个操作者Actor。也是本文要学习的。
一个是Value-based,基于价值的,学习一个评价者Critic。
一个是Model-based,基于模型的。
当然还有Policy-Value-based的混合型后面也会学习到。
二:基于策略的Policy Grident
好,有了上面的基础概念呢,我们就开始基于策略的RL学习之旅。
我们说了,基于策略的学习就是为了学习出一个好的Actor,让Actor根据环境State做出最好的Action,什么是最好的呢,就是得到的Reward是最大化的,或者结果玩游戏赢了就行。
我们把Actor产生Action的策略称为函数π。它的输入是从Environment观测的到state,输出是Action。我们的目的就是训练出这个Policy函数。
那它长什么样呢?它是一个Neural Network。以打游戏举例,输入就是游戏画面,在当前参数情况下。
三:怎么评估这个策略函数呢?
按照我们之前的经验,要得到一个网络,得先找到评估他好坏的方法,损失函数/代价函数就是这么来的啊,那我们也可以得到Actor的好坏评估,是骡子是马拉出来溜溜不就知道好坏了么,让他Actor跟环境好好交互一番,打N轮回合,看看得分情况,输赢情况就知道了好坏了,因此如果我们知道了怎么评估Actor的函数,不就可以用梯度下降去求解了么。
因此我们需要求出其偏导数。
四:具体计算
五:优化点
六:算法描述
强化学习《基于策略 - Policy Grident》相关推荐
- 深度强化学习-基于价值的强化学习-TD算法和Q学习(三)
本文主要介绍TD算法和Q学习算法 目录 TD算法: Q学习算法: 同策略,异策略: TD算法: 即时间差分 (Temporal Difference):此处用举例子方法来帮助大家理解 1.假设我从天津 ...
- 强化学习入门 : 一文入门强化学习 (Sarsa、Q learning、Monte-carlo learning、Deep-Q-Network等)
最近博主在看强化学习的资料,找到这两个觉得特别适合入门,一个是"一文入门深度学习",一个是"莫烦PYTHON". 建议:看资料的时候可以多种资料一起参考,一边调 ...
- [强化学习实战]出租车调度-Q learning SARSA
出租车调度-Q learning & SARSA 案例分析 实验环境使用 同策时序差分学习调度 异策时序差分调度 资格迹学习调度 结论 代码链接 案例分析 本节考虑Gym库里出租车调度问题(T ...
- 深度强化学习-基于价值学习的高级技巧(五-1)
之前讲了TD算法和DQN,但实际上原始的DQN效果并不是很理想,因此本节主要讲解一些TD算法或者DQN的改进策略.包括经验回放, 高估问题(目标网络target network,double Q-le ...
- 深度强化学习-基于价值学习的高级技巧-对决网络(五-2)
对决网络实属比较复杂和难以理解,我在博客末尾加上一点自己的总结与理解,虽然可能不太严谨,但绝对通俗易懂,大家一看就会!如有问题欢迎留言,本人几乎全天在线. 目录 公式: 网络: maxA的作用: 再理 ...
- 强化学习 | 基于Novelty-Pursuit的高效探索方法
深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ Li, Ziniu, and Xiong-Hui ...
- 强化学习 最前沿之Hierarchical reinforcement learning(一)
强化学习-最前沿系列 深度强化学习作为当前发展最快的方向,可以说是百家争鸣的时代.针对特定问题,针对特定环境的文章也层出不穷.对于这么多的文章和方向,如果能撇一隅,往往也能够带来较多的启发. 本系列文 ...
- 分层强化学习综述:Hierarchical reinforcement learning: A comprehensive survey
论文名称:Hierarchical reinforcement learning: A comprehensive survey 论文发表期刊:ACM Computing Surveys 期刊影响因子 ...
- dqn 应用案例_强化学习(十二) Dueling DQN
在强化学习(十一) Prioritized Replay DQN中,我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法,本文讨论另一种优化方法,Dueling DQN.本章内容主要参考了I ...
- 强化学习(十二) Dueling DQN
在强化学习(十一) Prioritized Replay DQN中,我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法,本文讨论另一种优化方法,Dueling DQN.本章内容主要参考了I ...
最新文章
- 记录值上调10_「阴阳师」10月16日维护更新公告,海国迷踪,迷影重重
- html5自带表单验证-美化改造
- mysql系统变量_MySQL 系统变量(system variables)
- 洛谷-DFS-1019-单词接龙-个人AC题解和公共AC题解笔记
- 剪绳子 算法_[校招-算法题]动态规划
- MCU VR班會(07)記錄
- c语言冒泡排序法程序填空_五种数组的排序方法(C语言)Part1
- java高级能力_java高级技术工程师该具备哪些能力?
- 车联网在智慧城市中的发展与应用
- 3DMAX卸载/完美解决安装失败/如何彻底卸载清除干净3DMAX各种残留注册表和文件的方法
- “鉴别服务开创者”沦为笑柄?裁判文书曝出得物APP无法鉴别真伪
- CSI笔记【9】:阵列信号处理及MATLAB实现(第2版)阅读随笔(一)
- python读数据库的通信协议是什么_Python中TCP协议的理解
- 数据挖掘之监督学习篇
- C语言入门 | c语言基础知识
- 判断N维矩阵是否是Monge矩阵的Java实现
- 5xx 系列内部服务器错误
- 第一章 JavaWEB专题之Http基础协议解析
- 【论文翻译笔记】Test Roll: Profit-Maximizing A/B Tests
- Advanced Installer 制作带升级功能的安装包