强化学习《基于策略 - Policy Grident》

之前学习了机器学习，深度学习，NLP，都是均有涉猎，也不是贪心不足，而是保持着对新奇领域的好奇心，不断去学习，看看是啥样子的，
最近看了李宏毅老师的教学视频，感觉哈，要学习的东西好多，AI领域太广泛了。
不过，千里之行始于足下，Bettr late than never。
希望能得出其中的一些精髓性的东西来，跨领域会带俩不一样的思路哦。

一：强化学习（Reinforcement Learning）

简单的一句话就是，我们有一个Actor π，会从环境Environment观测到状态State（s），采取一定的措施 Action 比如a，在此同时，还会得到一定的奖励Reward比如 r。
Actor的目标就是去学习采取怎么的措施去最大化reward。

常见的场景就是，游戏博弈，棋类博弈等。让机器去学习下棋，打电玩游戏，某项特定任务等等。还运用在自动驾驶，飞行器，文本生成领域。

举个例子，打游戏，王者荣耀吧，让机器看到的是像素画面，产生的Action则是正确的动作，如移动上下左右，发一二三招，回城等。每一个action就是a_T，每一步骤获得的reward是r_T。等一轮结束后，这一轮叫做一个回合，也就是一个episode。

总的来说呢，我们有三种模型的强化学习，
一个是Policy-based，基于策略的，学习一个操作者Actor。也是本文要学习的。
一个是Value-based，基于价值的，学习一个评价者Critic。
一个是Model-based，基于模型的。
当然还有Policy-Value-based的混合型后面也会学习到。

二：基于策略的Policy Grident

好，有了上面的基础概念呢，我们就开始基于策略的RL学习之旅。
我们说了，基于策略的学习就是为了学习出一个好的Actor，让Actor根据环境State做出最好的Action，什么是最好的呢，就是得到的Reward是最大化的，或者结果玩游戏赢了就行。

我们把Actor产生Action的策略称为函数π。它的输入是从Environment观测的到state，输出是Action。我们的目的就是训练出这个Policy函数。

那它长什么样呢？它是一个Neural Network。以打游戏举例，输入就是游戏画面，在当前参数情况下。

三：怎么评估这个策略函数呢？

按照我们之前的经验，要得到一个网络，得先找到评估他好坏的方法，损失函数/代价函数就是这么来的啊，那我们也可以得到Actor的好坏评估，是骡子是马拉出来溜溜不就知道好坏了么，让他Actor跟环境好好交互一番，打N轮回合，看看得分情况，输赢情况就知道了好坏了，因此如果我们知道了怎么评估Actor的函数，不就可以用梯度下降去求解了么。

因此我们需要求出其偏导数。

四：具体计算

五：优化点

六：算法描述

强化学习《基于策略 - Policy Grident》相关推荐

深度强化学习-基于价值的强化学习-TD算法和Q学习（三）
本文主要介绍TD算法和Q学习算法目录 TD算法: Q学习算法: 同策略,异策略: TD算法: 即时间差分 (Temporal Difference):此处用举例子方法来帮助大家理解 1.假设我从天津 ...
强化学习入门：一文入门强化学习（Sarsa、Q learning、Monte-carlo learning、Deep-Q-Network等）
最近博主在看强化学习的资料,找到这两个觉得特别适合入门,一个是"一文入门深度学习",一个是"莫烦PYTHON". 建议:看资料的时候可以多种资料一起参考,一边调 ...
[强化学习实战]出租车调度-Q learning SARSA
出租车调度-Q learning & SARSA 案例分析实验环境使用同策时序差分学习调度异策时序差分调度资格迹学习调度结论代码链接案例分析本节考虑Gym库里出租车调度问题(T ...
深度强化学习-基于价值学习的高级技巧（五-1）
之前讲了TD算法和DQN,但实际上原始的DQN效果并不是很理想,因此本节主要讲解一些TD算法或者DQN的改进策略.包括经验回放, 高估问题(目标网络target network,double Q-le ...
深度强化学习-基于价值学习的高级技巧-对决网络（五-2）
对决网络实属比较复杂和难以理解,我在博客末尾加上一点自己的总结与理解,虽然可能不太严谨,但绝对通俗易懂,大家一看就会!如有问题欢迎留言,本人几乎全天在线. 目录公式: 网络: maxA的作用: 再理 ...
强化学习 | 基于Novelty-Pursuit的高效探索方法
深度强化学习实验室官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ Li, Ziniu, and Xiong-Hui ...
强化学习最前沿之Hierarchical reinforcement learning（一）
强化学习-最前沿系列深度强化学习作为当前发展最快的方向,可以说是百家争鸣的时代.针对特定问题,针对特定环境的文章也层出不穷.对于这么多的文章和方向,如果能撇一隅,往往也能够带来较多的启发. 本系列文 ...
分层强化学习综述：Hierarchical reinforcement learning: A comprehensive survey
论文名称:Hierarchical reinforcement learning: A comprehensive survey 论文发表期刊:ACM Computing Surveys 期刊影响因子 ...
dqn 应用案例_强化学习(十二) Dueling DQN
在强化学习(十一) Prioritized Replay DQN中,我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法,本文讨论另一种优化方法,Dueling DQN.本章内容主要参考了I ...
强化学习(十二) Dueling DQN
在强化学习(十一) Prioritized Replay DQN中,我们讨论了对DQN的经验回放池按权重采样来优化DQN算法的方法,本文讨论另一种优化方法,Dueling DQN.本章内容主要参考了I ...

强化学习《基于策略 - Policy Grident》

强化学习《基于策略 - Policy Grident》相关推荐

最新文章

热门文章