TensorFlow-11-策略网络

今日资料：
《Tensorflow 实战》－策略网络
代码：
https://github.com/awjuliani/DeepRL-Agents/blob/master/Policy-Network.ipynb

强化学习是机器学习的一个重要分支，可以解决连续决策的问题。

一个强化学习问题，主要包含三个概念，环境状态,行动,奖励, 强化学习的目标就是获得最多的累计奖励。

它有很多应用，比如控制机器人，无人驾驶，商品定价，库存管理，玩游戏，例如AlphaGo。

例如在围棋这个游戏中，环境状态指的是已经出现的某个局势，行动指在某个位置落子，奖励是指当前这步棋获得的目数，最终的目标就是在结束时总目数超过对手，它是以最终结果为目标，而不是只看当下某个行动带来的利益。

强化学习不像无监督学习那样完全没有学习目标，也不像监督学习那样有非常明确的目标，他的目标一般是变化的不明确的。在围棋游戏中19×19的棋盘带来了3^361种状态，这是无法通过暴力搜索来战胜人类的，所以就需要给计算机抽象思维的能力。AlphaGo 主要使用了快速走子，策略网络，估值网络，和蒙特卡洛搜索树等技术。

深度强化学习模型本质上也是神经网络，主要分为策略网络和估值网络。

强化学习中最重要的两类方法, Policy-based , Valu-based。

第一种是直接预测在某个环境状态下应该采取的行动，第二种是预测在某个环境状态下所有行动的期望价值，然后通过选择 Q 值最高的行动执行策略。

今天要先来实现一下策略网络，就是要建立一个神经网络模型，可以通过观察环境状态预测出目前最应该执行的策略以及可以获得的最大的期望收益。

我们不会告诉它什么才是比较好的行动，而是需要它通过试验样本自己学习出什么才是某个环境状态下比较好的行动, 也就是它的学习目标是期望价值，包括当前的奖励和未来潜在的奖励，会把未来所有的奖励乘以衰减系数。

策略模型的训练方法是 Policy Gradients，好的行动会带来高期望值，差的行动会带来低期望值，通过对这些样本的学习，模型会逐渐增加，选择好行动的概率。

今天的代码是要用 Tensorflow 创建一个基于策略网络的 Agent 来解决 CartPole 问题。这个问题是一个经典的可以用强化学习来解决的控制问题。就是在它的环境中有一个小车，在一个一维的无阻力轨道上行动，在车上绑着一个连接不太结实的杆儿，这个杆儿会左右摇晃。每个环境信息包含四个值，例如小车的位置速度等，我们不需要编写逻辑来控制小车，而是设计一个策略网络，让它自己从这些数值中学习到环境信息，并制定最佳策略。

安装gym，创建 CartPole 问题的环境。

import gym
env = gym.make('CartPole-v0')

首先，初始化环境，然后进行十次随机试验，在产生随机的行动，然后执行这些行动，并获得，然后把 reward 累加。

我们的策略网络是要使用一个简单的带有一个隐含层的 MLP，隐含层节点数为10，环境信息的维度为4。

首先创建 observation 的 placeholder，然后用 xavier 这个初始化算法来创建隐含层的权重W1，再用ReLu激活函数得到隐藏层的输出，同样初始化W2，再用 sigmoid 激活函数得到最后的输出概率。

优化器用adam算法，然后执行 updategrads 更新模型参数。

下面这个函数是用来估算每一个行动对应的潜在价值，越靠后的行动的期望价值越小，越靠前的价值越大。running add 就是潜在价值，GSM是衰减系数，我们要从后向前累计这些价值。

loglik 是当前行动对应的概率的对数，loss就是我们要做的优化目标。

总是验证次数为一万次，直到累计奖励达到200时停止训练。

gradbuffer 用来存储参数的梯度，完成一个 batch 试验之后再将总梯度更新到模型参数。

用 reshape 得到策略网络输入的格式，然后获得网络输出的概率 tfprob，然后在 0-1 之间随机抽样得到 action，如果它小于这个概率就利用行动取值为1，否则为0。

然后用 discount rewards 函数来计算每一步行动的潜在价值，并进行标准化。
用 newgrads 求解梯度，再将获得的梯度累加。

推荐阅读
历史技术博文链接汇总
也许可以找到你想要的

TensorFlow-11-策略网络相关推荐

2007年11月网络工程师考试试题
● 若某计算机系统由两个部件串联构成,其中一个部件的失效率为7×10-6/小时.若不考虑其他因素的影响,并要求计算机系统的平均故障间隔时间为105小时,则另一个部件的失效率应为 (1) /小时. (1 ...
七周三次课（11月29日） 10.11 Linux网络相关 10.12 firewalld和netfilter 10.13 netfilter5表5链介绍 10.14 iptables语法...
2019独角兽企业重金招聘Python工程师标准>>> 10.11 Linux网络相关 ifconfig 查看网卡ip (yum install net-tools) 安装 -a ...
七周三次课（1月24日） 10.11 Linux网络相关 10.12 firewalld和netfilter 10.13 netfilter5表5链介绍 10.14 iptables语法...
七周三次课(1月24日) 10.11 Linux网络相关 10.12 firewalld和netfilter 10.13 netfilter5表5链介绍 10.14 iptables语法 ====== ...
2005年11月网络工程师试题
●阵列处理机属于 (1) 计算机. (1)A. SISD B. SIMD C. MISD D. MIMD ●采用 (2) 不能将多个处理机互连构成多处理器系统. (2)A. STD总线 B. 交叉开关 ...
2022年5月、11月网络工程师真题详解
请点击↑关注.收藏,本博客免费为你获取精彩知识分享!有惊喜哟!! 2022年5月网络工程师科目二真题试题一: 某分支机构网络拓扑图如 1-1 所示,该网络通过 BGP 接收总部网络路由,设备 1 与 ...
训练策略网络和价值网络
阿尔法狗2016版本使用人类高手棋谱数据初步训练策略网络,并使用深度强化学习中的REINFORCE算法进一步训练策略网络.策略网络训练好之后,使用策略网络辅助训练价值网络.零狗(AlphaGo Zer ...
价值网络和策略网络的简单融合
最近alphazero都已经出来了,貌似比alphago zero更厉害,在alphazero和alphago zero中使用了比较新的策略,将价值网络和策略网络进行了融合,即同一个网络,产生两个不 ...
TensorFlow创建DeepDream网络
TensorFlow创建DeepDream网络 Google 于 2014 年在 ImageNet 大型视觉识别竞赛(ILSVRC)训练了一个神经网络,并于 2015 年 7 月开放源代码. 该网络学 ...
使用Tensorflow实现残差网络ResNet-50
这篇文章讲解的是使用Tensorflow实现残差网络resnet-50. 侧重点不在于理论部分,而是在于代码实现部分.在github上面已经有其他的开源实现,如果希望直接使用代码运行自己的数据,不建议 ...
Linux下必须知道的11个网络命令
Linux下必须知道的11个网络命令作者:佚名字体:[增加减小] 来源:互联网时间:03-06 15:54:29 我要评论无论你是要下载文件.诊断网络问题.管理网络接口,还是查看网络的统计数 ...

TensorFlow-11-策略网络

TensorFlow-11-策略网络相关推荐

最新文章

热门文章