1 废话

开始要认真的读论文的,计划每天晚上回宿舍看一半,两天看完一篇,第三天写博客总结,虽然有点慢吧,但是积少成多嘛~

今天先介绍第一篇,也是深度强化学习的开山之作。

2 动机

一般把这篇论文称作深度强化学习的第一篇论文,该论文发表与2013年,受到2012年Hitton和学生Alex在image net获得冠军的影响,第一次将深度学习和强化学习结合,其实就是用了CNN做观测的处理。

3 内容

(1)观测的图像的预处理(后文提到的观测为预处理后的):把210*160,128种颜色的转为灰度图,然后下采样得到110*84,然后裁剪为84*84。

(2)观测到状态的处理:将最近的4次的观测作为当前的状态,也就是网络的输入是84*84*4。

(3)网络结构:第一个隐藏层是16个8*8的卷积核,stride为4,激活函数为rectifier nonlinearity(我看不懂,是RELU吗?求解);第二个隐藏层是32个4*4的卷积核,stride为2,激活函数同样为rectifier nonlinearity;第三个隐藏层是全连接,256个神经元;最后输出层同样是全连接,神经元个数与动作个数相同(4到18个)。

(4)经验回放(Experience Replay):一个FIFO,大小为1000万。

(5)奖赏的设定:获得正的游戏分数时奖赏为1,负的为-1,否则为0.

(6)训练的过程:优化方法为RMSProp,batch size 为32,训练时使用-greedy,其中在前100万次训练中从1降到0.1,之后一直未0.1.

(7)算法:如下图:

DQN算法

4 结果

测试了7个游戏,6个超越现有算法,3个超越人类顶尖选手,主要是算法具有通用性,不同的游戏网络结构和超参数基本一样,不需要先验知识,而当前算法需要很多专家知识,所以可以说是结果特别好吧。

参考:Playing Atari with Deep Reinforcement Learning

RL论文阅读【一】Playing Atari with Deep Reinforcement Learning相关推荐

  1. 【论文翻译】Playing Atari with Deep Reinforcement Learning

    摘要:我们第一个提出了"利用强化学习从高维输入中直接学习控制策略"的深度学习模型.该模型是一个卷积神经网络,经过Q-learning训练,输入为原始像素,输出为:"用来估 ...

  2. 论文笔记之:Playing Atari with Deep Reinforcement Learning

    Playing Atari with Deep Reinforcement Learning <Computer Science>, 2013 Abstract: 本文提出了一种深度学习方 ...

  3. 算法笔记:Playing Atari with Deep Reinforcement Learning

    Playing Atari with Deep Reinforcement Learning 比较尴尬,上篇文章不是DQN的来源,这篇才是.上篇Nature文章对于DQN做出的改进上次没读明白,查看其 ...

  4. [DQN] Playing Atari with Deep Reinforcement Learning

    论文链接:https://arxiv.org/abs/1312.5602 引用:Mnih V, Kavukcuoglu K, Silver D, et al. Playing atari with d ...

  5. 【强化学习】Playing Atari with Deep Reinforcement Learning (2013)

    Playing Atari with Deep Reinforcement Learning (2013) 这篇文章提出了第一个可以直接用强化学习成功学习控制policies的深度学习模型. 输入是r ...

  6. 深度强化学习篇2:从Playing Atari with Deep Reinforcement Learning 看神经网络的输入,学习的状态空间

    Introduction:学习直接从高维的感观输入(视觉,语音)去直接控制智能体是强化学习一个长期的挑战.一些成功的RL应用都是依赖于hand-crafted的特征.最近深度学习的进步使提取高水平的特 ...

  7. Paper Reading 1 - Playing Atari with Deep Reinforcement Learning

    来源:NIPS 2013 作者:DeepMind 理解基础: 增强学习基本知识 深度学习 特别是卷积神经网络的基本知识 创新点:第一个将深度学习模型与增强学习结合在一起从而成功地直接从高维的输入学习控 ...

  8. 论文总结 - Playing Atari with Deep Reinforcement Learning

    论文地址

  9. 【论文理解】DQN:Playing Atari with Deep Reinforcement Learning

    特点 强化学习和深度学习结合 使用原始的游戏画面作为输入,使用nn模型提取特征 使用深度网络输出作为选在动作a的价值. 使用内存空间来缓存历史行为,状态以及奖励值. 算法流程 对于转换状态的rewar ...

最新文章

  1. Linux环境编程--waitpid与fork与execlp
  2. 在Windows系统上安装Ruby On Rails
  3. mysql php 入门_第一节 数据库概述_MySQL_php入门教程
  4. php柱状图html代码,html5生成柱状图(条形图)效果的实例代码
  5. MQ产品比较-ActiveMQ-RocketMQ
  6. webpack 配置 react-pro
  7. MySQL--timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性
  8. erp系统是什么软件有哪些
  9. 计算机毕业设计php的村镇干部绩效考核系统
  10. C语言求1000以内完数
  11. Netbean6.1中svn配置
  12. 壮阔与波澜:互联网十年创业记
  13. java openssl rsa_Java中使用OpenSSL生成的RSA公私钥进行数据加解密
  14. Hexo博客使用 Next主题 后的一些相关配置 记录
  15. linux中tac命令详解,一天一个shell命令 linux文本操作系列-tac,rev命令详解
  16. 豆瓣上征婚交友的小姐姐们
  17. 沙滩啤酒win7主题【rmzt】
  18. 计步器java计算月平均,我们行走时,计步器都会纪录,那计步器是怎么计算我们的步数的?...
  19. 第一篇 Frankle-Mccan去雾算法
  20. IBM 能靠 2nm 芯片翻身吗?

热门文章

  1. (原创干货)融资、路演-日常思考实战框架学习第七天
  2. Mac删除文件提示“不能删除xx项目,正在使用中”
  3. Wallpaper Engine壁纸提取
  4. ip地址的分类及地址范围
  5. 3D风车动画CSS HTML代码
  6. 域适应(Domain Adaptation)综述
  7. 作物产量常用的单位换算公式
  8. Python实现网络聊天
  9. AirPods Pro好在哪
  10. 极客时间和极客学院_极客需要告诉我们的父母有关安全可靠地在线购物的信息