学习网址:https://www.bilibili.com/video/BV1We4y1w7Us?p=3&vd_source=11b7b2a48a6540147996012cfff314e8

第一节P1:深度强化学习中用到的基本概念
P2:关于DQN的输入及输出,以及详细的讲了其更新Q的原理及过程。
P3:策略函数π【是一个概率密度函数,所有结果值加和为1】

策略函数与Q
都是深度强化学习对未来预测的途径,知道其一即可解决问题。不同点在于,Q*是只与当前S与A有关的,它针对某一时刻的S,对该时刻可以进行的动作A打分,机器选择得分高的动作以继续游戏。而策略函数是对该时刻S可进行的动作A计算出概率,然后机器进行一次随机抽样以继续进行游戏。

P4:更新过程如下,用TD更新w,以此来改进Qπ(价值网络)。用w来更新θ,以此来改进π(策略网络)。

P5:强化学习有奖励,而模仿学习(如limitation learning)没有奖励,其训练的目的是模仿行为。
Behavior cloning 是一种limitation learning,是一种分类或回归方法,而不是强化学习方法
P6:蒙特卡洛算法-一种近似求解的算法
P7:Sarsa算法-TD算法的一种
P8:Q-learning -也是一种TD算法,Sarsa是用来训练Qπ
Q-learning 是用来训练Q*

根据视频学习DQN(Deep Q-learning)相关推荐

  1. Deep Q learning: DQN及其改进

    Deep Q Learning Generalization Deep Reinforcement Learning 使用深度神经网络来表示 价值函数 策略 模型 使用随机梯度下降(SGD)优化los ...

  2. 深度强化学习(Deep Reinforcement Learning)的资源

    深度强化学习(Deep Reinforcement Learning)的资源 2015-04-08 11:21:00|  分类: Torch |  标签:深度强化学习   |举报 |字号 订阅 Goo ...

  3. CNNs and Deep Q Learning

    前面的一篇博文介绍了函数价值近似,是以简单的线性函数来做的,这篇博文介绍使用深度神经网络来做函数近似,也就是Deep RL.这篇博文前半部分介绍DNN.CNN,熟悉这些的读者可以跳过,直接看后半部分的 ...

  4. [PARL强化学习]Sarsa和Q—learning的实现

    [PARL强化学习]Sarsa和Q-learning的实现 Sarsa和Q-learning都是利用表格法再根据MDP四元组<S,A,P,R>:S: state状态,a: action动作 ...

  5. 【强化学习】Deep Q Network深度Q网络(DQN)

    1 DQN简介 1.1 强化学习与神经网络 该强化学习方法是这么一种融合了神经网络和Q-Learning的方法,名字叫做Deep Q Network. Q-Learning使用表格来存储每一个状态st ...

  6. 深度强化学习—— 译 Deep Reinforcement Learning(part 0: 目录、简介、背景)

    深度强化学习--概述 翻译说明 综述 1 简介 2 背景 2.1 人工智能 2.2 机器学习 2.3 深度学习 2.4 强化学习 2.4.1 Problem Setup 2.4.2 值函数 2.4.3 ...

  7. DQN(Deep Q Network)及其代码实现

    为什么需要DQN 我们知道,最原始的Q-learning算法在执行过程中始终需要一个Q表进行记录,当维数不高时Q表尚可满足需求,但当遇到指数级别的维数时,Q表的效率就显得十分有限.因此,我们考虑一种值 ...

  8. 深度学习(19): Deep Reinforcement learning(Policy gradientinteract with environment)

    Deep Reinforcement learning AL=DL+RL Machine 观察到环境的状态,做出一些行为对环境产生影响,环境根据machine的改变给予一个reward.正向的acti ...

  9. DQN(Deep Q Network)论文笔记

    1.简介 Deep Q Network 属于强化学习.本文是从<Playing Atari with Deep Reinforcement Learning>翻译总结的. 本模型包括卷积神 ...

最新文章

  1. 习题10-3 递归实现指数函数 (15 分)
  2. html5模拟keyup事件
  3. 【Linux】18_日志管理rsyslog系统日志管理
  4. c++ eos智能合约开发_TrustBase平台智能合约的开发与实现
  5. python文本提取_使用Python从HTML文件中提取文本
  6. bzoj4773 负环
  7. python anaconda安装_Python - 安装并配置Anaconda环境
  8. hbase 页面访问_HBase
  9. c语言float如何做减法,利用c语言设计开发一个简单计算器,可进行加减乘除运算....
  10. [Tjoi2016Heoi2016]排序[01序列]
  11. 吴恩达机器学习(九)Precision、Recall、F-score、TPR、FPR、TNR、FNR、AUC、Accuracy
  12. 宜居指数c语言,城市功能日趋完善宜居指数持续提升
  13. 【CCCC】L2-019 悄悄关注 (25分),,模拟水题,STL大法好
  14. gb28181的sip通信
  15. 【信号与系统实验】实验七 音频信号的采集和传输
  16. Glide库里,藏了一套你心心念念的GIF压缩工具集
  17. 中学计算机兴趣小组 计划,陵口中学科技兴趣小组工作计划
  18. 技术人员的职业发展规划思考书单推荐
  19. (翻译)优秀价格表的7种设计策略
  20. (比较器)Comparator比较器

热门文章

  1. ReloadFunction
  2. 蛋糕连锁店网站管理系统(含小程序) 是海南赞赞网络公司针对甜品糕点连锁企业开发的建站系统
  3. python loadlibrary_使用py2exe教程时出现LoadLibrary(pythondll)失败错误
  4. 如何开发股票软件404
  5. 网易狼人杀维护服务器,《狼人杀-官方正版》06月10日维护公告
  6. WLW(windows live writer) 语法高亮插件
  7. springboot项目集成java接口文档生成工具knife4j
  8. 不定积分——lnax与lnx相差一个C
  9. 《纯干货-6》Stanford University 2017年最新《Tensorflow与深度学习实战》视频课程分享
  10. 投资经理,软件与互联网产品经理一个新去向?