文章目录

  • Q-learning
  • Sarsa
  • Sarsa(λ)
  • Deep Q Network
  • Nature DQN
  • Double DQN
  • Prioritized Experience Replay (DQN)
  • Dueling DQN

Q-learning


Sarsa


Sarsa(λ)



Deep Q Network

Nature DQN

状态空间比较小的情况下用 q learning 还是可以的,但是在复杂的情况下,例如一个视频游戏,它的状态空间非常大,如果迭代地计算每一个 q 值是非常耗费时间耗费资源的。
这个时候我们就想不是直接的用迭代的方式去计算扣只,而是找到一个最优的 q 函数
找这个最优的q函数的方法就是用神经网络。
我们用一个深度神经网络来为每一组状态行为估计它们的 q 值,进而近似的估计出最优的 q 函数。
将 Q learning 和深度神经网络相结合就是 DQN

Double DQN

简单来说,DDQN通过解耦目标Q值动作的选择和目标Q值的计算这两步,来达到消除过度估计的问题

Prioritized Experience Replay (DQN)


DDQN使用两个Q网络,用当前Q网络计算最大Q值对应的动作,用目标Q网络计算这个最大动作对应的目标Q值,进而消除贪婪法带来的偏差。今天我们在DDQN的基础上,对经验回放部分的逻辑做优化。对应的算法是Prioritized Replay DQN。




这个博客讲的特别好:https://www.cnblogs.com/pinard/p/9797695.html

Dueling DQN

前面讲到的DDQN中,我们通过优化目标Q值的计算来优化算法,在Prioritized Replay DQN中,我们通过优化经验回放池按权重采样来优化算法。而在Dueling DQN中,我们尝试通过优化神经网络的结构来优化算法。


感谢大佬!!!https://www.cnblogs.com/pinard/category/1254674.html 啃完他的这些文章!!绝对有用!!!太赞了!!!

晴晴晴 讲 DQN 的发展史【入门级】相关推荐

  1. dqn系列梳理_讲人话系列——DQN初探之2048

    概述 强化学习也火了好久,最近才有空来充充电.老实说,最开始强化学习的知识点还挺多的,看了好久也没太弄清楚几个算法的关系,所以本着实践出真知的想法,找个案例做下.2048小游戏感觉本身复杂度还可以,又 ...

  2. 电脑的发展史_互联网发展史 硅谷传奇之苹果公司

    第三节 硅谷传奇之苹果公司 前一节我们讲了IBM,在上世纪60-80年代是八大电脑公司之首,这里讲的电脑,可不是我们现在大众所熟知的电脑,而是大型计算机.那到底有多大呢?这么说吧,要一辆金杯车才能装的 ...

  3. 电脑的发展史_互联网发展史 硅谷传奇之 IBM

    2节 硅谷传奇之 IBM 为什么要讲IBM呢? 互联网是因计算机而诞生的,互联网的发展史与电脑的发展史有很多是重叠的,而IBM是上世纪60年代八大电脑公司之首.在互联网席卷全球之前,在硅谷是以无线电. ...

  4. 计算机三维设计ppt,1 三维建模技术发展史.ppt

    文档介绍: SolidWorks三维设计与装配 3D Modeling and Assembly of SolidWorks 三维建模技术发展史 常见CAD软件介绍 SolidWorks 基础知识 S ...

  5. 强化学习基础知识笔记[6] - DQN

    参考资料 [1] 深度强化学习系列 第一讲 DQN 本文主要是对该资料学习的笔记,并且加入了一些自己的想法,如有错误欢迎指出. DQN 算法引入 DQN算法在Q-Learning算法上改进而来,具体改 ...

  6. 中国芯片人才大军在哪里?

    作者 | 谭婧 本文经授权转载自deardata(ID:deardata)再次和王志华教授见面,还是在清华大学微电子研究所.每每迈入清华大学的东主楼,总有一种时空倒流的感觉,和充斥着装修材料味道的崭新 ...

  7. 2022年 CSP-J1 CSP-S1 初赛 如何进行复习 如何做题

    第一题 单选题: 这个包含了2018年及以前年份的的单选或不定项选择(提高组 初赛) 以及问题求解题等考点 这一部分建议直接做历年的真题就可以了,至少要做最近的5年真题 做题的顺序:由最近往前做,也就 ...

  8. 中国芯片人才大军在哪里?IEEE Fellow,投资人,创业者,工程师

    原创:谭婧 再次和王志华教授见面,还是在清华大学微电子研究所.每每迈入清华大学的东主楼,总有一种时空倒流的感觉,和充斥着装修材料味道的崭新写字楼比起来,失去光泽的水磨石地面,让人一步就跨进了电视剧&l ...

  9. JAVA小白系列之世界初探

    转载请注明出处和作者,周末有免费学习分享,别忘了加群看通知:250431014 上一节我们目睹了编程世界的百家争鸣,各个语言都有它的专长之处,相信大家都了解了面向过程.面向对象.函数式编程.编译型语言 ...

最新文章

  1. 中国科学家将绘制最精细人脑三维“地图”
  2. Mac没有winnt格式_8款优秀软件,让你使用mac更舒适
  3. DevExpress控件使用的一点小问题
  4. Day03-卷积神经网络原理与使用
  5. mysql数据库备份工具expdb,使用expdp完成自动备份数据库案例以及遇到的问题
  6. 《ASP.NET Core 微服务实战》-- 读书笔记(第12章)
  7. Mybatis生成器插件扩展,生成OR操作
  8. 物联网领域的新贵LoRa
  9. JavaSE基础 ——运算符
  10. Android Binder实现浅析-Binder驱动
  11. Michio Kaku《Quantum Field Theory: A Modern Introduction》(加来道雄《量子场论:现代导引》)中文目录
  12. 推荐一本 python自动化框架pytest -上海悠悠
  13. OLAP和多维数据模型
  14. 超详细的《使用腾讯云移动直播开发连麦》
  15. Android Studio将本地计算机文件上传到模拟器scard文件中,显示不出
  16. 【神经网络】Pytorch构建自己的训练数据集
  17. 深度学习理论总结(1)
  18. 制作大白菜装系统U盘以及重装系统
  19. 图像的峰值信噪比(peak signal to noise ratio, PSNR)
  20. 十万行业质变正当时:华为云解出了一道产业AI公式

热门文章

  1. 如何在Ubuntu 18.04上安装Let‘s Encrypt SSL证书
  2. SpringBoot的基本使用
  3. NEXON TA1000/C-50-200/02/42G12MS100D6\-50-200℃
  4. 如何用python控制电脑的应用程序打不开_电脑问题,应用程序打不开了!!!
  5. tensorflow 2 实现 mfcc 获取
  6. VScode离线安装插件报错Corrupt ZIP: end of central directory record signature not found解决
  7. 关于Out of the box翻译【待整理】
  8. Prim算法(matlab实现)
  9. 斐波那契数列C语言详解
  10. 首届(2017)中国·呼和浩特创新创业创意大赛总决赛鸣锣开战