深度学习(三十八)——深度强化学习(1)教程
教程
http://incompleteideas.net/sutton/book/the-book-2nd.html
《Reinforcement Learning: An Introduction》,Richard S. Sutton和Andrew G. Barto著。
注:Richard S. Sutton,加拿大计算机科学家,麻省大学阿姆赫斯特分校博士(1984年),阿尔伯塔大学教授。强化学习之父,研究该领域长达三十余年。
Andrew G. Barto,麻省大学阿姆赫斯特分校教授。Richard S. Sutton的导师。
http://incompleteideas.net/sutton/609%20dropbox/slides%20(pdf%20and%20keynote)/
Sutton的pdf和keynote
注:资料中的.key文件即为keynote文件。这种格式是苹果设备上的专用ppt格式,在其他系统中查看不了。
http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html
UCL Course on RL
David Silver,剑桥大学本科(1997年)+阿尔伯塔大学博士(2011年)。伦敦大学学院讲师。现为DeepMind研究员。AlphaGo之父。
Silver的名声直追他的导师Sutton,这个教程也流传很广。后续介绍的教程中,多有对它的抄袭。
http://www.meltycriss.com/2017/09/09/note-reinforcement-learning/
课程笔记《UCL强化学习》。这个blog包含大量的思维导图。
https://mp.weixin.qq.com/s/_PVe7Gcq7Yk8nOFJFPcUQw
叶强:David Silver《深度强化学习》公开课教程学习笔记完整版
https://github.com/clamesc/reinforcement-learning-mindmap
另一个版本的David Silver课程的思维导图。
http://web.stanford.edu/class/cs234/syllabus.html
CS234: Reinforcement Learning
http://rail.eecs.berkeley.edu/deeprlcourse/
CS 294: Deep Reinforcement Learning
以上1本书+4个课程,基本就是目前RL领域的黄金搭档了。Stanford的课程内容比较新,但是很浅。UCB的课程通常都是给入门以后的人准备的,无论DL还是RL,都是这样。Sutton和Silver的课程内容比较老,但是很有深度。和CV领域只需要学习DL,而不需要学习传统方法不同,按照Sutton的说法,基本算法原理远比神经网络更重要。
http://www.eecs.wsu.edu/~taylorm/17_580/index.html
CptS 580: Reinforcement Learning
http://www.eecs.wsu.edu/~taylorm/2011_cs420/index.html
Artificial Intelligence。这个课程名义上叫AI,实则包括状态空间搜索、强化学习和贝叶斯网络三部分内容。
http://www.eecs.wsu.edu/~taylorm/2010_cs414/index.html
Introduction to Machine Learning。Matthew E. Taylor的本行是RL,所以不管什么课程,都有RL的内容。
Matthew E. Taylor,安默斯特学院本科(2001年)+德州大学奥斯汀分校博士(2008年)。华盛顿州立大学副教授。
https://katefvision.github.io/
CMU: Deep Reinforcement Learning and Control
https://course.ie.cuhk.edu.hk/~ierg6130/schedule.html
香港中文大学:Reinforcement Learning
https://github.com/aikorea/awesome-rl
提供了RL方面的资源网页。aikorea还提供了同类的资源收集网页:awesome-rnn, awesome-deep-vision, awesome-random-forest。
https://mp.weixin.qq.com/s/dS0oQbGtrdd4rS25cBNyoQ
面向Open AI, TensorFlow, Keras的强化学习书籍《Reinforcement Learning》
https://102.alibaba.com/downloadFile.do?file=1517812754285/reinforcement_learning.pdf
《强化学习在阿里的技术演进与业务创新》,这是阿里出品的RL实战类书籍。
https://mp.weixin.qq.com/s/RbUcEOctRm8kX6_Ar4J0CA
446页简易Python强化学习教程书籍
https://mp.weixin.qq.com/s/7DlbuJI_gARJRABnlZQcxQ
伯克利大学ICML2018强化学习80页教程
https://mp.weixin.qq.com/s/7WnlNvxk0KKVPYqvSi7fKA
40页 PPT,BMM夏令营《强化学习简明教程》
https://mp.weixin.qq.com/s/VelM7ndXfevXKfPno-T9jQ
微软亚研130PPT教程:强化学习简介
https://sites.ualberta.ca/~szepesva/RLBook.html
《Algorithms for Reinforcement Learning》
https://mp.weixin.qq.com/s/tZjIdNSLvIVzho-IlCvm6A
93页随机近似与强化学习教程分享
https://mp.weixin.qq.com/s/o1wLREqtIZpzH2NxLl9M7A
深度强化学习简介
https://mp.weixin.qq.com/s/Y9DfxQJ-w23QXxKV0z26ag
MIT科学家Dimitri P. Bertsekas最新2019出版《强化学习与最优控制》
https://mp.weixin.qq.com/s/2cEd_FGmj-WVfm4KrQfMMg
《深度学习与机器人学》大牛Pieter Abbeel 105页PPT下载
https://mp.weixin.qq.com/s/u49cuDV21ITs1aV9tJR85g
Pieter Abbeel:《深度学习在机器人中的应用》
https://mp.weixin.qq.com/s/z9MvLuqjY5Xmty18ZP10WQ
UC伯克利Pieter Abbeel教授强化学习教程-附59页slides
https://github.com/enggen/DeepMind-Advanced-Deep-Learning-and-Reinforcement-Learning
DeepMind与UCL合作推出的深度学习与强化学习进阶课程
https://mp.weixin.qq.com/s/CnL1uIWef2AjIr_AwL7t-w
DeepMind研究员Tor2019著作《赌博机算法》,555页带你学习专治选择困难症技术
https://zhuanlan.zhihu.com/c_168521441
在线学习(MAB)与强化学习(RL)
https://github.com/p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch
PyTorch实现多种深度强化学习算法
https://mp.weixin.qq.com/s/UrwP9t-Ox4M9QImKDUDcsA
140页《深度强化学习入门》发布
https://simoninithomas.github.io/Deep_reinforcement_learning_Course/
老外写的简易深度强化学习入门
https://mp.weixin.qq.com/s/nSfvhr096aTeOHxDHy0NeA
434页《Python强化学习实用指南》
https://www.starai.io/course/
StarAi的DRL教程
https://mp.weixin.qq.com/s/eMzrktlm93ZEZi-J5sipqA
莫斯科国立大学56页《深度强化学习综述》最新论文,带你全面了解DRL最新方法
https://github.com/dennybritz/reinforcement-learning
GitHub 万星资源:强化学习算法实现,教程代码样样全,还有详细学习规划
论文
《A Brief Survey of Deep Reinforcement Learning》
《Asynchronous Methods for Deep Reinforcement Learning》
《Deep Reinforcement Learning for Dialogue Generation》
blog
https://zhuanlan.zhihu.com/sharerl
强化学习知识大讲堂
https://zhuanlan.zhihu.com/intelligentunit
一个DL+RL的专栏
https://www.cnblogs.com/pinard/category/1254674.html
一个DRL的专栏
https://www.cnblogs.com/steven-yang/tag/强化学习/
一个RL的专栏
https://www.cnblogs.com/steven-yang/tag/博弈论/
一个博弈论的专栏
工具/框架
https://mp.weixin.qq.com/s/5ScRIl2MHNGaUyIEJJKnKw
DeepMind开源强化学习研究环境Control Suite
https://mp.weixin.qq.com/s/GTjNToprM2OO7uzSRQXkHw
DeepMind开源强化学习库TRFL,关键算法可编写RL智能体
https://mp.weixin.qq.com/s/PLFxehTAXcehzIrIMRfVpA
强化学习的基石:DeepMind开源框架TRFL
https://mp.weixin.qq.com/s/ew7vmvskp_q4aM7cJM-CXg
夺魁NeurIPS 2018强化学习大赛,百度正式发布RL模型库和算法框架PARL
https://github.com/danaugrs/huskarl
基于TF2.0的深度强化学习平台:Huskarl
https://mp.weixin.qq.com/s/ApP0zNuG5OP_-HzJC1v95Q
谷歌发布开源Dopamine 2.0,让强化学习变得更灵活
https://mp.weixin.qq.com/s/Hod37LQ-eEe0EVtLfyXLGQ
DeepMind重磅开源强化学习框架!覆盖28款游戏,24多个算法(OpenSpiel)
https://zhuanlan.zhihu.com/p/68462431
谷歌开源RL足球环境
https://mp.weixin.qq.com/s/BhTX4KQnLxUQLvPUfY3q6Q
物理实验成本为零!南大LAMDA开源虚拟RL训练环境
深度学习(三十八)——深度强化学习(1)教程相关推荐
- 花书+吴恩达深度学习(十八)迁移学习和多任务学习
目录 0. 前言 1. 迁移学习 2. 多任务学习 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~ 花书+吴恩达深度学习(十八)迁移学习和多任务学习 花书+吴恩达深度学习(十 ...
- Tensorflow实战学习(三十八)【实现估值网络】
Q-Learning,学习Action对应期望值(Expected Utility).1989年,Watkins提出.收敛性,1992年,Watkins和Dayan共同证明.学习期望价值,从当前一步到 ...
- Java多线程学习三十八:你知道什么是 CAS 吗
CAS 简介 CAS 其实是我们面试中的常客,因为它是原子类的底层原理,同时也是乐观锁的原理,所以当你去面试的时候,经常会遇到这样的问题"你知道哪些类型的锁"?你可能会回答&quo ...
- torch学习 (三十四):迁移学习之微调
文章目录 引入 1 微调 2 热狗识别 2.1 数据集载入 2.2 数据集预处理 2.3 定义和初始化模型 2.4 微调模型 致谢 引入 场景: 从图像中识别出不同种类的椅子,然后将购买链接推 ...
- 深度学习入门(三十八)计算性能——多GPU训练
深度学习入门(三十八)计算性能--多GPU训练 前言 计算性能--多GPU训练 课件 多GPU并行 数据并行VS模型并行 数据并行 总结 教材 1 问题拆分 2 数据并行性 3 简单网络 4 数据同步 ...
- 推荐系统遇上深度学习(三十九)-推荐系统中召回策略演进!
推荐系统中的核心是从海量的商品库挑选合适商品最终展示给用户.由于商品库数量巨大,因此常见的推荐系统一般分为两个阶段,即召回阶段和排序阶段.召回阶段主要是从全量的商品库中得到用户可能感兴趣的一小部分候选 ...
- 深度学习三十年创新路
深度学习三十年创新路 编者注:深度学习火了,从任何意义上,大家谈论它的热衷程度,都超乎想象.但是,似乎很少有人提出不同的声音,说深度学习的火热,有可能是过度的繁荣,乃至不理性的盲从.而这次,有不同的想 ...
- OpenCV学习笔记(三十六)——Kalman滤波做运动目标跟踪 OpenCV学习笔记(三十七)——实用函数、系统函数、宏core OpenCV学习笔记(三十八)——显示当前FPS OpenC
OpenCV学习笔记(三十六)--Kalman滤波做运动目标跟踪 kalman滤波大家都很熟悉,其基本思想就是先不考虑输入信号和观测噪声的影响,得到状态变量和输出信号的估计值,再用输出信号的估计误差加 ...
- JavaScript学习(三十八)—面向过程与面向对象
JavaScript学习(三十八)-面向过程与面向对象 一.程序设计语言中的两大编程思想:面向对象.面向过程 (一).面向过程 就是指完成某个需求的时候,先分析出完成该需求时所需要经历的步骤有哪些,然 ...
- 各类学习平台收集记录(强化学习、深度学习、机器学习)
各类学习平台收集记录(强化学习.深度学习.机器学习) 1.百度开发者中心 https://developer.baidu.com/?from=aistudio 有很多开源项目代码可以借鉴学习. 2. ...
最新文章
- oracle 11所选安装,在red hat enterprise linux 5.4上安装oracle11g
- linux安装mysql5.6.26_linux mysql-5.6.26 安装
- 计算机控制系统第三次作业,计算机组成与系统结构第三次作业
- PMCAFF推出咖啡日报 更多好内容等你来发现
- Vue之父组件向子组件传递数据
- LeetCode:136. 只出现一次的数字
- Mysql数据类型TINYINT(1)与BOOLEAN踩坑记
- 5G 套餐最快本月开售;谷歌被指骗取人脸数据;Calibre 4.0 发布 | 极客头条
- 第一章 Spring的简单剖析
- [导入]十大经典误会
- 1个平方大概多少立杆_普通水泥地面一平方大概要用多少地板漆
- [翻译].NET委托:一个C#睡前故事 [转]
- Java分页详细步骤
- python没有pygame_pygame安装教程全程详解
- 火灾自动报警系统 切换模块
- python 合并word_Python 合并多个 Word 文件的 4 种方法
- 安装 Oracle Client 找不到文件 orandce11.dll.dbl 错误 (Win7)
- 基于FPGA的波、幅、频、相可调DDS信号发生器的设计
- C语言-大端存储和小端存储
- aec java ios_Java並發編程之原子操作類
热门文章
- 一步一步实现自己的模拟控件(5)——隐藏类
- cad快速看图需要替换的4个vip文件_看不懂施工图怎么办?20年老师傅教你看图技巧,学会受用一生...
- 行政编码json_基于FME国内县级及以上网络公开行政区划边界的获取
- 4位快速加法器和4位串行加法器相比_使用混合信号示波器调试串行总线系统
- jQuery 的常用选择器,筛选器
- 3 地理位置定位_IP地理定位API的十大用途和应用
- 迭代器自定义遍历对象
- Detectron-MaskRCnn: 用于抠图的FCNN
- 装X数学:高雅的数学表示
- 编写原生的Node.js模块