【学霸笔记】AlphaGo之父David Silver的强化学习经典课程笔记
聚焦AI干货,关注:决策智能与机器学习
AlphaGo之父David Silver的强化学习经典课程前文已有介绍,本想自己整理一下课程的学习笔记,但发现已经有学霸整理的很完善,不做东施效颦之举,在此分享给大家。
叶强的David Silver强化学习公开课中文讲解及实践
地址:https://zhuanlan.zhihu.com/reinforce
PDF版本笔记下载,请在公众号回复:20200223
目录
写在最前面——关于连载David Silver《强化学习》视频公开课的中文学习笔记
《强化学习》第一讲 简介
《强化学习》第二讲 马尔科夫决策过程
《强化学习》第三讲 动态规划寻找最优策略
《强化学习》第四讲 不基于模型的预测
《强化学习》第五讲 不基于模型的控制
《强化学习》第六讲 价值函数的近似表示
《强化学习》第七讲 策略梯度
《强化学习》第八讲 整合学习与规划
《强化学习》第九讲 探索与利用
强化学习实践一 迭代法评估4*4方格世界下的随机策略
强化学习实践二 理解gym的建模思想
强化学习实践三 编写通用的格子世界环境类
强化学习实践四 Agent类和SARSA算法实现
强化学习实践五 SARSA(λ)算法实现
强化学习实践六 给Agent添加记忆功能
强化学习实践七 DQN的实现
David Silver强化学习学习笔记及编程实践合集
初步认识AlphaGo Zero原理
陈雄辉的强化学习基础David Silver笔记
目前只涉及1-7讲内容,地址:https://zhuanlan.zhihu.com/c_135909947
目录
1. 强化学习概述( Introduction to Reinforcement Learning)
2. 马尔科夫决策过程(MDPs)
3. 动态规划(Planning by Dynamic Programming)
4. 免模型预测(Model-Free Prediction)
5. 免模型决策(Model-Free Control)
6. 值函数近似(Value Function Approximation)
7. 策略梯度(Policy Gradient)
交流合作
请加微信号:yan_kylin_phenix,注明姓名+单位+从业方向+地点,非诚勿扰。
【学霸笔记】AlphaGo之父David Silver的强化学习经典课程笔记相关推荐
- 强化学习经典算法笔记(十九):无监督策略学习算法Diversity Is All You Need
强化学习经典算法笔记19:无监督策略学习算法Diversity Is All You Need DIAYN核心要点 模型定义 目标函数的构造 DIAYN算法细节 目标函数的优化 SAC的训练 判别器的 ...
- 强化学习经典算法笔记(十二):近端策略优化算法(PPO)实现,基于A2C(下)
强化学习经典算法笔记(十二):近端策略优化算法(PPO)实现,基于A2C 本篇实现一个基于A2C框架的PPO算法,应用于连续动作空间任务. import torch import torch.nn a ...
- 强化学习经典算法笔记(十四):双延迟深度确定性策略梯度算法TD3的PyTorch实现
强化学习经典算法笔记(十四):双延迟深度确定性策略梯度算法TD3的PyTorch实现 TD3算法简介 TD3是Twin Delayed Deep Deterministic policy gradie ...
- David Silver《强化学习RL》第八讲 整合学习与规划
本课程之前所有的内容都没有提及到个体如何构建一个模拟环境的模型,自然也没有讲解个体构建一个模拟环境的模型对于解决MDP问题有何帮助.本讲即关注这两个问题.通过构建一个模型,个体具备了一定程度的独立思考 ...
- Coursera吴恩达《神经网络与深度学习》课程笔记(3)-- 神经网络基础之Python与向量化
红色石头的个人网站:redstonewill.com 上节课我们主要介绍了逻辑回归,以输出概率的形式来处理二分类问题.我们介绍了逻辑回归的Cost function表达式,并使用梯度下降算法来计算最小 ...
- 纽约大学深度学习PyTorch课程笔记(自用)Week3
纽约大学深度学习PyTorch课程笔记Week3 Week 3 3.1 神经网络参数变换可视化及卷积的基本概念 3.1.1 神经网络的可视化 3.1.2 参数变换 一个简单的参数变换:权重共享 超网络 ...
- 纽约大学深度学习PyTorch课程笔记(自用)Week6
纽约大学深度学习PyTorch课程笔记Week6 Week 6 6.1 卷积网络的应用 6.1.1 邮政编码识别器 使用CNN进行识别 6.1.2 人脸检测 一个多尺度人脸检测系统 6.1.3 语义分 ...
- [强化学习导论阅读笔记-1]什么是强化学习
平时学算法都是碎片化的学习,基本上都是看看博客,知乎和论文(博客和知乎看的最多),提升是有的,但是总觉得缺点什么,可能是缺少完整的知识体系.毕业本来想搞嵌入式的,因为会点AI小知识,分到了AI实验室. ...
- 纽约大学深度学习PyTorch课程笔记(自用)Week2
纽约大学深度学习PyTorch课程笔记Week2 2. Week2 2.1 梯度下降和反向传播算法导论 2.1.1 梯度下降优化算法 参数化模型 梯度下降 2.1.2 在传统神经网络中随机梯度下降和反 ...
最新文章
- Python轻松爬取Rosimm写真网站全部图片
- TYVJ P1080 N皇后 Label:dfs PS:以前做的一道题,贴出来防忘
- Matlab稀疏矩阵
- pandas数据处理分组聚合
- Windows下安装配置SubVersion的简明步骤
- 【白皮书分享】2022年中国品质直播选型与应用白皮书.pdf(附下载链接)
- Android开发笔记(一百五十六)通过渲染纹理展示地球仪
- java适合年龄_Java实现三人年龄
- 查看不同用户使用GPU的情况
- 洛谷 P2261 [CQOI2007]余数求和 解题报告
- 偏差方差分解Python示例
- usb线连接android设备连接不上,安卓手机USB数据线连接不上电脑怎么办
- 写了个工具ArcGIS批量下载影像图!分享给大家
- python语言月份缩写_[宜配屋]听图阁
- 【MySQL 09】安装mysql时出现:需要这两个包perl(Data::Dumper),perl(JSON)
- 暴力搜索---新技能get
- 高校逐梦元宇宙,是风口还是噱头?
- mysql source导入大数据量时效率提升的方法
- cobol .cpy文件_Visual COBOL R3:“使传统的COBOL能够部署在JVM或.NET上”。
- 什么是机器语言、汇编语言、高级语言?