【学霸笔记】AlphaGo之父David Silver的强化学习经典课程笔记

2024-05-18 14:52:57

聚焦AI干货，关注：决策智能与机器学习

AlphaGo之父David Silver的强化学习经典课程前文已有介绍，本想自己整理一下课程的学习笔记，但发现已经有学霸整理的很完善，不做东施效颦之举，在此分享给大家。

叶强的David Silver强化学习公开课中文讲解及实践

地址：https://zhuanlan.zhihu.com/reinforce

PDF版本笔记下载，请在公众号回复：20200223

目录

写在最前面——关于连载David Silver《强化学习》视频公开课的中文学习笔记
《强化学习》第一讲简介
《强化学习》第二讲马尔科夫决策过程
《强化学习》第三讲动态规划寻找最优策略
《强化学习》第四讲不基于模型的预测
《强化学习》第五讲不基于模型的控制
《强化学习》第六讲价值函数的近似表示
《强化学习》第七讲策略梯度
《强化学习》第八讲整合学习与规划
《强化学习》第九讲探索与利用
强化学习实践一迭代法评估4*4方格世界下的随机策略
强化学习实践二理解gym的建模思想
强化学习实践三编写通用的格子世界环境类
强化学习实践四 Agent类和SARSA算法实现
强化学习实践五 SARSA(λ)算法实现
强化学习实践六给Agent添加记忆功能
强化学习实践七 DQN的实现
David Silver强化学习学习笔记及编程实践合集
初步认识AlphaGo Zero原理

陈雄辉的强化学习基础David Silver笔记

目前只涉及1-7讲内容，地址：https://zhuanlan.zhihu.com/c_135909947

目录

1. 强化学习概述（ Introduction to Reinforcement Learning）

2. 马尔科夫决策过程(MDPs)

3. 动态规划(Planning by Dynamic Programming)

4. 免模型预测(Model-Free Prediction)

5. 免模型决策(Model-Free Control)

6. 值函数近似(Value Function Approximation)

7. 策略梯度(Policy Gradient)

交流合作

请加微信号：yan_kylin_phenix，注明姓名+单位+从业方向+地点，非诚勿扰。

【学霸笔记】AlphaGo之父David Silver的强化学习经典课程笔记相关推荐

强化学习经典算法笔记(十九)：无监督策略学习算法Diversity Is All You Need
强化学习经典算法笔记19:无监督策略学习算法Diversity Is All You Need DIAYN核心要点模型定义目标函数的构造 DIAYN算法细节目标函数的优化 SAC的训练判别器的 ...
强化学习经典算法笔记(十二)：近端策略优化算法（PPO）实现，基于A2C（下）
强化学习经典算法笔记(十二):近端策略优化算法(PPO)实现,基于A2C 本篇实现一个基于A2C框架的PPO算法,应用于连续动作空间任务. import torch import torch.nn a ...
强化学习经典算法笔记(十四)：双延迟深度确定性策略梯度算法TD3的PyTorch实现
强化学习经典算法笔记(十四):双延迟深度确定性策略梯度算法TD3的PyTorch实现 TD3算法简介 TD3是Twin Delayed Deep Deterministic policy gradie ...
David Silver《强化学习RL》第八讲整合学习与规划
本课程之前所有的内容都没有提及到个体如何构建一个模拟环境的模型,自然也没有讲解个体构建一个模拟环境的模型对于解决MDP问题有何帮助.本讲即关注这两个问题.通过构建一个模型,个体具备了一定程度的独立思考 ...
Coursera吴恩达《神经网络与深度学习》课程笔记（3）-- 神经网络基础之Python与向量化
红色石头的个人网站:redstonewill.com 上节课我们主要介绍了逻辑回归,以输出概率的形式来处理二分类问题.我们介绍了逻辑回归的Cost function表达式,并使用梯度下降算法来计算最小 ...
纽约大学深度学习PyTorch课程笔记（自用）Week3
纽约大学深度学习PyTorch课程笔记Week3 Week 3 3.1 神经网络参数变换可视化及卷积的基本概念 3.1.1 神经网络的可视化 3.1.2 参数变换一个简单的参数变换:权重共享超网络 ...
纽约大学深度学习PyTorch课程笔记（自用）Week6
纽约大学深度学习PyTorch课程笔记Week6 Week 6 6.1 卷积网络的应用 6.1.1 邮政编码识别器使用CNN进行识别 6.1.2 人脸检测一个多尺度人脸检测系统 6.1.3 语义分 ...
[强化学习导论阅读笔记-1]什么是强化学习
平时学算法都是碎片化的学习,基本上都是看看博客,知乎和论文(博客和知乎看的最多),提升是有的,但是总觉得缺点什么,可能是缺少完整的知识体系.毕业本来想搞嵌入式的,因为会点AI小知识,分到了AI实验室. ...
纽约大学深度学习PyTorch课程笔记（自用）Week2
纽约大学深度学习PyTorch课程笔记Week2 2. Week2 2.1 梯度下降和反向传播算法导论 2.1.1 梯度下降优化算法参数化模型梯度下降 2.1.2 在传统神经网络中随机梯度下降和反 ...

最新文章

热门文章