根据视频学习DQN(Deep Q-learning)
学习网址:https://www.bilibili.com/video/BV1We4y1w7Us?p=3&vd_source=11b7b2a48a6540147996012cfff314e8
第一节P1:深度强化学习中用到的基本概念
P2:关于DQN的输入及输出,以及详细的讲了其更新Q的原理及过程。
P3:策略函数π【是一个概率密度函数,所有结果值加和为1】
策略函数与Q都是深度强化学习对未来预测的途径,知道其一即可解决问题。不同点在于,Q*是只与当前S与A有关的,它针对某一时刻的S,对该时刻可以进行的动作A打分,机器选择得分高的动作以继续游戏。而策略函数是对该时刻S可进行的动作A计算出概率,然后机器进行一次随机抽样以继续进行游戏。
P4:更新过程如下,用TD更新w,以此来改进Qπ(价值网络)。用w来更新θ,以此来改进π(策略网络)。
P5:强化学习有奖励,而模仿学习(如limitation learning)没有奖励,其训练的目的是模仿行为。
Behavior cloning 是一种limitation learning,是一种分类或回归方法,而不是强化学习方法
P6:蒙特卡洛算法-一种近似求解的算法
P7:Sarsa算法-TD算法的一种
P8:Q-learning -也是一种TD算法,Sarsa是用来训练Qπ
Q-learning 是用来训练Q*
根据视频学习DQN(Deep Q-learning)相关推荐
- Deep Q learning: DQN及其改进
Deep Q Learning Generalization Deep Reinforcement Learning 使用深度神经网络来表示 价值函数 策略 模型 使用随机梯度下降(SGD)优化los ...
- 深度强化学习(Deep Reinforcement Learning)的资源
深度强化学习(Deep Reinforcement Learning)的资源 2015-04-08 11:21:00| 分类: Torch | 标签:深度强化学习 |举报 |字号 订阅 Goo ...
- CNNs and Deep Q Learning
前面的一篇博文介绍了函数价值近似,是以简单的线性函数来做的,这篇博文介绍使用深度神经网络来做函数近似,也就是Deep RL.这篇博文前半部分介绍DNN.CNN,熟悉这些的读者可以跳过,直接看后半部分的 ...
- [PARL强化学习]Sarsa和Q—learning的实现
[PARL强化学习]Sarsa和Q-learning的实现 Sarsa和Q-learning都是利用表格法再根据MDP四元组<S,A,P,R>:S: state状态,a: action动作 ...
- 【强化学习】Deep Q Network深度Q网络(DQN)
1 DQN简介 1.1 强化学习与神经网络 该强化学习方法是这么一种融合了神经网络和Q-Learning的方法,名字叫做Deep Q Network. Q-Learning使用表格来存储每一个状态st ...
- 深度强化学习—— 译 Deep Reinforcement Learning(part 0: 目录、简介、背景)
深度强化学习--概述 翻译说明 综述 1 简介 2 背景 2.1 人工智能 2.2 机器学习 2.3 深度学习 2.4 强化学习 2.4.1 Problem Setup 2.4.2 值函数 2.4.3 ...
- DQN(Deep Q Network)及其代码实现
为什么需要DQN 我们知道,最原始的Q-learning算法在执行过程中始终需要一个Q表进行记录,当维数不高时Q表尚可满足需求,但当遇到指数级别的维数时,Q表的效率就显得十分有限.因此,我们考虑一种值 ...
- 深度学习(19): Deep Reinforcement learning(Policy gradientinteract with environment)
Deep Reinforcement learning AL=DL+RL Machine 观察到环境的状态,做出一些行为对环境产生影响,环境根据machine的改变给予一个reward.正向的acti ...
- DQN(Deep Q Network)论文笔记
1.简介 Deep Q Network 属于强化学习.本文是从<Playing Atari with Deep Reinforcement Learning>翻译总结的. 本模型包括卷积神 ...
最新文章
- 习题10-3 递归实现指数函数 (15 分)
- html5模拟keyup事件
- 【Linux】18_日志管理rsyslog系统日志管理
- c++ eos智能合约开发_TrustBase平台智能合约的开发与实现
- python文本提取_使用Python从HTML文件中提取文本
- bzoj4773 负环
- python anaconda安装_Python - 安装并配置Anaconda环境
- hbase 页面访问_HBase
- c语言float如何做减法,利用c语言设计开发一个简单计算器,可进行加减乘除运算....
- [Tjoi2016Heoi2016]排序[01序列]
- 吴恩达机器学习(九)Precision、Recall、F-score、TPR、FPR、TNR、FNR、AUC、Accuracy
- 宜居指数c语言,城市功能日趋完善宜居指数持续提升
- 【CCCC】L2-019 悄悄关注 (25分),,模拟水题,STL大法好
- gb28181的sip通信
- 【信号与系统实验】实验七 音频信号的采集和传输
- Glide库里,藏了一套你心心念念的GIF压缩工具集
- 中学计算机兴趣小组 计划,陵口中学科技兴趣小组工作计划
- 技术人员的职业发展规划思考书单推荐
- (翻译)优秀价格表的7种设计策略
- (比较器)Comparator比较器
热门文章
- ReloadFunction
- 蛋糕连锁店网站管理系统(含小程序) 是海南赞赞网络公司针对甜品糕点连锁企业开发的建站系统
- python loadlibrary_使用py2exe教程时出现LoadLibrary(pythondll)失败错误
- 如何开发股票软件404
- 网易狼人杀维护服务器,《狼人杀-官方正版》06月10日维护公告
- WLW(windows live writer) 语法高亮插件
- springboot项目集成java接口文档生成工具knife4j
- 不定积分——lnax与lnx相差一个C
- 《纯干货-6》Stanford University 2017年最新《Tensorflow与深度学习实战》视频课程分享
- 投资经理,软件与互联网产品经理一个新去向?