根据视频学习DQN(Deep Q-learning)

学习网址：https://www.bilibili.com/video/BV1We4y1w7Us?p=3&vd_source=11b7b2a48a6540147996012cfff314e8

第一节P1：深度强化学习中用到的基本概念
P2:关于DQN的输入及输出，以及详细的讲了其更新Q的原理及过程。
P3:策略函数π【是一个概率密度函数，所有结果值加和为1】

策略函数与Q都是深度强化学习对未来预测的途径，知道其一即可解决问题。不同点在于，Q*是只与当前S与A有关的，它针对某一时刻的S，对该时刻可以进行的动作A打分，机器选择得分高的动作以继续游戏。而策略函数是对该时刻S可进行的动作A计算出概率，然后机器进行一次随机抽样以继续进行游戏。

P4:更新过程如下，用TD更新w，以此来改进Qπ（价值网络）。用w来更新θ，以此来改进π（策略网络）。

P5:强化学习有奖励，而模仿学习(如limitation learning)没有奖励，其训练的目的是模仿行为。
Behavior cloning 是一种limitation learning，是一种分类或回归方法，而不是强化学习方法
P6:蒙特卡洛算法-一种近似求解的算法
P7:Sarsa算法-TD算法的一种
P8:Q-learning -也是一种TD算法，Sarsa是用来训练Qπ
Q-learning 是用来训练Q*

根据视频学习DQN(Deep Q-learning)相关推荐

Deep Q learning: DQN及其改进
Deep Q Learning Generalization Deep Reinforcement Learning 使用深度神经网络来表示价值函数策略模型使用随机梯度下降(SGD)优化los ...
深度强化学习（Deep Reinforcement Learning）的资源
深度强化学习(Deep Reinforcement Learning)的资源 2015-04-08 11:21:00| 分类: Torch | 标签:深度强化学习 |举报 |字号订阅 Goo ...
CNNs and Deep Q Learning
前面的一篇博文介绍了函数价值近似,是以简单的线性函数来做的,这篇博文介绍使用深度神经网络来做函数近似,也就是Deep RL.这篇博文前半部分介绍DNN.CNN,熟悉这些的读者可以跳过,直接看后半部分的 ...
[PARL强化学习]Sarsa和Q—learning的实现
[PARL强化学习]Sarsa和Q-learning的实现 Sarsa和Q-learning都是利用表格法再根据MDP四元组<S,A,P,R>:S: state状态,a: action动作 ...
【强化学习】Deep Q Network深度Q网络（DQN）
1 DQN简介 1.1 强化学习与神经网络该强化学习方法是这么一种融合了神经网络和Q-Learning的方法,名字叫做Deep Q Network. Q-Learning使用表格来存储每一个状态st ...
深度强化学习—— 译 Deep Reinforcement Learning(part 0: 目录、简介、背景)
深度强化学习--概述翻译说明综述 1 简介 2 背景 2.1 人工智能 2.2 机器学习 2.3 深度学习 2.4 强化学习 2.4.1 Problem Setup 2.4.2 值函数 2.4.3 ...
DQN(Deep Q Network)及其代码实现
为什么需要DQN 我们知道,最原始的Q-learning算法在执行过程中始终需要一个Q表进行记录,当维数不高时Q表尚可满足需求,但当遇到指数级别的维数时,Q表的效率就显得十分有限.因此,我们考虑一种值 ...
深度学习(19): Deep Reinforcement learning（Policy gradientinteract with environment）
Deep Reinforcement learning AL=DL+RL Machine 观察到环境的状态,做出一些行为对环境产生影响,环境根据machine的改变给予一个reward.正向的acti ...
DQN(Deep Q Network)论文笔记
1.简介 Deep Q Network 属于强化学习.本文是从<Playing Atari with Deep Reinforcement Learning>翻译总结的. 本模型包括卷积神 ...

根据视频学习DQN(Deep Q-learning)

根据视频学习DQN(Deep Q-learning)相关推荐

最新文章

热门文章