dpg learning 和q_请问在强化学习的Qlearning中，如果状态-动作很多的话，该如何处理？...

状态很多和动作很多是有细微差别的两类问题，看到大家都提到了function approximation，这是用来处理状态很多情况的好方法，但是动作很多则需要一些额外的方法支撑。

当状态来自元素极多的离散集合(如下棋)时，或者根本就是个连续向量(如word embedding)时，用表格法存储会遇到两个大问题：1)这张表太大存不下来，2)样本太过稀疏基于采样的算法不收敛(curse of dims)。此时，function approximation是常用的解决手段。用一族参数化的函数来表达未知函数，只要参数数量不是很多就可以在实际系统中用起来。与此同时，参数化函数表达如果使用得当(e.g. 避免了overfitting)还可以有泛化的功能，减少了所需样本量。这一类方法在参数化函数的使用形式上很像regression问题。DeepMind提出的DQN ([1312.5602] Playing Atari with Deep Reinforcement Learning ) 就是上述方法的一个很现代的好例子，网上已经有way to many implementations，mine included (zaxliu/dqn4wirelesscontrol)，欢迎交流。

动作元素极多的情况更tricky，但是因为没有大状态空间问题普遍所以以往的讨论较少。不普遍不代表不重要，例如自然语言序列到序列问题，就是状态与动作空间双高的例子，而实际世界的控制问题则大多是状态动作双连续的。

其实这里面也有两个问题：表示和搜索。大动作空间的表示与大状态空间异曲同工。为解释清楚，从David Silver课件里偷一张图，如果采用下图中间的action-in形式，那么动作和状态其实是等价的，e.g. 动作是图片就用CNN，动作是序列就用RNN。如果采用下图右侧的action-out形式，那么就需要采用相应的逆操作，比如图片用反卷积，序列用RNN decoder。

大动作空间的搜索是个更难的问题。例如在Q learning算法中，需要搜索当前状态s下所有动作里面Q值最大的那一个。当action space离散且很大的时候，基于遍历求max的时间复杂度显然是不能忍受的。此外，当action space是连续空间时，这个max是在非凸函数上求全局最大，难度可想而知。并且对于这个问题，我并不认为随机策略梯度(stochastic policy gradient)是什么良药，因为依旧需要遍历全部action space或者其中概率大于一定阈值的子集，因此使用起来往往需要搭配其他的方法。(例如Bahdanau的这篇文章 [1607.07086] An Actor-Critic Algorithm for Sequence Prediction 中就结合了beam search和策略梯度，还有AlphaGo中的蒙特卡洛树搜)

虽然对于巨大离散的动作空间尚无良药，但是在连续决策空间中这两年DeepMind又贡献了一些很有启发意义的工作。其一是确定性策略梯度(Deterministic Policy Gradient，DPG)。这个方法巧妙地用actor-critic架构求得一种新的策略梯度方向，可以很容易地和神经网络的BP梯度计算法结合。另一篇是[1603.00748] Continuous Deep Q-Learning with Model-based Acceleration ，则通过对value function进行局部的二阶正定近似假设，求得policy更新的闭式表达。遗憾的是连续决策空间中的工作均没有较好的理论基础(DPG那篇文章的推导至今没找到...)，也说明还有研究的空间。

dpg learning 和q_请问在强化学习的Qlearning中，如果状态-动作很多的话，该如何处理？...相关推荐

强化学习的状态值函数与状态动作值函数
在本文中,我们将学习贝尔曼方程和价值函数. 回报和返还(return) 正如前面所讨论的,强化学习agent如何最大化累积未来的回报.用于描述累积未来回报的词是返还,通常用R表示.我们还使用一个下标t ...
dpg learning 和q_深度学习和强化学习之间的差别有多大？
我是做深度强化学习的(Deep Reinforcement Learning)的,这个问题有趣.我对@张馨宇他在此问题下的简洁回答非常认同:"可以用深度学习这个工具来做强化学习这个任务,也可 ...
强化学习（Reinforcement Learning）是什么？强化学习（Reinforcement Learning）和常规的监督学习以及无监督学习有哪些不同？
强化学习(Reinforcement Learning)是什么?强化学习(Reinforcement Learning)和常规的监督学习以及无监督学习有哪些不同? 目录
什么是强化学习，强化学习在控制系统中的应用以及matlab强化学习工具箱的介绍
一.Reinforcement Learning Toolbox介绍强化学习工具箱使用强化学习算法(包括DQN,A2C和DDPG)为训练策略(policy)提供函数和模块.您可以使用这些策略为复杂的 ...
强化学习（Q-learning）
强化学习RF简介强化学习是机器学习中的一种重要类型,一个其中特工通过执行操作并查看查询查询结果来学习如何在环境中表现行为. 机器学习算法可以分为3种:有监督学习(Supervised Learni ...
【强化学习】 Q-Learning
[强化学习]相关基本概念 [强化学习] Q-Learning [强化学习] Q-Learning 案例分析 [强化学习] Sarsa [强化学习] Sarsa(lambda) Q-Learning 强 ...
【强化学习】Q-Learning用于二维空间探索【Python实现】
前言这个基于之前的工作,如果有什么疑问也可以参照以前的文章. [强化学习]Q-Learning算法详解以及Python实现[80行代码] 本文主要做了两件事情将上篇文章中得弱智般的treasure ...
【机器学习】带你轻松理解什么是强化学习中的状态动作函数？
系列文章目录第十八章 Python 机器学习入门之强化学习目录系列文章目录前言一.状态动作函数的定义二.直观理解三.将状态动作函数与回报和策略联系起来总结前言强化学习中的状态动作函 ...
李宏毅机器学习系列-强化学习之Q-Learning
李宏毅机器学习系列-强化学习之Q-Learning 评判家(Critic) 怎么衡量$V^\pi(s)$ 蒙特卡洛法(MC) 时序差分算法(TD) MC和TD对比另一种评判$Q^\pi(s,a)$ ...

dpg learning 和q_请问在强化学习的Qlearning中，如果状态-动作很多的话，该如何处理？...

dpg learning 和q_请问在强化学习的Qlearning中，如果状态-动作很多的话，该如何处理？...相关推荐

最新文章

热门文章