文章目录

  • 所解决的问题?
  • 背景
  • 所采用的方法?
  • 取得的效果?
  • 所出版信息?作者信息?
  • 论文题目:Dream to Control:Learning Behaviors by Latent Imagination

所解决的问题?

  先学一个环境模型,所学的这个环境模型能够帮助智能体去学习一些复杂的行为。智能体从这个所学的环境模型中学习的方式就多种多样了,作者提出了一种方法,dreamer,在所学的纯隐状态空间模型中进行想象规划。并取得了较好的效果。

背景

  强化学习是需要学习环境的表征的,或者称之为对于环境的理解,从而才能更好的去做泛化。而一个参数化的环境模型无疑是能够促进智能体对于环境的理解。

  深度学习所做的表征就是在提取有效信息,因此在提取过后的有效信息的空间(或者称之为隐空间模型)中进行规划,往往能够支持更高效的方式去做规划,或者并行规划。

  通常的强化学习方法是学习一个参数化的策略,去最大化期望奖励,或者通过在线规划的方式,去学习一个固定horizon的最大奖励来实现规划,像planet那样,虽然palnet这种无梯度的方式能够较鲁棒地去减少model-bias,但是并没有去提供对未来长期的期望规划。

所采用的方法?

  作者提出了一种基于梯度的,在纯隐状态空间中现象的算法。用一种新的actor-critic算法去与所学的环境模型进行交互。因为是在所学的这个环境模型中进行学习,所以能够获得多步的累计奖励,进行多步长期的学习规划。

  主要步骤可以分为三大部分:

  1. 从过去的经验数据中学习预测未来的奖励。主要是学环境的表征模型p(st∣st−1,at−1,ot)p\left(s_{t} \mid s_{t-1}, a_{t-1}, o_{t}\right)p(st​∣st−1​,at−1​,ot​),转移模型 q(st∣st−1,at−1)q\left(s_{t} \mid s_{t-1}, a_{t-1}\right)q(st​∣st−1​,at−1​)和奖励模型q(rt∣st)q\left(r_{t} \mid s_{t}\right)q(rt​∣st​)。

  2. 学习动作模型和值模型预测隐藏状态空间中的轨迹trajectories

  从一个真实的模型状态sts_{t}st​开始往后想象,基于转移模型预测轨迹sτ∼q(sτ∣sτ−1,aτ−1)s_{\tau} \sim q\left(s_{\tau} \mid s_{\tau-1}, a_{\tau-1}\right)sτ​∼q(sτ​∣sτ−1​,aτ−1​), 预测奖励rτ∼q(rτ∣sτ)r_{\tau} \sim q\left(r_{\tau} \mid s_{\tau}\right)rτ​∼q(rτ​∣sτ​), 基于所学习的策略aτ∼q(aτ∣sτ)a_{\tau} \sim q\left(a_{\tau} \mid s_{\tau}\right)aτ​∼q(aτ​∣sτ​),以最大化期望奖励Eq(∑τ=t∞γτ−trτ)\mathrm{E}_{q}\left(\sum_{\tau=t}^{\infty} \gamma^{\tau-t} r_{\tau}\right)Eq​(∑τ=t∞​γτ−trτ​)为目标更新动作模型aτ∼qϕ(aτ∣sτ)a_{\tau} \sim q_{\phi}\left(a_{\tau} \mid s_{\tau}\right)aτ​∼qϕ​(aτ​∣sτ​)和值模型vψ(sτ)≈Eq(⋅∣sτ)(∑τ=tt+Hγτ−trτ)v_{\psi}\left(s_{\tau}\right) \approx \mathrm{E}_{q\left(\cdot \mid s_{\tau}\right)}\left(\sum_{\tau=t}^{t+H} \gamma^{\tau-t} r_{\tau}\right)vψ​(sτ​)≈Eq(⋅∣sτ​)​(∑τ=tt+H​γτ−trτ​)。

  在这里还需要注意作者所提出来的这个新型的actor-critic方法:

  • actor model

  动作模型输出的是一个tanh-transformed Gaussian

aτ=tanh⁡(μϕ(sτ)+σϕ(sτ)ϵ),ϵ∼Normal⁡(0,I)a_{\tau}=\tanh \left(\mu_{\phi}\left(s_{\tau}\right)+\sigma_{\phi}\left(s_{\tau}\right) \epsilon\right), \quad \epsilon \sim \operatorname{Normal}(0, \mathbb{I}) aτ​=tanh(μϕ​(sτ​)+σϕ​(sτ​)ϵ),ϵ∼Normal(0,I)

  动作模型的更新公式为:

max⁡ϕEqθ,qϕ(∑τ=tt+HVλ(sτ))\max _{\phi} \mathrm{E}_{q_{\theta}, q_{\phi}}\left(\sum_{\tau=t}^{t+H} \mathrm{~V}_{\lambda}\left(s_{\tau}\right)\right)ϕmax​Eqθ​,qϕ​​(τ=t∑t+H​ Vλ​(sτ​))

  • value model

VR(sτ)≐Eqθ,qϕ(∑n=τt+Hrn)\mathrm{V}_{\mathrm{R}}\left(s_{\tau}\right) \doteq \mathrm{E}_{q_{\theta}, q_{\phi}}\left(\sum_{n=\tau}^{t+H} r_{n}\right)VR​(sτ​)≐Eqθ​,qϕ​​(n=τ∑t+H​rn​)

  上述这个奖励模型就是单纯的奖励累计,并没有考虑对未来的期望收益,这种奖励可以不用值函数。

VNk(sτ)≐Eqθ,qϕ(∑n=τh−1γn−τrn+γh−τvψ(sh))withh=min⁡(τ+k,t+H)\mathrm{V}_{\mathrm{N}}^{k}\left(s_{\tau}\right) \doteq \mathrm{E}_{q_{\theta}, q_{\phi}}\left(\sum_{n=\tau}^{h-1} \gamma^{n-\tau} r_{n}+\gamma^{h-\tau} v_{\psi}\left(s_{h}\right)\right) \quad \text{with} \quad h=\min (\tau+k, t+H)VNk​(sτ​)≐Eqθ​,qϕ​​(n=τ∑h−1​γn−τrn​+γh−τvψ​(sh​))withh=min(τ+k,t+H)

  VNkV_{N}^{k}VNk​能够估计超过kkk步之后的奖励。

Vλ(sτ)≐(1−λ)∑n=1H−1λn−1VNn(sτ)+λH−1VNH(sτ)\mathrm{V}_{\lambda}\left(s_{\tau}\right) \doteq(1-\lambda) \sum_{n=1}^{H-1} \lambda^{n-1} \mathrm{~V}_{\mathrm{N}}^{n}\left(s_{\tau}\right)+\lambda^{H-1} \mathrm{~V}_{\mathrm{N}}^{H}\left(s_{\tau}\right)Vλ​(sτ​)≐(1−λ)n=1∑H−1​λn−1 VNn​(sτ​)+λH−1 VNH​(sτ​)

  dreamer使用的是Vλ\mathrm{V}_{\lambda}Vλ​,一种指数加权平均的奖励,用于平衡kkk步不同的偏差和方差。

  值模型的更新公式为:

min⁡ψEqθ,qϕ(∑τ=tt+H12∥vψ(sτ)−Vλ(sτ))∥2)\left.\min _{\psi} \mathrm{E}_{q_{\theta}, q_{\phi}}\left(\sum_{\tau=t}^{t+H} \frac{1}{2} \| v_{\psi}\left(s_{\tau}\right)-\mathrm{V}_{\lambda}\left(s_{\tau}\right)\right) \|^{2}\right)ψmin​Eqθ​,qϕ​​(τ=t∑t+H​21​∥vψ​(sτ​)−Vλ​(sτ​))∥2)

  1. 基于所学的动作模型与真实环境交互,收集新的数据。

取得的效果?

  在DeepMind Control Suite上,对于同一个问题,使用相同的参数,在数据效率,计算时间,和最终性能上都超越了之前的基于模型的和无模型的方法。

  1. 学习一个值函数模型能够使得dreamer更加鲁棒。

  1. 与基于模型和无模型算法对比结果:

所出版信息?作者信息?

  Danijar Hafner,多伦多大学是一个博士生,师从Jimmy BaGeoffrey Hinton。主要研究复杂环境中人类的思考法则,目前在研究基于模型的强化学习和无监督学习方向。

【ICLR2020】Dream to Control:Learning Behaviors by Latent Imagination相关推荐

  1. Dream to Control Learning Behaviors by Latent Imagination-笔记

    Dream to Control Learning Behaviors by Latent Imagination 0 摘要 Learned world模型总结了一个agent的经验,以促进学习复杂的 ...

  2. 【Paper】2015_El H_Decentralized Control Architecture for UAV-UGV Cooperation

    Decentralized Control Architecture for UAV-UGV Cooperation 1 Introduction 2 Problem Statement and Ar ...

  3. 【李宏毅】元学习(Meta learning)的概念与步骤

    [李宏毅]元学习(Meta learning)的概念与步骤 1 概念 2 元学习步骤 2.1 定义一组学习算法 2.2 评价一个学习算法 F F F 的好坏 只讲了元学习概念和步骤,简单做了解,稍微复 ...

  4. 【01】 冯·诺依曼体系结构:计算机组成的金字塔

    [计算机组成原理]学习笔记--总目录 [01] 冯·诺依曼体系结构:计算机组成的金字塔 一.计算机的基本硬件组成 CPU: 内存: 主板: 输入/输出设备: 硬盘: 显卡: 补充: 二.冯·诺依曼体系 ...

  5. 【Python】函数图像绘制:二维图像、三维图像、散点图、心形图

    [Python]函数图像绘制:二维图像.三维图像.散点图.心形图 所有需要用的包 二维图像 三维图像 散点图绘制 心形图绘制 所有需要用的包 from mpl_toolkits.mplot3d imp ...

  6. 【Discuz】云平台服务:出了点小错,由于站点ID/通信KEY等关键信息丢失导致Discuz!云平台服务出现异常

    [Discuz]云平台服务:出了点小错,由于站点ID/通信KEY等关键信息丢失导致Discuz!云平台服务出现异常 参考文章: (1)[Discuz]云平台服务:出了点小错,由于站点ID/通信KEY等 ...

  7. 【svn】svn报错:“Previous operation has not finished; run ‘cleanup‘ if it was interrupted“ 的解决方法

    [svn]svn报错:"Previous operation has not finished; run 'cleanup' if it was interrupted" 的解决方 ...

  8. 【译】Spring官方教程:使用STS的入门指南

    原文:Working a Getting Started guide with STS 译者:hanbin 校对:Mr.lzc 这个指南引导您使用 Spring Tool Suite (STS) 去构 ...

  9. 【翻译】QEMU内部机制:顶层概览

    系列文章: [翻译]QEMU内部机制:宏观架构和线程模型 [翻译]QEMU内部机制:vhost的架构 [翻译]QEMU内部机制:顶层概览(本文) [翻译]QEMU内部机制:内存 原文地址:http:/ ...

  10. 【转】IT名企面试:腾讯笔试题(2)

    摘要:想要进入腾讯公司,面试笔试题是一定要有所准备的.那么这里我们总结了一些腾讯笔试题,例如:const的含义及实现机制等问题. 腾讯是国内数一数二的IT企业了.那么每年想要进入腾讯公司的应聘者也是络 ...

最新文章

  1. android TextView 文本里面设置超链接
  2. centos7 docker 安装 otter 注意事项
  3. Python 技术篇-pyhook暂停键盘鼠标监听事件,停止键盘鼠标监听事件且不关闭程序
  4. Boost.PolyCollection 性能测试
  5. PHP CLI应用的调试原理
  6. DownloadManager不好用?试试ZlsamDownloadService
  7. shell基础07 函数
  8. 关于EFM32下的w25q256的使用
  9. 1047 : 对数表
  10. Firebug插件:
  11. 信息系统项目管理师考试后多久出成绩?
  12. 2分钟入侵网站全程实录
  13. php 泊松分布,关于检验泊松分布
  14. matlab画出鸢尾花数据集散点图尾花,鸢尾花数据集分以及绘制散点矩阵图
  15. hive 查询表中的数据来源hdfs 位置
  16. 攻击 xxs_“吃鸡”玩家被xxs故意炸倒,举报时出现提示,光子站在xxs一边!
  17. 24 个很酷的 Linux/Unix 工具
  18. 第十一届蓝桥杯C++B组国赛最后一周练习(星期一)
  19. 区块链未来三年将成为数字中国建设的重要支撑
  20. HTTP协议及GET、POST的差异

热门文章

  1. 防止mdf文件被非法附加后修改的一个简单实现方案
  2. [转]触碰心灵34句
  3. uniapp使用cmd引入uview报错,文件查找失败:‘uview-ui‘
  4. WLAN中直接转发和隧道转发流程与封装
  5. LNMP详解(十三)——Nginx子页面详解
  6. OSPFv3中LSA详解(二)——Router LSA详解
  7. 微服务化的基石--持续集成
  8. 204. Count Primes 1
  9. 关于拉格朗日乘子法和KKT条件
  10. Http Core学习(Http Components 翻译和学习)