内容一览:强化学习是多学科领域的交叉产物,其本质是实现自动决策且可做连续决策。本文将介绍 DeepMind 最新研发成果:扩大强化学习应用范围的通用算法 DreamerV3。 关键词:强化学习 DeepMind 通用算法

本文首发自微信公众号:HyperAI超神经

北京时间 1 月 12 日,DeepMind 官方推特发文,正式官宣 DreamerV3,这是首个能在游戏「我的世界」(Minecraft) 中不参考人类数据,就能从头开始收集钻石的通用算法,解决了 AI 领域中的又一重要挑战。

DeepMind 在推特官宣 DreamerV3

强化学习扩展成问题,发展还需通用算法

强化学习使得计算机可以通过互动解决某一任务,如 AlphaGo 在围棋比赛中战胜人类,OpenAI Five 在 Dota 2 中战胜业余人类玩家。

OpenAI Five 在比赛中战胜人类玩家研发团队与人类玩家合照

然而,要想将算法应用于新的应用场景,如从棋盘游戏转到视频游戏或机器人任务,就需要工程师不断开发专门的算法 (specialized algorithms),如连续控制、稀疏奖励、图像输入以及 spatial environments 等。

这要求大量的专业知识和计算资源来微调算法,极大阻碍了模型的扩展。创建无需调优就能学习掌握新 domain 的通用算法,成为扩大强化学习应用范围、解决决策问题的重要途径。

由此,由 DeepMind 和多伦多大学联合研发的 DreamerV3 应运而生。

DreamerV3:基于世界模型的通用算法

DreamerV3 是一种基于世界模型 (World Model) 的通用和可扩展的算法,能在固定超参数的前提下,应用于广泛域 (domain),比专门的算法更出色。

这些 domain 包括连续动作 (continuous action) 和离散动作 (discrete action),视觉输入和低维输入,2D 世界和 3D 世界,不同的数据预算、奖励频率和奖励尺度等。

DreamerV3 通用算法与专门算法性能对比

DreamerV3 由 3 个从回放经验 (replayed experience) 中同时训练,且不共享梯度的神经网络组成:

1、world model:预测潜在动作的未来结果

2、critic:判断每种情况的 value

3、actor:学习如何使有价值的情况成为可能

DreamerV3 的训练过程

如上图所示,world model 将 sensory input 编码为一个离散表征 zt。zt 由一个具备 recurrent state ht 的序列模型预测得出,并给出动作 at。input 被重构为学习信号 (learning signal) 进而 shape 表征。

actor 和 critic 从 world model 预测的抽象表征 trajectory 中学习。

为了更好地适应跨域任务,这些组件需要适应不同的信号强度 (signal magnitudes),并在其目标中稳健地平衡 terms。

工程师在超过 150 个固定参数的任务上对 DreamerV3 进行了测试,并与文献中记载的最佳方法进行比较,实验表明,DreamerV3 对于不同 domain 的任务,均具备较高通用性和可扩展性。

基准概览  所有 agent 都是在 NVIDIA V100 GPU 上训练

DreamerV3 在 7 个基准测试中都取得了优异成绩,并在 state 和 image 的 continuous control、BSuite 和 Crafter 上都建立了新的 SOTA 水平。

然而 DreamerV3 仍然具备一定的局限性,例如当 environment steps 在 1 亿以内时,算法并不能像人类玩家一样,在所有场景中都捡到钻石,而是偶尔捡到。

站在巨人的肩膀上,回顾Dreamer家族发展史

一代目:Dreamer

发布时间:2019 年 12 月

参与机构:多伦多大学、DeepMind、Google Brain

论文地址:https://arxiv.org/pdf/1912.01603.pdf

算法简介:

Dreamer 是一个强化学习 agent,可以仅通过 latent imagination 从图像中解决 long-horizon 任务。

它基于模型预测的反向传播,来利用 world model 实现高效的行为学习。在 20 个极具挑战性的视觉控制任务中,Dreamer 在数据效率、计算时间和最终性能方面均超过了当时的主流方法。

Dreamer 与当时主流方法的性能比较

Dreamer 继承了 PlaNet 的数据效率,同时超过了当时最好的 model-free agent 的渐近性能 (asymptotic performance)。5×106 个 environment step 后,Dreamer 在各个任务中的平均性能达到了 823,而 PlaNet 仅为 332,最高的 model-free D4PG agent 在 108 步之后为 786。

二代目:DreamerV2

发布时间:2020 年 10 月

参与机构:Google Research、DeepMind、多伦多大学

论文地址:https://arxiv.org/pdf/2010.02193.pdf

算法简介:

DreamerV2 是一个强化学习 agent,可以从 world model 紧凑隐空间 (compact latent space) 的预测中学习行为。

注:该 world model 使用离散表征,并且与策略分开训练。

DreamerV2 是第一个通过在单独训练的 world model 中学习行为,在 Atari 基准的 55 项任务中达到人类水平的 agent。在相同的计算预算和 wall-clock time 情况下,DreamerV2 达到了 2 亿帧,超过了顶级 single-GPU agents IQN 及 Rainbow 的最终性能。

此外,DreamerV2 也适用于有连续动作的任务,它学习了一个复杂的类人型机器人的 world model,只通过像素输入就解决了站立和行走问题。

玩家在 Atari 基准 55 个游戏的正则化中位数得分

推特网友评论区带头玩梗

对于 DreamerV3 的诞生,不少网友也在 DeepMind 推特留言区抖起了机灵。

解放人类,再也不用玩「我的世界」了。

别光顾着玩游戏了,干点正事儿吧!@DeepMind 和 CEO Demis Hassabis

「我的世界」终极 BOSS 末影龙瑟瑟发抖中。

近年来,游戏「我的世界」已成为强化学习研究的一个焦点,围绕在「我的世界」中进行钻石收集的国际竞赛已经举办多次。

在没有人类数据的情况下解决这一挑战,被广泛认为是人工智能的一个里程碑,因为在这个程序生成的开放世界环境 (open-world environment) 中,奖励稀少、探索困难、时间跨度长,这些障碍的存在使得先前的方法都需要基于人类数据或教程。

DreamerV3 是第一个从 0 开始在「我的世界」中完全自学收集钻石的算法,它使得强化学习的应用范围进一步扩大,正如网友们所说,DreamerV3 已经是个成熟的通用算法了,该学会自己挂机升级打怪,跟终极 BOSS 末影龙对线了!

关注 HyperAI超神经,了解更多有趣的 AI 算法、应用;还有定期更新教程,一起学习进步!

DeepMind 发布强化学习通用算法 DreamerV3,AI 成精自学捡钻石相关推荐

  1. DeepMind提出强化学习新算法,教智能体从零学控制

    来源:人工智能和大数据 摘要:3月2日,DeepMind发表博客文章,提出一种称为SAC-X(计划辅助控制)的新学习范式,旨在解决让AI以最少的先验知识,从头开始学习复杂控制问题的挑战. 这在真实环境 ...

  2. 让AI学习如何玩游戏 OpenAI打造强化学习通用模型

    过度学习是许多AI模型的问题,要开发出通用型AI,就必须解决这道难题,OpenAI近日释出一个特别的训练环境CoinRun,该平台藉由游戏设计,能够提供指针,让程序将过去学习到的经验,转移到全新环境中 ...

  3. DeepMind用强化学习探索大脑多巴胺对学习的作用

    AI系统已经掌握了多种电子游戏,如雅达利经典的"突出重围"(Breakout)和"乒乓球"(Pong)游戏.但尽管AI在玩游戏方便的表现令人印象深刻,它们仍然是 ...

  4. DeepMind开源强化学习环境,灵活可配置,计算资源有限的小型实验室也能用

    铜灵 发自 凹非寺 量子位 出品 | 公众号 QbitAI 想搞强化学习,但算力门槛让不少人望而却步. 想想DeepMind训练的通用棋类AI AlphaZero,碾压一票同类选手,但堆砌了实验室里5 ...

  5. 【强化学习PPO算法】

    强化学习PPO算法 一.PPO算法 二.伪代码 三.相关的简单理论 1.ratio 2.裁断 3.Advantage的计算 4.loss的计算 四.算法实现 五.效果 六.感悟   最近再改一个代码, ...

  6. DRL:强化学习-Q-Learning算法

    文章目录 强化学习 Q-Learning算法 1. 问题及原因 2. Estimator原理与思想 (1)单估计器方法(Single Estimator) (2)双估计器方法(Double Estim ...

  7. 谷歌发布深度学习新算法,适用于真实机器人的技能学习

    https://www.toutiao.com/a6649215346496504327/ 2019-01-22 15:11:28 通过这种名叫SAC(柔性致动/评价)的强化学习算法,机器人能很快地完 ...

  8. 【人工智能II】实验2 强化学习Q-Learning算法

    强化学习Q-Learning算法 核心思想 实验原理 实验流程图 实验分析 理解Q-Learning算法 GYM库 更换实验环境 实验代码 Q-Learning: Sarsa代码 搞不懂我一个本科生为 ...

  9. 强化学习 五子棋算法

    强化学习 五子棋算法 蒙特卡洛树搜索 MCTS 蒙特卡洛树搜索算法 上限置信区间算法 UCT Minimax算法与纳什均衡 alpha beta剪枝 估值函数 优化与总结 本文会以AI五子棋展开,讲解 ...

最新文章

  1. Leetcode: Maximum Depth of Binary Tree
  2. ActiveMQ入门教程(二) - ActiveMQ的安装
  3. 5、python学习之变量
  4. 现代密码学5.2--域扩张:Merkle-Damgard Transform
  5. 行政区村界线_工作动态 | 龟山镇召开村级行政区域界线勘定工作暨民政业务培训会议...
  6. Xcode6的新特性、iPhone6和iPhone6Plus的适配,xcode6iphone6
  7. 为什么unity 安装完模块还是找不到sdk_解决在Android Studio 3.2找不到Android Device Monitor工具...
  8. 感知算法论文(一)YOLACT: Real-time Instance Segmentation(2019)译文
  9. oracle11g导出dmp文件 少表,Oracle11g导出dmp并导入Oracle10g的操作记录
  10. 遮罩窗体弹出登录页面代码实现
  11. 华为被起诉了!你肯定想不到原告是谁!
  12. 初入C++(一) c++中的一些基础和与c的一些区别
  13. java的dom4j怎么调_dom4j.jar 的调试方法
  14. 力扣977,有序数组的平方(JavaScript)
  15. php函数copy和rename的区别
  16. [TOOLS]confluence添加word宏显示上传的word文档
  17. If you insist running as root, then set the environment variable RUN_AS_USER=root before running thi
  18. Excel如何批量生成条形码
  19. Windows电脑无法识别msi文件,无法安装msi文件解决办法
  20. 资产管理之RFID资产管理系统解决方案-RFID资产智能盘点-新导智能

热门文章

  1. 安全的应用程序开发和应用程序安全防御
  2. JavaScript最常用的55个经典技巧
  3. 小程序开发中使用节流函数throttle的正确方式
  4. html图片视频渲染原理,初识浏览器渲染原理和CSS动画
  5. java面试之JVM和并发
  6. c++用一级运算比较大小_全国计算机一级考试试题
  7. Floyd算法求无向图最小环
  8. html测试题英语,北大PKU-GATE考试真题-题库
  9. 前端团队代码规范最佳实践!
  10. PyCharm使用教程:选择性忽略 PEP8 警告