内容一览：强化学习是多学科领域的交叉产物，其本质是实现自动决策且可做连续决策。本文将介绍 DeepMind 最新研发成果：扩大强化学习应用范围的通用算法 DreamerV3。关键词：强化学习 DeepMind 通用算法

本文首发自微信公众号：HyperAI超神经

北京时间 1 月 12 日，DeepMind 官方推特发文，正式官宣 DreamerV3，这是首个能在游戏「我的世界」(Minecraft) 中不参考人类数据，就能从头开始收集钻石的通用算法，解决了 AI 领域中的又一重要挑战。

DeepMind 在推特官宣 DreamerV3

强化学习扩展成问题，发展还需通用算法

强化学习使得计算机可以通过互动解决某一任务，如 AlphaGo 在围棋比赛中战胜人类，OpenAI Five 在 Dota 2 中战胜业余人类玩家。

OpenAI Five 在比赛中战胜人类玩家研发团队与人类玩家合照

然而，要想将算法应用于新的应用场景，如从棋盘游戏转到视频游戏或机器人任务，就需要工程师不断开发专门的算法 (specialized algorithms)，如连续控制、稀疏奖励、图像输入以及 spatial environments 等。

这要求大量的专业知识和计算资源来微调算法，极大阻碍了模型的扩展。创建无需调优就能学习掌握新 domain 的通用算法，成为扩大强化学习应用范围、解决决策问题的重要途径。

由此，由 DeepMind 和多伦多大学联合研发的 DreamerV3 应运而生。

DreamerV3：基于世界模型的通用算法

DreamerV3 是一种基于世界模型 (World Model) 的通用和可扩展的算法，能在固定超参数的前提下，应用于广泛域 (domain)，比专门的算法更出色。

这些 domain 包括连续动作 (continuous action) 和离散动作 (discrete action)，视觉输入和低维输入，2D 世界和 3D 世界，不同的数据预算、奖励频率和奖励尺度等。

DreamerV3 通用算法与专门算法性能对比

DreamerV3 由 3 个从回放经验 (replayed experience) 中同时训练，且不共享梯度的神经网络组成：

1、world model：预测潜在动作的未来结果

2、critic：判断每种情况的 value

3、actor：学习如何使有价值的情况成为可能

DreamerV3 的训练过程

如上图所示，world model 将 sensory input 编码为一个离散表征 zt。zt 由一个具备 recurrent state ht 的序列模型预测得出，并给出动作 at。input 被重构为学习信号 (learning signal) 进而 shape 表征。

actor 和 critic 从 world model 预测的抽象表征 trajectory 中学习。

为了更好地适应跨域任务，这些组件需要适应不同的信号强度 (signal magnitudes)，并在其目标中稳健地平衡 terms。

工程师在超过 150 个固定参数的任务上对 DreamerV3 进行了测试，并与文献中记载的最佳方法进行比较，实验表明，DreamerV3 对于不同 domain 的任务，均具备较高通用性和可扩展性。

基准概览所有 agent 都是在 NVIDIA V100 GPU 上训练

DreamerV3 在 7 个基准测试中都取得了优异成绩，并在 state 和 image 的 continuous control、BSuite 和 Crafter 上都建立了新的 SOTA 水平。

然而 DreamerV3 仍然具备一定的局限性，例如当 environment steps 在 1 亿以内时，算法并不能像人类玩家一样，在所有场景中都捡到钻石，而是偶尔捡到。

站在巨人的肩膀上，回顾Dreamer家族发展史

一代目：Dreamer

发布时间：2019 年 12 月

参与机构：多伦多大学、DeepMind、Google Brain

论文地址：https://arxiv.org/pdf/1912.01603.pdf

算法简介：

Dreamer 是一个强化学习 agent，可以仅通过 latent imagination 从图像中解决 long-horizon 任务。

它基于模型预测的反向传播，来利用 world model 实现高效的行为学习。在 20 个极具挑战性的视觉控制任务中，Dreamer 在数据效率、计算时间和最终性能方面均超过了当时的主流方法。

Dreamer 与当时主流方法的性能比较

Dreamer 继承了 PlaNet 的数据效率，同时超过了当时最好的 model-free agent 的渐近性能 (asymptotic performance)。5×106 个 environment step 后，Dreamer 在各个任务中的平均性能达到了 823，而 PlaNet 仅为 332，最高的 model-free D4PG agent 在 108 步之后为 786。

二代目：DreamerV2

发布时间：2020 年 10 月

参与机构：Google Research、DeepMind、多伦多大学

论文地址：https://arxiv.org/pdf/2010.02193.pdf

算法简介：

DreamerV2 是一个强化学习 agent，可以从 world model 紧凑隐空间 (compact latent space) 的预测中学习行为。

注：该 world model 使用离散表征，并且与策略分开训练。

DreamerV2 是第一个通过在单独训练的 world model 中学习行为，在 Atari 基准的 55 项任务中达到人类水平的 agent。在相同的计算预算和 wall-clock time 情况下，DreamerV2 达到了 2 亿帧，超过了顶级 single-GPU agents IQN 及 Rainbow 的最终性能。

此外，DreamerV2 也适用于有连续动作的任务，它学习了一个复杂的类人型机器人的 world model，只通过像素输入就解决了站立和行走问题。

玩家在 Atari 基准 55 个游戏的正则化中位数得分

推特网友评论区带头玩梗

对于 DreamerV3 的诞生，不少网友也在 DeepMind 推特留言区抖起了机灵。

解放人类，再也不用玩「我的世界」了。

别光顾着玩游戏了，干点正事儿吧！@DeepMind 和 CEO Demis Hassabis

「我的世界」终极 BOSS 末影龙瑟瑟发抖中。

近年来，游戏「我的世界」已成为强化学习研究的一个焦点，围绕在「我的世界」中进行钻石收集的国际竞赛已经举办多次。

在没有人类数据的情况下解决这一挑战，被广泛认为是人工智能的一个里程碑，因为在这个程序生成的开放世界环境 (open-world environment) 中，奖励稀少、探索困难、时间跨度长，这些障碍的存在使得先前的方法都需要基于人类数据或教程。

DreamerV3 是第一个从 0 开始在「我的世界」中完全自学收集钻石的算法，它使得强化学习的应用范围进一步扩大，正如网友们所说，DreamerV3 已经是个成熟的通用算法了，该学会自己挂机升级打怪，跟终极 BOSS 末影龙对线了！

关注 HyperAI超神经，了解更多有趣的 AI 算法、应用；还有定期更新教程，一起学习进步！

DeepMind 发布强化学习通用算法 DreamerV3，AI 成精自学捡钻石相关推荐

DeepMind提出强化学习新算法，教智能体从零学控制
来源:人工智能和大数据摘要:3月2日,DeepMind发表博客文章,提出一种称为SAC-X(计划辅助控制)的新学习范式,旨在解决让AI以最少的先验知识,从头开始学习复杂控制问题的挑战. 这在真实环境 ...
让AI学习如何玩游戏 OpenAI打造强化学习通用模型
过度学习是许多AI模型的问题,要开发出通用型AI,就必须解决这道难题,OpenAI近日释出一个特别的训练环境CoinRun,该平台藉由游戏设计,能够提供指针,让程序将过去学习到的经验,转移到全新环境中 ...
DeepMind用强化学习探索大脑多巴胺对学习的作用
AI系统已经掌握了多种电子游戏,如雅达利经典的"突出重围"(Breakout)和"乒乓球"(Pong)游戏.但尽管AI在玩游戏方便的表现令人印象深刻,它们仍然是 ...
DeepMind开源强化学习环境，灵活可配置，计算资源有限的小型实验室也能用
铜灵发自凹非寺量子位出品 | 公众号 QbitAI 想搞强化学习,但算力门槛让不少人望而却步. 想想DeepMind训练的通用棋类AI AlphaZero,碾压一票同类选手,但堆砌了实验室里5 ...
【强化学习PPO算法】
强化学习PPO算法一.PPO算法二.伪代码三.相关的简单理论 1.ratio 2.裁断 3.Advantage的计算 4.loss的计算四.算法实现五.效果六.感悟最近再改一个代码, ...
DRL:强化学习-Q-Learning算法
文章目录强化学习 Q-Learning算法 1. 问题及原因 2. Estimator原理与思想 (1)单估计器方法(Single Estimator) (2)双估计器方法(Double Estim ...
谷歌发布深度学习新算法，适用于真实机器人的技能学习
https://www.toutiao.com/a6649215346496504327/ 2019-01-22 15:11:28 通过这种名叫SAC(柔性致动/评价)的强化学习算法,机器人能很快地完 ...
【人工智能II】实验2 强化学习Q-Learning算法
强化学习Q-Learning算法核心思想实验原理实验流程图实验分析理解Q-Learning算法 GYM库更换实验环境实验代码 Q-Learning: Sarsa代码搞不懂我一个本科生为 ...
强化学习五子棋算法
强化学习五子棋算法蒙特卡洛树搜索 MCTS 蒙特卡洛树搜索算法上限置信区间算法 UCT Minimax算法与纳什均衡 alpha beta剪枝估值函数优化与总结本文会以AI五子棋展开,讲解 ...

DeepMind 发布强化学习通用算法 DreamerV3，AI 成精自学捡钻石