【DeepMind】首发并开源Alchemy，一种元强化学习(meta-RL)基准环境。

深度强化学习实验室

官网：http://www.neurondance.com/

论坛：http://deeprl.neurondance.com/

编辑：DeepRL

元学习作为一种增加强化学习的灵活性和样本效率的方法，科研学者对此的关注兴趣迅速增长。然而，该研究领域中的一个问题是缺乏足够的基准测试任务。通常，过去基准的基础结构要么太简单以至于无法引起兴趣，要么就太不明确了以至于无法进行有原则的分析。在当前的工作中，DeepMind科学家介绍了用于元RL研究的新基准：Alchemy，该基准是将结构丰富性与结构透明性相结合。它是在Unity中实现的3D视频游戏，涉及潜在的因果结构，该过程都经过程序重新采样，从而提供了结构学习，在线推理，假设测试以及基于抽象领域知识的动作排序。并在Alchemy上评估了一对功能强大的RL方法，并对这些方法进行了深入分析。结果清楚地表明，Alchemy作为元RL的挑战性基准提供了验证。

一种有前途的方法是元学习或学习学习（learning to learn）。这里的想法是，学习者可以从大量的经验中获得可用于目标的知识，并且随着知识的积累，学习者可以越来越快地适应遇到的每个新任务。在深度RL中开发元学习方法的兴趣迅速增长。尽管在“元强化学习”方面取得了实质性进展，但由于缺乏基准测试任务，这一领域的研究受到了阻碍。在当前的工作中，作者旨在通过引入（和开源）Alchemy（一种有用的meta-RL基准环境）以及一套分析工具来缓解此问题。

为了进行元学习，环境必须向学习者提供的不是单一任务，而是一系列任务或一系列任务，所有这些任务都有一些共同的高级特征。以前关于meta-RL的工作通常依赖于任务分布，这些任务分布要么是有趣的（例如强盗任务），要么是有趣的（例如，Atari游戏），而没有兴趣。Alchemy旨在提供两全其美的体验。

Alchemy是在Unity中实现的单人视频游戏。玩家可以看到桌子上的第一人称视角，桌子上有许多物体，包括一组彩色的石头，一组装有彩色药水的盘子和一个中央大锅。石头具有不同的点值，并且在将石头添加到大锅中时会收集点。通过将石头浸入魔药中，玩家可以改变石头的外观，从而改变它们的价值，从而增加可赢得的分数。

但是，Alchemy也涉及到一个至关重要的陷阱：每次玩游戏时，控制药水如何影响石头的“化学作用”都会改变。熟练的演奏者必须执行一组有针对性的实验，以发现当前化学反应的原理，并使用这些实验的结果来指导战略行动序列。在多轮Alchemy中学习如何做到这一点，正是meta-RL的挑战。

Alchemy具有“有趣”的结构，从某种意义上讲，它涉及潜在的因果关系组成的集合，并且需要策略性实验和动作排序。但是Alchemy的结构也是“可访问的”，因为游戏级别是根据明确的生成过程创建的。

通过创建可访问生成过程的贝叶斯最优求解器，这种可访问性使我们能够确定Alchemy中的最佳元学习性能。这种最佳试剂提供了宝贵的金标准，可与任何深层RL进行比较。

作为Alchemy的首次应用，作者将其介绍给了两种功能强大的深层RL智能体（IMPALA和V-MPO）。正如我们的论文中详细介绍的那样，尽管这些智能体在许多单任务RL环境中都表现良好，但在Alchemy中，它们都显示出非常差的元学习性能。即使经过大量的训练，两位特工的行为也仅反映了对任务的表面“理解”-本质上是将石头随机浸入药水中，直到碰巧产生了很高的石头价值。通过一系列详细的分析，我们能够确定元学习的失败不仅是由于3D环境的视觉运动挑战，也不是为了实现目标而对动作进行排序的难度。相反，智能体的糟糕表现特别反映了结构学习和潜伏状态推理的失败，这是元学习所涉及的核心功能。

开源代码初始化应用：

$ git clone https://github.com/deepmind/dm_alchemy.git
$ pip install wheel
$ pip install --upgrade setuptools
$ pip install ./dm_alchemy
# To also install the dependencies for the examples/, install with:$ pip install ./dm_alchemy[examples]

Once dm_alchemy is installed, to instantiate a dm_env instance run the following:

import dm_alchemyLEVEL_NAME = ('alchemy/perceptual_mapping_''randomized_with_rotation_and_random_bottleneck')
settings = dm_alchemy.EnvironmentSettings(seed=123, level_name=LEVEL_NAME)
env = dm_alchemy.load_from_docker(settings)

Blog: https://deepmind.com/research/publications/alchemy

Github: https://github.com/deepmind/dm_alchemy

Paper: https://arxiv.org/pdf/2102.02926.pdf

完

总结1：周志华 || AI领域如何做研究-写高水平论文

总结2：全网首发最全深度强化学习资料(永更)

总结3: 《强化学习导论》代码/习题答案大全

总结4：30+个必知的《人工智能》会议清单

总结5：2019年-57篇深度强化学习文章汇总

总结6: 万字总结 || 强化学习之路

总结7：万字总结 || 多智能体强化学习(MARL)大总结

总结8：深度强化学习理论、模型及编码调参技巧

完

第99篇：NeoRL:接近真实世界的离线强化学习基准

第98篇：全面总结(值函数与优势函数)的估计方法

第97篇：MuZero算法过程详细解读

第96篇: 值分布强化学习（Distributional RL）总结

第95篇：如何提高"强化学习算法模型"的泛化能力?

第94篇：多智能体强化学习《星际争霸II》研究

第93篇：MuZero在Atari基准上取得了新SOTA效果

第92篇：谷歌AI掌门人Jeff Dean获冯诺依曼奖

第91篇：详解用TD3算法通关BipedalWalker环境

第90篇：Top-K Off-Policy RL论文复现

第89篇：腾讯开源分布式多智能TLeague框架

第88篇：分层强化学习(HRL)全面总结

第87篇：165篇CoRL2020 accept论文汇总

第86篇：287篇ICLR2021深度强化学习论文汇总

第85篇：279页总结"基于模型的强化学习方法"

第84篇：阿里强化学习领域研究助理/实习生招聘

第83篇：180篇NIPS2020顶会强化学习论文

第82篇：强化学习需要批归一化(Batch Norm)吗？

第81篇：《综述》多智能体强化学习算法理论研究

第80篇：强化学习《奖励函数设计》详细解读

第79篇: 诺亚方舟开源高性能强化学习库“刑天”

第78篇：强化学习如何tradeoff"探索"和"利用"？

第77篇：深度强化学习工程师/研究员面试指南

第76篇：DAI2020 自动驾驶挑战赛(强化学习)

第75篇：Distributional Soft Actor-Critic算法

第74篇：【中文公益公开课】RLChina2020

第73篇：Tensorflow2.0实现29种深度强化学习算法

第72篇：【万字长文】解决强化学习"稀疏奖励"

第71篇：【公开课】高级强化学习专题

第70篇：DeepMind发布"离线强化学习基准“

第69篇：深度强化学习【Seaborn】绘图方法

第68篇：【DeepMind】多智能体学习231页PPT

第67篇：126篇ICML2020会议"强化学习"论文汇总

第66篇：分布式强化学习框架Acme，并行性加强

第65篇：DQN系列(3): 优先级经验回放(PER)

第64篇：UC Berkeley开源RAD来改进强化学习算法

第63篇：华为诺亚方舟招聘 || 强化学习研究实习生

第62篇：ICLR2020- 106篇深度强化学习顶会论文

第61篇：David Sliver 亲自讲解AlphaGo、Zero

第60篇：滴滴主办强化学习挑战赛:KDD Cup-2020

第59篇：Agent57在所有经典Atari 游戏中吊打人类

第58篇：清华开源「天授」强化学习平台

第57篇：Google发布"强化学习"框架"SEED RL"

第56篇：RL教父Sutton实现强人工智能算法的难易

第55篇：内推 || 阿里2020年强化学习实习生招聘

第54篇：顶会 || 65篇"IJCAI"深度强化学习论文

第53篇：TRPO/PPO提出者John Schulman谈科研

第52篇：《强化学习》可复现性和稳健性，如何解决？

第51篇：强化学习和最优控制的《十个关键点》

第50篇：微软全球深度强化学习开源项目开放申请

第49篇：DeepMind发布强化学习库 RLax

第48篇：AlphaStar过程详解笔记

第47篇：Exploration-Exploitation难题解决方法

第46篇：DQN系列(2): Double DQN 算法

第45篇：DQN系列(1): Double Q-learning

第44篇：科研界最全工具汇总

第43篇：起死回生|| 如何rebuttal顶会学术论文?

第42篇：深度强化学习入门到精通资料综述

第41篇：顶会征稿 || ICAPS2020: DeepRL

第40篇：实习生招聘 || 华为诺亚方舟实验室

第39篇：滴滴实习生|| 深度强化学习方向

第38篇：AAAI-2020 || 52篇深度强化学习论文

第37篇：Call For Papers# IJCNN2020-DeepRL

第36篇：复现"深度强化学习"论文的经验之谈

第35篇：α-Rank算法之DeepMind及Huawei改进

第34篇：从Paper到Coding, DRL挑战34类游戏

第33篇：DeepMind-102页深度强化学习PPT

第32篇：腾讯AI Lab强化学习招聘(正式/实习)

第31篇：强化学习，路在何方？

第30篇：强化学习的三种范例

第29篇：框架ES-MAML：进化策略的元学习方法

第28篇：138页“策略优化”PPT--Pieter Abbeel

第27篇：迁移学习在强化学习中的应用及最新进展

第26篇：深入理解Hindsight Experience Replay

第25篇：10项【深度强化学习】赛事汇总

第24篇：DRL实验中到底需要多少个随机种子？

第23篇：142页"ICML会议"强化学习笔记

第22篇：通过深度强化学习实现通用量子控制

第21篇：《深度强化学习》面试题汇总

第20篇：《深度强化学习》招聘汇总(13家企业）

第19篇：解决反馈稀疏问题之HER原理与代码实现

第18篇："DeepRacer" —顶级深度强化学习挑战赛

第17篇：AI Paper | 几个实用工具推荐

第16篇：AI领域：如何做优秀研究并写高水平论文？

第15篇：DeepMind开源三大新框架！

第14篇：61篇NIPS2019DeepRL论文及部分解读

第13篇：OpenSpiel(28种DRL环境+24种DRL算法)

第12篇：模块化和快速原型设计Huskarl DRL框架

第11篇：DRL在Unity自行车环境中配置与实践

第10篇：解读72篇DeepMind深度强化学习论文

第9篇：《AutoML》：一份自动化调参的指导

第8篇：ReinforceJS库（动态展示DP、TD、DQN）

第7篇：10年NIPS顶会DRL论文(100多篇)汇总

第6篇：ICML2019-深度强化学习文章汇总

第5篇：深度强化学习在阿里巴巴的技术演进

第4篇：深度强化学习十大原则

第3篇：“超参数”自动化设置方法---DeepHyper

第2篇：深度强化学习的加速方法

第1篇：深入浅出解读"多巴胺（Dopamine）论文"、环境配置和实例分析

【DeepMind】首发并开源Alchemy，一种元强化学习(meta-RL)基准环境。相关推荐

DeepMind用基于AI的元强化学习框架研究多巴胺在学习过程中的作用
内容来源:ATYUN AI平台最近,AI已经应用到一系列视频游戏中,如Atari经典的Breakout和Pong.尽管这样的表现令人印象深刻,但人工智能仍然依靠数千小时的游戏时间来达到并超越人类玩家 ...
元强化学习系列(1)之：元学习入门基础
元强化学习三境界统计学是人工智能开始发展的一个基础,古老的人们从大量的数据中发现七所存在的规律,在以统计学为基础的机器学习(machine learning)时代,复杂一点的分类问题效果就不好了, ...
《强化学习周刊》第14期：元强化学习的最新研究与应用
No.14 智源社区强化学习组强化学习研究观点资源活动关于周刊强化学习作为人工智能领域研究热点之一,它与元学习相结合的研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该 ...
17种深度强化学习算法用Pytorch实现（附链接）
来源:新智元本文约1300字,建议阅读5分钟. 本文为你介绍一个用PyTorch实现了17种深度强化学习算法的教程和代码库,帮助大家在实践中理解深度RL算法. [ 导读 ]深度强化学习已经在许多领域 ...
Google Deepmind大神David Silver带你认识强化学习
Google Deepmind大神David Silver带你认识强化学习 2016-08-16 18:16 Blake 1条评论 Google Deepmind大神David Silver带你认识强 ...
openssl 添加自定义算法_GitHub：用PyTorch实现17种深度强化学习算法
[新智元导读]深度强化学习已经在许多领域取得了瞩目的成就,并且仍是各大领域受热捧的方向之一.本文推荐一个用 PyTorch 实现了 17 种深度强化学习算法的教程和代码库,帮助大家在实践中理解深度 R ...
强化学习 - Deep RL开源项目总结
https://zhuanlan.zhihu.com/p/24392239 一. Lua 语言的程序包(运用框架:Torch 7): 1. 相关论文:Human-level control throu ...
《强化学习周刊》第42期：DPIN、鲁棒元强化学习、Deep dispatching
No.42 智源社区强化学习组强化学习研究观点资源活动周刊订阅告诉大家一个好消息,<强化学习周刊>已经开启"订阅功能",以后我们会向您自动推送最 ...
DeepMind Nando（原牛津大学教授）强化学习最新进展，含图文、公式和代码，附102页PPT下载...
点击上方"AI遇见机器学习",选择"星标"公众号重磅干货,第一时间送转自:专知 [导读]在DeepMing任职的Nando de Freitas(原牛津大学 ...

【DeepMind】首发并开源Alchemy，一种元强化学习(meta-RL)基准环境。

【DeepMind】首发并开源Alchemy，一种元强化学习(meta-RL)基准环境。相关推荐

最新文章

热门文章