\n

今天,OpenAI发布了一款”大型多角色”虚拟训练场景游戏,把AI代理放进一个类似于RPG(角色扮演游戏)的模拟场景中,AI们会互相竞争,通过战争来抢夺有限的资源,从而得到优化。

\n

\n

“大型多人在线游戏(MMO)模拟了众多玩家在一个持续、广阔的环境中竞争的大型生态系统,”OpenAI在博客文章中写道。“代理和物种多样化会带来更好的探索和更高的整体能力。”

\n

GitHub地址:https://github.com/openai/neural-mmo

\n

Neural MMO的特点

\n

现在,多代理环境已经成为深度强化学习研究很常用的一个实验平台,但是却存在很多问题和局限性,已有的模拟环境有些虽然够复杂但范围太小,有些虽然开放但过于简单。为了解决这些问题,OpenAI研发并开放了Neural MMO。

\n

和其他系统相比,Neural MMO具有以下特点:

\n

  • \n
  • 持久性:代理无需环境重置,可在其他学习代理存在的情况下同时学习。策略必须考虑长时间的视野,并适应其他代理行为的潜在快速变化。\n
  • 规模:环境支持大量可变数量的代理。实验考虑到了100个并发服务器中每个服务器中多达128个并发代理长达100M的生命周期。\n
  • 效率:包含可以比较代理性能表现的baseline(在100多个世界中训练),且计算开销相对较低,训练只需要一个桌面CPU。\n
  • 扩展:Neural MMO目前的核心功能包括基于地图的地形程序生成,食物和水觅食系统以及战略战斗系统。未来可能会进行开源驱动的扩展。\n

\n

Neural MMO环境中会随机生成AI代理,其中包含自动生成的预定大小的地图。一些地图是可穿越的,如“森林”(承载食物)和“草”,而其他地图则不能穿越(如水和石头)。

\n

\n

OpenAI 使用神经MMO来训练AI系统,通过奖励代理生命周期来进化,也就是说,AI会让自己活的尽量长久,代理之间彼此交互的时间越长,就可以更好地完成某些任务,而且增加并发代理的最大数量可以更好地进行探索。有趣的是,他们还发现增加代理的规模会促使它们进入地图的不同部分,而在较广阔的环境中训练的代理“始终”胜过只在较小环境中经过训练的AI。

\n

  • \n
  • 输入:代理观察以各自位置为中心的地图,包括地形类型和占用代理的选择属性(健康、食物、水和位置)。\n
  • 输出:代理按时间戳(或刻度)进行一次移动和一次攻击,来寻找水和食物资源,并和其他代理一起参与战斗。\n

\n

\n

平台为价值功能、地图图块到达分布以及学习策略的代理之间依赖性提供了程序环境生成器和可视化工具。Baseline经过100多个世界的policy梯度训练。

\n

模型:适者生存

\n

为了进行一个简单的baseline测试,我们使用vanilla策略梯度训练一个小型、完全连接的架构,其中值函数基线和奖励作为唯一的增强功能。我们不是让代理通过完成特定任务获得奖励,而是让代理们活得越久越好,活得越久的代理会得到优化,获得更高分数。我们通过计算所有玩家的最大值来将可变长度观测值(例如周围玩家数量)转换为单个长度向量(OpenAI Five也使用了这个技巧)。源版本发布包括我们基于PyTorch和Ray的完整分布式训练实现。

\n

评估结果

\n

\n

训练的最大群体数量在(16,32,64,128)之间变化。为了提高效率,政策由16个代理共享。在测试时,我们将在实验中结对学习的代理合并,并以固定的群体数量评估生命周期。我们仅通过觅食进行评估,因为战斗策略难以直接进行比较。在较大种群中经过训练的代理表现总是更好。

\n

“由于AI不能超越自己的并发代理(即与他们共有权重的代理),它们倾向于寻找包含足够资源以维持种群发展的地图区域,”OpenAI写道。“在自然界中,动物之间会通过向其他区域扩散以避免竞争。我们观察到,地图覆盖范围会随着并发代理数量的增加而增加。仅仅因为其他AI的存在,就已经刺激AI去学会探索了。“

\n

但值得注意的是,这并不是首创。12月,OpenAI发布了CoinRun,这是一款经典的平台游戏,旨在衡量代理将经验迁移到不熟悉场景的能力。8月,挪威阿德大学的研究人员开放了一个实时战略游戏人工智能训练环境。

\n

除了模拟学习环境之外,数据科学家还在《星际争霸 II》、《蒙特祖玛的复仇》、《刀塔 2》、《雷神之锤III》和其他游戏中设置了AI,为的是某一天能够开发出能够诊断疾病、预测复杂蛋白质结构和分割CT扫描的系统。“这些游戏是我们测试算法的一个很好的试验场地,”DeepMind联合创始人Demis Hassabis表示。“最终,我们的目标是开发可以迁移到现实世界的算法,以解决真正具有挑战性的问题,并帮助这些领域的专家。”

\n

参考链接:
\nhttps://venturebeat.com/2019/03/04/openai-launches-neural-mmo-a-massive-reinforcement-learning-simulator/
\nhttps://blog.openai.com/neural-mmo/

\n

\n

OpenAI发布大型强化深度学习模拟器Neural MMO,AI适者生存择最优相关推荐

  1. OpenAI高调站队:深度学习框架以后主要用PyTorch

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 对于深度学习框架的使用,整个人工智能社区大体可以分为两大阵营:TensorFlow ...

  2. 强化深度学习把医疗AI推向新的高潮

    人工智能技术的发展,给垂直产业带来巨大变革,以医疗.无人车.安防.金融等垂直行业的变化最受到关注,自从2012年深度学习技术被引入到图像识别数据集ImageNet(做为测试标准),其识别率近年屡创新高 ...

  3. 吴恩达深度学习笔记——神经网络与深度学习(Neural Networks and Deep Learning)

    文章目录 前言 传送门 神经网络与深度学习(Neural Networks and Deep Learning) 绪论 梯度下降法与二分逻辑回归(Gradient Descend and Logist ...

  4. Yoshua Bengio首次中国演讲:深度学习通往人类水平AI的挑战

    11 月 7 日,Yoshua Bengio 受邀来到北京参加第二十届「二十一世纪的计算」国际学术研讨会.会上以及随后受邀前往清华时,他给出了题为「深度学习通往人类水平 AI 的挑战」(Challen ...

  5. 我用深度学习做个视觉AI微型处理器!

    Datawhale干货 作者:张强,Datawhale成员 讲多了算法,如何真正将算法应用到产品领域?本文将带你从0用深度学习打造一个视觉AI的微型处理器.文章含完整代码,知识点相对独立,欢迎点赞收藏 ...

  6. TorchFusion 是一个深度学习框架,主要用于 AI 系统加速研究和开发

    TorchFusion 是一个深度学习框架,主要用于 AI 系统加速研究和开发. TorchFusion 基于 PyTorch 并且完全兼容纯 PyTorch 和其他 PyTorch 软件包,它供了一 ...

  7. 【百家稷学】深度学习与嵌入式平台AI实践(北京交通大学实训)

    继续咱们百家稷学专题,本次是有三AI在北京交通大学进行的暑期课程教学.百家稷学专题的目标,是走进100所高校和企业进行学习与分享. 分享主题 本次分享是在北京交通大学计算机与信息技术学院进行,主题是& ...

  8. Amazon 首席科学家李沐亲授「深度学习」,2019 AI ProCon震撼来袭!(日程出炉)...

    2019年9月5-7日,面向AI技术人的年度盛会-- 2019 AI开发者大会 AI ProCon,火热来袭!  继2018 年由CSDN成功举办AI 开发者大会一年之后,全球AI市场正发生着巨大的变 ...

  9. Spark 2.4重磅发布:优化深度学习框架集成,提供更灵活的流式接收器

    Apache Spark 2.4.0是2.x系列中的第五个版本.此版本增加了屏障执行模式,以便更好地与深度学习框架集成:引入30多个更高阶的内置函数,能够更轻松地处理复杂数据类型:优化K8s集成,同时 ...

最新文章

  1. 数据结构:循环链表解决约瑟夫问题
  2. linux popd 命令,在Linux系统中的Pushd命令与Popd命令,教你这两个命令的基本用法...
  3. java 8 stream中的Spliterator简介
  4. publiccms实现首页菜单栏下拉的方法
  5. C#中实现对象的深拷贝
  6. 第七十四期:国内SaaS企业终于活成了自己讨厌的样子!
  7. 数字时代企业信息安全如何保障? VMware原生安全前来“保驾护航”
  8. Linux 双网卡绑定
  9. 信息学奥赛一本通 1937:【06NOIP普及组】数列 | 洛谷 P1062 [NOIP2006 普及组] 数列
  10. VisualSVNServerTools(在线修改VisualSVN密码)
  11. C++编程基础一 27-二维数组
  12. 12.用户和组账户管理
  13. golang 格式化时间成datetime
  14. java自动签到_原来实现钉钉自动签到如此简单,每天准时上下班不是梦
  15. 七牛上传文件(JS实现)
  16. 用react-custom-scrollbars插件美化 滚动条
  17. 通过Java 画一个太极图
  18. sql round函数(case函数)
  19. Android 修改开机画面
  20. 路由器、交换机设备管理

热门文章

  1. java this 代表什么_java-“ this()”方法是什么意思?
  2. 转-条件概率/全概率/贝叶斯公式
  3. 基于Java的食品团购系统
  4. 阿里、腾讯、百度月饼哪家强?吃完17块后奉上最全测评
  5. 形参和实参,传值和传址
  6. linux服务器基线配置
  7. COMSOL离散数据的插值拟合,并对插值函数特定点求值求积分
  8. FDMA 和 OFDMA 的区别是什么?
  9. 2016年蜀山区第十五届青少年信息学竞赛
  10. 2021-2027中国聚光光伏(CPV)市场现状研究分析与发展前景预测报告