人类惨败 OpenAI轻取Dota战队 AI为什么总是吊打游戏玩家

关注网易智能，聚焦AI大事件，读懂下一个大时代！

在刚刚秀完可以像人手一样抓取和操纵物体的Dactyl 机械手系统之后，OpenAI迎来又一次令人瞩目的人机大战。

这是家在2015年由马斯克等诸多硅谷大亨联合建立的AI非营利组织，希望能够预防人工智能的灾难性影响，推动人工智能发挥积极作用，当然，他们还希望对标谷歌DeepMind。

北京时间今天凌晨，人类和OpenAI Five展开决战，人类代表队是由半职业Dota高手组成的战队，赛制为三局两胜。

经过三轮的对决，高下立判而且毫无悬念，OpenAI Five轻松赢下头两盘，将人类虐的一点脾气都没有。

在第三轮，面对已经锁定胜局的OpenAI Five，主办方让现场观众为OpenAI Five选择英雄，AI阵容是小鱼人、隐刺、斧王、流浪、痛苦之源；人类阵容是死亡先知、死灵法师、巫魔巫师、巫妖、直升机，最后，AI五个脆皮的弱势阵容，让人类战队稍稍挽回颜面。

最终，比分2:1，人类完败。目前OpenAI Five的水平至少是6600以上。

谈谈为什么AI研究人员如此着迷于游戏

Dota 2需要玩家有快速的反应能力以及对游戏的策略有全面的了解，最重要的是，需要团队合作。该游戏是目前最赚钱的电子竞技项目之一，今年规模最大的一项锦标赛奖金池已经超过2300万美元。

研究人员的软件要战胜那些职业电竞选手，难度不亚于让一个机器人隔扣“篮球之神”迈克尔·乔丹（Michael Jordan）。

对于我们这些没有博士学位的人来说，游戏是一种相对简单的了解人工智能研究进展的方式：在复杂的环境中，人工智能能打败人类吗？我们理解IBM的DeepBlue在国际象棋比赛中击败大师级棋手加里·卡斯帕罗夫（Garry Kasparov）意味着什么，也知道谷歌DeepMind的AlphaGo在围棋比赛中战胜世界冠军李世石（Lee Sedol）意味着什么——实践和打磨技术数十载的人类敌不过机械性的计算系统。除了这些公开的比赛之外，人工智能研究人员数十年来一直在致力于打造比人类更会玩雅达利游戏、跳棋甚至《任天堂明星大乱斗》(Super Smash Bros)的人工智能系统。

并不是所有的关于玩电子游戏的AI的研究成果都适用于实验室之外地方，但在竞技场以外，OpenAI正在证明它专有的研究成果能够被广泛应用。举一个例子：被用来参加Dota 2比赛的算法，也可以被教导如何移动机械手。

强化学习技术

最热门的用来教导机器人玩游戏的方法之一，也就是OpenAI所使用的技术，名为强化学习,该技术的运作原理是：你给机器人一个目标，比如收集硬币，当机器人完成目标时给予它奖励。最初，机器人是任意行动的，直至它偶然地弄明白了该如何完成任务。机器人用来完成任务的动作被其系统认为是较好的方法，因而当下一次尝试完成任务时，机器人更有可能继续采用那些动作。经过成百上千甚至上百万次的尝试以后，策略就会形成。

例如，OpenAI玩Dota 2的机器人在两周内与自己进行数百万次的游戏对抗。在每一场比赛中，机器人的奖励都从为自己获得分数转变成到增加整个团队的分数。该研究小组称这是“团队精神”。

纽约大学人工智能教授朱利安·格里乌斯（Julian Togelius）告诉Quartz：游戏对于人工智能来说是一个很好的学习途径，因为它们模拟现实世界，但带有任务目标。

“现实世界没有什么有趣的任务，”格里乌斯笑着说，“游戏则非常完美，它们会给你提供奖励——不管你有没有赢，不管你得到什么样的分数，你都能得到奖励。”游戏可以玩无数次——它们只是软件，可以同时被成千上万的机器人玩，如此一来就能成倍加快它们找到解决方案或策略的速度。

但这种方法的缺陷在于，机器人学习做什么完全取决于奖励。算法对游戏的工作原理完全没有概念，因此，如果游戏中存在漏洞或故障，机器人还是只会做最简单的、会给它奖励的事情。

今年早些时候，德国弗莱堡大学的研究人员在训练强化学习算法来玩雅达利的游戏 Q*bert时发现了这一点。它没有学习像人类那样玩游戏，而是学会了通过从舞台侧面跳下来引诱敌人自杀，因为它们知道敌人会跟着它们跳下去。游戏认定敌人被杀，给予机器人额外的生命和分数，所以说机器人有赚了。

该机器人还发现了游戏的一个小故障：如果它从一个平台跳到另一个平台，它可以拿到数十万的分数。从技术上讲，它是在做自己的本职工作：拿分。但这算不上真正地学习玩游戏。

最近，格里乌斯的工作重心是通过随机化这些机器人每次玩的游戏级别来打造更好的游戏机器人。他指出，因为机器人从来不会在同一级别上玩两次，所以它们并不仅仅是学习如何找到破解的办法或者找到一个策略——它们实际上是在学习如何在任何情况下完成任务。

不仅仅是游戏

OpenAI的游戏追求不仅仅是为了在游戏中打败职业选手，而是学习如何做出成千上万个小决定来实现更大的最终目标。一个例子是OpenAI的另一个项目，它使用与Dota 2机器人一样的学习系统和算法：它的研究人员设计了一种算法来控制机械手，机械手能够握住一个物体，并用手指操纵它进入特定的方向。

OpenAI技术人员乔纳斯·施耐德(Jonas Schneider)告诉Quartz，这两个项目是在大约同一时间启动的。但他指出，当Dota 2团队在去年的比赛中展示了它们打败人类职业选手的进步时，机器人团队意识到了强化学习系统的潜力。

“我们基本上用了和Dota实验相同的代码，达到了相同的性能水平。”施耐德说，“在短短几周内，我们就达到了此前多个月我们一直在努力开发的项目同等的水平。我想我们都很惊讶。”

这些实验使用的是OpenAI开发的一个名为Rapid的程序，该程序可协调数千个处理器来同时运行数百个强化学习算法。每一个算法都驱动机器人来玩游戏或者模拟手部移动动作，然后在实验结束后将机器人学到的东西同步给其他的机器人。

利用比普通笔记本电脑高出数千倍的计算能力，机械手能够展现出令人惊叹的灵巧性，完全不需要人类通过编码来告诉它们该如何移动每一根手指。

此外，虽然OpenAI使用类似的代码来训练它的游戏AI和机器人，但一个重要的区别在于，它们都在学习如何分别完成各自的任务。如果你想让Dota 2机器人控制一只机械手，它根本无法做到：算法足够通用，可以学习多种技能，但能够学到的技能还是有限的。

“我们还没有看到很多东西能够在游戏中训练出来以后，直接转移到现实世界中去。”格里乌斯说道，“但我们已经看到的是，为玩游戏而发明的方法已经转移到了现实世界。”

OpenAI的Rapid强化学习系统并不是第一个开发自游戏，然后被转用于现实世界的技术。格里乌斯指出，蒙特卡罗树搜索是一种算法，10多年前它最初被开发来玩围棋游戏，现在则被用于诸如规划和优化的任务。欧洲太空总署用该算法来规划太空探测器的星际轨迹。它也是DeepMind AlphaGo算法的核心，后者在2016年击败了世界围棋冠军李世石。

对于OpenAI的机器人团队来说，Dota 2似乎是证明了这种技术能够在未来用于更加复杂的工作。Dota 2系统使用的计算能力是机械手的20多倍，训练时间为两周，而后者只有两天——这意味着机器人团队有望攻克需要更多时间去学习的问题。

“我们对现有的算法能够取得的进展感到惊讶，所以我们希望在某种程度上，Dota将成为最后一个游戏里程碑。”施耐德说，“很显然，如果像这么复杂的游戏可以通过强化学习来解决，那称得上强化学习和游戏的终极考验。”

部分选自 I Quartz

编译 I 网易智能

参与 I 乐邦

编辑 I 定西

- 加入社群吧 -

网易智能AI社群（AI专家群、AI黑板报）火热招募中，对AI感兴趣的小伙伴，添加智能菌微信 kaiwu_club，说明身份即可加入。

人类惨败 OpenAI轻取Dota战队 AI为什么总是吊打游戏玩家相关推荐

AI 秒杀人类！OpenAI 击败 DOTA2 世界冠军 OG
整理 | 一一出品 | AI科技大本营(ID:rgznai100) 今天凌晨 6 点,OpenAI Five Finals 决战紫禁之巅一战,OpenAI Five 第一次战胜世界冠军 OG,比分为 ...
DOTA 2血虐人类的OpenAI，原来靠的是作弊？
郭一璞捣塔栗发自凹非寺量子位报道 | 公众号 QbitAI 两周前,AI战队OpenAI Five还处在DOTA2击败人类的得意中: 两周后,它就陷入了作弊疑云. 美国媒体Motherb ...
经过 180 年的训练，OpenAI 在 DOTA 2 上完虐人类！
点击上方"CSDN",选择"置顶公众号" 关键时刻,第一时间送达! 你以为隔壁坑你的都是小学生,对面的都是大神.或许你错了,跟你对战的可能不是人. 对于人工智能 ...
OpenAI在Dota 2游戏中虽败犹荣
就在上周,人类对机器人进行了反击.实际上是在视频游戏中打败了他们. 在一场三强争霸赛中,两支职业战队打败了伊隆·马斯克创建的研究实验室OpenAI开发的人工智能机器人.他们所玩的Dota 2(刀塔:守 ...
腾讯AI单挑碾压王者荣耀职业玩家：人类15场只能赢1局，坚持不到8分钟 | “绝悟”技术细节披露...
乾明发自凹非寺量子位报道 | 公众号 QbitAI 最新消息,腾讯又围绕王者荣耀AI"绝悟"发表了新论文,已经被AI顶会AAAI 2020收录. 这是继今年8月份绝悟在5 ...
和OpenAI ChatGPT不相上下的AI聊天机器人
和OpenAI ChatGPT不相上下的AI聊天机器人:OpenAssistant. 模型可在huggingface.co上找到: https://huggingface.co/OpenAssista ...
聚观早报|OpenAI发文介绍保障AI安全的方法；王慧文AI公司正式开张
今日要闻:OpenAI发文介绍保障AI安全的方法:印度或首次参与iPhone15首批供货:胡润全球白手起家U40富豪榜发布:王慧文 AI 公司正式开张:吴以岭卸任以岭药业董事长 OpenAI发文介绍保 ...
再次加入OpenAI，特斯拉前AI总监Andrej Karpathy刚刚官宣！
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达点击进入->CV微信技术交流群转载自:机器之心官宣回归OpenAI,特斯拉前AI高级总监Andre ...
DeepMind爆发史：决定AI高峰的“游戏玩家”｜深度学习崛起十年
翻译|刘晓祯.沈佳丽.胡燕君.许晨阳.周亚坤很少有人会否认,过去十年,AI领域最耀眼的明星组织当属DeepMind,没有之一. 那个震动世界的高光时刻发生在2016年3月的一天,AI选手AlphaG ...

人类惨败 OpenAI轻取Dota战队 AI为什么总是吊打游戏玩家

人类惨败 OpenAI轻取Dota战队 AI为什么总是吊打游戏玩家相关推荐

最新文章

热门文章