OpenAI Dota2 5v5模式击败人类,AI每天训练量抵人类180年
今天凌晨,OpenAI通过官方博客宣布了其在Dota对抗上的新进展——由五个神经网络组成的团战AI团队,在5v5中击败了业余人类玩家,并表示,将有望挑战顶级专业团队。
打Dota乍一听可能没什么了不起的,但这可以被视作AlphaGo的延续:构建可以在看似简单的游戏中击败人类的机器。
OpenAI干了这么一件事:组织了5个神经网络构成团队,在5v5游戏中击败了Dota 2的人类业余选手。他们的目标是在8月份击败国际顶级专业团队(仅限一组英雄的条件下)。
OpenAI也给了这个能力x5的AI一个简单易懂的名字——OpenAI Five!
戳这里看5v5比赛视频
OpenAI是Elon Musk联合创立的非盈利AI研究机构,旨在提高人们对AI技术现在所处的位置的认识,以及促进科技的安全进步。这不是OpenAI首次公开试玩Dota 2,去年,OpenAI在Dota2 1v1比赛中战胜了人类选手Dendi。
OpenAI Five的训练量级非常大,每天都会玩相当于180年时长的游戏,通过自我对决来学习。它使用在256个GPU和128,000个CPU内核上运行的扩展版近端策略优化进行训练,这是OpenAI去年发布的1v1 Dota AI的更大规模版本。对每个英雄使用单独的LSTM并且不使用人类数据,由此学习可识别的策略。
从Deep Blue到AlphaGo,再到现在的Dota2,将人工智能与人类之间进行较量,一直是计算机科学领域的有趣传统。
与围棋和国际象棋等回合制的游戏模式不同,Dota2更需要大量的实时决策以及队友之间的默契合作。还记得AlphaGo与柯洁那场围棋之战么,人工智能在运筹帷幄的时候总有几分钟的思考时间。但是如果你在Dota2中静止深思,那么你可能会被对手gank。OpenAI表示,游戏的平均运行时间为每秒30帧,也就是说,在平均45分钟的游戏中会产生大约80000帧,而AI大约分析了其中的四分之一。
OpenAI技术细节
问题描述
在星际争霸或者Dota这样复杂的视频游戏中超越人类的能力,是人工智能发展的里程碑。相对于之前的AI在国际象棋或围棋上的里程碑式进步,复杂的视频游戏更能够效仿现实世界的混乱和连续性。具有很高的通用性,在游戏之外也有可用之处。
Dota 2是一款实时战略游戏,有两支队伍,每队5个玩家,每个玩家控制一个称为“英雄”的角色。玩Dota的AI必须掌握以下几点:
1.长时间。Dota游戏以每秒30帧的速度运行,平均时间为45分钟,每场游戏产生80,000帧。大多数行为(例如命令英雄移动到某个位置)单独产生较小的影响,但回城等一些个别行为可能会在战略上影响游戏。一些策略可能贯穿游戏全程。OpenAI Five每四帧观察一次,产生20,000次移动。国际象棋通常在40次移动之前结束,围棋在150次移动之前结束,几乎每一次移动都是战略性的。
2.不完整信息。单位和建筑物只能看到他们周围的区域。地图的其他部分隐藏在雾中,隐藏了敌人和他们的战略。AI需要根据不完整的数据进行推断,并且需要对对手行为建模。象棋和围棋都是全信息游戏。
3.动作高度连续。在Dota中,每个英雄可以采取数十个动作,许多动作都是针对另一个单位或地面上的某个位置。OpenAI将每个英雄的空间分割成170,000个可能的行动(不是在每个帧都有效,比如冷却动作);不计算连续部分,每帧平均有大约1000次有效操作。国际象棋中的平均动作数为35,围棋中是250。
4.高维度、连续的观察空间。Dota包含十个英雄,数十个建筑物,几十个NPC单位以及诸如符文、树木等一大堆游戏特征,和大型连续的地图。AI通过Bot API观察游戏,被允许观察2万个数值(人类所被允许观察的所有值)。国际象棋棋盘有大约70个枚举值(一个8x8的棋盘,6种棋子类型和少量历史信息),一个围棋棋盘有约400个枚举值(一个19x19的棋盘,两种棋子类型加上“劫”)。
此外,Dota规则也非常复杂。游戏开发已经持续了十多年,游戏逻辑在数十万行代码中实现。这个逻辑需要几毫秒的时间才能执行,而国际象棋或围棋引擎则需要几纳秒。游戏也每两周更新一次,不断改变环境语义。
方法
OpenAI系统使用大规模版本的Proximal Policy Optimization进行学习。 OpenAI Five和我们早期的1v1机器人都完全从自我对抗中学习。他们从随机参数开始,不使用来自人类玩家的回放视频进行搜索或引导。
强化学习研究者通常认为,对于长时空上的建模,需要全新的算法,比如分层强化学习。但是OpenAI的结果表明,只要采取合理的方式,目前的算法在大规模资源上运行的结果还不错。
AI经过训练可以通过指数衰减因子γ进行加权,从而最大化指数衰减的未来奖励总和。在最新的OpenAI Five训练中,衰减因子γ从0.998(评估未来奖励的半衰期为46秒)增大到0.9997(评估未来奖励的半衰期为五分钟)。对比而言,PPO这篇论文上最长的推理时间是0.5秒,Rainbow论文上最长的推理时间是4.4秒,Observe and Look Further这篇论文使用的半衰期为46秒。
PPO论文:
https://arxiv.org/abs/1707.06347
Rainbow论文:
https://arxiv.org/abs/1710.02298
Observe and Look Further论文:
https://arxiv.org/abs/1805.11593
尽管当前版本的OpenAI Five在最后一击时表现不佳,但是专业Dota评论员Blitz认为OpenAIFive的表现可以比得上一般的人类玩家。
原因是,OpenFive在游戏中对收益的取舍和顶尖的战略决策类似。例如,短期内“补兵”可以获得金钱,而准备团战推塔可能花费更多的时间。如果选择团战,就会丧失小兵收益,然而在胜利以摧毁防御塔为前提的游戏中,放弃团战可能不是明智的选择。所以,AI是朝着长期目标进行优化的。
OpenAI仍需要一些限制条件,比如,和AI比赛的人类对手必须遵守某些规则,包括不使用某些物品和策略。
OpenAI将在下个月举办一场Dota 2巡回赛,展示自己在与顶级玩家竞争时的实力。
当然,也没必要过度担心,因为这个AI虽然可以打Dota,但也只能做这一件事。
原文发布时间为:2018-06-26
本文作者:文摘菌
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”。
OpenAI Dota2 5v5模式击败人类,AI每天训练量抵人类180年相关推荐
- Dota 2被攻陷!OpenAI 人工智能5V5模式击败人类玩家(4000分水平)
选自OpenAI,机器之心编译. 2017 年,OpenAI 在 Dota2 TI 决赛现场以 1 对 1 solo 的方式击败了「Dota 2」世界顶级玩家.经过一年的发展,OpenAI 于昨日宣布 ...
- 腾讯AI击败王者荣耀职业队,全靠自学、策略清奇,一天训练量为人类440年
问耕 发自 麦蒿寺 量子位 出品 | 公众号 QbitAI 王者峡谷,风云突变. 一场激烈的对战正在进行,左侧是五位人类职业电竞高手组成的赛区联队,另一方是--嗯?他们的对手没有出场?五个座椅空空荡荡 ...
- Dota2冠军OG如何被AI碾压?OpenAI累积三年的完整论文终于放出
作者:问耕 来源:量子位(QbitAI) Team OG,Dota2世界冠军战队. 在人工智能OpenAI Five面前,OG不堪一击.五个人类组成的战队,此前全程毫无悬念地以0:2败下阵来,两局加在 ...
- Dota 2被攻陷!OpenAI Five 5V5团战中战胜人类
近日,OpenAI开发了一套"OpenAI Five"算法,他们的五种神经网络算法已经可以在Dota 2游戏中进行团队协作击败业余人员队伍. OpenAI表示,虽然今天的游戏中仍有 ...
- 怎样让AI完成人类搞不定的任务?OpenAI提出迭代扩增法给AI设目标
李林 编译整理 量子位 出品 | 公众号 QbitAI 人类:AI啊,给北京设计一套不堵车的交通系统吧! AI:想不堵车,只好-- 想让AI去完成这种庞大复杂的任务,怎样训练.怎样指导,是个非常严峻的 ...
- 一周AI看点 | 谷歌AI工程师说五年内实现人机对话,能实现吗;NASA开发AI竞赛无人机要挑战人类职业玩家,无需外部定位技术
本期一周AI看点包括行业热点.投融资.业界观点.技术前沿以及应用等方面. 01 行业 NASA开发AI竞赛无人机,欲挑战人类职业玩家 近日,NASA喷气推进实验室(Jet Propulsion Lab ...
- 作者已死?AI正用艺术征服人类
AI作画早就不是什么新鲜事. 2017年,AI通过了艺术创作图灵测试.比如在下面几个随机对照的双盲研究中,你能区分出哪些是电脑的画作,哪些是人类艺术家的作品吗? 图片来源:量子位 尤其近年来元宇宙被认 ...
- OpenAI掌门人Sam Altman:AI的下一个发展阶段
来源:OneFlow本文为约5757字,建议阅读10分钟 本文介绍了LinkedIn联合创始人ReidHoffman与OpenAI首席执行官Sam Altman进行的关于AI发展阶段的对话. 预告了一 ...
- Dota之后,《王者荣耀》也被AI攻陷,势把人类顶级玩家拉下马
编辑 / 三石&大明 原文 / 新智元 腾讯AI Lab团队在arXiv发表论文,通过对AI进行训练,并与<王者荣耀>顶级人类玩家PK,最后获得了48%的胜率. 终于,AI还 ...
最新文章
- 中兴V880使用手记之五——刷入recovery
- 《从零开始学Swift》学习笔记(Day5)——我所知道的标识符和关键字
- VS 2019要来了,是时候了解一下C# 8.0新功能
- viewPager开启界面导航之旅
- linux 线程流水线,linux线程同步
- open-capacity-platform环境安装
- jQuery实现登录提示
- 2021中国跨境电商发展报告
- (3)zynq FPGA AXI4_Stream总线介绍
- SQL Server:CONVERT() 函数
- java集群调度_集群环境下定时调度的解决方案之Quartz集群
- 用sql取a与b的交集_【庖丁解牛SQL(二)】SQL核心语法速查
- C#实现拖放获取文件路径
- 【PROTEUS】使用PROTEUS与电脑串口调试助手进行通讯
- 夜莺(Nightingale)企业级监控平台
- 一些关于医学科研的好用网站(转载)
- jsptitle换行_fullcalendar中title内容过长显示不全的问题
- python box_箱体图Boxplot及Python绘制方
- 天南地北双飞客,老翅几回寒暑!
- Socket究竟是干什么的?
热门文章
- Vivado HLS加速卷积层运算
- 搜索相关度算法 TF-IDF与BM25
- 计算机专业技术考试中级哪个好考吗,计算机软考中级职称哪个好考
- MathType输入空格的方法
- 奇点iPhone版本正式上线
- Anaconda误删 ImportError: No module named conda.cli
- Kubernetes 二进制部署 多节点(基于单节点部署,超详细)3
- 东华大学 oj37——黑色星期五
- 电脑和手机软件同屏操作软件“手机管理助手“开源
- ansible----playbook安装lnmp环境