通用版AlphaGo登《Nature》！最强AI棋手，不懂规则也能精通游戏

文章转载自智东西，作者子佩

DeepMind推升级版MuZero，玩围棋、国际象棋、日本将棋、Atari游戏都很擅长。

继AlphaGo扬名海外后，DeepMind再推新模型MuZero，该模型可以在不知道游戏规则的情况下，自学围棋、国际象棋、日本将棋和Atari游戏并制定最佳获胜策略，论文于24日发表至《Nature》。

论文链接：https://arxiv.org/pdf/1911.08265.pdf

自2016年，令柯洁流泪、让李世石沉默的AlphaGo横空出世，打遍棋坛无人能敌后，AI棋手的名号就此一炮打响，而其背后的发明家DeepMind却没有因此止步，四年之内迭代了四代AI棋手，次次都有新突破。

始祖AlphaGo基于人类棋手的训练数据和游戏规则，采用了神经网络和树状搜索方法，成为了第一个精通围棋的AI棋手。

二代AlphaGo Zero于2017年在《Nature》发表，与上代相比，不需要人类棋手比赛数据作为训练集，而是通过自对抗的方式自己训练出最佳模型。

三代AlphaZero在2018年诞生，将适应领域拓宽至国际象棋和日本将棋，而不是仅限于围棋。

第四代、也就是今天新公布MuZero最大的突破就在于可以在不知道游戏规则的情况下自学规则，不仅在更灵活、更多变化的Atari游戏上代表了AI的最强水平，同时在围棋、国际象棋、日本将棋领域也保持了相应的优势地位。

01. 从未知中学习：三要素搭建动态模型

与机器擅长重复性的计算和牢固的记忆不同，人类最大的优势就是预测能力，也就是通过环境、经验等相关信息，推测可能会发生的事情。

比如，当我们看到乌云密布，我们会推测今天可能有雨，然后再重新考虑是否要出门。即使对于仅有几岁的孩子而言，学会这种预测方式，然后推广到生活的方方面面也是很容易，但这对于机器来说并不简单。

对此，DeepMind研究人员提出了两种方案：前向搜索和基于模型的规划算法。

前向搜索在二代AlphaZero中就已经应用过了，它借助对游戏规则或模拟复盘的深刻理解，制定如跳棋、国际象棋和扑克等经典游戏的最佳策略。但这些的基础是已知游戏规则及对可能出现的状况大量模拟，并不适用情况相对混乱的Atari游戏，或者未知游戏规则的情况。

基于模型的规划则是通过学习环境动态进行精准建模，再给予模型给出最佳策略。但对于环境建模是很复杂的，也不适用于Atari等视觉动画极多的游戏。目前来看，能够在Atari游戏中获得最好结果的模型（如DQN、R2D2和Agent57），都是无模型系统，也就是不使用学习过的模型，而是基于预测来采取下一步行动。

也是由于以上两个方法中的优劣，MuZero没有对环境中所有的要素进行建模，而是仅针对三个重要的要素：

1、价值：当前处境的好坏情况；

2、策略：目前能采取的最佳行动；

3、奖励：最后一个动作完成后情况的好坏。

那接下来，我们就来看看MuZero是如何通过这三个要素进行建模。

MuZero从当前位置开始（动画顶部），使用表示功能H将目前状况映射到神经网络中的嵌入层（S0），并使用动态函数（G）和预测函数（F）来预测下一步应该采取的动作序列（A）。

▲基于蒙特卡洛树状搜索和MuZero神经网络进行规划

那如何知道这一步行动好不好呢？

MuZero会与环境进行互动，也是模拟对手下一步的走向。

▲MuZero通过模拟下棋走向训练神经网络。

而每一步棋对于整体棋局的贡献都会被累加，成为本次棋局最后的奖励。

▲策略函数P得到每一步预测下法，价值函数V得到每一步的奖励。

出了减少建模工作量外，这种方法的另一个主要优点就是可以不断复盘，而不需要得到外界的新数据。这样的优势也很明显，在Atari的测试中，名为MuZero Reanalyze的变体可以利用90％的时间使用学习过的模型进行重新规划，找到更优策略。

02. MuZero强在哪？追平前辈，拓宽Atari游戏战场

MuZero模型分别自学了围棋、国际象棋、日本将棋以及Atari游戏，前三者用来评估模型在规划问题上的表现，Atari则用来评估模型面对视觉游戏时的表现。

▲MuZero分别在国际象棋、日本将棋、围棋和Atari游戏训练中的评估结果。横坐标表示训练步骤数量，纵坐标表示 Elo评分。黄色线代表AlphaZero（在Atari游戏中代表人类表现），蓝色线代表MuZero。

在围棋、国际象棋和日本将棋中，MuZero不仅在多训练步骤的情况下达到甚至超过了“前辈”AlphaZero的水平，在Atari游戏中，MuZero也表现突出。

▲MuZero在Atari游戏中的性能。所有得分均根据人类测试的性能进行了归一化，最佳结果以粗体显示。

为了进一步评估MuZero模型的精确规划能力，DeepMind的研究人员还进行了围棋中经典的高精度规划挑战，即指下一步就判断胜负。

为了证实更多的训练时间能使MuZero模型更强大，DeepMind进行了如下面左图实验，当每一步的判断时间从0.1秒延长到50秒，评价玩家技能的Elo指标能增加1000，相当于业余棋手和最强职业棋手之间的区别。

而在右图的Atari游戏Ms Pac-Man（吃豆小姐）的测试中，也能很明显地看出训练时长越长时，模型表现越好。

▲左图：随着步骤判断时间增加，围棋Elo指标上涨；右图：训练时长越长，模型表现越好

03. 结语：出身于游戏，期待更多应用

基于环境要素建模的MuZero，用在多个游戏上的“超人”表现证明了卓越的规划能力，也象征着DeepMind又一在强化学习和通用算法方面的重大进步。

它的前辈AlphaZero也已投身于化学、量子物理学等领域，切身实地地为人类科学家们解决一系列复杂问题。在未来，MuZero是否可以继承“家业”，应对机器人、工业制造、未知“游戏规则”的现实问题所带来的挑战，我们拭目以待。

通用版AlphaGo登《Nature》！最强AI棋手，不懂规则也能精通游戏相关推荐

【AI周报】首款高容错通用量子计算机原型登上Nature；SIGIR 2022 | 快手联合武汉大学提出序列推荐的多粒度神经模型
01 # 行业大事件首款高容错通用量子计算机原型登上Nature 理论上,量子计算机可以解决常规计算机在宇宙生命周期时间内也无法解决的问题.然而,我们需要大量的工程和技术才能将其「理论上」的能力兑现 ...
DeepMind让AI变身天才数学家！首次提出两大数学猜想，登Nature封面
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达来源丨新智元编辑丨极市平台导读 12月2日,DeepMind用A ...
本周AI热点回顾：意念打字登Nature封面，准确率超99%；前馈网络+线性交互层=残差MLP，纯MLP图像分类架构入场...
‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍点击左上方蓝字关注我们 01 意念打字登Nature封面!每分钟写90个字符,准确率超99%,网友:我打的都比它慢万万没想到,脑机接口这么快就有了重大突破!甚至还 ...
智源社区AI周刊No.101：DeepMind推出AlphaTensor登Nature封面；stateof.ai发布AI情况报告...
汇聚每周AI观点.研究和各类资源,不错过真知灼见和重要资讯!欢迎扫码,关注并订阅智源社区AI周刊. 编辑精选 1. DeepMind推出AlphaTensor,利用机器学习发现新矩阵乘法,已登Natu ...
AI破解古文字登Nature封面：修复缺失文字，精确地理位置和书写时间，DeepMind哈佛谷歌多家联手开发...
博雯发自凹非寺量子位 | 公众号 QbitAI 最新一期的Nature封面,AI再度来到舞台中央,这一次是在破译古文字方面立功了. 这是一种基于Transformer架构的方法,由DeepMin ...
AI超人赛车手狂虐人类登Nature封面！1000台PS4训练，「苏菲」极限超车独霸赛道...
人类游戏玩家的尊严,又崩塌了一角,而且这次是游戏厂商爸爸亲自下场羞辱:索尼自行开发AI选手,击败了GT赛车游戏的全球一流电竞选手. >>>> 高能力的AI在各种游戏中打败人类, ...
Nature封面：AI与人类斗嘴谁更强？IBM团队发布“AI辩论家”最新研究进展
来源:学术头条.大数据文摘本文约4200字,建议阅读8分钟本文带你了解AI的辩论能力. 在很多游戏和围棋比赛中,人工智能(AI)都展现出了 "超人" 能力,现在,它又开始冲击辩论赛 ...
自动驾驶 l5 ai_强AI和弱AI的真实故事以及适用于自动驾驶汽车的信息
自动驾驶 l5 ai Dr. Lance Eliot, AI Insider AI Insider博士Lance Eliot博士 [Ed. Note: For reader's interested ...
李世石退役战1:2告负，AI棋手有多强
11月19日晚,韩国棋院宣布80后的一代传奇围棋手李世石,正式退役退出,而李世石唯一一位在与AlphaGo的大战中,能够获得一局胜利的棋手.李世石从1995年7月开始职业围棋生涯,2003年刚满20岁 ...

通用版AlphaGo登《Nature》！最强AI棋手，不懂规则也能精通游戏

01.

从未知中学习：三要素搭建动态模型

02.

MuZero强在哪？追平前辈，拓宽Atari游戏战场

03.

结语：出身于游戏，期待更多应用

通用版AlphaGo登《Nature》！最强AI棋手，不懂规则也能精通游戏相关推荐

最新文章

热门文章