MuZero成为DeepMind最先进的AI算法。(图片来源:DeepMind公司网站)

科技日报记者 冯卫东

据最新一期《自然》杂志报道,DeepMind公司开发的一种人工智能(AI)算法MuZero,可以在不告知其游戏规则的情况下掌握围棋、国际象棋、日本将棋和视频游戏,这是谷歌人工智能部门获得的又一重大突破。

DeepMind公司表示,研究人员多年来一直在寻找一种方法,既可以学习建立用于解释当前环境的模型,也能够利用这个模型来进行最好的决策。到目前为止,大多数方法都难以在Atari这种游戏中进行有效规划。

MuZero最初在2019年推出,通过只关注环境中最重要的一个方面,来学习建立模型并解决问题。通过将这种方法与“阿尔法狗”强大的搜索树技术相结合,MuZero的能力实现了重大飞跃。此外,MuZero还利用了前瞻搜索、基于模型的规划来解决问题。

MuZero不会使用规则来找到最佳情况(因为事先不被告知),而是学习考虑游戏环境的各个方面,自己观察它是否重要。在数百万场比赛中,它不仅学习规则,而且学习位置的通用价值、成功的通用策略以及事后评估自己行为的方式。后一种功能可帮助其从自身的错误中学习、回忆和重做游戏,以尝试各种不同方法来进一步优化位置和策略价值。

MuZero不仅在国际象棋、围棋和日本将棋上达到了与提供完善规则的“阿尔法狗”一样的超人水平,在Atari游戏这样的杂乱感知输入环境中,也创造了新纪录。研究人员将MuZero描述为“在追求通用算法方面迈出的重要一步”。

“阿尔法狗”进化到第四代,无需告知规则 MuZero算法自学成“棋”才相关推荐

  1. CSDN开发者周刊第 22期:谷歌 DeepMind 第四代:不学规则就可以玩游戏;图灵奖得主 Edmund Clarke 因感染“新冠”逝世;

    CSDN开发者周刊:只为传递"有趣/有用"的开发者内容! 本周热门项目 1.红帽为杀死 CentOS 发行版辩护 红帽公司的高级社区架构师.CentOS 董事会成员卡斯滕-韦德(K ...

  2. 一种改进的进化模型和混沌优化的萤火虫算法-附代码

    一种改进的进化模型和混沌优化的萤火虫算法 文章目录 一种改进的进化模型和混沌优化的萤火虫算法 1.萤火虫算法 2. 改进萤火虫算法 2.1 基于混沌优化策略的种群初始化 2. 2 基于惯性权重的进化计 ...

  3. 2016,解密百度排名规则与算法

    身为一名优秀的SEOer,其实最想掌握的就是百度算法,只有清楚百度算法之后,才能找到快速排名的优化方案.今天给大家深度解析百度算法原理,纯干货,无广告. 收录基本规则        首先,我们都清楚: ...

  4. 【论文深度研读报告】MuZero算法过程详解

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 作者:饼干Japson(DeepRL-Lab研究者 ...

  5. DeepMind | 手撕MuZero算法「AI核心算法」

    注:耕智能,深耕AI脱水干货 作者: 饼干Japson   报道:深度强化学习实验室 转载请联系作者 前言 1 算法简介 1.1 背景 1.2 理解算法思想 2 模型图文讲解 2.1 MuZero中模 ...

  6. 计算机应用研究潜规则,基于相容矩阵计算的不完备决策系统规则获取算法

    基于相容矩阵计算的不完备决策系统规则获取算法 针对不完备信息决策系统问题,引入相容关系下条件属性矩阵和决策属性矩阵的相关概念,并由此提出一种基于矩阵计算的不 (本文共6页) 阅读全文>> ...

  7. 差分进化算法_基于差分进化的水泥烧成系统动态优化算法

    基于差分进化的水泥烧成系统动态优化算法 郝晓辰, 冀亚坤, 郑立召, 史鑫, 赵彦涛 燕山大学电气工程学院,河北 秦皇岛 066004 [摘  要]针对水泥烧成过程的资源浪费以及难以建立有效数学机理模 ...

  8. 银行卡校验规则(Luhn算法)

       当你输入信用卡号码的时候,有没有担心输错了而造成损失呢?其实可以不必这么担心,因为并不是一个随便的信用卡号码都是合法的,它必须通过Luhn算法来验证通过. 该校验的过程: 1.从卡号最后一位数字 ...

  9. NeurIPS'18 | 种群进化随机梯度下降深度神经网络优化算法框架

    ,欢迎关注公众号:论文收割机(paper_reader) 因为排版问题,很多图片和公式无法直接显示,欢迎关注我们的公众号点击目录来阅读原文. 原文点击 ↓ 种群进化随机梯度下降深度神经网络优化算法框架 ...

最新文章

  1. 如何判断一个整数数组中是否有重复元素?要求时间复杂度O(n),空间复杂度O(1)
  2. (转)Http协议经典详解
  3. eplise怎么连接数据库_Eclipse连接MySQL数据库(傻瓜篇)
  4. Sublime Text插件列表
  5. Apsara Stack 技术百科 | 可运营的行业云,让云上资源跑起来
  6. safari only css hack,css hack将Safari和Chrome同时作为目标单独使用
  7. 我的一些学习经验:WIFI
  8. 1631. 最小体力消耗路径
  9. 关于重定向printf出错 Error[Pe020]: identifier FILE is undefined 解决方案
  10. ECMAScript6 新特性——“数组的扩展”
  11. linux解压缩及源码安装
  12. 基于Python的管理系统(附源码)
  13. 分布式技术核心(上)-ZookeeperDubbo
  14. 第1期丨每周软件网站白嫖
  15. MII、RMII、GMII、RGMII接口详解及硬件设计注意事项
  16. ZT 内地20年经典电视剧大全
  17. python按位置从字符串提取子串的操作是_Python基础-字符串操作和“容器”的操作...
  18. 用手机编程和用电脑编程有什么区别?
  19. 计算机时间怎么改24小时模式,怎么修改电脑的时间为24小时制啊?
  20. DirectX函数总结2

热门文章

  1. 【刷题】572. 另一棵树的子树
  2. 工业级无线路由器MODBUS主动采集功能
  3. 精彩的人生早已开始,看你怎么看待你的人生了
  4. win10怎么设置电脑开机密码
  5. 电视剧《恋爱先生》观影感悟
  6. 使用String的intern方法节省内存
  7. 21-ICLR-Prototypical Contrastive Learning of Unsupervised Representations
  8. 上传和下载数据到服务器,服务器到服务器
  9. 同态加密在机器学习中的应用
  10. 03.PyTorch与CNN(4-1 机器学习和神经网络的基本概念(1))