原文链接:http://web.stanford.edu/~surag/posts/alphazero.html

本文的目标是提炼AlphaGo Zero论文中的关键思想,并通过代码来进行具体理解。我们假定读者熟悉机器学习和强化学习的概念。如果您对神经网络和蒙特卡罗树搜索(Monte Carlo Tree Search)有基本的了解,您应当能轻松地理解这篇文章。在阅读本文之前(或之后),我建议您阅读原始论文。它写的清晰易读,并且有漂亮的插图。一言蔽之:AlphaGo Zero通过自我强化学习进行训练。它将神经网络和蒙特卡罗树搜索结合在一个巧妙的策略迭代框架中,以实现稳定学习。

神经网络

神经网络是算法的核心组成部分之一。神经网络  将  作为参数,将棋盘状态  作为输入。它的输出包含两类函数:棋盘状态对当前玩家的价值函数  ,和建立在所有行动可能上的概率向量即决策函数  。

在每次自我对局之后,神经网络都会获得形如  的训练样例。其中, 为对状态  下的策略的估计(我们会在下个部分中介绍如何得到  ), 是  状态下玩家的对局结果(如果玩家胜利则表示为1,失败则表示为-1)。之后通过训练神经网络来最小化如下损失函数(含正则化):

随着时间的推移,神经网络将学习哪些状态会导致最终胜利(或失败)。此外,学习该策略会对基于当前状态的最佳行动给出一个很好的估计。神经网络的架构通常取决于游戏。大多数棋盘游戏(例如围棋)都可以使用多层CNN架构。在DeepMind的论文中,他们使用了20个残差块,每个块各含2个卷积层。 我使用了一个4层CNN网络和一些前馈层来处理一个6x6黑白棋游戏。

(未完)

简易Alpha(Go) Zero教程(A Simple Alpha(Go) Zero Tutorial)相关推荐

  1. M8SDK教程-游戏开发心得(三):DDraw进阶教程-贴图,Alpha和Sprite动画,RPG游戏雏形

    M8SDK教程-游戏开发心得(三):DDraw进阶教程-贴图,Alpha和Sprite动画,RPG游戏雏形 引用: M8 SDK教程- 游戏开发心得(一): 游戏程序框架 http://bbs.mei ...

  2. win10将HTML动态做桌面壁纸,用win10自带工具,win10专业版简易制作动态壁纸教程...

    windows 10增加了很多新功能,其中照片的视频制作功能很是有趣.小编今天为大家分享下用win10自导带工具,win10专业版简易制作动态壁纸教程,一起来看看吧! 把图片做成动态壁纸,总共分4步: ...

  3. view.setAlpha(float alpha)与view.getBackground().setAlpha(int alpha)的区别

    Android中对一个View控件透明度的设置,提供了两个方法:view.setAlpha(float alpha)与view.getBackground().setAlpha(int alpha)这 ...

  4. alpha融合---PS制作带连续alpha值的png图片

    最近做个项目,大致类似激萌(FaceU)那样给人头上加有趣的卡通头饰,这时候我们需要做一个头饰模板供后续程序调用.当然这个模板可以由专业设计人员设计好,但是我们没有这个条件,那么可以用激萌生成好的图片 ...

  5. 简易智能手环制作教程

    前言: 为了方便查看博客,特意申请了一个公众号,附上二维码,有兴趣的朋友可以关注,和我一起讨论学习,一起享受技术,一起成长. 转载地址:简易智能手环制作教程 1.智能手环简介 智能手环是一种穿戴式智能 ...

  6. 仙剑奇侠传 游戏 开发 教程 Xianjian qixia development Game development tutorial

    仙剑奇侠传 开发  游戏 开发 教程 Xianjian qixia development Game development tutorial 作者:韩梦飞沙 Author:han_meng_fei_ ...

  7. LIRE教程之源码分析 | LIRE Tutorial of Analysis of the Source Code

    LIRE教程之源码分析 |LIRE Tutorial of Analysis of the Source Code 最近在做地理图像识别和检索的研究,发现了一个很好用的框架LIRE,遂研究了一通.网上 ...

  8. 亮度遮罩和alpha遮罩_在PhotoShop中将Alpha遮罩的云创建为PNG

    亮度遮罩和alpha遮罩 In previous articles we've looked at creating 32-bit PNGs for use in web pages. In this ...

  9. Alpha混合(二)Material Alpha

    Alpha值 Alpha混合是为了实现透明效果,透明到什么程度是由alpha值决定的,对于一个32位的ARGB格式的颜色来说,它的组成部分如下: 我们可以看到,最高位的一个byte表示alpha值,它 ...

最新文章

  1. MSER+SIFT 图像的特征向量提取
  2. Codeforces Round #524 (Div. 2) F
  3. 前端学习之——h5适配
  4. Lucene的评分(score)机制的简单解释
  5. LCS2005应用扩展-我的ATiPer
  6. MFC中添加的ID资源号提示找不到声名问题
  7. java定时执行一次_java Timer(定时调用、实现固定时间执行)
  8. IE8无法调试?IE进入不了调试状态
  9. 在dos下运行.exe程序(C++)
  10. 寻找数组中第K频繁的元素
  11. 创建基于webpack打包的vue项目
  12. python实现并发判重_寻找python大神!!!python如何多线程并发?
  13. 自动生成 Makefile 的全过程详解
  14. 不要在循环,条件或嵌套函数中调用 Hook
  15. 2019-0405视觉SLAM的学习第三讲02
  16. uva11992-Fast Matrix Operations(区间增值、改值)
  17. ac3168无线网卡驱动下载_70块的笔记本网卡,值不值得换
  18. 各大云服务厂商 轻量应用服务器 性能评测对比,阿里云、腾讯云、华为云、Ucloud
  19. Unity官方文档解读之如何使用粒子系统创建汽车尾气
  20. 数学的三大核心领域——分析学范畴

热门文章

  1. 服务器主板u3芯片配i3CP0,小块头大智慧 华硕U36配i3/i5精睿来袭
  2. Alicia Keys and NGB
  3. mac截图快捷键+截图工具软件+方法教程
  4. Java大学生就业特训营_疫情地图公众号
  5. 智慧路灯杆助力打造无人智慧码头
  6. WiFi速率控制:ARF 算法(Automatic Rate FallBack Rate Control Algorithm)
  7. 2023年丝路新疆石油及化工工业博览会
  8. 计算机基础考试题附答案——《第贰篇》
  9. ios html decode,IOS 中 urldecode 如何解码后,解码后“+”(加号)和空格处理方式
  10. Thinkpad X1 Carbon/Yoga如何更换固态硬盘并无损转移系统(亲测有效)