Alpha-go论文分享
文章目录
- 具体方法
- 监督学习阶段
- 走棋网络(Policy Network)
- 快速走子(Fast rollout)
- 强化学习阶段
- RL Policy Network(自我博弈过程)
- Value Network
- 蒙特卡罗树搜索
- Q:
- 参考资料:
具体方法
监督学习 + 强化学习 + MCTS
网络结构:policy-nework + value-network
监督学习阶段
走棋网络(Policy Network)
SL-policy network pρ(a∣s)p_{\rho}(a|s)pρ(a∣s):
采用监督学习的方式来学习人类数据,输入棋盘特征,输出落子的概率,通过最大化似然的方式优化
网络结构 13-layer CNN:
棋盘特征:
liberties:气(每个落子气的数量,临近空的点)
准确率:57% (3毫秒)
快速走子(Fast rollout)
rollout policy pπ(a∣s)p_{\pi}(a|s)pπ(a∣s):
线性softmax, 采用人工提取的围棋特征进行输入:
效果:24.2% (2微秒)
强化学习阶段
RL Policy Network + Value-Network
RL Policy Network(自我博弈过程)
在进行完监督学习之后,虽然策略网络已经有一部分模仿人类下棋的能力,但由于围棋的状态空间巨大,在监督学习时使用的数据只是冰山一角,从而可能导致策略网络在面对一个以前从未看到过的状态时做出错误的动作预测。使用基于策略梯度的强化学习,则在不需要改变策略网络结构的基础上,可以对策略网络进行进一步的优化。强化学习中的探索机制可以探索到新的状态,从而增加策略网络在状态空间上的泛化性能。
训练步骤:
将SL-policy network作为该阶段的初始网络RL Policy Network
将RL Policy Network与之前某个随机版本进行对决(防止过拟合),得到输赢结果
根据输赢结果使用PG算法对参数进行更新:
目标函数:
J(θ)=Vπθ(s1)=Ξπθ[v1]J(\theta) = V^{\pi_{\theta}}(s_1) = \Xi_{\pi_{\theta}}[v_{1}]J(θ)=Vπθ(s1)=Ξπθ[v1]Policy Gradient:
▽θJθ=Ξπθ[▽θlogπθ(s,a)Qπθ(s,a)]\bigtriangledown_{\theta}J_{\theta} =\Xi_{\pi_{\theta}}[\bigtriangledown_{\theta}log_{\pi_{\theta}}(s,a)Q^{\pi_{\theta}}(s,a)]▽θJθ=Ξπθ[▽θlogπθ(s,a)Qπθ(s,a)]reward GtG_tGt:
其中reward函数为期望回报: zt=r(sT)z_t = r(s_T)zt=r(sT),当游戏终止时,赢了reward=1,输了reward = -1)△θt=α▽θlogπθ(st,at)Gt\bigtriangleup\theta_{t} = \alpha\bigtriangledown_{\theta}log_{\pi_{\theta}}(s_t,a_t)G_{t}△θt=α▽θlogπθ(st,at)Gt
效果: 与SL-policy network相比取得80%的胜率
Value Network
作用:评估当前棋局的质量。
求解当前策略之下的价值函数,预测在给定策略 p 下的状态价值函数vp(s)v^p(s)vp(s),其期望的形式表达为:
与 之前的网络结构相同,不同之处是最终输出一个预测值,采用MSE作为目标函数:
训练方式:
效果:
蒙特卡罗树搜索
思想:模拟人类下棋的思路,将树搜索与policy,value-network相结合,多次模拟未来的棋局,最后选择次数最多的走法:
整体流程:
1.选择action:贪心选择
Q:exploit term
μ\muμ: explore term
P:先验概率
其中P(s,a)=pρ(a∣s)P(s,a) =p_{\rho}(a|s)P(s,a)=pρ(a∣s)
2. 扩展:在扩展树时,记录每条边的先验概率P
评估状态:value network + fast rollout pπp_{\pi}pπ共同评估节点的质量
4. 回溯:每次模拟结束之后,利用simulation过程中得到的平均访问次数与value-function对N和Q进行更新:
5. 重复该遍历Alpha-go论文分享相关推荐
- PX4飞控Avoidance功能包2018论文分享
PX4飞控Avoidance功能包2018论文分享 PX4官方Avoidance-2018论文 引言(略) 摘要 简介 相关工作 全局障碍规避 局部障碍规避 对本文启发 方法 $3DVFH$算法 建立 ...
- CVPR 2021论文分享会日程公布!
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale学术 活动:CVPR 2021论文分享会 随着人工智能的火热,AAAI.Neu ...
- CVPR 2020最佳学生论文分享回顾:通过二叉空间分割(BSP)生成紧凑3D网格
机器之心发布 机器之心编辑部 在近日举行的 CVPR 2020 大会上,最佳论文.最佳学生论文等奖项悉数公布.加拿大西蒙弗雷泽大学陈之钦(Zhiqin Chen )等人的「BSP-Net」相关研究获得 ...
- 4个Keynote、12篇论文分享、40个Poster,CVPR 2021论文分享会全日程公布
随着人工智能的火热,AAAI.NeurIPS.CVPR 等顶级学术会议的影响力也愈来越大,每年接收论文.参会人数的数量连创新高.但受疫情影响,近两年国外举办的学术会议都转为了线上,无法满足学者们现场交 ...
- dbscan论文_论文分享 :Linkage Based Face Clustering via GCN
本文要解决的问题是人脸聚类,这类任务的目的是将一批无标记的人脸通过聚类使得自同一个人的人脸聚在一起.作者将这个问题转换为链路预测的问题,当两个人脸属于同一个人时,那么他们之间存在一条边.作者发现特征空 ...
- 新星云集!CVPR 论文分享会圆桌论坛:计算机视觉科研之“路”
微软亚洲研究院 2021 CVPR 论文分享会各个主题已分享完毕 CVPR 2021 目标检测.跟踪和姿态估计最新进展分享 CVPR 2021 机器学习及多模态最新进展分享 CVPR 2021 3D视 ...
- CVPR 2021 图像生成最新进展,论文分享会回放
微软亚洲研究院 2021 CVPR 论文分享会已完美结束.今日起,CV君将根据不同类别的分享主题进行逐一分享,欢迎查收! 首先分享的主题为:图像生成 论文名称 论文一:Information Bott ...
- 预告|CVPR 2021 论文分享会日程公布!与计算机视觉领域学者一起收获“立体”参会体验...
微软亚洲研究院 2021 CVPR 论文分享会将于 4 月 22 日 9:00 至 18:00 在线上举行,对计算机视觉领域感兴趣的你是否已经安排好时间等待各位"大佬"的分享了呢? ...
- 预告 | 4月22日,CVPR 2021论文分享会详细介绍,学术新星云集!
国际计算机视觉与模式识别会议(CVPR)是人工智能领域最有学术影响力的顶级会议之一.根据 CVPR 2021 官方公布的论文收录结果,今年一共有 1663 篇论文被接收,接收率为 23.7%,相较于去 ...
- CVPR 2021 论文分享会预告
CVPR 2021 还有2个月开幕,目前已经有592篇论文公布,占近1/3. 52CV 持续跟踪仓库: https://github.com/52CV/CVPR-2021-Papers 微软亚洲研究院 ...
最新文章
- 【swjtu】数据结构实验2_中缀表达式的求值算法
- 此任务要求应用程序具有提升的权限
- NTU 课程 7454 (5) CNN进阶
- 十、Docker快速搭建Elastic Stack(下篇)
- 微信小程序学习笔记(七)
- Linux下的Vsftpd配置篇
- python time datetime
- 不管你挣多少钱永远都是问题
- 洛谷 P3258 [JLOI2014]松鼠的新家 解题报告
- ARM11---中断---向量中断控制器(VIC)---结合s3c6410
- qomo linux最新版本,“珠峰”Qomo Linux新版本将迎来重大变革
- 转两篇关于国是的网文
- D3DXIntersectTri 求三角形与射线相交
- php推荐位调用,推荐位数据循环调用
- 【MySQL】与【Oracle】
- QT 与webkit(wke) 交互
- c语言入门介绍 Hello, World
- VMware安装教程
- CentOS 编译安装 Nebula Graph 3.10
- 微信小程序----全局状态管理 (便于全局埋点等操作)
热门文章
- PX4飞控Avoidance功能包2018论文分享