Paper Reading - 基础系列 - Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour
更多可关注
计算机视觉-Paper&Code - 知乎
Abstract
恺明出品必属精品,目前在Facebook AI Research,多的不用多说。可以说这篇17年的论文即使到现在也绝不过时,其中一些思想和实验都给人很深的启发
总结来说本文主要以下贡献
- 作者展示了256GPUS的超强财力,表明batchsize不是越大越好,达到极限16k之后learning rate,validation error都降不下来
- 提出hyper-parameter-free linear scaling rule,学习率随着ecopch增大而减少,随着batchsize增大二增大,加快模型收敛以及提高性能
- 太大的学习率又会在一开始使模型训练不稳定,因此提出warmup 方法用来解决模型前期优化的问题
Algorithm
作者写的实在比较清晰
Large Minibatch SGD
损失函数和权重更新方法如下,不过多解释。关于Batchsize作者如下观点(经验来说选用32)
- 当batch size太小的时候,在一定的epoch数里,训练出来的参数是无法逼近整体数据集定态分布的
- 当batch size太大,深度学习的优化(training loss降不下去)和泛化(generalization gap很大)都会出导致在validation 上 error 很高
- 随机梯度噪音的在深度学习中是正比于learning rate/batch size(也证明了line scale的有效率),batch size太大,噪音就太小了。其中随机梯度噪音对于逃离saddle points (优化问题)和sharp minima (反话问题)都必不可少的作用
- batchsize增加k,学习率也对应增大,每次更新时,都采用bs个样本的平均loss进行梯度更新
Warmup
- constant warmup,也就是通过手动固定设置epoch<5时的较下lr,再依次增大
- gradual warmup, 逐渐将学习率从小到大增大,到epoch=5时,达到k倍lr,k代表batchsize。之后再继续执行lr schedule这个效果很好。如图可以看到,使用warmup的training error更低
Batch Normalization
对于Mini-Batch SGD来说,一次训练过程里面包含m个训练实例,其具体BN操作就是对于隐层内每个神经元的激活值来说,进行如下变换:
经过这个变换后某个神经元的激活x形成了均值为0,方差为1的正态分布,加快训练收敛速度。但是这样会导致网络表达能力下降。比如说我原先学习到的是一个S型分布,但是被强制统一归一到0-1正态了。
为了防止这一点,每个神经元增加两个调节参数(scale和offset),计算得到的y作为该层的新输出,这两个参数是通过训练来学习到的,同时参加反向更新
推理的时候直接用全局统计的方差和均值,同时也可以通过融合conv+bn加速
其他方面是作者讨论分布式训练和硬件实现的内容
Paper Reading - 基础系列 - Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour相关推荐
- 【Cite 1.7K】Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour
1 介绍 此文章是我在NFNet上读到的论文,NFNet论文通过引用这篇论文介绍如何在不使用归一化的情况下训练ImageNet任务模型: 2 原文链接 <Accurate, Large Mini ...
- 论文阅读:Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour
论文阅读:Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour 论文地址: https://arxiv.org/pdf/1706.026 ...
- 【文献阅读】Accurate Large Minibatch SGD Training ImageNet in 1 hour
摘要: 问题: 大网络和大数据集导致训练时间增长,distributed synchronous SGD通过划分SGD minibatches over a pool of parallel work ...
- Paper Reading - 基础系列 - 常用评价指标 ROC、PR、mAP
更多可见计算机视觉-Paper&Code - 知乎 目录 混淆矩阵 (Confusion Matrix) 查准率/精确率 Precision 召回率/检出率/查全率 Recall 过杀率 Ki ...
- Paper Reading - HRNet 系列
更多可关注 计算机视觉-Paper&Code - 知乎 先更新HRNet系列第一篇,留坑,炼丹的人命名都很奇怪,HRNet还以为是人力总监发的呢,OCRNet跟OCR文字识别又扯不上边,欢迎大 ...
- Paper Reading - Model系列 - LiteHRNet
Abstract 更多关注 计算机视觉-Paper&Code - 知乎 paper code paper HRNet由微软亚洲研究院和中科大提出,已发表于CVPR2019 王井东 IEEE f ...
- Paper之BigGAN:《Large Scale Gan Training For High Fidelity Natural Image Synthesis》翻译与解读
Paper之BigGAN:<Large Scale Gan Training For High Fidelity Natural Image Synthesis>翻译与解读 目录 效果 1 ...
- Paper Reading - Model系列 - ShuffleNet Chanel Attention
ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices Paper 更多可见计算机视觉-P ...
- Paper Reading - 综述系列 - Hyper-Parameter Optimization(下)
更多可见计算机视觉-Paper&Code - 知乎 目录 搜索策略 网格搜索 随机搜索 贝叶斯优化 结论 接着上一篇继续说 搜索策略 网格搜索 将每个超参数的搜索空间离散化为笛卡尔积.然后使用 ...
最新文章
- 一起谈.NET技术,通过16道练习学习Linq和Lambda
- C++ Primer 5th笔记(chap 16 模板和泛型编程)模板实参
- ShaderLab学习小结(一)最简化的顶点片断Shader
- 与大家分享一个我最近开始用的不错的JavaScript IDE
- PAT_B_1070_Java(25分)_C++(25分)
- js实现IE/Firefox的收藏功能
- 大型网站技术架构(三)--架构核心要素(转)
- IDM下载百度资源出现403的解决方法
- (转)Ubuntu10.04编译FFmpeg
- RQNOJ 342 最不听话的机器人:网格dp
- idea toolbar靠右显示
- Python人脸识别库的安装
- android 国际电话区号,中国国际区号_电话区号_中国区号是多少-中国区号查询
- 十个英文原版电子书下载网站(无需翻墙)
- 【高级篇 / DNS】(7.0) ❀ 04. FortiGuard 动态 DNS (DDNS) ❀ FortiGate 防火墙
- 共享店铺模式是怎么样的一个模式? 共享店铺系统多少钱一套?
- “no source“: Error: command-line: #564: cannot open embedded assembler outpu
- win32 007
- 介绍Jackson JsonParser解析json
- Xcode 14之大变化详细介绍
热门文章
- Mac OS下给树莓派安装系统、无网线和外设配置WI-FI、SSH远程控制、VNC远程桌面(超详细~)
- 运营商市场的主角变成中国电信与中国移动,联通逐渐成为陪衬
- Linux系统下Python3的安装
- 微软GPT-4 Office王炸来袭,10亿打工人被革命
- 攻防世界web入门-xff_referer write up
- 网络IO是如何一步一步走向零拷贝的
- 大连计算机中级职称,大连市职称评审.doc
- python国内的源哪个好_Python pip配置国内源
- js前端动态生成变量及python后端动态生成变量接收
- 我的世界服务器地图种子文件夹,我的世界最好的5个地图种子 可以满足你建造的所有需求...