更多可关注

计算机视觉-Paper&Code - 知乎

Abstract

恺明出品必属精品,目前在Facebook AI Research,多的不用多说。可以说这篇17年的论文即使到现在也绝不过时,其中一些思想和实验都给人很深的启发

总结来说本文主要以下贡献

  1. 作者展示了256GPUS的超强财力,表明batchsize不是越大越好,达到极限16k之后learning rate,validation error都降不下来
  2. 提出hyper-parameter-free linear scaling rule,学习率随着ecopch增大而减少,随着batchsize增大二增大,加快模型收敛以及提高性能
  3. 太大的学习率又会在一开始使模型训练不稳定,因此提出warmup 方法用来解决模型前期优化的问题

Algorithm

作者写的实在比较清晰

Large Minibatch SGD

损失函数和权重更新方法如下,不过多解释。关于Batchsize作者如下观点(经验来说选用32)

  • 当batch size太小的时候,在一定的epoch数里,训练出来的参数是无法逼近整体数据集定态分布的
  • 当batch size太大,深度学习的优化(training loss降不下去)和泛化(generalization gap很大)都会出导致在validation 上 error 很高
  • 随机梯度噪音的在深度学习中是正比于learning rate/batch size(也证明了line scale的有效率),batch size太大,噪音就太小了。其中随机梯度噪音对于逃离saddle points (优化问题)和sharp minima (反话问题)都必不可少的作用

  • batchsize增加k,学习率也对应增大,每次更新时,都采用bs个样本的平均loss进行梯度更新

Warmup

  • constant warmup,也就是通过手动固定设置epoch<5时的较下lr,再依次增大
  • gradual warmup, 逐渐将学习率从小到大增大,到epoch=5时,达到k倍lr,k代表batchsize。之后再继续执行lr schedule这个效果很好。如图可以看到,使用warmup的training error更低

Batch Normalization

  对于Mini-Batch SGD来说,一次训练过程里面包含m个训练实例,其具体BN操作就是对于隐层内每个神经元的激活值来说,进行如下变换:

经过这个变换后某个神经元的激活x形成了均值为0,方差为1的正态分布,加快训练收敛速度。但是这样会导致网络表达能力下降。比如说我原先学习到的是一个S型分布,但是被强制统一归一到0-1正态了。

为了防止这一点,每个神经元增加两个调节参数(scale和offset),计算得到的y作为该层的新输出,这两个参数是通过训练来学习到的,同时参加反向更新

推理的时候直接用全局统计的方差和均值,同时也可以通过融合conv+bn加速

其他方面是作者讨论分布式训练和硬件实现的内容

Paper Reading - 基础系列 - Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour相关推荐

  1. 【Cite 1.7K】Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour

    1 介绍 此文章是我在NFNet上读到的论文,NFNet论文通过引用这篇论文介绍如何在不使用归一化的情况下训练ImageNet任务模型: 2 原文链接 <Accurate, Large Mini ...

  2. 论文阅读:Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour

    论文阅读:Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour 论文地址: https://arxiv.org/pdf/1706.026 ...

  3. 【文献阅读】Accurate Large Minibatch SGD Training ImageNet in 1 hour

    摘要: 问题: 大网络和大数据集导致训练时间增长,distributed synchronous SGD通过划分SGD minibatches over a pool of parallel work ...

  4. Paper Reading - 基础系列 - 常用评价指标 ROC、PR、mAP

    更多可见计算机视觉-Paper&Code - 知乎 目录 混淆矩阵 (Confusion Matrix) 查准率/精确率 Precision 召回率/检出率/查全率 Recall 过杀率 Ki ...

  5. Paper Reading - HRNet 系列

    更多可关注 计算机视觉-Paper&Code - 知乎 先更新HRNet系列第一篇,留坑,炼丹的人命名都很奇怪,HRNet还以为是人力总监发的呢,OCRNet跟OCR文字识别又扯不上边,欢迎大 ...

  6. Paper Reading - Model系列 - LiteHRNet

    Abstract 更多关注 计算机视觉-Paper&Code - 知乎 paper code paper HRNet由微软亚洲研究院和中科大提出,已发表于CVPR2019 王井东 IEEE f ...

  7. Paper之BigGAN:《Large Scale Gan Training For High Fidelity Natural Image Synthesis》翻译与解读

    Paper之BigGAN:<Large Scale Gan Training For High Fidelity Natural Image Synthesis>翻译与解读 目录 效果 1 ...

  8. Paper Reading - Model系列 - ShuffleNet Chanel Attention

    ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices Paper 更多可见计算机视觉-P ...

  9. Paper Reading - 综述系列 - Hyper-Parameter Optimization(下)

    更多可见计算机视觉-Paper&Code - 知乎 目录 搜索策略 网格搜索 随机搜索 贝叶斯优化 结论 接着上一篇继续说 搜索策略 网格搜索 将每个超参数的搜索空间离散化为笛卡尔积.然后使用 ...

最新文章

  1. 一起谈.NET技术,通过16道练习学习Linq和Lambda
  2. C++ Primer 5th笔记(chap 16 模板和泛型编程)模板实参
  3. ShaderLab学习小结(一)最简化的顶点片断Shader
  4. 与大家分享一个我最近开始用的不错的JavaScript IDE
  5. PAT_B_1070_Java(25分)_C++(25分)
  6. js实现IE/Firefox的收藏功能
  7. 大型网站技术架构(三)--架构核心要素(转)
  8. IDM下载百度资源出现403的解决方法
  9. (转)Ubuntu10.04编译FFmpeg
  10. RQNOJ 342 最不听话的机器人:网格dp
  11. idea toolbar靠右显示
  12. Python人脸识别库的安装
  13. android 国际电话区号,中国国际区号_电话区号_中国区号是多少-中国区号查询
  14. 十个英文原版电子书下载网站(无需翻墙)
  15. 【高级篇 / DNS】(7.0) ❀ 04. FortiGuard 动态 DNS (DDNS) ❀ FortiGate 防火墙
  16. 共享店铺模式是怎么样的一个模式? 共享店铺系统多少钱一套?
  17. “no source“: Error: command-line: #564: cannot open embedded assembler outpu
  18. win32 007
  19. 介绍Jackson JsonParser解析json
  20. Xcode 14之大变化详细介绍

热门文章

  1. Mac OS下给树莓派安装系统、无网线和外设配置WI-FI、SSH远程控制、VNC远程桌面(超详细~)
  2. 运营商市场的主角变成中国电信与中国移动,联通逐渐成为陪衬
  3. Linux系统下Python3的安装
  4. 微软GPT-4 Office王炸来袭,10亿打工人被革命
  5. 攻防世界web入门-xff_referer write up
  6. 网络IO是如何一步一步走向零拷贝的
  7. 大连计算机中级职称,大连市职称评审.doc
  8. python国内的源哪个好_Python pip配置国内源
  9. js前端动态生成变量及python后端动态生成变量接收
  10. 我的世界服务器地图种子文件夹,我的世界最好的5个地图种子 可以满足你建造的所有需求...