论文地址:https://arxiv.org/pdf/1911.09737.pdf

笔记内容:

  • 论文总览

  • 论文图表与内容

  • Normalization各种方法回顾(BN,GN,LN,IN)

论文总览:

1、解决的问题:BN(Batch Normalization)在mini-batch尺寸太小的时候会降低训练效果,GN(Group Normalization),Batch Renormalization都在解决这些问题,但是达不到BN在大batch上的表现,或在小batch上表现不佳

2、FRN表现:FRN结合归一化和激活函数的方式,替代其他的归一化与激活函数的结合,在各个batch size上的表现都更好

3、改进的方向:FRN未来会在NLP领域继续探索

论文图表与内容:

FRN不依赖于batch的设置,在small batch size 和large batch size上表现都很好

(1)FRN和其他归一化方法一样,消除了在FRN filter的权重和预激活的尺度效应

(2)FRN主要的不同在于没有减去均值(均值在batch上不独立)

(3)FRN是基于每个channel上做的,使得所有的滤波器在最后的模型上有相等重要性

(4)FRN是在空间范围上的全局归一化

v^2是第b个batch point上的第c个channel上w*h个点的均方差,FRN对每个样例的每个channel单独进行归一化,消除了对batch的依赖

TLU是为了解决FRN没有均值中心而出现的任意偏差,t是可学习的阈值

在全连接层或N=1的激活层,FRN会变为图中的情况,当epsilon值较小时,归一化相当于一个符号函数(sign function),这时候梯度几乎为0,严重影响模型训练;当值较大时,曲线变得更圆滑,此时的梯度利于模型学习,此时epsilon变为可学习参数是很重要的

FRN的tf实现

FRN的表现:

Normalization各种方法回顾

参考文章:https://zhuanlan.zhihu.com/p/69659844

BN:

把第1个样本的第1个通道,加上第2个样本第1个通道 ...... 加上第 N 个样本第1个通道,求平均,得到通道 1 的均值(注意是除以 N×H×W 而不是单纯除以 N,最后得到的是一个代表这个 batch 第1个通道平均值的数字,而不是一个 H×W 的矩阵)。求通道 1 的方差也是同理。对所有通道都施加一遍这个操作,就得到了所有通道的均值和方差。具体公式为:

LN:

IN:

GN:

FRN+TLU,小batch size训练的福音相关推荐

  1. batch size 训练时间_深度学习 | Batch Size大小对训练过程的影响

    转自:面试中问你 Batch Size大小对训练过程的影响​mp.weixin.qq.com 先看两个问题: (1)深度学习中batch size的大小对训练过程的影响是什么样的? (2)有些时候不可 ...

  2. 如何理解深度学习分布式训练中的large batch size与learning rate的关系?

    问题详情: 在深度学习进行分布式训练时,常常采用同步数据并行的方式,也就是采用大的batch size进行训练,但large batch一般较于小的baseline的batch size性能更差,请问 ...

  3. batch size对训练的影响

    文章目录 一.batch size 二.batch size对训练的影响 1.训练时间 2.模型的影响 3.实战中的超参数 在不考虑bn的情况下,batch size大小决定了深度学习训练过程中完成每 ...

  4. 有关Batch Size的玄学被打破了!

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 转载自:机器之心 | 编辑:泽南 作者:Sebastian Ras ...

  5. 打破Batch Size的玄学!batch size 的设置范围,不必那么拘谨!

    作者丨机器之心 来源丨机器之心 [导读]GPU 对 2 的幂次的 batch 可以发挥更好性能?今天来打破这个认知!著名机器学习博主用理论推导和实验结果证明:选择批大小作为 2 的幂或 8 的倍数在实 ...

  6. 一番实验后,有关Batch Size的玄学被打破了

    作者:Sebastian Raschka 视学算法编译 编辑:泽南 有关 batch size 的设置范围,其实不必那么拘谨. 我们知道,batch size 决定了深度学习训练过程中,完成每个 ep ...

  7. 浅析深度学习中Batch Size大小对训练过程的影响

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者丨陈志远@知乎(已授权) 来源丨https://zhuanlan ...

  8. Batch Size对神经网络训练的影响

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者丨Daryl Chang 来源丨CV技术指南 编辑丨极市平台 导 ...

  9. 训练神经网络时如何确定batch size?

    前言 当我们要训练一个已经写好的神经网络时,我们就要直面诸多的超参数了.这些超参数一旦选不好,那么很有可能让神经网络跑的还不如感知机.因此在面对神经网络这种容量很大的model前,是很有必要深刻的理解 ...

最新文章

  1. shell脚本编程第一天
  2. Android中文输入的新选择——搜狗拼音输入法
  3. 在Rancher 1.6上部署Traefik负载均衡器
  4. 1.5 Map集合:HashMap 和TreeMap 类
  5. Twipstopixels java_17.9.3 与设备无关的绘制(4)
  6. 编写干净的测试-被认为有害的新内容
  7. java并发集合面试题,那些经常被问的JAVA面试题(1)—— 集合部分
  8. hibernate运行很慢?查一张只有几条记录的表都要一俩分钟?[问题记录]
  9. 深度掌握bin、hex、axf和elf文件格式
  10. RFID 工作频率的分类
  11. Android MediaRecorder录制视频
  12. android实现支付功能,Android支付宝支付开发实例
  13. jQuery实现广告图片轮播切换
  14. 【javascript】收藏本站——添加到浏览器收藏夹
  15. 树莓派PICO问题一
  16. 如何快速推广个人微信公众号?
  17. knife4j的使用
  18. win7计算机评分性能,Win7内存评分:两种规格6分以内_内存硬盘技巧-中关村在线...
  19. U盘病毒查杀并打补丁
  20. 前端面试题(中高级)

热门文章

  1. 睿智的目标检测53——Pytorch搭建YoloX目标检测平台
  2. Python密度等高线(真的很简单,别再被别人误导了)
  3. SAP成都研究院李三郎:SCP Application Router简介
  4. OpenWrt - 官网知多少?
  5. FFmpeg重要结构体(转自雷神)
  6. 2017年的双十一又一次刷新了记录,交易创建峰值32.5万笔/秒、支付峰值25.6万笔/秒。而这样的交易和支付等记录,都会形成实时订单Feed数据流,汇入数据运营平台的主动服务系统中去。数据运营平台的
  7. 如何重装windows系统?
  8. 大数据就业培训 大数据的发展方向
  9. 哲学、科学、工程的关系的一点思考
  10. 计算机中丢失api-ms-win-crt-runtime-l1-1-0.dll的疑难杂症解决方法