论文地址：https://arxiv.org/pdf/1911.09737.pdf

笔记内容：

论文总览
论文图表与内容
Normalization各种方法回顾（BN,GN,LN,IN）

论文总览：

1、解决的问题：BN（Batch Normalization）在mini-batch尺寸太小的时候会降低训练效果，GN（Group Normalization）,Batch Renormalization都在解决这些问题，但是达不到BN在大batch上的表现，或在小batch上表现不佳

2、FRN表现：FRN结合归一化和激活函数的方式，替代其他的归一化与激活函数的结合，在各个batch size上的表现都更好

3、改进的方向：FRN未来会在NLP领域继续探索

论文图表与内容：

FRN不依赖于batch的设置，在small batch size 和large batch size上表现都很好

（1）FRN和其他归一化方法一样，消除了在FRN filter的权重和预激活的尺度效应

（2）FRN主要的不同在于没有减去均值（均值在batch上不独立）

（3）FRN是基于每个channel上做的，使得所有的滤波器在最后的模型上有相等重要性

（4）FRN是在空间范围上的全局归一化

v^2是第b个batch point上的第c个channel上w*h个点的均方差，FRN对每个样例的每个channel单独进行归一化，消除了对batch的依赖

TLU是为了解决FRN没有均值中心而出现的任意偏差，t是可学习的阈值

在全连接层或N=1的激活层，FRN会变为图中的情况，当epsilon值较小时，归一化相当于一个符号函数（sign function），这时候梯度几乎为0，严重影响模型训练；当值较大时，曲线变得更圆滑，此时的梯度利于模型学习,此时epsilon变为可学习参数是很重要的

FRN的tf实现

FRN的表现：

Normalization各种方法回顾

参考文章：https://zhuanlan.zhihu.com/p/69659844

BN：

把第1个样本的第1个通道，加上第2个样本第1个通道 ...... 加上第 N 个样本第1个通道，求平均，得到通道 1 的均值（注意是除以 N×H×W 而不是单纯除以 N，最后得到的是一个代表这个 batch 第1个通道平均值的数字，而不是一个 H×W 的矩阵）。求通道 1 的方差也是同理。对所有通道都施加一遍这个操作，就得到了所有通道的均值和方差。具体公式为：

LN：

IN：

GN：

FRN+TLU，小batch size训练的福音相关推荐

batch size 训练时间_深度学习 | Batch Size大小对训练过程的影响
转自:面试中问你 Batch Size大小对训练过程的影响mp.weixin.qq.com 先看两个问题: (1)深度学习中batch size的大小对训练过程的影响是什么样的? (2)有些时候不可 ...
如何理解深度学习分布式训练中的large batch size与learning rate的关系？
问题详情: 在深度学习进行分布式训练时,常常采用同步数据并行的方式,也就是采用大的batch size进行训练,但large batch一般较于小的baseline的batch size性能更差,请问 ...
batch size对训练的影响
文章目录一.batch size 二.batch size对训练的影响 1.训练时间 2.模型的影响 3.实战中的超参数在不考虑bn的情况下,batch size大小决定了深度学习训练过程中完成每 ...
有关Batch Size的玄学被打破了！
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达点击进入-> CV 微信技术交流群转载自:机器之心 | 编辑:泽南作者:Sebastian Ras ...
打破Batch Size的玄学！batch size 的设置范围，不必那么拘谨！
作者丨机器之心来源丨机器之心 [导读]GPU 对 2 的幂次的 batch 可以发挥更好性能?今天来打破这个认知!著名机器学习博主用理论推导和实验结果证明:选择批大小作为 2 的幂或 8 的倍数在实 ...
一番实验后，有关Batch Size的玄学被打破了
作者:Sebastian Raschka 视学算法编译编辑:泽南有关 batch size 的设置范围,其实不必那么拘谨. 我们知道,batch size 决定了深度学习训练过程中,完成每个 ep ...
浅析深度学习中Batch Size大小对训练过程的影响
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达作者丨陈志远@知乎(已授权) 来源丨https://zhuanlan ...
Batch Size对神经网络训练的影响
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达作者丨Daryl Chang 来源丨CV技术指南编辑丨极市平台导 ...
训练神经网络时如何确定batch size？
前言当我们要训练一个已经写好的神经网络时,我们就要直面诸多的超参数了.这些超参数一旦选不好,那么很有可能让神经网络跑的还不如感知机.因此在面对神经网络这种容量很大的model前,是很有必要深刻的理解 ...

FRN+TLU，小batch size训练的福音

论文地址：https://arxiv.org/pdf/1911.09737.pdf

笔记内容：

论文总览

论文图表与内容

Normalization各种方法回顾（BN,GN,LN,IN）

论文总览：

论文图表与内容：

Normalization各种方法回顾

FRN+TLU，小batch size训练的福音相关推荐

最新文章

热门文章