FRN+TLU,小batch size训练的福音
论文地址:https://arxiv.org/pdf/1911.09737.pdf
笔记内容:
论文总览
论文图表与内容
Normalization各种方法回顾(BN,GN,LN,IN)
论文总览:
1、解决的问题:BN(Batch Normalization)在mini-batch尺寸太小的时候会降低训练效果,GN(Group Normalization),Batch Renormalization都在解决这些问题,但是达不到BN在大batch上的表现,或在小batch上表现不佳
2、FRN表现:FRN结合归一化和激活函数的方式,替代其他的归一化与激活函数的结合,在各个batch size上的表现都更好
3、改进的方向:FRN未来会在NLP领域继续探索
论文图表与内容:
FRN不依赖于batch的设置,在small batch size 和large batch size上表现都很好
(1)FRN和其他归一化方法一样,消除了在FRN filter的权重和预激活的尺度效应
(2)FRN主要的不同在于没有减去均值(均值在batch上不独立)
(3)FRN是基于每个channel上做的,使得所有的滤波器在最后的模型上有相等重要性
(4)FRN是在空间范围上的全局归一化
v^2是第b个batch point上的第c个channel上w*h个点的均方差,FRN对每个样例的每个channel单独进行归一化,消除了对batch的依赖
TLU是为了解决FRN没有均值中心而出现的任意偏差,t是可学习的阈值
在全连接层或N=1的激活层,FRN会变为图中的情况,当epsilon值较小时,归一化相当于一个符号函数(sign function),这时候梯度几乎为0,严重影响模型训练;当值较大时,曲线变得更圆滑,此时的梯度利于模型学习,此时epsilon变为可学习参数是很重要的
FRN的tf实现
FRN的表现:
Normalization各种方法回顾
参考文章:https://zhuanlan.zhihu.com/p/69659844
BN:
把第1个样本的第1个通道,加上第2个样本第1个通道 ...... 加上第 N 个样本第1个通道,求平均,得到通道 1 的均值(注意是除以 N×H×W 而不是单纯除以 N,最后得到的是一个代表这个 batch 第1个通道平均值的数字,而不是一个 H×W 的矩阵)。求通道 1 的方差也是同理。对所有通道都施加一遍这个操作,就得到了所有通道的均值和方差。具体公式为:
LN:
IN:
GN:
FRN+TLU,小batch size训练的福音相关推荐
- batch size 训练时间_深度学习 | Batch Size大小对训练过程的影响
转自:面试中问你 Batch Size大小对训练过程的影响mp.weixin.qq.com 先看两个问题: (1)深度学习中batch size的大小对训练过程的影响是什么样的? (2)有些时候不可 ...
- 如何理解深度学习分布式训练中的large batch size与learning rate的关系?
问题详情: 在深度学习进行分布式训练时,常常采用同步数据并行的方式,也就是采用大的batch size进行训练,但large batch一般较于小的baseline的batch size性能更差,请问 ...
- batch size对训练的影响
文章目录 一.batch size 二.batch size对训练的影响 1.训练时间 2.模型的影响 3.实战中的超参数 在不考虑bn的情况下,batch size大小决定了深度学习训练过程中完成每 ...
- 有关Batch Size的玄学被打破了!
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 转载自:机器之心 | 编辑:泽南 作者:Sebastian Ras ...
- 打破Batch Size的玄学!batch size 的设置范围,不必那么拘谨!
作者丨机器之心 来源丨机器之心 [导读]GPU 对 2 的幂次的 batch 可以发挥更好性能?今天来打破这个认知!著名机器学习博主用理论推导和实验结果证明:选择批大小作为 2 的幂或 8 的倍数在实 ...
- 一番实验后,有关Batch Size的玄学被打破了
作者:Sebastian Raschka 视学算法编译 编辑:泽南 有关 batch size 的设置范围,其实不必那么拘谨. 我们知道,batch size 决定了深度学习训练过程中,完成每个 ep ...
- 浅析深度学习中Batch Size大小对训练过程的影响
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者丨陈志远@知乎(已授权) 来源丨https://zhuanlan ...
- Batch Size对神经网络训练的影响
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者丨Daryl Chang 来源丨CV技术指南 编辑丨极市平台 导 ...
- 训练神经网络时如何确定batch size?
前言 当我们要训练一个已经写好的神经网络时,我们就要直面诸多的超参数了.这些超参数一旦选不好,那么很有可能让神经网络跑的还不如感知机.因此在面对神经网络这种容量很大的model前,是很有必要深刻的理解 ...
最新文章
- shell脚本编程第一天
- Android中文输入的新选择——搜狗拼音输入法
- 在Rancher 1.6上部署Traefik负载均衡器
- 1.5 Map集合:HashMap 和TreeMap 类
- Twipstopixels java_17.9.3 与设备无关的绘制(4)
- 编写干净的测试-被认为有害的新内容
- java并发集合面试题,那些经常被问的JAVA面试题(1)—— 集合部分
- hibernate运行很慢?查一张只有几条记录的表都要一俩分钟?[问题记录]
- 深度掌握bin、hex、axf和elf文件格式
- RFID 工作频率的分类
- Android MediaRecorder录制视频
- android实现支付功能,Android支付宝支付开发实例
- jQuery实现广告图片轮播切换
- 【javascript】收藏本站——添加到浏览器收藏夹
- 树莓派PICO问题一
- 如何快速推广个人微信公众号?
- knife4j的使用
- win7计算机评分性能,Win7内存评分:两种规格6分以内_内存硬盘技巧-中关村在线...
- U盘病毒查杀并打补丁
- 前端面试题(中高级)
热门文章
- 睿智的目标检测53——Pytorch搭建YoloX目标检测平台
- Python密度等高线(真的很简单,别再被别人误导了)
- SAP成都研究院李三郎:SCP Application Router简介
- OpenWrt - 官网知多少?
- FFmpeg重要结构体(转自雷神)
- 2017年的双十一又一次刷新了记录,交易创建峰值32.5万笔/秒、支付峰值25.6万笔/秒。而这样的交易和支付等记录,都会形成实时订单Feed数据流,汇入数据运营平台的主动服务系统中去。数据运营平台的
- 如何重装windows系统?
- 大数据就业培训 大数据的发展方向
- 哲学、科学、工程的关系的一点思考
- 计算机中丢失api-ms-win-crt-runtime-l1-1-0.dll的疑难杂症解决方法