1.基础理论

在日常中深度学习的系统，一般使用的是单精度 float（Single-Precision）浮点表示。在了解混合精度训练之前，我们需要先对其中的主角半精度『float16』进行一定的理论知识学习。

在上图可以看到，与单精度float（32bit，4个字节）相比，半进度float16仅有16bit，2个字节组成。天然的存储空间是float的一半。其中，float16的组成分为了三个部分：

最高位表示符号位；
有5位表示exponent位;
有10位表示fraction位;

当5位exponent为0时，则指数部分为n-15+1，当5位exponent为1时，则指数部分为n-15。

2.为什么需要FP16？

在使用FP16之前，我想再赘述一下为什么我们使用FP16。

减少显存占用 现在模型越来越大，当你使用Bert这一类的预训练模型时，往往显存就被模型及模型计算占去大半，当想要使用更大的Batch Size的时候会显得捉襟见肘。由于FP16的内存占用只有FP32的一半，自然地就可以帮助训练过程节省一半的显存空间。
加快训练和推断的计算 与普通的空间时间Trade-off的加速方法不同，FP16除了能节约内存，还能同时节省模型的训练时间。在大部分的测试中，基于FP16的加速方法能够给模型训练带来多一倍的加速体验（爽感类似于两倍速看肥皂剧）。
张量核心的普及 硬件的发展同样也推动着模型计算的加速，随着Nvidia张量核心（Tensor Core）的普及，16bit计算也一步步走向成熟，低精度计算也是未来深度学习的一个重要趋势，再不学习就out啦。

3. FP16带来的问题：量化误差

这个部分是整个博客最重要的理论核心。讲了这么多FP16的好处，那么使用FP16的时候有没有什么问题呢？当然有。FP16带来的问题主要有两个：1. 溢出错误；2. 舍入误差。

2. 舍入误差（Rounding Error）

舍入误差指的是当梯度过小，小于当前区间内的最小间隔时，该次梯度更新可能会失败，用一张图清晰地表示：

这个例子非常直观的阐述了『舍入误差』这个说法。而至于上面提到的，FP16的最小间隔是一个比较玄乎的事，在wikipedia的引用上有这么一张图：描述了 fp16 各个区间的最小gap。

3. 解决办法

3.1 FP32 权重备份

这种方法主要是用于解决舍入误差的问题。其主要思路，可以概括为：weights, activations, gradients 等数据在训练中都利用FP16来存储，同时拷贝一份FP32的weights，用于更新。在这里，我直接贴一张论文[1]的图片来阐述：

可以看到，其他所有值（weights，activations， gradients）均使用 fp16 来存储，而唯独权重weights需要用 fp32 的格式额外备份一次。这主要是因为，在更新权重的时候，往往公式: 权重 = 旧权重 + lr * 梯度，而在深度模型中，lr * 梯度 这个值往往是非常小的，如果利用 fp16 来进行相加的话，则很可能会出现上面所说的『舍入误差』的这个问题，导致更新无效。因此上图中，通过将weights拷贝成 fp32 格式，并且确保整个更新（update）过程是在 fp32 格式下进行的。

看到这里，可能有人提出这种 fp32 拷贝weight的方式，那岂不是使得内存占用反而更高了呢？是的， fp32 额外拷贝一份 weight 的确新增加了训练时候存储的占用。但是实际上，在训练过程中，内存中占据大部分的基本都是 activations 的值。特别是在batchsize 很大的情况下， activations 更是特别占据空间。保存 activiations 主要是为了在 back-propogation 的时候进行计算。因此，只要 activation 的值基本都是使用 fp16 来进行存储的话，则最终模型与 fp32 相比起来，内存占用也基本能够减半。

3.2 Loss Scale

为了解决梯度过小的问题，论文中对计算出来的loss值进行scale，由于链式法则的存在，loss上的scale会作用也会作用在梯度上。这样比起对每个梯度进行scale更加划算。 scaled 过后的梯度，就会平移到 fp16 有效的展示范围内。

这样，scaled-gradient 就可以一直使用 fp16 进行存储了。只有在进行更新的时候，才会将 scaled-gradient 转化为 fp32，同时将scale抹去。论文指出， scale 并非对于所有网络而言都是必须的。而scale的取值为也会特别大，论文给出在 8 - 32k 之间皆可。

3.3 提高算数精度

在论文中还提到一个『计算精度』的问题：在某些模型中，fp16矩阵乘法的过程中，需要利用 fp32 来进行矩阵乘法中间的累加(accumulated)，然后再将 fp32 的值转化为 fp16 进行存储。换句不太严谨的话来说，也就是利用 利用fp16进行乘法和存储，利用fp32来进行加法计算。这么做的原因主要是为了减少加法过程中的舍入误差，保证精度不损失。

在这里也就引出了，为什么网上大家都说，只有 Nvidia Volta 结构的拥有 TensorCore 的CPU(例如V100)，才能利用 fp16 混合精度来进行加速。那是因为 TensorCore 能够保证 fp16 的矩阵相乘，利用 fp16 or fp32 来进行累加。在累加阶段能够使用 FP32 大幅减少混合精度训练的精度损失。而其他的GPU 只能支持 fp16 的 multiply-add operation。这里直接贴出原文句子：

Whereas previous GPUs supported only FP16 multiply-add operation, NVIDIA Volta GPUs introduce Tensor Cores that multiply FP16 input matrices andaccumulate products into either FP16 or FP32 outputs

参考链接：

https://zhuanlan.zhihu.com/p/103685761

https://zhuanlan.zhihu.com/p/79887894

https://blog.csdn.net/qq_36533552/article/details/105885714

fp32/bfp16数据类型相关推荐

混合精度训练原理总结
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达作者丨ZOMI酱@知乎(已授权) 来源丨https://zhuanl ...
NVIDIA教你用TensorRT加速深度学习推理计算 | 量子位线下沙龙笔记
主讲人:Ken(何琨)| NVIDIA开发者社区经理张康屈鑫编辑整理量子位出品 | 公众号 QbitAI 12月22日,量子位联合NVIDIA英伟达举行了线下交流会,跟现场近百位开发者同学共 ...
余弦相似度计算的实现方式
目录一.余弦相似度计算方式 1.python 2.sklearn 3.scipy 4.numpy 5.pytorch 6.faiss 二.规模暴增计算加速 1.numpy矩阵计算GPU加速--cup ...
超大规模AI异构计算集群的设计和优化
现在业界有一个很大的趋势是训练规模越来越大的模型.从GPT-3开始,模型已经被推到了千亿参数量的维度.从2020年到现在,各个厂商也在不断推出更大参数量的模型,比如OpenAI的GPT-3.Googl ...
全网最全-神经网络混合精度训练原理
通常我们训练神经网络模型的时候默认使用的数据类型为单精度FP32.近年来,为了加快训练时间.减少网络训练时候所占用的内存,并且保存训练出来的模型精度持平的条件下,业界提出越来越多的混合精度训练的方法. ...
keil_4/MDK各种数据类型占用的字节数
笔者正在学习uCOS-II,移植到ARM时考虑到数据类型的定义,但对于Keil MDK编译器的数据类型定义还是很模糊,主要就是区分不了short int.int.long 和long int占用多少字 ...
Nvidia GPU的浮点计算能力(FP64/FP32/FP16)
转自:http://weibo.com/ttarticle/p/show?id=2309403987017473113077 其实说到浮点计算能力,首先得区分不同精度的浮点数,虽然Linpack测 ...
fp16与fp32简介与试验
目录一.fp16和fp32介绍二.为什么应用fp16训练: 三.应用fp16存在问题四.实践对比引用: 一.fp16和fp32介绍 fp16是指采用2字节(16位)进行编码存储的一种数据类型: ...
TensorRT下FP32转INT8的过程
作者:Tiso-yan 来源:CSDN 原文:https://blog.csdn.net/qq_32043199/article/details/81119357 1. 关于TensorRT NVID ...

fp32/bfp16数据类型