1.基础理论

在日常中深度学习的系统,一般使用的是单精度 float(Single-Precision)浮点表示。在了解混合精度训练之前,我们需要先对其中的主角半精度『float16』进行一定的理论知识学习。

在上图可以看到,与单精度float(32bit,4个字节)相比,半进度float16仅有16bit,2个字节组成。天然的存储空间是float的一半。 其中,float16的组成分为了三个部分:

  1. 最高位表示符号位;
  2. 有5位表示exponent位;
  3. 有10位表示fraction位;

当5位exponent为0时,则指数部分为n-15+1,当5位exponent为1时,则指数部分为n-15。

2.为什么需要FP16?

在使用FP16之前,我想再赘述一下为什么我们使用FP16。

  1. 减少显存占用 现在模型越来越大,当你使用Bert这一类的预训练模型时,往往显存就被模型及模型计算占去大半,当想要使用更大的Batch Size的时候会显得捉襟见肘。由于FP16的内存占用只有FP32的一半,自然地就可以帮助训练过程节省一半的显存空间。
  2. 加快训练和推断的计算 与普通的空间时间Trade-off的加速方法不同,FP16除了能节约内存,还能同时节省模型的训练时间。在大部分的测试中,基于FP16的加速方法能够给模型训练带来多一倍的加速体验(爽感类似于两倍速看肥皂剧)。
  3. 张量核心的普及 硬件的发展同样也推动着模型计算的加速,随着Nvidia张量核心(Tensor Core)的普及,16bit计算也一步步走向成熟,低精度计算也是未来深度学习的一个重要趋势,再不学习就out啦。

3. FP16带来的问题:量化误差

这个部分是整个博客最重要的理论核心。 讲了这么多FP16的好处,那么使用FP16的时候有没有什么问题呢?当然有。FP16带来的问题主要有两个:1. 溢出错误;2. 舍入误差。

2. 舍入误差(Rounding Error)

舍入误差指的是当梯度过小,小于当前区间内的最小间隔时,该次梯度更新可能会失败,用一张图清晰地表示:

这个例子非常直观的阐述了『舍入误差』这个说法。而至于上面提到的,FP16的最小间隔是一个比较玄乎的事,在wikipedia的引用上有这么一张图: 描述了 fp16 各个区间的最小gap。

3. 解决办法

3.1 FP32 权重备份

这种方法主要是用于解决舍入误差的问题。其主要思路,可以概括为:weights, activations, gradients 等数据在训练中都利用FP16来存储,同时拷贝一份FP32的weights,用于更新。 在这里,我直接贴一张论文[1]的图片来阐述:

可以看到,其他所有值(weights,activations, gradients)均使用 fp16 来存储,而唯独权重weights需要用 fp32 的格式额外备份一次。 这主要是因为,在更新权重的时候,往往公式: 权重 = 旧权重 + lr * 梯度,而在深度模型中,lr * 梯度 这个值往往是非常小的,如果利用 fp16 来进行相加的话, 则很可能会出现上面所说的『舍入误差』的这个问题,导致更新无效。因此上图中,通过将weights拷贝成 fp32 格式,并且确保整个更新(update)过程是在 fp32 格式下进行的。

看到这里,可能有人提出这种 fp32 拷贝weight的方式,那岂不是使得内存占用反而更高了呢?是的, fp32 额外拷贝一份 weight 的确新增加了训练时候存储的占用。 但是实际上,在训练过程中,内存中占据大部分的基本都是 activations 的值。特别是在batchsize 很大的情况下, activations 更是特别占据空间。 保存 activiations 主要是为了在 back-propogation 的时候进行计算。因此,只要 activation 的值基本都是使用 fp16 来进行存储的话,则最终模型与 fp32 相比起来, 内存占用也基本能够减半。

3.2 Loss Scale

为了解决梯度过小的问题,论文中对计算出来的loss值进行scale,由于链式法则的存在,loss上的scale会作用也会作用在梯度上。这样比起对每个梯度进行scale更加划算。 scaled 过后的梯度,就会平移到 fp16 有效的展示范围内。

这样,scaled-gradient 就可以一直使用 fp16 进行存储了。只有在进行更新的时候,才会将 scaled-gradient 转化为 fp32,同时将scale抹去。论文指出, scale 并非对于所有网络而言都是必须的。而scale的取值为也会特别大,论文给出在 8 - 32k 之间皆可。

3.3 提高算数精度

在论文中还提到一个『计算精度』的问题:在某些模型中,fp16矩阵乘法的过程中,需要利用 fp32 来进行矩阵乘法中间的累加(accumulated),然后再将 fp32 的值转化为 fp16 进行存储。 换句不太严谨的话来说,也就是利用 利用fp16进行乘法和存储,利用fp32来进行加法计算。 这么做的原因主要是为了减少加法过程中的舍入误差,保证精度不损失。

在这里也就引出了,为什么网上大家都说,只有 Nvidia Volta 结构的 拥有 TensorCore 的CPU(例如V100),才能利用 fp16 混合精度来进行加速。 那是因为 TensorCore 能够保证 fp16 的矩阵相乘,利用 fp16 or fp32 来进行累加。在累加阶段能够使用 FP32 大幅减少混合精度训练的精度损失。而其他的GPU 只能支持 fp16 的 multiply-add operation。这里直接贴出原文句子:

Whereas previous GPUs supported only FP16 multiply-add operation, NVIDIA Volta GPUs introduce Tensor Cores that multiply FP16 input matrices andaccumulate products into either FP16 or FP32 outputs

参考链接:

https://zhuanlan.zhihu.com/p/103685761

https://zhuanlan.zhihu.com/p/79887894

https://blog.csdn.net/qq_36533552/article/details/105885714

fp32/bfp16数据类型相关推荐

  1. 混合精度训练原理总结

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者丨ZOMI酱@知乎(已授权) 来源丨https://zhuanl ...

  2. NVIDIA教你用TensorRT加速深度学习推理计算 | 量子位线下沙龙笔记

    主讲人:Ken(何琨)| NVIDIA开发者社区经理 张康 屈鑫 编辑整理 量子位 出品 | 公众号 QbitAI 12月22日,量子位联合NVIDIA英伟达举行了线下交流会,跟现场近百位开发者同学共 ...

  3. 余弦相似度计算的实现方式

    目录 一.余弦相似度计算方式 1.python 2.sklearn 3.scipy 4.numpy 5.pytorch 6.faiss 二.规模暴增计算加速 1.numpy矩阵计算GPU加速--cup ...

  4. 超大规模AI异构计算集群的设计和优化

    现在业界有一个很大的趋势是训练规模越来越大的模型.从GPT-3开始,模型已经被推到了千亿参数量的维度.从2020年到现在,各个厂商也在不断推出更大参数量的模型,比如OpenAI的GPT-3.Googl ...

  5. 全网最全-神经网络混合精度训练原理

    通常我们训练神经网络模型的时候默认使用的数据类型为单精度FP32.近年来,为了加快训练时间.减少网络训练时候所占用的内存,并且保存训练出来的模型精度持平的条件下,业界提出越来越多的混合精度训练的方法. ...

  6. keil_4/MDK各种数据类型占用的字节数

    笔者正在学习uCOS-II,移植到ARM时考虑到数据类型的定义,但对于Keil MDK编译器的数据类型定义还是很模糊,主要就是区分不了short int.int.long 和long int占用多少字 ...

  7. Nvidia GPU的浮点计算能力(FP64/FP32/FP16)

    转自:http://weibo.com/ttarticle/p/show?id=2309403987017473113077 ​​其实说到浮点计算能力,首先得区分不同精度的浮点数,虽然Linpack测 ...

  8. fp16与fp32简介与试验

    目录 一.fp16和fp32介绍 二.为什么应用fp16训练: 三.应用fp16存在问题 四.实践对比 引用: 一.fp16和fp32介绍 fp16是指采用2字节(16位)进行编码存储的一种数据类型: ...

  9. TensorRT下FP32转INT8的过程

    作者:Tiso-yan 来源:CSDN 原文:https://blog.csdn.net/qq_32043199/article/details/81119357 1. 关于TensorRT NVID ...

最新文章

  1. TensorRT-优化-原理
  2. TIOBE 9月编程语言排行榜
  3. python解析器_Python Python解析器
  4. 熊猫直播P2P分享率优化(下):ASN组网
  5. Papar Notes List
  6. matlab中for循环的步长
  7. python 执行dos命令_对python中执行DOS命令的3种方法总结
  8. 谈谈我对《ThoughtWorks文集》中多语言开发部分的看法
  9. 坦克大战之继承的实现
  10. Vue-pdf预览pdf文档
  11. java8 131下载_jdk 8u131下载
  12. selenium 确实是好东西,使用selenium-server 加快执行速度,对速度有很大提升,同时可以拆分服务,进行集群部署。
  13. Leetcode SQL 刷题学习:175. 组合两个表
  14. 关于《0bug》一书随机数的一处修订
  15. csgo社区自建服务器,CSGO官方社区服黄页测试版上线
  16. 工作流Airflow的性能优化,应对dag数目的激增
  17. 锁定“嵌入式AI”应用 中科创达启动第二轮成长
  18. 我辞退了一名核心高管:不躬身入局,不配做管理者
  19. 申请国外博士后的好网站
  20. Can‘t load /home/Iot/.rnd into RNG

热门文章

  1. ipmitool命令详解
  2. 安森美成像技术开启数字电影摄影新纪元
  3. 爬虫-urllib3模块的使用
  4. 企业如何防止客户资料、财务数据、供应链,工资单等机密数据泄密事件发生?...
  5. ubuntu安装下载工具Deluge
  6. Angular2 ngOnChanges用法
  7. css、js、浏览器、vue、react、移动web、前端性能、算法、node前端面试题
  8. Oracle根据行号达到分组排序取第一条的效果,排序后取第一条
  9. 第11周周报(11.08-11.14)
  10. 【分布族谱】高斯分布和逆高斯分布的关系