1. 自动混合精度理论概要

一句话概括的是，自动混合精度的实现使用的autocast + GradScaler。以下是对自动混合精度的介绍：

amp：Automatic mixed precision，自动混合精度，可以在神经网络推理过程中，针对不同的层，采用不同的数据精度进行计算，从而实现节省显存和加快速度的目的。自动混合精度的关键词有两个：自动、混合精度。这是由PyTorch 1.6的torch.cuda.amp模块带来的：from torch.cuda import amp
混合精度：预示着有不止一种精度的Tensor，那在PyTorch的AMP模块里是几种呢？2种：torch.FloatTensor（浮点型 32位）和torch.HalfTensor（半精度浮点型 16位）；
自动：预示着Tensor的dtype类型会自动变化，也就是框架按需自动调整tensor的dtype（其实不是完全自动，有些地方还是需要手工干预）；

补充说明：

torch.cuda.amp 的名字意味着这个功能只能在cuda上使用；
torch默认的tensor精度类型是torch.FloatTensor

问题：为什么需要自动混合精度，也就是torch.FloatTensor和torch.HalfTensor的混合，而不全是torch.FloatTensor？或者全是torch.HalfTensor？

原因：在某些上下文中torch.FloatTensor有优势，在某些上下文中torch.HalfTensor有优势。什么是torch.HalfTensor？

torch.HalfTensor：

torch.HalfTensor的优势就是存储小、计算快、更好的利用CUDA设备的Tensor Core。因此训练的时候可以减少显存的占用（可以增加batchsize了），同时训练速度更快；
torch.HalfTensor的劣势就是：数值范围小（更容易Overflow / Underflow）、舍入误差（Rounding Error，导致一些微小的梯度信息达不到16bit精度的最低分辨率，从而丢失）。

可见，当有优势的时候就用torch.HalfTensor，而为了消除torch.HalfTensor的劣势，有两种解决方案：

方案一：
梯度scale，这正是上一小节中提到的torch.cuda.amp.GradScaler，通过放大loss的值来防止梯度消失underflow（这只是BP的时候传递梯度信息使用，真正更新权重的时候还是要把放大的梯度再unscale回去）；
方案二：
回落到torch.FloatTensor，这就是混合一词的由来。那怎么知道什么时候用torch.FloatTensor，什么时候用半精度浮点型呢？这是PyTorch框架决定的，AMP上下文中，一些常用的操作中tensor会被自动转化为半精度浮点型的torch.HalfTensor（如：conv1d、conv2d、conv3d、linear、prelu等）。实际上，在训练过程中，内存中占据大部分的基本都是 activations 的值。特别是在batchsize 很大的情况下， activations 更是特别占据空间。保存 activiations 主要是为了在 back-propogation 的时候进行计算。因此，只要 activation 的值基本都是使用 fp16 来进行存储的话，则最终模型与 fp32 相比起来，内存占用也基本能够减半。

总结：

即使了混合精度训练，还是存在无法收敛的情况，原因是激活梯度的值太小，造成了溢出。可以通过使用torch.cuda.amp.GradScaler，通过放大loss的值来防止梯度的underflow（只在BP时传递梯度信息使用，真正更新权重时还是要把放大的梯度再unscale回去）；

Loss Scale 主要是为了解决 fp16 underflow 的问题。刚才提到，训练到了后期，梯度（特别是激活函数平滑段的梯度）会特别小，fp16 表示容易产生 underflow 现象。在SSD 模型在训练过程中，激活函数梯度的分布情况：有67%的梯度小于 -65504 ，如果用 fp16 来表示，则这些梯度都会变成0。

为了解决梯度过小的问题，论文中对计算出来的loss值进行scale，由于链式法则的存在，loss上的scale会作用也会作用在梯度上。这样比起对每个梯度进行scale更加划算。 scaled 过后的梯度，就会平移到 fp16 有效的展示范围内。这样，scaled-gradient 就可以一直使用 fp16 进行存储了。只有在进行更新的时候，才会将 scaled-gradient 转化为 fp32，同时将scale抹去。论文指出， scale 并非对于所有网络而言都是必须的。而scale的取值为也会特别大，论文给出在 8 - 32k 之间皆可。

自动混合精度的实现使用的autocast + GradScaler，下面分别对autocast和GradScaler进行介绍。

2. Autocast使用介绍

使用torch.cuda.amp模块中的autocast 类

Autocast使用的参考代码：

from torch.cuda import amp# 创建model，默认是torch.FloatTensor
model = Net().cuda()
optimizer = optim.SGD(model.parameters(), ...)
# 判断能否使用自动混合精度
enable_amp = True if "cuda" in device.type else Falsefor input, target in data:optimizer.zero_grad()# 前向过程(model + loss)开启 autocastwith amp.autocast(enabled=enable_amp):output = model(input)loss = loss_fn(output, target)# 反向传播在autocast上下文之外loss.backward()optimizer.step()

需要注意:

当进入autocast，自动将torch.FloatTensor类型转化为torch.HalfTensor，而不需要手动设置model.half()/input.half，框架会自动做，这也是自动混合精度中“自动”一词的由来。
autocast上下文应该只包含网络的前向过程（包括loss的计算），而不要包含反向传播。

3. GradScaler使用介绍

这里GradScaler就是第二小节中提到的梯度scaler模块，需要在训练最开始之前使用amp.GradScaler实例化一个GradScaler对象

GradScaler使用的参考代码：

from torch.cuda import amp# 创建model，默认是torch.FloatTensor
model = Net().cuda()
optimizer = optim.SGD(model.parameters(), ...)
# 判断能否使用自动混合精度
enable_amp = True if "cuda" in device.type else False
# 在训练最开始之前实例化一个GradScaler对象
scaler = amp.GradScaler(enabled=enable_amp)for epoch in epochs:for input, target in data:optimizer.zero_grad()# 前向过程(model + loss)开启 autocastwith amp.autocast(enabled=enable_amp):output = model(input)loss = loss_fn(output, target)# 1、Scales loss.  先将梯度放大 防止梯度消失scaler.scale(loss).backward()# 2、scaler.step()   再把梯度的值unscale回来.# 如果梯度的值不是 infs 或者 NaNs, 那么调用optimizer.step()来更新权重,# 否则，忽略step调用，从而保证权重不更新（不被破坏）scaler.step(optimizer)# 3、准备着，看是否要增大scalerscaler.update()# 正常更新权重optimizer.zero_grad()

需要注意：

scaler的大小在每次迭代中动态的估计，为了尽可能的减少梯度underflow，scaler应该更大；但是如果太大的话，半精度浮点型的tensor又容易overflow（变成inf或者NaN）。所以动态估计的原理就是在不出现inf或者NaN梯度值的情况下尽可能的增大scaler的值——在每次scaler.step(optimizer)中，都会检查是否又inf或NaN的梯度出现：

如果出现了inf或者NaN，scaler.step(optimizer)会忽略此次的权重更新（optimizer.step() )，并且将scaler的大小缩小（乘上backoff_factor）；
如果没有出现inf或者NaN，那么权重正常更新，并且当连续多次（growth_interval指定）没有出现inf或者NaN，则scaler.update()会将scaler的大小增加（乘上growth_factor）。

4. 自动混合精度实现代码

YOLOv3-SPP中的代码：

scaler = torch.cuda.amp.GradScaler() if opt.amp else Nonedef train_one_epoch(model, optimizer, data_loader, device, epoch,print_freq, accumulate, img_size,grid_min, grid_max, gs,multi_scale=False, warmup=False, scaler=None):...# 使用自动混合精度with amp.autocast(enabled=scaler is not None):pred = model(imgs)# loss计算loss_dict = compute_loss(pred, targets, model)losses = sum(loss for loss in loss_dict.values())# backward# 通过放大loss的值来防止梯度的underflow，只在BP时传递梯度信息使用if scaler is not None:scaler.scale(losses).backward()     # 先将梯度放大 防止梯度消失else:losses.backward()# optimize# 每训练64张图片更新一次权重if ni % accumulate == 0:if scaler is not None:scaler.step(optimizer)  # 把梯度的值unscale回来scaler.update()else:optimizer.step()      # 正常更新权重optimizer.zero_grad()...

主要原理：

Loss Scale 主要是为了解决 fp16 underflow 的问题。刚才提到，训练到了后期，梯度（特别是激活函数平滑段的梯度）会特别小，fp16 表示容易产生 underflow 现象。

反向传播前，将损失变化手动增大2^k倍，因此反向传播时得到的中间变量（激活函数梯度）则不会溢出；
反向传播后，将权重梯度缩小2^k倍，恢复正常值

多GPU训练：

单卡训练的话上面的代码已经够了。要是想多卡跑的话仅仅这样还不够，会发现在forward里面的每个结果都还是float32的。

解决办法：只要把model中的forward里面的代码用autocast代码块方式运行就好了

class Model(nn.Module):def __init__(self):super(Model, self).__init__()def forward(self, input):with autocast():.....return

参考资料：

1. torch.cuda.amp自动混合精度训练 —— 节省显存并加快推理速度
2. 混合精度训练amp，torch.cuda.amp.autocast()

目标检测的Tricks | 【Trick2】自动混合精度（Automatic mixed precision）相关推荐

Pytorch 混合精度训练（Automatic Mixed Precision）原理解析
Pytorch 混合精度训练(Automatic Mixed Precision)原理解析 1. Overview 默认情况下,大多数深度学习框架(比如 pytorch)都采用 32 位浮点算法进行训 ...
『论文阅读笔记』目标检测模型中的性能评价方式-IOU、precision/recall、mAP、PR、Fps！
目标检测模型中的性能评估标准-IOU.precision/recall.mAP.PR.Fps! 文章目录一.交并比IOU 二.精确率(precision)和召回率(recall) 三.P-R(pre ...
混合精度训练-Automatic Mixed Precision
目录双/单/半精度浮点数比较FP32&FP16 Automatic Mixed Precision(AMP) AMP如何减少精度损失呢? 为每个权重保存一份FP32的副本 Loss Sca ...
深度学习目标检测中计算目标的AP（average precision）平均精度、有什么用？
AP衡量的是学出来的模型在每个类别上的好坏,mAP衡量的是学出的模型在所有类别上的好坏,得到AP后mAP的计算就变得很简单了,就是取所有AP的平均值. 参考文章:深度学习-目标检测评估指标P-R曲线. ...
目标检测的Tricks | 【Trick9】nms非极大值抑制处理（包括变体merge-nms、and-nms、soft-nms、diou-nms等介绍）
如有错误,恳请指出. 用这篇博客记录一下nms,也就是非极大值抑制处理,算是目标检测后处理的一个难点. 在训练阶段是不需要nms处理的,只有在验证或者是测试阶段才需要将预测结果进行非极大值抑制处理,来 ...
AI大视觉（二十） | 小目标检测的tricks汇总
本文来自公众号"AI大道理". 这里既有AI,又有生活大道理,无数渺小的思考填满了一生. 在计算机视觉中,检测小目标是最有挑战的问题之一. 本文汇总了一些有效的策略. 为何小目标 ...
目标检测的Tricks | 【Trick8】数据增强——随机旋转、平移、缩放、错切、hsv增强
如有错误,恳请指出. 在之前使用opencv就介绍使用过一些常用的数据增强的实现方法,见:<数据增强 | 旋转.平移.缩放.错切.HSV增强>,当时介绍了旋转.平移.缩放.错切.HSV增强 ...
目标检测计算mAP，AP，Recall，Precision的计算方式和代码(YOLO和FastRCNN等)
目标检测中计算mAP是较为复杂的,并不是很多讲解中说的那个计算precision和recall,然后总的ground truth 目标和检测出的真实目标做除法就可以了.而是需要构建precision和 ...
目标检测的Tricks | 【Trick13】使用kmeans与遗传算法聚类anchor
如有错误,恳请指出. 这篇博客的代码来着博主:太阳花的小绿豆,具体的解释说明可以见参考资料,这里只贴上代码留作笔记使用. ps:参考资料解释得非常的详细文章目录 1. kmeans聚类中心 2. k ...

目标检测的Tricks | 【Trick2】自动混合精度（Automatic mixed precision）

文章目录

1. 自动混合精度理论概要

2. Autocast使用介绍

3. GradScaler使用介绍

4. 自动混合精度实现代码

目标检测的Tricks | 【Trick2】自动混合精度（Automatic mixed precision）相关推荐

最新文章

热门文章