Pytorch的坑之训练结果不太稳定，无法复现训练结果？

引言

我们神经网络跑模型时会发现相同的超参每次的结果都会不同，因为神经网络算法利用了随机性，比如初始化随机权重，因此用同样的数据训练同一个网络会得到不同的结果。初学者可能会有些懵圈，因为算法表现得不太稳定。但实际上它们就是这么设计的。随机初始化可以让网络通过学习，得到一个所学函数的很好的近似。
然而有的时候结果会相差过多，很难复现。所以我们需要保证prtorch的可重复性。

现象

对于同一个模型和同一批训练集以及测试集，我们都赋予同样的超参数，然而对于不同的进程接过去截然不同，下面贴几个结果图：
尽管两个进程都将训练集的Loss训到了0.0，但是在测试集的准确率却有差别。

分析及原因

其实本质上是因为我们神经网络中有很多随机性操作，例如BN、dropout以及在我们选取训练数据时的shuffer和随即裁剪等等。
此外GPU和CPU运算结果有时也不一致。

解决方法

我们对于上述随机的控制可以加入随机种子，具体的随机种子加入可以分为三个部分：

Pthon/Numpy 随机种子

import random
import numpy as np
random.seed(seed)
np.random.seed(seed)

Pytorch种子

torch.manual_seed(seed)            # 为CPU设置随机种子
torch.cuda.manual_seed(seed)       # 为当前GPU设置随机种子
torch.cuda.manual_seed_all(seed)   # 为所有GPU设置随机种子`

CUDNN种子（控制GPU）

from torch.backends import cudnn
cudnn.benchmark = False
cudnn.deterministic = True`

自己的实践

对于Section2的实验结果，自己也是设置了种子，设置如下：

// An highlighted blocknp.random.seed(args.seed)torch.manual_seed(args.seed)torch.cuda.manual_seed(args.seed)torch.cuda.manual_seed_all(args.seed)cudnn.benchmark = Truetorch.backends.cudnn.deterministic = True

然而结果也不如人意，想了想进行了以下更改：
增加了对python的随机种子，因为可能读取数据中用了随机化。
另外将benchmark 设为 False，牺牲速度，换取精度，更改如下：

  np.random.seed(args.seed)torch.manual_seed(args.seed)torch.cuda.manual_seed(args.seed)torch.cuda.manual_seed_all(args.seed)random.seed(args.seed)              ##cudnn.benchmark = False             ##torch.backends.cudnn.deterministic = True

目前还不知道训练是否稳定，期待后续。

拓展

其实还有一些小因素影响到了我们模型的重现能力。一个是如果dataloader采用了多线程(num_workers > 1), 那么由于读取数据的顺序不同，最终运行结果也会有差异；另一个可能是数据的shuffer。
另外我们说一些cudnn.benchmark，设置 torch.backends.cudnn.benchmark=True 将会让程序在开始时花费一点额外时间，为整个网络的每个卷积层搜索最适合它的卷积实现算法，进而实现网络的加速。适用场景是网络结构固定（不是动态变化的），网络的输入形状（包括 batch size，图片大小，输入的通道）是不变的，其实也就是一般情况下都比较适用。反之，如果卷积层的设置一直变化，将会导致程序不停地做优化，反而会耗费更多的时间，然而可能会选择训练不稳定，所以我们将torch.backends.cudnn.benchmark=False。