数学原理解释resnet缓解梯度弥散问题

前言
- 产生梯度弥散的原因
- 残差结构
- 激活函数缓解梯度弥散
- 总结

前言

本文是一位职场小白在百度实习面试被虐，发现基本的大公司都会问到网络的数学原理解释，之后学习很多的博客。对残差网络的一些深入理解，开始写人生的第一篇博客，如有差错，还请各位大佬多多指正，多多交流

产生梯度弥散的原因

深度学习的本质是找到一个复杂的函数来拟合输入数据和输出数据之前的转换关系。简单的说：y = f(x)，这里的x和y可能是向量，也可能是矩阵。复杂的网络就是函数f。

在深度学习中常见预处理：去均值，归一化。这样做的原因是能够使输入的数据之间方差更小，通俗的将就是每一次输入的数据都比较一致，模型就能够更快的收敛。也就是更快的学习到x——》y之间的转换关系f。达到类似效果的有初始化(xavier,何凯明)，batch_normalization。

讲了以上怎么多关键引出的就是神经网络中流动的数据大多是均值为0，方差为1的数据分布。而神经网路的学习过程就是进行链式求导，这个不熟悉的话，想必大家都知道高中学习的符合函数求导吧。原理是一样的，这样多个0-1之间的数字相乘就会越乘越小，导致梯度->0

残差结构

在上面的段落我们讲过，梯度弥散本质的原因是多个0-1之间小数相乘的结果。很简单的思维就是我们其中的一些数字变大，从0.1增大到0.9，类似于这种的操作。不就可以缓解了吗？

是的，残差网络就是怎么简单的原因，下面通过一个例子来更清晰的了解：

此时我们对权重w2进行求导梯度值为 y1+x，相比不加残差结构在梯度值上多加了一个x，达到了0.1到0.9的变化，因此在一定程度上缓解了梯度弥散的问题

至于为什么不直接从0.1增大到9，个人觉得是数据的分布更离散，模型学习的会更困难，收敛速度更慢。

激活函数缓解梯度弥散

在神经网络初期的时候使用的激活函数都是sigmoid激活，而sigmoid的梯度值在[4,+∞]，[-∞,-4这两个区间趋近与0。所以后期有更换relu激活函数来缓解这个问题，我觉得目前用这个来回答不是很合理，上文也提起过，后来提出的BN，xavier初始化等方法都会将输出的数据分布调整为正太分布，而sigmoid 在0之间的梯度值接近线性函数的梯度值

总结

所以综上所述，对于梯度弥散的问题，残差结构是最直接的解决办法，而激活函数要针对于具体的数据分布