P4:神经网络与反向传播

子豪兄YYDS
https://www.bilibili.com/video/BV1K7411W7So?p=4

一、激活函数

在没有激活函数的情况下，所有的分类器只能是线性的，也就是在分类空间中找一条直线进行分类，但是并不是所有问题都是线性可分问题，遇上非线性的问题，就需要引入激活函数，让分类器能够完成非线性的分类问题。

激活函数有很多种，根据其特点，应用也存在差异。
①sigmoid函数
使用sigmoid函数作为激活函数，输入的值是输入加权求和后加偏置项，很大则输出1小则输出0，其余情况下在中间波动。利用这个函数还可以将任何数据压缩到0-1的范围内。

②tanh函数
tanh为双曲正切函数，其英文读作Hyperbolic Tangent。tanh和 sigmoid 相似，都属于饱和激活函数，区别在于输出值范围由 (0,1) 变为了 (-1,1)，可以把 tanh 函数看做是 sigmoid 向下平移和拉伸后的结果。

Sigmoid和tanh都存在饱和问题，即输入大到一定程度或者小到一定程度的时候就会趋向于一个固定值。对于sigmoid函数，当输入趋向于很大的正值时，它们饱和到一个高值，输入趋向于一个很小的负值时，它们饱和到一个低值，仅当输入接近0时才会对输入敏感。这种饱和性会让基于梯度的学习变得十分困难。当必须要使用sigmoid激活函数的时候，双曲正切函数的效果会比sigmoid函数更好。

③ReLU函数
ReLU函数是激活函数的一种，花书里面翻译为了整流线性单元，选择0和输入值里面更大的那个输出出来，也叫做修正线性激活函数。对于ReLU函数，在x>0的情况下导数常为1，这样在链式求导中就不会出现梯度消失的问题。
在x<0的情况下，输出值为0，就是一个去噪音的过程。但是ReLU 强制将x<0部分的输出置为0（置为0就是屏蔽该特征），可能会导致模型无法学习到有效特征，所以如果学习率设置的太大，就可能会导致网络的大部分神经元处于dead状态，所以使用ReLU的网络，学习率不能设置太大。
但是函数在0处由于左右导数不相等，所以在这一点不可微，这使得这个激活函数对基于梯度的学习算法不生效，也就是说不能通过基于梯度的方法学习那些使它们激活为零的样本。

RELU在小于0的情况下梯度为0，为了让小于0的时候也有梯度，所以引入了后面的修正的ReLU，比如下图中的Leaky ReLU激活函数，通过给激活函数在负数的部分一个很小的负数梯度值来修正ReLU。

图中的Maxout激活函数是对ReLU的进一步扩展，这个激活函数将输入分组，取最大的输入作为输出，这个激活函数可以学习具有多段的分段线性的激活函数，段数足够多就以任意的精确度来近似任何激活函数。使用这个激活函数需要一些冗余的参数去帮助激活函数防止灾难遗忘，这个灾难遗忘指的是神经网络忘记了如何执行它们过去的任务。

二、神经网络结构

引入激活函数之后，网络的结构变得嵌套了起来，线性分类器只能是一个权重矩阵乘以向量x得到一个输出向量，而引入了隐含层之后，上一层的输出变成了下一层的输入，相当于在上一层的向量上经过激活函数再次与第二层的权值相乘，这样可以一直向下延续下去，从而将实现非线性分类问题的处理，也可以看成第一层把数据变成了线性可分的，而第二层就是一个线性分类器，或者说第一层的线性分类器通过非线性的激活函数处理变成了非线性的分类器。

如果不采用激活函数，那么不管加多少层，都是线性的组合，可以用同一层一样，所以一定需要激活函数来做这个非线性的处理。

层数的增加，就可以挖掘出更多隐含的信息，各种非线性的信息才会被发掘出来。

第一层也就是输入层有3072个数，第二层有100个神经元，每个神经元都和第一层的3072个数据全连接，经过加权求和后变成一个数，经过激活函数后第二层的100个输出作为第三层的输入，加权求和后作为第三层十个神经元的输入送入激活函数，最后得到十个结果。

三、反向传播

引入多层的神经元之后，对每个变量的求导就需要借助链式求导法则，一点点向前面根据运算关系倒着求回去。本质还是梯度下降法，但是随着神经网络层数的增加，变量的数目也变多，而且存在许多的嵌套，所以就用链式求导法则去一个个求更新的梯度。

这里我手写了一个简单的网络结构和更新的过程：

对于这个网络，输入输出展开写可以得到：

相当于输出是一个有十二个自变量的函数，对每个变量求偏导，就变成了利用层与层之间的关系进行链式求导的过程：

本质上仍然是上一节线性分类器的内容，但是由于网络层数的加深，变量关系更加复杂，所以求偏导变得麻烦一些。

根据输入与输出的类型，可以将神经网络分为三类：输入标量输出标量、输入向量输出标量、输入向量输出向量。
输入标量输出也是标量，相当于一个一元函数，给一个自变量输出一个因变量，此时梯度结果就是一个实数，可以直接求导。输入向量输出标量，相当于图像的二分类，这时候求梯度就是对每个权重求偏导数。输入输出都是向量，比如说图像的多分类，这时候求梯度就需要求输出的类别对每个权重的偏导数，这个时候就引入了雅可比矩阵，用于记录输出的每个类对每个输入的偏导数。

关于雅可比矩阵，这里补充一下。雅可比矩阵是导数构成的矩阵，而导数是线性空间之间的线性变换，所以扩展到矩阵上来，雅可比矩阵描述的就是一个微分到另一个微分的映射关系。

从这个角度看，雅可比矩阵描述了一个坐标下的微小变化在另一个坐标系中会变成什么样子。

雅可比矩阵本身可以看作是导数到高维空间的一个推广，对于一般二维空间的导数，一种解释是方便进行一个近似操作，在自变量足够小的时候，可以用切线的变化量来代替真实函数的变化量，这也称为可微。推广到高维环境下，函数变为自变量和因变量都是向量的函数，这种情况下依然使用前面的思路，根据导数的概念仿照着写出这种情况的导数：

整理之后可以看出，矩阵A实际上就对应着二维情况下的导数，只不过这个时候A是个矩阵，我们可以叫他导矩阵。实际上这个矩阵内部确实是导数组成的。

这个矩阵就称为雅可比矩阵或者导数矩阵，利用这个矩阵，就可以写出下面的式子：

这个式子指出仿射变换的改变量是自变量的改变量的线性函数，直白的说，当我们将非线性函数给予线性转换时，Jacobian矩阵就是描述该线性关系的矩阵。

从雅可比矩阵的形式也可以看出，雅可比矩阵内部是由偏导数组成的，其中y相当于最终分类结果的各个参量，而x表示网络中的各个参数，利用雅可比矩阵的形式，可以方便地计算输入输出都是向量的网络。比如在多分类问题中，最终的分类结果是一个多维的向量，而向量中的每个参量都需要参与前面参数的调优，这就需要大量的偏导数运算，采用矩阵形式可以计算更加简单，所以使用雅可比矩阵来简化流程。

在实际应用中，如果损失函数是一个向量函数，那么其输入输出就都是向量，在反向传播求偏导的时候，就会出现多个变量求导的情况，一般函数都是利用线性求导法则求导然后相乘，在向量函数的情况下就变成了很多个雅可比矩阵的相乘。所以说是一种链式法则的延伸。

四、一个简单的神经网络代码

import numpy as np
from numpy.random import randn
# 导入numpy模块N, D_in, H, D_out = 64, 1000, 100, 10
# 初始化网络的参数 四个参数分别为：数据集的个数、输入层的神经元个数、隐含层的神经元个数、输出层的神经元个数（种类数目）
x, y = randn(N, D_in), randn(N, D_out)
# 初始化数据集
w1, w2 = randn(D_in, H), randn(H, D_out)
# 随机初始化权重for t in range(2000):# 迭代2000次 反向传播h = 1/(1+np.exp(-x.dot(w1)))# 隐含层的输出y_pred = h.dot(w2)# 输出层的输出loss = np.square(y_pred - y).sum()# 计算损失函数print(t, loss)grad_y_pred = 2.0 * (y_pred - y)# 计算输出层的偏导数grad_w2 = h.T.dot(grad_y_pred)# 计算隐含层的偏导数grad_h = grad_y_pred.dot(w2.T)grad_w1 = x.T.dot(grad_h * h *(1 - h))w1 -= 1e-4 * grad_w1w2 -= 1e-4 * grad_w2