神经网络训练细节part1上

训练过程
激活函数
数据预处理

训练过程

取一个batch数据
将数据延着网络前向传播，计算每个单元的输出和损失
将梯度依据链式法则延网络反向传播
根据梯度更新参数

激活函数

Sigmoid
tanh
ReLU
Leaky ReLU
PReLU
Maxout
ELU

Sigmoid

$\sigma (x)=\frac{1}{1+e^{-x}}$

（挤压函数）函数图像：

特点：输出在[0,1]之间

问题：

（1）神经元饱和导致梯度消失。在输入值很大或很小的时候输出要么接近0要么接近1，在反向传播过程中梯度会是0，梯度消失。当神经网络较大时，而且很多神经元处于饱和状态，就导致网络无法进行反向传播。

（2）函数输出不是关于原点中心对称的。即激活函数为f，函数输入为 $(\underset{i}{\sum }w_ix_i)+b$ ，当输入全为正值时，权值的梯度为 $\frac{\partial f}{\partial (\underset{i}{\sum }(w_ix_i)+b)}\frac{\partial (\underset{i}{\sum }(w_ix_i)+b)}{\partial w}=\frac{\partial f}{\partial (\underset{i}{\sum }(w_ix_i)+b)}x$ ，所以当x为正时，权值的梯度的符号只取决于 $\frac{\partial f}{\partial (\underset{i}{\sum }(w_ix_i)+b)}$ 所以w的权值都同号，要么全为负值要么全为正值。如果输入全为负值也是类似的道理。所以梯度更新在下图绿色部分，但是如果数据不是全为正值或负值时，权值更新就是红色路径，收敛缓慢。输入数据不是中心对称的时候，收敛速度慢。希望输入数据是关于原点中心对称的，输出也是关于原点中心对称的。

（3）指数计算比较耗时。

tanh

$tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}$

函数图像：

特点：（1）输出函数范围[-1,1]。（2）关于原点中心对称的。

问题：在输入数据很大或很小的时候仍然会发生神经元饱和梯度消失的情况。

ReLU

也称为修正线性函数

$f(x)=max(0,x)$

函数图像：

特点：（1）在输入数据为正时不会发现神经元饱和梯度消失的情况。（2）计算效率高。（3）收敛速度比tanh和sigmoid快。

问题：（1）也不是关于原点中心对称的。（2）在输入时负值时仍然会出现神经元饱和梯度消失的情况。

注：（1）当x=0时， $f(x)=max(0,x)=0$ ，此时梯度是未定义的，如果真出现这种情况梯度是1或者0都可以，对网络影响不大。（2）死Relu：从不会被激活。如果可以激活神经元的数据不在数据集内，那这个神经元将永远不会被激活，就成了死神经元。出现死ReLU的情况有两种，第一种就是初始化时权重被设置成了无法激活神经元的值。第二种就是学习率过大，神经元的输出限制在一个范围内波动，可能发生数据多样性缺失。通常会选择初始化神经元的权值为较小数，使网络更有可能输出正值，更可能被激活。

Leaky ReLU

$f(x)=max(0.01x,x)$

函数图像：

特点：（1）不会出现饱和梯度消失的现象。（2）计算效率高。（3）收敛速度比sigmoid、tanh快。（4）不会出现死神经元的情况。

PReLU

$f(x)=max(\alpha x,x)$ ，其中参数 $\alpha$ 是从网络中学习出来的，每二个神经元都有一个自己的 $\alpha$ 。

Maxout

$f(x)=max(w_1^Tx+b_1,w_2^Tx+b_2)$

特点：（1）是分段线性函数。（2）不会出现饱和梯度消失现象。（3）不会出现死神经元。（4）是ReLU和Leaky ReLU的一般化。

问题：参数数目翻倍。

ELU

指数线性函数

$f(x)=\left\{\begin{matrix} x & x>0\\ \alpha (e^x-1) &x\leq 0 \end{matrix}\right.$

特点：1）在输入数据为正时不会发现神经元饱和梯度消失的情况。（2）计算效率高。（3）收敛速度比tanh和sigmoid快。（4）不会出现死神经元。（5）接近于0均值输入。

问题：计算比较耗时。

数据预处理

常用的两种：（1）减去图像均值（2）减去通道均值：在红绿蓝三个通道中单独计算均值，三个通道分别减去其对应的均值。

CS231n李飞飞计算机视觉神经网络训练细节part1上相关推荐

[深度学习基础] 斯坦福CS231n李飞飞计算机视觉Lecture 7笔记
内容列表 Lecture 7 Convolutional Neural Networks 卷积神经网络历史卷积神经网络具体结构卷积层池化层全连接层神经网络架构发展 LeNet AlexNet ...
[深度学习基础] 斯坦福CS231n李飞飞计算机视觉Lecture 5笔记
内容列表 Lecture 5 Training Neural Networks,Part I 神经网络的历史训练神经网络激活函数数据预处理权重初始化批量归一化检查学习过程超参数优化小结 ...
[深度学习基础] 斯坦福CS231n李飞飞计算机视觉Lecture 1笔记
前言:目前做深度学习也有一段时间了,系统的知识也学了很多,但是大多数都是自己在网上所获得的零散的知识,最近看了李飞飞的斯坦福网上公开课,觉得可以好好的巩固一下基础,对每个Lecture做一下笔记,De ...
斯坦福CS231n李飞飞计算机视觉之线性分类上
线性分类器简介线性评分函数阐明线性分类器译者注:上篇翻译截止处损失函数多类SVM Softmax分类器 SVM和Softmax的比较基于Web的可交互线性分类器原型小结线性分类上一篇 ...
CS231N斯坦福李飞飞-计算机视觉-损失函数和优化
CS231N斯坦福李飞飞-计算机视觉-损失函数和优化
李飞飞计算机视觉课CS231n第一天
李飞飞计算机视觉课CS231n第一天数据集 Pascal Visual Object Challenge: 20 catagories ImageNet: 22000 catagories and ...
李飞飞计算机视觉-自用笔记（第八周）
李飞飞计算机视觉-自用笔记(八) 15 深度学习高效方法与硬件 15 深度学习高效方法与硬件庞大模型的三大挑战: 大小.速度.能源效率解决方法: 1.算法优化: 剪枝(pruning):并非神经网 ...
李飞飞计算机视觉-自用笔记（第一周）
李飞飞计算机视觉-自用笔记(一) 1 课程介绍-计算机视觉概述 1.1 课程介绍-历史背景 2 图像分类 2.1 数据-驱动方法(机器学习) 2.2 K最近邻算法 2.3 线性分类I 3 损失函数和优 ...
李飞飞计算机视觉笔记（２）--线性分类器损失函数与最优化
文章中的词语解释: 分类器:完整的神经网络类别分类器:分类器中的某一个输出对应的所有权值(单层全连接神经网络) 损失函数:不包括正则式的损失函数正则化损失函数:包括正则式的损失函数多类SVM损失 ...
李飞飞计算机视觉总结
李飞飞计算机视觉总结待续- https://www.bilibili.com/video/BV1we4y137Wy/?spm_id_from=333.999.0.0&vd_source=0d ...

CS231n李飞飞计算机视觉神经网络训练细节part1上

神经网络训练细节part1上

训练过程

激活函数

Sigmoid

tanh

ReLU

Leaky ReLU

PReLU

Maxout

ELU

数据预处理

CS231n李飞飞计算机视觉神经网络训练细节part1上相关推荐

最新文章

热门文章

CS231n李飞飞计算机视觉 神经网络训练细节part1上

神经网络训练细节part1上

训练过程

激活函数

Sigmoid

tanh

ReLU

Leaky ReLU

PReLU

Maxout

ELU

数据预处理

CS231n李飞飞计算机视觉 神经网络训练细节part1上相关推荐

最新文章

热门文章

CS231n李飞飞计算机视觉神经网络训练细节part1上

CS231n李飞飞计算机视觉神经网络训练细节part1上相关推荐