CS231n学习记录Lec8 Training训练神经网络（下）

Lec8 训练神经网络（下）

主要内容：更好的优化，优化方法介绍
1. Fancier Optimization

problems with SGD
陷入局部最小（local minima）和鞍点（saddle points）。
随机性，容易受噪声影响
SGD + Momentum（动量）

保持一个不随时间变化（？）的速度，把梯度估计添加到速度上，在速度方向上前进而不是在梯度方向上前进。同时利用摩擦系数ρ来控制速度。实际上，速度的初始值通常可以设置为0，并不算一个超参数。
在凸优化问题上这个方法表现得较好。
能够跳过某些非常尖锐的极值点可以说是S+M的一个特性。当S+M还是掉入尖锐极值点的时候就说明可能已经开始过拟合了。
S+G避免了单纯SGD的局部最小（local minima）和鞍点（saddle points）：
Nesterov Momentum（动量）
AdaGrad和RMSProp

不是很懂（***）

更倾向于不太使用AdaGrad

Adam（RMSProp和M的结合）

1e-7只是为了保证分母不是一个零的数，影响不大。
Adam几乎是一个非常好的优化算法，对于不同的问题都能有非常不错的效果，推荐首选。（初始参数可以从蓝色区域中开始）
学习率衰减
有时候学习率不一定要设置成一个固定的值，可能一开始较大，然后逐渐衰减。当在靠近一个较好的结果的时候衰减学习率，使之更靠近最优情况。但是学习率衰减是一个二阶超参数，不应当一开始就是实用，所以好的办法使一开始不衰减看看损失函数曲线，然后决定在那个地方衰减。
集成学习
训练多组网络，然后取平均或者其他操作将结果综合起来。更够稍微缓解过拟合，提高一点结果准确性。
但是并不能提高单一网络的准确性。

2. Regularization

为了抑制过拟合。

正则化的一些常用手段：

添加一些和www相关的term在损失项上去。
dropout。正在传播的时候随机将一些神经元的激活函数值置零。一般是在全连接层置零。让神经网络依赖一些更零散的特征来判断，而不是将那些特征集中起来来判断，算是某种程度上抑制了过拟合。置零引入的随机，可能会在测试的时候带来一点随机性，通过一个期望值来进行类似于“局部逼近”的操作。但是测试时，通过dropout的期望乘以预测值来进行缩放。（不太准确）
通常dropout是一种较好的方式。训练时引入dropout可能会使训练时间增加，但是一旦收敛后模型的鲁棒性更好。
思想是在训练的时候引入一些随机性，来扰乱他完美的拟合数据，然后在测试的时候想法抵消这些随机性，从而达到最大的准确性。
invert dropout。
batch normalization
某种程度上也是一种随机性。
data augmentation数据增强
训练集的图像随机转换（翻折等、色彩扰动改变对比度亮度等）进行训练。
dropConnect
丢掉一些参数w" role="presentation" style="position: relative;">www
Fractional Max Pooling
（不是很懂）
stochastic depth随机深度
比较前沿，大概是训练的时候不用一些层，训练的时候用全部层。
有时候使用BN就够了，但是当网络特别深的时候可能不太够，这时候就可以增加一些dropout或者其他东西来帮忙阻止过拟合。一开始不要盲目地使用这些方法，而是在发生过拟合的时候有的放矢的采用。

3. Transfer learning
迁移学习

强大的网络在你只用小样本集的时候容易过拟合，这时候正则化是一种方法，另一种方法是迁移学习。迁移学习能够让你不需要超大的样本集。
找一个强大的卷积网络，从最后一层的特征到最后的分类输出之间的全连接层，你需要重新初始化这部分参数矩阵。保持前面的参数冻结，只训练这个线性层，让它在你的数据上收敛。当你在处理一个很小的数据集的时候，这会很有作用。
但当你的数据集稍微大一点的时候，则微调更新更多的参数，现将学习率调小，因为之前的网络泛华能力已经较好了，只需要微调来适应你的数据集。
迁移学习非常普遍。大多数人都不会从头开始。都可以从ImageNet开始。

CS231n学习记录Lec8 Training训练神经网络（下）相关推荐

MATLAB与深度学习（二）— 训练神经网络（图像分类识别）
MATLAB与深度学习(二)- 训练神经网络(图像分类识别) 上一篇,我们介绍了与深度学习相关的MATLAB工具包.这一篇,我们将介绍如何训练神经网络和相关的基础知识.本文借鉴和引用了网上许多前辈的经 ...
Keras深度学习使用VGG16预训练神经网络实现猫狗分类
Keras深度学习使用VGG16预训练神经网络实现猫狗分类最近刚刚接触深度学习不久,而Keras呢,是在众多的深度学习框架中,最适合上手的,而猫狗的图像分类呢,也算是计算机视觉中的一个经典案例,下面 ...
CS231n 学习笔记（3）——神经网络 part3 ：最优化
stanford的course note 近日在维护中,所以换了http://cs231n.stanford.edu/slides/网页的lecture4作为最优化部分的学习资料. 训练神经网络的三要 ...
CS231n 学习笔记（1）——神经网络 part1 ：图像分类与数据驱动方法
*此系列为斯坦福李飞飞团队的系列公开课"cs231n convolutional neural network for visual recognition "的学习笔记.本文主要 ...
cs231n学习记录-理解线性分类器
目录前言: 内容简介: 一.NN分类器的缺点二.什么是线性分类器三.线性分类器的原理四.从图像到标签分值的参数化映射五:解释这个"b" 六.将线性分类器看做模板匹配七. ...
图神经网络学习记录：《图神经网络综述：模型与应用》
Graph Neural Networks: A Review of Methods and Applications 摘要:大 ...
CS231n 学习笔记（2）——神经网络 part2 ：线性分类器，SVM
*此系列为斯坦福李飞飞团队的系列公开课"cs231n convolutional neural network for visual recognition "的学习笔记.本文主要 ...
CS231n 学习笔记（2）——神经网络 part2 ：Softmax classifier
*此系列为斯坦福李飞飞团队的系列公开课"cs231n convolutional neural network for visual recognition "的学习笔记.本文主要 ...
cs231n 学习笔记（5）——神经网络part1：建立神经网络架构
引言: 学习神经网络并不是一定要了解人脑神经结构.如前所属,线性分类器可以用公式s=Wx来表示,其中X表示一张图片,是一个[3072*1]的列向量,包含了一副图像里的所有像素点.W是[10*3072] ...

CS231n学习记录Lec8 Training训练神经网络（下）

Lec8 训练神经网络（下）

CS231n学习记录Lec8 Training训练神经网络（下）相关推荐

最新文章

热门文章