Lec8 训练神经网络(下)


主要内容:更好的优化,优化方法介绍
1. Fancier Optimization

  • problems with SGD
    陷入局部最小(local minima)和鞍点(saddle points)。
    随机性,容易受噪声影响
  • SGD + Momentum(动量)

    保持一个不随时间变化(?)的速度,把梯度估计添加到速度上,在速度方向上前 进而不是在梯度方向上前进。同时利用摩擦系数ρ来控制速度。实际上,速度的初始值通常可以设置为0,并不算一个超参数。
    在凸优化问题上这个方法表现得较好。
    能够跳过某些非常尖锐的极值点可以说是S+M的一个特性。当S+M还是掉入尖锐极值点的时候就说明可能已经开始过拟合了。
    S+G避免了单纯SGD的局部最小(local minima)和鞍点(saddle points):

  • Nesterov Momentum(动量)

  • AdaGrad和RMSProp

不是很懂(***

更倾向于不太使用AdaGrad

  • Adam(RMSProp和M的结合)

    1e-7只是为了保证分母不是一个零的数,影响不大。
    Adam几乎是一个非常好的优化算法,对于不同的问题都能有非常不错的效果,推荐首选。(初始参数可以从蓝色区域中开始)

  • 学习率衰减
    有时候学习率不一定要设置成一个固定的值,可能一开始较大,然后逐渐衰减。当在靠近一个较好的结果的时候衰减学习率,使之更靠近最优情况。但是学习率衰减是一个二阶超参数,不应当一开始就是实用,所以好的办法使一开始不衰减看看损失函数曲线,然后决定在那个地方衰减。

  • 集成学习
    训练多组网络,然后取平均或者其他操作将结果综合起来。更够稍微缓解过拟合,提高一点结果准确性。
    但是并不能提高单一网络的准确性。

2. Regularization

为了抑制过拟合。

正则化的一些常用手段:

  • 添加一些和www相关的term在损失项上去。
  • dropout。正在传播的时候随机将一些神经元的激活函数值置零。一般是在全连接层置零。让神经网络依赖一些更零散的特征来判断,而不是将那些特征集中起来来判断,算是某种程度上抑制了过拟合。置零引入的随机,可能会在测试的时候带来一点随机性,通过一个期望值来进行类似于“局部逼近”的操作。但是测试时,通过dropout的期望乘以预测值来进行缩放。(不太准确)
    通常dropout是一种较好的方式。训练时引入dropout可能会使训练时间增加,但是一旦收敛后模型的鲁棒性更好。
    思想是在训练的时候引入一些随机性,来扰乱他完美的拟合数据,然后在测试的时候想法抵消这些随机性,从而达到最大的准确性。

  • invert dropout。

  • batch normalization
    某种程度上也是一种随机性。
  • data augmentation数据增强
    训练集的图像随机转换(翻折等、色彩扰动改变对比度亮度等)进行训练。
  • dropConnect
    丢掉一些参数w" role="presentation" style="position: relative;">www
  • Fractional Max Pooling
    (不是很懂)
  • stochastic depth随机深度
    比较前沿,大概是训练的时候不用一些层,训练的时候用全部层。
  • 有时候使用BN就够了,但是当网络特别深的时候可能不太够,这时候就可以增加一些dropout或者其他东西来帮忙阻止过拟合。一开始不要盲目地使用这些方法,而是在发生过拟合的时候有的放矢的采用。

3. Transfer learning
迁移学习

  • 强大的网络在你只用小样本集的时候容易过拟合,这时候正则化是一种方法,另一种方法是迁移学习。迁移学习能够让你不需要超大的样本集。
  • 找一个强大的卷积网络,从最后一层的特征到最后的分类输出之间的全连接层,你需要重新初始化这部分参数矩阵。保持前面的参数冻结,只训练这个线性层,让它在你的数据上收敛。当你在处理一个很小的数据集的时候,这会很有作用。
    但当你的数据集稍微大一点的时候,则微调更新更多的参数,现将学习率调小,因为之前的网络泛华能力已经较好了,只需要微调来适应你的数据集。
  • 迁移学习非常普遍。大多数人都不会从头开始。都可以从ImageNet开始。

CS231n学习记录Lec8 Training训练神经网络(下)相关推荐

  1. MATLAB与深度学习(二)— 训练神经网络(图像分类识别)

    MATLAB与深度学习(二)- 训练神经网络(图像分类识别) 上一篇,我们介绍了与深度学习相关的MATLAB工具包.这一篇,我们将介绍如何训练神经网络和相关的基础知识.本文借鉴和引用了网上许多前辈的经 ...

  2. Keras深度学习使用VGG16预训练神经网络实现猫狗分类

    Keras深度学习使用VGG16预训练神经网络实现猫狗分类 最近刚刚接触深度学习不久,而Keras呢,是在众多的深度学习框架中,最适合上手的,而猫狗的图像分类呢,也算是计算机视觉中的一个经典案例,下面 ...

  3. CS231n 学习笔记(3)——神经网络 part3 :最优化

    stanford的course note 近日在维护中,所以换了http://cs231n.stanford.edu/slides/网页的lecture4作为最优化部分的学习资料. 训练神经网络的三要 ...

  4. CS231n 学习笔记(1)——神经网络 part1 :图像分类与数据驱动方法

    *此系列为斯坦福李飞飞团队的系列公开课"cs231n convolutional neural network for visual recognition "的学习笔记.本文主要 ...

  5. cs231n学习记录-理解线性分类器

    目录 前言: 内容简介: 一.NN分类器的缺点 二.什么是线性分类器 三.线性分类器的原理 四.从图像到标签分值的参数化映射 五:解释这个"b" 六.将线性分类器看做模板匹配 七. ...

  6. 图神经网络学习记录:《图神经网络综述:模型与应用》

                                        Graph Neural Networks: A Review of Methods and Applications 摘要:大 ...

  7. CS231n 学习笔记(2)——神经网络 part2 :线性分类器,SVM

    *此系列为斯坦福李飞飞团队的系列公开课"cs231n convolutional neural network for visual recognition "的学习笔记.本文主要 ...

  8. CS231n 学习笔记(2)——神经网络 part2 :Softmax classifier

    *此系列为斯坦福李飞飞团队的系列公开课"cs231n convolutional neural network for visual recognition "的学习笔记.本文主要 ...

  9. cs231n 学习笔记(5)——神经网络part1:建立神经网络架构

    引言: 学习神经网络并不是一定要了解人脑神经结构.如前所属,线性分类器可以用公式s=Wx来表示,其中X表示一张图片,是一个[3072*1]的列向量,包含了一副图像里的所有像素点.W是[10*3072] ...

最新文章

  1. iOS 后台挂起的一些坑
  2. 装完sql后修改计算机名后不能进行发布的订阅的解决办法
  3. 16.PHP_Ajax模拟服务器登录验证
  4. 图论相关算法理解和总结
  5. 在BurpSuite中安装Jython环境
  6. 有趣的Ruby-学习笔记3
  7. 解决logstash启动过慢的问题
  8. android 控件xpath软件_请像用户使用软件一样,享受自动化测试~
  9. 通过docker安装nexus3
  10. 今天,我想和你聊聊读研这件事
  11. changeable和changeful_change的形容词是什么?
  12. 投资回报率模版_投资回报率已死!
  13. 深度强化学习训练调参方法
  14. 论文阅读——TR-GAN: Topology Ranking GAN with Triplet Loss for Retinal Artery/Vein Classification
  15. 【Excel】如何冻结任意行列
  16. ARX项目lib依赖默认使用情况分析
  17. css3特效框,科技常识:6种非常炫酷的CSS3按钮边框动画特效
  18. 6种上市公司数据的采集方法和工具
  19. Java毕业设计-在线点餐系统
  20. 最近在做的用户留存分析,和几种方法。

热门文章

  1. C语言使用递归法计算n的阶乘
  2. 如何用大数据思维找女朋友?
  3. 送福利,价值1000的低蓝光护眼IPS显示屏,写代码神器!
  4. Lucene 计算对象大小
  5. 单片机ram和rom的区别
  6. 美学心得(第二百三十集) 罗国正
  7. SQL中永久的修改表的字段名字
  8. As-Exploits v1.4更新
  9. Chatito生成的json数据转化为rasa可以使用的yml文件
  10. 散装食品配料的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告