https://www.toutiao.com/a6706075530187244045/

2019-06-24 20:38:02

大家好,今天我们学习【机器学习速成】之 训练神经网络。

我们 马上学三点 ,

  1. 反向传播算法的几个失败案例
  2. 标准化特征值
  3. Dropout正则化

大家可以点击下面的“ 了解更多 ”,或搜索“ 马上学123 ”,在线观看PPT讲义。

反向传播

反向传播算法是 最常见的一种神经网络训练算法。 借助这种算法, 梯度下降法在多层神经网络中将成为可行方法。

反向传播

TensorFlow 等框架可自动处理反向传播算法, 它会负责反向传播的内部运作, 在后台为我们完成所有一切, 因此您暂时不需要对该算法作深入研究。

反向传播: 梯度很重要

但是, 我们需要了解反向传播算法的几个重要事项, 很多常见情况都会导致反向传播算法出错。

首先,反向传播确实依赖于梯度这一概念, 事物必须是可微的, 这样我们才能够进行学习。 各种函数中存在一两个小的间断点没关系, 但一般来说,我们需要可微函数, 从而能够使用神经网络进行学习。

反向传播:梯度消失

另外需要注意,梯度可能会消失。 如果我们的网络太深, 那么较低的层,也就是更接近输入的层, 它的梯度可能会变得非常小

在深度网络中, 计算这些梯度时, 可能涉及许多小项的乘积

当较低层的梯度逐渐消失到 0 时, 这些层的训练速度会非常缓慢, 甚至不再训练。

在这种情况下, ReLU 激活函数可能有助于防止梯度消失。 此外,还有一些其他策略, 但在节中不做讲解。

一般我们需要考虑, 尽量将模型的深度限制为最小的有效深度

反向传播:梯度爆炸

另外,对应的有一个叫梯度爆炸, 如果网络中的权重过大, 则较低层的梯度会涉及许多大项的乘积。 在这种情况下,梯度就会爆炸: 梯度过大导致难以收敛

比如如果学习速率太高, 就会出现极不稳定的情况, 模型中就可能出现NaN。 在这种情况下, 就要以较低的学习速率再试一次。

批标准化可以降低学习速率, 因而有助于防止梯度爆炸

其实梯度爆炸和梯度消失问题 都是因为网络太深, 网络权值更新不稳定造成的, 本质上是因为梯度反向传播中的连乘效应

反向传播: ReLu 层可能会消失

还有一个失败案例,ReLU可能会消失。 这可能是因为我们硬性将上限设为0

一旦 ReLU 单元的加权和低于0, ReLU 单元就可能会停滞。 它会输出对网络输出没有任何贡献的 0 激活, 而梯度在反向传播算法期间将无法再从中流过。

由于梯度的来源被切断, ReLU 的输入可能无法 作出足够的改变来使加权和恢复到0以上。

所以要密切关注,并使用不同的初始化 或较低的学习速率进行重试, 降低学习速率有助于防止 ReLU 单元消失。

标准化特征值

训练时, 如果特征值在输入时就已经标准化, 这通常会对我们非常有用, 有助于梯度下降法收敛避免离群值也会有帮助.

如果范围大致相同, 则有助于提高神经网络的转化速度。 范围实际值并不重要; 我们通常推荐的大致范围是负1到正1。 也可以是负5到正5,或者0到1, 只要所有输入的范围大致相同就可以。

丢弃正则化

最后, 在训练深度网络时还有一个很有用的技巧, 即正则化的另一种形式, 叫做丢弃(也就是Dropout)。

丢弃正则化

Dropout 是一个非常有趣的概念, 思想其实非常简单粗暴: 对于网络的每一层,按照概率P(比如50%)随机的丢弃一些节点。 丢弃的节点越多,正则化效果就越强。

您可以清楚地看到,

  • 如果丢弃所有节点, 就会得到一个极为简单的模型, 这个模型基本上毫无用处。
  • 如果一个都不丢弃, 则模型便具备完整的复杂性;
  • 如果在训练过程中的某个位置进行丢弃, 那就相当于在这个位置应用了某种有效的正则化

我们最近取得了多项推动深度学习走向前沿的关键进展, 丢弃便是其中之一, 使我们能够获得许多重大的成果。

总结:

  • 反向传播是用来训练人工神经网络的常见方法。 TensorFlow 等框架可自动处理反向传播算法,
  • 反向传播算法的失败案例:梯度消失、梯度爆炸、ReLU 单元消失
  • 在训练深度网络时技巧:标准化特征值,范围大致相同;
  • Dropout正则化,在梯度下降法的每一步中随机丢弃一些网络单元。

这里讲了三点,关键词有哪几个?

提问,标准化特征值有哪些方法?

「机器学习速成」训练神经网络:反向传播、梯度爆炸消失Dropout相关推荐

  1. 神经网络反向传播梯度计算数学原理

    [神经网络]反向传播梯度计算数学原理 1 文章概述 本文通过一段来自于Pytorch官方的warm-up的例子:使用numpy来实现一个简单的神经网络.使用基本的数学原理,对其计算过程进行理论推导,以 ...

  2. 「机器学习速成」嵌套:高维度数据映射到低维度空间

    https://www.toutiao.com/a6707188638792286727/ 大家好,今天我们学习[机器学习速成]之 嵌套:高维度数据映射到低维度空间. 嵌套将高维度数据映射到低维度空间 ...

  3. 吴恩达|机器学习作业4.0神经网络反向传播(BP算法)

    4.0.神经网络学习 1)题目: 在本练习中,您将实现神经网络的反向传播算法,并将其应用于手写数字识别任务.在之前的练习中,已经实现了神经网络的前馈传播,并使用Andrew Ng他们提供的权值来预测手 ...

  4. 机器学习第五周神经网络 反向传播 嗷嗷好

    神经网络的学习 Neural Networks:Learning 1.代价函数 假设神经网络的训练样本有m个,每个包含一组x和一组输出信号y,L表示神经网络的层数,sl表示每层neuron的个数,(s ...

  5. 「机器学习速成」数据预处理,特征工程,良好特征的特点

    https://www.toutiao.com/a6703863693408469516/ 大家好,今天我们学习[机器学习速成]之 数据预处理,特征工程,良好特征的特点 我们 马上学三点 , 特征工程 ...

  6. 「机器学习速成」过拟合的风险和泛化

    https://www.toutiao.com/a6702764208561340942/ 大家好,今天我们学习[机器学习速成]之过拟合的风险和泛化. 泛化是指模型很好地拟合以前未见过的新数据的能力. ...

  7. 「机器学习速成」分类,评估指标(TP、FP、TN、FN),ROC曲线和AUC

    https://www.toutiao.com/a6706449645901464078/ 2019-06-25 20:49:47 大家好,今天我们学习[机器学习速成]之 分类,评估指标(TP.FP. ...

  8. AUC值越大_「机器学习速成」分类,评估指标(TP、FP、TN、FN),ROC曲线和AUC

    大家好,今天我们学习[机器学习速成]之 分类,评估指标(TP.FP.TN.FN),ROC曲线和AUC. 本节介绍了如何使用逻辑回归来执行分类任务, 并探讨了如何评估分类模型的有效性. 我们 马上学三点 ...

  9. 机器学习入门(14)— 神经网络学习整体流程、误差反向传播代码实现、误差反向传播梯度确认、误差反向传播使用示例

    1. 神经网络学习整体流程 神经网络学习的步骤如下所示. 前提 神经网络中有合适的权重和偏置,调整权重和偏置以便拟合训练数据的过程称为学习.神经网络的学习分为下面 4 个步骤. 步骤1(mini-ba ...

最新文章

  1. zillow房价预测比赛_Zillow房价预测:2018年美国房价将会上涨
  2. 如何创建一份springboot的docker镜像
  3. [工具-004]如何从apk中提取AndroidManifest.xml并提取相应信息
  4. webpack4.x实战七,生产模式和开发模式分开打包
  5. 深度:ATM互联网巨头加紧入局的中老年线上市场,你是选择流量收割还是内容为王?
  6. 网课答案公众号查询方法
  7. URL重定向(跳转)漏洞
  8. 怎么用阿里云服务器部署项目?上传简单项目
  9. mysql异常Incorrect string value: ‘\xE6\xB5\x8B\xE8\xAF\x95‘ for column ‘region_name‘
  10. Kotlin上的反应式流-SharedFlow和StateFlow
  11. NOMAD 与 KUBERNETES:比较容器编排工具——翻译版
  12. 线性表初始化运行代码
  13. Java虚拟机(JVM)-- Dump内存快照
  14. 七大最具影响力的大数据应用案例
  15. 为什么有人说富坚义博有着殿堂级的画功?他的画功体现在哪儿呢?
  16. Numpy学习笔记(二):argmax参数中axis=0,axis=1,axis=-1详解附代码
  17. Siki_Unity_7-4_高自由度沙盘游戏地图生成_MineCraft_Uniblocks插件(可拓展)
  18. 微信小程序实现星巴克用星说效果
  19. 关于机器学习、符号学习、统计学习、流形学习、深度学习关系的浅见:
  20. java oracle in 10000,Oracle 查询 in条件个数大于1000的解决方案

热门文章

  1. 电影情感分析 NLP实战
  2. JDBC中驱动加载的过程分析
  3. 10搜索文件内容搜不出_百度搜索广告太多?内容太杂?可能你们缺少这10个神器网站...
  4. 青源 LIVE 预告 | 华为诺亚韩凯:视觉 Transformer 综述
  5. 智源沙龙 | 人工智能“3个30年”之后,下个30年将走向何方?
  6. 窥透Fortran的方方面面
  7. 反卷积(Transposed Convolution, Fractionally Strided Convolution or Deconvolution)
  8. DCGAN及其TensorFlow源码
  9. “十四五”大数据产业发展锚定3万亿目标
  10. 张立贤:积跬步至千里,我与地学大数据的探索之旅 | 提升之路系列(五)