「机器学习速成」训练神经网络:反向传播、梯度爆炸消失Dropout
https://www.toutiao.com/a6706075530187244045/
2019-06-24 20:38:02
大家好,今天我们学习【机器学习速成】之 训练神经网络。
我们 马上学三点 ,
- 反向传播算法的几个失败案例
- 标准化特征值
- Dropout正则化
大家可以点击下面的“ 了解更多 ”,或搜索“ 马上学123 ”,在线观看PPT讲义。
反向传播
反向传播算法是 最常见的一种神经网络训练算法。 借助这种算法, 梯度下降法在多层神经网络中将成为可行方法。
反向传播
TensorFlow 等框架可自动处理反向传播算法, 它会负责反向传播的内部运作, 在后台为我们完成所有一切, 因此您暂时不需要对该算法作深入研究。
反向传播: 梯度很重要
但是, 我们需要了解反向传播算法的几个重要事项, 很多常见情况都会导致反向传播算法出错。
首先,反向传播确实依赖于梯度这一概念, 事物必须是可微的, 这样我们才能够进行学习。 各种函数中存在一两个小的间断点没关系, 但一般来说,我们需要可微函数, 从而能够使用神经网络进行学习。
反向传播:梯度消失
另外需要注意,梯度可能会消失。 如果我们的网络太深, 那么较低的层,也就是更接近输入的层, 它的梯度可能会变得非常小。
在深度网络中, 计算这些梯度时, 可能涉及许多小项的乘积。
当较低层的梯度逐渐消失到 0 时, 这些层的训练速度会非常缓慢, 甚至不再训练。
在这种情况下, ReLU 激活函数可能有助于防止梯度消失。 此外,还有一些其他策略, 但在节中不做讲解。
一般我们需要考虑, 尽量将模型的深度限制为最小的有效深度。
反向传播:梯度爆炸
另外,对应的有一个叫梯度爆炸, 如果网络中的权重过大, 则较低层的梯度会涉及许多大项的乘积。 在这种情况下,梯度就会爆炸: 梯度过大导致难以收敛。
比如如果学习速率太高, 就会出现极不稳定的情况, 模型中就可能出现NaN。 在这种情况下, 就要以较低的学习速率再试一次。
批标准化可以降低学习速率, 因而有助于防止梯度爆炸。
其实梯度爆炸和梯度消失问题 都是因为网络太深, 网络权值更新不稳定造成的, 本质上是因为梯度反向传播中的连乘效应。
反向传播: ReLu 层可能会消失
还有一个失败案例,ReLU可能会消失。 这可能是因为我们硬性将上限设为0,
一旦 ReLU 单元的加权和低于0, ReLU 单元就可能会停滞。 它会输出对网络输出没有任何贡献的 0 激活, 而梯度在反向传播算法期间将无法再从中流过。
由于梯度的来源被切断, ReLU 的输入可能无法 作出足够的改变来使加权和恢复到0以上。
所以要密切关注,并使用不同的初始化 或较低的学习速率进行重试, 降低学习速率有助于防止 ReLU 单元消失。
标准化特征值
训练时, 如果特征值在输入时就已经标准化, 这通常会对我们非常有用, 有助于梯度下降法收敛, 避免离群值也会有帮助.
如果范围大致相同, 则有助于提高神经网络的转化速度。 范围实际值并不重要; 我们通常推荐的大致范围是负1到正1。 也可以是负5到正5,或者0到1, 只要所有输入的范围大致相同就可以。
丢弃正则化
最后, 在训练深度网络时还有一个很有用的技巧, 即正则化的另一种形式, 叫做丢弃(也就是Dropout)。
丢弃正则化
Dropout 是一个非常有趣的概念, 思想其实非常简单粗暴: 对于网络的每一层,按照概率P(比如50%)随机的丢弃一些节点。 丢弃的节点越多,正则化效果就越强。
您可以清楚地看到,
- 如果丢弃所有节点, 就会得到一个极为简单的模型, 这个模型基本上毫无用处。
- 如果一个都不丢弃, 则模型便具备完整的复杂性;
- 如果在训练过程中的某个位置进行丢弃, 那就相当于在这个位置应用了某种有效的正则化。
我们最近取得了多项推动深度学习走向前沿的关键进展, 丢弃便是其中之一, 使我们能够获得许多重大的成果。
总结:
- 反向传播是用来训练人工神经网络的常见方法。 TensorFlow 等框架可自动处理反向传播算法,
- 反向传播算法的失败案例:梯度消失、梯度爆炸、ReLU 单元消失
- 在训练深度网络时技巧:标准化特征值,范围大致相同;
- Dropout正则化,在梯度下降法的每一步中随机丢弃一些网络单元。
这里讲了三点,关键词有哪几个?
提问,标准化特征值有哪些方法?
「机器学习速成」训练神经网络:反向传播、梯度爆炸消失Dropout相关推荐
- 神经网络反向传播梯度计算数学原理
[神经网络]反向传播梯度计算数学原理 1 文章概述 本文通过一段来自于Pytorch官方的warm-up的例子:使用numpy来实现一个简单的神经网络.使用基本的数学原理,对其计算过程进行理论推导,以 ...
- 「机器学习速成」嵌套:高维度数据映射到低维度空间
https://www.toutiao.com/a6707188638792286727/ 大家好,今天我们学习[机器学习速成]之 嵌套:高维度数据映射到低维度空间. 嵌套将高维度数据映射到低维度空间 ...
- 吴恩达|机器学习作业4.0神经网络反向传播(BP算法)
4.0.神经网络学习 1)题目: 在本练习中,您将实现神经网络的反向传播算法,并将其应用于手写数字识别任务.在之前的练习中,已经实现了神经网络的前馈传播,并使用Andrew Ng他们提供的权值来预测手 ...
- 机器学习第五周神经网络 反向传播 嗷嗷好
神经网络的学习 Neural Networks:Learning 1.代价函数 假设神经网络的训练样本有m个,每个包含一组x和一组输出信号y,L表示神经网络的层数,sl表示每层neuron的个数,(s ...
- 「机器学习速成」数据预处理,特征工程,良好特征的特点
https://www.toutiao.com/a6703863693408469516/ 大家好,今天我们学习[机器学习速成]之 数据预处理,特征工程,良好特征的特点 我们 马上学三点 , 特征工程 ...
- 「机器学习速成」过拟合的风险和泛化
https://www.toutiao.com/a6702764208561340942/ 大家好,今天我们学习[机器学习速成]之过拟合的风险和泛化. 泛化是指模型很好地拟合以前未见过的新数据的能力. ...
- 「机器学习速成」分类,评估指标(TP、FP、TN、FN),ROC曲线和AUC
https://www.toutiao.com/a6706449645901464078/ 2019-06-25 20:49:47 大家好,今天我们学习[机器学习速成]之 分类,评估指标(TP.FP. ...
- AUC值越大_「机器学习速成」分类,评估指标(TP、FP、TN、FN),ROC曲线和AUC
大家好,今天我们学习[机器学习速成]之 分类,评估指标(TP.FP.TN.FN),ROC曲线和AUC. 本节介绍了如何使用逻辑回归来执行分类任务, 并探讨了如何评估分类模型的有效性. 我们 马上学三点 ...
- 机器学习入门(14)— 神经网络学习整体流程、误差反向传播代码实现、误差反向传播梯度确认、误差反向传播使用示例
1. 神经网络学习整体流程 神经网络学习的步骤如下所示. 前提 神经网络中有合适的权重和偏置,调整权重和偏置以便拟合训练数据的过程称为学习.神经网络的学习分为下面 4 个步骤. 步骤1(mini-ba ...
最新文章
- zillow房价预测比赛_Zillow房价预测:2018年美国房价将会上涨
- 如何创建一份springboot的docker镜像
- [工具-004]如何从apk中提取AndroidManifest.xml并提取相应信息
- webpack4.x实战七,生产模式和开发模式分开打包
- 深度:ATM互联网巨头加紧入局的中老年线上市场,你是选择流量收割还是内容为王?
- 网课答案公众号查询方法
- URL重定向(跳转)漏洞
- 怎么用阿里云服务器部署项目?上传简单项目
- mysql异常Incorrect string value: ‘\xE6\xB5\x8B\xE8\xAF\x95‘ for column ‘region_name‘
- Kotlin上的反应式流-SharedFlow和StateFlow
- NOMAD 与 KUBERNETES:比较容器编排工具——翻译版
- 线性表初始化运行代码
- Java虚拟机(JVM)-- Dump内存快照
- 七大最具影响力的大数据应用案例
- 为什么有人说富坚义博有着殿堂级的画功?他的画功体现在哪儿呢?
- Numpy学习笔记(二):argmax参数中axis=0,axis=1,axis=-1详解附代码
- Siki_Unity_7-4_高自由度沙盘游戏地图生成_MineCraft_Uniblocks插件(可拓展)
- 微信小程序实现星巴克用星说效果
- 关于机器学习、符号学习、统计学习、流形学习、深度学习关系的浅见:
- java oracle in 10000,Oracle 查询 in条件个数大于1000的解决方案
热门文章
- 电影情感分析 NLP实战
- JDBC中驱动加载的过程分析
- 10搜索文件内容搜不出_百度搜索广告太多?内容太杂?可能你们缺少这10个神器网站...
- 青源 LIVE 预告 | 华为诺亚韩凯:视觉 Transformer 综述
- 智源沙龙 | 人工智能“3个30年”之后,下个30年将走向何方?
- 窥透Fortran的方方面面
- 反卷积(Transposed Convolution, Fractionally Strided Convolution or Deconvolution)
- DCGAN及其TensorFlow源码
- “十四五”大数据产业发展锚定3万亿目标
- 张立贤:积跬步至千里,我与地学大数据的探索之旅 | 提升之路系列(五)