文章目录

  • 参考
  • notes
    • 包含3个内容:
    • 什么是梯度消失,以及他会导致什么?
    • 梯度消失如何发生的?
    • 梯度爆炸
    • 他们都称为: 不稳定 的 gradient
  • end

参考

https://www.youtube.com/watch?v=qO_NLVjD6zE&list=PLZbbT5o_s2xq7LwI2y8_QtvuXZedL6tQU&index=30

notes

包含3个内容:

什么是梯度消失,以及他会导致什么?

梯度消失 会导致 网络 无法更新,因为 梯度太小了,权重每次 变的 很小,几乎等于没变。

梯度消失如何发生的?


(但凡 a b c d e 里面 ,有 一个 很小, 就会 导致 整个 gradient 很小)

小于 1 的数, 乘起来,只会越来越小。

然后 进行 权重 更新 的时候, w e i g h t = w e i g h t + w e i g h t ∗ a l p h a ∗ g r a d i e n t weight = weight + weight * alpha * gradient weight=weight+weight∗alpha∗gradient
其中 a l p h a alpha alpha 是学习率; 其中 g r a d i e n t gradient gradient 很小 ,就会 导致 weight + 近似 0 的数,以至于 weight 几乎 不变。

weight 就会 困在原地

梯度爆炸

如果 乘 了很多 大于一 的数字,就爆炸

他们都称为: 不稳定 的 gradient

end

梯度爆炸和梯度消失, 深度学习,视频笔记;DL:deeplizard相关推荐

  1. Mini batch梯度下降法(吴恩达深度学习视频笔记)

    深度学习并没有在大数据中表现很好,但是我们可以利用一个巨大的数据集来训练神经网络,而在巨大的数据集基础上进行训练速度很慢,因此进行优化算法能够很大程度地增加训练速度,提升效率. 本节,我们将谈谈Min ...

  2. 吴恩达深度学习视频笔记

    1.结构化数据与非结构化数据 从上图可以看出,对于小规模的数据集,深度学习和机器学习它们的性能不一定谁好谁坏,只有在大规模上的数据集上时,深度学习才能体现出它更好的性能 损失函数是针对于单个样本的,而 ...

  3. 吴恩达深度学习视频笔记(持续更新)

    深度学习符号字典:http://www.ai-start.com/dl2017/html/notation.html 文章目录 第一章节:最简单的神经网络 逻辑回归Logistic Regressio ...

  4. B站吴恩达深度学习视频笔记(1-14)——实战3:识别猫图

    前言 还记得在前几节课中吴恩达老师讲述如何识别一张图片,以及电脑识别图片的原理吗?这篇笔记中就会用到之前笔记1-14除了机器学习框架以外几乎所有的知识,来完成入门阶段终极实战--识别猫图. 我们即将使 ...

  5. 深度学习入门笔记(四):向量化

    欢迎关注WX公众号:[程序员管小亮] 专栏--深度学习入门笔记 声明 1)该文章整理自网上的大牛和机器学习专家无私奉献的资料,具体引用的资料请看参考文献. 2)本文仅供学术交流,非商用.所以每一部分具 ...

  6. 梯度爆炸与梯度消失是什么?有什么影响?如何解决?

    文章目录 一.梯度爆炸 1.什么是梯度爆炸? 2.有何影响? 二.梯度消失 1.定义 2.有何影响? 三.共同点 1.产生原因 2.解决办法 a. 方案1-预训练加微调 b. 方案2-梯度剪切.正则化 ...

  7. 什么是梯度爆炸与梯度消失

    梯度爆炸(Gradient Explosion)和梯度消失(Gradient Vanishing)是深度学习训练过程中的两种常见问题. 梯度爆炸是指当训练深度神经网络时,梯度的值会快速增大,造成参数的 ...

  8. 【转载】梯度爆炸和梯度消失

    写得很全的一篇知乎上的介绍 一.梯度消失 梯度消失出现的原因: 在深层网络中,如果激活函数的导数小于1,根据链式求导法则,靠近输入层的参数的梯度因为乘了很多的小于1的数而越来越小,最终就会趋近于0,例 ...

  9. 为什么会出现梯度爆炸和梯度消失现象?怎么缓解这种现象的发生?

    前言:梯度消失现象在深度神经网络训练过程中表现得尤为突出,随着网络层数的加深,损失在反向传播时梯度在不断减小,导致浅层网络的学习进行不下去,参数得不到有效更新.为什么会出现这种现象呢?下面小编将从神经 ...

  10. 梯度消失和梯度爆炸_梯度消失、爆炸的原因及解决办法

    一.引入:梯度更新规则 目前优化神经网络的方法都是基于反向传播的思想,即根据损失函数计算的误差通过梯度反向传播的方式,更新优化深度网络的权值.这样做是有一定原因的,首先,深层网络由许多非线性层堆叠而来 ...

最新文章

  1. 求生之路怎么显示服务器,求生之路怎么搭建云服务器
  2. RabbitMQ的元数据重建
  3. java如何循环调用方法_Java:调用方法的“中断”循环?
  4. mysql循环遍历获取_MySQL 全表遍历
  5. C++调用函数模仿数字钟表
  6. ORB-SLAM2双目开源框架 (1)
  7. 【干货】阿里直播平台的架构演进
  8. [原创]C#中国象棋网络版源代码-C# Chinese Chess Source Code
  9. 计算机网络知识点汇总(考研用)
  10. Tango学习笔记(1)
  11. 微型计算机系统评课,微机课评课稿.pdf
  12. Django admin修改app名称
  13. JavaScript之排他思想详述
  14. web 常用的几种字体_3种免费Web字体服务比较
  15. uefi和legacy的区别是什么
  16. mysql 连续七天不登录_【SQL】查询连续登陆7天以上的用户
  17. 解决”Windows已经保护您的电脑”的三个方法
  18. stm32f4xx标准外设固件库
  19. matlab主成分分析散点图_基于matlab的主成分分析与因子分析
  20. 推荐一首歌 - Just Another (Pete Yorn)

热门文章

  1. linux【网络】DNS 解析时快时慢,我该怎么办?
  2. 【程序设计训练】4-18 身份证校验
  3. win10系统中的以太网连接及配置
  4. 多台CentOS服务器时间同步(NTP时间同步)
  5. Android之Gradle自动化打包实战
  6. win10蓝牙开关不见了怎么办
  7. 许多jQuery在线引用网址
  8. c#语言+计算两个位置的距离,C#计算两个经纬度之间的距离
  9. 试试用 text-emphasis来装饰你的文字吧
  10. 泛型及当中的T、E、?分别代表什么意思