神经网络激活函数选用sigmoid或者tanh的时候,当输入很大,可能会遇到梯度消失情况:

途中虚线外的区域我们叫: saturation area 饱和区域。
处理方式有两种:

  1. 对神经网络输入做归一化/标准化处理。具体差别在后文展开。
  2. 如果不这样做,我们可以通过修改loss函数,增加一个惩罚值:pre-activation penalty
    such as
    klk_lkl​是权重,根据情况进行调整。
    The large pre-activation value of the neurons would cause large actor loss. In other words, minimizing the actor loss would let the pre-activation value stay in the unsaturation area.

接下来讨论归一化/标准化的问题:

归一化和标准化本质上就是对向量 [公式]按照比例压缩再进行平移,也就是一种线性变换。
线性变换保持线性组合与线性关系式不变,这保证了特定模型不会失效。
【归一化后的输入总是在饱和区域】

Reference

  1. 对神经网络输入是否做归一化
  2. https://blog.csdn.net/m0_61899108/article/details/122862687
  3. https://blog.csdn.net/jsk_learner/article/details/102816960

梯度消失与归一化/标准化相关推荐

  1. Normalization如何解决梯度消失

    转载大神的文章.感觉写的通俗易懂 https://blog.csdn.net/sinat_33741547/article/details/87158830 具体计算的方法可以看我的博客https:/ ...

  2. 批量标准化BN方法简介【避免了梯度消失和梯度爆炸、加速网络的收敛、优化网络结构】

    一. 本文的内容包括: 1. Batch Normalization,其论文:https://arxiv.org/pdf/1502.03167.pdf 2. Layer Normalizaiton,其 ...

  3. GCN的邻接矩阵归一化为什么能解决梯度消失和梯度爆炸

    1. 邻接矩阵归一化 在GCN中,我们常对邻接矩阵AAA进行归一化处理,无论是随机游走归一化还是对称归一化,网上的文章都提到了同一点: 度大的节点在其特征表征中将具有较大的值,度小的节点将具有较小的值 ...

  4. 解读:为什么要做特征归一化/标准化?

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:shine-lee,编辑:极市平台 本文解读了一项数据预处理中的重 ...

  5. 神经网络结构优化:这篇论文让你无惧梯度消失或爆炸,轻松训练万层神经网络...

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 来源 | 机器之心 深度学习在众多领域都取得了显著进展,但与此同时也存在一个问题: ...

  6. 关于你不知道的特征归一化/标准化

    目录 1. Feature scaling 的必要性 2. 常用的Feature scaling方法有什么 3. 什么时候需要feature scaling 4. 什么情况不需要Feature 1. ...

  7. 【深度学习】梯度消失和梯度爆炸问题的最完整解析

    作者丨奥雷利安 · 杰龙 来源丨机械工业出版社<机器学习实战:基于Scikit-Learn.Keras和TensorFlow> 编辑丨极市平台 1 梯度消失与梯度爆炸 正如我们在第10章中 ...

  8. 深度学习中梯度消失和梯度爆炸的根本原因及其缓解方法

    深度学习中梯度消失和梯度爆炸的根本原因及其缓解方法 一.梯度消失和爆炸的根本原因 1. 深层网络角度 2. 激活函数角度 二.梯度消失.爆炸的解决方案 1. 梯度剪切.正则 2. 采用其他的激活函数 ...

  9. 梯度消失和梯度爆炸问题解析

    前言 本文转载于梯度消失和梯度爆炸问题的最完整解析 作者丨奥雷利安 · 杰龙 来源丨机械工业出版社<机器学习实战:基于Scikit-Learn.Keras和TensorFlow> 目录 前 ...

最新文章

  1. JAVA NIO - Buffer Channel
  2. 消息中间件NetMQ结合Protobuf简介
  3. JS 将有规律的数组,转换成对象数组
  4. oracle数据库查看size,[oracle] 查看oracle数据库表空间使用率,定位数据size较大对象...
  5. Leetcode--91. 解码方法
  6. HTML之图片标签、音视频标签
  7. linux网络配置、ssh、scp及命令优先级作业
  8. Feature event receviers
  9. MyBatis使用in进行列表中数据的批量删除
  10. ETL 工具的比较:Talend,Kettle,Informatica 等
  11. SVN提交文件冲突怎么办?
  12. 为资产分类定义折旧范围_SAP FICO零基础学习_0006_资产-概述和基本配置
  13. Web服务器性能压力测试工具
  14. iphone12屏幕尺寸
  15. 在开源中国众包那里放了一个东西
  16. 计算机408考研经验分享
  17. 认识Vue源码 (2)-- 手写类Vue框架:Zue
  18. python实现动态地图_使用Python、Geopandas和Matplotlib制作gif动态地图
  19. 简单通俗的说一下什么是面向过程和面向对象
  20. matlab制作数字华容道,从技术角度实现实现数字华容道

热门文章

  1. 修饰器模式(day04)
  2. 软件开发过程与项目管理(11.软件项目风险计划)
  3. 大数据实力解读:热门网文改编是国产剧成功捷径吗?
  4. 6-1 顺序表创建和就地逆置 (10 分)
  5. C语言字符串篇——常用字符串函数介绍及模拟实现
  6. Qt界面设计常用的一些代码(即Qt style Sheets)
  7. deep image prior (cvpr 2018)
  8. 九月英语--坚持topic
  9. 西瓜书课后题8.5(bagging)
  10. 操作系统——空闲内存管理