梯度消失与归一化/标准化
神经网络激活函数选用sigmoid或者tanh的时候,当输入很大,可能会遇到梯度消失情况:
途中虚线外的区域我们叫: saturation area 饱和区域。
处理方式有两种:
- 对神经网络输入做归一化/标准化处理。具体差别在后文展开。
- 如果不这样做,我们可以通过修改loss函数,增加一个惩罚值:pre-activation penalty
such as
klk_lkl是权重,根据情况进行调整。
The large pre-activation value of the neurons would cause large actor loss. In other words, minimizing the actor loss would let the pre-activation value stay in the unsaturation area.
接下来讨论归一化/标准化的问题:
归一化和标准化本质上就是对向量 [公式]按照比例压缩再进行平移,也就是一种线性变换。
线性变换保持线性组合与线性关系式不变,这保证了特定模型不会失效。
【归一化后的输入总是在饱和区域】
Reference
- 对神经网络输入是否做归一化
- https://blog.csdn.net/m0_61899108/article/details/122862687
- https://blog.csdn.net/jsk_learner/article/details/102816960
梯度消失与归一化/标准化相关推荐
- Normalization如何解决梯度消失
转载大神的文章.感觉写的通俗易懂 https://blog.csdn.net/sinat_33741547/article/details/87158830 具体计算的方法可以看我的博客https:/ ...
- 批量标准化BN方法简介【避免了梯度消失和梯度爆炸、加速网络的收敛、优化网络结构】
一. 本文的内容包括: 1. Batch Normalization,其论文:https://arxiv.org/pdf/1502.03167.pdf 2. Layer Normalizaiton,其 ...
- GCN的邻接矩阵归一化为什么能解决梯度消失和梯度爆炸
1. 邻接矩阵归一化 在GCN中,我们常对邻接矩阵AAA进行归一化处理,无论是随机游走归一化还是对称归一化,网上的文章都提到了同一点: 度大的节点在其特征表征中将具有较大的值,度小的节点将具有较小的值 ...
- 解读:为什么要做特征归一化/标准化?
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:shine-lee,编辑:极市平台 本文解读了一项数据预处理中的重 ...
- 神经网络结构优化:这篇论文让你无惧梯度消失或爆炸,轻松训练万层神经网络...
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 来源 | 机器之心 深度学习在众多领域都取得了显著进展,但与此同时也存在一个问题: ...
- 关于你不知道的特征归一化/标准化
目录 1. Feature scaling 的必要性 2. 常用的Feature scaling方法有什么 3. 什么时候需要feature scaling 4. 什么情况不需要Feature 1. ...
- 【深度学习】梯度消失和梯度爆炸问题的最完整解析
作者丨奥雷利安 · 杰龙 来源丨机械工业出版社<机器学习实战:基于Scikit-Learn.Keras和TensorFlow> 编辑丨极市平台 1 梯度消失与梯度爆炸 正如我们在第10章中 ...
- 深度学习中梯度消失和梯度爆炸的根本原因及其缓解方法
深度学习中梯度消失和梯度爆炸的根本原因及其缓解方法 一.梯度消失和爆炸的根本原因 1. 深层网络角度 2. 激活函数角度 二.梯度消失.爆炸的解决方案 1. 梯度剪切.正则 2. 采用其他的激活函数 ...
- 梯度消失和梯度爆炸问题解析
前言 本文转载于梯度消失和梯度爆炸问题的最完整解析 作者丨奥雷利安 · 杰龙 来源丨机械工业出版社<机器学习实战:基于Scikit-Learn.Keras和TensorFlow> 目录 前 ...
最新文章
- JAVA NIO - Buffer Channel
- 消息中间件NetMQ结合Protobuf简介
- JS 将有规律的数组,转换成对象数组
- oracle数据库查看size,[oracle] 查看oracle数据库表空间使用率,定位数据size较大对象...
- Leetcode--91. 解码方法
- HTML之图片标签、音视频标签
- linux网络配置、ssh、scp及命令优先级作业
- Feature event receviers
- MyBatis使用in进行列表中数据的批量删除
- ETL 工具的比较:Talend,Kettle,Informatica 等
- SVN提交文件冲突怎么办?
- 为资产分类定义折旧范围_SAP FICO零基础学习_0006_资产-概述和基本配置
- Web服务器性能压力测试工具
- iphone12屏幕尺寸
- 在开源中国众包那里放了一个东西
- 计算机408考研经验分享
- 认识Vue源码 (2)-- 手写类Vue框架:Zue
- python实现动态地图_使用Python、Geopandas和Matplotlib制作gif动态地图
- 简单通俗的说一下什么是面向过程和面向对象
- matlab制作数字华容道,从技术角度实现实现数字华容道