前言

由于神经网络具有很强的拟合能力,我们期望训练一个很深的前馈神经网路,来完成任务。直观上看,更深的神经网络,在非线性激活函数的加持下,拥有更大的假设空间,因此当然“更有可能”包含了一个最优解。但是在实际使用时,训练又成了一个难题。除了过拟合问题以外,更深的神经网络会遇到如下两个难题,

存在问题

1.1 梯度消失爆炸问题

以下图的反向传播为例,假设每一层只有一个神经元且对于每一层

传播链为

可以推导出

而sigmoid的导数如下图

由此可见导数的最大值为1/4,所以当w的初始化大或者小的时候,会使得连成结果很大或者很小,就会出现梯度爆炸、消失的情况。

1.2 网络退化

在前面的讨论中,梯度弥散/爆炸问题导致模型训练难以收敛,但是这个问题很大程度上已经被标准初始化和中间层正规化方法有效控制了,这些方法使得深度神经网络可以收敛。深度神经网络面临的另问题是网络退化问题:
在神经网络可以收敛的前提下,随着网络深度增加,网络的表现先是逐渐增加至饱和,然后迅速下降。需要注意,网络退化问题不是过拟合导致的,即便在模型训练过程中,同样的训练轮次下,退化的网络也比稍浅层的网络的训练错误更高,如下图所示。

按道理来说,假如说K层获得最优结果,那么K+n层的情况下,结果也不会很差,因为后面几层只需要做恒等映射就可以了。总而言之,与浅层网络相比,更深的网络的表现不应该更差。因此,一个合理的猜测就是,对神经网络来说,恒等映射并不容易拟合

残差网络

2.1 介绍


可以看到X是这一层残差块的输入,也称作F(x)为残差,x为输入值,F(X)是经过第一层线性变化并激活后的输出,该图表示在残差网络中,第二层进行线性变化之后激活之前,F(x)加入了这一层输入值X,然后再进行激活后输出。

2.2 好用原因

(1)解决1.1
ResNet最终更新某一个节点的参数时,由于h(x)=F(x)+x,由于链式求导后的结果如图所示,不管括号内右边部分的求导参数有多小,因为左边的1的存在,并且将原来的链式求导中的连乘变成了连加状态(正是 ),都能保证该节点参数更新不会发生梯度消失或梯度爆炸现象。

(2)集成思想
将残差网络展开,以一个三层的ResNet为例,将得到下面的树形结构:

使用图来表示就是

这样,残差网络就可以被看作是一系列路径集合组装而成的一个集成模型。

一文读懂残差神经网络相关推荐

  1. 技术向:一文读懂卷积神经网络

     技术向:一文读懂卷积神经网络 技术网络 36大数据(张雨石) · 2015-03-06 05:47 自今年七月份以来,一直在实验室负责卷积神经网络(Convolutional Neural Ne ...

  2. 一文读懂GoogLeNet神经网络

    本文介绍的是著名的网络结构GoogLeNet,,目的是试图领会其中结构设计思想. 一文读懂GoogLeNet神经网络 GoogLeNet特点 优化网络质量的生物学原理 GoogLeNet网络结构的动机 ...

  3. 独家 | 一文读懂人工神经网络

    作者:Sidath Asiri 翻译:Nicola 校对:卢苗苗 原文标题:MeetArticial Neural Networks 本文约1500字,建议阅读5分钟. 本文通过使用浅显易懂的语言和介 ...

  4. 一文读懂残差网络ResNet

    作者:苘郁蓁 链接:https://zhuanlan.zhihu.com/p/91385516 专栏:郁蓁的机器学习笔记 本文的内容包括残差网络的基础知识以及相关辅助理解的知识点,希望有一定深 度学习 ...

  5. 一文读懂基于神经网络的图片风格转移

    作者 | moliam 转载自 CSDN 博客 前言 将A图片的风格转移到B图片上,指的是将A图片的抽象艺术风格(如线条.色彩等等)和B图片的内容框架合成为一幅图.自然地,A图片称为风格图,而B图片就 ...

  6. 独家 | 一文读懂人工神经网络学习原理

    原文标题: How do Artificial Neural Networks learn? 作者:rubikscode 翻译:和中华 校对:李海明 本文约3000字,建议阅读10分钟. 本文对人工神 ...

  7. 【综述】一文读懂卷积神经网络(CNN)

    卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习 ...

  8. 一文读懂卷积神经网络

    自今年七月份以来,一直在实验室负责卷积神经网络(Convolutional Neural Network,CNN),期间配置和使用过theano和cuda-convnet.cuda-convnet2. ...

  9. 一文读懂GoogLeNet神经网络 | CSDN博文精选

    作者 | .NY&XX 来源 | CSDN博客 本文介绍的是著名的网络结构GoogLeNet,目的是试图领会其中结构设计思想. GoogLeNet特点 优化网络质量的生物学原理 GoogLeN ...

最新文章

  1. linux关机重启注销命令,Linux的注销、关机、重启基本命令介绍
  2. 自学python后能干什么-学习python后能做哪方面的工作
  3. 十二、增加Department
  4. windows常用的几个操作
  5. 魔法函数%matplotlib 解决matplotlib画图在Jupter/IPython中不显示
  6. LeetCode 1806. 还原排列的最少操作步数(模拟)
  7. 如何通过Keras来掌握深度学习
  8. 胡寿松自动控制原理第七版勘误-152页
  9. 在已有OpenStack集群中部署Manila(五):部署Manila Share节点之模式二(driver_handles_share_servers=True)
  10. XCode9 拖入文件 不自动添加 compile sources
  11. Python爬虫新手入门教学(三):爬取链家二手房数据
  12. 射频电路习题解答(一)——利用电子smith图解题
  13. LSTM(Long Short Term Memory)和RNN(Recurrent)教程收集 (知乎)
  14. linux的crontab 命令,每三个月的月末执行一次
  15. html 绘制篮球,7篮球运动.html
  16. 腾讯云服务器Ubuntu系统如何使用 root 用户远程登录
  17. 安装 AD LTspice电路仿真软件
  18. 计算机多媒体应用技术ppt课件ppt,多媒体计算机技术原理及应用十二课件.ppt
  19. Tableau(9):计算字段、表计算、自定义表计算
  20. 【BYM】Android 实现相机快门动画

热门文章

  1. FPGA真的很难学吗?那可能是没弄明白这些道理
  2. HPLC几项关键性能技术指标的测试方法SLP
  3. 计算机组成原理教案pdf,《计算机组成原理》教案-20210609084407.pdf-原创力文档
  4. 条形码打印 -- Delphi
  5. 可证明安全——公钥加密
  6. 微信漂流瓶下线了吗?微信有出替代功能吗?
  7. 第01章 网络数据采集入门
  8. 关于微信浏览器video标签无法播放mp4视频
  9. 单片机仿真器的原理介绍
  10. 操作系统简单分页存储管理(含代码)