为什么是深度神经网络而不是宽度神经网络?增加神经网络的深度相比于增加宽度有哪些优点?

Bengio和LeCun等人的论文《Scaling learning algorithms towards AI》中提到,如果一个深层结构能够刚刚好解决问题,那么就不可能用一个更浅的同样紧凑的结构来解决,因此要解决复杂的问题,要么增加深度,要么增加宽度。但是神经网络一般来说不是越深越好,也不是越宽越好,并且由于计算量的限制或对于速度的需求,如何用更少的参数获得更好的准确率无疑是一个永恒的追求。而目前针对网络宽度的研究远远不如针对网络深度的研究多,我认为主要有两点原因:

①提升同样效果需要增加的宽度远远超过需要增加的深度

Delalleau和Bengio等人的论文《Shallow vs. Deep sum-product networks》中提出,对于一些特意构造的多项式函数,浅层网络需要指数增长的神经元个数,其拟合效果才能匹配上多项式增长的深层网络。Eldan和Shamir等人的论文《The power of depth for feedforward neural network》中构造了一个3层网络,并尝试用一个2层网络获得近似的表达能力,结果宽度呈现了指数级的增加。而Zhou Lu等人的论文《The expressive power of neural networks: A view form the width》中表明,宽度减少后用于补偿模型性能的深度不是呈指数级增长,而是多项式增长。从这几篇论文的角度来看,似乎模型性能对宽度确实没有深度那么敏感。

②宽而浅的网络可能比较擅长记忆,却不擅长概括,即泛化能力差

Google在他们的广告与推荐系统模型 Wide&Deep 的研究中提到,Wide侧记住的是历史数据中那些常见的、高频的模式,实际上并没有发现新的模式,因此他们用Wide侧来完成推荐系统中EE问题中的Exploitation任务,即对于用户比较确定的兴趣,要开采、利用、迎合,而用Deep侧来完成Exploration任务,即探究用户新的兴趣。我认为这个设计很好的佐证了这一节的观点。

而且,在MobileNet模型的研究中,其作者们也通过实验表明窄且深的MobileNet架构比宽且浅的架构准确率更高。多层的优势在于可以在不同的抽象层次上学习特征,随着层数的增加,每个神经元相对于前一层的感受野变得越来越大,因此深层可以提供全局语义和抽象细节的信息,这是宽层很难做到的。

最后,深未必一定好,宽也未必不好

一方面,Hanin和Rolnick在ICML 2019上的论文《Complexity of Linear Regions in Deep Networks》指出深层网络相比于浅层网络在实际应用中体现出来的表达能力,从某个角度来看,平均意义上只随神经元数目线性增长,而和网络深度无关;2014年Ba和Caruana的经典论文《Do deep nets really need to be deep?》中也指出,深层网络被训练好之后,常常可以找到恰当的浅层网络去代替它。另一方面,由于目前大部分都是使用GPU去训练模型,也有一些研究指出GPU的并行处理使得加宽网络比加深网络更容易训练。

实际上,深度和宽度并不是完全对立的关系,增加深度和宽度都是在增加可学习参数的个数,从而增加神经网络的拟合能力,在网络设计时,两者都会考虑,追求深度与广度的平衡。增加网络深度可以获得更大的感受野来帮助捕获更多像素点的类似特征,增加网络宽度可以获得更细粒度、更丰富的特征。甚者,ResNeXt中提出了cardinality这一维度,以及EfficientNet中还考虑了深度、宽度、分辨率三个维度整体缩放对准确率的影响,因此这一切都有待进一步研究。

为什么是深度神经网络而不是宽度神经网络?增加神经网络的深度相比于增加宽度有哪些优点?相关推荐

  1. 神经网络芯片的单片机,什么是神经网络芯片

    1.神经网络做图像分类一定要用到gpu吗? GPU最大的价值一直是"accelerating"(加速),GPU不是取代CPU,而是利用GPU的并行计算架构,来将并行计算的负载放到G ...

  2. 1.7 单层卷积网络-深度学习第四课《卷积神经网络》-Stanford吴恩达教授

    ←上一篇 ↓↑ 下一篇→ 1.6 三维卷积 回到目录 1.8 简单卷积网络示例 单层卷积网络 (One Layer of a Convolutional Network) 今天我们要讲的是如何构建卷积 ...

  3. 深度学习笔记 第四门课 卷积神经网络 第二周 深度卷积网络:实例探究

    本文是吴恩达老师的深度学习课程[1]笔记部分. 作者:黄海广[2] 主要编写人员:黄海广.林兴木(第四所有底稿,第五课第一二周,第三周前三节).祝彦森:(第三课所有底稿).贺志尧(第五课第三周底稿). ...

  4. 深度学习笔记 第四门课 卷积神经网络 第四周 特殊应用:人脸识别和神经风格转换...

    本文是吴恩达老师的深度学习课程[1]笔记部分. 作者:黄海广[2] 主要编写人员:黄海广.林兴木(第四所有底稿,第五课第一二周,第三周前三节).祝彦森:(第三课所有底稿).贺志尧(第五课第三周底稿). ...

  5. ​深度学习笔记 第四门课 卷积神经网络 第一周 卷积神经网络基础

    本文是吴恩达老师的深度学习课程[1]笔记部分. 作者:黄海广[2] 主要编写人员:黄海广.林兴木(第四所有底稿,第五课第一二周,第三周前三节).祝彦森:(第三课所有底稿).贺志尧(第五课第三周底稿). ...

  6. 深度学习笔记其六:现代卷积神经网络和PYTORCH

    深度学习笔记其六:现代卷积神经网络和PYTORCH 1. 深度卷积神经网络(AlexNet) 1.1 学习表征 1.1 缺少的成分:数据 1.2 缺少的成分:硬件 1.2 AlexNet 1.2.1 ...

  7. 深度学习入门,一文讲解神经网络的构成、训练和算法

    小白深度学习入门系列 神经网络的构成.训练和算法 什么是神经网络 人工神经网络(Artificial Neural Network,ANN),简称神经网络(Neural Network,NN),是一种 ...

  8. 深度学习多变量时间序列预测:卷积神经网络(CNN)算法构建时间序列多变量模型预测交通流量+代码实战

    深度学习多变量时间序列预测:卷积神经网络(CNN)算法构建时间序列多变量模型预测交通流量+代码实战 卷积神经网络,听起来像是计算机科学.生物学和数学的诡异组合,但它们已经成为计算机视觉领域中最具影响力 ...

  9. 深度学习之父Hinton:下一代神经网络

    2020-07-28 20:42:16 作者 | 青暮.陈大鑫 编辑 | 丛 末 SIGIR是一个展示信息检索领域中各种新技术和新成果的重要国际论坛,若非疫情影响,今年本定于中国西安市举行.7月25日 ...

  10. 深度学习与计算机视觉系列(8)_神经网络训练与注意点

    深度学习与计算机视觉系列(8)_神经网络训练与注意点 作者:寒小阳  时间:2016年1月.  出处:http://blog.csdn.net/han_xiaoyang/article/details ...

最新文章

  1. catia今天突然打不开了_苹果手机锁屏密码突然不正确了?不要慌!也先不要着急刷机!!!尝试一下以下方式!...
  2. 2018-2019-1 20165201 《信息安全系统设计基础》第9周学习总结
  3. golang struct 转map 及 map[string]*Struct 初始化和遍历
  4. OMG,隔壁老王竟然是个GEEK !
  5. centos操作系统搭建Lamp环境(apache php mysql)
  6. Kali 2.0 采用ssh连接登陆
  7. 勤哲excel服务器端口协议,用勤哲Excel服务器实现管理完整.doc
  8. 威纶触摸屏如何组态设置离散量报警及报警历史记录?
  9. Using openRefine
  10. 24种设计模式-单例模式-懒汉模式详解
  11. dlibdotnet 人脸相似度源代码_HAAR与DLib的实时人脸检测之实现与对比
  12. python获取本机IP
  13. Python 根据身份证号码计算持有者年龄
  14. 推荐系统-协同过滤在Spark中的实现
  15. 2022年全球市场总线插头总体规模、主要生产商、主要地区、产品和应用细分研究报告
  16. apex哪个服务器稳定,apex哪个服务器
  17. 【海量数据学院】DBA学习方法论系列之:明确的学习目标
  18. FTP主动模式和被动模式详解
  19. 解决 PLSQL 12 汉化不完全 汉化后还显示英文 问题
  20. matlab随机函数rand取值范围,Matlab随机函数rand使用中应注意的问题

热门文章

  1. MATLAB关于xlsread函数的用法
  2. 零基础快速自学SQL,1天足矣!
  3. SSIM(structural similarity index) ---图像质量评价指标之结构相似性
  4. USB设备无法识别的五大原因
  5. 【Excel】按百分比随机抽取excel中数据
  6. 传智播客黑马程序员_Hanselminutes播客48-适用于极客和程序员的入门棋盘游戏
  7. 最新2019年dnf辅助制作视频教程
  8. 2023最新SSM计算机毕业设计选题大全(附源码+LW)之java新华书店o2o服务系统89nml
  9. AVX512与AVX2比较
  10. 后台业务管理系统高保真Axure原型模板