《VERY DEEP CONVOLUTIONAL NETWORKSFOR LARGE-SCALE IMAGE RECOGNITION》

《大规模图像识别的深度卷积网络》

论文地址:https://arxiv.org/abs/1409.1556

目录

一、引言

二、结论

三、VGGNet 网络模型结构

四、VGG 相对于AlexNet 的改进


一、引言

本文研究了卷积网络深度对其在大规模图像识别数据集中准确率的影响。我们的主要贡献是对使用非常小( 3×3 )卷积滤波器的架构来增加深度的网络进行了深入的评估,这表明通过将深度推到16 - 19个权重层可以显著改善现有的配置。这些发现是我们ImageNet挑战赛2014年提交的基础,我们的团队分别在定位和分类轨道上获得了第一名和第二名。我们还表明,我们的表示很好地推广到其他数据集,它们在那里取得了最新的结果。我们已经公开提供了两个性能最好的ConvNet模型,以便进一步研究在计算机视觉中使用深度视觉表示。

其名称来源于作者所在的牛津大学视觉几何组(Visual Geometry Group)的缩写。

二、结论

在本工作中,我们评估了用于大规模图像分类的非常深度卷积网络( 最多 19个权重层 )。研究表明,表示深度有利于提高分类精度,并且可以使用深度大大增加的传统ConvNet架构《ImageNet classification with deep convolutional neural net-works》实现ImageNet挑战数据集上的最新性能。在附录中,我们也表明我们的模型能够很好的推广到广泛的任务和数据集,匹配或优于围绕较少深度图像表示构建的较复杂的recognition pipelines。我们的结果再次证实了深度在视觉表征中的重要性。

三、VGGNet 网络模型结构

不同的VGG卷积神经网络的配置如下图所示,

  • LRN:local response normalization,局部响应归一化,利用近邻数据进行归一化。
  • MaxPool:最大值池化,即在池化范围内选取一个最大值像素。
  • FC:全连接层。
  • 每一列都是一个卷积神经网络的配置。
  • 因为增加了一些层(粗体表示增加的层),故配置的深度从左往右逐渐增加。
  • 卷积层(conv layer)的参数被记为:“conv<感受野大小>-<通道数>”。
  • 所有的激活函数都选取ReLU,为了简洁,表格中没有展示ReLU激活函数。
  • 所有的配置都遵循相同的框架(AlexNet:5个卷积层和3个全连接层)。
  • A-E只在深度方向上有差异,从网络A中的11个权重层到E中的19个权重层。
  • 卷积层的深度(通道数)相当小,从第一层的64开始,在每一个最大值池化层后增加2倍,直到达到512层。

因为A-E中,VGG16的综合效果最好,并且被广泛应用,下面用VGG16的模型结构对VGGNet进行深入剖析。

其中Conv3-64代表:64个3*3,深度为3的卷积核;Conv3-128代表:128个3*3,深度为64的卷积核。值得注意的是,每一层的卷积核的深度可能不一致,取决于上一层的图像的深度。

下图是卷积的工作过程,96个1*1,深度为96的卷积核,把28*28*192的图像卷积成大小为28*28*96的图像(降低维度)。

四、VGG 相对于AlexNet 的改进

VGG没有在第一层使用相对较大的感受野,而AlexNet在第一层使用11*11的卷积核,步长=4,VGG在整个网络中使用非常小的3*3感受野,这些感受野与每个像素的输入(步长1)相卷积

不难看出,由两个中间没有空间池化的3*3卷积核组成的卷积层,有一个5*5大小的有效感受野;同理可知,三个卷积核组成的卷积层,则有一个7*7的有效感受野。

如下图所示,7*7的图像分别经过3个3*3的卷积核后,其感受野增长到了7*7,即经过三次卷积后的图像中的一个像素,和第一层图像中的7*7个像素有关联。

所以我们用3个3×3的卷积叠层代替单个7×7的卷积叠层得到了什么?

  • (1)首先,我们用三个非线性校正层(ReLus)代替一个非线性校正层(ReLU),使得决策函数更具区分度。
  • (2)其次,我们减少了参数个数:假设三层3 × 3卷积堆的输入和输出都有C通道,堆栈参数为个权重;同时,单个7 × 7层需要个权重,计算量多了81 %以上。
  • (3)最后,多个卷积堆叠在一起可以使得模型的深度增加,证明了本文章的结论:深度在视觉表征中的重要性。

相对于AlexNet,在VGG16-C中使用了1*1的卷积层,1*1的卷积层是一种增加决策函数非线性而又不影响卷积层的感受野的方法。即使在我们的情况下,1 × 1卷积本质上是在同维空间( 输入和输出通道数目相同 )上的线性投影,但由the rectification function引入了额外的非线性项。应该指出的是,《Network in Network》论文使用了1×1的卷积层。

 >>>如有疑问,欢迎评论区一起探讨!

VGGNet 论文精度,并解析 VGG-16 网络模型结构相关推荐

  1. DINO 论文精度,并解析其模型结构 DETR 的变体

    截止2022年7月25日,DINO是目标检测的SOTA. 本人根据源码的复现感受和DINO论文的精读心得,撰写本篇博客,希望对你有所帮助. 目录 一.摘要 二.结论 三.解析DINO模型 (1)概述D ...

  2. 《NAIS: Neural Attentive Item Similarity Model for Recommendation》论文阅读及解析

    <NAIS: Neural Attentive Item Similarity Model for Recommendation>论文阅读及解析 论文翻译 NAIS模型论文解析 NAIS模 ...

  3. 3D目标检测论文阅读多角度解析

    3D目标检测论文阅读多角度解析 一.前言 CNN(convolutional neural network)在目标检测中大放异彩,R-CNN系列,YOLO,SSD各类优秀的方法层出不穷在2D图像的目标 ...

  4. 【Faster R-CNN论文精度系列】从Faster R-CNN源码中,我们“学习”到了什么?

    [Faster R-CNN论文精度系列] (如下为建议阅读顺序) 1[Faster R-CNN论文精度系列]从Faster R-CNN源码中,我们"学习"到了什么? 2[Faste ...

  5. SCI论文写作训练营笔记汇总02_英文科技论文阅读与解析

    3.英文科技论文阅读与解析的方法 3.1 科技论文介绍 3.1.1 科技论文的类型 • Research • Review • Theoretical • Methodological • Case ...

  6. ECCV2020|图像重建(超分辨率,图像恢复,去雨,去雾等)相关论文汇总(附论文链接/代码/解析)

    转载自https://zhuanlan.zhihu.com/p/180551773 原帖地址: ECCV2020|图像重建/底层视觉(超分辨率,图像恢复,去雨,去雾,去模糊,去噪等)相关论文汇总(附论 ...

  7. 【天池赛事】零基础入门语义分割-地表建筑物识别 Task3:网络模型结构发展

    [天池赛事]零基础入门语义分割-地表建筑物识别 Task1:赛题理解与 baseline(3 天) – 学习主题:理解赛题内容解题流程 – 学习内容:赛题理解.数据读取.比赛 baseline 构建 ...

  8. WWW 2022最佳论文:可扩展的图神经结构搜索系统

    ©作者 | 北京大学DAIR实验室等 来源 | 机器之心 来自北京大学 DAIR 实验室与腾讯机器学习平台部 Angel Graph 团队共同完成的研究斩获 WWW 2022 唯一最佳学生论文奖(Be ...

  9. YOLOv3:Darknet代码解析(四)结构更改与训练

    背景:我们需要降低YOLOv2-tiny的参数量和存储量,以便硬件实现. 目的:更改YOLO结构,去掉后面的两层卷积层,降低参数量和运算量. 相关文章: YOLOv3:Darknet代码解析(一)安装 ...

最新文章

  1. DLT645规约学习笔记
  2. 从算法到产品:NLP技术的应用演变
  3. tomcat 中部署java web项目
  4. 算法与数据结构(冒泡排序,选择排序和插入排序的总结)
  5. 阿里专家分享:企业级大数据轻量云实践
  6. 朋友圈消失的人,都在偷偷读哪些书?
  7. centos7 安装lsb_Docker安装与配置
  8. Spring MVC之基于java config无xml配置的web应用构建
  9. 定了!百度运维工程师非法挖矿获利 10 万、被判 3 年,如何避免面向监狱编程?...
  10. Spark session 深入理解
  11. php 如何查看自增编号,PHP结果集怎么实现编号自增?
  12. Lamp兄弟连Linux视频教程
  13. 苹果手机蓝框一直跳动
  14. redis命令之string类型incr/decr命令用法详情
  15. 11.1 常用的包(熟悉) | 拉勾Java就业急训营
  16. Vue生命周期总结(四个阶段,八个钩子函数)
  17. 李大潜:学习数学是战略性投资【导图版】
  18. 教你如何快速提取视频中的音频
  19. MindMaster-------ERP系统上线计划
  20. cas java cli,CAS 登录号126-99-8 至 131-22-6 - CAS数据库

热门文章

  1. 我为什么要做程序员?
  2. 软件测试之浦发银行面试题,来看看这些你都知道吗?
  3. 最新JAVA智能微信停车场小程序源码+文档/兼容性很高
  4. MFC实战篇——图片旋转、控件PictureControl 清除显示、伪彩、直方图显示、为按钮添加背景图标、设置程序图标
  5. 超精致 Vue 视频播放组件Vue-CoreVideoPlayer
  6. 奇异的黑洞:越靠近时间对我们而言便会流逝得越慢
  7. VC界面编程skill tips-CListCtrl
  8. Mooc上的中国大学排名爬虫
  9. Scratch 疑难杂症视频
  10. android高德地图截屏,地图截屏功能-与地图交互-开发指南-Android 地图SDK | 高德地图API...