本文围绕一代传奇模型overfeat展开论述,探究在2013年,overfeat是怎样横空出世、独占鳌头的,并介绍它的那跨时代的思想和惊为天人的设计。

论文地址 https://arxiv.org/abs/1312.6229

目录

背景

概述

沿袭

革新

结果

补充

总结


背景

该模型是由科学家Pierre Sermanet、David Eigen等人在ImageNet Large-Scale Visual Recognition Challenge(ILSVRC)大赛上提出的,他们选用了与Krizhevsky等人在ILSVRC12上使用的AlexNet类似的模型,并加入了很多创新元素来对模型进行拓展。最终他们不仅在定位比赛中夺得冠军,在其他方面如分类和检测项目上也取得了不错的成绩,更是极大地推动了计算机视觉领域相关技术的发展。

概述

OverFeat的网络层次如图所示

这里提供了两幅图,分别是速度最快和精度最高的两个版本,其中的参数都进行了一些细微的调整,这里我们选用精度最高的版本进行讲解。

沿袭

该模型在ImageNet2012的训练集上进行训练,将原图像进行随机裁剪得到输入图像,输入图像的尺寸是221X221,初步的训练思路与AlexNet一致,但是第一层卷积核大小是7X7,而在另一版本的模型中卷积核与AlexNet尺寸一致为11x11,两个模型卷积核数量都是96个,而第一层卷积步长为2,池化尺寸为3,池化步长为3,无padding,这里修改了步长,略微削减了速度从而提升了精度。第二层与第一层架构思路相同,也是卷积+最大池化,在原模型的基础上进行微调,从第三层起至第五层都是卷积层,需要注意这里用到的激活函数都是ReLU而非在那时常用的Sigmoid,而且这里使用了0填充,改变了数据尺寸。

革新

第六层这里用到了本文的第一个创新点——offset max-pooling,正常情况下池化层所接收到的数据是不会被步长整除的,最后的数据要么舍弃要么填充补齐,但是这里给池化层的maps做了平移,不从第一个像素开始,而是从可以整除步长的像素开始,这一点比起填充增强了鲁棒性,比起舍弃又增加了数据量。之后就到了模型的第二个创新点,用于借鉴的AlexNet模型最后是全连接层,但是这里全连接层却是化用了FCN,即全卷积网络的思想。全连接层在日常的模型使用中充当着一个输出特征值的功能,比如在分类问题中,最后每张图片会输出一个对所属类别的预测值,值越大表明属于该类别的可能性越高,但是在定位问题中,如图所示,除了单纯地获取类别信息以外还要获取主体图像的位置。全连接层详情见 http://t.csdn.cn/17CUd

所以这里就采用了FCN对每一个像素都产生一个预测,同时保留了原始输入图像中的空间信息,最后在上采样的特征图进行像素的分类的思想,输出的是一张已经标记好的图,如下图所示

图片出处  https://zhuanlan.zhihu.com/p/163376841

第七层依据FCN视为5X5的卷积层,第八层则是1X1的卷积层,原文是这样表述的——(6、7、8层)的分类器含有固定输入大小 5×5 ,在每个池化特征图的每个位置产生C维输出向量,这里提到的是速度最快的模型,需要注意精度最高的模型比速度最快的模型多一个卷积层,对应层数的时候要加一,这一块的具体操作可以参考以下文章的FCN + offset max-pooling部分。http://t.csdn.cn/km88g

同时FCN还能支持各种尺寸的图片,而全连接层因为其数据尺寸在构建网络时就以固定,无法接收设定以外的数据。FCN的相关解析可以参考如下链接http://t.csdn.cn/ClmeA

结果

模型最后不仅会产生分类的分布,还产生了预测框bouding box,这里OverFeat同样别出心裁地放弃了传统的非极大值抑制,而是使用了累积预测的方法。相应操作可以参照如下文章http://t.csdn.cn/v5N2O

补充

这里补充一些框架的参数设置

min-batchs=128

lr=0.05

权重初始化为正态分布 ( μ , σ ) = (0,1e-2)

momentum = 0.6
​weight decay =1e-5 1
 
第七层和第八层dropout = 0.5。

总结

总的来说,OverFeat在AlexNet上进行了较大尺度的革新,并且明确了CNN在定位任务上的使用方法,即使现在来看这个模型有很多缺陷和不足,但它确实为CV的发展奠定了基础。

深度学习计算机视觉模型衍生与发展——OverFeat详解相关推荐

  1. 【深度学习系列】卷积神经网络CNN原理详解(一)——基本原理(1)

    上篇文章我们给出了用paddlepaddle来做手写数字识别的示例,并对网络结构进行到了调整,提高了识别的精度.有的同学表示不是很理解原理,为什么传统的机器学习算法,简单的神经网络(如多层感知机)都可 ...

  2. 深度学习 --- 卷积神经网络CNN(LeNet-5网络详解)

    卷积神经网络(Convolutional Neural Network,CNN)是一种前馈型的神经网络,其在大型图像处理方面有出色的表现,目前已经被大范围使用到图像分类.定位等领域中.相比于其他神经网 ...

  3. 《深度学习》之 目标检测 最全详解 (一)

    目标检测 一.简介 目标检测,也叫目标提取,是一种基于目标几何和统计特征的图像分割,它将目标的分割和识别合二为一,其准确性和实时性是整个系统的一项重要能力.尤其是在复杂场景中,需要对多个目标进行实时处 ...

  4. 基于OpenCL的深度学习工具:AMD MLP及其使用详解

    from:http://www.csdn.net/article/2015-08-05/2825390 [编者按]深度学习是近年来迅速发展和突破的机器学习领域,具有非常广泛的应用前景.将服务器GPU应 ...

  5. 【深度学习】卷积神经网络(CNN)详解

    章节 Filter 池化 Demo 冷知识 参考 CNN 一共分为输入,卷积,池化,拉直,softmax,输出 卷积由互关运算(用Filter完成)和激活函数 Filter CNN常用于图像识别,在深 ...

  6. 深度学习入门(一):LeNet-5教程与详解

    1.什么是LeNet LeNet5诞生于1994年,是最早的卷积神经网络之一,并且推动了深度学习领域的发展.自从1988年开始,在多年的研究和许多次成功的迭代后,这项由Yann LeCun完成的开拓性 ...

  7. 基于深度学习的新闻摘要生成算法实现与详解(Encoder-Decoder框架模型)

    目录 摘要: 文本摘要生成概述: Encoder-Decoder模式思想: 数据集描述: 模型构建与代码描述(LSTM+Attention) 总结: 参考文献: 摘要: 摘要是文本的主要内容和核心思想 ...

  8. 我愿称之为史上最全的深度学习面经总结(附答案详解)

    作者丨马东什么@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/391954665 编辑丨极市平台 最近参加社招,面试基本是问项目,然后问项目里的算法所以这里还是按照实 ...

  9. [深度学习概念]·实例分割模型Mask R-CNN详解

    实例分割模型Mask R-CNN详解 基础深度学习的目标检测技术演进解析 本文转载地址 Mask R-CNN是ICCV 2017的best paper,彰显了机器学习计算机视觉领域在2017年的最新成 ...

最新文章

  1. word2003计算机应用考试,2017职称计算机考试Word2003操作练习题
  2. python线程执行带有参数的任务(args、kwargs)
  3. Oracle 又裁员,传 N+6 补偿
  4. 网站降低用户跳出率的常见技巧有哪些?
  5. java 010_Java笔记-day010-[String类]
  6. Grails 1.2参考文档速读(19):插件
  7. Spark RDD使用详解5--Action算子
  8. 薪资/薪水/金额的数据类型
  9. pytorch入门-简介及安装
  10. Ubuntu 对比度调节
  11. CCIE学习(18)——HSRP、VRRP和GLBP
  12. win10系统realtek高清晰音频管理器有什么用
  13. Normalize.css的作用
  14. 服务器安装linux后一直停留在光标,Ubuntu14更新后无法进入系统卡在光标界面解怎么办?...
  15. 拥有梦想的时候 拿出勇气和行动
  16. 曲面积分的投影法_在家学|第一类曲面积分与第二类曲面积分的计算
  17. 考研英语——阅读的逻辑关系分析(唐迟阅读的逻辑笔记+实战)更新中
  18. 特殊儿童领间最灿烂的一缕红——我们入队了
  19. 武汉科技大学java题库答案_武汉科技大学 java实验报告 实验二
  20. 微信小程序调用相册和相机

热门文章

  1. 经理人必看:“中国式管理”经典语录
  2. Nordic BLE之AES
  3. 转载金阳光老师的关于bug学习方法
  4. 新建一个文件夹出现多个文件夹
  5. 安卓离线下载V7兼容包存在,但是无法import android.support.v7.app.AppCompatActivity
  6. 清华、北大、浙大的计算机课程资源集都在这里了 | 技术头条
  7. 二、VirtualBox下载及安装
  8. 福州理工学院C语言期末,如果有2020的毕业学弟学妹想考虑这个福州理工学院的话 作...
  9. 企业网站运营包含哪些方法和技巧?
  10. pecs_Java泛型中的PECS原则