深度学习图像处理之VGG网络模型 (超级详细)

VGG介绍:

由牛津大学著名研究所VGG提出，斩获该年ImageNet竞赛中Localization Task（定位任务）第一名和Classification Task（分类任务）第二名。

VGG网络的配置：（VGG-16是许多模型中的主干网络）

在原论文中，作者给了6个VGG网络的不同配置，并且尝试了不同的深度（11、13、16、19层）以及是否采用LRN等。在实际使用过程中，我们一般都会采用D这个配置，即16层：13个卷积层以及最后3个全连接层。

VGG网络的亮点：

通过堆叠多个33的卷积核来代替大尺度卷积核（目的：减少所需参数）。在原论文中提到，可以通过堆叠2个33的卷积核替代55卷积核（使得2个33的卷积核与55的卷积核拥有相同的感受野）；堆叠3个33的卷积核替代77的卷积核（使得3个33的卷积核与7*7的卷积核拥有相同的感受野）。

概念扩展-CNN感受野（receptive field）：

在卷积神经网络中，决定某一层输出结果中一个元素所对应的输入层的区域大小，被称作感受野。通俗的来说就是，输出feature map 上的一个单元对应输入层上的区域大小。

简单例子：

如上图，最下层是一个991的特征矩阵，首先将其通过Conv1（大小为33，步距为1），通过计算公式，可以得到大小为441的特征矩阵；再将其通过最大池化下载量操作（大小为22，步距为2），得到一个221的大小。

接下来计算感受野：

Feature map(最后得到的特征图)：F=1

Pool1层：其输出的是22大小，其输入的是44大小，Ksize=2,Stride=2则F=（1-1）*2+2=2

Conv1：其输出的是44大小，其输入的是99大小，Ksize=3,Stride=2则F=（2-1）*2+3=5

VGG网络结构：

上面我们说过，我们常用的是D配置，即VGG-16，其过程为：①输入224大小的RGB图像②通过两层33的卷积核③通过maxpool(最大下载量)④通过两层33的卷积核⑤通过maxpool⑥通过三层33的卷积核⑦通过maxpool⑧通过三层33的卷积核⑨通过maxpool⑩通过三层3*3的卷积核、通过maxpool、通过三个全连接层、通过soft-max处理，得到概率分布。

补充：（通过3*3的卷积核，输入、输出尺寸不变；通过maxpool，将特征矩阵的高和宽直接缩小一半）。

结构图：（通过D这个模型进行绘制的）

说明：白色矩形框：代表卷积和激活函数

红色矩形框：代表最大池化下载量

蓝色矩形框：全连接层和激活函数

橙色矩形框：softmax处理

结构过程：（配置表和结构图一起观察）

1、首先输入一张2242243大小的图像，经过两个33的卷积层之后，所得到的特征图大小为224224*64（尺寸大小不变，因为采用的是64个卷积核，所以深度也为64）。

2、通过一个最大池化下载量层，得到的特征图为11211264（大小缩小一半，不改变深度）。

3、再通过两个33128的卷积层，得到的特征图为112112128（深度变为128）。

4、通过一个最大池化下载量层，得到的特征图为5656128（大小缩小一半，不改变深度）。

5、再通过三个33256的卷积层，得到的特征图为5656256（深度变为256）。

6、通过一个最大池化下载量层，得到的特征图为2828256（大小缩小一半，不改变深度）。

7、再通过三个33512的卷积层，得到的特征图为2828512（深度变为512）。

8、通过一个最大池化下载量层，得到的特征图为1414512（大小缩小一半，不改变深度）。

9、再通过三个33512的卷积层，得到的特征图为1414512（深度变为512）。

10、通过一个最大池化下载量层，得到的特征图为77512（大小缩小一半，不改变深度）。

11、再通过两个为4000个节点的全连接层以及激活函数，得到114096向量

12、再通过一个为1000个节点的全连接层（因为1000个类别），注意不需要激活函数，得到111000向量。

13、最后将通过全连接层得到的一维向量，输入到softmax激活函数，将预测结果转化为概率分布。

深度学习图像处理之VGG网络模型 (超级详细)相关推荐

深度学习图像处理目标检测图像分割计算机视觉 02--图像特征与描述
深度学习图像处理目标检测图像分割计算机视觉 02--图像特征与描述摘要一.图像特征与描述 1.1.颜色特征 1.2.几何特征提取 1.3.基于特征点的特征描述子 1.3.1.几何特征:关键点 1. ...
传统图像算法和深度学习图像处理的区别
** 前言 ** 刚入门图像那会儿,我记得当时有个疑问就是传统图像处理算法和深度学习卷积神经网络的区别到底在哪,在这打算用比较通俗的解释和浅显的例子对这个问题做个解释,希望可以帮助到有需要的同学. 一 ...
Colaboratory：手把手教你使用Google免费的云端IDE进行深度学习(免费的GPU加速)的详细攻略
Colaboratory:手把手教你使用Google免费的云端IDE进行深度学习(免费的GPU加速)的详细攻略目录 Colaboratory简介 Colaboratory使用步骤 (1).首先登陆谷 ...
深度学习图像处理目标检测图像分割计算机视觉 04--神经网络与误差反向传播BP算法
深度学习图像处理目标检测图像分割计算机视觉 04--神经网络与误差反向传播BP算法摘要一.神经元二.前馈网络 2.1 Delta学习规则 2.2 目标函数J(w) 三.误差反向传播算法(BP算法 ...
深度学习图像处理目标检测图像分割计算机视觉 07--图像检索
深度学习图像处理目标检测图像分割计算机视觉 07--图像检索摘要一.传统的图像检索做法 1.1.相似颜色检索 1.2.相似纹理检索 1.3.相似形状检索 1.4.相似局部特征检索 1.5.Bag ...
MoXing——华为云深度学习服务提供的网络模型开发API
序言:MoXing是华为云深度学习服务提供的网络模型开发API.相对于TensorFlow和MXNet等原生API而言,MoXing API让模型的代码编写更加简单,而且能够自动获取高性能的分布式执行 ...
XC7K325T+TX2深度学习图像处理卡
XC7K325T+TX2深度学习图像处理卡 M/D-CAP3U是天津雷航光电科技有限公司推出的一款复合加速计算平台,由Xilinx的28nm制程的FPGA - XC7K325T-3FFG900I和NV ...
深度学习图像处理目标检测图像分割计算机视觉 01--图像预处理
深度学习图像处理目标检测图像分割计算机视觉 01-图像预处理摘要一.开发环境搭建 1.1 anaconda安装 1.2 安装TensorFlow 1.3 安装OpenCV 二.中值滤波三.高斯滤 ...
深度学习环境配置(pytorch版本)----超级无敌详细版（有手就行）
公众号文章--深度学习环境配置(pytorch版本) 写在前面:如果这篇文章对大家有帮助的话,欢迎关注Franpper的公众号:Franpper的知识铺,回复"进群",即可进入讨论 ...

深度学习图像处理之VGG网络模型 (超级详细)

VGG介绍:

由牛津大学著名研究所VGG提出，斩获该年ImageNet竞赛中Localization Task（定位任务）第一名和Classification Task（分类任务）第二名。

VGG网络的配置：（VGG-16是许多模型中的主干网络）

在原论文中，作者给了6个VGG网络的不同配置，并且尝试了不同的深度（11、13、16、19层）以及是否采用LRN等。在实际使用过程中，我们一般都会采用D这个配置，即16层：13个卷积层以及最后3个全连接层。

VGG网络的亮点：

概念扩展-CNN感受野（receptive field）：

在卷积神经网络中，决定某一层输出结果中一个元素所对应的输入层的区域大小，被称作感受野。通俗的来说就是，输出feature map 上的一个单元对应输入层上的区域大小。

简单例子：

如上图，最下层是一个991的特征矩阵，首先将其通过Conv1（大小为33，步距为1），通过计算公式，可以得到大小为441的特征矩阵；再将其通过最大池化下载量操作（大小为22，步距为2），得到一个221的大小。

接下来计算感受野：

Feature map(最后得到的特征图)：F=1

Pool1层：其输出的是22大小，其输入的是44大小，Ksize=2,Stride=2则F=（1-1）*2+2=2

Conv1：其输出的是44大小，其输入的是99大小，Ksize=3,Stride=2则F=（2-1）*2+3=5

VGG网络结构：

补充：（通过3*3的卷积核，输入、输出尺寸不变；通过maxpool，将特征矩阵的高和宽直接缩小一半）。

结构图：（通过D这个模型进行绘制的）

说明：白色矩形框：代表卷积和激活函数

红色矩形框：代表最大池化下载量

蓝色矩形框：全连接层和激活函数

橙色矩形框：softmax处理

结构过程：（配置表和结构图一起观察）

1、首先输入一张2242243大小的图像，经过两个33的卷积层之后，所得到的特征图大小为224224*64（尺寸大小不变，因为采用的是64个卷积核，所以深度也为64）。

2、通过一个最大池化下载量层，得到的特征图为11211264（大小缩小一半，不改变深度）。

3、再通过两个33128的卷积层，得到的特征图为112112128（深度变为128）。

4、通过一个最大池化下载量层，得到的特征图为5656128（大小缩小一半，不改变深度）。

5、再通过三个33256的卷积层，得到的特征图为5656256（深度变为256）。

6、通过一个最大池化下载量层，得到的特征图为2828256（大小缩小一半，不改变深度）。

7、再通过三个33512的卷积层，得到的特征图为2828512（深度变为512）。

8、通过一个最大池化下载量层，得到的特征图为1414512（大小缩小一半，不改变深度）。

9、再通过三个33512的卷积层，得到的特征图为1414512（深度变为512）。

10、通过一个最大池化下载量层，得到的特征图为77512（大小缩小一半，不改变深度）。

11、再通过两个为4000个节点的全连接层以及激活函数，得到114096向量

12、再通过一个为1000个节点的全连接层（因为1000个类别），注意不需要激活函数，得到111000向量。

13、最后将通过全连接层得到的一维向量，输入到softmax激活函数，将预测结果转化为概率分布。

深度学习图像处理之VGG网络模型 (超级详细)相关推荐

最新文章

热门文章

深度学习图像处理之VGG网络模型 (超级详细)

VGG介绍:

由牛津大学著名研究所VGG提出，斩获该年ImageNet竞赛中Localization Task（定位任务）第一名和Classification Task（分类任务）第二名。

VGG网络的配置：（VGG-16是许多模型中的主干网络）

在原论文中，作者给了6个VGG网络的不同配置，并且尝试了不同的深度（11、13、16、19层）以及是否采用LRN等。在实际使用过程中，我们一般都会采用D这个配置，即16层：13个卷积层以及最后3个全连接层。

VGG网络的亮点：

概念扩展-CNN感受野（receptive field）：

在卷积神经网络中，决定某一层输出结果中一个元素所对应的输入层的区域大小，被称作感受野。通俗的来说就是，输出feature map 上的一个单元对应输入层上的区域大小。

简单例子：

如上图，最下层是一个9*9*1的特征矩阵 ，首先将其通过Conv1（大小为3*3，步距为1），通过计算公式，可以得到大小为4*4*1的特征矩阵；再将其通过最大池化下载量操作（大小为2*2，步距为2），得到一个2*2*1的大小。

接下来计算感受野：

Feature map(最后得到的特征图)：F=1

Pool1层：其输出的是2*2大小，其输入的是4*4大小，Ksize=2,Stride=2则F=（1-1）*2+2=2

Conv1：其输出的是4*4大小，其输入的是9*9大小，Ksize=3,Stride=2则F=（2-1）*2+3=5

VGG网络结构：

补充：（通过3*3的卷积核，输入、输出尺寸不变；通过maxpool，将特征矩阵的高和宽直接缩小一半）。

结构图：（通过D这个模型进行绘制的）

说明：白色矩形框：代表卷积和激活函数

红色矩形框：代表最大池化下载量

蓝色矩形框：全连接层和激活函数

橙色矩形框：softmax处理

结构过程：（配置表和结构图一起观察）

1、首先输入一张224*224*3大小的图像，经过两个3*3的卷积层之后，所得到的特征图大小为224*224*64（尺寸大小不变，因为采用的是64个卷积核，所以深度也为64）。

2、通过一个最大池化下载量层，得到的特征图为112*112*64（大小缩小一半，不改变深度）。

3、再通过两个3*3*128的卷积层，得到的特征图为112*112*128（深度变为128）。

4、通过一个最大池化下载量层，得到的特征图为56*56*128（大小缩小一半，不改变深度）。

5、再通过三个3*3*256的卷积层，得到的特征图为56*56*256（深度变为256）。

6、通过一个最大池化下载量层，得到的特征图为28*28*256（大小缩小一半，不改变深度）。

7、再通过三个3*3*512的卷积层，得到的特征图为28*28*512（深度变为512）。

8、通过一个最大池化下载量层，得到的特征图为14*14*512（大小缩小一半，不改变深度）。

9、再通过三个3*3*512的卷积层，得到的特征图为14*14*512（深度变为512）。

10、通过一个最大池化下载量层，得到的特征图为7*7*512（大小缩小一半，不改变深度）。

11、再通过两个为4000个节点的全连接层以及激活函数，得到1*1*4096向量

12、再通过一个为1000个节点的全连接层（因为1000个类别），注意不需要激活函数，得到1*1*1000向量。

13、最后将通过全连接层得到的一维向量，输入到softmax激活函数，将预测结果转化为概率分布。

深度学习图像处理之VGG网络模型 (超级详细)相关推荐

最新文章

热门文章

如上图，最下层是一个991的特征矩阵，首先将其通过Conv1（大小为33，步距为1），通过计算公式，可以得到大小为441的特征矩阵；再将其通过最大池化下载量操作（大小为22，步距为2），得到一个221的大小。

Pool1层：其输出的是22大小，其输入的是44大小，Ksize=2,Stride=2则F=（1-1）*2+2=2

Conv1：其输出的是44大小，其输入的是99大小，Ksize=3,Stride=2则F=（2-1）*2+3=5

1、首先输入一张2242243大小的图像，经过两个33的卷积层之后，所得到的特征图大小为224224*64（尺寸大小不变，因为采用的是64个卷积核，所以深度也为64）。

2、通过一个最大池化下载量层，得到的特征图为11211264（大小缩小一半，不改变深度）。

3、再通过两个33128的卷积层，得到的特征图为112112128（深度变为128）。

4、通过一个最大池化下载量层，得到的特征图为5656128（大小缩小一半，不改变深度）。

5、再通过三个33256的卷积层，得到的特征图为5656256（深度变为256）。

6、通过一个最大池化下载量层，得到的特征图为2828256（大小缩小一半，不改变深度）。

7、再通过三个33512的卷积层，得到的特征图为2828512（深度变为512）。

8、通过一个最大池化下载量层，得到的特征图为1414512（大小缩小一半，不改变深度）。

9、再通过三个33512的卷积层，得到的特征图为1414512（深度变为512）。

10、通过一个最大池化下载量层，得到的特征图为77512（大小缩小一半，不改变深度）。

11、再通过两个为4000个节点的全连接层以及激活函数，得到114096向量

12、再通过一个为1000个节点的全连接层（因为1000个类别），注意不需要激活函数，得到111000向量。