文章目录

  • 深度卷积神经网络(AlexNet)
    • AlexNet
    • 模型说明
    • 激活函数选定
    • 模型定义
    • 读取数据集
    • 训练AlexNet
    • 小结

深度卷积神经网络(AlexNet)

2012年,AlexNet横空出世。它首次证明了学习到的特征可以超越手工设计的特征

它一举打破了计算机视觉研究的现状。 AlexNet使用了8层卷积神经网络,并以很大的优势赢得了2012年ImageNet图像识别挑战赛。

AlexNet

AlexNet和LeNet的架构非常相似,如下图所示。 注意,这里我们提供了一个稍微精简版本的AlexNet,去除了当年需要两个小型GPU同时运算的设计特点。

AlexNet 和 LeNet 的设计理念非常相似,但也存在显著差异。 首先,AlexNet 比相对较小的 LeNet5 要深得多。 AlexNet 由八层组成:五个卷积层、两个全连接隐藏层和一个全连接输出层。 其次,AlexNet 使用 ReLU 而不是 sigmoid 作为其激活函数。 下面,让我们深入研究 AlexNet 的细节。

模型说明

在AlexNet的第一层,卷积窗口的形状是 11×1111 \times 1111×11 。 由于ImageNet中大多数图像的宽和高比MNIST图像的多10倍以上,因此,需要一个更大的卷积窗口来捕获目标。 第二层中的卷积窗口形状被缩减为 5×55 \times 55×5 ,然后是 3×33 \times 33×3 。 此外,在第一层、第二层和第五层卷积层之后,加入窗口形状为 3×33 \times 33×3 、步幅为2的最大汇聚层。 而且,AlexNet的卷积通道数目是LeNet的10倍。

在最后一个卷积层后有两个全连接层,分别有4096个输出。 这两个巨大的全连接层拥有将近1GB的模型参数。 由于早期GPU显存有限,原版的AlexNet采用了双数据流设计,使得每个GPU只负责存储和计算模型的一半参数。 幸运的是,现在GPU显存相对充裕,所以我们现在很少需要跨GPU分解模型(因此,我们的AlexNet模型在这方面与原始论文稍有不同)。

激活函数选定

此外,AlexNet将sigmoid激活函数改为更简单的ReLU激活函数

一方面,ReLU激活函数的计算更简单,它不需要如sigmoid激活函数那般复杂的求幂运算。

另一方面,当使用不同的参数初始化方法时,ReLU激活函数使训练模型更加容易。 当sigmoid激活函数的输出非常接近于0或1时,这些区域的梯度几乎为0,因此反向传播无法继续更新一些模型参数。 相反,ReLU激活函数在正区间的梯度总是1。 因此,如果模型参数没有正确初始化,sigmoid函数可能在正区间内得到几乎为0的梯度,从而使模型无法得到有效的训练。

模型定义

现在我们根据上图来构建 AlexNet卷积神经网络。

相对于LeNet模型,我们做了以下的改变:

1、增加了卷积层的数量,现在AlexNet卷积神经网络具有5个卷积层。

2、使用了非线性激活函数ReLU()激活函数,更好应用模型的优化方法。

3、添加了暂退法Dropout来减少模型的过拟合,降低模型复杂度。

import torch
from torch import nn
from d2l import torch as d2lnet = nn.Sequential(# 这里,我们使用一个11*11的更大窗口来捕捉对象。# 同时,步幅为4,以减少输出的高度和宽度。# 另外,输出通道的数目远大于LeNetnn.Conv2d(1, 96, kernel_size=11, stride=4, padding=1), nn.ReLU(),nn.MaxPool2d(kernel_size=3, stride=2),# 减小卷积窗口,使用填充为2来使得输入与输出的高和宽一致,且增大输出通道数nn.Conv2d(96, 256, kernel_size=5, padding=2), nn.ReLU(),nn.MaxPool2d(kernel_size=3, stride=2),# 使用三个连续的卷积层和较小的卷积窗口。# 除了最后的卷积层,输出通道的数量进一步增加。# 在前两个卷积层之后,汇聚层不用于减少输入的高度和宽度nn.Conv2d(256, 384, kernel_size=3, padding=1), nn.ReLU(),nn.Conv2d(384, 384, kernel_size=3, padding=1), nn.ReLU(),nn.Conv2d(384, 256, kernel_size=3, padding=1), nn.ReLU(),nn.MaxPool2d(kernel_size=3, stride=2),nn.Flatten(),# 这里,全连接层的输出数量是LeNet中的好几倍。使用dropout层来减轻过拟合nn.Linear(6400, 4096), nn.ReLU(),nn.Dropout(p=0.5),nn.Linear(4096, 4096), nn.ReLU(),nn.Dropout(p=0.5),# 最后是输出层。由于这里使用Fashion-MNIST,所以用类别数为10,而非论文中的1000nn.Linear(4096, 10))

我们构造一个高度和宽度都为224的单通道数据,来观察每一层输出的形状。 它与下图中的 AlexNet架构 相匹配。

X = torch.randn(1, 1, 224, 224)
for layer in net:X=layer(X)print(layer.__class__.__name__,'output shape:\t',X.shape)
Conv2d output shape:  torch.Size([1, 96, 54, 54])
ReLU output shape:   torch.Size([1, 96, 54, 54])
MaxPool2d output shape:  torch.Size([1, 96, 26, 26])
Conv2d output shape:     torch.Size([1, 256, 26, 26])
ReLU output shape:   torch.Size([1, 256, 26, 26])
MaxPool2d output shape:  torch.Size([1, 256, 12, 12])
Conv2d output shape:     torch.Size([1, 384, 12, 12])
ReLU output shape:   torch.Size([1, 384, 12, 12])
Conv2d output shape:     torch.Size([1, 384, 12, 12])
ReLU output shape:   torch.Size([1, 384, 12, 12])
Conv2d output shape:     torch.Size([1, 256, 12, 12])
ReLU output shape:   torch.Size([1, 256, 12, 12])
MaxPool2d output shape:  torch.Size([1, 256, 5, 5])
Flatten output shape:    torch.Size([1, 6400])
Linear output shape:     torch.Size([1, 4096])
ReLU output shape:   torch.Size([1, 4096])
Dropout output shape:    torch.Size([1, 4096])
Linear output shape:     torch.Size([1, 4096])
ReLU output shape:   torch.Size([1, 4096])
Dropout output shape:    torch.Size([1, 4096])
Linear output shape:     torch.Size([1, 10])

读取数据集

尽管本文中AlexNet是在ImageNet上进行训练的,但我们在这里使用的是Fashion-MNIST数据集。因为即使在现代GPU上,训练ImageNet模型,同时使其收敛可能需要数小时或数天的时间。 将AlexNet直接应用于Fashion-MNIST的一个问题是,Fashion-MNIST图像的分辨率( 28×2828 \times 2828×28 像素)低于ImageNet图像。 为了解决这个问题,我们将它们增加到 224×224224 \times 224224×224 (通常来讲这不是一个明智的做法,但我们在这里这样做是为了有效使用AlexNet架构)。 我们使用d2l.load_data_fashion_mnist函数中的resize参数执行此调整。

batch_size = 128
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=224)

训练AlexNet

现在,我们可以开始训练AlexNet了。与之前的LeNet相比,这里的主要变化是使用更小的学习速率训练,这是因为网络更深更广、图像分辨率更高,训练卷积神经网络就更昂贵。

lr, num_epochs = 0.01, 10
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())

可以发现,AlexNet 神经网络模型相对于LeNet模型(train:0.82, test: 0.78)有了明显的提升。

小结

1、AlexNet的架构与LeNet相似,但使用了更多的卷积层和更多的参数来拟合大规模的ImageNet数据集。

2、今天,AlexNet已经被更有效的架构所超越,但它是从浅层网络到深层网络的关键一步。

3、尽管AlexNet的代码只比LeNet多出几行,但学术界花了很多年才接受深度学习这一概念,并应用其出色的实验结果。这也是由于缺乏有效的计算工具。

4、Dropout、ReLU和预处理是提升计算机视觉任务性能的其他关键步骤。

AlexNet-深度卷积神经网络(CNN卷积神经网络)相关推荐

  1. 深度学习之CNN卷积神经网络

    详解卷积神经网络(CNN) 卷积神经网络(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出 ...

  2. 深度学习之CNN卷积神经网络详解以及猫狗识别实战

    文章目录 CNN 解决了什么问题? 需要处理的数据量太大 图像简单数字化无法保留图像特征 CNN核心思想 局部感知 参数共享 卷积神经网络-CNN 的基本原理 卷积--提取特征 池化层(下采样)--数 ...

  3. 【从线性回归到 卷积神经网络CNN 循环神经网络RNN Pytorch 学习笔记 目录整合 源码解读 B站刘二大人 绪论(0/10)】

    深度学习 Pytorch 学习笔记 目录整合 数学推导与源码详解 B站刘二大人 目录传送门: 线性模型 Linear-Model 数学原理分析以及源码详解 深度学习 Pytorch笔记 B站刘二大人( ...

  4. 卷积运算(CNN卷积神经网络)

    文章目录 图像卷积 互相关运算 卷积层 图像中目标的边缘检测 学习卷积核 小结 图像卷积 最近学习到了卷积深度网络,有些本质概念太深暂时还没有理解透彻,现在主要记录下卷积神经网络中的一些计算. 以下介 ...

  5. DenseNet - 稠密神经网络(CNN卷积神经网络)

    文章目录 DenseNet - 稠密神经网络 稠密块体 稠密块中的卷积层 稠密块 过渡层 DenseNet模型 训练模型 小结 DenseNet - 稠密神经网络 ResNet极大地改变了如何参数化深 ...

  6. ResNet - 残差神经网络(CNN卷积神经网络)

    文章目录 ResNet - 残差网络 定义残差块(Residual) ResNet模型 训练模型 小结 ResNet - 残差网络 关于ResNet残差网络,最本质且主要的公式如下: f(x)=g(x ...

  7. 深度学习--卷积神经网络CNN

    主要内容 1. 神经网络 1.1 感知器 1.2 Sigmoid神经元 1.3 神经网络 2. 卷积神经网络CNN 2.1 卷积神经网络结构 2.2 数据输入层 2.3 卷积层 2.3.1 局部感知( ...

  8. 搭建CNN卷积神经网络(用pytorch搭建)

    手撕卷积神经网络-CNN 卷积:提取特征 池化:压缩特征 heigh X weigh X depth 长度 宽度.深度(也就是特征图个数) 例如输入32x32x3 hxwxc 卷积就是取某个小区域进行 ...

  9. cnn 预测过程代码_代码实践 | CNN卷积神经网络之文本分类

    学习目录阿力阿哩哩:深度学习 | 学习目录​zhuanlan.zhihu.com 前面我们介绍了:阿力阿哩哩:一文掌握CNN卷积神经网络​zhuanlan.zhihu.com阿力阿哩哩:代码实践|全连 ...

  10. 图卷积神经网络代码讲解,cnn卷积神经网络伪代码

    1.卷积神经网络通俗理解 卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Ne ...

最新文章

  1. matlab如何点对点画曲线,MIMOBeamformingExample
  2. 可滚动Widget SingleChildScrollView
  3. 打印出所有的水仙花数javascript_习题4-6 水仙花数 (20分)
  4. loading gif 透明_搞笑GIF:有这样的女朋友下班哪里都不想去
  5. mycat 1.6.5 for mysql 8分表攻略
  6. 柔和渐变UI素材,让设计更加柔和的法宝。
  7. 自己动手制作USB启动盘
  8. 基于stm32的银行排队叫号机设计
  9. 计算机学科代表的思维,【判断题】计算思维,是指计算机、软件及计算相关学科中的科学家和工程技术人员的思维模式。计算思维又称构造思维,它以设计和构造为特征, 以计算机学科为代表。...
  10. macbook 鼠标光标乱跳解决
  11. C# 通过UDP 远程监控摄像头
  12. Python——全国二级等级考试
  13. mysql dump 拒绝访问_mysqldump访问被拒绝
  14. Excel 序号自动增长,变更
  15. linux oracle 失败怎么办,Linux开机报错unable to load selinux policy怎么办?
  16. 机器学习:SOM聚类的实现
  17. Linux 判断文件或文件夹是否存在
  18. 直播平台对企业的作用有哪些
  19. 山东大学计算机博士申请,山东大学博士研究生招生“申请
  20. Spark宽依赖 窄依赖 Job Stage Executor Task 总结

热门文章

  1. java述职报告ppt_java开发人员述职报告.ppt
  2. 伺服电机功率计算选型与伺服电机惯量匹配
  3. 刚体转动的惯性张量和转动惯量的区别和联系
  4. 如何高效完成产品生命周期管理
  5. CAE软件技术现状调研
  6. flash花屏 html,电脑中Firefox火狐浏览器出现卡顿、花屏、Flash崩溃等问题的解决方法...
  7. 鼠标右键菜单管理,自己就是右键管家,右键菜单清理
  8. Junit - Eclipse 教程
  9. OA办公系统免费版评测 哪个适合自己?
  10. 五分钟读完《人性的弱点》