论文阅读SE_NET Squeeze-and-Excitation networks
基本信息
作者/机构 Jie Hu University of Oxford
期刊/会议/年份 2018
DOI/论文地址 CVPR 2018 Open Access Repository
代码地址 https://github.com/hujie-frank/SENet
相关资料 【深度学习经典网络架构—8】:注意力机制之SE_Block_seblock_米开朗琪罗~的博客-CSDN博客
Squeeze-and-Excitation Block - 知乎
SENet(Squeeze-and-Excitation Networks)论文详解 - 简书
摘要
卷积神经网络基于卷积操作,通过在局部感受野内融合空间和通道信息来提取信息特征。为了增强网络的表征能力,最近的一些方法已经显示增强空间编码的好处。在本研究中,我们专注于通道关系,并提出一种新的架构单元,称为“Squeeze-and-Excitation”(SE)块,通过显式建模通道之间的相互依赖关系,自适应地重新校准通道特征响应。我们证明,通过堆叠这些块,我们可以构建能够在具有挑战性的数据集上广泛推广的SENet架构。关键的是,我们发现SE块在最小的额外计算成本下显著提高了现有最先进的深层架构的性能。SENets是我们在ILSVRC 2017分类比赛中获得第一名并将top 5错误率显着降低至2.251%的基础,相对于2016年的获奖条目,实现了约25%的相对改进。
主要内容
卷积的表示
如上图Frt的输入为X∈ℝH`× W`× C` ,输出为U∈ℝH× W× C,Frt是一个卷积操作,用V = [V1,v2,v3,,,,Vc]表示,Vc表示第C个卷积,输出用U = [U1,U2….Uc]表示,则有
由于输出是通过所有通道的求和产生的,因此通道相关性隐式地嵌入在Vc 卷积后的输出中。我们期望通过显式地建模通道的相互依赖性来增强卷积特征的学习,从而使网络能够提高其对信息特征的敏感性,这些信息特征可以被后续转换利用。因此,我们希望为其提供获取全局信息的途径,并在输入下一个转换之前,分两步(Sequeeze and Excitation)重新校准滤波器响应。
Sequeeze :Global Information Embedding
每个卷积核只能利用其对应的局部感受野内的信息来生成输出特征图。换句话说,卷积核只能“看到”局部区域的信息,而不能利用更远的区域的信息。当这些卷积操作被堆叠成深层网络时,较浅的层的局部感受野会更小,导致它们在利用更广泛的上下文信息时受到限制。因此,作者指出在深层网络中使用单独的卷积核来捕捉通道之间的相关性是有限的。
为了解决这个问题,作者建议将全局空间信息压缩到信道描述符中。
Zc是队特征U在H*W空间上执行全局平均池化后的结果
Squeeze操作就是在得到U (多个特征图)之后采用全局平均池化操作对每一个特征图进行压缩,使其C个特征图最后变成1 × 1 × C的实数数列。
Excitation: Adaptive Recalibration 自适应校准
为了利用Squeeze操作中聚合的信息,我们需要继续执行第二个操作Excitation,目的是完全捕获通道依赖关系。为了实现这一目标,该功能必须满足两个标准:第一,它必须操作灵活(尤其是它必须能够学习通道之间的非线性关系),第二,它必须学习非互斥关系,因为我们希望多个通道都能被加强(而不是类似one-hot那种仅加强了某一个通道特征)。为了满足这些标准,作者选择使用带有sigmoid 激活的简单门控机制。
σ 表示sigmoid激活函数,δ 表示relu激活函数 其中
为了限制模型的复杂性并使其通用化,作者使用两个FC层来对选通机制进行参数化,即具有降维率r的降维层,一个ReLU,然后是一个维度升高层,再转到输出特征图的通道维度。通过使用激活重新缩放特征图来获得Block的最终输出。
得到s后,可以通过下式得到SE_Block的最终输出:
应用
在inception上的使用
在ResNet上的使用
实验
不足点/发展方向
论文阅读SE_NET Squeeze-and-Excitation networks相关推荐
- 全卷积(FCN)论文阅读笔记:Fully Convolutional Networks for Semantic Segmentation
论文阅读笔记:Fully Convolutional Networks forSemantic Segmentation 这是CVPR 2015拿到best paper候选的论文. 论文下载地址:Fu ...
- 【论文阅读】Spatio-Temporal Graph Convolutional Networks:...Traffic Forecasting[时空图卷积网络:用于交通预测的深度学习框架](1)
[论文阅读]Spatio-Temporal Graph Convolutional Networks: A Deep Learning Framework for Traffic Forecastin ...
- 论文阅读:Multi-view Convolutional Neural Networks for 3D Shape Recognition
Preface 今天阅读一篇ICCV2015的论文:<Multi-view Convolutional Neural Networks for 3D Shape Recognition>, ...
- 【论文阅读】OUTRAGEOUSLY LARGE NEURAL NETWORKS: THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER
一.背景 神经网络的吸收信息的容量(capacity)受限于参数数目. 条件计算(conditional computation)针对于每个样本,激活网络的部分子网络进行计算,它在理论上已证明,可以作 ...
- 对抗样本论文阅读Intriguing properties of neural networks
Intriguing properties of neural networks 文章提出了神经网络中的两个有趣的特性,首次提出了对抗样本adversarial examples的概念 Represe ...
- 论文阅读:Meta-Learning in Neural Networks: A Survey
题目:Meta-Learning in Neural Networks: A Survey 论文地址:https://arxiv.org/abs/2004.05439 作者:Timothy Hospe ...
- 【论文阅读】DCAN: Deep Contour-Aware Networks for Accurate Gland Segmentation
DCAN: Deep Contour-Aware Networks for Accurate Gland Segmentation 作者:Hao Chen Xiaojuan Qi Lequan Yu ...
- 经典论文阅读densenet(Densely Connected Convolutional Networks)
最近的工作表明,如果卷积网络在靠近输入的层和靠近输出的层之间包含较短的连接,则它们可以更深入,更准确和有效地进行训练.具有L层的传统卷积网络具有L个连接-每个层及其后续层之间有一个连接.对于每个层,将 ...
- 【论文阅读】DeepPap: Deep Convolutional Networks for Cervical Cell Classification
写在前面:该文章发于期刊. DeepPap: Deep Convolutional Networks for Cervical Cell Classification Ling Zhang, Le L ...
最新文章
- 字符A-Z - ABCD...XYZ
- HTML5学习之语义化标签
- Web Bundles 学习笔记
- 《Python CookBook2》 第一章 文本 - 检查字符串中是否包含某字符集合中的字符 简化字符串的translate方法的使用...
- 《Python Cookbook 3rd》笔记(1.10):删除序列相同元素并保持顺序
- springmvc log4j配置
- maven创建java,Maven创建Java项目
- 深入理解ButterKnife源码并掌握原理(五)
- JS操作Cookie写入和读取实例代码
- YYF的一些简单配置 2016-10-13
- httpclient 连接池工具类_C# 中 HttpClient 的简单使用
- 批量创建文件夹-批处理(一)
- Typora 一款非常简洁,非常适合程序员使用的markdown文档书写工具
- php pdo 遍历,PHP PDO操作总结
- 计算机程序设计专业大学排名,全国计算机专业大学排名一览表
- 姓名:海宁(Justine Henin-Hardenne)
- windows10自带视频录制器
- git问题:You have not concluded your merge (MERGE_HEAD exists)
- 弃用手机号码未被解绑小米账户:用户信息遭泄露
- 服务器的ftp数据库信息,如何查看ftp服务器数据库