2021的CVPR最近出炉啦,觉得总局限在自己做的那个小方向里还是不行,要把眼光放长远一点,广泛地读论文~加油

主体内容为机翻+个人校对,如有错误欢迎指正~

Inception Convolution with Efficient Dilation Search

论文地址:https://arxiv.org/abs/2012.13587

顺便安利一个CVPR整理地址贴:https://github.com/amusi/CVPR2021-Papers-with-Code

摘要

膨胀卷积(Dilation convolution)是标准卷积神经网络的一个关键变体,它能控制有效的接受野和处理对象的大尺度变化,而不引入额外的计算。然而,文献中对有效感受野与扩张卷积数据拟合的讨论较少。为了充分挖掘其潜力,我们提出了一种新的膨胀卷积突变体,即 inception (dilated) convolution其卷积在不同轴(axes)、通道和层之间具有独立的膨胀。为了探索一种将复杂的 Inception Convolution 与数据拟合的实用方法,提出了一种简单而有效的基于统计优化的膨胀搜索算法(EDO)。该搜索方法以零成本的方式运行,适用于大规模数据集的速度非常快。实证结果表明,我们的方法在广泛的基准中获得一致的性能增益。例如,通过简单地将renet -50骨干中的3 × 3标准卷积替换为inception卷积,我们将MS-COCO上的Faster-RCNN地图从36.4%提高到39.2%。此外,在ResNet-101 backbone上使用相同的替换,我们在COCO val 2017上实现了从下向上人体姿态估计的AP分数从60.2%到68.5%的巨大提升。

(总结:与膨胀卷积的改进就是,dilation这个参数在不同维度上都可以独立调整,至于如何调整呢?采取NAS进行搜索,从而可以针对不同的数据集进行调整。)

1 Introduction

感受野是卷积神经网络的一个重要概念,得到了广泛的研究。作者[31]证明了感受野的强度大致为高斯分布,只有感受野中心部分周围的少数像素有效地有助于输出神经元的响应。此外,在之前的研究中,已经针对不同的任务测试了更有意识定义的有效感受野(ERF, effective receptive field)[25,34]。

在不同的任务中,由于输入图像的大小差异和感兴趣对象的尺度范围不同,对ERF的要求也不同。例如,在图像分类中,输入的尺寸往往比较小(例如:224 × 224),而在目标检测中,输入尺寸要大得多,目标的尺度范围也很大。即使对于固定网络的同一任务,某一卷积层的最优ERF也可能与[25,33]中讨论的标准卷积运算不同。由于ERF的要求不断变化,需要针对不同的任务提出一种通用的、实用的ERF优化算法。

正如[31]中讨论的,膨胀卷积核的dilation (膨胀率)是一个非常有效的超参数,可以调节不同任务之间的ERFs分布。[25]的工作提出在一个CNN的不同阶段分配不同的膨胀值,并取得了一致的改进。NATS[34]更进一步,将卷积分成不同的组,每个组都有独立的扩张值。

但是,他们在相对粗糙的搜索空间中使用 skeleton network architecture search 的搜索方法,忽略了扩张卷积的细粒度内部结构。因此,在本研究中,我们重点探讨了在膨胀域的搜索问题,以有效地调整ERFs

首先,我们希望有一个比[25]更灵活的搜索空间。灵活性产生了将ERFs拟合到不同数据集的能力。我们提出了一种新的膨胀卷积突变体,即 Inception Convolution,它包含尽可能多的膨胀模式,如图1所示。在Inception Convolution 的空间中,每个轴、每个通道和每个卷积层的膨胀率都是独立定义的。inception卷积提供了一个密集的可能erf范围。在消融研究中,我们进一步研究了 Inception Convolution 对搜索结果的影响。

对于搜索空间的优化,我们参考了神经结构搜索(NAS)中的扩散工作,它能够自动优化神经网络操作符组合。DARTS 和single path one-shot(SPOS)是NAS方法的两大主要家族。DARTS 训练一个超网络,其中离散操作选择(discrete operation selection) 被放松为所有候选操作输出的连续加权和。训练后,在每个块中选择体系结构权重最大的操作。SPOS在超级网的每个训练步骤中随机选择一个操作序列(子网),不同序列中的相同操作具有相同的权值。训练后,SPOS通过对多个继承共享权重的序列进行采样和评估,选择最佳的操作序列。

然而,DARTS 和SPOS都不适合我们的搜索空间。在DARTS中,块中的所有操作在训练期间应用到输入,以使体系结构权值意识到每个操作的重要性,但卷积层(块)的膨胀模式的数量很大,即16个,如果两个轴各有4个选择。这意味着DARTS需要16次连续计算,因此具有较低的GPU实用价值和较大的计算成本。SPOS在训练过程中对操作序列进行采样。然而,在我们的搜索空间中,即使在单个卷积层中,膨胀模式的数量也是巨大的,即 ,其中C为通道数, 是最大膨胀率。大量的膨胀模式给为SPOS设计一个公平的抽样策略带来了极大的困难。

本文提出了一种简单而高效的膨胀优化算法(EDO)。在EDO中,超网络的每一层都是一个标准的卷积操作,其内核覆盖了所有可能的膨胀模式。在对超网络进行预训练后,通过求解一个统计优化问题,为每个卷积层中的每个通道选择膨胀模式。对于每一层,通过(1)原始卷积层的输出期望和(2)裁剪出来的与选择的膨胀模式的膨胀卷积之间的l1误差的最小化,用预先训练好的权值来解决选择问题。

EDO以一种非常简单的方式支持对我们的完全扩张域搜索空间进行高效的通道扩张优化。与基于搜索的方法[15]相比,我们的方法的搜索代价几乎为零,因为唯一的代价是计算训练权重的统计。与差分方法相比[29,3],它将不同模式的顺序计算转换为并行方式,从而具有更低的计算成本和更高的GPU利用率。此外,与SPOS相比,我们不需要设计复杂的机制来保证抽样的公平性和子网的准确排序。

主要贡献:

•我们提出了一种新的扩张卷积突变体,即Inception卷积,它可以有效地将ERF拟合到数据中。

•我们提出了一种基于零成本统计的架构搜索算法(EDO),用于 Inception Convolution,以使架构与数据匹配,无需成本。

实证结果表明,EDO在不增加任何计算预算的情况下,在可扩展的任务和模型范围上取得了普遍的改进。在ImageNet数据集上,我们的性能比ResNet-50高出1.1%。在COCO数据集上,我们的IC-ResNet50和IC-ResNet101使用Faster-RCNN-FPN可以达到38.9%和41.9%的AP,分别比基线高出2.5%和3.1%。在自下而上的人体姿势估计方面,在COCO val2017上,我们的性能比resnet -101高8.3%。此外,我们的 Inception Convolution 在实例分割和人群检测方面也有显著的改进。

---------------------------------------------------

读CVPR2021主要是为了看看业界顶尖的同行都在做什么,研一小白看公式真的费劲,看看intro得了555

CVPR2021 - Inception Convolution with Efficient Dilation Search相关推荐

  1. CVPR2021 Paper Reading——Inception Convolution with Efficient Dilation Search

    动机 1.空洞卷积核的dilation (空洞率)是一个非常有效的超参数,可以调节不同任务之间的有效感受野(ERF)分布. 由于输入图片的尺寸变化以及感兴趣目标的尺寸变化,ERF根据不同任务进行调整是 ...

  2. [论文阅读] SqueezeSegV3: Spatially-Adaptive Convolution for Efficient Point-Cloud Segmentation

    文章目录 1. 主要思想 2. 具体方法 3. 实验支撑 4. 总结启示 5. 相关文献 paper 原论文的链接 code: 源代码链接 1. 主要思想 通过什么方式,解决了什么问题 要解决的问题 ...

  3. 一文详解Inception家族的前世今生(从InceptionV1-V4、Xception)附全部代码实现

    [导读]今天将主要介绍Inception的家族及其前世今生.Inception 网络是 CNN 发展史上一个重要的里程碑.在 Inception 出现之前,大部分 CNN 仅仅是把卷积层堆叠得越来越多 ...

  4. CVPR 2021 论文和开源项目合集(Papers with Code)

    摘自:https://github.com/amusi/CVPR2021-Papers-with-Code CVPR 2021 论文和开源项目合集 CVPR 2021 论文和开源项目合集(Papers ...

  5. 神经网络架构搜索(Neural Architecture Search)杂谈

    一.背景 机器学习从业者被戏称为"调参工"已经不是一天两天了.我们知道,机器学习算法的效果好坏不仅取决于参数,而且很大程度上取决于各种超参数.有些paper的结果很难重现原因之一就 ...

  6. 【论文解析】Anchor-Free Person Search

    相关链接: https://zhuanlan.zhihu.com/p/359617800 code:https://github.com/daodaofr/AlignPS 下方↓公众号后台回复&quo ...

  7. 神经网络架构搜索(Neural Architecture Search, NAS)笔记

    目录 (一)背景 (二)NAS流程 2.1 定义搜索空间 2.2 搜索策略 (三)加速 (四)变体及扩展 4.1 扩展到其他任务 4.2 扩展到其他超参数 (一)背景 机器学习从业者被戏称为" ...

  8. Person Search

    Person Search person search旨在从一个原始的场景中找到特定的车辆,和person re-id是不同的,re-id依赖于crop的图片,search的任务更加具有现实意义.其实 ...

  9. Neural Architecture Search: A survey

    文章目录 1. Introduction 2. Search Space 2.1搜索空间定义: 2.2 常见的搜索空间举例: 2.2.1 简单链式搜索空间: 2.2.2 复杂多分支搜索空间 2.2.3 ...

最新文章

  1. R语言Kmeans聚类、抽取聚类簇:fpc包clusterboot函数通过bootstrap重采样的方法评估Kmeans聚类的稳定性、fpc包的kmeansruns函数通过CH准则和ASW获取最优K值
  2. 【elementUI】el-tree搜索时加载子节点对应父节点、父节点对应子节点树
  3. 【Java Web开发指南】Maven+MyBatis实现增删改查的Demo
  4. 用Java实现HTTP断点续传功能(ZT)
  5. Qt学习之路(52): 拖放技术之一
  6. SSM实现根据后台控制禁用select
  7. SQL语言:嵌入式SQL知识笔记
  8. java内存加载dll_jacob调用dll控件,是否要执行内存释放,具体方法怎么写
  9. linux系统软件包依赖关系,Ubuntu解决包依赖关系
  10. Qt QString 与 const char* 类型的转换
  11. mysql5.7下载镜像_docker重新打包MySQL5.7镜像
  12. 利用MATLAB绘制阶梯图(stairs函数)并获取所绘制的阶梯图的横纵坐标值
  13. 分享怎样自己做网站赚钱年入40万
  14. 研究生科研素养提升的测试题
  15. web学习笔记-html-html新增
  16. QNX系统的实时性分析-实时性能测试标准
  17. 修改win10更新服务器地址,Windows 10 更新缓存位置能否修改
  18. 项目编译不成功原因之一的引用jar包问题
  19. 基于3个操作系统的靶场,从零开始做安全渗透工程师
  20. Qt绘图:求圆和椭圆上任意角度点的坐标

热门文章

  1. 2015年GRE考试报名:GRE北京考点信息
  2. 钓鱼站点以世界杯足球赛为饵,收集个人资料
  3. jQuery选择器大全总结
  4. HTML5视频播放器增强脚本——修改增强
  5. 实景三维建模怎么玩?
  6. 【服务器】查看端口占用方法,无法启动项目,CLOSE_WAIT
  7. 关于智能车_电磁三轮pid控制的学习过程
  8. 汽车制造厂商使用大数据的5个思路
  9. 简单选择排序显示第K趟
  10. Cookie是什么意思