点上方蓝字计算机视觉联盟获取更多干货

在右上方 ··· 设为星标 ★,与你不见不散

编辑:Sophia
计算机视觉联盟  报道  | 公众号 CVLianMeng

转载于 :机器之心

AI博士笔记系列推荐:

博士笔记 | 周志华《机器学习》手推笔记“神经网络”

性能显著提升,参数量却没有明显增加。最新的 Split-Attention Networks 继承了 ResNet 简洁通用的特性。

2015 年,ResNet 横空出世,一举斩获 CVPR 2016 最佳论文奖,而且在 Imagenet 比赛的三个任务以及 COCO 比赛的检测和分割任务上都获得了第一名。四年过去,这一论文的被引量已超 40000 次,也陆续出现了很多变体。最近,来自亚马逊、加州大学戴维斯分校的张航、李沐、Alexander Smola 等研究者进一步改进了 ResNet,性能显著提升,但参数量并没有显著增加,超越了之前的 ResNeXt、SENet 等模型。

该研究的一作,亚马逊应用科学家张航表示:「分类网络通常作为下游应用的核心,但是最近很多分类问题的工作没有保持之前 ResNet 那样的模块化的设计,导致目标检测等主流应用的研究还在使用 ResNet。所以我们设计了新的 ResNet 变体 ResNeSt,可以直接应用到已有的主流模型中,显著提高 Mask R-CNN,Cascade R-CNN 等模型的结果(~3%)。」

  • 论文地址:https://hangzhang.org/files/resnest.pdf

  • 项目地址:https://github.com/zhanghang1989/ResNeSt

尽管图像分类模型不断进化,但目标检测、语义分割等多数下游任务仍在使用 ResNet 变体作为其骨干网络,因为后者拥有简单而模块化的结构。

在这份论文中,研究者提出了一种模块化 Split-Attention 块,可以将注意力分散到若干特征图组中。按照 ResNet 的风格堆叠这些 Split-Attention 块,研究者得到了一个 ResNet 的新变体,称为 ResNeSt。它保留了整体的 ResNet 结构,可直接用于下游任务,但没有增加额外的计算量。

研究者致力于对 ResNet 进行简单的架构修改。具体地说,每个块都将特征图分为几组(根据通道维数)和更细粒度的子组或 splits,其中,每个组的特征表示是通过它的 splits 表示的加权组合确定的(根据全局上下文信息选择权重)。研究者将得到的结果单元称为 Split-Attention 块,它简单且模块化。

实验表明,ResNeSt 优于其他拥有相似模型复杂度的网络。ResNeSt-50 在 ImageNet 上实现了 81.13% 的 top 1 准确率,比此前最好的 ResNet 变体高 1% 以上。这一提升对于目标检测、实例分割、语义分割等下游任务来说很有意义。此外,将 ResNet-50 的骨干网络替换为 ResNeSt-50,MS-COCO 上 FasterRCNN 的 mAP 从 39.25% 提升至 42.33%,ADE20K 上 DeeplabV3 的 mIoU 从 42.1% 提升至 45.1%。

表 1:如左图所示,在速度与准确率的平衡方面,ResNeSt 达到了 SOTA 水平;右上图为 ResNeSt 在 ImageNet 上的 Top-1 准确率;右下图为迁移学习结果:MS-COCO 上的目标检测 mAP 以及 ADE20K 上的语义分割 mIoU。

Split-Attention 网络

Split-Attention 块

Split-Attention 块是一个由特征图组和 split attention 运算组成的计算单元,下图展示了 Split-Attention 块的整体思路:

特征图组(Feature-map Group)

与 ResNeXt 块一样,输入的特征图可以根据通道维数被分为几组,特征图组的数量由一个基数超参数 K 给出,得到的特征图组被称为基数组(cardinal group)。研究者引入了一个新的底数超参数 R,该参数规定了基数组的 split 数量。

然后将块输入 X 根据通道维数 X = {X1, X2, ...XG} 分为 G = KR 个组。在每个单独的组中应用不同的变换 {F_1, F_2, ...F_G},则每个组的中间表征为 Ui = Fi(Xi), i ∈ {1, 2, ...G}。

基数组中的 Split Attention 

根据 [30,38],每个基数组的组合表征可以通过跨多个 split 的元素求和融合来获得。第 k 个基数组的表征为:,k ∈ 1, 2, ...K。带有嵌入 channel-wise 统计数据的全局上下文信息可以通过全局池化来获得。第 c 个分量的计算公式为:

基数组表征 V^k ∈ R^{H×W×C/K} 的加权融合通过使用 channel-wise 软注意力来聚合。其中,每个特征图通道都是在若干 split 上使用一个加权组合获得的。第 c 个通道的计算公式如下:

ResNeSt 块

随后,将基数组表征根据通道维数进行级联:V = Concat{V^1 , V^2 , ...V^K}。和标准残差块中一样,如果输入和输出特征图共享相同的形状,则使用快捷连接生成 Split-Attention 块的最终输出 Y,Y = V +X。对于步幅较大的块,将适当的变换 T 应用于快捷连接以对齐输出形状:Y = V + T(X)。T 可以是跨步卷积或带有池化的组合卷积。

图 1 右为 Split-Attention 块的实例,组变换 F_i 是 1×1 卷积,然后是 3×3 卷积,注意力权重函数 G 使用两个带有 ReLU 激活函数的全连接层进行参数化。

与现有注意力方法的关系

squeeze-and-attention(原论文叫 excitation)是 SE-Net 论文中首先引入的,核心想法是应用全局上下文预测 channel-wise 的注意力因素。若 radix=1,Split-Attention 块可将 squeeze-and-attention 操作应用于每个基数组,而 SE-Net 则在整个块的顶部运行,与多个组无关。此前 SK-Net 等模型引入了两个网络分支之间的特征注意力,但这些操作没有针对训练效率及扩展到大规模神经网络进行优化。新的方法扩展了之前的特征图注意力相关研究,但其实现在计算上仍然是高效的。

图 1 展示了 ResNeSt 块与 SE-Net 和 SK-Net 块的整体对比。

Split-Attention 的细节可参考图 2。

实验

第一个实验研究了 ResNeSt 在 ImageNet 2012 数据集上的图像分类性能,结果如表 3 所示。ResNeSt50 达到了 81.13% 的 top-1 准确度。

表 3:ImageNet 上的图像分类结果。

表 5 和表 6 显示了 ResNeSt 在目标检测和实例分割任务中的表现。

表 5:在 MS-COCO 验证集上的目标检测性能结果。

在目标检测任务中,与使用标准 ResNet 的基线相比,ResNeSt 骨干网络能够将模型在 Faster-RCNN 和 CascadeRCNN 上的 mAP(平均精度均值)提高大约 3%。

表 6:在 MS-COCO 验证集上的实例分割结果。

如表 6 所示,ResNeSt 骨干网络具有更好的性能,对于 Mask-RCNN,ResNeSt50 的性能优于基线,在 box/mask 任务中的性能分别提高了 2.85%/2.09%。而 ResNeSt101 的提高更多,为 4.03%/3.14%。对于 Cascade-Mask-RCNN,切换到 ResNeSt50 或 ResNeSt101 所产生的性能提升分别为 3.13%/2.36% 或 3.51%/3.04%。

下表 7 展示了 ResNeSt 在 ADE20K、Citscapes 语义分割任务上的表现。

表 7:在 ADE20K(左)、Citscapes(右)语义分割任务中的性能。

与之前的结果类似,使用 ResNeSt-50 骨干网络的 DeepLabv3 模型已经优于使用更深层 ResNet-101 骨干网络的 DeepLabv3 模型。具有 ResNeSt-101 骨干网络的 DeepLabV3 模型达到了 82.07% 的 pixAcc 和 46.91% 的 mIoU,据了解,这是为 ADE20K 提出的最佳单一模型

END

声明:本文来源于网络

如有侵权,联系删除

联盟学术交流群

扫码添加联盟小编,可与相关学者研究人员共同交流学习:目前开设有人工智能、机器学习、计算机视觉、自动驾驶(含SLAM)、Python、求职面经、综合交流群扫描添加CV联盟微信拉你进群,备注:CV联盟  

最新热文荐读

GitHub | 计算机视觉最全资料集锦

Github | 标星1W+清华大学计算机系课程攻略!

Github | 吴恩达新书《Machine Learning Yearning》

收藏 | 2020年AI、CV、NLP顶会最全时间表!

收藏 | 博士大佬总结的Pycharm 常用快捷键思维导图!

收藏 | 深度学习专项课程精炼图笔记!

笔记 | 手把手教你使用PyTorch从零实现YOLOv3

笔记 | 如何深入理解计算机视觉?(附思维导图)

笔记 | 深度学习综述思维导图(可下载)

笔记 | 深度神经网络综述思维导图(可下载)

总结 | 2019年人工智能+深度学习笔记思维导图汇总

点个在看支持一下吧

张航、李沐等人提出ResNet最强改进版:性能提高3%,参数不增相关推荐

  1. faster rcnn resnet_张航、李沐等人提出ResNet最强改进版:性能提高3%,参数不增

    性能显著提升,参数量却没有明显增加.最新的 Split-Attention Networks 继承了 ResNet 简洁通用的特性. 机器之心报道,机器之心编辑部. 2015 年,ResNet 横空出 ...

  2. rcnn 改进mask_李沐团队提出最强ResNet改进版,多项任务达到SOTA | 已开源

    十三 发自 凹非寺 量子位 报道 | 公众号 QbitAI 在图像处理领域中,近年来的新模型可谓是层出不穷. 但在大多数的下游任务中,例如目标检测.语义分割,依旧还是用ResNet或其变体作为骨干网络 ...

  3. 李沐团队提出最强ResNet改进版,多项任务达到SOTA | 已开源

    十三 发自 凹非寺 量子位 报道 | 公众号 QbitAI 在图像处理领域中,近年来的新模型可谓是层出不穷. 但在大多数的下游任务中,例如目标检测.语义分割,依旧还是用ResNet或其变体作为骨干网络 ...

  4. 资源 | 李沐等人开源中文书《动手学深度学习》预览版上线

    来源:机器之心 本文约2000字,建议阅读10分钟. 本文为大家介绍了一本交互式深度学习书籍. 近日,由 Aston Zhang.李沐等人所著图书<动手学深度学习>放出了在线预览版,以供读 ...

  5. ResNet最强改进版来啦!ResNest在多项任务中达到SOTA

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 转载:机器之心 编辑:深度学习技术前沿 2015 年,ResNet 横空出世,一举 ...

  6. ResNet最强改进版来了!ResNeSt:Split-Attention Networks

    <ResNeSt: Split-Attention Networks> 作者团队:亚马逊(张航和李沐等)&UC Davis 代码(提供PyTorch和MXNet双版本): http ...

  7. 从ACM班、百度到亚马逊,深度学习大牛李沐的开挂人生

      "大神",是很多人对李沐的印象.作为一经推出便大受追捧的 MXNet 深度学习框架的主要贡献者之一,李沐功不可没.值得注意的是,这个由 DMLC(Distributed Mac ...

  8. 李沐团队半年离开六人,MxNet是否英雄落幕?贾扬清:关键能否解决新痛点

    点上方蓝字视学算法获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作分享,不代表本公众号立场,侵权联系删除 转载于:AI科技评论 据知乎网友爆料,亚马逊AI李沐团队今年初至今已经离开6人 ...

  9. 从 ACM 班、百度到亚马逊,深度学习大牛李沐的开挂人生

      "大神",是很多人对李沐的印象.作为一经推出便大受追捧的 MXNet 深度学习框架的主要贡献者之一,李沐功不可没.值得注意的是,这个由 DMLC(Distributed Mac ...

最新文章

  1. 百度Tera数据库介绍——类似cassandra,levelDB
  2. 2011考研英语词汇最佳记忆法 考量你的遗忘曲线
  3. Proteus模拟STM32F103R6微控制器之串口通信USART的方法
  4. oracle erp 库存相关,oracle erp库存模块表(INV)
  5. 帧大小超过交换机mtu_tcpip – UDP中的MTU如何为65535,但以太网不允许超过1500字节的帧大小...
  6. 单机 amp; 弱联网手游 防破解、金币改动 简单措施
  7. 闭包 进阶 javascript
  8. LNMP详解(六)——Nginx location语法详解
  9. Cmder安装使用篇
  10. IIS管理器无法打开。启动后,在任务栏中有,但是窗口不见了
  11. Ubuntu 如何更换软件源
  12. 【动态规划 floyd】SPOJ ACPC13
  13. CFML----一门在国外很多大公司得到应用的语言
  14. [树莓派1] 硬件选购指南
  15. ipadmini5可以安装eclipse嘛_MyEclipse 2017软件安装教程
  16. 小程序flex布局之使用flex:1实现左浮动修效果
  17. Verilog左移位
  18. 【Apache S4 介绍】
  19. 【Quant专栏】量化交易之自动化下单(1)——通过迅投QMT系统实现自动化下单
  20. 「镁客·请讲」禾赛科技李一帆:定位激光雷达整体方案解决商,填补国内市场空白...

热门文章

  1. 通达信缠论三买三卖指标公式_【新增选股指标:中枢突破】通达信版缠论自动画线选股指标今天更新1个重要新版...
  2. 彻底删除 mysql 5.7_Ubuntu16.04彻底删除MySQL5.7
  3. python 去掉文件后缀_python从zip中删除指定后缀文件(推荐)
  4. linux命令cp -a,linux命令_ls命令与cp命令详解(一)
  5. matlab画二维颜色深浅,matlab中如何为二维图形填充渐进的颜色
  6. 计算机未来发展的5个前景,学习成绩普通,高考志愿填报不妨考虑这5个专业,未来发展很不错...
  7. java nio 事件_Java NIO原理及实例
  8. @Autowired @Primary @Qualifier
  9. MariaDB之SQL语句基础
  10. 百度前端学院参考答案:第二十五天到第二十七天 倒数开始 滴答滴 滴答滴(2)...