• 论文标题:Feature Pyramid Grids
  • 作者团队:商汤&港中文(陈恺&林达华)&南洋理工大学&FAIR
  • 论文链接:https://arxiv.org/abs/2004.03580
  • 该文章首发在arxiv上,新投稿于CVPR。

引言

特征金字塔网络已在目标检测中被广泛采用,以改进特征表示以更好地处理尺度变化。

  • 设计思路

在本文中,作者设计了特征金字塔网格(FPG),这是一个深层的多路径特征金字塔,它将特征尺度空间表示为平行的自下而上路径的规则网格,并由多方向的横向连接融合。FPG可以通过以相似的计算成本显著提高其性能来改善单路径特征金字塔网络,从而突出了深度金字塔表示的重要性。

除了其一般和统一的结构外,它也无需依赖搜索即可与此类方法进行比较。FPG有望作为目标识别未来工作的重要组成部分

  • 主要考虑:

(1)FPG是否能够在复杂性成本低于FPN的情况下得到改善;
(2)即使是在系统设计的情况下,FPG是否能够与NAS优化的金字塔结构竞争

与FPN不同的是,FPG所有的独立通路都是自下而上构建的,类似于从输入图像到预测输出的主干通路。为了形成一个深网格的特征金字塔,无论是跨尺度的,还是尺度内的,金字塔通道与各种横向连接交织在一起,以实现所有层次的信息交换。如图1所示,这些横向连接分为四种类型,AcrossSame→(蓝实线), AcrossUp↗(棕实线), AcrossDown↘(绿实线), and AcrossSkipy(橙色虚线)

Feature Pyramid Grids

2.1 Backbone pathway(主干通道)

主干通道可以是用于图像分类的任何卷积神经网络的层次特征表示。该通路与FPN中自下而上的通路相同。它从输入图像到输出的逐步缩小尺度特征映射。在FPN中,相同尺度的特征张量属于一个网络阶段,特征张量的空间步长从前到后逐渐增大。

2.2 Pyramid pathways(金字塔通道)

骨干网越深,越接近网络的分类层,语义层次越高,但分辨率越低,而早期阶段的特征与语义的相关性较弱,但由于分辨率高,定位精度高。金字塔路径的目标是建立具有强语义信息的精细分辨率特征

  • Multiple pyramid pathways(多金字塔通道)

FPG通过多个p>1平行的金字塔通道进行扩展。目的是通过使用多个平行金字塔路径,来丰富网络的能力,从而构建一个具有跨空间维度的精细分辨率和高分辨能力的强大网络。 作者以自底向上的方式构建金字塔通路,与主干通道平行(第一个最高分辨率的金字塔特征取自相应的主干阶段)。金字塔通路中的连接表示为向上。多个通路的存在是FPG概念的关键(图1),因为它允许网络建立更强的金字塔特征。为了形成一个深层的金字塔网格,p个金字塔通道与各种横向连接交织在一起。

  • Low channel capacity (低通道容量)

根据FPN的设计,目的是通过降低通道容量使金字塔通道变得更轻。金字塔的通道数量明显低于主干通路最后阶段的通道数量。权重层的计算成本(浮点数操作或FLOPs)与它的通道维数(即宽度)的平方成比例。因此,减少金字塔通道的通道容量可以使多个通道在计算上非常有效

2.3 Lateral connections

横向连接的目的是利用尺度空间中的多向(语义)信息流来丰富特征,允许复杂的层次特征跨尺度学习。根据横向连接的起始和结束特征阶段,可以将横向连接分为4类,分别为:

  • (AcrossSame,→)

  • (AcrossUp,↗)

  • (AcrossDown,↘)

具体实现

3.1 实例化

  • Backbone pathway.

主通道是主对流网络的前馈计算,它计算一个由若干尺度的特征映射组成的特征层次结构。以ResNet[10]为例,采用与FPN相同的方案,使用每个阶段最后剩余块的输出特征映射来表示金字塔级别,表示为{C2,C3,C4,C5}。

  • Pyramid pathways

与主干通路相似,金字塔通路代表跨尺度的信息。从最高分辨率阶段到最低分辨率阶段,以自底向上的方式构建它们。

  • 首先,该通路的第一特征图由对应的高分辨率主干或金字塔级通过1×1横向连接形成。

  • 然后,使用子采样,使用3×3的卷积宽度步长2,在金字塔路径中创建每个较低层次的特征图,因此,在每个金字塔路径中,特征层次由多个尺度的特征图组成,每个阶段的空间分辨率与主干路径相同。

  • Lateral connections.

(AcrossSame,→)

这些横向连接将同一水平的特征通过通路连接起来。作者在每个特征图上使用1×1的横向卷积来投影这些特征,并将它们与相邻通路中相应的特征融合

(AcrossUp,↗)

为了缩短从浅路径低水平特征到深路径的高水平特征的路径,作者引入了直接连接来构建跨水平的自底向上路径。通过3×3横带-2卷积将低阶特征图降采样至一半大小,再与高阶特征图融合

(AcrossDown,↘)

通过整合向下的连接来实现自上而下的信息流。首先用2倍的比例因子和最接近的插值对高阶特征图进行采样,然后利用3×3的卷积使其具有可学习性。上采样特征与下采样特征融合

为了简化如此广泛的特征金字塔网格的训练,添加跳跃连接,例如1×1个卷积,在第一个通路的同一水平和每个后一个通路之间。

实验及结果

  • 不同分辨率下目标检测的主要结果:

  • 速度与精度的对比:

  • 实例分割结果对比:

  • 定性效果对比展示:

参考链接

https://mp.weixin.qq.com/s/Uuk6TtfNSZp5MUEyeOl8xA

超越 FPN 和 NAS-FPN!商汤港中文提出 FPG,特征金字塔网格强势登场!相关推荐

  1. 超越FPN和NAS-FPN! FPG:《Feature Pyramid Grids》特征金字塔网格强势登场!

    FPG(Feature Pyramid Grids):特征金字塔网格来了 !性能优于FPN.NAS-FPN等金字塔网络. 作者团队:商汤&港中文(陈恺&林达华)&南洋理工大学& ...

  2. 重磅!商汤港中文等将开源ECCV2018MS COCO检测比赛冠军代码库

    重磅!商汤&港中文等将开源ECCV2018MS COCO检测比赛冠军代码库 原文出处: 我爱计算机视觉 来自商汤科技.港中文.浙大.悉尼大学.南洋理工大学的研究人员组成的团队MMDet,赢得了 ...

  3. CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 作者:不一样的子湘 知乎链接:https://zhuanlan.zhihu.com ...

  4. 强烈推荐!商汤-港中文MMLab开源图像视频超分辨率工具箱MMSR

    点击我爱计算机视觉标星,更快获取CVML新技术 近一年,图像视频超分辨率突然变得异常火热,各大AI巨头和新锐均在发力. 52CV曾经第一时间报道了在今年CVPR 2019上 商汤EDVR算法获NTIR ...

  5. 商汤港理工提出基于聚类的联合建模时空关系的 GroupFormer 用于解决群体活动识别问题,性能SOTA...

    关注公众号,发现CV技术之美 ▊ 写在前面 群体活动识别是一个关键而又具有挑战性的问题,其核心在于充分探索个体之间的时空交互,产生合理的群体表征 .然而,以前的方法要么分别建模空间和时间信息,要么直接 ...

  6. 全能型AI!用通用预训练感知模型处理多模态多任务!商汤西交港中文提出:Uni-Perceiver...

    关注公众号,发现CV技术之美 本文分享论文『Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zer ...

  7. 国科大港中文提出带视觉语言验证和迭代推理的Visual Grounding框架,性能SOTA,代码已开源!(CVPR2022)...

    关注公众号,发现CV技术之美 本文分享 CVPR 2022 的一篇论文『Improving features Visual Grounding with Visual-Linguistic Verifi ...

  8. CVPR 2022 | 商汤/上交/港中文提出U2PL:使用不可靠伪标签的半监督语义分割

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:Pascal  |  已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhih ...

  9. 14.7倍推理加速、18.9倍存储节省!北航、商汤、UCSD提出首个点云二值网络 | ICLR 2021...

    允中 编辑整理 量子位 报道 | 公众号 QbitAI 编者按: 无论是在自动驾驶场景中,还是在手持移动设备上,基于点云的深度学习模型应用越来越广泛. 但这些离线边缘场景自身的限制,给模型的推理.存储 ...

最新文章

  1. 【博士论文】机器学习中的标记增强理论与应用研究
  2. 强化学习vs遗传算法-人工智能在模拟领域的应用
  3. 解决yum安装报错Protected multilib versions
  4. 【EventBus】EventBus 源码解析 ( EventBus 构建 | EventBus 单例获取 | EventBus 构造函数 | EventBus 构建者 )
  5. 病案编码员需要计算机的什么知识,前辈分享:优秀编码员必须经历的成长过程,你到哪一级了?...
  6. java内部类为什么会持有外部类的引用_为什么内部类持有外部类的引?
  7. VBA_Excel_教程:过程,函数
  8. 软通动力月薪8K面试题解析
  9. Spring mvc @ RequestMapping
  10. h5 监听浏览器被切换到后台或者手机锁屏再次唤起事件
  11. 《Head First》 MVC运用的设计模式
  12. 随机森林算法工作原理
  13. 爬取天眼查数据 附代码
  14. 微信支付-超详细java开发-小程序对接
  15. 小丸子学Hadoop系列之——部署Hbase集群
  16. Eclipse安装与使用教程
  17. 大小超过2T的磁盘分区规划,parted命令
  18. 淘宝API应用是什么意思?
  19. mybatis中association的用法
  20. 4.arcgis新要素的创建

热门文章

  1. VHDL语法学习笔记:一文掌握VHDL语法
  2. 大数据之hadoop
  3. 不错的在线印章生成器网站
  4. html的class怎么使用方法,HTML的class属性怎么用?使用方法详细总结!
  5. Python飞机大战源代码
  6. 一文搞懂【Web 前端】HTML 与 CSS 基础知识
  7. [bzoj5507] [洛谷P5305] [gzoi2019]旧词
  8. 远程桌面协议报错0xd06解决方案
  9. Suggestion: use tools:overrideLibrary
  10. 大数据时代,企业如何进行有效的信息资源整合?