点击上方“CVer”,选择加"星标"置顶

重磅干货,第一时间送达

本文转载自:晓飞的算法工程笔记

论文提出用于特征金字塔的高效特征交互方法FPT,包含3种精心设计的特征增强操作,分别用于借鉴层内特征进行增强、借鉴高层特征进行增强以及借鉴低层特征进行增强,FPT的输出维度与输入一致,能够自由嵌入到各种包含特征金字塔的检测算法中,从实验结果来看,效果不错

论文: Feature Pyramid Transformer

  • 论文地址:https://arxiv.org/abs/2007.09451

  • 论文代码:https://github.com/ZHANGDONG-NJUST/FPT

Introduction


  讲论文前先捋一下CNN网络结构相关的知识,论文的思想主要来自两个,一个是特征金字塔结构,一个是Non-local网络:

  • 首先是特征金字塔,如图1a,CNN网络以层级结构的形式逐层提取更丰富的特征,然后使用最后的特征层进行预测。但对于一些小物体而言,最后一层的特征图往往没有足够的像素点进行预测。为了更好地对不同大小的物体进行预测,人们提出图1b的金字塔特征,大物体使用高层的粗粒度特征,小物体使用底层的细粒度特征。对于一些pixel-level任务,比如语义分割,需要综合不同层的上下文信息进行细致的预测,所以就需要图1c的预测结构。

  • 其次是Non-local network,该网络借鉴了NLP模型的Self-attention思想,如图1d所示,能够借鉴特征图上的其它特征点来对当前特征点进行增强。

  基于上面两个思想,论文提出了FPT(Feature Pyramid Transformer),结构如图1e所示,核心在特征金字塔上进行类似Non-local的特征增强,然后再使用多层特征进行预测。FPT设计了3种特征增强操作,也是论文的主要贡献:

  • ST(Self-Transformer):跟non-local操作一样在对当前层进行特征增强。

  • GT(Grounding Transformer):这是top-down形式的non-local操作,将高层特征(尺寸小的)分别用于低层特征的增强。

  • RT(Rendering Transformer):这是bottom-up形式的non-local操作,将低层特征(尺寸大的)分别用于高层特征的增强。

Feature Pyramid Transformer


  FPT的特征转换流程如图2所示,输入为金字塔特征,首先对每层特征分别进行ST、GT、RT特征增强得到多个增强后的特征,然后对增强的特征按尺寸进行排序,将相同大小的特征concate到一起,通过卷积将增强后的特征维度恢复到输入时的相同维度。

Non-Local Interaction Revisited

  由于论文提出的特征增强操作与non-local操作有很大关系,这里需要先介绍下non-local的思想。常规non-local操作的输入为单特征图上的queries(Q), keys(K)和values(V),输出与尺寸相同的增强特征:

,,,、和为对应的线性变换,和为特征图上的第和位置上的特征,为相似度函数,默认为点积,为归一化函数,默认为softmax,为权重集成函数,默认为矩阵相乘,为输出特征图的第位置上的特征。

Self-Transformer

  ST为改进版non-local操作,如图1a所示,主要有两点不同:

  • 将和分为部分,然后计算每部分的每组和相似度分数

  • 相似度计算使用改进的MoS(Mixture of Softmaxes)函数:为特征集成时的权重,为可学习的线性变换,为所有的均值。

  基于上述的改进,ST定义为:

Grounding Transformer

  GT是top-down形式的non-local操作,如图2c所示,借用高层的粗粒度特征来增强低层的细粒度特征。在计算时,相似度计算由点积替换为更高效的欧氏距离:

,。GT跟ST一样将和分为部分,完整的定义为:

  在特征金字塔中,高低层特征分别包含图片的全局和局部信息,而对于语义分割任务,不需要关注过多高层的全局信息,更多的是需要query位置附近的上下文信息,所以图3b的跨层卷积对语义分割任务十分有效。由于GT操作是全局计算,所以论文提出了局部约束(Locality-constrained)的GT操作LGT,如图3c所示,每个只与高层局部区域的和进行计算。高层局部区域以对应的位置为中心,边长(square size)为固定值。如果高层的局部区域越出了特征图,则使用0代替。

Rendering Transformer

  与GT相反,RT是bottom-up形式的non-local操作,借用低层的细粒度特征来增强高层的粗粒度特征。RT也是局部约束(Locality-constrained)的,以channel-wise进行计算的,定义高层特征为,低层特征为和,计算步骤包含如下:

  • 对和进行全局平均池化得到权重。

  • 使用权重对进行加权得到。

  • 对进行带stride的卷积下采样得到。

  • 使用卷积对进行调整,并与相加,再过一层卷积后输出。

  完整RT的定义为:

为外积函数,为带stride的卷积,为用于调整的卷积,为包含卷积的特征相加函数。

Experiments


  在COCO上与其它算法的对比实验。

  在多个数据集上的进行语义分割性能对比。

Conclusion


  论文提出用于特征金字塔的高效特征交互方法FPT,包含3种精心设计的特征增强操作,分别用于借鉴层内特征进行增强、借鉴高层特征进行增强以及借鉴低层特征进行增强,FPT的输出维度与输入一致,能够自由嵌入到各种包含特征金字塔的检测算法中,从实验结果来看,效果不错。

论文和代码下载

后台回复:FPT,即可下载上述论文PDF和源代码!

下载2

后台回复:CVPR2020,即可下载代码开源的论文合集

后台回复:ECCV2020,即可下载代码开源的论文合集

后台回复:YOLO,即可下载YOLOv4论文和代码

重磅!CVer-论文写作与投稿交流群成立

扫码添加CVer助手,可申请加入CVer-论文写作与投稿 微信交流群,目前已满2400+人,旨在交流顶会(CVPR/ICCV/ECCV/NIPS/ICML/ICLR/AAAI等)、顶刊(IJCV/TPAMI/TIP等)、SCI、EI、中文核心等写作与投稿事宜。

同时也可申请加入CVer大群和细分方向技术群,细分方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注:研究方向+地点+学校/公司+昵称(如论文写作+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲长按加微信群

▲长按关注CVer公众号

整理不易,请给CVer点赞和在看

FPT:又是借鉴Transformer!这次多方向融合特征金字塔 | ECCV 2020相关推荐

  1. ECCV2020 | 即插即用,涨点明显!FPT:特征金字塔Transformer

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 这篇文章收录于ECCV2020,将Transformer机制应用于对特征金字塔FPN的改进上,整体思路 ...

  2. 利用跨模态 Transformer 进行多模态信息融合

    目录 1. 简介 2. 创新点 3. 模型描述 3.1 Low Rank Fusion 3.2 Multimodal Transformer 具体模块介绍 Temporal Convolutions ...

  3. 关于FPN(特征金字塔网络)层间融合的理解

    FPN层间融合的个人理解 Feature Pyramid Networks for Object Detection 论文链接: https://arxiv.org/abs/1612.03144. 盗 ...

  4. ECCV 2020 Oral 中谷歌论文盘点,点云与3D方向工作居多

    ECCV2020 已经结束,官方放出了所有论文: ECCV 2020 论文合集下载,分类盘点进行中 谷歌作为人工智能研究领域工业界的领头羊,其工作是非常值得参考的. 本文汇总其入选 ECCV 2020 ...

  5. concat特征融合_如何理解concat和add的方式融合特征

    一.如何理解concat和add的方式融合特征 在各个网络模型中,ResNet,FPN等采用的element-wise add来融合特征,而DenseNet等则采用concat来融合特征.那add与c ...

  6. windows借鉴linux了吗,Windows应该借鉴Linux的10大功能特征

    Windows应该借鉴Linux的10大功能特征 2009年12月07日 11:11作者:cnbeta编辑:陈涛文章出处:泡泡网原创 分享 泡泡网软件频道12月7日 在可预见的未来,Windows和L ...

  7. ECCV 2020|3D-CVF多模态融合(LIDAR+CAMERA)

    3D-CVF: Generating Joint Camera and LiDARFeatures Using Cross-View Spatial FeatureFusion for 3D Obje ...

  8. AI大视觉(六) | 特征金字塔(FPN)如何进行特征融合?

    本文来自公众号"AI大道理". 这里既有AI,又有生活大道理,无数渺小的思考填满了一生. 在深度学习的很多工作中(例如目标检测.图像分割),融合不同尺度的特征是提高性能的一个重要手 ...

  9. 图像多尺度特征融合、特征金字塔总结

    参考链接: https://blog.csdn.net/qq_36268755/article/details/106192524?spm=1001.2014.3001.5502 https://zh ...

最新文章

  1. 2022-2028年中国酱腌菜行业市场研究及前瞻分析报告
  2. 1132 Cut Integer
  3. JavaScript异步编程:异步的数据收集方法
  4. 让PPT声音播放不再“哑口无言”
  5. matlab mlpkginstall,Matlab选择mingw编译器
  6. ThreadPoolExecutor的一点理解 专题
  7. On the Old, the New —— 用sql语句生成语句的例子
  8. python可以这样学豆瓣_python爬虫学习之路:豆瓣爬虫练习
  9. Java集合—PriorityQueue底层原理
  10. 监控工具—Prometheus—基础介绍
  11. SeaweedFS在.net core下的实践方案
  12. [渝粤教育] 西南科技大学 经济学概论 在线考试复习资料
  13. Solr-5.3.1安装配置
  14. 从零搭建 vue-cli 脚手架
  15. 文本处理3剑客 sed命令
  16. 察颜观色保无忧—存储卡选购之四法则
  17. 函数----MoveWindow
  18. java前端传汉字到后端出现乱码解决办法
  19. 学术墙报模板_【征集】|复旦大学2019博士生学术论坛之生命科学论坛墙报展
  20. eplan怎么导出部件汇总表_【整理分享】EPLAN初学资料、EPLAN表格和符号库汇总

热门文章

  1. 【项目】主页导航条popup窗,购物车接口部分
  2. C++断言assert函数
  3. echart横坐标太长导致坐标显示不完全(三种方法)
  4. 网站分析14——网站分析的思路、方法和模型
  5. 解决金山词霸2005专业版版/windows server 2003 sp1简体中文下不能取词问题
  6. 利用通道混合器调整图像
  7. angular2/4 使用[innerHTML]时样式不生效
  8. async和awit
  9. 关于网上谣传海航陈峰辞职的消息我想说两句
  10. 《经济学的三类问题-与十大原理》