FPT:又是借鉴Transformer!这次多方向融合特征金字塔 | ECCV 2020
点击上方“CVer”,选择加"星标"置顶
重磅干货,第一时间送达
本文转载自:晓飞的算法工程笔记
论文提出用于特征金字塔的高效特征交互方法FPT,包含3种精心设计的特征增强操作,分别用于借鉴层内特征进行增强、借鉴高层特征进行增强以及借鉴低层特征进行增强,FPT的输出维度与输入一致,能够自由嵌入到各种包含特征金字塔的检测算法中,从实验结果来看,效果不错
论文: Feature Pyramid Transformer
论文地址:https://arxiv.org/abs/2007.09451
论文代码:https://github.com/ZHANGDONG-NJUST/FPT
Introduction
![](/assets/blank.gif)
讲论文前先捋一下CNN网络结构相关的知识,论文的思想主要来自两个,一个是特征金字塔结构,一个是Non-local网络:
首先是特征金字塔,如图1a,CNN网络以层级结构的形式逐层提取更丰富的特征,然后使用最后的特征层进行预测。但对于一些小物体而言,最后一层的特征图往往没有足够的像素点进行预测。为了更好地对不同大小的物体进行预测,人们提出图1b的金字塔特征,大物体使用高层的粗粒度特征,小物体使用底层的细粒度特征。对于一些pixel-level任务,比如语义分割,需要综合不同层的上下文信息进行细致的预测,所以就需要图1c的预测结构。
其次是Non-local network,该网络借鉴了NLP模型的Self-attention思想,如图1d所示,能够借鉴特征图上的其它特征点来对当前特征点进行增强。
基于上面两个思想,论文提出了FPT(Feature Pyramid Transformer),结构如图1e所示,核心在特征金字塔上进行类似Non-local的特征增强,然后再使用多层特征进行预测。FPT设计了3种特征增强操作,也是论文的主要贡献:
ST(Self-Transformer):跟non-local操作一样在对当前层进行特征增强。
GT(Grounding Transformer):这是top-down形式的non-local操作,将高层特征(尺寸小的)分别用于低层特征的增强。
RT(Rendering Transformer):这是bottom-up形式的non-local操作,将低层特征(尺寸大的)分别用于高层特征的增强。
Feature Pyramid Transformer
![](/assets/blank.gif)
FPT的特征转换流程如图2所示,输入为金字塔特征,首先对每层特征分别进行ST、GT、RT特征增强得到多个增强后的特征,然后对增强的特征按尺寸进行排序,将相同大小的特征concate到一起,通过卷积将增强后的特征维度恢复到输入时的相同维度。
Non-Local Interaction Revisited
由于论文提出的特征增强操作与non-local操作有很大关系,这里需要先介绍下non-local的思想。常规non-local操作的输入为单特征图上的queries(Q), keys(K)和values(V),输出与尺寸相同的增强特征:
,,,、和为对应的线性变换,和为特征图上的第和位置上的特征,为相似度函数,默认为点积,为归一化函数,默认为softmax,为权重集成函数,默认为矩阵相乘,为输出特征图的第位置上的特征。
Self-Transformer
ST为改进版non-local操作,如图1a所示,主要有两点不同:
将和分为部分,然后计算每部分的每组和相似度分数
相似度计算使用改进的MoS(Mixture of Softmaxes)函数:
为特征集成时的权重,为可学习的线性变换,为所有的均值。
基于上述的改进,ST定义为:
Grounding Transformer
GT是top-down形式的non-local操作,如图2c所示,借用高层的粗粒度特征来增强低层的细粒度特征。在计算时,相似度计算由点积替换为更高效的欧氏距离:
,。GT跟ST一样将和分为部分,完整的定义为:
在特征金字塔中,高低层特征分别包含图片的全局和局部信息,而对于语义分割任务,不需要关注过多高层的全局信息,更多的是需要query位置附近的上下文信息,所以图3b的跨层卷积对语义分割任务十分有效。由于GT操作是全局计算,所以论文提出了局部约束(Locality-constrained)的GT操作LGT,如图3c所示,每个只与高层局部区域的和进行计算。高层局部区域以对应的位置为中心,边长(square size)为固定值。如果高层的局部区域越出了特征图,则使用0代替。
Rendering Transformer
与GT相反,RT是bottom-up形式的non-local操作,借用低层的细粒度特征来增强高层的粗粒度特征。RT也是局部约束(Locality-constrained)的,以channel-wise进行计算的,定义高层特征为,低层特征为和,计算步骤包含如下:
对和进行全局平均池化得到权重。
使用权重对进行加权得到。
对进行带stride的卷积下采样得到。
使用卷积对进行调整,并与相加,再过一层卷积后输出。
完整RT的定义为:
为外积函数,为带stride的卷积,为用于调整的卷积,为包含卷积的特征相加函数。
Experiments
![](/assets/blank.gif)
在COCO上与其它算法的对比实验。
在多个数据集上的进行语义分割性能对比。
Conclusion
论文提出用于特征金字塔的高效特征交互方法FPT,包含3种精心设计的特征增强操作,分别用于借鉴层内特征进行增强、借鉴高层特征进行增强以及借鉴低层特征进行增强,FPT的输出维度与输入一致,能够自由嵌入到各种包含特征金字塔的检测算法中,从实验结果来看,效果不错。
论文和代码下载
后台回复:FPT,即可下载上述论文PDF和源代码!
下载2
后台回复:CVPR2020,即可下载代码开源的论文合集
后台回复:ECCV2020,即可下载代码开源的论文合集
后台回复:YOLO,即可下载YOLOv4论文和代码
重磅!CVer-论文写作与投稿交流群成立
扫码添加CVer助手,可申请加入CVer-论文写作与投稿 微信交流群,目前已满2400+人,旨在交流顶会(CVPR/ICCV/ECCV/NIPS/ICML/ICLR/AAAI等)、顶刊(IJCV/TPAMI/TIP等)、SCI、EI、中文核心等写作与投稿事宜。
同时也可申请加入CVer大群和细分方向技术群,细分方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如论文写作+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲长按加微信群
▲长按关注CVer公众号
整理不易,请给CVer点赞和在看!
FPT:又是借鉴Transformer!这次多方向融合特征金字塔 | ECCV 2020相关推荐
- ECCV2020 | 即插即用,涨点明显!FPT:特征金字塔Transformer
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 这篇文章收录于ECCV2020,将Transformer机制应用于对特征金字塔FPN的改进上,整体思路 ...
- 利用跨模态 Transformer 进行多模态信息融合
目录 1. 简介 2. 创新点 3. 模型描述 3.1 Low Rank Fusion 3.2 Multimodal Transformer 具体模块介绍 Temporal Convolutions ...
- 关于FPN(特征金字塔网络)层间融合的理解
FPN层间融合的个人理解 Feature Pyramid Networks for Object Detection 论文链接: https://arxiv.org/abs/1612.03144. 盗 ...
- ECCV 2020 Oral 中谷歌论文盘点,点云与3D方向工作居多
ECCV2020 已经结束,官方放出了所有论文: ECCV 2020 论文合集下载,分类盘点进行中 谷歌作为人工智能研究领域工业界的领头羊,其工作是非常值得参考的. 本文汇总其入选 ECCV 2020 ...
- concat特征融合_如何理解concat和add的方式融合特征
一.如何理解concat和add的方式融合特征 在各个网络模型中,ResNet,FPN等采用的element-wise add来融合特征,而DenseNet等则采用concat来融合特征.那add与c ...
- windows借鉴linux了吗,Windows应该借鉴Linux的10大功能特征
Windows应该借鉴Linux的10大功能特征 2009年12月07日 11:11作者:cnbeta编辑:陈涛文章出处:泡泡网原创 分享 泡泡网软件频道12月7日 在可预见的未来,Windows和L ...
- ECCV 2020|3D-CVF多模态融合(LIDAR+CAMERA)
3D-CVF: Generating Joint Camera and LiDARFeatures Using Cross-View Spatial FeatureFusion for 3D Obje ...
- AI大视觉(六) | 特征金字塔(FPN)如何进行特征融合?
本文来自公众号"AI大道理". 这里既有AI,又有生活大道理,无数渺小的思考填满了一生. 在深度学习的很多工作中(例如目标检测.图像分割),融合不同尺度的特征是提高性能的一个重要手 ...
- 图像多尺度特征融合、特征金字塔总结
参考链接: https://blog.csdn.net/qq_36268755/article/details/106192524?spm=1001.2014.3001.5502 https://zh ...
最新文章
- 2022-2028年中国酱腌菜行业市场研究及前瞻分析报告
- 1132 Cut Integer
- JavaScript异步编程:异步的数据收集方法
- 让PPT声音播放不再“哑口无言”
- matlab mlpkginstall,Matlab选择mingw编译器
- ThreadPoolExecutor的一点理解 专题
- On the Old, the New —— 用sql语句生成语句的例子
- python可以这样学豆瓣_python爬虫学习之路:豆瓣爬虫练习
- Java集合—PriorityQueue底层原理
- 监控工具—Prometheus—基础介绍
- SeaweedFS在.net core下的实践方案
- [渝粤教育] 西南科技大学 经济学概论 在线考试复习资料
- Solr-5.3.1安装配置
- 从零搭建 vue-cli 脚手架
- 文本处理3剑客 sed命令
- 察颜观色保无忧—存储卡选购之四法则
- 函数----MoveWindow
- java前端传汉字到后端出现乱码解决办法
- 学术墙报模板_【征集】|复旦大学2019博士生学术论坛之生命科学论坛墙报展
- eplan怎么导出部件汇总表_【整理分享】EPLAN初学资料、EPLAN表格和符号库汇总