论文：Better to follow, follow to be better：towards precise supervision of feature super-resolution for small object detection

1.引言

2.1相对感受野匹配

2.2本文方法

SR target extractor

SR feature generator

SR feature discriminator

Small predictor

2.3训练

2.4推理

3.实验

缺点（个人观点）：

启发

1.引言

本篇文章聚焦在基于建议框（proposal-based）的检测架构在小目标检测上的改进。

现有的基于建议框的检测架构存在的问题是：小目标的RoI太小，难以辨别。自然会想到丰富小目标建议框的信息，合适的做法是在特征层级上运用超分辨率技术来增强建议框的特征，比较经典的工作是Perceptual GAN，它基于GAN生成小目标的超分辨率表征，使其和大目标特征相似。但是存在的问题是缺乏直接的监督，这会导致训练的不稳定和生成的超分辨率特征的质量不高。

针对这个问题，本文引入合适的高分辨率的目标特征作为训练超分网络的监督信号。同时，本文通过分析发现输入低分辨率特征和高分辨率目标特征是一个训练对，这个训练对的相对感受野匹配对于小目标来说至关重要，会影响到生成的超分建议框的质量。

总结来说，本文主要贡献：

通过特征层级的超分辨率技术来增强小目标的特征表示；
提出新的高分目标特征提取器，生成高分目标特征直接监督超分网络的训练；
考虑高分目标特征-低分特征对的相对感受野匹配问题。

2.1相对感受野匹配

RoI的绝对感受野：

RoI的相对感受野：

下面讨论当输入图像尺寸改变时，RoI相对感受野的不同。

当0.5倍下采样图片作为输入时， $I_W\rightarrow 0.5I_W$ ， $w\rightarrow 0.5w$ ，不同输入图片下RoI相对感受野的区别用DRRF表示:

其中： $c=R_W/D-1$ ，是一个常数。

当w趋近于0时，DRRF收敛于2，当w趋近于时，DRRF收敛于1，所以，当RoI越小时，RRF的差别会越大，当RoI越大时，RRF的差别越小。这就解释了当检测小目标时，不同分辨率的输入图片所得到的小目标的RoI的感受野是差别很大的，会严重误导超分网络的训练。

2.2本文方法

在基模型的基础上，引入了四个部件：SR 特征生成器、SR特征判别器、SR目标提取器和小目标预测器。SR 特征生成器用来生成高分辨率特征，SR特征判别器用来指导SR 特征生成器，SR目标提取器生成特征目标，小目标预测器用来预测小目标。

$I^{1.0}$ :原始输入图像， $I^{0.5}$ ：0.5倍下采样的图像

$F_i ^{1.0}$ :原始图像上第i个RoI特征， $F_i ^{0.5}$ :0.5倍下采样的图像上第i个RoI特征

$T_i ^{1.0}$ : $F_i ^{0.5}$ 的高分目标特征

SR target extractor

①共享参数

SR target extractor和CNN backbone共享参数，以降低计算量。

②相对感受野匹配

通过提高网络的绝对感受野，来提高相对感受野。

1.对池化层，因为它是无参数的，增加核的大小就可以扩大感受野。

2.对卷积层，增加卷积核大小会增加参数，就没办法参数共享了，因此使用空洞卷积。本文使用的是空洞率为2的卷积，并且对于stride>1的卷积，比如stride=2，如果改成stride=2的、空洞率为2的空洞卷积，会对部分像素失去采样，因此使用stride=1的空洞卷积+max_pool size 2。

总结来说，SR target extractor 由一系列空洞卷积层和最大池化层构成，保证它与CNN backbone有相同的相对感受野（没有严格的计算让RRF严格一致）。另外，SR target extractor 和CNN backbone是共享参数的。所以，SR target extractor 生成的特征相比于用CNN backbone生成的特征含有更多的上下文信息，并且RoI相对感受野保持一致，更适合作为目标，直接监督超分网络训练。

SR feature generator

增强小目标建议框的特征

①网络结构

残差结构，输入输出的特征图的shape没有变化。

②损失函数

1）SR target extractor生成的 $T_i ^{1.0}$ 作为直接监督信号，用l2损失

2）对抗损失

3）分类回归损失

SR feature discriminator

判别器由三层的mlp构成,训练判别器使得它能够区分 $T_i ^{1.0}$ 和 $S_i ^{0.5}$ ,而生成器是被训练生成逼真的骗过判别器，损失函数为对抗损失：

Small predictor

网络结构和base detector的large predictor的一样，但是只用来检测SR生成器的小proposals的超分特征。训练用分类回归损失。

2.3训练

首先训练基模型，包括CNN backbone，RPN，large predictor.
然后冻结CNN backbone，RPN，交替训练生成器和判别器，同时，small predictor也训练，使用进行分类回归损失。需要注意的是，用CNN backbone和large predictor的权重初始化SR target extractor 和small predictor.
一旦生成器和判别器收敛了，就微调small predictor和large predictor，冻结其它所有部分。微调small predictor有助于它关注分类和回归任务。Large predictor只通过大建议框微调。

2.4推理

在基模型上增加了SR feature generator和small predictor.输入图片 $I^{1.0}$ ，通过CNN backbone得到 $F^{1.0}$ ，如果建议框是大的，就送入large predictor进行分类回归，如果建议框是小的，就用SR feature generator得到超分辨率特征，再送入small predictor。

3.实验

以faster rcnn为基模型，数据集Tsinghua-Tencent 100K（交通标志牌检测）、PASCAL VOC 和 MS COCO，在Tsinghua-Tencent 100K中定义小目标（小于32×32），PASCAL VOC 和 MS COCO中定义小目标（小于96×96）

（1）Tsinghua-Tencent 100K数据集

（2）PASCAL VOC 和 MS COCO

（3）可视化

（4）RRF

缺点（个人观点）：

感受野匹配的做法只是增加网络的绝对感受野，没有通过严格的计算让低分特征和高分目标特征的相对感受野严格一致。
只适用于两阶段的检测器
训练过程繁琐
计算量增大（不知道增大多少，文章没有给出具体指标）

启发

小目标检测改进的一个思路->通过特征级的超分技术增强小目标的特征，本文是基于GAN训练超分辨网络，但是GAN训练繁杂且难收敛，是否可以考虑不用GAN，用其它方式训练超分辨率网络。
关注高分特征图和低分特征图的感受野匹配问题，对于小目标尤其敏感。
考虑将其思路用到一阶段检测器。

参考：基于GAN的小目标检测算法总结（3）——《Better to Follow, Follow to Be Better: Towards Precise Supervision ......》_ckq3的博客-CSDN博客

Better to follow, follow to be better(2019 ICCV)相关推荐

2019 ICCV 目标检测论文简述整理
2019 ICCV (43篇) 题目发表单位针对问题创新点性能 ThunderNet: Towards Real-time Generic Object Detection (实现实时通用对 ...
独家 | 2019 ICCV 收录论文：基于弱监督学习的病理影像分析框架
论文传送门 ▼ 扫描下方二维码,或点击文末"阅读原文" 基于弱监督学习的病理影像分析框架一.研究背景恶性肿瘤是全球第二大死因,每年导致近千万人死亡.病理报告是肿瘤临床诊断和治疗 ...
2019 ICCV best paper：sinGAN: Learning a Generative Model from a Single Natural Image解读
sinGAN: Learning a Generative Model from a Single Natural Image 论文地址: https://arxiv.org/abs/1905.011 ...
P-GCN：Graph Convolutional Networks for Temporal Action Localization 2019 ICCV
论文下载链接:https://arxiv.org/pdf/1911.11462.pdf 1 摘要大多数最先进的行为定位系统都是单独处理每个动作proposal,而不是在学习过程中显式地利用它们之间的 ...
2019 ICCV之多光谱行人检测：Weakly Aligned Cross-Modal Learning for Multispectral Pedestrian Detection
Weakly Aligned Cross-Modal Learning for Multispectral Pedestrian Detection 当前的问题及概述: 真实的多光谱数据存在位置偏移问 ...
Formal Languages and Compilers-LL(1),FIRST and FOLLOW
※递归下降法: 简而言之,就是比如文法是 S→T,T→FM, F→+M,M→a 用伪代码表示这个文法则首先要写 procedure S BEGIN T; END 然后写 procedure T BE ...
【编译原理】FIRST集和FOLLOW集构造法速学
编译原理速成大法 FIRST集和FOLLOW集构造法速成 FIRST FOLLOW FIRST集和FOLLOW集构造法速成例:对于文法G(E) 首先像E,T,E',F这样的就是非终结符 +,*, ε ...
LL(1)文法构造FIRST、FOLLOW、分析表并分析
一.实验目的学生运用编译原理的知识在实验技能和方法自行设计实验方案并加以实现. 二.使用仪器.器材计算机一台操作系统:Windows10 编程软件:Intellij IDEA 三.实验内容及原理 ...
使用 PHP 在站点上构建类似 Twitter 的系统
2019独角兽企业重金招聘Python工程师标准>>> 如果您曾经留意过,就会知道 Twitter 是 Web 2.0 世界最大的轰动事件之一.简单来说,Twitter(Twitte ...

Better to follow, follow to be better(2019 ICCV)

1.引言

2.1相对感受野匹配

2.2本文方法

SR target extractor

SR feature generator

SR feature discriminator

Small predictor

2.3训练

2.4推理

3.实验

缺点（个人观点）：

启发

Better to follow, follow to be better(2019 ICCV)相关推荐

最新文章

热门文章