RoI Transformer 精读

2024-05-13 09:45:31

背景

旋转框检测模型RRPN是通过生成大量的旋转锚框来实现多角度目标检测，后续提出的旋转框检测模型主要是在此基础上进行细节方面的改进。这种通过生成大量旋转框的方法最主要的缺点是冗余计算导致检测速度很慢。

本文主要内容

本文提出RoI Transformer来解决此问题。RoI Transformer 是一个三阶段检测模型，主要由RRoI Leaner和RRoI Wraping两部分组成，核心思想是把RPN输出的水平锚框HRoI转换为旋转锚框RRoI。此策略无需增加锚点的数量且可以获得精确的RRoI。RoI Transformer检测模型目前在DOTA数据集排名第二。

RoI Transformer检测模型

RoI Transformer检测模型结构如图所示，主要由RRoI Leaner和RRoI Wraping两部分组成。对于RPN生成的每个水平锚框HRoI,都会作为输入传递给RRoI Leaner, RRoI Leaner结构是由PS RoI Align、尺寸为5的全连接层以及解码器构成。PS RoI Align减少特征图的维数，将单个全连接层合并到10个通道，显著提高了计算速度；在全连接层使Rotated Ground Truths(RGTs)相对于HRoI的偏移量回归；解码器将HRoI和偏移量作为输入并输出解码后的RRoI。将特征图和解码后的RRoI传入RRoI Wrapping进行深度特征提取。最后，利用RRoI Transformer输出的特征进行分类和回归。
借下图进一步说明RoI Transformer流程

图中红色框GroundTruth®即为图中标注的目标物体，图片经过RPN生成水平锚框Anchor(绿色框)，在RRoI Transformer中，RRoI Leaner利用ROI Pooling/ROI
Align的方式把水平Anchor回归到一个旋转的结果Refined Bbox(黄色框)。在两阶段网络结构中，模型到这里就结束了，但是本网络还有一个修正阶段，通过使用RotateROIPooling，输入黄色的框，进一步修正框的坐标信息，获得最后的预测结果。

RRoI Leaner

RRoI Leaner主要负责从水平特征图HRoIs中学习RRoIs。假设我们得到了n个由（x,y,w,h）表示的HRoI,x,y表示HRoI中心点的位置，w表示宽度，h表示高度。理想情况下每个HRoI都是RRoI的外接矩形。利用全连接层从每个HRoI推测RRoI的几何形状。对于一般情况下RRoI的偏移量回归目标如下

其中表示RRoI的中心点位置，宽度，高度和方向，是GroundTruth定向边界框（OBB）的轮廓参数。Mod用于调整角度偏移目标。相对于HRoI的回归偏移目标即为上式时的特例。对于每个HRoI特征图全连接层会输出一个向量，对应关系如下

其中G表示完全连接的层，Θ是G的权重参数，F是每个HRoI的特征图。
模型训练时，需将输入的HRoI和OBB（GroundTruth）进行匹配。匹配后通过等式（1）得到偏移量目标，然后从中解码出RRoI的参数。也就是说，我们提出的RRoI Leaner可以从HRoI特征图中学习RRoI的参数。

RRoI Warping

RRoI Warping通过RRoI的参数提取旋转不变的深度特征。

变形的特征图形状为水平矩形（例如，此处使用3×3。）用于RRoI Warping的采样网格由RRoI 确定。为了更好地说明，此处使用图像而不是特征图。 RRoI变形后，提取的特征具有几何鲁棒性。（所有车辆的方向都相同）。
因为采用Light-Head R-CNN,这里RRoI Warping具体使用Rotated Position Sensitive (RPS) RoI Align。输入形状为（H,W,K×K×C）的特征图和形状为的RRoI，RPS RoI Align将RRoI划分为,K×K个bin并输出形状为（K,K,C）的特征图Y，如下式

式中将每个（x,y）转换为（x’,y’）, 具体如下

算法框架

为了提高运算效率，本文采用改进的Light-head R-CNN，backbone采用ResNet101,在最终检测阶段采用FPN。

RoI Transformer 精读相关推荐

【论文】Learning RoI Transformer for Oriented Object Detection in Aerial Images
RoI Transformer: 将空间转换应用在RoIs上,并通过标注旋转框,监督学习得到转换参数. RoI Transformer是轻量级的. 一.Introduction (1) 水平框检测会造 ...
详解经典旋转目标检测算法RoI Transformer
一.引言 1.旋转目标检测检测旋转目标检测检测就是将具有旋转方向的目标检测出来,也就是需要检测目标的中心点.长宽.角度.在俯视图的目标检测中比较常见,如遥感图像目标检测.航拍图像目标检测等.(见下图 ...
【CVPR 2020】Learning RoI Transformer for Oriented Object Detection in Aerial Images
介绍这篇文章是针对旋转框任务的: 摘要由于鸟瞰视角.高度复杂的背景和多变的物体外观,航拍图像中的目标检测是计算机视觉中一项活跃但具有挑战性的任务.许多检测方法依赖于通用目标检测中的水平候选框,而这 ...
干货 | 一文总结旋转目标检测全面综述：论文方法与代码
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达本文转自|计算机视觉联盟 1.RRPN(两阶段文字检测华科白翔组 ...
【CVPR2019】论文完整列表一
CVPR 2019 Paper list No.1-1000 ?CVPR2019 完整列表二论文题目与链接 Finding Task-Relevant Features for Few-Shot L ...
【今日CV 视觉论文速览】 04 Dec 2018
今日CS.CV计算机视觉论文速览 Tue, 4 Dec 2018 Totally 102 papers Interesting: EdgeConv,一种用于点云高级任务的新方法,可以堆叠或递归使用学习 ...
CVPR学习（四）：CVPR2019-目标检测
一阶段算法一种从零开始训练的目标探测器 ScratchDet,充分利用原始图像信息的 Root-ResNet,结合 ResNet 与 VGGNet 加强对小目标的检测京东 AI 研究院.中国科学院 ...
旋转目标检测校准的深度特征用于目标检测SSA
目录旋转目标检测rotation-yolov5 旋转目标检测综述 SSA旋转目标检测旋转目标检测rotation-yolov5 旋转目标检测rotation-yolov5笔记_AI视觉网奇的博客- ...
目标检测tricks（基于detectron2）
目标检测tricks(基于detectron2) 正确尝试裁剪由于目标相对于整张图片来说过小,所以对数据进行裁剪(除了裁剪尺寸还需要关注重叠尺寸,重叠尺寸稍微大一些,尽量保持每个目标有完整的存在, ...

最新文章

热门文章