RoI Transformer 精读
背景
旋转框检测模型RRPN是通过生成大量的旋转锚框来实现多角度目标检测,后续提出的旋转框检测模型主要是在此基础上进行细节方面的改进。这种通过生成大量旋转框的方法最主要的缺点是冗余计算导致检测速度很慢。
本文主要内容
本文提出RoI Transformer来解决此问题。RoI Transformer 是一个三阶段检测模型,主要由RRoI Leaner和RRoI Wraping两部分组成,核心思想是把RPN输出的水平锚框HRoI转换为旋转锚框RRoI。此策略无需增加锚点的数量且可以获得精确的RRoI。RoI Transformer检测模型目前在DOTA数据集排名第二。
RoI Transformer检测模型
RoI Transformer检测模型结构如图所示,主要由RRoI Leaner和RRoI Wraping两部分组成。对于RPN生成的每个水平锚框HRoI,都会作为输入传递给RRoI Leaner, RRoI Leaner结构是由PS RoI Align、尺寸为5的全连接层以及解码器构成。PS RoI Align减少特征图的维数,将单个全连接层合并到10个通道,显著提高了计算速度;在全连接层使Rotated Ground Truths(RGTs)相对于HRoI的偏移量回归;解码器将HRoI和偏移量作为输入并输出解码后的RRoI。将特征图和解码后的RRoI传入RRoI Wrapping进行深度特征提取。最后,利用RRoI Transformer输出的特征进行分类和回归。
借下图进一步说明RoI Transformer流程
图中红色框GroundTruth®即为图中标注的目标物体,图片经过RPN生成水平锚框Anchor(绿色框),在RRoI Transformer中,RRoI Leaner利用ROI Pooling/ROI
Align的方式把水平Anchor回归到一个旋转的结果Refined Bbox(黄色框)。在两阶段网络结构中,模型到这里就结束了,但是本网络还有一个修正阶段,通过使用RotateROIPooling,输入黄色的框,进一步修正框的坐标信息,获得最后的预测结果。
RRoI Leaner
RRoI Leaner主要负责从水平特征图HRoIs中学习RRoIs。假设我们得到了n个由(x,y,w,h)表示的HRoI,x,y表示HRoI中心点的位置,w表示宽度,h表示高度。理想情况下每个HRoI都是RRoI的外接矩形。利用全连接层从每个HRoI推测RRoI的几何形状。对于一般情况下RRoI的偏移量回归目标如下
其中 表示RRoI的中心点位置,宽度,高度和方向, 是GroundTruth定向边界框(OBB)的轮廓参数。Mod用于调整角度偏移目标 。相对于HRoI的回归偏移目标即为上式 时的特例。对于每个HRoI特征图全连接层会输出一个向量 ,对应关系如下
其中G表示完全连接的层,Θ是G的权重参数,F是每个HRoI的特征图。
模型训练时,需将输入的HRoI和OBB(GroundTruth)进行匹配。匹配后通过等式(1)得到偏移量目标 ,然后从 中解码出RRoI的参数。也就是说,我们提出的RRoI Leaner可以从HRoI特征图中学习RRoI的参数。
RRoI Warping
RRoI Warping通过RRoI的参数提取旋转不变的深度特征。
变形的特征图形状为水平矩形(例如,此处使用3×3。)用于RRoI Warping的采样网格由RRoI 确定。为了更好地说明,此处使用图像而不是特征图。 RRoI变形后,提取的特征具有几何鲁棒性。 (所有车辆的方向都相同)。
因为采用Light-Head R-CNN,这里RRoI Warping具体使用Rotated Position Sensitive (RPS) RoI Align。输入形状为(H,W,K×K×C)的特征图和形状为 的RRoI,RPS RoI Align将RRoI划分为,K×K个bin并输出形状为(K,K,C)的特征图Y,如下式
式中 将每个(x,y)转换为(x’,y’), 具体如下
算法框架
为了提高运算效率,本文采用改进的Light-head R-CNN,backbone采用ResNet101,在最终检测阶段采用FPN。
RoI Transformer 精读相关推荐
- 【论文】Learning RoI Transformer for Oriented Object Detection in Aerial Images
RoI Transformer: 将空间转换应用在RoIs上,并通过标注旋转框,监督学习得到转换参数. RoI Transformer是轻量级的. 一.Introduction (1) 水平框检测会造 ...
- 详解经典旋转目标检测算法RoI Transformer
一.引言 1.旋转目标检测检测 旋转目标检测检测就是将具有旋转方向的目标检测出来,也就是需要检测目标的中心点.长宽.角度.在俯视图的目标检测中比较常见,如遥感图像目标检测.航拍图像目标检测等.(见下图 ...
- 【CVPR 2020】Learning RoI Transformer for Oriented Object Detection in Aerial Images
介绍 这篇文章是针对旋转框任务的: 摘要 由于鸟瞰视角.高度复杂的背景和多变的物体外观,航拍图像中的目标检测是计算机视觉中一项活跃但具有挑战性的任务.许多检测方法依赖于通用目标检测中的水平候选框,而这 ...
- 干货 | 一文总结旋转目标检测全面综述:论文方法与代码
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自|计算机视觉联盟 1.RRPN(两阶段文字检测 华科白翔组 ...
- 【CVPR2019】论文完整列表一
CVPR 2019 Paper list No.1-1000 ?CVPR2019 完整列表二 论文题目与链接 Finding Task-Relevant Features for Few-Shot L ...
- 【今日CV 视觉论文速览】 04 Dec 2018
今日CS.CV计算机视觉论文速览 Tue, 4 Dec 2018 Totally 102 papers Interesting: EdgeConv,一种用于点云高级任务的新方法,可以堆叠或递归使用学习 ...
- CVPR学习(四):CVPR2019-目标检测
一阶段算法 一种从零开始训练的目标探测器 ScratchDet,充分利用原始图像信息的 Root-ResNet,结合 ResNet 与 VGGNet 加强对小目标的检测 京东 AI 研究院.中国科学院 ...
- 旋转目标检测 校准的深度特征用于目标检测SSA
目录 旋转目标检测rotation-yolov5 旋转目标检测综述 SSA旋转目标检测 旋转目标检测rotation-yolov5 旋转目标检测rotation-yolov5笔记_AI视觉网奇的博客- ...
- 目标检测tricks(基于detectron2)
目标检测tricks(基于detectron2) 正确尝试 裁剪 由于目标相对于整张图片来说过小,所以对数据进行裁剪(除了裁剪尺寸还需要关注重叠尺寸,重叠尺寸稍微大一些,尽量保持每个目标有完整的存在, ...
最新文章
- Spring Cloud(七)服务网关 Zuul Filter 使用
- 【browser】chinese chrome shows as english
- Java 常用API的运用,效率及技巧
- spacevim 添加自动折行
- 映射Mapper.xml文件的几种方式
- python操作redis用法详解
- element selection选中变颜色_Excel | 聚光灯效果(阅读模式)——改变当前行和列的颜色...
- C和指针之字符串之strlen、strcpy、 strcat、strcmp使用总结
- android启调支付宝
- jquery 获得table 行数
- WinForm picturebox控件绑定BitMAP
- sql2008 服务器未响应,sql配置管理器,SQL server (MSSQLSERVER)开启不了,请求失败或服务器未响应....
- 基于JAVA+SpringMVC+Mybatis+MYSQL的家乡美管理系统
- 【Java】@transient代表着什么
- SMPL: A Skinned Multi-Person Linear Model
- Linux + ChromiumOS + ....操作系统资源(持续更新...)
- 基于双目摄像头测量距离
- 《商君列传第八》–读书总结
- 设计模式回顾——模板模式(C++)
- 常用的几种 GPRS 模块
热门文章
- 关于PC播放器色彩空间转换等一些说明
- mysql添加用户和密码
- WPF教程三:布局之WrapPanel面板
- 计算机技能大赛比赛新闻稿,第六届技能竞赛系列报道——PS绘制青春
- 简明Hadoop配置(3)——windows下eclipse连接虚拟机
- weboffice功能的实现:在线编辑,保护文档部分编辑,显示,下载
- PS-twelveday-历史记录画笔工具
- JavaScript商品详情介绍
- C++拷贝构造函数和浅拷及深拷贝详解
- 现在计算机有64位吗,任何电脑都可以装64位系统吗|是不是所有的电脑都可以装64位系统...