Learning RoI Transformer for Detecting Oriented Objects in Aerial Images

文章目录

  • Learning RoI Transformer for Detecting Oriented Objects in Aerial Images
    • 参考
    • Introduction
    • RoI Transformer
      • RRoI Learner
      • RRoI Warping
参考
  • RoI Transformer 精读

  • 遥感检测——RoI Transformer(CVPR2019)

Introduction
  • 对于任意方向目标的检测,HRoI已经不能满足要求,因此出现了RRoI,此前的RRoI是通过多增加不同角度的anchor来实现不同方向的目标检测,但是这种方式会因为anchor的增加而产生大量的计算量。
  • RoI Transformer 是一个三阶段检测模型,主要由RRoI Leaner(学习从HRoI到RRoI的转换)和RRoI Wraping(从RRoI中提取旋转不变的特征,用于后续的分类和回归子任务。)两部分组成,核心思想是把RPN输出的水平锚框HRoI转换为旋转锚框RRoI。此策略无需增加锚点的数量且可以获得精确的RRoI。
  • 为了进一步提高效率,作者为所有的RoI-wise operations采用了light head structure。roi-wise operation一直是二阶检测器的效率瓶颈,因为它们之间的计算不共享。Light-head R-CNN提出使用分离卷积来获得thin feature以解决这个问题,它还使用PS RoI Align来进一步削减特征图的通道数,本文方法的baseline就是Light-head R-CNN。
RoI Transformer
    • RoI Transformer检测模型结构如图所示,主要由RRoI Leaner和RRoI Wraping两部分组成。对于RPN生成的每个水平锚框HRoI,都会作为输入传递给RRoI Leaner, RRoI Leaner结构是由PS RoI Align(PS RoI Align减少特征图的维数,将单个全连接层合并到10个通道,显著提高了计算速度)、尺寸为5的全连接层(在全连接层使Rotated Ground Truths(RGTs)相对于HRoI的偏移量回归)以及解码器(解码器将HRoI和偏移量作为输入并输出解码后的RRoI)构成。将特征图和解码后的RRoI传入RRoI Wrapping进行深度特征提取。最后,利用RRoI Transformer输出的特征进行分类和回归。
RRoI Learner
  • RRoI Leaner主要负责从水平特征图HRoIs中学习RRoIs。假设我们得到了n个由(x,y,w,h)表示的HRoI,x,y表示HRoI中心点的位置,w表示宽度,h表示高度。理想情况下每个HRoI都是RRoI的外接矩形。利用全连接层从每个HRoI推测RRoI的几何形状。对于一般情况下RRoI的偏移量回归目标如下

    • 上图中的标柱参考系是指文中原图的x1oy1,即使用预测框的坐标系,我特地推了一下上述公式中的offset:tx∗t_x^*tx∗​和ty∗t_y^*ty∗​,如下所示
    • 我们对中心点画直角三角形,得到x∗−xrx^*-x_rx∗−xr​和y∗−yry^*-y_ry∗−yr​两组参数,那么由基础几何得到,(x∗−xr)cos⁡θr(x^*-x_r)\cos{\theta_r}(x∗−xr​)cosθr​和(y∗−yr)sin⁡θr(y^*-y_r)\sin{\theta_r}(y∗−yr​)sinθr​以及(y∗−yr)cos⁡θr(y^*-y_r)\cos{\theta_r}(y∗−yr​)cosθr​和(x∗−xr)sin⁡θr(x^*-x_r)\sin{\theta_r}(x∗−xr​)sinθr​的几何表示如上面右下角的图表示。可以看到上面的公式不过是用预测框的斜着的坐标系算以gt框为基准的坐标系的$\delta x 和和和 \delta y的大小,而公式中的的大小,而公式中的的大小,而公式中的t*_w$和$th以及以及以及t^_\theta$的值就是两者的比值再取对数(角度不取)
  • 再回到模型的结构中来,作者使用FC-5实现这个效果,G代表全链接层,F代表HRoI的feature map,θ\thetaθ 代表G的权重参数。

    • t=G(F;Θ)(2)t = G(F; Θ) \qquad (2) t=G(F;Θ)(2)

    • 也就是说模型训练时,将输入的HRoI和OBB(GroundTruth)进行匹配。匹配后通过等式(1)得到t∗t^*t∗ ,然后从中解码出RRoI的参数。使用Smooth L1 loss作为回归损失进行梯度下降。

RRoI Warping
  • RRoI Warping通过RRoI的参数提取旋转不变的深度特征(其实就是用Rotated Position Sensitive RoI pooling实现旋转版的池化)。

  • 通过RPS RoI pooling将输入的大小为HxWxC的RRoI的Feature map分成KxKxC的feature map(由双线性插值实现)

    • yc(i,j)=∑(x,y)∈bin(i,j)Di,j,c(Tθ(x,y))/nij(3)y_c(i,j) = \sum_{(x,y) \in bin(i,j)} D_{i,j,c}(T_\theta (x,y))/n_{ij} \qquad (3) yc​(i,j)=(x,y)∈bin(i,j)∑​Di,j,c​(Tθ​(x,y))/nij​(3)

      • D是输入的feature map(RRoI),
      • yyy是输出的feature map,
      • bin 是池化的一小块,其中 (i,j)∈(0,K)(i, j) \in (0,K)(i,j)∈(0,K) ,
      • c是输出channel,c∈(0,C)c \in (0,C)c∈(0,C),
      • nijn_{ij}nij​是每一块bin的样本参数量
    • TθT_\thetaTθ​的转换的式子为:

      • (x′y′)=(cos⁡θ−sin⁡θsin⁡θcos⁡θ)(x−ωr2y−hr2)+(xy)\left( \begin{array}{cc} x^{'} \\ y^{'} \end{array} \right) = \left( \begin{array}{cc} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{array} \right)\left( \begin{array}{cc} \frac{x-\omega_r}{2} \\ \frac{y-h_r}{2} \end{array} \right)+\left( \begin{array}{cc} x \\ y \end{array} \right) (x′y′​)=(cosθsinθ​−sinθcosθ​)(2x−ωr​​2y−hr​​​)+(xy​)

Learning RoI Transformer for Detecting Oriented Objects in Aerial Images相关推荐

  1. 【论文】Learning RoI Transformer for Oriented Object Detection in Aerial Images

    RoI Transformer: 将空间转换应用在RoIs上,并通过标注旋转框,监督学习得到转换参数. RoI Transformer是轻量级的. 一.Introduction (1) 水平框检测会造 ...

  2. 【CVPR 2020】Learning RoI Transformer for Oriented Object Detection in Aerial Images

    介绍 这篇文章是针对旋转框任务的: 摘要 由于鸟瞰视角.高度复杂的背景和多变的物体外观,航拍图像中的目标检测是计算机视觉中一项活跃但具有挑战性的任务.许多检测方法依赖于通用目标检测中的水平候选框,而这 ...

  3. Detecting tiny objects in aerial images: A normalized Wasserstein distance and a new benchmark(论文导读)

    A normalized Wasserstein distance and a new benchmark(论文导读) 论文链接 文章目录 A normalized Wasserstein dista ...

  4. 详解经典旋转目标检测算法RoI Transformer

    一.引言 1.旋转目标检测检测 旋转目标检测检测就是将具有旋转方向的目标检测出来,也就是需要检测目标的中心点.长宽.角度.在俯视图的目标检测中比较常见,如遥感图像目标检测.航拍图像目标检测等.(见下图 ...

  5. 论文阅读(XiangBai——【CVPR2017】Detecting Oriented Text in Natural Images by Linking Segments)...

    XiangBai--[CVPR2017]Detecting Oriented Text in Natural Images by link Segments 目录 作者和相关链接 方法概括 方法细节 ...

  6. 【图像超分辨率】Learning Texture Transformer Network for Image Super-Resolution

    论文地址:http://openaccess.thecvf.com/content_CVPR_2020/papers/Yang_Learning_Texture_Transformer_Network ...

  7. (TTSR)Learning Texture Transformer Network for Image Super-Resolution

    中心提取: 1.该模型中提取Q.K.V的过程值得学习一下,他们使用的是:V自然就是参考图(Ref),用于辅助得到更好的纹理结果,Q是LR上采样图的特征(LR↑),K是参考图先下采样再上采样的特征(Re ...

  8. [CVPR2020-best](unsup3d)Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Image

    标题:Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild 链接:http ...

  9. RoI Transformer 精读

    背景 旋转框检测模型RRPN是通过生成大量的旋转锚框来实现多角度目标检测,后续提出的旋转框检测模型主要是在此基础上进行细节方面的改进.这种通过生成大量旋转框的方法最主要的缺点是冗余计算导致检测速度很慢 ...

  10. SegLink(Detecting Oriented Text in Natural Images by Linking Segments)算法详解

    <Detecting Oriented Text in Natural Images by Linking Segments>是和EAST同年的一篇发表在CVPR2017的OCR论文.代码 ...

最新文章

  1. ipv6简写还原_用什么进制表示ipv6
  2. ST17H26 tea加密java版本
  3. rhel6系统中,mysql 5.6复制新特性下主从复制配置[基于GTID]
  4. shell脚本详解(七)——正则表达式、sort、uniq、tr
  5. 将图形以PNG格式输出到浏览器或文件
  6. xml 数字签名 破解_JAVA中带有数字签名的XML安全性
  7. 计算机网络学习笔记(29. DNS概述)
  8. linux设备模型深探
  9. Java OCR tesseract 图像智能字符识别技术 Java实现
  10. linux模拟发包工具,发包开源工具TRex在IPS测试中的应用
  11. 基于HTML5(微信公众号,小程序)的视频安防解决方案浅析
  12. html网页中加入音乐播放器,html 网页添加音乐播放器
  13. html5自动调用js函数,从html文件中的外部js文件调用Javascript函数
  14. linux磁盘怎么分区,linux磁盘分区,linux磁盘分区怎么划分
  15. tcga数据下载_TCGA突变数据的下载、整理和可视化
  16. JAVA——实现求s=a+aa+aaa+aaaa+aa...a的值
  17. JVM垃圾收集器-Parallel Scavenge收集器
  18. 大白菜u盘启动盘清除系统登录密码详细教程
  19. 用 Python 实现资本资产定价模型
  20. 快递管理系统 V2.0

热门文章

  1. 为什么要去做亚马逊僵尸跟卖呢 亲身经历告诉你
  2. 怎么用C++实现点对点通信
  3. windows 下载和安装Qt Creator
  4. Hadoop与MPP
  5. 全球计算机科学和电子,科学网—[转载]【喜报】祝贺IEEE TCSS入选全球计算机与电子领域Top 1000期刊 - 王飞跃的博文...
  6. CvPoint及CvPoint2D32f
  7. Gram Matrices理解
  8. 利用stm32cubemx生成单极性倍频spwm调制代码步骤
  9. 我如何用Unity3D实现一个Galgame框架(存档读档与设置面板的思路)
  10. LabVIEW formula node