文章目录

  • R2CNN
    • 1. 问题定义
    • 2. R2CNN检测过程
    • 3. 创新点
      • 3.1. ROI Pooling
      • 3.2. RPN中的anchor
      • 3.3. 斜框
  • SCRDet
    • 1. SF-Net
    • 2. MDA-Net
    • 3. IoU-Smooth L1 Loss

edited by nrzheng,2022.2.22

R2CNN

1. 问题定义

  • (a)在ICDAR2015比赛中,场景文本检测的ground truth以顺时针方向四个点 ( x 1 , y 1 ) , ( x 2 , y 2 ) , ( x 3 , y 3 ) , ( x 4 , y 4 ) (x_1,y_1), (x_2,y_2), (x_3,y_3), (x_4,y_4) (x1​,y1​),(x2​,y2​),(x3​,y3​),(x4​,y4​)表示。注意:这不是矩形框
  • (b/c)可以粗略地认为被有方向的矩形包围
  • 用顺时针方向的两个点 ( x 1 , y 1 ) , ( x 2 , y 2 ) (x_1,y_1), (x_2,y_2) (x1​,y1​),(x2​,y2​)表示的一条边,以及对应的 h h h来表示一个倾斜的矩形

2. R2CNN检测过程

R2CNN可视化过程如下图所示:

  • (a)输入原图,提取特征
  • (b)使用RPN生成正框,并进行分类和精简(粗检测——只分前景和背景)
  • (c)对具有不同尺寸的集合特征合并,以预测具体目标分数、正框以及与之关联的倾斜矩形框(细检测——具体类别)
  • (d)采用非极大值抑制得到检测结果
  • 正框与斜框对应,所以可以执行不同的NMS得到不同的结果(见3.3节)

R2CNN基于Faster R-CNN。RPN用于建议文本区域、Fast R-CNN模型修改为文本区域分类、细化和倾斜框预测。网络过程如下图所示:

3. 创新点

3.1. ROI Pooling

  • 改进ROI Pooling层:从 7 × 7 7\times7 7×7更改为 7 × 7 , 11 × 3 , 3 × 11 7\times7,\ 11\times3,\ 3\times11 7×7, 11×3, 3×11

3.2. RPN中的anchor

  • 改进anchor策略:Faster RCNN中的原始anchor尺度为 ( 8 , 16 , 32 ) (8,16,32) (8,16,32),本文研究了两种策略:

    • 改为小尺寸: ( 4 , 8 , 16 ) (4,8,16) (4,8,16)
    • 添加新的尺寸: ( 4 , 8 , 16 , 32 ) (4,8,16,32) (4,8,16,32)
    • 因为与一般对象相比,小场景文本较多

3.3. 斜框

从R2CNN检测过程可知,正框与斜框是一一对应的。所以在正框上执行NMS之后,与执行斜框的NMS得到的最终结果是不同的。见下图:

  • (a)候选正框与其关联的斜框(相同颜色为一对)
  • (b)基于正常NMS对正框的检测结果(绿色框为正确检测,红色虚线框表示漏检)
  • (c)基于倾斜NMS的斜框检测结果
  • (d)两个正框的例子【正框: ( v x , v y , v w , v h ) (v_x,v_y,v_w,v_h) (vx​,vy​,vw​,vh​)】
  • (e)两个斜框的例子【斜框: ( u x 1 , u y 1 , u x 2 , u y 2 , u h ) (u_{x1},u_{y1},u_{x2},u_{y2},u_h) (ux1​,uy1​,ux2​,uy2​,uh​)】

从上图可见,若采用正框的NMS,很容易把靠太近的目标当作是一个目标而被抑制掉。但是若采用斜框的NMS,则不会出现这个问题,因为斜框相交的不多,IoU值很低,所以不会被NMS抑制掉。

SCRDet

参考链接

SCRDet对遥感目标检测面临的三个问题做了三个改进:

  1. 小目标:通过特征融合和anchor采样角度出发设计一个特征融合结构(SF-Net模块)
  2. 密集排列:设计了一个有监督的多维注意力网络以减少背景噪声的不利影响(MDA-Net)
  3. 任意方向:通过添加IoU常数因子设计了一种改进的平滑L1损失,该因子专门用于解决旋转边界框回归的边界问题

1. SF-Net

2. MDA-Net

3. IoU-Smooth L1 Loss

首先了解旋转边界框的两种常见方式:

  1. opencv表示法

  1. 长边表示法

SCRDet是采用的opencv 表示法。在当前常用的旋转检测框的角度定义下,由于存在旋转角度的边界问题,会产生不必要的损失,如下图所示:

最理想的角度回归路线是由蓝色框逆时针旋转到红色框,但由于角度的周期性,导致按照这个回归方式的损失非常大(参见长边表示法或opencv表示法的右图)。此时模型必须以更复杂的形式回归(例如蓝色框顺时针旋转,同时缩放w和h),增加了回归的难度。为了更好地解决这个问题,本文在传统的smooth L1 损失函数中引入了IoU常数因子。

目标检测——R2CNN与SCRDet相关推荐

  1. SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects(摇杆旋转目标检测方法)

    文章目录 SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects(遥感旋转目标检测方法) 一.论文摘 ...

  2. 干货 | 一文总结旋转目标检测全面综述:论文方法与代码

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自|计算机视觉联盟 1.RRPN(两阶段文字检测 华科白翔组 ...

  3. 旋转目标检测 校准的深度特征用于目标检测SSA

    目录 旋转目标检测rotation-yolov5 旋转目标检测综述 SSA旋转目标检测 旋转目标检测rotation-yolov5 旋转目标检测rotation-yolov5笔记_AI视觉网奇的博客- ...

  4. 一文总结旋转目标检测全面综述:论文方法与代码

    参考一文总结旋转目标检测全面综述:论文方法与代码 - 云+社区 - 腾讯云 首先放上DOTA数据集官网(http://captain.whu.edu.cn/DOTAweb/index.html),官网 ...

  5. 目标检测的旋框框文献学习

    这是最近打算看完的文献,一天一篇 接下来将记录一下文献阅读笔记,避免过两天就忘了 RRPN 论文题目:Arbitrary-Oriented Scene Text Detection via Rotat ...

  6. 旋转目标检测综述(持续更新中)

    文章目录 前言(所有检测模型) 四.R^2CNN(17年) 1.表示方法 2.亮点一:增加anchor 3.亮点二:增加多尺度的ROIPooling.斜框FC 4.亮点三:斜NMS 5.损失函数.实验 ...

  7. 目标检测之样本不平衡问题

    样本不平衡问题感觉近期研究的论文相对较多,如:2019 AAAI GHM,2019 CVPR AP-loss, 还有2019 DR loss, 2019 IoU-balanced loss,two-s ...

  8. AAAI 2021中的目标检测(详细版with code)

    本文转自知乎,已获作者张泽今授权转载,请勿二次转载.原文链接: https://zhuanlan.zhihu.com/p/345472885 本篇文章来介绍一下 AAAI 2021 会议录取的目标检测 ...

  9. 【项目合作】方向任意的目标检测

    52CV 的一位粉丝正在参与某系统内部科研比赛,主要目标是在遥感图像中检测舰船,涉及到的技术领域为"方向任意的目标检测"或称"方向多样的目标检测"(multi- ...

最新文章

  1. 如何读取比机器内存大的文件(内存4G,文件 8G,读取大文件) ?
  2. 《JAVA练习题目4》 训练要点:String和StringTokenizer的使用,以及排序算法。
  3. VRRP协议介绍--转
  4. 深度学习概述:从感知机到深度网络
  5. [入门]C#语法里面,如何使用 VB的常用函数?(using Microsoft.VisualBasic)
  6. 校园网站服务器配置参数,校园网服务器性能 配置及分布
  7. 【机器学习基础】SVM算法在项目实践中的应用!
  8. Python面向对象(一)
  9. java常用简略语含义
  10. php怎么把日志推送过去_实践 | 基于Flink的用户行为日志分析系统
  11. 设计一款知识性产品需要考虑十二个基本问题
  12. A*寻路算法的探寻与改良(一)
  13. HNOI2004 郁闷的出纳员(Splay)
  14. zend studio php 运行,Zend Studio使用教程:使用PHP 7进行开发(一)
  15. XP系统优化简单实用技法
  16. c语言日程报告闹钟,可以闹钟提醒的日程表,日程闹钟提醒怎么弄
  17. Pyhton中dataFrame型数据 values方法返回结果是数组,并将数组转化为列表的tolist方法
  18. 日活两亿的快手,如何用AI理解视频、做好分发
  19. Delphi xe7组件和控件的安装方法
  20. html5页面交互,H5的交互原型设计

热门文章

  1. EAGAIN不是非阻塞才有
  2. apt软件包依赖下载
  3. linux浏览器 访问web监控,如何从Web浏览器远程监控Linux服务器和桌面系统?
  4. “男友家里存款只有20万,我该和他结婚么?”数据告诉你20万的存款到底算少么...
  5. handlebar JS模板使用笔记
  6. 国信证券学习系列(8)
  7. 通知:清明节放假通知
  8. 京东购买意向预测(三)
  9. uniapp 微信小程序之拉取用户电话号码
  10. Qt/C++ 借助QVariant实现可存储通用类型的容器