Fine-grained Detection —— LIO(2022.02.18)

  • 1. Object-Extent Learning Module
  • 2. Spatial Context Learning Module
  • 3. My Thinking
    • 3.1. OEL部分
    • 3.2. SCL部分
  • 4. My Summary

文章:Look-into-Object: Self-supervised Structure Modeling for Object Recognition
原文IEEE
原文arxiv


简称LIO,包含2个部分内容,OEL和SCL模块可以完全去掉,几乎没有额外的推理开销:

  1. 目标范围学习OEL(Object-Extent Learning Module)
  2. 空间上下文学习SCL(Spatial Context Learning Module)

LIO:看体态,检测骨架或罗阔特征,实现细粒度目标检测。

1. Object-Extent Learning Module

OEL目的是定位目标关注范围,实现自监督

OEL输入为backbone的输出,即特征向量。OEL输出为样本的核心关键区域的Mask。训练阶段,为了学习目标A的范围,它通过采样一定数目与 A同类别的图像,与目标A做区域相似性计算,会得到多个masks,将这些masks进行点乘,最后计算得出一个语义Mask,该Mask矩阵反映了目标A的大致范围。

2. Spatial Context Learning Module

SCL目的是学习目标的不同部分的位置关系

对目标区域的非中心部分与目标区域的中心部分(极坐标原点)的极坐标进行预测,距离计算采用MSE。中心部分(极坐标原点)是OEL给出的Mask的“核心”。

3. My Thinking

3.1. OEL部分

  • 这部分应该与Faster R-CNN中ROI目的一样,就是得出感兴趣区域。不同的是,OEL用对比的方式学习各类别的Mask,而不是闷头学样本集。这意味着,针对各类目标都需要各自有单独的对比样本集合,并且这个对比样本集合质量很有可能左右OEL的输出质量。换句话说,我认为数据上的前期工作可能相比OEL训练更重要。

  • 感觉跟DCL有同样问题。原图拆分成子区域后,负样本(背景)区域变得更集中,而目标变得更稀疏。所以我认为,这篇文章的做法不适用于目标可拆分的场景和背景特点有明显规则的场景。假设对比样本集和训练样本来自于同样场景,那OEL更容易侧重学习背景特点,因为背景比目标更具有共性。

3.2. SCL部分

  • 这部分的输入来源于OEL,可想而知OEL左右了训练质量。我认为这有点像在不确定结果上乘另外一个不确定结果。

  • 原文上看,感觉SCL更注重关注骨架或轮廓的特征。

4. My Summary

OEL迫使backbone关注目标大致范围。

RAN迫使backbone侧重关注目标骨架或轮廓特征。

Fine-grained Detection —— LIO相关推荐

  1. YOLO系列阅读(一) YOLOv1原文阅读:You Only Look Once: Unified, Real-Time Object Detection

    目录 0.Abstract 0.1原文翻译 第一段(说明本次研究和之前研究的区别) 第二段(速度快.虽然错误率高一点,但是背景被错误标记的概率更低) 0.2总结 1. Introduction 1.翻 ...

  2. 【论文翻译】UniT: Unified Knowledge Transfer for Any-Shot Object Detection and Segmentation

    UniT: Unified Knowledge Transfer for Any-Shot Object Detection and Segmentation UniT:任意样本量的目标检测和分割的统 ...

  3. 视觉显著性python_OpenCV中的显著性检测(Saliency Detection)

    前言 显著性检测,就是使用图像处理技术和计算机视觉算法来定位图片中最"显著"的区域.显著区域就是指图片中引人注目的区域或比较重要的区域,例如人眼在观看一幅图片时会首先关注的区域.例 ...

  4. 深度学习在计算机视觉中的应用长篇综述

    深度学习在计算机视觉中的应用长篇综述 前言 2012年ImageNet比赛,使深度学习在计算机视觉领域在全世界名声大震,由此人工智能的全球大爆发.第一个研究CNN的专家使Yann LeCun,现就职于 ...

  5. 超全!深度学习在计算机视觉领域的应用一览

    作者 | 黄浴,奇点汽车美研中心首席科学家兼总裁 转载自知乎 简单回顾的话,2006年Geoffrey Hinton的论文点燃了"这把火",现在已经有不少人开始泼"冷水& ...

  6. 收藏 | 深度学习在计算机视觉领域的应用总结

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达本文转自|计算机视觉联盟 还是做一些背景介绍.已经是很热的深度学习, ...

  7. 深度学习在计算机视觉领域(包括图像,视频,3-D点云,深度图)的应用一览

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 来源 | 黄浴 原文 |  https://zhuanlan.zhihu.com/p/55747295 ...

  8. 网络工程师常用英文简写

    DARPA :国防高级研究计划局 ARPARNET(Internet) :阿帕网 ICCC :国际计算机通信会议 CCITT :国际电报电话咨询委员会 SNA :系统网络体系结构(IBM) DNA : ...

  9. CVPR 2015 papers

    CVPR 2015  CVPR 2015的文章可以下载了,如果链接无法下载,可以在Google上通过搜索paper名字下载(友情提示:可以使用filetype:pdf命令). Going Deeper ...

最新文章

  1. ROS中使用摄像头的问题
  2. Spring Boot项目快速搭建
  3. 24个很酷的 CSS3 文本效果示例及教程
  4. WebService大讲堂之Axis2(6):跨服务会话(Session)管理
  5. phpmyadmin 安装
  6. linux内存显示3.54g,为什么WDCP/linux服务器内存一直显示几乎用完了
  7. js小记 function 的 length 属性
  8. python4发布_Python 3.4.1 发布
  9. 《从问题到程序:用Python学编程和计算》——导读
  10. asp.net webform设计思路的思考
  11. Spark实战电影点评系统(一)
  12. OpenCV-理想高通低通滤波器(C++)
  13. 计算机网络系统什么组成,计算机网络系统是由什么组成的
  14. 鼠标单击变双击问题排查
  15. 论文发表的等级分为哪些
  16. 淘宝新手开店可掌握的爆款核心思路
  17. 金山词霸 for linux,在Linux下使用金山词霸2003
  18. Linux 下 Android NDK 编译 openssl
  19. 面试官:请你讲讲Thread.sleep(0) 的作用?
  20. 今年双旦期间简直人品爆棚,晒晒我抽中的趣享付趣号卡

热门文章

  1. JAVA(计算机编程语言)
  2. 芯片的开发板和评估板的区别
  3. C语言之变量和数据类型
  4. 景区无线wifi覆盖解决方案
  5. 微信聊天记录导出+自动聊天机器人
  6. Windows系统编译制作SpiderMonkey最新版mozjs-31.2.0版本
  7. sql查询语句-平均分、最高最低分、排序
  8. Unreal Engine 4 问题:使用asio后编译打包报错:unresolved external symbol
  9. DameWare Mini远程连接报错信息处理方法。
  10. The ACM Publishing System (TAPS) ACM出版系统上传文章 操作流程