目标检测模型在定位和分类训练期间显示目标时表现良好,然而,由于创建和注释检测数据集的难度和成本,训练过的模型检测到数量有限的目标类型,未知目标被视为背景内容。这阻碍了传统检测器在现实应用中的采用,如大规模物体匹配、visual grounding、视觉关系预测、障碍检测(确定物体的存在和位置比找到特定类型更重要)等。

目标检测模型在定位和分类训练期间显示目标时表现良好,然而,由于创建和注释检测数据集的难度和成本,训练过的模型检测到数量有限的目标类型,未知目标被视为背景内容。这阻碍了传统检测器在现实应用中的采用,如大规模物体匹配、visual grounding、视觉关系预测、障碍检测(确定物体的存在和位置比找到特定类型更重要)等。

有研究者提出类不可知目标检测作为一个新问题,专注于检测对象的对象类。具体地说,其目标是预测图像中所有对象的边界框,而不是预测它们的对象类。预测的框可以被另一个系统使用,以执行特定于应用程序的分类、检索等。

提出了针对类不可知检测器的基准测试的训练和评估协议,以推进该领域的未来研究。最后,研究者提出了:(1)基线方法和(2)一个新的用于类无关检测的对抗性学习框架,它迫使模型从用于预测的特征中排除特定于类的信息。实验结果表明,对抗性学习方法提高了类不可知性的检测效率。

会有同学会问“目标检测中bbox回归中class-agnostic和class-specific的区别在哪?”。今天我们简单说一下,然后开始今天主框架的分析。

  • class-specific 方式:很多地方也称作class-aware的检测,是早期Faster RCNN等众多算法采用的方式。它利用每一个RoI特征回归出所有类别的bbox坐标,最后根据classification 结果索引到对应类别的box输出。这种方式对于ms coco有80类前景的数据集来说,并不算效率高的做法。

  • class-agnostic 方式:只回归2类bounding box,即前景和背景,结合每个box在classification 网络中对应着所有类别的得分,以及检测阈值条件,就可以得到图片中所有类别的检测结果。当然,这种方式最终不同类别的检测结果,可能包含同一个前景框,但实际对精度的影响不算很大,最重要的是大幅减少了bbox回归参数量。具体细节,自己参考目前一些开源算法源码会理解的更好。

Class-agnostic目标检测器使用object proposal methods (OPMs), conventional class-aware detectors和提出的adversarially trained class-agnostic detectors。如下图:

绿色和紫红色分别是真值和检测结果。            whaosoft aiot http://143ai.com  
新框架 General Framework

传统的类感知检测侧重于检测“感兴趣的对象”,这本质上要求模型能够区分封闭已知集合中的对象类型。直观地说,模型通过编码区分对象类型的特征来实现这一点。然而,为了使类不可知的检测和模型能够检测到以前看不见的对象类型,检测器应该编码能够更有效地区分对象与背景内容、单个对象与图像中的其他对象的特征,而不区分对象类型。

训练传统的目标检测器的二元分类任务以及边界框回归不足以确保模型关注类无关特征,更重要的是,忽略类型区分特征,以便更好地推广到看不见的目标类型。为了克服这个问题,研究者建议以一种对抗性的方式训练类不可知的目标检测器,以便模型因编码包含目标类型信息的编码特征而受到惩罚。

研究者提议用对抗性鉴别器分支来增强类不可知的检测器,这些分支试图从检测网络上游输出的特征中分类对象类型(在训练数据中注释),如果模型训练成功,则对其进行惩罚。模型以交替的方式训练,这样当模型的其余部分更新时,鉴别器被冻结,反之亦然。在更新鉴别器时,研究者使用标准的分类交叉熵损失的目标类型作为预测目标。另一方面,在训练模型的其余部分时,最小化(a)目标与否分类的交叉熵损失,(b)边界框回归的平滑L1损失,以及(c)鉴别器预测的负熵。这种熵最大化迫使检测模型的上游部分从其输出的特征中排除目标类型信息。对于模型的每次更新,鉴别器被更新五次,在整个目标中使用乘子α(调整{0.1,1})对负熵进行加权。上图总结了完整的框架。

实验

Generalization results for FRCNN models trained on the seen VOC dataset. The top row shows macro-level AR@kfor seen and unseen classes in VOC and their harmonic mean (AR-HM). FRCNN-agnostic-adv performs the best overall. The second row shows micro-level results for the easy, medium, and hard unseen classes. FRCNN-agnostic-adv performs the best on the hard and easy classes with recall drop for the medium class. The last row provides results of evaluation on the COCO data of 60 unseen classes. FRCNN-agnostic-adv achieves the best AR@k for objects of all sizes.

 Generalization results for SSD models trained on the seen VOC dataset. The top row shows macro-level AR@kfor seen and unseen classes in VOC as well as their harmonic mean (AR-HM). SSD-agnostic-adv performs the best on AR- Unseen and AR-HM, with a drop in AR-Seen, but the models that outperform SSD-agnostic-adv on AR-Seen do significantly worse on AR-Unseen and AR-HM. The second row shows micro-level results for the easy, medium, and hard unseen classes. SSD-agnostic-adv performs the best in all categories. The last row provides results of evaluation on the COCO data of 60 unseen classes. SSD-agnostic-adv achieves the best AR@k with a slight reduction for small-sized objects.

Class-agnostic相关推荐

  1. 关于前端开发 Framework Agnostic 和微前端的话题

    1 What does it mean by Framework agnostic? 框架不可知一般意味着确切地说,即不可知或独立于任何框架. 举个例子,公司或产品团队经常处理以下优先事项: 通常在大 ...

  2. 【三维几何学习】DiffusionNet: Discretization Agnostic Learning on Surfaces

    DiffusionNet 引言 一.方法简述 1.1 输入 1.2 网络 1.3 损失函数 二.分类实验 2.1 结果 2.2 代码 三.分割实验 3.1 结果 3.2 代码 四.一些想法 4.1 输 ...

  3. Agnostic Lane Detection

    Agnostic Lane Detection 翻译 Abstract 车道检测既重要又具有挑战性自动驾驶任务受很多因素的影响因素,例如光线条件,其他因素造成的遮挡车辆,道路上不相关的标记和固有车道的 ...

  4. 《Counting Out Time: Class Agnostic Video Repetition Counting in the Wild》论文笔记

    Counting Out Time: Class Agnostic Video Repetition Counting in the Wild Abstract 我们提出了一种估计视频中重复动作周期的 ...

  5. Class Agnostic的物体检测/分割

    最近在看Class Agnostic的物体检测/分割,今天分享三篇文章 1.进入主题之前,先介绍这方面主要用到的数据集 Class Agnostic是一个通用的方法,可以用在很多任务上面. Class ...

  6. Rasa课程、Rasa培训、Rasa面试、Rasa实战系列之 Language Agnostic BERT

    Rasa课程.Rasa培训.Rasa面试.Rasa实战系列之 Language Agnostic BERT Language Agnostic BERT Language-agnostic BERT ...

  7. 2019.08_【FSGAN】_Subject Agnostic Face Swapping and Reenactment 论文翻译

    原文链接:https://blog.csdn.net/mzj15101229871/article/details/109442181 论文原文: FSGAN: Subject Agnostic Fa ...

  8. Domain Agnostic Learning with Disentangled Representations

    Domain Agnostic Learning with Disentangled Representations 第一章 领域未知的表示学习 文章目录 Domain Agnostic Learni ...

  9. 《Domain Agnostic Learning with Disentangled Representations》代码

    文章目录 `class_loss` 分类交叉熵损失_论文公式(2) `ring_loss` Ring-style Normalization_论文公式(8) `mutual_information`_ ...

  10. 2019_ICML_Domain Agnostic Learning with Disentangled Representations

    论文地址:https://arxiv.org/pdf/1904.12347.pdf 代码地址:https://github.com/VisionLearningGroup/DAL 1 研究动机与研究思 ...

最新文章

  1. Java8读文件仅需一行代码
  2. MySQL查询结果复制到新表(更新、插入)
  3. GraphPad Prism 9.2 科学绘图 最新 可用
  4. 解读三种虚拟化之路连载一:x86虚拟化概述
  5. 关于:以前的某个程序安装已在安装计算机上创建挂起的文件操作解决办法(SQL2000)...
  6. 初识德国的小朋友兴趣课程
  7. 找不到编译动态表达式所需的一种或多种类型。是否缺少对 Microsoft.CSharp.dll 和 System.Core.dll 的引用?...
  8. python量化数据处理小细节2
  9. android改变下拉框字体颜色,有没有简单的方法来改变Android中的Spinner下拉颜色?...
  10. shell脚本if和switch语句编写案例
  11. img标签设置display:block,宽度无法100%
  12. 信息安全工程师考试大纲-科目2:信息安全应用技术
  13. C#图片处理之: 获取数码相片的EXIF信息(二)
  14. 八皇后问题(回溯算法)
  15. 关于人工智能AI的发展,边缘计算中的AI芯片
  16. Android 拍摄(横 \ 竖屏)视频的懒人之路
  17. Unity制作AR图片和视频展示
  18. opencv-python-仿射变换-图片拉伸成平行四边形
  19. C++中出现[Error] ‘rand‘ was not declared in this scop报错
  20. 大专学的计算机如何进国企,专科毕业生想进国企?这三大专业不要错过,成功率高达60%...

热门文章

  1. git add 报错 warning: LF will be replaced by CRLF
  2. 中国境内小麦的储粮害虫汇总
  3. JavaSE笔记详细整理
  4. 判断领导是在压榨你,还是在培养你?就看这5点!别被骗了!
  5. 台灯选什么样的对眼睛好?高品质护眼台灯推荐
  6. 乙肝患者不知规范治疗
  7. MATLAB-003 合并txt:一个HistCite应用
  8. css3绘制小猫睡觉甩尾巴
  9. 【VMware vSAN 7.0】6.2 延伸集群设计注意事项—我们有软硬件解决方案
  10. 2019-2020-2 20175212童皓桢《网络对抗技术》Exp5 信息搜集与漏洞扫描