Diffusion Model for Object Detection
一种用于目标检测的扩散模型

  • Motivation
    1、如何使用一种更简单的方法代替可查询的object queries
    2、Bounding box的生成方式过去是三种,第一种为sliding windows、第二种anchor box、第三种object queries,这里其实还有一种当时非常非常火的anchor free
    3、本文提出基于生成的的检测方式,主要在目标检测方面的两大发现

  • Innovation
    1、将目标检测表示为从噪声框到对象框的去噪扩散过程。
    2、发现一随机框相比预设锚点、目标检索的方式不同但同样能实现从候选区域找到目标。
    3、发现二目标检测的特征感知提取任务可以通过生成的方式解决。
    4、图1中C的表述为目标检测表示为从噪声框到目标框的去噪扩散逆向过程

  • Contribution
    1、首次将扩散模型用于目标检测,将目标检测过程定义为一个去噪过程
    2、从噪声框到检测框通过动态框的解耦训练和评估阶段及渐进式细化
    3、在两个数据集上的实验证明了这种检测器的有效性

  • Methodology
    方差时间表控制获取噪声框的过程,通过生成技术从随机噪声框中国预测真实框
    将噪声框从骨干编码器输出的特征图中裁剪感兴趣的区域ROI特征
    将ROI特征发送到解码器预测出没有包含噪声的真实值,从而实现从随机框中预测出真实框
    1、目标检测的几种常见范式

    2、扩散模型的去噪方法应用
    3、感知任务的扩散模型:参考采用像素比特扩散模型对图像和视频的全景分割,图像通过编码器进行对输入的数据特征提取表示,解码器将噪声框作为输入后预测分类和框坐标。训练过程种,噪声框是通过向真实值添加高斯噪声来构建的。推理过程种,噪声框是从高斯分布种随机采样得到的。
    4、本文的实现方式:x表示输入图像向量;b表示边框矩阵,c表示类别标签矩阵。
    4.1、通过马尔可夫链逐渐向样本数据添加噪音来定向设计扩散过程的前向传播方法,训练过程通过L2范数学习从目标噪音目标到真实目标过程(这个思路本人认为是非常经典的创新),推理阶段是从噪声图像中重建目标图像数据样本思路,由于扩散迭代所以网络结果如下。
    4.2、网络结构:编码器运行从原始输入图像提取特征,解码器逐步细化来自噪声框的真实框得到结果。
    4.3、图像编码器:从原始输入图像提取高级特征,这一部分基于ResNet、Swin的特征金字塔实现。
    4.4、图像解码器:从一组建议噪声框作为输入选举ROI,并对这些ROI借助Sparse R-CNN的6个级联对应到真实框中。
    4.5、训练过程:先从真实框到噪声框扩散生成,然后训练过程反转将额外的框填充到真实的框。
    ![在这里插入图片描述](https://img-blog.csdnimg.cn/54113e7a56bb4b92b237c307a0afc99e.png

    4.6推理过程:从噪声框中寻找目标框的采样实现是通过高斯分布采样框开始逐步预测,第一步是解码器预测分类和坐标,第二步是采用DDIM进一步预测坐标,bbox通过随机框过滤恢复框,然后通过高斯分布采用把新随机框预测。

  • Result
    1、在MS-COCO上和LVIS上验证了它的通用性(once for all)

  • Application
    AP表现最佳
    对比了Faster R-CNN、Cascade R-CNN、Sparse R-CNN,未来在多目标跟踪、关键点动作识别。


    相关评论:https://www.zhihu.com/question/567414823/answer/2767617257

DiffusionDet:Diffusion Model for Object Detection相关推荐

  1. DiffusionDet: Diffusion Model for Object Detection

    代码: 代码 目录 摘要 Abstraction 1 引言 Introduction 2 相关工作 Related Work 3 方法 Approach 3.1 预备知识 Preliminaries ...

  2. Object Detection(目标检测神文)

    目标检测神文,非常全而且持续在更新.转发自:https://handong1587.github.io/deep_learning/2015/10/09/object-detection.html,如 ...

  3. object detection

    原地址:https://handong1587.github.io/deep_learning/2015/10/09/object-detection.html Object Detection Pu ...

  4. 论文研读 —— 4. You Only Look Once Unified, Real-Time Object Detection (3/3)

    文章目录 3. Comparison to Other Detection Systems 4. Experiments 4.1. Comparison to Other Real-Time Syst ...

  5. YoLo: You Only Look Once: Unified, Real-Time Object Detection译文

    Abstract摘要 We present YOLO, a new approach to object detection. Prior work on object detection repur ...

  6. 深度学习论文阅读目标检测篇(四)中英文对照版:YOLOv1《 You Only Look Once: Unified, Real-Time Object Detection》

    深度学习论文阅读目标检测篇(四)中英文对照版:YOLOv1< You Only Look Once: Unified, Real-Time Object Detection> Abstra ...

  7. 目标检测经典论文——Faster R-CNN论文翻译:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Net

    Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks Faster R-CNN:通过Region ...

  8. Object Detection经典代码与文章

    转载自Object Detection Papers Deep Neural Networks for Object Detection paper: http://papers.nips.cc/pa ...

  9. win10 tensorflow object detection API安装

    安装前提:已安装python3.6+tensorflow-gpu1.8  显卡:GTX1080ti c://users/Lyapunov//AppData//Local//Programs//Pyth ...

最新文章

  1. 降低成本,提高生产力—8句话讲清RPA的部署
  2. 三同轴连接器_电子元器件 连接器相关知识
  3. vue assets图片_Vue实战—如何细化Vue项目目录设计(2)
  4. 六年不惑:开发人员的“僵难Style”
  5. Web版本的国际通讯工具合集
  6. 简简单单几行Python代码就能暴力破解网站登录密码,真有这么强吗?
  7. 计算机辅助药物设计 开发新药,前沿新知 | 计算机辅助药物设计应用现状
  8. 小柯印前设计师(DrawVBA)及教程
  9. 自然语言处理-003NLP定义以及歧义性-学习笔记
  10. 广电网络电视怎么服务器连接中断,怎么解决广电网络看电视卡
  11. 异步电动机转子磁动势——转子堵转时
  12. Flink入门系列05-时间语义
  13. css自动换行,css代码
  14. python pyramid基础学习二
  15. springboot+小程序老年人健康保障管理系统毕业设计源码302303
  16. task03 python自动化之word操作
  17. python+opencv图片分割字符
  18. jq 刷新页面,刷新父级页面,iframe刷新父级页面
  19. Linux链接(软链接与硬链接)
  20. PLS系列001 数据预处理

热门文章

  1. 1082 射击比赛 (20 分)
  2. 用户搜索行为与关键词分析(一)(转)
  3. Python:Flask-Bootstrap 框架
  4. Cannot set property 'innerHTML' of null解决办法
  5. 学生的姓名 ,年龄,性别,班级及爱好IDEA代码
  6. JS数组前加三点什么意思
  7. 19年上海计算机本科生工资,高校发布2019届毕业生就业质量报告:毕业生薪资普涨...
  8. 修改host后立即生效
  9. 计算机再带word打不开怎么办,小编教你电脑word打不开怎么办
  10. 这是一个php中快速排序字母,php 快速排序