原文:Zhang H, Li F, Liu S, et al. Dino: Detr with improved denoising anchor boxes for end-to-end object detection[J]. arXiv preprint arXiv:2203.03605, 2022.

源码:https://github.com/IDEACVR/DINO

我们提出了一种新的端到端目标检测器DINO,它在性能和效率上均优于以往的DETR类模型,主要得益于以下三点:对比去噪训练、用于锚框初始化的混合query选择、用于边框预测的look forward twice方案。DINO使用ResNet-50和多尺度特征在COCO上实现了49.4 AP(12轮)和51.3 AP(24轮)的成绩,与之前最好的DETR类模型DN-DETR相比,分别涨点6.0 AP和2.7 AP。DINO在模型大小和数据大小方面都具有良好的可扩展性。在不使用花哨技巧的情况下,DINO使用Swin-L骨干网络在Objects365数据集上进行预训练后,在COCO val2017和test-dev数据集上获得了最佳结果,分别是63.2 AP和63.3 AP。与目标检测排行榜上的其他模型相比,DINO在获得更好结果的同时,显著减小了模型大小和预训练数据大小。

图1:在COCO数据集上,DINO与其他模型结果的比较。

图2:DINO模型的框架。我们的改进主要在Transformer编码器和解码器方面。我们选择最后一层中的top-K编码器特征来初始化Transformer解码器的位置queries,而内容queries保持为可学习的参数。我们的解码器还包含一个对比去噪(CDN)部分。

图3:CDN group的结构和正负例的演示。

图4:(a)和(b)分别是全部物体和小物体上的ATD(100)值。(c)是小物体上的AP值。

图5:三种query初始化方法的比较。

图6:Deformable DETR和DINO边框更新方法的比较。

表1:在COCO val2017数据集上,DINO和其他检测模型结果的比较(使用ResNet-50骨干网络,训练12轮)。

表2:在COCO val2017数据集上,DINO和其他检测模型结果的比较(使用ResNet-50骨干网络,训练更多轮)。

图7:在COCO val2017数据集上,DINO和其他两个检测模型的训练收敛曲线(使用ResNet-50骨干网络和多尺度特征)。

表3:MS-COCO上最佳检测模型的比较。

表4:算法组件的消融研究。QS、CDN、LFT分别表示Query Selection、Contrastive De-Noising Training、Look Forward Twice。

图8:左图是使用DN queries训练的模型的检测结果,右图是DINO的结果。在左图中,箭头所指的男孩有3个重复的边框。

表5:不同模型的训练效率(使用ResNet-50骨干网络)。所有模型均使用8块Nvidia A100 GPU进行测试。

表6:编码器/解码器层数的消融研究。

表7:去噪queries数量的消融研究。

表8:DINO模型中使用的超参数。

在本文中,我们提出了一种强大的端到端Transformer检测器DINO,借助contrastive denoising training、mixed query selection、look forward twice方法,大大提高了模型的训练效率和检测性能。我们进一步尝试在更大的数据集上用更强的骨干网络训练DINO,并在COCO 2017 test-dev数据集上达到了新的SOTA水平,63.3 AP。

多模态人工智能

为人类文明进步而努力奋斗^_^↑

欢迎关注“多模态人工智能”公众号^_^↑

DINO:一种新的端到端目标检测器(速读版)相关推荐

  1. 一种新的无监督前景目标检测方法 A New Unsupervised Foreground Object Detection Method

    14.一种新的无监督前景目标检测方法 A New Unsupervised Foreground Object Detection Method 摘要:针对基于无监督特征提取的目标检测方法效率不高的问 ...

  2. CVPR 2021 | LiDAR R-CNN:一种高效且通用的 3D 目标检测器

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 标题:LiDAR R-CNN: An Efficient and Universal 3D Objec ...

  3. DETR系列大盘点 | 端到端Transformer目标检测算法汇总!

    点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心[目标检测]技术交流群 后台回复[2D检测综述]获取鱼眼检测.实时检测.通用2D检测等近 ...

  4. 端到端问答新突破:百度提出RocketQA,登顶MSMARCO榜首

    机器之心发布 机器之心编辑部 开放域问答(Open-domain QA)一直是自然语言处理领域的重要研究课题.百度从面向端到端问答的检索模型出发,提出了RocketQA训练方法,大幅提升了对偶式检索模 ...

  5. 首发:徐亦达团队新论文推荐(ECCV2020):端到端多人多视角3d动态匹配网络

    徐亦达团队在ECCV2020上发表了一篇机器学习论文 End-to-end Dynamic Matching Network for Multi-view Multi-person 3d Pose E ...

  6. 论文浅尝 | DRUM:一种端到端的可微的知识图谱上的规则学习方法

    论文笔记整理:张文,浙江大学在读博士,研究方向为知识图谱的表示学习,推理和可解释. 现有的多数链接预测方法都不能处理新的实体,并且多为黑盒方法,使得其预测结果无法解释.本文提出了一种新的端到端的可微的 ...

  7. ICCV2021- 牛津大学新的预训练视频文本数据集WebVid-2M,设计用于端到端检索的联合视频和图像编码器!代码已开源!...

    关注公众号,发现CV技术之美 ▊ 写在前面 视频文本检索的挑战包括视觉网络结构的设计 和训练数据的性质 ,因为可用的大规模视频文本训练数据集 (例如HowTo100M) 是noisy的,因此只能通过大 ...

  8. 高精地图落地 | InstaGraM:实时端到端矢量化高精地图新SOTA!

    点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心[高精地图]技术交流群 后台回复[高精地图综述]获取高精地图创建.高精地图定位等多篇综述 ...

  9. 学会4种方法,掌握端到端测试处理数据..

    推荐阅读: [内部资源] 想拿年薪30W+的软件测试人员,这份资料必须领取~ Python自动化测试全栈+性能测试全栈,挑战年薪40W+ 对Web应用程序运行自动化的端到端测试时,最常见的问题之一是如 ...

  10. 企企通:B2B商城四种“玩法”,一站式解决端到端全链路需求!

    商城系统在电商零售领域中,一直是助力商家搭建商城的核心工具,随着电商行业的发展,各种新模式随即出现,与此同时也出现了各种各样的商城系统,而B2B商城是这其中最为常见的商城系统. 近年来,由于电子商务的 ...

最新文章

  1. 如何开启远程(win7win8)
  2. scrapy-redis的关键配置
  3. JS调用PageOffice接口,删除Word表格中光标所在行
  4. Nginx学习之HTTP/2.0配置
  5. mysql 命令 不对齐,MySQL中自己不太常用的命令
  6. mmap直接操作底层,相当于驱动
  7. java.library.path到底指什么
  8. 前端学习(3146):react-hello-react之getDenvied
  9. html设置了标签但是定义不了,在HTML标签管理器中设置不带元素ID的HTML中的事件...
  10. ecshop上传图片2
  11. ROS Learning-019 learning_tf-03(编程) 添加额外的坐标系 (Python版)
  12. [笔记分享] [Camera] msm8926的ZSL功能小结
  13. php 爬虫检查,php判断是否是爬虫访问
  14. PHP加密平台,在线加密sg11,混淆,Leave,EnPHPV2等
  15. T-BOX,OBD区别
  16. 基于Linux centos7 搭建内网服务器,并通过外网访问
  17. 【汇正财经】扬帆起航,医美市场行业规模扩张
  18. jq多选按钮值_jQuery实现获取选中复选框的值实例详解
  19. js 将秒数换算成时分秒
  20. 研究生放假因疫情未按时返回,扣助研补贴!实验室奇葩规定引热议

热门文章

  1. 主打产品“火力不足”致使发行人持续盈利能力下降,这公司创业板IPO被终止
  2. pixel bender 学习备忘录
  3. Python小白的数学建模课-21.关键路径法
  4. 非宁静无以致远,借以静化心灵
  5. Ubuntu 16.04 安装wine-qq 7.8 并解决不能输入中文问题
  6. 聚合搜索 Meta Search实践
  7. 使用Elasticsearch聚合搜索进行数据的分类统计
  8. Referrer 还是 Referer?
  9. VMware虚拟机中XP系统激活及上传文件
  10. 检索策略(抓取策略)