作者丨小马
编辑丨极市平台
本文原创首发于极市平台公众号,转载请获得授权并标明出处。

【写在前面】

在本文中,作者提出了一种基于Transformer的目标检测器。在以前基于Transformer的检测器中,目标的查询是一组可学习的embedding。然而,每个可学习的embedding都没有明确的意义 (因为是随机初始化的),所以也不能解释它最终将集中在哪里。此外,由于每个对象查询将不会关注特定的区域,所以训练时优化也是比较困难的

为了解决这些问题,作者借鉴了CNN目标检测器中的Anchor Point机制,使得每个查询都基于特定的Anchor Point的。因此,每个查询都可以集中在Anchor Point附近的目标上。此外,本文的查询设计可以在一个位置预测多个目标。为了降低attention的计算成本,作者设计了一种轻量级的attention变体。基于新的查询设计和attention变体,本文提出的Anchor DETR可以获得比DETR更好的性能和更快的运行速度。

1. 论文和代码地址

Anchor DETR: Query Design for Transformer-Based Detector

论文地址:https://arxiv.org/abs/2109.07107

代码地址:https://github.com/megvii-model/AnchorDETR(即将开源)

原文地址:多快好省的目标检测器来了!旷视孙剑团队提出 Anchor DETR:基于 Anchor Point 的 DETR

多快好省的目标检测器来了,旷视孙剑团队提出Anchor DETR:基于Anchor Point的DETR相关推荐

  1. 旷视孙剑团队提出Anchor DETR:基于Transformer的目标检测新网络

    开放了预训练,r50 400多m 写在前面 在本文中,作者提出了一种基于Transformer的目标检测器.在以前基于Transformer的检测器中,目标的查询是一组可学习的embedding.然而 ...

  2. 旷视孙剑团队提出AutoML神经架构搜索新方法:单路径One-Shot,更精确更省时

    本文转载自旷视研究院 一步法(One-Shot)是一个强大的神经网络模型搜索(Neural Architecture Search/NAS)框架,但是它的训练相对复杂,并且很难在大型数据集(比如 Im ...

  3. 旷视孙剑博士提出LGD,训练速度提升51%,适用于目标检测的知识蒸馏

    来源:新智元 [导读]知识蒸馏已经成了目前常用的模型压缩方法,但相关研究还局限在图像分类任务上.最近旷视孙剑博士联手西安交大发表了一篇论文,提出新模型LGD,无需一个强力的teacher模型也能在目标 ...

  4. LGD:涨点神器!旷视孙剑、张祥雨团队提出标签引导的自蒸馏技术,助力目标检测!...

    关注公众号,发现CV技术之美 本文介绍论文『LGD: Label-guided Self-distillation for Object Detection』,由旷视孙剑.张祥雨团队等提出标签引导的自 ...

  5. 法向量 点云pca_CVPR 2019 | 旷视研究院Oral论文提出GeoNet:基于测地距离的点云分析深度网络...

    全球计算机视觉三大顶会之一 CVPR 2019 (IEEE Conference on Computer Vision and Pattern Recognition)将于 6 月 16-20 在美国 ...

  6. CVPR 2019 | 旷视研究院Oral论文提出GeoNet:基于测地距离的点云分析深度网络

    全球计算机视觉三大顶会之一 CVPR 2019 (IEEE Conference on Computer Vision and Pattern Recognition)将于 6 月 16-20 在美国 ...

  7. ResNet成阿尔法元核心技术 旷视孙剑详解Zero的伟大与局限

    摘要:2017年10月19日,DeepMind团队发表了迄今最强版本的AlphaGoAlphaGo Zero,其中一个重要模块是出自华人团队的深度残差网络ResNet.就此背景,新智元采访了深度残差网 ...

  8. AlphaGo Zero「无师自通」背后的伟大与局限 | 旷视孙剑解读

    整理 | 安木 当你被 AlphaGo Zero 刷屏的时候,你是对人类的创造力产生自豪,还是对人类的未来感到担忧? 10 月 20 日,旷视科技(Face++)首席科学家孙剑博士接受了多家媒体的群访 ...

  9. R TALK | 旷视孙剑:如何打造云、端、芯上的视觉计算

    「R TALK 」是北京智源-旷视联合实验室推出的一个深度学习专栏,将通过不定期的推送,展示旷视研究院的学术分享及阶段性技术成果.「R Talk 」旨在通过一场场精彩纷呈的深度学习分享,抛砖引玉,推陈 ...

最新文章

  1. HTML4.0标准语法--字体
  2. 他十年前的书在前端圈人手一本,豆瓣评分9.1。现在,王者归来了!
  3. 排序命令: sort, wc, uniq
  4. 【AI初识境】什么是深度学习成功的开始?参数初始化
  5. Eclipse中要导出jar包中引用了第三方jar包怎么办
  6. 【POJ - 1275】Cashier Employment(差分约束,建图)
  7. STM32----TIM6和TIM7
  8. 如何实现A星寻路算法 Cocos2d-x 3 0 beta2
  9. Rsync+Inotify操作文档
  10. python机器人方向怎么学_学习如何使用 Python 构建你自己的 Twitter 机器人
  11. 迷你世界勒索病毒,你的文件被删了吗?
  12. shader篇-动画
  13. 如何设置默认浏览器?快速学会,简单易懂
  14. 想要年薪百万,阿里Sentinel支持RESTful接口都搞不定?
  15. git版本控制常用命令(精)
  16. Python 库大全(下)
  17. 辕古千年鼠标连点器的研究,目前只缺影子补丁了
  18. 人民云网运用IPFS技术
  19. 导光板背光种类有哪些?
  20. 2022年制冷与空调设备安装修理考试题及在线模拟考试

热门文章

  1. BZOJ 3195: [Jxoi2012]奇怪的道路 | 状压DP
  2. 台式机 双显卡切换实战
  3. iOS 9之3D Touch
  4. 【SICP练习】66 练习2.37
  5. 面试准备系列01----面试中的链表题目汇总
  6. 高质量程序设计指南c++/c语言(17)--函数
  7. Science:如何高效阅读文献?
  8. 第22天学习Java的笔记-继承
  9. c、c++、Java和gcc写Hello World
  10. 国外在线学习网站+慕课平台