DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

目的

本文提出了一个 仅使用 2D 信息的,3D 目标检测网络,并且比依赖与 密集的深度预测 或者 3D 重建的过程。该网络使用了 和 DETR 相似的 trasformer decoder ,因此也无需 NMS 等后处理操作。

长久以来 3D目标检测是一个挑战,并且 仅使用 2D 的图像信息(RGB图像),相比于 3D 信息(LiDAR)更加困难。

一些经典的方法:

  1. 使用2D 目标检测 pipeline(CenterNet,FCOS等) 预测 3D信息(目标pose,速度),并不考虑 3D场景结构 或 传感器配置。这些方法需要一些后处理来融合多个相机的信息,以及去掉冗余的 boxes。
  2. 作为这些基于2D方法的一些替代方案,一些方法将3D的计算纳入了 pipeline中:通过从图像中生成伪激光雷达,或是场景的距离。然后使用一些 3D 目标检测方法,处理这些数据,就好像我们直接获取了 3D 的数据。这种方法的问题是,对深度估计的不准确,会对3D的目标检测带来负面影响。

本文提出了一个更加优雅的 2D 观察到 3D预测的过渡,用于自动驾驶任务,该方法不依赖于 密集的深度预测模块。

方法

网络结构

网络结构概述:

  1. 使用一个共享的 ResNet backbone 以及 FPN 提取特征
  2. 一个检测头,以 geometry-aware manner 连接 2D 特征 和 3D bbox 预测。检测头的每一层都 输入 从数据中学到的 目标 query 的稀疏集合。每一个 object query 都编码了 3D 位置信息,这些 object query 都被投影到了 相机平面,并被用来收集图像的特征。
  3. 与 DETR 相同,使用了 多头注意力 refine object queries,这个 layer 将重复多次
  4. 在 decoder 的最后 会使用一个 FFN 给出最后的结果
  5. 最后 使用 set-set loss 训练网络

decoder 每一个 layer 的处理步骤:

  1. 预测一组与对象查询相关的边界框中心;
  2. 使用相机变换矩阵将这些中心投影到所有特征图中;
  3. 通过双线性插值对特征进行采样并将它们合并到对象查询中;
  4. 使用多头注意力描述对象交互。

loss

类似于 DETR 的 set to set 的 loss,在 decoder 的每一个 layer 后面都有 loss 的计算。

相关资料

BEV下的纯视觉目标检测-DETR3D - 清华MARS Lab的文章 - 知乎 https://zhuanlan.zhihu.com/p/499795161

DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries相关推荐

  1. 论文精读《BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View》

    BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View 文章目录 BEVDet: High-Perform ...

  2. 【论文阅读】【综述】3D Object Detection 3D目标检测综述

    目录 写在开头 3D Object Detection 相关博客: Sliding window Vote3Deep: Fast Object Detection in 3D Point Clouds ...

  3. 3D Object Detection 3D目标检测综述

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接: https://blog.csdn.net/wqwqqwqw1231/articl ...

  4. 【论文翻译】FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection

    文章目录 PaperInfo Abstract 1 Introduction 2 Related Work 2D Object Detection Monocular 3D Object Detect ...

  5. 点云 3D 目标检测 - CenterPoint:Center-based 3D Object Detection and Tracking(CVPR 2021)

    点云 3D 目标检测 - CenterPoint: Center-based 3D Object Detection and Tracking - 基于中心的3D目标检测与跟踪(CVPR 2021) ...

  6. CVPR2021 三维目标检测(3D object detection)

    [1] 3DIoUMatch: Leveraging IoU Prediction for Semi-Supervised 3D Object Detection(利用IoU预测进行半监督3D对象检测 ...

  7. 论文阅读笔记:(2021.10 CoRL) DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

    论文地址:DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries | OpenReviewWe introduc ...

  8. 【DETR用于3D目标检测】DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

    DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries 论文简介: 论文贡献: 具体实现: 总体框架 特征学习 ...

  9. 论文精读 ——《BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection》

    文章目录 BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection 论文精读 摘要(Abstract·) 1 ...

最新文章

  1. Spring MVC 通过@Value注解读取.properties配置内容
  2. 软考高项之进度管理——攻坚记忆
  3. vue 双向数据绑定的实现学习(一)
  4. java刘保_[SSH] Eclipse+Struts2的简单应用
  5. 信息竞赛进阶指南--单调栈(模板)
  6. 微软正式开源WSL 2的内核源码
  7. c索引超出了数组界限_关于MATLAB逻辑数组索引的二三事(二)
  8. E - Tautology(永真式)
  9. 内部类访问,及修饰符
  10. ubuntu20.04系统 ros noetic下安裝orbslam2
  11. 201671010119 2016-2017-2《Java程序设计》第十六周学习心得
  12. 总和生育率模型matlab,中国人口增长预测 灰色模型——全国数学建模大赛
  13. 利用PS的磁性套索工具进行抠图
  14. 微信拼车小程序无服务器,滴滴顺风车下架 拼车微信小程序笑了
  15. 煮一壶清茶,悟一种人生
  16. 打破数据围墙 加速金融创新
  17. LM2596 负载增大,电压降低的问题
  18. python爬取饿了么评论_python爬取饿了么的实例
  19. 微信忘记支付密码,实名认证的身份证又没有办理银行卡怎么破?(未解决)
  20. Youth means limitless possibilities.

热门文章

  1. 计算机二级office难吗
  2. c语言 英文歌曲大赛,英文歌曲大赛
  3. android apk 签名方法,[转载]Android apk签名的两种方法
  4. Idea Easy API+YAPI实现接口动态发布和更新
  5. EasyYapi接入简单实战
  6. 解决word写论文改成两栏时mathtype的公式无法居中的问题
  7. 很重要:数据的三维可视化
  8. 聊一聊nacos是如何进行服务注册的
  9. python3 urllib3 原生_PyCharm 无法导入第三方库 No module named urllib3
  10. 黑马程序员培训python怎么样