DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries
DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries
目的
本文提出了一个 仅使用 2D 信息的,3D 目标检测网络,并且比依赖与 密集的深度预测 或者 3D 重建的过程。该网络使用了 和 DETR 相似的 trasformer decoder ,因此也无需 NMS 等后处理操作。
长久以来 3D目标检测是一个挑战,并且 仅使用 2D 的图像信息(RGB图像),相比于 3D 信息(LiDAR)更加困难。
一些经典的方法:
- 使用2D 目标检测 pipeline(CenterNet,FCOS等) 预测 3D信息(目标pose,速度),并不考虑 3D场景结构 或 传感器配置。这些方法需要一些后处理来融合多个相机的信息,以及去掉冗余的 boxes。
- 作为这些基于2D方法的一些替代方案,一些方法将3D的计算纳入了 pipeline中:通过从图像中生成伪激光雷达,或是场景的距离。然后使用一些 3D 目标检测方法,处理这些数据,就好像我们直接获取了 3D 的数据。这种方法的问题是,对深度估计的不准确,会对3D的目标检测带来负面影响。
本文提出了一个更加优雅的 2D 观察到 3D预测的过渡,用于自动驾驶任务,该方法不依赖于 密集的深度预测模块。
方法
网络结构
网络结构概述:
- 使用一个共享的 ResNet backbone 以及 FPN 提取特征
- 一个检测头,以 geometry-aware manner 连接 2D 特征 和 3D bbox 预测。检测头的每一层都 输入 从数据中学到的 目标 query 的稀疏集合。每一个 object query 都编码了 3D 位置信息,这些 object query 都被投影到了 相机平面,并被用来收集图像的特征。
- 与 DETR 相同,使用了 多头注意力 refine object queries,这个 layer 将重复多次
- 在 decoder 的最后 会使用一个 FFN 给出最后的结果
- 最后 使用 set-set loss 训练网络
decoder 每一个 layer 的处理步骤:
- 预测一组与对象查询相关的边界框中心;
- 使用相机变换矩阵将这些中心投影到所有特征图中;
- 通过双线性插值对特征进行采样并将它们合并到对象查询中;
- 使用多头注意力描述对象交互。
loss
类似于 DETR 的 set to set 的 loss,在 decoder 的每一个 layer 后面都有 loss 的计算。
相关资料
BEV下的纯视觉目标检测-DETR3D - 清华MARS Lab的文章 - 知乎 https://zhuanlan.zhihu.com/p/499795161
DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries相关推荐
- 论文精读《BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View》
BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View 文章目录 BEVDet: High-Perform ...
- 【论文阅读】【综述】3D Object Detection 3D目标检测综述
目录 写在开头 3D Object Detection 相关博客: Sliding window Vote3Deep: Fast Object Detection in 3D Point Clouds ...
- 3D Object Detection 3D目标检测综述
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接: https://blog.csdn.net/wqwqqwqw1231/articl ...
- 【论文翻译】FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection
文章目录 PaperInfo Abstract 1 Introduction 2 Related Work 2D Object Detection Monocular 3D Object Detect ...
- 点云 3D 目标检测 - CenterPoint:Center-based 3D Object Detection and Tracking(CVPR 2021)
点云 3D 目标检测 - CenterPoint: Center-based 3D Object Detection and Tracking - 基于中心的3D目标检测与跟踪(CVPR 2021) ...
- CVPR2021 三维目标检测(3D object detection)
[1] 3DIoUMatch: Leveraging IoU Prediction for Semi-Supervised 3D Object Detection(利用IoU预测进行半监督3D对象检测 ...
- 论文阅读笔记:(2021.10 CoRL) DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries
论文地址:DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries | OpenReviewWe introduc ...
- 【DETR用于3D目标检测】DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries
DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries 论文简介: 论文贡献: 具体实现: 总体框架 特征学习 ...
- 论文精读 ——《BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection》
文章目录 BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection 论文精读 摘要(Abstract·) 1 ...
最新文章
- Spring MVC 通过@Value注解读取.properties配置内容
- 软考高项之进度管理——攻坚记忆
- vue 双向数据绑定的实现学习(一)
- java刘保_[SSH] Eclipse+Struts2的简单应用
- 信息竞赛进阶指南--单调栈(模板)
- 微软正式开源WSL 2的内核源码
- c索引超出了数组界限_关于MATLAB逻辑数组索引的二三事(二)
- E - Tautology(永真式)
- 内部类访问,及修饰符
- ubuntu20.04系统 ros noetic下安裝orbslam2
- 201671010119 2016-2017-2《Java程序设计》第十六周学习心得
- 总和生育率模型matlab,中国人口增长预测 灰色模型——全国数学建模大赛
- 利用PS的磁性套索工具进行抠图
- 微信拼车小程序无服务器,滴滴顺风车下架 拼车微信小程序笑了
- 煮一壶清茶,悟一种人生
- 打破数据围墙 加速金融创新
- LM2596 负载增大,电压降低的问题
- python爬取饿了么评论_python爬取饿了么的实例
- 微信忘记支付密码,实名认证的身份证又没有办理银行卡怎么破?(未解决)
- Youth means limitless possibilities.