论文名:Delving into the Devils of Bird’s-eye-view Perception: A Review, Evaluation and Recipe
Github
论文网址

零、摘要

BEV perception 主要的4个问题是:

  • 如何通过从perspective view 到 BEV视角的重构丢失的3D信息
  • 如何获取BEV网格的ground truth 标注
  • 如何公式化合并从不同sources和views获取的特征的pipline
  • 如何在不同场景下传感器参数变化时,训练一个适配的、泛化性好的算法

一、Introducation

1.1 Big Picture at a Glance

本文基于输入的数据,将BEV研究分为:

  • BEV camera:仅视觉 或 以视觉为中心的目标检测/分割算法,多摄像头
  • BEV LiDAR :点云作为输入
  • and BEV fusion:多模态输入,例如camera,LiDAR,GNSS,odomerty,HD-Map,CAN-bus

1.2 Motivation to BEV Perception Research

  • Significance.

    • 当前在nuScenes数据集上,仅视觉的算法比基于LiDAR的算法NDS指标低20%;在Waymon数据集上,甚至低超过30%。
    • 单个相机的价格低于LiDAR的1/10
  • Space.
  • Readiness.
    • 数据集:KITTI、Waymo、nuScenes、Argoverse
    • 结构:Transformer,ViT, Mased Auto-encoders, CLIP

二、Background in 3D perception

2.1 Task Definition and Related Work

  • 基于单目摄像头的3D目标检测:从单张RGB图预估深度时ill-posed problem, 因此表现较差。
  • 基于LiDAR的3D目标检测:效果往往比基于摄像头的要好很多,因为多了深度的先验信息
  • 传感器融合:摄像头、激光雷达、雷达融合

2.2 Datasets and Metrics

2.2.1 数据集

主要的数据集如下:

  • KITTI:3D目标检测两个衡量指标:3D目标检测指标 & BEV指标
  • Waymo: 5 LiDARs and 5 views (左,左前,前,右前,右)
  • nuScenes: 6 views, 1 LiDAR, and 5 Radars + HD-Map and CAN-bus data.

2.2.2 Evaluation Metrics

  • LET-3D-APL:类似于3D-AP,但给纵向位置一定的容许偏差.
  • mAP: 在BEV视角下,根据不同距离阈值
  • NDS:The nuScenes detection score,综合考虑mAP, mATE (Average Translation Error), mASE (Average Scale Error), mAOE (Average Orientation Error), mAVE (Average Velocity Error) and mAAE (Average Attribute Error)给出的分数。

三、Methodology of BEV perception

近期主要的文献有如下:

这些方法的表现如下表

我们比较关心使用LiDAR和不适用的差距,由标黄的部分可以发现,两者差距还是较大。
与仅仅使用雷达的算法,例如CenterPoint,仍有部分差距。但已经超过了PointPillars.

3.1 BEV Camera

3.1.1 BEV Camera

  • 算法主要分为:

    • 2D特征提取器:backbone;
    • 2D<->3D的转换矩阵:两种视角转换,2d->3d和3d->2d. 使用物理先验或者3D监督。
    • 3D解码器:输入2D/3D的特征,输出3D bbox、BEV视角的地图分割、3D车道线

3.1.2 View Transformation

视角转换在仅摄像头的3D感知中非常关键。主要由两种思路:

  • 使用2D特征来估计深度信息(bin-wise distribution to voxel space),将2D特征lift到3D空间
  • 使用3D-2D映射关系将2D特征编码到3D空间,基于Inverse Perspective Mapping (IPM),投影矩阵由相机的内参和外参建模。
    3.2 BEV LiDAR

提取的3D点云特征转换为BEV特征图,再有一个解码器获得输出。3D点云->BEV的两种思路:

  • Pre-BEV特征提取
    原始点云->体素化点云为离散的网格->3D卷积和3D稀疏卷积
  • Post-BEV特征提取
    3D卷积计算量太大,因此转换为BEV grid, 网格中点的height、instensity、density来表示grid特征,常用的PointPillars、PointNet正是类似的思路

3.3 BEV Fusion

基于IPM,使用相机的内参&外参,将图像和点云特征在BEV视角内做融合。

  • LiDAR-camera Fusion:以BEVFusion为代表
  • Temporal Fusion:利用时序,将之前的BEV特征等利用起来。

3.4 Industrial Design of BEV Perception

将PV特征映射到BEV空间的四种方法:

  • Fixed IPM: 假设路面是平的,固定的转换矩阵
  • Adaptive IPM:仍假设路面是平的,使用SDV的外参数
  • Transformer:不需要先验信息,数据驱动,使用一个dense transormer,广泛应用到Tesla,Horizon, HAOMO
  • ViDAR: 与LiDAR类似,使用pixel-level depth来映射

BEV(Bird’s-eye-view)三部曲之一:综述相关推荐

  1. BEV(Bird‘s Eye View)

    文章目录 BEV(Bird's Eye View,鸟瞰视图) 1. BEV网络基本概念 2. BEV网络应用 3. BEV网络应用详解 4.优化BEV网络 优化BEV网络 详解 BEV网络,怎么优化去 ...

  2. 论文阅读:BEVSegFormer: Bird’s Eye View Semantic Segmentation FromArbitrary Camera Rigs

    题目:BEVSegFormer: Bird's Eye View Semantic Segmentation FromArbitrary Camera Rigs 中文:BEVSegFormer基于任意 ...

  3. 一文尽览 | 基于点云、多模态的3D目标检测算法综述!(Point/Voxel/Point-Voxel)

    点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心技术交流群 后台回复[ECCV2022]获取ECCV2022所有自动驾驶方向论文! 目前 ...

  4. PointPillars:点云物体识别的快速编码

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者:Panzerfahrer 链接:https://zhuanlan.zhihu.com/p/107 ...

  5. 一文搞懂PointNet全家桶——强势的点云处理神经网络

    作者:黎国溥,3D视觉开发者社区签约作者,CSDN博客专家,华为云-云享专家 首发:公众号[3D视觉开发者社区] 前言 PointNet是由斯坦福大学的Charles R. Qi等人在<Poin ...

  6. DETR3D 多2d图片3D检测框架

    最近在自动驾驶的圈子里掀起了一股在BEV(Bird's Eye View, 鸟瞰图)下对相机做目标检测的风潮,而掀起这股风潮的工作之一就是咱们MARS Lab与MIT, TRI还有理想汽车合作的COR ...

  7. 【机器学习】机器学习的基本概念/术语2

    上一篇:机器学习的基本概念/术语1 序言 记录机器学习基本概念,不做详细解释,常识积累.长期更新- # KNN k-Nearest Neighbor K最近邻算法,每个样本都可以用它最接近的k个邻居来 ...

  8. 自动驾驶专业名词简写简写缩写

    自动驾驶等级介绍 L0:人工驾驶,驾驶员执行全部的驾驶任务,主要是一些预警和提示功能,常用的传感器有摄像头(前视.环视.座舱等).毫米波雷达.超声波雷达. L1:辅助驾驶,在适用的设计范围下,驾驶自动 ...

  9. Cooperative Perception协同感知学习记录

    Cooperative Perception协同感知学习记录 文章目录 Cooperative Perception协同感知学习记录 1. 首先介绍一篇不错的Revision文章:Deep Multi ...

  10. MegTech 2022 | 20个Demo闪亮登场,哪一个击中了你的心巴?

    作为旷视一年一度的技术盛会 2022旷视技术开放日可谓是盛况空前 20个有料有趣的Demo互动体验区 覆盖前沿技术探索.软硬件协同设计 算法量产应用和商业化产品落地等方面 更是让大家感受到了AI独特的 ...

最新文章

  1. 2022-2028年中国金属薄膜行业市场深度监测及投资潜力研究报告
  2. How to list/dump dm thin pool metadata device?
  3. 传奇世界RollBall设计
  4. windows 远程访问别人的linux下的ftp服务器,linux与windows之间使用ftp相互访问(CentOS提示ftp:command not found)...
  5. python文档生成工具 sphinx 简介
  6. java linux res很高_Linux下Java进程RES是1.6G,但是jmap里用到的才五百多M,剩下的1.1G左右是去哪了?...
  7. ua获取手机型号_无牌山寨手机的数据提取解决方案
  8. boost::container实现显式实例静态向量测试程序
  9. Restful API接口调试工具推荐(Postman, HTTPie)
  10. 再谈 Linux下的nanosleep函数
  11. HDU4891 The Great Pan 暴力
  12. 无代码火了,短板有哪些?
  13. 前端所有安全问题总结
  14. 2022南理工软件工程专硕考研经验
  15. JavaScript使用手册
  16. 【重磅】百度智能运维工程架构
  17. 【转】如何成为一名黑客--Eric Steven Raymond
  18. 小游戏---2048
  19. html padding顺序,html中padding用法
  20. 互联网三大巨头银行,网商银行、微众银行和新网银行有什么区别?

热门文章

  1. 【游戏交互设计】希克法则:多“项”维度下的化繁为简
  2. 四、redis原理之set底层数据结构
  3. 2轮平衡小车算法分析
  4. centos6 拆分pdf文件
  5. 【原】移动web资源整理(安卓、ios移动端兼容性问题归整)
  6. 安卓android模拟器上网设置
  7. 视觉感知(三):车道线检测
  8. 用c语言求信息熵条件熵,信息熵应用随笔1:利用条件熵筛选数据维度
  9. HTML导航条的制作
  10. Mybatis-Plus入门系列(18) -基于注解的动态数据权限实现方案