论文名：Delving into the Devils of Bird’s-eye-view Perception: A Review, Evaluation and Recipe
Github
论文网址

零、摘要

BEV perception 主要的4个问题是：

如何通过从perspective view 到 BEV视角的重构丢失的3D信息
如何获取BEV网格的ground truth 标注
如何公式化合并从不同sources和views获取的特征的pipline
如何在不同场景下传感器参数变化时，训练一个适配的、泛化性好的算法

一、Introducation

1.1 Big Picture at a Glance

本文基于输入的数据，将BEV研究分为：

BEV camera：仅视觉或以视觉为中心的目标检测/分割算法，多摄像头
BEV LiDAR ：点云作为输入
and BEV fusion：多模态输入，例如camera，LiDAR，GNSS，odomerty，HD-Map，CAN-bus

1.2 Motivation to BEV Perception Research

Significance.
- 当前在nuScenes数据集上，仅视觉的算法比基于LiDAR的算法NDS指标低20%；在Waymon数据集上，甚至低超过30%。
- 单个相机的价格低于LiDAR的1/10
Space.
Readiness.
- 数据集：KITTI、Waymo、nuScenes、Argoverse
- 结构：Transformer，ViT, Mased Auto-encoders, CLIP

二、Background in 3D perception

2.1 Task Definition and Related Work

基于单目摄像头的3D目标检测：从单张RGB图预估深度时ill-posed problem, 因此表现较差。
基于LiDAR的3D目标检测：效果往往比基于摄像头的要好很多，因为多了深度的先验信息
传感器融合：摄像头、激光雷达、雷达融合

2.2 Datasets and Metrics

2.2.1 数据集

主要的数据集如下：

KITTI：3D目标检测两个衡量指标：3D目标检测指标 & BEV指标
Waymo: 5 LiDARs and 5 views (左，左前，前，右前，右)
nuScenes: 6 views, 1 LiDAR, and 5 Radars + HD-Map and CAN-bus data.

2.2.2 Evaluation Metrics

LET-3D-APL：类似于3D-AP，但给纵向位置一定的容许偏差.
mAP: 在BEV视角下，根据不同距离阈值
NDS：The nuScenes detection score，综合考虑mAP, mATE (Average Translation Error), mASE (Average Scale Error), mAOE (Average Orientation Error), mAVE (Average Velocity Error) and mAAE (Average Attribute Error)给出的分数。

三、Methodology of BEV perception

近期主要的文献有如下：

这些方法的表现如下表

我们比较关心使用LiDAR和不适用的差距，由标黄的部分可以发现，两者差距还是较大。
与仅仅使用雷达的算法，例如CenterPoint,仍有部分差距。但已经超过了PointPillars.

3.1 BEV Camera

3.1.1 BEV Camera

算法主要分为：
- 2D特征提取器：backbone；
- 2D<->3D的转换矩阵：两种视角转换，2d->3d和3d->2d. 使用物理先验或者3D监督。
- 3D解码器：输入2D/3D的特征，输出3D bbox、BEV视角的地图分割、3D车道线

3.1.2 View Transformation

视角转换在仅摄像头的3D感知中非常关键。主要由两种思路：

使用2D特征来估计深度信息（bin-wise distribution to voxel space），将2D特征lift到3D空间
使用3D-2D映射关系将2D特征编码到3D空间，基于Inverse Perspective Mapping (IPM)，投影矩阵由相机的内参和外参建模。
3.2 BEV LiDAR

提取的3D点云特征转换为BEV特征图，再有一个解码器获得输出。3D点云->BEV的两种思路：

Pre-BEV特征提取
原始点云->体素化点云为离散的网格->3D卷积和3D稀疏卷积
Post-BEV特征提取
3D卷积计算量太大，因此转换为BEV grid, 网格中点的height、instensity、density来表示grid特征，常用的PointPillars、PointNet正是类似的思路

3.3 BEV Fusion

基于IPM，使用相机的内参&外参，将图像和点云特征在BEV视角内做融合。

LiDAR-camera Fusion：以BEVFusion为代表
Temporal Fusion：利用时序，将之前的BEV特征等利用起来。

3.4 Industrial Design of BEV Perception

将PV特征映射到BEV空间的四种方法：

Fixed IPM: 假设路面是平的，固定的转换矩阵
Adaptive IPM：仍假设路面是平的，使用SDV的外参数
Transformer：不需要先验信息，数据驱动，使用一个dense transormer，广泛应用到Tesla，Horizon, HAOMO
ViDAR: 与LiDAR类似，使用pixel-level depth来映射

BEV（Bird’s-eye-view）三部曲之一：综述相关推荐

BEV（Bird‘s Eye View）
文章目录 BEV(Bird's Eye View,鸟瞰视图) 1. BEV网络基本概念 2. BEV网络应用 3. BEV网络应用详解 4.优化BEV网络优化BEV网络详解 BEV网络,怎么优化去 ...
论文阅读：BEVSegFormer: Bird’s Eye View Semantic Segmentation FromArbitrary Camera Rigs
题目:BEVSegFormer: Bird's Eye View Semantic Segmentation FromArbitrary Camera Rigs 中文:BEVSegFormer基于任意 ...
一文尽览 | 基于点云、多模态的3D目标检测算法综述！（Point/Voxel/Point-Voxel）
点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取点击进入→自动驾驶之心技术交流群后台回复[ECCV2022]获取ECCV2022所有自动驾驶方向论文! 目前 ...
PointPillars:点云物体识别的快速编码
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者:Panzerfahrer 链接:https://zhuanlan.zhihu.com/p/107 ...
一文搞懂PointNet全家桶——强势的点云处理神经网络
作者:黎国溥,3D视觉开发者社区签约作者,CSDN博客专家,华为云-云享专家首发:公众号[3D视觉开发者社区] 前言 PointNet是由斯坦福大学的Charles R. Qi等人在<Poin ...
DETR3D 多2d图片3D检测框架
最近在自动驾驶的圈子里掀起了一股在BEV(Bird's Eye View, 鸟瞰图)下对相机做目标检测的风潮,而掀起这股风潮的工作之一就是咱们MARS Lab与MIT, TRI还有理想汽车合作的COR ...
【机器学习】机器学习的基本概念/术语2
上一篇:机器学习的基本概念/术语1 序言记录机器学习基本概念,不做详细解释,常识积累.长期更新- # KNN k-Nearest Neighbor K最近邻算法,每个样本都可以用它最接近的k个邻居来 ...
自动驾驶专业名词简写简写缩写
自动驾驶等级介绍 L0:人工驾驶,驾驶员执行全部的驾驶任务,主要是一些预警和提示功能,常用的传感器有摄像头(前视.环视.座舱等).毫米波雷达.超声波雷达. L1:辅助驾驶,在适用的设计范围下,驾驶自动 ...
Cooperative Perception协同感知学习记录
Cooperative Perception协同感知学习记录文章目录 Cooperative Perception协同感知学习记录 1. 首先介绍一篇不错的Revision文章:Deep Multi ...
MegTech 2022 | 20个Demo闪亮登场，哪一个击中了你的心巴？
作为旷视一年一度的技术盛会 2022旷视技术开放日可谓是盛况空前 20个有料有趣的Demo互动体验区覆盖前沿技术探索.软硬件协同设计算法量产应用和商业化产品落地等方面更是让大家感受到了AI独特的 ...

BEV（Bird’s-eye-view）三部曲之一：综述