BEV(Bird’s-eye-view)三部曲之一:综述
论文名:Delving into the Devils of Bird’s-eye-view Perception: A Review, Evaluation and Recipe
Github
论文网址
零、摘要
BEV perception 主要的4个问题是:
- 如何通过从perspective view 到 BEV视角的重构丢失的3D信息
- 如何获取BEV网格的ground truth 标注
- 如何公式化合并从不同sources和views获取的特征的pipline
- 如何在不同场景下传感器参数变化时,训练一个适配的、泛化性好的算法
一、Introducation
1.1 Big Picture at a Glance
本文基于输入的数据,将BEV研究分为:
- BEV camera:仅视觉 或 以视觉为中心的目标检测/分割算法,多摄像头
- BEV LiDAR :点云作为输入
- and BEV fusion:多模态输入,例如camera,LiDAR,GNSS,odomerty,HD-Map,CAN-bus
1.2 Motivation to BEV Perception Research
- Significance.
- 当前在nuScenes数据集上,仅视觉的算法比基于LiDAR的算法NDS指标低20%;在Waymon数据集上,甚至低超过30%。
- 单个相机的价格低于LiDAR的1/10
- Space.
- Readiness.
- 数据集:KITTI、Waymo、nuScenes、Argoverse
- 结构:Transformer,ViT, Mased Auto-encoders, CLIP
二、Background in 3D perception
2.1 Task Definition and Related Work
- 基于单目摄像头的3D目标检测:从单张RGB图预估深度时ill-posed problem, 因此表现较差。
- 基于LiDAR的3D目标检测:效果往往比基于摄像头的要好很多,因为多了深度的先验信息
- 传感器融合:摄像头、激光雷达、雷达融合
2.2 Datasets and Metrics
2.2.1 数据集
主要的数据集如下:
- KITTI:3D目标检测两个衡量指标:3D目标检测指标 & BEV指标
- Waymo: 5 LiDARs and 5 views (左,左前,前,右前,右)
- nuScenes: 6 views, 1 LiDAR, and 5 Radars + HD-Map and CAN-bus data.
2.2.2 Evaluation Metrics
- LET-3D-APL:类似于3D-AP,但给纵向位置一定的容许偏差.
- mAP: 在BEV视角下,根据不同距离阈值
- NDS:The nuScenes detection score,综合考虑mAP, mATE (Average Translation Error), mASE (Average Scale Error), mAOE (Average Orientation Error), mAVE (Average Velocity Error) and mAAE (Average Attribute Error)给出的分数。
三、Methodology of BEV perception
近期主要的文献有如下:
这些方法的表现如下表
我们比较关心使用LiDAR和不适用的差距,由标黄的部分可以发现,两者差距还是较大。
与仅仅使用雷达的算法,例如CenterPoint,仍有部分差距。但已经超过了PointPillars.
3.1 BEV Camera
3.1.1 BEV Camera
- 算法主要分为:
- 2D特征提取器:backbone;
- 2D<->3D的转换矩阵:两种视角转换,2d->3d和3d->2d. 使用物理先验或者3D监督。
- 3D解码器:输入2D/3D的特征,输出3D bbox、BEV视角的地图分割、3D车道线
3.1.2 View Transformation
视角转换在仅摄像头的3D感知中非常关键。主要由两种思路:
- 使用2D特征来估计深度信息(bin-wise distribution to voxel space),将2D特征lift到3D空间
- 使用3D-2D映射关系将2D特征编码到3D空间,基于Inverse Perspective Mapping (IPM),投影矩阵由相机的内参和外参建模。
3.2 BEV LiDAR
提取的3D点云特征转换为BEV特征图,再有一个解码器获得输出。3D点云->BEV的两种思路:
- Pre-BEV特征提取
原始点云->体素化点云为离散的网格->3D卷积和3D稀疏卷积 - Post-BEV特征提取
3D卷积计算量太大,因此转换为BEV grid, 网格中点的height、instensity、density来表示grid特征,常用的PointPillars、PointNet正是类似的思路
3.3 BEV Fusion
基于IPM,使用相机的内参&外参,将图像和点云特征在BEV视角内做融合。
- LiDAR-camera Fusion:以BEVFusion为代表
- Temporal Fusion:利用时序,将之前的BEV特征等利用起来。
3.4 Industrial Design of BEV Perception
将PV特征映射到BEV空间的四种方法:
- Fixed IPM: 假设路面是平的,固定的转换矩阵
- Adaptive IPM:仍假设路面是平的,使用SDV的外参数
- Transformer:不需要先验信息,数据驱动,使用一个dense transormer,广泛应用到Tesla,Horizon, HAOMO
- ViDAR: 与LiDAR类似,使用pixel-level depth来映射
BEV(Bird’s-eye-view)三部曲之一:综述相关推荐
- BEV(Bird‘s Eye View)
文章目录 BEV(Bird's Eye View,鸟瞰视图) 1. BEV网络基本概念 2. BEV网络应用 3. BEV网络应用详解 4.优化BEV网络 优化BEV网络 详解 BEV网络,怎么优化去 ...
- 论文阅读:BEVSegFormer: Bird’s Eye View Semantic Segmentation FromArbitrary Camera Rigs
题目:BEVSegFormer: Bird's Eye View Semantic Segmentation FromArbitrary Camera Rigs 中文:BEVSegFormer基于任意 ...
- 一文尽览 | 基于点云、多模态的3D目标检测算法综述!(Point/Voxel/Point-Voxel)
点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心技术交流群 后台回复[ECCV2022]获取ECCV2022所有自动驾驶方向论文! 目前 ...
- PointPillars:点云物体识别的快速编码
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者:Panzerfahrer 链接:https://zhuanlan.zhihu.com/p/107 ...
- 一文搞懂PointNet全家桶——强势的点云处理神经网络
作者:黎国溥,3D视觉开发者社区签约作者,CSDN博客专家,华为云-云享专家 首发:公众号[3D视觉开发者社区] 前言 PointNet是由斯坦福大学的Charles R. Qi等人在<Poin ...
- DETR3D 多2d图片3D检测框架
最近在自动驾驶的圈子里掀起了一股在BEV(Bird's Eye View, 鸟瞰图)下对相机做目标检测的风潮,而掀起这股风潮的工作之一就是咱们MARS Lab与MIT, TRI还有理想汽车合作的COR ...
- 【机器学习】机器学习的基本概念/术语2
上一篇:机器学习的基本概念/术语1 序言 记录机器学习基本概念,不做详细解释,常识积累.长期更新- # KNN k-Nearest Neighbor K最近邻算法,每个样本都可以用它最接近的k个邻居来 ...
- 自动驾驶专业名词简写简写缩写
自动驾驶等级介绍 L0:人工驾驶,驾驶员执行全部的驾驶任务,主要是一些预警和提示功能,常用的传感器有摄像头(前视.环视.座舱等).毫米波雷达.超声波雷达. L1:辅助驾驶,在适用的设计范围下,驾驶自动 ...
- Cooperative Perception协同感知学习记录
Cooperative Perception协同感知学习记录 文章目录 Cooperative Perception协同感知学习记录 1. 首先介绍一篇不错的Revision文章:Deep Multi ...
- MegTech 2022 | 20个Demo闪亮登场,哪一个击中了你的心巴?
作为旷视一年一度的技术盛会 2022旷视技术开放日可谓是盛况空前 20个有料有趣的Demo互动体验区 覆盖前沿技术探索.软硬件协同设计 算法量产应用和商业化产品落地等方面 更是让大家感受到了AI独特的 ...
最新文章
- 2022-2028年中国金属薄膜行业市场深度监测及投资潜力研究报告
- How to list/dump dm thin pool metadata device?
- 传奇世界RollBall设计
- windows 远程访问别人的linux下的ftp服务器,linux与windows之间使用ftp相互访问(CentOS提示ftp:command not found)...
- python文档生成工具 sphinx 简介
- java linux res很高_Linux下Java进程RES是1.6G,但是jmap里用到的才五百多M,剩下的1.1G左右是去哪了?...
- ua获取手机型号_无牌山寨手机的数据提取解决方案
- boost::container实现显式实例静态向量测试程序
- Restful API接口调试工具推荐(Postman, HTTPie)
- 再谈 Linux下的nanosleep函数
- HDU4891 The Great Pan 暴力
- 无代码火了,短板有哪些?
- 前端所有安全问题总结
- 2022南理工软件工程专硕考研经验
- JavaScript使用手册
- 【重磅】百度智能运维工程架构
- 【转】如何成为一名黑客--Eric Steven Raymond
- 小游戏---2048
- html padding顺序,html中padding用法
- 互联网三大巨头银行,网商银行、微众银行和新网银行有什么区别?