作者 | Twilight风弦  编辑 | 汽车人

原文链接:https://zhuanlan.zhihu.com/p/547660616

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

1LMNet(2021 RAL)

Moving Object Segmentation in 3D LiDAR Data: A Learning-based Approach Exploiting Sequential Data

主要贡献

  • 在当前扫描的基础上,通过结合残差图像,提高了移动目标分割的性能,其性能优于几种(当时)最先进的网络

  • LMNet的设计也启发了后来的很多篇文章(使用Residual Depth)

整体方法&网络架构

Residual Depth的生成过程

Step1:将之前的扫描结果转换为给定的当前局部坐标系来补偿ego-motion

其实就是对历史某时刻的齐次坐标连续施以若干次变换,将其转换到当前时刻的坐标系中。

Step2:进行球投影,转为range image

Step3:计算各点的归一化Residual Depth

其中,r_i是当前帧在坐标(u_i,v_i)处的range value,r_i^k→l是转换后的图像在同一像素处的range value

实验结果

  • 直接将所有可移动物体,如车辆和人,标记为移动物体,同时将其他物体标记为静态物体

  • 使用SalsaNext作为backbone

  • 硬件配置:an Intel i7-8700 with 3.2 GHz and a single NVIDIA Quadro P6000 graphic card

24DMOS(2022 RAL)

本文指出:基于离线方法的模型通常需要访问序列中的所有扫描

主要贡献

  • 将一系列观察到的激光雷达扫描变成一个体素化的稀疏四维点云,应用计算效率高的稀疏4D卷积来联合提取时空特征

  • 提出Receding策略,允许我们在线预测移动的物体,并根据新的观测结果改进预测

  • 使用二进制贝叶斯滤波器递归地集成新预测结果,从而产生更稳健的估计

网络架构

Sparse 4D CNN: MinkUNet14,它是一个ResBottleneck架构的稀疏等价物,利用稀疏卷积对特征映射进行下采样,利用稀疏转置卷积进行上采样。

输入形式

Sparse 4D Convolutions

  • 由于从激光雷达传感器获得的户外点云本质上是稀疏的,作者将四维点云量化为在时间∆t和空间∆s上具有固定分辨率的稀疏体素网格。我们使用一个稀疏张量来表示体素网格,并只存储非空体素的索引和相关特征,提高了内存效率

  • 使用闵可夫斯基引擎来进行稀疏卷积。与密集卷积相比,稀疏卷积的主要优点是计算速度快

Receding strategy & Binary Bayes Filter

  • 后退视界策略允许基于新的观测结果来改进对移动物体的估计

  • 作者建议使用Binary Bayes Filter递归地融合它们,这使得延长用于分割的时间跨度成为可能,并有助于预测在初始时间范围内只移动了一小段距离的缓慢移动的物体

实验结果

硬件配置:NVIDIA RTX A5000

运行时间:在未优化的Python实现中,网络平均需要0.078秒来预测N=10的输入,0.047秒来预测N=5的输入。二元贝叶斯滤波器对于融合10个预测平均只增加了8ms的开销,对于融合5个预测平均只增加了4ms。

3EmPointMovSeg(2022 TCAD)

EmPointMovSeg : Sparse Tensor Based Moving Object Segmentation in 3D LiDAR Point Clouds for Autonomous Driving Embedded System 作者指出:

  • 运动目标分割通常有两类方法:基于映射的(Map-use)和不基于映射(Map-free)的

  • Map-use方法需要一个无噪声的、预先构建的映射图。虽然这种方法准确度较高,但它的推理时间太长,不利于在线运动分割

  • Map-free方法通过实时扫描的激光雷达帧和ego-motion数据来处理各像素点的分割任务

  • Ruchti和Burgard等人使用概率来预测可移动的物体;Dewan等人提出了一种基于刚体运动分析的方法,它将该问题定义为一个估计刚体运动向量的能量最小化问题;Dewan等人提出了基于贝叶斯滤波的方法,使DCNN语义状态的预测具有时间一致性...但是,这些方法没有提到在线分割的性能

主要贡献

  • 利用AR-SI理论,提出了系统的方法来发现一个物体的真实动态特征。通过AR-SI的判断,可以有效地识别出动态物体。利用AR-SI生成的时序特征+原始点云提供的空间特征求出分割结果,显著改善了传统Encoder-Decoder结构的分割效果

  • 提出稀疏张量和稀疏卷积,使得嵌入式设备的计算效率显著提升,并将模型部署到真实嵌入式设备中进行了效果实测

  • AR-SI理论是控制-CPS中成熟的数学理论,它不仅可以作为移动/非移动二元判断的预测,还可以用于运动轨迹质量的检测。这启发我们系统地解释CNN输入张量中的二进制特征,这是运动对象分割中的新方法。而传统的DL方法使用sequential LiDAR scan提取时序特征,但是无理论解释(言外之意,有隐患)

模型整体架构

稀疏卷积网络架构

  • ContextBlock:1个1x1conv+2个3x3的conv,dilation rate=(1, 2)

  • SpRes:3个稀疏卷积层+ReLU+BN

  • SpUp:3个稀疏卷积层+ReLU+BN

  • Logit:将上采样层的输出映射为点云标签

  • F Block:将稀疏张量转换为普通张量

实验结果

硬件配置:

  • Intel(R) Xeon(R) Gold 5118 CPU

  • Sytem memory up to 128GB

  • NVIDIA GeForce RTX 3090 Graphic Card

  • 虽然SalsaNext在IoU指标上取得了最高值,但我们可以看到密集的原始点云数据产生了较高的残差图像计算消耗,这对于实时分割是不实用的

  • 真实的激光雷达频率范围从8HZ到20HZ,这意味着在线infer的时间应小于125ms

4RVMOS(2022 RAL)

Range-View Moving Object Segmentation leveraged by Semantic and Motion Features

主要贡献

  • 与传统的方法相比,该网络融合了运动特征和语义特征,其中运动特征编码了物体的运动而语义特征编码了物体周围的环境

  • 设计了一个基于RV特征的特征提取模块FEM

  • 提出了一种简单而有效的数据增强方法:时间间隔调制和零残差图像合成

  • 该方法在mIoU指标上比SOTA高出了19%,在速度方面快10%左右(基于RTX 3090)

Multi-branch网络架构

Attention based fusion module

  • 基于注意力的融合模块:利用空间注意力机制和通道级注意力机制来融合语义和运动网络中的中间特征层。融合网络预测了一个给定融合特征的移动物体概率图,封装了可移动物体及其运动信息

  • 从运动线索中推断出移动的车辆,并通过编码物体周围环境的语义特征来推断出暂时静止的车辆

Feature extraction module

  • RV图像是通过将360°Lidar点投影到二维平面中形成的,易捕获扭曲的几何图形;RV图中的对象大小不一致,这使得分割对象变得困难

  • 因此,特征提取器需要一个自适应的感受野

  • FEM块由两个kernel size为3x3的卷积层(dilation rate分别为1和3)和一个1x1的卷积层构成,后接一个CBAM模块负责进行特征精细化,解决了上述问题

训练

  • 应用Lovasz-Softmax损失

  • 语义网络、运动网络和运动目标分割网络同时进行训练

  • 不使用任何预先训练过的权重,从零开始训练所有的网络

实验结果

硬件配置:RTX 3090

5MotionSeg3D(2022 IROS)

Efficient Spatial-Temporal Information Fusion for LiDAR-Based 3D Moving Object Segmentation

首先指出了几大流行的点云分割解决方案的优缺点:

  • 基于点的方法可以从无序的点云中提取有效的特征,但是它们很难有效地扩展到大规模的点云数据

  • 基于稀疏体素卷积的方法可以减少点云的计算负担,但体素化会引入信息损失

  • 基于Range Iamge的方法是一个相对轻量级的中间表示,然而,在将其back-projection回3D点云时,存在边界模糊问题

主要思路

首先使用基于RV的主干来获得粗糙分割,然后使用轻量级的三维体素稀疏卷积模块来细化分割结果,形成一种由粗到细的结构。该方法结合了激光雷达扫描的不同表达方式的优点,可缓解边界模糊的问题,同时保持较高的推理效率。

网络架构

  • 对比LMNet:LMNet直接将RV和残差图像concat,作为SalsaNext的输入

  • 作者将LMNet扩展为双分支结构,从RV中提取appearance特征,从残差图像中提取运动特征

Meta-Kernel Convolution

Fan等人认为,对range image进行二维卷积,不能充分利用三维几何信息,于是作者提出了Meta-Kernel Convolution结构。

Motion Guided Attention Module

  • 受视频目标分割的启发,作者添加了一个空间和通道注意力模块来从残差图像中提取运动信息

  • 利用运动信息,加强外观特征中某些重点区域的响应,最终生成一个时空融合特征

  • 注:f_a是appearance特征,f_m是motion特征,时空融合特征的计算过程图中写的很明确。

PointHead module结构

作者提出了一种由粗到细的分割策略,即使用一个PointHead模块来细化分割二维卷积网络生成的分割结果。这种two-step的策略同时利用了像素级和点级的误差去训练,使得训练过程更加有效,参数优化更为容易。

做法:将网络输出的2D预测图先back-projection为3D点云数据形式,然后进入两个分支。上侧分支先对点云进行体素化,然后再进行稀疏卷积,最后反体素化为点云数据,计算一个预测误差;下侧分支利用MLP对点云数据进行处理并输出预测结果,计算一个误差;上下分支的两个误差相加得到最终误差。

实验结果

6Automatic Labeling to Generate Training Data for Online LiDAR-based Moving Object Segmentation

主要贡献

提出了一种新的模块化方法,用于在三维激光雷达扫描中自动生成MOS标签

步骤

  • 首先利用基于占用率的动态对象去除技术来粗略地检测可能的动态对象

  • 将上一步中得到的候选动态对象聚类为若干实例

  • 使用卡尔曼滤波器跟踪上述对象,根据跟踪的轨迹可标记出实际移动的物体和静态物体

其他贡献

  • 与现有的方法相比,本文提出的方法为激光雷达-mos生成了更好的标签

  • 该方法能够为不同的激光雷达扫描仪以及在不同的环境下生成有效的标签

模型架构

  • 利用LiDAR测程/SLAM步骤来估计位姿

  • 应用map cleaning method (ERASOR) 粗略地检测移动的物体(绿色)

  • 应用聚类方法根据检测到的候选移动对象提取实例(以不同的颜色着色)

  • 应用多对象跟踪方法将不同帧之间的同一实例关联,并根据跟踪的轨迹(黑色)决定实例的最终标签

Class-agnostic Instance Segmentation

分割S的目标是将点云划分为不相交的子集:

  • 采用了HDBSCAN

  • HDBSCAN在不同的密度阈值上执行DBSCAN,并集成结果,生成一个聚类

  • HDBSCAN可以适应密度存在差异的情况(不像DBSCAN),并且对参数选择更健壮

  • 为每个实例S_k生成一个边界框b_k

Multiple Dynamic Object Tracking

  • 使用多扩展卡尔曼滤波器来跟踪实例边界框

  • 我们需要发掘出在连续扫描中的实例之间的关联

  • 基于关联性计算出t时刻的N_B^t个实例和t−1时刻的N_B^t−1个实例之间的代价矩阵C

  • 关联问题可被表示为一个二部图匹配问题,可用匈牙利算法求解。至此,我们可得到前后连续帧之间各实例的关联对,并追踪其运动轨迹

实验结果1

实验结果2

7运动物体分割网络总结与比较

点云数据表达形式

  • LMNet:Range Image + Residual Depth

  • 4DMOS:Voxelized Sparse 4D Tensor

  • EmPointMovSeg:Range Image + Residual Depth + Voxelized Representation

  • MotionSeg3D:Range Image + Residual Depth

  • RVMOS:Range Image + Residual Depth

主体网络架构

  • LMNet:Encoder-Decoder CNN

  • 4DMOS:Sparse 4D CNN(MinkUNet-14)

  • EmPointMovSeg:Encoder-Decoder Sparse CNN

  • MotionSeg3D:Dual-branch, Dual-head LMNet

  • RVMOS:Multi-branch Network (3 branches)

点云数据表达形式的优缺点

  • 基于点的方法可以从无序的点云中提取有效的特征,但是它们很难有效地扩展到大规模的点云数据

  • 基于稀疏体素卷积的方法可以减少点云的计算负担,但体素化会引入信息损失

  • 基于Range Iamge的方法是一个相对轻量级的中间表示,然而,在将其back-projection回3D点云时,存在边界模糊问题

突出的指标提升tricks

  • LMNet:Range Image + Residual Depth(2021奠基之作)

  • 4DMOS:Receding Window、Sparse 4D CNN、Binary Bayes Filter

  • EmPointMovSeg:AR-SI Filter预判断、Sparse CNN

  • MotionSeg3D:双分支,分别编码语义特征和时序动作特征;Motion Attention Module融合、加强运动信息的响应;Meta-Kernel Module可充分在2D Range Image中利用空间几何信息

  • RVMOS:三分支网络,设计了专门用于融合语义特征和时序动作特征的Fusion Network;Feature extraction module缓解了RV几何失真问题

不难发现,自从LMNet提出以来,后续的很多文章都采用了Range Image + Residual Depth的数据形式作为网络的输入,不同之处在于这些文章都各自设计了更为精巧的网络结构与特征提取模块,以充分挖掘与利用静态的场景语义信息和动态的运动线索信息。

检测精度对比

推理速度对比

##结语

  • 3D点云语义分割、目标检测是新兴的研究方向,该领域未来还有很大的可挖掘空间

  • 作为热点领域,它方兴未艾,但我们仍有必要着眼于传统语义分割算法的发展。

  • 某种意义上,传统语义分割模型为点云分割提供了设计范式,不少点云分割网络主体仍采用了传统语义分割网络的架构(U-Net、DeepLab等)

  • 同一系列的分割算法通常是迭代式进步的,每次都针对历史版本存在的问题进行突破

  • 将激光雷达点云数据与相机拍摄的2D图像融合:多模态

  • 是否存在semi-supervised / self-supervised的算法能用于MOS?

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D感知、多传感器融合、SLAM、高精地图、规划控制、AI模型部署落地等方向;

加入我们:自动驾驶之心技术交流群汇总!

自动驾驶之心【知识星球】

想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D感知、多传感器融合、目标跟踪)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球(三天内无条件退款),日常分享论文+代码,这里汇聚行业和学术界大佬,前沿技术方向尽在掌握中,期待交流!

激光雷达运动物体分割论文汇总(2021-2022)相关推荐

  1. CVPR2021 论文大盘点:全景分割论文汇总(共15篇)

    编辑|极市平台 本文原创首发极市平台,转载请获得授权并标明出处. 从 CVPR2021 公布结果开始,极市就一直对最新的 CVPR2021 进行分类汇总,共分为33个大类,包含检测.分割.估计.跟踪. ...

  2. 弱监督的语义分割论文汇总

    弱监督的语义分割论文汇总 弱监督语义分割导读 弱监督语义分割论文整理 基于Bounding box的弱监督语义分割 基于Image-level labels的弱监督语义分割 基于Scribbles的弱 ...

  3. 果园树枝分割论文汇总

    2020 柑橘采摘机器人枝干检测方法研究_王卓 摘要:柑橘是我国重要的水果产品之一,其世界贸易量也位居前三.目前,柑橘采摘仍以人工采摘为主,特别是丘陵地区,由于坡度大且多居于高山上,更容易出现人员受伤 ...

  4. 2021年9月80篇GAN/对抗论文汇总

    等你着陆![GAN生成对抗网络]知识星球! 超100篇!CVPR 2020最全GAN论文梳理!   2021年8月60篇GAN/对抗论文汇总 2021年7月100篇GAN/对抗论文汇总 2021年6月 ...

  5. AI 虚拟试衣 论文汇总

    猜您喜欢: 深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读  戳我,查看GAN的系列专辑~! 一顿午饭外卖,成为CV视觉的前沿弄潮儿! 最新最全100篇汇总!生成扩散 ...

  6. 超110篇!CVPR 2021最全GAN论文汇总梳理!

     戳我,查看GAN的系列专辑~! 下述论文已分类打包好!超110篇,事实上仍有一些GAN论文未被包含入内--可见GAN在CVPR 2021仍十分火热. 后台回复 2021GAN (长按红字.选中复制) ...

  7. ECCV2022论文汇总:检测/分割/跟踪/3D/深度估计/姿态解算等多个方向!

    作者 | 汽车人 编辑 | Autobox 目前,公众号正向大家广泛征稿中,欢迎童鞋们投稿,我们将有一定的稿费支持哦,详细信息请点击: 汽车人,快来投稿了! 数据集 COO: Comic Onomat ...

  8. 基于超大尺寸图像的语义分割论文和代码汇总

    文章目录 2019 Collaborative Global-Local Networks for Memory-Efficient Segmentation of Ultra-High Resolu ...

  9. “人工智能与人类社会”栏目约稿函暨论文汇总2022-2017

    人机混合智能:新一代智能系统的发展趋势 "人工智能与人类社会"栏目约稿 函暨论文汇总2022-2017 "人工智能与人类社会"栏目约稿函 尊敬的各位专家.学者: ...

最新文章

  1. Dlib库中实现正脸人脸检测的测试代码
  2. Java:自定义异常处理类
  3. Pawel wojs:《全面战争:三国》美术概览
  4. python程序调试logging_python-logging模块的简单使用
  5. rman 备份后恢复整个数据库文件的操作
  6. 浙江省二级计算机vfp,浙江省计算机2级vfp程序调试真题集.doc
  7. 淘宝特价版注册“1元更香”商标,又一个新“节日”诞生了
  8. 小米11 Pro概念图曝光:曲面挖孔屏+后置五摄相机模组
  9. iBase4J 分布式开发平台
  10. idea配置maven后提示 commond not found
  11. 绚丽的javascript拾色器(不兼容IE8及以下)
  12. matlab cramer法则,玩转线性代数(8)第一章第七节_克拉姆法则与秘密武器
  13. android车载导航测试,大众全系车载DVD导航之路畅安卓4.1测试
  14. handsontable+vue+ 自定义多选
  15. java基础周报_java第四周周报
  16. 简单说说 RPC 框架,你 悟到了吗?
  17. Javascript验证信用卡号、信用卡类型(最全最新)
  18. 钢管车架管材的分级介绍 (zz)
  19. 最近网络上很多都在聊自动阅读,今天我们好好说说自动阅读到底怎么样
  20. 以计算机写一篇作文500字,描写计算机的作文

热门文章

  1. android桌面单词,让解锁屏幕从此变的有意义
  2. SGU 187.Twist and whirl - want to cheat
  3. 南方科技大学快速建设世界一流超算系统
  4. TCP通信中一方关闭socket,另一方被强制退出(SIGPIPE)
  5. 美国最神秘的自动驾驶项目ZOOX:投资 1 亿美元才能一窥究竟
  6. 1、swift开发iOS——基础
  7. 让图文不可复制、转载注明出处
  8. GBase 8c V5 主备式部署实操
  9. windows安装linux子系统,并装在其他系统盘的方法
  10. Go语言学习之map