激光雷达运动物体分割论文汇总（2021-2022）

作者 | Twilight风弦编辑 | 汽车人

原文链接：https://zhuanlan.zhihu.com/p/547660616

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

1LMNet(2021 RAL)

Moving Object Segmentation in 3D LiDAR Data: A Learning-based Approach Exploiting Sequential Data

主要贡献

在当前扫描的基础上，通过结合残差图像，提高了移动目标分割的性能，其性能优于几种(当时)最先进的网络
LMNet的设计也启发了后来的很多篇文章(使用Residual Depth)

整体方法&网络架构

Residual Depth的生成过程

Step1：将之前的扫描结果转换为给定的当前局部坐标系来补偿ego-motion

其实就是对历史某时刻的齐次坐标连续施以若干次变换，将其转换到当前时刻的坐标系中。

Step2：进行球投影，转为range image

Step3：计算各点的归一化Residual Depth

其中，r_i是当前帧在坐标(u_i,v_i)处的range value，r_i^k→l是转换后的图像在同一像素处的range value

实验结果

直接将所有可移动物体，如车辆和人，标记为移动物体，同时将其他物体标记为静态物体
使用SalsaNext作为backbone
硬件配置：an Intel i7-8700 with 3.2 GHz and a single NVIDIA Quadro P6000 graphic card

24DMOS(2022 RAL)

本文指出：基于离线方法的模型通常需要访问序列中的所有扫描

主要贡献

将一系列观察到的激光雷达扫描变成一个体素化的稀疏四维点云，应用计算效率高的稀疏4D卷积来联合提取时空特征
提出Receding策略，允许我们在线预测移动的物体，并根据新的观测结果改进预测
使用二进制贝叶斯滤波器递归地集成新预测结果，从而产生更稳健的估计

网络架构

Sparse 4D CNN: MinkUNet14，它是一个ResBottleneck架构的稀疏等价物，利用稀疏卷积对特征映射进行下采样，利用稀疏转置卷积进行上采样。

输入形式

Sparse 4D Convolutions

由于从激光雷达传感器获得的户外点云本质上是稀疏的，作者将四维点云量化为在时间∆t和空间∆s上具有固定分辨率的稀疏体素网格。我们使用一个稀疏张量来表示体素网格，并只存储非空体素的索引和相关特征，提高了内存效率
使用闵可夫斯基引擎来进行稀疏卷积。与密集卷积相比，稀疏卷积的主要优点是计算速度快

Receding strategy & Binary Bayes Filter

后退视界策略允许基于新的观测结果来改进对移动物体的估计
作者建议使用Binary Bayes Filter递归地融合它们，这使得延长用于分割的时间跨度成为可能，并有助于预测在初始时间范围内只移动了一小段距离的缓慢移动的物体

实验结果

硬件配置：NVIDIA RTX A5000

运行时间：在未优化的Python实现中，网络平均需要0.078秒来预测N=10的输入，0.047秒来预测N=5的输入。二元贝叶斯滤波器对于融合10个预测平均只增加了8ms的开销，对于融合5个预测平均只增加了4ms。

3EmPointMovSeg(2022 TCAD)

EmPointMovSeg : Sparse Tensor Based Moving Object Segmentation in 3D LiDAR Point Clouds for Autonomous Driving Embedded System 作者指出：

运动目标分割通常有两类方法：基于映射的(Map-use)和不基于映射(Map-free)的
Map-use方法需要一个无噪声的、预先构建的映射图。虽然这种方法准确度较高，但它的推理时间太长，不利于在线运动分割
Map-free方法通过实时扫描的激光雷达帧和ego-motion数据来处理各像素点的分割任务
Ruchti和Burgard等人使用概率来预测可移动的物体；Dewan等人提出了一种基于刚体运动分析的方法，它将该问题定义为一个估计刚体运动向量的能量最小化问题；Dewan等人提出了基于贝叶斯滤波的方法，使DCNN语义状态的预测具有时间一致性...但是，这些方法没有提到在线分割的性能

主要贡献

利用AR-SI理论，提出了系统的方法来发现一个物体的真实动态特征。通过AR-SI的判断，可以有效地识别出动态物体。利用AR-SI生成的时序特征+原始点云提供的空间特征求出分割结果，显著改善了传统Encoder-Decoder结构的分割效果
提出稀疏张量和稀疏卷积，使得嵌入式设备的计算效率显著提升，并将模型部署到真实嵌入式设备中进行了效果实测
AR-SI理论是控制-CPS中成熟的数学理论，它不仅可以作为移动/非移动二元判断的预测，还可以用于运动轨迹质量的检测。这启发我们系统地解释CNN输入张量中的二进制特征，这是运动对象分割中的新方法。而传统的DL方法使用sequential LiDAR scan提取时序特征，但是无理论解释（言外之意，有隐患）

模型整体架构

稀疏卷积网络架构

ContextBlock：1个1x1conv+2个3x3的conv，dilation rate=(1, 2)
SpRes：3个稀疏卷积层+ReLU+BN
SpUp：3个稀疏卷积层+ReLU+BN
Logit：将上采样层的输出映射为点云标签
F Block：将稀疏张量转换为普通张量

实验结果

硬件配置：

Intel(R) Xeon(R) Gold 5118 CPU
Sytem memory up to 128GB
NVIDIA GeForce RTX 3090 Graphic Card

虽然SalsaNext在IoU指标上取得了最高值，但我们可以看到密集的原始点云数据产生了较高的残差图像计算消耗，这对于实时分割是不实用的
真实的激光雷达频率范围从8HZ到20HZ，这意味着在线infer的时间应小于125ms

4RVMOS(2022 RAL)

Range-View Moving Object Segmentation leveraged by Semantic and Motion Features

主要贡献

与传统的方法相比，该网络融合了运动特征和语义特征，其中运动特征编码了物体的运动而语义特征编码了物体周围的环境
设计了一个基于RV特征的特征提取模块FEM
提出了一种简单而有效的数据增强方法：时间间隔调制和零残差图像合成
该方法在mIoU指标上比SOTA高出了19%，在速度方面快10%左右（基于RTX 3090）

Multi-branch网络架构

Attention based fusion module

基于注意力的融合模块：利用空间注意力机制和通道级注意力机制来融合语义和运动网络中的中间特征层。融合网络预测了一个给定融合特征的移动物体概率图，封装了可移动物体及其运动信息
从运动线索中推断出移动的车辆，并通过编码物体周围环境的语义特征来推断出暂时静止的车辆

Feature extraction module

RV图像是通过将360°Lidar点投影到二维平面中形成的，易捕获扭曲的几何图形；RV图中的对象大小不一致，这使得分割对象变得困难
因此，特征提取器需要一个自适应的感受野
FEM块由两个kernel size为3x3的卷积层(dilation rate分别为1和3)和一个1x1的卷积层构成，后接一个CBAM模块负责进行特征精细化，解决了上述问题

训练

应用Lovasz-Softmax损失
语义网络、运动网络和运动目标分割网络同时进行训练
不使用任何预先训练过的权重，从零开始训练所有的网络

实验结果

硬件配置：RTX 3090

5MotionSeg3D(2022 IROS)

Efficient Spatial-Temporal Information Fusion for LiDAR-Based 3D Moving Object Segmentation

首先指出了几大流行的点云分割解决方案的优缺点:

基于点的方法可以从无序的点云中提取有效的特征，但是它们很难有效地扩展到大规模的点云数据
基于稀疏体素卷积的方法可以减少点云的计算负担，但体素化会引入信息损失
基于Range Iamge的方法是一个相对轻量级的中间表示，然而，在将其back-projection回3D点云时，存在边界模糊问题

主要思路

首先使用基于RV的主干来获得粗糙分割，然后使用轻量级的三维体素稀疏卷积模块来细化分割结果，形成一种由粗到细的结构。该方法结合了激光雷达扫描的不同表达方式的优点，可缓解边界模糊的问题，同时保持较高的推理效率。

网络架构

对比LMNet：LMNet直接将RV和残差图像concat，作为SalsaNext的输入
作者将LMNet扩展为双分支结构，从RV中提取appearance特征，从残差图像中提取运动特征

Meta-Kernel Convolution

Fan等人认为，对range image进行二维卷积，不能充分利用三维几何信息，于是作者提出了Meta-Kernel Convolution结构。

Motion Guided Attention Module

受视频目标分割的启发，作者添加了一个空间和通道注意力模块来从残差图像中提取运动信息
利用运动信息，加强外观特征中某些重点区域的响应，最终生成一个时空融合特征
注：f_a是appearance特征，f_m是motion特征，时空融合特征的计算过程图中写的很明确。

PointHead module结构

作者提出了一种由粗到细的分割策略，即使用一个PointHead模块来细化分割二维卷积网络生成的分割结果。这种two-step的策略同时利用了像素级和点级的误差去训练，使得训练过程更加有效，参数优化更为容易。

做法：将网络输出的2D预测图先back-projection为3D点云数据形式，然后进入两个分支。上侧分支先对点云进行体素化，然后再进行稀疏卷积，最后反体素化为点云数据，计算一个预测误差；下侧分支利用MLP对点云数据进行处理并输出预测结果，计算一个误差；上下分支的两个误差相加得到最终误差。

实验结果

6Automatic Labeling to Generate Training Data for Online LiDAR-based Moving Object Segmentation

主要贡献

提出了一种新的模块化方法，用于在三维激光雷达扫描中自动生成MOS标签

步骤

首先利用基于占用率的动态对象去除技术来粗略地检测可能的动态对象
将上一步中得到的候选动态对象聚类为若干实例
使用卡尔曼滤波器跟踪上述对象，根据跟踪的轨迹可标记出实际移动的物体和静态物体

其他贡献

与现有的方法相比，本文提出的方法为激光雷达-mos生成了更好的标签
该方法能够为不同的激光雷达扫描仪以及在不同的环境下生成有效的标签

模型架构

利用LiDAR测程/SLAM步骤来估计位姿
应用map cleaning method (ERASOR) 粗略地检测移动的物体(绿色)
应用聚类方法根据检测到的候选移动对象提取实例(以不同的颜色着色)
应用多对象跟踪方法将不同帧之间的同一实例关联，并根据跟踪的轨迹(黑色)决定实例的最终标签

Class-agnostic Instance Segmentation

分割S的目标是将点云划分为不相交的子集：

采用了HDBSCAN
HDBSCAN在不同的密度阈值上执行DBSCAN，并集成结果，生成一个聚类
HDBSCAN可以适应密度存在差异的情况(不像DBSCAN)，并且对参数选择更健壮
为每个实例S_k生成一个边界框b_k

Multiple Dynamic Object Tracking

使用多扩展卡尔曼滤波器来跟踪实例边界框
我们需要发掘出在连续扫描中的实例之间的关联
基于关联性计算出t时刻的N_B^t个实例和t−1时刻的N_B^t−1个实例之间的代价矩阵C
关联问题可被表示为一个二部图匹配问题，可用匈牙利算法求解。至此，我们可得到前后连续帧之间各实例的关联对，并追踪其运动轨迹

实验结果1

实验结果2

7运动物体分割网络总结与比较

点云数据表达形式

LMNet：Range Image + Residual Depth
4DMOS：Voxelized Sparse 4D Tensor
EmPointMovSeg：Range Image + Residual Depth + Voxelized Representation
MotionSeg3D：Range Image + Residual Depth
RVMOS：Range Image + Residual Depth

主体网络架构

LMNet：Encoder-Decoder CNN
4DMOS：Sparse 4D CNN（MinkUNet-14）
EmPointMovSeg：Encoder-Decoder Sparse CNN
MotionSeg3D：Dual-branch, Dual-head LMNet
RVMOS：Multi-branch Network (3 branches)

点云数据表达形式的优缺点

基于点的方法可以从无序的点云中提取有效的特征，但是它们很难有效地扩展到大规模的点云数据
基于稀疏体素卷积的方法可以减少点云的计算负担，但体素化会引入信息损失
基于Range Iamge的方法是一个相对轻量级的中间表示，然而，在将其back-projection回3D点云时，存在边界模糊问题

突出的指标提升tricks

LMNet：Range Image + Residual Depth（2021奠基之作）
4DMOS：Receding Window、Sparse 4D CNN、Binary Bayes Filter
EmPointMovSeg：AR-SI Filter预判断、Sparse CNN
MotionSeg3D：双分支，分别编码语义特征和时序动作特征；Motion Attention Module融合、加强运动信息的响应；Meta-Kernel Module可充分在2D Range Image中利用空间几何信息
RVMOS：三分支网络，设计了专门用于融合语义特征和时序动作特征的Fusion Network；Feature extraction module缓解了RV几何失真问题

不难发现，自从LMNet提出以来，后续的很多文章都采用了Range Image + Residual Depth的数据形式作为网络的输入，不同之处在于这些文章都各自设计了更为精巧的网络结构与特征提取模块，以充分挖掘与利用静态的场景语义信息和动态的运动线索信息。

检测精度对比

推理速度对比

##结语

3D点云语义分割、目标检测是新兴的研究方向，该领域未来还有很大的可挖掘空间
作为热点领域，它方兴未艾，但我们仍有必要着眼于传统语义分割算法的发展。
某种意义上，传统语义分割模型为点云分割提供了设计范式，不少点云分割网络主体仍采用了传统语义分割网络的架构(U-Net、DeepLab等)
同一系列的分割算法通常是迭代式进步的，每次都针对历史版本存在的问题进行突破
将激光雷达点云数据与相机拍摄的2D图像融合：多模态
是否存在semi-supervised / self-supervised的算法能用于MOS？

【自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D感知、多传感器融合、SLAM、高精地图、规划控制、AI模型部署落地等方向；

加入我们：自动驾驶之心技术交流群汇总！

自动驾驶之心【知识星球】

想要了解更多自动驾驶感知（分类、检测、分割、关键点、车道线、3D感知、多传感器融合、目标跟踪）、自动驾驶定位建图（SLAM、高精地图）、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球（三天内无条件退款），日常分享论文+代码，这里汇聚行业和学术界大佬，前沿技术方向尽在掌握中，期待交流！