Abstract

3D点云准确直观地描述真实场景。迄今为止，很少有人讨论如何在这样一个信息丰富的3D场景中分割多样化的元素。在本文中，我们首先介绍了一个简单灵活的框架来同时分割点云中的实例和语义。然后，我们提出了两种方法，使两个任务相互利用，从而实现双赢。具体来说，我们通过学习语义感知点级实例嵌入，使实例分割受益于语义分割。同时，将属于同一实例的点的语义特征融合在一起，以做出更准确的逐点语义预测。我们的方法在很大程度上优于3D实例分割中的最新方法，并且在3D语义分割方面有显着改进。代码已在以下位置提供：https://github.com/WXinlong/ASIS。

1.Introduction

实例分割和语义分割都旨在检测由场景中最小单元集表示的特定信息区域。例如，可以将点云解析为点组，其中每个组对应于一类东西或一个单独的实例。这两个任务是相关的，并且都在实际场景中具有广泛的应用，例如自动驾驶和增强现实。尽管近年来[10,6,21,34,16]对于每个单个任务都取得了很大进展，但没有先前的方法可以关联地处理这两个任务。

事实上，实例分割和语义分割在某些方面是相互冲突的。前者清楚地区分同一类的不同实例，而后者希望它们具有相同的标签。但是，这两个任务可以通过寻求共同点相互合作。语义分割区分不同类的点，这也是实例分割的目的之一，因为不同类的点必须属于不同的实例。此外，实例分割为属于同一实例的点分配相同的标签，这也与语义分割一致，因为同一实例的点必须属于同一类别。这一观察让人想知道如何将这两项任务关联在一起以实现双赢的解决方案？

图1：使用ASIS的实例分割和语义分割结果。我们的方法将原始点云作为输入，并为每个点输出实例标签和语义标签。

可能有两种直接的方法。第一个是，给定语义标签，我们可以在每个语义类上独立运行实例分割，以更好地区分各个实例。因此，不同的类实例被简单但天真地分开。

然而，实例分割在很大程度上取决于语义分割的性能，因为不正确的语义预测将不可避免地导致不正确的实例预测。否则，给定实例标签，可以对每个实例进行分类并将预测的类标签分配给该实例的每个点。因此，问题转化为更容易的实例识别问题。然而，不准确的实例预测会严重混淆下游目标分类器。这两种方法都是逐步范式，可能是次优且低效的。在这项工作中，我们将这两个任务完全集成到一个端到端的并行训练框架中，该框架以软且可学习的方式共享相同的好处。

我们首先引入一个简单的基线来同时分割实例和语义。它类似于[6]中针对2D图像的方法，但我们针对3D点云对其进行了定制。baseline的网络有两个并行分支：一个用于逐点语义预测；另一个用于每个点的语义预测。另一个输出点级实例嵌入，其中属于同一实例的点的嵌入保持接近，而不同实例的嵌入是分开的。我们的基线方法已经可以实现比最近最先进的方法SGPN[35]更好的性能，以及更快的训练和推理。基于这种灵活的基线，进一步提出了一种新技术来关联实例分割和语义分割紧密结合在一起，称为ASIS（关联分割实例和语义）。

通过提出的ASIS方法，我们能够学习语义感知实例嵌入，其中属于不同语义类的点的嵌入通过特征融合进一步自动分离。如图2所示，不同类别点之间的边界更加清晰（椅子和桌子、窗户和墙壁）。此外，属于同一实例的点的语义特征被利用并融合在一起，以做出更准确的每点语义预测。它背后的直觉是，在语义分割期间，将一个点分配给一个类别是因为包含该点的实例属于该类别。因此，这两个任务可以相互利用以进一步提高它们的性能。我们的方法被证明在不同的骨干网络上是有效和通用的，例如PointNet[26]和分层架构PointNet++[28]。该方法还可用于解决全景分割[14]任务，该任务统一了语义和实例分割。总而言之，我们的主要贡献如下。

我们提出了一种快速有效的简单基线，用于在3D点云上同时进行实例分割和语义分割。
我们提出了一个新的框架，称为ASIS，将实例分割和语义分割紧密联系在一起。具体来说，提出了两种类型的伙伴关系——用于实例分割的语义感知和用于语义分割的实例融合——以使这两个任务相互协作。
使用所提出的ASIS，包含语义感知实例分割和实例融合语义分割的模型进行端到端训练，其性能优于S3DIS数据集[1]上最先进的3D实例分割方法，并有显着改进关于3D语义分割任务。此外，我们在ShapeNet数据集[39]上的实验表明，ASIS也有利于part分割任务。

图2：学习点级实例嵌入的一维嵌入。t-SNE[22]技术用于可视化S3DIS测试数据上点的学习实例嵌入。显示了三个特写对。在每一对中，左边的patch来自我们的基线方法，而右边的patch来自ASIS。颜色阴影的差异表示实例嵌入空间中的距离。

2.Related Work

Instance Segmentation. 2D实例分割最近引起了很多研究关注，导致了各种性能最佳的方法。受基于区域的CNN(R-CNN)[8]在目标检测问题中的有效性的启发，[25,4]通过提出候选分割来学习分割实例。掩码proposal被进一步分类以获得最终实例掩码。Dai等人[5]根据边界框proposal预测分段proposal。He等人[10]提出了更简单灵活的MaskR-CNN，它同时预测掩码和类别标签。与上述基于自上而下检测器的方法不同，自下而上的方法学习将每个像素的预测与目标实例相关联。Newell等人[24]使用学习的关联嵌入将像素分组到实例中。Brabandere等人[6]提出了一种判别损失函数，可以有效地学习像素级实例嵌入。Liu等人[20]将实例分割问题分解为一系列子分组问题。然而，很少研究3D实例分割。Wang等人[35]学习点云的相似度矩阵以获得实例proposal。在这项工作中，我们介绍了一种简单灵活的方法，该方法借助3D点云中的语义特征来学习有效的点级实例嵌入。

Semantic Segmentation. 随着最近卷积神经网络(CNN)[15,32]的发展，在语义分割方面取得了巨大进展。基于全卷积网络(FCN)[21]的方法[18,2,19]主导了语义分割二维图像。至于3D分割，Huang等人[11]提出了预测粗体素级语义标签的3D-FCNN。PointNet[26]和后续工作[7,38]使用多层感知器(MLP)来产生细粒度的点级分割。最近，Landrieu等人[16]引入了超点图(SPG)来分割大规模点云。事实上，以前的作品很少利用实例嵌入来分割语义，无论是在2D图像还是3D点云中。

Deep Learning on Point Clouds. 为了利用经典CNN的强大表示能力，首先将3D点云投影到[33、31、27、9]中的多视图渲染图像中，在其上可以应用精心设计的CNN用于2D图像。但是点云中的部分上下文信息在投影过程中被留下了。点云数据的另一种流行表示是体素化体积。[37、23、12、30]的工作将点云数据转换为规则的体积占用网格，然后训练3D CNN或品种以执行体素级预测。由于点云的稀疏性和3D卷积的大量计算，体积表示的一个缺点是计算量和内存量都很大。因此，这些方法仅限于处理大规模3D场景。为了直接处理原始点云，提出了PointNet[26]以产生点级预测，从而在3D分类和分割任务上实现强大的性能。以下作品PointNet++[28]、RSNet[13]、DGCNN[36]和PointCNN[17]进一步侧重于探索局部上下文和分层学习架构。在这项工作中，我们构建了一个新的框架来关联分割点云中的实例和语义，并证明它在不同的骨干网络上是有效的和通用的。

3.OurMethod

3.1.A Simple Baseline

在这里，我们介绍一个简单而有效的框架。它由一个共享编码器和两个并行解码器组成。一个解码器用于点级语义预测，另一个用于处理实例分割问题。具体来说，首先提取大小为NpN_pNp的点云，并通过特征编码器（例如，堆叠的PointNet层）将其编码为特征矩阵。这个共享特征矩阵指的是PointNet架构中局部特征和全局特征的串联，或者是PointNet++架构的最后一个集合抽象模块的输出。然后两个并行分支获取特征矩阵并分别进行后续预测。语义分割分支将共享特征矩阵解码为NP×NFN_P \times N_FNP×NF形状的语义特征矩阵FSEMF_{\mathrm{SEM}}FSEM，然后输出形状为NP×NCN_P \times N_CNP×NC的语义预测PSEMP_{\mathrm{SEM}}PSEM，其中NCN_CNC是语义类别的数量。除了最后一个输出层外，实例分割分支具有相同的架构。NP×NFN_P \times N_FNP×NF实例特征矩阵FINSF_{\mathrm{INS}}FINS用于预测形状为NP×NEN_P \times N_ENP×NE的每点实例嵌入EINSE_{\mathrm{INS}}EINS，其中NEN_ENE是嵌入的维度。点云的嵌入代表了其中点之间的实例关系：属于同一实例的点在嵌入空间中彼此靠近，而不同实例的点则相距甚远。

在训练时，语义分割分支由经典的交叉熵损失监督。对于实例分割，采用[6]中的2D图像判别损失函数来监督实例嵌入学习。我们对其进行了修改，使其适用于点云。[6]中使用的损失是特定于类的：不同语义类的实例嵌入是分别学习的，这意味着应该首先给出语义类。这种逐步范式高度依赖于语义预测的质量，因为不正确的语义预测将不可避免地导致不正确的实例识别。因此，我们采用与类无关的实例嵌入学习策略，其中嵌入负责区分不同的实例并且对它们的类别视而不见。损失函数公式如下：

L=Lvar+Ldist+α⋅Lreg(1)L=L_{var}+L_{\text{dist}}+\alpha \cdot L_{reg} \tag{1} L=Lvar+Ldist+α⋅Lreg(1)

其中LvarL_{var}Lvar旨在将嵌入拉向实例的平均嵌入，即实例中心，LdistL_{\text{dist}}Ldist使实例相互排斥，LregL_{reg}Lreg是一个正则化项，以保持嵌入值有界。在我们的实验中，α\alphaα设置为0.001。具体来说，每一项都可以写成：

其中III是真实实例的数量；NiN_iNi是实例iii中的点数；μi\mu_iμi是实例iii的平均嵌入；∥⋅∥1\|\cdot\|_1∥⋅∥1为ℓ1\ell_1ℓ1距离；eje_jej是一个点的嵌入；δv\delta_{\mathrm{v}}δv和δd\delta_{\mathrm{d}}δd是边距；[x]+=max⁡(0,x)[x]_{+}=\max(0,x)[x]+=max(0,x)表示铰链。

在测试期间，最终实例标签是使用实例嵌入的均值偏移聚类[3]获得的。我们将同一实例中点的语义标签的模式分配为其最终类别。管道如图3(a)所示。

图3：我们的点云实例分割和语义分割方法的说明。(a)系统的完整管道。(b)ASIS模块示意图。

3.2.Mutual Aid

如图3(b)所示，受益于上述简单灵活的框架，我们能够在其上构建新的ASIS模块并实现语义感知实例分割和实例融合语义分割。

Semantic-aware Instance Segmentation. 点云的语义特征构建了一个新的高级特征空间，其中点根据它们的类别自然定位。在那个空间中，同一语义类的点靠得很近，而不同的类是分开的。我们从语义特征中抽象出语义感知（SA）并将其集成到实例特征中，产生语义感知的实例特征。首先，语义特征矩阵FSEMF_{\mathrm{SEM}}FSEM通过具有批量归一化和ReLU激活功能的点独立全连接层(FC)适应实例特征空间为FSEM′F_{\mathrm{SEM}}^{\prime}FSEM′。FSEM′F_{\mathrm{SEM}}^{\prime}FSEM′与FSEMF_{\mathrm{SEM}}FSEM形状相同。然后，我们将适应的语义特征矩阵FSEM′F_{\mathrm{SEM}}^{\prime}FSEM′按元素添加到实例特征矩阵FINS中，生成语义感知的实例特征矩阵FSINSF_{\text{SINS}}FSINS。该过程可以表述为：

FSINS=FINS+FC(FSEM).(5)F_{\mathrm{SINS}}=F_{\mathrm{INS}}+FC\left(F_{\mathrm{SEM}}\right). \tag{5} FSINS=FINS+FC(FSEM).(5)

以这种柔软且可学习的方式，属于不同类别实例的点在实例特征空间中被进一步排斥，而相同类别实例很少受到影响。特征矩阵FSINSF_{\mathrm{SINS}}FSINS用于生成最终实例嵌入。

Instance-fused Semantic Segmentation. 给定实例嵌入，我们使用K最近邻（kNN）搜索来为实例嵌入空间中的每个点（包括自身）找到固定数量的相邻点。为了确保KKK个采样点属于同一个实例，我们过滤根据公式2中使用的边距δv\delta_vδv计算异常值。如第3.1节所述，铰链损失项LvarL_{var}Lvar通过将每个点嵌入靠近δv\delta_vδv距离内的平均嵌入来监督实例嵌入学习。kNN搜索的输出是一个形状为NP×KN_P \times KNP×K的索引矩阵。根据索引矩阵，这些点的语义特征（FSEMF_{\mathrm{SEM}}FSEM）被分组为一个NP×K×NFN_P \times K \times N_FNP×K×NF形状的特征张量，这是一组语义特征矩阵，其中每个组对应于实例嵌入空间中与其质心点相邻的局部区域。受[26,36,38]中通道方式最大聚合的有效性的启发，每个组的语义特征通过通道融合在一起wisemax聚合操作，作为质心点的细化语义特征。实例融合（IFIFIF）可以表述如下。对于NP×NFN_P \times N_FNP×NF形语义特征矩阵FSEM={x1,…,xNP}⊆RNFF_{\mathrm{SEM}}=\left\{x_1,\ldots,x_{N_P}\right\}\subseteq\mathbb{R}^{N_F}FSEM={x1,…,xNP}⊆RNF，实例融合语义特征计算为：

xi′=Max⁡(xi1,xi2,…,xik)(6)x_i^{\prime}=\operatorname{Max}\left(x_{i1},x_{i2},\ldots,x_{ik}\right) \tag{6} xi′=Max(xi1,xi2,…,xik)(6)

其中{xi1,…,xik}\left\{x_{i1},\ldots,x_{ik}\right\}{xi1,…,xik}表示实例嵌入空间中以点iii为中心的KKK个相邻点的语义特征，MaxMaxMax是以KKK个向量作为输入并输出一个新向量的元素级最大算子。在实例融合之后，输出是一个NP×NFN_P \times N_FNP×NF特征矩阵FISEMF_{\text{ISEM}}FISEM，最终的语义特征将被馈送到最后一个语义分类器中。

5.Conclusion

在本文中，提出了一种新颖的分割框架，即ASIS，用于关联点云上的实例分割和语义分割。明确探索了这两个任务之间的关系，并直接指导我们的方法设计。我们在S3DIS数据集和ShapeNetpart数据集上的实验证明了ASIS的有效性和效率。我们期望所提出的方法在3D实例分割和3D语义分割中得到广泛应用，并希望这种新颖的设计为未来的分割任务工作提供见解，例如全景分割等。

原文链接：https://openaccess.thecvf.com/content_CVPR_2019/papers/Wang_Associatively_Segmenting_Instances_and_Semantics_in_Point_Clouds_CVPR_2019_paper.pdf

#References

CVPR 2019 | Associatively Segmenting Instances and Semantics in Point Clouds相关推荐

CVPR2019点云分割论文解读ASIS：Associatively Segmenting Instances and Semantics in Point Clouds
总述 3D点云准确而直观地描述了真实场景.到目前为止,如何在这样一个信息丰富的3D场景中分割各种元素,还很少得到讨论. 在本文中,首先介绍了一个简单而灵活的框架,用于同时分割点云中的实例和语义.然后, ...
（九：2020.08.27）CVPR 2019 追踪之论文纲要（译）
CVPR 2019 追踪之论文纲要(修正于2020.08.28) 讲在前面论文目录讲在前面论坛很多博客都对论文做了总结和分类,但就医学领域而言,对这些论文的筛选信息显然需要更加精细的把控,所以自 ...
CVPR 2019 论文汇总（按方向划分，0409 更新中）[转载]
转载链接:http://bbs.cvmart.net/topics/302/cvpr2019paper 作为计算机视觉领域三大顶会之一,CVPR2019(2019.6.16-6.19在美国洛杉矶举办) ...
17篇论文入选CVPR 2019，百度AI都在关注什么？（附论文地址）
整理 | 阿司匹林出品 | AI科技大本营(公众号id:rgznai100) 计算机视觉和模式识别大会CVPR 2019即将于6月在美国长滩召开,作为人工智能领域计算机视觉方向的重要学术会议,CVP ...
近期必读的9篇CVPR 2019【域自适应（Domain Adaptation）】相关论文和代码
[导读]最近小编推出CVPR2019图卷积网络.CVPR2019生成对抗网络.[可解释性],CVPR视觉目标跟踪,CVPR视觉问答,医学图像分割,图神经网络的推荐相关论文,反响热烈.最近,Domain ...
CVPR 2019 | 百度17篇论文入选，AI巨头都在关注什么？（附论文下载）
授权自AI科技大本营(ID:rgznai100) 本文共6400字,建议阅读10+分钟. 本文整理了百度入选CVPR的17篇论文的内容及应用场景. 计算机视觉和模式识别大会CVPR 2019即将于6月 ...
CVPR 2019 | 旷视研究院提出新型损失函数：改善边界框模糊问题
全球计算机视觉三大顶会之一 CVPR 2019 (IEEE Conference on Computer Visionand Pattern Recognition)将于 6 月 16-20 在美国洛 ...
CVPR 2019 | 基于密集语义对齐的行人重识别模型：有效解决语义不对齐
点击我爱计算机视觉标星,更快获取CVML新技术本文转载自微软研究院AI头条. 编者按:行人重识别(Person Re-identification),也称行人再识别,旨在利用计算机视觉技术实现基于图 ...
CVPR 2019 论文大盘点—人体姿态篇
点击我爱计算机视觉标星,更快获取CVML新技术 CV君盘点了CVPR 2019 中有关人体姿态的论文,其中研究 3D人体姿态估计的论文最多,有 11 篇,研究 2D 姿态估计的 7 篇,姿态迁移 2 ...

CVPR 2019 | Associatively Segmenting Instances and Semantics in Point Clouds