Deep Projective 3D Semantic Segmentation

原文：https://arxiv.org/abs/1705.03428

深度投影3D语义分割

摘要

三维点云的语义分割是许多现实应用中的一个具有挑战性的问题。尽管深度学习已经彻底改变了图像语义分割领域，但迄今为止，它对点云数据的影响有限。最近基于3D深度学习方法（3D-CNNs）的尝试取得了低于预期的结果。这种方法需要对底层点云数据进行体素化，因此降低了空间分辨率并增加了内存消耗。此外，3D CNN在很大程度上受到标注数据集可用性的限制。

在本文中，我们提出了一种替代框架，以避免3D-CNNs的限制。我们首先将点云投影到一组合成2D图像上，而不是直接在3D中解决问题。然后，这些图像被用作设计用于语义分割的2D-CNN的输入。最后，将获得的预测分数重新投影到点云以获得分割结果。我们进一步研究了多流网络架构（multi-stream network）中多种模式（如颜色、深度和表面法线）的影响。实验在最近的 Semantic3D 数据集上进行。与之前的最佳方法相比，我们的方法实现了7.9%的相对增益，从而创造了新的技术水平。

关键词：点云、语义分割、深度学习、扫描伪影、硬景观

1 引言

3D采集传感器（如激光雷达和RGB-D相机）的快速发展导致了对3D点云自动分析的需求增加。特别是，将每个点自动分类为一组语义标签的能力，称为语义点云分割，具有许多应用，如场景理解和机器人技术。近年来2D图像的语义分割问题得到了相当多的关注，但点云的语义分割尽管具有重要意义，却没有受到多少关注。在本文中，我们提出了一个点云语义分割框架，该框架极大地受益于语义图像分割的最新发展。

随着深度学习的出现，计算机视觉中的许多任务都取得了迅速的进展，包括图像的语义分割。这一发展的关键因素在于大型标记数据集的引入和卷积神经网络（CNNs）的GPU实现。然而，由于一些挑战，CNN尚未成功应用于3D点云的语义分割。与图像数据的规则网格结构不同，点云通常是稀疏和非结构化的。一种常见的策略是进行体素化，以便在3D中直接应用CNNs。这导致了内存消耗的急剧增加以及分辨率的降低。此外，由于数据标注的困难，对训练CNN至关重要的经过标注的3D数据非常稀少。

在这项工作中，我们研究了一种替代方法，避免了 3D CNNs 引起的上述困难。作为我们的第一个贡献，我们提出了一个利用深度图像分割方法优势的3D语义分割框架。点云首先被投影到一组合成图像上，然后被用作深度网络的输入。所得的逐像素分割分数被重新投影到点云中。然后，通过融合不同视图的得分来获得每个点的语义标签。作为我们的第二个贡献，我们研究了从点云提取的不同输入模式（如颜色、深度和曲面法线）的影响。这些模式在多流网络架构中融合以获得最终预测分数。

与基于3D CNNs¹的语义分割方法相比，我们的方法有两大优势。首先，我们的方法受益于现有的大量图像分割和分类数据集，如ImageNet²和ADE20K³。这大大减少甚至消除了出于训练目的对3D数据的需求。其次，通过避免体素化导致的大内存复杂性，我们的方法达到了更高的空间分辨率，从而实现了更好的分割质量。

我们在最近引入的Semantic3D⁴数据集进行了定性和定量实验。我们表明，不同的模式包含互补信息，它们的融合显著提高了最终的分割性能。此外，我们的方法在 Semantic3D 数据集上达到了顶级水平，并且优于经典机器学习方法和基于3D-CNN的方法。图4显示了使用我们的方法的示例分割结果。

2 相关工作

由于能够捕获高质量3D数据的传感器的快速发展，语义点云分割任务受到越来越多的关注。RGB-D相机，如微软Kinect，已成为机器人和计算机视觉任务的热门。RGB-D相机更适合室内环境，地面激光扫描仪则可以同时用于捕捉室内和室外应用的大尺度点云。RGB-D相机和现代激光扫描仪都能够使用校准的RGB相机捕获与3D信息相关联的颜色。除了可视化，这些附加信息对于点云的自动分析和处理非常有用。虽然颜色对于我们的方法来说不是必要的，但它降低了了语义分割的任务难度，并允许使用大规模图像数据集。

大多数以前的3D语义分割工作 ⁵,⁶,⁷,⁸,⁹ 应用了（i）手工制作的特征、（ii）判别分类器和（iii）空间平滑模型的组合。在这种情况下，构建有区别的3D特征（i）可以说是最重要的任务。流行的替代方案包括基于3D结构张量的特征⁶,¹⁰,⁷,⁵、基于直方图的描述子⁶,⁸,⁷（如旋转图像¹¹和SHOT¹²），以及简单的颜色特征¹⁰,⁸,⁷。分类器（ii）通常基于最大边际方法或采用随机森林⁶,⁷,⁸。为了利用语义标签之间的空间相关性（iii），许多方法应用图模型，例如条件随机场（CRF）¹⁰,⁵,⁹。

最近，深度卷积神经网络（CNN）已成功地应用于二维图像的语义分割¹³。他们的主要优势是学习高级辨别特征的能力，这消除了手工设计表示的需要。深度CNN在各种计算机视觉问题上的快速发展通常归功于大规模数据集的引入，如ImageNet²，以及GPU计算性能的提高。

尽管CNN在图像数据方面取得了成功，但由于几个重要因素，CNN在3D点云数据¹⁴,¹⁵,¹⁶中的应用受到严重阻碍。首先，点云不具有图像的邻域结构。相反，数据是稀疏和分散的。因此，基于CNN的方法只能将底层点云数据体素化，以实现3D卷积（3D CNN）。其次，体素化有几个缺点，包括空间分辨率的损失和较大的内存需求。因此，3D CNN仅限于小体积模型或以许多较小的块处理数据，这限制了使用场景。第三，带注释的3D数据非常有限，尤其是对于3D语义分割任务。这大大限制了CNN对通用3D点云进行语义分割的能力。相反，我们的方法通过将点云投影到密集的2D图像表示中来避免这些缺点，从而消除了体素化的需要。然后可以使用2D卷积有效地处理2D图像。此外，在图像空间中执行分割允许我们利用开发良好的2D分割技术以及大量注释数据。

3 方法

在本节中，我们介绍了我们的点云分割方法。输入是一个非结构化点云，目标是为每个点分配一个语义标签。在我们的方法中，我们通过将点投影到合成图像中，从不同的视图渲染点云。我们渲染了从点云提取的颜色、深度和其他属性。然后，通过CNN对图像进行基于图像的语义分割，为每个像素中的预定义类提供预测分数。我们使用特定点可见的所有图像，从聚合的预测分数中进行最终的类别选择。该方法的概述如图1所示。下面的部分提供了更详细的描述。

3.1 渲染视图

点云渲染的目标是生成结构化的2D图像，这些图像用作基于CNN的语义分割算法的输入。来自点云的各种信息可以投影到合成图像上。在这项工作中，我们特别研究了深度、颜色和法线的使用。然而，该方法可以简单地扩展到其他特征，如HHA¹⁷和从点云提取的其他局部信息。为了将语义信息映射回3D点，我们还需要跟踪投影点的可见性。

我们选择的渲染技术是 point splatting¹⁸,¹⁹ 的一种变体，其中点通过扩散函数投影到图像平面中。其他渲染技术（如表面重建²⁰）需要在3D空间中对点云进行高要求的预处理步骤，而 splatting 则可以完全在图像空间中处理。这进一步实现了高效且易于并行化，这对于大规模或密集的点云至关重要。

首先通过将点云的每个3D点 xix_ixi 投影到虚拟像机的图像坐标 yiy_iyi 来进行基于splatting 的渲染。投影点与其对应的深度值 ziz_izi 和特征向量 cic_ici 存储在一起。后者可以包括例如点 xix_ixi 的RGB颜色和法向量。3D点的投影通过图像平面中的高斯点扩散函数进行分布，
wi,j=G(yi−pj,σ2)(1)w_{i,j} = G(y_i - p_j,\sigma^2) \tag{1}wi,j=G(yi−pj,σ2)(1)
这里，wi,jw_{i,j}wi,j 是点 xix_ixi 对投影图像中像素 jjj 的贡献权重。它是通过在像素位置 pjp_jpj 处评估尺度为 σ2\sigma^2σ2 的各向同性高斯核 GGG 而获得的。为了降低计算复杂度，在距离 rrr 处截断核。然而，源于不同表面的点扩散函数仍可能在图像平面中相交。因此，需要确定投影点的可见性，以避免遮挡表面的影响。此外，传感器数据可能包含严重的前景噪声，例如扫描伪影，这使该任务复杂化。难点在于在渲染过程中排除噪声和遮挡表面的影响。

在传统的 splatting¹⁹ 方法中，使用权重 wi,jw_{i,j}wi,j，以累加方式从点扩散函数的加权平均值获得结果像素值。如果新点的深度与当前加权平均值显著不同，则如果该点比特定阈值更近，则使用新值重新初始化像素深度，如果该点距离更远¹⁹，则丢弃像素深度。然而，这意味着结果像素值取决于阈值和投影点的顺序。此外，前景中的噪声将对结果图像产生重大影响，因为它总是被渲染的。

与 ²¹ 中提出的方法类似，我们使用高斯核密度估计器 G(d,s2)G(d,s^2)G(d,s2) 对每个像素中的投影点相对于用 wi,jw_{i,j}wi,j 加权的深度 ziz_izi 执行均值漂移聚类，其中 s2s^2s2 表示核宽度。从构成当前像素 jjj 的每个点 i∈Iji \in I_ji∈Ij 的深度值 di0=zid^0_i = z_idi0=zi 开始，Ij={i:∥pj−yj∥<r}I_j = \{i:\lVert p_j - y_j \rVert < r\}Ij={i:∥pj−yj∥<r}，迭代以下表达式直到收敛：
dim+1=∑i∈Ijwi,jG(din−zi,s2)zi∑i∈Ijwi,jG(dn−zi,s2)(2)d^{m+1}_i = \frac {\sum_{i \in {I_j}} w_{i,j} G(d^n_i - z_i,s^2)z_i} {\sum_{i \in I_j} w_{i,j} G(d^n - z_i,s^2)} \tag{2}dim+1=∑i∈Ijwi,jG(dn−zi,s2)∑i∈Ijwi,jG(din−zi,s2)zi(2)
迭代过程从收敛迭代 {djN}i∈Ij\{ d^N_j \}_i \in I_j{djN}i∈Ij 确定一组唯一的聚类中心 dk1K{d_k}^K_1dk1K。聚类中心 dkd_kdk 的核密度由下面公式给出：
vk=∑i∈Ijwi,jG(dk−zi,s2)∑i∈Ijwi,j(3)v_k = \frac {\sum_{i \in I_j} w_{i,j} G(d_k - z_i,s^2)} {\sum_{i \in I_j} w_{i,j}} \tag{3}vk=∑i∈Ijwi,j∑i∈Ijwi,jG(dk−zi,s2)(3)
我们根据核密度估计和聚类中心对聚类进行排序，
sk=vk+Ddk(4)s_k = v_k + \frac {D} {d_k} \tag{4}sk=vk+dkD(4)

这里，权重D奖励靠近相机的聚类。设置为不渲染前景噪音和遮挡点。我们选择最佳聚类为 k=argmaxkskk = arg\ max_ks_kk=arg maxksk，并将像素 jjj 的深度值设置为相应的聚类中心 dk~d_{\tilde{k}}dk~。特征值被计算为加权平均值，其中权重根据与所选聚类的接近度确定，
ck~=∑i∈Ijwi,jG(dk~−zi,s2)ci∑i∈Ijwi,jG(dk~−zi,s2)(5)\textbf{c}_{\tilde{k}} = \frac {\sum_{i \in I_j} w_{i,j} G(d_{\tilde{k}} - z_i,s^2) \textbf{c}_i} {\sum_{i \in I_j} w_{i,j} G(d_{\tilde{k}} - z_i,s^2)} \tag{5}ck~=∑i∈Ijwi,jG(dk~−zi,s2)∑i∈Ijwi,jG(dk~−zi,s2)ci(5)
由于贡献点 iii 的索引 i∈Iji \in I_ji∈Ij 被存储，因此将 CNN 生成的语义分割分数映射回点云本身是很简单的。

渲染输出的示例如图2所示。

3.2 深度多流图像分割

在深度学习算法目前取得成功之后，我们部署了一种基于CNN的算法，用于对渲染图像执行语义分割。我们考虑使用多输入模态，这些模态使用多流架构²²进行组合。像 ²³ 中提出那样，来自流的预测在 sum 层中融合。因此，可以端到端地训练完整的多流网络。然而，请注意，我们的管道对使用的图像语义分割方法是不可知的。

在我们的方法中，使用全卷积网络（FCN）¹³ 处理每个流。然而，如前所述，可以采用任何CNN架构。FCN基于流行的VGG16网络²⁴。每个流中的权重通过在ImageNet数据集²上的预训练进行初始化。在这项工作中，我们研究了输入流的不同组合，即颜色、深度和表面法线。虽然RGB流自然受益于ImageNet上的预训练，但深度流也是如此。先前的工作 ²⁵ 表明，深度图像的3通道 jet 彩色图表示更好地受益于RGB数据集（如ImageNet）的预训练。最后，我们还将表面法线视为单独网络流的输入。为此，我们部署了一种基于深度图直接微分的近似法线计算的高效算法。

3.3 分数融合

深度网络输出图像中每个像素的每个类别的预测分数。使用第 3.1 节中描述的索引 i∈Iji \in I_ji∈Ij，将每个渲染视图的得分映射到相应的3D点。我们通过计算所有映射的总和来融合分数。最后，将对应于最大分数总和的标签分配给点。

4 实验

4.1 数据集

我们在数据集 Semantic3D⁴ 上进行了实验，该数据集提供了一组室外环境的大规模3D点云。点云由激光扫描仪采集，包括城市和农村场景。使用从一组高分辨率相机图像生成的立方体贴图进行着色。数据集总共包含30个单独的扫描和40多亿个3D点。这些点被标记为8个不同的语义类别：人造地形、自然地形、高植被、低植被、建筑物、硬景观、扫描文物和汽车。

4.2 实验设置

视图选择 为了完全覆盖渲染视图中的点云，我们通过围绕固定的垂直轴旋转相机360度来收集图像。对于每个360度旋转，我们使用30个等距角度的相机视图。对于每个点云，我们使用不同的俯仰角和相机平移生成四个这样的扫描，总共生成120个相机视图。为了保持一定量的上下文信息，我们删除了超过10%的像素深度小于5米的图像。此外，覆盖率小于5%的图像被丢弃。

网络设置和训练 对于训练，我们通过从第3.1节的最佳聚类中选择最常见的标签来生成地面真实标签图像。如图2所示，除了提供的8个类之外，我们还包括第9个类别——背景类来标记空像素，即没有任何交叉点扩展函数的像素。我们从 Semantic3D⁴ 提供的训练集生成了训练数据，由来自不同场景的15个点云组成。我们的训练数据集由 3132 个标记图像组成，包括颜色、深度的 jet 可视化和表面法线。

我们研究了提出使用颜色、深度和表面法线流作为输入的多流方法。为了确定每个输入流的贡献，我们还评估单个流的网络配置。由于某些点云可能没有颜色信息，我们还研究了没有颜色流的多流方法。表1中列出了所有网络配置。

使用相同的训练参数训练所有网络配置。我们训练了 45 个 epoch，batch size 设置为 16。初始学习率设置为 0.0001，每10个 epoch 除以2。根据 ²⁶ 的建议，我们使用 0.99 的动量。使用 MatConvNet²⁷ 训练网络。

4.3 结果和讨论

我们在Semantic3D提供的简化测试集上评估了我们针对不同网络配置的方法。测试集由四个点云组成，总共包含8000万个点。所有点都被分配了一个类标签 jjj，它与地面真值标签 iii 相比较。构造混淆矩阵 CCC，其中每个条目 ccc 表示具有地面真值标签 iii 的点的数量，这些点被分配为标签 jjj。基准所提供的定量度量是每个类 iii 的交并比（IoU），由下式给出
IoUi=ciicii+∑j≠icij+∑k≠ickj(6)\mathrm {IoU}_i = \frac {c_{ii}} {c_{ii} + \sum_{j \neq i}c_{ij} + \sum_{k \neq i}c_{kj}} \tag{6}IoUi=cii+∑j=icij+∑k=ickjcii(6)
还提供了总体准确率，由下式给出
IoU=∑icii∑j∑jkcjk(7)\mathrm {IoU} = \frac {\sum_i c_{ii}} {\sum_j \sum_{jk} c_{jk}} \tag{7}IoU=∑j∑jkcjk∑icii(7)
评估结果见表2。以RGB和曲面法线作为输入的单流网络比深度作为输入的单流网络的性能要好得多。然而，这三个流似乎提供了互补的信息，并在一起使用时显著提高了性能。我们的最佳多流方法比现有技术方法²⁸有了显著改进。此外，我们的没有颜色流的多流方法获得了与之前的状态相当的结果，表明即使没有颜色信息，我们的方法也是适用的。有趣的是，与基于 3D-CNN 的 VoxNet⁴ 相比，即使我们仅使用RGB或表面法线作为输入的单流方法也实现了显著的增益。图4显示了在测试集上使用我们的多流 RBG+D+N 网络的一些定性结果。

请注意，我们正在使用一个简单的启发式算法来生成相机视图，并使用一个基于有限数据训练的基本分割网络。但是，我们却获得了非常有前景的结果。用更好的方案替换这些应该会进一步改善结果。然而，这超出了本文的范围。

TML-PCR²⁹

5 结论

我们提出了一种用于3D点云语义分割的方法，该方法避免了 3D-CNNs 的限制。我们的方法首先将点云投影到一组合成2D图像上。然后，将相应的图像用作 2D-CNN 的输入以进行语义分割。因此，通过将预测分数重新投影到点云来获得分割结果。我们进一步研究了多流深度网络架构中多种模式的影响。实验在 Semantic3D 数据集上进行。我们的方法优于现有方法，并在该数据集上创造了新的技术水平。

参考文献

Maturana, D., Scherer, S.: Voxnet: A 3d convolutional neural network for real-time object recognition. In: Intelligent Robots and Systems (IROS), 2015 IEEE/RSJ International Conference on. pp. 922–928. IEEE (2015) ↩︎
Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Fei-Fei, L.: ImageNet: A Large-Scale Hierarchical Image Database. In: CVPR09 (2009) ↩︎ ↩︎ ↩︎
Zhou, B., Zhao, H., Puig, X., Fidler, S., Barriuso, A., Torralba, A.: Scene parsing through ade20k dataset. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (2017) ↩︎
Hackel, T., Savinov, N., Ladicky, L., Wegner, J.D., Schindler, K., Pollefeys, M.: Semantic3d. net: A new large-scale point cloud classification benchmark. arXiv preprint arXiv:1704.03847 (2017) ↩︎ ↩︎ ↩︎ ↩︎
Anguelov, D., Taskar, B., Chatalbashev, V., Koller, D., Gupta, D., Heitz, G., Ng, A.Y.: Discriminative learning of markov random fields for segmentation of 3d scan data. In: 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 2005), 20-26 June 2005, San Diego, CA, USA. pp. 169–176 (2005) ↩︎ ↩︎ ↩︎
Hackel, T., Wegner, J.D., Schindle, K.: Fast semantic segmentation of 3d point clouds with strongly varying density. In: ISPRS Annals - ISPRS Congress, Prague (2016) ↩︎ ↩︎ ↩︎ ↩︎
Kahler, O., Reid, I.D.: Efficient 3d scene labeling using fields of trees. In: IEEE International ¨ Conference on Computer Vision, ICCV 2013, Sydney, Australia, December 1-8, 2013. pp. 3064–3071 (2013) ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Martinovic, A., Knopp, J., Riemenschneider, H., Gool, L.J.V.: 3d all the way: Semantic segmentation of urban scenes from start to end in 3d. In: IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2015, Boston, MA, USA, June 7-12, 2015. pp. 4456–4465 (2015) ↩︎ ↩︎ ↩︎ ↩︎
Kim, B., Kohli, P., Savarese, S.: 3d scene understanding by voxel-crf. In: IEEE International Conference on Computer Vision, ICCV 2013, Sydney, Australia, December 1-8, 2013. pp. 1425–1432 (2013) ↩︎ ↩︎
Wolf, D., Prankl, J., Vincze, M.: Fast semantic segmentation of 3d point clouds using a dense CRF with learned parameters. In: IEEE International Conference on Robotics and Automation, ICRA 2015, Seattle, WA, USA, 26-30 May, 2015. pp. 4867–4873 (2015) ↩︎ ↩︎ ↩︎
Johnson, A.E., Hebert, M.: Using spin images for efficient object recognition in cluttered 3d scenes. IEEE Trans. Pattern Anal. Mach. Intell. 21(5), 433–449 (1999) ↩︎
Salti, S., Tombari, F., di Stefano, L.: SHOT: unique signatures of histograms for surface and texture description. Computer Vision and Image Understanding 125, 251–264 (2014) ↩︎
Long, J., Shelhamer, E., Darrell, T.: Fully convolutional networks for semantic segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 3431–3440 (2015) ↩︎ ↩︎
Huang, J., You, S.: Point cloud labeling using 3d convolutional neural network. In: International Conference on Pattern Recognition (ICPR) (2016) ↩︎
Qi, C.R., Su, H., Nießner, M., Dai, A., Yan, M., Guibas, L.J.: Volumetric and multi-view cnns for object classification on 3d data. In: 2016 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2016, Las Vegas, NV, USA, June 27-30, 2016. pp. 5648–5656 (2016) ↩︎
Wu, Z., Song, S., Khosla, A., Yu, F., Zhang, L., Tang, X., Xiao, J.: 3d shapenets: A deep representation for volumetric shapes. In: IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2015, Boston, MA, USA, June 7-12, 2015. pp. 1912–1920 (2015), http://dx.doi.org/10.1109/CVPR.2015.7298801 ↩︎
Gupta, S., Girshick, R., Arbelaez, P., Malik, J.: Learning rich features from rgb-d images ´ for object detection and segmentation. In: European Conference on Computer Vision. pp. 345–360. Springer (2014) ↩︎
Szeliski, R.: Computer Vision: Algorithms and Applications. Springer-Verlag New York, Inc. (2010) ↩︎
Zwicker, M., Pfister, H., Van Baar, J., Gross, M.: Surface splatting. In: Proceedings of the 28th annual conference on Computer graphics and interactive techniques. pp. 371–378. ACM (2001) ↩︎ ↩︎ ↩︎
Kazhdan, M., Hoppe, H.: Screened poisson surface reconstruction. ACM Transactions on Graphics (TOG) 32(3), 29 (2013) ↩︎
Ogniewski, J., Forssen, P.E.: Pushing the limits for view prediction in video coding. In: ´ 12th International Conference on Computer Vision Theory and Applications (VISAPP’17). Scitepress Digital Library, Porto, Portugal (February-March 2017) ↩︎
Simonyan, K., Zisserman, A.: Two-stream convolutional networks for action recognition in videos. In: Advances in Neural Information Processing Systems 27: Annual Conference on Neural Information Processing Systems 2014, December 8-13 2014, Montreal, Quebec, Canada. pp. 568–576 (2014), http://papers.nips.cc/paper/ 5353-two-stream-convolutional-networks-for-action-recognition-in-videos ↩︎
Feichtenhofer, C., Pinz, A., Zisserman, A.: Convolutional two-stream network fusion for video action recognition. In: 2016 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2016, Las Vegas, NV, USA, June 27-30, 2016. pp. 1933–1941 (2016), http://dx.doi.org/10.1109/CVPR.2016.213 ↩︎
Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. CoRR abs/1409.1556 (2014) ↩︎
Eitel, A., Springenberg, J.T., Spinello, L., Riedmiller, M., Burgard, W.: Multimodal deep learning for robust rgb-d object recognition. In: Intelligent Robots and Systems (IROS), 2015 IEEE/RSJ International Conference on. pp. 681–687. IEEE (2015) ↩︎
Liu, W., Rabinovich, A., Berg, A.C.: Parsenet: Looking wider to see better. arXiv preprint arXiv:1506.04579 (2015) ↩︎
Vedaldi, A., Lenc, K.: Matconvnet – convolutional neural networks for matlab. In: Proceeding of the ACM Int. Conf. on Multimedia (2015) ↩︎
Hackel, T., Wegner, J.D., Schindler, K.: Fast semantic segmentation of 3d point clouds with strongly varying density. ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, Prague, Czech Republic 3, 177–184 (2016) ↩︎
Montoya-Zegarra, J.A., Wegner, J.D., Ladicky, L., Schindler, K.: Mind the gap: modeling local and global context in (road) networks. In: German Conference on Pattern Recognition. pp. 212–223. Springer (2014) ↩︎