用nerf做语义分割

Abstract

语义标记Semantic labelling与几何形状geometry 和辐射重建radiance reconstruction高度相关，因为具有相似形状和外观的场景实体更有可能来自相似的类别。最近的隐式神经重建技术很有吸引力，因为它们不需要预先的训练数据，但同样的完全自监督的方法是不可能进行语义的，因为标签是人类定义的属性。

我们扩展了神经辐射场(NeRF)，以联合编码具有外观和几何形状的语义jointly encode semantics with appearance and geometry，以便可以使用少量特定于场景的就地注释 in-place annotations 来实现完整和准确的二维语义标签2D semantic labels。NeRF语义固有的多视图一致性multi-view consistency和平滑性smoothness 有利于使稀疏标签得以有效传播。当标签在房间尺度的场景中是稀疏的或非常嘈杂的时sparse or very noisy in room-scale scenes，我们展示了这种方法的好处。我们在视觉语义映射系统visual semantic mapping systems中展示了它的优势，如高效的场景标记工具efficient scene labelling tool、新语义视图合成novel semantic view synthesis、标签去噪label denoising、超分辨率super-resolution、标签插值label interpolation和多视图语义标签融合multi-view semantic label fusion 。

图1：神经辐射场(NeRF)联合编码外观和几何形状，包含了分割和聚类的强先验。在此基础上，我们创建了一个特定场景的3D语义表示，semantic -nerf，并表明它可以通过现场监督有效地学习，以执行各种潜在的应用程序。

1. Introduction

机器学习方法在几何和语义预测任务中都被证明是有价值的，但当训练数据的分布与测试时观察到的场景不匹配时，这些方法的性能就会受到影响。虽然这个问题可以通过收集昂贵的注释数据或半监督学习来缓解，但在具有各种已知和未知类的开放集场景中并不总是可行的。

估计场景的几何形状和预测其语义标签的任务是密切相关的，因为具有相似形状的场景更可能属于同一语义类别，而不是差异很大的语义类别。其中同时预测形状和语义的网络比单独处理任务时表现得更好。

然而，与场景几何 scene geometry不同的是，语义类semantic classes是一个人类定义的概念，它不可能以一种纯粹的自我监督的方式来语义地标记一个新的场景。所能达到的最好方法是将场景的自相似结构聚为类别cluster self-similar structures of a scene into categories；但是总是需要一些标签来将这些集群与人类定义的语义类联系起来。

在本文中，我们展示了如何设计一个特定场景的网络用于联合几何和语义预测，并在只有弱场景任务监督（没有几何监督）的单一场景的图像上进行训练。因为我们的单一网络必须同时生成几何图形和语义，这些任务之间的相关性意味着语义预测可以受益于几何自监督学习到的平滑性、相干性和自相似性smoothness, coherence and self-similarity。此外，多视图一致性是训练过程中固有的，使网络能够产生准确的场景语义标签，包括与输入集中的任何视图有本质上不同的视图。

我们的系统以一组具有相关的已知相机姿态的RGB图像作为输入。我们还为图像提供一些部分或有噪声的语义标签，例如为一小部分图像提供地面真实标签，或为更多数量的图像提供有噪声或粗糙的标签映射。我们训练我们的网络共同为整个场景的几何和语义的隐式三维表示。

我们对来自复制数据集Replica dataset[28]的场景进行了定量和定性的评估，并对来自ScanNet数据集[3]的真实世界的场景进行了定性的评估。从部分或噪声输入标签为整个场景生成密集的语义标签对于实际应用很重要，比如当机器人遇到一个新场景时，只有少量的现场标签是可行的，或者只有一个不完美的单视图网络可用。

3. Method

3.1. Preliminaries

NeRF简介

3.2. Semantic-NeRF

图2：Semantic-NeRF网络架构。在进行位置编码(PE)后，将三维位置方向(x、y、z)和观察方向（θ、φ）输入网络。体积密度σ和语义逻辑semantic logits s是三维位置的函数，而颜色c另外取决于观察方向。

我们现在展示如何扩展NeRF来联合编码外观、几何和语义。如图2所示，我们在向MLP中注入查看方向之前，通过添加一个分割渲染器来增强原始的NeRF。

我们将语义分割形式化为一个固有的视图不变函数，它通过 pre-softmax semantic logits s(x)，只将一个世界坐标x映射到C语义标签上的分布：

其中，FΘ表示学习到的mlp。

图像平面上给定像素的近似期望语义对数ˆS(r)可以写为：

α(x)=1−exp(−x)，δk=tk+1−tk是相邻样本点之间的距离。语义对数可以Semantic logits通过一个软极大的归一化层softmax normalisation layer 转换为多类概率multi-class probabilities。

3.3. Network Training

其中，R为训练批内的采样射线，分别为射线r的地面真实值、粗体积预测和细体积预测的RGB颜色。同样，分别是在地面真实图的第l类上的多类语义概率、rayr的粗体积预测和细体积预测。选择Ls作为多类交叉熵损失，以鼓励呈现的语义标签与提供的标签一致，无论这些是地面真实、噪声还是部分观察。因此，总训练损失L为：

其中λ为语义损失的权重，设置为0.04以平衡两个损失的大小[8]。在实践中，我们发现实际性能对λ值并不敏感，将λ设置为1也会得到类似的性能。这些光度和语义损失自然地鼓励网络从底层的联合表示中生成多视图一致的二维渲染。

3.4. Implementation

通过对每个场景的网络从头开始训练，获得特定场景的语义表示。我们使用类似于[16（NeRF）]的设置和超参数。具体来说，我们使用分层体积采样来联合优化粗网络和细网络，其中前者提供了重要性抽样偏差，以便后者可以将更多的样本分布到可能可见的位置。长度为10和4[32,30]的位置编码分别应用于三维位置和观看方向。此外，由于我们没有深度信息，我们在实验中将射线采样的边界分别设置为0.1m和10m，而没有对室内场景进行仔细调整

4. Experiments and Applications

通过对彩色图像和具有相关姿态的语义标签的训练，我们得到了一个特定于场景的隐式三维语义表示。我们通过将三维表示投影回二维图像空间来定量地评估它的有效性，在那里我们可以直接访问显式的地面真实数据。我们的目的是展示有效学习这种联合三维表示对语义标记和理解的好处和有前途的应用。我们强烈敦促读者在项目页面上检查更多的定性结果：https://shuaifengzhi.com/Semantic-NeRF/。

图3：在训练过程中，给出100%和10%的地面真实标签的测试姿态时的合成语义标签。从左到右，我们显示了地面真实的颜色和语义图像以供参考，并分别在100%和10%的监督下呈现了语义标签及其信息熵。熵图的明亮部分与相应训练设置中的物体边界或模糊/未知区域匹配良好。

图5：语义去噪的定性结果。即使当90%的训练标签都是随机损坏的，我们也可以恢复一个精确的去噪语义映射。从左到右是有噪声的训练标签，训练后从相同姿势呈现的去噪标签，以及信息熵。我们在去噪任务中看到的整体高熵表明，有噪声的训练标签之间有很大的不一致性。

5. Conclusion and Future Work

我们已经证明，在特定的几何和外观隐式MLP模型中添加语义输出意味着当只有部分、噪声或低分辨率语义监督时，可以为场景生成完整和高分辨率的语义标签。这种方法在机器人技术或其他应用中有实际应用，在只有有限标签的新场景中是可能的。

未来研究的一个有趣的方向是交互式标签，持续训练网络要求新的标签，这将最能解决整个场景的语义模糊。

In-Place Scene Labelling and Understanding with Implicit Scene Representation相关推荐

如何实现场景切换的java_JavaFX + Scene Builder如何切换场景(JavaFX + Scene Builder how switch scene)...
问题我正在使用javafx和scenebuilder,并希望在eclipse中为自己创建一个名为"taskplanner"的本地应用程序. 我创建了一个新的舞台并设置了它场景( ...
java fx scene builder_JavaFX开发工具之JavaFX Scene Builder
JavaFX Scene Builder是Oracle推出的JavaFX的可视化开发工具.下面就介绍一下今天的主角. 打开后的样子整体可以分为三个区域:左边部分.中间部分.右边部分.(这不废话吗) ...
Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation ----论文翻译
具有自适应文本区域表示的任意形状场景文本检测论文地址:https://arxiv.org/abs/1905.05980 论文解读:https://blog.csdn.net/m0_38007695/ ...
ICCV 2021 结果出炉！最全论文下载及分类汇总（更新中）
在本文中,我们对ICCV2021的最新论文进行了分类汇总,按研究方向整理.包含目标检测.图像分割.目标跟踪.医学影像.3D.模型压缩.图像处理.姿态估计.文本检测等多个方向,同时,我们将对优秀论文解读 ...
ICCV 2021 最新200篇ICCV2021论文分方向汇总
ICCV 2021 结果出炉!最新200篇ICCV2021论文分方向汇总(更新中) - 知乎不久前,计算机视觉三大顶会之一ICCV2021接收结果已经公布,本次ICCV共计 6236 篇有效提交论文 ...
ICCV2021 Oral 论文及论文实现代码合集
ICCV2021共接收有效投稿6236篇论文,其中1617 篇论文被接受,接收率为 25.9%.AMienr根据会议论文情况,已经上线了ICCV2021会议系统,将从论文.学者.论文解读和视频等多维度 ...
nerfstudio介绍及在windows上的配置、使用
nerfstudio提供了一个简单的API,可以简化创建.训练和可视化NeRF的端到端过程.该库通过模块化每个组件来支持可解释的NeRF实现.nerfstudio源码地址: https://githu ...
辐射神经场算法——Wild-NeRF / Mipi-NeRF / BARF / NSVF / Semantic-NeRF / DSNeRF
辐射神经场算法--NeRF++ / Wild-NeRF / Mipi-NeRF / BARF / NSVF / Semantic-NeRF 辐射神经场算法--NeRF++ / Wild-NeRF / ...
关于scene understanding场景理解概念的理解
Scene understanding 场景理解感觉定义并不是十分明确,找了几个供参考. LSUN Challenge 大规模场景理解比赛 INTRODUCTION The PASCAL VOC an ...
[VQA文献阅读] FloodNet: A High Resolution Aerial Imagery Dataset for Post Flood Scene Understanding
背景文章题目:<FloodNet: A High Resolution Aerial Imagery Dataset for Post Flood Scene Understanding> ...

In-Place Scene Labelling and Understanding with Implicit Scene Representation