Manhattan-SDF：多视角图像三维重建方法（CVPR 2022）

作者丨郭浩宇@知乎

来源丨https://zhuanlan.zhihu.com/p/521725566

编辑丨3D视觉工坊

我们介绍一篇2022 CVPR Oral的三维场景重建论文：Neural 3D Scene Reconstruction with the Manhattan-world Assumption，该论文由浙江大学CAD&CG国家重点实验室/浙大-商汤三维视觉联合实验室提出。

论文链接：https://arxiv.org/abs/2205.02836
论文代码：https://github.com/zju3dv/manhattan_sdf
Project page：https://zju3dv.github.io/manhattan_sdf/

1. 引言

1.1 论文的问题描述

输入在室内场景采集的图像序列，论文希望能生成该室内场景的三维模型。该问题有许多应用，例如虚拟与增强现实、机器人等。

1.2 当前方法在这个问题的局限性

传统方法一般通过MVS（Multi-View Stereo） [1,2] 做场景重建，首先根据多视角匹配来估计每个视角的深度图，然后将每个视角的深度在三维空间中做融合。这类方法最大的问题在于难以处理弱纹理区域、非朗伯表面，原因是这些区域难以做匹配，从而导致重建不完整。

Multi-view Stereo via Depth Map Fusion: A Coordinate Decent Optimization Method

最近，有方法提出基于隐式神经表示做三维重建。NeRF [3] 通过可微分的体积渲染技术从图像中学习隐式辐射场。NeRF可以实现有真实感的视角合成，但是几何重建结果噪音很严重，主要是因为缺乏表面约束。NeuS [4] 和 VolSDF [5] 使用有SDF（向距离场）建模场景的几何，并实现了基于SDF的体积渲染，可以得到相比于NeRF更加平滑的几何重建结果。此类方法都是基于光度一致性原理，因而难以处理弱纹理区域，在室内场景的重建质量很差。

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

1.3 我们的观察和对问题的解决

为了克服室内场景重建在弱纹理平面区域的歧义性，我们在优化过程中基于曼哈顿假设采取了相应的几何约束。曼哈顿假设是一个被广泛使用的室内场景假设，即室内场景的地面、墙面、天花板通常被对齐在三个互相垂直的主方向，基于此我们对地面、墙面区域设计了对应的几何约束。

自动驾驶中深度学习课程视频：自动驾驶中的深度学习模型部署实战

曼哈顿假设示意图

2. 论文方法

2.1 方法概述

论文使用神经隐式表示建模场景的几何、外观和语义，并从多视角图像优化该表示。具体步骤为：

使用可微分体积渲染技术，根据输入图像优化几何、外观。
预测墙面、地面的语义分割，并基于曼哈顿假设对这些区域采用相应的几何约束。
为了提升对语义分割不准确性的鲁棒性，我们提出联合优化策略来同时优化几何和语义，从而实现更高质量的重建结果。

2.2 基于SDF的体积渲染

2.3 几何约束

我们首先使用DeepLabV3+ [6] 在图像空间分割地面、墙面区域。对于地面区域的每个像素，我们首先做体积渲染得到对应的表面点，通过计算有向距离场在该处的梯度得到法向方向，设计损失函数约束其法向竖直向上：

2.4 联合优化

几何约束在语义分割准确的区域可以起到很好的效果，但网络预测的语义分割在部分区域可能是不准确的，这会影响重建结果。如下图所示，由于语义分割不准确，导致加上几何约束之后重建结果变得更加糟糕。

为了克服这个问题，我们在3D空间中学习语义场。我们使用体积渲染技术将语义渲染到图像空间，并通过softmax归一化得到每个像素属于地面、墙面区域的概率，我们利用这个概率来加权几何约束：

同时，为了避免trivial solution（属于地面、墙面的概率被降为0），我们同时也用2D语义分割网络的预测计算交叉熵作为监督

3. 实验分析

3.1 Ablation studies

通过定性、定量的实验结果，我们发现使用体积约束能够提升在平面区域的重建效果，但也会由于语义分割的不准确性导致一些非平面区域的重建变差，通过使用我们提出的联合优化策略，可以全面地提升重建结果。

3.2 与SOTA方法的对比

我们在ScanNet和7-Scenes数据集上进行了和之前MVS方法、基于volume rendering的方法的对比，数值结果大幅领先于之前的方法。

4. 参考文献

[1] Pixelwise view selection for unstructured multi-view stereo. In ECCV, 2016.

[2] Multi-view stereo via depth map fusion: A coordinate decent optimization method. Neurocomputing, 2016.

[3] Nerf: Representing scenes as neural radiance fields for view synthesis. In ECCV, 2020.

[4] NeuS: Learning Neural Implicit Surfaces by Volume Rendering for Multi-view Reconstruction. In NeurIPS, 2021.

[5] Volume Rendering of Neural Implicit Surfaces. In NeurIPS, 2021.

[6] Encoder-decoder with atrous separable convolution for semantic image segmentation. In ECCV, 2018.

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊精品课程官网：3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼）

13.重磅！四旋翼飞行器：算法与实战

14.ROS2从入门到精通：理论与实战

15.国内首个3D缺陷检测教程：理论、源码与实战

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~