作者丨郭浩宇@知乎

来源丨https://zhuanlan.zhihu.com/p/521725566

编辑丨3D视觉工坊

我们介绍一篇2022 CVPR Oral的三维场景重建论文:Neural 3D Scene Reconstruction with the Manhattan-world Assumption,该论文由浙江大学CAD&CG国家重点实验室/浙大-商汤三维视觉联合实验室提出。

  • 论文链接:https://arxiv.org/abs/2205.02836

  • 论文代码:https://github.com/zju3dv/manhattan_sdf

  • Project page:https://zju3dv.github.io/manhattan_sdf/

1. 引言

1.1 论文的问题描述

输入在室内场景采集的图像序列,论文希望能生成该室内场景的三维模型。该问题有许多应用,例如虚拟与增强现实、机器人等。

1.2 当前方法在这个问题的局限性

传统方法一般通过MVS(Multi-View Stereo) [1,2] 做场景重建,首先根据多视角匹配来估计每个视角的深度图,然后将每个视角的深度在三维空间中做融合。这类方法最大的问题在于难以处理弱纹理区域、非朗伯表面,原因是这些区域难以做匹配,从而导致重建不完整。

Multi-view Stereo via Depth Map Fusion: A Coordinate Decent Optimization Method

最近,有方法提出基于隐式神经表示做三维重建。NeRF [3] 通过可微分的体积渲染技术从图像中学习隐式辐射场。NeRF可以实现有真实感的视角合成,但是几何重建结果噪音很严重,主要是因为缺乏表面约束。NeuS [4] 和 VolSDF [5] 使用有SDF(向距离场)建模场景的几何,并实现了基于SDF的体积渲染,可以得到相比于NeRF更加平滑的几何重建结果。此类方法都是基于光度一致性原理,因而难以处理弱纹理区域,在室内场景的重建质量很差。

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

1.3 我们的观察和对问题的解决

为了克服室内场景重建在弱纹理平面区域的歧义性,我们在优化过程中基于曼哈顿假设采取了相应的几何约束。曼哈顿假设是一个被广泛使用的室内场景假设,即室内场景的地面、墙面、天花板通常被对齐在三个互相垂直的主方向,基于此我们对地面、墙面区域设计了对应的几何约束。

自动驾驶中深度学习课程视频:自动驾驶中的深度学习模型部署实战

曼哈顿假设示意图

2. 论文方法

2.1 方法概述

论文使用神经隐式表示建模场景的几何、外观和语义,并从多视角图像优化该表示。具体步骤为:

  1. 使用可微分体积渲染技术,根据输入图像优化几何、外观。

  2. 预测墙面、地面的语义分割,并基于曼哈顿假设对这些区域采用相应的几何约束。

  3. 为了提升对语义分割不准确性的鲁棒性,我们提出联合优化策略来同时优化几何和语义,从而实现更高质量的重建结果。

2.2 基于SDF的体积渲染

2.3 几何约束

我们首先使用DeepLabV3+ [6] 在图像空间分割地面、墙面区域。对于地面区域的每个像素,我们首先做体积渲染得到对应的表面点,通过计算有向距离场在该处的梯度得到法向方向,设计损失函数约束其法向竖直向上:

2.4 联合优化

几何约束在语义分割准确的区域可以起到很好的效果,但网络预测的语义分割在部分区域可能是不准确的,这会影响重建结果。如下图所示,由于语义分割不准确,导致加上几何约束之后重建结果变得更加糟糕。

为了克服这个问题,我们在3D空间中学习语义场。我们使用体积渲染技术将语义渲染到图像空间,并通过softmax归一化得到每个像素属于地面、墙面区域的概率,我们利用这个概率来加权几何约束:

同时,为了避免trivial solution(属于地面、墙面的概率被降为0),我们同时也用2D语义分割网络的预测计算交叉熵作为监督

3. 实验分析

3.1 Ablation studies

通过定性、定量的实验结果,我们发现使用体积约束能够提升在平面区域的重建效果,但也会由于语义分割的不准确性导致一些非平面区域的重建变差,通过使用我们提出的联合优化策略,可以全面地提升重建结果。

3.2 与SOTA方法的对比

我们在ScanNet和7-Scenes数据集上进行了和之前MVS方法、基于volume rendering的方法的对比,数值结果大幅领先于之前的方法。

4. 参考文献

[1] Pixelwise view selection for unstructured multi-view stereo. In ECCV, 2016.

[2] Multi-view stereo via depth map fusion: A coordinate decent optimization method. Neurocomputing, 2016.

[3] Nerf: Representing scenes as neural radiance fields for view synthesis. In ECCV, 2020.

[4] NeuS: Learning Neural Implicit Surfaces by Volume Rendering for Multi-view Reconstruction. In NeurIPS, 2021.

[5] Volume Rendering of Neural Implicit Surfaces. In NeurIPS, 2021.

[6] Encoder-decoder with atrous separable convolution for semantic image segmentation. In ECCV, 2018.

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

Manhattan-SDF:多视角图像三维重建方法(CVPR 2022)相关推荐

  1. 医疗图像三维重建方法小结(python+VTK+ITK+Mayavi)

    医疗图像三维重建forpython 环境简介 方法 方法一 Poly3DCollection+matplotlib 方法二 VTK+ITK 方法三 Mayavi之contour3d 最终方法Mayav ...

  2. opencv sgbm 三维重建_图像三维重建方法综述

    文章转自:http://blog.csdn.net/zhubaohua_bupt/article/details/74172831 利用相机进行三维重建已经不是一个新鲜的话题,重建的三维环境用途很广泛 ...

  3. 图像三维重建方法综述

    文章转自:http://blog.csdn.net/zhubaohua_bupt/article/details/74172831 利用相机进行三维重建已经不是一个新鲜的话题,重建的三维环境用途很广泛 ...

  4. 3D物体分类---ModelNet .OFF格式生成多视角图像(Blender方法之第二步)

    3D物体分类---ModelNet .OFF格式生成多视角图像(Blender方法之第二步) 强烈建议使用Blender方法!!! 说明 2 python调用Blender生成多视角图像 2.1 Bl ...

  5. 最新综述:深度学习图像三维重建最新方法及未来趋势

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 今天分享的是:深度学习领域基于图像的三维物体重建最新方法及未来趋势 ...

  6. 【深度学习】CVPR 2022 | 百变发型!中科大/微软/港城大提出HairCLIP:基于文本和参考图像的头发编辑方法...

    图1 本方法单独地或联立地支持来自图像和文本域的条件输入以完成头发编辑 本文介绍我们在CVPR 2022关于基于文本和参考图像完成头发编辑的工作.该工作将文本和参考图像条件统一在了一个框架内,在单个模 ...

  7. CVPR 2022 | 百变发型!中科大/微软/港城大提出HairCLIP:基于文本和参考图像的头发编辑方法...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 图1 本方法单独地或联立地支持来自图像和文本域的条件输入以完成头发编辑 本文介绍我们在CVPR 2022关于 ...

  8. CVPR 2019 论文解读 | 基于多级神经纹理迁移的图像超分辨方法 (Adobe Research)

    基于多级神经纹理迁移的图像超分辨方法 超分辨(Super-Resolution)图像恢复旨在从低分辨模糊图像中恢复出高分辨的清晰图像,是计算机视觉中的一个重要任务,在工业界有非常强的应用前景.CVPR ...

  9. 3D物体分类---ModelNet .OFF格式生成多视角图像(Blender方法之第一步)

    3D物体分类---ModelNet .OFF格式生成多视角图像(Blender方法之第一步) 强烈建议使用Blender方法!!! 说明 1. ModelNet .OFF格式生成多视角图像方法(Ble ...

最新文章

  1. Nature | 有机合成的数字化
  2. 华为手机业务网络推广外包持续受限,在当前市场下还能做些什么?
  3. 解放你内心的自然领袖,从你的内心而非你的自我来领导你自己
  4. 忘记mysq rootl密码
  5. python numpy数组转换成列表方法 object.tolist()函数
  6. charles 代理手机连不上网_Charles设置代理后,手机无法上网
  7. Java 8 并发: 原子变量和 ConcurrentMap
  8. 聊聊storm nimbus的LeaderElector
  9. H5唤醒app,不完全兼容
  10. MYSQL出错代码列表大全(中文)
  11. Vue实战:音乐播放器(一) 页面效果
  12. aws ubuntu php mysql_ubuntu16搭建php7+phpredis拓展+nginx+mysql脚本(aws)
  13. 阶段3 2.Spring_10.Spring中事务控制_11 spring5新特性的介绍
  14. java 拦截器的作用?
  15. ykhmi是什么触摸屏软件_YKHMI 中达优控7寸一体机兼容台达ES2
  16. IDEA中单词拼写错误
  17. 逻辑学在计算机科学的应用,逻辑学在计算机科学中的应用
  18. 疑问词+不定式(短语)
  19. Pymol中如何显示stick+cartoon+surface
  20. 经典算法题型(二):二维数组(平面地图)的递归操作

热门文章

  1. 十万只极狐等您来领养,上海车展好活动不可错过
  2. python发送多人邮件_【Python3】 发送邮件给多人
  3. “过日子”得有职业精神
  4. Everything搜索知识
  5. Map循环遍历的五种方法记录
  6. mysql的values使用_MySQL的SQL语句 - 数据操作语句(16)- VALUES 语句
  7. Python中的异常处理
  8. android开发各种相关干货
  9. SQL注入-联合查询注入
  10. 帝国cms漏洞CMS7.5漏洞复现