Shape Completion using 3D-Encoder-Predictor CNNs and Shape Synthesis

Angela Dai Charles Ruizhongtai Qi Matthias Nießner
Stanford University


我们的方法使用3D编码器 - 预测器网络完成部分3D扫描,该网络利用来自3D分类网络的语义特征。预测与一个形状数据库相关,我们在多分辨率3D形状合成步骤中使用该形状数据库。 我们获得了完整的高分辨率网格,这些网格是从局部、低分辨率输入扫描中推断出来的。
摘要
我们引入了一种数据驱动方法,通过体积深度神经网络和3D形状合成的组合来完成部分3D形状。从部分扫描的输入形状,我们的方法首先推断出低分辨率但完整的输出。为此,我们引入了由3D卷积层组成的3D编码器-预测器网络(3D-EPN)。The network is trained to predict and fill in missing data, and operates on an implicit surface representation that encodes both known and unknown space.这使我们能够以高精度预测未知区域的全局结构。然后,我们在测试时将这些中间结果与形状数据库中的3D几何相关联。在最后一步中,我们提出了一种基于补丁的3D形状合成方法,该方法将来自这些检索到的形状的3D几何形状强加为粗糙完成的网格上的约束。该合成过程使我们能够在尊重由3D-EPN获得的全局网格结构的同时重建精细尺度细节并生成高分辨率输出。虽然我们的3D-EPN优于最先进的完成方法,但我们工作的主要贡献在于数据驱动的形状预测器和分析3D形状合成的结合。In our results, we show extensive evaluations on a newly-introduced shape completion benchmark for both real-world and synthetic data.

1.前言

自推出商用范围传感器(如Microsoft Kinect)以来,RGB-D扫描在离线和实时环境中都获得了巨大的发展势头[26,3,28,42,4,7]。虽然商品RGB-D传感器的最先进的重建结果在视觉上很吸引人,但它们在实际的计算机图形应用中远不可用,因为它们与高质量的艺术家建模的3D图形内容不匹配。在这种情况下最大的挑战之一是获得的3D扫描遭受遮挡,从而导致不完整的3D模型。 在实践中,确保在扫描会话中覆盖所有表面点是物理上不可行的,例如由于物理传感器限制(例如,在架子后扫描,或获得椅子模型的精细结构)。

即使将问题简化到隔离对象,问题仍然存在挑战。 传统方法可以通过平面拟合填充小孔,拉普拉斯孔填充[38,25,47]或泊松表面重建[14,15],完成高级结构,如椅腿或飞机机翼,用这些几何处理算法是不切实际的。一种可能的途径是基于机器学习的最新进展,这表明数据驱动的方法可能适合于这项任务。 例如,假设部分3D扫描,人们希望基于先前学习的先验来完成3D形状几何。

在本文中,我们探讨了直接应用深度学习作为预测部分扫描输入缺失结构的策略的可行性。 更具体地,我们提出了基于体积卷积神经网络(CNN)的3D编码器 - 预测器网络(3D-EPN)。 在这里,我们的目标是训练一个编码和概括几何结构的网络,并学习从部分扫描到完整形状的映射,两者都表示为隐式距离场函数。 3D-EPN的一个见解是它利用了分类网络的语义。 更具体地,我们使用3D-CNN的概率类向量作为3D-EPN的潜在空间的输入。 为了提供监督的训练数据,从虚拟扫描的3D CAD模型生成逼真的实况扫描模式。

在我们的结果中,我们表明3D-EPN可以成功地推断全球结构; 然而,预测局部几何细节仍然具有挑战性。 此外,增加输出分辨率会带来显着的计算成本,并且由于3D空间的立方体行为而使得训练过程的优化更加困难。 但是,我们认为如果可以将这些低分辨率预测与来自形状数据库的高分辨率3D几何信号相关联仅仅预测粗略可能就足够了。 作为第二个技术组件,我们通过搜索相似的形状来学习这种相关性,并且我们提供迭代优化策略以在形状合成过程中结合来自数据库的低级几何先验。

因此,我们提出了一种3D形状合成程序来获得局部几何细节。 于是,输出被合成为以比3D深度网络能有效处理的分辨率更高的分辨率。 我们首先了解3D-EPN的预测与数据库中的CAD模型之间的相关性。To this end, we utilize the feature learning capabilities of volumetric CNNs that provide an embedding where 3D-EPNs results are close to geometrically similar CAD models in the database. 我们将这种嵌入作为判别分类任务的副产品来学习。 在迭代优化过程中,我们然后合成来自3D-EPN预测的高分辨率输出和数据库先验。

总的来说,我们提出了一种端到端网格完成方法,即使在非常具有挑战性的情况下也能完成部分3D扫描。 我们在合成和现实世界的扫描数据上展示了这个非常具有挑战性的问题的令人信服的结果。 此外,我们在质量和数量上与最先进的方法进行比较。 我们将发布所有代码和数据以及公共形状完成基准。

总之,我们的贡献是

  • 3D编码器 - 预测器网络,在使用来自形状分类网络的语义上下文时完成部分扫描的3D模型。
  • 3D网格合成程序,以获得高分辨率输出和局部几何细节。
  • 结合这两个想法的端到端完成方法,第一步是运行3D卷积神经网络进行回归,第二步是3D形状合成的迭代优化。

2.之前的工作

Shape Completion
形状完成在几何处理中具有悠久的历史,并且通常用于清理损坏的3D CAD模型的上下文中。 特别是填充小孔受到了很多关注; 例如,one could fit in local surface primitives,例如平面或二次曲面,或者通过连续能量最小化来解决问题; 例如,拉普拉斯平滑[38,25,47]。 泊松表面重建可以看作是这一类的一部分[14,15]; 它定义了一个(可能是分层的)体素网格上的指标函数,该函数通过泊松方程求解。

完成形状的另一个方向是检测3D形状的结构和规则。 例如,许多作品检测网格或点云中的对称性,并使用它们填补缺失的数据[41,23,30,36,39]。 尽管这些方法显示出令人印象深刻的结果,但使用预定义的规则从根本上将形状空间限制为手工设计。

许多研究都利用了强大的数据库先验。 Sung等人[40]将这一想法与对称性检测相结​​合,并对从数据库中获得的基于部分的模型进行操作。另一个想法是在形状数据库中为给定的部分输入形状找到相同的CAD模型,并将其与扫描[24,33,16,21,35]对齐。鉴于几何特征匹配的进步,可以找到这些连接;然而,这些方法依赖于数据库包括相同(或至少非常相似)形状的假设;因此,它们不能容易地概括为新的形状。为了解决这个缺点,一种可能性是首先从数据库中检索相似的形状,然后修改检索结果,使它们更好地匹配和解释部分扫描的输入。这样,检索到的模型不必完全匹配,即使使用相对较小的数据库,也可以覆盖更广泛的对象。例如Pauly等人。 [29]首先从数据库中检索候选模型,然后执行非刚性网格对齐并将结果与​​输入扫描混合,从而完成3D扫描。相同的策略可以直接应用于范围图像。 Rock等人。 [32]检索相似的深度图像,它们变形以预测缺失的体素;作为最后一步,他们执行泊松表面重建获得所得到的网格。李等人。 [20]使用单个RGB-D图像作为输入并运行类似的管道,他们首先从数据库中找到并变形最近的模型。作为最后一步,他们执行形状合成步骤,这与我们的相似。虽然从数据库中非刚性变形模型的想法改善了形状覆盖,但主要限制仍然是全局结构不能容易地概括(例如,高级结构变化)。在我们的方法中,我们还依赖于测试时数据库查找的几何信号;然而,关键见解之一是我们只考虑这些信息来综合局部细节而不是全局结构。

为了推广到任意新形状,用现代机器学习技术训练的完全数据驱动方法是一个很有前景的方向。这个领域的第一个方法之一是Voxlets [9]。他们训练一个随机决定森林,预测未知的体素邻域;使用预测结果的加权平均值和运行行进立方体生成最终网格。 3D ShapeNets [2]可能与我们的3D编码器 - 预测器网络最相关。他们还使用卷积神经网络 - 特别是深度相信网络 - 来获得给定形状数据库的生成模型。这允许他们预测以部分输入为条件的多个解决方案;然而,正如我们在结果中所证明的那样,这种策略的效率明显低于直接训练端到端预测器,就像我们的3D-EPN那样。 Nguyen等。 [27]以此工作为基础并将其应用于修复网格;他们使用3D ShapeNets的输入并计算它们应用马尔可夫随机场的距离变换。

Related Deep Learning Works
随着过去几年机器学习的进步和3D形状数据库的可用性[45,2],研究开始研究3D数据的深度学习方法。 吴等人。 [45]是第一批提出将3D-CNN用于分类和生成任务的人之一(见上文)。 他们在深度置信网络中使用体积表示,并在自己的数据库中进行训练; 虽然训练是3D的,但他们的大部分输入来自单一范围的图像。 从那以后,为了提高分类精度[22,31,34],获得对象建议[37]或匹配局部3D几何[46],我们提出了不同版本的3D-CNN架构。 在这项工作中,我们利用3D深度学习的进步,并为形状完成任务应用3D完全卷积网络。 虽然以前的工作更多地关注形状分类的判别性任务,但我们的网络以部分扫描输入为条件来回归丢失的数据。

最近,深度学习也探索了生成任务的模型; 例如,使用生成对抗网络(GAN)[10,19,18,44]。 这里,仅通过将随机的潜在矢量作为输入从头开始生成图像(或可能是3D形状)。 这是相关且非常有趣的方向(特别是对于建模应用程序); 然而,众所周知,目前的生成模型面临分辨率限制,并且通常很难训练。 在我们的工作中,我们采用更直接的方法来训练完全卷积网络,以使用后续形状合成模块直接预测形状的缺失部分。

3.方法概述

我们的方法的目标是将对象的部分3D扫描作为输入,并将完成的3D形状预测为输出。 为了完成这项任务,我们在3D体素网格中表示每个模型。 我们不是仅使用占用网格,而是计算所有测试和训练数据的距离变换。 为了生成地面真实列对,我们虚拟扫描ShapeNet数据集[2]中的对象进行输入,我们使用3D数字微分分析仪[1]来获得完整的距离场; 见第二节4。

一旦我们生成了训练集,我们就将训练对提供给深度神经网络,该神经网络直接对3D表示进行操作;所有卷积滤波器组都是三维的。网络松散地遵循自动编码器的想法,类似于Dosovitskiy [8];但是,在我们的例子中,我们过滤了一个体积表示,我们还在其上定义了损失函数;见第二节5.与重建原始输入并学习有效编码的传统自动编码器网络不同,我们的目标是从部分输入扫描中填充缺失数据。在我们的例子中,网络在训练时学习部分模型和完整模型的相关性,在测试时,在已知表面或自由空间信息给出约束的情况下,对完成的模型进行回归。在较高的层面上,目标是将所有部分扫描映射到共享的嵌入空间,我们将其与完整模型相关联。我们设计培训过程,以便我们学习这种映射,以及从中进行重建,即使在很大程度上缺少数据的情况下也是如此。这里,主要目标是在尊重已知数据点的约束的同时从潜在空间重建完整网格的能力。

这个过程的主要挑战是通过推广几何结构来生成新信息 - 即从看不见的视图中填充缺失的数据。 网络需要编码3D模型设计的一般规则,并在不同的形状实例中进行推广。 为此,我们在奥德的形状分类网络的输入下训练网络,以尊重和利用形状几何的语义信息。 具体地,我们将3D-CNN分类输出的概率类向量输入到3D-EPN的潜在空间中。 3D形状完成的另一个重要挑战是高维度; 这里的一个见解是我们在占用网格上使用(大部分)连续距离场表示; 这使我们能够为这项特定任务制定一个非常合适的损失函数。

由于使用深度网络回归高维输出对于高分辨率(特别是在3D空间中)具有挑战性,我们期望3D-EPN以相对低的体素分辨率(例如, 323 32 3
体素体积)操作。虽然它缺乏精细的几何细节,但它有助于预测部分扫描物体(例如,椅子腿,飞机机翼等)的(缺失的)全局结构。在测试时,我们使用ShapeNet数据库[2]作为强大的几何先验,我们检索高分辨率几何,尊重先前获得的预测的高级结构。我们通过学习具有体积特征的几何查找来建立低分辨率3D-EPN输出和数据库几何之间的相关性。在这里,我们利用Qi等人的修改版本的体积卷积网络的特征学习。 [31]其学习特征是监督分类网络的副产品。对于给定的3D-EPN预测,我们然后运行3D特征提取并查找数据库中最接近几何结构的三个最接近的形状邻居。

5.

我们的网络在图1中可视化。它是一个由两部分组成的完全卷积网络。第一部分是3D编码器,它压缩输入的部分扫描。然后将压缩流与3D-CNN形状分类器的语义类预测连接成隐藏空间体积;输入部分扫描通过一系列3D卷积层压缩,然后是两个完全连接的层,它们将扫描及其语义信息嵌入潜在空间。该编码器有助于网络汇总输入扫描的全局上下文 - 观察到的距离值,已知的空白空间和类预测。第二部分是预测器网络,它使用3D向上卷积将隐藏的体积增长为估计距离场值的323全尺寸输出。基于编码器网络汇总的全局上下文,预测器网络能够推断缺失值。我们对网络中的所有层(除了最后一层)使用ReLU和批量规范化。我们使用掩蔽的L1损失来计算地面真实距离场和预测距离场的差异。仅计算未知区域中的错误;已知的已占用和已知的空体素被屏蔽并强制执行以匹配输入。我们使用ADAM优化器[17],学习率为0.001,动量为0.9。学习率每20个时期减半。我们共有153,540个培训样本,需要。 26小时训练模型到收敛(这相当于100个时期)。

Shape Completion using 3D-Encoder-Predictor CNNs and Shape Synthesis论文翻译及理解相关推荐

  1. 3D Talking Face with Personalized Pose Dynamics 论文翻译

    链接 论文: https://personal.utdallas.edu/~xxg061000/TVCG2021.pdf 相关视频: https://www.youtube.com/watch?v=K ...

  2. Learning 3D Shape Completion from Laser Scan Data with Weak Supervision

    摘要 来自局部点云的3D形状完成是计算机视觉和计算机图形学中的一个基本问题. 最近的方法可能被描述为基于数据驱动或基于学习的方法. 数据驱动的方法依赖于形状模型,其参数已针对观察进行了优化. 相比之下 ...

  3. (点云补全任务)GAN逆映射:Unsupervised 3D Shape Completion through GAN Inversion

    (点云补全任务)GAN逆映射:Unsupervised 3D Shape Completion through GAN Inversion 简介 论文 abstract 1. introduction ...

  4. Deformable Shape Completion with Graph Convolutional Autoencoders

    摘要 负担得起的便携式深度传感器的可用性使扫描物体和人员比以往任何时候都更加简单. 但是,处理遮挡和缺失部分仍然是一个重大挑战. 近年来,从单个或多个部分扫描重建3D对象(可能非刚性移动)的问题日益受 ...

  5. SCAPE: shape completion and animation of people

    说明 这不是论文翻译!!! 只是为了能够更好,更简单的理解这篇论文,我用自己的话简单介绍了一下SCAPE的主要思想和算法 Abstract SCAPE -- a data driving method ...

  6. 3D Human Body Reshaping with Anthropometric Modeling 阅读翻译

    3D Human Body Reshaping with Anthropometric Modeling 阅读翻译 最近着手做3D人体编辑相关内容,先从文章开始学习 一下文章github地址:http ...

  7. 【论文翻译】VIBE 基于视频的人体3D形状和姿态估计

    目录 摘要 1.介绍 2.相关工作 单个图像的3D姿势和形状 视频中的3D姿势和形状 用于序列建模的GANs 3.方法 3.1 时间编码器(Temporal Encoder) 3.2 运动判别器(Mo ...

  8. 3D人体姿态估计(介绍及论文归纳)

    推荐镜子大佬的知乎 2D 多人姿态估计论文汇总.分类与简介 2D多人姿态估计指南:热图回归与坐标回归流程指南 openmmlab微信公众号里的3DHPE综述 opemmlab框架下的MMPose库,有 ...

  9. 3D ShapeNets: A Deep Representation for Volumetric Shapes翻译

    3D ShapeNets:体积形状的深度表示 摘要   在当今的计算机视觉系统中,3D 形状是一个关键但未充分利用的线索,主要是由于缺乏良好的通用形状表示.随着最近廉价 2.5D 深度传感器(例如 M ...

最新文章

  1. Ubuntu 使用国内apt源
  2. 嗯...开始学java
  3. 如何替换SAP Spartacus启动Component -app-root
  4. 计算机国际安全顶级会议
  5. CF803G-Periodic RMQ Problem【离散化,线段树,ST表】
  6. 硬件基础 —— 光耦
  7. 暑期训练日志----2018.8.17
  8. ajax原生为什么else会执行2次,关于Ajax,明明传过去的值是1,可不知道为什么就是else起作用?...
  9. 【Flink】RuntimeException: Row arity of from does not match serializers
  10. 腾讯前端面试经验(一)
  11. CAD地形图!DWG格式的等高线地形图下载教程
  12. 在智能制造背景下,传统工厂何去何从?
  13. Python-Flask开发微电影网站(二)
  14. android framework 引入jia包
  15. [Windows实用软件推荐:1]本地搜索工具Everything
  16. buck dcm占空比计算_如何计算BOOST转换器的占空比
  17. 下载360图片(一)
  18. 软件测试理论、方法、流程及规范
  19. PHP表单TOKEN防止重复提交
  20. 【论文泛读121】边际效用递减:探索BERT知识蒸馏的最小知识

热门文章

  1. 英飞凌 AURIX 系列单片机的HSM详解(4)——Tricore核与HSM核之间的通信方法
  2. 思维模型 波特五力模型
  3. 《高原之旅》之一《回望青海湖》1梦幻西行
  4. 第六章Android绘图机制与处理技巧(Android群英传)
  5. 服务器自带程序如何备份,如何从windows自带的备份工具在另一台服务器上还原文件?...
  6. 【VUE】基础用法(属性与事件的绑定,条件渲染等)
  7. mathtype输入latex的花体,如L,I,O等
  8. 互融云供应链代采金融系统:优化企业运作、有效控制成本
  9. 用Gradle脚本管理Manifest文件
  10. 使用Blackdex脱壳记录