MonoPort翻译解读 ECCV2020

代码链接：https://github.com/Project-Splinter/MonoPort
论文链接：https://project-splinter.github.io/monoport/

单目实时体积性能捕获

摘要

我们提出了一种从单目视频中以实时速度进行体积性能捕获和新颖视图绘制的方法，消除了对昂贵的多视图系统或繁琐的个性化模板模型预采集的需要。我们的系统利用像素对齐隐式函数(PIFu)从每一帧重建一个完全纹理的3D人。虽然PIFu以一种内存效率高的方式实现了高分辨率重构，但其昂贵的计算推理阻止了我们将这样的系统部署到实时应用程序中。为此，我们提出了一种新的分层曲面定位算法和一种不显式提取曲面网格的直接绘制方法。通过从粗到细的方式剔除不必要的区域进行评估，我们成功地在 不影响质量的前提下，将重建速度从基线提高了两个数量级。此外，我们还介绍了一种在线硬实例挖掘(OHEM)技术，该技术可以有效抑制由于很少出现挑战性实例而导致的失效模式。我们根据当前的重构精度自适应地更新训练数据的采样概率，有效地缓解了重构伪影。我们的实验和评估证明了我们的系统对各种具有挑战性的角度、照明、姿势和服装风格的稳健性。我们还表明，我们的方法优于最先进的单目性能捕获。我们提出的方法消除了对多视图工作室设置的需求，并支持用户可访问的体积捕获解决方案。

1、介绍

尽管最近虚拟现实和增强现实技术以及3D显示技术取得了进步，但使用单个摄像头的视频会议仍然是最常见的远距离面对面交流方式，这使得互动更具沉浸感和吸引力。原因很简单：方便。尽管该技术的存在是为了获得可以从任意视点渲染的特定外观的高保真数字表示，但 现有的捕获和流式传输该数据的方法 [7,10,16,53,69]需要繁琐的捕获技术，例如大量校准的相机或深度传感器，以及安装和部署这些系统的专家知识。另一方面，视频会议只需要一台摄像机，比如笔记本电脑和智能手机等普通消费设备上的摄像机。因此，如果我们能够从一台消费级摄像机中捕捉到一个人独特的外表和动作的完整模型，我们就可以弥补这一差距，防止新手用户在虚拟环境中进行沉浸式交流。

然而，由于深度模糊、拓扑变化和严重的遮挡，成功地从一个单一的视角重建一个人的几何和纹理都带来了巨大的挑战。为了应对这些挑战，使用 高容量深度神经网络的数据驱动方法 已经被应用，在人类建模的保真度和鲁棒性方面取得了重大进展[47,61,71,86]。特别是，像素对齐隐式函数(PIFu)[61]以极高的分辨率实现了穿戴人体的全纹理重建，这是基于体素的方法无法实现的。另一方面，PIFu的主要限制是后续的重建过程对于实时应用来说不够快:给定一个输入图像，PIFu密集地评估三维占位场，使用Marching Cubes算法[41]从占位场中提取出衬底表面几何形状。在表面网格重建后，以类似的方式推断出表面上的纹理。最后，对任意视点的彩色网格进行渲染。当使用256³分辨率时，每个对象的整个过程需要几十秒。我们的 目标是在实时应用中以高效率的重建和渲染速度实现这样的保真度和鲁棒性。

为此，我们提出了一种新的表面重建算法，以及 一种不需要提取表面网格进行绘制的直接绘制方法。新引入的曲面定位算法以从粗到细的方式逐步查询三维位置，以更少的待评估点构建三维占位场。我们的经验证明，我们的算法 保持了原始重建的准确性，同时比暴力基线速度快两个数量级。此外，结合所提出的表面重建算法，我们的隐式纹理表示可以实现直接的新视图合成，无需几何镶嵌或纹理映射，从而减少了绘制所需的时间。因此，我们在256³空间分辨率下实现了15帧/秒的处理时间来捕获体积性能。

此外，我们对[61]的训练方法进行了关键的改进，进一步提高了重建的质量和效率。为了抑制由于观看角度、姿态和服装风格等数据分布不平衡而在训练过程中很少发生的失败案例，我们 引入了一种受在线硬例子挖掘(OHEM)方法启发的自适应数据采样算法[64]。我们基于当前的预测精度增量地更新抽样概率，以更频繁地使用难样本进行训练，而无需手动选择这些样本。我们发现这种自动采样方法在减少伪影方面非常有效，达到了最先进的精度。

我们的主要贡献是:

第 一种从无需模板的单目视频实时捕获全身性能的方法。从一幅图像出发，我们的方法在各种姿势和服装类型下重建一个完全纹理的人，而不受拓扑约束。
一种渐进的表面定位算法，在不影响重建精度的情况下，使表面重建比基线速度快两个数量级，从而 实现了比基于八叉树的替代方案在速度和精度之间更好的权衡。
一种不显式提取表面网格的新视图合成的直接绘制技术，进一步提高了整体性能。
一种有效的训练技术，解决综合生成的训练数据的基本不平衡。我们的在线硬例子挖掘方法显著地减少了重构工件，提高了我们方法的泛化能力。

2、近期工作

体积性能捕获技术： 体积性能捕获技术已广泛用于获取自由视点视频[28]或高保真几何体重建[73]的人体性能。为了获得具有任意拓扑结构的下划线几何体，性能捕获系统通常使用一般线索，如轮廓[7,43,67,74]、多视图对应[13,28]和反射信息[73]。虽然这些方法成功地重建了具有任意拓扑结构的几何体，但它们需要大量具有精确校准和受控照明的摄像机。另一种方法是 利用商品深度传感器直接获取3D几何体。体积融合方法用于联合优化三维相对位置和三维几何结构，使用单个深度传感器从捕获序列实时增量更新[23,49]。后来，这种增量几何体更新扩展到非刚性变形对象[22,48]和具有反射率的联合优化[17]。虽然这些方法不需要特定于模板或类别的先验知识，但它们只支持相对较慢的运动。结合深度传感器的多视图系统显著提高了重建的保真度[7,10,53]，硬件和软件的改进进一步促进了高保真体积性能捕获的趋势[16,33]。然而，硬件需求使得为非专业用户部署这些系统具有挑战性。

基于模板的性能捕获： 为了放松传统体积性能捕获的限制，一种常见的方法是使用模板模型作为额外的先验知识。早期的工作使用预计算的模板模型来减少视点数量[8,75]，并提高重建质量[72]。模板模型还用于从RGBD输入中捕获性能[79,83]。然而，这些系统仍然依赖于来自多个视点的条件良好的输入。除了个性化模板模型之外，诸如SCAPE[2]或SMPL[40]等铰接变形模型也广泛用于从视频输入[15]、单个图像[4,34]或RGBD输入[80,85]恢复人体姿势和形状。最近，与手[59]和脸[5,36]相对应的组件被合并到身体模型中，以从多视图输入[27]中执行更全面的性能捕获，随后也扩展到单目输入[55,76]。虽然使用参数化模型可以大大缓解单目性能捕捉的不适定性，但缺少个性化细节（如服装和发型）会严重损害捕捉性能的真实性。最近，Xu等人[77]证明，通过结合推断出的稀疏2D和3D关键点，可以从单目RGB视频中跟踪铰接式个性化化身[44]。与我们的方法最相关的工作是==[18]== ，这是[77]的实时扩展，通过自适应非刚性更新，重建保真度也得到了提高。与上述基于模板的方法不同，我们的方法能够在不进行任何预处理的情况下表示输入图像中存在的个性化细节，因为我们的方法是基于无模板的体积表示，支持拓扑更新和瞬间改变对象。

基于人体建模的深度学习： 为了从无约束的图像中推断出精细的3D形状和外观，设计手工制作的特征非常重要，我们需要一种高容量的机器学习算法。深度学习的出现显示出了希望，因为它不再需要手工制作的功能，并且在野外人类建模任务中表现出开创性的性能[1,29,44]。完全卷积神经网络已用于从单个图像推断3D骨骼关节[44、56、58]，该图像用作单目性能捕获系统的构建块[18、77]。对于从单个图像进行全身重建，已经探索了各种数据表示，包括网格[29,32]、密集对应[1]、体素[24,71,86]、轮廓[47]和隐式曲面[21,61,62]。值得注意的是，通过消除空间离散化，使用隐式形状表示的深度学习方法已经证明了更为详细的重构[6,45,54]。Saito等人[61]通过将完全卷积图像特征与隐式函数相结合，进一步提高了重建的保真度，并证明这些隐式场表示可以扩展到连续纹理场，从而实现有效的3D纹理修复，而无需依赖预计算的2D参数化。然而，这些隐式表示的主要缺点是，由于在三维空间中对网络进行密集评估，因此推理非常耗时，这妨碍了其用于实时应用。尽管我们的3D表示基于[61]以实现高保真度和内存高效的3D重建，但我们新颖的曲面推理和渲染算法显著加快了隐式曲面的重建和可视化。

3、方法

在本节中，我们描述了实时体积捕获算法的总体流程（图2）。给定RGB图像的实时流，我们的目标是实时获得表演对象的完整3D几何图形，包括完整的纹理表面，包括看不见的区域。为了以最低的要求实现可访问的解决方案，我们独立处理每个帧，因为基于跟踪的解决方案容易累积错误并对初始化敏感，从而导致漂移和不稳定[49,88]。尽管最近的方法已经证明使用锚框架[3,10]可以缓解漂移，但仍需要特殊工程来处理常见但极具挑战性的场景，如改变主题。

对于每一帧，我们首先从背景中对对象进行实时分割。然后将分割后的图像输入到增强的像素对齐隐式函数（PIFu）[61]中，以预测连续占用场，其中下垫面定义为0.5级集。一旦确定曲面，还将使用PIFu对曲面几何体执行纹理推断，从而允许从任何视点渲染各种应用。由于这种具有有效三维形状表示的深度学习框架是拟议系统的核心构建块，我们将在第6.2节中对其进行审查。描述我们对它的增强，并指出它在表面推断和渲染速度方面的限制。在我们系统的核心，我们开发了一个新的加速框架，可以使用PIFu从新的视点进行实时推理和渲染（第3.2节）。此外，我们还通过动态采样硬示例，以在线硬示例挖掘[64]（第3.3节）的方式有效抑制故障模式，进一步提高了系统的鲁棒性。

3.1 像素对齐隐式函数（PIFu）

在体积捕获中，三维几何体表示为连续标量场的水平集曲面。也就是说，给定一个输入帧i，我们需要确定3D空间中的一个点是在人体内部还是外部。虽然这可以使用体素直接回归，其中目标空间被显式离散化[24,71]，但像素对齐隐式函数（PIFu）建模了一个函数O§，该函数查询任何3D点，并预测归一化设备坐标中的二进制占用字段。值得注意的是，这种方法不需要离散化来推断3D形状，从而允许以任意分辨率进行重建。

PIFu首先通过可微采样函数Φ(P_xy，g_O(I))从全卷积图像编码器g_O(I)中提取图像特征（在[61]之后，我们对Φ使用双线性采样函数[25]）。给定采样图像特征，由另一个神经网络参数化的函数估计查询点P的占用率如下：

PIFu[61]对g_O使用完全卷积架构，以获得与查询的3D点空间对齐的图像特征，并对函数f_O使用多层感知器（MLP），以端到端的方式联合训练。除了高分辨率重建的内存效率外，这种表示方式还特别有利于体积性能捕获，因为空间对齐的图像功能确保3D重建保留输入图像中存在的细节，例如皱纹、发型和各种服装样式。我们使用二进制交叉熵（BCE）损失来学习占用字段，而不是[61]中的L2损失。由于BCE对误报和误报的惩罚比L2损失更为严厉，因此使用BCE时，我们可以获得更快的收敛速度。此外，通过预测向量场而不是占用场，相同的框架可应用于纹理推断，如下所示：

在给定曲面点P的情况下，隐式函数T预测RGB颜色C。这种表示法的优点是，可以对任何曲面几何体（包括遮挡区域）执行纹理推断，而无需共享2D参数化[35,78]。我们使用采样点颜色的L1损失。

此外，我们对[61]的原始实现进行了一些修改，以进一步提高准确性和效率。对于形状推断，我们使用HRNetV2-W18-Small-v2[68]作为主干，而不是堆叠沙漏[50]，这证明了在计算和参数较少的情况下具有更高的精度。我们还使用条件批量归一化[9,11,45]对采样图像特征进行MLP条件化，而不是将这些特征串联到查询的深度值，这在不增加计算开销的情况下进一步提高了精度。此外，受顺序深度回归方法[12]的启发，我们发现将深度Pz表示为软热向量更有效地传播深度信息，从而加快收敛速度。对于纹理推断，我们从重建中检测可见表面，并直接使用相应像素的颜色，因为这些区域不需要任何推断，进一步提高了自由视点渲染的真实感。我们在附录中提供了额外的消融研究，以验证我们的设计选择。

人类重建推理： 在[61]中，整个数字化管道从3D中密集评估占用区域开始，使用移动立方体从中提取表面网格[41]。然后，将纹理推理模块应用于曲面网格上的顶点，以获得完全纹理的网格。虽然隐式形状表示允许我们以任意分辨率重建三维形状，但整个三维空间中的计算速度非常慢，处理单个帧需要数十秒。因此，加速至少两个数量级对于实时性能至关重要。

3.2 实时推理和渲染

为了减少实时性能捕获所需的计算量，我们引入了两种新的加速技术。首先，我们提出了一种高效的曲面定位算法，该算法与基于朴素八叉树的重建算法具有相同的复杂度，同时保持了蛮力重建的精度。此外，由于我们的最终输出是来自新视点的渲染，我们通过直接从PIFu生成新的视图渲染来绕过显式网格重建阶段。通过结合这两种算法，我们可以成功地从任意视点实时呈现性能。我们将在下面详细描述每个算法。

基于八叉树的鲁棒曲面定位： 管道的主要瓶颈是在过多的3D位置计算由MLP表示的隐式函数。因此，大幅减少要评估的点数将大大提高性能。八叉树是一种用于高效形状重建的常用数据表示[87]，它从层次上减少了存储数据的节点数量。为了将八叉树应用于由神经网络参数化的隐式曲面，最近[45]提出了一种算法，该算法在对预测占用值进行二值化后，仅当网格靠近边界节点（即内部节点和外部节点之间的界面）时，才对网格进行细分。我们发现，与蛮力基线重建的曲面相比，这种方法通常会产生不准确的重建（见图3）。由于预测占用率值是[0,1]范围内的连续值，表示曲面的置信度和接近度，因此，如果相邻粗网格的最大绝对偏差大于阈值，则另一种方法是细分网格。虽然这种方法允许控制重建精度和加速之间的权衡，但我们还发现，该算法要么过度评估不必要的点以执行精确重建，要么以受损的重建质量换取更高的加速。为此，我们介绍了一种曲面定位算法，该算法可以分层精确地确定边界节点。

我们在图4中展示了我们的曲面定位算法。我们的目标是定位网格点，其中真实曲面以所需的分辨率存在于一个相邻节点内，因为只有曲面周围的节点才需要曲面重建。因此，我们使用从粗到精的策略，通过剔除不必要的评估点来逐步更新边界候选网格。

考虑到粗略级别的占用率预测，我们首先使用阈值0.5对占用率值进行二值化，并应用插值（即，对于2D情况为双线性，对于3D情况为三线性），以暂时将占用率值分配给当前级别的网格点(图4(a))。然后，我们通过提取值既不是0也不是1的网格点来提取候选边界。为了覆盖足够大的区域，我们应用一个膨胀操作来合并这些候选边界的1-环邻居(图4(b))。将使用网络评估这些选定节点，并更新这些节点上的占用率值。请注意，如果我们在这一点结束并进入下一个级别，则可能会像前面提到的加速方法一样筛选出真正的候选边界。因此，作为附加步骤，我们通过比较插值的二值化值和候选边界的网络预测来检测冲突节点。关键的观察结果是，当预测值和插值值不一致时，必须存在缺失的曲面区域。使用网络迭代地评估与冲突节点相邻的节点，直到解决所有冲突(图4©)。

图4显示了基于八叉树的二值化重建[45]，并且具有更高阈值的细分遭受不准确的曲面定位。虽然具有较低阈值的细分方法可以防止不准确的重建，但会计算过多的节点。另一方面，我们的方法不仅提取了精确的曲面，而且有效地减少了要评估的节点数（参见蓝色节点数）。

无网格渲染： 虽然提出的定位算法成功地加速了曲面定位，但我们的最终目标是从新的视点进行渲染，并且从任何视点都看不到重建曲面的大部分。此外，PIFu允许我们直接推断3D空间中任意点的纹理，这可以替代传统的渲染管道，其中需要显式网格来栅格化场景。换句话说，如果从目标视点给出曲面位置，我们可以直接生成novelview图像。基于这一观察结果，我们提出了一种基于视图的剔除算法以及隐式数据表示的直接渲染方法[45,52,61]。请注意，虽然最近提出了可微球体跟踪[38]和光线行进[51]方法来直接渲染隐式场，但这些方法不适合实时渲染，因为它们牺牲计算速度来实现可微性，以执行基于图像的监控任务。

图5示出了基于视图的曲面提取算法的概述。为了有效地提取基于视图的曲面，请注意，占用栅格与目标视图定义的标准化设备坐标对齐，而不是与模型或世界坐标对齐。也就是说，网格中的X和Y X对应于像素坐标，Z轴与相机光线对齐。因此，我们的第一个目标是沿Z轴搜索，以确定曲面几何体存在的前两个连续节点。

首先，我们将上述曲面定位算法应用到第(L−1) 级，其中2^L×2^L×2^L是目标空间分辨率。然后，我们使用插值在第(L−1) 级上采样二值化预测，并沿Z轴应用argmax操作。argmax操作沿指定轴提供最大值和相应的zindex，其中较高的zvalue更接近观察者。我们分别用Omax(q)和imax(q)表示像素q处的最大值和相应的索引。请注意，如果多个节点包含相同的最大值，则函数将返回最小的索引。如果Omax(q)=1，则索引大于imax(q)的节点始终被遮挡。因此，我们将这些节点视为阴影节点，这些节点被丢弃用于网络评估(图5(a))。标记阴影节点后，我们使用插值0.5评估剩余节点，并更新占用值(图5(b))。最后，我们对当前占用值进行二值化，并沿Z轴再次执行argmax操作，以获得更新的最近点索引。对于Omax(q)=1的像素，我们采用索引为imax(q)−1和imax(q)的节点作为曲面点，通过预测占用率值插值这两个节点，计算曲面P(q)的三维坐标(图5©)。然后，新视图图像R被渲染如下：

其中，B∈R³是背景色。对于虚拟远程传输应用，我们使用透明背景合成渲染和目标场景。

3.3 数据采样的在线硬示例挖掘

如[61]中所述，形状学习中基于重要性的点采样比边界框内的均匀采样更有效，以获得高度详细的曲面。然而，我们观察到，仅此抽样策略仍无法准确重建具有挑战性的姿势和视角，这仅占整个训练数据的一小部分（见图6）。尽管一种解决方案是使用更具挑战性的训练数据综合扩充数据集，但手动设计此类数据扩充策略并非易事，因为各种属性（例如姿势、视角、照明和服装类型）可能会导致故障模式，并且它们高度纠结。

然而，文献[61]中重要性抽样的成功说明，改变数据抽样分布直接影响重建的质量。这一观察结果使我们找到了一个根本性的解决方案，可以在没有特定领域知识的情况下解决上述训练数据偏差问题。其关键思想是让网络在不需要人工干预的情况下自动发现硬示例，并自适应地改变采样概率。我们将首先以一般形式表述问题和解决方案，然后针对具体问题开发算法。虽然有一些工作在各种任务中使用在线硬负挖掘（OHEM）策略解决了数据偏差问题，如学习图像描述符[65]、图像分类器[42]和对象检测[64]，但每个工作都采用了特定于其任务的挖掘策略。因此，将这些算法扩展到另一个问题是非常重要的。相反，我们的公式是通用的，可以应用于任何问题领域，因为它不需要特定领域的知识。

给定一个数据集M，监督学习的一种常见方法是为每个数据样本定义一个目标函数Lm，并使用优化器（如SGD、Adam[30]）减少小批量中的错误。假设数据采样均匀分布，我们在迭代优化过程中最小化以下函数L w.r.t.变量（即网络权重）：

现在假设数据集是基于各种属性（例如，姿势、照明）隐式聚集到表示为{Mi}的类中的。等式4可以写成：

其中是所有数据样本中簇Mi的采样概率。如等式5所示，每个簇中的目标函数都通过概率型加权。这表明大多数训练数据都超过了概率较低的硬示例，导致重建效果不佳。另一方面，如果我们修改每个簇中数据样本的采样概率，使其与类概率P_i^-1的倒数成正比、我们可以通过消除这种偏见来有效地惩罚顽固的例子。

在我们的问题设置中，目标是定义每个目标图像Pim和每个3D点Ppt的采样概率，或者直接定义它们的倒数。注意概率的倒数必须是正的，而不是无穷大。通过假设预测精度与类别概率相关，我们通过精度度量将每个图像的出现概率近似为Pim∼IoU，其中IoU由每个图像的采样n_O点计算。类似地，我们使用二元交叉熵损失来近似采样点的原始概率。基于这些近似，我们对概率的倒数建模如下：

其中α和β是超参数。在我们的实验中，我们使用αi=0.15、βi=10.0、αp=0.7和βp=0.0。在训练过程中，我们计算每个小批量的P_im^-1和P_pt^-1，并存储每个数据点的值，这些值在归一化后用作每个图像和点的在线采样概率。对于图像和点项目OHEM和点OHEM，我们分别参考OHEM。关于消融研究，请参考第4.1节，以验证我们取样策略的有效性。

4、结果

我们使用具有512×512图像的NVIDIA GV100s来训练我们的网络。在推断过程中，我们在配备62GB RAM、6核Intel i7-5930K处理器和2个GV100的桌面系统上使用Logitech C920网络摄像头。一个GPU执行几何体和颜色推断，而另一个执行曲面重建，这可以在处理多个帧时以异步方式并行完成。我们系统的总延迟平均为0.25秒。

我们在RenderPeople[57]和BUFF数据集[82]以及自捕获性能上评估了我们提出的算法。特别是，由于3D穿着运动人体的公共数据集非常有限，我们使用BUFF数据集[82]进行定量比较和评估，并报告从预测到地面真实的倒角距离和点到面（P2S）距离测量的平均误差。我们在附录中提供了实现细节，包括训练数据集和实时分段模块。

在图1中，我们演示了从单个RGB摄像机捕获和渲染的实时性能。因为重建的几何体和对看不见区域的纹理推断都是合理的，所以我们可以从各种姿势和服装样式中实时获得新颖的视图渲染。我们在附录和补充视频中提供了各种姿势、照明、视角和服装的附加结果。

4.1 评价

图3显示了曲面重建算法的比较。基于二值化八叉树[45]的曲面定位不能保证与蛮力基线相同的重建，可能会丢失一些身体部位。基于八叉树的阈值重建显示了性能和精度之间的折衷。我们的方法在没有任何超参数的情况下实现了最佳加速，在保持原始重建精度的同时，将曲面重建从30秒加速到0.14秒（7 fps）。通过将其与我们的无网格渲染技术相结合，我们只需要每帧0.06秒（15 fps）就可以以2563的体积分辨率进行新颖的视图渲染，从而实现第一次从单目视频实时捕获体积性能。

在表1和图6中，我们定量和定性地评估了所提出的在线硬示例挖掘算法的有效性。使用相同的训练设置，我们在有无点ohem和项目ohem采样的情况下训练我们的模型。图6显示了训练集中最差的5个结果的重建结果和误差图。ohem点通过聚焦误差较大的区域（参见图6中的ohem点权重），成功地提高了重建的保真度。类似地，Iteem Ohema自动监控更多的硬图像，这些图像具有较少频率的服装样式或姿势，我们希望能够像更常见的姿势和服装样式一样准确地捕捉这些图像。因此，与[61]的原始实现相比，整体重建质量显著提高，达到了最先进的精度（表1）。

4.2 比较

在表1和图7中，我们将我们的方法与来自RGB输入的最新3D人体重建算法进行了比较。请注意，我们使用与[61]相同的训练数据和其他设置训练PIFu[61]，以进行公平比较，同时我们使用VIBE[31]和DeepHuman[86]的公共预训练模型，因为每种方法都需要自定义数据集，并且它们依赖于外部模块，如SMPL[40]模型。尽管基于模板的回归方法[31]能够从野外图像中实现稳健的3D人体估计，但保真度和细节的缺乏严重损害了表演的真实性。类似地，基于体素的体积性能捕获[86]由于分辨率有限而缺乏保真度。虽然隐式形状表示[61]实现了高分辨率重建，但对于不常见的姿势，重建变得不太合理，并且推理速度（30秒）对于实时应用来说太慢，我们在本文中讨论了这两个问题。我们还定性地比较了我们的重建与使用预捕获模板的最新实时性能捕获[18]（图8）。虽然重建的几何体具有可比性，但与使用固定模板的跟踪方法不同，我们的方法可以使用反映生动表达式的动态纹理渲染性能。我们的方法对拓扑变化也是不可知的，因此可以处理非常具有挑战性的场景，例如更换衣服（图1）。

5、结论

我们已经证明，在不牺牲最终图像质量的情况下，从单个输入图像进行人体的体积重建和渲染可以以接近实时的速度实现。我们新颖的渐进式曲面定位方法使我们能够大大减少曲面重建过程中查询的点的数量，从而在不降低最终曲面质量的情况下将速度提高两个数量级。此外，我们证明了直接渲染捕获对象的新视点是可能的，而无需显式提取网格或执行幼稚的计算密集型体积渲染，从而使我们能够获得重建曲面的实时渲染性能。最后，我们的在线硬示例挖掘技术允许我们找到并学习对具有挑战性的输入示例的适当响应，从而使我们能够使用可处理的数据量来训练我们的网络，同时获得具有较大外观和运动变化的高质量结果。

虽然我们展示了我们在人体主题和性能方面的方法，但我们的加速技术可以直接实现并推广到任何对象或拓扑。因此，我们相信，这将是一个关键的构建块，几乎可以将商品摄像机捕捉到的任何东西传送到任何地方。

A1 补充资料

A1.1 数据集

RenderPeople： 与[61]类似，我们利用合成渲染对穿着衣服的人进行高质量摄影测量扫描来构建我们的训练数据集。除了[61]中使用的RenderPeople[57]的466次静态扫描外，我们还加入了RenderPeople[57]中的另外167个装配模型，并应用了Mixamo[46]中的32个动画集，以便在性能捕获中涵盖更广泛的姿势变化。有关动画的完整列表，请参阅附录A。通过从每个动画中随机选择3帧，我们获得466+167×32×3=16498个模型。我们根据受试者身份将其分为训练集和验证集，训练集中的网格数为452+164×32×3=16196个，验证集中的网格数为14+3×32×3=302个。为了进行训练，使用弱透视摄影机在偏航轴周围每隔10度使用预先计算的辐射传输[66]和源自HDRI Haven[19]的163次二阶球面谐波渲染每个网格。为了验证，我们在ValidationSet上计算我们的损失度量，ValidationSet使用绕偏航轴以120度间隔采样的3个视图进行渲染。使用ValidationSet选择我们的在线硬示例挖掘（OHEM）训练策略（见本文等式6）的超参数α_i、β_i、α_p和β_pin。

BUFF： 为了定量评估建议系统的泛化能力，并与现有方法进行公平比较，我们建议使用BUFF数据集[82]，原因如下。首先，BUFF数据集提供具有照片级真实感纹理的高保真几何体，用详细的地面真实几何体近似真实图像的形态。其次，它包含大量的姿势变化。因此，每种方法在不同姿势下的精度都可以得到适当的评估。最后，由于现有方法[31,61,86]都是使用自定义数据集进行训练的，因此我们可以在一个没有训练这些方法的数据集上进行比较。BUFF数据集由5个主题组成，每个主题由1或2套独特的装备捕获。总的来说，它包含26个序列，每帧具有地面真实3D网格和纹理。由于大部分姿势是重复的（例如，T姿势），我们对每个序列应用K-medoid以获得不同的帧。通过设置k=10，我们获得26×10=260帧，并围绕偏航轴以120度的间隔从3个视点渲染它们，从而得到260×3=780个图像（示例图像见图13）。

A1.2 网络架构

我们进行了几次架构修改，以提高[61]原始实现的效率和健壮性。在本节中，我们提供了实现细节，并讨论了每个修改的有效性。图9显示了我们网络架构的概述。

图像编码器： 对于曲面重建，我们在图像编码器中使用HRNetV2-W18-Small-v2[68]替换堆叠沙漏网络[50]，用于形状推断，因为它在各种任务（例如语义分割、人体姿势估计）中具有更高的性能，计算速度更快（见图9）。最终特征分辨率为128×128，通道大小为256，如[61]所示。表A1.3显示了关于选择图像编码器的烧蚀研究。HRNet不仅具有更好的重建精度，而且运行速度更快（14 fps vs 12 fps），参数和计算量更少。对于颜色推断，我们发现图像特征的更高空间分辨率会导致更详细的纹理。为此，我们通过使用转置卷积将形状和彩色图像编码器的叠加输出特征映射从128×128上采样到512×512，输出通道大小为32，从而修改具有6个剩余块的架构[26]。

深度表示法： 此外，受顺序深度回归[12]中使用的多通道深度表示的启发，我们发现将深度P_z表示为多维向量更有效地将深度信息传播到形状推理函数f_o。更具体地说，我们转换{P_z∈R|−1≤P_z≤1} 进入一个维度特征z={Z_i}_i=0^N-1 ，如下所示：

在我们的实验中，和N=64。我们将这种多通道深度表示称为软一热深度（SoftZ)。图10和表A1.3显示了建议深度表示的更快收敛和更精确重建。

像素对齐三维提升：[61]的原始实现通过将图像特征和深度值P_z输入多层感知器（MLP），将像素对齐的图像特征提升为3D。为了进一步减小中间层的通道大小，我们采用了条件批量规范化（CBN）[9,11,45]。更具体地说，软一热深度矢量Z（我们的最终模型）或深度值P_z（仅用于消融研究）被输入到多层感知器（MLP）中，多层感知器（MLP）由5块条件批量归一化模块（CBN）[9,11,45]组成，其中每个CBN层的输入特征向量用可学习乘法器γ©进行归一化和偏差β©作为输入，条件向量如下：

其中f_in和f_out为输入和输出特征，µ为统计平均值，σ为标准偏差，且。每层之后都是非线性ReLU激活。请注意，与[45]不同，我们的条件向量像素对齐图像具有Φ(P_xy,g_O(I))来学习与输入图像对齐的精确几何体。有关详细的体系结构，请参见图9。对于所有中间特征尺寸，我们使用128的通道尺寸。在表A1.3中，CBN被称为具有条件批量标准化模块的3d提升，MLP被称为查询深度值和图像特征的原始串联，如[61]所示。在保持相同重建精度的同时，进一步减少了参数数量和计算开销。

对于颜色推断，我们将来自输入图像对应像素的深度值P_z、RGB值和学习图像特征的串联作为输入，得到36维向量。它们被馈入另一个MLP，该MLP由5层组成，信道大小为1024、512、256、128和3，并在第1、2、3和4层跳过连接。除最后一层外，每层之后都会进行LeakyReLU激活，最后一层则进行Tanh激活。

训练程序： 我们分别使用RMSProp[70]和Adam[30]进行表面重建和纹理推断，学习率为1e^-3。由于HRNet和CBN中的批规格化层可以受益于较大的批大小，因此我们使用24的批大小进行曲面重建和纹理推断。在每个训练批中，每个图像的采样点数为4096。我们首先以恒定的学习速率训练5个历元的表面重建网络，然后对其进行修正，只训练另外5个历元的纹理推理网络。在单个NVIDIA GV100 GPU上，我们的表面重建和纹理推断网络培训各需要3天。

A1.3 实时人体分割

作为预处理，我们需要一个高效准确的人体分割网络。为此，我们首先收集具有精确注释的高质量数据。由于公开可用的人体分割数据集要么质量低，要么偏向于特定类型的图像（如肖像）[14,37,63,84]，因此我们收集了12029张具有不同背景、照明条件、姿势和不同装备的人体图像。大多数图像来自LIP数据集[14]，而其余图像则来自互联网。我们使用商业网站https://www.remove.bg/zh获得了这些图像的高质量注释。我们使用U-Net[60]和ResNet-18[20]作为主干，Adadelta[81]使用10.0的初始学习率。每个epoch后，学习率降低了0.95倍。培训在100个阶段后会合，在单个NVidia GV100上大约需要2天。在推断过程中，该模型以256×256的图像分辨率在NVidia GV100上以150 fps的速度运行。图14和图15分别显示了我们的实时分割模型的采样训练数据集和分割结果。

A2 其他结果

我们在图A2中评估了我们的算法在不同照明条件、视点和衣服拓扑下的鲁棒性。我们还提供了来自视频序列（见图16）和互联网照片（见图17）的额外定性结果。其他视频重建结果可在补充视频中找到。

A2.1 限制

由于我们的培训数据一次只包含一个人，多个人的存在会使网络混乱（见图12）。为多个主题建模[27,39]对于理解社交互动以获得真正可信的虚拟体验至关重要。未来，我们计划扩展我们的方法，在一个单目视频中处理多人。另一个有趣的方向是处理其他对象的遮挡，因为如果不对自然场景中发生的遮挡进行显式建模，则很难进行完整的三维重建。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Os7zbv6j-1637378357299)(https://i.loli.net/2021/11/07/BwOKZUr8cSnhjRT.png)]