文章目录

论文速读
Method
- pixel-aligned Radiance Fields。
- Volume Rendering
- multi-view feature aggregation
- - 1. Fixed number of conditioning views
  - 2 Variable number of conditioning views
- background Model
- color correction model
- Loss Function
Limitatons

论文速读

While such architectures achieve impressive rendering quality, they can not easily be extended to the multiidentity setting.

在这篇论文中，我们设计了一种新的方法，在给定少量输入的情况下，预测人体头部的体积化身。我们通过一种新的参数化来实现跨身份的泛化，该参数化结合了神经辐射场和直接从输入中提取的局部像素对齐特征，从而避免了对非常深或复杂网络的需要。我们的方法是在端到端方式训练，仅基于光度重新渲染损失，而不需要明确的3D监督。

效果：
我们证明，我们的方法在质量方面优于现有的艺术状态，能够在多身份设置中生成忠实的面部表情
我们展示了我们的模型可以为看不见的身份和表情合成新的观点，同时在渲染的化身中保留高频细节。

contributions：

我们引入了创新的pixel-aligned radiance field，来从稀疏的图像中预测潜在的形状和外观。
我们的模型可以推广到测试时不可见的恒等式和表达式。
我们展示了与最近的方法相比，在新视角合成上的艺术表现的状态。

框架图

给定一个目标视点和一组条件图像，我们的新方法利用从输入中提取的局部像素对齐特征来约束多身份神经辐射场。
体绘制被用来从目标视点生成主题的图像。

Method

端到端的任务 —— images to images。损失是预测图像和真实图像之间的l2 loss。

pixel-aligned Radiance Fields。

编码器获得的视角对应的像素对齐的特征，和Radiance field 计算得到的每个点的颜色和密度：

获取fX(i)f_X^{(i)}fX(i)的方法。其中π\piπ 是相机像素坐标的透视投影函数。 F(f(i);xi)\mathcal{F}(f^{(i)};x_i)F(f(i);xi)是在像素位置x处的双线性插值。

Volume Rendering

其中

实际上：

其中

multi-view feature aggregation

1. Fixed number of conditioning views

运算符表示沿着深度维度的链接。这保留了所有视点的特性信息，让MLP来找出如何最好地结合和使用条件反射信息。

2 Variable number of conditioning views

为了总结多视图设置的特征，我们需要一个置换不变函数。

特征聚合的一个简单的置换不变函数是采样特征的均值
因为我们有固有的深度模糊(因为点在采样前被投影到特征图像上)，我们发现这种聚合会产生伪影。（图9所示）

这种简单的图像特征均值没有考虑相机信息，可以帮助网络更有效地利用条件反射信息

为了向特性中注入视点信息，我们学习了另外一种网络。

取特征向量和摄像机信息(ci)，并产生一个摄像机汇总特征向量。
这些修改后的向量然后为所有条件反射视图取平均值，如下所示

这种方法的优点是，在进行特征平均之前，相机总结的特征可以考虑可能的遮挡。摄像机信息编码为4D旋转四元数和三维摄像机位置。

background Model

为了避免在场景表示中学习部分背景，我们定义了一个背景估计网络

来学习每个相机固定的背景。特别地，我们预测最终图像像素为：

其中

这些内涂的背景通常是嘈杂的，导致在人的头部产生“光晕”效果(图7)。

们的背景估计模型学习残差到内画的背景。这样做的优点是不需要一个大容量的网络来说明背景。

color correction model

强度差异最终会被烘焙到场景表示N中，这将导致图像从某些角度不自然地变亮或变暗，为了解决这个问题，我们学习了每个摄像头的偏见和增益值。这使得系统能够更容易地解释数据中的这种变化。

Loss Function

我们训练辐射场和特征提取网络使用一个简单的光学重建损失

我们的方法是在端到端方式训练，完全基于这个2D重新渲染损失，而不需要明确的3D监督。

Limitatons

我们的方法目前对于完全未观察到的区域的外推能力有限，例如，如果只提供前视图作为示例图像，则无法对后脑进行详细重构
)我们的方法目前还不能应用于野外数据。
原因：
1. 我们需要每个示例图像在测试时的绝对头部姿势。
2. 我们的训练语料库没有捕捉到野外图像的光照光谱和背景变化。

【论文解析】Pixel-aligned Volumetric Avatars相关推荐

地图构建两篇顶级论文解析
地图构建两篇顶级论文解析一．基于声纳的密集水下场景重建标题:Dense, Sonar-based Reconstruction of Underwater Scenes 作者:Pedro V. T ...
传感器标定两篇顶会论文解析
传感器标定两篇顶会论文解析一．在城市环境中的多个3D激光雷达的自动校准标题:Automatic Calibration of Multiple 3D LiDARs in Urban Environ ...
机器人导航两篇顶级会议论文解析
机器人导航两篇顶级会议论文解析一．一种用于四旋翼无人机室内自主导航的卷积神经网络特征检测算法标题:A Convolutional Neural Network Feature Detection ...
SLAM架构的两篇顶会论文解析
SLAM架构的两篇顶会论文解析一．基于superpoint的词袋和图验证的鲁棒闭环检测标题:Robust Loop Closure Detection Based on Bag of SuperP ...
将视频插入视频：CVPR2019论文解析
将视频插入视频:CVPR2019论文解析 Inserting Videos into Videos 论文链接: http://openaccess.thecvf.com/content_CVPR_20 ...
全景分割：CVPR2019论文解析
全景分割:CVPR2019论文解析 Panoptic Segmentation 论文链接: http://openaccess.thecvf.com/content_CVPR_2019/papers/ ...
结构感知图像修复：ICCV2019论文解析
结构感知图像修复:ICCV2019论文解析 StructureFlow: Image Inpainting via Structure-aware Appearance Flow 论文链接: http ...
面部表情视频中进行远程心率测量：ICCV2019论文解析
面部表情视频中进行远程心率测量:ICCV2019论文解析 Remote Heart Rate Measurement from Highly Compressed Facial Videos: an ...
人脸标记检测：ICCV2019论文解析
人脸标记检测:ICCV2019论文解析 Learning Robust Facial Landmark Detection via Hierarchical Structured Ensemble 论 ...

【论文解析】Pixel-aligned Volumetric Avatars