Joint Face Image Restoration and Frontalization for Recognition 论文笔记

面向识别的联合人脸图像恢复与前向化
作者：Xiaoguang Tu 中国民航飞行学院电子科技大学，百度，腾讯，新加坡国立大学
提出了一个网络可以同时解决人脸正面化和人脸复原

摘要

影响人脸识别的因素：姿态大，光照差，分别率低，模糊和噪声。以往通常将低质量人脸恢复成高质量人脸然后执行人脸识别。
本文解决了无约束人脸识别共同的挑战。
提出了一种多退化人脸复原(MDFR)模型，给定任意角度低质量人脸，恢复出正面的高质量人脸，创新点有三个。
首先，MDFR为编码器解码器结构，提取任意输入人脸低质量因子的图像表征，并将其恢复成高质量的部分。其次，MDFR引入姿势残差学习策略和基于3D的姿势归一化模块(PNM)，该模块可以感知输入初始姿势与其真实正面姿势之间的姿势差距从而引导人脸正面化。最后，MDFR可以通过单一的统一网络生成正面化的高质量人脸图像，身份信息保持能力强。

1.介绍

无约束人脸识别很难很重要。（无约束的定义为任意姿态，任意光照，任意分辨率，任意图像状况模糊, 噪声）

人脸复原模型需要原始图像作为输入，而人脸正面化模型需要额外的输入通道来编码人脸姿态信息，因此他们的架构不相同。更重要的是，输入的低质量人脸图像的退化的面部细节可能会在人脸关键点检测中失败，从而严重阻碍依赖关键点信息的人脸正面化。因此，从低质量人脸中获取人脸标志点是关键。

为解决以上任务，开发了一个多退化人脸恢复（MDFR）模型，该模型在训练过程中主要由两个特定任务生成器驱动，一个用于包含多个低质量因素的人脸恢复，另一个用于人脸正面化。然而，即使这两个生成器在每个特定任务上都表现良好，它们在身份度量空间中的特征之间也存在着域差距，这使得它们的身份表示不一致从而影响最终的人脸识别。如果单独执行这些任务，这种身份不一致可能会反过来影响脸部生成的结果。为了消除这种领域差距，我们进一步提出一种任务集成（TI）训练方案，将这两个任务的学习合并成一个单独的方案，使得所有污染因素都可以通过一个统一的网络来解决。此外，TI训练确保将人脸图像从单个侧面人脸图像正面化，而不需要任何先验，例如输入人脸标志点和目标正面标志点。需要注意的是，虽然所提出的MDFR能够从多个退化因素中联合解决人脸正面化和人脸恢复问题，但它可以单独执行每个任务，例如从高质量输入中进行人脸正面化，人脸超分辨率，人脸去模糊和去噪等。

在结构上，我们的MDFR主要由两个主要部分组成，即双智能体生成器和双智能体先验引导判别器。双智能体生成器通过两个特定任务从退化的输入中学习合成正面化高质量人脸：人脸恢复子网（FRN）和人脸正面化子网（FFN）。FRN学习从低质量图像中恢复面部细节，而FFN通过利用给定的目标面部姿势来学习旋转面部。双智能体判别器由姿态条件判别器(PCD)和身份条件判别器(ICD)组成，用于参考先验知识对生成的人脸图像进行评价，使输出满足输入要求。设计良好的双智能体生成器和双智能体判别器共同工作，从低质量的输入中实现高保真和保持身份的正面人脸生成。所提出的训练方案是一种两阶段训练策略，包括单独训练和TI训练。在TI训练过程中，利用基于3D的姿态归一化模块(PNM)来指导真实正面人脸生成，该模块将人脸正面化和复原合并到一个统一的网络中，以便任务可以混合到相同身份表征空间中，相互促进以学习更强大的表征进行识别。

贡献如下：

提出一种新的多退化人脸恢复(MDFR)模型，该模型从给定的任意姿态和多种低质量因素的人脸图像中恢复出正面化高质量人脸。
通过姿势残差学习实现人脸正面化提出了一种基于3D的姿势归一化模块(PNM)，将2D人脸标志点归一化到真实的正前方用于指导人脸正面化学习。
开发了一种有效的TI训练策略，将人脸恢复和正面化合并成一个统一的网络，进一步提高了输出质量，改善了人脸识别性能。
该方法能够从任意姿态的低质量人脸中合成出具有照片真实感的正面人脸，并在不受约束的环境下具有了显著的人脸识别性能。

2.相关工作

2.1 人脸正面化
早期方法使用2D/3D局部纹理扭曲(warpinig)或统计建模来解决人脸正面化问题。如使用堆叠渐进式自动编码器，或是3D曲面来近似输入面形状，或是联合正面人脸重建和标志点检测方法。由于严重的纹理损失和伪影，它们对侧面和接近侧面（60度）的人脸的性能往往会有很大的下降。

随着GAN在计算机视觉领域的出现，首次提出了用于正面人脸生成的DR-GAN算法。然后，提出了具有双路径结构和感知监控的TP-GAN。它利用一个经过良好训练的人脸识别模型来指导从侧面中提取正视图的身份保持推理。PIM的目标是通过添加正则化项来学习更健壮的人脸表示，从而生成高质量的结果。Tian 等人引入一个生成方法来保持学习的嵌入空间的完备性，并利用标记和未标记数据来进一步丰富真实生成的嵌入空间。

以上的方法将人脸正面化当作一个直接的二维图像到图像的转换问题，并将正面人脸作为ground-truths。本文认为这类正面人脸不是真实的ground-truths，称为近正面，因为它们由于采集过程的不同，它们可能在像素水平与真实世界的正面姿势不同。如果将这类伪真实数据直接用于训练，模型很难很好的收敛。 CAPG-GAN提出通过提供目标姿态来缓解该问题，但它仍然需要外部帮助才能获得目标正面姿态。本文通过姿态残差学习建立人脸正面化模型，并引入基于三维人脸变形模型的姿势归一化模块(PNM)，为人脸正面化提供真实的正面化姿势。PNM将面部标志点投影到标准的3D空间，并自动将其旋转到真正的正面，作为姿势目标，以完善正面恢复的输出。一旦训练完成，我们的模型就可以从单个输入生成真实的正面人脸图像，而无需请求任何目标姿势。

2.2 面部复原
为了从低质量的对应物恢复高质量的人脸图像，已经提出了诸如超分辨率[31]、[32]、[19]、去噪[33]、[34]、去模糊[35]、[36]、[37]和光照归一化[38]、[39]、[40]等方法。例如，Kim等人。[31]通过级联许多小过滤器来利用非常深的卷积网络来提取上下文信息以实现超分辨率。赖等人。[32]提出了基于级联CNN的LPSR网络来恢复高分辨率图像。在[19]，[62]，[63]中，研究人员借助人脸属性，即人脸地标，解析分割信息和几何先验估计来恢复高分辨率图像。此外，也有文献[64]、[65]、[66]将重点放在结构设计上，以提高超分辨性能。对于图像去模糊或去噪，早期的方法[33]、[34]、[35]主要利用频域知识来恢复带通频率分量。在[36]中，Svoboda et al.。第一次使用定制的CNN来解决这个问题。后来，徐等人又提出了自己的观点。[37]在解决此问题之前，使用Gans对人脸和文本图像执行联合去模糊和超分辨率，以了解特定类别。在文献[16]中，沈等人提出了一种新的方法。利用全局和局部语义线索并结合感知和对抗性损失来恢复具有更精细细节的照片级真实感人脸图像。光照主要改变人脸图像中像素值的权重，这也会导致极端条件下的识别性能下降。解决这一问题的现有方法主要基于整体归一化[38]、[39]或不变特征提取[40]、[14]。第一类方法以归一化的方式重新分布原始图像的亮度，较不容易受到光照变化的影响；不变特征提取方法提取光照不变的特征，如高频分量和基于梯度的分量。

虽然上述方法对人脸图像增强是有效的，但当遇到交叉退化因素时，其性能往往会下降。例如，使用去模糊来增强低分辨率图像无济于事，有时还会因为过度适应模糊因素而导致性能变差。

3.多级退化人脸修复

图2显示了所提出的MDFR，由一个双Agent生成器、一个双Agent先验引导判别器和一个姿势归一化模块组成。

A. Dual-Agent 生成器
双agent生成器包含脸部恢复子网(FRN)和脸部正面化子网(FFN)，每个子网络由用于将输入映射到嵌入空间(embedding space)的编码器(encoder)和用于将嵌入码（embedding code）恢复到目标脸部的解码器组成，具有相同的体系结构但结构不同的输入，如图3所示。

FRN将低质量的人脸 ${I_l}$ 面孔作为输入，输出高质量的对应 ${\hat{I}_h}$ ：
$\hat{I}_h = G_1(I_l) = F_1(E_1(I_l))，（1）$
其中， $E_1$ 和 $F_1$ 分别是FRN的编码器和解码器。
FFN有三个输入，包括高质量人脸图像 $I_h$ ，与 $I_h$ 有关的人脸标志点 $L_p$ 和一个目标人脸标志点 $L_t$ 。在FFN单独训练过程中， $L_t$ 是目标近正面人脸图像的对应标志点，尽管在TI训练过程中， $L_t$ 值是经过PNM归一化后的真实正面人脸标志点 $L_f$ 。我们使用18个人脸标志点来表示人脸姿势，并将其编码为高斯热图来表示 $L_p$ 和 $L_t$ 。将 $L_p$ 和 $L_t$ 馈送如编码器并进行相减来得到姿势残差。只学习姿势之间的差异可以避免多余的与姿势无关的信息，如静态背景，这些信息在变换过程中保持不变。因此旋转的人脸 $\hat{I}_{ht}$ 可以根据 $I_h$ 生成，姿势残差的条件如下：
$\hat{I}_{ht}=G_2(I_h)=F_2(E_2(I_h) \oplus[E_2(L_p)-E_2(L_t)])，（2）$
其中 $E_2$ 和 $F_2$ 是FFN的编码器和解码器， $\oplus$ 表示相连。为了使解码器更容易重用不同空间位置的特征便于特征传播，在解码器中添加了密集连接。每个块的输出连接到位于解码器中所有后续块中的第一个卷积层。由于块具有不同的特征分辨率，当我们将较低分辨率的特征图用作较高分辨率图的输入时，我们对它们进行上采样。

B. Pose 归一化模块
我们设计了姿势归一化模块(PNM)来执行姿势归一化。注意，PNM仅在TI训练过程使用。PNM提供了一个具有均匀人脸比例的真实正面姿势来引导人脸正面化。基于3D可变性模型( X. Zhu, Z. Lei, X. Liu, H. Shi, S. Z. Li, Face alignment across large poses: A 3d solution, in: CVPR, 2016, pp. 146–155),2D面部图像的3D顶点可以表示为一组PCA基上的线性组合，如下所示：
$S=\bar{S}+A_s\alpha_s+A_{exp}\alpha_{exp}，（3）$
其中 $\bar{S}\in{\mathbb{R}^{3\times N}}$ 是平均形状， $A_s \in \mathbb{R}^{3\times N}$ 是3D面部扫描上训练的形状原则基础， $\alpha_s \in \mathbb{R}^{40}$ 是形状表示系数， $A_{exp}\in \mathbb{R}^{3 \times N}$ 是表达原则基， $\alpha_{exp}\in \mathbb{R}^{10}$ 是相应的表达式函数，N是顶点数。

可以使用比例正交投影将3D人脸顶点S投影到2D图像平面上，以从指定视点生成2D侧脸：
$V_p=f*P_r*\Pi*S+t，（4）$
其中， $V_p$ 表示投影到2D平面上的3D顶点的2D坐标， $f$ 是比例因子， $\Pi$ 是固定正交投影矩阵， $P_r$ 是旋转矩阵，t是平移向量。 $P_r$ 和t表示旋转和平移方差，当它们从等式（4）中去掉时，任意姿势的人脸的标准正面坐标可以从以下等式得到：
$V_f=f*\Pi*S=(V_p-t)*P_r^{-1}。（5）$
这里 $V_p$ 和 $V_f$ 在标准3D空间中存储给定脸部图像侧面和真实正面密集2D坐标 $(x, y)$ ，删除了 ${z}$ 坐标。使用了当前最先进的3D人脸重建方法2DASL（X. Tu, J. Zhao, Z. Jiang, Y. Luo, M. Xie, Y. Zhao, L. He, Z. Ma, J. Feng, Joint 3d face reconstruction and dense face alignment from a single image
with 2d-assisted self-supervised learning, arXiv.）进行3DMM参数回归，从给定的2D人脸图像中获得密集的坐标(超过50000个点)。分别从 $V_p$ 和 $V_f$ 采样18个公共关键点，以生成高斯热图（Gaussian heatmaps） $L_p$ 和 $L_f$ 。

C. Dual-Agent 先验引导判别器
人脸超分辨率的判别损失使用了URDGN。遵循该方法提出用两种额外的先验知识来约束判别器，即目标人脸标志点和正面人脸身份特征图，使生成的图像在目标姿势和身份表示都接近真实图像。
我们先验引导判别器使用一个VGG11主干初始化的。第一个判别器姿势条件判别器（PCD）将目标姿势 $L_t$ 作为条件，并与FFN的输出 $\hat{I}_{ht}$ （或目标高质量人脸图像 $\hat{I}_{ht}$ ）配对，即 $[\hat{I}_{ht}, L_t]$ vs[I_{ht}, L_t]。第二个判别器身份条件判别器（ICD）采用目标人脸身份特征 $P_t$ 作为条件与 $\hat{I}_{ht}$ 或者 $I_{ht}$ 组成配对，即 $[\hat{I}_{ht}, P_t]$ vs $I_{ht}, P_t]$ 。在满足以上条件时， $F_2$ 将生成接近 $I_{ht}$ 外观的图像 $\hat{I}_{ht}$ 同时满足正面姿势要求。具体的，PCD和ICD不仅可以区分输出的真假，而且还可以学习真假图像之间的面部姿势和身份表征。

D. 训练
我们的整体训练包括两个阶段：分开训练和TI训练。现在我们详细介绍每个训练过程。算法1描述了所提出的训练策略的整个过程。

算法1 整个训练

分开训练
阶段1：通过 $\mathcal{L}_{FRN}$ 训练人脸恢复FRN网络，图像对 ${I_l,I_h}$ 。 $I_l$ 是输入的低质量人脸，而 $I_h$ 是作为为 $I_l$ 的高质量人脸的真实值。
阶段2：通过 $\mathcal{L}_{FFN}$ 训练人脸正面化，图像对 ${I_h, I_{ht}}$ 和标志对 ${L_h,L_t}$ 。 $I_h$ 是高质量人脸， ${I_ht}$ 作为 ${I_h}$ 的目标人脸（接近正面）的真实值， ${L_h, L_t}$ 为它们对应的面部标志点。
任务整合训练
固定FFN的参数。
将高质量人脸 $I_h$ 作为FFN的图像输入， $I_h$ 的真实正面标志 $L_f$ （经PNM归一化）作为FFN的标志输入，生成高质量和正面人脸 $I_{hf}$ 。利用 $\mathcal{L}_{TI}$ 训练人脸恢复网络FRN，图像对 ${I_l,I_{hf}}$ 。 $I_l$ 是低质量人脸， $I_{hf}$ 是FFN接受 $I_h$ 为输入时的输出。 $I_h$ 是 $I_l$ 对应的高质量人脸图像。 $I_{hf}$ 被用作FRN训练的真实值。
1：while 不收敛 do
2：在N个低质量图像 $I_l^i, i=1,...,N$ ，选择一个minibatch。
3：FRN从低质量图像 $I_l^i$ 输出N个恢复图像 $\hat{I}^i_{hf}$ 一个minibatch；
FFN从 $I^i_h$ 输出N个图像 $I^i_{hf}$ 的一个minibatch；从恢复图像 $G_1(I^i_l)$ ；
4：通过降低FRN的随机梯度来更新FRN： $\nabla_{\theta_{FRN}}\frac{1}{N}\sum^N_{i=1}\mathcal{L}_{TI}$ 。
5：end while

1）分开训练 我们首先训练FRN和FFN。FRN分离（FRN-S）训练从低质量人脸中恢复高质量人脸图像而FFN分离（FFN-S）训练将旋转侧面(profile)人脸到目标姿势。
a) FRN-S训练：在FRN-S训练过程中，采用了身份保持损失 $\mathcal{L}_{id}$ 来保存生成人脸图像的身份信息。在训练过程中，使用预训练好的人脸识别模型 $R_{id}$ 提取身份特征并确定参数， $\mathcal{L}_{id}$ 被定义为
$\mathcal{L}_{id}(X,Y)=\left \|\frac{R_{id}(X)}{||R_{id}(X)||_2} - \frac{R_{id}(Y)}{||R_{id}(Y)||_2}\right \|^2_2，（6）$
其中X是输入，Y是FRN的输出。
FRN-S训练的恢复损失定义为
$\mathcal{L}(I_h,\hat{I}_h)=||I_h-\hat{I}_h||^2_2，（7）$
其中 $\hat{I}_h$ 是FRN-S恢复的人脸图像， $I_h$ 是高质量人脸图像。FRN-S的总损失函数是
$\mathcal{L}_{FRN}(I_h, \hat{I}_h)=\mathcal{L}_r(I_h,\hat{I}_h) + \lambda_1\mathcal{L}_{id}(I_h,\hat{I}_h)，（8）$
其中， $\lambda_1$ 是平衡不同损失的权重参数。
b) FFN-S训练：FFN-S训练由四个损失监督，即身份保持损失 $\mathcal{L}_{id}$ ，正面化损失 $\mathcal{L}_f$ 和条件对抗性损失 $\mathcal{L}_{pcd}$ 和 $\mathcal{L}_{icd}$ 。FFN-S的 $L_{id}$ 与FRN-S的相同。对于 $\mathcal{L}_f$ ，我们惩罚旋转旋转的图像与其对应的真实值之间的像素欧几里得距离，
$\mathcal{L}_f(I_{ht}, \hat{I}_{ht})=||I_{ht}-\hat{I}_{ht}||^2_2，（9）$
其中， $I_ht$ 是目标接近正面的人脸图像， $\hat{I}_{ht}$ 是FFN的输出。
FFN解码器以侧面人脸的潜在编码以及侧面人脸标志点热图 $L_p$ 与目标人脸标志点热图 $L_t$ 之间的姿势残差为输入，为人脸旋转提供指导。双智能体判别器根据给定的先验知识改善 $\hat{I}_{ht}$ 。对于PCD， $D_1$ 采用 $L_t$ 为条件，并与 $\hat{I}_{ht}$ 和 $I_{ht}$ 配对输入。对于ICD， $D_2$ 采用身份特征图 $P_t$ 作为条件，并与 $\hat{I}_{ht}$ 和 $I_{ht}$ 配对输入。条件对抗损失 $\mathcal{L}_{pcd}$ 和 $\mathcal{L}_{icd}$ 可以定义为（10）
$\mathcal{L}_{pcd}=\mathbb{E}_{I_P \in \mathcal{I}}[log(D_1([L_t, I_{ht}]))+log(1-D_1([L_t, \hat{I}_{ht}]))]，$ $\mathcal{L}_{icd}=\mathbb{E}_{I_P \in \mathcal{I}}[log(D_2([P_t, I_{ht}]))+log(1-D_2([P_t, \hat{I}_{ht}]))]。$
总损失函数是上述损失的加权和。对生成器( $\theta_G$ )，PCD( $\theta_P$ )和ICD( $\theta_I$ )的参数交替训练以优化下面min-max问题：
$\min_{\theta_G}\max_{\theta_P, \theta_I}\mathcal{L}_{FFN}=\mathcal{L}_f(I_{ht}, \hat{I}_{ht})+\lambda_2\mathcal{L}_{id}(I_{ht}, \hat{I}_{ht})+\lambda_3(\mathcal{L}_{pcd}+\mathcal{L}_{icd})，(11)$
其中， $\lambda_2$ 和 $\lambda_3$ 是权衡不同损失的参数。

2）任务整合（TI）训练
在FRN和FFN被预训练之后，我们进行TI训练，称之为FRN任务集成(FRN-TI)训练。使用FFN的输出作为真实值来训练FRN。FRN-TI的行为有点像蒸馏过程，将知识从教师模型传递给学生。在FFN-S训练过程中，FFN根据给定的目标人脸标志点学习生成目标人脸标志点。在TI训练过程中，我们使用经过PNM归一化的真实正面人脸标志点 $L_f$ 来指导FFN的人脸生成，从而将归一化后的姿态表示嵌入到FFN的输出和特征图中，作为FRN中人脸正面化的真实值。因此，我们从图像和特征两个层面制定了FRN-TI的训练方法。具体地说，使用FFN的输出以及它的深层特征地图作为来指导FRN学习的真实值。训练完成后，可以去除PNM和FFN，只需使用FRN就可以生成高质量的正面人脸，而不需要给出目标人脸的标志点。我们对FRN-TI进行端到端的训练。在FRN-TI训练过程中，FFN的参数是固定的，只对FRN进行优化。
我们使用FRN和FFN的最后一个密集块通过特征对齐(FA)丢失来执行特征级别的监督。由于FRN和FFN具有相同的架构，FA损失LFA可以很容易地定义为其特征映射之间的均方误差：
$\mathcal{L}_{FA}=\frac{1}{N}||\sum_{i=0}^N(B_{FFN}^i(G_1(I_l))-B_{FRN}^i(I_l))||^2_2，（12）$
其中 $I_l$ 是任意低质量人脸图像， $B_{FRN}(·)$ 和 $B_{FFN}(·)$ 分别来自解码器 $F_1$ 和 $F_2$ 的最后一块特征表示，N是特征图的数目， $i$ 是第 $i$ 个特征图。
因此，在TI训练过程中的整个损失函数是
$\mathcal{L}_{TI}=\mathcal{L}_r(\hat{I}_{ht},G_1(I_l))+\lambda_4 \mathcal{L}_{id}(\hat{I}_{ht},G_1(I_l))+\lambda_5 \mathcal{L}_{FA}，（13）$
其中 $\hat{I}_{ht}$ 是FFN的输出， $\lambda_4$ 和 $\lambda_5$ 是不同损失的权重参数。在FRN-TI训练过程中，FFN生成对齐的图像和特征来指导FRN中的人脸生成。在任务整合训练完成后，FRN-TI能够自己生成正面化的高质量人脸。

4.实验

实现人脸图像的大小固定为128×128；约束因子 $λ_1, λ_2, λ_3, λ_4$ 和 $λ_5$ 分别固定为 $10^4$ ， $10^4$ ， $10^4$ ， 0.1和1；批次大小设置为8；FRN、FFN、PCD和ICD的初始学习率 $L_r$ 分别为 $10^{−4}$ ， $10^{−4}$ ， $10^{−3}$ 和 $10^{−3}$ 。我们使用2DASL进行三维人脸重建（ X. Tu, J. Zhao, Z. Jiang, Y. Luo, M. Xie, Y. Zhao, L. He, Z. Ma, J. Feng, Joint 3d face reconstruction and dense face alignment from a single image with 2d-assisted self-supervised learning, arXiv）。我们使用ResNet-50初始化人脸识别网络以提取人脸身份特征，该特征是使用AAM Loss在CASIA-Webface数据集上预先训练的。

A.数据集
CASIA-Webface, CMU Multi-PIE, LFW, IJB-C, CelebA

B.面部正面化评价
我们首先验证了MDFR在人脸正面化方面的有效性。在推理过程中，我们给FFN-S和FRN-TI提供了高质量的侧面图像，因此FRN-TI可以看作只关注人脸的正面化。
1）成分分析
2）与最先进结果比较

C.面部重建评价

5.结论

本文提出了一种新的多退化人脸恢复(MDFR)模型。MDFR包含一个双智能体生成器和一个双智能体先验引导判别器，它们相互协作，从含有多个低质量因素和任意人脸姿态的人脸图像中学习正面化的高质量人脸。提出了一种基于三维变形模型的姿态归一化模块(PNM)，将人脸地标归一化到真实正面，作为指导MDFR学习的统一标准。进一步发展了任务整合(TI)训练，将人脸恢复和正面化合并到一个统一的网络中。当TI训练完成后，MDFR能够从任意脸部姿势的低质量人脸图像中恢复正面和高质量的人脸图像，而不需要任何事先输入的标志点。证明了与单独进行人脸恢复和正面化相比，所提出的统一框架输出的人脸图像更具有视觉真实感，并且为人脸识别保留了更具区分性的特征。在受控人脸基准和“野外”人脸基准上的综合实验表明，与其他最先进的人脸正面化和人脸恢复方法相比，该方法具有更好的性能。