A Style-Based Generator Architecture for Generative Adversarial Networks翻译

本文的风格如果理解为样式，可能更好。翻译为风格主要是因为提到了风格迁移。

摘要

我们借鉴风格迁移文献，提出了一种可选择的生成对抗网络的生成结构。新的体系结构引导高层次属性的自动学习与无监督分离（比如面部位姿与身份），也对生成图像进行随机转换（比如雀斑，头发等）。它可以直观、按比例控制合成。新的生成器改进了传统分布质量度量方面的最新技术，导致明显更好的插值特性，也更好地分离了潜在的变化因子。为了量化插值质量和分离，我们提出了两种适用于任何生成器体系结构的新的自动化方法。最后，我们介绍了一种新的、高质量的、高变化的人脸数据集。

1.介绍

生成方法生成的图像的分辨率和质量---尤其是生成对抗网络---最近可以看出来有了显著的提升。但是生成器还是像黑盒子一样操作。尽管最近做了很多努力，但是对图像合成过程各个方面以及随机特征的根源的理解仍然缺乏。对于潜在空间（Z?）的性质也不太清楚。而通常表示出来的潜在空间插值也不能与别的生成器生成的潜在空间进行比较。

通过风格迁移启发，我们重新设计了生成器架构，以展示控制图像合成过程的新方法。我们的生成器从一个已学习的常量输入开始，根据潜在编码调整每个卷积层上图像的“风格”，从而直接控制不同尺度下图像特征的强度。结合直接输入到网络的噪声，这种结构变化导致高层属性（位姿，身份）的自动、无监督地从生成图像的随机变化中（雀斑，头发）分离，并支持直观的比例混合和插值操作。我们不以任何方式修改判别器或损失函数，因此，我们的工作与目前关于GAN损耗函数、正则化和超参数的讨论是正交的。（正交可能表示与那些讨论不相关）。

我们的生成器将输入的潜在编码嵌入到一个中间的潜在空间中，这对网络中变化因素怎样被表示有着深远的影响。输入的潜在空间必须遵循训练数据的概率密度，我们认为这会导致某种程度上的不可避免的牵连。我们中间的潜在空间不受这个限制，因此可以被分离。由于先前估计潜在空间分离程度的方法不直接适用于我们的情况，我们提出了两个新的自动化指标---感知路径长度与线性可分性---用于量化生成器的这些方面（这些方面应该指潜在空间分离程度）。使用这些指标，我们展示了与传统的生成器架构相比，我们的生成器允许对不同的变化因素进行更线性、更少牵连的表示。（意思可能是能够把头发特征，肤色特征等更好的分开表示）。

最后，我们提出了一个新的人脸数据集（Flickr-Faces-HQ, FFHQ），它提供了比现有高分辨率数据集更高的质量和更广泛的变化（详见附录A）。我们已经公开了这个数据集以及我们的源代码和预训练网络。可在同一链接找到附带视频。

2.基于风格的生成器

传统上，潜在代码是通过输入层---前馈网络的第一层，来提供给生成器的。我们从这个设计出发，完全省略了输入层，而是从一个学习的常数开始。如下图所示:

在输入潜在空间 $Z$ 中给定一个潜在编码 $z$ ，一个非线性映射网络 $f:Z\rightarrow W$ 首先计算得到 $w\epsilon W$ 。为了简单起见，我们把两个空间的维数都设为512（应该指Z与W），并且映射函数 $f$ 用了8层MLP，我们将在4.1节分析为什么要8层。学习到的仿射变换专门把 $w$ 用到风格 $y=\left ( y_{s},y_{b} \right )$ 。这个风格是用来控制生成网络 $g$ 的每个卷积层之后的AdaIN（自适应实例归一化）操作的。AdaIN定义为：

$AdaIN\left ( x_{i},y \right )=y_{s,i}\frac{x_{i}-\mu \left ( x_{i} \right )}{\sigma \left ( x_{i} \right )}+y_{b,i}$

其中每个特征图是分别归一化的，然后用相应的风格 $y$ 的标量成分缩放与偏置。因此， $y$ 的维数是该层上特征图的两倍。

把我们的方法与风格迁移比较，我们从向量 $w$ 中计算得到空间上的不变的风格 $y$ ，而不是从风格图像学习。我们重新使用‘风格’这个字眼是因为类似的网络结构已经在风格迁移，无监督image-to-image转换和多域混合（domain mixtures,不懂）上使用。与更一般的特征转换相比，AdaIN特别适用于我们的目标，因为它特别高效且有紧凑的表示。

最后，我们通过引入显式噪声输入，为生成器提供了生成随机细节的直接方法。噪声输入是由不相关高斯噪声组成的单通道图像，我们为生成网络的每一层提供一个专用的噪声图像。噪声图像使用学习到的每一个特征比例因子传送到所有特征图，然后添加到相应卷积的输出中。就像上图（b）说明的那样。第3.2节和第3.3节讨论了增加噪声输入的含义。

2.1生成图像的质量

在研究生成器的特性之前，我们通过实验证明，重新设计并没有影响图像质量，但事实上，它大大提高了图像质量。表一分别在两个数据集上给出了各种生成器结构的FID指标。还有其他的一些数据集结果在附录E。

我们的基本配置（A）是Karra的Progressive GAN，我们从中继承了网络与所有超参数，除非另有说明。我们首先选择的改进是使用上线性上/下采样操作，更长的训练和调整超参数（B）。训练设置和超参数的详细说明包含在附录C。然后，我们通过添加映射网络和AdaIN操作进一步改进（C）。令人惊讶的是，网络不再从输入第一个卷积层潜在编码获得效益。因此，我们通过移除传统的输入层并从一个学习好的4*4*512的张量来合成图片（D）。我们发现生成网络能够获得有意义的结果，即使它只从控制AdaIN的风格进行输入，这是可圈可点的一个地方。

最后，我们引入了噪声输入（E），进一步提升结果。也引入新的混合正则化（F）,这样可以消除相邻风格的相关性，也能更好地控制黑人图像的生成。

我们使用两种不同的损失函数来评估我们的方法，对于CELEBA-HQ，我们基于WGAN-GP，而对于FFHQ，配置A使用WGAN-GP，配置B-F使用了非饱和损失和R1正则化。我们发现这样选择能产生最好的结果。我们的贡献不会改变损失函数。我们观察到基于风格的生成器（E）比传统生成器（B）显著地改进了FID指标，几乎提高了20%，证实并行工作中的大规模ImageNet测量（这一句翻译过来是这样的，但是不知道说明意思）。图2显示了使用我们的生成器从FFHQ数据集生成的一组未分级的新图像。

就如FID参数验证的那样，平均质量很高，甚至连眼镜、帽子等配饰也能成功合成。对于图像来说，我们使用所谓的截断技巧避免了从 $W$ 的极端区域进行采样。附录B详细说明了如何在 $W$ 而不是 $Z$ 中执行这个技巧。注意，我们的生成器只允许选择性地将截断应用于低分辨率，这样高分辨率的细节就不会受到影响。

本文中的所有FID都是在不使用截断技巧的情况下计算的。我们只将其用于图2和视频中的说明性目的。所有生成图像的分辨率是1024*1024。

2.2现有技术

很多对于GAN结构的工作都注重于提升判别器，比如使用多重判别器，多尺度判别或者自注意力机制。生成器方面的工作主要集中在获取输入潜在空间的确切分布或把输入潜在空间变形，通过比如高斯混合模型，聚类或或鼓励凸性等方式。最近的条件生成器通过单独的嵌入网络将类标识符馈送到生成器中的大量层，当潜在编码仍然通过网络的输入层输入。一些作者已经考虑将潜在代码的一部分提供给多个生成器层。在并行工作中，Chen用AdaIN自我调制网络，这和我们的工作类似，但他没有考虑中间的潜在空间或噪声输入。

3.基于风格的生成器的性质

我们的生成器架构使通过对风格的比例规格修改来控制图像合成成为可能。我们可以将映射网络和仿射转换看作是从学习的分布中为每个风格提取样本的一种方法，将生成网络看作是基于风格集合生成新图像的一种方法。每种风格的效果被局部化到网络中，每种风格修改一种具体的子集来修改图像的具体方面。

为了了解这种局部化的原因，让我们考虑一下AdaIN操作首先如何将每个通道的均值和单位方差标准化为零，然后才根据风格应用比例和偏差。新的每个通道统计信息，根据风格信息，修改了对于后续卷积操作特征的相对重要性（不同的特征重要性不同）。但由于归一化，它们不依赖于原始统计数据。所以在被下一个AdaIN操作覆盖之前，每个风格只控制一个卷积。

3.1风格混合

为了进一步鼓励风格局部化，我们采用混合正则化，其中，给定图像生成的百分比是在训练期间使用两个随机编码而不是一个生成的（可能是不同风格比例的给定）。生成这样的图像时，我们只需从一个潜在编码切换到另一个---我们称之为风格混合的操作---在生成网络中随机选择的点切换。具体来说，我们通过映射网络运算两个潜在代码 $z1,z2$ ，然后有了相应的 $w1,w2$ 来控制风格， $w1$ 在改变之前用， $w2$ 在改变之后用。这种正则化技术防止网络假设相邻风格是相关的。

表2显示了在训练期间启用混合正则化如何显著改进局部化，我们可以从测试时混合多个潜在编码所提升的FIDs上看出。图3给出了在不同尺度上（生成网络不同的阶段）混合两个潜在代码生成的图像的示例。我们可以看到，风格的每个子集都控制图像的有意义的高级属性。

3.2随机变化

人像中有许多方面可以看作是随机的，例如头发的精确位置，胡茬、雀斑或皮肤毛孔。只要它们遵循正确的分布，任何这些都可以随机化而不影响我们对图像的感知。

让我们考虑一下传统的生成器是如何实现随机变化的。假设网络的唯一输入是通过输入层输入，当需要的时候，网络需要发明一种从早期激活层来生成空间变化伪随机数的方法。这会消耗网络容量，并且很难隐藏生成信号的周期性---也并不总是成功，在生成的图像中常见的重复模式就证明了这一点。我们的架构通过每次卷积之后在每个像素添加噪声来避免这些问题。

图4显示了相同底层图像的随机实现，通过不同的噪声加在我们的生成器上。我们可以看到，噪声只影响随机方面，而不影响整体构成和身份等高级方面。图5进一步说明了将随机变化应用于不同层子集的效果。由于这些效果在动画中最容易体现，请参考随附的视频，以演示更改一层的噪声输入如何导致匹配比例的随机变化。

我们发现，有趣的是噪声的影响在网络中呈现出紧密的局部化（特定噪声改变特定的特征？）。我们假设在生成器的任何一点上，都有压力去尽可能引入新内容。对于我们的网络来说，创建随机变化的最简单方法是依赖于所提供的噪声。每一层都有一组新的噪音，因此网络得不到从早期噪声的激活中获取随机效应的刺激（早期噪声影响不到此处产生的随机效果），这导致了局部化效应。

3.3全局效应与随机性的分类

前面的部分以及随附的视频显示，虽然对风格的更改具有全局效应（改变位姿，身份等），噪声只影响无关紧要的随机变化（头发，胡子等）。这一观察结果与风格迁移文献一致，它是基于风格的空间不变统计性（Gram矩阵，通道上的均值与方差）以及具体事物的空间变化性建立起来的。

在我们基于风格的生成器中，风格影响整个图像，因为完整的特征图是用相同的值缩放和偏置的。因此，像位姿，光线，背景等全局效应能够被条理清晰地控制。同时，噪声独立地添加到每个像素，因此非常适合于控制随机变化。如果网络尝试使用噪声控制位姿，这将导致生成器做出空间上有矛盾的决定，然后将受到判别器的惩罚。因此，网络学会适当地使用全局和本地通道，而不需要明确的指导。

4.分离（Disentanglement，大概这么翻译吧）研究

分离有很多定义，但是一个共同的目标是得出一个由线性子空间组成的潜在空间，每个子空间控制一个变化因子。然而， $Z$ 中各因素组合的抽样概率需要与训练数据中相应的密度相匹配（训练集中某种因素较多，则采样概率大）。所有都在图6中说明，这使得这些因子无法与典型数据集和输入潜在分布完全分离。

我们的生成器结构的一个主要优点是，中间潜在空间 $W$ 不必支持任何固定分布的采样，它的采样密度是由学习的分段线性映射 $f\left ( z \right )$ 引入的。这个映射可以调整到未扭曲的 $W$ ，这样变化因子变得更线性。我们假设生成器有这样做的压力，因为基于分离表示比基于纠缠表示更容易生成真实图像。因此，我们期望训练在无监督的情况下产生较少纠缠的 $W$ （即每个变化因子对应一个线性子空间），在我们事先不清楚变化因子的情况下。

不幸的是，最近提出的量化解纠缠的指标需要一个将输入图像映射到潜在编码的编码网络。这些指标不适合我们的目的，因为我们的基础GAN缺少这样的编码器。虽然可以为此目的添加额外的网络，但我们希望避免将精力投入到不属于实际解决方案的部分。为此目的，我们描述了两种量化解纠缠的新方法，两者都不需要编码器或已知的变化因子。因此对于任何图像数据集和生成器都是可计算的。

4.1感知路径长度（法1）

正如Laine所指出的，隐空间向量的插值可能会在图像中产生令人惊讶的非线性变化。比如，任何端点都不存在的特征可能出现在线性插值路径之中。这表明潜在空间是纠缠的，变化的因子没有被恰当地分开。为了量化这种影响，我们可以测量当我们在潜在空间进行插值时，图像经历了多大的变化。直观地说，一个较低弯曲（接近线性）的潜在空间应该比一个高度弯曲（非线性）的潜在空间在感知（高层特征）上的转换更加平滑。

作为我们度量的基础，我们使用基于感知的成对图像距离，这个距离计算为两个VGG16嵌入之间的加权差，权重在嵌入中是适用的，这样这个度量才符合人类的感知。如果我们将一个潜在的空间插值路径细分为线性段，我们可以定义此分段路径的总感知长度为每个分段的感知差异之和，正如图像距离度量所报告的那样。感知路径长度的自然定义是在有限细分下的总和的限制。但实际上，我们使用一个小的细分 $\varepsilon=10^{-4}$ 来近似它。因此，在所有可能的端点上，潜在空间 $Z$ 中的平均感知路径长度是：

其中 $z1,z2\sim P\left ( z \right ),t\sim U\left ( 0,1 \right )$ ，G是生成器，d评价结果图像之间的感知距离。这里slerp表示球面插值，这是在我们的标准化输入潜空间中，最合适的插值方法。为了集中于面部特征而不是背景，我们在评估成对图像度量之前，将生成的图像裁剪为仅包含面部。由于度量d是二次的，我们除以 $\varepsilon ^{2}$ ，我们通过抽取100000个样本来计算期望值。

以类似的方式计算 $W$ 中的平均感知路径长度:

唯一的区别是插值操作是在 $W$ 空间。因为 $W$ 中的向量没有以任何方式标准化的，所以我们使用线性插值。

表3显示，对于我们的基于风格的带噪声输入的生成器，完全路径长度实际上更短，这表明 $W$ 在感知上比 $Z$ 更线性。然而，这种测量实际上有点偏向于输入潜在空间 $Z$ 。如果 $W$ 确实是 $Z$ 的一个分离和“展平”的映射，它可能包含不在输入流上的区域---这样会导致生成器重构效果很差---即使在输入流映射的区间内，而输入潜空间 $Z$ 通过定义没有这样的区域。因此，如果我们将度量限制在路径端点，t∈{0,1}，我们应该能够在 $l_{z}$ 不受影响的情况下获得较小的 $l_{w}$ 。这正是我们在表3中观察到的。

表4显示了映射网络如何影响路径长度。我们发现，传统和基于风格的生成器都能从映射网络得到优化，并且附加深度通常会改进感知路径长度以及FIDs。有趣的是，虽然 $l_{w}$ 在传统的生成器中有所改进，但 $l_{z}$ 却变得相当糟糕。说明了我们所说的输入潜在空间确实可以任意地纠缠在GANs中。

4.2线性可分性（法2）

如果一个潜在的空间是完全分离的，那么就有可能找到与个别变化因子一致的方向矢量（某个特定方向矢量代表某个变化因子）。我们提出了另一种度量方法，通过测量潜在空间点被线性超平面分成两个不同的集合能分的多好来量化这种影响，这样每个集合就对应一个具体的图像的二进制属性。

为了对生成的图像进行标记，我们训练辅助分类网络以获得一些二值属性来区分男性和女性面孔。在我们的测试中，分类器的结构与我们使用的鉴别器相同，并使用CELEBA-HQ数据集进行训练，该数据集保留了原始CELEBA数据集中的40个可用属性。为了衡量一个属性的可分性，我们使用 $z\sim P\left ( z \right )$ 生成200000张图像，并使用辅助分类网络对其进行分类。然后，我们根据分类条件对样本进行排序，去掉至少确定的一半，得到100000个标记的潜在空间向量。

对于每个属性，我们使用线性支持向量机预测基于潜在空间点的标签，传统的预测 $z$ ，基于风格的预测 $w$ ，然后把这些点按这个平面分类。然后我们计算条件熵 $H\left ( Y|X \right )$ ， $X$ 是SVM预测的类， $Y$ 是预先训练好的分类器预测的类。这说明了需要多少附加信息来确定样本的真实类，已知我们知道它位于超平面的哪一边。一个较低的值表示对应的变化因子一致的潜在空间方向。

我们计算最终的可分性得分为 $exp\left ( \sum _{i}H\left ( Yi|Xi \right ) \right )$ ，其中i表示了40个属性。类似于初始分数，指数化将值从对数域带到线性域，以便更容易比较。

表3和表4显示 $W$ 始终比 $Z$ 更好地可分，这表明了更少的纠缠表示。此外，增加映射网络的深度可以提高 $W$ 中的图像质量和可分性，这与合成网络本身有利于分离输入表示的假设是一致的。有趣的是，在传统的生成器前面添加一个映射网络会导致 $Z$ 中可分性的严重缺失，但会改善中间潜在空间 $W$ 中的情况，并且FID也会改进。这表明，当我们引入一个不必遵循训练数据分布的中间潜在空间时，即使是传统的生成器架构也会表现得更好。

剩余部分为结论以及附录等，实在翻译不动了。

看完以上部分，可以看下https://blog.csdn.net/a312863063/article/details/88795147，某大牛的解读，看完豁然开朗。顺便反思下为什么我就读不出别人解析时的意思呢？是我英文太菜？

A Style-Based Generator Architecture for Generative Adversarial Networks翻译相关推荐

020_SSSS_A Style-Based Generator Architecture for Generative Adversarial Networks(StyleGAN)
A Style-Based Generator Architecture for Generative Adversarial Networks(StyleGAN) 1. Introduction 本 ...
MM2018/风格迁移-Style Separation and Synthesis via Generative Adversarial Networks通过生成性对抗网络进行风格分离和合成
Style Separation and Synthesis via Generative Adversarial Networks通过生成性对抗网络进行风格分离和合成 0.摘要 1.概述 2.相关工 ...
A Style-Based Generator Architecture for Generative Adversarial Networks---阅读笔记
这篇文章是根据一个数据集来生成各种风格的图片,可以认为是GAN-2.0版本.使用FID距离来判断生成的图片是不是真实的. 下图就是产生图片,几乎可以以假乱真. 现在有一种想法,让时频二维图尽可能的仿真 ...
ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks 翻译
ESRGAN:增强型超分辨率生成对抗网络项目地址:https://github.com/xinntao/BasicSR 摘要超分辨率生成对抗网络(SR GAN)[1]是一项开创性的工作,能够在单图 ...
GAN网络学习入门之：A Beginner's Guide to Generative Adversarial Networks (GANs)-翻译
译自:https://wiki.pathmind.com/generative-adversarial-network-gan 你可能认为编码者不是艺术家,但是编程是一个极具创意的职业.它是基于逻辑的 ...
【论文学习】《Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks》
<Parallel WaveGAN : A fast waveform generation model based on generative adversarial networks wit ...
论文翻译：2019_Bandwidth Extension On Raw Audio Via Generative Adversarial Networks
论文地址:原始音频的带宽扩展通过生成对抗网络博客作者:凌逆战博客地址:https://www.cnblogs.com/LXP-Never/p/10661950.html 摘要基于神经网络的方法最 ...
ESRGAN - Enhanced Super-Resolution Generative Adversarial Networks论文翻译——中英文对照
文章作者:Tyan 博客:noahsnail.com | CSDN | 简书声明:作者翻译论文仅为学习,如有侵权请联系作者删除博文,谢谢! 翻译论文汇总:https://github.com ...
【文献阅读】Perceptual Generative Adversarial Networks for Small Object Detection –CVPR-2017
Perceptual Generative Adversarial Networks for Small Object Detection 2017CVPR 新鲜出炉的paper,这是针对small ...

A Style-Based Generator Architecture for Generative Adversarial Networks翻译

A Style-Based Generator Architecture for Generative Adversarial Networks翻译相关推荐

最新文章

热门文章