论文翻译：Learning to Discover Cross-Domain Relations with Generative Adversarial Networks（适合国人习惯）

摘要

尽管人们无需任何监督就可以轻松识别来自不同域的数据之间的关系，但是学会自动发现它们通常是非常具有挑战性的，并且需要许多对的事实来说明这种关系。为了避免昂贵的配对，我们解决了在未配对数据的情况下发现跨域关系的任务。我们提出了一种基于生成对抗网络的方法，该方法学会发现不同域之间的关系（DiscoGAN）。利用发现的关系，我们提出的网络成功地将样式从一个域转移到了另一个域，同时保留了诸如方向和面部识别之类的关键属性。

1介绍

两个不同域之间的关系，如概念，对象或人之间的联系等，这种域之间的关系无处不在。跨域关系通常是人类所固有的。例如，我们认识到英语句子和其法语翻译句子之间的关系。我们还选择西装外套搭配相同样式的裤子或鞋子。

机器能实现相似的能力来关联两个不同的图像域吗？可以将该问题重新表述为条件图像生成问题。换句话说，找到从一个域到另一域的映射函数可以被认为通过在一个域中给一副图像生成另一个域中的另外一副图像的问题。尽管生成对抗网络（GAN）解决的问题（Isola等，2016）最近引起了极大关注，但当今大多数训练方法都使用由人或其他算法提供的显式成对的数据。

从研究的角度来看，这个问题也带来了有趣的挑战。明确的能受到监督的数据对太少了并且专门去标注需要大量的劳动。另外，如果在一个域中缺少相应的图像或存在多个最佳候选者，则配对的图像可能会变得棘手。因此，我们在没有任何明确配对的数据的情况下发现两个视觉域之间的关系向前迈进了一步。

为了应对这一挑战，我们引入了一个模型，该模型发现了与GAN（DiscoGAN）的跨域关系。与以前的方法不同，我们的模型可以使用两组图像进行训练，但是无需任何显式的数据对（请参见图1a），并且不需要任何预训练。然后，我们提出的模型可以将一个域中的一个图像作为输入，并在另一个域中生成其对应的图像（参见图1b）。我们模型的核心是基于耦合在一起的两个不同的GAN –每个GAN都可以确保我们的生成功能可以将每个域映射到其对应域。我们依赖的一个主要直觉是将一个域中的所有图像约束为可由另一域中的图像表示。例如，当学习基于每个手提包图像生成鞋子图像时，我们通过重建损失强制此生成的图像成为手提包图像的基于图像的表示（并因此重构手提包图像），并且尽可能地接近通过GAN损失尽可能地获取鞋域中的图像。我们使用这两个属性来鼓励在两个方向上都很好地覆盖两个域之间的映射（即鼓励一对一而不是多对一或一通）。在实验部分，我们证明了这种简单的直觉很好地发现了两个域的共同属性和样式

图一：（a）从两个独立的集合（例如手提包图片和鞋子图片）展示了我们模型训练过程的高级概览。（b）和（c）显示了我们方法的结果。我们的方法将手提包（或鞋子）图像作为输入，并生成其相应的鞋子（或手提包）图像。再次提醒您，我们的方法不需要任何额外的操作
带注释的监督，并且可以自我发现域之间的关系。
在玩具领域和真实世界图像数据集上的实验都支持这样的说法，即我们提出的模型非常适合发现跨域关系。当在简单的二维域之间以及人脸图像域之间转换数据点时，与其他两个基线模型相比，我们的DiscoGAN模型在崩溃问题上更健壮。它还学习了两个图像域（例如，面孔，汽车，椅子，边缘和照片）之间的双向映射，并将它们成功地应用于图像翻译中。翻译后的图像始终保持指定的属性，例如头发的颜色，性别和方向，同时保留所有其他成分。结果还表明，我们的模型对于重复应用翻译映射具有鲁棒性。

2模型

现在，我们正式定义跨域关系，并提出学习在两个不同域中发现这种关系的问题。我们研究了标准GAN模型和具有其他组件的类似变体模型在此任务中的适用性。然后解释了这些模型的局限性，我们提出了一种基于GAN的新体系结构，可用于发现跨域关系。

2.1公式

关系在数学上定义为函数GAB，该函数将元素从其域A映射到其共域B中的元素，GBA的定义与此类似。在完全不受监督的设置中，可以任意定义GAB和GBA。为了找到有意义的关系，我们将关系约束为一对一的对应关系（双射映射）。这意味着GAB是GBA的逆映射。函数GAB的范围应包含在域B中，GBA（xB）也如此。

现在，我们将这些约束与目标函数联系起来。理想情况下，应满足等式GBA◦GAB（xA）= xA，但是这种硬约束很难优化，而从优化角度来看，宽松的软约束更为可取。因此，我们将距离d（GBA◦GAB（xA），xA）最小化，其中可以使用任何形式的度量函数（L1，L2，Huberloss）。同样，我们还需要最小化d（GAB◦GBA（xB），xB）。

确保GAB映射到域B的优化其实也非常困难。我们按如下方式放宽此约束：取而代之的是，使生成的对抗性损失最小化。类似地，我们最小化。
现在，我们探索几种GAN架构，以学习这些损失函数。

2.2架构符号

2.2。符号和架构
我们在以下各节中使用以下符号。生成器网络表示为，下标表示输入和输出域，上标表示输入和输出图像大小。鉴别器网络表示为，下标B表示它区分域B中的图像。GBA和DA的用法类似。

每个生成器处理尺寸为64×64×3的图像，并将其通过一对编码器/解码器。每个生成器的编码器部分由带4×4滤波器的卷积层组成，每个滤波器后面都有leakyReLU（Maas等，2013； Xu等，2015）。解码器部分由具有4×4滤波器的反卷积层组成，后跟ReLU，并输出尺寸为64×64×3的目标域图像。卷积和解卷积的层数从四到五，这取决于域的情况。

鉴别器类似于发生器的编码器部分。除卷积层和leakyReLU之外，鉴别器还有一个附加的卷积层，该层具有4×4核，以及一个最终的S型，可输出标量输出[0,1]。

2.3 GAN重建损失

我们首先考虑用于关系发现任务的标准GAN模型（Goodfellow等，2014）（图2a）。最初，标准GAN接收随机的高斯噪声z，将其编码为隐藏特征h，并生成诸如MNIST数字之类的图像。我们对该模型进行了少许修改以适合我们的任务：我们使用的模型将图像作为输入而不是噪声。

图2.三种调查模型
（a）标准GAN（Goodfellow等，2014）
（b）具有重建损失的GAN
（c）我们提出的模型（DiscoGAN），旨在发现两个未配对且未标记的数据集之间的关系。细节在第3节中描述。

另外，由于此体系结构仅学习从域A到域B的一个映射，因此我们添加了第二个生成器，它将域B映射回域A（图2b）。我们还添加了一个重建损失项，将输入图像与重建图像进行比较。通过这些附加更改，模型中的每个生成器都可以学习从其输入域到输出域的映射，并发现它们之间的关系。
生成器GAB将输入图像X(A)从域A转换为域B中的X(AB)。然后，将生成的图像转换为域A图像x(ABA)以匹配原始输入图像（公式1、2）。各种形式的距离函数，例如MSE，余弦距离和铰链损耗，都可以用作重建损耗d（公式3）。然后，鉴别器对翻译后的输出xAB进行评分，并将其与真实域B样本xB进行比较。（整个的变化过程可以看下面的四个公式）

生成器GAB接收两种类型的损耗：重建损耗LCONSTA（公式3），它测量经过两代的序列后原始输入的重构程度；标准GAN生成器loss为LGANB（公式4），它测量生成的信号的真实性图像位于域B中。鉴别器接收公式6的标准GAN鉴别器损耗。

在训练过程中，生成器GAB在两个宽松的约束条件下学习了从域A到域B的映射：域A映射到域B，并且域B上的映射重构为域A。但是，此模型在映射上没有约束从B到A，并且这两个条件单独不能保证跨域关系（如2.1节中定义），因为满足这些约束的映射是单向的。换句话说，映射是注入，而不是双射，并且不能保证一对一的对应关系。

考虑两个可能的多模态图像域A和B。图3以简化的一维表示形式说明了两个多模态数据域。图3a显示了从输入域A到域B的理想映射，其中每种数据模式都映射到目标域中的单独模式。相反，图3b显示了模式崩溃问题，这是GAN中普遍存在的现象，其中来自域的多个模式的数据映射到不同域的单个模式。例如，在这种情况下，制图GAB将两个不同方向的汽车图像映射到相同模式的面部图像。

从某种意义上说，在标准GAN上增加重建损失是对纠正模式崩溃问题的尝试。在图3c中，两个域A模式与相同的域B模式匹配，但是域B模式只能定向到两个域A模式之一。尽管额外的重建损失LCONSTA迫使重建的样本与原始样本匹配（图3c），但这种变化仅会导致类似的对称问题。重建损失导致两个状态之间的振荡，并且不能解决模式崩溃。

我们为这种域之间的关系发现而提出的GAN模型-DiscoGAN-结合了先前提出的模型（图2c）。两个耦合模型中的每一个都学习从一个域到另一个域的映射，以及反向映射以进行重构。同时训练两个模型。两个生成器GAB和两个生成器GBA共享参数，并将生成的图像xBA和xAB分别馈入单独的标识符LDA和LDB。

discoGan模型和先前模型的一个主要区别是来自两个域的输入图像都被重建，并且存在两个重建损失：LCONST A和LCONST B。

耦合两个模型的结果，总生成loss是每个局部模型的GANloss和重构loss之和（公式7）。类似地，总鉴别器损失LD是两个鉴别器DA和DB的鉴别器损失的总和，这两个鉴别器DA和DB鉴别域A和域B的真实图像和伪图像（等式8）。

这样，该模型就受到两个LGAN损失和两个LCONST损失的约束。因此，实现了双射映射，并且可以发现我们定义为跨域关系的一对一对应关系。

3 实验

3.1 小型域试验

为了从经验上证明说明标准GAN，具有重建损失的GAN与我们提出的模型（DiscoGAN）之间的差异的解释，我们基于二维空间的A和B域中的合成数据设计了一个说明性实验。源数据样本和目标数据样本均来自高斯混合模型。

图4：小型的域实验结果。彩色背景显示鉴别器的输出值。 “ x”标记表示B域中的不同模式，彩色圆圈表示域A到域B的映射样本，其中每种颜色对应于不同的模式。
（a）十个目标域模式和初始映射，
（b）标准GAN模型，
（c）带有重建损失的GAN，
（d）我们提出的
在图4中，最左边的图显示了小型的域实验的初始状态，其中由于生成器的初始化，所有A域模式都映射到几乎一个点。对于所有其他图，将显示目标域2D平面以及标有黑色“ x”的目标域模式。 B域平面上的色点表示映射到B域的A域样本，每种颜色表示每种A域模式的样本。在这种情况下，任务是发现A和B域之间的跨域关系，并将样本从五个A域模式转换为B域，该B域具有十个围绕圆弧分布的模式。

我们使用具有三个linear layer的神经网络，每个linear layer后跟ReLU非线性生成器。对于鉴别器，我们使用五个linear layer，每个线性层后跟一个ReLU，除了最后一层是用输出标量∈[0,1]的S形变换的。彩色背景显示鉴别器DB的输出值，该输出值将实际目标域样本与域A的合成翻译样本进行区分。轮廓线显示了具有相同鉴别器值的区域。

训练进行了50,000次迭代，由于对照的域简单，我们的模型通常收敛得更早。该实验的结果与我们的权利要求和图4中的插图相符，并且根据所使用的模型，所得域转换后的样本显示出截然不同的行为。

在基准（标准GAN）情况下，许多不同颜色的翻译点位于同一B域模式周围。例如，海军和浅蓝色的点，以及绿色和橙色的点都放置在一起。该结果说明了GAN的模式崩溃问题，因为多种颜色（多个A域模式）的点被映射到相同的B域模式。在整个迭代过程中，基线模型仍然围绕B模式振荡。

在具有重建损失的GAN情况下，模式崩溃问题不那么普遍，但是海军蓝，绿色和浅蓝色点在某些模式下仍然重叠。等高线图还显示了与基线的差异：所有B模式周围的区域在基线中处于绿色高原上，从而使翻译后的样本可以在模式之间自由移动，然而在单个模型情况下，B模式之间的区域清楚地分开了。

另外，由于从A域到B域的映射是内射的，因此该模型和标准GAN模型都无法覆盖B域中的所有模式。另一方面，我们提出的DiscoGAN模型不仅能够通过转换成不重叠的不同边界区域来防止模式崩溃，而且还能在所有十个模式下生成B样本，因为我们模型中的映射是双射的。值得注意的是，围绕B域模式的A域转换后的样本完全欺骗了B域的标识符。

尽管此实验由于其简单性而受到限制，但结果显然支持了我们提出的模型相对于GAN的其他变体的优越性。

3.2实域实验

为了评估我们的DiscoGAN是否成功学习了域之间的潜在关系，我们使用了几种图像到图像的转换任务来训练和测试我们的模型，这些任务需要使用发现的源域和目标域之间的跨域关系。

在每个实域实验中，所有输入图像和翻译图像的尺寸均为64×64×3。对于训练，我们使用的学习率为0.0002，并使用Adam优化器（Kingma和Ba，2015年），β1= 0.5，β2= 0.999。。我们将批处理归一化（Ioffe＆Szegedy，2015）应用于除第一和最后一层之外的所有卷积和反卷积层，权重衰减正则化系数为10−4，最小批量为200。 Titan X Pascal GPU和Intel®Xeon®E5-1620 CPU。

3.2.1 car to car face to face

我们使用了Car数据集（Fidler等，2012），该数据集包含3D汽车模型的渲染图像，这些图像以15°的间隔变化了方位角。我们将数据集分为训练集和测试集，然后再次将训练集分为两组，每组分别用作A域和B域样本。除了训练标准GAN模型，具有重建模型的GAN和拟议的DiscoGAN模型之外，我们还训练了使用火车集预测汽车图像方位角的回归器。为了进行评估，我们使用三个训练过的模型中的每一个在测试集中翻译了图像，并使用回归器对输入图像和翻译后的图像预测了方位角。图5显示了每个模型的输入图像和转换图像的预测方位角。在标准GAN和具有重构功能的GAN（5a和5b）中，大多数红点被分组在几个簇中，这表明大多数输入图像被转换为具有相同方位角的图像，并且这些模型存在模式崩溃的问题，例如另一方面，我们提出的DiscoGAN（5c）显示了输入图像和翻译图像的预测角度之间的强相关性，这表明我们的模型成功地发现了两个域之间的方位角关系。在此实验中，翻译后的图像要么具有相同的方位角范围（5b），要么具有与输入图像相反的方位角范围（5a和5c）。

图5：汽车对汽车翻译实验。图中的水平轴和垂直轴表示输入图像和转换图像的预测方位角，其中输入图像的角度范围为-75°至75°。每幅图中均显示了关于地面真相的RMSE（蓝线）。
第二行中的图像是输入汽车图像的示例，间隔为-75度至75度，间隔为15o。
第三行中的图像是相应的翻译图像。（a）标准GAN图（b）重建后的GAN（c）DiscoGAN。当使用我们提出的DiscoGAN模型时，输入和输出图像的角度高度相关。请注意，输入和平移的汽车图像的角度相对于0°（即镜像）反转。

接下来，我们使用如图6a所示的Face数据集（Paysan等，2009），其中数据图像的方位角旋转范围从-90°到+ 90°。与先前的汽车到汽车实验相似，在-90o至+ 90o旋转范围内的输入图像会生成在-90度至+ 90度相同范围内的图像，或者在从+ 90度至-90度的相反范围内生成输出图像。当使用我们提出的模型时（图6d）。我们还训练了标准GAN和具有重建损失的GAN进行比较。当使用标准GAN和具有重建损失的GAN时，就旋转而言，生成的图像变化不如输入图像大。从这个意义上讲，类似于先前的“汽车到汽车”实验中显示的那样，这两个模型都遭受了模式崩溃。

图6.面对面翻译实验。
（a）从-90°到+ 90°的输入人脸图像
（b）是标准GAN的结果
（c）GAN造成的图像重建损失
（d）是我们的DiscoGAN的结果。
在这里，我们的模型生成的图像范围相反，范围为+ 90o至-90o。

3.2.2 面部转换

就两个域之间的相关信息量而言，我们可以考虑一些极端情况：两个域共享几乎所有功能和两个域仅共享一个功能。为了研究前一种情况，我们在CelebAdataset上应用了面部属性转换任务（Liu等人，2015），其中只有一个特征（例如性别或头发颜色）在两个域之间变化，并且所有其他面部特征都被共享。结果在图7中列出。

图7：
（a，b）Facescrub数据集和CelebA数据集中的性别转换。
（c）CelebA数据集中的金色到黑色和黑色到金色的颜色转换。
（d）CelebA数据集中戴眼镜的转换
（e）应用性别和发色转换序列的结果（从左到右）
（f）重复应用相同的转换结果（上：发色，下：性别）
在图7a中，我们可以看到，在改变少量所需属性（性别）的同时，各种面部特征得到了很好的保留。同样，图7b和7d显示背景也得到了很好的保存，并且图像在视觉上是自然的，甚至在某些情况下背景确实发生了变化，例如图7c。此实验的扩展是依次应用替换翻译-例如，更改性别，然后更改头发颜色（7e），或重复应用性别转换（7f）。

图8：从视觉上非常不同的对象类中发现图像的关系。
（a）汽车椅子转换。 DiscoGAN接受了椅子和汽车图像的训练（b）汽车与面的翻译。 DiscoGAN接受过汽车和面部图像方面的训练。我们的模型成功配对了具有相似方向的图像。

图9：照片边缘实验。我们的模型在一组对象草图和彩色图像上进行训练，并学会生成新的草图或照片。
（a）手袋的彩色图像是从手袋的草图生成的；
（b）鞋子的彩色图像是从鞋的草图生成的；
（c）手袋的草图是从手袋的彩色图像生成的

3.2.3 椅子到汽车，汽车到脸

我们还研究了相反的情况，即两个域之间只有一个共享功能。此任务使用椅子的3D渲染图像（Aubry等，2014）以及以前使用的汽车和面部数据集（Fidler等，2012； Paysan等，2009）。所有三个数据集均沿方位角旋转而变化。图8显示了从椅子到汽车以及从汽车到面部数据集的图像到图像转换的结果。翻译后的图像与输入图像的旋转特征明显匹配，同时分别保留了汽车和人脸区域的视觉特征。

3.2.4 边缘转换照片

边缘到照片是一个有趣的任务，因为这是一个1-to-N问题，其中诸如鞋子和手提包之类的物品的单个边缘图像可以生成此类物品的多个彩色图像。实际上，可以以多种方式对边缘图像进行着色。我们验证了我们的DiscoGAN在这类图像到图像的翻译任务中表现出色，并生成了手袋（Zhu等人，2016）和鞋子（Yu＆Grauman，2014）的逼真的照片。生成的图像如图9所示。

3.2.5。鞋子到时尚鞋子，时尚鞋子到鞋子

最后，我们调查了两个域在视觉上截然不同的情况，这些域的共享功能甚至对人类来说都不明显。我们使用以前使用的手袋和鞋子数据集训练了DiscoGAN，没有假定这两者之间有任何特定的关系。在图1所示的翻译结果中，我们提出的模型发现时尚风格是两个领域之间的相关特征。请注意，翻译结果不仅具有相似的颜色和图案，而且与输入的时尚商品具有相似的时尚形式水平。

4.相关工作（初学者很值得读一读）

最近，一种训练生成模型的新方法，称为生成对抗网络（GAN）（Goodfellow等，2014）。 GAN由两个模块组成-生成器G和鉴别器D。生成器的目的是生成（合成）数据样本，其分布与实际数据样本的分布紧密匹配，而鉴别器的目标是将实际样本与生成的样本区分开。同时被训练为两人minimax游戏的两个模型G和D。

研究人员在两年内对GAN进行了深入研究：网络模型如LAPGAN（Denton等，2015）和DCGAN（Radford等，2016）以及改进的训练技术（Salimans等，2016; Arjovsky等，2017））。在（Goodfellow，2017）中描述了更近期的GAN工作。

几种基于GAN生成图像的方法。条件生成对抗网络（cGAN）（Mirza和Osindero，2014年）使用MNIST数字类标签作为生成器和鉴别器的附加信息，并且可以生成指定类的数字图像。同样，Dosovitskiy等。（2015年）表明，GAN可以根据指定的特征代码（例如颜色和视点）生成对象的图像。其他方法使用来自完全不同域的条件特征进行图像生成。例如，Reed等。（2016年）使用图像的编码文本描述作为条件信息，以生成与描述匹配的图像。

一些研究人员尝试在先前的工作中使用多个GAN。（Liu＆Tuzel，2016）建议结合两个GAN（耦合生成对抗网络，CoGAN），其中两个生成器和两个鉴别器通过权重共享进行耦合，以学习两个不同域中图像的联合分布，而无需使用成对数据。在Stacked GAN（StackGAN）中（Zhang等，2016），两个GAN顺序排列，其中Stage-I GAN在给定文本描述的情况下生成低分辨率图像，而Stage-II GAN将生成的图像改进为高分辨率图像。同样，Style and Structure GAN（S2GAN）（Wang＆Gupta，2016）使用了两个顺序连接的GAN，其中Structure GAN首先生成表面法线图像，Style GAN将其转换为自然的室内场景图像。

为了控制图像的特定属性，T。Kulkarni＆P. Kohli（2015）提出了一种通过显式控制目标代码来区分特定因素的方法。 Perarnau等。（2016）通过训练属性预测器和潜在编码器解决了以特定属性向量为条件的图像生成问题。

除了使用诸如类标签和文本编码之类的条件信息之外，图像到图像翻译领域中的一些著作还使用一个域的图像来生成另一个域的图像。（Isola等人，2016）通过训练成对的黑白和彩色图像数据，将黑白图像转换为彩色图像。同样，Taigman等。（2016）通过提供来自预训练的面部识别模块的图像特征作为GAN的条件输入，将面部图像转换为表情符号。

最近，Tong等。（2017）解决了GAN训练中的模式崩溃和不稳定问题。他们介绍了两种对常规GAN目标进行正则化的方法-几何度量正则化器和模式正则化器。

5.结论

本文提出了一种学习方法，该方法可通过称为DiscoGAN的生成对抗网络发现跨域关系。我们的方法无需任何明确的配对标签即可工作，并学会关联非常不同领域的数据集。我们已经证明DiscoGAN可以生成具有转移样式的高质量图像。未来的一个可能方向是修改DiscoGAN以处理混合形式（例如文本和图像）。