收敛更快的投影GAN

PDF:https://www.cvlibs.net/publications/Sauer2021NEURIPS.pdf

Supplementary :https://www.cvlibs.net/publications/Sauer2021NEURIPS_supplementary.pdf

code: GitHub - autonomousvision/projected_gan: [NeurIPS'21] Projected GANs Converge Faster


一、本文做了什么?

(1)Projected GANs主要的贡献是多尺度判别器,多尺度判别器主要的改进是两部分:CCM(跨通道混合)和CSM(跨尺度混合),

(2)而生成器G它没有自己设计而是使用的FastGAN的生成器G,(作者测试了styleGAN2和FastGAN,但是发现FastGAN表现更好)

GANs面临各种挑战:如学习不稳定、巨大的计算成本和超参数调整:

在这篇文章中,通过在Discriminator中使用预训练模型稳定GAN的训练,提高了生成图像的质量、采样效率和收敛速度,并显示出比StyleGAN2-ADA和FastGAN 更好的结果。(本文是首次利用预训练表示学习模型在Unconditional的图像生成的任务中使用,并且讨论了如果只是直接用很强的预训练模型,D将会主宰GAN的训练,也不能达到很好的效果。)

为了克服这一难点,本文提出

  1. Feature pyramids 利用多判别器的多尺度反馈;
  2. Random Projection更好的利用预训练网络的深层特征

二、Projected GANs

GAN由一个生成器 G 和一个判别器 D 组成。

其中 G 是一个从简单分布(通常是正态分布) 中取样的潜在向量 z,以产生相应的样本G(z),D也被训练来区分真实样本也被训练来区分真实样本 x~ 和生成样本和生成样本G(z)~ 。

在这种情况下,GAN的目标函数由以下公式表示:

在所提出的方法中,即投影GAN,我们引入了一组特征投影器  (这里的Projection其实就是判别器的特征提取网络),将真实的和生成的图像转化为判别器的输入空间。在这种情况下,上述的目标函数被以下的方程式所取代,这里, 是对应于  中不同特征投影仪 的判别器集合,从这里也能看出本文是基于多判别器的方法:

 在实际过程中是固定的,只更新  和  。但还是要求  满足:(1) differentiable;(2) preserve important information;

1、Model:多尺度判别器(Multi-Scale Discriminators)

正如介绍中所解释的,Projected GAN使用一个预训练模型的表征作为判别器。

具体来说,我们从预先训练好的网络 F 的四层(分辨率分别为 L1 = , L2 = , L3 = , L4 = )获得特征。然后我们将每个分辨率的特征通过一个特征投影仪,并引入一个简单的卷积结构作为相应的判别器。大致上,结构如下:

Figure 3: CSM(红色虚线箭头)添加了随机3×3卷积和双线性上采样,混合不同分辨率的特征。

该图所示,对于每个层的表示,L1,.,L4的预训练模型通过特征投影仪并输入到相应的判别器D1,...,D4.同时,判别器都被设置为4x4的输出分辨率(通过调整下采样层的数量),这些对数被加起来计算出总的损失。鉴别器的结构如下

关于表格,DB(DownBlock)由内核大小为4、步长为2的卷积、BatchNorm和LeakyReLU(斜率为0.2)组成。同时,光谱归一化被应用于所有卷积层。

2、随机投影(Random Projections)

实验观测到,越是深层的特征越难cover到,所以提出两种策略来缓释重要的特征(CCM 和 CSM),从而让判别器都能均衡的利用所有可用信息。这两种策略的共同点是,它们使用固定的可微随机投影混合特征,即在随机初始化后,这些层的参数不被训练。

特征投影由两部分组成,CCM(跨通道混合)和CSM(跨尺度混合)。这些都是随机的和固定的,在训练期间不更新(只有生成器和鉴别器在训练期间更新)。

1)、Cross-Channel Mixing(CCM):跨通道特征混合

通过对从预训练模型中获得的特征进行随机的1x1卷积运算,在通道层面混合特征。这与下图中的蓝色箭头相对应

Figure 2: CCM(蓝色虚线箭头)使用带有随机权值的1×1卷积。

2)、Cross-Scale Mixing(CSM):跨尺度的特征混合

Figure 3: CSM(红色虚线箭头)添加了随机3×3卷积和双线性上采样,混合不同分辨率的特征。

3、Pretrained Feature Networks:预训练特征网络

有各种可能的预训练模型用于特征提取,但在原始论文的实验中,使用了以下模型:

  • EfficientNet(EfficientNet lite0-4)。
  • ResNet(ResNet-18,ResNet-50,R50-CLIP)
  • 变压器(ViT-Base,DeiT)

其中,EfficientNet(lite1)的效果最好,所以在没有提到的情况下,采用了EfficientNet(lite1)。

三、Experiments and Ablation Study

(用来探索上述所提的strategies最好的config,所以放在实验部分之前也不奇怪)

1、Feature Space Fréchet Distances(特征空间距离)

Q1:Feature Network的哪一层是最具有信息量的?

表中结论:浅层的特征更应该被利用,且随着层数的叠加,网络的性能反倒会下降。

Q2:Pretrained features应该怎么样被利用?

表中结论:CCM+CSM+四个判别器

2、哪一个特征提取网络是最有效的?

Table 2: Pretrained Feature Networks Study. We train the projected GAN with different pretrained feature networks. We find that compact EfficientNets outperform both ResNets and Transformers.

结论:生成效果跟准确率是没有关系的,Efficient-Lite1是我们后续实验选用的P。

3、Comparison to SOTA

1、相同训练时间下,表现更好(更高的FID)

Figure 1: Convergence with Projected GANs. Evolution of samples for a fixed latent code during training on the AFHQ-Dog dataset [5]. We find that discriminating features in the projected feature space speeds up convergence and yields lower FIDs. This finding is consistent across many datasets.

2、 Convergence Speed and Data efficiency:

Training Properties.

Figure 4: Left: Projected FastGAN surpasses the best FID of StyleGAN2 (at 88 M images) after just 1.1 M images on LSUN-Church.
Right: Projected FastGAN yields significantly improved FID scores, even when using subsets of CLEVR with 1k and 10k samples.

supplement:k是千、万是10k、M是兆(即百万)。

个人理解:将预训练的表示能力用来提升判别器,从而给生成器提供更好的反馈是一个很好的思路,但是如果是很强的预训练网络,就会让判别器过强,自然能够很简单的对生成数据和真实数据进行判别,尤其是笔者的研究方向:GANs under limited data而言,判别器显然会在预训练的加持下,过拟合的更严重。所以有没有可能在利用预训练提升D的判别特征学习能力的同时,也让G更懂得如何生成D难以判别的图片,这一点值得思考。

NeurIPS`21 性能爆炸且速度极快的图像生成|Projected GANs Converge Faster - 知乎

【预训练GAN】Projected GANs Converge Faster相关推荐

  1. ICML2020:预训练的GAN在有限数据下的生成器

    生成对抗网络可以生成高度逼真的图像,通常与真实图像是无法区分的.这样生成的大多数图像都没有包含在训练数据集中,说明用GAN生成的数据对增强数据集的能力很强.尽管在数据有限的情况下这种情况特别重要,但是 ...

  2. 《预训练周刊》第6期:GAN人脸预训练模型、通过深度生成模型进行蛋白序列设计

    No.06 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第6期< ...

  3. CMU 提出全新 GAN 结构,GAN 自此迈入预训练大军!

    文|林锐 众所周知,现在 GAN 的应用是越来越宽泛了,尤其是在 CV 领域.不仅可以调个接口生成新头像图一乐,也可以用 GAN 做数据增强让模型更加健壮. ▲嘉然你带我走吧嘉然! 在CV领域,不像分 ...

  4. NLP-预训练模型-2020:Electra【预训练任务RTD(ReplacedTokenDetection)替代MLM;借鉴GAN;生成器+判别器;判别器用于下游;比RoBert预训练速度大幅提升】

    预训练模型(Pretrained model):一般情况下预训练模型都是大型模型,具备复杂的网络结构,众多的参数量,以及在足够大的数据集下进行训练而产生的模型. 在NLP领域,预训练模型往往是语言模型 ...

  5. 《预训练周刊》第17期:深度迁移学习与数据增强改善2型糖尿病预测、钢琴补谱应用...

    No.17 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第17期&l ...

  6. 预训练语言模型论文分类整理:综述、基准数据集、PLM的设计和分析

    ©作者 | 王晓磊 学校 | 中国人民大学博士生 研究方向 | 对话系统 1. 引言 近年来,以 BERT 和 GPT 系列为代表的大规模预训练语言模型(Pre-trained Language Mo ...

  7. 预训练语言模型论文分类整理

    © 作者|王晓磊 机构|中国人民大学高瓴人工智能学院博士生 导师|赵鑫教授 研究方向 | 对话系统 1. 引言 近年来,以 BERT 和 GPT 系列为代表的大规模预训练语言模型(Pre-traine ...

  8. CVPR 2021 华南理工和微信的Transformer:UP-DETR无监督预训练检测器

    点击上方"机器学习与生成对抗网络",关注星标 获取有趣.好玩的前沿干货! 作者:飞奔的啦啦啦   知乎 https://www.zhihu.com/question/4323211 ...

  9. CVPR 2021 Oral | Transformer再发力!华南理工和微信提出UP-DETR:无监督预训练检测器...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文作者:飞奔的啦啦啦   |  来源:知乎 https://zhuanlan.zhihu.com/p/31 ...

最新文章

  1. iOS动画系列之八:使用CAShapeLayer绘画动态流量图
  2. 如何在Ubuntu 20.04上设置Python虚拟环境
  3. word文档墨迹工具的笔不能用_云师之策|找到合适的工具实现理想的在线教学效果...
  4. Oracle PL/SQL小练习
  5. 4.4. Config file
  6. PowerBI分析Exchange服务器IIS运行日志
  7. 描述符演练-02-逻辑疏理-类的装饰器
  8. 【八】有验证码登录配置:通过 Cookie 跳过验证码登录接口
  9. css模拟select设置高度在ie67下有效(也可作为去除边框)
  10. stl变易算法(一)
  11. c#SqlServer总结
  12. matlab绘图工具
  13. T-SQL 基础简介
  14. html中pt与px的转换,ptpx换算(pt和像素换算)
  15. 带你走进P2P平台网站推广
  16. 毕业论文/分页符/段前2行没用
  17. python 内存不足_python内存不足
  18. 网络防火墙的配置与管理
  19. python制作白底界面_python 多张图片黑底白字转白底黑字
  20. java编写九宫格拼图游戏_js实现九宫格拼图小游戏

热门文章

  1. matlab解决相遇追及问题,【知识点】追击及相遇问题的处理方法
  2. ESXI6.7-7.0最新版本如何封装网卡驱动补丁
  3. cadvisor如何采集数据
  4. 简单新颖的单片机 嵌入式 毕设项目
  5. 【研究生】AAAI2019评审惹争议!“好论文”遭退稿?程序主席回应
  6. EF更新或者删除的时候报错“存储区更新、插入或删除语句影响到了意外的行数(0)。实体在加载后可能被修改或删除“
  7. 瑞星linux u盘引导盘杀毒教程,瑞星产品升级更新服务
  8. Android游戏开发之数独课时----2
  9. 车牌识别笔记:从图像中定位并裁剪车牌照
  10. leaflet蚂蚁线(leaflet篇.47)