BigGAN-论文阅读笔记

论文地址:Large Scale GAN Training for High Fidelity Natural Image Synthesis-ReadPaper论文阅读平台

文章目录

  • BigGAN-论文阅读笔记
    • 论文结构
    • 摘要
      • 原文
      • 核心
    • 研究背景
      • 谱归一化(Spectral Normalization)
      • 条件判别
    • 研究意义
    • 模型框架
    • 隐空间截断
    • 不稳定性分析
    • 实验结果
      • ImageNet
      • JFT-300M
    • 论文总结
    • 论文总结

论文结构

  1. Introduction
  2. Background
  3. Scaling up GANs
    3.1 Trading off variety and
    fidelity with the truncation trick
    3.2 Summary
  4. Analysis
    4.1 Characterizing instability: the
    generator
    4.2 Characterizing instability: the
    discriminator
    4.3 Summary
  5. Experiments
    5.1 Evaluation on ImageNet
    5.2 Additional evaluation on JFT-300M
  6. Conclusion

摘要

原文

Despite recent progress in generative image modeling, successfully generating high-resolution, diverse samples from complex datasets such as ImageNet remains an elusive goal. To this end, we train Generative Adversarial Networks at the largest scale yet attempted, and study the instabilities specific to such scale. We find that applying orthogonal regularization to the generator renders it amenable to a simple truncation trick, allowing fine control over the trade-off between sample fidelity and variety by reducing the variance of the Generator’s input. Our modifications lead to models which set the new state of the art in class-conditional image synthesis. When trained on ImageNet at 128x128 resolution, our models (BigGANs) achieve an Inception Score (IS) of 166.5 and Frechet Inception Distance (FID) of 7.4, improving over the previous best IS of 52.52 and FID of 18.6.

核心

  1. 基于复杂数据集(如ImageNet)生成高分辨率的多类别图像仍旧是一个非常困难的目标
  2. 为此,我们训练了现有最大规模的GAN,并研究了这种规模下GAN训练的不稳定性
  3. 在生成器上应用正交正则化使得它能够进行隐空间的截断,从而可以调节生成器输入的方差,实现了对生成图像保真度和多样性之间平衡的良好控制
  4. BigGAN成为了目前类别条件图像生成领域的新SOA模型
  5. 使用ImageNet进行128×128分辨率的训练时,BigGAN的IS得分为166.5,FID得分为7.4

研究背景

Research background

谱归一化(Spectral Normalization)

• 卷积操作可以看成是矩阵乘法,只需要约束,每一层卷积核的参数 W,使它是Lipschitz连续的,就可以满足整个神经网络的Lipschitz连续性
• 谱归一化,是另一种让函数满足Lipschitz连续性的方式,因为经过谱归一化之后,神经网络的每
一层权重,都满足
• 在每一次训练迭代中对神经网络的每一层作奇异值(SVD)分解求解谱范数是不现实的,因此采用幂迭代的方法去迭代得到奇异值的近似解

条件判别

• Concat自由度非常大,增加了函数的假设空间,导致性能变差
• Condition Batch Normalization是另一种融合条件信息的方式,作者将它应用在生成器的每一层
• 其中γ和β是把图片的类别信息输入一个浅层网络求得,从而不同类别的图片,将对于不同的 BN 层参数
• 判别器中,首先提取输入图像的特征,然后再分成两路:一路与编码后的类别标签 y 做点乘,另一路映射成一维向量,最后两路结果相加,作为神经网络最终的输出,越大代表输入越真实

研究意义

• 将多类别自然图像生成的效果大幅提升到了令人震惊的水准
• 深入研究了GAN训练稳定性与性能之间的平衡

• 证明了大batch和大网络对于GAN的重要性
• 积累了大规模GAN网络训练的工程经验
• 大幅推进了多类别图像生成的SOTA得分

模型框架

• 使用SAGAN作为Baseline
• 生成器使用类别条件BN,判别器使用projection,使用hinge loss作为损失函数
• 在SAGAN优化方式的基础上,将学习率减半,并且每一个G step运行两个D steps
• 推断时,使用了Weighted Moving Average技巧
• 模型参数使用了正交初始化
• 使用Google TPUv3 Pod的128-512个cores进行并行训练,对所有并行数据联合使用 BatchNorm

将batch size提升到8倍,IS得分增加了46%,这可能是因为每个batch可以覆盖更多的模式了
• 增大batch size后,模型可以收敛的更快,但训练也变得更加不稳定更容易发生崩溃
• 将模型每层的通道数增加50%,总参数大约增加两倍(1.5*1.5),IS得分进一步提高了21%
• 在ImageNet上训练时,加深模型深度并不能带来帮助,反而会降低性能
• 生成器的条件BN层,使用共享的条件嵌入,这使得训练速度提高了37%
• 将随机噪声z切分后输入到生成器的多个层,而不仅仅是初始层,这带来了4%的性能提升和18%的速度提升

• 通过这些改进,BigGAN可以在不使用ProGAN分层训练的条件下,也能生成512*512的高清图像
• 但模型仍然存在训练崩溃的可能性,并需要在实践中进行早期停止

隐空间截断

Truncation Trick
• GAN可以接受任意先验分布,一般设为标准高斯分布,或者[-1,1]的均匀分布
• BigGAN在训练时仍然使用标准高斯分布,但推断时使用截断的高斯分布
• 通过截断技巧能提升生成图像的质量,但会减少生成的多样性,可以用来在训练后对生成质量和多样性的trade-off进行调节

• IS不会对模型缺乏多样性进行惩罚,所以使用截取技巧后会提高IS得分
• FID会同时考虑多样性和生成质量,随着截断越来越接近0,FID得分会先增大,然后急剧下降
• 由于训练的噪声分布和推断的噪声分布的不同,一些模型在使用截断技巧后会产生饱和伪影
• 为了减少这种情况,作者设法提升生成器的平滑性,以便z的整个空间都能映射到良好的输出样本,从而提高截断技巧的适应性

• 为此,作者使用了正交正则化

• 但是原始的正交性条件过于严格,因此作者尝试了几种正交正则化的变体,希望在放松约束的同时仍然能为生成器带来所需的平滑性
• 最终,作者发现最好的变体,是从正则化中删除对角元素,并且把最小化滤波器之间的余弦相似性作为目标,同时不限制它们的范数

• 其中1表示全为1的矩阵,β经过试验,选取为1e-4
• 使用正交正则化之前,只有16%的模型适合上述的截断技巧,而使用之后,适合的比例达到了60%

不稳定性分析

Analysis
生成器
• 对模型的权重进行监控,以寻找可能预示着训练即将崩溃的指标
• 实验发现每个权重矩阵的前三个奇异值是最有用的,这些奇异值可以用Alrnoldi迭代法进行计算
• 不使用谱归一化时,生成器的大多数层表现正常,但第一层(非卷积层)的谱范数在训练过程中保持增长,并在崩溃发生时爆炸
• 尝试对生成器的每个权重的首个奇异值进行正则化,可以防止持续增加和爆炸,但仍不能阻止训练崩溃

判别器
• 使用上述方法来分析判别器,发现判别器的谱范数有很多噪声
• 各层的奇异值在训练过程中保持增长,在训练崩溃时发生跳跃而不是爆炸
• 各层的权重周期性的在前几个奇异方向上接受到了非常大的梯度,说明生成器会周期性产生对判别器有强烈干扰的batch
• 尝试使用各类正则化策略来削弱噪声,结果显示:对判别器的惩罚足够高时,可以实现稳定训练,但性能成本很高
• 另外,判别器正常训练时损失接近0,而发生崩溃时损失急剧上升,这可能是因为判别器过度拟合了训练集,而没能学习到区分真实图像和生成图像的真正规则;测试发现,判别器对训练集的样本分类精度高于98%,而验证集上的精度只有50-55%,说明判别器只是简单记住了训练集

实验结果

Experiments

ImageNet

• 训练了128、256、512三种分辨率的模型
• 记录了不同设置下的得分:最佳FID,IS与验证集的IS相同,最佳IS
• 这三种情况下,IS和FID得分都优于SNGAN和SAGAN
• 还尝试了4x深度的BigGAN-deep,使用了不同的ResBlock结构,结果显示性能有进一步的提升
• 使用最近邻方法搜索了与生成样本最接近的真实样本
• badcase与其它GAN的局部artifacts不一样

• 固定住随机噪声z,而只对类别向量c进行插值时,生成图像的大致结构保持不变

• 各个类别生成的效果不一样,比如狗生成的比人要好

JFT-300M

• 有300M张图像,包括18k个类别;保留其中最多的8.5k个类别,共292M张图像,比ImageNet大两个数量级;对
于有多个标签的图像,采样时随机选一个
• 使用在该数据集上训练的Inception v2模型来计算IS和FID得分
• 使用了ImageNet上模型的轻量级版本,模型大小与SAGAN相当,使用ImageNet实验中的最佳参数
• 结果表明,使用论文的改进技术能够在SAGAN的基础上显著提升性能,说明了本文所使用技巧的可泛化性
• 不同于ImageNet的结果,在JFT-300M上如果把模型进一步增大,性能还能进一步提升

论文总结

结论
• 提升GAN网络的规模,能对生成图像的保真度和多样性都带来很大提升
• 把基于ImageNet训练的GAN模型的生成能力提升到了新的阶段,大幅提高了SOA得分
• 基于模型权重的奇异值,对训练的稳定性进行了表征和分析,讨论了稳定性和性能之间
的相互影响

[外链图片转存中…(img-1lEdk7GS-1665106488450)]

论文总结

结论
• 提升GAN网络的规模,能对生成图像的保真度和多样性都带来很大提升
• 把基于ImageNet训练的GAN模型的生成能力提升到了新的阶段,大幅提高了SOA得分
• 基于模型权重的奇异值,对训练的稳定性进行了表征和分析,讨论了稳定性和性能之间
的相互影响

BigGAN-论文阅读笔记相关推荐

  1. 全卷积(FCN)论文阅读笔记:Fully Convolutional Networks for Semantic Segmentation

    论文阅读笔记:Fully Convolutional Networks forSemantic Segmentation 这是CVPR 2015拿到best paper候选的论文. 论文下载地址:Fu ...

  2. DnCNN论文阅读笔记【MATLAB】

    DnCNN论文阅读笔记 论文信息: 论文代码:https://github.com/cszn/DnCNN Abstract 提出网络:DnCNNs 关键技术: Residual learning an ...

  3. Learning Multiview 3D point Cloud Registration论文阅读笔记

    Learning multiview 3D point cloud registration Abstract 提出了一种全新的,端到端的,可学习的多视角三维点云配准算法. 多视角配准往往需要两个阶段 ...

  4. FCGF论文阅读笔记

    FCGF论文阅读笔记 0. Abstract 从三维点云或者扫描帧中提取出几何特征是许多任务例如配准,场景重建等的第一步.现有的领先的方法都是将low-level的特征作为输入,或者在有限的感受野上提 ...

  5. PointConv论文阅读笔记

    PointConv论文阅读笔记 Abstract 本文发表于CVPR. 其主要内容正如标题,是提出了一个对点云进行卷积的Module,称为PointConv.由于点云的无序性和不规则性,因此应用卷积比 ...

  6. DCP(Deep Closest Point)论文阅读笔记以及详析

    DCP论文阅读笔记 前言 本文中图片仓库位于github,所以如果阅读的时候发现图片加载困难.建议挂个梯子. 作者博客:https://codefmeister.github.io/ 转载前请联系作者 ...

  7. 2019 sample-free(样本不平衡)目标检测论文阅读笔记

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自知乎,已获作者同意转载,请勿二次转载 (原文地址:https://zhuanlan.zhihu.com/p/100052168) 背景 < ...

  8. keras cnn注意力机制_2019 SSA-CNN(自注意力机制)目标检测算法论文阅读笔记

    背景 <SSA-CNN Semantic Self-Attention CNN for Pedestrian Detection>是2019 的工作,其作者来自于南洋理工.这篇文章主要是做 ...

  9. ResNet 论文阅读笔记

    ResNet 论文阅读笔记 #机器学习/深度学习 文章介绍 论文地址:https://arxiv.org/pdf/1512.03385.pdf 原文题目:Deep Residual Learning ...

  10. LiDAR-based Panoptic Segmentation via Dynamic Shifting Network(论文阅读笔记)

    LiDAR-based Panoptic Segmentation via Dynamic Shifting Network(论文阅读笔记) 环形扫描骨干网络.动态漂移.一致性驱动的融合 一.重点内容 ...

最新文章

  1. ORACLE空值漫谈1
  2. Silverlight中摄像头的运用—part2
  3. 标杆徐2018 Linux自动化运维实战,标杆徐2018 Linux自动化运维系列⑦: SaltStack自动化配置管理实战...
  4. mysql一张表1亿天数据_1亿条数据在PHP中实现Mysql数据库分表100张
  5. ZooKeeper:分布式应用程序的分布式协调服务
  6. Uinttest +excel结合使用--详细讲解
  7. 主机硬件系统主板状态 vmware_电脑主机启动不了怎么办?
  8. JavaScript中call,apply,bind方法的总结
  9. '__pendingCallbacks[...].async' is null or not an object
  10. 操作系统第三章课后答案
  11. 用html代码制作一个表单页面,HTML网页表单制作详细讲解
  12. Google 展示广告
  13. Oracle入门精读14_Lsnrctl命令
  14. java写华容道_基于java的华容道小游戏
  15. 可执行文件信息查看工具代码示例
  16. 2509-Druid监控功能的深入使用与配置-基于SpringBoot-完全使用 .properties配置文件
  17. 反向传播算法的理论基础,神经网络反向传播算法
  18. 苹果4s怎么越狱_【爆料】大神把苹果手机刷入了安卓系统!
  19. 对 Vue-SSR的理解和使用场景
  20. 当时若爱韩公子,埋骨成灰恨未休

热门文章

  1. [附源码]Python计算机毕业设计SSM基于JAVA宠物店管理系统(程序+LW)
  2. 编码:UTF-8编码、UTF-16编码规则
  3. IDC机房工作的简单流程
  4. inode显示未收到服务器回应,inode智能客户端 未收到服务器回应
  5. 常见的DOS命令及作用
  6. 《苏宁易购:商品详情系统架构设计》读后感
  7. 在Arcgis中进行拓扑检查(二)
  8. 反向放大器的缺点-运算放大器-运放
  9. vue3 组件篇 tag
  10. Saturn的系统架构