注:拉到最后有视频版~

论文地址:https://genforce.github.io/higan

这次给大家分享一篇做场景编辑的文章,作者是周博磊老师组的杨策元,中的是 IJCV2020

我会从这五个方面开始我的讲解

背景

首先是背景,背景就是 GAN 在图片合成领域表现优异

动机

动机是现在目标检测的解释性工作比较多,对于 GAN 这种生成模型的解释性工作还比较少

目标

研究目标是探究下语义层级信息在 layer-wise 输入的 GAN 模型中的表现,这里可以看到两个图,左图是本文章主要探究的几个语义属性,比如 layout(格局),category(种类),attribute 和 color;右图是不同类型的 GAN,一般的 GAN 都是直接输入网络,但是 StyleGAN 的变量是 layer-wise 进去的

方法

先看下本文定义的多种语义,对于 bedroom 和 living room 这两种场景,有以下的定义: attribute 就是用不同的分类器分出来的, layout 是提取墙的线得到的,object 是场景分割得到的

具体的方法就是 SVM 和 Re-score,SVM 我已经说过很多次,就是在 GAN 的 latent space 中,每个点对应着 image space 中的一张图片,同时也对应着 semantic space 中的多种语义。Sample 一定量的图片后,用预训练好的分类器去获取他们对应的不同语义,接着对于某个属性,用一个 SVM 在 latent space 中学一个超平面,得到支持向量 n,这就是这个模型中的语义向量,和 InterfaceGAN 的方法几乎一样,不过 InterfaceGAN 处理的对象是 face,face 是容易定义的,而本文处理的是 scene,scene 的变化是很大的。

在获取了语义向量后,我们用 Re-score 来衡量这个语义方向,也就是说看编辑前后图片的语义变化程度,公式在下面,K 是样本数

验证完毕后,文章有三种编辑的手段,第一张很简单,就是在 latent space 中向语义的方向推,第二种是向两个语义方向的加和方向推,第三种是在推的时候加一点随机扰动

实验

然后来看实验,比如对于 layout,object 这几类属性,正负样本是怎么分的,layout 就是看支撑墙的中点在左边还是右边;文章做实验用到的模型列在下面

首先看下出现的语义层级,对于本文用到的网络,我们在 y 的层面而不是 z 的层面,做 rescore 来研究,探究某个层级后在整体效果中的占比,可以看到 layout,object 和其他属性的峰值(即变化最大)都对应着不同的层级,user-study 也证明了这一点

然后看编辑实验,对不同的属性,都可以做相当定向的编辑,还能结合起来做编辑,效果都很不错

当我们把 living room 的 scene 用语义向量推到 bedroom,再推到 dining room,跟踪一些 object 的像素的变化,可以看到这样的图。出现这样的现象的原因,是因为某些 object 是某个 scene 独有的,因为床,沙发,椅子是 bedroom,living room 和 dining room 的特有物件。有这个现象,我们就可以做特定的编辑,也不用像其他 cgan 的那种 label 方式

场景的编辑肯定依赖于训练的数据,故这里分析了一下训练数据的分布,在 bridge 的场景,sunny 占主要的变化,其他场景也有对应的属性,这些属性都是这个场景独有的

回顾下之前的编辑,对于不同的语义编辑,可以看到同时编辑的效果是可以把两个语义同时加上去的,随机扰动的编辑可以加上让语义更加丰富

消融实验主要为了证明自己的方法的有效性,先看第一个图,在 bedroom 场景中,这几个属性一直保持接近 1 的值,这说明这几个属性是没法区分的,我们的方法用 rescore 可以把这些给去掉;第二个图,在 SVM 分类效果的指标上来看,几乎所有的属性都被完美分开,无法区分出主次,但我们的方法 rescore 可以把找出变化最明显的属性

这是对不同层做操作的消融实验,从第一个图可以看到对目标层和对所有层编辑的对比,对所有层的编辑带来了更多其他属性的变化

第二个图是在底层对四个属性进行编辑,可以发现大多都只改变了布局

在看解耦合的实验,当我们定向编辑红色向量的时候,发现在 rescore 的指标上,其他特征变化都不大

在其他的 GAN 模型上也能得到类似的结果

结论

结论就是 layer-wise 的层级对应于特定的语义,和人一样从宏观到微观生成图片

不足

不足也很明显,首先是分类器可能不一定准确,第二是 layout 属性的定义很难,第三是 SVM 的分类是线性的,效果可能不够好

[IJCV2020]Semantic Hierarchy Emerges in Deep Generative Representations for Scen

【IJCV2020】【语义编辑】Semantic Hierarchy Emerges in Deep Generative Representations for Scene Synthesis相关推荐

  1. 论文阅读 HiGAN:《Semantic Hierarchy Emerges in Deep Generative Representations for Scene Synthesis》

    地址:https://genforce.github.io/higan/ 收录会议:IJCV2020 概括: 论证了GANs不同层的潜码能控制不同层次的语义 提出了一种重新评分方法,用于在经过良好训练 ...

  2. 语义分割DeepLab v2--DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolut

    DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Con ...

  3. 【deeplab】Semantic Image Segmentation with Deep Convolutional Nets and Fully

    deeplab有两篇论文,由于第二篇是在第一篇上增加了一部分内容,就放在一起进行学习了. 第一篇 Semantic Image Segmentation with Deep Convolutional ...

  4. DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution--阅读笔记

    DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Con ...

  5. 论文阅读:Semantic Aware Attention Based Deep Object Co-segmentation(ACCV2018)

    协同分割论文:Semantic Aware Attention Based Deep Object Co-segmentation(ACCV2018) 论文原文     code 目录 1.简介 2. ...

  6. 【DeepLab v1 2016】SEMANTIC IMAGE SEGMENTATION WITH DEEP CON- VOLUTIONAL NETS AND FULLY CONNECTED CRFS

    [DeepLab v1]SEMANTIC IMAGE SEGMENTATION WITH DEEP CON- VOLUTIONAL NETS AND FULLY CONNECTED CRFS 用深度卷 ...

  7. Deeplab v1:SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS

    1.解决问题 将DCNNs应用于图像标记任务中存在两个问题:信号下采样和空间"不敏感性"(不变性)问题. 第一个问题是在标准的DCNNs每一层重复使用最大池化max-pooling ...

  8. QIIME 2教程. 27语义类型Semantic(2021.2)

    语义类型 Semantic types https://docs.qiime2.org/2021.2/semantic-types 所有的QIIME 2的对象(documentation)都定义了语义 ...

  9. QIIME 2教程. 27语义类型Semantic(2020.11)

    文章目录 语义类型 为什么定义语义类型 常用的语义类型 译者简介 Reference 猜你喜欢 写在后面 语义类型 Semantic types https://docs.qiime2.org/202 ...

最新文章

  1. Stage4--Python面向对象
  2. STM8不用手动复位进入自带Bootloader方法(串口下载)
  3. Linux下MySQL数据库的备份与还原,mysql快速导入导出数据库实例演示,解决mysql大数据量数据库导出慢的问题
  4. Python代码调试方法
  5. P3911-最小公倍数之和【莫比乌斯反演】
  6. 性价比高台式计算机,2021年台式电脑什么牌子好,性价比高?
  7. 元组可以直接添加进数据库吗_数据库篇-第一章:数据库基本概念
  8. PHP安装教程及相关说明
  9. 电脑服务器注册表,(恢复Windows服务器注册表的系统配置单元.doc
  10. 海康威视摄像头安装与配置
  11. OM302工业DTU对接亚控kingscada,实现水泵站一体化智慧改革
  12. 基于车辆运动学模型的LQR横向控制算法
  13. WebGL着色器内置变量gl_PointSize、gl_Position、gl_FragColor、gl_FragCoord、gl_PointCoord
  14. mMTC面临挑战与研究现状
  15. 无线通信技术(习题课)
  16. 信创云,抢跑在发令枪响之前
  17. Macbook系统清理的两种方式
  18. 全球与中国硅外延片市场深度研究分析报告
  19. 支付系统开源项目盘点
  20. 量化策略指引:Alpha也有周期?

热门文章

  1. Python利用PIL将png图像转jpg图像
  2. Java学习1-基本概念
  3. 钱宝网500亿的“庞氏骗局”崩塌始末
  4. 找出字符串中第一个不重复的字符
  5. Electron flash插件
  6. 成功就是一种自我满足
  7. Quartus||仿真图设计
  8. java aria,ARIA 标签和关系
  9. 基于Android Q电池服务分析
  10. java ocx,Eclipse使用ActiveX控件(OCX)开发Java程序