Dual Diffusion Implicit Bridges for Image-to-Image Translation(DDIB)

本文提出了一种新的域之间的Image-to-Image Translation的方法DDIB, 这种方法只需要在source域和target域上分别训练好两个DDIM模型, 然后将source域对应的latent直接传给target域. 这种方法不需要成对的训练数据, 而且source域和target域的训练可以相互独立, 从而保证了数据的安全性.

文章目录

Dual Diffusion Implicit Bridges for Image-to-Image Translation(DDIB)
前言
1.Introduction
2.DDIB
3.与最优传输的联系
4. 实验结果
GAN生成对抗网络-text to image原理

前言

DDIM正是采用了这样的思路. 作者指出DDIM优于DDPM主要有三个方面:

首先，与DDPMS相比，DDIMS具有更好的样本生成质量，当我们使用我们提出的方法将采样加速10×100×时。
其次，DDIM样本具有以下“一致性”特性，而这在DDPMS中不成立：如果我们从相同的初始潜在变量开始，生成几个具有不同长度马尔可夫链的样本，这些样本将具有相似的高级特征。
第三，由于DDIMS中的一致性，我们可以通过操纵DDIMS中的初始潜在变量来进行语义上有意义的图像插值，而不像DDPMS中由于随机生成过程而在图像空间附近进行插值（类似于StyleGAN的隐空间插值）。

1.Introduction

通常的Image-to-Image Translation需要成对的训练数据, 但是有些时候没有成对的数据, 这些情况下就需要直接实现两个域的转换. 现有的这种直接跨域转换的unpaired image Translation的方法都是基于GAN, 比如cycleGAN, DualGAN,还有一些方法基于normalizing Flow.

但是现有的这些跨域转换的方法尽管可以生成高质量的结果, 但是一个重大的缺陷是缺乏adaptability. 也就是说, 一个训练好的模型只能实现单方向的两个域之间的转换, 要实现 n n n 个域的相互转换就需要 n 2 n^2 n2 个模型. 那么作者提出的DDIB, 只需要在每个域上独立的训练一个DDIM模型, 也就是只需要 n n n 个模型, 就可以实现 n n n 个域之间的互相转换.

另外作者还提出, 在一些应用情形下, 两个domain的数据为了安全起见不能共享, 那么对于很多需要两个domain的训练数据的传统模型就无用武之地, 而DDIB需要的只是在不同的域上单独训练出来的DDIM模型, 所以就可以满足这种安全性要求.

2.DDIB

首先回顾一下DDIM将Diffusion与ODE联系在一起, 也就是说前向过程和反向过程都可以用ODE来表示, 而且这两个过程互为逆过程.

简单用一句话, 对于一个训练好的DDIM模型, 任意一张图像 x 0 x_0 x0 可以通过前向的ODE得到唯一的一个 x T x_T xT , 而这个唯一的 x T x_T xT 又可以通过反向的ODE得到 x 0 x_0 x0 . 这是一个很好地性质, 有了这个基础再来看DDIB的方法就是一目了然.

DDIB的伪代码如下所示:

方法其实简单明了, 也就是用source域的DDIM前向的ODE将source域的图像 x 0 ( s ) x_0^{(s)} x0(s) 转换到其隐空间的表示 x ( l ) x^{(l)} x(l) , 然后直接将这个 x ( l ) x^{(l)} x(l) 作为target域的DDIM反向的ODE的输入, 就可以得到对应的target域的输出 x 0 ( t ) x_0^{(t)} x0(t).

方法似乎看起来很简单, 但是为什么这个隐空间的表示能够直接用, 难道不需要其他的操作吗? 换句话说, 这种方法可行的原理是什么? 抱着这个问题接着往后看.

3.与最优传输的联系

作者首先介绍了DDIM训练的目标与最有传输问题的联系.

蒙日最优传输(Monge Optimal Transport)是指寻找从一个数据分布到另一个数据分布的最小的代价.

用数学的方式表示, 假设有两个概率测度 α , β \alpha, \beta α,β 分别对应两个空间 X , Y X, Y X,Y 代价函数为 c ( x , y ) c(x, y) c(x,y) , 那么蒙日最优传输可以看作如下的优化问题:

那么接下来看DDPM与DDIM的优化目标:

由于DDIM训练过程中,优化目标的 x t x_t xt 可以直接由 x 0 x_0 x0 得到, 于是这个优化目标又可以表示成如下的形式:

用数学期望的形式来表示这个目标可以得到:

优化这个目标与优化蒙日最有传输的目标是异曲同工的.

可是讲了这么一大堆, 只是说明了在同一个域内训练DDIM的目标与最优传输的联系. 于是DDIB就可以看作是先从source域最优传输到latent域, 再从latent域最优传输到target域. 但是还是没有解释清除为什么中间的隐变量不需要任何处理能直接在两个域之间使用.于是作者指出, 尽管这种直接用隐变量的方式, 并不能严格的算是从source域到target域的最优传输, 但是通过实验可以看出这种方式与最优传输之间很接近.

于是作者在一些二维的分布上做了一些小实验来证明这一点:

并且作者将DDIB的方法与直接用其他最优传输方法的结果进行了比较:

总之, 作者并没有从理论上给出DDIB可行的解释, 而只是从实验层面给出了一些佐证.

4. 实验结果

GAN生成对抗网络-text to image原理

实质上这是一个RNN的词语向量化模型 + 条件GAN。首先用一个RNN网络来将文字转换为向量，然后将生成的文本向量加入到G和D网络中。

与普通GAN不同的是，这里多了一种loss，即看上去挺真的，但是对应的描述与图不符合，也要给与惩罚。如果不加的话，那么D所能获得的信息仅仅是G的生成图，失
去了判断图与描述是否符合的判断能力。

为什么还需要噪声输入？
这是因为一般情况下很多时候一句话就是描述内容（花的样子）的，而不会描述style（style主要是包括背景和姿态）。那么这种情况下我们就希望噪声能起到这种加入style的作用，从而生成更加真实多样化的图片。

另外，通过特征可视化的方式，让z具有specific的style加入功能，从而解决文本描述本身不对style进行任何阐述的问题，随机化的z可以加入不同的style，从而增加生成样本的真实
性与多样性。

DDPM-DDIM-DDIB相关推荐

4. DDPM, DDIM, Analytic-DPM, Extended Analytic-DPM
AI绘画能力的起源：通俗理解VAE、扩散模型DDPM、DETR、ViT/Swin transformer
前言 2018年我写过一篇博客,叫:<一文读懂目标检测:R-CNN.Fast R-CNN.Faster R-CNN.YOLO.SSD>,该文相当于梳理了2019年之前CV领域的典型视觉模型 ...
扩散模型探索：DDIM 笔记与思考
DIFFUSION系列笔记|DDIM 数学.思考与 ppdiffuser 代码探索论文:DENOISING DIFFUSION IMPLICIT MODELS 该 notebook 主要对 DDIM ...
如何用Diffusion models做interpolation插值任务？——原理解析和代码实战
Diffusion Models专栏文章汇总:入门与实战前言:很多Diffusion models的论文里都演示了插值任务,今天我们讲解一下如何用DDIM/DDPM做interpolation任务 ...
Stable Diffusion 原理介绍与源码分析（一）
Stable Diffusion 原理介绍与源码分析(一) 文章目录 Stable Diffusion 原理介绍与源码分析(一) 前言(与正文无关,可以忽略) 总览说明 Stable Diffusi ...
图像分割的大变革：从SAM(分割一切)到FastSAM、MobileSAM
前言 SAM就是一类处理图像分割任务的通用模型.与以往只能处理某种特定类型图片的图像分割模型不同,SAM可以处理所有类型的图像. 在SAM出现前,基本上所有的图像分割模型都是专有模型.比如,在医学领域 ...
【Paper Notes】DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation
论文链接该论文发表在CVPR 2022上目录主要任务方法介绍 DDPM/DDIM回顾模型架构 Loss设计 Forward和Reverse过程未知Domain之间的迁移实验结果参考文献 ...
【论文系列解读】StableDiff总结
Diff总结目录 1. diffusion (0) 总结 (0-1) 文本到图像生成(Stable Diffusion) (0-2) 图片感知压缩(Perceptual Image Compressi ...
DDIM原理及代码(Denoising diffusion implicit models)
前言之前学习了 DDPM(DDPM原理与代码剖析)和 IDDPM(IDDPM原理和代码剖析), 这次又来学习另一种重要的扩散模型.它的采样速度比DDPM快很多(respacing),扩散过程不依赖马 ...
DDIM代码详细解读(4)：分类器classifier的网络设计、训练、推理
前言:之前写过三篇详细解读DDPM代码的博客,随着时间已经来到2022年11月,单纯使用DDPM已经逐渐被淘汰,最新的论文更多使用DDPM的改进版本.DDIM作为DDPM最重要的改进版本之一,从本篇博 ...

DDPM-DDIM-DDIB