High-Resolution Image Synthesis with Latent Diffusion Models

1. Introduction

本文提出了在隐空间应用diffusion model(DM), 称为Latent Diffusion Models(LDM)

主要做法是在VQGAN增强版做diffusion。

在隐空间的好处是既能保持较高的生成质量又能减少计算的资源消耗。

本文的主要贡献：

比VQGAN重建的效果更好，而且可以更有效地应用到高分辨率的生成。
LDE在不同的任务上有着比较好的表现。包括（unconditional image synthesis，inpainting，super-resolution）。而且比在像素空间的diffusion，采样的代价要更低。
相比于之前在隐空间的方法，LDE不需要对隐空间做太多的正则化，而且可以有高保真的重建效果。
可以以卷积的方式应用于多种条件生成任务。
实现了一种基于cross-attention的条件机制，可以应用于多模态的训练。

2. Method

2.1 Perceptual Image Compression

其实也就是模型的第一个阶段，将原始图像编码到隐空间，也就是一种压缩。为了避免隐空间方差过大，作者采用了两种改进的方式，第一种是加入了KL散度的约束作为正则化，类似于VAE，要求隐变量与标准正态分布尽可能相似。第二种是加入了VQ的正则化，类似于VQGAN。

2.2 Latent Diffusion Models

这个部分原理上与Diffusion没有本质的区别。只是在实现上对UNet进行了一些改动。

2.3 Conditional Mechanisms

对于多模态的条件输入，先用一个编码器 τθ\tau_{\theta}τθ 将条件信息 yyy 比如文本，编码为中间的表示 τθ(y)\tau_{\theta}(y)τθ(y) 然后与UNet的输出一起作cross-attention

3. 实验结果

首先尽管VQ正则化的重建效果比KL正则化略差，但是加入LDM之后采样的质量却是VQ正则化的要更高。
然后作者分别在text-to-image，layout-to-image，semantic-to-image，super-resolution都能达到比较好的效果。

014_SSS_High-Resolution Image Synthesis with Latent Diffusion Models相关推荐

High-Resolution Image Synthesis with Latent Diffusion Models 论文重点
Content High-Resolution Image Synthesis with Latent Diffusion Models Abstract 1. Introduction 不足之处: ...
论文笔记High-Resolution Image Synthesis with Latent Diffusion Models
论文提出了latent diffusion models (LDMs).基于该模型最著名的工作是文本生成图像模型stable-diffusion. 普通的扩散模型在像素空间操作,运算复杂度较高.为了保 ...
high-resolution image synthesis with latent diffusion models
如何通俗理解扩散模型? - 知乎泻药.实验室最近人人都在做扩散,从连续到离散,从CV到NLP,基本上都被diffusion洗了一遍.但是观察发现,里面的数学基础并不是模型应用的必须.其实大部分的研究者 ...
High-Resolution Image Synthesis with Latent Diffusion Models笔记
我是刚入门的小白,试着自己读论文不一定对望能理解这篇论文产生问题的源头是什么这篇论文解决了什么问题以及实现了什么功能由于这些模型通常直接在像素空间中操作,因此强大DM的优化通常消耗数百个GPU天 ...
Latent Diffusion Models / Stable Diffusion
High-Resolution Image Synthesis with Latent Diffusion Models(CVPR 2022) https://arxiv.org/abs/2112.1 ...
Stable Diffusion背后原理(Latent Diffusion Models)
前言 2023年第一篇博客,大家新年好呀~ 这次来关注一下Stable Diffusion背后的原理,即 High-Resolution Image Synthesis with Latent Dif ...
详细解读Latent Diffusion Models：原理和代码
Diffusion Models专栏文章汇总:入门与实战前言:CVPR 2022中的一项新工作latent diffusion models引起了广泛关注,提出了两段式diffusion model ...
【CV】Latent diffusion model 扩散模型体验
note 文章目录 note 一.diffusion模型 1.1 Stable Diffusion简介 1.2 和GAN对比的优势二.Latent diffusion model原理 2.1 潜在空 ...
2022年11月100篇 diffusion models 扩散模型汇总！
在生成图像方面,自从NIPS 2014的一篇开山之作: Generative Adversarial Nets 论文:https://proceedings.neurips.cc/paper/2014 ...
Latent Diffusion（CVPR2022 oral）-论文阅读
文章目录摘要背景算法 3.1. Perceptual Image Compression 3.2. Latent Diffusion Models 3.3. Conditioning Mecha ...

014_SSS_High-Resolution Image Synthesis with Latent Diffusion Models