014_SSS_High-Resolution Image Synthesis with Latent Diffusion Models
High-Resolution Image Synthesis with Latent Diffusion Models
1. Introduction
本文提出了在隐空间应用diffusion model(DM), 称为Latent Diffusion Models(LDM)
主要做法是在VQGAN增强版做diffusion。
在隐空间的好处是既能保持较高的生成质量又能减少计算的资源消耗。
本文的主要贡献:
- 比VQGAN重建的效果更好,而且可以更有效地应用到高分辨率的生成。
- LDE在不同的任务上有着比较好的表现。包括(unconditional image synthesis,inpainting,super-resolution)。而且比在像素空间的diffusion,采样的代价要更低。
- 相比于之前在隐空间的方法,LDE不需要对隐空间做太多的正则化,而且可以有高保真的重建效果。
- 可以以卷积的方式应用于多种条件生成任务。
- 实现了一种基于cross-attention的条件机制,可以应用于多模态的训练。
2. Method
2.1 Perceptual Image Compression
其实也就是模型的第一个阶段,将原始图像编码到隐空间,也就是一种压缩。为了避免隐空间方差过大,作者采用了两种改进的方式,第一种是加入了KL散度的约束作为正则化,类似于VAE,要求隐变量与标准正态分布尽可能相似。第二种是加入了VQ的正则化,类似于VQGAN。
2.2 Latent Diffusion Models
这个部分原理上与Diffusion没有本质的区别。只是在实现上对UNet进行了一些改动。
2.3 Conditional Mechanisms
对于多模态的条件输入,先用一个编码器 τθ\tau_{\theta}τθ 将条件信息 yyy 比如文本,编码为中间的表示 τθ(y)\tau_{\theta}(y)τθ(y) 然后与UNet的输出一起作cross-attention
3. 实验结果
首先尽管VQ正则化的重建效果比KL正则化略差,但是加入LDM之后采样的质量却是VQ正则化的要更高。
然后作者分别在text-to-image,layout-to-image,semantic-to-image,super-resolution都能达到比较好的效果。
014_SSS_High-Resolution Image Synthesis with Latent Diffusion Models相关推荐
- High-Resolution Image Synthesis with Latent Diffusion Models 论文重点
Content High-Resolution Image Synthesis with Latent Diffusion Models Abstract 1. Introduction 不足之处: ...
- 论文笔记High-Resolution Image Synthesis with Latent Diffusion Models
论文提出了latent diffusion models (LDMs).基于该模型最著名的工作是文本生成图像模型stable-diffusion. 普通的扩散模型在像素空间操作,运算复杂度较高.为了保 ...
- high-resolution image synthesis with latent diffusion models
如何通俗理解扩散模型? - 知乎泻药.实验室最近人人都在做扩散,从连续到离散,从CV到NLP,基本上都被diffusion洗了一遍.但是观察发现,里面的数学基础并不是模型应用的必须.其实大部分的研究者 ...
- High-Resolution Image Synthesis with Latent Diffusion Models笔记
我是刚入门的小白,试着自己读论文不一定对望能理解 这篇论文产生问题的源头是什么 这篇论文解决了什么问题以及实现了什么功能 由于这些模型通常直接在像素空间中操作,因此强大DM的优化通常消耗数百个GPU天 ...
- Latent Diffusion Models / Stable Diffusion
High-Resolution Image Synthesis with Latent Diffusion Models(CVPR 2022) https://arxiv.org/abs/2112.1 ...
- Stable Diffusion背后原理(Latent Diffusion Models)
前言 2023年第一篇博客,大家新年好呀~ 这次来关注一下Stable Diffusion背后的原理,即 High-Resolution Image Synthesis with Latent Dif ...
- 详细解读Latent Diffusion Models:原理和代码
Diffusion Models专栏文章汇总:入门与实战 前言:CVPR 2022中的一项新工作latent diffusion models引起了广泛关注,提出了两段式diffusion model ...
- 【CV】Latent diffusion model 扩散模型体验
note 文章目录 note 一.diffusion模型 1.1 Stable Diffusion简介 1.2 和GAN对比的优势 二.Latent diffusion model原理 2.1 潜在空 ...
- 2022年11月100篇 diffusion models 扩散模型 汇总!
在生成图像方面,自从NIPS 2014的一篇开山之作: Generative Adversarial Nets 论文:https://proceedings.neurips.cc/paper/2014 ...
- Latent Diffusion(CVPR2022 oral)-论文阅读
文章目录 摘要 背景 算法 3.1. Perceptual Image Compression 3.2. Latent Diffusion Models 3.3. Conditioning Mecha ...
最新文章
- matlab中rowset什么意思,没什么用的matlab代码1
- 观察者模式在个人网站邮件发布与订阅中的实践
- android新架构,Android新架构组件 LifeCycles 简介
- 网页开发部署-开发工具MyEclips+Tomcat+mysql
- Web自动化测试中的接口测试
- ubuntu下rar文件解压后文件名乱码的解决方案
- 极简代码 —— list 最小最大索引(argmax/argmin)的实现
- 狼来了!中国房地产的实质--比喻太生动了
- iOS中转义后的html标签如何还原
- linux中^]是如何输出的
- 为什么阿里强制 boolean 类型变量不能使用 is 开头
- php换行替换,php怎么替换回车换行
- 渗透测试专业人员使用的11种工具
- nxlog管理配置linux,IIS服务器配置NXLog进行syslog转发(并解决GMT+8小时时差问题)...
- Qt QComboBox 下拉框样式修改
- word插入公式不自动斜体的解决办法
- 汽车 php 深圳,深圳小汽车增量调控管理信息系统查询官网
- 一、OpenTCS4.12 创建一个新的通信驱动
- hive查看一张表的分区字段_Hive常规操作(查看和操作分区,字段,注释)
- 在知乎发文章基本没流量