Papers with code

  • 1、DALL-E 2
  • 2、Recurrent Affine Transformation for Text-to-image Synthesis
  • 3、Vector Quantized Diffusion Model for Text-to-Image Synthesis
  • 4、Autoregressive Image Generation using Residual Quantization
  • 5、LAFITE
  • 6、DF-GAN
  • 7、Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors
  • 8、DALL-Eval:Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers,

这篇博文将简要介绍一些已经开源的文本生成图像研究工作,基本上都是2022年的最新研究成果:

1、DALL-E 2

《Hierarchical Text-Conditional Image Generation with CLIP Latents》
OpenAI的最新工作,目前是文本到图像的 SOTA

论文:https://cdn.openai.com/papers/dall-e-2.pdf
代码:https://github.com/lucidrains/DALLE2-pytorch(非官方)

2、Recurrent Affine Transformation for Text-to-image Synthesis

《Recurrent Affine Transformation for Text-to-image Synthesis》
提出了一种用于生成对抗网络的递归仿射变换 (RAT),将所有融合块与递归神经网络连接起来,以模拟它们的长期依赖关系,跟DF-GAN很类似。

论文:https://arxiv.org/pdf/2204.10482.pdf
代码:https://github.com/senmaoy/Recurrent-Affine-Transformation-for-Text-to-image-Synthesis

3、Vector Quantized Diffusion Model for Text-to-Image Synthesis

《Vector Quantized Diffusion Model for Text-to-Image Synthesis》
第一次把矢量量化扩散 (VQ-Diffusion) 模型用于文本到图像生成,与之前基于 GAN 的文本到图像的方法相比,VQ-Diffusion 可以处理更复杂的场景并大幅提高合成图像的质量。

会议:CVPR 2022
论文:https://arxiv.org/abs/2111.14822
代码:https://github.com/microsoft/vq-diffusion

4、Autoregressive Image Generation using Residual Quantization

《Autoregressive Image Generation using Residual Quantization》
由残差量化 VAE (RQ-VAE) 和 RQ-Transformer 组成的两阶段框架生成高分辨率图像。RQ-VAE 可以精确地逼近图像的特征图,并将图像表示为离散码的堆叠图。然后,RQ-Transformer 通过预测下一个代码栈来学习预测下一个位置的量化特征向量。

会议:CVPR 2022
论文:https://arxiv.org/abs/2203.01941
代码:https://github.com/kakaobrain/rq-vae-transformer

5、LAFITE

《LAFITE: Towards Language-Free Training for Text-to-Image Generation》
第一次提出在没有任何文本数据的情况下训练文本到图像生成模型的工作,利用了强大的预训练 CLIP 模型。

会议:CVPR 2022
论文:https://arxiv.org/abs/2111.13792
代码:https://github.com/drboog/Lafite

6、DF-GAN

《DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis》
抛弃了传统GAN的堆叠式结构,采用了单级主干,生成器中引入一种新颖的深度文本图像融合块,包含了仿射块的结构,鉴别器引入匹配感知梯度惩罚和单向输出。

会议:CVPR 2022
论文:https://arxiv.org/abs/2008.05865
代码:https://github.com/tobran/DF-GAN
精读:https://blog.csdn.net/air__Heaven/article/details/124288473

7、Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors

《Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors》
正在进行的工作,引入了几个新功能:(i)场景编辑,(ii)带有锚场景的文本编辑,(iii)克服分布式文本提示,以及(iv)故事插图生成(即由故事生成插图)

论文:https://arxiv.org/abs/2203.13131
代码:https://github.com/CasualGANPapers/Make-A-Scene

8、DALL-Eval:Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers,

《Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Transformers》
研究了文本到图像生成转换器的推理能力和社会偏见。第一测量了四种视觉推理技能:物体识别、物体计数、颜色识别和空间关系理解。提出了 PaintSkills诊断数据集和评估工具包,用于测量这四种视觉推理技能。第二,基于预训练的图像字幕、图像文本检索和图像分类模型来测量生成图像的文本对齐和质量。第三,评估了模型中的社会偏见

论文:https://arxiv.org/abs/2202.04053
代码:https://github.com/j-min/DallEval

2022年最新文本生成图像研究 开源工作速览(Papers with code)相关推荐

  1. 字节最新文本生成图像AI,训练集里居然没有一张带文字描述的图片?!

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 丰色 发自 凹非寺 量子位 | 公众号 QbitAI 一个文本-图像 ...

  2. 重磅!2022年剑桥AI全景报告出炉,文本生成图像掀起新风暴!

    作者 | Nathan Benaich.Ian Hogarth 编译 | 杨阳 出品 | AI科技大本营(ID:rgznai100) 日前,2022年<State of AI Report> ...

  3. 文本生成图像工作简述3--技术难点、研究意义、应用领域和目前的局限性

    文本生成图像(text-to-image)指的是使用人工智能技术将文本转换为图像的过程,其可以根据给定文本生成符合描述的真实图像,其是多模态机器学习的任务之一,具有巨大的应用潜力,如视觉推理.图像编辑 ...

  4. Text to image论文精读PDF-GAN:文本生成图像新度量指标SSD Semantic Similarity Distance

    SSD,全称为Semantic Similarity Distance,是一种基于CLIP的新度量方式,是西交利物浦大学学者提出的一种新的文本生成图像度量指标,受益于所提出的度量,作者进一步设计了并行 ...

  5. 文本生成图像简述4——扩散模型、自回归模型、生成对抗网络的对比调研

    基于近年来图像处理和语言理解方面的技术突破,融合图像和文本处理的多模态任务获得了广泛的关注并取得了显著成功. 文本生成图像(text-to-image)是图像和文本处理的多模态任务的一项子任务,其根据 ...

  6. AI艺术的背后:详解文本生成图像模型【基于 Diffusion Model】

    系列文章链接: AI艺术的背后:详解文本生成图像模型[基于 VQ-VAE] AI艺术的背后:详解文本生成图像模型[基于GAN] AI艺术的背后:详解文本生成图像模型[基于Diffusion Model ...

  7. 缩小规模,OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E

    视学算法报道 编辑:陈萍.小舟 模型的参数规模并不需要那么大. 从年初 OpenAI 刷屏社区的 DALL-E 到英伟达生成逼真摄影的 GauGAN2,文本生成图像可谓是今年大火的一个研究方向.现在 ...

  8. 引燃AI社区,不用跨界也能从文本生成图像,OpenAI新模型打破自然语言与视觉次元壁...

    视学算法报道 作者:魔王.杜伟.蛋酱 艺术创作的事,以后人类只要动手打几个字,其他的交给 AI 就行了. 自然语言与视觉的次元壁正在被打破.这不,OpenAI 最近连发大招,提出两个连接文本与图像的神 ...

  9. 别说了,有画面了!Google文本生成图像取得新SOTA,CVPR2021已接收

    来源:新智元 [导读]从图像到生成文本.从文本生成图像,多模态模型的探索一直未停止.最近Google又出从文本到图像的新模型,75%的人类都说超过了传统的SOTA模型,直呼脑子里有画面了! 文本到图像 ...

  10. 文本生成图像工作简述2--常用数据集分析与汇总

    文本到图像的 AI 模型仅根据简单的文字输入就可以生成图像.用户可以输入他们喜欢的任何文字提示--比如,"一只可爱的柯基犬住在一个用寿司做的房子里"--然后,人工智能就像施了魔法一 ...

最新文章

  1. 使用扩展的 CodeIgniter 框架实现 RESTful 框架
  2. 你知道我今天为什么来公司上班吗?
  3. 比较分析 Spring AOP 和 AspectJ 之间的差别
  4. python命令行工具_python命令行工具Click快速掌握
  5. javascript第三节
  6. [UIKit学习]03.关于UILable
  7. 在GitHub存储库中创建标记
  8. 没有第三个变量的前提下交换两个变量_很多人连Python变量都没搞懂,说自己会python
  9. 计算机二级C语言题库
  10. 今天中午吃什么转盘html,吃到撑的几种简单午饭,让你再也不发愁吃什么了!...
  11. 双引号后面要加句号吗_双引号和句号的位置
  12. Win10桌面点鼠标右键一直转圈的解决方法
  13. 访问文件或图片报403的处理方式
  14. 全景视频预测头部移动-Predicting Head Movement in Panoramic Video: A Deep Reinforcement Learning Approach
  15. win10下如何使用的debug
  16. 生成CA根证书、公钥、私钥指令(数字证书)
  17. 求购一个论坛发帖软件
  18. 学计算机不会英语怎么办,学习计算机英文水平不行有影响吗?
  19. 如何正确选择客流统计系统
  20. “拯救 Linux 桌面”的 Valve 给开源开发者发薪资!

热门文章

  1. 4k纸是几厘米乘几厘米_4K纸是多大?
  2. 如何将mov格式的视频转换mp4?
  3. C盘用户文件夹下的AppData文件夹里放的是什么?
  4. iOS----------关于UDID和UUID的一些理解
  5. Windows环境下Python中multiprocessing关于RuntimeError异常的处理方式
  6. GHOST重装系统详解
  7. oracle 官网下载api,Oracle官网下载Java的api离线文档
  8. EF Core学习之路02
  9. 企业logo设计技巧大揭密
  10. 学好Linux运维决心书