图像版GPT3问世,一句话就能变成图!打破语言与视觉界线,AI将更加聪明

继 OpenAI 推出史上最强语言模型 GPT-3 后,这家旧金山 AI 研究公司又有新动作。

这次,他们一连推出两款强大的多模态模型 CLIP 和 DALL・E,CLIP 可以对图像进行理解、归类,而 DALL・E 则可以直接借助文本生成图像,简直就是 “图像版 GPT-3”。

OpenAI 在官博中介绍,DALL・E 是 GPT-3 的 120 亿参数版本,如此庞大的数据集,足以让它发挥 “想象力” 创造出那些不同寻常的图像。

你只用简单描述一下想要的图像特征,比如 “一个高质量的龟兔插图” “一只模仿乌龟的兔子” “一只乌龟做成的兔子”,DALL・E 就可以生成以下图像,堪称帮助设计师 “开脑洞” 的神器。

图|DALL・E 生成的 “乌龟 - 熊猫” 图和 “乌龟 - 兔子” 图

该模型一经发表,再次引燃 AI 圈。人工智能和机器学习领域的国际权威学者吴恩达,就用 DALL・E 模型生成了多张蓝色衬衫搭配黑色长裤的图像,并发推文对 OpenAI 表示祝贺,他认为这个成果很酷。

图|吴恩达的推文

佐治亚理工学院(Georgia Institute of Technology)研究 NLP 和计算创造力的马克・里德尔(Mark Riedl)说,“文本 - 图像转换一直是一项研究挑战,尽管已经存在一段时间了,但这组示例令人印象深刻。”

OpenAI 首席科学家伊利亚・萨茨克维尔(Ilya Sutskever)表示,“我们生活在一个视觉世界中。从长远来看,你将拥有既能理解文本又能理解图像的模型。”“人工智能将能够更好地理解语言,因为它可以理解单词和句子的意思。”

DALL・E 和 CLIP 让 AI 更好的与现实连接

基于 GPT-3,OpenAI 展示了一个强大的自然语言处理模型,拥有 1750 亿超大参数的 GPT-3 让网友 “玩开了花”,不仅可以写文章,还能写诗、写歌、写菜谱,凭借惊人的文本生成能力,一直保持着超高热度。

尽管 GPT-3 很强大,但它的输出却让人有种与现实脱节的感觉,好像它根本不知道自己在说什么,这一点人们也经常拿来调侃。

如今,OpenAI 和其他机构的研究人员,正试图通过将文本根植于图像中,让语言模型用人类理解事物概念的方式来训练。他们将这些想法结合在一起,建立了两个新模型,分别名为 DALL・E 和 CLIP ,将语言和图像结合在一起,使人工智能更好地理解词汇及其所代表的含义。

如果说 GPT-3 能模拟人类如何使用词汇,DALL・E 则能够预见我们所看到的,就仿佛它拥有了想象力。

如果让你想象一个牛油果形状的扶手椅,你会和它 “想” 的一样吗?如下图,它生成的这些扶手椅设计已经十分贴近现实了,如果再让它生成一款牛油果咖啡桌呢?这充满现代感的设计似乎真的可以为设计师提供启发。

图|DALL・E 生成的牛油果形状扶手椅以及咖啡桌

参与 DALL・E 工作的阿迪亚・拉梅什(Aditya Ramesh)表示,“最让我惊讶的是,这个模型可以把两个不相关的概念联系在一起,并赋予其功能。” 他认为牛油果与扶手椅的融合最为自然,“可能是因为牛油果被切一半,看起来有点像高背扶手椅,而果核恰好可以充当靠垫。”

就像 GPT-3 一样,DALL・E 同样是基于一个仅有解码器的 Transformer 架构,包含 1280 个文本和图像 token(文本占 256 个,图像占 1024 个),可以同时接收文本和图像作为单一数据流,并使用最大似然进行训练,一个接一个地生成所有 token。

它的 64 个自注意力层(self-attention)中的每一个都具有注意力 mask(掩盖词、掩膜),使每个图像 token 都可以匹配文本 token。DALL・E 对文本 token 使用标准的因果 mask,以行、列或卷积注意模式对图像 token 使用稀疏注意,具体取决于层数。

OpenAI 团队在其博客文章中称展示的结果并不是人工挑选的,而是通过另一款模型 CLIP 进行排序的,CLIP 会选出它认为最符合描述的 32 张图像。此过程也可以看作是一种语言指导的搜索,会对样本质量产生巨大影响。

如下图所示,使用 CLIP 对 DALL・E 中的样本进行重新排序,可以大大提高样本的一致性和质量。

图|CLIP 可以对 DALL・E 中的样本进行重新排序

据悉,OpenAI 计划在下一篇论文中提供有关 DALL・E 架构和训练过程的详细信息。

DALL・E 和 CLIP 是从两个不同的方向来解决这个问题的。CLIP 是对搜集到的图片进行理解、分类,而 DALL・E 是根据文本生成图片,两个模型可以理解为互为逆过程。

图|CLIP 的预训练过程

据了解,OpenAI 用高达 4 亿的数据集来训练 CLIP,它可以在各种各样的图像上进行训练,主打零样本学习,攻克了计算机视觉领域中数据集昂贵和狭窄的问题。

将语言建立在视觉理解上是让 AI 更加聪明的好方法

OpenAI 这次推出的多模态模型成果惊人,但仍然不尽完美。比如 DALL・E 根据 “画着蓝色草莓的彩色玻璃窗” 这一文本创建的图像就有些让人迷惑,不仅掺杂着红色草莓,而且有些图像抽象到看不出是窗户或者草莓。

图|DALL・E 根据 “画着蓝色草莓的彩色玻璃窗” 这一文本创建的图像

再比如,OpenAI 工作人员 Aditya 认为以 “竖琴做成的蜗牛” 为文本生成的图像就很别扭,图像中蜗牛和竖琴以奇怪的方式结合在一起。

图|DALL・E 生成的 “竖琴制成的蜗牛”

艾伦人工智能研究所的阿尼・肯布哈维(Ani Kembhavi)说:“这个模型能从相当异想天开的文本中生成合成图像,这在我看来非常有趣。” 他的同事 Jaemin Cho 也对此印象深刻,“现有的文本 - 图像生成器还没有显示出绘制多个对象的控制水平,也没有 DALL・E 的空间推理能力,” 他说。

佐治亚理工学院从事自然语言处理和计算创造力的 马克・里德尔(Mark Riedl )则大胆质疑该模型生成的卡通图像,“我对萝卜的例子有点怀疑,从风格上看,它可能记住了一些来自互联网的艺术作品。DALL・E 所基于的 GPT-3 在记忆方面可是出了名的。” 他说。

图|DALL・E 根据 “穿着芭蕾舞短裙遛狗的小白萝卜” 这一文本生成的图像

尽管如此,大部分 AI 研究人员仍然认为,将语言建立在视觉理解上是让 AI 更加聪明的好方法。

LL・E 根据 “穿着芭蕾舞短裙遛狗的小白萝卜” 这一文本生成的图像

尽管如此,大部分 AI 研究人员仍然认为,将语言建立在视觉理解上是让 AI 更加聪明的好方法。

“未来的系统将由这样的模型组成,它们都是朝着那个系统迈进的一步。”OpenAI 首席科学家 Ilya Sutskever 说。

图像版GPT3问世,一句话就能变成图!打破语言与视觉界线,AI将更加聪明相关推荐

  1. GPT-4前奏?OpenAI发布120亿参数图像版GPT-3

    编辑:贾伟 梦佳 继GPT-3的颠覆之后,即将出道的 GPT-4 会走向何方?这一问题牵动着很多人的心. 在不久前,OpenAI的联合创始人.首席科学家IIya Sutskever 曾在吴恩达编辑的 ...

  2. 电脑cAD有没有手用的计算机,cad快速看图电脑版有哪些功能 cad快速看图电脑版好用吗...

    cad快速看图电脑版V5.6.3.47官方最新版 类型:图像浏览大小:16.3M语言:中文 评分:6.2 标签: 立即下载 随着科技的快速发展,各种各样的电子设备和工具也就应运而生,例如,在以前设计图 ...

  3. Matlab实现图像融合,将人物融合到风景图中

    点击查看:Matlab实现图像融合,将人物融合到风景图中 文件大小:20M 操作系统:Windows10旗舰版 开发工具:Matlab2019 开发语言:.m

  4. Python使用matplotlib可视化散点图、并在可视化图像的底部和右边添加边缘箱图(Marginal Boxplot)

    Python使用matplotlib可视化散点图.并在可视化图像的底部和右边添加边缘箱图(Marginal Boxplot) 目录

  5. R语言使用persp函数绘制三维图像实战(3D):自定义3D图、图像旋转、添加轴标签

    R语言使用persp函数绘制三维图像实战(3D):自定义3D图.图像旋转.添加轴标签 目录

  6. R语言将多张可视化结果图像保存到PDF中实战:多图保存到同一PDF页、将多个绘图保存到PDF格式的不同页面

    R语言将多张可视化结果图像保存到PDF中实战:多图保存到同一PDF页.将多个绘图保存到PDF格式的不同页面 目录 R语言将多张可视化结果图像保存到PDF中实战:多图保存到同一PDF页.将多个绘图保存到 ...

  7. c语言程序设计第三版乌云高娃答案,C语言程序设计教学课件作者第3版乌云高娃补充习题及答案C语言程序设计教学课件作者第3版乌云高娃补充习题及答案第3章补充习题及答案课件.doc...

    C语言程序设计教学课件作者第3版乌云高娃补充习题及答案C语言程序设计教学课件作者第3版乌云高娃补充习题及答案第3章补充习题及答案课件.doc 第3章补充习题及答案 习题 3.1 选择题 (1)下列运算 ...

  8. MindMapper免费下载版附序列号激活儿童思维导图软件

    现在少儿教育的受重视程度越来大,很多新手家长都会对孩子的教育颇费心力却又不知该如何下手.其实少儿的教育,最优先最重要的就是要锻炼出孩子的逻辑性与分析性.相比于传统的教学方式,思维导图更能让孩子快速地养 ...

  9. 【深度学习】实验6布置:图像自然语言描述生成(让计算机“看图说话”)

    DL_class 学堂在线<深度学习>实验课代码+报告(其中实验1和实验6有配套PPT),授课老师为胡晓林老师.课程链接:https://www.xuetangx.com/training ...

最新文章

  1. matlab 降维工具箱
  2. TabelView嵌套CollectionView高度适应
  3. 操作系统-南京大学(蒋岩炎)课程--操作系统上的程序
  4. 剑指offer:输入一棵二叉树,判断该二叉树是否是平衡二叉树。
  5. 看完这些干货帖,大数据产品从入门到精通
  6. c语言程序设计教程本科,新编C语言程序设计教程(本科)第5篇.pdf
  7. 基于vue2.0 + elementUI 后台管理平台
  8. 图嵌入综述 (arxiv 1709.07604) 译文第一、二章
  9. TensorFlow 2快速入门之安装与测试
  10. python线程池的使用
  11. 如何在linux下运行php脚本,如何通过Linux命令行使用和运行PHP脚本
  12. VPC下访问FTP的问题
  13. String[]与ListString 相互转换 KKK笔记
  14. 超全NetLogo多主体仿真建模(小世界WWW+无标度网络+随机网)内含源码+界面设计+程序分析
  15. PLC-Recorder常用授权功能详解
  16. css动画animation详细解读
  17. 测试开发面试(八)——进程与线程、python数据结构、数据库
  18. Python对Excel文件多表对多表之间的匹配(两种不同表头)——之json版
  19. OfficeMalScanner(宏病毒分析)软件分享,绝对免费!
  20. Java生成PDF文件并使用指定的模板,带图片

热门文章

  1. ETH-23TheDAO
  2. 【高级数据库】第一章 第01讲 数据库概述
  3. 通过控制面板调用计算机,电脑打开控制面板的几种方法
  4. python3实现二维码定位及识别
  5. matlab legend函数
  6. oracle DML与DDL
  7. sdut2190-救基友记1
  8. HTTP请求URL的大小限制
  9. cuteeditor详细设置
  10. SuperMap 影像服务发布流程