name_en: Learning Transferable Visual Models From Natural Language Supervision
name_ch: 从自然语言监督中学习可迁移的视觉模型
paper_addr: http://arxiv.org/abs/2103.00020
doi: 10.48550/arXiv.2103.00020
date_read: 2023-02-09
date_publish: 2021-02-26
tags: [‘算法’,‘自然语言’,‘图形图像’]
author: Alec Radford
citation: 3518
code: https://github.com/OpenAI/CLIP

读后感

使用大量数据的对比学习,基于对齐图片和文本嵌入的原理,实现了根据图像生成描述文本的功能,为后续根据文本生成图像奠定了基础。

介绍

文中提出CLIP(Contrastive Language-Image Pre-training)方法,即:对比式语言-图像预训练。它的先进性在于:之前模型只能判断图片是否属于固定类别,而它可以根据一张图片内容,生成文本描述,或者利用文本描述的新类别匹配图片,而无需根据新类别调优模型,即零样本学习。
具体实现方法利用少量有标注数据和大量无标注数据(4亿个图片文本对)方法建模,利用对比学习训练模型,对齐文本和图像的嵌入。 通过在30多个不同的现有视觉数据集上进行基准测试,证明该模型能很好地应用到大多数任务中。
它为后面一系列的图像生成模型(利用文本生成图片)奠定了基础。比如:用DALL-E(unCLIP) 用“小狗吹喇叭”自动生成对应的图片。

方法

数据

虽然MS - COCO和Visual Genome是高质量的人工标记数据集,但按现代标准它们都很小。YFCC100M,在1亿张照片中,保留带有自然语言标题和/或英文描述的图片,仅有1500万张。这与ImageNet的大小大致相同。
CLIP 构建了一个新的数据集,从互联网上的各种公开来源收集了4亿(图像、文字)对,得到的数据集与用于训练GPT - 2的超文本数据集具有相似的总词数,并将该数据集称为WIT for WebImageText。

方法

将目标定义为:预测文本与图像配对,而不是文本的确切单词。这种方法与之前方法相比大大提升了效率。

下图总结了具体的实现方法,左侧为训练,右测为预测。针对文本T和图像I分别训练编码器,然后用模型学习正确的配对(对角线上为正确配对);在预测阶段,根据类别生成描述文本,并选择与图片最为匹配的文本作为描述,以实现零样本分类器。

具体训练时,假设一个Batch中包含N个图文对,则有NxN种可能的组合。利用多模态技术,训练图片编码器(如ResNet)和文本编码器(如CBOW),将图文转换到嵌入空间,使同一含义的图文表示的cosine距离更近,不同含义的距离更远。具体方法如图-3所示:

CLIP 使用了大量数据从头训练图片和文本模型参数。并只使用线性投影,将每个编码器的表示映射到多模态嵌入空间。数据增强方法仅使用了从调整大小的图像中随机产生的正方形裁剪。

底层模型

在图像编码器方面尝试了两种架构,一种是在ResNet基础版本上做了一些修改,如:锯齿模糊池化,将全局平均池化层替换为注意力池化机制等。另一个是在较新的Vision Transformer架构上做了微调。文本编码器使用了Transformer模型。在图像的宽度深度扩展方面,使用了Tan & Le ( 2019 )提出的EfficientNet架构。

3. 实验

实现主要涉及零样本分类问题和表示学习。
对于零样本迁移图像分类结果,和Visual N-Grams对比结果如下(当然CLIP计算量也大得多):

另一方面也讨论了模型表征学习的能力,评测时使用的主要方法是:在从模型中提取的表示上拟合一个线性分类器,并在各种数据集上测量其性能。以评测与任务无关的数据表征,对比效果如下:

可以看到,当在足够大的数据集上训练时,视觉转换器(vision transformers)比卷积神经网络具有更好的效果。

论文阅读_图像生成文本_CLIP相关推荐

  1. Tensorflow图像生成文本(2)词表词频的构建

    前言 了解了Tensorflow图像生成文本实现(1)flickr30k数据集介绍数据集之后,需要对其中的token文件进行解析,对数据进行初步处理. 词表词频构建 因为是一句句的描述,因此需要进行分 ...

  2. [论文阅读](图像/视频质量评价系列)

    文章目录 [2021] (QoMEX) Image Super-Resolution Quality Assessment:Structural Fidelity Versus Statistical ...

  3. 【论文阅读-3】生成模型——变分自编码器(Variational Auto-Encoder,VAE)

    [论文阅读]生成模型--变分自编码器 1. VAE设计思路:从PCA到VAE 1.1 PCA 1.2 自编码器(Auto-Encoder, AE) 1.3 从AE到VAE 2. VAE模型框架 2.1 ...

  4. 论文阅读_人脸检测:S3FD: Single Shot Scale-invariant Face Detector

    我的博客已全部迁往个人博客站点:oukohou.wang,敬请前往-- 写在前面:记录一下论文阅读的收获,不然怕久远之后,就不记得了- 1. Sum up S3FD是2017年发表在arXiv上的一篇 ...

  5. 论文阅读_基于深度学习的异常检测综述

    英文题目:Deep Learning for Anomaly Detection: A Review 中文题目:基于深度学习的异常检测综述 论文地址:https://arxiv.org/pdf/200 ...

  6. 论文阅读_音频压缩_SoundStream

    论文信息 number headings: auto, first-level 2, max 4, _.1.1 name_en: SoundStream: An End-to-End Neural A ...

  7. 论文阅读_增强语言模型综述

    论文信息 name_en: Augmented Language Models: a Survey name_ch: 增强语言模型综述 paper_addr: http://arxiv.org/abs ...

  8. 论文阅读03:深度文本匹配综述

    公众号:数据挖掘与机器学习笔记 1.文本匹配概要 文本匹配在信息检索.自动问答.机器翻译.对话系统.复述问题等自然语言处理任务上应用广泛..这些自然语言处理的任务都可以在一定程度上抽象成文本匹配问题, ...

  9. 论文阅读_基于知识的提示学习KnowPrompt

    英文题目:KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimizationfor Relation Extraction ...

最新文章

  1. 信号量 读者写者问题
  2. 有趣又好玩的圆外旋轮心形线
  3. skimage库需要依赖 numpy+mkl 和scipy
  4. Mybatis框架简单使用
  5. 编程语言的语法与语义
  6. 时间序列分析:非平稳序列的确定性分析
  7. 闲谈IPv6-体会一下移动IP路由扩展头以及地址选项头的实际操作(Howto)
  8. google 图片搜索API
  9. 《少年派的奇幻漂流》太牛了
  10. python代码提取图片文字
  11. 又多了一重身份,继续前行
  12. Android远程弹窗,Remote Desktop(远程桌面)Android平台远程电脑的又一神器!
  13. Android--高效地加载大图片
  14. easypoi 语法_高中英语语法:高中英语必修1选修8全八册知识点总结
  15. Activity启动过程源码流程梳理和解读
  16. C++-STL-组件(一)-容器05:stack(栈)
  17. sqlserver wait millis 60003, active 0, maxActive 20, creating 0(String)
  18. 《花开半夏》--8 转折(1)
  19. 基于Android的小说电子书阅读app
  20. 不动产查封裁定何时生效?能否对抗善意第三人

热门文章

  1. 菜鸟哥玩蓝牙Ble4.0系列 ESP32初玩篇① Scan —— 扫描周边蓝牙,了解BLE扫描的方方面面
  2. docker下载mysql镜像很慢_docker下载镜像太慢的解决方案
  3. Potato家族本地提权分析
  4. 2021年云南省迪庆高考成绩查询,快来查!2020年云南省高考成绩查询入口-云南招考频道...
  5. 慧荣SM3267AC/SM3267AE量产工具MPTool V2.5.45 v5(2015/11/04)
  6. K12029 奶牛的耳语
  7. 写给中高级前端关于性能优化的9大策略和6大指标 | 网易四年实践
  8. Causal Embeddings for Recommendation 论文笔记
  9. cesium 添加纽约城市模型
  10. vivo2020校招编程--寻找位数之积等于n的最小数m