点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

作为2021年的重要里程碑,CLIP 一经问世便吸引了广大研究人员的关注。但是4亿的图片-文本对数据,数百张的GPU卡需求,让研究者望而生畏。

为了解决CLIP训练的Data efficiency 问题,商汤科技推出DeCLIP 已被ICLR 2022接受,其DeCLIP-ResNet50可以在比CLIP使用的数据少7.1倍的同时,在ImageNet上达到60.4% Zero-Shot准确率,比CLIP-ResNet50高出0.8%!另外,基于DeCLIP提出了图像文本对预训练相关的Benchmark,整合了目前的CLIP,SLIP,FILIP等相关工作。DeCLIP和Benchmark的相关数据、代码、模型及训练脚本现已开源,欢迎使用!

DeCLIP (ICLR 2022):

https://arxiv.org/abs/2110.05208

CLIP-Benchmark:

https://arxiv.org/abs/2203.05796

Code(已开源): https://github.com/Sense-GVT/DeCLIP

1. Motivation

大规模语言-图像对比学习预训练已经在零样本学习以及下游任务上取得很好的效果(如CLIP)。但是例如CLIP这样的模型需要400M的数据进行预训练,为了提高训练的效率,让模型在较少的训练数据下依然取得不错的效果,本文提出一种高效的多模态预训练范式DeCLIP。不同于CLIP仅仅使用图像文本对匹配作为自监督信号,DeCLIP使用了多种监督信号:

  • 模态内的自监督学习;

  • 跨模态的多视角监督学习;

  • 最近邻监督学习。

2. Method

如下图所示,本文提出了一种数据利用效率更高的多模态预训练范式DeCLIP。使用更多的监督信息,从而实现对数据的高效利用。

2.1 CLIP回顾

首先回顾一下CLIP, CLIP直接进行图像和文本对之间的对比学习,使用两个encoder分别编码图片信息和文本信息。图像encoder一般使用CNN或者VIT,文本encoder一般使用transformer。之后将文本和图像嵌入映射到相同空间中,使用对比学习的思想,将匹配的图片-文本embedding的距离拉近,将不匹配的embedding拉远。

2.2 模态内的自监督学习 (Self-Supervision within each modality,SS)

每个模态内分别单独进行自监督学习,包括图像的自监督学习和文本的自监督学习。

(a) 图像自监督学习

按照SimSiam提出的方式进行图像级别的自监督学习。图像通过两个数据增强得到两个视图,它们会先被共享权重的图像编码器编码,然后其中一个视图会通过一个两层的MLP进行特征的增强,并与另一个视图的输出计算余弦相似度并回传梯度。

(b) 文本自监督学习

按照BERT中的方法进行文本自监督学习。首先在每个序列中随机选择 15%的token,然后将该token (1) 80%概率替换为[mask] (2) 10%概率替换为随机token (3)  10%概率不进行修改。最后使用相应位置的语言模型输出来预测原始token,并使用交叉熵损失进行优化。

2.3. 跨模态Multi-View监督学习(Multi-View Supervision,MVS)

原始的CLIP直接使用图像和文本的嵌入计算自监督InfoNCE损失,而DeCLIP中使用的是数据增强后的文本和图像,进行四次InfoNCE,相比CLIP多了三倍的量。具体来说,对于原始图像文本对,DeCLIP将图像进行数据增强得到,文本进行数据增强得到,通过计算的InfoNCE损失函数,相较于CLIP多了三次监督。

2.4. 最近邻监督学习(Nearest-Neighbor Supervision,NNS)

因为相同的图像可能会有类似的语言描述,因此选择语言描述相似的图文对进行对比学习。通过维护一个先入先出(FIFO)的队列来模拟整个数据分布,从这个队列中选取最相似的句子作为正样本,并在选取的之间使用InfoNCE损失函数作为最近邻损失函数。

最终将三种loss加权求和,得到最终的loss。

3. Experiments

3.1. 数据集

DeCLIP数据集包含现有开源的29M和互联网爬取的59M两部分,共88M数据。

3.2. Zero-Shot与Finetune的准确率

3.3. 三种监督的效果以及训练速度对比

4. CLIP-Benchmark

目前CLIP系列相关Paper基于的数据、超参等都有区别,为了方便社区使用,本文在DeCLIP的基础上提出了CLIP-Benchmark,其中包含高质量的YFCC15M-V2数据集、目前已有相关Paper的复现代码与结果对比(CLIP,SLIP,FILIP,DeCLIP)和一个集大成者的训练方法DeFILIP。具体方法和效果如下图所示。

ICCV和CVPR 2021论文和代码下载后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
CVer-Transformer交流群成立
扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信: CVer6666,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!▲扫码进群
▲点击上方卡片,关注CVer公众号整理不易,请点赞和在看

实验室可以训练(De)CLIP了!商汤ICLR2022 DeCLIP正式开源!相关推荐

  1. 强烈推荐!商汤-港中文MMLab开源图像视频超分辨率工具箱MMSR

    点击我爱计算机视觉标星,更快获取CVML新技术 近一年,图像视频超分辨率突然变得异常火热,各大AI巨头和新锐均在发力. 52CV曾经第一时间报道了在今年CVPR 2019上 商汤EDVR算法获NTIR ...

  2. 鸿蒙系统代码开源不担忧友商,华为鸿蒙系统正式开源!打脸“安卓套皮论”,友商手机也可采用!...

    看得出在鸿蒙系统的推广和普及上华为行进的动作力度是又大又快.针对外界议论纷纷的"鸿蒙是不是安卓系统换皮"的争议,华为打算用最彻底的方式来辩驳,那就是将鸿蒙系统全面开源.据今天传来的 ...

  3. 商汤首付56亿!上海建成亚洲最大AI“发电厂”,万亿参数大模型训练无压力

    梦晨 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 刚刚,商汤又多了一项"亚洲第一". 就在上海临港,商汤自建的人工智能计算中心(AIDC)交付使用,一举成为亚洲最大的AI ...

  4. 港中大、商汤开源目标检测工具包mmdetection,对比Detectron如何?

    近日,香港中文大学-商汤联合实验室开源了基于 PyTorch 的检测库--mmdetection.上个月,商汤和港中大组成的团队在 COCO 比赛的物体检测(Detection)项目中夺得冠军,而 m ...

  5. 60篇论文入选,两度夺魁,“史上最难ECCV”商汤再攀高峰

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 来源:商汤科技SenseTime 8月23-28日,全球计算机视觉三大顶会之一,两年一届的欧洲 ...

  6. 专访商汤科技联合创始人林达华丨一名AI人才,需要多少栽培?

    原创:谭婧 林达华,现任MMLab掌门.MMLab是香港中文大学多媒体实验室,也是港中文-商汤联合实验室.掌门的大部分时间花在全球多个实验室里,所以北京的记者想面对面采访,未必是件容易的事. 最终,我 ...

  7. “学院派”商汤科技:原创技术价值迸发

    作者|震霆   出品|新芒X        公众号|GOwithAI 距离李飞飞离职谷歌已经5个月了. 我们熟识的这位AI圈一姐沉寂了一段时间后,终于又听到关于她的消息:领导的斯坦福的团队提出了自动图 ...

  8. 【金猿产品展】SenseCore商汤AI大装置——推动物理世界的全面数字化转型

    商汤科技产品 本项目由商汤科技投递并参与"数据猿年度金猿策划活动--2021大数据产业创新服务产品榜单及奖项"评选. 数据智能产业创新服务媒体 --聚焦数智 · 改变商业 Sens ...

  9. 商汤三体梦幻联动,能遭遇水滴的那种元宇宙要来了!我在现场听见了次元壁破碎的声音...

    鱼羊 萧箫 发自 世界人工智能大会 量子位 报道 | 公众号 QbitAI 给你一个机会,穿越到<三体>世界,你愿意吗? 成为小说角色之一,像罗辑.云天明一样尽全力拯救地球人类:或是当个普 ...

最新文章

  1. 阿里p7程序员哀叹:35岁,被通知合同不再续签,输出社会,怎么办?
  2. 百度云盘上传文件和下载文件慢的解决办法
  3. python设置文件权限_PYTHON学习之文件操作;
  4. java groovyshell_在java中使用groovy怎么搞
  5. 弹框在一个很的长页面居中显示
  6. Hack.Chat 在浏览器里快速建立简单、随用即丢线上聊天室,无须下载安装软体
  7. 交换机启用光口命令_华为光交换机查看光模块命令
  8. 《MPLS在Cisco IOS上的配置》一2.3 配置命令参考
  9. [Unity] 在协程中等待指定的毫秒
  10. [转] eclipse安装subversive插件
  11. 电力电子技术(15)——晶闸管直流电动机调速相控电路的驱动控制
  12. JQ6500语音模块
  13. 帕丽斯·希尔顿,缺少
  14. 2020-09-13 滴滴-2021校招在线笔试-DE数据开发试卷
  15. 【原创】如何用mac撰写LaTex论文
  16. Hive基础之创建数据库
  17. 结束已经占用的端口号的进程
  18. 2022数学建模国赛B题思路分析
  19. TPM密钥管理、使用
  20. 做网站懒得备案 海外云服务器你要懂得怎么选!

热门文章

  1. ResultSet遍历
  2. 优秀有价值的博客收藏列表(持续更新)
  3. 电动汽车双向充电桩电路仿真 交流侧采用普通三相桥式变换电路,SVPWM控制生成开关信号,控制系统采用电压外环电流内环控制
  4. 电脑上配置jdk环境变量
  5. php网站记事本,php实现记事本案例
  6. Python-serial 模块使用方法
  7. 【python自动化测试】京东|淘宝|秒杀12306抢票程序揭秘!一起薅羊毛吧【含源码】
  8. CLIPS专家系统基本编程手册(一)
  9. 场景应用:我 ping www.yyl.plus 这个网址会用到哪些协议?
  10. 「题解」清华集训 2016 你的生命已如风中残烛