Introduction

在这项工作中,我们统一了单编码器、双编码器和编码器-解码器范式,并训练了一个包含三种方法优点的图像-文本基础模型。我们提出了对比Captioner模型(CoCa),该模型采用经过对比损失和captioning损失训练的编码器-解码器架构。如图1所示,我们将Transformer解码器解耦为两部分,分别是单模态解码器和多模态解码器。我们省略了单模态解码器中的交叉注意力来编码纯文本表示,并用交叉注意力将图像编码器的输出和多模态解码器级联起来,以学习多模态图像-文本表示。
我们在图像编码器和单模态文本解码器的输出之间应用对比损失,并在多模态解码器的输出处应用captioning损失。此外,通过将所有标签简单地视为文本,我们利用有标签图像数据和带噪声图像-文本数据对CoCa进行了训练。图像注释文本上的生成损失提供了类似于单编码器交叉熵损失的细粒度训练信号,有效地将上述三种预训练范式纳入到统一的方法中。

—翻译自原文

图1. coca整体结构

Reated Work

CoCa模型结构整体与ALBEF很相似,此处介绍两者区别

ALBEF模型使用了双编码器结构且结合了对比损失和MLM损失,然而我们的模型能更简单更有效的训练来获得更多的能力:
(1)在每个文本-图片对的batch中,CoCa只执行一次前向和反向传播,然而ALBEF需要执行两次(一次是以随机mask token的形式输入,另一种是正常形式输入)
(2)CoCa仅通过两个目标来训练模型,而ALBEF通过预训练的图像和文本编码器初始化需要包括动量模型在内的额外训练信息
(3)使用生成损失的解码器结构更适合自然语言生成,因此可以直接用于图像描述的zero-shot学习

Approach

用不同自然语言监督的基础图像模型包括如下三种:

  • Single-Encoder Classification
    通过使用交叉熵分类的形式来进行预训练模型
  • Dual-Encoder Contrastive Learning
    使用两个编码器分别对图像和文本编码,然后利用对比学习进行联合优化两个编码器,双编码器对比学习形式的优点:能促进文本语义和图像语义对齐,可在与跨模态语义对齐中应用
  • Encoder-Decoder Captioning
    输入图像,然后自回归的形式生成文字,适用于通过自然语言生成的方式来进行图像描述的应用

论文提出的方法: Contrastive Captioners Pretraining

参考

[1] CoCa: Contrastive Captioners are Image-Text Foundation Models

【论文阅读】多模态模型CoCa相关推荐

  1. 谷歌最新多模态模型CoCa,多项任务取得SOTA效果,ImageNet达到91.0%

    每天给你送来NLP技术干货! 来自:圆圆的算法笔记 作者:Fareise 最近谷歌提出了最新多模态预训练方法CoCa,在图像分类.图文检索.看图说话.VQA等多个任务都取得了SOTA效果.CoCa可以 ...

  2. 【论文阅读】Hierarchical Multi-modal Contextual Attention Network for Fake News Detection --- 虚假新闻检测,多模态

    本博客系本人阅读该论文后根据自己理解所写,非逐句翻译,欲深入了解该论文,请参阅原文. 论文标题:Hierarchical Multi-modal Contextual Attention Networ ...

  3. 论文浅尝 | NumNet: 一种带有数学推理的机器阅读理解模型

    论文笔记整理:吴林娟. 来源:EMNLP2019 论文链接:https://arxiv.org/pdf/1910.06701.pdf 开放源码:https://github.com/ranqiu92/ ...

  4. 多模态情感分析论文解读——CTFN模型

    论文:CTFN: Hierarchical Learning for Multimodal Sentiment Analysis Using Coupled-Translation Fusion Ne ...

  5. 【论文阅读】保守和适应性惩罚+基于模型的安全强化学习

    [论文阅读]保守和适应性惩罚+基于模型的安全强化学习 Conservative and Adaptive Penalty for Model-Based Safe Reinforcement Lear ...

  6. 推荐系统模型论文阅读笔记

    推荐模型概论 Wide & Deep DeepFM 如何插入一段漂亮的代码片 生成一个适合你的列表 创建一个表格 设定内容居中.居左.居右 SmartyPants 创建一个自定义列表 如何创建 ...

  7. 论文阅读笔记(一)——铁饼鱼的面部识别:使用数字模型的实验方法

    论文阅读笔记(一)--铁饼鱼的面部识别:使用数字模型的实验方法 论文简介 期刊情况 摘要 研究背景 正文 动物实验对象的制备 社交展示的描述 实验过程 实验1 实验2 道德声明 结果 商量 论文简介 ...

  8. 【论文笔记】Retro-Reader:基于回溯式阅读器的机器阅读理解模型

    Zhuosheng Zhang, Junjie Yang, Hai Zhao, Department of Computer Science and Engineering, Shanghai Jia ...

  9. 【论文阅读-3】生成模型——变分自编码器(Variational Auto-Encoder,VAE)

    [论文阅读]生成模型--变分自编码器 1. VAE设计思路:从PCA到VAE 1.1 PCA 1.2 自编码器(Auto-Encoder, AE) 1.3 从AE到VAE 2. VAE模型框架 2.1 ...

最新文章

  1. Android Google 服务框架相关问题
  2. windows 7下同时安装visual studio 2012和2010
  3. 详细解读java IO
  4. Boost.Flyweight 复合设计示例
  5. python 函数式 panda_python – 反向中的Pandas分裂函数
  6. 全款房抵押贷款利息和抵押率各是多少?
  7. 技术文档的撰写_如何撰写出色的技术博客文章
  8. 猫头鹰的深夜翻译:Java中的CAS(Compare And Swap)
  9. signature=e77a95aa96da4f165d75bdbdf33ba079,来用百度密语吧!!!
  10. imageJ下载链接
  11. Python搭建聊天机器人微信订阅号
  12. 【旅行】2月17日 南京 - 日照 451公里自驾过年
  13. 【硬件工程师】芯片手册阅读-电阻式触摸屏控制芯片
  14. DBF文件使用JAVA读写解决方案
  15. 广告系统,业务与架构细节
  16. endl与\n的区别
  17. chrome扩展-打造个性化的web页面
  18. DSP学习(8)—— linker.cmd文件解析
  19. Windows10如何去除快捷方式的小箭头
  20. P3084 [USACO13OPEN]照片Photo(差分约束)

热门文章

  1. 微信小程序同wifi内局域网调试失败问题几种解决办法
  2. Android VideoView播放网络视频简介
  3. 【Android项目】本地FM收音机开发及源码简析
  4. Android 物联网基于WIFI tcp配网流程
  5. centons7安装docker私有库harbor
  6. 为什么服务器刷微信后反复重启,就在刚刚!微信又挂了!有人卸载重装、有人重启手机……好捉急!...
  7. DDR4学习笔记02
  8. Go语言微服务实战之API网关
  9. 来自千里之外祖国的关爱
  10. 【android工具篇】Firefly-RK系列(eg:RK3288 RK3368)一键获取root权限工具RootUtils