Introduction

在这项工作中，我们统一了单编码器、双编码器和编码器-解码器范式，并训练了一个包含三种方法优点的图像-文本基础模型。我们提出了对比Captioner模型(CoCa)，该模型采用经过对比损失和captioning损失训练的编码器-解码器架构。如图1所示，我们将Transformer解码器解耦为两部分，分别是单模态解码器和多模态解码器。我们省略了单模态解码器中的交叉注意力来编码纯文本表示，并用交叉注意力将图像编码器的输出和多模态解码器级联起来，以学习多模态图像-文本表示。
我们在图像编码器和单模态文本解码器的输出之间应用对比损失，并在多模态解码器的输出处应用captioning损失。此外，通过将所有标签简单地视为文本，我们利用有标签图像数据和带噪声图像-文本数据对CoCa进行了训练。图像注释文本上的生成损失提供了类似于单编码器交叉熵损失的细粒度训练信号，有效地将上述三种预训练范式纳入到统一的方法中。

—翻译自原文

图1. coca整体结构

Reated Work

CoCa模型结构整体与ALBEF很相似，此处介绍两者区别

ALBEF模型使用了双编码器结构且结合了对比损失和MLM损失，然而我们的模型能更简单更有效的训练来获得更多的能力：
（1）在每个文本-图片对的batch中，CoCa只执行一次前向和反向传播，然而ALBEF需要执行两次(一次是以随机mask token的形式输入，另一种是正常形式输入)
（2）CoCa仅通过两个目标来训练模型，而ALBEF通过预训练的图像和文本编码器初始化需要包括动量模型在内的额外训练信息
（3）使用生成损失的解码器结构更适合自然语言生成，因此可以直接用于图像描述的zero-shot学习

Approach

用不同自然语言监督的基础图像模型包括如下三种：

Single-Encoder Classification
通过使用交叉熵分类的形式来进行预训练模型
Dual-Encoder Contrastive Learning
使用两个编码器分别对图像和文本编码，然后利用对比学习进行联合优化两个编码器，双编码器对比学习形式的优点：能促进文本语义和图像语义对齐，可在与跨模态语义对齐中应用
Encoder-Decoder Captioning
输入图像，然后自回归的形式生成文字，适用于通过自然语言生成的方式来进行图像描述的应用

论文提出的方法： Contrastive Captioners Pretraining

参考

[1] CoCa: Contrastive Captioners are Image-Text Foundation Models

【论文阅读】多模态模型CoCa相关推荐

谷歌最新多模态模型CoCa，多项任务取得SOTA效果，ImageNet达到91.0%
每天给你送来NLP技术干货! 来自:圆圆的算法笔记作者:Fareise 最近谷歌提出了最新多模态预训练方法CoCa,在图像分类.图文检索.看图说话.VQA等多个任务都取得了SOTA效果.CoCa可以 ...
【论文阅读】Hierarchical Multi-modal Contextual Attention Network for Fake News Detection --- 虚假新闻检测，多模态
本博客系本人阅读该论文后根据自己理解所写,非逐句翻译,欲深入了解该论文,请参阅原文. 论文标题:Hierarchical Multi-modal Contextual Attention Networ ...
论文浅尝 | NumNet: 一种带有数学推理的机器阅读理解模型
论文笔记整理:吴林娟. 来源:EMNLP2019 论文链接:https://arxiv.org/pdf/1910.06701.pdf 开放源码:https://github.com/ranqiu92/ ...
多模态情感分析论文解读——CTFN模型
论文:CTFN: Hierarchical Learning for Multimodal Sentiment Analysis Using Coupled-Translation Fusion Ne ...
【论文阅读】保守和适应性惩罚+基于模型的安全强化学习
[论文阅读]保守和适应性惩罚+基于模型的安全强化学习 Conservative and Adaptive Penalty for Model-Based Safe Reinforcement Lear ...
推荐系统模型论文阅读笔记
推荐模型概论 Wide & Deep DeepFM 如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中.居左.居右 SmartyPants 创建一个自定义列表如何创建 ...
论文阅读笔记（一）——铁饼鱼的面部识别：使用数字模型的实验方法
论文阅读笔记(一)--铁饼鱼的面部识别:使用数字模型的实验方法论文简介期刊情况摘要研究背景正文动物实验对象的制备社交展示的描述实验过程实验1 实验2 道德声明结果商量论文简介 ...
【论文笔记】Retro-Reader：基于回溯式阅读器的机器阅读理解模型
Zhuosheng Zhang, Junjie Yang, Hai Zhao, Department of Computer Science and Engineering, Shanghai Jia ...
【论文阅读-3】生成模型——变分自编码器(Variational Auto-Encoder，VAE)
[论文阅读]生成模型--变分自编码器 1. VAE设计思路:从PCA到VAE 1.1 PCA 1.2 自编码器(Auto-Encoder, AE) 1.3 从AE到VAE 2. VAE模型框架 2.1 ...

【论文阅读】多模态模型CoCa

Introduction

Reated Work

Approach

参考

【论文阅读】多模态模型CoCa相关推荐

最新文章

热门文章