每天给你送来NLP技术干货!


来自:南大NLP

01

研究动机

对齐不同模态的语义是多模态预训练 (VLP) 模型的一个重要能力。然而,VLP模型的内部对齐机制是不可知的。许多研究已经关注到这个问题,其中一个主流方法是通过精心设计的分类探针实验来探究模型的对齐能力[1, 2]。但是我们认为简单的分类任务不能准确地探究的这个问题:第一,这些分类任务仍然将VLP模型当作黑盒子,只能从分类任务的指标上分析模型在某一个方面的对齐效果;第二,很多分类任务只需要使用图片-文本对中的部分信息就可以完成(例如一个区域,一个词组或者两者都使用)。

图1:给出1张图片与6个句子,测试不同的VLP模型会选择哪个句子与图片最匹配

为了进一步说明这一点,图1展示了1张图片和6个句子,其中句子 (a) 是对图片的合理描述,(b)-(f) 是不可读的5个句子。令人惊讶的是,我们测试的5个预训练模型都没有选择合理的描述 (a),这促使我们去深入研究VLP模型会认为哪一种句子是更符合图片的,即从文本视角探究多模态预训练模型的语义对齐机制。

如果人工去生成图1所示的不可读的句子,然后再去测试VLP模型是否对其有偏好是非常困难的,本文则考虑利用自动化的方式生成VLP模型偏好的句子。具体而言,我们可以把VLP模型认为哪个句子更好(匹配分数越大)作为一种反馈,来训练一个多模态生成模型,通过最大化匹配分数来生成为图片生成描述。通过这种方式,生成模型会放大VLP模型对句子的偏好并反映到生成的句子中。所以我们提出一个新的探针实验:使用图像描述 (captioning) 模型,通过分析生成的句子来探究VLP模型的多模态的语义对齐机制。

02

贡献

1.我们提出了一个新的探针实验:使用图像描述模型,通过分析生成描述来探究VLP模型的多模态的语义对齐机制。

2.我们在5个主流VLP模型上进行了探针实验,通过captioning模型生成的句子,分析了每一个VLP模型的语义对齐能力。

3.通过5个VLP模型反映出的对齐问题,总结了目前VLP模型存在的3个缺陷并进行了验证。

03

探针实验与分析

我们选择了5个主流的VLP模型,包括UNITER[3],ROSITA[4],ViLBERT[5],CLIP[6]以及LXMERT[7]。

我们使用COCO数据集作为我们探针实验数据集,使用FC model[8]作为实验的captioning模型。由于VLP的匹配分数不能直接反馈到图像描述模型,所以我们使用SCST[8]的方法来优化。

经过VLP 模型匹配分数的优化后,captioning模型生成的句子可以获得很高的匹配分数(表1左边所示),这说明VLP模型认为这些句子与图片更匹配了。直觉上,这些句子应该更好地描述了图像中的内容,但是我们使用图像描述指标测试这些句子却发现,它们的指标下降了非常多(表1右边所示),这促使我们去检查一下生成的句子发生了哪些变化。

表1:生成句子在图像描述指标和 VLP 模型匹配分数上的测试结果。CE表示使用cross-entropy作为loss训练的基础模型。

图2经过不同VLP模型的匹配分数优化后生成的句子

图2展示了经过匹配分数优化后生成的的句子,我们可以发现几乎所有的句子都已经变得不可读。我们从困惑度 (perplexity), 句子长度,视觉词的数量等角度对这些句子进行定量分析,发现这些句子已经与CE模型生成的句子有了非常大的变化 (如表2所示)。不仅如此,我们还发现每一个VLP模型似乎都对某些固定的句式有偏好,如图2中,被CLIP优化的captioning模型,生成的句子的前缀带 (prefix) 经常含有与“a image of”相关的词组。我们利用正则表达式,对这些句子的句式(pattern)进行进行总结(表3),可以发现每一个VLP 模型都有自己偏好的句式。

表2生成句子的困惑度,长度,视觉词数量的统计信息

表3生成句子的句式统计

04

VLP模型的缺陷

通过上述对生成句子的定量分析,我们发现现在的预训练模型主要存在3个缺陷。为了验证这3个发现,我们使用了COCO测试集中的5000张图片。

(a)VLP模型在判断一个图片-句子对是否匹配的时候过于依赖图片中的区域特征和句子中的视觉词,而忽视了全局的语义信息是否对齐。

我们对CE生成的句子进行两种处理:替换视觉词 (Replacing visual words)和替换非视觉词 (Replacing other words)。从图3中我们可以发现替换视觉词会使得VLP模型的匹配分数大幅下降,但是替换非视觉词只会让匹配分数下降一点。需要注意的是,替换了非视觉词后的句子是不可读的,但是模型还是会认为这些不可读句子与图片是匹配的。

图3替换视觉词与替换非视觉词的匹配分数与原始分数的对比

(b)   VLP模型会对偏好某些固定的句式,因此忽视了更重要的文本信息,如流畅度,语法等。

我们利用表3发现的句式,提取出CE句子的视觉词,把视觉词填补到这些句式中。我们仅仅是改变了句子的结构,就可以使得这些句子的匹配分数大幅提高 (表4所示)。

表4重构后句子的匹配分数

(c)VLP模型认为包含更多视觉词的句子更匹配图片,这会弱化图片中关键物体的作用。

我们把每张图片的ground-truth中的视觉词先提取出来,然后每次填充k (k=3,4,5,6,7) 个到句式模版中。从图4中可以看出,随着视觉词的增加,重构句子的匹配分数越来越高。

图4含有k个视觉词句子的匹配分数

05

总结

在本文中,我们利用图像描述模型提出一个新颖的探针方法。通过这个方法,我们从文本角度分析了VLP模型的语义对齐机制。我们发现现有的VLP模型在对齐方面有明显的缺陷。我们希望这些发现可以促进研究者设计更合理的模型结构或预训练任务。同时,研究者也可以使用我们的探针方法,分析其设计的VLP模型是否存在缺陷。

06

参考文献

[1] Jize Cao, Zhe Gan, Yu Cheng, Licheng Yu, YenChun Chen, and Jingjing Liu.2020. Behind the scene: Revealing the secrets of pre-trained visionand-language models. ECCV.

[2] Letitia Parcalabescu, Albert Gatt, Anette Frank, and Iacer Calixto. 2020. Seeing past words: Testing the cross-modal capabilities of pretrained v&l models. CoRR, abs/2012.12352.

[3] Yen-Chun Chen, Linjie Li, Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng, and Jingjing Liu. 2019.UNITER: learning universal image-text representations. CoRR, abs/1909.11740.

[4] Yuhao Cui, Zhou Yu, Chunqi Wang, Zhongzhou Zhao, Ji Zhang, Meng Wang, and Jun Yu. 2021. ROSITA: enhancing vision-and-language semantic alignments via cross- and intra-modal knowledge integration. ACMMM

[5] Jiasen Lu, Dhruv Batra, Devi Parikh, and Stefan Lee. 2019. Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. NeruIPS

[6] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. 2021. Learning transferable visual models from natural language supervision. ICML

[7] Hao Tan and Mohit Bansal. 2019. LXMERT: learning cross-modality encoder representations from transformers. EMNLP

[8] Steven J. Rennie, Etienne Marcheret, Youssef Mroueh, Jerret Ross, and Vaibhava Goel. 2017.Self-critical sequence training for image captioning. CVPR


EMNLP'22 Findings | 南大提出:从文本视角探究多模态预训练模型的语义对齐能力...相关推荐

  1. OpenAI打破文本和图像次元壁,提出基于对比学习的多模态预训练模型CLIP

    OpenAI 打破了自然语言与视觉的次元壁,推出了一个连接文本与图像的神经网络模型CLIP. 相关资料 CLIP原论文:Radford et al. Learning transferable vis ...

  2. KD-VLP:知识蒸馏和预训练还能这么结合?上科大IntelMSRA提出基于知识蒸馏的端到端多模态预训练模型...

    关注公众号,发现CV技术之美 本文分享论文『KD-VLP: Improving End-to-End Vision-and-Language Pretraining with Object Knowl ...

  3. ICCV 2021 Oral | Transformer再下一城!百度南大提出神经绘画网络:Paint Transformer

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 杨净 发自 凹非寺 转载自:量子位(QbitAI) AI已经能教你画油画了. 随便给一张图,笔画序列秒秒钟呈 ...

  4. 大道至简,仅需4行代码提升多标签分类性能!ICCV21 南大提出Residual Attention

    ▊ 写在前面 多标签图像识别是一项具有挑战性的计算机视觉任务.然而,目前解决这一任务的方法复杂.计算量大.缺乏直观解释 .为了能够有效地感知不同类别物体所占据的空间区域,作者提出了一个非常简单的模块, ...

  5. 【NLP】6种用于文本分类的开源预训练模型

    来源 | PURVA HUILGOL 编译 | VK 作者 | Analytics Vidhya [导读]我们正站在语言和机器的交汇处,这个话题我很感兴趣.机器能像莎士比亚一样写作吗?机器能提高我自己 ...

  6. 六种用于文本分类的开源预训练模型

    作者|PURVA HUILGOL 编译|VK 来源|Analytics Vidhya 介绍 我们正站在语言和机器的交汇处,这个话题我很感兴趣.机器能像莎士比亚一样写作吗?机器能提高我自己的写作能力吗? ...

  7. SIGGRAPH 2021丨OPPO与南大提出双流网络:仅输入单张图片,就能“看”出物体材质...

     OPPO 为了解决双向反射分布函数 (SVBRDF)提取过程中所遇到的纹理.高光.阴影问题,南京大学计算机软件新技术国家重点实验室的过洁博士等多位专家学者和OPPO软工多媒体与智慧开发部高级算法工程 ...

  8. ICCV2021-PiT-池化操作不是CNN的专属,ViT说:“我也可以”;南大提出池化视觉Transformer(PiT)...

    关注公众号,发现CV技术之美 本文分享一篇 ICCV2021 论文:『Rethinking Spatial Dimensions of Vision Transformers』. 详细信息如下: 论文 ...

  9. CVPR2022|比VinVL快一万倍!人大提出交互协同的双流视觉语言预训练模型COTS,又快又好!

    有用的话文末帮忙点个赞哦

最新文章

  1. SDWebImage中文说明
  2. 《iOS取证实战:调查、分析与移动安全》一3.4 数据存储方式
  3. new Function()
  4. Knative 基本功能深入剖析:Knative Eventing 之 Sequence 介绍
  5. 来,和腾讯一起共建未来城市
  6. support mobile touch event
  7. 前端学习(2682):重读vue电商网站3之登录页面总结el-form 组件问题
  8. 2019/2/12 Python今日收获
  9. LeetCode 521. Longest Uncommon Subsequence I
  10. 白话数据结构之【最小生成树】(转载)
  11. Linux防火墙连续多个端口,Linux防火墙iptables配置开放某个端口
  12. java 输出二进制文件_Java输出小端二进制文件
  13. 博客营销自动赚钱系统
  14. windows7系统的“ .exe”图标显示不正常解决办法
  15. 转行大数据还是人工智能,哪个发展更好
  16. 一张具有纪念意义的图片,图中的程序员你认识么?他近况如何?
  17. 恒源云(GPUSHARE)_CV训练时容易忽视的数据标签问题
  18. 软科计算机科学与工程专业,2019上海软科世界一流学科排名计算机科学与工程专业排名德蒙福特大学排名第201-300...
  19. C语言学习记录——팔 函数和递归(1)
  20. ES6中Generator函数

热门文章

  1. git 提交指定文件
  2. 奔现,我们的相遇有了后续...
  3. Android开机动画制作
  4. 【VMware】VMware Workstation and Device/Credential Guard are not compatible
  5. Vue 中数组常用方法的使用和示例
  6. NT AUTHORITY\NETWORK SERVICE 权限问题
  7. html用户名框架,html的基本框架和常用标签
  8. 【leetcode】变位词组
  9. 后台管理系统(代码自动生成)
  10. Linux开启ssh并允许root登录(ubuntu、centos、kalilinux)