关注公众号,发现CV技术之美

 写在前面

视频问答(VideoQA)一个具有挑战性的任务,因为它需要进行视觉理解和自然语言理解的多模态结合。现有的方法很少在多个时间尺度上利用视频中的外观-运动信息,并且问题与文本语义提取的视觉信息之间的交互作用经常被忽略

针对这些问题,本文提出了一种新的具有多模态视频QA交互作用的时间金字塔Transformer(TPT)模型。TPT模型包括两个模块,即特定于问题的Transformer(QT)和视觉推理(VI)。

给定由视频构建的时间金字塔,QT从每个单词和视觉内容之间的粗到细的多模态交互来构建问题语义 。在这种特定于问题的语义的指导下,VI从问题和视频之间的局部到全局的多层次交互中推断出视觉线索

在每个模块中,作者引入了一种多模态注意机制来帮助提取问题-视频交互,并对不同层次的信息采用残差连接。通过在三个VideoQA数据集上的广泛实验,作者证明了本文的方法比现有的方法具有更好的性能。

 1. 论文和代码地址

Temporal Pyramid Transformer with Multimodal Interaction for Video Question Answering

论文地址:https://arxiv.org/pdf/2109.04735.pdf

代码地址:https://github.com/Trunpm/TPT-for-VideoQA

 2. Motivation

随着计算机视觉和自然语言处理的进步,视频问答(VideoQA)在视频检索、智能QA系统和自动驾驶等方面的广泛应用受到越来越广泛的关注。与图像问题回答相比,VideoQA更具挑战性,因为它除了建模问题与每个图像之间的语义相关性外,还需要进一步准确地提取问题与视频之间的动态交互。

在现有的方法中,文本和视频的外观-运动信息之间的多层次交互作用在很大程度上被忽略了。从问题中看到的线索在视觉信息中具有清晰的层次结构,这表明需要从视频中提取不同时间尺度上的信息

如上图所示,为了理解“pandas”和“bench”的语义,信息性的视觉内容可以在时间金字塔的一个较粗粒度的层次上找到,也就是说全局信息就足够了。随着金字塔沿时间尺度的增加,包含细粒度和连续信息的视觉内容被暴露出来,这有助于理解问题中“play”和“how many”的语义。

这个例子揭示了在不同时间尺度上的视觉内容有助于问题与视频之间的交互作用,因此使用时间金字塔是一种实用的方法。

基于上述发现,作者提出了一种用于VideoQA多模态交互的时间金字塔Transformer(TPT)模型。该模型的结构如上图所示。TPT模型由特定于问题的Transformer(QT)和视觉推理(VI)这两个模块组成。

对于由视频构建的时间金字塔,QT基于不同层次的特征序列,提取每个单词与视频之间的粗到细的语义交互特征,以获得与视频相关的问题的语义理解VI提取问题与视频之间的局部到全局的组合语义,并逐渐获得回答所需的视觉线索

在这两个模块中,Transformer结构将扩展为层内多模态Attention交互 ,并采用层间残差连接 进行信息传递。本文的模型整合了细粒度层次的局部信息和粗层次的全局信息,利用不同时间尺度的外观-运动信息来理解文本和视频的交互作用。

 3. 方法

3.1. Overview

给定一个视频V和问题Q,VideoQA的目的是从答案空间A推断正确答案。通常,VideoQA可以建模如下:

其中f为具有可训练参数θ的模型的映射函数。

如上图所示,首先从输入视频中构建时间金字塔,提取不同层次的外观-运动特征。将输入的问题转换成问题embedding。然后,作者提出了一个QT模块,利用问题embedding作为查询,利用金字塔Transformer从不同层次的视觉特征中提取多模态交互,来获得理解相关视觉内容的问题embedding。

然后,作者提出了一个VI模块,在问题语义的指导下完成视觉推理。最后,结合这两个模块的特征,以分类或回归的方式形成最终的答案输出。

3.2. Temporal Pyramid and Feature Extraction

以往的工作在很大程度上忽略了文本和视频在不同时间尺度上的互动。在这项工作中,对于每个输入视频,作者首先构建一个时间金字塔,其层次从1到N。在不同的层次上,视觉信息存储了不同的时间尺度。

为了构建这样的时间金字塔,在第n层,作者将视频输入分割成个片段,其中每个片段包含按照原始时间顺序从视频中连续采样的T帧。在第n层,视频片段组可以表示为:

其中,是n层第i段视频段的第一帧。

预训练的ResNet模型用于从时间金字塔中提取外观特征。对于时间金字塔第n层,提取的帧级外观特征可以表示为:

其中每个外观特征向量,是从各自的帧,中提取的。

类似地,使用预训练的3D ResNet模型提取一组分段的运动特征:

其中,每个运动特征向量,分别从各自的视频片段,中提取。

然后,作者使用一个线性层,将在每个层次上提取的外观-运动特征,即和,映射到一个d维特征空间。

在按照顺序将每层视频片段特征concat后,第n层的外观-运动特征可以表示为:

对于问题和候选答案,作者采用了Glove获取相应的特征embedding,然后通过一个线性层将特征映射到d维。然后采用一个Transformer模型来建模上下文信息,最后问题和候选答案特征可以表示为:

3.3. Question-specific Transformer

QT模块旨在建立一个与视觉内容相关的问题特征表示。如上图所示,QT模块包括一个金字塔Transformer结构,用于问题与不同层次的外观-运动特征之间的多模态相互作用。

为了准确地理解问题,低层的输出通过外部残差连接与下一层连接,使得在高层中也能利用细粒度的视觉特征。在第n层中,用可学习的位置嵌入添加到外观-运动特征中,以保持视频特征序列的位置信息。

QT模块的计算表示如下:

其中,是多头多模态注意层:

给定外部残差连接,第n层的问题语义输出计算为:

(这个模块简单的说就是用问题作为query,用视觉信息去attend问题表示)

3.4. Visual Inference

VideoQA的一个重要步骤是通过给定问题的语义来推断外观-运动特征中的视觉线索。在VI模块的结构如上图所示。给定问题语义表示,我们需要在外观-运动特征的不同时间尺度上寻找回答的线索。

对于金字塔,在较高层次上提取的表示具有更丰富的局部信息,而在较低层次上提取的表示具有更完整的全局信息。在这里,作者通过将从第N层到第1层进行残差连接,对视觉线索进行局部到全局的搜索。计算与QT相似:

(这个模块简单的说就是用视觉信息作为query,用问题去 attend 视觉信息)

此外,作者在这里还引入了多模态Transformer层(MTL),来聚合上一层的视觉信息和当前层的视觉信息,计算如下:

 4.实验

4.1. Comparison with the State-of-the-arts

在TGIF-QA数据集上,上表显示了本文方法和SOTA方法的对比。

上表给出了一个定性的结果。

在MSVD-QA和MSRVTT-QA数据集上,上表显示了本文方法和SOTA方法的对比。

上表给出了一个定性的结果。

4.2. Ablation Study

Impact of the Temporal Pyramid

上表展示了时间金字塔在TPT结构中的作用。

Impact of the Number of Pyramid Levels

上表显示了时间金字塔的深度对实验结果的影响,可以看出深度为3的时候,能够达到比较好的实验结果。

Impact of the QT module

上表展示了QT模块的作用,可以看出QT对于最终模型的性能有促进作用。

 5. 总结

在本文中,作者提出了一种具有多模态交互的时间金字塔Transformer(TPT)模型,该模型分别包含QT和VI模块,以更好地理解问题和视觉推理。在原始问题embedding的指导下,QT模块从外观-运动特征的时间金字塔中获取与视觉相关的问题语义。

然后,VI模块进一步从特征金字塔中搜索视觉线索。对于这两个模块,作者提出了一种多模态Transformer架构来帮助提取多层次的交互信息,并使用残差连接在金字塔的不同层次上进行信息交互。

▊ 作者简介

研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。

知乎/公众号:FightingCV

END

欢迎加入「Transformer交流群

TPT:中科院等提出用于VideoQA的跨模态交互时间金字塔Transformer相关推荐

  1. MS-TCT:InriaSBU提出用于动作检测的多尺度时间Transformer,效果SOTA!已开源!(CVPR2022)...

    关注公众号,发现CV技术之美 本篇分享 CVPR 2022 论文『MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection』, ...

  2. 【论文笔记】PnP-AdaNet:即插即用的对抗域适应网络,用于跨模态心脏分割的基准

    论文地址 代码地址 摘要 深度卷积网络在各种医学图像计算任务中表现出了最先进的性能.利用来自不同模态的图像进行相同的分析任务具有临床效益.然而,深度模型对不同分布测试数据的泛化能力仍然是一个主要挑战. ...

  3. 文献翻译和笔记--CHEF:CHEF: Cross-Modal Hierarchical Embeddings for Food Domain Retrieval(用于食物域检索的跨模态分层嵌入)

     文献下载地址:CHEF: Cross-modal Hierarchical Embeddings for Food Domain Retrieval| Proceedings of the AAAI ...

  4. 从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA

    ©作者 | 奇虎360人工智能研究院.清华大学 来源 | 机器之心 对于中文社区来说,本文提出的大规模跨模态基准数据集无疑很有价值. 视觉语言预训练(VLP)主要学习视觉与自然语言之间的语义对应关系. ...

  5. LXMERT:从Transformers学习跨模态编码器表示LXMERT: Learning Cross-Modality Encoder Representations from Transfors

    摘    要 视觉和语言推理需要理解视觉概念.语言语义,以及最重要的是,这两种模式之间的对齐和关系.因此,原论文提出了LXMERT(从Transforms学习跨模态编码器表示)框架来学习这些视觉和语言 ...

  6. 干货!面向人群计数的跨模态协作表征学习方法和大规模RBGT数据集

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 人群计数是一项基本但又十分具有挑战性的视觉任务,它需要丰富的信息来生成像素级别的人群密度图.之前的方法大多数仅使有限的用光学图像信息,在 ...

  7. 跨模态检索最新高质量综述《Image-text Retrieval: A Survey on Recent Research and Development》

    Image-text Retrieval: A Survey on Recent Research and Development 图像文本检索研究进展综述 2022.03 本文已把文献的引用逐个换成 ...

  8. 基于RK3588+TensorFlow的人工智能跨模态行人重识别方法及应用

    摘要: 跨模态行人重识别技术(cm-ReID)旨在可见光.红外等不同模态图像中识别出同一个人,其在人 机协同.万物互联.跨界融合.万物智能的智能系统与装备中有重要应用.提出一种数据增强的跨模态行人 重 ...

  9. “玩转标签,发现层次的力量!”:跨模态哈希方法研究

    「论文访谈间」是由 PaperWeekly 和中国中文信息学会社会媒体处理专委会(SMP)联合发起的论文报道栏目,旨在让国内优质论文得到更多关注和认可. 论文动机 近年来,随着智能终端等多媒体设备的普 ...

最新文章

  1. 报复性降薪潮来袭,怎么应对?
  2. 逆误差函数:torch.erfinv
  3. python画三维立体图-如何用Matplotlib 画三维图的示例代码
  4. 把权限控制做成用户控件--简易型
  5. OpenGL相机控制之二
  6. python简单爬虫(一)
  7. [Ajax] jQuery中的Ajax -- 02-jQuery中的三级联动
  8. 【kafka】kafka kerberos KeeperErrorCode = InvalidACL for /config/topics
  9. CSS基础——CSS样式的引入和规则【学习笔记】
  10. 数据科学包12-实例1:股票数据分析
  11. 生产者消费者模式-Java实现
  12. python数据结构-单链表
  13. Excel常用函数公式20例
  14. Linux驱动:电阻屏驱动分析
  15. 【解题报告】CF练一下题 | 难度CF2500左右
  16. ZZULIOJ-1075,聚餐人数统计(Python)
  17. 好分数学生家长查排名成绩-在线好分数查成绩入口
  18. 【乐逍遥网站设计】网站设计的流程与时间
  19. 微念入局螺蛳粉餐饮供应链,或成下一个颐海、蜀海
  20. 操作系统---栈区与堆区 转自:https://blog.csdn.net/amcp9/article/details/79597481

热门文章

  1. H264 编码+打包+解码相关知识
  2. Visual Leak Detector 2 2 3 Visual C++内存检测工具
  3. 12096 - The SetStack Computer
  4. Linux学习笔记13
  5. 【入门1】顺序结构 (今天刷洛谷了嘛)
  6. 【中级】 微信小程序 - 腾讯云 - wafer2 - PHP - 实战 - 后台 - 数据库的访问 - 01 - 通过wx.request或者qcloud.request来获取数据库数据
  7. hexo+git+github+域名搭建个人博客提示404_不用花一分线,松哥手把手教你上线个人博客...
  8. opengl绘制的点不显示是什么原因_中考后为什么不允许复读?原因主要在以下5点,你都清楚吗?...
  9. java 能重写构成函数_java函数重载和函数重写
  10. utc时间转换为时分秒_C语言操作时间函数,实现定时执行某个任务小程序