摘要

REMAN模型通过在两种主要VQA数据集上获得最好的分数来实现领域泛化。本研究对RAMEN结构中的早/晚融合模块和聚合模块提供两种主要改善，以进一步增强领域泛化。融合模块中引入基于融合策略的向量操作，聚合模块引入transformer结构。实验结果分析了两种改善对领域泛化的有效性。

一、介绍

VQA中数据集分为两种：一种回答关于通过理解自然真实世界图像的对象的问题，另一种使用合成图像测试推理问题。问题在于算法往往关注其中一种，而不能泛化两种。RAMEN模型结构使用一种简单结构，在领域泛化方面优于所有其它模型，所以本研究提出改善RAMEN的结构并分析这些改变对领域泛化问题的整体影响。

主要贡献：1. 通过对RAMEN模型架构的融合和聚合模块调整，来改善领域泛化的表现。2. 基于适合领域泛化的早和晚融合操作的向量的一个广泛比较。3. 基于融合模块的一个transformer实现和分析，以匹配RAMEN模型中区域建议的双模态嵌入之间的关系。

二、相关工作

2.1 VQA数据集

(1) 关于自然图像理解的数据集：所有数据集来自MSCOCO数据集作为基本图像数据集，除了TDIUC添加了额外的图像。

VQA v1：SOTA:75.26%，主要关注检测的问题，包含问题-答案偏见。

VQA v2：减少了问-答偏见，回答推理问题的效果不好。

TDIUC：评估12种VQA任务类型，指标Mean-per-type，一个模型需要在所有问题类型上表现好才能得到一个好的表现分数。

CVQA：重新分割VQA v1，当测试时以引入新的问题-答案对结合，模型需要在任务上泛化，而不是问题和答案。

VQA-CP v2：通过分割VQAv1和VQAv2来战胜问题和语言偏见，允许模型测试泛化的能力，在不通过在训练集过拟合时。

(2) 测试推理的数据集：合成的计算机生成的图像允许数据集自动生成复杂的推理问题，所有数据集使用来自CLEVR数据集的图像。

CLEVR：主要目标是测试模型在几何形状上的推理能力，与TDIUC类似，数据集被分为五种。

CLEVR-Humans：使用自由形式的人类生成的问题-答案对，仍然使用来自CLEVR数据集的同样的图像。

CLEVR-CoGenT：分为CLEVR-CoGenTA和CLEVR-CoGenTB，研究模型识别属性新组合的能力，如在测试时的颜色和形状。

2.2 RAMEN

VQA管道主要包含五个组成部分:VQA数据集、图像表示、问题表示、多模态表示和答案分类。

2.3 Transformer

三、方法

改进的重点是RAMEN模型的多模态表示部分。实验在早融合、晚融合和聚合模块上改进，如图1.

3.1 融合策略

[3]将融合策略分为三类：向量操作、神经网络和双线性池化。RAMEN模型使用向量操作和神经网络的结合来进行多模态融合。早期和晚期的子模块使用简单的特征连接，共享的投影和聚合子模块使用神经网络作为策略。首先在早融合模块中，利用与问题嵌入的连接，将区域视觉特征进行融合，以获得早期融合嵌入。然后通过基于神经网络的共享投影，得到输出的双模态嵌入。在后期融合模块，再次利用与问题嵌入的连接，对双模态嵌入进行融合，以得到后期融合嵌入。融合操作结束后，早期和晚期融合嵌入都通过批归一化[50]。最后，将该向量通过基于递归神经网络的融合策略聚合模块，得到用于分类的融合向量。

[3]也将向量操作分为三个主要部分：连接、加法和乘法。图2显示了本研究中测试的融合策略的概述。

（1）连接融合：这是RAMEN模型使用的基线策略。使用1024的问题嵌入和2048的视觉特征获得最终嵌入大小为3072。在这种方法中，输出嵌入将来自两个嵌入的所有信息传递给神经网络，以识别关系。这种方法没有丢失信息，所有特征点都给予相似的权重。为了执行向量操作，重复问题嵌入，以匹配视觉特征和双模态嵌入的大小。为此，对VQA数据集重复36次，对CLEVR数据集重复15次。

利用方程1得到最终的嵌入(ci)，其中qi是问题嵌入，vi是区域视觉特征或双模态嵌入。

（2）加法融合：问题嵌入与视觉特征的大小相同，因此，将嵌入大小从1024更改为2048，得到最终的嵌入大小为2048。这种方法强调不同的特征点，允许模型更新问题嵌入以专注于它们。这种方法由于加法操作有信息损失，但是，它可以通过增加问题嵌入尺寸来补偿。

（3）乘法融合：与加法类似，该策略使用的问题嵌入大小为2048。在这种方法中，对不同特征点的强调大于加性融合。

（4）问题融合：问题融合使用双重连接策略，问题嵌入在视觉特征之前和之后被连接。问题嵌入尺寸为1024，最终嵌入尺寸为4096。该策略的主要重点是为问题嵌入提供更多的特征点。与其他数据集相比，用于测试推理的CLEVR系列等数据集包含更长的问题。因此，将问题嵌入限制在大小为1024或2048的单个向量上，可以影响问题对模型的强调。

3.2 聚合策略

本模块是用来计算问题和双模态嵌入的关系的，双模态嵌入包含问题和每个区域视觉特征间的关系。因此，该模块旨在识别视觉区域之间的关系。该模块上的高性能将在需要多对象或定位信息来回答的问题上得到更好的结果。

（1）bi-GRU网络：RAMEN模型中的基线聚合策略使用基于RNN的双向GRU的来计算特征向量。此方法的主要缺点是，模型在两个方向上依次穿过每个区域，因此，为了获得两个区域的关系，模型需要穿过可能导致信息丢失的其它区域。当所有区域对问题都同样重要时使用这种方法最好。

（2）Transformer网络：transformer结构在识别多个区域/向量之间的关系方面更强，因为网络同时处理所有区域，而不是按顺序处理。这就是为什么transformer模型在机器翻译任务[36]上表现良好的原因。这使得它能够比RNN更好地捕获区域之间的关系。

然而，传统的transformer网络中的位置编码器掩盖了一半的区域，这是确保模型在机器翻译中无法看到下个单词。对于RAMEN模型，掩盖被移除，transformer能看到所有区域。

原始transformer模型的输出是翻译句子的一组解码器，但在这种情况下，主要目的是获得一个要传递给分类模块的表示。因此，该解码器被替换为一个全连接的神经网络，该神经网络返回一个向量表示，而不是transformer解码器模块。

transformer网络的主要缺点之一是收敛缓慢，通常在翻译任务上需要60多个小时才能完全收敛。

四、实验

4.1 数据集规范

在基线论文中，CLEVR-CoGenTB数据集的准确性是在测试集的一个子分割上获得的。但在本研究中，在完整的测试集上获得了准确性。同样，原论文利用CLEVR-Humans数据集对在CLEVR数据集上训练的模型进行了微调，以获得精度。然而，本研究从头开始训练CLEVR-Humans数据集。数据集的所有其他训练和测试分割都与基线论文相同。

4.2 模型规范

4.3 评估指标

10-choose-3：VQAv1,VQAv2,CVQA,VQACPv2.

Simple Accuracy：CLEVR,CLEVR-Humans、CLEVR-CoGenT-A和CLEVR-CoGenT-B

Mean-per-type：TDIUC

4.4 训练规范

五、结果和讨论

主要关注改变聚合和融合策略的影响，如表2。

5.1 整体观察

首先考虑在所有数据集中平均得分最高的模型，Ramen-Question模型得分为68.76，由于其百分比差异约为1%，很明显，使用不同的融合和聚合策略的改进很小。然而，在结果中可以观察到许多其他的模式，这可以帮助提高未来模型的性能。我们还注意到，Ramen-Multiplicative和TransformerNet-Concat的性能也能够分别提高约0.5%和0.65%。

TransformerNet模型在大多数数据集上根本没有执行，在CLEVR数据集上的精度差异超过25%。这个问题已经在V-D节中得到了解决。然而，TransformerNet-Concat模型在大多数数据集上表现良好。

当考虑在9个数据集上得分最高的模型时，Ramen-Multiplicative模型在三个主要数据集上得分最高，因此，很明显，该模型在自然和合成类型的VQA数据集上都表现良好。然而，该模型不能很好地推广到问题和属性偏差。这是从CVQA和VQACPv2数据集中识别出来的，因为它们上的性能较低。当比较CLEVR-CoGenTA和CLEVR-CoGenTB数据集之间的模型性能时，发现该模型的性能明显下降。

接下来，通过比较基于实验排名前3名分数的模型的性能，可以明显看出，Ramen-Question的整体性能最好。在9个数据集中的7个中，该模型能够达到前3名的结果。这表明该模型能够跨多个数据集进行泛化。此外，TransformerNet-Concat模型能够在9个数据集中达到前3名，尽管它只有CVQA数据集的得分最高。

参照图3a，Ramen-Additive模型能够在三个数据集上进行改进。然而，由于其他数据集的得分较低，特别是CLEVR-Humans，该模型无法达到正均值。这表明该模型在自由形式问题上表现得不好。

5.2 数据集观察

图3b论证了数据集在模型改进的影响，它只展示了至少有一个改进的实验，因此忽略了TransformerNet-Additive、TransformerNet-Multiplicative和TransformerNet-Question。所有剩余的模型都能够在VQAv2数据集上进行改进，这说明所有的融合策略和transformer聚合策略都可以提高定位和检测性能。

然而，只有Multiplicative和Question融合能够改进VQAv1数据集。由于VQAv1在这些问题中存在固有的偏差，这意味着这两种融合策略更容易在基于VQA的数据集上进行过拟合。在CVQA和VQACPv2数据集上的性能较差也明确说明了这一点。

然而，最大的性能收益是通过在CLEVR-Humans数据集上的Ramen-Question。结果表明，问题嵌入的前和后连接对自由形式问题有改进。在VQAv1和VQAv2数据集上的模型性能也是如此。

与基线相比，TransformerNet-Concat是唯一一个对CVQA评分有改善的模型。这突出了transformer聚合模块为模块提供了泛化的能力。这一点进一步强调，因为CLEVR-CoGenTB和VQAv2数据集也显示了分数的改善。

5.3 融合策略

总的来说，不同的融合策略由于其独特的特征而有利于不同的数据集。

（1）连接融合：基线连接融合方法使用RAMEN模型的VQACPv2和TDIUC数据集得分最高，使用TransformerNet模型的CLEVR-CoGenTB得分最高。VQACPv2数据集旨在测试模型中的答案偏差。因此，基于连接的融合能够很好地推广答案偏差，因为Ramen-concat和TransformerNet-Concat都能获得高分。

接下来，TDIUC的MPT度量将衡量模型在多种问题类型上的性能。考虑到Ramen-concat和TransformerNet-Concat在TDIUC数据集上都有高分，很明显，基于连接的融合允许更多的基于问题类型的泛化。

TransformerNet-Concat模型在CLEVRCoGenTA上进行训练，并在CLEVR-CoGenTB上进行测试，因此，该模型将不会学习关于数据集中互补属性的任何细节，这表明该模型能够很好地泛化到看不见的属性组合上。然而，目前基于连接的融合和基于属性的泛化之间的关系尚未建立。这是由于在Ramen-concat模型中的得分较低，这意味着性能增益是由于transformer的聚合策略。

（2）加法融合：加性融合策略无法获得任何数据集的最高得分。然而，Ramen-Additive模型能够改进CLEVR-CoGenTA和CLEVR-CoGenB数据集，这表明该模型能够推广到新概念组成的能力。加法融合策略的主要问题是信息丢失和对向量操作的轻视。

（3）乘法融合：乘法融合策略在VQAv1、VQAv2和CLEVR数据集上的得分最高。如V-A节所述，该模型存在泛化问题。然而，与加法融合相比，对向量操作的重视程度更高，因此最重要的细节是通过融合模块传递的。

（4）问题融合：问题融合得到的CLEVR-Humans和CLEVR-CoGenTA得分最高，它还在所有的CLEVR数据集上都取得了高分。这表明，对于对问题具有较高意义的推理类型数据集，问题的双连接有影响。

由于在CLEVR-CoGenTA和CLEVR-CoGenTB上的性能，可以观察到该模型在新概念组合上的推广能力。

5.4 聚合策略

将transformer模块作为聚合策略，性能不佳。由于使用连接融合策略性能良好，可能不适合作为RAMEN模型的一部分。在训练transformer模块时面临着许多问题，如收敛缓慢，训练时间较长。然而，transformer模块的收敛缓慢仍然是一个显著的缺点。

当考虑到在VQAv2数据集上用于训练TransformerNet-Concat和TransformerNet-Question的epoch的数量时，这一点是很明显的。转换TransformerNet-Concat训练了50轮，其中在第46阶段得分最高，而TransformerNet-additive只训练了25轮。附录B报告了每个数据集使用的所有训练细节。因此，训练TransformerNet模型的时间可以提供更好的分数。

此外，由于训练时间和时间限制，超参数调优不是一个选项。TransformerNet-Question模型平均每轮的时间为58分钟，在单个GPU上的训练需要超过48小时。然而，正如TransformerNet-Concat所观察到的那样，在一个理想的情况下，该模型能够收敛。

六、结论

本研究的改进导致了约1%的性能小幅提高。然而，在领域泛化方面，Ramen-Multiplicative、Ramen-Question和TransformerNet-Concat模型能够在9个数据集中的5个中实现改进。此外，Ramen-Question和TransformerNet-Concat模型在9个数据集中的7个得分达到前3名。

分析融合策略，提供了对影响域泛化的不同特征的见解。例如，由于问题嵌入数据点的数量增加，问题融合在推理问题上表现良好，这导致传递到聚合模块的信息量增加。这些知识可用于提高模型和域泛化的性能。

在研究transformer模块作为聚合策略的效果时，可以明显看出，选择正确的超参数和提供必要的收敛训练时间是训练transformer模块的两个主要要求。这是本研究的主要局限性之一。实验的时间约束和较高的计算成本导致一些实验没有收敛到较高的分数。因此，由于VQA数据集的规模往往更大，因此需要更强大的硬件来执行更广泛的超参数搜索，以优化模型的性能。

仅关注基于向量操作的融合策略也是本研究的另一个局限性。双线性池化技术已被证明是有效的。然而，如果训练直到收敛才进行，在transformer模块上池的计算成本会导致性能较差。尽管如此，这可能是一条未来可以探索的道路。

该研究的另一个局限性是，RAMEN结构本身在试图提高推广性时可能导致了瓶颈。由于这两个改进都是对RAMEN模型的多模态部分的子模块进行的，因此该体系结构可能存在固有的限制。利用从融合和聚合模块的分析中获得的知识，可以开发一种新的体系结构来很好地实现域的泛化。

综上所述，本研究为理解领域泛化所需的特性以及提高RAMEN模型的性能铺平了道路。

2021：Improved RAMEN: Towards Domain Generalization for Visual Question Answering相关推荐

论文解读：Improved Neural Relation Detection for Knowledge Base Question Answering
论文解读:Improved Neural Relation Detection for Knowledge Base Question Answering 本文解决KBQA中的子问题--Relat ...
【论文】VQA：Learning Conditioned Graph Structures for Interpretable Visual Question Answering
[论文]VQA:学习可解释的可视问题解答的条件图结构目录 [论文]VQA:学习可解释的可视问题解答的条件图结构摘要一.模型结构图二.Computing model inputs 三.Grap ...
论文翻译：《Improved Neural Relation Detection for Knowledge Base Question Answering》
该论文于2017年发表在ACL,主要讲了智能问答在sq和wq两个数据集上的性能提升,本人研究生方向为这个,故翻译此论文,希望对大家有用. 论文地址:Improved Neural Relation D ...
＜＜视觉问答＞＞2021：Zero-shot Visual Question Answering usingKnowledge Graph
目录摘要: 一.介绍二.相关工作 2.1.Visual Question Answering 2.2.Zero-shot VQA 三.Preliminaries 四.Methodology 4.1 ...
＜＜视觉问答＞＞2021：Learning Compositional Representation for Few-shot Visual Question Answering
目录摘要一.介绍. 二.RELATED WORK A. Visual Question Answering (VQA) B. Few-shot Learning C. Learning with ...
Improved Neural Relation Detection for Knowledge Base Question Answering
Improved Neural Relation Detection for Knowledge Base Question Answering 2017 ACL SQ78.7 WebQSP63.9 ...
论文笔记：Visual Question Answering as a Meta Learning Task
Visual Question Answering as a Meta Learning Task ECCV 2018 2018-09-13 19:58:08 Paper: http://opena ...
VALSE学习（五）：看图说话-Visual Question Answering as Reading Comprehension
VALSE2019 一.Visual Question Answering as Reading Comprehension 简介:开发一种能够对图像提出智能的.面向目标的问题的方法被证明是一个难以理 ...
论文笔记：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
论文链接:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering Bottom-Up A ...

2021：Improved RAMEN: Towards Domain Generalization for Visual Question Answering

摘要