摘要

为解决视觉问答中很难为预测过程提供直观、人类可读的形式的问题，我们将视觉问答重新表述为一个完整的答案生成任务，需要模型用自然语言证明其预测是合理的。本文提出了LRTA[Look, Read, Think, Answer]，一个透明的视觉问答的神经符号推理框架，像人类一样一步一步解决问题，并在每一步提供人类可读的论证形式。我们在GQA数据集上的实验表明，在完整答案生成任务上，LRTA的性能大大优于最先进的模型(43.1%v.s.28.0%)。我们还通过删除语言线索（属性和关系）来创建一个受扰动的GQA测试集，以分析模型是否真正理解这个问题。

原文

一、介绍

我们将VQA视为答案生成任务，而不是分类任务，用自然语言来生成一个正确答案。本文提出LRTA[Look,Read,Think,Answer]，像人一样逐步解决问题，看一张图像，然后阅读问题，思考进行多步推理，最后给出答案。

LRTA部署了四个神经模块，场景图生成模块将图像转换为场景图，语义解析模块将问题解析为多个推理指令，神经执行模块以递归形式遍历场景图，一次执行一个推理指令。最后，自然语言生成模块生成一个包含自然语言解释的完整答案。通过隐藏状态而不是显式输出连接四个模块，使得模块可以端到端训练。

由于LRTA在测试过程中，每个模块都可以以人类可读的形式处理，因此可以很容易检查错误答案的问题出在哪。

二、LRTA

2.1 Look：场景图生成

目标作为节点，关系作为边。所以第一步是目标检测。使用DETR进行目标检测，因为它消除了需要手工设计的步骤（如NMS），DETR将ResNet50提取的图像特征输入到非自回归transformer模型中，生成N个目标向量：

对于每个目标向量，DETR使用解码器预测相应的目标类别。因为N个目标类别的预测是无序的，因此DETR计算预测损失是通过计算第一次预测结果和真值间的匹配情况来进行的，然后对每个目标向量的损失进行求和。N固定为100，no object标签代表目标向量不表示任何目标。由于目标检测不能学习到目标属性和目标间的关系，使用一个额外的目标属性预测器来增强目标向量解码器。对于每个属性元概念，创建一个分类器预测可能的属性值。为预测关系，考虑所有N(N-1)个目标向量对，将向量对输入到归一化层获得边向量。然后再将其解码，获得对应的关系标签。

目标检测、目标属性和关系检测都以多任务的方式进行监督。使用no relation表示没有关系的目标向量对。构造N个目标向量和N(N-1)个边向量表示的场景图，将其传给下游模块。

2.2 Read: 语义解析

语义解析器类似一个编译器，就是将问题字符转化为神经网络可处理的形式。我们采用一个分层序列生成设计：一个transformer模型首先将问题解析为M个指令向量序列[i1,i2,…,iM]，第i个指令向量对应执行程序的第i个执行步骤。

为便于理解，进一步使用基于transformer指令向量解码器将每个指令向量转换为人类可读的文本。将M个指令向量而不是文本传递给神经执行模块。

2.3 Think:视觉推理

Neural Execution Engine可循环工作：在第m次过程中，Neural Execution Engine需要第m个指令向量im，和输出的场景图遍历结果。

每个历史向量有着当前步骤所有节点的状态，这些状态会输入到下一次计算中。Neural Execution Engine使用图神经网络来运行，对图的卷积操作使用的是近邻聚集策略。关键的步骤是，每个节点聚合其近邻的特征向量，以计算其新的特征向量作为以下神经层的输入。因此，在第m次，给定一个中心节点，首先通过后向反馈网络获得每个邻居的特征向量f_k^m，输入邻居的目标向量ok,邻居节点和中心节点的边向量ek，第m-1个历史向量hm-1，和第m个指令向量im。

然后将每个邻居的特征向量取平均作为中心节点的上下文向量。

接下来，对中心节点执行节点分类，1表示遍历。分类器输入是中心节点的目标向量、上下文向量和第m个指令向量。s_central^m是第m个时间步长中心节点的分类置信度分数。

所有节点的分类结果构成二值图作为场景图遍历结果。之后计算所有目标向量的加权平均，作为历史向量hm，权重就是每个节点分类的置信分数。

2.4 Answer:完整答案生成

为使VQA作为一个答案生成任务，模型在一个完整的句子中回答问题并有理由。LRTA使用transformer模型，需要前面所有的历史向量，最后生成完整的答案标记。

2.5 端到端训练

我们通过隐藏状态而不是符号输出连接四个模块，所以整个框架以端到端的方式训练，训练损失是所有四个模块的损失之和。

三、实验

GQA数据集：11万张图像的150万个问题。 LRTA是GQA上第一个完整的答案生成模型。训练过程使用ground truth、推理指令、每个步骤的场景图遍历结果和完整的答案，测试过程只使用图像和问题。比较LXMERT和LRTA的短答案和完整答案的准确性。完整答案用字符串匹配精度进行评估，因为完整答案遵循预定义的模板。

（1）Ground truth 场景图的设计验证

首先通过使用步骤一（ground truth scene graph）来验证通过使用visual oracle的LRTA的设计。有visual oracle的LRTA在验证集上实现了很高的正确率，短答案93.1，完整答案85.99.展示出了LRTA在视觉问答上的巨大潜力和表达性。

（2）端到端训练实验

表1LRTA在完整答案生成中明显优于LXMERT，在短答案上有的可比的准确率。

（3）扰动的GQA数据集和附加分析

通过系统的从问题中删除属性和关系等，并评估模型是否发生的变化，来设计模型的扰动性。使用由[9]的全面属性列表，并使用预定义的掩码令牌对它们进行掩码。为有效掩蔽关系，使用SpacyPOS-Tagger和掩蔽动词和介词。从表3中得出，在两种掩蔽场景中，LRTA结果下降的都比LXMERT更显著。说明LRTA尝试理解问题和组件，而不是使用外围相关性。

四、总结

本文做出的贡献：

（1）将VQA视为答案生成问题，以提高可解释性。

（2）提出LRTA模型，一种端到端可训练的VQA框架，与当代黑盒方法相比，可增强对错误的分析。

（3）创建了一个扰动GQA测试集，并验证我们的方法。

在GQA数据集上的实验表明，LRTA在完整答案生成任务上取得高精度，比先进的LXMERT结果有明显的15%的绝对优势。除此之外，当属性和关系被掩盖时，LRTA性能下降比LXMERT更明显，表明LRTA朝着真正理解问题迈出了一步，而不是基于数据表面的相关性做出的猜测。

2020：可视化的视觉问答LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular Supervision相关推荐

（VQA）LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular Supervision for Visual Que
发表于2020年的一篇文章 LRTA神经符号推理框架视觉问答目前的主要方法依赖于"黑盒"神经编码器()对图像问题进行编码,难以为预测过程提供直观的.人类可读的证明形式, 本文提出 ...
一文详解计算机视觉的广泛应用：网络压缩、视觉问答、可视化、风格迁移等
作者 | 张皓(南京大学) 来源:人工智能头条丨公众号引言深度学习目前已成为发展最快.最令人兴奋的机器学习领域之一,许多卓有建树的论文已经发表,而且已有很多高质量的开源深度学习框架可供使用.然而, ...
【干货】一文详解计算机视觉的广泛应用：网络压缩、视觉问答、可视化、风格迁移等
引言深度学习目前已成为发展最快.最令人兴奋的机器学习领域之一,许多卓有建树的论文已经发表,而且已有很多高质量的开源深度学习框架可供使用.然而,论文通常非常简明扼要并假设读者已对深度学习有相当的理解, ...
＜＜视觉问答＞＞2021：Mind Your Outliers，Investigating the Negative Impact of Outliers on Active Learning VQA
目录前言一.介绍二.实验设置 2.1.实验流程 2.2.VQA模型 2.3.主动学习方法三.实验结果四.通过数据集映射图分析五.集体离群值六.结论七.附录前言主动学习将分类.识别等 ...
如何通过引入硬注意力机制来学习视觉问答任务？
作者 | Mateusz Malinowski, Carl Doersch, Adam Santoro, and Peter Battaglia 译者 | linstancy 编辑 | Jane 出品 ...
DrugVQA | 用视觉问答技术预测药物蛋白质相互作用
1.研究背景鉴定新的药物-蛋白质相互作用对于药物发现至关重要,基于机器学习的方法利用药物描述符和一维(1D)蛋白质序列已经开发了许多鉴定方法.这些方法一般都是通过将配体,蛋白质及其相互作用的信息整合 ...
论文浅尝 - IJCAI2020 | Mucko：基于事实的多层跨模态知识推理视觉问答
论文笔记整理:陈卓,浙江大学计算机科学与技术系,博士研究生. 论文链接:https://arxiv.org/pdf/2006.09073 代码:https://github.com/astro-zih ...
＜＜视觉问答＞＞2022：CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual Entailment
目录摘要: 一.介绍二.Preliminaries 2.1.CLIP 2.2.Vision-Language Understanding Tasks 三.Zero-shot VQA 3.1.A T ...
＜＜视觉问答＞＞2021：Check It Again: Progressive Visual Question Answering via Visual Entailment
目录摘要: 一.介绍二.相关工作三.方法 3.1.Candidate Answer Selecting 3.2.Answer Re-ranking 3.2.1.Answer Re-ranking ...

2020：可视化的视觉问答LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular Supervision

摘要