用于图文匹配的图结构网络

摘要

由于图像-文本匹配连接了视觉和语言，因此它受到了越来越多的关注。关键的挑战在于如何学习图像和文本之间的对应关系。现有的工作基于对象共现统计学习粗对应，而没有学习细粒度的短语对应。在本文中，我们提出了一种新颖的图结构匹配网络（GSMN），以学习细粒度的对应关系。GSMN将对象、关系和属性明确地建模为一个结构化短语，不仅可以分别学习对象、关系和属性的对应关系，而且有利于学习结构化短语的细粒度对应关系。这是通过节点级匹配和结构级匹配实现的。节点级匹配将每个节点与其来自另一种模式的相关节点关联起来，其中节点可以是对象、关系或属性。关联节点通过在结构级匹配中融合邻域关联，共同推断出细粒度的对应关系。综合实验表明，GSMN在基准测试中优于最先进的方法，相对于Flickr30K和MSCOCO分别提高了近7%和2%

1.介绍

图像-文本匹配是一项新兴的任务，它将来自一种模式的实例与来自另一种模式的实例进行匹配.这可以连接视觉和语言，从而有可能提高其他多模态应用程序的性能。图像-文本匹配的关键问题在于学习图像和文本的对应关系，以便准确地反映图像-文本对的相似性.
现有的方法要么侧重于学习全局对应关系，要么侧重于学习局部区域-单词对应关系.全局对应学习方法的总体框架是将整个图像和文本共同投射到一个共同的潜在空间中，在这个空间中对应的图像和文本可以统一成相似的表示.公共空间投影技术的范围从设计特定的网络增加约束，如三重损失[29]，对抗性损失[27]和分类损失.图像-文本匹配的另一个分支是学习局部区域-词对应关系，用于推断同一对象的全局相似度和属性点。图像-文本匹配的另一个分支是学习局部区域-词对应，用于推断图像-文本对的全局相似度。一些研究者关注于学习显著区域与关键词之间的局部对应关系。例如，Ji等提出了一种轻量级显著性模型检测到的部分显著区与单词相关，这就需要外部显著性数据集作为监督。最近的研究发现了所有可能的区域-词对应。例如，Lee等人提出将每个单词与所有权重不同的区域关联起来，反之亦然。在此基础上，wang et al.集成了位置嵌入来指导对应学习，Liu et al.提出了去除对应学习中部分无关词和区域的方法。
但是现有的作品只学习基于对象共现统计的粗对应，没有学习结构化对象、关系和属性的细粒度对应.结果，它们有两个局限性：（1）很难了解关系和属性的对应关系，因为它们被对象对应关系所淹没。（2）在没有描述性关系和属性指导的情况下，对象容易对应于错误的类别。如图1所示，粗略的对应关系会错误地将单词“狗”与图像中的所有狗相关联，而忽略了“狗”则具有更精细的细节，即棕色或灰色。相比之下，细粒度的对应关系显式地将对象"狗"，关系“咬”和属性“棕色”建模为短语。因此，关系“咬”和属性“棕色”也可以与特定区域相关联，进一步促进细粒度短语"brown dog bite"的识别.

图1：粗粒度和细粒度对应关系的图示。在左图中，两只狗与“狗”这个词粗略相关，忽略了它们的关系和属性(咬还是被咬?)灰色或棕色吗?)，在右图中，灰色和棕色的狗与更精细的文本细节相关联，这可以通过使用基于图的方法学习短语对应关系来实现。
为了学习细粒度的对应关系，我们提出了一种图结构化匹配网络（GSMN），该网络将对象，关系和属性明确建模为短语，并通过对这些本地化短语进行匹配来共同推断细粒度的对应关系。这将对象、关系和属性的对应学习以一种相互强制的方式结合起来。一方面，关系对应和属性对应可以指导细粒度对象对应学习，另一方面，细粒度的对象通信迫使网络明确地学习关系通信和属性通信，具体来说，所提出的网络分别为视觉图和文本构造图。图节点由对象，关系和属性组成，如果任意两个节点相互交互，则图边缘存在（例如，对象的节点将与其关系或属性的节点连接)。然后，我们在视觉图和文本图上执行节点级和结构级匹配。节点级匹配将每个节点与另一个模态中的节点有区别地关联，然后在结构级匹配时传播到邻域。在节点对应的指导下，可以推导出短语对应。只要对象节点的邻近关系和属性指向同一个对象，就可以更新对象节点的对应关系。最后，将更新后的对应关系用于预测图像-文本对的全局相似度，综合考虑所有单个短语的对应关系。
本文的主要贡献总结如下:
∙ \bullet ∙ 提出了一种图结构匹配网络，它明确地构造图像和文本的图结构，并通过学习细粒度的短语对应进行匹配.据我们所知，这是第一个对异构的视觉图和文本图执行图像-文本匹配的框架。
∙ \bullet ∙ 据我们所知，这是第一项使用图卷积层传播节点对应关系并用来推断细粒度短语对应关系的工作。

2.相关工作

现有工作基于对象共现来学习图像和文本的对应关系，大致可分为两种：全局对应关系和局部对应关系学习方法，前者学习整个图像与句子之间的对应关系，而后者则是在局部区域和文字之间学习.
全局对应学习方法的主要目标是最大化匹配图文对的相似性.该领域的主要研究思路是首先将图像和文本表示为特征向量，然后将它们投影到一个经过排序损失优化的公共空间中.这种全局对应学习方法不能准确地学习图像和文本的对应关系，因为主要对象在图像-文本对的全局表示中占据主导地位，而次要对象大多被忽略.
局部对应学习方法学习区域词对应.一些研究集中在学习显著对象的对应关系上,这些作品学习了基于对象共现的对应关系，并在图像-文本匹配方面取得了很大进展.但是，这些仅学习粗略的对应关系，因为它们主要依赖于显着对象的对应关系，而忽略关系和属性的对应关系与对象对应关系一样重要。此外，关系和属性的对应关系可以使对象更详细地对应特定类型。相比之下，我们将图像和文本显式建模为图形结构，并学习细粒度的短语对应.不采用基于规则或基于分类器的方法将图像和文本转化为场景图，只需要识别节点之间是否相互交互，避免了场景图生成过程中造成的信息丢失

3.方法

我们提议的网络概述如图2所示。首先提取图像和文本的特征，然后构造视觉图和文本图.接下来，节点级匹配学习节点对应关系，并在结构级匹配中传播到邻居，其中对象，关系和属性的对应关系被融合以推断出细粒度的短语对应关系。

图2:我们方法的概述，它由三个模块组成:(a)特征提取：使用Faster-RCNN 和Stanford CoreNLP 分别检测显著区域并解析语义依赖性 (b) 图的构造：图的节点是对象，关系或属性，如果任意两个节点在语义上是相关的，则边存在。(c1)节点级匹配：分别学习对象，关系和属性的对应关系。(c2)结构级匹配：将学习到的对应关系传播给邻居，以共同推断出细粒度的短语对应关系

3.1图结构

文本图：形式上，我们寻求为每个文本构造一个无向稀疏图 G 1 = ( V 1 , E 1 ) G1 = (V1,E1) G1=(V1,E1)，我们使用矩阵 A A A表示每个节点的邻接矩阵，并添加自循环(也就是对角线为1),将边缘权值表示为一个矩阵 W e W_e We，表示节点之间的语义依赖性.
为了构造文本图，我们首先使用现成的Stanford CoreNLP确定文本中的语义依赖关系.它不仅可以解析句子中的宾语(名词)、关系(动词)和属性(形容词或量词)，还可以解析它们的语义依赖关系.例如，给定一个文本，“一只棕色的狗咬一只灰色的狗的耳朵”，“一只”，"棕色"是第一个对象"狗"的属性，而"咬"是它的关系,它们在语义上是依赖的，因为它们都描述同一个对象.基于此观察，我们将每个单词设置为图节点，如果节点之间存在语义依赖，则存在图边.然后计算单词表示 u u u的相似度矩阵 S S S:

式中， s i j s_{ij} sij表示第 i i i个节点和第 j j j个节点之间的相似性。 λ \lambda λ是一个比例因子.通过相似矩阵与相邻矩阵的Hadamard积(也就是矩阵对应元素相乘)得到权重矩阵 W e W_e We，然后进行L2归一化:

此外，我们还将文本图实现为全连通图,与使用单词的语义依赖关系的稀疏图相反，它可以利用隐式依赖关系,我们发现稀疏图和密集图是互补的，可以大大提高性能，见4.2.1节.

视觉图:为了构造视觉图 G 2 = （ V 2 ， E 2 ） G2 =（V2，E2） G2=（V2，E2），我们将每个图像表示为无向全连接图，其中节点设置为Faster-RCNN检测到的显着区域，并且每个节点与所有其他节点关联.我们使用极坐标对每个图像的空间关系进行建模，从而消除了成对区域的方向和距离.由于关系和属性被期望于更接近对象，并且方向信息可以用来估计关系的类型，因此这可以捕获不同区域之间的语义和空间关系。例如，关系“on”和"under"显示了与对象"desk"相反的相对位置.为了获得该全连接图的边缘权重，我们基于成对区域的边界框的中心计算极坐标 ( ρ , θ ) (\rho, \theta) (ρ,θ)，并将边缘权重矩阵 W e W_e We设置为成对极坐标.

3.2 多通道图像匹配

给定文本的文本图 G 1 = ( V 1 , E 1 ) G_1 = (V_1,E_1) G1=(V1,E1)，图像的可视化图 G 2 = ( V 2 , E 2 ) G_2 = (V_2,E_2) G2=(V2,E2)，我们的目标是匹配两个图学习细粒度对应，产生相似度 g ( G 1 , G 2 ) g(G_1,G_2) g(G1,G2)作为图像-文本对的全局相似度。我们将文本图的节点表示定义为 U α ∈ R m × d U_\alpha∈\mathbb{R^{m×d}} Uα∈Rm×d，将视觉图的节点表示定义为 V β ∈ R n × d V_\beta∈{R^{n×d}} Vβ∈Rn×d。其中， m m m和 n n n为文本图和可视化图的节点数， d d d为表示维数.为了计算这些异构图的相似度，我们首先执行节点级匹配，以将每个节点与另一个模态图中的节点相关联，即学习节点对应关系，然后通过将关联节点传播到邻居来执行结构级匹配即学习短语对应关系,从而共同推断出结构化对象，关系和属性的细粒度对应关系

3.2.1 节点级匹配

文本图和可视化图中的每个节点将与另一模态图中的节点进行匹配，以学习节点的对应关系。首先详细描述了文本图上的节点级匹配，然后在可视化图上进行了粗略的描述，因为该操作在两类图上是对称的。具体而言，我们首先计算视觉节点和文本节点之间的相似度，表示为 U α V β T U_\alpha V_\beta^T UαVβT，然后沿着视觉轴计算softmax函数。相似性值度量视觉节点与每个文本节点的对应关系。然后，我们将所有视觉节点聚合为其特征向量的加权组合，其中权重是计算出的相似度。这个过程可以表述为:

λ \lambda λ 是一个聚焦于匹配节点的缩放因子
与以前的方法利用学习到的对应关系计算全局相似度不同，我们提出了一个多块模块 C t → i C_{t\to i} Ct→i，该模块计算文本节点和聚合的可视节点的逐块相似性。这是计算效率，并将相似性从标量转换为向量以进行后续操作。而且，这允许不同的块在匹配中扮演不同的角色.具体地说，我们将文本节点的第 i i i个特征及其对应的聚合可视化节点划分为t个块，分别表示为 [ u i 1 , u i 2 , ⋅ ⋅ ⋅ , u i t ] [u_{i1}, u_{i2},···,u_{it}] [ui1,ui2,⋅⋅⋅,uit]和 [ c i 1 , c i 2 , ⋅ ⋅ ⋅ , c i t ] [c_{i1}, c_{i2},···,c_{it}] [ci1,ci2,⋅⋅⋅,cit]。多块相似度是在成对块中计算的.例如，计算第 j j j个块的相似度为 x i j = c o s ( u i j , c i j ) x_{ij} = cos(u_{ij}, c_{ij}) xij=cos(uij,cij)。其中 x i j x_{ij} xij为标量值， c o s ( ⋅ ) cos(·) cos(⋅)为余弦相似度.第 i i i个文本节点的匹配向量可以通过连接所有块的相似度来获得，即：

" || "表示连接，通过这种方式，每个文本节点都与其匹配的可视节点相关联，这些可视节点将在结构级匹配时传播给它的邻居，以指导邻居学习细粒度的短语对应。
对称地，当给定一个可视化图时，在每个可视化节点上进行节点水平匹配，相应的文本节点将以不同的方式关联：

然后由多块模块对每个可视化节点及其关联的文本节点进行处理，生成匹配向量 x x x

3.2.2 结构级匹配

结构级匹配将节点级匹配向量作为输入，并将这些向量与图的边一起传播到相邻的节点,这样的设计有益于学习细粒度的短语对应关系，因为相邻节点可以指导。例如，一个句子"一只棕色的狗咬了一只灰色的狗的耳朵"，第一个"狗"会在一个更细的层次上对应视觉上的棕色狗，因为它的邻居“咬”和“棕色”指的是棕色的狗,因此，“狗”更喜欢与图像中正确的狗相关联.具体来说，通过使用GCN对邻域匹配向量进行积分来更新每个节点的匹配向量。GCN层将应用K个内核，这些内核学习如何集成邻域匹配向量，公式如下：

其中 N i N_i Ni表示第 i i i个节点的邻域， W e W_e We表示3.1节中描述的边缘权值, W k W_k Wk和 b b b是第 k k k个核需要学习的参数.请注意，应用了k个内核，空间卷积的输出被定义为对 k k k个内核的输出的串联，从而产生反映连接节点对应关系的卷积矢量,这些节点形成了局部短语.
通过传播相邻节点对应关系，可以推断出短语对应关系，并以此推断出图像-文本对的整体匹配得分。在这里，我们将卷积后的向量输入到一个多层感知器(MLP)中，共同考虑所有短语的学习对应关系，并推断出全局匹配分数.它表示一个结构图与另一个结构图的匹配程度。这个过程被表述为:

其中 W s , b s W_s,b_s Ws,bs表示MLP的参数，该参数包括两个全连接层，函数 σ ( ⋅ ) \sigma(·) σ(⋅)表示tanh激活,请注意，我们在视觉图和文本图上都执行结构级别的匹配，这可以学习短语的相互补充。图像-文本对的整体匹配得分计算为两个方向上的匹配得分之和:

3.2.3 目标函数

我们采用三元组损失作为目标函数,当使用文本 T T T作为查询时，我们在每个小批量中对其匹配的图像和不匹配的图像进行采样，从而形成正对和负对.正配对中的相似度应该比负配对中的相似度高 γ \gamma γ,同样的，当使用图像 I I I作为查询时，负样本应为与给定查询不匹配的文本，其与正对的相似度也应满足上述约束条件,我们专注于优化产生最大损失的硬负样本，即:

其中 I ′ , T ′ I',T' I′,T′是硬负样本，函数 [ ⋅ ] + [·]_+ [⋅]+等于 m a x [ ⋅ ， 0 ] max[·，0] max[⋅，0]， g ( ⋅ ) g(·) g(⋅)是由公式9计算的图像-文本对的全局相似度.

3.3 特征表示

视觉表示:给定图像 I I I，我们将其特征表示为 n n n个显着区域的组合，这些区域通过在视觉基因组上进行预训练的Faster-RCNN进行检测.将检测到的区域输入到预先训练好的ResNet- 101中提取特征，然后利用全连接层将其转换到一个d维特征空间中:

其中 C N N ( ⋅ ) CNN(·) CNN(⋅)将边界框内的每个区域编码为区域特征， W m ， b m W_m，b_m Wm，bm是将特征转换为公共空间的完全连接层的参数,这些区域特征构成了图像表示，记为 [ v 1 , v 2 ， ⋅ ⋅ ， v n ] [v1, v2，··，v_n] [v1,v2，⋅⋅，vn]

文本重现:给定一个包含 m m m个单词的文本 T T T，我们将其特征表示为 [ u 1 , u 2 ， ⋅ ⋅ ， u m ] [u_1, u_2，··，u_m] [u1,u2，⋅⋅，um]，其中每个单词都与一个特征向量相关联。我们首先将每个单词表示为一个热向量，然后使用双向门控回归单元(BiGRU)将其嵌入到d维特征空间中，该单元能够将前向和后向上下文信息集成到文本嵌入中,通过在第 i i i个时间步对前向和后向GRU的隐藏状态求平均来获得第 i i i个词的表示。

4.实验

4.1 数据集和实现细节

为了验证我们提出的方法的有效性，我们在两个最广泛使用的基准Flickr30K [25]和MSCOCO [16]上对其进行了评估。每个基准包含多个图像文本对，其中每个图像由五个相应的句子描述。 Flickr30K总共收集31,000张图像和31,000 5 = 155,000个句子。根据先前工作[12]中的设置，该基准分为29,000个训练图像，1,000个验证图像和1,000个测试图像。大型基准MSCOCO包含123,287张图像和123,287 5 = 616,435个句子，我们使用113,287张图像进行训练，验证和测试集均包含5,000个实例。评估结果是根据5张测试图像计算得出的。
Adam优化器用于小批处理，批大小64。初始学习率设置为0.0002，在Flickr30K上每15个epoch衰减10%，在MSCOCO上设置为0.0005，每5个epoch衰减10%，我们将单词嵌入的维数设置为300，然后将其提供给Bi-GRU以获得1024-diemensioanl的单词表示。在图像特征方面，每幅图像包含36个最突出的区域，并对每个区域提取2048维的特征，区域特征通过全连接层转化为1024维的视觉表示,在结构级匹配中，我们使用一个空间图的卷积层，8个核，每个核都是32维的,在此之后，我们将图中的每个节点输入到两个全连接的层中，然后通过激活tanh来推理匹配分数.缩放因子 λ \lambda λ的设置在4.2.3节中进行了研究。对于优化，边界 γ \gamma γ根据经验设置为0.2。

4.2 实验结果

我们在图4中提供了显示学习节点对应关系和短语对应关系的可视化图。请注意，我们仅显示每个文本节点最相关的区域，它显示了不同种类的节点可以与得分较高的相应区域关联。此外，我们可以推断出多个边界框所包含的短语对应关系，分数也有了很大的提高。此外，我们还在Flickr30K上可视化了文本到图像和图像到文本的匹配结果，如图5和图6所示。这说明我们的方法总是检索到高阶的真实值,此外，我们的方法能够学习关系和属性的细粒度对应。例如，对于图中的第一个文本查询我们的网络可以区分不同种类的帽子：

图4：在框中显示具有分数的节点对应关系和短语对应关系。彩色效果最佳。

图5:Flickr30K上的文本到图像匹配可视化。对于每个文本查询，我们显示从左到右排在前3位的图像，其中不匹配的图像带有红框，匹配的图像带有绿框。

图6:Flickr30K上的图像到文本匹配可视化。对于每个图像查询，我们显示排名前5的文本，其中不匹配的文本被标记为红色。

4.3 结论

本文提出了一种基于图结构的图像-文本匹配网络，可以对异构的可视图和文本图进行匹配。这是通过节点级匹配和结构级匹配来实现的，它们通过沿图边缘传播节点对应关系来推断细粒度的对应关系。而且，这样的设计可以学习关系和属性的对应关系，而先前的工作通常忽略了这些关系和属性，在关系和属性的指导下，可以大大改善对象的对应关系。大量实验证明了我们网络的优越性

图网络：Graph Structured Network for Image-Text Matching相关推荐

DeepLearning | 图注意力网络Graph Attention Network（GAT）论文、模型、代码解析
本篇博客是对论文 Velikovi, Petar, Cucurull, Guillem, Casanova, Arantxa,et al. Graph Attention Networks, 2018 ...
LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short Text Matching学习笔记
文章目录 1. 背景与相关技术 1.1 解决的问题与方法 1.2 HowNet 1.3 Word lattice graph 1.4 Graph attention networks 2. LET 2 ...
图注意力网络(Graph Attention Network, GAT) 模型解读与代码实现(tensorflow2.0)
前面的文章,我们讲解了图神经网络三剑客GCN.GraphSAGE.GAT中的两个: 图卷积神经网络(GCN)理解与tensorflow2.0代码实现 GraphSAGE 模型解读与tensorflow ...
图神经网络 Graph Neural Network(GNN)
图神经网络和单纯神经网络一个很大的区别就是,图神经网络有节点和边的这种结构. 具体应用上,图神经网络可以识别具有图片,文字等结构信息. 比如识别一个人物的身份的任务就需要首先识别人,然后识别与之相关的 ...
图网络 | Graph Attention Networks | ICLR 2018 | 代码讲解
[前言]:之前断断续续看了很多图网络.图卷积网络的讲解和视频.现在对于图网络的理解已经不能单从文字信息中加深了,所以我们要来看代码部分.现在开始看第一篇图网络的论文和代码,来正式进入图网络的科研领域. ...
网络化计算机代表图片,图网络——悄然兴起的深度学习新浪潮 | AISociety
原标题:图网络--悄然兴起的深度学习新浪潮 | AI&Society 现实世界中的大量问题都可以抽象成图模型(Graph Model),也就是节点和连边的集合.从知识图谱到概率图模型,从蛋白质 ...
图卷积网络 GCN Graph Convolutional Network（谱域GCN）的理解和详细推导
文章目录 1. 为什么会出现图卷积神经网络? 2. 图卷积网络的两种理解方式 2.1 vertex domain(spatial domain):顶点域(空间域) 2.2 spectral domai ...
GAT - Graph Attention Network 图注意力网络 ICLR 2018
文章目录 1 相关介绍 GCN的局限性本文贡献(创新点) attention 引入目的相关工作谱方法 spectral approaches 非谱方法 non-spectral approach ...
论文翻译 SGCN:Sparse Graph Convolution Network for Pedestrian Trajectory Prediction 用于行人轨迹预测的稀疏图卷积网络
SGCN:Sparse Graph Convolution Network for Pedestrian Trajectory Prediction 用于行人轨迹预测的稀疏图卷积网络行人轨迹预测是自 ...

图网络：Graph Structured Network for Image-Text Matching