1、Abstract

实例级图像检索是在大型数据库中搜索与查询图像中的对象匹配的图像的任务。为了完成这项任务，系统通常依赖于使用全局图像描述符的检索步骤，以及通过利用诸如基于局部特征的几何验证之类的操作来执行特定于域的细化或重新排序的后续步骤。在这项工作中，我们提出了一个通用的模型，将局部和全局特征结合起来，以监督的方式重新排列匹配图像，从而取代了相对昂贵的几何验证过程。rrt是轻量级的，并且可以很容易地并行化，这样就可以在一次向前传递中重新排列一组顶级匹配结果。我们在重新访问的牛津和巴黎数据集以及Google Landmark v2数据集上进行了广泛的实验，结果表明RRTs在使用更少的局部描述符的同时，优于先前的重排序方法。此外，我们证明，与现有的方法不同，RRTs可以与特征提取器联合优化，这可以导致为下游任务定制的特征表示，并进一步提高精度。培训代码和预先培训的模型将公开。

2、 Introduction

实例识别是一项具有挑战性的任务，其目的是对对象实例进行简单的识别。这与只识别对象类的类别级识别不同。实例识别在电子商务中是很重要的，因为它需要在一个大的图像集合中找到一个特定的产品，或者在原地识别中，目标是从公共地标推断一个地方的身份。由于实例的数量远大于对象类别的数量，实例识别通常被转换为图像检索而不是分类，通常包括度量学习和基于局部特征的重排序。

在过去的十年中，实例识别仍然是研究的一个主要焦点。开创性的系统杠杆老化手工制作的本地描述符和匹配算法图1。顶级实例识别方法通常依赖于使用诸如几何验证的内部对应数之类的分数对顶级结果进行重新排序。我们建议将此步骤替换为可使用图像的底层表示来学习的重排序变换器（RRT）。里瑟姆斯[46，37]。最近的方法结合了从深度学习模型中提取的全局和局部描述符[3，33]。全局描述符将图像的内容汇总为一个向量，从而为大规模搜索提供一个紧凑的表示。局部描述符对视觉元素的空间布局进行编码，以进行斑块级匹配，并且对于高检索精度非常重要[50，10]。现有的最佳方法[45，10]通常使用全局描述符来减少解空间，然后使用局部描述符来重新排列最近的图像。虽然在利用全局特征改进图像检索方面取得了很大的进展，但在基于局部特征的相似性度量方面所做的工作却很少。最先进的方法仍然依赖于经典的匹配技术，如几何验证（GV）[37]和聚集选择性匹配核（ASMK）[49]。几何验证假设对象实例是刚性的，并且图像之间的局部匹配可以使用RANSAC估计为仿射变换[20]。这也是一个昂贵的过程，需要对大量的局部描述符进行迭代优化。ASMK更关注于聚合特征之间的相似性，而没有显式地建模几何对齐，但需要离线聚类和编码过程。在以往的文献中，它主要作为一种全局检索技术使用。两种几何验证附件十四：2103.12236v1[cs.CV公司]2021年3月22日

为了保证检索性能，action和ASMK需要大量的局部描述符（例如每幅图像1000个）

在这项工作中，我们提出了重排Transformers（RRTs），它学习直接预测图像对的相似性。我们的方法是通用的，可以作为替代其他重排序方法，如几何验证。我们进行了详细的实验，实验结果表明，无论是作为一个替代品，还是通过一种全局度量学习方法来训练，所提出的方法都是在实例识别的标准基准上表现最好的。RRT利用了以前的体系结构[53]，这使得一些自然语言处理[16，27]以及视觉和语言任务[26，13，30]有了显著的改进。最近，它还被用于纯视觉任务，特别是年龄识别[18]和目标检测[11]。据我们所知，我们的工作是第一个将变换器应用于视觉任务，包括在重新排列图像搜索结果的上下文中分析图像对。

重排Transformers（RRTs）是轻量级的。与具有超过2000万个参数的CNN特征提取器（例如ResNet 50中的2500万个）相比，所提出的模型仅具有220万个参数。它也可以很容易地并行化，以便对排名前100的邻居进行重新排序仅需要一个前向通过。与几何验证类似，我们的方法旨在学习图像对的区域对齐方式，但要使用更简单的管道。如图1所示，我们的方法可以直接预测匹配图像的相似度得分，而不是估计单应性，这在较大的视点变化下可能具有挑战性，甚至对于可变形对象也可能不存在。我们的方法所需的描述符少得多，但可以实现出色的性能，尤其是对于具有挑战性的情况。而且，在当前的最新技术模型中，特征提取和匹配模块是分别优化的，这是不希望的，因为这可能导致次优的特征表示。在本文中，我们首先使用预训练的特征提取器进行实验。然后，我们以产品图片为基准，展示了将特征提取器和建议的模型集成到统一框架中的好处[47]。我们表明，通过与我们的模型共同优化特征表示，可以进一步提高重排性能。

贡献。

（1）我们提出了一种小而有效的模型——重排序变换（RRT），它可以根据图像对的全局和局部描述符来预测图像对的相似性；（2）与现有的方法相比，RRT需要更少的局部描述符，并且可以容易地并行化，这样重新排列顶级邻居只需要一次向前传递；（3）我们在三个实例检索基准上进行了广泛的实验：Reviewed Oxford/Paris[39]和Google Landmarks v2[56]，并表明RRTs在各种设置下都优于先前的重排序方法。结果证明了Transformers在学习图像对的视觉相似性方面的有效性；（4）我们进一步证明了在斯坦福在线产品（SOP）[47]基准上与特征提取器联合优化所提出模型的好处。

3、Related Work

用于实例识别/检索的局部特征。

手工制作的局部描述符[31]，例如SIFT[29]，在最早的实例检索工作中被广泛使用[46，32]。最近，从卷积神经网络（CNN）中提取的局部特征被证明在各种检索任务中更有效[33，48，45，19]。这些工作通常通过非局部最大抑制[34,19,50]或视觉注意[33,48,10]来共同学习特征检测和表示。检测到的局部描述符通常用于几何验证[37]或ASMK[49]。与这些工作不同的是，我们关注的是相似性学习，而不是特征检测或表示学习。

全局功能，例如识别/检索。

与局部特征相比，全局描述符为大规模搜索提供了图像的紧凑表示。
当前的全局描述符通常是通过空间池[2、52、38]从CNN模型[3、52、38、21]中提取的，这对于在整个图像之间建立区域关系建模可能不是理想的选择。因此，最先进的系统通常要么使用全局描述符来减少解空间，然后使用本地描述符对最近的邻居重新排序，要么使用大型可视码本对本地描述符进行编码，然后通过聚合的选择性匹配内核[49，48，50]。这项工作主要遵循检索和重排范式。

重新排序，例如识别/检索。

几何验证是图像重新排序的主要方法，在传统[37]和最近的工作[45、33、10]中均得到广泛使用。几何验证假设刚性对象，并试图通过迭代对齐局部描述符来估计图像之间的线性变换。受文本检索的启发，查询扩展技术也已引入图像检索[15、14、51]。这些方法不同于几何验证和我们的工作，因为它们依赖于在测试过程中为每个查询分析局部最近邻图。另一方面，基于扩散的方法[17、58、24、5、4]旨在通过在基于查询和所有图库图像的全局亲和图上的相似性传播来学习数据流形的结构，这是不平凡的规模。总体而言，图像重排的动机是更好地利用测试时知识边缘来完善检索结果。我们的工作与这方面的研究具有相同的愿景，但更多地侧重于直接了解图像对的相似性。

用于视觉任务的Transformers。

Transformers已经成为自然语言处理领域的主导模型架构[16，27]。最近，它也被引入视觉和语言[26，30]和纯视觉任务[35，11]。作为transformer架构的关键组成部分，自我注意机制也被研究用于视觉识别[6，40，59]。这些先前的工作将变换器应用于单个图像的预测，而我们利用变换器来学习图像对的视觉关系。

Methodology

3.1 Attention Modules in Transformers

首先，我们简要回顾一下Trans前体架构中的关键要素：单头注意（SHA）和多头注意（MHA）。

Single-Head Attention (SHA):

SHA层的输入包括三组变量：查询Q：= {qi∈Rdq} Ni = 1，键K：= {kj∈Rdk} Mj = 1，值V：= {vj∈Rdv } Mj = 1。此处，dq，dk，dv是相应特征向量的维，而N和M是序列长度。 SHA生成一个新的特征序列，其中每个向量都是{vj}的线性组合。
为此，首先使用参数张量将Q，K，V线性投影为Q = QWQ，K = KW K，V = VWV：WQ∈Rdq×d，WK∈Rdk×d，WV∈Rdv× d，其中d是新要素尺寸。 SHA层的输出计算为：SHA（Q，K，V）：＝ SOFTMAX（Q′K√√d）V。

Multi-Head Attention (MHA):

像SHA一样，MHA以Q，K，V作为输入，并包含多个SHA模块：MHA（Q，K，V）：= [HEAD1; ··· HEADh] WO，HEADi：= SHAi（Q，K，V）。这里 [; ]表示串联运算符，h是SHA头的数量。 WO∈Rd×（hd）是输出尺寸为h×d的线性投影。

3.2. Model

通过上面定义的基本构建块，我们介绍了模型的详细公式：
Image representations:
图像I由尺寸为dg的全局描述符表示：xg∈Rdg和L个局部描述符的集合：xl = {xl，i∈Rdl} Li = 1，每个尺寸均为dl。 xg和xl都从CNN主干中提取（将在第4.2节中讨论）。可选地，每个xl，i与坐标元组pl，i ＝（u，v）∈R2和比例因子sl，i∈R相关联，指示从中提取xl，i的像素位置和图像比例。在这项工作中，sl，i是一个整数，索引一组预定义的图像比例。
输入：作为序列转导模型[16，27]，变压器将“令牌”列表（例如，第3.1节中的Q，K，V）作为输入。在图像检索中，这些“标记”可以从图像对（I，¯I）的特征中得出。根据BERT变压器编码器[16]，我们将输入定义为：X（I，¯I）：= [hCLSi; fg（xg）; fl（xl，1）; ··· fl（xl，L）; hSEPi; ¯fg（¯xg）; ¯fl（¯xl，1）; ··· ¯fl（¯xl，L）]，（1）其中：fg（xg）：= xg +α; fl（xl，i）：= xl，i + ϕ（pl，i）+ψ（sl，i）+β¯fg（¯xg）：=¯xg+¯α; ¯fl（¯xl，i）：=¯xl，i + ϕ（¯pl，i）+ψ（¯sl，i）+β。（2）在这里，hCLSi是用于汇总来自两个图像的信号的特殊令牌。 hSEPi是一个额外的分隔符。 α，α，β，¯β是一维片段嵌入，用于区分I和¯I的全局和局部描述符。 ϕ是线性位置嵌入，如[11]中所使用。 ψ是一个线性嵌入，使用比例索引sl，i作为输入。
模型架构：使用输入X（I，¯I），我们定义一个多层变压器模型，其中每一层的公式为：Z¯i+ 1 = LAYERNORM（Zi + MHA（Zi）），Zi + 1 = LAYERNORM（MLP（Źi+ 1）），MLP（Źi+ 1）= RELU（Źi+ 1WT1）WT2，i = 0，···，CC 1。
在这种设置下，MHA的Q，K，V特征是向量Zi的同一集合，Z0 = X（I，¯I）。 MLP是具有参数矩阵W1∈R（hd）×dc的两层感知器。
W2∈Rdc×（hd），中间尺寸dc。 LAYERNORM是[1]中提出的层归一化函数。该模型总共包括C个变压器层。
训练目标：训练我们的模型以优化二元交叉熵损失：E（I，¯I）= BCE（SIGMOID（ZhCLSi C WTz），✶（I，¯I）），（4）ZhCLSi C∈R hd是与hCLSi令牌相对应的特征向量。它是从最后一个转换器层提取的。
WTz∈R（hd）×1是将ZhCLSi C映射到对数标量的线性函数。 ✶（I，¯I）是一个指标函数，当I和¯I代表相同的对象时等于1，否则等于0。图2提供了所建议模型的图示

4. Experiments

接下来，我们描述用于评估方法的数据集，以及有关实现的详细信息。

4.1. Datasets

我们对三个数据集进行了实验，分别是Google Land标志v2 [56]，Revisted Oxford / Paris [39]和Stanford Online Products [47]。前两个用于示例匹配，并展示地理标志尝试验证在其中起着重要作用的地标性位置。斯坦福在线产品数据集展示了可能会变形的产品图像，因此无法使用仿射变换对图像之间的对应关系进行建模。它主要用于度量学习。
GLDv2：Google Landmarks v2（GLDv2）[56]是用于实例识别的新基准，其中包括来自20万个自然地标的五百万幅图像。由于建议的Reranking Transformer参数有限（例如， 220万），我们从GLDv2的“ v2-clean”分割中抽取了一小部分图像进行训练。 “ v2-clean”分割由来自81,313个地标的1,580,470张图像组成。
我们随机抽取12,000个地标，每个地标至少具有10张图像。对于每个地标，我们都随机抽取了最多500张图像。这产生了322,008张图像，这是“ v2-clean”分割的20％和原始训练集的8％。我们在补充材料中包括采样图像的名称。为了进行测试，我们评估了检索任务的标准测试集，该测试集包含1,129个查询图像和761,757个图库图像。

ROxf和RPar：再造的牛津（ROxf）和巴黎（RPar）[39]是例如识别的标准基准，它们分别具有4,993和6,322个画廊图像。它们都具有70个查询图像，每个图像都带有一个边界框，用于描述突出地标的位置和跨度。包含一个带有1,001,001张图像的额外的牵张器集（R1M），用于大规模实验。我们遵循标准评估协议[39，10]，并使用提供的边界框裁剪查询图像。我们报告了中型和硬型设置的平均平均精度（mAP）。
SOP：为进一步研究共同优化特征表示和我们的Reranking Trans模板的好处，我们对产品图像数据集进行了实验：斯坦福在线产品（SOP）[47]。 SOP是度量学习的常用基准[57、44、42、9、43、55、8]，其中包括120,053张图像，59,551张用于训练，60,502张用于测试。我们遵循评估协议进行度量学习并测量R @ K分数。

4.2. Implementation

预训练特征的实验：由于这项工作主要侧重于相似性学习而不是特征学习，因此我们利用从最新特征提取器获得的图像描述符。特别是，我们使用[10]提供的预训练DELG模型，并以ResNet50 [23]作为CNN主干。 DELG为全局/局部特征提取提供了一个统一的框架。局部描述符是从0.25到2.0的7个图像比例中提取的，每个图像的尺寸为128。全局描述符是从3个图像比例中提取的：{√12，1，√2}，尺寸为2048。我们适用对全局描述符的额外线性投影，以将其尺寸减小到128。
在原始DELG模型中，每个局部描述符都带有一个注意力得分。选择注意力得分最高的前1000个局部描述符进行图像排名。我们观察到RRT不需要这种数量的描述符，并且检索性能在500个本地描述符处达到饱和。因此，在我们的实验中，我们选择了前500个局部描述符，并设置L = 500，dg = dl = 128。
我们在补充材料中包括了关于局部描述符数量的消融研究。对于描述符较少的图像，我们用空向量填充特征序列，并使用二进制注意掩码（如BERT [16]）来指示填充位置。全局特征和局部特征都被L2归一化为单位范数。在训练期间，从共享与查询相同标签的图像中随机抽取正图像。从全局检索返回的前100个邻居中随机抽取负图像，这些邻居的标签与查询的标签不同。 DELG已在Google Landmarks（GLD）v1 [33]和v2-clean [56]上进行了预培训。因此，我们对来自这两个预训练模型的两组描述符执行实验。对于体系结构，我们使用4个SHA磁头（h = 4）和6个变压器层（C = 6）。 SHA中的dq，dk，dv和d设置为128，而MLP（等式3）中的dc设置为1024。
可学习参数的数量为2,243,201，占ResNet50中数量的9％。该模型使用AdamW [28]进行了15个时期的训练，学习率为0.0001，权重衰减为0.0005。

SOP实验：

我们遵循度量学习协议[55]，使用单个图像比例尺在SOP [47]上进行实验。在训练过程中，每个图像被随机裁剪为224×224，然后进行随机翻转。
在测试过程中，首先将每个图像的大小调整为256×256，然后在中心裁剪为224×224。我们使用ResNet50并从最后一个卷积层提取特征，从而为每个图像生成49（7×7）个局部描述符。全局描述符是通过对本地响应进行空间平均获得的。 RRT体系结构和大多数培训细节与DELG实验中的相同。
在这里，我们仅描述主要区别。如[55]中所述，全局检索模型是在对比损失下进行训练的。
与[55]不同，我们不依赖跨批存储，而仅使用800的大批存储。由于使用了所有本地特征，因此我们没有合并全局描述项（fg（xg），¯fg（¯xg））。 1.由于仅使用一个图像比例尺，因此我们也删除了比例尺嵌入（ψ）。使用SGD对Nesterov动量进行100个时期的全局模型训练，学习率为0.001，权重衰减为0.0005，动量为0.9。在60和80个时代之后，学习率下降了10倍。我们在预训练的全局模型之上训练RRT模型，或者冻结或微调CNN骨干网。两种模型都使用AdamW [28]进行了100个时期的训练，学习率为0.0001。在60和80个时代之后，学习率下降了10倍。我们在PyTorch [36]中实现了RRT。培训代码和预训练模型将公开。
位置嵌入：对于DELG描述符的实验，我们发现应用位置嵌入的好处有限，并且在等式中不使用ϕ项。 2.对于SOP实验，我们观察到位置嵌入确实有帮助，尤其是在使用Reranking Transformer共同优化特征表示时。

5. Results

我们提供了五组结果，这些结果证明了在不同的设置，基准和用例下，重排变压器（RRT）的有效性。

5.1. Comparison with Geometric Verification

我们将几何验证（GV）视为主要基准，因为它具有与我们的方法相同的精神：当目标图像不同时，这两种方法都将涉及查询图像的不同子区域，反之亦然。换句话说，它们可以更好地利用测试时间信息。我们使用相同的描述符集（即预训练的DELG [10]脚本编写器）比较GV和RRT进行实验。按照[10]中的协议，给定查询，我们使用其全局描述符检索一组排名最高的图像。 GV和RRT排名前100位的邻居。
我们在两组描述符上给出结果：DELG在GLD v1 [33]和v2-clean [56]上进行了预训练。
如表1所示，在ROxf和RPar上，GV和RRT均明显优于仅全局检索。RRT显示了优于GV的更多优势，而本地描述符却少得多。在ROxf（+ R1M）上，RRT在“中”设置上的性能与GV相当，并且在“硬”设置上始终更好。在RPar（+ R1M）上，RRT始终优于GV。最大的性能差距出现在“硬”设置上。使用“ v1”描述符时，RRT与ROxf（RPar）的GV相比，获得了2.2（3.7）的绝对改进。我们认为，尽管GV对于足够相似的图像非常有效，但它很难处理具有挑战性的情况，例如观点差异很大。为了验证这一假设，我们尝试重新排列更多图片（例如top-200）。性能差距确实变得更大。使用“ v1”描述符时，RRT与ROxf（RPar）的GV相比，获得了3.4（8.4）的绝对改进。
我们在表2中显示有关GLDv2检索任务的结果[56]。[10]之后，我们报告了公共测试集和私有测试集上的mAP @ 100得分。与ROxf和RPar相比，在GLDv2上应用重新排名的改进变小了。另一方面，每个表格的RRT始终优于全局检索基准和GV。使用“ v2-clean”描述符时，相对于专用集上的仅全局（GV），RRT的绝对改进为2.8（2.7）。

5.2. Comparison with Query Expansion

[15、14、51]是另一种流行的图像检索重排技术。与GV和RRT不同，QE将查询图像和多个排名最高的邻居聚合到一个新查询中。此新查询用于重新排列所有图库图像，而不是像GV和RRT中最接近的图像。我们将RRT与最广泛使用的查询扩展方法之一进行比较：[38]中提出的α加权查询扩展（αQE）。我们使用[41]发布的αQE的公共实现。
αQE有两个超参数：（1）nQE，要聚集的排名最高的邻居的数量；（2）α，指数权重。在[41]中，它们被设置为（nQE，α）=（10，2.0）。我们的实验表明，对于DELG描述符，这些值不是开箱即用的。我们在以下范围内在ROxf上调整这些参数：nQE∈[2，15]，α∈[0.1，3.0]，最终将它们设置为（nQE，α）=（2，0.3）。

我们在表3中介绍了ROxf和RPar的结果。
仅对排名前100位的邻居进行排名时，RRT的性能在八个设置中的五个设置上优于αQE，除了RPar + Medium，RPa + R1M + Medium，RPa + R1M + Hard（带下划线的数字）。我们认为这是因为αQE对所有画廊图像进行排名，而RRT仅对100个邻居进行排名，而其他所有图像的排名均保持不变。通过对更多邻居进行排名，例如从200、400可以看出，RRT的性能在所有设置下都显着提高，并最终超过αQE。在使用“ v1”描述符的硬设置上，RRT在（ROxf，ROxf + R1M，RPar，RPar + R1M）上的αQE上的绝对增益为（11.1、9.0、8.0、3.5）。
我们还对αQE和RRT进行了组合，并通过对αQE产生的前邻居排名进行了重新排序。如表3所示，与仅使用αQE相比，结合使用αQE和RRT可以显着改善，对于“ ROxf，ROxf + R1M，RPar，RPar + R1M”的硬设置，改进了（10.4、8.5、6.7、5.0） v1”描述符。我们认为查询扩展和RRT是互补的。

5.3。与汇总选择性匹配内核（ASMK）的比较

聚合选择性匹配核（ASMK）[49]还利用本地描述符进行图像检索。关键思想是通过对本地描述符进行聚类来创建大型可视代码簿（即过滤器库）。此可视化代码簿用于将查询和画廊图像编码为全局描述符。集群和编码过程通常比较离线，因为它们比较耗时。以前，ASMK主要被认为是一种全局检索技术。在本文中，我们将ASMK视为全局检索基线和重新排序的基线。我们使用[48]发布的ASMK的公共实现。按照[48]中提出的惯例，我们在ROxf上训练了65,536个视觉单词的密码本，用于RPar上的检索实验，反之亦然。我们进行了两个实验：a）全局ASMK：与以前的所有文献一样，使用ASMK进行全局检索[49，48，50]； b）ASMK重新排名：使用ASMK进行图像重新排名，例如从DELG全局检索中重新排名前100名的图像。
我们在表4中介绍ROxf和RPar的结果。ASMK在用作全局检索方法时，表现出与DELG全局检索相当或较差的性能。如果将ASMK用作重新排序的方法，则它比DELG全局检索得到了进一步的改进，表明它们是互补的。
所提出的方法在所有设置中始终优于ASMK全局/排名。我们认为，与手工制作的内核匹配范例相比，RRT在图像对之间学习了更全面的区域对齐方式。

5.4. Feature Learning & RRT: Joint Optimization

为了进一步探索共同优化功能表示和RRT的好处，我们在斯坦福在线产品（SOP）数据集上进行了实验[47]。我们研究了三种模型：（1）CO：遵循度量学习协议，以对比损失[55]进行训练的全局检索模型。如同大多数先前的工作一样，全局描述符的尺寸为128 [43、9、44、42、55]；（2）CO + RRT（冻结）：在CO顶部训练的RRT模型。预训练的CO保持冻结，并使用额外的线性投影将局部描述符的维数减小为128；（3）CO + RRT（微调）：与CO + RRT（冻结）具有相同架构的模型，但主干也已微调。还可以通过CO + RRT（冻结）进行初始设置。在测试过程中，我们使用来自CO的全局描述符执行全局检索。每个查询的前100个邻居均按CO + RRT（冻结）或CO + RRT（优化）排名。虽然我们的方法与仅全局检索工作之间没有直接比较，但我们介绍了最新的度量学习方法的结果[43、9、55、8]，以概述当前的状态。 SOP上的艺术表演。
如表6所示，使用相对较大的批处理量进行对比损失训练的全局CO模型表现出奇地好。它可以达到与已建立的有关metric学习的著作相同的准确性。这与最近关于自我监督学习的研究相吻合[12，22]，表明对比丢失对于特征学习非常有效。 CO + RRT（冻结）进一步提高了性能，证明了重新排序的有效性。请注意，由于仅对排名前100位的图像进行排名，因此R @ 100和R @ 1k得分保持不变。 CO + RRT（微调）实现了最佳的重排序性能，与R @ 1上的仅全局检索相比，绝对改进了3.8。我们认为，这是因为共同优化骨干和我们的模型会导致更好地针对重定级任务量身定制的本地功能。

5.5. Comparison with the State-of-the-Art

在表5中，我们将建议的方法与ROxf（+ R1M）和RPar（+ R1M）基准的最新技术进行了比较。我们将最新的实例识别/检索模型包括在三个不同的组中：（A）仅通过全局特征进行检索；（B）通过局部特征聚合聚合进行检索；（C）通过将全局功能与重新排序相结合来进行检索。尽管我们的方法在大多数设置上表现出色（除ROxf，ROxf + R1M以外），但这些结果包括与使用的训练数据，CNN主干和局部特征数量不同的其他方法进行比较。就上下文而言，我们提供了有关这些差异的每种方法的尽可能多的信息。
在图3中，当仅使用全局特征并且使用我们的完全重新排序方法时，我们给出了图像检索的定性示例。虽然仅全局检索通常可以返回高度相似的图像，但通过全局/本地描述符进行重新排序可以捕获图像之间更细粒度的匹配，从而提高识别精度。

6. Conclusion

我们将 Reranking Transformers（RRT）引入作为有效的重排模型，以用于实例图像检索。我们通过广泛的实验表明，所提出的方法可以在各种设置下执行先前的重排序方法。与几何验证[37]和其他基于局部特征的方法[49]相比，RRT使用更少的描述符，并且可以轻松地进行并行处理，因此重新排序需要单个神经网络前向通过。我们还证明，与以前的重新排序方法不同，RRT可以与特征提取器一起进行优化，从而提高了准确性

补充材料

本文档的组织如下。在秒参见图7，我们讨论了为什么我们将几何验证，查询扩展和聚合的选择性匹配核作为基线方法。在秒在图8中，我们提出了一种消融研究，该研究涉及在几何验证（GV）[37]和拟议的重排变压器（RRT）中使用不同数量的局部描述符。这些实验中使用的DELG模型[10]在Google Landmarks v2数据集（GLDv2）[56]的“ v2-clean”分割上进行了预训练。在秒参照图9，我们不包括所提出方法的等待时间和存储器占用量。在秒参见图10，我们讨论了所提出方法的局限性。终于在秒。 11，我们包括更多定性的例子。
如主要论文的第4.1节所述，从GLDv2采样的训练图像的名称位于单独的文档中。

7. Appropriate baselines

我们将几何验证[37]和αQE[15]作为主要基准，因为它们与我们的方法具有相同的精神：它们更好地利用了测试时间信息。在比较查询图像和目标图像时，当目标图像不同时，几何尝试验证会涉及查询图像的不同子区域，反之亦然，这与拟议的重排变压器（RRT）非常相似。 αQE还利用测试时间知识，但依赖于分析在测试过程中创建的局部亲和图。我们认为，结合测试时间知识是图像重新排名的主要动机。它还使我们的方法与以往大多数专注于特征学习的方法有所区别。请注意，我们在大多数实验中都使用了预训练和固定特征表示。
图4提供了部分匹配情况的另一个直观示例。在此示例中，目标图像是查询的一部分。我们认为全局描述符+余弦相似度范式在这种情况下不是理想的，因为无论全局描述符有多大，它都包含无关紧要的构成，从而妨碍了余弦相似度的测量。
我们还训练了模型的一种变体，该变体禁用了跨图像注意，并使用ZhCLSi C向量的余弦相似度作为评分。该基线的性能甚至比仅全局检索还要差。我们认为，如果不对主干进行微调，则额外的转换器模块可能对功能学习没有太大帮助。另一方面，它也证明了所提出方法的任何益处只能来自于对跨图像的关注。
聚合选择性匹配核（ASMK）[49]以前并未用于图像重新排名，而只是一种全局唯一的检索方法。具体而言，它建议通过聚类创建一组新的过滤器（即视觉代码本）。它如图4所示。这是一个极端的示例，其中目标图像是查询的一部分。在这种情况下，全局描述符+余弦相似度检索范式不是理想的。
然后将每个图像的本地描述符重新映射/聚合为全局矢量。我们对ASMK进行实验，因为它也依赖于本地描述符。
8.局部描述符数量的消融在DELG模型中，对于每幅图像，最多提取1000个具有预定义的最小注意力得分的局部描述符，以进行几何验证。在我们的实验中，我们观察到，对于大多数图像而言，提取的局部描述符的数量接近1000。例如，在采样的GLDv2训练集，“再造牛津（ROxf）”的查询集和画廊集上[39] 基准，DELG平均每张图像提取955/759/987本地描述符。
我们通过将用于每个图像的本地描述符的最大数量设置为不同的值来执行消融实验。为了进行比较，我们包括了几何验证（GV）和提议的方法（RRT）的结果。我们在表7中报告了再造牛津（ROxf）基准上的mAP得分。
总的来说，GV和RRT都受益于使用更多的本地描述符。但是，RRT的性能在500个本地描述符中达到饱和。由于从七个图像比例尺中提取了局部描述符，因此我们推测在每个图像中都有从相同几何位置提取的描述符，从而提供了重复信息。为了验证这一点，我们计算了从不同网格位置提取的不同本地描述符的数量。特别地，我们通过（gu，gv）=（bu / 16c，bv / 16c）将每个局部描述符xl，i分配给网格位置（gu，gv）。这里（u，v）是DELG模型提供的xl，i的坐标，16是从中提取xl，i的卷积特征图的跨度。
然后，我们对与不同描述符共享相同网格位置的描述符进行分组。我们观察到，每个图像的不同局部描述符的数量显着小于所有局部描述符的数量。例如，在抽样的GLDv2训练集，Revisted Oxford（ROxf）的查询集和图库集上，每幅图像的不同本地描述符数量平均为585/465/655。

在使用相同数量的局部描述子时，该方法在6个实验中的4个实验中均优于几何验证，在硬设置的所有实验中均优于几何验证。

9. Latency and memory

对于每个查询，在使用NVIDIA P100 GPU时，RRT都会在一次向前通过中对前100个检索到的图像进行排名，在DELG [10] / SOP [47]实验中平均需要0.36 / 0.013秒。我们的变压器实现在描述符数量方面具有O（n2）复杂度。我们相信，通过整合针对线性复杂度变压器而开发的最新架构，可以进一步加快RRT [25、7、54]。
在我们的大多数实验中，我们利用[10]提供的预训练的DELG描述符。具体来说，我们使用相同的全局描述符，但是每个图像的局部描述符中只有一半（1000个中的500个）。换句话说，内存占用量约为DELG [10]的一半。

10. Limitation

可解释性。
与专门为图像对对齐建模的单应性相比，我们模型预测的相似度得分难以解释。将来，我们希望将这项工作扩展到学习更多的视觉关系概念，例如单应性，密集匹配，光流，这可能会导致更可解释的结果。
域转移。
在关于预训练的DELG特征描述符的实验中[10]，我们的方法在Google Landmarks v2 [56]上进行了训练，并在Revisited Ox ford / Paris [39]上进行了测试。在斯坦福在线产品基准[47]的实验中，训练集和测试集没有重叠的实例类别。这两个实验都表明，所提出的重排变压器可以在一定程度上跨不同实例类别传递知识。另一方面，类似于所有基于学习的方法，我们的方法可能难以处理较大的域移位。对于大多数最新方法而言，这也是一个主要挑战，因为图像检索管道的另一个关键组件（特征提取器）也可能会遭受域移位的困扰。学习可转移的特征表示/匹配可能是未来研究的有趣话题。

11. Qualitative examples

在图5中，我们提供了有关斯坦福在线产品的定性示例[47]。在这里，我们比较了仅全局模型（CO）和提出的模型（CO + RRT（finetuned））的结果。特别是，我们展示了刚性物体（例如咖啡机，水壶）和可变形物体（例如订书机，灯）的示例。提出的方法在部分匹配（示例（A）（C）（D）），铰接对象（示例（E）（F））和无关上下文（示例（ B））。
在图6中，我们提供了由几何验证产生的重排示例，以及在Revisited Oxford / Paris [39]上提出的“重排变压器”。结果表明，与几何验证相比，该方法在存在较大视点变化时表现良好。例如，示例（A）和（B）中的查询表示相同的地标，但显示较大的视点变化。虽然几何验证可预测两组不同的顶级邻居，但我们的模型会针对两个查询预测同一组排名最高的图像。例（E）和（F）也显示了我们模型的一些失败案例。

2021 ICCV : Instance-level Image Retrieval using Reranking Transformers相关推荐

[论文阅读：姿态识别Transformer] TransPose: Keypoint Localization via Transformer 2021 ICCV
[论文阅读:姿态识别&Transformer] TransPose: Keypoint Localization via Transformer 2021 ICCV 文章目录 [论文阅读:姿态 ...
2021 ICCV论文分享 | 遮挡边界检测
这篇文章实际上正好解决了我想了好久的多种边界类型判断的问题.创新不大,但是解决问题的角度很好.这篇文章实际上正好解决了我想了好久的多种边界类型判断的问题.而且恰好我目前的数据集是可以做这个的,因此读一 ...
MaskRNN Instance Level Video Object Segmentation 论文翻译
摘要实例级视频对象分割是视频编辑和压缩的一项重要技术.为了捕获时间的一致性,本文中,我们开发了MaskRNN,一个递归的神经网络方法,它在每个框架中融合了两个深网的输出,每个对象实例--一个提供一个 ...
疑似抄袭！如何看待澳门大学智慧城市物联网国家重点实验室2021 ICCV 发表的论文《PU-EVA》涉嫌抄袭？...
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达大家好,我是Amusi!我关注这个抄袭事件两天了(6月30日上午-7月1日晚上),反复看了多遍目前公开的内容 ...
(2021 ICCV)Specificity-preserving RGB-D Saliency Detection(A类)
# 一.作者 Tao Zhou , Huazhu Fu ,Geng Chen ,Yi Zhou ,Deng-Ping Fan, Ling Shao 二.地址 2.1 原文地址 ICCV 地址 2. ...
(2021 ICCV) Disentangled High Quality Salient Object Detection (A类)
一.作者 Lv Tang ,Bo Li1,Yijie Zhong ,Shouhong Ding, Mofei Song2, Youtu Lab 二.地址 2.1 原文地址 ICCV 地址 2.2 ...
2021 CFA Program Level 1一级二级三级教材原版书
CFA原版书是唯一100%覆盖CFA考试所有知识点的资料, 更契合考试出题者的思路,从近年来的考题中,可以看出,考试内容越来越接近原版书原文原句,甚至是例句链接:https://pan.baidu ...
CVPR 2021 An Empirical Study of Training Self-Supervised Visual Transformers
动机 transformer是一种有效的工具. transformer最初是为机器翻译而引入的,后来成为NLP的主干.由于语言的非局部性.关系自然性,这种长时的.自注意力的行为使transformer ...
今日arXiv精选 | 14 篇 ICCV 2021 最新论文
关于 #今日arXiv精选这是「AI 学术前沿」旗下的一档栏目,编辑将每日从arXiv中精选高质量论文,推送给读者. LocTex: Learning Data-Efficient Visual ...

2021 ICCV : Instance-level Image Retrieval using Reranking Transformers

1、Abstract

2、 Introduction

贡献。

3、Related Work

用于实例识别/检索的局部特征。

全局功能，例如识别/检索。

重新排序，例如识别/检索。

用于视觉任务的Transformers。

Methodology

3.1 Attention Modules in Transformers

Single-Head Attention (SHA):

Multi-Head Attention (MHA):

3.2. Model

4. Experiments

4.1. Datasets

4.2. Implementation

SOP实验：

5. Results

5.1. Comparison with Geometric Verification

5.2. Comparison with Query Expansion

5.3。与汇总选择性匹配内核（ASMK）的比较

5.4. Feature Learning & RRT: Joint Optimization

5.5. Comparison with the State-of-the-Art

6. Conclusion

补充材料

7. Appropriate baselines

9. Latency and memory

10. Limitation

11. Qualitative examples

2021 ICCV : Instance-level Image Retrieval using Reranking Transformers相关推荐

最新文章

热门文章

2021 ICCV : Instance-level Image Retrieval using Reranking Transformers

1、Abstract

2、 Introduction

贡献。

3、Related Work

用于实例识别/检索的局部特征。

全局功能，例如识别/检索。

重新排序，例如识别/检索。

用于视觉任务的Transformers。

Methodology

3.1 Attention Modules in Transformers

Single-Head Attention (SHA):

Multi-Head Attention (MHA):

3.2. Model

4. Experiments

4.1. Datasets

4.2. Implementation

SOP实验：

5. Results

5.1. Comparison with Geometric Verification

5.2. Comparison with Query Expansion

5.3。 与汇总选择性匹配内核（ASMK）的比较

5.4. Feature Learning & RRT: Joint Optimization

5.5. Comparison with the State-of-the-Art

6. Conclusion

补充材料

7. Appropriate baselines

9. Latency and memory

10. Limitation

11. Qualitative examples

2021 ICCV : Instance-level Image Retrieval using Reranking Transformers相关推荐

最新文章

热门文章

5.3。与汇总选择性匹配内核（ASMK）的比较