TADT：Target-Aware Deep Tracking

摘要：现有的深度跟踪器主要使用卷积神经网络进行表示，该网络是为通用对象识别任务预先训练的。尽管许多视觉任务都取得了成功，但使用预先训练的深度特征进行视觉跟踪的贡献不如对象识别的贡献大。关键问题是在视觉跟踪中感兴趣的目标可以是具有任意形式的任意对象类。因此，预先训练的深层特征在对这些任意形式的目标建模以将它们与背景区分开来时效率较低。本文提出了一种新的学习目标感知特征的方法，与预先训练的深度特征相比，该方法能够更好地识别出经历显著外观变化的目标。为此，我们开发了一个回归损失和一个等级损失来指导目标活动和规模敏感特征的生成。我们根据反向传播梯度确定每个卷积滤波器的重要性，并基于表示目标的激活选择目标感知特征。目标感知功能与暹罗匹配网络集成在一起，用于视觉跟踪。大量实验结果表明，该算法在精度和速度上优于现有方法。

1. 贡献

视觉跟踪是计算机视觉的基本问题之一，有着广泛的应用。给定由第一帧中的边界框指定的目标对象，视觉跟踪旨在定位后续帧中的目标对象。这是具有挑战性的，因为目标对象经常随着时间的推移经历显著的外观变化，并且可能暂时离开视野。深度学习发展之前的传统跟踪器主要由特征提取模块和决策机制组成。最近最先进的深度跟踪器通常使用为对象识别任务预先训练的深度模型来提取特征，同时更加强调设计有效的决策模块。虽然各种决策模型，如相关滤波器[15]、回归器[14、35、38、37]和分类器[16、29、32]都得到了广泛的探索，但对学习更具分辨力的深层特征的关注却少得多。
       尽管现有深度跟踪器的性能水平很高，但我们注意到，预先训练的深度特征对视觉跟踪的贡献不如对对象识别的贡献大。当使用预先训练的深层特征作为目标表示时，可能会出现许多问题。首先，视觉跟踪中的目标可以是任意形式的，例如，在预训练模型的训练集中看不见的对象或一个特定部分，其不包含用于对象识别任务的对象信息。也就是说，从普通图像中预先训练的CNN模型对感兴趣的目标对象是不可知的，并且在将它们从背景中分离出来时效率较低。第二，即使目标对象出现在预训练模型的训练集中，从最后的卷积层获取的深层特征通常仅保留高级视觉信息，这对于精确定位或尺度估计是不太有效的。第三，最先进的深度跟踪器[29，35，36]需要高计算负荷，因为来自预先训练的模型的深度特征是高维的(见图1)。为了缩小这一差距，非常重要的是利用与目标对象相关的深层特征进行视觉跟踪。
       为了解决上述问题，我们建议学习目标感知深度特征。我们的工作基于以下观察。通过反向传播分类神经网络获得的梯度很好地指示了类别特定的显著性[33]。通过使用全局平均池，卷积滤波器产生的梯度可以确定表示目标对象的滤波器的重要性。为了选择最有效的卷积滤波器，我们设计了两种类型的目标损耗，在第一帧预先训练的深度模型上执行反向传播。我们使用铰链损失将预先训练的深层特征回归到由高斯函数生成的软标签，并使用梯度来选择目标活动卷积滤波器。我们使用成对距离的等级损失来搜索尺度感知卷积滤波器。激活选定的最重要的过滤器是这项工作的目标意识特征。图2显示了使用tSNE方法的目标感知特征和原始深度特征[27]。注意，与预先训练的深度特征相比，目标感知的深度特征在分离具有相同语义标签的不同目标对象时更有效，预先训练的深度特征与目标的对象无关。当我们利用一小组卷积滤波器来生成目标感知特征时，特征数量显著减少，这可以减少计算负载。
       为了解决上述问题，我们建议学习目标感知深度特征。我们的工作基于以下观察。通过反向传播分类神经网络获得的梯度很好地指示了类别特定的显著性[33]。通过使用全局平均池，卷积滤波器产生的梯度可以确定表示目标对象的滤波器的重要性。为了选择最有效的卷积滤波器，我们设计了两种类型的目标损耗，在第一帧预先训练的深度模型上执行反向传播。我们使用铰链损失将预先训练的深层特征回归到由高斯函数生成的软标签，并使用梯度来选择目标活动卷积滤波器。我们使用成对距离的等级损失来搜索尺度感知卷积滤波器。激活选定的最重要的过滤器是这项工作的目标意识特征。图2显示了使用tSNE方法的目标感知特征和原始深度特征[27]。注意，与预先训练的深度特征相比，目标感知的深度特征在分离具有相同语义标签的不同目标对象时更有效，预先训练的深度特征与目标的对象无关。当我们利用一小组卷积滤波器来生成目标感知特征时，特征数量显著减少，这可以减少计算负载。
       我们将提出的目标感知特征与孪生匹配网络[2]相结合，用于视觉跟踪。我们在包括OTB-2013 [45]、OTB-2015 [46]、VOT-2015 [19、20]、VOT-2016 [18]和Temple Color-128 [24]在内的五个基准数据集上评估了建议的跟踪器。消融研究的大量实验表明，就精度和跟踪速度而言，所提出的目标感知特征比孪生跟踪器的预训练模型更有效。

图2：使用t-SNE方法预先训练分类CNNs特征和目标感知特征。在这个例子中，我们从每个视频中随机选择20帧。图中的每个点表示一帧中的一个目标。(a)所有的点都属于行人类，但在不同的视频中。目标感知特征对每个视频的类内差异更敏感，这对于区分目标和干扰物至关重要。(b)不同颜色的点属于不同的对象类别。目标感知功能可以更有效地分离不同类别的对象，这可以用来移除不相关的过滤器并保留目标活动过滤器。
       这项工作的主要贡献总结如下:
       1.我们建议学习用于视觉跟踪的目标感知深度特征。我们开发了回归损失和等级损失来选择最有效的卷积滤波器，以生成目标感知特征。我们缩小了预先训练的深度模型和用于视觉跟踪的任意形式的目标对象之间的差距。
       2.我们将目标感知功能与孪生匹配网络相结合，用于视觉跟踪。目标感知功能减少了功能数量，也可以加速孪生追踪器。
       3.我们在五个基准数据集上广泛评估了建议的方法。我们表明，孪生追踪器与所提出的目标感知功能相比，在有效性和效率方面表现良好。

2. 相关工作

视觉跟踪一直是文献中活跃的研究课题。在下文中，我们将主要讨论基于梯度的深度模型中具有代表性的深度跟踪器及相关问题。
       深度跟踪器。将深度学习模型应用于视觉跟踪的一个值得注意的问题是，训练样本有限，并且只有第一帧中目标对象的真实视觉外观可用。一方面，大多数现有的深度跟踪器使用预先为特征表示的对象分类任务准备的深度模型。一些跟踪者[26，42]利用浅层和深层特征的互补特征来实现鲁棒性和准确性的能力。来自多个层的深层特征也已经集成用于视觉跟踪[10，32，7，3]。然而，正如Bhat等人[3]所证明的那样，由于看不见的目标、不兼容的分辨率和不断增加的尺寸的问题，预先训练的深度特征的组合可能不总是带来性能增益。另一方面，许多跟踪器[16，6，28，17，35，47，12]是通过改进包括支持向量机、相关滤波器、深度分类器和深度回归器在内的决策模型而开发的。Nam和Han [29]提出了一种结合硬否定挖掘、包围盒回归和在线样本收集模块的多域深度分类器，用于视觉跟踪。VITAL追踪器[36]利用对抗性学习来生成有效样本，并利用具有成本敏感性损失的类不平衡。然而，这些模型在有噪声更新的情况下可能会偏离目标对象，并且需要很高的计算负荷，这在很大程度上是由有限的在线训练样本造成的。
       为了利用具有一般对象的数据集进行跟踪，许多基于暹罗的跟踪器[2,39,11,21,14]将跟踪作为匹配问题，并学习相似度度量网络。通过比较初始目标模板和当前帧中搜索区域的特征来进行跟踪。许多跟踪器[44,52,13]已经被开发出来，通过引入注意力机制来更好地匹配模板和搜索区域。虽然这些Siamese框架是在大型视频数据集上预先训练的，但是在没有类别信息的情况下，成对的训练样本只会告诉两个样本是否属于同一个目标。也就是说，Siamese跟踪器没有充分利用与特定目标对象相关的语义和对象性信息。在这项工作中，我们从一个预先训练好的CNN中选择最具鉴别性和尺度敏感性的卷积滤波器来生成目标深度特征。所提出的特征增强了目标在语义和客观性方面的区别表示强度，这使得Siamese跟踪框架在鲁棒性和准确性方面优于现有方法。
       基于梯度的深度模型。我们开发了几种基于梯度的模型[49,33]来确定CNN各通道特征在描述特定对象类中的重要性。GCAM模型[49]根据观察到每个输入像素点的梯度表示对应的属于给定类别标记的重要性，通过沿特征通道计算加权和，生成一个类活动映射。特征信道的权值是通过对该信道中所有梯度的全局平均pooling来计算的。与这些使用分类损失的基于梯度的模型不同，我们专门为跟踪任务设计了一个回归损失和一个排名损失，以识别哪些卷积滤波器是活跃的，以描述目标和敏感的规模变化。

3. 目标感知特征

在本节中，我们将介绍如何学习用于视觉跟踪的目标感知特征。首先，我们分析了来自预训练的分类深度模型的特征与视觉跟踪的有效表征之间的差距。在此基础上，提出了目标感知特征模型，包括判别特征生成模型和基于回归梯度和等级损失的尺度敏感特征生成组件。

3.1 预训练的CNNs特征

针对一般视觉识别的有效特征与针对特定对象的跟踪之间的差距是由以下几个问题造成的。首先，预训练的CNN特征不知道目标的语义信息和客观信息，这些信息很可能不会出现在离线的训练数据中。与其他视觉任务(如分类、检测、分割)不同的是，用于训练和测试的类类别是预定义的、一致的，在线视觉跟踪需要处理任意对象标签的目标。第二，预训练的cnn侧重于增加类间差异，提取的深度特征对类内变化不敏感。因此，这些特征对于跟踪器准确估计尺度变化和区分目标与具有相同类别标签的干扰物的有效性较低。第三，特别是在深度卷积网络中，预先训练好的深度特征会被每个类别标签稀疏激活(即类间的差异主要与少数几个特征通道有关)。当应用到跟踪任务时，只有几个卷积过滤器在描述目标时是活跃的。卷积滤波器中有很大一部分含有冗余和不相关信息，导致计算量大、过拟合。图2展示了使用t-SNE方法[27]预训练的深度特征和提出的目标感知特征的分布。
几种解释神经网络的方法表明，卷积滤波器对于捕获类别级对象信息的重要性可以通过相应的梯度计算[49,33]。在梯度引导的基础上，我们构建了一个专门为视觉跟踪而设计的带有损失的目标感知特征模型。给定具有输出特征空间 χ χ χ的预先训练的CNN特征提取器，可以基于信道重要性生成子空间 χ ′ χ' χ′，∆作为

φ是映射函数选择的最重要的渠道。通过下式计算第i个通道 ∆ i ∆_i ∆i的重要程度

式中， G A P ( ⋅ ) G_{AP}(·) GAP(⋅)为全局平均池函数，L为设计损耗， z i z_i zi表示第i个滤波器的输出特征。对于视觉跟踪，我们利用回归损失(第3.2节)和排序损失(第3.3节)的梯度来提取目标感知特征。

提出算法的框架。该框架由一个通用CNN特征骨干网、一个目标感知模型和一个相关匹配模块组成。目标感知模型由一个回归损失部分(即脊损失部分)和一个排序损失部分组成，从预先训练好的网络神经网络中选择具有目标主动和尺度敏感信息的目标感知滤波器进行目标识别。相关匹配模块计算模板与搜索区域之间的相似度得分。得分图的最大值表示目标位置。

3.2. 通过回归的目标活动特性

在一个预先训练好的分类网络中，每个卷积过滤器捕获一个特定的特征模式，所有的过滤器构造一个包含不同客观先验的特征空间。一个经过训练的网络识别一个特定的目标类别主要基于这些过滤器的子集。对于视觉跟踪任务，我们可以通过识别那些活跃于目标区域而非活跃于背景的过滤器来获得与目标相关的客观信息。为此，我们将与目标中心对齐的图像patch中的所有样本 X i , j X_{i,j} Xi,j回归到高斯标签映射中
其中(i, j)是与目标的偏移量，而σ是内核宽度。为了提高计算效率，我们将问题表述为脊回归损失，

其中，∗表示卷积操作，W是回归权重。每个过滤器的重要性可以根据其对标签映射的拟合贡献来计算，即 L r e g L_{reg} Lreg相对于输入特征 X i n X_{in} Xin的推导。利用链式法则和公式3，计算回归损失的梯度

其中 X o X_o Xo是输出预测。通过回归损失的梯度和Eq.2，我们找到了能够从背景中区分目标的目标主动滤波器。与预先训练的深度特征相比，生成的特征有以下优点。我们选择部分目标特定的滤镜来产生有区别的深层特征。这不仅缓解了模型过拟合问题，而且减少了特征的数量。目标感知特征对于表示训练集中的任意目标或未看到的对象是有效的。图4-c通过对所有通道进行平均，直观地比较了带回归损失和不带回归损失学习到的深度特征。

图4。可视化的原始和学习的目标感知特征。通过对所有通道进行平均得到可视化图像。每一行从左到右分别是输入图像，学习尺度敏感特征时没有或有排序和回归损失的预训练深度特征(Conv4-1)，学习目标敏感特征时没有或有回归损失的预训练深度特征(Conv4-3)，以及整体目标感知深度特征。需要注意的是，原始的预训练特征不能有效地描述目标，而目标感知特征可以很容易地将目标从背景中分离出来。

3.3. 通过排序对尺度敏感的特征

为了生成尺度敏感的特征，我们需要找到对目标尺度变化最活跃的过滤器。目标的精确尺度很难计算，因为目标的呈现不是连续的，但是我们可以通过一个模型来得到最接近的尺度，这个模型可以告诉我们哪一个在成对的样本中更接近。因此，我们将问题表示为一个排序模型，并将规模越接近目标规模的训练样本排序越高。等级损失的梯度表明过滤器对尺度变化敏感的重要性。为了便于实现，我们利用由定义的平滑近似排名损失[23]

其中 ( x i , x j ) (x_i, x_j) (xi,xj)为两两训练样本，与 x i x_i xi相比， x j x_j xj的大小更接近目标大小，f(x;w)为预测模型。此外,Ω训练对的集合。 L r a n k L_{rank} Lrank关于 f ( x ) f(x) f(x)的推导计算为：[23]

其中 ∆ z i , j = z i − z j ∆z_{i,j}= z_i−z_j ∆zi,j=zi−zj, z i z_i zi为单热向量，第i个元素为1，其他为0。通过反向传播，可以计算出排序损失相对于特征的梯度

其中W为卷积层的滤波器权值。通过上面的排名损失和Eq. 2的梯度，我们找到了对尺度变化敏感的滤波器。考虑到我们只需要目标对象的尺度敏感特征，我们结合回归和排序损失来寻找既对目标有效又对尺度变化敏感的过滤器。图4-b通过对所有通道进行平均，可视化地比较了使用本文模型和不使用本文模型生成的深度特征。

4. 跟踪过程

图3显示了提出的跟踪器的总体框架。由于以下两个原因，我们将目标感知特征生成模型与Siamese框架集成在一起。首先，Siamese框架是简洁和高效的，因为它通过比较目标和搜索区域的特征来执行跟踪。其次，Siamese框架可以突出提出的特征模型的有效性，因为它的性能完全取决于特征的有效性。我们通过以下模块简要介绍了跟踪过程。
       跟踪初始化。该跟踪框架包括预先训练的特征提取器、目标感知特征模块和暹罗匹配模块。预先训练好的特征提取器对分类任务进行离线训练，目标感知部分只在第一帧中进行训练。在初始训练中，分别训练回归损失和排序损失部分，并在网络收敛后根据每一损失计算梯度。利用梯度，特征生成模型从预先训练好的cnn中选择固定数量的重要度分数最高的滤波器。通过叠加这两种特征滤波器得到最终的目标感知特征。考虑到标量的差异，这两种特征通过除以它们的最大信道和(一个信道中所有值的总和)来重新缩放。
       在线检测。在推理阶段，我们利用目标感知特征直接计算初始目标和当前帧中搜索区域的相似度分数。这是通过卷积操作(即Siamese框架中的相关层)实现的，并输出一个响应映射。响应图中的值表示其对应位置为真实目标的置信度。给定初始目标 x 1 x_1 x1和当前帧 z t z_t zt中的搜索区域，计算帧 t t t中预测目标位置为

式中*为卷积运算。
       规模的评估。为了评估目标的尺度变化，我们固定模板的大小，并将当前帧中搜索区域的feature map重新缩放为更小、更大和固定的。在跟踪过程中，将这三种特征图与目标模板进行比较。量表评估是通过寻找包含最高响应的得分图来执行的。