摘要

模板集在视频对象跟踪中，连续帧之间存在丰富的时间上下文，而在现有的跟踪器中却被很大程度上忽略了。在这项工作中，我们桥接单个视频帧，并通过一个用于稳固目标跟踪的Transformer架构探索跨上下文。与在自然语言处理任务中使用Transformer的经典用法不同，我们将其编码器和解码器分为两个并行分支，并在类似于Siamese的跟踪pipeline中精心设计它们。 Transformer编码器通过基于注意力的特征增强来促进目标模板，这有利于高质量跟踪模型的生成。 Transformer解码器将跟踪提示从先前的模板传播到当前帧，从而简化了目标搜索过程。
我们的Transformer辅助跟踪框架整洁并以端到端的方式进行了train。使用建议的transformer，一种简单的连体匹配方法就可以胜过当前表现最佳的跟踪器。通过将我们的Transformer与最新的判别式跟踪pipeline相结合，我们的方法在流行的跟踪基准上创下了一些新的最新记录。

1. Introduction

视觉目标跟踪是计算机视觉中的基本任务。
尽管有最新进展，但由于诸如咬合，变形和外观变化等因素，它仍然是一项具有挑战性的任务。随着时间误差的累积，这些挑战在在线过程中被进一步放大。
众所周知，视频流中的丰富时间信息对于视觉跟踪至关重要。但是，大多数跟踪范式[29、28、49]通过每帧对象检测来处理此任务，其中连续帧之间的时间关系在很大程度上被忽略了。以流行的siam跟踪器为例，模板匹配只考虑初始目标[1、45、19、29]。唯一使用的时间信息是假设目标平滑移动的先验运动（例如余弦窗口），这在视觉跟踪器中被广泛采用。在具有更新机制[20、40、8、60、62、3]的其他跟踪框架中，先前的预测结果被收集以递增地更新跟踪模型。
尽管在上述方法中考虑了历史帧，但视频帧仍被视为独立的副本，无需相互推理。在现实世界的视频中，某些帧不可避免地包含嘈杂的内容，例如被遮挡的物体或模糊的物体。这些不完善的框架在用作模板时会损害模型更新，并在充当搜索框架时会挑战跟踪过程。因此，在时间框架之间传递丰富的信息以相互加强它们是不平凡的问题。我们认为视频帧不应被孤立对待，并且由于忽略了逐帧关系，因此性能潜力在很大程度上受到限制。
图2
顶部：Transformer编码器接收多个模板特征以相互汇总表示形式。
底部：变换后的特征并遮罩transMask，传播原解码器将模板特征和特征传播其分配的mask传播到搜索patch特征，以增强表示能力。

为了桥接孤立的视频帧并在它们之间传达丰富的时间线索，在这项工作中，我们向视觉跟踪社区介绍了Transformer架构[47]。 与在语言建模和机器翻译中使用transformer转换器的传统用法不同[47，12]，我们利用它来处理时域中的上下文传播。 通过仔细修改经典的Transformer架构，我们证明了其变换特性自然适合跟踪情况。 它的核心组件，即注意力机制[47、57]，准备在跨帧之间建立像素级的对应关系，并在时域中自由地传递各种信号。
通常，大多数跟踪方法[1、46、29、43、7、3]都可以表述为类似于Siamese的框架，其中顶部分支使用模板特征学习跟踪模型，底部分支对当前搜索补丁进行分类。 如图1所示，我们将transformer编码器和解码器分成两个分支，在这种一般的连体式结构内。 在顶部分支中，一组模板补丁被馈送到Transformer编码器，以生成高质量的编码特征。 在底部分支中，搜索功能以及先前的模板内容被馈送到Transformer解码器，在该转换器中，搜索补丁从历史模板中检索并汇总信息性目标提示（例如，空间蒙版和目标功能）以增强自身。
提出的变压器可通过以下方式促进视觉跟踪：
•编码器。 如图2所示，它使各个模板功能可以相互增强以获取更紧凑的目标表示形式。这些编码的高质量功能进一步有利于跟踪模型的生成。

•解码器。它跨帧传达有价值的时间信息。如图2所示，我们的解码器同时传输特征和空间蒙版。将特征从先前的帧传播到当前的patch可平滑外观变化并纠正上下文噪声，同时变换空间注意力可突出显示潜在的目标位置。这些多样的目标表示和空间线索使目标搜索变得更加容易。

最后，我们在解码的搜索patch中跟踪目标。为了验证我们设计的Transformer的通用性，我们将其集成到两个流行的跟踪框架中，包括Siamese网络[1]和基于判别相关滤波器（DCF）的跟踪范式[3]。使用我们设计的Transformer，简单的Siamese匹配pipeline就可以胜过当前性能最佳的跟踪器。
通过结合最新的判别方法[3]，我们的Transformer辅助跟踪器在七个流行的跟踪基准上显示了出色的结果，包括LaSOT [13]，TrackingNet [39]，GOT-10k [23]，UAV123 [37]，NfS [24] ]，OTB-2015 [58]和VOT2018 [26]，并创造了几项新的最新记录。
总而言之，我们做出了三方面的贡献：
• 我们提出了一个简洁而新颖的Transformer辅助跟踪框架。据我们所知，这是使Transformer参与视觉跟踪的首次尝试。
• 我们同时考虑功能和注意力转换，以更好地探索Transformer的潜力。我们还修改了经典Transformer，使其更适合跟踪任务。
• 为了验证一般性，我们将设计的Transformer集成到两个流行的跟踪pipeline中。我们的跟踪器在7个基准上显示出令人惊讶的结果。

3. Revisting Tracking Frameworks

在详细介绍用于目标跟踪的变压器之前，为了完整起见，我们简要回顾了最近流行的跟踪方法。如图3所示，可以将主流跟踪方法（例如Siamese网络[1]或判别相关滤波器（DCF）[46、7、3]制定为类似Siamese的管道），其中顶部分支使用以下方法学习跟踪模型模板和底部分支专注于目标本地化。
连体匹配体系结构[1]以示例补丁z和搜索补丁x作为输入，其中z表示目标对象，而x是后续视频帧中的大搜索区域。它们都被馈送到权重共享的CNN网络Ψ（·）。它们的输出特征图如下互相关以生成响应图：
siam跟踪器依靠目标模型即卷积核Ψ（z）进行模板匹配。
作为另一个流行的框架，基于深度学习的DCF方法根据岭回归公式[43、7、3]优化跟踪模型f，如下所示：
其中y是模板补丁z的高斯形groundturth ，并且λ控制正则项以避免过度拟合。注意z 比连体追踪器中的示例补丁z大得多。因此，DCF公式同时考虑了目标匹配和背景区分。获得跟踪模型f后，通过r = f ∗Ψ（x）生成响应。
传统的DCF方法[20，10]通过傅立叶域中的闭式解使用圆形生成的样本来求解岭回归。相反，最近基于深度学习的DCF方法可解决等式。 2使用随机梯度下降法[43，33]或共轭梯度法[7]来避免边界效应。最近的DiMP [3]通过元学习器以端到端的方式优化了上述岭回归，显示了最新的性能。

4. Transformer for Visual Tracking

如第3节所述，主流跟踪方法可以制定为连体式管道。我们旨在通过逐帧关系建模和时间上下文传播来改进这种通用跟踪框架，而无需修改其原始跟踪方式（例如模板匹配）。

4.1. Transformer Overview

＜Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking＞相关推荐

Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking
Transformer Meets Tracker:Exploiting Temporal Context for Robust Visual Tracking 前言一.Abstract 二.Con ...
单目标追踪——【Transformer】Transformer Meets Tracker:Exploiting Temporal Context for Robust Visual Tracking
目录文章侧重网络结构具体的Encoder和Decoder的结构模型的推理过程 Transformer这个香饽饽怎么能不用来迁移到目标追踪里呢. 我计划对CVPR2021的3篇将Transfor ...
【学习笔记】：Multi-mode Transformer Transducer with Stochastic Future Context
原文链接文章基本信息:题目,作者,作者机构,发表刊物或会议,年份,期刊会议等级(CCF) 题目,Multi-mode Transformer Transducer with Stochastic F ...
Learning Spatio-Temporal Transformer for Visual Tracking——精读笔记
本篇精读笔记,对原文重要部分做了严格翻译,如摘要和总结.对正文部分做了提炼,对重点部分突出标注.对参考文献做了分类.本文内容较长,如果时间有限可以直接跳到感兴趣的小节阅读. 论文地址:https:// ...
OpenMMlab社区开放麦＜第22期：姿态估计领域的前沿进展＞——笔记
姿态估计技术的发展对于行为分析.虚拟现实和自动驾驶等诸多应用都有着重要的意义.本期开放麦我们就邀请到了两位顶会顶刊论文作者和大家分享如何解决姿态估计中的前沿问题和一些新的姿态估计任务和解决方案. 姿态 ...
＜img src=“图片引用失败“ onerror=“自动替换默认图片“＞ - 代码篇
img图片引用失败,自动替换默认图片(半句代码搞定) 图片引用失败,显示默认图片:  <img src="图片引用失败" onerro ...
＜谈谈对 SPA（单页面应用）的理解＞
文章目录一.什么是 " SPA " 含义举个栗子二.SPA和MPA的区别 > 单页应用与多页应用的区别 > 单页应用优缺点实现一个SPA > 原理 > ...
＜A Tale of Evil Twins: Adversarial Inputs versus Poisoned Models＞阅读笔记
A Tale of Evil Twins: Adversarial Inputs versus Poisoned Models Abstract: 其中对对抗样本的定义是会欺骗DNN模型:对poiso ...
Vivado关于综合(Synthesis)后存在Hold时序违例(Hold＜0)，但实现(Implementation)后无时序违例(hold＞= 0)的问题
一.问题描述 1.测试代码(4位计数器) (1).v文件 `timescale 1ns / 1ps module Top (input wire clk_p,input wire clk_n,// i ...

＜Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking＞

摘要

1. Introduction

3. Revisting Tracking Frameworks

4. Transformer for Visual Tracking

4.1. Transformer Overview

＜Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking＞相关推荐

最新文章

热门文章