ECCV 2022 paper
Joint Feature Learning and Relation Modeling for Tracking: A One-Stream Framework

之前的跟踪框架都是将特征提取和特征融合分为两步来做的,先分别提取Template和Search的特征,然后在两者之间进行相关,得到的特征用于计算最终的跟踪结果(Two Stream, Two Stage)。这样做存在以下两个缺点:1.特征提取阶段template和search间没有交互,提取到的特征是目标无关的,判别性不足,取决于离线训练的效果(对未见过的类别不鲁棒);2.双流双阶段的框架难以在速度和精度之间达到较好的平衡(performance-speed dilemma)。

作者提出了一种one stream, one stage的跟踪框架,在template和search图像对之间建立了双向的信息流,从而统一了特征提取和特种融合的过程。同时提出了一种基于相似度的early candidate elimination模块,推理过程中逐渐丢弃search中的背景区域,进一步提高了算法的推理速度。

值得注意的是本文中的方法在处理每一个search时,template的图像都会一起输入到model中得到动态的template特征,这里与MixFormer是不同的(MixFormer中为了节省计算量不使用template对search做cross attention,这样每帧就不用重新计算template的特征)。与STARK、TransT等也使用了transformer的tracking方法相比,该框架还有一个好处就是可以使用预训练的transformer权重来初始化网络,从而提高网络的收敛速度。

Template
和Search
会首先被分别分割为多个P*P大小的patch并展成向量


,这些向量会通过一个全连接层 E被映射到D维
之后可学习的位置编码 Pz Px会被添加到这些patch embedding上,得到token embedding, 最后两者会被拼接到一起得到 作为Transformer的输入。

经过Transformer的处理后,直接将其输出特征中与search对应的部分取出来输入到head中即可得到最终的跟踪结果。

值得注意的是本文中的方法在处理每一个search时,template的图像都会一起输入到model中得到动态的template特征,这里与MixFormer是不同的(MixFormer中为了节省计算量不使用template对search做cross attention,这样每帧就不用重新计算template的特征)。

与STARK、TransT等也使用了transformer的tracking方法相比,该框架还有一个好处就是可以使用预训练的transformer权重来初始化网络,从而提高网络的收敛速度。

候选消除

在Transformer的多层Self-attention操作中,attention map会首先关注于search图像中的前景区域并随着深度的增加逐渐聚焦到目标。基于这一现象,作者提出了early candidate elimination模块鉴别并消除search图像中的背景区域。

具体来说,search图像中的每个patch都可以被看作是一个目标候选区域。在每个候选消除模块中,每个候选区域会被计算一个与template图像的相似度作为其得分,得分最高的k个候选区域会被保留下来,其他的候选区域则会被丢弃。为了避免template中背景区域的影响,在本文中作者并没有使用候选区域与每个template patch计算相似度并取均值,而是直接计算其与template最中心位置的patch之间的相似度作为其得分。可以这样做的原因在于经过self-attention操作之后,中心的template patch已经聚集了足够的目标信息。由于这些背景区域不会对分类和回归操作造成影响,因此在Transformer输出之前,这些中途被丢弃的区域直接做zero-padding即可将特征恢复成原尺寸。

作者也给出了一些候选消除模块的可视化案例,图中灰色区域即为被丢弃的背景区域。

Head和Loss

Head部分的结构也比较简单,包括三个分支,分别预测分类得分 、为了补偿下采样量化误差而预测的偏移值 以及归一化的bounding box尺寸

。每个分支由L个卷积层堆叠而成。取预测得分最高的点作为目标位置,在O S 中取出对应位置的值计算最终的目标包围框。

损失函数方面:对于分类分支,采用了与CornerNet中相同的weighted focal loss,与GT中心距离越远的位置权重越低;对于回归分支,则使用了常用的IoU loss以及L1 loss的组合。

实验结果

作者基于ViT-Base设置了两组不同的输入大小,得到了两组模型,速度都挺快的:

OSTrack-256 --> Template: 128128; Search: 256256; 105.4FPS
OSTrack-384 --> Template: 192192; Search: 384384; 58.1FPS

针对预训练:使用MAE自监督预训练的Module初始化会得到更好的结果,尤其是在测试集中完全为未见类别的GOT-10K上。

Aligned Comparison: 作者还将STARK和Swin-Track的backbone、head、loss都换成了与本文一致的方法,以在Two stream和One stream方法之间进行公平的比较。


我们重新实现的双流跟踪器显示出相当或更强的性能,但仍然落后于OSTrack,这证明了我们的单流结构的有效性。虽然Transformer特征融合模块[29,47]也支持关系建模阶段的特征交互,但特征提取过程中的判别信息损失是不可修复的。我们还观察到,OSTrack在单次基准GOT-10k上显著优于前两个流跟踪器,这进一步证明了我们的单流框架在具有挑战性的场景中的优势。实际上,由于测试集中的对象类与训练集中的对象类完全不同,因此双流框架提取的特征的判别能力是有限的。然而,通过模板特征和搜索区域之间的迭代交互,OSTrack可以通过相互引导来提取更多不相似的特征。与双流SOTA跟踪器不同,OSTrack忽略了超重型关系建模模块,同时保持了关节特征提取和关系建模模块的高度并行性。因此,当采用相同的主干网络时,提出的单流框架比STARK(快40.2 FPS)和SwinTrack(快25.6 FPS)快得多。此外,OSTrack需要更少的训练图像对来收敛。

【目标跟踪】|OSTrack相关推荐

  1. CVPR2020:点云三维目标跟踪的点对盒网络(P2B)

    CVPR2020:点云三维目标跟踪的点对盒网络(P2B) P2B: Point-to-Box Network for 3D Object Tracking in Point Clouds 代码:htt ...

  2. MAML-Tracker: 目标跟踪分析:CVPR 2020(Oral)

    MAML-Tracker: 目标跟踪分析:CVPR 2020(Oral) Tracking by Instance Detection: A Meta-Learning Approach 论文链接:h ...

  3. CVPR 2020目标跟踪多篇开源论文(下)

    CVPR 2020目标跟踪多篇开源论文(下) Cooling-Shrinking Attack: Blinding the Tracker with Imperceptible Noises 作者团队 ...

  4. CVPR 2020目标跟踪多篇开源论文(上)

    CVPR 2020目标跟踪多篇开源论文(上) SiamBAN:面向目标跟踪的Siamese Box自适应网络 作者团队:华侨大学&中科院&哈工大&鹏城实验室&厦门大学等 ...

  5. 应用YOLOV4 - DeepSort 实现目标跟踪

    转载自 https://cloud.tencent.com/developer/article/1706259 本文分享利用yolov4+deepsort实现目标跟踪,主要是讲解如何使用,具体原理可以 ...

  6. 基于Python和OpenCV的目标跟踪学习教程 Object Tracking using Python and OpenCV

    实现12种不同的算法来跟踪视频和网络摄像头中的对象! 你会学到: 使用Python和OpenCV跟踪视频和网络摄像头中的对象 理解跟踪算法的基本直觉 实现12种跟踪算法 了解对象检测和对象跟踪之间的区 ...

  7. MAML-Tracker:用目标检测思路做目标跟踪?小样本即可得高准确率丨CVPR 2020

    来源 | 微软研究院AI头条(ID: MSRAsia) 编者按:目标检测与目标跟踪这两个任务有着密切的联系.针对目标跟踪任务,微软亚洲研究院提出了一种通过目标检测技术来解决的新视角,采用简洁.统一而高 ...

  8. 求助:我有一辆机器人小车,怎么让它跑起来,还会避障、目标跟踪、路径规划?...

    也许,你曾见过 能灵活地绕开障碍物的它 在桌子边缘"疯狂试探"的它 它是谁? 没错,它就是是英伟达推出的一款入门级人工智能小车--Jetbot ,估计对机器人,尤其是对车械感兴趣的 ...

  9. 352万帧标注图片,1400个视频,亮风台推最大单目标跟踪数据集

    CVPR 2019期间,专注于AR技术,整合软硬件的人工智能公司亮风台公开大规模单目标跟踪高质量数据集LaSOT,包含超过352万帧手工标注的图片和1400个视频,这也是目前为止最大的拥有密集标注的单 ...

  10. CVPR 2019 | 惊艳的SiamMask:开源快速同时进行目标跟踪与分割算法

    作者 | 周强(CV君) 来源 | 我爱计算机视觉(公众号id:aicvml) 责编 | Jane 上面这张Gif图演示了 SiamMask 的效果,只需要鼠标滑动选择目标的包围框,即可同时实现目标跟 ...

最新文章

  1. java.io包和杯子测楼
  2. Linux基础知识1
  3. mupdf不支持x64_x86平台转x64平台关于内联汇编不再支持的解决
  4. 单点登录(sso)入门
  5. Prime Number Aizu - 0009(素数筛)
  6. oracle数据库连接检查,检查Oracle数据库的最大连接
  7. redis 缓存 淘汰
  8. Java对象的serialVersionUID在序列化和反序列化的用途
  9. matplotlib 可视化 —— 定制 matplotlib
  10. pandas df中有几个数组_还在抱怨pandas运行速度慢?这几个方法会颠覆你的看法
  11. Atmega16驱动三轴加速度传感器MMA7455
  12. Dual-edge triggered flip_flop(Dualedge)
  13. 微信上网卡WeSim悄然发布
  14. Dell inspiron 7580硬件升级_更换电池加内存条移动硬盘
  15. Unity游戏编程自学书籍、插件学习与视频教程
  16. 为软件开发人员打造的搜索引擎
  17. STM32F407-外部中断
  18. 如何为电脑cpu涂沫散热膏
  19. MBI5020 LED驱动
  20. 【JAVA】——字面量与变量

热门文章

  1. 如何用一部手机输出视频内容
  2. 路由器的密码破解方法(实用篇)
  3. process 嵌入exe的启动位置_干货【U盘启动盘源代码】
  4. 线上问题-OMS订单履约系统调用服务接口超时
  5. 各编程语言 + aardio 相互调用示例(简易代码)
  6. python语句中的 end=''是什么意思呢
  7. 如何下载eclipse
  8. 信息技术第二单元传统动画与计算机动画比较,传统动画与Flash动画设计的优缺点对比...
  9. 经验积淀大级沟通修行
  10. 浅谈民机软件适航宝典-DO-178