GitHub源码下载链接:https://github.com/foolwood/DCFNet

论文下载地址:https://arxiv.org/abs/1704.04057

DCFNET:用于视觉跟踪的判别相关滤波器网络

基于判别相关滤波器(DCF)的方法已经成为一种主要的在线目标跟踪方法。然而,这些方法中使用的特征都是基于手工制作的特征(如HoGs),或是独立于其他任务(如图像分类)训练的卷积特征。在这项工作中,我们提出了一种端到端的轻量级网络体系结构,即DCFNet,以学习卷积特征并同时执行相关跟踪过程。具体来说,我们将DCF视为一个特殊的相关性过滤层添加到Siamese网络中,并通过将网络输出定义为目标位置的概率热图来仔细推导通过它的反向传播。由于推导仍在傅里叶频域中进行,因此保留了DCF的效率特性。与使用HoGs的KCF相比,这使得我们的跟踪器在测试时间内可以达到60fps以上的速度运行,同时获得显著的精度提升。对OTB-2013、OTB-2015和VOT2015基准的广泛评估表明,所提出的DCFNET跟踪器与几种最先进的跟踪器相比具有竞争力,同时更紧凑,速度更快。

关键词:相关滤波器,卷积神经网络,视觉跟踪。

1、导言

在诸如人机交互和辅助驱动系统等广泛应用中,目标跟踪是计算机视觉中的一个基本问题。这个问题的一个常见设置是使用边界框初始化第一帧中的关注对象,目的是估计后续帧中的对象轨迹[1、2、3]。在没有先验地了解目标类别的情况下,对任意目标的跟踪都需要在线学习判别信息以实现较高性能。尽管已经成功通过跟踪检测范式解决[4,5],但由于物体变形,外观变化和严重遮挡等因素,它仍然是一个具有挑战性的问题。保持实时速度对于视觉跟踪也至关重要,视觉跟踪通常是许多经过在线分类训练的先进跟踪器的瓶颈。最近,基于判别相关滤波器(DCF)的跟踪器[6,7,8]通过在傅立叶频域中有效解决岭回归问题,可以在精度和速度之间取得理想的平衡。

自从利用手工制作的多通道功能(例如HoGs[7])以来,DCF跟踪一直是社区最大的突破之一。朝此方向行驶的跟踪器始终分别配备特征提取器和相关滤波器。事实证明,良好的特征可以极大地提高跟踪性能[9]。后来,越来越多的工作[10、11、12]将重点放在用于DCF跟踪的多层深度特征的集成上。尽管改进了跟踪性能,但这些卷积层通常从预先训练的网络中选择图像分类任务[13、14、15]或目标检测任务[16、17],这些任务不仅是手工挑选的,而且也是重量级的。由于上述方法中采用的特征都是通过相关跟踪过程独立提取的,因此实现的跟踪性能可能不是最佳的。

在本文中,我们将回顾基于DCF的跟踪器的特征提取。与采用已有功能的常见DCF方法不同,我们剖析了DCF的闭式解决方案,发现开发出一个网络来自动学习最适合DCF跟踪的端到端功能是很自然的,而且无需人工干预。通过将DCF视为Siamese网络中添加的特殊相关滤波器层,并仔细推导通过它的反向传播,可以令人惊奇地实现这一点。所提出的网络的体系结构(见图1)包含一些卷积层,这些卷积层对离线训练过程中的先验跟踪知识进行编码,并构成量身定制的特征提取器。这些卷积层的后面是相关滤波层,它可以通过将网络输出定义为目标位置的概率热图来有效地完成在线学习和跟踪。为了降低计算成本,我们仅将卷积层设置为轻量级。由于相关滤波器层的推导仍在傅立叶频域中进行,因此保留了DCF的效率特性。这使我们的跟踪器可以在测试时间内以超过60FPS的高速运行,同时仍可以通过几种最先进的重量级和慢速跟踪器来获得具有竞争力的跟踪精度。

2、相关工作

DCF跟踪的特征表示。长期以来一直鼓励DCF跟踪技术的发展。MOSSE[6]首先将DCF引入到视觉跟踪中,仅使用单通道灰度特性就可以以超过600FPS的高速运行。CSK[18]和KCF[7]是使用循环矩阵来解释相关滤波器并推广到多通道特征情况的后续算法。CN[19]结合了颜色名称功能,以提高CSK的性能。后来,越来越多的工作[10,11]专注于集成预训练的多层深层特征以进行DCF跟踪。HCF[10]学习每个分层卷积层上的相关滤波器以进行跟踪。DeepSRDCF[11]仅建立在单分辨率深度特征映射的第一层上。与上述使用手部干扰功能的方法不同,我们旨在自动学习最适合DCF跟踪的功能。此外,我们的特征学习网络是轻量级的。

其他基于DCF的跟踪器。一些工作致力于解决DCF跟踪的固有局限性。MUSTer[20]和LCT[21]添加了重新检测机制以实现长期DCF跟踪。Staple[22]结合了基于颜色统计的模型,以实现DCF跟踪的互补特征。DSST[8]增加了一个规模回归,以实现准确的规模估计。SRDCF[23]添加了空间正则项以惩罚靠近模板边界的滤波器系数。与它们不同的是,我们旨在弥合特征提取器和相关滤波器之间的差距。

其他基于CNN的跟踪器。深度学习的进展显着地扩展到了跟踪领域[24,25,26,10,27]。一些作品[24,26,25]遵循离线训练和在线微调范式,这在某种程度上是实时跟踪的时间消耗。我们网络中的相关滤波器层也需要在线更新。但是,由于它的推导是在傅立叶频域中进行的,因此保留了DCF的效率特性。一些作品[27,28]还使用Siamese网络来构建基于模板匹配的跟踪器,而无需在线更新,实现了很高的跟踪速度。与它们不同的是,我们的网络可以进行增量更新,因此本着这种精神可以被视为RNN网络(请参见第3.3节)。

3、拟议的网络

在本节中,我们首先介绍判别相关滤波器的初步知识。其次,我们详细介绍了反向传播的推导过程。最后,我们将介绍在线跟踪过程并本着RNN的思想对其进行解释。

3、1判别相关滤波器

在标准判别相关滤波器中,我们对目标补丁ϕ(x)∈RM×N×D和理想响应y∈RM×N的特征进行判别回归,该理想响应y∈RM×N是在中心处达到峰值的高斯函数。所需的滤波器w可以通过最小化输出脊损耗来获得:

其中wl表示滤波器w的信道l,*表示循环相关,常数λ≥0是正则化系数。可以通过[8]获得解决方案:

在此,表示离散傅里叶变换F(y),y∗表示复数y的复共轭,ʘ表示Hadamard积。

对于检测过程,我们裁剪搜索补丁并获得新帧中的特征ϕ(z),可以通过搜索相关响应图g的最大值来估计翻译,有关更多详细信息,请参见[8]:

3、2DCFNet推导:反向传播

传统的基于DCF的跟踪器只能对超参数进行启发式调整,而我们对超参数和特征提取参数可以同时进行调整。如图1所示,该网络是通过将特征提取器与DCF模块级联以获得目标位置的响应来实现的。考虑到搜索补丁ϕ(z)的特征,所期望的响应g应在真实位置处获得高响应。目标函数可以表述为:

应该加入一个显式的正则化,否则目标将获得一个非收敛条件。我们在常规参数优化中使用权重衰减法来隐含此正则化。此外,为了限制特征映射值的大小并提高训练过程的稳定性,我们在卷积层的末尾添加了一个LRN层。

现在,让我们得出反向公式。为简单起见,我们从开始。链规则有点复杂,因为中间变量是复数值变量。根据[29],离散傅里叶变换和离散傅里叶逆变换的梯度表示为:

由于前向遍历中的操作仅包含Hadamard乘积和除法,因此我们可以计算派生每个元素:

对于检测分支的反向传播,

对于学习分支的反向传播,将和视为自变量。

一旦误差被反向传播到真实值特征映射,其余的反向传播可以作为传统的CNN优化进行处理。由于相关滤波层中反向传播的所有运算仍是傅立叶频域中的Hadamard运算,因此可以保留DCF的效率属性,并将离线训练应用于大规模数据集。离线训练完成后,我们将获得一个量身定制的特征提取器,用于在线DCF跟踪。

在线跟踪期间,我们只是随时间更新滤波器w。式(1)中的优化问题可以用增量方式表示为[19]。

参数是样本的影响。

同时,等式(2)中的闭式解决方案可以扩展到时间序列。

此增量更新的优势在于,我们不必维护一个大的样本集,而只需要很小的内存。此外,在线跟踪过程中的DCFNet可以被视为RNN网络,如图2所示。

图2:DCFNet的在线跟踪过程。的分子和分母被循环向前传播并更新为等式(13)。

4、实验内容

在本节中,我们对OTB[1,2]和VOT2015[3]上的网络架构进行了深入的分析,结果表明端到端学习可以显著提高性能以及我们的DCFNet可以在准确性和速度之间取得很好的平衡。

4、1实施细节

我们轻量级网络的卷积层(仅75KB)由VGG[14]的conv1组成,其中删除了所有池化层,并将输出强制为32个通道。我们的培训视频来自NUS-PRO[30],TempleColor128[31]和UAV123[32],但不包括与测试集重叠的视频,因此总共有166643帧。对于每个视频,我们在最近的10帧内选择每对帧,并将裁剪后的1.5倍填充大小的目标块对馈送到网络中,从而形成总共1,651,360对。裁剪后的输入尺寸调整为125×125。我们应用动量为0.9的随机梯度下降(SGD)从头开始训练网络,并将权重衰减γ设置为0.0005,学习率设置为1e-5。该模型以最小批量尺寸为16训练了20个时期。

对于相关滤波器层中的超参数,我们将在线学习率βt固定为0.008。对于在线跟踪和离线训练,正则化系数λ设置为1e-4,高斯空间带宽设置为0.1。类似于[33],我们使用带有比例因子的面锥金字塔。所提出的DCFNet是在MATLAB中使用MatConvNet[34]实现的。所有实验均在配备2.4GHz的IntelXeon2630和单个NVIDIAGeForceGTX1080GPU的工作站上进行。该代码可从以下网址获得:https://github.com/foolwood/DCFNet。

4、2实验分析

在本节中,我们首先根据网络体系结构和影响DCFNet的比例等级数量执行消融分析。然后,我们将DCFNet与其他基于相关滤波器的跟踪器和几种基于CNN的最新跟踪器进行比较。

数据集。OTB[1、2]是视觉跟踪的标准基准,其中包含100个带有11个不同属性的完全注释目标。我们遵循OTB协议,并根据成功图和精确图报告结果进行评估。成功图显示重叠分数超过阈值的帧的百分比;精度图显示中心位置误差在阈值内的帧的百分比。VOT挑战赛[3]是跟踪领域中最具影响力和规模最大的年度赛事之一。在VOT2015[3]中,引入了一种称为“预期平均重叠”(EAO)的新措施,可以定量分析短期跟踪的性能。

消融研究。我们在OTB2013上进行了消融研究。从网络架构的角度证明,随着卷积层的深入,训练参数的数量和接收场逐渐增加。从表2中可以看出,与更深层次的conv2相比,仅使用conv1的DCFNet获得了更好的性能,这可能不符合我们的直觉。可能是因为我们仅有274个对象的训练集不足以从头开始训练更深的conv2。为了更好地了解此观察结果,我们使用了膨胀卷积的conv1对DCFNET进行修正,使其近似更深的conv2接受场。这个带有少量参数的新变量还比更深的conv2更好,甚至在CLE指标下也优于原始的conv1。

就比例级别的数量而言,我们测试了另外3个设置(S=1、5、7),发现3层设计在性能和跟踪速度之间取得了很好的平衡。

DCFNET:用于视觉跟踪的判别相关滤波器网络相关推荐

  1. 四川大学计算机学院卢莉,四川大学卢莉等 | 用于视频跟踪的非对称判别相关滤波器...

    原标题:四川大学卢莉等 | 用于视频跟踪的非对称判别相关滤波器 判别相关滤波器(DCF)是视频跟踪领域一种有效方法,显著推动了视频跟踪领域进展.然而,卷积算子的对称性会带来计算上的问题,并破坏广义的平 ...

  2. Learning a Deep Compact Image Representation for Visual Tracking 学习用于视觉跟踪的深度紧凑图像表示

    原文链接 摘要 在本文中,我们研究了跟踪可能非常复杂背景的视频中运动物体轨迹的挑战性问题.与大多数仅在线学习跟踪对象外观的现有跟踪器相比,我们采用不同的方法,受深度学习架构的最新进展的启发,更加强调( ...

  3. ICCV2021 | 用于视觉跟踪的学习时空型transformer

    前言  本文介绍了一个端到端的用于视觉跟踪的transformer模型,它能够捕获视频序列中空间和时间信息的全局特征依赖关系.在五个具有挑战性的短期和长期基准上实现了SOTA性能,具有实时性,比Sia ...

  4. 【CV】SiamFC:用于目标跟踪的全卷积孪生网络

    论文名称:Fully-Convolutional Siamese Networks for Object Tracking 论文下载:https://arxiv.org/abs/1605.07648 ...

  5. 关于DCF(判别相关滤波器)的闭式解详细推导

    论文题目:High-Speed Tracking with Kernelized Correlation Filters 作者主页:ht://wtpww.robots.ox.ac.uk/~joao/c ...

  6. MDNet(multi domain CNN用于视觉跟踪)--源代码详解--mdnet_features_fcX.m

    该函数,输入全连接网络的网络参数.卷积层网络的输出,计算全连接网络的计算结果,源文件如下: function [ feat ] = mdnet_features_fcX(net, ims, opts) ...

  7. 【目标跟踪 SOT】SiamFC -用于对象跟踪的全卷积孪生网络

    SiamFC - 全卷积孪生网络 $背景知识 SOT(单目标跟踪)和MOT(多目标跟踪)的思想是,在视频中的某一帧中框出你需要跟踪目标的bounding box,在后续的视频帧中,无需你再检测出物体的 ...

  8. SiamFC:用于目标跟踪的全卷积孪生网络 fully-convolutional siamese networks for object tracking

    原文链接 SiamFC网络 图中z代表的是模板图像,算法中使用的是第一帧的ground truth:x代表的是search region,代表在后面的待跟踪帧中的候选框搜索区域:ϕ代表的是一种特征映射 ...

  9. 用核化的相关滤波器来高速跟踪

    原文来自 Joao F. Henriques 等人的"High-Speed Tracking with Kernelized Correlation Filters",原工作见12 ...

  10. 商汤科技 中科院自动化所:视觉跟踪之端到端的光流相关滤波 | CVPR 2018

    作者丨朱政 学校丨中科院自动化所博士生 单位丨商汤科技 研究方向丨视觉目标跟踪及其在机器人中的应用 本文主要介绍我们发表于 CVPR 2018 上的一篇文章:一种端到端的光流相关滤波跟踪算法.据我们所 ...

最新文章

  1. SVO 学习笔记(深度滤波)
  2. 表格行与列边框样式处理的原理分析及实战应用
  3. EasyUI学习总结(五)——EasyUI组件使用
  4. jquery判断页面、图片是否加载完成
  5. python里graphics的使用_使用graphics.py实现2048小游戏
  6. 树上倍增一些理解和写法
  7. 【 Grey Hack 】反向Shell
  8. 系统学习NLP(十五)--seq2seq
  9. ITK简介与ITK Pipeline
  10. Searchmonkey 0.8.0
  11. 微信小程序 云开发 生成带参数小程序二维码
  12. 企业运维实战--k8s学习笔记.k8s容器资源限制 Metrics-Server部署 图形化监控Dashboard部署 K9S的安装
  13. ArcGIS分享: 地图分幅及编号
  14. MatLAB从背景单一、物体相对简单且相互分离的图片中求其照片中物体的最小外接圆圆心、半径,并画出最小外接圆
  15. Excel自动填充功能
  16. 如何使用Google的Draco项目
  17. python海龟怎样写字又快又好看_python海龟画图
  18. CMMI-配置管理(CM)
  19. sheetJS+input——实现vue导入excel文件,并判断文件内容是否正确——基础积累
  20. df.pivot函数用法

热门文章

  1. 关于速算:2^n,2的各个阶乘的记忆方法
  2. matlab生成vcf,从VCF文件中提取样本数据
  3. 不可不知的设计师接活报价公式
  4. 【论文阅读】Are We Ready For Learned Cardinality Estimation?
  5. 电信猫的无线无法连接服务器,光纤猫连接路由器无法上网怎么办
  6. HTML,CSS中的复合写法总结
  7. 什么是java full gc_关于Java垃圾回收,你必须要知道FullGC是什么
  8. C#金额转大写的方法
  9. android 渐变蒙版_css3 渐变、蒙版
  10. tensorboard 可视化 projector