【论文阅读】Graph Networks for Multiple Object Tracking

1、引言

受文献[3]的启发，我们提出了一种基于两个端到端图网络的近在线MOT方法，该方法提供了一种新的基本图网络框架。我们根据MOT问题的特点，精心设计了自己的图网络。对于两个分别处理外观和运动的端到端图网络，我们设计了四个更新模块来获取对象之间的相似度和关联检测。具体来说，它包含一个节点更新模块、一个全局变量更新模块和两个边缘更新模块。事实上，更新机制包含了图网络的推理。此外，它还可以通过长期跟踪保存节点的历史信息。最后，针对探测器存在的缺陷，提出了两种处理漏检的策略。它包括单目标跟踪(SOT)策略和检测恢复策略。我们的方法在MOT16和MOT17基准上都进行了测试，实验结果显示了令人鼓舞的性能。据我们所知，这是第一篇将图网络应用于MOT问题的论文。本文的主要贡献如下：(1)提出了一种基于端到端图网络框架的近在线MOT方法，并提出了相应的缺失检测策略。(2)在我们的图网络中精心设计了更新机制，允许对图网络进行推理。

2、相关工作

多目标跟踪：在最近的研究中，许多现有的MOT方法都遵循检测跟踪策略，即先运行一个检测器，然后再关联这些检测来解决MOT问题。这些方法可以分为离线方法、在线方法和近在线方法。离线方法利用整个序列的检测，然后进行全局优化，包括图优化方法[48,29,4,5,6]和层次方法[47,41,42,32,25]。相比之下，在线方法只使用当前帧和前一帧的检测。近年来，在线MOT将MOT问题看作是被跟踪对象与检测对象之间的数据关联问题。关键是要评估每个跟踪对象之间的相似性和每个检测通过使用不同的网络(如复发性神经网络(27日,12日,33岁,49岁,16]和强化学习[43岁,30])和不同的机制(如注意力机制(10,49岁,16)和单一对象跟踪机制预处理[10,49])。最近，一些近似在线MOT的方法被提出，它们类似于在线MOT方法，但允许在最近的帧中重新关联对象。Choi[8]提出了一种聚合局部流描述符，为关联提供鲁棒的相似度量。

3、问题建模

3.1、标记

以下概念是在帧t时刻下定义的：

3.2、整体流程

特征提取：首先，从目标和检测对象中提取外观特征和运动特征。具体来说，从卷积神经网络(CNN)中提取外观特征。运动特征是一个6维矢量，包括左上角的二维坐标、宽度、高度和物体/检测的二维速度，它是由检测到的物体与目标之间的位移计算而来的。

图网络：然后，图网络推断每个目标之间的相似性和每个检测。每个节点都与对象/检测的特征相关联并且每条连接对象和检测的边都与它们的相似度评分相关联。

数据关联：这个过程输出对象和检测之间的关联。匈牙利算法用于寻找最优分配。注意，文中放弃了那些物体在空间上远离检测的关联。

处理丢失的检测：在数据关联过程之后，仍然有一些缺失的检测。对于当前帧中丢失的对象，使用SOT策略跟踪当前帧中丢失的对象，并通过SOT将其与恢复的高置信度边框关联起来。对于那些已经错过了一段时间的检测，我们使用检测恢复策略，它应用线性运动模型来恢复那些错过的检测。

4、图网络

公式1中对应的代价函数可以被下式计算：

其中AGN(·)和MGN(·)分别表示外观图网络和运动图网络，如图4所示。α是超参数。faoi和fadj分别为目标oi和检测dj的外观特征，fmoi和fmdj分别为oi和dj的运动特征。

4.1、准备工作

Battagli等人总结近期相关工作里关于图网络的内容并提出了一个新的基准图网络(GN)框架，这是类似于图4 (a)但没有阶段A部分，GN的计算单位是GN块，将图像作为输入，计算结构，输出一个更新的图。在计算过程中，节点、边和全局变量依次更新。请注意，更新顺序可以根据任务的要求进行调整。受文献[3]的启发，我们提出了两个端到端的图网络来解决MOT问题。在介绍这两个图网络之前，我们首先描述整个图网络。

4.2、图网络的结构

根据MOT的特点，精心设计了MOT的图网络和更新顺序。我们设计了一个4步图网络，将边缘更新模块移动到[3]结构的末端，原因是没有节点和全局变量的GT值，所以这个网络在更新节点和全局变量时只受edges监督。与此同时，首先应该增加一个边缘更新模块来更新边缘，因为节点更新模块依赖于更新的边缘，而不是初始化的边缘。因此，我们设计了如下图网络结构，它包含四个模块，包括：

(A)边更新模块Iφe，

(B)节点更新模块φv，

(C)全局更新模块φu，

(D)边更新模块IIψe，

如图4 (a)所示。

将V和E分别记为节点集和边缘集，每个节点用一个特征来表示。这里：

其中vs p表示第p个物体，vqr表示第q次检测，ek表示第k条边/一个物体与一次检测的关系。K = |Ot|X|Dt|为检测对象对总数。另外，期望全局变量u对所有对象、检测和任务状态的信息进行编码，此外，更新全局变量需要考虑所有节点和边。因此，使用两个聚合函数ρv u和ρe u分别对所有节点和所有边进行聚合。

A、边缘更新模块I：输入是目标节点、检测节点、边缘和全局变量。输出是更新后的边缘。为简单起见，我们将ek连接的对象节点和检测节点分别表示为vks和vkr。然后，可以计算更新后的边ek：

其中NNφ(·)是一个神经网络，其结构由两个完全连通的(FC)层和中间有Leaky ReLU函数组成。输入特征被连接并发送到NNφ(·)。

B、节点更新模块：该模块将历史特征合并到检测节点中。输入是目标节点、检测节点、更新后的边缘和全局变量。输出为更新后的检测节点。更新后的检测节点v标识kr可以通过下面的式子计算：其中NNφ(·)与模块(A)结构相同。

C、全局更新模块：输入是全局变量、聚合节点和聚合边。输出是更新后的全局变量。我们聚合所有的对象和检测节点以及所有更新的边。表示V为聚集节点，E为聚集边缘。这些聚合的特征可以通过下面的式子计算：

这个聚合过程考虑所有关联。V和E随后将被发送到全局更新模块中，连同原始的全局变量。因此，可以计算更新后的全局变量u：

其中NNφ(·)与模块(A)结构相同。

D、边缘更新模块II：输入是对象节点、更新的检测节点、更新的边缘和更新的全局变量。输出是最后一条边。最后的边缘e ~ k可以通过计算：

其中NNψ(·)与模(A)具有相似的结构，只是在最后一个FC层之后增加了一个softmax层得到相似度分数。

4.3、外观图网络

外观图网络测量每个对象和每个检测对象之间的外观相似性。输入为所有对象和所有检测的外观特征，输出为所有对象-检测对的相似度得分。外观特征使用来自上一个时间step的更新检测外观特征，因为它在每个时间step更新。注意，这些更新的节点在每个时间步保持轨迹信息。

为了获得鲁棒的外观相似度，我们设计了4步图网络，如图4 (a)所示。将每条输出边视为外观相似度，在公式3中表示为AGN(·)。

4.4、运动图网络

运动图网络测量每个对象和每个检测之间的运动相似度。输入是所有物体和所有检测的运动特征，输出是所有物体-检测对的相似度得分。如第3.2节所述，物体的速度是根据轨迹估计的，因此不需要更新节点。因此，我们设计了一个与外观图网络相似的结构，但去掉了第一个边缘更新模块和节点更新模块，如图4 (b)所示。将每条输出边缘视为运动相似度，在公式3中表示为MGN(·)。

4.4、训练策略

我们使用一种在线策略来训练这两个图网络，以便在训练时顺序选择帧。为了训练外观图网络，我们设计了两步训练策略。首先，对边缘更新模块I进行训练，直到收敛。然后，对后三个模块进行训练。对于运动图网络的训练，我们直接对整个网络进行训练。

文中用交叉熵损失来训练图网络。此外，我们为节点更新模块设计了一个节点开销。如果对象检测对属于同一人，则更新检测节点。否则，希望检测节点保持不变。定义L为最终的训练损失函数，它可以被定义为：

其中，Lc表示交叉熵损失，LN表示节点更新的代价，λ设为1，可以调节LN的权重。这里，LC可以被下列公式计算：

其中p表征每个对象与每次检测的GT关联，p = 1表示该检测与该对象相关联，p = 0表示相反，p表示预测的p。边缘更新模块I和边缘更新模块II也应用LC损失函数。另外，节点代码LN被定义为下面的式子：

其中v表示检测节点的原始特征，v_表示更新后的v，MSE（*）表示均方误差函数。

5、实验部分

5.1、数据集和评价指标

MOTChallenge是一个公共的MOT基准平台，许多最先进的方法都用该基准来检测性能。具体来说，MOT16和MOT17是MOTChallenge中最受欢迎的基准。这两个基准包含相同的序列，包括7个训练序列和7个测试序列与人群场景，不同的视点和相机运动。这两个基准的不同之处是，MOT16只提供DPM检测器的检测结果，而MOT17提供DPM、Faster R-CNN和SDP三种不同检测器的检测结果。此外，MOT17为所有序列提供了更准确的ground truth。

此外，还建立了消融实验和超参数调整的验证集。具体来说，我们将每个训练序列从MOT17分成两个部分，命名为集合A(前4/5帧)和集合B(后1/5帧)。我们使用集合A作为训练集，集合B作为验证集。在测试过程中，我们使用来自MOT17数据集的所有训练序列来训练模型。

我们使用文献[23]中提出的指标来评估MOT性能，包括MOTA (MOT精度)、MOTP (MOT精度)、IDF1 (ID F1-Measure)、MT(主要跟踪目标百分比)、ML(主要丢失目标百分比)、FP(假阳性)、FN(假阴性)、IDS(身份切换)和FM (碎片)。MOTA是最重要的度量，因为它结合了FP、FN和IDS。

5.2、实现细节

所有的实验都是在Intel 3.6GHz CPU和NVIDIA GTX 1070 GPU的Linux上进行的。

网络细节：输入图像首先调整为224x224。然后，使用预先训练好的ResNet-34进行外观特征提取。每个更新模块的FC层大小设置为256，Leaky ReLU中的负斜率设置为10-2。全局变量在0到1之间随机初始化，其大小设置为100。边缘特征用对象与检测的并集相交(IoU)进行初始化，其大小设为2。将外观特征的大小设置为512，运动特征的大小设置为6。在公式3中，根据验证集的结果，我们设α= 0.3，选取α在0.1-0.9之间，步长为0.1。

训练细节：我们使用Adam优化器训练外观图网络和运动图网络。对外观和运动图网络分别设置学习率为10_5和5x10_4。采用批量训练策略，我们将批量大小设为8。为了模拟真实检测器的检测结果，我们随机抽取GT值周围的包围框，它与GT有很大的IOU。设样本盒与ground truth之间的IoU为0.85。

遮挡处理：当对象大部分被遮挡时，很容易丢失，当对象稍后重新出现时，ID切换可能发生。为了应对这样的挑战，我们从当前帧中存储那些丢失的对象，并在接下来的时间步骤中将它们与检测联系起来。因此，前一帧中缺失的对象被同等地视为当前帧中的对象，并被发送到图网络中。考虑到计算效率，如果对象丢失超过25帧，则将其从图网络中删除。从直觉上看，当丢失的对象被长时间忽略时，将那些丢失的对象与检测联系起来的概率应该会降低。因此，我们通过F(oi, dj) = F(oi, dj)xηt1来更新丢失对象的代价函数，其中t是丢失对象与检测之间的时间间隔。根据验证集的结果，η被设置为1.3，其中η从1.1到1.9，步长为0.1。F(oi, dj)将取代公式1中的F(oi, dj)。

丢失的检测处理：在3.2节中描述了两种处理缺失检测的策略。首先，我们将SOT[50]用于当前帧没有任何检测的对象。为了保持SOT结果的鲁棒性，我们放弃了置信度小于0.98的SOT预测。对于检测恢复策略，我们恢复那些在16帧内被遗漏的检测。

5.3、MOT16、MOT17上的结果

由于检测结果对跟踪性能的影响很大，我们在MOT16上用一个更好的检测POI[46]来评估我们的方法。为了消除SOT对我们方法的影响，我们在没有SOT的情况下对我们的方法进行评估。如表1所示，在进行了POI检测后，我们的方法比在MOT16上进行公共检测的方法性能更好。因此，检测越好，我们的方法执行得就越好。

5.4、消融实验

文中进行了三项消融研究。第一个是说明为什么我们选择不同的网络作为外观图网络和运动图网络；第二个是证明了全局变量的有效性；第三个是验证了节点成本LN的有效性。注意，我们在验证集上进行这些实验。首先，我们表示如下几个模型：

A：具有阶段C和阶段D的外观图网络。

A*：图网具有所有四个阶段。

A*/g：没有全局变量的A*。

M：具有阶段C和阶段D的运动图网络。

M/g：M没有全局变量。

A*+M：我们的方法(代价由公式3计算)。

A*/g+M/g-A*+M：不带全局变量。

(1)图网的有效性：表3给出了A、A*和m三种模型的结果，可以看出A*的性能优于A，这说明A*中的节点更新模块很可能捕捉到长期线索来更新对象的外观特征。具体来说，A*在IDF1上比A提高了1.5，FP和IDS都比A好，因此我们选择A*作为我们的外观图网络。

此外，我们可以看到M在MOTA上的表现都优于A*和A，这说明运动图网络比外观图网络更有效。我们发现有一些ID切换的情况只能通过外观图网络来处理，也有一些只能通过运动图网络来处理。图5 (a)- (c)给出了图网络的有效性。ID = 1是闭塞的人被另一个人(一个)。由于这些人的类似的运动,它漂浮的白色衣服的女人(c)的运动图网络。然而,它可以被看作是一个缺少对象的外观图网络(b)。图5 (d)-(f)显示运动图像网络的有效性。由于ID=2和ID=3的人在(d)中的着装相似，用(e)中的外观图网络很难区分他们，但是可以用(f)中的运动图网络进行处理，所以这两个网络是互补的。更多的结果在补充材料中提供。

此外，我们目前的方法将外观线索和动作线索结合在一起，采用加权策略，其代价由公式3计算。参数α设置为0.3(小于0.5)，表明在我们的方法中，运动线索比外观线索更重要。