改进轨迹的行动识别

摘要：最近，密集轨迹被证明是用于动作识别的有效视频表示，并且在各种数据集上实现了最先进的结果。本论文通过考虑相机的运动来纠正它们，从而改善了它们的性能。为了估计相机运动，我们使用SURF描述符和密集光流来匹配帧之间的特征点，这些特征点被证明是互补的。然后，这些匹配用于使用RANSAC稳健地估计单应性。人体运动通常与相机运动不同，并产生不一致的匹配。为了改进估计，使用人类检测器来移除这些匹配。鉴于估计的相机运动，我们删除与其一致的轨迹。我们还使用此估计来抵消来自光流的相机运动。这显著地改善了基于运动的描述符，例如HOF和MBH。四个具有挑战性的动作数据集（即Hol-lywood2，HMDB51，Olympic Sports和UCF50）的实验结果显著地优于当前的技术水平。

1、介绍

三十多年来，行动识别一直是一个活跃的研究领域。最近的研究重点是从电影[20,22]，网络视频[21,31]，电视节目[28]等收集的真实数据集。这些数据集对动作识别提出了重大挑战，例如背景杂乱，快速不规则运动，遮挡，视角的变化。局部时空特征[7,19]在这些数据集上表现成功，因为它们避免了非平凡的预处理步骤，例如跟踪或分割。这些局部特征的特征包可以直接用于动作分类，并实现最先进的性能（参见最近的一项调查[1]）。
许多经典图像特征已被推广到视频，例如3D-SIFT [33]，扩展SURF [41]，HOG3D [16]和局部三元模式[43]。在局部时空特征中，密集轨迹[40]已被证明在各种数据集上表现最佳。主要思想是在每个帧中对特征点进行密集采样，并根据光流在视频中跟踪它们。沿着特征点的轨迹计算多个描述符以捕获形状，外观和运动信息。有趣的是，运动边界直方图（MBH）[6]由于其对相机运动的鲁棒性而给出了最佳结果。

MBH基于光流的衍生物，这是一种抑制相机运动的简单而有效的方法。然而，我们认为我们仍然可以从显式摄像机运动估计中受益。相机运动在逼真视频中在背景中生成许多不相关的轨迹。如果我们知道相机的运动，我们可以修剪它们，只保留人类或感兴趣物体的轨迹（见图1）。此外，考虑到摄像机的运动，我们可以校正光学流动，使人类运动的运动矢量与摄像机运动无关。这改善了基于光学流动的运动描述符的性能，例如，HOF（光学流动的直方图）和MBH。我们在图1的中间两行中说明了原始和校正的光学流动之间的差异。

当移除用于动作识别的特征轨迹时，很少有方法考虑相机运动。 Uemura等[38]将特征匹配与图像分割相结合，以估计主要的摄像机运动，然后将特征轨迹与背景分开。吴等人。 [42]应用低秩假设将特征轨迹分解为相机引发的和物体引起的分量。最近，Park等人。 [27]执行弱稳定以使用粗尺度光流重新移动相机和以物体为中心的运动，用于行人检测和视频中的姿态估计。 Jain等人。 [14]将视觉运动分解为主要运动和残余运动，以提取轨迹和计算描述符。
在改善密集轨迹的方法中，Vig等人。 [39]建议使用显着性映射算法来修剪背景特征。这样可以实现更紧凑的视频表现，并提高动作识别的准确性。江等人。 [15]聚类密集轨迹，并使用聚类中心作为参考点，以便可以建模它们之间的关系。
本文的其余部分安排如下。在第2节中，我们详细介绍了我们的相机运动估计方法，并讨论了如何消除人类不一致的匹配。实验设置和评估协议在第3节中解释，实验结果在第4节中解释。计算改进轨迹和描述符的代码可在线获得。

2. 改善密集轨迹

在本节中，我们首先描述了我们的相机运动估计方法的主要步骤，以及如何使用它来改善密集轨迹。然后，我们讨论如何基于人类去除可能不一致的匹配以获得稳健的单应性估计。

2.1 相机运动估计

为了估计全局背景运动，我们假设两个连续的帧通过同形物相关[37]。在大多数情况下，这种假设成立，因为两帧之间的全局运动通常很小。它排除了独立移动的物体，例如人类和车辆。
为了估计单应性，第一步是找到两帧之间的对应关系。我们结合两个approaches以产生足够的和互补的候选匹配。我们提取SURF [3]特征并根据最近邻规则进行匹配。选择SURF特征的原因是它们对运动模糊的鲁棒性，如最近的评估[13]所示。

我们还从光学流中采样运动矢量，这为我们提供了帧之间的密集匹配。在这里，我们使用基于多项式展开的高效光学流算法[8]。我们使用良好特征到轨道的标准[35]选择显着特征点的运动矢量，即阈值化自相关矩阵的最小特征值。

这两种方法是互补的。 SURF侧重于斑点型结构，而[35]则侧重于角落和边缘。图2显示了不同颜色的两种匹配类型。将它们组合使得匹配点的分布更均衡，这对于良好的单应性估计是至关重要的。

然后，我们使用RANSAC强有力地估计单应性[11]。这允许我们纠正图像以重新移动相机运动。图1（中间两行）显示了整流前后光学流动的差异。与原始流动（图1的第二行）相比，整形版本（第三行）抑制了背景相机运动并增强了前景移动物体。
对于密集轨迹，从光学流中消除相机运动有两个主要优点。首先，运动描述符可以直接从中获益。如[40]所示，在存在相机运动的情况下，HOF描述符的性能显着下降。我们的实验结果（见4.1节）表明，当我们有正确的前景光学流时，HOF可以达到与MBH相似的性能。 HOF和MBH的组合可以进一步改善结果，因为它们表示零阶（HOF）和一阶（MBH）运动信息。
其次，我们可以移除相机运动产生的轨迹。这可以通过对翘曲流场中轨迹的位移矢量进行阈值处理来实现。如果位移太小，则轨迹被认为与摄像机运动太相似，因此被移除。图3显示了移除的背景轨迹的示例。我们的方法在各种相机运动（例如，平移，倾斜和变焦）下工作良好，并且仅保留与人类动作相关的轨迹（在图3中以绿色示出）。这给我们提供了与基于视觉显着图的采样特征类似的效果[23,39]。
图3的最后一行显示了两种故障情况。左边是由于严重的运动模糊，这使得SURF描述符匹配和光流估计都不可靠。在存在运动模糊的情况下改进运动估计值得进一步关注，因为模糊通常发生在现实数据集中。在右边所示的例子中，人类支配着框架，导致单应性估计失败。我们将在下一节讨论此类案例的解决方案。

2.2 删除因人类而导致的不一致匹配

在动作数据集中，视频通常关注于形成动作的人类。结果，人类在框架中占主导地位是非常普遍的，这可能是凸轮时间运动估计的问题，因为人体运动通常与其不一致。我们建议使用人体探测器去除人类区域的匹配。通常，动作数据集中的人体检测相当困难，因为当人员执行动作时存在戏剧性的姿势变化。此外，由于闭塞或部分不在视野范围内，该人只能部分可见。

在这里，我们应用了最先进的人体探测器[30]，它使基于通用部件的人体探测器[9]适应动作数据集。探测器结合了几个专用于人体不同区域的部分探测器（包括全人，上身和面部）。它使用PASCAL VOC07训练数据进行训练，这些数据来自人类以及近前上半身[10]。图4，第三列，显示了人体检测结果的一些例子。

我们使用人体探测器作为掩模，在估计血管造影时去除边界框内的特征匹配。如果没有人类检测（图4的左侧两列），移动人类的许多特征将成为内部匹配，因此单应性是不正确的。结果，相应的光学流动没有被正确地翘曲。相比之下，当使用人类边界框来移除与摄像机运动无关的匹配时，摄像机运动被成功补偿（图4的右侧两列）。图4的最后一行显示了故障情况。尽管正确地检测到人类，但是单应性并不能很好地检测背景，因为背景由两个平面表示，其中一个平面非常靠近相机。在4.3节中，我们比较了有无人体检测的动作识别的性能。

人体探测器并不总能完美地工作。由于姿势或视点的变化，它可能会错过人类。为了补偿缺失的检测，我们跟踪人体检测器获得的所有边界框。对于视频的每个帧，前向和后向执行跟踪。我们的方法很简单，即我们采用平均流向量[8]并将检测传播到下一帧。我们跟踪每个边界框最多15帧，如果与另一个边界框重叠50％则停止。所有的人类边界框都可以在线获得.1在下文中，除非另有说明，否则我们总是使用人体探测器去除可能的计算同一性之前的不一致匹配。

3. 实验装置

在本节中，我们首先介绍了轨迹特征的实现细节。然后，我们介绍我们评估中使用的特征编码。最后，介绍了数据集和实验设置。

3.1 轨迹特征

我们首先简要描述了密集的轨迹特征[40]，它们在我们的实验中被用作基线。该方法密集地采样几个空间尺度的点。均匀区域中的点被抑制，因为不可能可靠地跟踪它们。跟踪点是通过密集光流场中的中值滤波来实现的[8]。为了避免漂移，我们仅跟踪15帧的特征点并采样新点以替换它们。我们删除静态特征轨迹，因为它们不包含运动信息，也可以修剪具有突然大位移的轨迹。

对于每个轨迹，我们计算几个描述符（即，轨迹，HOG，HOF和MBH），其具有与[40]完全相同的参数。轨迹描述符是归一化位移矢量的串联。其他描述符在与轨迹对齐的时空体积中计算。 HOG基于图像梯度的方向并捕获静态外观信息。 HOF和MBH都测量运动信息，并且基于光学流动。 HOF直接量化流向量的方向。 MBH将光流分成水平和垂直分量，并量化每个分量的导数。描述符的最终尺寸为Trajectory为30，HOG为96，HOF为108，MBH为192。

为了标准化基于直方图的描述符，即HOG，HOF和MBH，我们应用最近的RootSIFT [2]方法，即在L1正常化之后每个维度的平方根。我们不像[40]那样执行L2归一化。这为基于直方图的描述符带来了约0.5％的改进。我们在所有实验中都使用了这种规范化。

为了提取我们改进的轨迹，我们以与[40]完全相同的方式对特征点进行采样和跟踪，见上文。为了计算描述符，我们首先使用在两个连续帧之间提取的特征匹配来估计与RANSAC的同形; 检测到的人类的匹配被删除。然后，我们用估计的单应性扭曲第二帧。在第一帧和第二帧之间重新计算光学流[8]。在翘曲的光学流上计算运动描述符（HOF和MBH）。 HOG描述符保持不变。我们估计每两帧的单应性和翘曲光流以避免误差传播。我们使用与基线中相同的参数和RootSIFT标准化。

还基于翘曲流的运动矢量来计算轨迹描述符。我们进一步利用这些稳定的运动矢量来消除背景轨迹。对于每个轨迹，我们计算它们的最大幅度。如果最大幅度低于阈值（即，1个像素），则认为轨迹与相机运动一致，并因此被移除。

3.2 特征编码

为了编码功能，我们使用功能袋和Fisher矢量。对于功能包，我们使用相同的设置[40]。我们使用具有k-means的100,000个随机采样特征来训练每个描述符类型的码本。码本的大小设置为4000.使用具有RBF-χ2内核的SVM进行分类，并且通过将由其平均距离归一化的核矩阵求和来组合不同的描述符类型。
与特征包不同，Fisher矢量[29]编码视频描述符和高斯混合模型（GMM）之间的一阶和二阶统计量。在最近的评估[5,26]中，这显示了针对图像和动作分类的一系列功能的改进性能。与特征包编码不同，我们首先使用Prin-cipal Component Analysis（PCA）将描述符维度减少两倍，如[29]中所述。我们将高斯数设置为K = 256，并从训练集中随机抽取256,000个特征的子集来估计GMM。然后，每个视频由每个描述符类型的2DK di-manional Fisher矢量表示，其中D是执行PCA之后的描述符维度。最后，我们将功率和L2归一化应用于Fisher矢量，如[29]。为了组合不同的描述符类型，我们将它们的归一化Fisher向量相结合。线性SVM用于分类。

在所有实验中，对于SVM，我们确定C = 100，这在验证训练样本的子集时显示出良好的结果。在多类分类的情况下，我们使用一对一休息方法并选择得分最高的类。在下文中，除非另有说明，否则我们使用Fisher矢量编码，因为它会产生更好的性能，请参阅第4.2节。

译：Action Recognition with Improved Trajectories相关推荐

译：Convolutional Two-Stream Network Fusion for Video Action Recognition
这是双流神经网络的改进版,接下来会出他的读书笔记. 摘要:近年来,卷积神经网络(卷积神经网络)对视频中人类行为识别的应用提出了不同的解决方案,用于整合外观和运动信息.为了更好地利用 ...
译：Two-stream convolutional networks for action recognition in videos
该篇文章为视频识别十分经典的一篇论文也是入门文章,开创了比较经典的双流(时间流+空间流)神经网络,本人发现很多大神博主翻译的论文不是特别完整,故按照原文与个人理解整理完整翻译见下. 摘要:我们研究了用 ...
Action recognition进展介绍
原文地址:http://blog.csdn.net/wzmsltw/article/details/70239000 随着深度学习技术的发展,以及计算能力的进步(GPU等),现在基于视频的研究领域越来 ...
视频人员行为识别（Action Recognition）
一. 提出背景目标:给定一段视频,通过分析,得到里面人员的动作行为. 问题:可以定义为一个分类问题,通过对预定的样本进行分类训练,解决一个输入视频的多分类问题. 这里提出的问题是简单的图片(视频)分 ...
Action Recognition(行为识别)
随着深度学习技术的发展,以及计算能力的进步(GPU等),现在基于视频的研究领域越来越受到重视.视频与图片最大的不同在于视频还包含了时序上的信息,此外需要的计算量通常也大很多.目前主要在做视频中动作定位 ...
【论文模型讲解】Two-Stream Convolutional Networks for Action Recognition in Videos
文章目录前言 0 摘要 1 Introduction 1.1 相关工作 2 用于视频识别的双流结构 3 光流卷积神经网络(时间流) 3.1 ConvNet 输入配置 4 实现细节 4.1 测试 4. ...
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition(时间段网络：使用深度行为识别的良好实现)
本文的原作者为Limin Wang等人原文地址 #摘要深度卷积网络在静止图像中的视觉识别方面取得了巨大成功.然而,对于视频中的动作识别,优于传统方法的优势并不明显.本文旨在探索为视频中的动作识别设计 ...
《Long-Term Temporal Convolutions for Action Recognition》论文翻译
翻译,论文原文来自PAMI官方网站,原文链接翻译人: 翻译时间:2018年6月10日14:39:18 并标记了一些重点. 目录作者摘要关键词介绍相关工作长时期卷积网络架构网络输入学 ...
[论文阅读笔记]Two-Stream Convolutional Networks for Action Recognition in Videos
Karen Simonyan Andrew Zisserman Visual Geometry Group, University of Oxford fkaren,azg@robots.ox.a ...

译：Action Recognition with Improved Trajectories