论文阅读_Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition

Abstract

人体骨架动力学为人体动作识别提供了重要信息。传统的骨架建模方法通常依赖于手工制作的部件或遍历规则，从而导致表达能力有限和泛化困难。在这项工作中，我们提出了一种新的动态骨架模型，称为时空图卷积网络(ST-GCN)，它超越了以往方法的限制，自动学习数据的时空模式。该公式不仅具有较强的表达能力，而且具有较强的泛化能力。在Kinetics和NTU-RGBD两大数据集上，它比主流方法有了很大的改进。
（对于以往的识别方式的缺点—表达能力有限，泛化困难，作者提出了新的模型，该方法能自动从数据中学习时间和空间的模型）

1 Introduction

人类动作识别在视频理解中起着重要的作用，近年来已成为一个活跃的研究领域。一般来说，人类行为可以从多种模式中识别出来(Simonyan和Zisserman 2014;Tran等人2015年;Wang, Qiao, and Tang 2015;Wang et al. 2016;如外观、深度、光流和人体骨架(Du, Wang, and Wang 2015;Liu et al. 2016)。在这些模式中，动态人体骨骼通常传达的重要信息是互补的。然而，相对于外形和光流的建模，动态骨架的建模受到的关注较少。在这项工作中，我们系统地研究了这种模式，目的是开发一个有原则的和有效的方法来建模动态骨架，并利用它们来进行动作识别。
动态骨骼模态可以自然地表示为一系列人类关节位置的时间序列，以二维或三维坐标的形式表示。人类的行为可以通过分析其运动模式来识别。早期使用骨骼进行动作识别的方法是简单地利用各个时间步长的关节坐标来形成特征向量，并对其进行时间分析(Wang et al. 2012;Fernando et al. 2015)。这些方法的能力有限，因为它们没有明确地利用关节之间的空间关系，而这些关系对于理解人类行为至关重要。最近，试图利用关节间自然连接的新方法被开发出来(Shahroudy et al. 2016;Du, Wang, and Wang 2015)。这些方法显示出令人鼓舞的改进，这说明了连接性的重要性。然而，大多数现有的方法依赖于手工制作的部件或规则来分析空间模式。因此，为特定应用程序设计的模型很难推广到其他应用程序。
(早期的方法是一段时间内关键点坐标形成特征向量，对其进行分析，然后都没有利用空间关系，16年Shahroudy，利用了关节点之间的信息；但是为特定的应用程序设计的模型，不具备广泛应用性。)
为了超越这些限制，我们需要一种新的方法，可以自动捕获嵌入在关节空间配置及其时间动态的模式。这就是深度神经网络的优势。然而，如前所述，骨架是图形的形式，而不是2D或3D网格，这使得使用卷积网络等成熟模型变得困难。最近,图神经网络(gcn)概括卷积神经网络(cnn)图的任意结构,收到越来越多的关注并成功地采用在许多应用程序中,如图像分类(布鲁纳et al . 2014),文档分类(Defferrard,布莱松,Vandergheynst 2016)和半监督学习(Kipf和威林2017)。然而，这条线上的许多先前的工作都假设一个固定的图形作为输入。GCNs在大型数据集(如人类骨骼序列)上对动态图建模的应用还有待探索。
()
(传统的CNN是处理基于图片的，人体骨架的是图，这就需要用到GCNS)
本文提出将图神经网络扩展到一个时空图模型，即时空图卷积网络(ST-GCN)，设计一个用于动作识别的骨架序列的通用表示。如图1所示，该模型建立在一系列骨架图的顶部，其中每个节点对应于人体的一个关节。有两种类型的边缘，即符合关节自然连接的空间边缘和跨越连续时间步长的连接相同关节的时间边缘。在此基础上构造了多层时空图卷积，实现了信息在时空维度上的集成。
（这篇文章中作者提出了ST-GCN，就是把一系列的关键点输入到ST-GCN中）

ST-GCN的层次结构特性消除了手工编写部分分配或遍历规则的需要。这不仅导致了更强的表达能力和更高的性能(如我们的实验所示)，而且还使它易于推广到不同的上下文。在通用的GCN公式的基础上，研究了基于图像模型的图形卷积核设计新策略。
(ST-GCN在通用的GCN公式基础上，设计的新的图像卷积核)
本工作的主要贡献在于三个方面:1)我们提出了ST-GCN，这是一个基于通用图的动态骨架建模公式，它是第一个将基于图的神经网络应用于此任务的模型。2)根据骨架建模的具体要求，提出了ST-GCN中卷积核设计的若干原则。3)在两个大规模的基于骨架的动作识别数据集上，与之前使用手工制作的部件或遍历规则的方法相比，该模型取得了更好的性能，并且在手工设计方面的工作量大大减少。ST-GCN的代码和模型是公开的。

2 Related work

3 Spatial Temporal Graph ConvNet

3.1通道组成

首先获取数据：姿态估计或者运动捕捉设备。
每一帧都有关键点坐标，用给定的这些2d或者3d的关键点坐标序列，我们就能构成一张时空图。
以关节点为图节点，人体结构和自然的连接性为图的边的时空图。
因此，ST-GCN的输入是图节点上的联合坐标向量。
对输入的数据进行多层时空卷积运算，生成更高层次的特征图。
通过softmax回归，将动作进行分类。
整个过程采用端到端的反向传播方式进行。

3.2 骨架结构

骨架序列通常由每帧中每个人体关节的二维或三维坐标表示。之前的工作使用卷积进行骨骼动作识别(Kim和Reiter 2017)，将所有关节的坐标向量串联起来，形成每帧一个特征向量。在我们的工作中，我们利用时空图来形成骨架序列的层次表示。特别地，我们构造了一个无向时空图G = (V;E)具有N个关节和T帧的骨架序列，具有身体内部和框架之间的连接。当ST-GCN作为输入的时候，关键点上的第t帧、第i个关节点的特征向量F(vti)是由坐标点坐标以及置信度组成。使用两步构建时空图：首先，根据人体结构的连通性，将一帧内的关节用边连接，如图1所示。然后在连续的坐标系中，每个关节都连接到同一个关节上。因此，此设置中的连接是在没有手动分配部分的情况下自然定义的。这也使得网络架构能够处理具有不同数量的节点或连接度的数据集。例如，Kinect dataset，我们使用openpose工具在2D姿态估计中得到18个骨骼点，在NTU-RCB+D数据集上，我们是用3D骨骼跟踪的输出作为本模型的输入，产生25个骨骼点。STGCN可以在两种情况下运行，并提供一致的卓越性能。图1中示出了构建的空间时间图的示例。

3.3 Spatial Graph Convolutional Neural Network

也就是说，特征图在图的每个节点上都有一个向量。扩展的下一步是重新定义采样函数p和权函数w。

Sampling function.

Weight function.

由根节点周围的邻居图中的图标记过程定义的。

Spatial Temporal Modeling.