Temporal Pyramid Network(TPN 笔记)

https://zhuanlan.zhihu.com/p/172136901

《Temporal Pyramid Network for Action Recognition》阅读笔记

Abstract

视觉节奏特征描述了一个动作的动态和时间尺度。
对不同动作的视觉节奏进行建模，有助于识别它们。
以前的工作通常通过以多个速率采样原始视频并构建一个输入级帧金字塔来捕捉视觉节奏，这通常需要一个昂贵的多分支网络来处理。
在这项工作中，我们提出了一个通用的时间金字塔网络(TPN)，可集成到其它网络中。
TPN的两个基本组成部分，特征的来源和特征的融合，形成了一个主干的特征层次结构，以便它可以捕获不同节奏下的动作实例。
TPN在动作识别数据集的几个动作识别数据集上也显示出比其他具有挑战性的基线的一致改进。
使用TPN后性能提升了2%。
进一步的分析还显示，TPN在其视觉节奏上有很大差异的动作类上获得了大部分的改进，验证了TPN的有效性。

1. Introduction

2. Related Work

3. Temporal Pyramid Network

《Temporal Pyramid Network for Pedestrian Trajectory Prediction with Multi-Supervision》阅读笔记
《多监督行人轨迹预测的时间金字塔网络》
TPNMS框架。由生成器和鉴别器组成。
生成的输入是行人的历史轨迹，输出是相应的预测的未来轨迹。
金字塔源首先通过时间压缩和时间膨胀来构造。
然后，采用编解码器网络进行分层特征学习。最后将特征输入一个融合网络（如图3所示），以生成具有多监督的未来轨迹。

疑问：
是否考虑人群中人体之间的碰撞等交互关系？答：考虑到了
输入视频图像？答：时间金字塔网络输入的不是2D图片，而是行人的位置坐标序列
是否用到了雷达点云之类的三维信息？
使用的行人坐标似乎是视频图片平面上的2维位置

Abstract

目标：预测人群中的人体运动行为
创新：
之前工作用单一分辨率对轨迹进行建模和预测，难以同时利用运动行为的远程信息（如目的地）和短程信息（如方向速度）
本文提出了一种通过挤压调制和膨胀调制来预测行人轨迹的时间金字塔网络。
我们的层次框架构建了一个特征金字塔，从上到下有越来越丰富的时间信息，可以更好地捕捉不同节奏下的运动行为。
提出了一种具有多监督的粗到细融合策略。
将全局上下文的顶粗特征与丰富局部上下文的底细特征合并，可以充分利用轨迹的长程和短程信息。

Introduction

行人行为建模的应用：安全决策(19)、自然导航、识别可疑活动。
轨迹预测的目标：最近几秒钟的历史路径预测可能的未来轨迹。
挑战：
多模态，这意味着在相同的历史轨迹下，可能会有一些社会可接受的和不同的未来行为。
周围人的影响，联合建模复杂的社会行为是相当具有挑战性的。

传统的行人轨迹预测算法严重依赖于手工制作的规则来描述人类运动，这很难在复杂的新场景中推广。
近年来，基于数据驱动的算法在社区中受到了广泛的关注。
其中，RNN及其变体LSTM已被广泛采用。
Social-LSTM：作为最早的行人轨迹预测工作之一，使用递归网络对运动信息进行编码。
CIDNN：在人群互动模块中考虑了人对目标行人的不同重要性。
PIF(19)和SR-LSTM(19)：通过将场景背景作为侧信息，提高了Social-LSTM的性能。
上述方法，以数据分割的方式学习，但未能多模态

为了产生多种社会可接受的轨迹，学习未来轨迹的分布，而不是直接生成确定性路径。
social-GAN：是将LSTM模型与生成对抗网络(GANs)相结合的开创性轨迹预测工作，允许产生多个可信的轨迹。
SoPhie：通过场景特征提取组件改进了social-GAN。
一些研究人员提出使用图形来模拟社会互动。
Social-STGCNN：使用时空图卷积神经网络对轨迹进行了建模，并取得了良好的性能。

虽然对轨迹预测进行了许多方面的研究，但对现有的方法单一分辨率（一个固定长度的时间步长）。
这使得他们不能充分利用运动行为的时间关系。
我们认为，无法用单一的分辨率建模同时包含全局和局部

如图1所示，(TPNMS，Temporal Pyramid Network with Multi-Supervision)框架由生成器G、鉴别器D组成，相互对立地进行训练。
首先，设计了一个由挤压模块和膨胀模块组成的金字塔形特征提取器，用于从固定长度的输入轨迹中生成多尺度特征。
然后，将金字塔特征输入一个基于RNN的编码器解码器，以生成运动的层次表示。
为了保证所有金字塔层次的有效表示，提出了一种从粗到细的融合策略，通过逐步结合高金字塔层次和低金字塔层次的多监督。
最后，与SocialGAN类似，我们的网络以一种对抗性的方式进行训练，以产生多个社会可接受的运动轨迹。

以往的金字塔表示方法大多是在空间领域设计的，仅用于检测或识别任务。
首次将一个场景中的轨迹建模为时间金字塔。

我们工作的主要贡献是
提出了一种新的时间金字塔网络。通过分层有效地利用短程和远程行为。
通过逐步结合全局上下文和局部上下文，提出了一种多监督的粗到细的轨迹建模。
层次设计易扩展。

Proposed Temporal Pyramid Network with Multi-Supervision (TPNMS)

1.Problem Formulation
N：行人个数
(x,y): 行人位置 ----在图片上的位置？
t: 时间
i : 行人编号
X：行人的历史轨迹
Y：行人的未来轨迹
1~t0:历史阶段
t0+1~t0+tp:预测阶段
2.TPN for Trajectory Prediction
特征金字塔在计算机视觉领域识别不同尺度的物体方面发挥着重要的作用。
例如，流行的手工工程特征提取器，如SIFT，被设计用于计算多尺度空间中的特征。林等人。
将金字塔表示的思想引入了深度卷积神经网络，在检测任务中实现了相当有前途的性能。
以往的方法大多都是在空间领域内设计的。
最近，一些研究提出了提取时域层次特征，并证明了其在动作识别或检测中的有效性和场景分类。

我们提出了一种专门用于行人轨迹预测的时间金字塔网络。
我们的TP体系结构在利用不同节奏下的运动行为方面是有效的，并且分层生成过程可以极大地促进全局和局部的联合建模。
受益于LSTM网络，所有级别的金字塔共享相同的参数。这允许我们的方法在单分支主干上操作，而不管采用多少级别，然后避免增加模型的复杂性。

TPN：
金字塔源构造
层次特征表示

2.1Pyramidal source construction
对于输入X的每一个轨迹，我们提出生成一组具有多分辨率的L层次特征，然后构造一个从上到下的时间信息越来越丰富的特征金字塔。
在金字塔框架的帮助下，我们的方法可以充分利用短期和远程行为。
该过程可以概括为两个过程:
时间挤压调制
时间膨胀调制
2.2Temporal squeeze modulation
L：每个轨迹金字塔的尺度数
X_k:第k个尺度的特征。
时间挤压调制
目标：是减少局部影响，增强全局。
手段：通过用一个区间因子从下面的尺度上进行均匀采样，逐步产生顶部的k−1个尺度。
短距离信息逐渐削弱，这鼓励更高的尺度捕捉长距离行为
2.3Temporal dilation modulation
需要注意的是，观察到的轨迹通常持续时间较短，那么由时间挤压调制产生的尺度数量就不能完全捕捉到运动行为。
为了解决这个问题，我们进一步引入了一种互补的称为时间扩张调制的程序，它类似于在各种视觉任务中广泛使用的扩张卷积算子。
时间扩张调制可以产生更密集的轨迹来进行分层特征表示，然后利用更丰富的运动短程信息。

我们建议通过轨迹插值来进行时间膨胀调制。需要注意的是，行人随着时间的推移，通常以不同的速度、加速和不同的方向行走/奔跑。为了生成平滑的致密轨迹，本文采用三次样条算法进行轨迹插值。

2.4Hierarchical feature representation（本文的核心）
为简单起见，我们使用(Guptaetal.2018)中提出的类似网络架构作为骨干，从构建的金字塔中提取层次特征。如图1所示，主干网络由编码器和解码器两个组成部分组成。在编码器一侧，我们嵌入每个行人的位置为

3.Coarse-to-fine Fusion with Multi-supervision

Experimental Results

我们使用PyTorch框架和NVIDIA来实现我们的模型TPNMS。
1.Implementation Details
根据经验，金字塔尺度的数量设置为5，编码器和解码器的隐藏状态的维数为32。
每个输入坐标（x,y）都被嵌入为一个16维向量。
噪声向量z的长度为8。
我们采用Adam算法(Kingma和Ba2014)对损失函数（18）进行优化，并采用以下超参数设置对我们的网络进行训练：批大小为64；
生成器和鉴别器的学习率分别设置为0.0001和0.0002；
测试系数分别为0.9和0.999；权重衰减为0.0001，epoch数为400。
2.Datasets and Metrics
Datasets：
我们在两个公共数据集上评估了我们的方法，即ETH和UCY。
这些数据集由5个场景(4类)组成：ETH、酒店、UNIV、ZARA1和ZARA2。
共有1536名行人，有数千条轨迹包含具有挑战性的行为，如一起行走、相互交叉、形成群体和分散
指标：
为了公平起见，我们采用了广泛采用的留一方法评价方法。
观察到的时间步长为8（3.2秒），即将到来的12个时间步长（4.8秒）用于预测。
根据之前的工作，我们使用两个误差度量来评估不同的行人轨迹预测模型的性能。
1.平均位移误差(ADE)：地面真实轨迹与预测轨迹之间的平均欧氏距离
2.最终位移误差(FDE)：地面真实目的地与预测目的地之间的欧氏距离
3.Baselines
TPNMS与以下方法进行比较：
Linear：线性回归器预测下一个坐标。
SLSTM：一种基于LSTM和社会池的方法。
S-GAN和S-GAN-P：一个使用GAN生成多模态行人轨迹的模型，后者采用全局池化模块。
PIF：一种同时使用视觉特征和交互信息的多任务方法。
SoPhie：一个考虑到物理约束的基于GAN的改进模型。
SR-LSTM：一种基于LSTM的行人轨迹预测的状态细化方法。
Social-BiGAT和STGAT：基于GAN和图形注意的方法。
Social-STGCNN(Mohamed等人，2020年)：一种使用图表模拟行人的社会行为的方法。
与之前的工作相似，我们根据预测的分布生成了20个样本。
4.Quantitative Analysis（对所有情况的统计分析）
表1总结了不同算法的结果，其中我们在最后两列中报告了每种方法的平均结果。
所有的算法都比线性模型表现得好得多。
根据研究结果，我们进一步得出以下结论：
TPNMS在平均ADE和FDE方面优于之前的所有方法。
与基线方法S-GAN相比，TPNMS取得了显著的性能提高。这表明，我们提出的多监督时间金字塔网络确实有助于行人轨迹预测。
对于之前最先进的方法Social-STGCNN，TPNMS性能显著提高。ADE上降低了误差约14%，在FDE上降低了误差约3%。
即使不使用任何边信息，TPNMS的性能也优于那些使用场景背景的方法。这意味着TPNMS的性能可以通过考虑场景上下文来提高TPNMS的性能。
5.Qualitative Analysis（对特定情况的分析）
在本小节中，我们将提供了一些例子来展示TPNMS如何成功地捕捉行人的复杂运动行为。
我们定性地比较了Social-GAN和TPNMS之间的预测结果。
我们可视化了图4中4个场景中的示例。
1.并排行走
当人们并排行走时，他们通常彼此有紧密的联系，他们的相对位置往往保持不变，运动行为倾向于持续变化。
S-GAN错误地预测了这两个行人会互相行走，并且发生碰撞的可能性很高。
TPNMS的预测显示，这两个行人将保持平行行走，这是接近于用绿线标记的地面-真实轨迹。
这证明了在不同节奏下建模运动行为的优越性。
2.相向而行
与S-GAN相比，TPNMS预测的A人相遇后的轨迹更准确。
TPNMS成功地预测了B和C将保持平行行走，而S-GAN的预测则偏离了他们的真实行为。
3.追随
当一个人在跟踪某人时，他或她可能想要把注意力吸引到前面的人身上，并保持他们之间的安全距离。
图4©显示了一个情况的人走在后面的人。
S-GAN往往降低人的速度即使别人之间的距离足够大，而TPNMS可以更准确地预测速度在每个时间步，保持一个安全的距离。
4.有复杂交互行为的步行
复杂的交互作用促使人们使用各种方法来避免碰撞。
S-GAN生成的许多轨迹有较大偏差，在预测轨迹末端发生碰撞。
TPNMS比S-GAN好得多。
这表明，我们的方法可以有效地捕捉到行人在复杂的社会互动场景中的运动行为。
不同的预测结果
我们的模型能够产生多个可信的符合行人多模态行为和不同的轨迹。
展示了通过从标准正态分布中采样噪声向量的一些不同预测的例子。
我们的模型产生了两个不同社会可接受的、不同的轨迹，包括改变方向和速度。
例如，图5(b)的顶部图像显示，这个人正朝汽车走去，其方向与真实的轨迹不同，但预测的路径仍然可以接受。
从图5(b).的底部图像中也可以观察到类似的现象此外，图5©中的图像显示，z也会影响行人的速度。
在图5(d)中，我们用20个随机生成的样本绘制预测轨迹的密度。
紫色的区域构建了一个合理的区域，每个行人都可以通过。
颜色越深的位置表明这个人通过的可能性越高。
6.Ablation Experiments
在表2中，我们通过一系列的消融实验系统地评估了我们的方法，其中我们考虑了我们的方法的以下变体：
S-GAN-P：没有时间金字塔模态和多监督模块。在这个设置下，我们的方法降解为S-GAN-P；
TPN：该方法只考虑时间金字塔模块，不需要多监督；
TPNMS：该方法同时考虑了时间金字塔模块和多监督模块。
将TPN与S-GAN-P进行比较，我们可以发现TPN显著地将ADE从0.61降低到0.41，FDE从1.21降低到0.79，这表明我们的时间金字塔结构可以更有效地建模轨迹的全局背景和局部背景。
TPNMS可以进一步提高ADE/FDE指标方面的预测精度，这证明了多监督对确保有效的分层表示的重要性。

Conclusion
本文提出了一种新的金字塔结构来预测行人轨迹，它在两个基准数据集上优于最先进的方法。
我们通过挤压和膨胀调制设计了一个时间金字塔网络，它在多种分辨率下对轨迹进行编码和解码。能够捕短程和远程行为。
通过采用从粗到细的融合策略和多监督，我们的方法可以逐步将高尺度全局上下文与低尺度局部上下文合并，最终得到准确的轨迹预测。
利用基于GAN的框架，服从行人的多模态特性。
定量和定性的实验结果表明，我们的方法在各种情况下都具有良好的性能。