Abstract

卷积网络在动作识别领域带来的提升不像图像领域那么大

提出TSN，基于长距离时序建模的思想，结合时序稀疏采样(sparse temporal sampling)策略和视频级监督(video-level supervision)进行视频动作识别。

Introduction

卷积网络在图像分类上取得了巨大的成功，但在视频动作识别上却没有取得相应的大幅度提升（相对传统手工特征）

动作识别主要需要学习视频的两方面信息：appearances 和 dynamics。

卷积网络处理视频动作识别主要受限于两大问题：

1、主流卷积网络捕获appearance信息的能力很强，但捕获长距离时序信息(long-range temporal structure)的能力不足。一些之前的动作识别模型通过固定间隔的密集帧采样(dense temporal sampling with pre-defined sampling interval）来解决这个问题，但这样会导致采样的帧太多，对长视频来说计算量太大。

2、当时的主流动作识别数据集UCF101， HMDB51规模相对较小，对于训练性能很好的卷积网络来说显得不足。

因此，作者在双流网络的基础上研究基于ConvNets的动作识别模型，主要想解决两个问题：

1、在动作识别模型中捕获长距离时序信息

2、使用有限的训练样本训练动作识别模型

作者观察到，连续的视频帧在内容上是高度冗余的，因此密集帧采样没有必要。

提出TSN，主要特点是使用了一种时序稀疏采样策略：使用稀疏采样从长视频中提取短视频段(short snippets)，这种采样是在时序上均匀进行的。然后再使用一个segmental structure来聚合采样出的snippets的信息，以此来进行长距离时序建模。

Method

Temporal Segment Networks

基于卷积网络的动作识别模型缺乏长距离时序建模能力的原因是：它们仅输入1帧RGB图像和几帧光流，没有获取到整个视频的时序信息。但是有些复杂的动作（例如体育运动）包含多个阶段，需要持续相当长一段时间。

TSN基于双流网络。不同于传统双流网络只接收1帧RGB和几帧光流，TSN在稀疏取样自整个视频的snippets上进行操作，每个snippet都会产生一个初步的动作分类预测，然后把每个snippets的预测形成一个共识(consensus)，作为整个视频的预测(video-level prediction)。

输入视频V，将其分为K（snippet数目，文章中取3）个相同长度的视频段(segment)：{S1,S2,...,SK}\{S_1, S_2, ..., S_K\}{S1,S2,...,SK}，然后建立一系列snippets，TSN作用于snippets上：

TSN(T1,T2,...,TK)=H(G(F(T1;W),F(T2;W),...,F(TK;W)))TSN(T_1,T_2,...,T_K)=H(G(F(T_1;W),F(T_2;W),...,F(T_K;W))) TSN(T1,T2,...,TK)=H(G(F(T1;W),F(T2;W),...,F(TK;W)))

(T1,T2,...,TK)(T_1,T_2,...,T_K)(T1,T2,...,TK)：snippets序列。每个snippet TKT_KTK是从对应视频段segment SKS_KSK中随机取样(randomly sample)得到，每个segment中采样一个snippet，包括1帧RGB图像和数帧光流。
F(TK;W)F(T_K;W)F(TK;W)：是作用在TKT_KTK上，参数为W的卷积网络，输出该snippet属于每个类的分类score，即一个向量，其分量FiF_iFi表示该snippet属于第i类的打分。
GGG: segmental consensus function，将多个snippet的F输出进行合并，获得一个分类consensus，即一个向量，其分量GiG_iGi表示整个视频V属于第i类的打分。
HHH：prediction function，基于consensus预测视频V属于所有分类的概率，这里采用softmax。输出一个向量，其分量HiH_iHi表示整个视频V经softmax归一化后属于第i类的概率。

采用标准的cross-entropy loss：

L(y,G)=−∑i=1Cyi(Gi−log∑j=1CexpGj)L(y,\textbf{G})=-\sum^C_{i=1}y_i(G_i-log\sum^C_{j=1}expG_j) L(y,G)=−i=1∑Cyi(Gi−logj=1∑CexpGj)

CCC：动作类别数目
yiy_iyi：分类i的groundtruth标签
Gi=g((Fi(T1),...,Fi(TK))G_i=g((F_i(T_1),...,F_i(T_K))Gi=g((Fi(T1),...,Fi(TK))：分类i的consensus打分，是所有snippet属于第i类的得分经过一个聚合函数(aggregation function) g 得到的。聚合函数g有多种选择：evenly averaging, maximum, weighted averaging。

使用该损失函数可以利用多个snippet的信息通过反向传播优化WWW参数，而不是像之前的动作识别模型仅仅利用了视频中一个snippet的信息。

通过指定分段数KKK，可以建立一个稀疏采样策略，即每段内只取了一个snippet的1帧RGB+几帧光流（而非密集采样），但由于有多个段又覆盖了整个视频的信息，做到了长距离时序建模，同时减低计算量。

Learning

Network Architectures

采用带Batch Normalization 的Inception（BN-Inception）作为building block，改进双流网络。双流网络的输入(每个snippet)是1帧RGB图像和数帧连续光流。

Network Inputs

研究了不同模态的输入，包括原始的RGB+flow双流，RGB difference，和warped optical flow fields。

Network Training

Cross Modality Pre-training. RGB分支使用ImageNet预训练初始化。flow分支也进行初始化。
Regularization Techniques. 使用BN，partial BN，dropout
Data Augmentation. 除了原有random cropping和horizontal flipping, 添加corner cropping和scale-jittering。

Testing

Evaluation时，从视频中抽取25帧的RGB图像或光流stack，并截取4张corner和1张center，以及其水平翻转，作为数据增强，之后输入网络进行评估。

对双流的RGB和flow分支预测结果取加权平均，权重系数分别是1和1.5。

Experiments

略

【论文阅读】Temporal Segment Networks: Towards Good Practices for Deep Action Recognition相关推荐

行为识别论文笔记|TSN|Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
行为识别论文笔记|TSN|Temporal Segment Networks: Towards Good Practices for Deep Action Recognition Temporal ...
动作识别阅读笔记(三)《Temporal Segment Networks: Towards Good Practices for Deep Action Recognition》
(注:为避免中文翻译不准确带来误解,故附上论文原句.) 论文:Wang L , Xiong Y , Wang Z , et al. Temporal Segment Networks: Towards ...
视频动作识别--Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition ECCV2016 https://githu ...
论文学习：（TSN）Temporal segment networks: Towards good practices for deep action recognition
论文:<Temporal Segment Networks:Towards Good Practices for Deep Action Recognition> 目录 0.导论 1.TS ...
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition(时间段网络：使用深度行为识别的良好实现)
本文的原作者为Limin Wang等人原文地址 #摘要深度卷积网络在静止图像中的视觉识别方面取得了巨大成功.然而,对于视频中的动作识别,优于传统方法的优势并不明显.本文旨在探索为视频中的动作识别设计 ...
论文阅读 TEMPORAL GRAPH NETWORKS FOR DEEP LEARNING ON DYNAMIC GRAPHS
TSN(Temporal Segment Networks)算法笔记
论文:Temporal Segment Networks: Towards Good Practices for Deep Action Recognition 论文链接:https://arxiv. ...
[行为识别论文详解]TSN(Temporal Segment Networks)
摘要本文旨在设计有效的卷积网络体系结构用于视频中的动作识别,并在有限的训练样本下进行模型学习.TSN基于two-stream方法构建. 论文主要贡献: 提出了TSN(Temporal Segment ...
Temporal Segment Networks for Action Recognition in Videos 用于动作识别的时序分割网络
Temporal Segment Networks for Action Recognition in Videos 用于动作识别的时序分割网络本文原创,欢迎转载 https://blog.csdn ...

【论文阅读】Temporal Segment Networks: Towards Good Practices for Deep Action Recognition