Abstract

卷积网络在动作识别领域带来的提升不像图像领域那么大

提出TSN,基于长距离时序建模的思想,结合时序稀疏采样(sparse temporal sampling)策略和视频级监督(video-level supervision)进行视频动作识别。

Introduction

卷积网络在图像分类上取得了巨大的成功,但在视频动作识别上却没有取得相应的大幅度提升(相对传统手工特征)

动作识别主要需要学习视频的两方面信息:appearances 和 dynamics。

卷积网络处理视频动作识别主要受限于两大问题:

1、主流卷积网络捕获appearance信息的能力很强,但捕获长距离时序信息(long-range temporal structure)的能力不足。一些之前的动作识别模型通过固定间隔的密集帧采样(dense temporal sampling with pre-defined sampling interval)来解决这个问题,但这样会导致采样的帧太多,对长视频来说计算量太大。

2、当时的主流动作识别数据集UCF101, HMDB51规模相对较小,对于训练性能很好的卷积网络来说显得不足。

因此,作者在双流网络的基础上研究基于ConvNets的动作识别模型,主要想解决两个问题:

1、在动作识别模型中捕获长距离时序信息

2、使用有限的训练样本训练动作识别模型

作者观察到,连续的视频帧在内容上是高度冗余的,因此密集帧采样没有必要

提出TSN,主要特点是使用了一种时序稀疏采样策略:使用稀疏采样从长视频中提取短视频段(short snippets),这种采样是在时序上均匀进行的。然后再使用一个segmental structure来聚合采样出的snippets的信息,以此来进行长距离时序建模。

Method

Temporal Segment Networks

基于卷积网络的动作识别模型缺乏长距离时序建模能力的原因是:它们仅输入1帧RGB图像和几帧光流,没有获取到整个视频的时序信息。但是有些复杂的动作(例如体育运动)包含多个阶段,需要持续相当长一段时间。

TSN基于双流网络。不同于传统双流网络只接收1帧RGB和几帧光流,TSN在稀疏取样自整个视频的snippets上进行操作,每个snippet都会产生一个初步的动作分类预测,然后把每个snippets的预测形成一个共识(consensus),作为整个视频的预测(video-level prediction)。

输入视频V,将其分为K(snippet数目,文章中取3)个相同长度的视频段(segment):{S1,S2,...,SK}\{S_1, S_2, ..., S_K\}{S1​,S2​,...,SK​},然后建立一系列snippets,TSN作用于snippets上:

TSN(T1,T2,...,TK)=H(G(F(T1;W),F(T2;W),...,F(TK;W)))TSN(T_1,T_2,...,T_K)=H(G(F(T_1;W),F(T_2;W),...,F(T_K;W))) TSN(T1​,T2​,...,TK​)=H(G(F(T1​;W),F(T2​;W),...,F(TK​;W)))

  • (T1,T2,...,TK)(T_1,T_2,...,T_K)(T1​,T2​,...,TK​):snippets序列。每个snippet TKT_KTK​是从对应视频段segment SKS_KSK​中随机取样(randomly sample)得到,每个segment中采样一个snippet,包括1帧RGB图像和数帧光流。
  • F(TK;W)F(T_K;W)F(TK​;W):是作用在TKT_KTK​上,参数为W的卷积网络,输出该snippet属于每个类的分类score,即一个向量,其分量FiF_iFi​表示该snippet属于第i类的打分。
  • GGG: segmental consensus function,将多个snippet的F输出进行合并,获得一个分类consensus,即一个向量,其分量GiG_iGi​表示整个视频V属于第i类的打分。
  • HHH:prediction function,基于consensus预测视频V属于所有分类的概率,这里采用softmax。输出一个向量,其分量HiH_iHi​表示整个视频V经softmax归一化后属于第i类的概率。

采用标准的cross-entropy loss:

L(y,G)=−∑i=1Cyi(Gi−log∑j=1CexpGj)L(y,\textbf{G})=-\sum^C_{i=1}y_i(G_i-log\sum^C_{j=1}expG_j) L(y,G)=−i=1∑C​yi​(Gi​−logj=1∑C​expGj​)

  • CCC:动作类别数目
  • yiy_iyi​:分类i的groundtruth标签
  • Gi=g((Fi(T1),...,Fi(TK))G_i=g((F_i(T_1),...,F_i(T_K))Gi​=g((Fi​(T1​),...,Fi​(TK​)):分类i的consensus打分,是所有snippet属于第i类的得分经过一个聚合函数(aggregation function) g 得到的。聚合函数g有多种选择:evenly averaging, maximum, weighted averaging。

使用该损失函数可以利用多个snippet的信息通过反向传播优化WWW参数,而不是像之前的动作识别模型仅仅利用了视频中一个snippet的信息。

通过指定分段数KKK,可以建立一个稀疏采样策略,即每段内只取了一个snippet的1帧RGB+几帧光流(而非密集采样),但由于有多个段又覆盖了整个视频的信息,做到了长距离时序建模,同时减低计算量。

Learning

Network Architectures

采用带Batch Normalization 的Inception(BN-Inception)作为building block,改进双流网络。双流网络的输入(每个snippet)是1帧RGB图像和数帧连续光流。

Network Inputs

研究了不同模态的输入,包括原始的RGB+flow双流,RGB difference,和warped optical flow fields。

Network Training

  • Cross Modality Pre-training. RGB分支使用ImageNet预训练初始化。flow分支也进行初始化。
  • Regularization Techniques. 使用BN,partial BN,dropout
  • Data Augmentation. 除了原有random cropping和horizontal flipping, 添加corner cropping和scale-jittering。

Testing

Evaluation时,从视频中抽取25帧的RGB图像或光流stack,并截取4张corner和1张center,以及其水平翻转,作为数据增强,之后输入网络进行评估。

对双流的RGB和flow分支预测结果取加权平均,权重系数分别是1和1.5。

Experiments

【论文阅读】Temporal Segment Networks: Towards Good Practices for Deep Action Recognition相关推荐

  1. 行为识别论文笔记|TSN|Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

    行为识别论文笔记|TSN|Temporal Segment Networks: Towards Good Practices for Deep Action Recognition Temporal ...

  2. 动作识别阅读笔记(三)《Temporal Segment Networks: Towards Good Practices for Deep Action Recognition》

    (注:为避免中文翻译不准确带来误解,故附上论文原句.) 论文:Wang L , Xiong Y , Wang Z , et al. Temporal Segment Networks: Towards ...

  3. 视频动作识别--Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

    Temporal Segment Networks: Towards Good Practices for Deep Action Recognition ECCV2016 https://githu ...

  4. 论文学习:(TSN)Temporal segment networks: Towards good practices for deep action recognition

    论文:<Temporal Segment Networks:Towards Good Practices for Deep Action Recognition> 目录 0.导论 1.TS ...

  5. Temporal Segment Networks: Towards Good Practices for Deep Action Recognition(时间段网络:使用深度行为识别的良好实现)

    本文的原作者为Limin Wang等人原文地址 #摘要 深度卷积网络在静止图像中的视觉识别方面取得了巨大成功.然而,对于视频中的动作识别,优于传统方法的优势并不明显.本文旨在探索为视频中的动作识别设计 ...

  6. 论文阅读 TEMPORAL GRAPH NETWORKS FOR DEEP LEARNING ON DYNAMIC GRAPHS

  7. TSN(Temporal Segment Networks)算法笔记

    论文:Temporal Segment Networks: Towards Good Practices for Deep Action Recognition 论文链接:https://arxiv. ...

  8. [行为识别论文详解]TSN(Temporal Segment Networks)

    摘要 本文旨在设计有效的卷积网络体系结构用于视频中的动作识别,并在有限的训练样本下进行模型学习.TSN基于two-stream方法构建. 论文主要贡献: 提出了TSN(Temporal Segment ...

  9. Temporal Segment Networks for Action Recognition in Videos 用于动作识别的时序分割网络

    Temporal Segment Networks for Action Recognition in Videos 用于动作识别的时序分割网络 本文原创,欢迎转载 https://blog.csdn ...

最新文章

  1. windows defender和windows firewall
  2. Java连接数据库出现java.sql.SQLException: After end of result set的原因
  3. Android应用程序模块:应用、任务、进程和线程
  4. 构建高可用ZooKeeper集群
  5. 工业串口和网络软件通讯平台(SuperIO 2.1)更新发布
  6. 其他综合-跳板机jumpserver的安装
  7. Spring boot + mybatis plus 快速构建项目,生成基本业务操作代码。
  8. python爬虫实例手机_python爬虫实例详解
  9. linux磁盘格式化
  10. MySQL学习笔记(五)并发时经典常见的死锁原因及解决方法
  11. PHP可以通过什么组件上传大文件
  12. WCDMA中的基本概念
  13. Java并发包提供了哪些并发工具类?
  14. python做数组数据加密狗
  15. 必须正视TD-SCDMA可能存在的重大技术错误(ZT)
  16. 曹雪芹诗歌中的鸿蒙,红楼一梦开辟相痴鸿蒙诗歌
  17. 面试题:kafka的ACK参数-1,0,1分别代表的含义
  18. Ubuntu 18 永久设置分辨率1920x1080
  19. 如何在A4纸上打印连续的条形码
  20. JAVA常用API的笔记

热门文章

  1. X86架构CPU常识(主频,外频,FSB,cpu位和字长,倍频系数,缓存,CPU扩展指令集,CPU内核和I/O工作电压,制造工艺,指令集,超流水线与超标量)...
  2. [转载翻译][重新整理]西川善司的”METAL GEAR SOLID 4”图形讲座(1)
  3. php swoole 斗地主,GitHub - nbcx/poker: 简单的斗地主Demo,使用php+swoole,redis实现
  4. 燕麦云何洋开讲 | 既安全又简单?我的产品设计心经分享(上)
  5. 最短路径算法---狄杰斯特拉算法
  6. CCNP OSPF实验
  7. 《剑指offer》面试题 6:从尾到头打印链表(C++实现)
  8. Eclipse target目录没有classes文件夹
  9. Antlr 4语法与空格
  10. Mercury MW305R v3.0 路由器改造 LEDE(OpenWRT)