通过构造了对称的3×3×3卷积核来利用3D卷积学习时空特征,计算效率高。
论文地址:http://vlg.cs.dartmouth.edu/c3d/c3d_video.pdf

1. 摘要

本文提出了一种简单而有效的时空特征学习方法,使用在大规模有监督视频数据集上训练的3D 卷积网络。本文的发现有三个方面:
1)与2D ConvNets相比,3D ConvNets更适合于时空特征学习
2)一个在所有层都有3 × 3 × 3卷积核的同质结构是3D ConvNets的最佳性能结构
3)使用3D卷积学习到的特征,使用简单的线性分类器在4个不同的基准上均优于最新的方法。
此外,它的特点是基于3D卷积的快速推理,计算效率非常高。而且在概念上非常简单,易于训练和使用。

2. 相关工作

2.1 传统行为识别

Laptev和Lindeberg通过将Harris角点检测器扩展到3D,提出了时空兴趣点(STIPs),SIFT和HOG也扩展到SIFT-3D和HOG3D用于动作识别。Dollar等人提出了用于行为识别的长方体特征。萨达南德和科尔索建立了行为识别数据库。最近,王等人提出了改进的密集轨道(iDT)这是目前最先进的手工制作特征。iDT描述符显示了时间信号可以不同于空间信号的处理方式。它不是将Harris角点检测器扩展到3D,而是从视频帧中密集采样的特征点开始,利用光流对其进行跟踪。对于每个跟踪器,沿轨迹提取不同的手工特征。尽管该方法具有良好的性能,但计算量大,在大规模数据集上难以实现。

2.2 卷积神经网络用于行为识别

Le等人使用叠加ISA来学习视频的时空特征。虽然该方法在动作识别方面取得了很好的效果,但在训练上仍存在计算量大、在大数据集上难以扩展的问题。3D ConvNets被提出用于人类行为识别和医学图像分割。三维卷积还与受限的玻尔兹曼机一起用于学习时空特征。最近,Karpathy等人在大型视频数据集上训练深度网络,用于视频分类。Simonyan和Zisserman使用了双流网络来实现动作识别并获得了最佳结果。

在这些方法中,[3d convolutional neural networks for human action recognition.]中的3D ConvNets方法与本文的关系最为密切。该方法利用人体检测器和头部跟踪技术对视频中的人体进行分割。将分割后的视频帧作为3D ConvNet的输入从而对动作进行分类。相比之下,本文的方法以完整的视频帧作为输入,不依赖任何预处理,因此很容易扩展到大型数据集。 西蒙尼和齐瑟曼使用全部的帧训练ConvNet。然而,这些方法建立在仅使用2D卷积和2D池化操作的基础上(除了[Large-scale video classification with convolutional neural networks]中的慢融合模型),而本文的模型执行3D卷积和3D池化,在网络中的所有层传播时间信息。另外,本文还表明,逐步汇集空间和时间信息并构建更深入的网络可以获得最佳结果

3. 本文方法

3.1 2D和3D卷积对比


a) 对图像应用二维卷积可生成图像。b) 在视频序列上应用二维卷积(多帧作为多个通道)也会产生图像。c) 在一个视频序列上应用3D卷积会产生另一个序列,从而保留输入信号的时间信息。

三维卷积网络非常适合时空特征学习。与2D-ConvNet相比,3D-ConvNet具有更好的时间信息建模能力,这得益于3D卷积和3D池化操作。在3D ConvNets中,卷积和池化操作是在时空上执行的,而在2D ConvNets中,卷积和池化操作只是在空间上执行的(如上图)。而2D ConvNets在每次卷积运算后都会丢失输入信号的时间信息。只有3D卷积才能保留产生输出时间信息。同样的3D池化操作也是如此。

根据2D ConvNets的研究结果,3 × 3卷积核的小感受野和较深的结构产生了最好的结果。因此本文将空间感受野固定为3 × 3,并且仅改变3D卷积核的时间深度。

3.2 网络结构

8个卷积层,5个池化层,2个全连接层,1个softmax输出层。所有卷积核均为3×3×3。第一个pooling层1×2×2,Stride=1×2×2,之后都是2×2×2,stride=2×2×2。两个全连接层都是4096。

注:为简单起见,假设视频序列大小为c × l × h × w,其中c是频道数,l是帧的长度,h和w分别是帧的高度和宽度。三维卷积和池化的核大小为d × k × k,其中d是核的时间深度,k是核的空间大小。

公共网络设置:该网络以视频片段为输入,对101个不同动作的类标签进行预测。所有视频帧的大小都调整为128 × 171。这大约是UCF101中视频帧的一半分辨率。视频被分成不重叠的16帧序列,然后作为网络的输入。输入尺寸为3 × 16 × 128 × 171。在训练中,还使用了大小为3 × 16 × 112 × 112的输入剪辑的随机裁剪来进行抖动。该网络有5个卷积层和5个池化层(每个卷积层后面紧跟着一个池化层)、2个全连接层和一个预测动作标签的softmax loss层。从1到5的5个卷积层的滤波器数目分别为64、128、256、256、256。所有卷积核都有d的大小,其中d是内核时间深度(后面将改变这些层的d值以搜索良好的3D架构)。

所有这些卷积层都采用适当的填充(空间和时间)和步长为1,因此从这些卷积层的输入到输出的大小没有变化。所有池化层都是最大池化,内核大小为2 × 2 × 2(第一层除外),padding为1,这意味着输出信号的大小比输入信号减小了8倍。第一池层的核大小为1 × 2 × 2,目的是不过早地合并时间信号,并且满足16帧的剪辑长度。

3.3 探索时间核长度(d)

**本文主要关注如何通过深度网络聚合时间信息。**为了寻找一个好的3D ConvNet架构,作者只改变卷积层的内核时间深度di,同时保持所有其他公共设置不变。

作者实验了两种类型的体系结构:

1)同质时间深度:所有卷积层具有相同的核时间深度;

2)可变时间深度:核时间深度跨层变化。

作者注意到,所有这些网络在最后一个池化层具有相同大小的输出信号,因此它们对于全连接层具有相同数量的参数。
由于核的时间深度不同,卷积层的参数个数也不同。与全连接层中的数百万个参数相比,这些差异非常微小。

在UCF101上测试不同核时间深度设置下split-1的动作识别剪辑精度。2D-ConvNet性能最差,3D-ConvNet的3×3×3核性能最好。

3.4 时间空间特征的学习

使用的数据集是UCF101,采用简单的分类模型—简单线性SVM。同时试验了3个不同的网络和基准进行比较。

结果如表所示。中间部分是只使用RGB的,下面则是所有当前最好的行为识别方法。结果表明,C3D不仅有最高的精度,而且能很好地提取外部特征与时间特征。另一方面,C3D同IDT的结合是十分互补的。IDT是主要基于光流追踪与低梯度的直方图特征,而C3D则捕捉了高度抽象综合的信息。

使用t-SNE在UCF101数据集上嵌入Imagenet和C3D的可视化特征。与Imagenet相比,C3D特征在语义上是可分离的,这表明它可以产生一个更好的视频特征。每个剪辑都可视为一个点,属于同一动作的剪辑具有相同的颜色。

4. 实验结果

4.1 动作相似性标注


4.2 场景与目标识别

4.3 运行时分析

论文笔记之C3D(Learning Spatiotemporal Features with 3D Convolutional Networks)相关推荐

  1. 视频分类论文阅读笔记——Learning Spatiotemporal Features With 3D Convolutional Networks

    论文:Learning Spatiotemporal Features With 3D Convolutional Networks 作者:FaceBook AI研究院 来源:ICCV2015 代码: ...

  2. 动作识别经典C3D论文Learning Spatiotemporal Features with 3D Convolutional Networks的介绍

    关于论文Learning Spatiotemporal Features with 3D Convolutional Networks的介绍 这篇论文提出了一个比较高效的C3D网络来提取视频的空间时间 ...

  3. 【论文阅读】Learning Spatiotemporal Features with 3D Convolutional Networks

    [论文阅读]Learning Spatiotemporal Features with 3D Convolutional Networks 这是一篇15年ICCV的论文,本篇论文提出的C3D卷积网络是 ...

  4. Learning Spatiotemporal Features with 3D Convolutional Networks 读书笔记

    最近读了Learning Spatiotemporal Features with 3D Convolutional Networks这篇文章,下面对文章内容进行简要概括. 摘要 摘要主要介绍在大规模 ...

  5. 时空特征--Learning Spatiotemporal Features with 3D Convolutional Networks

    Learning Spatiotemporal Features with 3D Convolutional Networks ICCV 2015 http://vlg.cs.dartmouth.ed ...

  6. 论文笔记之EDVR: Video Restoration with Enhanced Deformable Convolutional Networks

    EDVR: Video Restoration with Enhanced Deformable Convolutional Networks 金字塔.级联和可变形卷积的对齐 时间空间注意力融合 整体 ...

  7. 3D卷积入门 | 多论文笔记 | R2D C3D P3D MCx R(2+1)D

    文章转自微信公众号:[机器学习炼丹术].有问题或者需要加入粉丝交流群可以私信作者~ 文章目录 0 前言 1 R2D 2 C3D 2.1 R3D 3 P3D 4 MCx 5 R(2+1)D [前前沿]: ...

  8. Tensorflow 2.0 视频分类(四) C3D 3D convolutional Networks

    目录 论文学习 摘要 介绍 相关研究 网络结构 超参设置 卷积核深度 C3D网络 sport-1M数据集上表现 网络可视化 动作识别分类 网络compactness(紧密度?) ASLAN动作识别数据 ...

  9. 【论文阅读】Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks

    [论文阅读]Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks 虽然这是一篇17年ICCV的论文,但是这篇 ...

最新文章

  1. 你眼泪的味道,我知道!
  2. 集合数百个常用工具类集合,V2.3.10.104
  3. GDCM:读取和转储DICOMDIR文件的测试程序
  4. Hive的六种UDF完整实例与使用方法汇总
  5. java hasmoreelements_Java IOException.hasMoreElements方法代码示例
  6. GeeksForGeeks 翻译计划 | ApacheCN
  7. 王道机试指南读后总结-6(动态规划等)
  8. 百度发布AI芯片“昆仑”;李笑来脏话录音曝光;Facebook再现新漏洞 | CSDN 极客头条...
  9. b站whats app
  10. 机器学习和深度学习资料汇总【01】
  11. [80386]80x86汇编指令
  12. coreldraw梯形校正_有哪些比较好的CDR教程?
  13. Iproxy USB连接手机
  14. PS 常用的形状工具
  15. 增量式(相对式)编码器与绝对式编码器工作原理
  16. irq : nobody cared (try booting with the “irqpoll“ option) 问题说明
  17. wordpress网站侧边栏添加广告位代码
  18. STM32通用定时器输出带死区互补PWM/任意移相PWM
  19. Java反弹球两球相撞_java实现小球碰撞反弹
  20. Linux文本编辑命令

热门文章

  1. hortonworks-registry-0.5.4 : Memory: 4k page, physical 3880928k(308720k free), swap 0k(0k free)
  2. 【数字通信】通俗易懂理解正交幅度调制(Quadrature Amplitude Modulation,QAM也叫幅相调制)
  3. 赛元SC92F8463B/SC95F8523的PWM 实现无源蜂鸣器功能
  4. 二手华为手机价格表最新报价
  5. SaaS电商新零售系统-PHP+UniApp
  6. 网络层 路由器工作原理
  7. 自学python能做哪些副业?我一般不告诉别人
  8. URLConnection(一)
  9. 基于java的校园网站论坛设计与实现(含源文件)
  10. python中Flask框架介绍