作者的观点:

若在足够大的视频动作识别数据集上训练(Kinetics),是否能提升模型在其他数据集(HMDB-51,UCF-101)上的表现呢?

论文核心内容:

  1. 对于不同模型,这种方法(见观点)提升性能程度相差很大,于是提出 Two-Stream Inflated 3D ConvNet ( I3D ) 模型
  2. 实验分析,现有最好的动作识别方法在数据集Kinetics上的表现,其次是在对Kinetics进行预训练之后,对较小的基准数据集的性能有多大提高。
  3. I3D模型之所以会有如此好的表现,是因为该模型具有很高的时间分辨率。即输入的训练帧数多。(它们以每秒25帧的速度训练64帧视频片段,并在测试时处理所有视频帧,这使得它们可以捕获细粒度的时间动作结构。)

论文主要贡献:

  1. 提出一种新模型I3D,基于2D卷积网络的增强版。
  2. 在视频动作识别数据集上训练(Kinetics),获得的网络可以提升模型在其他数据集(HMDB-51,UCF-101)上的表现。

展望/待解决问题:

  1. 对于其他视频任务(例如语义视频分割,视频对象检测或光流计算)使用Kinetics预训练是否有益仍有待观察。【研究点!!!】
  2. 作为未来的工作,我们计划使用Kinetics而不是miniKinetics重复所有实验,使用和不使用ImageNet预训练,并探索inflat其他的2D ConvNets

1.Introduction

I3D:以最新的图片分类模型为基础结构,将kernels膨胀(inflate)结合到3D Conv。基于2D卷积网络的增强版。将非常深图片的卷积分类的卷积核与池化核扩展为3D,使得可以从视频中学习无缝的时空特征提取器,同时利用成功的ImageNet架构设计甚至其参数。

2 Action Classification Architectures

2.2 The Old II: 3D ConvNets

在这篇文章中,作者提出一种C3D的变体,它包括8个卷积层,5个池化层和两个全连接层。输入是从视频中截取的大小为112*112共16帧的片段。使用批正则化(batch normalization)的方法。不同于C3D,该方法在第一个池化层使用的temporal strde为2而不是1,这种改进减少内存占用并允许更大批量。

2.3. The Old III: Two-Stream Networks

I3D模型也参考了Two-Stream,还结合了 Inception-V1,网络的输入为相隔10帧的5个连续RGB帧,以及相应的光流片段。在Inception-V1的最后一个平均合并层(5×7×7特征网格,对应于时间,x和y维度)之前的空间和运动特征通过具有512个输出通道的3×3×3 3D卷积层, 然后是3×3×3 3D最大池层并通过最终的完全连接层。

2.4 The New : Two-Stream Inflated 3D ConvNet

3D ConvNets能直接从RGB流中学习时域信息模式,当再加上输入光流,这个性能将进一步提升。

Inflating 2D ConvNets into 3D

简单的将成功的2D分类器扩展为3D卷积。卷积层(N*N)和池化层(N*N)都增加一个时间维度(N*N*N)。

Bootstrapping 3D filters from 2D Filters

3D卷积核的参数可以通过ImageNet模型学习,通过将ImageNet上的2D图片重复叠加成一个连续的视频。

Pacing receptive field growth in space, time and network depth

这个boring video fixed-point使得调整网络变得相当灵活,可以根据时间维度膨胀池化层操作,也可以设置卷积层或池化层的temporal stride。

Two 3D Streams

虽然I3D网络能直接从RGB输入中学习运动特征,但它始终只是执行前馈计算,而光流算法在某种意义上是周期性的计算。所以实验设计,分别在RGB和光流两种输入上训练I3D,最后作平均再预测。

2.5 Implementation Details

除了C3D模型之外,所有模型都使用ImageNet预训练Inception-V1的到基础网络。除了最后一层卷积层外(需计算出全连接层得到分类结果),在模型中的其它卷积层后,紧跟着batch normalization(批处理)和 ReLU激活函数。

3.The Kinetics Human Action Video Dateset

大致介绍Kinetics数据集,本文并没有使用完整的Kinetics进行训练。而是使用其中数据集的小一部分(miniKinetics)。

4.Experimental Comparison of Architectures

实验比较第二部分中的几种结构在不同数据集下的表现。

实验得到几个很有价值的信息:

  1. 在ImageNet上进行模型预训练,同样会对3D ConvNets有帮助。(在别的视频处理应用中,能否用得上??)
  2. 实际探究Kinetics数据集发现,其中视频具有更多的摄像机运动,这可能Flow的工作更加困难。所以在miniKinetics上的Flow精度低于RGB精度。

从上图可看出,I3D模型比其他模型在对Flow输入处理时更有优势。(可能是I3D有longer temporal receptive 和更集成的时间特征提取机制)

作者认为,RGB流具有更多的辨别力,相反却很难用自己的眼睛从Flow流(Kinetics数据集)中辨别视频中的动作。这也许是未来研究的一个方向——整合某种形式的运动稳定到这些架构中。

5. Experimental Evaluation of Features

这部分主要内容是,研究Kenetics上训练的网络的泛化能力。

文中设计了两种方法:

(这两种方法的网络都在Kenetics上预训练)

  1. 通过固定网络的权重,使用网络模型处理UCF-101/HMDB-51数据集,得到结果①。接下来使用UCF-101/HMDB-51的训练集训练网络模型的multi-way soft-max 分类器,然后在测试集上验证。
  2. 用UCF-101/HMDB-51 微调网络,然后在测试集上评估性能。

以上模型中,除了3D-ConvNet之外,都是基于Inception-v1模块,而且在ImageNet上预训练。

Original:在当前数据上训练,再进行验证。

Full-FT:在miniKinetics上预训练,再在各自处理的数据集上微调。

在mini-Kenetics(固定)预训练后训练模型的最后几层也比直接训练UCF-101和HMDB-51的I3D模型具有更好的性能。

5.1 Comparison with the State-of-the-Art

在UCF-101和HMDB-51上,比较I3D与现有最好的模型的性能,

6.Discussion

本文证明在视频处理方面也能像图片处理一样,进行迁移学习。即在更大的数据集(Kenetics)上预训练,然后提高网络在其他数据集(UFC-101/HMDB-51)上识别性能。对于其他视频任务(例如语义视频分割,视频对象检测或光流计算)使用Kinetics预训练是否有益仍有待观察。【研究点!!!】

作为未来的工作,我们计划使用Kinetics而不是miniKinetics重复所有实验,使用和不使用ImageNet预训练,并探索膨胀其他状态的2D ConvNets

【论文笔记下载地址】

链接: https://pan.baidu.com/s/1sU4lr8mjCCh2llR263_YgQ

提取码: 64mq

I3D模型_2017_CVPR相关推荐

  1. 详解视频中动作识别模型与代码实践

    摘要:本案例将为大家介绍视频动作识别领域的经典模型并进行代码实践. 本文分享自华为云社区<视频动作识别>,作者:HWCloudAI.实验目标 通过本案例的学习: 掌握 C3D 模型训练和模 ...

  2. 复现I3D遇到的问题

    1.Download模型 从deepmind的github中download I3D模型,它是由checkpoints保存的tensorflow session. https://github.com ...

  3. Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset I3D论文精读

    Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset I3D论文精读 论文地址:https://openaccess. ...

  4. I3D泛读【Que Vadis,Action Recognition?A New Model and the Kinetics Dataset】

    目录 0.前沿 1.标题 2.摘要 3.结论 4.重要图表 5.解决了什么问题 6.采用了什么方法 7.达到了什么效果 0.前沿 泛读我们主要读文章标题,摘要.结论和图表数据四个部分.需要回答用什么方 ...

  5. 李沐论文精度系列之七:Two-Stream双流网络、I3D

    文章目录 一.双流网络 1.1 前言 1.2 网络结构 1.3 光流(Optical flow) 1.3.1 什么是光流 1.3.2 如何利用光流 1.3.3 双向光流(Bi-directional ...

  6. 视频分类 S3D(separable 3D convolutions)模型及代码分析

    S3D(separable 3D CNN)是ECCV 2018发表的关于视频分类模型,核心思想就是将原来的I3D网络替换为时域和空间域分离进行卷积的S3D网络,相比I3D网络,不仅模型参数量得到大幅减 ...

  7. I3D Finetune

    背景介绍 在现有的的行为分类数据集(UCF-101 and HMDB-51)中,视频数据的缺乏使得确定一个好的视频结构很困难,大部分方法在小规模数据集上取得差不多的效果.这篇文章根据Kinetics人 ...

  8. I3D与T3D读后笔记

    I3D 论文:<Quo Vadis ,Action Recognition? A New Model and the Kinetics Dataset> 这篇论文的主要内容分为3个部分: ...

  9. (I3D)Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset 论文解读

    Abstract 本论文提出了一种新的数据集Kinetics.他是ucf101,HMDB-51数据集的的两倍. 论文分别将当前现有的模型在Kinetics数据集上跑一遍,看这些模型在此数据集上表现的如 ...

最新文章

  1. 一种三维结构化导航的思路
  2. 丙类放大电路实验报告_电子工程师入门基础:那些关于电子电路设计的基础知识...
  3. dubbo异步调用传递性解决方法
  4. 手工xxoo Visual Assist X 笔记
  5. SSM整合之纯注解方式,注解实现事务,异常,与拦截器
  6. 等差数列划分 II - 子序列(动态规划)
  7. mysql协议重传,MySQL · 源码分析 · 网络通信模块浅析
  8. 基于dde的vb和matlab,基于VB和DDE技术的组态王通信协议转换
  9. 数据结构-堆 Java实现
  10. MongoDB 插入文档
  11. 2010-2019年中国城市统计年鉴分享
  12. 简单的C语言程序介绍(重点理解),超详细基础代码解析
  13. TF卡座的工作原理,TF卡座的内部结构,详图,自弹式TF卡座的内部结构原来是这么回事
  14. 普渡大学 计算机金融,普渡大学金融数学专业排名2019年
  15. java关联vss 80020009,80020009: Invalid password[src=SourceSafe,guid=null]
  16. 洛谷P2184——贪婪大陆
  17. 在 stm32CubeMX下生成程序完成流水灯以及完成STM32的USART串口通讯程序实现STM32系统给上位机(win10)连续发送“hello windows”
  18. DRC的报错类型及其对应的规则
  19. 齐二TK6916/20/26/32系列数控落地铣镗床简介2
  20. 就业寒冬到来?“全面停止社招”,这是谁造的谣?

热门文章

  1. notepad++ 编辑内容加 单引号 和 逗号
  2. fatfs文件系统中目录代码分析
  3. 转录调控研究技术之:DNA亲和纯化测序(DAP-seq)
  4. Template简介
  5. x265源码分析:SAO 函数总结及逻辑关系图
  6. C++程序员之路深入探讨QueryInterface
  7. Python写入数据库
  8. 基于目标追踪算法、web、gui开发的程序,可实时监控画面、检测目标、监听电脑配置
  9. IDEA快捷键总结和各种实用功能
  10. 你知道完整的手绘模型贴图制作是怎样的?3Dmax低模制作,手绘贴图全流程