《Action Recognition》-I3D

目录

  • 《Action Recognition》-I3D
    • Contributions
    • Experiment
    • Result

Contributions

  • 在新的数据集Kinetics上对当时的SOTA模型进行了实验,并分析了在Kinetics预训练后模型的提升。Kinetics数据集包含了400种动作,每个动作有超过400个片段的视频。
  • 提出了一种新的模型Two Stream Inflated 3D ConvNet(I3D),在HMDB-51和UCF-101数据集上分别达到了80.9%和98.0%的准确率。

Experiment

作者对下图的几个网络进行了测试:

  • Convnet+LSTM

  • 3D Convnets
    与原C3D不同之处在于这里在每个卷积层后使用了BN层,并将第一层池化时序上的步长由1改成2,减小内存使用,以获得更大batch的训练。

  • Two-Stream Networks

  • Two-stream and the 3D fused version

  • Two-Stream Inflated 3D ConvNets
    1). 对于3D来说,时间维度不能缩减地过快或过慢。如果时间维度的感受野尺寸比空间维度的大,将会合并不同物体的边缘信息。反之,将捕捉不到动态场景。因此改进了BN-Inception的网络结构。在前两个池化层上将时间维度的步长设为了1,空间还是22。最后的池化层是27*7。训练的时候将每一条视频采样64帧作为一个样本,测试时将全部的视频帧放进去最后average_score。除最后一个卷积层之外,在每一个卷积后面都加上BN和relu。

2). **I3D结构扩展方式:**如果2D的滤波器为NN的,那么3D的则为NN*N的。具体做法是沿着时间维度重复2D滤波器权重N次,并且通过除以N进行归一化。

3).**从预先训练的ImageNet模型中引导参数来初始化I3D:**作者将图像重复复制到视频序列中将图像转换为(boring)视频。然后,在ImageNet上对3D模型进行隐式预训练,满足我们所谓的无聊视频固定点((boring)视频上的池化激活应与原始单个图像输入上的池化激活相同),这可以实现通过在时间维度上重复2D滤波器的权重N次,并且通过除以N来重新缩放它们,这确保了卷积滤波器响应是相同的。

Result

  • 不同结构网络的对比
  • 在Kinetics数据集上测试,有无经过Imagnet进行预训练
  • 在Kinetics数据集上预训练
  • 与其他模型对比

    参考:https://blog.csdn.net/weixin_44402973/article/details/94396298

《Action Recognition》-Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset(I3D)相关推荐

  1. Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset I3D论文精读

    Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset I3D论文精读 论文地址:https://openaccess. ...

  2. 《Qua Vadis, Action Recognition? A New Model and the Kinetics Dataset》论文解读之Two-Stream I3D

    本文是CVPR 2017的一篇文章 Paper:Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset github: ...

  3. I3D泛读【Que Vadis,Action Recognition?A New Model and the Kinetics Dataset】

    目录 0.前沿 1.标题 2.摘要 3.结论 4.重要图表 5.解决了什么问题 6.采用了什么方法 7.达到了什么效果 0.前沿 泛读我们主要读文章标题,摘要.结论和图表数据四个部分.需要回答用什么方 ...

  4. 《论文阅读》EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa

    <论文阅读>EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa 简介 思路出发点 任务定义 模 ...

  5. (I3D)Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset 论文解读

    Abstract 本论文提出了一种新的数据集Kinetics.他是ucf101,HMDB-51数据集的的两倍. 论文分别将当前现有的模型在Kinetics数据集上跑一遍,看这些模型在此数据集上表现的如 ...

  6. I3D视频分类论文梗概及代码解读Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

    论文https://arxiv.org/pdf/1705.07750.pdf,from DeepMind ,CVPR2017 代码https://github.com/LossNAN/I3D-Tens ...

  7. 《Netty 实战》Netty In Action中文版 第2章——你的第一款Netty应用程序(一)

    第2章 你的第一款Netty应用程序 本章主要内容 设置开发环境 编写Echo服务器和客户端 构建并测试应用程序 在本章中,我们将展示如何构建一个基于Netty的客户端和服务器.应用程序很简单:客户端 ...

  8. 美国《消费者报告》实测特斯拉Model 3,“完全自动驾驶”名不符实

    贾浩楠 发自 凹非寺 量子位 报道 | 公众号 QbitAI 8000美元的特斯拉自动驾驶包(国内售价56000元),究竟值不值? 最近,颇有影响力的美国<消费者报告>,拿到了热卖的Mod ...

  9. 百度飞桨顶会论文复现(5):视频分类论文之《Representation Flow for Action Recognition》篇

    这次老师在课上总共领读了4篇分类论文,我这里分享其中的一篇论文,是关于使用神经网络对光流进行学习. 课程地址是:https://aistudio.baidu.com/aistudio/educatio ...

最新文章

  1. 使用栈结构完毕四则运算
  2. 概览屏幕(最新动态屏幕、最近任务列表)
  3. GCD 深入理解:第一部分
  4. 重新定义代理的扩展性:WebAssembly在Envoy与Istio中的应用
  5. matlab title多个标题_MATLAB中的直方图处理及均衡化
  6. 03-搭建Eureka注册中心和服务端
  7. 简单粗暴地理解js原型链--js面向对象编程
  8. FireFox 插件xpi文件签名2
  9. OpenCV中使用 cv2.calcHist()-画直方图案例
  10. SAP库存查询MB52报表如何设置为ALV格式显示?
  11. excel表格横向纵向变换_Excel 的初级逻辑
  12. WWW 2022最佳论文出炉!北京大学团队获唯一最佳学生论文奖
  13. 杠杆炒股为什么会被强制平仓?
  14. magento mysql4-install_MAGENTO与表,数据字段的对应关系
  15. 【嵌入式--伺服电机】(11)MIT无刷电机FOC硬件电路分析
  16. IDE新建gradle liferay workspace项目没有项目目录问题解决方案
  17. 微信公众平台API接口开发教程
  18. FTP:文件传输协议
  19. AMD CPU无法安装Intel HAXM解决方法
  20. [转载] iOS开发分辨率那点事

热门文章

  1. Oracle中ROW_NUMBER() OVER()函数用法
  2. NEUQ-acm第二次双周赛补题
  3. acm第二次双周赛题单
  4. mac安装git的时候踩过的坑
  5. KISS,新Blog
  6. 远程计算机组策略,利用Windows XP组策略实现远程关机
  7. android edittext长按复制,用EditText 实现 textView 长按复制效果,edittexttextview
  8. jasypt 加密解密+自定义加密算法
  9. 滴滴如何调度_滴滴知识(口碑值)怎么增加流水
  10. MyBatis查询数据返回null