《Action Recognition》-Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset(I3D)
《Action Recognition》-I3D
目录
- 《Action Recognition》-I3D
- Contributions
- Experiment
- Result
Contributions
- 在新的数据集Kinetics上对当时的SOTA模型进行了实验,并分析了在Kinetics预训练后模型的提升。Kinetics数据集包含了400种动作,每个动作有超过400个片段的视频。
- 提出了一种新的模型Two Stream Inflated 3D ConvNet(I3D),在HMDB-51和UCF-101数据集上分别达到了80.9%和98.0%的准确率。
Experiment
作者对下图的几个网络进行了测试:
Convnet+LSTM
3D Convnets
与原C3D不同之处在于这里在每个卷积层后使用了BN层,并将第一层池化时序上的步长由1改成2,减小内存使用,以获得更大batch的训练。Two-Stream Networks
Two-stream and the 3D fused version
Two-Stream Inflated 3D ConvNets
1). 对于3D来说,时间维度不能缩减地过快或过慢。如果时间维度的感受野尺寸比空间维度的大,将会合并不同物体的边缘信息。反之,将捕捉不到动态场景。因此改进了BN-Inception的网络结构。在前两个池化层上将时间维度的步长设为了1,空间还是22。最后的池化层是27*7。训练的时候将每一条视频采样64帧作为一个样本,测试时将全部的视频帧放进去最后average_score。除最后一个卷积层之外,在每一个卷积后面都加上BN和relu。
2). **I3D结构扩展方式:**如果2D的滤波器为NN的,那么3D的则为NN*N的。具体做法是沿着时间维度重复2D滤波器权重N次,并且通过除以N进行归一化。
3).**从预先训练的ImageNet模型中引导参数来初始化I3D:**作者将图像重复复制到视频序列中将图像转换为(boring)视频。然后,在ImageNet上对3D模型进行隐式预训练,满足我们所谓的无聊视频固定点((boring)视频上的池化激活应与原始单个图像输入上的池化激活相同),这可以实现通过在时间维度上重复2D滤波器的权重N次,并且通过除以N来重新缩放它们,这确保了卷积滤波器响应是相同的。
Result
- 不同结构网络的对比
- 在Kinetics数据集上测试,有无经过Imagnet进行预训练
- 在Kinetics数据集上预训练
- 与其他模型对比
参考:https://blog.csdn.net/weixin_44402973/article/details/94396298
《Action Recognition》-Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset(I3D)相关推荐
- Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset I3D论文精读
Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset I3D论文精读 论文地址:https://openaccess. ...
- 《Qua Vadis, Action Recognition? A New Model and the Kinetics Dataset》论文解读之Two-Stream I3D
本文是CVPR 2017的一篇文章 Paper:Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset github: ...
- I3D泛读【Que Vadis,Action Recognition?A New Model and the Kinetics Dataset】
目录 0.前沿 1.标题 2.摘要 3.结论 4.重要图表 5.解决了什么问题 6.采用了什么方法 7.达到了什么效果 0.前沿 泛读我们主要读文章标题,摘要.结论和图表数据四个部分.需要回答用什么方 ...
- 《论文阅读》EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa
<论文阅读>EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa 简介 思路出发点 任务定义 模 ...
- (I3D)Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset 论文解读
Abstract 本论文提出了一种新的数据集Kinetics.他是ucf101,HMDB-51数据集的的两倍. 论文分别将当前现有的模型在Kinetics数据集上跑一遍,看这些模型在此数据集上表现的如 ...
- I3D视频分类论文梗概及代码解读Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset
论文https://arxiv.org/pdf/1705.07750.pdf,from DeepMind ,CVPR2017 代码https://github.com/LossNAN/I3D-Tens ...
- 《Netty 实战》Netty In Action中文版 第2章——你的第一款Netty应用程序(一)
第2章 你的第一款Netty应用程序 本章主要内容 设置开发环境 编写Echo服务器和客户端 构建并测试应用程序 在本章中,我们将展示如何构建一个基于Netty的客户端和服务器.应用程序很简单:客户端 ...
- 美国《消费者报告》实测特斯拉Model 3,“完全自动驾驶”名不符实
贾浩楠 发自 凹非寺 量子位 报道 | 公众号 QbitAI 8000美元的特斯拉自动驾驶包(国内售价56000元),究竟值不值? 最近,颇有影响力的美国<消费者报告>,拿到了热卖的Mod ...
- 百度飞桨顶会论文复现(5):视频分类论文之《Representation Flow for Action Recognition》篇
这次老师在课上总共领读了4篇分类论文,我这里分享其中的一篇论文,是关于使用神经网络对光流进行学习. 课程地址是:https://aistudio.baidu.com/aistudio/educatio ...
最新文章
- 使用栈结构完毕四则运算
- 概览屏幕(最新动态屏幕、最近任务列表)
- GCD 深入理解:第一部分
- 重新定义代理的扩展性:WebAssembly在Envoy与Istio中的应用
- matlab title多个标题_MATLAB中的直方图处理及均衡化
- 03-搭建Eureka注册中心和服务端
- 简单粗暴地理解js原型链--js面向对象编程
- FireFox 插件xpi文件签名2
- OpenCV中使用 cv2.calcHist()-画直方图案例
- SAP库存查询MB52报表如何设置为ALV格式显示?
- excel表格横向纵向变换_Excel 的初级逻辑
- WWW 2022最佳论文出炉!北京大学团队获唯一最佳学生论文奖
- 杠杆炒股为什么会被强制平仓?
- magento mysql4-install_MAGENTO与表,数据字段的对应关系
- 【嵌入式--伺服电机】(11)MIT无刷电机FOC硬件电路分析
- IDE新建gradle liferay workspace项目没有项目目录问题解决方案
- 微信公众平台API接口开发教程
- FTP:文件传输协议
- AMD CPU无法安装Intel HAXM解决方法
- [转载] iOS开发分辨率那点事