《Action Recognition》-I3D

Contributions

在新的数据集Kinetics上对当时的SOTA模型进行了实验，并分析了在Kinetics预训练后模型的提升。Kinetics数据集包含了400种动作，每个动作有超过400个片段的视频。
提出了一种新的模型Two Stream Inflated 3D ConvNet(I3D),在HMDB-51和UCF-101数据集上分别达到了80.9%和98.0%的准确率。

Experiment

作者对下图的几个网络进行了测试：

Convnet+LSTM
3D Convnets
与原C3D不同之处在于这里在每个卷积层后使用了BN层，并将第一层池化时序上的步长由1改成2，减小内存使用，以获得更大batch的训练。
Two-Stream Networks
Two-stream and the 3D fused version
Two-Stream Inflated 3D ConvNets
1). 对于3D来说，时间维度不能缩减地过快或过慢。如果时间维度的感受野尺寸比空间维度的大，将会合并不同物体的边缘信息。反之，将捕捉不到动态场景。因此改进了BN-Inception的网络结构。在前两个池化层上将时间维度的步长设为了1，空间还是22。最后的池化层是27*7。训练的时候将每一条视频采样64帧作为一个样本，测试时将全部的视频帧放进去最后average_score。除最后一个卷积层之外，在每一个卷积后面都加上BN和relu。

2). **I3D结构扩展方式:**如果2D的滤波器为NN的，那么3D的则为NN*N的。具体做法是沿着时间维度重复2D滤波器权重N次，并且通过除以N进行归一化。

3).**从预先训练的ImageNet模型中引导参数来初始化I3D:**作者将图像重复复制到视频序列中将图像转换为(boring)视频。然后，在ImageNet上对3D模型进行隐式预训练，满足我们所谓的无聊视频固定点((boring)视频上的池化激活应与原始单个图像输入上的池化激活相同)，这可以实现通过在时间维度上重复2D滤波器的权重N次，并且通过除以N来重新缩放它们，这确保了卷积滤波器响应是相同的。

Result

不同结构网络的对比
在Kinetics数据集上测试，有无经过Imagnet进行预训练
在Kinetics数据集上预训练
与其他模型对比

参考：https://blog.csdn.net/weixin_44402973/article/details/94396298

《Action Recognition》-Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset(I3D)相关推荐

Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset I3D论文精读
Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset I3D论文精读论文地址:https://openaccess. ...
《Qua Vadis, Action Recognition? A New Model and the Kinetics Dataset》论文解读之Two-Stream I3D
本文是CVPR 2017的一篇文章 Paper:Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset github: ...
I3D泛读【Que Vadis,Action Recognition?A New Model and the Kinetics Dataset】
目录 0.前沿 1.标题 2.摘要 3.结论 4.重要图表 5.解决了什么问题 6.采用了什么方法 7.达到了什么效果 0.前沿泛读我们主要读文章标题,摘要.结论和图表数据四个部分.需要回答用什么方 ...
《论文阅读》EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa
<论文阅读>EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa 简介思路出发点任务定义模 ...
(I3D)Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset 论文解读
Abstract 本论文提出了一种新的数据集Kinetics.他是ucf101,HMDB-51数据集的的两倍. 论文分别将当前现有的模型在Kinetics数据集上跑一遍,看这些模型在此数据集上表现的如 ...
I3D视频分类论文梗概及代码解读Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset
论文https://arxiv.org/pdf/1705.07750.pdf,from DeepMind ,CVPR2017 代码https://github.com/LossNAN/I3D-Tens ...
《Netty 实战》Netty In Action中文版第2章——你的第一款Netty应用程序（一）
第2章你的第一款Netty应用程序本章主要内容设置开发环境编写Echo服务器和客户端构建并测试应用程序在本章中,我们将展示如何构建一个基于Netty的客户端和服务器.应用程序很简单:客户端 ...
美国《消费者报告》实测特斯拉Model 3，“完全自动驾驶”名不符实
贾浩楠发自凹非寺量子位报道 | 公众号 QbitAI 8000美元的特斯拉自动驾驶包(国内售价56000元),究竟值不值? 最近,颇有影响力的美国<消费者报告>,拿到了热卖的Mod ...
百度飞桨顶会论文复现（5）：视频分类论文之《Representation Flow for Action Recognition》篇
这次老师在课上总共领读了4篇分类论文,我这里分享其中的一篇论文,是关于使用神经网络对光流进行学习. 课程地址是:https://aistudio.baidu.com/aistudio/educatio ...

《Action Recognition》-Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset(I3D)

《Action Recognition》-I3D

目录

Contributions

Experiment

Result

《Action Recognition》-Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset(I3D)相关推荐

最新文章

热门文章