【论文阅读】Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
【论文阅读】Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
之前提出的3D卷积网络的深度都很浅,因为当时的数据集都小,很容易过拟合。但是现在有了kinetics,那么这个数据集在训练3D卷积网络时还会过拟合吗?本文经过实验发现,kinetics数据集即使在训练非常深的3DCNN时也不会过拟合。我们知道在图像领域,通常都会使用Imagenet预训练的网络,所以受此启发,可以将在kinetics预训练的网络应用到视频分析相关的应用中。所以我在这里再次安利一下作者的github地址,做视频相关内容的一定要关注一下。
论文地址:下载地址
作者的github(极力安利):下载地址
正文
3DCNN很早之前就提出来了,但是一直受限于数据集,所以一直无法超越基于双流网络的方法,最近kinetics数据集提出来了,那么视频中的kinetics数据集是否可以比肩图像中的ImageNet数据集呢?如果非常深的3DCNN在kinetics上训练不会过拟合,那么回答就是肯定的。所以基于此,作者做了许多的相关实验。
实验网络结构
首先需要确定实验的3D卷积网络结构,因为残差结构在2D图像中表现非常好,所以所有的3D卷积网络都是以残差结构为基础的。本文实验的3D模型分别以 Resnet,Pre-activation Resnet,Wide Resnet,Resnext以及Densenet等5种基本2D网络为基础。具体的结构如下图和下表所示(如果了解基本的网络结构还是很容易看懂的,如果哪里看不懂可以留言或者去看一下原文,这里就不做过多地介绍了):
相关实验
较小的数据集是否出现了过拟合?
文章首先在较小的数据集上训练较浅的3DCNN(Resnet-18)网络,来判断是否较浅的3D卷积网络也会出现过拟合,实验结果如下图所示:
从上图可以看出,其他三个数据集上验证损失快速地变化到一个较高的值,而且与训练损失之间有一个很大的gap,所以很明显地过拟合了。然后看kinetics的结果,可以看到验证损失比训练损失还要低,所以没有出现过拟合,这值得我们对kinetics数据集进行进一步探索。
kinetics上能训练多深的3D网络?
文章紧接着实验了在kinetics数据集上,基于resnet的网络随着网络深度的增加,识别准确率的变化,是否出现了过拟合,实验结果如下表所示:
根据上表可以看出,准确率是随着网络深度的增加而逐渐提升的,说明之前18层的网络在kinetics上欠拟合了。然后在到达200层时,准确率结果和152层差不多,这个和2Dresnet在ImageNet上的表现是相似的。然后再看一下其他网络结构在kinetics上的结果,可以看到其他网络在kinetics上的结果对比与对应的2D网络在ImageNet上的表现是一致的,所以可以判断kinetics数据集中的数据量是足够地大的。
kinetics上预训练的效果?
我们知道使用在ImageNet上预训练的网络是一种非常普遍的方法,那么使用kinetics上预训练的网络是否依然有效呢?文章最后实验了在kinetics上预训练,然后在ucf101和hmdb51上微调的效果,微调的时候只微调conv5_x和全连接层,可以看到微调的结果远远地大于train from scratch。如下图所示:
总结
这篇文章很简单,我解读的最主要的原因是安利文章的github,哈哈。
【论文阅读】Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?相关推荐
- Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet? 网址:http://openaccess.thecvf. ...
- Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet
Abstract 本研究的目的是确定现有的视频数据集是否有足够的数据来训练具有时空三维核的非常深卷积神经网络(cnns).近年来,三维cnns在动作识别领域的性能水平有了显著的提高.然而,到目前为止, ...
- Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet? (CVPR 2018)
- 【论文阅读】6-Automatic 3D Model Construction for Turn-Table Sequences
[论文阅读]6-Automatic 3D Model Construction for Turn-Table Sequences 1.知识点回顾 2.论文阅读 2.1.input& outpu ...
- 【论文阅读】Spatio-Temporal Graph Convolutional Networks:...Traffic Forecasting[时空图卷积网络:用于交通预测的深度学习框架](1)
[论文阅读]Spatio-Temporal Graph Convolutional Networks: A Deep Learning Framework for Traffic Forecastin ...
- 【论文阅读】【3d目标检测】Group-Free 3D Object Detection via Transformers
论文标题:Group-Free 3D Object Detection via Transformers iccv2021 本文主要是针对votenet等网络中采用手工group的问题提出的改进 我们 ...
- [HSI论文阅读] | HybridSN: Exploring 3-D–2-D CNN Feature Hierarchy for Hyperspectral Image Classification
仅整理个人和组里对下文引用的论文(HybridSN)的学习所获,如有错误,感谢指正~ 更新记录 ⭐️ 2021.3.6 -- 关于本文2.2.2节卷积层参数的计算 ⭐️ 2021.3.8 -- Hyb ...
- 论文阅读笔记:3D deeply supervised network for automated segmentation of volumetric medical images
摘要 深度卷积神经网络(CNN)在二维医学图像分割方面取得了显著的成功,但由于其复杂的解剖结构等诸多相互影响的挑战,使得CNN从三维医学图像中分割重要的器官或结构仍然是一项艰巨的任务.立体图像中的环境 ...
- <论文阅读>用于 3D 点线和平面的视觉惯性里程计框架 A Visual Inertial Odometry Framework for 3D Points, Lines and Planes
被疫情包围了!在家多看看论文吧- 论文地址:A Visual Inertial Odometry Framework for 3D Points, Lines and Planes [摘要]:恢复连续 ...
最新文章
- 如何实现C++中的多线程编程
- 小伙一本正经用石头打造CPU,号称99秒“解决”芯片危机
- python代码壁纸-70行python代码实现壁纸批量下载
- 深度学习核心技术精讲100篇(七)-keras 实战系列之深度学习模型处理多标签(multi_label)
- 新手可以做的ai比赛:亲测有效
- 【推荐系统】推荐系统概述
- Java static 静态代码块、代码块
- SpringMVC 运行原理及主要组件
- 程序员面试题之从字节截断谈起
- html站点的定义,HTML是什么?您构建网页的一站式解决方案
- 购书网站前端实现(HTML+CSS+JavaScript)
- 现代魔法学院——闲聊哈希表及哈希表的链地址法实现
- 大型网站架构之安全性:高安全架构
- mne plot出错_MNE-Python 环境配置 | win 10
- echart饼图标签重叠_解决echarts中饼图标签重叠的问题
- ConfigurationChanged流程梳理(屏幕旋转、语言及字体切换)
- 微服务架构——马丁弗勒
- 计算机错误提示声音,电脑报警提示音有哪些
- iphone x/xr/xs/xs max 微信input输入框和吸底兼容问题
- [bzoj4887][矩阵乘法]可乐
热门文章
- matlab微分方程稳定流形,基于matlab的lorenz系统仿真研究
- 鲨纹科技,罗永浩的黑科技还是万金油?
- 怎样更改计算机缓存,电脑怎么修改系统缓存文件夹位置
- pig的内置函数小总结(不全)
- linux检测usb程序占用,在Linux中检测USB大容量存储器弹出/卸载
- 记录:Linux软件记录
- Python控制安卓手机自动刷短视频实现金币收益
- 虚拟现实技术是综合利用计算机图形学等,虚拟现实技术与图形学
- 【转】GhostXP_SP3 电脑公司特别版 v2011.06(庆端午)
- RepVGG网络简介