视频理解-Video Understanding

视频理解是计算机视觉中的重要任务，近年来随着深度学习特别是监督学习的应用视频理解取得了飞速的发展，例如视频行为分类和视频片段总结等任务都取得了令人瞩目的成果。

不过，现实生活中很多场景的应用视频片段需要不止一个标签来提供足够的信息。举个例子，机器人往杯子里倒水，一个简单的“倾倒液体”标签不足以预测出杯子何时倒满，机器人需要逐帧追踪杯中的水量。再比如说，在运动分析领域，棒球教练不仅仅想要看到投球的动作，而是想精确地分析投手投出棒球离手的一瞬间，单一的视频标签不足以完成这样的视频检索任务。这意味着视频理解模型需要逐帧理解视频的能力。

然而如果使用监督学习的方法将会使学习成本变得非常昂贵，这需要针对视频里每一帧的动作进行细粒度的标注，训练不同的动作还需要新的标注来提供监督信号。但从机器人到运动分析等领域，细粒度的视频理解有着很强的需求，那么如何在不需要大量标签的情况下对视频进行学习以理解细粒度的信息呢？

来自谷歌的研究人员们提出了一种称为时间循环一致性学习(Temporal Cycle-Consistency Learning,TCC)的自监督方法。通过学习不同样本相似过程的表示来实现细粒度的时域视频理解，为逐帧视频检索、动作分析、视频同步和多模态迁移提供了新的解决方案。

理解视频中的动态行为是AI未来发展的关键方向。

视频行为理解包括视频分类、动作识别、时序行为检测和视频摘要生成等。

最近整理了一下所看的论文，主要是视频分类、动作识别和视频数据集方面的，列举了相关数据集上的最佳水平，分享在GitHub。

HMDB51数据集上，DOVF+MIFS方法最高水平的准确度为75%，在该数据集上还有较大的性能提升空间；
UCF101数据集上，TLE方法达到最高水平的准确率为95.6%；
ActivityNet数据集上，UntrimmedNet (hard)方法获得最高水平为91.3%；
Sports-1M数据集上，LSTM+Pretrained on YT-8M方法获得最高水平的Hit@1和Hit@5，分别为74.2%和92.4%，mAP为67.6%；
YouTube-8M数据集上，WILLOW团队的方法获得最高水平的84.967%。
Awesome Video Understanding

2. 对视频内容的语义进行关键词提取；
1) 对视频的帧截图：

l 有的是截每一帧；

l 有的是镜头转换时再截，如何判断视频的镜头是否转换呢?计算前后两个图片的差距，差的很多，说明镜头换了，需要再截图。

2) 对截图进行语义识别；

3) 将视频的语音转换成文字；

4) 对文字进行语义识别

5) 将上述截图得到的语义和文字得到的语义综合在一起，就是这个视频的语义；

视频理解-Video Understanding相关推荐

ECCV 2020 论文大盘点-视频理解与分类篇
继上文盘点的动作检测与识别篇论文,今日继续盘点与之息息相关的论文:视频分类(Video Classification)与视频理解(Video Understanding)类. 下载包含这些论文的 EC ...
【视频理解论文】——TSM：Temporal Shift Module for Efficient Video Understanding
TSM: Temporal Shift Module for Efficient Video Understanding(ICCV2019) 这是一篇关于视频理解的文章,主要介绍了一种可以达到3DCN ...
Video Understanding(视频理解，I3D，SlowFast，Non-local)
CV领域图像已经登天很难逐渐完善,视频也开始蓬勃发展.由于早期限制于数据集和计算设备,多是从图像的2D模型直接转换成3D版本,如SIFT 3D,3D HOG,或者Dense Trajectory这种统 ...
【2017】Large-Scale YouTube-8M Video Understanding with Deep Neural Networks借助深度神经网络对YT8M进行大规模视频理解
paper: https://arxiv.org/abs/1706.04488 摘要视频分类问题已经研究了很多年. 卷积神经网络(CNN)在图像识别任务中的成功为研究人员创建更高级的视频分类方法提供 ...
基于视频理解TSM和数据集20bn-jester-v1的27类手势识别
基于视频理解TSM-mobilenetv2和数据集20bn-jester-v1的27类手势识别基于视频理解TSM-resnet50和数据集20bn-jester-v1的27类手势识别基于视频理解T ...
基于视频理解TSM和数据集Kinetics-400的视频行为识别
基于视频理解TSM和数据集Kinetics-400的视频行为识别基于视频理解TSM和数据集Kinetics-400的视频行为分类基于视频理解TSM-mobilenetv2和数据集Kinetics- ...
人群场景分析--Slicing Convolutional Neural Network for Crowd Video Understanding
Slicing Convolutional Neural Network for Crowd Video Understanding CVPR2016 http://www.ee.cuhk.edu.h ...
计算机视觉未来走向：视频理解等5大趋势详解
作者:廖康,北京交通大学信息科学研究所校对:梦佳智源导读:近年来,深度学习在各种计算机视觉任务上都取得了重大的突破,其中一个重要因素就是其强大的非线性表示能力,能够理解图像更深层次的信息.本文针对 ...
重磅开源！首个基于Transformer的视频理解网络来啦！
部分转载自:机器之心 | 编辑:小舟.陈萍 Facebook AI 提出新型视频理解架构:完全基于Transformer,无需卷积,训练速度快.计算成本低.最近由Facebook提出的首个完全基于 ...

视频理解-Video Understanding

视频理解-Video Understanding相关推荐

最新文章

热门文章