视频理解是计算机视觉中的重要任务,近年来随着深度学习特别是监督学习的应用视频理解取得了飞速的发展,例如视频行为分类和视频片段总结等任务都取得了令人瞩目的成果。

不过,现实生活中很多场景的应用视频片段需要不止一个标签来提供足够的信息。举个例子,机器人往杯子里倒水,一个简单的“倾倒液体”标签不足以预测出杯子何时倒满,机器人需要逐帧追踪杯中的水量。再比如说,在运动分析领域,棒球教练不仅仅想要看到投球的动作,而是想精确地分析投手投出棒球离手的一瞬间,单一的视频标签不足以完成这样的视频检索任务。这意味着视频理解模型需要逐帧理解视频的能力。

然而如果使用监督学习的方法将会使学习成本变得非常昂贵,这需要针对视频里每一帧的动作进行细粒度的标注,训练不同的动作还需要新的标注来提供监督信号。但从机器人到运动分析等领域,细粒度的视频理解有着很强的需求,那么如何在不需要大量标签的情况下对视频进行学习以理解细粒度的信息呢

来自谷歌的研究人员们提出了一种称为时间循环一致性学习(Temporal Cycle-Consistency Learning,TCC)的自监督方法。通过学习不同样本相似过程的表示来实现细粒度的时域视频理解,为逐帧视频检索、动作分析、视频同步和多模态迁移提供了新的解决方案。

理解视频中的动态行为是AI未来发展的关键方向。

视频行为理解包括视频分类、动作识别、时序行为检测和视频摘要生成等。

最近整理了一下所看的论文,主要是视频分类、动作识别和视频数据集方面的,列举了相关数据集上的最佳水平,分享在GitHub。

HMDB51数据集上,DOVF+MIFS方法最高水平的准确度为75%,在该数据集上还有较大的性能提升空间;
UCF101数据集上,TLE方法达到最高水平的准确率为95.6%;
ActivityNet数据集上,UntrimmedNet (hard)方法获得最高水平为91.3%;
Sports-1M数据集上,LSTM+Pretrained on YT-8M方法获得最高水平的Hit@1和Hit@5,分别为74.2%和92.4%,mAP为67.6%;
YouTube-8M数据集上,WILLOW团队的方法获得最高水平的84.967%。
Awesome Video Understanding

2. 对视频内容的语义进行关键词提取;
1) 对视频的帧截图:

l 有的是截每一帧;

l 有的是镜头转换时再截,如何判断视频的镜头是否转换呢?计算前后两个图片的差距,差的很多,说明镜头换了,需要再截图。

2) 对截图进行语义识别;

3) 将视频的语音转换成文字;

4) 对文字进行语义识别

5) 将上述截图得到的语义和文字得到的语义综合在一起,就是这个视频的语义;

视频理解-Video Understanding相关推荐

  1. ECCV 2020 论文大盘点-视频理解与分类篇

    继上文盘点的动作检测与识别篇论文,今日继续盘点与之息息相关的论文:视频分类(Video Classification)与视频理解(Video Understanding)类. 下载包含这些论文的 EC ...

  2. 【视频理解论文】——TSM:Temporal Shift Module for Efficient Video Understanding

    TSM: Temporal Shift Module for Efficient Video Understanding(ICCV2019) 这是一篇关于视频理解的文章,主要介绍了一种可以达到3DCN ...

  3. Video Understanding(视频理解,I3D,SlowFast,Non-local)

    CV领域图像已经登天很难逐渐完善,视频也开始蓬勃发展.由于早期限制于数据集和计算设备,多是从图像的2D模型直接转换成3D版本,如SIFT 3D,3D HOG,或者Dense Trajectory这种统 ...

  4. 【2017】Large-Scale YouTube-8M Video Understanding with Deep Neural Networks借助深度神经网络对YT8M进行大规模视频理解

    paper: https://arxiv.org/abs/1706.04488 摘要 视频分类问题已经研究了很多年. 卷积神经网络(CNN)在图像识别任务中的成功为研究人员创建更高级的视频分类方法提供 ...

  5. 基于视频理解TSM和数据集20bn-jester-v1的27类手势识别

    基于视频理解TSM-mobilenetv2和数据集20bn-jester-v1的27类手势识别 基于视频理解TSM-resnet50和数据集20bn-jester-v1的27类手势识别 基于视频理解T ...

  6. 基于视频理解TSM和数据集Kinetics-400的视频行为识别

    基于视频理解TSM和数据集Kinetics-400的视频行为识别 基于视频理解TSM和数据集Kinetics-400的视频行为分类 基于视频理解TSM-mobilenetv2和数据集Kinetics- ...

  7. 人群场景分析--Slicing Convolutional Neural Network for Crowd Video Understanding

    Slicing Convolutional Neural Network for Crowd Video Understanding CVPR2016 http://www.ee.cuhk.edu.h ...

  8. 计算机视觉未来走向:视频理解等5大趋势详解

    作者:廖康,北京交通大学信息科学研究所 校对:梦佳 智源导读:近年来,深度学习在各种计算机视觉任务上都取得了重大的突破,其中一个重要因素就是其强大的非线性表示能力,能够理解图像更深层次的信息.本文针对 ...

  9. 重磅开源!首个基于Transformer的视频理解网络来啦!

    部分转载自:机器之心  |  编辑:小舟.陈萍 Facebook AI 提出新型视频理解架构:完全基于Transformer,无需卷积,训练速度快.计算成本低.最近由Facebook提出的首个完全基于 ...

最新文章

  1. python webshell_python脚本实现查找webshell的方法
  2. 20145106 《Java程序设计》第10周学习总结
  3. 宝塔服务器搞成虚拟主机,宝塔面板怎么配置虚拟主机
  4. php获取页面a标签内容_AKCMS常用标签代码整理
  5. .NET/ASP.NET Routing路由(深入解析路由系统架构原理)
  6. wxWidgets:wxRadioButton类用法
  7. BZOJ 1951: [Sdoi2010]古代猪文 [Lucas定理 中国剩余定理]
  8. vaadin_嵌入式码头,Vaadin和焊接
  9. DEV全选多选小技巧
  10. “嘲羊群众”词条视频惹怒粉丝 百度知道向张艺兴道歉...
  11. Unity超基础学习笔记(一)
  12. Maven学习总结(35)——Maven项目错误 JAX-RS (REST Web Services) 2.0 can not be installed问题...
  13. java多重继承和多继承_Java不支持多重继承,但可以通过 类实现多继承。类的继承具有 性。 (10.0分)_学小易找答案...
  14. Qt 实现多语言 国际化 翻译
  15. 6.9 齐次线性方程组
  16. Matplotlib confusion map显示不全
  17. 大学计算机基础学后感想,大学计算机基础学习感想
  18. 浅析API网关——Ocelot[网关]+Consul[服务发现负载均衡]+Polly[服务熔断]+Ids4[服务认证]
  19. AppCan学习笔记(2)-UI控件
  20. ERROR 2005 (HY000): Unknown MySQL server host 'locahost' (2)解决

热门文章

  1. oracle runc n m,19cRAC增删节点
  2. 【算法数据结构体系篇class16】:图 拓扑排序
  3. 简易的时间差计算(C语言)
  4. Docker网络容器通信
  5. Python运维(三)--Linux交互、邮件及监控模块
  6. Ubuntu 国内镜像下载地址大全
  7. vivox9android7.1版本,再战一年:vivo X9获得Anroid 7.1固件更新
  8. 社招网易游戏开发,一共三轮面试,看我如何手撕面试官拿下HR收下offer!
  9. swust oj 972
  10. 十七、从句_主语从句