对视频进行分类是一个活跃的研究领域,因为处理这种类型的问题需要大量的数据。内存需求经常达到现代GPU的极限,可能需要在多台机器上进行分布式的训练。

目前学者们正在探索复杂度不断增加的几个方向,来回顾一下:
第一种方法是通过将视频的每一帧视为一幅单独的图像,利用二维 CNN 进行处理。这种方法将视频分类问题简化为图像分类问题。每帧视频图像都有类别输出,并且根据各帧输出的类别,选择频率最高的类别作为视频的分类结果。
第二种方法是创建一个单一的网络,将二维 CNN 与一个 RNN 结合在一起。这个想法是,CNN 将考虑到图像分量,而 RNN 将考虑每个视频的序列信息。这种类型的网络可能非常难以训练,因为要优化的参数数量非常大。
第三种方法是使用三维卷积网络,其中三维卷积网络是二维 CNN 的在 3D 张量(时间,图像宽度,图像高度)上运行的扩展。这种方法是图像分类的另一个自然延伸,但三维卷积网络可能很难训练。
第四种方法基于智能方法的直觉。它们可以用于存储视频中每个帧的离线功能,而不是直接使用 CNN 进行分类。这个想法基于,特征提取可以非常有效地进行迁移学习,如前面章节所示。在提取所有的特征之后,可以将它们作为一组输入传递给RNN,其将在多个帧中学习序列并输出最终的分类。
第五种方法是第四种方法的简单变体,其中最后一层是 MLP 而不是 RNN。在某些情况下,就计算需求而言,这种方法可以更简单并且成本更低。
第六种方法也是第四种方法的变体,其中特征提取阶段采用三维 CNN 来提取空间和视觉特征,然后将这些特征传递给 RNN 或 MLP。

参考文章

https://blog.csdn.net/neural_net_child/article/details/78440306

视频分析中的那点事情相关推荐

  1. 深度学习在视频分析中的架构、算法及应用

    直播与短视频业务的兴起,代表了一种内容交互方式的变化,更加追求强交互,这种变化催化了很多技术和架构的转型,由传统的传输.存储优先演进为计算与智能.本文是由360人工智能研究院视频大数据组技术负责人陈强 ...

  2. 视频分析与多模态融合之一,为什么需要多模态融合

    视频分析与多模态融合之一,为什么需要多模态融合 FesianXu 20210130 at Baidu search team 前言 在前文<万字长文漫谈视频理解>[1]中,笔者曾经对视频理 ...

  3. OpenCV视频分析背景提取与前景提取

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 基本思想 OpenCV中支持的两种背景提取算法都是基于模型密度评估 ...

  4. 深度学习与视频分析简介

    文章大纲 视频分析简介 视频理解 方法与技术 技术优势 重要技术罗列 目标检测 帧差法 使用深度学习进行视频分析 视频分析中的目标检测 架构 系统逻辑架构 典型应用场景 5G 工序检测 工业质量控制 ...

  5. 计算机视频分析,暴雨/夜间/人群密集难倒视频分析?三篇CVPR2021论文攻克这些难题...

    智东西(公众号:zhidxcom) 作者 | 杨畅 编辑 | Panken 智东西7月25日消息,近日,由耶鲁-新加坡国立大学学院(Yale-NUS College)副教授Robby Tan领导的研究 ...

  6. 基于C3D网络的视频分析与动作识别

    卷积神经网络(CNN)被广泛应用于计算机视觉中,包括分类.检测.分割等任务.这些任务一般都是针对图像进行的,使用的是二维卷积(即卷积核的维度为二维).而对于基于视频分析的问题,2D convoluti ...

  7. 视频直播中用户连麦技术模型与特点分析

    本文章来源与网络(视频直播中用户连麦技术模型与特点分析 - 老头慢慢飞 - 博客园) 随着Web与移动视频直播应用的深度发展,有用户参与互动的视频直播技术被越来越多平台所支持,原来的RTMP流媒体方案 ...

  8. 淘宝店铺装修教程之下载淘宝视频及分析视频地址中的高逼格信息

    摘要: 关于淘宝视频方面的教程,艺灵已写过好几篇了,唯独没有下载的教程,然后群内小伙伴也一直问这个问题,所以特写此教程,内含信息量巨大,看官慎入...... 一.起因 还是因为刚有群友在群里问这个问题 ...

  9. 【机器学习】机器学习在爱奇艺视频分析理解中的实践

    原标题:大规模机器学习在爱奇艺视频分析理解中的实践 AI 前线导读:视频包含了图像.声音.文字等多种信息,可以表达生动.丰富的内容.随着 AI 时代的带来,互联网视频应用高速发展,视频更成为一种人人可 ...

最新文章

  1. xpath定位元素方法_测试数十次,总结了APP元素定位的万能方法
  2. [翻译] NSRegexTester
  3. JAVA面向对象为啥return实参,Java面向对象编程(OOP)
  4. Linux五部分的含义,Linux 目录下部分重要目录的用途及含义及一些命令的作用
  5. URL2Video:把网页自动创建为短视频
  6. 运行sre10_在生产中运行Java:SRE的观点
  7. 【HDU - 4597】Play Game(博弈dp)
  8. lg空调代码大全解决_LG空调故障代码大全
  9. 7-181 帅到没朋友 (20 分)
  10. 一线大厂在用的反爬虫方法,看我如何破了它!
  11. Intel 64/x86_64/IA-32/x86处理器 - 通用指令(4) - 比特位设置指令/字节设置指令
  12. proe输入数字时成双出现_职场数据控系列,超市基础篇,商品双ABC分析法及应用...
  13. id nfc模拟_模拟门禁卡: NFC卡模拟 v3.1.5 清爽版
  14. 计算机鼠标老跳动,用win10系统,鼠标总是乱飞乱跳怎么回事,找到原因及解决方案了...
  15. 出家12年,北大数学天才柳智宇下山还俗:从事心理咨询,主动要求降薪至2万...
  16. Mac录屏想只要电脑内置的声音
  17. 软件测试工程师简历编写规范
  18. 使用MQTTNet包实现客户端与服务端通讯
  19. 结绳中文编程入门手册
  20. LeetCode知识点总结 - 844

热门文章

  1. 月历(从星期一开始)
  2. c++中map、multimap、unordered_map、unordered_multimap的区别
  3. 长痘痘不能吃哪些食物
  4. 尚硅谷JavaScript高级教程(javascript实战进阶)学习笔记
  5. 利用Wireshark任意获取QQ好友IP实施精准定位
  6. oracle数据库 cmd,cmd命令操作Oracle数据库
  7. 思维模型 边际效应递减法则
  8. openMVS深度图计算:DenseReconstruction Estimate之EVTEstimateDepthMap之深度图初始化(patchmatch)
  9. c语言十进制展开式形式,十六进制与运算 十六进制与十进制相互转化的公式
  10. matlab fft谱分析实验报告,数字信号处理实验报告-FFT算法的MATLAB实现.doc