动作识别综述(Recent Advances in Video-Based Human Action)## 标题

动作识别综述(Recent Advances in Video-Based Human Action)

#介绍
动作识别可以应用于监督,机器人,卫生保健,视频搜索,人机交互。但是动作识别依然面对很多挑战,比如杂乱的背景,遮挡,视角变化,执行速度,摄像机运动

用于动作识别的数据集一般分为单视角,多视角,RGB-depth数据集。视频数据的时间信息对于动作识别非常重要

早期动作识别的SOTA方法都是使用手动建立的基于时空兴趣点计算的运动和肌理描述,后来使用从原始视频中计算出的特征,然后训练分类器。不过这种方法是基于问题的,也就是说只是应用于具体的问题,对于更广阔的真实世界来说很有挑战性。

基于深度学习的动作识别方法变得流行,因为它能够分层次地从多个层次学习特征,并自动地构建原始输入的高级表示。 深度学习使用一些诸如局部感知,权重共享,多卷积核,向下池化的方法,从图像的一部分而不是全部图像来学习局部特征,最终的识别结果由多个卷积层的结果决定。 比较流行的是CNN框架。
深度学习方法可以识别具有复杂结构的高级活动,它具有良好性能,特征提取的鲁棒性和泛化能力,这让它更加成功和流行。

人类活动分为四种:
姿态,动作,与物体的交互,群组活动

#数据集

##单视角数据集:Weizmanndataset KTH dataset UCF sports Hollywood datasets

Hollywood datasets:This dataset recordedten actions and each action was performed by ten persons.
KTH dataset:KTH dataset contains six actions with four different scenarios,performed by twenty five actors
UCF sports:UCF sports dataset contains 150 sports motions consideringhuman appearance, camera movement, viewpoint change, illumination and background
Hollywood datasets:The Hollywood dataset proposeseight actions to address the challenges of occlusions, cameramovements and dynamic backgrounds

单视点数据集通常使用单个摄像机从某个不变的角度记录人类动作,而不需要摄像机移动。
最早的单视点数据集由魏茨曼研究所于2001年发布

##多视角数据集:
多视角数据集的优势在于,它们从不同的角度对3D人体形状进行建模,并且与单视点流相比,避免了遮挡问题
IXMAS dataset:contains 14 actions performed by 11 persons
i3DPost Multi-view dataset:Eight high definition cameras were used tocapture twelve actions performed by eight person
MuHAVi:They used eight non-synchronized camerasto capture 17 actions performed by 14 actors
Videoweb:four groups of actors perform actions, which were captured by
four to eight cameras tailored for group activity recognition.
CASIA Action dataset:focuses on interactionsbetween persons and it contains eight types of single personactions performed by 24 people and seven types of interactionscaptured by three static cameras from different angles

##深度和RGB数据集:
深度和RGB视频不仅包含视频帧,还包含称为深度图的特殊数据,用于测量对象从观察点的深度。
MSR-Action3D dataset:它包含由10名受试者执行的20种动作类型,每个动作执行两到三次。该数据集用于生成骨骼运动,可用于精确描述动作
DailyActivity3D dataset:包含16种活动类型
Multiview 3D event dataset: 包含三个Kinect相机从不同视点同时捕捉的RGB、深度和人体骨骼数据,由十个演员表演的十个动作类别组成
==Cornell ActivityDatasets ==:使用Kinect记录了人类活动的RGB-D视频序列。它有两个子数据集CAD-60和CAD-120,分别由60个RGB-D视频和120个RGB-D视频组成

#方法
用于单视角数据集的方法是动作识别领域的基础,它的方法可以扩展到多视角数据集。
##单视角数据集方法:
CNN:可以直接从像素点学习到视觉模式,不需要预处理
CNN&RNN:第一步使用CNN学习时空特征,第二步使用RNN对序列进行分类
3D CNN:在输入的同一位置进行多个卷积操作,获得多个特征。生成多个通道(灰度gray,横坐标梯度(gradient-x),纵坐标梯度(gradient-y),x光流(optflow-x),y光流(optflow-y)),以对相邻视频帧中的每个通道执行卷积和二次采样。

Factor-ized spatio-temporal CNNs:处理不同层中的时间和空间核,可以减少网络的学习参数的数量,利用变换和置换算子,训练和推理策略以及稀疏度集中指数方案产生最终结果
LSTM:RNN的变体。它使用内存块来代替常规网络单元。LSTM的门神径决定何时记住、忘记或者输出该值
SNN:脉冲神经网络的工作原理与生物网络相似,该模型是一种前馈脉冲神经网络的分层结构,用于模拟两个视觉皮层区域:初级视觉皮层(VI)和中颞区(MT),以此来处理动作识别。它模仿VI和MT的工作机理,检测到运动能量之后,信息被VI和MT层处理。运动能量首先在VI层被SNN模型进行转换,然后MT单元根据VI和MT两层之间的映射关系汇集从VI单元接收的信息,特征是从由MT脉冲神经元产生的脉冲序列中提取的。最终输出由SVM分类器识别。
DBN:DNN的变体,它由多个隐藏单元层组成,层与层之间连接来学习用于动作识别的特征
DTD&DNN:首先从具有多个连续帧的原始数据中提取密集的轨迹,然后将轨迹投影到画布上。通过这种方式,他们可以将原始3D空间转换成2D空间并导入它们,因此降低了数据的复杂性。随后,他们将数据输入深度神经网络(DNN),该网络用于学习更宏观的密集轨迹表示
P-CNN:基于姿势的CNN]描述符被用于动作识别,该描述符基于人力姿势产生。输入数据分为五个部分。对于每一部分,从视频中提取两种帧,即RGB帧和flow帧。P-CNN特征由这两种帧生成,并分别在聚集和归一化阶段之后在CNN中处理。

##多视角,深度和rgb数据集方法:
MOCAP(motion captureinformation)&CNN:MOCAP广泛应用于深度和多视角视频的人体骨架预测。它使用CNN来识别局部模式,然后MOCAP信息的分析可以达到更好的分类精度。
RNN&LSTM:它根据人体结构将人体骨骼分为五个部分,并将它们分成五个子网,称为双向RNNs (BRNNs)。最后一个BRNN层采用LSTM神经元来克服消失梯度问题
多任务学习方法证明了它作为一种分层方法来学习几个任务以获取内在相关性的有效性


未来工作和讨论
多视角动作识别还比较少被研究,每一流或许都可以使用一个网络去处理
数据集动作简单,是非情绪化的和有意的。
在单视角视频帧中分类多个运动也会是挑战,可以对数据预处理来提取输入,投入到多个网络中
综述链接: link.

动作识别综述(Recent Advances in Video-Based Human Action)相关推荐

  1. 基于3D关节点的人体动作识别综述(转)

    原文:2016,Pattern Recognition: 3D skeleton-based human action classification: A survey 摘要 近年来,基于深度序列的人 ...

  2. 语音识别(ASR)论文优选:端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  3. CVPR 2021 | 用于动作识别,即插即用、混合注意力机制的 ACTION 模块

    分享一篇来自 CVPR 2021 的文章,ACTION-Net: Multipath Excitation for Action Recognition.作者单位:都柏林圣三一大学,字节跳动 AI L ...

  4. CVPR 2020 论文大盘点-动作识别篇

    本文盘点所有CVPR 2020 动作识别(Action Recognition )相关论文,该方向也常被称为视频分类(Video Classification ).从后面的名字可以看出该任务就是对含人 ...

  5. CVPR2022最新106篇论文整理|包含目标检测、动作识别、图像处理等32个方向

    转自:极市平台 分类目录: 检测类 2D目标检测 3D目标检测 伪装目标检测 显著性目标检测 边缘检测 消失点检测 分割类 图像分割 语义分割 视频目标分割 人脸 人脸生成 人脸检测 图像处理 图像复 ...

  6. CVPR‘22 最新106篇论文分方向整理|包含目标检测、动作识别、图像处理等32个方向

    CVPR 2022 已经放榜,本次一共有2067篇论文被接收,接收论文数量相比去年增长了24%.在CVPR2022正式会议召开前,为了让大家更快地获取和学习到计算机视觉前沿技术,极市对CVPR022 ...

  7. CVPR 2022 最新106篇论文分方向整理|包含目标检测、动作识别、图像处理等32个方向

    CVPR 2022 已经放榜,本次一共有2067篇论文被接收,接收论文数量相比去年增长了24%.在CVPR2022正式会议召开前,为了让大家更快地获取和学习到计算机视觉前沿技术,极市对CVPR022 ...

  8. 时序动作定位:Rethinking the Faster R-CNN Architecture for Temporal Action Localization(TAL-Net)

    这篇是2018CVPR的文章,论文下载链接: http://cn.arxiv.org/pdf/1804.07667.pdf 1 背景 1.1 Faster R-CNN vs TAL-Net 得益于Fa ...

  9. 【综述】Recent Advances and Challenges in Task-oriented Dialog Sytems

    本文主要总结对话系统的最新进展及其面临的挑战.除此之外,还会讨论以下三个关键的主题: 提高数据的使用效率,推动对话模型在低资源情况下的效果 为策略学习建立多轮动态模型,达到更好的任务完成效果 融合领域 ...

最新文章

  1. Navicat导出表结构
  2. 这些数学趣图,数学老师看了后会怎么想?
  3. hmi开发软件c语言,组态,HMI,软件,VC++,源代码
  4. 软件测试面试题linux,linux基础面试题
  5. mysql 执行sql error 2,Mysql:执行source sql脚本时,出现:error 2
  6. 【英文写作日知录 第2期】句式汇总 Sun, 04 July 2021
  7. 【MyBatis框架】mapper配置文件-关于动态sql
  8. Windows Print Spooler 远程代码执行漏洞(CVE-2021-34527)
  9. matlab函数anova,MATLAB进行单因素方差分析-ANOVA
  10. 跟我一起走进内联汇编的世界
  11. WhatsApp选择了便利而不是隐私,这是解决问题的方法
  12. 2022年圣诞节外贸出口热门清单 外贸进出口商品查询 贸易动力
  13. 打开文件安全警告怎么关闭?
  14. Android RecyclerView万能分割线
  15. python获取模块的名称_Python获取模块名称
  16. [搜索算法]三分搜索初步
  17. 期末总结 : 2019-2020(2)
  18. 【附源码】Python计算机毕业设计实验室耗材管理系统
  19. 巧用WhatsUp监控机房温度
  20. 简单的avi视频播放器程序

热门文章

  1. 新建git分支并将本地分支推向远程
  2. 数字孪生技术:WebGL vs. 游戏引擎
  3. 聊聊sql优化的15个小技巧
  4. RPC框架与REST服务
  5. openstack dashboard invalid credentials
  6. 米洛个人修炼术:上班效率低事情做不完首先因为这
  7. python 龙卷风_预测龙卷风强度
  8. 人工智能用java还是python_人工智能选择python还是java语言
  9. Android 删除手机联系人,添加手机联系人,更新手机联系人信
  10. Jenkins创建maven项目