基于GCN的局限性:

1.输入特征是坐标,坐标对预测影响太大,一个小偏移会导致不同的结果

2.不容易与其他特征聚合

3.GCN的Gflops太大

1. Introduction

在本文中,作者提出了一个新的框架poseconov3d,它可以作为基于GCN的方法的竞争替代方案。特别是,PoseConv3D将图1所示的现代姿势估计器获得的2D姿势作为输入。2D姿势由骨骼关节的热图堆栈表示,而不是在人体骨骼图上操作的坐标。不同时间步的热图将沿时间维度堆叠,以形成3D热图体积。PoseConv3D然后在3D热图体积的顶部采用3D卷积神经网络来识别动作。

对比基于GCN的方法,PoseConv3D主要有以下优势:

(1)使用3D热图体素对上游姿势估计更具鲁棒性:PoseConv3D在通过不同方法获得的输入骨架上具有良好的通用性。

(2)poseconov3d依赖于基于表示的热图,享有卷积网络架构的最新进展,并且更容易与其他模式集成到多流卷积网络中。这一特性为进一步提高识别性能开辟了很大的设计空间。

(3)最后,poseconov3d可以处理不同数量的人,而不会增加计算开销,因为3D热图体积的复杂性与人数无关。

2. Related Work

GCN for skeleton-based action recognition

CNN for skeleton-based action recognition

3. Framework

3.1. Good Practices for Pose Extraction

坐标三元组(x,y,c),其中c表示热图的最大得分,(x,y)是c的对应坐标。在实验中,我们发现坐标三元组(x,y,c)在性能几乎没有下降为代价的情况下,有助于节省大部分存储空间。

3.2. From 2D Poses to 3D Heatmap Volumes

从视频帧中提取2D姿势后,为了将其输入PoseConv3D,我们将其重新格式化为3D热图体积。形式上,我们将2D姿势表示为大小为K x H xW的热图,其中K是关节数,H和W是帧的高度和宽度。我们可以直接使用自顶向下姿态估计器生成的热图作为目标热图,在给定相应边界框的情况下,对热图进行零填充以匹配原始帧。如果我们只有骨架关节的坐标三元组(xk,yk,ck),我们可以通过合成以每个关节为中心的K个高斯贴图来获得关节热图J:

σ控制高斯位图(Gaussian maps)的方差,(xk,yk)和ck分别是第k个关节的位置和置信度得分。我们还可以创建肢体热图L:

第k个肢体位于两个关节ak和bk之间。函数D计算从点(i;j)到段[(xak,yak),(xbk,ybk)]的距离。

可以很容易地将其扩展到多人情况,在这种情况下,我们可以直接累积所有人的第k个高斯位图,而无需放大热图。最后,通过沿时间维度叠加所有热图(J或L),获得三维热图体积,因此其大小为K x T x H x W。

在实践中,我们进一步应用两种技术来减少3D热图体积的冗余:

(1) Subjects-Centered Cropping  使热图与框架一样大是低效的,尤其是当感兴趣的人只在一个小区域内活动时,

(2) Uniform Sampling 通过对帧子集进行采样,还可以沿时间维度减小3D热图体积。为了从视频中采样n帧,我们将视频分成n个等长的片段,并随机选择片段中的一帧。均匀采样策略更能保持视频的全局动态。我们的实证研究表明,均匀采样策略对基于骨架的动作识别非常有利。

4. Experiments

4.1. Dataset Preparation

FineGYM【49】、NTURGB+D【38、48】、Kinetics400【6、71】、UCF101【57】、HMDB51【29】和排球【23】

Performance & Efficiency

Robustness 为了测试这两个模型的稳健性,我们可以在输入中去掉一部分关键点,看看这种扰动会如何影响最终的精度

Generalization 为了比较GCN和3D-CNN的泛化,我们在FineGYM上设计了一个交叉模型检查

5. Conclusion

PoseConv3D解决了基于GCN的方法在健壮性、互操作性和可扩展性方面的局限性。

因此,参考这篇论文,再其他数据集用姿态估计heatmap去辅助动作识别会有不错得效果

【CVPR2022】论文阅读:Revisiting Skeleton-based Action Recognition相关推荐

  1. 【论文阅读】Attention Based Spatial-Temporal GCN...Traffic Flow Forecasting[基于注意力的时空图卷积网络交通流预测](1)

    [论文阅读]Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting[基于注 ...

  2. 《论文阅读》EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa

    <论文阅读>EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa 简介 思路出发点 任务定义 模 ...

  3. 论文阅读:Stroke Based Posterior Attention for Online Handwritten Mathematical Expression Recognition

    一.问题 OHMER旨在将人类手写轨迹点的坐标转换为计算机可以处理的格式化文件,如LaTeX字符串和inkml.与在线手写文本识别问题相比,OHMER面临着两个独特的挑战:复杂的二维空间结构和较小的开 ...

  4. 【论文阅读】Improving Table Structure Recognition with Visual-Alignment Sequential Coordinate Modeling

    利用视觉对齐顺序坐标建模改进表格识别 论文来源 论文内容 Abstract Introduction Related Work Task Definition Methodology CNN图像编码器 ...

  5. 记录 之 最近阅读的动作识别(action recognition)工作

    介绍: 其中C3D是3d卷积的比较有意义的开端,I3d在C3D之后做了一系列研究,包括引入双流网络,和LSTM网络,并使用已经训练好的2D图像分类模型的参数维数扩充后用做3D网络的预训练模型.S3D是 ...

  6. [论文阅读笔记44]Named Entity Recognition without Labelled Data:A Weak Supervision Approach

    一,题目 Named Entity Recognition without Labelled Data:A Weak Supervision Approach 无标记数据的命名实体识别: 一种弱监督方 ...

  7. 论文阅读笔记 (CVPR 2019) Gait Recognition via Disentangled Representation Learning

    一.论文摘要   步态是个体的行走方式,是最重要的生物特征识别手段之一.现有的步态识别方法大多以轮廓或关节体模型为步态特征.这些方法在处理诸如服装.携带和视角等混杂变量时会导致识别性能下降.为了解决这 ...

  8. 【论文阅读笔记 + 代码解读】(2018 AAAI)ST-GCN

    写在前面 ST-GCN 是skeleton based action recognition 的开山鼻祖.MMLab 出品,必是精品! 开山鼻祖级别的论文必有很多理论 + 数学公式,再加上本人(菜鸡) ...

  9. 论文笔记 Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition - CVPR

    Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition 2020 CVPR | c ...

  10. 【论文阅读】investigation of different skeleton features for cnn-based 3D action recognition

    [论文阅读]investigation of different skeleton features for cnn-based 3D action recognition 这篇论文主要实验了 在使用 ...

最新文章

  1. vue.js反编译_基于electron-vue开发的微信小程序反编译客户端
  2. java语言只保留了什么_java语言的保留的关键字【小白必读】
  3. mysql session大小写_mysql的大小写敏感性
  4. hive sql插入一行数据_Hive查询某一重复字段记录第一条数据
  5. Unity2017.1官方UGUI文档翻译——Visual Components
  6. SQLErrorCodeSQLExceptionTranslator
  7. java 在线支付_java如何实现在线支付讲解
  8. 李宏毅机器学习课程6~~~深度学习入门
  9. .NET Core开发实战(第7课:用Autofac增强容器能力)--学习笔记(下)
  10. c#XML的基本使用
  11. yolo如何降低loss_你一定从未看过如此通俗易懂的YOLO系列(从v1到v5)模型解读 (上)...
  12. CentOS安装postgresql9.1
  13. CN 国家顶级域名(摘自网络)
  14. 调试神器SEGGER_RTT移植使用
  15. 0xC000041D:用户回调期间遇到未经处理的异常
  16. Mac装双系统建议 及 减少发热的解决方法
  17. 科沃斯扫地机器人抓不转_科沃斯扫地机器人一边转一边不转什么原因 科沃斯扫地机器人常见...
  18. android studio 页面布局
  19. 位置不可用无法访问 chkdsk无法修复的文件恢复方法
  20. 图片的透明半透明显示!

热门文章

  1. 相位误差对SAR图像的影响
  2. c语言 代码自动补全,codeblocks 设置代码自动补全
  3. win10如何开启自带虚拟机
  4. python 计算字符串表达式_python计算数学表达式
  5. 【Pytorch】touch.optim
  6. 十行Python代码替换证件照背景颜色
  7. 大数据杀熟 算法_大数据杀熟这事,究竟有多没谱?
  8. office工具栏不见_如何在Office 2013中的快速访问工具栏上显示文件的位置
  9. sumif单列求和_excel sumif单条件求和 使用SUMIF函数统计单字段多条件求和的方法...
  10. 微信小程序——云开发实现图片上传到云存储并实时预览当前上传的图片