1. Introduction

在本文中，作者提出了一个新的框架poseconov3d，它可以作为基于GCN的方法的竞争替代方案。特别是，PoseConv3D将图1所示的现代姿势估计器获得的2D姿势作为输入。2D姿势由骨骼关节的热图堆栈表示，而不是在人体骨骼图上操作的坐标。不同时间步的热图将沿时间维度堆叠，以形成3D热图体积。PoseConv3D然后在3D热图体积的顶部采用3D卷积神经网络来识别动作。

对比基于GCN的方法，PoseConv3D主要有以下优势：

（1）使用3D热图体素对上游姿势估计更具鲁棒性：PoseConv3D在通过不同方法获得的输入骨架上具有良好的通用性。

（2）poseconov3d依赖于基于表示的热图，享有卷积网络架构的最新进展，并且更容易与其他模式集成到多流卷积网络中。这一特性为进一步提高识别性能开辟了很大的设计空间。

（3）最后，poseconov3d可以处理不同数量的人，而不会增加计算开销，因为3D热图体积的复杂性与人数无关。

2. Related Work

GCN for skeleton-based action recognition

CNN for skeleton-based action recognition

3. Framework

3.1. Good Practices for Pose Extraction

坐标三元组（x，y，c），其中c表示热图的最大得分，（x，y）是c的对应坐标。在实验中，我们发现坐标三元组（x，y，c）在性能几乎没有下降为代价的情况下，有助于节省大部分存储空间。

3.2. From 2D Poses to 3D Heatmap Volumes

从视频帧中提取2D姿势后，为了将其输入PoseConv3D，我们将其重新格式化为3D热图体积。形式上，我们将2D姿势表示为大小为K x H xW的热图，其中K是关节数，H和W是帧的高度和宽度。我们可以直接使用自顶向下姿态估计器生成的热图作为目标热图，在给定相应边界框的情况下，对热图进行零填充以匹配原始帧。如果我们只有骨架关节的坐标三元组（xk，yk，ck），我们可以通过合成以每个关节为中心的K个高斯贴图来获得关节热图J：

σ控制高斯位图（Gaussian maps）的方差，（xk，yk）和ck分别是第k个关节的位置和置信度得分。我们还可以创建肢体热图L：

第k个肢体位于两个关节ak和bk之间。函数D计算从点（i；j）到段[（xak，yak），（xbk，ybk）]的距离。

可以很容易地将其扩展到多人情况，在这种情况下，我们可以直接累积所有人的第k个高斯位图，而无需放大热图。最后，通过沿时间维度叠加所有热图（J或L），获得三维热图体积，因此其大小为K x T x H x W。

在实践中，我们进一步应用两种技术来减少3D热图体积的冗余:

(1) Subjects-Centered Cropping 使热图与框架一样大是低效的，尤其是当感兴趣的人只在一个小区域内活动时,

(2) Uniform Sampling 通过对帧子集进行采样，还可以沿时间维度减小3D热图体积。为了从视频中采样n帧，我们将视频分成n个等长的片段，并随机选择片段中的一帧。均匀采样策略更能保持视频的全局动态。我们的实证研究表明，均匀采样策略对基于骨架的动作识别非常有利。

4. Experiments

4.1. Dataset Preparation

FineGYM【49】、NTURGB+D【38、48】、Kinetics400【6、71】、UCF101【57】、HMDB51【29】和排球【23】

Performance & Efficiency

Robustness 为了测试这两个模型的稳健性，我们可以在输入中去掉一部分关键点，看看这种扰动会如何影响最终的精度

Generalization 为了比较GCN和3D-CNN的泛化，我们在FineGYM上设计了一个交叉模型检查

5. Conclusion

PoseConv3D解决了基于GCN的方法在健壮性、互操作性和可扩展性方面的局限性。

因此，参考这篇论文，再其他数据集用姿态估计heatmap去辅助动作识别会有不错得效果

【CVPR2022】论文阅读：Revisiting Skeleton-based Action Recognition相关推荐

【论文阅读】Attention Based Spatial-Temporal GCN...Traffic Flow Forecasting[基于注意力的时空图卷积网络交通流预测]（1）
[论文阅读]Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting[基于注 ...
《论文阅读》EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa
<论文阅读>EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa 简介思路出发点任务定义模 ...
论文阅读：Stroke Based Posterior Attention for Online Handwritten Mathematical Expression Recognition
一.问题 OHMER旨在将人类手写轨迹点的坐标转换为计算机可以处理的格式化文件,如LaTeX字符串和inkml.与在线手写文本识别问题相比,OHMER面临着两个独特的挑战:复杂的二维空间结构和较小的开 ...
【论文阅读】Improving Table Structure Recognition with Visual-Alignment Sequential Coordinate Modeling
利用视觉对齐顺序坐标建模改进表格识别论文来源论文内容 Abstract Introduction Related Work Task Definition Methodology CNN图像编码器 ...
记录之最近阅读的动作识别(action recognition)工作
介绍: 其中C3D是3d卷积的比较有意义的开端,I3d在C3D之后做了一系列研究,包括引入双流网络,和LSTM网络,并使用已经训练好的2D图像分类模型的参数维数扩充后用做3D网络的预训练模型.S3D是 ...
[论文阅读笔记44]Named Entity Recognition without Labelled Data：A Weak Supervision Approach
一,题目 Named Entity Recognition without Labelled Data:A Weak Supervision Approach 无标记数据的命名实体识别: 一种弱监督方 ...
论文阅读笔记 (CVPR 2019) Gait Recognition via Disentangled Representation Learning
一．论文摘要步态是个体的行走方式,是最重要的生物特征识别手段之一.现有的步态识别方法大多以轮廓或关节体模型为步态特征.这些方法在处理诸如服装.携带和视角等混杂变量时会导致识别性能下降.为了解决这 ...
【论文阅读笔记 + 代码解读】（2018 AAAI）ST-GCN
写在前面 ST-GCN 是skeleton based action recognition 的开山鼻祖.MMLab 出品,必是精品! 开山鼻祖级别的论文必有很多理论 + 数学公式,再加上本人(菜鸡) ...
论文笔记 Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition - CVPR
Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition 2020 CVPR | c ...
【论文阅读】investigation of different skeleton features for cnn-based 3D action recognition
[论文阅读]investigation of different skeleton features for cnn-based 3D action recognition 这篇论文主要实验了在使用 ...

【CVPR2022】论文阅读：Revisiting Skeleton-based Action Recognition