人体姿态估计 | 七篇你必须仔细阅读的论文

本文列举了如下七篇在人体姿态估计领域很有代表性的文章。
典型的single-stage网络：
2017 coco关键点冠军【CPN,1711.07319.pdf】。
2018CVPR alphapose【RMPE,1612.00137.pdf, CrowdPose,1812.00324.pdf】。
2018CVPR 【SimpleBaselines,1804.06208.pdf】

典型的multi-stage网络：
2016ECCV【Hourglass，1603.06937.pdf】。
2019coco关键点冠军【Hrnet，1902.09212.pdf】。
2019CVPR改进Hrnet【HigherHRNet,1908.10357.pdf】

指出multi-stage网络存在的问题：
2019CVPR 【MSPN,1901.00148.pdf】

1.CPN网络简单介绍

本论文中值得学习的思想如下：

GlobalNet先识别出简单关键点，再由（借助 online hard keypoint mining loss 的）RefineNet 整合来自前者的特征表征以识别余下的困难关键点。这样从易到难，层层推进，最终克服了关键点难以识别的问题。
online hard keypoints mining
在coco数据集中有17个关键点需要预测，GolbalNet预测所有的17个点，并计算所有17个点的loss，RefineNet也预测所有的17个点，但是只计算其中最难的8个点的loss。在训练中还使用了类似OHEM的OHKM策略。

2. alphapose网络简单介绍

RMRE：论文中值得学习的思想如下：

Symmetric Spatial Transformer Network – SSTN 对称空间变换网络：在不准确的bounding box中提取单人区域
Parametric Pose Non-Maximum-Suppression – NMS 参数化姿态非最大抑制：解决冗余
Pose-Guided Proposals Generator – PGPG 姿态引导区域框生成器：增强训练数据。

该方法能够处理不准确的bounding box（边界框）和冗余检测。

CrowdPose：论文中值得学习的思想如下：

joint-candidate single person pose estimation (SPPE)：通过候选点的概念，设计了对应的候选loss，从而抑制非当前人体实例的点，实现了对拥挤人体关键点的提取。
global maximum joints associatio：基于上述特定的单人姿态估计网络，检测到的关键点数量比实际要多，因此提出以图论的方式，通过一个线性规划求解最优解的方式实现最优图的构建，从而实现最优实例的链接。

3.simple baseline网络简单介绍

本论文中值得学习的思想如下：

如下图所示，本论文提出了一种极其简单的单人姿态估计网络，因为简单有效，所以作者称之为baseline。alphapose中的CrowdPose就是使用了这种baseline。该baseline表示即使用下图中的c，简单的降采样加升采样就可以实现类似a图中的hourglass，b图中的CPN等网络的性能。这一结论很值得深思啊。。。

4.Hourglass网络简单介绍

一篇很好的介绍Hourglass的文章。
本论文中值得学习的思想如下：

使用模块进行网络设计
先降采样，再升采样的全卷积结构
跳级结构辅助升采样
中继监督训练

5.Hrnet网络简单介绍

一篇很好的介绍Hrnet的文章。
本论文中值得学习的思想如下：

并行连接高低分辨率子网，而不是像大多数现有解决方案那样串联连接。因此，本文的方法能够保持高分辨率而不是通过从低到高的过程恢复分辨率，因此预测的热图可能在空间上更精确。
大多数现有的融合方案汇总了低级别和高级别的表示。相反，本文在相同深度和相似水平的低分辨率表示的帮助下执行重复的多尺度融合以提升高分辨率表示，反之亦然，导致高分辨率表示对于姿势估计也是丰富的。因此，本文预测的热图可能更准确。

6HigherHrnet网络简单介绍

本论文的主要思想：

在高分辨率网络(HRNet)上增加一个高效的反卷积模块，以降低计算开销，提出了一种高分辨率网络(HigherHRNet)。
提出了一种训练阶段的多分辨率训练和热度图聚合策略，使高分辨率网络能够预测具有尺度感知的热图。
达到了bottom-up的最好效果——70map。

7.MSPN网络简单介绍

以Hourglass网络为代表的multi-stage网络在Mpii的数据集上有不错的效果，然而Hourglass网络在coco数据集上的表现并没有以CPN为代表的single-stage网络优秀。然而另一个multi-stage网络Hrnet确在coco上获得了很好的成绩。所以这并不能说明这两大类网络的优劣。基于Hourglass在coco数据集上并不是很优秀的表现，本文重新思考了这种多阶段策略。并得出了如下三个结论：

从上述Hourglass的网络结构示意图中，我们可以发现在每个stage中，特征图先被降采样，然后升采样，从上图红色区域我们可以发现整个过程网络的通道保持了一致，该过程导致每个降采样后特征的损失。因为降采样后特征图变小了，只有将通道数扩大，才能在升采样时把损失补充回来。
抛弃hourglass的每个stage的连接方式,而使用U-net这种连接方式. 文章认为这种做法可以有效的传递上一个stage的信息给下一个stage,从而促进下一个stage更好的预测pose，如下图所示.
不同的stage对应的label heatmap 高斯核范围大小不同. 下一stage的heatmap label 高斯核要比上一stage的heatmap label 高斯核更小,如图所示: