姿态估计入门-2020综述《The Progress of Human Pose Estimation: A Survey and Taxonomy of Models Applied in 2D》
《The Progress of Human Pose Estimation: A Survey and Taxonomy of Models Applied in 2D Human Pose Estimation》
2020 IEEE Access 论文链接
2D人体姿态估计入门指南。
文章目录
- 1 预备知识
- 2 姿态估计的相关部件
- 1)骨干网络
- 2)损失函数
- 3)数据集
- 4)评价指标
- 3 近年代表性paper
- DeepPose 2014 [^1]
- ConvNet POSE 2015 [^2]
- CPN 2018 [^3]
- SIMPLE BASELINES FOR HUMAN POSE ESTIMATION AND TRACKING 2018 [^4]
- DarkPose: DISTRIBUTION-AWARE COORDINATE REPRESENTATION FOR HUMAN POSE ESTIMATION 2019 [^5]
- 4 总结
1 预备知识
人体姿态估计:基于图片来定位人体的关节点和刚性部件。
根据一张图中待检测人的数量,可分为单人姿态检测和多人姿态检测。显然多人姿态检测任务更加困难。
姿态估计有两种常用范式:
Top-down:先检测每个人的bbox,再对每个人分别做姿态估计。(bbox->pose)
缺点:1)detection阶段遗漏的目标人无法恢复 2)运行时间与人数正相关 3)对位置相近的人表现较差
Bottom-up:定位关键点,再进行组合。(localizing->grouping)
解决了Top-down范式的缺点1)2),还可利用全局语义信息,但对重叠较多的人的姿态估计仍比较困难
姿态估计的应用领域:动作识别,人体追踪,动画,游戏……
2 姿态估计的相关部件
1)骨干网络
AlexNet / VGG --> R-CNN系列 / FPN / Mask R-CNN–> ResNet
ResNet是目前最主流的姿态估计骨干网络。
2)损失函数
L1 loss:对outliers不敏感(鲁棒的),但模型优化较困难
L2 loss:对outliers敏感
Cross-Entropy loss:衡量预测概率与真值的距离
3)数据集
名称 | 场景 | 图片数量 | 标记关节点数 | 待检测人数 |
---|---|---|---|---|
FLIC | 电影片段 | 5003 | 10 | single/multiple |
LSP Ext | 运动 | 11000+1000 | 14 | single |
MPII | 日常生活 | 25000 | 15 | single/multiple |
COCO | 无限制 | 200000 | 17 | multiple |
COCO和MPII是目前最常用的。
4)评价指标
关节检测率相关指标:预测关节点位置与gt距离小于某参考值时,认为该关节点被检测到。
- PCP (Percentage of Correct Parts):以关节点所在肢干长度的一半为参考。由于该指标对短肢干更严格,逐渐被弃用。
- PDJ (Percentage of Detected Joints):以人体躯干直径(从左肩到右臀)的某个比例为参考。e.g. PDJ@0.2,通过改变这个比例,可以得知定位的精确度。
- PCK (Percentage of Correct Key-points):以某个设定阈值为参考。
- PCKh :以头部长度(头部gt bbox的对角线长度的60%)的某个比例为参考。PCKh@0.5是目前常用的评价指标。
- AUC (Area Under the Curve):评估PCK不同比例值(@0.x)选取下,模型检测关节点的能力。
关节点定位精确度指标:
- OKS (Object Keypoint Similarity):评估预测关节点与gt间的相近程度,类似于IoU。
- 通过OKS取不同阈值,可计算AP和mAP
3 近年代表性paper
笔者感到近年提出的基于深度学习的姿态估计模型都有几个显著共同点:
- multi-stage:coarse --> refine,对关节点位置逐步修正,以达到更高的定位精度
- multi-resolution:多尺度信息融合
- heatmap:生成与原图尺寸一致的关节点概率分布图。
- encoder-decoder范式:从高精度到低精度的encoding过程可以看作一个传统的classification,直接使用常见backbone,这部分计算开销较大;上采样是轻量级的。
- 增大感受野:更大的感受野使模型能够利用更多全局信息(如可利用人体对称性、背景信息),对关节点进行更精准的位置预测。
DeepPose 2014 1
采用深度学习做单人姿态估计的第一个工作,AlexNet,CNN-based regression, multi-stage
局限:直接回归到一个位置坐标是非常困难的,这使得模型的学习过程很难,泛化能力差
ConvNet POSE 2015 2
让模型输出与输入图同尺度的heatmap,来表达各位置存在关节点的概率。解决了之前工作中直接回归坐标的困难。
整体架构:coarse heatmap -> crop -> fine heatmap
局限:由于对各关节点进行了crop(感受野太小),使得refine阶段无法利用人体姿态的结构特性。人体姿态有其结构特性,如物理连接性、关节活动限制、左右对称性等,我们可以检测可见的关节点,再用这些信息来指导被遮挡关节点的位置估计。
CPN 2018 3
Cascaded Pyramid Network
- GlobalNet: 估计简单关节点
- RefineNet: 估计困难关节点, online hard keypoint mining loss
SIMPLE BASELINES FOR HUMAN POSE ESTIMATION AND TRACKING 2018 4
ResNet + deconv 就可以取得很好的效果
DarkPose: DISTRIBUTION-AWARE COORDINATE REPRESENTATION FOR HUMAN POSE ESTIMATION 2019 5
对heatmap的重新解读,distribution modulation
4 总结
常用骨干网络ResNet,Top-down模式,COCO和MPII数据集,L2 loss损失函数,PCKh@0.5评价指标。
这篇文章总结了2D人体的总体姿态估计,现在还有一些新的研究针对部分躯干做姿态估计(如手势、头的姿态、上半身姿态等)。
对于单人姿态估计,现有方法已经能达到较好效果;但在多人姿态估计领域,还有许多挑战,如被身体/衣物/其他人遮挡的关节点、人与人之间的交互、人体结构限制、不可见关节点等。
A.ToshevandC.Szegedy,‘‘DeepPose:Humanposeestimationviadeep neural networks,’’ in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2014, pp. 1653–1660. ↩︎
J. Tompson, R. Goroshin, A. Jain, Y. LeCun, and C. Bregler, ‘‘Efficient object localization using convolutional networks,’’ in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2015, pp. 648–656. ↩︎
Y. Chen, Z. Wang, Y. Peng, Z. Zhang, G. Yu, and J. Sun, ‘‘Cascaded pyramid network for multi-person pose estimation,’’ in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2018, pp. 7103–7112, doi: 10. 1109/CVPR.2018.00742. ↩︎
B. Xiao, H. Wu, and Y. Wei, ‘‘Simple baselines for human pose estima- tion and tracking,’’ in Computer Vision—ECCV, V. Ferrari, M. Hebert, C. Sminchisescu, and Y. Weiss, Eds. Cham, Switzerland: Springer, 2018, pp. 472–487. ↩︎
F.Zhang,X.Zhu,H.Dai,M.Ye,andC.Zhu,‘‘Distribution-awarecoor- dinate representation for human pose estimation,’’ in Proc. CVPR, 2019, pp. 7093–7102. ↩︎
姿态估计入门-2020综述《The Progress of Human Pose Estimation: A Survey and Taxonomy of Models Applied in 2D》相关推荐
- 论文阅读笔记--Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods 人体姿态估计综述
趁着寒假有时间,把之前的论文补完,另外做了一点点笔记,也算是对论文的翻译,尝试探索一条适合自己的论文阅读方法. 这篇笔记基本按照原文的格式来,但是有些地方翻译成中文读起来不太顺,因此添加了一些自己的理 ...
- 【2020-CVPR-3D人体姿态估计】Compressed Volumetric Heatmaps for Multi-Person 3D Pose Estimation
Compressed Volumetric Heatmaps for Multi-Person 3D Pose Estimation 题目:<用于多人3D姿态估计的压缩体积热图> 作者:M ...
- 3D人体姿态估计--Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose
Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose Project and Code: https://www.se ...
- 2020人体姿态估计综述(Part4:3D Human Pose Estimation from Image)
承接之前的博文: A 2020 Human Pose Estimation Review (Part1:2D Single Person) A 2020 Human Pose Estimation R ...
- 公开课 | 让机器读懂你的意图——人体姿态估计入门
机器视觉的主要任务是让机器看懂世界,而世界的主要组成是人类社会.我们一直在围绕物和人的识别展开研究:物品检测识别.行人检测与跟踪.人脸识别. 事实上,行人检测是人的整体粗粒度识别,人脸识别是人的局部特 ...
- 计算机视觉中头部姿态估计的研究综述--Head Pose Estimation in Computer Vision - A Survey
计算机视觉中头部姿态估计的研究综述 埃里克.莫非,IEEE的初级会员 默罕 马努拜特里维迪,IEEE高级会员 摘要---让计算机视觉系统作为一个普通人拥有识别另一个人的头部姿势的能力这一想法的提出,对 ...
- 3D人体姿态估计综述 - 《3D Human pose estimation: A review of the literature and analysis of covariates》
<3D Human pose estimation: A review of the literature and analysis of covariates> CVIU 2016 论文 ...
- Human Pose Estimation人体姿态估计综述调研
给定一幅图像或一段视频,人体姿态估计就是去恢复其中人体关节点位置的过程. 数据集 LSP 地址:http://sam.johnson.io/research/lsp.htm 样本数:2K 关节点个数: ...
- Human Pose Estimation姿态估计调研
介绍 姿态估计的目标是在RGB图像或视频中描绘出人体的形状,这是一种多方面任务,其中包含了目标检测.姿态估计.分割等等.有些需要在非水平表面进行定位的应用可能也会用到姿态估计,例如图形.增强现实或者人 ...
最新文章
- 计算机房做法图集,万科建筑标准工程做法通用图集(全套)
- 基于深度学习的OCR-from 美團技術團隊
- 聊聊自动化测试路上遇到的挑战
- 自定义最大高度的ViewGroup
- Linux下判断字符串长度
- Eclipse配置Tomcat服务器,通用方法
- android+建模工具,什么是适用于Android Studio的3D模型环境的最佳工具
- 解决SpringBoot多模块发布时99%的问题?SpringBoot发布的8个原则和4个问题的解决方案
- 斗地主AI算法——第四章の权值定义
- Ajax:前台利器—Ajax
- 深度学习:人脸识别算法孪生网络(Siamese Network)
- 入选《PHP领域内容榜》,感谢CSDN,感谢各位浏览过我的朋友
- Matlab7.0安装教程
- 《信号与系统学习笔记》—z变换(二)
- PMBOK(第六版) PMP笔记——《六》第六章(项目进度管理)
- 20210311 plecs 对传递函数进行波特图分析
- 《引力的动态理论》的解读-尼古拉·特斯拉
- backtrader概念(二)Trade
- ios 关于MBProgressHUD简单实用
- AWS免费账号取消步骤
热门文章
- 蓝屏的硬件原因及解决
- 梅氏砝码(2014腾讯实习笔试附加题)
- 最新的漆包线生产工艺流程,9000余字细节介绍。让你读懂漆包线流程
- java(十)【属性集,缓冲流、转换流、序列化流】
- 我最喜欢的计算机专业课作文,我喜欢电脑课作文
- 达内python培训评价
- 找不到ld-linux.so.3,usr/bin/ld: cannot find 错误解决方法和 /etc/ld.so.conf
- 中国历史朝代公元对照简表
- vue 实现无限轮播_vue实现匀速轮播效果
- Markdown修改字体颜色、输入数字公式、输出空格