论文:Multi-hypothesis representation learning for transformer-based 3D human pose estimation

摘要
尽管取得了重大进展,但由于深度模糊和自遮挡,从单目视频中估计3D人体姿势仍然是一项具有挑战性的任务。大多数现有的作品都试图通过利用空间和时间关系来解决这两个问题。然而,这些工作忽略了这样一个事实,即它是一个逆问题,其中存在多个可行解(即假设)。为了消除这一限制,我们提出了一个多假设转换器来学习多个貌似合理的姿势假设的时空表征。为了有效地建模多假设依赖关系并在假设特征之间建立强关系,我们引入了一个一对多对一的三阶段框架:(i)生成多个初始假设表示;(ii)对自我假设沟通进行建模,将多个假设合并为一个收敛的表示,然后将其划分为几个发散的假设;(iii)学习交叉假设交流,汇总多假设特征,合成最终的3D姿态。通过以上的处理,最终的表现得到了增强,合成的姿态更加准确。大量实验表明,该方法在Human3.6M和MPI-INF-3DHP两个具有挑战性的数据集上取得了最先进的结果。代码和模型可在https://github.com/Vegetebird/MHFormer 上获得。


步骤
在第一阶段,引入基于级联图转换器架构的多假设生成(MHG)模块,对人体关节的全局和局部固有结构信息进行建模,并在空间域中生成多个多层次特征。这些特征包含不同深度的不同语义信息,从浅到深,因此可以看作是多个假设的初始表示。

在第二阶段,提出了一个自假设细化(SHR)模块来细化每个单假设特征。SHR由两个新的区块组成。第一个模块是多假设自关注(MH-SA),它独立建模单假设依赖关系以构建自假设通信,使每个假设内的消息传递能够增强特征。第二个块是一个假设混合多层感知器(MLP),它在假设之间交换信息。将多个假设合并为一个收敛的表示,然后将该表示划分为几个发散的假设。虽然这些假设经过SHR的改进,但由于SHR中的MHSA仅传递假设内部信息,因此不同假设之间的联系不够强。
在最后阶段,交叉假设交互(CHI)模块对多假设特征之间的交互进行了建模。它的关键组件是多假设交叉注意(MH-CA),它捕获相互的多假设相关性来构建跨假设通信,使消息在假设之间传递,从而更好地进行交互建模。然后,使用假设混合MLP对多个假设进行聚合以合成最终预测。

贡献

  1. 我们提出了一种新的基于 Transformer 的方法,称为 MultiHypothesis Transformer (MHFormer++),用于从单目视频中估计 3D 人体姿势。构建了一个一对多对一的框架,可以端到端有效地学习多个姿态假设的时空表征。
  2. 多假设生成(Multi-Hypothesis Generation, MHG)模块旨在捕获每帧内人体关节的全局和局部信息,并在空间域中生成包含不同语义信息的多个假设表示。
  3. 引入了自假设细化(SHR)模块和交叉假设交互(CHI)模块来建模跨框架的时间一致性,并在时域内独立和相互通信多个假设特征。
  4. 该方法在 Human3.6M[23]和 MPI-INF-3DHP[24]数据集上达到了最先进的性能。

本文是我们的 CVPR 2022 会议论文[25]的延伸.与[25]相比,新的贡献包括:
(1)我们用图Transformer 编码器替换了原始MHG模块中的标准 Transformer 编码器。与原始版本只关注捕获全局上下文不同,图转换器编码器通过在变形器中引入图卷积网络(GCNs)来建模人体关节的全局和局部信息,能够更好地约束估计的三维人体姿势的物理结构,提高估计精度的性能。
(2)在原始CHI模块后增加融合块,更有效地将多个假设特征聚合为一个增强的假设表示。它可以通过在回归头中使用低维向量来缓解过拟合,从而提高性能。
(3)采用这些新设计,将[25]中提出的 MHFormer 升级为 MHFormer++。此外,实验结果表明,我们的 MHFormer++ 可以达到更好的性能和泛化能力。(4)我们进行了更广泛的定量和定性比较,包括平均每个关节速度误差(MPJVE),平均每个关节位置误差(MPJPE)分布,逐帧 MPJPE,关节方向MPJPE,以及具有挑战性的野外视频的可视化,以系统地显示所提出方法的有效性。

方法

MHFormer++

所提出的MHFormer++的概述如图3所示。

给定由现成的 2D 姿态检测器从视频中估计的连续 2D 姿态序列 X ∈ R N × J × 2 X∈R^{N×J×2} X∈RN×J×2,我们的方法旨在通过充分利用多假设特征层次中的时空信息来重建中心帧 X ∈ R J × 3 X∈R^{J×3} X∈RJ×3 的 3D 姿态。为了实现我们提出的一对多对一三阶段框架,MHFormer++ 建立在:
(i)三个主要模块:多假设生成(MHG)、自假设细化(SHR)和交叉假设交互(CHI)
(ii)两个辅助模块:时间嵌入和回归头。
具体而言,在空间领域,MHG 模块对人体关节之间的空间相关性进行建模,并生成多个初始假设表示。然后,时间嵌入模块将特征嵌入到高维向量中,并添加时间位置嵌入。在时域中,SHR 和 CHI 模块都捕获帧之间的时间相关性。此外,SHR 细化了单假设特征,CHI 捕获了多个假设之间的相互作用。最后,回归头模块进行回归预测最终的 3D 姿态。

MHG


具有三个不同假设的多假设生成(MHG)模块架构。MHG是一种基于级联图Transformer的架构,它在每帧内提取人体关节的内在结构信息,并生成多个假设表示。其中,N表示输入帧数,T表示换位操作。红色矩形突出显示了我们在MHFormer上的扩展

Self-hypothesis refinement


基于三种不同假设的自假设精化(SHR)和交叉假设交互(CHI)模块架构。利用SHR对单假设特征进行细化,利用CHI对多假设特征之间的相互作用进行建模。红色矩形突出显示了我们在MHFormer上的扩展。

在时域,我们首先构建SHR来细化单假设特征(见图5)。每个SHR层由一个多假设自注意(MH-SA)块和一个假设混合MLP块组成。
多个假设在MH-SA中被独立处理,但假设之间没有信息交换。为了解决这个问题,我们在MH-SA之后添加了一个混合假设的MLP。多个假设的特征被连接并输入到假设混合MLP中以合并(即收敛)它们自己。然后,将收敛的特征沿通道维度均匀分割(即发散)为不重叠的块,形成精细的假设表示。

Cross-hypothesis interaction

包含两个块:多假设交叉注意(MH-CA)和混合假设的MLP(HM-MLP)
MH-SA缺乏假设之间的联系,这限制了它的相互作用建模。为了在交叉假设通信中相互捕获多假设相关性,提出了由多个MCA元素并行组成的MH-CA。
MCA测量交叉假设特征之间的相关性,具有与MSA相似的结构。MCA的常见配置在键和值之间使用相同的输入。
然而,这种配置的一个问题是,它将导致更多的区块(例如,三个假设有6个MCA区块)。在这里,我们采用了一种更有效的策略,通过使用不同的输入(只需要3个MCA块)来减少参数的数量,如图6(右)所示。多个假设Zm交替被视为查询、键和值,并被输入MHCA:

左:多头自我注意(MSA)。右:多头交叉注意(MCA)。

结论

本文提出了一种基于多假设变压器(Multi-Hypothesis Transformer, MHFormer++)的新方法,用于单目视频中三维人体姿态估计的模糊逆问题。与现有的多假设方法遵循一对多映射不同,我们引入了一对多对一框架,该框架首先在空间域中生成多个姿态假设的初始表示,然后在时间域中以独立和相互的方式进行通信。它提高了每个假设的表征能力,同时也增强了多个假设之间的联系。大量的实验表明,所提出的方法比单假设变形器具有根本的优势,并且在两个流行的3D人体姿态数据集上实现了最先进的性能。我们希望我们的方法能够促进2d到3d姿态提升的进一步研究,考虑到各种模糊性。
我们的方法的一个限制是相对较大的计算复杂度。变压器的优异性能是以高昂的计算成本为代价的。未来,我们将探索更有效的策略来应对这一具有挑战性的任务。此外,由于我们方法的目标与输出单个解的一般单假设方法相同,因此生成的假设的多样性可能低于现有的多假设方法。目前,我们采用端到端方式训练具有多假设中间表示的一对多对一确定性框架。应用多阶段优化策略或使用混合密度网络[17]或归一化流[62]等概率建模方法来增加生成假设的多样性并提高性能将是未来有希望的研究方向。

读论文-MHFormer相关推荐

  1. 我的读论文经验总结!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:胡来,Datawhale成员 从入门到精通一个领域,绕不开文献阅读 ...

  2. 记录理解程度、一篇至少读3遍,吴恩达建议这样读论文!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale推荐 作者:Richmond Alake,来源:机器之心 在科研领域中,读论文 ...

  3. 沈向洋:读论文的三个层次

    Datawhale干货 来源:AI科技评论,沈向洋博士 作者 | 蒋宝尚 编辑  | 丛  末 5月14日,沈向洋博士在全球创新学院(GIX)课程上曾做了一场线上公开课<You are how ...

  4. 如何高效读论文?剑桥CS教授亲授“三遍论”:论文最多读三遍,有的放矢,步步深入...

    鱼羊 编译整理 量子位 报道 | 公众号 QbitAI 嗑盐之始,在于读论文. 一方面,把握最前沿的研究动态,激发自身研究灵感.另一方面,不做好文献调研,自己的绝妙想法变成了重复造轮子,这种体验可不太 ...

  5. 读论文七步走!CV老司机万字长文:一篇论文需要读4遍

      视学算法报道   编辑:LRS [新智元导读]读论文对于AI新手和工程师来说可能是一件比较难的事.最近一位从业超5年的CV老司机发布了一篇万字长文,讲述了读论文七步法,从找论文到总结,每篇论文由浅 ...

  6. 覆盖近2亿篇论文还免费!沈向洋旗下团队「读论文神器」登B站热搜

      视学算法报道   编辑:小咸鱼 好困 [新智元导读]无意中发现B站上有个叫ReadPaper的在线论文阅读笔记神器冲上了热榜!ReadPaper由沈向洋博士创办的IDEA旗下团队研发,其收录了近2 ...

  7. 记录理解程度、一篇至少读3遍,吴恩达建议这样读论文

    选自Medium 作者:Richmond Alake 机器之心编译 参与:杜伟.小舟.魔王 在科研领域中,读论文大概是大家的日常基本操作了.但如何读论文,才能实现效率最大化呢?斯坦福大学教授吴恩达在斯 ...

  8. 吴恩达教你如何读论文:绘制进度表格,论文至少看三遍,还要问自己问题

    来源:量子位 本文约1478字,建议阅读4分钟. 本文介绍如何研究一篇论文. 吴恩达教你如何读论文,高效了解新领域. 就算是博士,也很难对所有的关键技术都参透了解.那么如何有效了解一个新领域,是研究者 ...

  9. 吴恩达教你读论文:持续而缓慢的学习,才是正道

    来源:AI科技评论 本文约1800字,建议阅读5分钟. 本文将教你如何有效阅读论文,包括系统阅读论文集的方法,以及阅读单篇论文的方法. 在人工智能和机器学习领域中,了解前沿学者的最新研究的能力是每位严 ...

最新文章

  1. 4 行 Python 代码获取所在城市天气预报
  2. SLAM/检测跟踪/多传感器融合方向实习生招聘 | 腾讯Robotics X实验室
  3. 【转】mysql增量备份恢复实战企业案例
  4. 基于SRCNN的表情包超分辨率(附tensorflow实现)
  5. 监控——《微服务设计》读书笔记
  6. 第十一章 AtomicInteger源码解析
  7. C\C++不经意间留下的知识空白------const使用
  8. 【ES6】Class 类的使用与继承方法详解
  9. epplus word html,EPPlus简介
  10. Cron表达式 生成器
  11. Unity3d+moba+草丛视野
  12. Postman接口测试工具实战演练集
  13. 2019-2021届蓝桥杯——java真题集锦
  14. poi3.17导出excel添加附件解决办法
  15. 洛谷P4233 射命丸文的笔记 【多项式求逆】
  16. 第六届360前端星计划_前端代码的自我修养
  17. 骑士精神(IDA*)
  18. Android之蚂蚁森林能量水滴效果
  19. lg分屏软件支持linux吗,LG V10全部软件支持分屏模式修改教程
  20. ArcGIS API for Flex 调用天地图、e都市瓦片地图

热门文章

  1. Oracle 登录异常: invalid username/password; logon denied
  2. Freemarker的list指令和内建函数
  3. 【算法专项】动态规划专项四
  4. 获取div的各种高度
  5. 微信头像可以加挂件了,快试试
  6. mac 不识别 android samsung手机
  7. JAVA面向对象三大特征详解:(封装,继承,多态)
  8. 第六篇:微服务框架(SpringBoot、SpringCloud)
  9. iOS网络资源(动画)
  10. MySQL高级部分全集