综述速递|中国矿业大学计算机科学与技术学院陈伟教授与王珂副教授团队:基于深度学习的二维人体姿态估计综述

中国矿业大学计算机科学与技术学院陈伟教授与王珂副教授团队在《郑州大学学报(理学版)》上发表题为：“基于深度学习的二维人体姿态估计综述”的综述型论文。

Cite: WANG Ke, CHEN Qiteng, CHEN Wei, et al. Review of 2D Human Pose Estimation Based on Deep Learning[J]. Journal of Zhengzhou University(Natural Science Edition), 2024, 56(4): 11-20.

01 研究背景与意义

基于视觉的人体姿态估计旨在对图像或视频中例如铰链关节、枢轴关节、椭球关节以及球窝关节等人体关键点进行精准定位，并连接这些点构建出近似的“人体骨架”。作为计算机视觉领域的经典课题之一，这项技术在早期主要依赖于手工提取特征以及基于图结构(pictorial structures)、形变部件等传统模型。然而，这些传统方法在面对严重遮挡或复杂多变的现实环境时，往往在检测的准确性与时效性上难以满足实际需求，成为了技术落地的瓶颈。

近年来，深度学习技术的爆发式发展为该领域带来了革命性的突破。卷积神经网络（CNN）、生成对抗网络（GANs）以及高分辨率网络（HRNet）等先进模型的提出，凭借其强大的特征提取与数据拟合能力，极大地降低了研究门槛并显著提升了算法的整体准确率。如今，人体姿态估计已不再局限于实验室，而是广泛渗透至游戏娱乐、运动员表现分析、医学成像、人机交互以及安防监控等多个关键领域。本文将系统地从单人姿态估计延伸至多人姿态估计，深入剖析近年来的研究进展与实际应用，并探讨当前面临的核心挑战与未来的发展趋势。

02 文章亮点

系统梳理单人姿态估计两大范式，全面分析了基于深度学习的单人姿态估计方法，将其归纳为基于坐标回归与基于热图检测两大主流范式。详细阐述了从DeepPose到Poseur等代表性模型的演进历程，对比了各类方法在网络结构、特征提取及优缺点上的差异。

深度剖析多人姿态估计双路径，深入探讨了多人二维人体姿态估计的两种核心范式：自顶向下与自底向上。前者通过先检测后估计的策略追求高精度，后者则通过直接检测并分组关键点以实现高速度。文章详细解读了各路径下的经典模型（如RMPE、CPN、OpenPose、HRNet）及其改进策略。

分析难点与未来趋势，结合当前研究现状，文章客观指出了算法在复杂环境适应性、计算效率及姿态多样性方面存在的局限性。并前瞻性地提出了四个未来发展方向：提高对复杂场景的适应性、简化运算参数以降低计算成本、探索多模式学习机制，以及推动模型向半监督乃至无监督模式演进。

03 文章简读

本文详细梳理了单人与多人姿态估计两大方向的研究现状。在单人姿态估计方面，主要分为坐标回归和热图检测两类方法。坐标回归法旨在直接学习从图像到关节点坐标的映射，如DeepPose首次引入深度神经网络，而近期的TokenPose则利用Transformer将任务视为序列预测，提高了准确性。相比之下，热图检测法通过预测关键点的高斯概率分布来定位，通常精度更高。该方向的经典模型包括采用多尺度融合的高分辨率网络（HRNet）和通过重复自下而上、自上而下处理来捕捉多尺度特征的堆叠沙漏网络。

针对多人场景，文章重点分析了自顶向下和自底向上两种范式。自顶向下方法遵循“先检测人，后估姿态”的流程，其精度较高，如RMPE和CPN等模型在处理遮挡和不精准检测框方面表现出色，但计算成本会随图像中人数增加而上升。与之相对，自底向上方法遵循“先检测点，后分组归属”的策略，其检测速度与图像中人数无关，具备显著的速度优势。OpenPose作为该方向的开创性工作，提出了部分亲和力场（PAF）来关联关键点，实现了实时多人检测。然而，在人体高度重叠的拥挤场景下，自底向上方法的分组准确性仍面临挑战。

尽管2D人体姿态估计在深度学习的推动下已取得显著进展，但其在实际应用中仍面临诸多挑战，并呈现出清晰的演进趋势。当前面临的主要难点集中在三个方面：首先算法效率受复杂环境因素影响较大；其次是算法复杂无法满足实时预测的要求；最后是对于人体不同的运动姿态，估计结果精度不同，幅度较大的姿态往往预测准确度较低。

基于上述挑战，未来的研究趋势将主要聚焦于：一是提升复杂场景适应性，通过引入多视角信息融合技术或探索肢体遮挡修复算法，利用不同视角下的互补信息来解决遮挡和截断问题；二是推进模型轻量化设计，采用分组卷积、深度可分离卷积等轻量化模块或知识蒸馏技术，在降低参数量与计算成本的同时维持模型性能；三是向更高效的自底向上范式演进，通过优化关键点关联策略来应对拥挤场景下的分组错误问题；四是探索半监督与无监督学习，以减少对大规模人工标注数据的依赖，利用无标签数据提升模型在未知场景下的泛化能力。

04 图表导读

图1 单人姿态估计识别流程图。该图清晰展示了单人姿态估计的标准处理管线。输入图像首先经过“姿态编码器”提取深层特征；随后进入“姿态解码器”，通过“基于回归”和“基于热图”两种主流技术路径；最终输出图像中人物的“关键点检测”结果，形成人体骨架。

图2 多人姿态估计识别流程图。多人人体姿态估计有两种范式：自顶而下和自底而上。自顶而下的范式首先检测人，然后对每个检测的人执行单人姿势估计。自底而上的范式要么直接回归属于同一个人的关键点位置，要么检测并分组关键点。

表1 单人姿态估计方法对比

表1清晰对比了基于坐标回归（如DeepPose、IEF、Poseur）与基于热图检测（如Simple Baselines、HRNet、TokenPose）两类方法的优缺点。直观展示了从早期回归模型到现代Transformer架构在精度、速度及网络复杂度上的权衡与演进。

表2 多人姿态估计方法对比

表2系统总结了自顶向下（如RMPE、CPN）与自底向上（如OpenPose、HigherHRNet、LiteHRNet）两大范式的差异。重点突出了前者在精度上的优势与后者在速度上的竞争力，为不同应用场景下的模型选型提供了重要参考依据。

05 作者简介

通信作者：陈伟教授

中国矿业大学计算机科学与技术学院

研究方向：主要从事智能信息处理、计算机网络、图像处理与识别研究

E-mail:chenw@cumt.edu.cn

第一作者：王珂副教授

中国矿业大学计算机科学与技术学院

研究方向：主要从事智能信息处理、计算机网络研究

E-mail:wangke@cumt.edu.cn

06 文章链接

引用格式：

王珂, 陈启腾, 陈伟, 等. 基于深度学习的二维人体姿态估计综述[J]. 郑州大学学报(理学版), 2024, 56(4): 11-20.

WANG Ke, CHEN Qiteng, CHEN Wei, et al. Review of 2D Human Pose Estimation Based on Deep Learning[J]. Journal of Zhengzhou University(Natural Science Edition), 2024, 56(4): 11-20.

扫描上方二维码，或点击文末“阅读原文”查看文献。

http://www.xml-data.cn/ZZDXXBLXB/html/316560e4-40e3-43e1-9208-ac633d0ce51e.htm

郑州大学学报（理学版）

● 中国中文核心期刊

● 中国高校优秀科技期刊

● Scopus、EBSCO、CA、JST等国际知名数据库收录

● 中国科技论文与引文数据库（CSTPCD）来源期刊

《郑州大学学报（理学版）》是郑州大学主办的自然科学类综合性学术刊物。主要刊登信息与计算机科学、数学、物理学、化学、生物工程科学、材料科学与电气工程科学等自然科学各学科的基础研究及应用研究方面的学术论文。本刊所发表的论文已被《中国数学文摘》、《中国物理文摘》、荷兰《Scopus数据库》、美国《数学评论》、俄罗斯《文摘杂志》及波兰《哥白尼索引》等国内外多家权威文摘杂志及数据库收录或评论，致力于促进自然科学领域的学术交流与发展。

点击下方 “阅读原文” 获取期刊内容

点击下方 “阅读原文” 获取期刊内容