多人姿态估计系统文献综述

 2022-11-28 17:49:57

{title}{title}

2D人体姿态估计文献综述

1、前言

人体姿态估计在近几十年一直是计算机视觉领域一个很重要也很基础的问题,是对于图像和视频中人的理解的基础,可以理解为图像和视频中人体的姿态(关键点,比如头,左腿,手腕等)的位置估计问题。随着深度学习的不断扩展,人体姿态估计也经历了从传统算法到深度学习的方法的转变。当前的人体姿态估计有2D和3D的,本文主要围绕2D人体姿态估计进行展开。

2、相关介绍

人体姿态估计是计算机视觉中相对较难的一个方面,因为人体有大关节,也有非常小的关节,背景的干扰,衣着,图片视角以及肢体的遮挡等都使这成为了一个难题。

常见的数据集有LSP、FLIC、MPII、MSCOCO,其中LSP和FLIC都是早期的数据集,关键点数少,样本数为K级别,MPII将样本数量提升到了W级别以上。目前主要的工作集中于MPII和MSCOCO,并且每年还有基于这些数据集的检测竞赛。

数据集

关键点数

样本数

类型

LSP

14

2K

全身,单人

FLIC

9

2W

全身,单人

MPII

16

25K

全身,单人/多人

MSCOCO

18

gt;=30W

全身,单人/多人

对于视频中进行人体姿态估计即人体姿态跟踪,主要的数据集有PoseTrck,有超过500个视频序列,超过20K帧,以及150K以上的身体姿势注释。

常用评估指标有PCK和mAP。

PCK(Percentage of Correct Keypoints):关键点被准确检测的比例。计算检测的关键点与其对应的groundtruth间的归一化距离小于设定阈值的比例。FLIC 中是以躯干直径作为归一化参考。MPII 中是以头部长度作为归一化参考,即 PCKh。

mAP(mean Average Precision):平均精确度。类似目标检测,将在真实目标和预测值目标之间的匹配程度的阈值度量由目标检测中的每个目标检测框的交并比(IOU)改为每个目标的关键点相似度(object keypoint similarity, OKS)。

3、传统算法

在深度学习之前,人体姿态估计基本上沿着模板匹配的思路来进行,主要进行单人的姿态估计,一种经典方法是使用图形结构模型[[1]],2005年被,Felzenszwalb和Huttenlocher[[2]]引入统计学框架,此基础上有很多的研究,如Yang和Ramanna[[3]]使用可变形零件模型表达复杂关节关系,用混合模板来增强标准的弹簧模型,包含了多种对姿态 估计非常重要的信息,例如,部件的几何形变约束、部件的外观信息等。此模型能够表达更为复杂多样的空间约束,可以很好地模拟关节,以解决自遮挡问题。他们的算法在基于Buffy数据集的上半身检测中,正确检测出了测试集99.6%的人体。

基于图形结构模型的传统方法主要关注于寻找更好的特征表示以及建模更好的空间关系这两个维度,特征表示常用HOG、SIFT等,空间位置关系也有很多形式,上述图形结构模型只是一种。这两个维度在深度学习时代也非常的重要。

4、基于深度学习的人体姿态估计

随着深度学习的不断发展,就如在其他领域不断出现颠覆性研究成果一样,在Toshev第一次将其应用到人体姿态估计,提出DeepPose[[4]]强势的打败了以往所有的模型后,人体姿态估计问题由原本的图像处理和模板匹配问题转化为CNN图像特征提取和关键点坐标回归问题。

DeepPose在CNN基础上构建了一个级联回归器来改进预测,增加了关节定位的精度。但是其直接回归出关节坐标,效果并不好,其主要原因有两方面:一方面是人体运动比较灵活,另一方面,回归模型的可扩展性较差,比较难于扩展到不定量的人体姿态识别问题中。因此,自2015年Tompson[[5]]应用热力图后,目前普遍使用的过渡处理方法是将其看作检测问题,从而获得一张热点图谱,。

当前的人体姿态估计普遍采用 CNN作为模型的主要构建单元,主要有单人姿态估计和多人姿态估计,单人姿态估计只要求寻找出图片中单个个体的关键点,而多人姿态估计系统并不只是单人的堆叠,要更为复杂。

4.1 单人姿态估计

单人姿态估计在进入深度学习时代后蓬勃发展,在2016年迎来了两个重要的工作,一个是CPM[[6]](Convolutional Pose Machine),一个是Hourglass[[7]]。

CPM将深度学习应用于人体姿态分析,同时用卷积图层表达纹理信息和空间信息,具有很强的鲁棒性,后续很多工作都是基于此改进的。CPM使用同一个网络,同时在多个尺度处理输入的特征和响应。既能确保精度,又考虑了各个部件之间的远距离关系,而且网络分为多个阶段,各个阶段都使用中间监督来避免过深网络产生的梯度消失、难以优化的问题。这个方法MPII上面的结果可以达到88.5,在当时是非常好的结果,拿到了COCO2016 Keypoints Challenge的冠军。

Hourglass是一个里程碑性的工作,构建了一个堆叠沙漏模型,一经提出就横扫各大竞赛测试集,后续有很多基于此做改进的单人姿态估计方法。堆叠沙漏网络继承并放大了DeepPose所提出的多分辨率特征思想,单独的关节点坐标回归依赖于某个小尺度区域,整个人的完整姿态依赖于大尺度的全局特征,综合考虑各尺度下不同的特征来学习姿态。同时将中级监督应用于每个沙漏阶段的预测,即监督堆栈中每个沙漏的预测,而不仅仅是最终的沙漏预测。最终结果来看,Hourglass由于不需要像CPM一样独立地在图像金字塔上多次运行,速度更快。

4.2 多人姿态估计

目前的多人姿态估计有两种解决方法:自顶向下(top-down)和自底向上(bottom-up),分别用从整体到局部和从局部到整体的思想来进行处理。自顶向下先找出一个个体,再对个体的关节运用单人姿态估计检测关节,获得姿态;自底向上先检测出所有的关节,再通过关节之间的连接关系关联到一个个体以获得姿态。

(1)、基于自底向上(bottom-up)方法

采用这种思路的算法主要包含两部分:关键点检测和关键点聚类,关键点检测与单人相差不多,主要是将所有的关键点聚类为单独的个体,目前大部分工作主要侧重于对关键点聚类方法的探索,即如何去构建不同关键点之间的关系。

CMU提出了OpenPose[[8]],基于CPM先寻找到所有的关键点,再提出PAFs(Part Affinity Fields)来进行人体的组装。使用向量场记录位置信息和方向信息,再通过这些信息判断是否是一个个体上的。对于MPII上的多人姿态估计,OpenPose无论是无论是准确度还是精度上都有质的飞跃,在当时效果非常惊艳。

同年还有Associative Embedding[[9]],类似Openpose思路,也使用的自底向上(bottom-up)的方法,寻找部件使用了Hourglass的方式来做,关键在于行人的组装上面,提出了Associative Embedding的想法。在检测环节对检测结果编号,通过编号分组来组装人体,得到姿态。

除了Openpose以及Associative Embedding之外,自底向上还有DeepCut[[10]]以及DeeperCut[[11]],他们使用优化问题来直接优化求解人的组合关系

(2)、基于自顶向下(top-down)方法

采用这种思路的算法主要主要包含两个部分:人体检测和单人人体关节检测。在自顶下下思路中,首先主要关注的是不同关节检测难度不同,需要区别对待,其次关节定位依赖于人体检测的结果,会出现检测不准和重复检测的情况,许多工作也是针对这些问题进行的。

Face 分别在2017和2018年针对不同类别关键点的检测难度不一样提出了CPN[[12]]和MSPN[[13]],通过级联特征金字塔网络对不同难度的关节进行不同处理,效果显著,连续两年获得COCO Keypoints Challenge的冠军。

针对自顶向下方法可能会产生的检测框定位误差以及对同一个目标重复检测等问题,也出现了RMPE[[14]]框架来处理,提出了空间变换网络将同一个人体的产生的不同裁剪区域都变换到一个较好的结果,原始方法进一步修改后,更新到了AlphaPose。

针对一直以来利用不同尺度的特征,经过特征的缩放、恢复、保留相加环节计算热点图或回归坐标点的复杂网络,2018年微软提出了简单有效的人体姿势估计和跟踪的Simple Baselines[[15]]方法,利用简单的网络结构就能达到state-of-the-art性能,并且获得COCO2018 Keypoints Challenge的亚军。

在2019年,出现了一个新的人体姿态估计方法-HRNet[[16]],在COCO数据集中的关键点检测,多人姿态估计和姿态估计任务,均优于现有的所有方法。HRNet遵循一个非常简单的想法,即以前的大多数论文都来自高→低→高分辨率表示,而HRNet在整个过程中始终保持高分辨率的表示,这非常有效。

除此以外,2017年何凯明的Mask R-CNN[[17]]泛化到人体姿态估计后,也有非常好的效果,准确度比COCO2016的冠军高。

相对比于自底向上,许多的工作采用的是自顶向下的思路,而且这也成为了当前的趋势,一个直接原因是自顶向下的效果往往更有潜力。自顶向下相比自底向上的方法效果更好的原因主要是人体组装更好,而且关键点的定位精度更准确。不过自顶向下速度会慢一点,运算时间会随着图像中人的个数而显著增加,而自底向上所需计算时间基本不变。所以在很多要求实时速度的算法都是基于OpenPose来做修改的,当然也有用自顶向下的,那往往是人体检测器做得非常好。

5、结语

人体姿态估计一直以来都是计算机视觉的一大挑战,从传统算法到深度学习,此领域有了长足的发展,在诸如自动驾驶、动作分类、增强现实等领域都有着非常重要的基础作用。本文对二维人体姿态估计做了简要的回顾和分析,介绍了主要的一些算法。深度学习极大地促进了人体姿态估计,但泛化能力和鲁棒性有时候经常会出问题,同时如何更好地利用人体姿态先验知识,将人体模型融合到神经网络中都是后续需要解决的问题。

  1. 参考文献:[] Fischler, M. . 'The representation and matching of pictorial structures.' IEEE Trans. Computers, C 22.1(1973):67-92. uarr;

  2. [] Felzenszwalb, Pedro F. , and D. P. Huttenlocher . 'Pictorial Structures for Object Recognition.' International Journal of Computer Vision 61.1(2005):55-79. uarr;

  3. [] Yi Yang, and Deva Ramanan. 'Articulated pose estimation with flexible mixtures-of-parts.' In CVPR 2011, pp. 1385-1392. IEEE, 2011. uarr;

  4. [] Alexander Toshev, and Christian Szegedy. 'Deeppose: Human pose estimation via deep neural networks.' In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 1653-1660. 2014. uarr;

  5. [] Tompson, Jonathan , et al. 'Efficient Object Localization Using Convolutional Networks.' (2014). uarr;

  6. [] Shih-En Wei, Varun Ramakrishna, Takeo Kanade, and Yaser Sheikh. Convolutional pose machines. CVPR 2016 uarr;

  7. [] Alejandro Newell, Kaiyu Yang, and Jia Deng. 'Stacked hourglass networks for human pose estimation.' In European conference on computer vision, pp. 483-499. Springer, Cham, 2016. uarr;

  8. [] Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh. Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields. CVPR 2017. uarr;

  9. [] Alejandro Newell, et al. 'Associative embedding: End-to-end learning for joint detection and grouping.' In Proceedings of Advances in Neural Information Processing Systems. 2017. uarr;

  10. [] Pishchulin, Leonid , et al. 'DeepCut: Joint Subset Partition and Labeling for Multi Person Pose Estimation.' (2015). uarr;

  11. [] Insafutdinov, Eldar , et al. 'DeeperCut: A Deeper, Stronger, and Faster Multi-Person Pose Estimation Model.' (2016). uarr;

  12. [] Chen, Yilun , et al. 'Cascaded Pyramid Network for Multi-Person Pose Estimation.' (2017). uarr;

  13. [] Li, Wenbo , et al. 'Rethinking on Multi-Stage Networks for Human Pose Estimation.' (2019). uarr;

  14. [] Fang, Hao Shu , et al. 'RMPE: Regional Multi-person Pose Estimation.' (2016). uarr;

  15. [] Xiao, Bin , H. Wu , and Y. Wei . 'Simple Baselines for Human Pose Estimation and Tracking.' (2018). uarr;

  16. [] Sun, Ke , et al. 'Deep High-Resolution Representation Learning for Human Pose Estimation.' (2019). uarr;

  17. [] Kaiming, He , et al. 'Mask R-CNN.' IEEE Transactions on Pattern Analysis and Machine Intelligence (2018):1-1. uarr;

资料编号:[554091]

2D人体姿态估计文献综述

1、前言

人体姿态估计在近几十年一直是计算机视觉领域一个很重要也很基础的问题,是对于图像和视频中人的理解的基础,可以理解为图像和视频中人体的姿态(关键点,比如头,左腿,手腕等)的位置估计问题。随着深度学习的不断扩展,人体姿态估计也经历了从传统算法到深度学习的方法的转变。当前的人体姿态估计有2D和3D的,本文主要围绕2D人体姿态估计进行展开。

2、相关介绍

人体姿态估计是计算机视觉中相对较难的一个方面,因为人体有大关节,也有非常小的关节,背景的干扰,衣着,图片视角以及肢体的遮挡等都使这成为了一个难题。

常见的数据集有LSP、FLIC、MPII、MSCOCO,其中LSP和FLIC都是早期的数据集,关键点数少,样本数为K级别,MPII将样本数量提升到了W级别以上。目前主要的工作集中于MPII和MSCOCO,并且每年还有基于这些数据集的检测竞赛。

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版