基于视频的人体检测和行为分析关键技术研究文献综述

 2023-08-15 17:10:20
  1. 文献综述(或调研报告):

近年来,人体行为识别(Human Action Recognition,HAR)发展迅速,成为计算机视觉领域的研究热点[1]。人体行为识别(HAR)就是采用计算机视觉技术,构建网络模型,读取一段视频图像,使计算机能够智能的分析出人体动作。随着HAR的发展,国内外已有多个公开的人体数据集用来验证相关算法的可行性。主流数据集有:Weizman行为数据集,KTH数据集,3UCF Sports数据集[2],InfAR红外行为识别数据集[3]等。

基于视频的人体检测和行为分析的第一步是进行移动目标检测。移动目标检测技术实现将人们关心的前景目标从视频背景中提取出来。目前,主要有三种方法应用在移动目标检测技术中,他们分别是背景减除法、帧间差分法以及光流法。

背景减除法的主要思想是将当前帧的图像和背景图像之间对比做差,从而得出前景目标。该算法首先建立背景模型[4],其次进行前景分割,最后更新背景。上个世纪,背景减除法通常选取初始帧作为背景图像,建立背景模型。由于背景减除法可以较完整地检测出前景目标区域,并且检测的实时性效果良好,因此从上个世纪至今引起了广大研究学者的关注,并在此算法的基础上 提出了很多经典的、具有代表性的算法。例如,Azarbayejani等人[5]回在固定摄像头的环境下釆用最大后验概率(MAP)的方法对目标进行检测,并提出了单高斯背景建模方法;随之,Grimson等人[6]的提出自适应的高斯分布混合模型,相比较Azarbayejani等人的方法,自适应的混合高斯建模算法可以很好地处理由阴影引起的多模态分布,适应于镜面反射,树枝摇曳等复杂背景变化,但同时也存在着实时更新背景速度慢的问题;Zivkovic[7]通过分析常用的像素级方法,提出一种基于混合高斯的高效自适应算法,并釆用递归方程不断更新参数,调整学习速率;为了消除高斯建模中参数估计对移动背景的影响,Harwood等[8]提出新的学习混合背景模型的更新算法,该算法基于核函数密度估计,不做任何假设,用先前的历史信息对未来状态进行估计,提高了系统的稳定性,更有效地适应背景环境的变化,但是该算法计算量比较大。

帧间差分法,又简称帧差法,通过将图像序列相邻帧间釆用差分来提取岀视频序列中的移动目标区域。SekiSl等人[9]将相邻两帧序列差分,再设定二值化阈值,最终得到移动目标区域。随后,为了克服帧间差分法不能完整提取出目标轮廓以及无法检测出缓慢移动的前景目标的缺点,Hong[10]等提出了对称差分法和累积差分法;由于帧间差分法简单、实时性好,并且对室内光线变化不敏感,但是在两帧序列重叠区域差分,会出现空洞、目标检测不完整的缺陷,基于此,许多研究学者通常将帧间差分法与其他算法相结合,从而提高移动目标检测的精确性。例如,文献Kanade等[11]把帧差法与背景减差法相结合;Chen等人[12]将帧差法和光流法相结合,将绝对差分图像通过低通滤波和平移滤波转化为二值图像,最后,通过检索边缘和光流场发现移动目标区域;陈杰等[13]将三帧差分法和边缘信息检测算法相结合,最后通过阈值分割和形态学处理提取出移动目标。

第三种最常用的检测算法就是光流(Optical Flow)算法。起源于由 Gibson和Wallach等提出的SFM(Structure From Motion)假设。光流法是对移动序列图像进行分析的一个重要方法,它不仅包含图像中目标的运动信息,而且也含有丰富的三维空间结构信息,利用光流场可以有效分割图像,并对图像进行检测。其广泛应用在军事、航空航天、气象等多个领域。近年来,专家学者致力于改进光流场的计算方法,从而提高移动检测的精确度。例如,Bruhn等人[14]在光流算法中结合三种假设设(一是亮度不变假设、二是梯度不变假设、 三是一个不连续保持的时空平滑约束),证明了其在噪声下的良好鲁棒性。卢宗庆[15]将光流算法与 LSCM(图像局部不变模型)相结合,减少了光流计算偏差, wang等人[16]结合k-means聚类方法和Harris角点以快速计算光流算法。光流法相比较其他算法,比较适应于背景移动的目标检测中,因其算法严谨,所以在相对简单的背景环境中可以有效区分背景和前景,但是它的缺点就是计算量太大,难以满足实时性的需求,同时对光线变化和噪声影响比较敏感。

检测到视频中的移动目标后要做的就是对移动目标进行跟踪,移动目标跟踪是获取感兴趣目标出现的位置,形成跟踪轨迹,为后续行为分析与理解提供关键的参数信息,颜色是目标最显著的特征,但是由于颜色直方图并不自适应更新,以及统计信息也缺少对像素空间的具体描述,所以研究者们也提出了诸多改进的算法。例如,Adam等人[17]提出”Gagtrack”算法,与传统的单一对象模型相比,釆用多个图像片段对跟踪框进行划分,提取每个小片段的颜色直方图进行匹配跟踪;文献[18]提出空间直方图的概念,并将此应用在基于内核的目标跟踪中;Comaniciu等[19]通过建立多个颜色直方图模型来提高目标跟踪的准确度,但该算法需要被跟踪目标外观的先验知识。

跟踪到运动人体以后的最后一步则是要识别出人体运动类别,林宪旗提出建立于多姿态特征融合的人体行为识别[20]。Ji针对监控视频的人体行为识别问题,提出从空间和时间维度提取特征利用3D卷积神经网络进行动作分类[21]。Chua J L等人[22]根据人体形状特征,设计和计算三个分别表征人体头部、上身及腿的点,然后由三点间的距离、方向等变化表征人体动作,并通过应用不同动作在这些特征中的阈值差异来识别动作类别。Ma提出一种基于惯性传感器的使用,并集成了一个最长公共子序列的算法作为支持向量机分类器的功能函数对人体日常动作进行分类识别[23]。Zhuo-Fu在针对惯性运动传感器所获取的人体动作识别问题上提出了贝叶斯分类识别算法[24],分类器采用基于极限学习机算法训练的单隐藏层反馈神经网络。何恺明提出了ResNet结构[25],黄高等人提出了DenseNet结构[26],通过对图像特征的有效利用,可以减少参数变量并达到更好地分类效果,影响同样深远。这两种结构的提出都是为了解决深层网络训练梯度消失的问题,通过加深网络结构来提升分类效果。Gammulle H等人[27]提出用卷积神经网络学习显著的空间特征,然后将卷积神经网络卷积层和全连接层学到的特征信息输入LSTM网络中,接着学习这些空间特征的时序相关性,最终输出人体行为识别数据。

【参考文献】

[1] 罗会兰,王婵娟, 卢飞. 视频行为识别综述[J]. 通信学报, 2018, 39(06):169-180.

[2]Soomro K, Zamir A R Action Recognition in Realistic Sports Videos [M]・ Lausanne: Springer, 2014.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版