文献综述(或调研报告):
基于视觉的手势识别作为一个重要的人机交互手段,通常包括图像采集,手势定位,手势建模,特征提取,和最终的手势学习分类等过程,每一个过程都与手势识别的准确度和实时性直接相关。
手势定位是手势识别的第一步,在一幅图像中精确的定位到人手所在区域是后续特征提取的基础。Bastos R和Dias M S [1]将手势图像转换到HSV颜色空间,试图通过肤色将人手从图像中区分出来。HSV颜色空间具有彩色不变特征,但当环境亮度过高或过低时,色调分量不稳定,容易造成误差,影响肤色检测效果。文献[2]将图像转换到 YCbCr 颜色空间并利用高斯模型进行肤色检测,通过选择适当的阈值来区分肤色像素点与非肤色像素点,在人脸检测中取得了较好的效果,但该方法不适合复杂背景,尤其是当背景颜色与肤色相近时。论文[3]提出了一种自适应阈值多策略融合的手势检测方法,将肤色检测,运动检测和人脸检测融合在一起,一定程度上消除了传统背景差分法可能会造成的鬼影,并且能够适应复杂背景下检测遇到的问题。北京化工大学的蒙兴宝中通过设定SVM决策函数阈值和手势特征距离阈值实现对非人手部分的双重过滤[4]。论文[5]中提出了一种可去除视频图像中冗余背景的手势连续轮廓提取算法。通过GMM算法定位视频图像中的手势位置,然后利用 Sobel 算子进行粗糙轮廓提取,并与GMM 定位后图像做比对,以去除图像中冗余背景。
上述单纯基于计算机图像视觉的人手定位具有成本低,自然性强的特点,被普遍应用在手势识别的分割阶段。实际上为了得到更准确的人手信息,我们可以借助一些外接设备,如智能手套或深度摄像头等。Donq-Liang Lee和Wei-Shiuan You[6]提出了一种识别复杂静态手势的方法,该方法需要操作者手上佩戴一副黑色的手环,随后提取出基于手势的轮廓特征,这种方法能够准确的定位人手,使得手势定位效果稳定,这种方法相对于传统的基于计算机视觉定位人手的方法识别效果更好,然而成本也随之提升。2010年6月微软公司针对游戏主机Xbox 360推出了一款名为Kinect的3D体感摄像机,包括RGB彩色摄像头和两个深度摄像头(红外投影机和红外摄像机),可以实现接收深度图像,实现骨骼跟踪等功能。论文[7]提出了基于深度信息的手势检测与基于DBN 的手势识别算法,通过Kinect将包含人手的深度信息传入电脑,深度信息表示物体距离图像采集装置的距离,利用深度信息直方图将位于画面前方的手臂通过灰度直方图的方式分离出来。并且把手势区域以质心为旋转中心,根据方向线的角度旋转图像,使得方向线垂直于X 轴。这样能保证手势是垂直向上,识别算法也因此具有抗旋转性。
事实上,对手势的定位往往会设计到大量的运算,降低系统的实时性,尤其是对于人手只占图像很小一部分的情况下。手势追踪是一种提升分割效率的好方法,人手的运动轨迹是连续的,通过跟踪算法可以根据上一帧的人手位置预测当前帧人手位置,从而定位人手。伦敦大学玛丽女王学院的Caifeng Shan等人利用mean shift算法以及粒子滤波,实现了97.3%的总体识别率[8]。Wenping Tang等人通过改造Camshift的算法实现了多目标的同时自动跟踪。在[9]中,一种结合Kalman滤波改进的Camshift算法被用于解决传统的CamShift跟踪算法稳定性较差的情况,通过引入Kalman滤波有效的预测了目标的位置,克服了目标运动速度快,目标相互干扰,相近背景干扰的跟踪失效问题。重庆邮电大学的姚圆圆[10]设计了一种改进的TLD跟踪器,通过在TLD跟踪器和检测器中分别加入Kalman滤波器和马尔可夫方向预测模型,可以处理目标手势被干扰物严重遮挡甚至完全遮挡的情况。
特征提取是在手势分割之后进行的操作,提取具有代表性的手势特征是训练分类器的基础。图像特征有很多种,主要分为局部特征和全局特征。全局特征包含纹理特征,颜色直方图,矩特征等。局部特征则包含例如HOG,LBP,Haar特征等,注重于表示局部几何关系。论文[11]中详细地讨论了单元大小对HOG特征向量的影响,指出当单元大小降低9倍时,HOG特征向量的计算时间要增大四倍,针对使用 RBF核函数的SVM分类方法时,16维的特征维数能得到最好的分类效果。论文[12]提出了一种基于多邻域加权融合的LBP算法,能够在降低特征维数的同时提高手势识别率,总分类时间相较基本LBP特征提取方法下降到五分之一左右。以上方法在准确率方面取得了不错的进步,但要满足静态手势的实时识别要求、识别速度和准确率依然有待提升。
人手骨架具有不统一、手型多变、手势词汇量大的特点,其特征信息往往很难灵活的获得,人工通过建模等方式设计手势描述特征的过程十分繁琐、无法深度挖掘更高层次、更多维度的特征信息,这就导致基于上述传统方法的模型范性差、很难达到实时检测目的。深度学习模型是一种突破性的技术,尤其是它在机器学习领域的表现,深度学习与传统模式识别方法的最大不同在于它所提取的特征是从大数据中自动学习得到,而非采用手工设计。文献[13][14]通过使用神经网络模型设计了一种手势识别系统,该系统摒弃了传统的特征提取模块,转而通过深度学习的方式从整体的角度获取图像的高层特征信息,并且可以做到在不依靠任何区域选择框架的前提下直接识别手势,对于人手只占图像较小部分的情况可以得到更高的识别速度。文献[15]提出了一种深度卷积神经网络模型,通过卷积层的稀疏连接 (局部感受野) 和权值共享大大减少了参数,提升了训练速度,减少了训练时间。针对手势识别速度和检测率这两个难点,张勋,陈亮[16]提出一种静态手势检测网络模型ASSD。该模型基于深度学习的SSD方法,将原方法的特征提取网络VGG16用改进的卷积神经网络AlexNet取代,以进一步提高识别速度,平均识别速度达到了30fps。
关于手势识别技术的快速发展也诱生了很多相关应用的研究,Alan J. Hamlet和Patrick Emami [17]基于手势识别技术设计了一个机器人控制系统,操纵者只需要展示一次新的手势,该系统就可以完成识别。该系统通过累计并标记手势样本序列的方式提升了识别成功率,在对十个参与实验的新手操纵者进行实验时,该系统的识别成功率达到了93%。论文[18]设计了一种基于条件迭代算法的手语识别系统,在公共手势数据集上实验,得到了87.5%的识别成功率。约旦大学的M.AL-Rousan, K.Assaleh等人利用隐马尔可夫模型对阿拉伯手势语进行识别,在标记的基础上对于训练过的手语识别成功率高达98.13%[19]。
参考文献
[1] Bastos R, Dias M S. Skin Color Profile Capture for Scale and Rotation Invariant Hand Gesture Recognition[J]. Lectures Notes in Computer Science, 2009, 5085: 81-92.
