- 引言
人类是地球上最具情感的动物。人类的认知,行为以及社会组织的任何一个方面几乎都受到情感驱动。人类不懈地致力于理解和分析他人的情感,掌握人类甚至某一特定群体的情感不仅具有社会价值,还极具商业价值,例如当今各领域厂商所进行的文本情感分析(Sentiment Analysis)研究,就试图利用消费者的情感为自己的产品提高竞争力。可以说人类无时无刻不在表达自己的情绪,不仅是通过语言,面部表情在人类的日常情感表达中也不可或缺,人类更习惯于使用表情传达情感,美国心理学家Mehrabian[8]提出人类的情感表达,有7%来自语言,辅助表达方法如手势、语气等则占了38%,面部表情占比高达55%。
表情能够传达人的情感这一点毋庸置疑,但是世界各地的人因为不同的文化背景甚至个体差异,其表情及所流露出的情感具有普遍性这一点是富有争议的。达尔文认为人类的面部表情是社会生活中的一种通用语言,但这一观点在数百年来引起了广泛的争论与研究。Alan等人[18]通过对不同文化的表情和情景之间关联的研究,得出结论——现代世界中人类70%的表情是跨文化共享的,即证实了人类面部表情的普遍性。
人类面部表情识别的技术作为情感分析的关键技术,是人机交互的重要组成部分,在虚拟现实、驾驶员疲劳检测、测谎检查和内容推荐等领域都有着重要的作用。“表情”是人类面部肌肉的一个或多个动作或状态的结果,人类的表情丰富多样,至少包含21种,其中有些表情是可以准确解释的,而有些复合表情难以解释。目前常见的表情分类是源于Ekman[9]根据跨文化研究所定义的6种基本表情,这些典型的面部表情包括愤怒、厌恶、恐惧、快乐、悲伤和惊讶。而在Alan等人[18]的研究中,AI识别出了人类共有的16种更细粒度的表情种类——愉悦、愤怒、敬畏、专注、困惑、蔑视、满足、欲望、失望、怀疑、得意、兴趣、痛苦、悲伤、惊讶和胜利。
随着面部表情识别技术的发展,对面部表情和情感识别的质疑也接踵而来,面部表情识别工程在现实中的测试效果与实验室存在一定差距,不少研究人员对于计算机能否真正理解人类的情感存在质疑。Aviezer等人[11]的研究表示人们错误地认为关于情绪的信息来源于面部,其实,它们偏偏来自于观察对象的身体。
研究现状
人脸表情识别系统主要由图像获取、图像预处理、特征提取和特征分类四部分组成(图1)。图像的预处理主要是检测人脸并矫正和进行图像的归一化,为后续的特征提取提供高质量的面部图像。而人脸表情识别的研究工作主要集中于特征提取和特征分类上。
图 1 人脸表情识别过程
初期人脸表情识别主要使用的是传统的机器学习方法,在图像的特征提取上主要采用数学方法,依靠计算机技术对人脸表情的数字图像进行数据的组织和处理,提取表情特征。根据处理对象的不同,特征提取方法可以分为基于静态图像的特征提取和基于动态图像的特征提取。基于静态图像的特征提取算法又可分为整体法与局部法。整体法即是识别表情的产生造成的面部器官的形变对人脸图像的全局信息的影响,但是整体法易受角度、光照和布景等因素的影响,且在表情产生的过程中人的面部肌肉并不都是活跃的,所以部分区域的信息反而是冗余的。而局部法则通过面部肌肉的纹理、褶皱等局部形变所蕴含的信息来精确判断表情的属性。基于动态图像的特征提取是今后的重点,主要有光流法、模型法和几何法。光流法是反映视频中不同帧之间相应物体灰度变化的方法,在表情检测中光流法具有突出人脸形变、反映人脸运动趋势的优点。模型法是指对视频中的表情信息进行参数化的统计方法。几何法考虑到人脸的表情特征集中在一些器官和褶皱,因此标记这些特征点,并计算特征点之间的距离和特征点所在曲线的曲率,即可提取出表情的特征。
传统方法中的特征分类方法有基于贝叶斯网络的分类方法和基于距离度量的分类方法。贝叶斯网络是以贝叶斯公式为基础,通过对已知表情的学习推断出未知表情的概率。而基于距离度量的分类方法是通过计算样本之间的距离来实现表情分类的,支持向量机(SVM)是一大热点,其主要思想是对于非线性可分样本将其映射到高维空间求其最大间隔超平面即可实现按特征分类。
传统的机器学习方法实现的面部表情分类鲁棒性有待提高,并且据研究表明,传统手工提取的特征无法解决与面部表情无关的各种因素[5]。因此现在针对面部表情识别的研究多是基于深度学习的方法,由于深度学习中一般是端到端的模型,深度学习中的网络(尤其是CNN)对图像具有较好的提取特征的能力,因此避免了人工提取特征的繁琐。
