基于深度学习的人脸表情识别综述-腾达博士

2022-11-17

随着机器学习和深度神经网络两个领域的迅速发展以及智能设备的普及,人脸识别技术正在经历前所未有的发展,关于人脸识别技术讨论从未停歇。目前,人脸识别精度已经超过人眼,同时大规模普及的软硬件基础条件也已具备,应用市场和领域需求很大,基于这项技术的市场发展和具体应用正呈现蓬勃发展态势。人脸表情识别(facialexpression recognition, FER)作为人脸识别技术中的一个重要组成部分,近年来在人机交互、安全、机器人制造、自动化、医疗、通信和驾驶领域得到了广泛的关注,成为学术界和工业界的研究热点。本文将对人脸识别中的表情识别的相关内容做一个较为详细的综述。

作为交流的一个重要媒介,在日常生活中,表情的使用往往能起到增强交流的效果。人脸表情是人们表达自身各种情绪和信息的一个重要手段,心理学家A. Mehrabia 曾经深入地研究过,一个人在一天中,通过语言传递的信息只占传递的总信息的7%,然而通过面部表情传递的信息占比却高达55%。因此,关于人脸面部表情的识别有极高的科研价值,对人脸面部表情的研究可获得大量有价值的信息。早在1971 年,美国的两位心理学家:Ekman 和Friesen 就已经对面部表情做过系统的研究,并建立了包含上千幅图像的资料库。1978 年,在更深入地研究了人类表情与情感的内在联系后,他们自主开发了FACS (面部表情编码系统),该系统通过对人脸的解剖学研究和生理特征将人脸划分为46 个独立的位置和运动单元(AU),并详细地分析了这些位置和其运动单元的主要控制区域以及与之对应的表情和生理特征。人脸表情识别系统主要由人脸图像的获取、面部图像预处理、特征提取、特征分类组成。下面将从使用传统方法和深度学习方法来研究面部表情识别两个角度对以上各个步骤进行阐述。

1 人脸表情图像预处理

在自然场景中,光照影响、头部朝向以及非头部区域的差异等是常见的与面部表情识别无关的影响因素。所以在对图像进行分析前,就需先做预处理来排法应对剧烈的环境变化情况。一种计算过程简单的方法是使用Viola-Jones(V & J)人脸检测器,但对非正面人脸视图时鲁棒性低。深度学习阶段, Faster-RCNN 以及速度更快的YOLO 等方法被提出,用来解决环境变化和人脸不完整等问题。目前来说,级联结构的卷积神经网络因其高速性和准确性已经成为最流行先进的人脸对齐方法。

1. 2 人脸对齐

为了进一步提高面部表情识别的精度,需要在人脸检测后进行人脸对齐的操作。人脸对齐可以表示为在一张人脸图像中搜索人脸预先定义的点的问题,它通常从粗糙的初始形状开始,并通过逐步细化形状估计直到收敛。监督下降法(Supervised Descent Method,SDM[4] )是常用的人脸对齐方法,另外还有如混合树结构模型( Mixture of Trees, MOT[5] )、判别响应图拟合(Discriminative Response Map Fitting,DRMF[6] )、DlibC + + 库[7] 、多任务级联卷积神经网络( Multi-taskCascaded Convolutional Network, MTCNN[8] )、DenseReg[9] 和小人脸检测[10] 等方法。

1. 3人脸归一化

对于用户面部人体表情特征识别技术任务来说,光照的不同方向和头部面朝方向的差异会对识别面部特征的性能表现有很大的影响,一般通过对图像进行归一化来解决此类问题。如基于各向同性扩散的归一化、基于离散余弦变换的归一化、高斯差分和基于同态滤波的归一化[11-12] 。此外,有资料显示,在光照归一化的基础上进行直方图均衡化的性能优于单独使用前者。为了增强图像的全局对比度, DEEP FER 文献中的许多论文都引入了直方图均衡化。然而,在用直方图均衡化的方法对图像进行处理前后会对图像的局部对比度产生较大改变。为了彻底解决这一问题,提出了一种将直方图均衡化和线性映射相结合并进行加权求和的方法。为了便于特征提取,还需要将人脸图像均转化为正面视图,这个过程被称为姿态归一化。特征提取的目的是减少图像数据集中信息的数量,用来反映图像的特征,在拥有一定鲁棒性和保证识别率的基础上,对大量的数据进行降维处理。

2. 1传统研究方法

目前面部表情识别中的研究主要是针对二维的静态图像研究、视频序列等三维的动态图像研究2个方向,前者表征的是表情发生时单幅图像的表情状态,后者表征的则是表情的动态强度变化。使用传统研究的方法在进行人脸信息特征提取时,针对静态的人脸信息,如果从整体来看,提取目的就是为了尽可能地降低对原始人脸信息的损害和破坏,用分类器对整个人脸信息进行处理后来获得特征值,主元分析法、独立分量分析法以及线性判别分析法等都是上述方法的改进在FER 中的应用。从表情识别局部上看,算法可以通过分析局部肌肉和皮肤褶皱的细微变化来进行表情识别,其中Gabor 小波法和LBP 算子法是两种经典的表情识别方法,以Gabor 小波等多种特征提取算法为手段,分类过程被分解为多个两类分类问题,一个选择是分析证明,并为每个分类问题提取唯一的特征集。使用Gabor 小波来模仿人类视觉皮层的地形图结构以实现面部表情识别。对动态表情的处理分为光流法、模型法和几何法等。光流法是利用图像中像素随时间的变化,来反映不同帧之间人脸单元灰度的改变,以此确定表情状态的方法;模型法是先通过训练建立形状模型,再结合模型与人脸图片匹配的方法,主要包括活动形状模型(Active Shape Models,ASM)和主动外观模型(ActiveAppearance Model,AAM);几何法通过标识人脸器官的特征点,计算各个特征点之间的距离与曲线曲率来进行特征识别。开发了一种基于光流的特征点跟踪方法,可以识别人类的微表情的变化;在计算人脸的多渠道灰度模型时采用了光流法; 

2. 2特征提取的深度框架

传统的FER 系统需要使用手动提取的特征,或是浅层学习,识别功能有限。随着人类情绪认知识别技术在国际情感识别大赛中的应用与提高,基于机器学习的脸部表情认知识别技术也越来越火热。以下是近年来应用较好且功能比较强大的基于深度学习技术的FER 框架。

2. 2. 1深度信念网络

深度置信网络(Deep Belief Network,DBN) 这一概念在2006 年由Hinton 等提出,DBN 是神经网络特殊中的一种。一般,由多层串联的受限玻尔兹曼机(Restricted Boltamann Machine,RBM) 和反向传播层(Back Propagation,BP)神经网络构成。在DBN 的基础上,增强深度置信网络(Boosted Deep Belief Network,BDBN)于2014 年被Ping Liu 等人提出。特征被联合微调,并被选择在一个全新的增强的自上向下的监督特征强化(BTD-SFS)的过程中形成一个强分类器,通过这个框架,可以从面部图像中学习到高度复杂的特征。

2. 2. 2自动编码器方法

1986 年,Rumelhart 提出自动编码器这一概念,自动编码器可以提取数据的隐含特征并学习用这些特征重构数据。早期的自动编码器应用于数据压缩和数据处理方面,但压缩效果很大程度上取决于压缩数据自身,并且会出现数据损失的情况。深度自动编码器(Deep Auto Encoder,DAE)将高维数据转化为低维数据,DAE 的思想是在预训练中逐层训练整个模型,与自动编码器相比,DAE 被优化使重构误差尽可能低来重构其输入。利用深度稀疏自动编码(DSAE)进行面部表情识别的新方法,将几何特征和外观特征相结合起来判断,能自动高精度地识别表情。改进的局部三元模式(LTP)和堆叠自动编码器(SAE)相结合的方法用于面部表情识别,改进的LTP 模型对纹理特征进行提取,最后利用SAE 对特征进行提取和分类。

2. 2. 3 深度卷积神经网络

卷积神经网络( Convolutional Neural Networks,CNN)一般由3 个处理层组成:卷积层、池化层和全链接层。卷积层针对的是图像的特征提取;池化层用来对特征图像进行稀疏处理,减少数据运算量(降维);在全链接层中,每一层的神经元均与后续层中的全部神经元建立连接,神经元是否触发由与之相连的神经元的输入权重之和决定。CNN 相较于其他神经网络的不同是局部连接和权重共享,这让CNN 网络中的参数风少,效率更高,正则化效果更好等。以CNN 为架构的经典网络有AlexNet、GoogLeNet、VGGNet 等。除了这些网络之外,还存在许多在此基础上的派生框架。在感兴趣区域和K 最近邻( K-nearest Neighbor,KNN)算法提出 ROI-KNN 训练改进方法,改善了由于面部表情训练数据过少而导致深度神经网络模型泛化能力不佳的问题,从而提高了鲁棒性。

2. 2. 4生成对抗网络

2014 年,Ian Goodfellow 提出了采用非监督式架构的生成对抗网络( Generative Adversarial Networks, GAN)。生成对抗网络由生成器网络(Generator)和判别器网络(Discriminator)组成,通过让二者相互博弈得到更好的输出结果。解缠表示学习的生产对抗网络(DR-GAN),通过编解码器结构发生器,可以正面化或旋转一个具有任意姿态甚至是极端轮廓的脸,对于野外低鲁棒性的面部表情识别研究有着深远的意义。

3特征分类

特征分类是为了通过特征来判断人脸图片所属的表情类别。在传统的表情识别步骤中,特征提取和特征分类是两个无关联的独立步骤。然而在深度神经网络中特征提取和特征识别均在神经网络中完成。此_一般是指节点之间通过贝叶斯公式具有一定关系的有向无环的图形化网络,是推理领域内最有效的模型之一。在表情识别领域中,概率推理可以应用在从一个已知表情的信息中进行推断得到一个未知表情所属类的概率。通过贝叶斯网络的分类方法主要有各种贝叶斯网络分类算法及隐马尔科夫模型。HMM 算法通过计算观察值的后验概率,实现对表情属性的判断。同时由于引入了时间变量,HMM 算法可以看成一种动态贝叶斯网络。HMM 算法识别动作单元,实现了于刚性和非刚性运动分离以及三维位置估计的人脸表情识别系统。

3. 2基于距离度量的分类方法

基于距离的分类器通过计算样本之间的距离来实现表情分类。代表性算法有最近邻法和支持向量机(Support Vector Machines,SVM)算法。最近邻法从一类训练样本中,选取与测试样本距离最近的样本,作为该类的原型;SVM 算法的目的是通过优化目标函数,来确定一个超平面,使得离超平面最近的点的距离最远。基于SVM 的表情分类机制,前者将K 近邻分类器与SVM 结合提出了Local SVM(LSVM)算法;后者提出的混淆交叉支持向量机树(CSVMT)模型将SVM 和树型结构结合起来,相较于SVM 有更好的泛化性和鲁棒性。

4相关数据集

4.1Japanese Female Facial Expression Database(JAFFE)

JAFFE 数据集在1998 年创建,其中有213 张人脸照片,包括愤怒、憎恶、恐惧、高兴、悲戚、惊诧、中性7种不同的表情。

4. 2 The Extended Cohn-Kanade Dataset(CK+)CK+发布于2010 年,包含593 个图像序列,是当前人脸表情特征识别技术领域中相对受欢迎的数据库。

4. 3 Acted Facial Expression in the Wild(AFEW)

AFEW 数据集中的表情图像或视频均来自于电影剪辑片段其中表情分为6 类基本表情外加中性表情。从2013 年开始AFEW 为EmotiW 比赛所用的数据集。

4. 4 FER2013

FER2013 数据集内总共有35 886 张人脸照片,其中包含28 709 个训练用图像、3 589 个用于公共验证的图像和3 589 个用来私有验证的图像。数据集中每张图像同样按照6 种基本表情加上中性表情分类。

4. 5 MMI

MMI 数据集包含了超过2 900 个视频和75 个主题的高清图片,源自实验室控制条件下的32位受试者。此数据集存在主题差异,许多受试者佩戴眼镜或是留有胡须。

5结束语

数据集方面,随着FER 越来越多采用深度学习方法来进行研究,可靠高质的数据集就显得尤为重要。目前FER 任务中使用到的标准人脸面部表情数据集大多是来自以下两种方式:受控实验室中采集记录或者电影等视频中截取(如Affectiva-MIT 和AFEW),两者都是一种受刺激下的非自发带表演性质的表情数据,与自然场景下的人脸面部表情仍相差甚远,同时在实验室处理环境下,采集到的人脸表情一般是头部姿势正面、光照合适且无遮挡的高质图像,识别的难度和复杂度相对降低,而这在真实的外部环境中难以满足,如果要在现实环境下识别面部表情,可能还需要在构建真实面部表情数据集等相关方面进一步努力。同时,数据集偏差也是一个需要考虑的问题。如上述提到的两个数据集,目前研究人员大多在几个广泛使用的数据集上验证自己的算法,这会产生一种风险,即研究的主要目的转为最大限度地提高算法在特定数据集的性能,而这些数据集很可能存在偏差。虽然利用特定的偏差可以提高算法在特定数据集上的性能,但如果用来解决一般性问题,却往往会失败,这也是为什么会出现一个经数据集训练后的模型在另一个数据集下测试的结果却并不理想的原因,即模型的跨数据集性能较差。