何秀玲 蔣 朗 吳 珂 高 倩
(華中師范大學(xué)國家數(shù)字化學(xué)習(xí)工程技術(shù)研究中心 湖北 武漢 430079)
人類進(jìn)行情感信息交流強(qiáng)大而重要的載體是面部表情,人類的情緒可以通過表情的變化流露出來,因此表情在我們的日常生活中起著至關(guān)重要的作用。近幾年,面部表情識別已應(yīng)用在心理學(xué)、醫(yī)學(xué)和人機(jī)交互等領(lǐng)域。為了使機(jī)器更加準(zhǔn)確地學(xué)習(xí)和識別面部表情,需要不斷開發(fā)計算機(jī)視覺和機(jī)器學(xué)習(xí)技術(shù)。
表情識別過程包括特征提取和分類識別,提取的面部特征優(yōu)劣判別在于特征是否具有較高的區(qū)分度、較強(qiáng)的魯棒性以及信息是否較為完整[1]。目前使用較為廣泛的特征提取方法主要是針對幾何和紋理兩類特征[2]。臉部幾何特征是通過標(biāo)記面部特征點(diǎn),提取面部離散的點(diǎn)或關(guān)聯(lián)點(diǎn)之間的形狀信息,關(guān)聯(lián)點(diǎn)形狀信息可以提高特征點(diǎn)對于形狀變化和表情的描述能力。Gabor小波與人類視覺系統(tǒng)細(xì)胞的刺激響應(yīng)相似,通常用來描述圖像紋理特征[3]。特征融合可以獲得更加豐富的特征信息[4]。文獻(xiàn)[5]提取面部形狀變化特征和紋理特征的混合特征進(jìn)行表情識別。文獻(xiàn)[6]融合面部幾何信息和紋理信息后進(jìn)行表情識別。文獻(xiàn)[7]提取7個面部動態(tài)區(qū)域的幾何特征和Gabor特征后訓(xùn)練了多類支持向量機(jī)對六種表情進(jìn)行分類識別。實(shí)驗(yàn)結(jié)果顯示,相較于僅單獨(dú)使用某一種特征進(jìn)行表情識別,融合特征可實(shí)現(xiàn)更好的識別效果。當(dāng)前的研究熱點(diǎn)是利用深度學(xué)習(xí)進(jìn)行圖像識別。文獻(xiàn)[8]利用深度學(xué)習(xí)訓(xùn)練大容量樣本后進(jìn)行表情識別,獲得了較高的識別率。文獻(xiàn)[9]利用深度學(xué)習(xí)方法對面部表情運(yùn)動單元進(jìn)行識別。
本文提出一種融合幾何特征和Gabor特征的基于深度多核學(xué)習(xí)模型的表情識別方法。此外,實(shí)驗(yàn)引入了慢特征分析SFA(Slow Feature Analysis)算法自動檢測圖片序列中的表情峰值幀[10]。在峰值幀圖片上提取幾何特征與Gabor特征,有效地降低了特征維度,節(jié)省了內(nèi)存開銷,并將兩種特征進(jìn)行融合,將融合特征輸入到深度多核學(xué)習(xí)模型中進(jìn)行訓(xùn)練,利用訓(xùn)練后得到的最終核函數(shù)作為支持向量機(jī)SVM(Support Vector Machine)決策函數(shù)進(jìn)行學(xué)習(xí)識別。實(shí)驗(yàn)結(jié)果表明,利用本文提出的方法可以得到較為理想的表情識別率。
1.1 峰值表情幀的自動檢測
為了解決特征維數(shù)過高、內(nèi)存消耗過大和信息冗余等問題,本文采取僅利用表情幅度最大的那一幀,即基于表情峰值幀提取特征。目前,已有研究者直接采用靜態(tài)數(shù)據(jù)庫提供的表情峰值圖片或者手動選擇動態(tài)數(shù)據(jù)庫的表情狀態(tài)圖片[11-13],在樣本過多的情況下,這樣處理可能缺乏可行性。因此,本文利用慢特征分析(SFA)算法實(shí)現(xiàn)表情峰值幀的自動檢測。
SFA[14]是無監(jiān)督學(xué)習(xí)算法,在姿勢識別及視頻行為識別等領(lǐng)域應(yīng)用較為廣泛[15]。SFA可以從多維輸入信號中及時提取最佳的緩慢變化的特征作為輸入信號。以G維輸入時序信號x(t)=(x1(t),x2(t),…,xG(t))為例,SFA目標(biāo)是找到某個非線性投影函數(shù)f(x)=(f1(x),f2(x),…,fM(x)),從而生成M維的輸出信號y(t)=(y1(t),y2(t),…,ym(t)),并且其輸出的各分量變化盡可能慢[16]。SFA一般采用關(guān)于時間的一階導(dǎo)數(shù)的平方均值來衡量y(t)的變化速率。優(yōu)化框架如下:
(1)
同時滿足:
〈yi(t)〉=0
(2)
〈(yi(t))2〉=1
(3)
〈yi(t)yj(t)〉=0 ?j
(4)
式中:yi(t)表示yi關(guān)于時間t的一階導(dǎo)數(shù),<·>表示在時間t上求均值。分量yi(t)和分量yj(t)互不相關(guān),因此每個分量都表示各自不同的信息。在求解得到的y的各個分量中,y1(t)是變化最緩慢的特征。
在非線性空間上的做線性變換可以得到相應(yīng)的非線性變換。函數(shù)的非線性擴(kuò)展被定義為:
φ(x):=[φ1(x),φ2(x),…,φM(x)]
(5)
慢特征函數(shù)計算步驟如下:
步驟1利用非線性的函數(shù)對原始信號x(t)進(jìn)行擴(kuò)展,并且把φ(x)歸一化,使其均值為0,即z:=φ(x)-φ(0),其中φ(0)=[φ(x)]t,歸一化后滿足條件(2)。
(6)
要求得到的慢特征函數(shù)能夠滿足約束條件式(2)-式(4),而且也能使式(1)中的目標(biāo)函數(shù)取得最小值。
人類大腦基本是通過面部眉毛、眼睛、鼻子、嘴巴這四大區(qū)域的可觀變化來判定人臉表情,因此,可通過提取對表情變化貢獻(xiàn)較大的特征點(diǎn)集來反映表情的變化趨勢。對人臉表情變化的特征點(diǎn)進(jìn)行跟蹤是動態(tài)特征提取的一種方法,通過對面部特征點(diǎn)的跟蹤可以忽略與表情無關(guān)的背景信息。本文中,SFA流程及實(shí)驗(yàn)輸出樣例如圖1所示。
圖1 表情序列對應(yīng)的SFA輸出
1.2 幾何特征的提取
僅利用特征點(diǎn)位置變化信息雖能完整的表示人臉的輪廓信息,但很難概括各器官的具體形狀變化。心理學(xué)家Ekman與Friesen提出了FACS(Facial Action Control System)用來模擬和研究人的面部表情[17]。FACS中一共定義了44種面部動作AU(Action Unit)編碼,人類六種基本表情都可以由不同的面部動作編碼組合來描述,例如:驚訝的表情是由AU1(抬起眉毛內(nèi)角)、AU2(抬起眉毛外角)、AU5(上眼瞼上升)、AU27(嘴巴張開)組成,等等。表情發(fā)生時主要體現(xiàn)在眼睛、眉毛、嘴巴等部位的形狀變化,例如驚訝表情發(fā)生時臉部上下嘴唇的距離會變大,同時嘴部區(qū)域的面積也會變大。本文通過建立數(shù)學(xué)幾何模型來描述面部運(yùn)動單元。例如利用嘴巴區(qū)域的高斯面積和上下嘴唇特征點(diǎn)之間的距離模型來表示嘴巴張合動作及幅度大小。
單一幾何特征具有計算量小、計算方法簡單等優(yōu)勢,但有時它們利用了大量的特征,卻未能涵蓋所有可能的表情形變信息。為了解決這個問題,本文提出了一種從單一幾何特征轉(zhuǎn)向斜率向量、角度向量、多邊形向量和距離向量多種幾何向量組成的面部表情綜合特征[18]。圖2為本文提取的臉部幾何特征向量。
圖2 幾何特征向量
斜率特征主要是定義2個點(diǎn)之間的變化程度,選取的特征點(diǎn)集中在眉毛和嘴巴周圍,計算方法如下:
(7)
式中:t,m為對應(yīng)的兩個特征點(diǎn)的編號,為該編號的特征點(diǎn)的橫縱坐標(biāo)。
角度特征主要是涉及到3個特征點(diǎn)之間的夾角,計算方式如下:
Angle=
(8)
多邊形特征定義3個或3個以上的特征點(diǎn),將這3個點(diǎn)連成1個多邊形并計算其面積,通過面積來反映表情運(yùn)動單元的變化。計算方法如下:
(9)
距離特征主要是2個特征點(diǎn)之間的歐式距離,本文中用到的距離特征計算方法如下:
(10)
1.3 Gabor特征提取
幾何特征是一類面部局部特征,因此在圖像分類識別時可能會存在局限性。為了獲取更加完整的表情信息,本文采用5個尺度8個方向的Gabor濾波器提取面部紋理信息,從而獲取更多的能概括表情變化的全局信息。Gabor變換是一種加窗的傅里葉變換,二維Gabor濾波函數(shù)定義如公式所示[19]:
ψm,y=
(11)
本文利用眼部特征點(diǎn)對圖片進(jìn)行歸一化預(yù)處理后再提取Gabor的特征如圖3所示??梢钥闯?,這40個表情圖片濾波器都能較好地反映表情的紋理特征,利用DCT的去相關(guān)和聚能的能力,提取能量集中區(qū)的相關(guān)數(shù)據(jù),達(dá)到降低特征維數(shù)的目的[20]。
圖3 5個尺度8個方向?yàn)V波器圖
2.1 深度多核模型
深度多核學(xué)習(xí)DMKL(Deep Multiple Kernel Learning)由多層內(nèi)核函數(shù)和神經(jīng)網(wǎng)絡(luò)堆疊而成。
內(nèi)核函數(shù)是深度多核學(xué)習(xí)的關(guān)鍵組成部分。深度多內(nèi)核架構(gòu)是1個多層次的網(wǎng)絡(luò)架構(gòu),每層都有一組內(nèi)核,其定義為[21]:
(12)
DMKL模型自底向上逐層訓(xùn)練內(nèi)核函數(shù),下層內(nèi)核函數(shù)隱含層的輸出作為上一層內(nèi)核函數(shù)的可視層輸入。逐層訓(xùn)練后的多內(nèi)核函數(shù)可以提取高維數(shù)據(jù)中更有區(qū)別度的低維數(shù)特征。DMKL結(jié)構(gòu)如圖4所示。
圖4 DMKL結(jié)構(gòu)
2.2 融合混合特征與DMKL的人臉表情識別方法
本文提出了一種融合特征與深度多核的人臉表情別方法,流程圖如圖5所示,具體步驟如下:
步驟1對人臉峰值幀表情圖像提取描述人臉局部區(qū)域形狀變化的幾何特征。
步驟2從人臉峰值幀表情圖像提取描述紋理的Gabor特征。
步驟3將提取的兩類特征以串聯(lián)的方式進(jìn)行混合后輸入到深度多核模型進(jìn)行訓(xùn)練。
步驟4利用訓(xùn)練后的DMKL模型得到的核函數(shù)輸入到支持向量機(jī)SVM分類器進(jìn)行表情分類。
圖5 融合特征與DMKL的人臉識別流程
3.1 表情數(shù)據(jù)庫
本文選用Extended Cohn-Kanade(CK+)[22]表情數(shù)據(jù)庫。表情庫包含 123 個人的 593 個表情序列。選取帶標(biāo)簽的 327 個表情序列作為實(shí)驗(yàn)圖像,包含憤怒 45 張、厭惡 59 張、恐懼 25 張、高興 69 張、悲傷 28 張、驚訝 83張,實(shí)驗(yàn)樣本圖像如圖6所示。每次實(shí)驗(yàn)隨機(jī)選取每種表情圖像的四分之三,共255張作為訓(xùn)練樣本,余下的72張作為測試樣本集。識別實(shí)驗(yàn)重復(fù)進(jìn)行十次后取實(shí)驗(yàn)結(jié)果的平均值作為最終識別結(jié)果。
圖6 CK+表情樣本
3.2 混合特征基于深度多核學(xué)習(xí)分類結(jié)果
DMKL雖然已在模式識別領(lǐng)域取得了一些成功,但至今沒有研究把DMKL應(yīng)用于表情圖像的識別中。多內(nèi)核方法可以將數(shù)據(jù)投影到高維再現(xiàn)內(nèi)核希爾伯特空間上,增加數(shù)據(jù)表示的豐富性,適用于異構(gòu)特征數(shù)據(jù),因此將深度學(xué)習(xí)與內(nèi)核方法結(jié)合既可以適用小容量樣本,同時能有效地融合幾何特征數(shù)據(jù)與Gabor特征。本實(shí)驗(yàn)通過分析表情數(shù)據(jù)庫樣本容量后,確定設(shè)置DMKL網(wǎng)絡(luò)中的多核層數(shù)為3層,隱藏層節(jié)點(diǎn)使用4個獨(dú)特的基本內(nèi)核:線性內(nèi)核、Sigmoid內(nèi)核、徑向基內(nèi)核(RBF)和多項(xiàng)式內(nèi)核[23]。實(shí)驗(yàn)的硬件環(huán)境為 3.30 GHz Core i5 CPU,4 GB RAM 計算機(jī),軟件環(huán)境為Matlab R2014b。不同類型特征的DMKL識別率如圖7所示。
圖7 基于DMKL模型識別率
3.3 與其他方法對比
為了驗(yàn)證本文所提出的融合特征對于表情分類識別的有效性,實(shí)驗(yàn)在峰值表情圖像中分別提取幾何特征、Gabor 特征、融合特征,之后采用 DMKL模型進(jìn)行訓(xùn)練后再識別,識別率對比結(jié)果如表1所示。此外,為了驗(yàn)證DMKL對于表情分類識別的有效性,將本文所用的方法同近年來學(xué)者們所提出的表情分類方法進(jìn)行對比,同時本實(shí)驗(yàn)也同SVM 算法進(jìn)行對比。SVM采用廣泛使用的臺灣大學(xué)林智仁教授開發(fā)設(shè)計的LIBSVM,選用 C-SVC 類型,核函數(shù)采用徑向基(RBF)核函數(shù),采用十折交叉驗(yàn)證法訓(xùn)練得到的最佳c和g,利用最佳c、g參數(shù)的分類器進(jìn)行表情的分類。
表1 本文算法與其他表情識別結(jié)果對比
從實(shí)驗(yàn)的結(jié)果可以看出,本文采用融合特征基于DMKL的分類方法與SVM分類識別方法相比,識別率提高了4.13%。對于基于融合特征的表情識別實(shí)驗(yàn)對比如下:詹永照等[5]提取面部的形狀變化特征和紋理特征,利用離散隱馬爾可夫模型得到六種表情的平均識別率為90.83%。蘇志銘等[6]采用幾何信息和紋理信息融合的混合特征,提出基于線段相似度判決方法實(shí)現(xiàn)動態(tài)表情識別,識別率達(dá)到86.45%。本文方法與文獻(xiàn)[5- 6]相比,識別率是有所提高的。對于基于深度學(xué)習(xí)的表情識別方法比較識別如下:王劍云等[24]提出的局部并行深度神經(jīng)網(wǎng)絡(luò)的表情識別方法,能達(dá)到85.71%的識別利率。羅翔云等[8]利用CNN的方法對六種基本表情以及中性表情進(jìn)行識別,識別率達(dá)到了96.43%,但提出的方法需要大量樣本集進(jìn)行訓(xùn)練,因此在實(shí)驗(yàn)過程中采集了CK庫中共2 628個圖像表情進(jìn)行處理識別。Salah等[9]利用深度學(xué)習(xí)方法進(jìn)行了面部運(yùn)動單元識別,對于六種基本表情的識別率超過了90%,但對于厭惡、恐懼、高興、驚訝這幾種表情識別,本文的方法較為優(yōu)良。
本文采用基于融合局部與全局特征的DMKL模型方法進(jìn)行表情識別。從表情峰值圖像中提取眉毛眼睛與嘴巴等部位的幾何特征作為局部表情圖像,有效地減少了冗余信息。實(shí)驗(yàn)分別提取面部Gabor特征與幾何特征后融合,融合特征同時包含了紋理特征與形狀特征,具有更加豐富的表情信息。DMKL模型通過構(gòu)造深層多核學(xué)習(xí)網(wǎng)絡(luò)獲取多核函數(shù)權(quán)重,利用得到最優(yōu)核函數(shù)來提高識別率。將本文所提出的方法應(yīng)用在CK+表情庫上,識別率可以達(dá)到94.4%,證明了本文所提出的方法對于表情識別的有效性。在今后的研究中,要進(jìn)一步探索如何從自發(fā)表情視頻中提取表情峰值幀,使其應(yīng)用于視頻實(shí)時識別。
參 考 文 獻(xiàn)
[1] Liu S S,Tian Y T,Wan C,et al.Facial Expression Recognition Method Based on Gabor Multi-orientation Features Fusion and Block Histogram[J].Acta Automatica Sinica,2011,37(12):1455-1463.
[2] Kim D J.Facial expression recognition using ASM-based post-processing technique[J].Pattern Recognition & Image Analysis,2016,26(3):576-581.
[3] Yuan Weiqi,Fan Yonggang,Ke Li.Palmprints Recognition Method Based on the Phase Consistency Combined with Log-Gabor Filter[J].Acta Optica Sinica,2010,30(1):147-152.
[4] Zhang S,He H,Kong L.Fusing Multi-feature for Video Occlusion Region Detection Based on Graph Cut[J].Acta Optica Sinica,2015,35(4):0415001.
[5] 詹永照,李婷,周庚濤.基于混合特征和多HMM融合的圖像序列表情識別[J].計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報,2008,20(7):900-905.
[6] 蘇志銘,陳靚影.基于自回歸模型的動態(tài)表情識別[J].計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報,2017,29(6):1085-1092.
[7] Hsieh C C,Hsih M H,Jiang M K,et al.Effective semantic features for facial expressions recognition using SVM[J].Multimedia Tools & Applications,2016,75(11):6663-6682.
[8] 羅翔云,周曉慧,付克博.基于深度學(xué)習(xí)的人臉表情識別[J].工業(yè)控制計算機(jī),2017,30(5):92-93.
[9] Al-Darraji S,Berns K,Rodic A.Action Unit Based Facial Expression Recognition Using Deep Learning[C]//International Conference on Robotics in Alpe-Adria Danube Region.Springer,Cham,2016:413-420.
[10] 邵潔,董楠.RGB-D動態(tài)序列的人臉自然表情識別[J].計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報,2015,27(5):847-854.
[11] Moeini A,Faez K,Sadeghi H,et al.2D facial expression recognition via 3D reconstruction and feature fusion[J].Journal of Visual Communication & Image Representation,2016,35:1-14.
[12] 劉宇灝.基于PLBP的面部表情識別分析[J].信息化研究,2016(2):47-50.
[13] Happy S L,Routray A.Automatic facial expression recognition using features of salient facial patches[J].IEEE Transactions on Affective Computing,2015,6(1):1-12.
[14] Wiskott L.Slow Feature Analysis[J].Scholarpedia,2014,6(4):1-2.
[15] 陳婷婷,阮秋琦,安高云.視頻中人體行為的慢特征提取算法[J].智能系統(tǒng)學(xué)報,2015(3):381-386.
[16] 馬奎俊,韓彥軍,陶卿,等.基于核的慢特征分析算法[J].模式識別與人工智能,2011,24(2):153-159.
[17] Ekman P.Measuring facial movement with the Facial Action Cording System[J].Emotion in the human face,1987:179-211.
[18] Palestra G,Pettinicchio A,Coco M D,et al.Improved Performance in Facial Expression Recognition Using 32 Geometric Features[C]//International Conference on Image Analysis and Processing.Springer International Publishing,2015:518-528.
[19] 張永宏,曹健,王麗華.基于改進(jìn)型DCT和Gabor分塊的人臉特征提取與識別[J].測控技術(shù),2012,31(12):36-40.
[20] Bober M,Farinella G M,Guarnera M,et al.Semantic segmentation of images exploiting DCT based features and random forest[J].Pattern Recognition,2016,52(C):260-273.
[21] Jiu M,Sahbi H.Semi supervised deep kernel design for image annotation[C]//IEEE International Conference on Acoustics,Speech and Signal Processing.IEEE,2015:1156-1160.
[22] Lucey P,Cohn J F,Kanade T,et al.The Extended Cohn-Kanade Dataset (CK+):A complete dataset for action unit and emotion-specified expression[C]//Computer Vision and Pattern Recognition Workshops.IEEE,2010:94-101.
[23] Strobl E V,Visweswaran S.Deep Multiple Kernel Learning[C]//International Conference on Machine Learning and Applications.IEEE,2014:414-417.
[24] 王劍云,李小霞.一種基于深度學(xué)習(xí)的表情識別方法[J].計算機(jī)與現(xiàn)代化,2015(1):84-87.