周濤,孫亞新
(嘉興學(xué)院,嘉興 314001)
人臉表情識(shí)別是對(duì)人臉的表情信息進(jìn)行特征提取和分析,進(jìn)而使機(jī)器理解人類情感的人工智能技術(shù)。在機(jī)器人、人機(jī)交互、遠(yuǎn)程教育、游戲娛樂(lè)等領(lǐng)域都有非常廣泛的應(yīng)用。目前已經(jīng)有大量的研究者針對(duì)人臉表情識(shí)別展開研究。
何俊提出了一個(gè)新的多角度人臉表情識(shí)別方法,該方法首先提取回歸模型的增量修正特征,然后用主成分分析法進(jìn)行特征選擇,最后采用判別共享高斯過(guò)程隱變量模型識(shí)別多角度人臉表情[1]。黃壽喜采用改進(jìn)的深度信念網(wǎng)絡(luò)作為提取人臉表情特征的檢測(cè)器,堆疊自編碼器作為識(shí)別表情的分類器,實(shí)現(xiàn)在人臉表情識(shí)別研究中深度信念網(wǎng)絡(luò)與堆疊自編碼器的結(jié)合[2]。齊梅提出了一種韋伯梯度編碼特征描述的人臉表情識(shí)別算法[3]。盧官明提出一種基于協(xié)作表示的分類算法,并應(yīng)用于人臉表情識(shí)別[4]。羅源將訓(xùn)練樣本切割出眼眉、臉頰和嘴三部分,對(duì)分割的各部分利用K-SVD算法得到塊字典向量,再用層次分析法的權(quán)重賦值方法求塊字典向量的權(quán)重值,構(gòu)成各類子字典[5]。周宇旋針對(duì)完全局部二值模式存在直方圖維數(shù)過(guò)高和特征冗余,會(huì)導(dǎo)致識(shí)別速度降低和識(shí)別率低的問(wèn)題,提出基于有判別力的完全局部二值模式的人臉表情識(shí)別算法[6]。
從上述文獻(xiàn)的描述可以看到,這些文獻(xiàn)主要從特征提取[2,3,6]和分類器[1,4,5]上展開研究。這些方法在分類上均采用單個(gè)分類器完成任務(wù)。但是本文注意到在人臉數(shù)據(jù)中,不同人、不同角度、不同光照往往比不同表情對(duì)人臉的影響更大,導(dǎo)致導(dǎo)致不同表情的數(shù)據(jù)可能比同一表情的數(shù)據(jù)更相似。然而人類在這種情況下,卻能比較容易的發(fā)現(xiàn)不同表情的人臉之間的差異。究其原因可能是人類在識(shí)別不同的人臉表情時(shí),會(huì)自動(dòng)尋找合適的特征和分類方法將其區(qū)分開來(lái)。
為了模擬上述人類識(shí)別人臉表情的過(guò)程,本文提出一種基于兩階段分類與自適應(yīng)特征變換的人臉表情識(shí)別方法。第1階段,在維數(shù)約簡(jiǎn)結(jié)果上,分別使用KNN和SVM對(duì)測(cè)試樣本分類。這里KNN和SVM分別表示兩個(gè)不同的人采取同一特征識(shí)別人臉表情。如果該特征適合用來(lái)識(shí)別該表情,顯然兩者結(jié)果應(yīng)該一致。如果該特征不適合用來(lái)識(shí)別該表情,則兩個(gè)人可能會(huì)持不同的意見。此時(shí)應(yīng)該尋找另外一種特征來(lái)識(shí)別該表情,所以接下來(lái)采取新的階段再次識(shí)別該表情。
第2階段,首先使用一種自適應(yīng)特征變換,將維數(shù)約簡(jiǎn)結(jié)果變換到新的特征空間,然后使用稀疏表示分類進(jìn)行分類。其中,對(duì)于自適應(yīng)特征變換,本文發(fā)現(xiàn)文獻(xiàn)[7]給出的基于引力感知模型的自適應(yīng)特征變換能夠很好的完成任務(wù)。另外,本文使用稀疏表示分類的原因稀疏表示分類的原理與KNN和SVM差異較大。
TSAFTC的主要過(guò)程是對(duì)分類難度較大的測(cè)試樣本,將特征映射到新的空間,使用新的分類器進(jìn)一步識(shí)別。其原理是模擬人類在識(shí)別目標(biāo)時(shí)會(huì)自動(dòng)選擇合適的特征和分類方法。本節(jié)先給出TSAFTC的框架,然后給出自適應(yīng)特征變換(Adaptive Feature Transform,AFT),最后給出TSAFTC算法。
圖1給出了TSAFTC的流程圖。從圖1可以看到給定一個(gè)測(cè)試樣本的表情特征。第1階段,使用KNN和SVM分別進(jìn)行識(shí)別,并判斷分類結(jié)果是否相同,如果相同則輸出分類結(jié)果,否則進(jìn)入第2階段。第2階段,首先使用AFT將特征變換到新的特征空間,然后使用SRC進(jìn)行分類,得到最終分類結(jié)果。
圖1 TSAFTC流程圖
本文采用文獻(xiàn)[7]研究得到的自適應(yīng)特征變換方法。給定 n個(gè)訓(xùn)練樣本其中 p是數(shù)據(jù)的維度,n是數(shù)據(jù)的個(gè)數(shù),對(duì)于訓(xùn)練樣本xi自適應(yīng)特征變換定義如下:
根據(jù)前面兩小節(jié)的描述,TSAFTC算法可以總結(jié)如下:
算法1 TSAFTC
輸入:訓(xùn)練樣本集X=[x1,x2,…,xn]∈Rp×n和其類別標(biāo)簽L=[l1,l2,…,ln],測(cè)試樣本x
輸出:測(cè)試樣本的類別c
1:對(duì)x分別使用KNN和SVM得到分類結(jié)果c1和c2。
2:如果c1和c2結(jié)果相同,則分類結(jié)果c=c1。否側(cè),進(jìn)入第3步。
3:使用式(1)得到訓(xùn)練樣本的自適應(yīng)特征變換結(jié)果Y=[y1,y2,…,yn]∈Rn×n,使用式(9)得到測(cè)試樣本的自適應(yīng)特征變換結(jié)果y∈Rn×1。
4:根據(jù)Y,L,y使用SRC得到分類結(jié)果c
為了實(shí)現(xiàn)人臉表情識(shí)別,還需要特征提取和維數(shù)約簡(jiǎn)。流程圖如圖2所示。接下來(lái)簡(jiǎn)要介紹本文采用的特征提取和維數(shù)約簡(jiǎn)方法。
圖2 基于TSAFTC的人臉表情識(shí)別方法流程圖
其中梯度方向直方圖(Histogram of Oriented Gradients,HOG)用于提取特征。首先將人臉圖像歸一化為128×128大小。然后使用兩種不同的參數(shù)提取HOG特征,其中方向組數(shù)為16。第1種參數(shù)設(shè)置如下:人臉圖像劃分成8×8不重疊的塊,這樣總共有256塊。第2種參數(shù)設(shè)置如下:人臉劃分成16×16不重疊的塊,這樣總共有64塊。
文獻(xiàn)[8]給出的增強(qiáng)的相關(guān)反饋(Enhanced Rele?vance Feedback,ERF)方法用于維數(shù)約簡(jiǎn)。
兩個(gè)基準(zhǔn)數(shù)據(jù)庫(kù)用于實(shí)驗(yàn)。第1個(gè)數(shù)據(jù)庫(kù)是日本女性人臉表情數(shù)據(jù)庫(kù)(Japanese female facial expression,JAFFE)。該數(shù)據(jù)庫(kù)總共包含213張256×256大小的灰度圖。由10位日本女性,每種表情提供2到4張圖片組成。
第2個(gè)數(shù)據(jù)庫(kù)是擴(kuò)展 Cohn–Kanade(Extended Cohn–Kanade,CK+)數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)包含123個(gè)對(duì)象的327個(gè)標(biāo)注了人臉表情的圖像序列,其中表情標(biāo)簽有高興、悲傷、憤怒、害怕、厭惡、藐視、驚奇等。本文選擇序列中的最后3張圖片用于實(shí)驗(yàn)。
TSAFTC是一種分類器,所以本文將與其他的分類器比較,包括SVM,KNN,SRC三種方法。其中SVM使用多項(xiàng)式核,KNN中的鄰域參數(shù)k由在訓(xùn)練數(shù)據(jù)中的交叉算法確定。
采用人獨(dú)立的實(shí)驗(yàn)策略,即每次采用一個(gè)人的數(shù)據(jù)作為測(cè)試數(shù)據(jù),其他人的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。所有人的數(shù)據(jù)均作為一次測(cè)試數(shù)據(jù),所有實(shí)驗(yàn)結(jié)果的平均作為最終的實(shí)驗(yàn)結(jié)果。
表1 兩數(shù)據(jù)庫(kù)上使用不同分類器的人臉表情識(shí)別結(jié)果
表1給出了不同分類器在兩個(gè)數(shù)據(jù)庫(kù)上的人臉表情識(shí)別結(jié)果。從表1可以看到TSAFTC在兩個(gè)數(shù)據(jù)庫(kù)上均能取得最好的效果。在CK+數(shù)據(jù)上,TSAFTC比SVM,KNN,SRC分別高 2.11%,2.02%,1.27%。在JAFFE數(shù)據(jù)庫(kù)上比 SVM,KNN,SRC分別高 1.43%,2.36%,5.75%。這些實(shí)驗(yàn)結(jié)果證明了本文算法在人臉表情識(shí)別上的有效性。
因?yàn)楦鱾€(gè)分類器的輸入數(shù)據(jù)需要先使用維數(shù)約簡(jiǎn)算法降維,所以在圖3和圖4中還給出了維數(shù)約簡(jiǎn)結(jié)果取不同維度的實(shí)驗(yàn)結(jié)果,其中維度分別取20,40,60,80,100,120,140,160。從圖3和4可以看到,在取不同維度時(shí),TSAFTC算法相對(duì)其他算法能夠得到更穩(wěn)定的實(shí)驗(yàn)結(jié)果。特別是TSAFTC在降低的維度時(shí)就能達(dá)較好的實(shí)驗(yàn)結(jié)果。這樣有兩個(gè)好處:首先,維數(shù)約簡(jiǎn)結(jié)果的維度,目前來(lái)說(shuō),并沒(méi)有一個(gè)很好的選擇方法,如果分類器在不同維度時(shí)的結(jié)果更穩(wěn)定,則更有利于維數(shù)約簡(jiǎn)結(jié)果維度的選擇。其次,在更低維度上就能達(dá)到更好的效果,有利于提高后續(xù)步驟的執(zhí)行速度。
本文提出一種基于兩階段分類與自適應(yīng)特征變換的人臉表情識(shí)別方法。該方法能夠模擬人類以下的目標(biāo)識(shí)別過(guò)程:當(dāng)一種特征或者識(shí)別方法不能夠很好地識(shí)別物體時(shí),會(huì)自動(dòng)的切換至另外一種特征或者方法來(lái)識(shí)別該目標(biāo)。通過(guò)在JAFFE和CK+上的人獨(dú)立的表情識(shí)別實(shí)驗(yàn)可以看到,本文算法能夠取得更好的實(shí)驗(yàn)結(jié)果。
圖3 ERF取不同維度時(shí)在CK+數(shù)據(jù)庫(kù)上的分類結(jié)果
圖4 ERF取不同維度時(shí)在JAFFE數(shù)據(jù)庫(kù)上的分類結(jié)果
本文算法使用兩個(gè)不同的分類器對(duì)測(cè)試樣本進(jìn)行識(shí)別,然后根據(jù)識(shí)別結(jié)果,判斷該樣本使用該特征和方法是否能夠比較容易的識(shí)別該表情。雖然在一定程度上能夠發(fā)現(xiàn)該特征和方法是否有利于該表情,但是依舊會(huì)出現(xiàn)較多的、兩者識(shí)別結(jié)果一致時(shí),識(shí)別結(jié)果卻不對(duì)的情況。所以在將來(lái)研究一種更合理的方法,來(lái)發(fā)現(xiàn)采用的特征和方法是否有利于識(shí)別該表情。
參考文獻(xiàn):
[1]何俊,何忠文,蔡建峰,房靈芝.一種新的多角度人臉表情識(shí)別方法.計(jì)算機(jī)應(yīng)用研究.2018(35):1-8
[2]黃壽喜,邱衛(wèi)根.基于改進(jìn)的深度信念網(wǎng)絡(luò)的人臉表情識(shí)別.計(jì)算機(jī)工程與設(shè)計(jì),2017(6):1580-1584
[3]齊梅,李艷秋.WGC特征描述的人臉表情識(shí)別.電子測(cè)量與儀器學(xué)報(bào),2017(4):566-572
[4]盧官明,石婉婉,李霞,張正言,閆靜杰.基于協(xié)作表示的人臉表情識(shí)別.南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2017(2):51-56
[5]羅源,張靈,陳云華,朱思豪,田小路.基于層次結(jié)構(gòu)化字典學(xué)習(xí)的人臉表情識(shí)別,2017(11):3514-3517
[6]周宇旋,吳秦,梁久禎,王念兵,李文靜.判別性完全局部二值模式人臉表情識(shí)別.計(jì)算機(jī)工程與應(yīng)用,2017(4):163-169
[7]Ya-xin Sun,Gu-ihua Wen.Cognitive Gravitation Model-Based Relative Transformation for Classification.Soft computing,2017,21(18):5425-5441.
[8]Ya-xin Sun,Gui-huaWen.Cognitive Facial Expression Recognition with Constrained Dimensionality Reduction.Neuro computing,2017,239:397-408.