高 攀,郭 理,汪傳建
(石河子大學(xué)信息科學(xué)與技術(shù)學(xué)院,新疆石河子832000)
近年來,面部表情自動(dòng)識(shí)別技術(shù)因其各種應(yīng)用而被廣泛關(guān)注,如人機(jī)交互(HCI)、情感分析、自動(dòng)輔導(dǎo)系統(tǒng)、交互式視頻、圖像和視頻數(shù)據(jù)庫的檢索、圖像理解和人臉動(dòng)畫合成等[1-5]。文獻(xiàn)[6]提出的6種基本的情感,包括快樂,悲傷,恐懼,厭惡,驚訝和憤怒。表情識(shí)別方法基本上可以分為幾何分析和基于外觀分析兩大類[6],第1種方法考慮到一些預(yù)定義的幾何位置,也被稱為基準(zhǔn)點(diǎn),以面部特征來表示面部,然而,幾何特征的表示通常需要精確和可靠的人臉特征檢測與跟蹤,這很難適應(yīng)于許多情況[7]。第2種方法是通過整體空間分析模仿面部外觀的變化,這種方法所使用的工具通常是主成分分析(PCA)[6]、獨(dú)立成分分析(ICA)[8]、Gabor 濾波器和局部二進(jìn)制模式(LBP)[9]。Gabor濾波器因?yàn)槠湓诿娌糠治錾蟽?yōu)越的性能而被廣泛采用[10],但其缺點(diǎn)是在時(shí)間和內(nèi)存上花銷較高,LBP作為有效的外觀特征圖像分析[11]技術(shù)與Gabor濾波器相比,節(jié)省了大量計(jì)算資源,同時(shí)又有效地保持了面部信息[12]。
雖然技術(shù)上已經(jīng)取得了很大進(jìn)展,但由于面部表情的變化具有微妙性、復(fù)雜性和多變性,所以高精確識(shí)別面部表情仍然有困難。為處理這類復(fù)雜的模式識(shí)別問題,本文利用Gabor濾波器和LBP這兩個(gè)當(dāng)前最廣泛應(yīng)用于面部表情識(shí)別的特征集創(chuàng)建分類器組,使用多目標(biāo)遺傳算法搜索最佳的集合作為目標(biāo)函數(shù)。為驗(yàn)證所提出的方法,本文設(shè)計(jì)了兩個(gè)不同的方案分別在JAFFE和Cohn-Kanade兩個(gè)不同的人臉庫上進(jìn)行實(shí)驗(yàn),通過實(shí)驗(yàn)可以證明:所提出方案比使用單一特征集和單分類器的傳統(tǒng)方法分別提高了5%和10%的識(shí)別率。
本文選擇用來進(jìn)行面部表情建模的特征集。
Gabor濾波器已被成功地應(yīng)用于人臉表情識(shí)別,因此被選為一個(gè)特征集用于訓(xùn)練基分類器。一組Gabor內(nèi)核是一個(gè)高斯包絡(luò)和平面波的產(chǎn)物,定義如方程(1)[9]:
其中,z=(x,y)是一個(gè)空間域上的變量;kμ,v(定義如方程(2)[6])是一個(gè)頻率矢量,用來確定 Gabor內(nèi)核的尺度和方向。
圖18 個(gè)方向(列)和5個(gè)尺度(行)的Gabor濾波器
可以使用方程(3)[10],通過Gabor內(nèi)核的卷積得到給定的圖像I(z)在特定位置上的Gabor變換,
由方程(4)[10]得到復(fù)圖像的幅值:
其中,N是人臉圖像中標(biāo)記的基準(zhǔn)點(diǎn)數(shù)量;xl和yl是基準(zhǔn)點(diǎn)的坐標(biāo);k是用來形成區(qū)域的周邊像素的數(shù)量。文獻(xiàn)[12]提出的一組來自74個(gè)不同界標(biāo)的20個(gè)基準(zhǔn)點(diǎn),根據(jù)作者的觀點(diǎn),這些點(diǎn)分布在臉的突出特征上。圖2顯示了作者使用的20個(gè)基準(zhǔn)點(diǎn)。
根據(jù)方程(5),用一個(gè)大小為K×K掩模計(jì)算出特征向量。在本文的實(shí)驗(yàn)中,測試了K={1,3,5,7,9}。如前所述,提取了尺度為160的5個(gè)特征集,方向?yàn)?00的8個(gè)特征集,和一個(gè)尺度和方向都為800的特征集??紤]到5個(gè)不同的掩模,用70個(gè)不同的特征集訓(xùn)練70個(gè)分類器。
局部二進(jìn)制模式(LBP)最早是作為一種有效的紋理描述算子提出的[13],由于其對(duì)圖像局部紋理特征的卓越描繪能力而獲得了十分廣泛的應(yīng)用。LBP特征具有很強(qiáng)的分類能力和較高的計(jì)算效率,因此被選為用于訓(xùn)練基分類器的另一個(gè)特征集。圖3為原始LBP算子,以窗口中心像素為閾值,將相鄰的8個(gè)像素的灰度值與其進(jìn)行比較,若周圍像素值大于中心像素值,則該像素點(diǎn)的位置被標(biāo)記為1,否則為0。這樣,3×3鄰域內(nèi)的8個(gè)點(diǎn)可產(chǎn)生8 bit的無符號(hào)數(shù),即得到該窗口的LBP值,并用這個(gè)值來反映該區(qū)域的紋理信息。
圖2 文獻(xiàn)[8]提出的20個(gè)基準(zhǔn)點(diǎn)
圖3 原始LBP算子
基本LBP算子的局限性在于它的小鄰域不能吸收大尺度結(jié)構(gòu)中的主要特征。為解決這個(gè)問題,算子被擴(kuò)展以應(yīng)對(duì)大鄰域,采用圓形鄰域并結(jié)合雙線性插值運(yùn)算,能夠獲得任意半徑和任意數(shù)目鄰域像素點(diǎn)。圖4是擴(kuò)展的LBP算子,(P,R)表示半徑為R的圓上P鄰域等距采樣點(diǎn)。
LBPP,R算子產(chǎn)生2P個(gè)不同的輸出值,對(duì)應(yīng)于鄰域集中P個(gè)像素形成的2P個(gè)不同的二進(jìn)制模式。對(duì)人臉圖像使用LBP分割成小區(qū)域Z0,Z1,…,Zn以提取LBP直方圖,然后每個(gè)區(qū)域提取的特征合并成一個(gè)單一的向量。圖5舉例說明這一過程。
圖4 擴(kuò)展LBP算子的3個(gè)例子
圖5 從分區(qū)的面部圖像提取LBP特征
本文把人臉分為42個(gè)區(qū)(7×6),使用3個(gè)不同的特征組合訓(xùn)練3個(gè)分類器,這3種LBP算子的組合分別是前兩種組合產(chǎn)生的特征向量每區(qū)有 59 個(gè)特征,合計(jì) 2 478 個(gè),而最后一個(gè)組合產(chǎn)生的特征向量每區(qū)有243個(gè)特征,合計(jì)10 206個(gè)。
使用兩個(gè)實(shí)驗(yàn)方案來評(píng)價(jià)面部表情識(shí)別方法。實(shí)驗(yàn)I中,測試對(duì)象來自訓(xùn)練對(duì)象集,實(shí)驗(yàn)II中,訓(xùn)練集對(duì)象均不用于測試。第1個(gè)實(shí)驗(yàn)方案經(jīng)常在文獻(xiàn)中出現(xiàn),但是,第2個(gè)方案更為切合實(shí)際,因?yàn)樵撓到y(tǒng)必須能夠?qū)]有被用來訓(xùn)練的對(duì)象進(jìn)行表情分類。
本文采用支持向量機(jī)(SVM)作為基分類器。面部表情識(shí)別是一個(gè)多分類問題,假設(shè)d表示類的數(shù)目,則需訓(xùn)練d×(d-1)/2個(gè)分類器,并組織成樹形結(jié)構(gòu),如7種不同類別的面部表情需要21個(gè)分類。
接下來簡單介紹JAFFE和Cohn-Kanade數(shù)據(jù)庫并在這兩個(gè)數(shù)據(jù)上做相關(guān)實(shí)驗(yàn)。
JAFFE數(shù)據(jù)庫包含10名女性對(duì)象及其213個(gè)圖像的面部表情。每個(gè)圖像分辨率為256×256像素。7個(gè)類別的圖像表情(中性,快樂,悲傷,驚訝,憤怒,厭惡,恐懼)是相同的,如圖6所示。
圖6 JAFFE數(shù)據(jù)庫中7類面部表情
Cohn-Kanade數(shù)據(jù)庫描繪每一個(gè)表情從中性狀態(tài)演變直到它在最后一幀達(dá)到其最高的強(qiáng)度的序列圖像。數(shù)據(jù)庫由1 281個(gè)圖像構(gòu)成。圖7是這個(gè)數(shù)據(jù)集的一些例子。
圖7 Cohn-Kanade數(shù)據(jù)庫中7類面部表情
根據(jù)所提出的方法,第1步是訓(xùn)練基分類器池。所有的分類都是基于LibSVM高斯內(nèi)核訓(xùn)練的支持向量機(jī)。通過使用JAFFE數(shù)據(jù)庫進(jìn)行實(shí)驗(yàn)I和實(shí)驗(yàn)II,得到73個(gè)分類器的精度。分類器分為3組:3個(gè)LBP分類器、30個(gè)基于尺度的Gabor分類器和40個(gè)基于方向的Gabor分類器??梢杂^察到,實(shí)驗(yàn)II的分類器性能遠(yuǎn)不如實(shí)驗(yàn)I的表現(xiàn)。
訓(xùn)練后的分類器池作為MOGA的輸入,本文使用NSGA-II多目標(biāo)遺傳算法建立分類器集合,實(shí)驗(yàn)中采用如下參數(shù):種群=100,子代數(shù)=300,交叉概率=0.7,變異概率=0.01,小生境距離=0.05。因?yàn)閷?shí)驗(yàn)中使用73個(gè)分類器,所以染色體的個(gè)數(shù)是73;集合的錯(cuò)誤率通過求和規(guī)則計(jì)算;采用組合優(yōu)化方法定義交叉概率和變異概率;使用實(shí)證法確定種群規(guī)模與子代數(shù)。
圖8顯示了實(shí)驗(yàn)I和實(shí)驗(yàn)II在目標(biāo)平面上的種群演變??梢杂^察到,在這兩種情況下,該算法收斂到Pareto前沿產(chǎn)生一組可能的解決方案。為了進(jìn)行搜索,使用10倍交叉驗(yàn)證。每個(gè)實(shí)驗(yàn)重復(fù)10次,以驗(yàn)證其重復(fù)性。因此,所有結(jié)果是這10次重復(fù)的平均值。
圖8 在目標(biāo)平面上的種群演變
下一步是從Pareto選擇最佳的分類器集合。如前所述,高精度很重要,但集合的大小也是這類應(yīng)用的一個(gè)重要問題。從圖8可以看出:提供了準(zhǔn)確性和大小之間的最佳權(quán)衡的集合被安置在靠近Pareto的末端。選定的集合用箭頭標(biāo)記在圖8a和圖8b中,選定的分類器及其個(gè)體性能如表1所示。
盡管分類器規(guī)模相同(實(shí)驗(yàn)I和實(shí)驗(yàn)II分類器規(guī)模分別是5和6),但除了LBP分類器LBP8,2以外,該集合的組成完全不同。從表1可以看到:實(shí)驗(yàn)II比實(shí)驗(yàn)I有相當(dāng)多的難度,但是,所提出的方法能夠?yàn)閷?shí)驗(yàn)找到合適的集合。
表1 選擇的分類器(JAFFE數(shù)據(jù)庫)
在實(shí)驗(yàn)I中,集合性能相比較最佳分類器提高了約5%。但實(shí)驗(yàn)II表現(xiàn)更佳,分類器集合相對(duì)最好的單分類器識(shí)別率提高了10%左右。實(shí)驗(yàn)II選擇的分類器的性能快速查看的結(jié)果表明似乎可以拋棄3個(gè)基于Gabor的分類器,因?yàn)榕c基于LBP的分類器相比,他們表現(xiàn)欠佳,但這些弱分類器仍然非常重要,因?yàn)樗麄兲峁┭a(bǔ)充信息,這是集合良好性能的關(guān)鍵,如果移除3個(gè)基于Gabor的分類器,則集合的性能將下降到62%。
表2和表3比較了兩個(gè)針對(duì)所有分類器和所提方法產(chǎn)生的集合實(shí)驗(yàn)的混淆矩陣。表2顯示實(shí)驗(yàn)I中分類器解決了絕大多數(shù)的分類問題,在實(shí)驗(yàn)II中(如表3所示)也解決了幾個(gè)問題,但還有很多改進(jìn)的余地,如“悲傷”類。為了進(jìn)一步減少這些問題,一個(gè)可能的選擇是使用更多的數(shù)據(jù)庫圖像來增加訓(xùn)練集。
表2 實(shí)驗(yàn)I的混淆矩陣(JAFFE數(shù)據(jù)庫)
表3 實(shí)驗(yàn)II的混淆矩陣(JAFFE數(shù)據(jù)庫)
表4為不同方法在JAFFE數(shù)據(jù)庫的比較,從表4可以看出:所提出的方法優(yōu)于已有文獻(xiàn)。
與JAFFE數(shù)據(jù)庫相同的方案被施加在Cohn-Kanade數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn)。同樣得到了73個(gè)分類器在實(shí)驗(yàn)I和實(shí)驗(yàn)II中的精度。通過比較兩次實(shí)驗(yàn)可以很清楚地看到:Cohn-Kanade數(shù)據(jù)庫比 JAFFE數(shù)據(jù)庫簡單,因?yàn)镃ohn-Kanade數(shù)據(jù)庫中面部表情圖像的變化細(xì)微。一些分類器的性能令人非常滿意,特別是在實(shí)驗(yàn)I中同一對(duì)象同時(shí)參與了訓(xùn)練和測試時(shí)的精度。
與在JAFFE數(shù)據(jù)庫上的實(shí)驗(yàn)一樣,算法也是收斂到Pareto前沿產(chǎn)生一組可能的解決方案。選定的集合用箭頭標(biāo)記,如圖9a和圖9b所示。選定的分類和他們的性能如表5所示。同樣,對(duì)選擇的集合進(jìn)行了10次重復(fù)以保證其可重復(fù)性。
表4 不同方法在JAFFE數(shù)據(jù)庫的比較
圖9 在目標(biāo)平面上的種群演變
表5 選擇的分類器(Cohn-Kanade數(shù)據(jù)庫)
如前所述,該數(shù)據(jù)集比前一個(gè)簡單,所以它需要更小的集合減少整體的錯(cuò)誤率。在這種情況下,最佳的分類器(LBP8,2)連同一個(gè)基于尺度的Gabor分類器被選定。表6顯示了實(shí)驗(yàn)II的混淆矩陣,從表6中可以觀察到“恐懼”類的問題得到了解決,“恐懼”是公認(rèn)最難識(shí)別的表情。
表6 實(shí)驗(yàn)II混淆矩陣(Cohn-Kanade數(shù)據(jù)庫)
表7顯示了文獻(xiàn)中報(bào)道的不同方法在Cohn-Kanade數(shù)據(jù)庫的性能。由于已有實(shí)驗(yàn)方案的差異,直接的比較是不可能的,盡管實(shí)驗(yàn)方案有所差異,但所提出的方法優(yōu)于已有文獻(xiàn)。
表7 不同方法在Cohn-Kanade數(shù)據(jù)庫的比較
本文提出了一個(gè)面部表情識(shí)別新方法,該方法依賴于兩個(gè)不同的特征集相結(jié)合為一個(gè)集合以提高識(shí)別的準(zhǔn)確性。該方法結(jié)合了兩種不同的特征集,即Gabor濾波器和LBP。兩個(gè)特征集相結(jié)合為分類器集合的識(shí)別率明顯優(yōu)于個(gè)體特征集和單分類器。例如,在實(shí)驗(yàn)I的情況下,集合方法的性能比最好的個(gè)體分類器提高了約5%。特別是在實(shí)驗(yàn)II中,集合方法的識(shí)別率比最好的個(gè)體分類器提高了約10%。
與文獻(xiàn)中的各種方法相比,本文得到的識(shí)別率都略有提高。盡管取得了良好的效果,但所提出的方法仍有一些缺點(diǎn)。一個(gè)缺點(diǎn)是在Gabor特征的情況下,基準(zhǔn)點(diǎn)定位存在問題。由于沒有可靠的算法在人臉圖像找到這樣的點(diǎn),不正確的位置會(huì)導(dǎo)致噪聲特征向量,這個(gè)特征向量會(huì)減少對(duì)應(yīng)分類器的精確度。盡管如此,這個(gè)問題可以被集合在某種程度上緩解;另一個(gè)缺點(diǎn)是整個(gè)系統(tǒng)的復(fù)雜性增大,因?yàn)樗枰崛商滋卣饕约胺诸惼鞯挠?xùn)練和選擇,但這個(gè)缺點(diǎn)相對(duì)于面部表情識(shí)別率的增長是值得的。
[1]Aleksic P S,Katsaggelos A K.Automatic Facial Expression Recognition Using Facial Animation Parameters and Multistream Hmms[J].IEEE Transactions on Information Forensics and Security,2006,1(1):3-11.
[2]Bartlett M,Littlewort G,F(xiàn)rank M,et al.Recognizing Facial Expression:Machine Learning and Application to Spotaneous Behavior[J].IEEE Conference on Computer Vision and Pattern Recognition,2011,3(1):568-573.
[3]吳丹,林學(xué)訚.人臉表情視頻數(shù)據(jù)庫的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2004(5):177-180.
[4]楊得國,楊勐,姜金娣,等.一種改進(jìn)的局部區(qū)域特征醫(yī)學(xué)圖像分割方法[J].河南科技大學(xué)學(xué)報(bào):自然科學(xué)版,2012,33(2):30-33.
[5]翁陽,程明.基于相位相關(guān)的指紋序列圖像配準(zhǔn)新算法[J].鄭州大學(xué)學(xué)報(bào):理學(xué)版,2012(4):63-67.
[6]Besinger A,Sztynda T,Lal S,et al.Optical Flow Based Analyses to Detect Emotion from Human Facial Image Data[J].Expert Systems with Applications,2010(7):8897-8902.
[7]Liao S,F(xiàn)an W,Chung C S,et al.Facial Expression Recognition Using Advanced Local Binary Patterns[C]//International Conference on Image Processing(ICIP).2006:665-668.
[8]Cheng F,Yu J,Xiong H.Facial Expression Recognition in Jaffe Dataset Based on Gaussian Process Classification[J].IEEE Transactions on Neural Networks,2011,21(10):1685-1690.
[9]Cohen I,Sebe N,Garg A,et al.Facial Expression Recognition from Video Sequences:Temporal and Static Modeling[J].Computer Vision and Image Understanding,2003,9(1):160-187.
[10]Geetha A,Ramalingam V,Palanivel S,et al.Facial Expression Recognition a Real Time Approach[J].Expert Systems with Applications,2013,3(2):303-308.
[11]Duan H,Xu C F,Xing Z H.A Hybrid Artificial Bee Colony Optimization and Quantum Evolutionary Algorithm for Continuous Optimization Problems[J].International Journal of Neural Systems,2010,20(1):39-50.
[12]Koutlas A,F(xiàn)otiadis D.An Automatic Region Based Methodology for Facial Expression Recognition[J].IEEE International Conference on Systems,Man and Cybernetics,2008(6):662-666.
[13]Liu W,Wang Z.Facial Expression Recognition Based on Fusion of Multiple Gabor Features[C]//18th International Conference on Pattern Recognition.2006:36-539.
[14]Shan C,Gong S,McOwan P W.Facial Expression Recognition Based on Local Binary Patterns:A Comprehensive Study[J].Image and Vision Computing,2011,27(3):803-816.
[15]Zavaschi T,Oliveira L,Koerich A.Facial Expression Recognition Using Ensemble of Classifiers[C]//Proceedings of 36th International Conference on Acoustics,Speech and Signal Processing.2011:1489-1492.
[16]Lu J,Plataniotis K N,Venetsanopoulos A N.Regularization of Linear Discriminant Analysis in Small Sample Size Scenarios with Application to Face Recognition[J].Pattern Recognition Letters,2011,46(2):181-191.
[17]Nandakumar K,Chen Y,Dass S C,et al.Likelihood Ratio Based Biometric Score Fusion[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,47(2):342-347.
[18]Jumutc V,Zayakin P,Borisov A.Ranking-based Kernels in Applied Biomedical Diagnostics Using Support Vector Machine[J].International Journal of Neural Systems,2011,21(6):459-473.