伊力哈木?亞爾買買提,張 偉
(新疆大學電氣工程學院,新疆 烏魯木齊 830047)
最近幾年,隨著人類與機器之間的交互技術(shù)的迅猛發(fā)展,人臉面部表情識別問題越來越得到眾多科學研究者的重視[1-3],尤其是在智能化模式領(lǐng)域內(nèi)人臉面部表情辨識己成為現(xiàn)在熱點研究內(nèi)容之一。雖然當前在合理的受控條件下的人臉面部表情識別的研究已獲得了長足進步,但是在非受控的自然環(huán)境條件下,人臉面部表情圖像存在著很多不可預知的因素,這就導致現(xiàn)有的人臉面部表情辨識算法的性能效果不理想,尤其是利用現(xiàn)有的單一識別算法對于人臉面部表情的辨識不能體現(xiàn)出其優(yōu)勢,所以現(xiàn)在眾多人臉面部表情識別領(lǐng)域內(nèi)的學者開始注重多元化多特征融合算法方向的研究。
當前,人臉面部表情識別特征的主要提取方法有基于活動外觀模型(AMM)[4],Gabor 小波變換[5],線性判別分析(LDA)[6]以及局部二元模式(LBP)[7-8]等。在這些方法中,基于活動外觀模型(AMM)能夠闡述人臉面部表情對象的紋理特征和形狀特征兩種特征屬性,但是對于確定其初始參數(shù)來說比較困難,而且讓計算變得復雜;Gabor 小波算法提取的是針對多尺度多方向人臉面部表情信息,這樣就會產(chǎn)生高維數(shù)的表情特征向量,就會最終導致算法的實時處理不夠完美;線性判別分析(LDA)可以加快人臉面部表情識別,但它對訓練和檢測人臉面部表情圖像的灰度相關(guān)性有很大的依賴性,這就會導致具有很大局限;對于Gabor 小波特征來說,局部二元模式(LBP)具有灰度性和回轉(zhuǎn)不變性,同時基本上可以排除非均勻光照的影響因素,且計算比較簡單,屬于有效的局部紋理特征描述算法。在識別人類面部表情時,單一的局部二元模式(LBP)算法很難準確定位不同方位的關(guān)鍵人臉面部表情的灰度變化趨向,導致其分類效果不盡如意。
雙編碼局部二值模式(Double Coding Local Binary Pattern,DCLBP)算子進行人臉面部表情圖像局部紋理特征提取[9],并獲得了良好的效果。
局部敏感直方圖(Locality Sensitive Histograms,LSH)通過統(tǒng)計像素與周圍像素的相關(guān)性得到人臉面部表情圖像的光照不變特征[10],由于該特征具有較好的光照魯棒性,從而在計算機視覺領(lǐng)域得到了廣泛的應(yīng)用。
受到文獻[9]和[10]的啟發(fā),本文提出融合局部特征與深度置信網(wǎng)絡(luò)的人臉面部表情識別。算法通過局部敏感質(zhì)量分布圖(LSH)的非均勻光照不變性特征優(yōu)勢以及雙編碼局部二值模式(DCLBP)算法的邊緣局部細節(jié)紋理特征詳細信息,通過估算各自特征的基本標準差后將兩者提取的各自特征進行自適應(yīng)融合來構(gòu)造出更為合理有效的人臉面部表情特征信息,最后將融合后的人臉面部表情特征輸入到深度置信網(wǎng)絡(luò)(DBN)模型中進行相關(guān)具體訓練,將訓練后的深度置信網(wǎng)絡(luò)(DBN)模型進行面部表情識別。該算法可以很好地運用到人臉面部表情識別當中,具有頑強的魯棒性和有效性。
傳統(tǒng)的圖像質(zhì)量分布圖是將固定灰度值出現(xiàn)的次數(shù)進行統(tǒng)計,而LSH 傳統(tǒng)質(zhì)量分布圖或傳統(tǒng)局部質(zhì)量分布圖的估算方式都不同,它先用等間距的亮度間隔(bin)對人臉面部表情圖像分層,然后在每個層次中的每個像素的具體位置都進行估算,其通過權(quán)衡那些亮度值并隸屬于該層的像素對相同位置的干擾,得出一個具體浮點值,再把這些具體浮點值通過疊加到該層中的具體位置上,從而獲得具體位置在該層的LSH 值。由于這些具體浮點值與估算LSH 的像素具體位置的間距不成正比,且是指數(shù)級降低,因此在估算每個具體位置的LSH 值時須要斟酌每個具體像素點,但是由于那些離這個具體位置遠的像素由于權(quán)重值較小,因此可以省略不計。
位置p處的局部敏感質(zhì)量分布圖可以表達為:
式中:W表達為人臉面部表情圖像的總像素值,bin為灰度級數(shù),α∈(0,1)為控制參數(shù),具體表達為像素遠離中心像素而降低的權(quán)值。Q(Iq,b)用來判定具體位置q處的像素灰度值Iq是否與像素b相等,其表達式為:
由式(1)可以看出,具體浮點權(quán)重值與間距具有很緊密的關(guān)聯(lián):若p與q之間的間距越近,則|p-q|表現(xiàn)的越小,那么α|p-q|就越大;反之,若p與q之間的間距越遠,|p-q|則越大,那么α|p-q|就越小。這樣,間距中心具體像素距離較近的像素值基于其權(quán)值較大被考慮在內(nèi),而間距中心具體像素較遠的像素值基于權(quán)值較小而被省略不計。
經(jīng)過利用局部敏感質(zhì)量分布圖能夠計算并構(gòu)建人臉面部表情圖像非均勻光照不變特征(Illumination Invariant Feature,IFF),其表達式定義為:
式中:rp≈kIp,k為一個常數(shù)量。bp代表p處具體像素的像素值所隸屬的間距,整個人臉面部表情圖像總共有bin個具體灰度間距級。根據(jù)文獻[9]的學者He 等證明,在非光照強烈改變的形勢下,式(3)中的人臉面部表情圖像非均勻光照不變特征IFF 的具體值基本保持原樣,因此可以認為人臉面部表情圖像非均勻光照不變特征IFF 作為LSH 算法中的人臉面部表情圖像非均勻光照不變特征,即fLSH。
對圖像重新編碼,是根據(jù)中心像素點與其領(lǐng)域像素點的灰度差異來實現(xiàn)的。編碼方式如下:
式中:
ω×ω代表選取的鄰域大小(3×3 的矩形塊)。round()為四舍五入的計算結(jié)果;p(k,l)表示鄰域內(nèi)所有像素點預定義的權(quán)重矩陣;f為映射函數(shù);g(k,l)鄰域像素點的灰度值;g(i,j)中心像素點的灰度值;B特征直方圖的區(qū)間數(shù)(28=256)。p(k,l)權(quán)重矩陣取值為:
傳統(tǒng)的LBP 算子對于光線變化具有很強的魯棒性,在人臉表情識別上效果比較明顯。由于忽略鄰域像素點的聯(lián)系,存在結(jié)構(gòu)信息遺失,導致識別率下降。
傳統(tǒng)LBP 算法有8 個采樣點,而DCLBP 算法有4 個采樣點,如圖1 所示。
圖1 DCLBP 的采樣點
了解各個采樣點的像素值之間的關(guān)系,引入幅度閾值θ和差值閾值δ這兩個變量,其計算如下:
式中:ic為人臉面部表情圖像中心像素點的具體灰度值;ik為其鄰域中第k個人臉面部表情圖像采樣點的灰度值;p為人臉面部表情圖像采樣點的數(shù)量。
獲取最佳人臉面部表情特征信息,需把一位二進制編碼的傳統(tǒng)LBP 算子改進為具有兩位二進制編碼的LBP 算子。第一位二進制碼與鄰域像素和中心像素的灰度值的差異值有關(guān),若差值閾值(δ)小于差值,那么二進制數(shù)碼為1,否則就標注為0。第二位二進制數(shù)碼與鄰域像素灰度值和中心像素灰度值之間的差值的絕對值相關(guān)聯(lián),若幅度閾值(θ)小于差值絕對值,則二進制代碼數(shù)記為1,否則為0。則DCLBP 的人臉面部表情編碼特征方式如式(10)所示。
式中:
圖2 所示為3×3 灰度圖,p=4 時,根據(jù)式(8)和式(9),可得:
由式(11)可得圖2 灰度圖所對應(yīng)的DCLBP 編碼為DCLBP =01101100 =108。
圖2 DCLBP 編碼示意圖
深度置信網(wǎng)絡(luò)(DBN)由多層或多層受限玻爾茲曼機(RBM)和一層反向傳播(BP)神經(jīng)網(wǎng)絡(luò)疊加組成。其中RBM 為DBN 的重要組成部分。RBM是擁有二元結(jié)構(gòu)的圖模型,具體由可視層v和隱含層h組合而成,可視層與隱含層之間具體為全相連狀態(tài),并將相連的權(quán)重具體設(shè)為ω。
RBM 的能量函數(shù)可表達定義為:
式中:θ=(ωij,ai,bj)是RBM 所表達的參數(shù)。ai為可見層結(jié)構(gòu)的特定偏差值,bj為隱藏層結(jié)構(gòu)的特征偏差值,ωij表示成為可見層與隱藏層之間的具體連接權(quán)值,n和m分別表示為可見層與隱藏層的特定神經(jīng)元數(shù)值。由具體能量函數(shù)可以獲得可見層與隱藏層之間的聯(lián)合分布概率為:
當隱含層節(jié)點狀態(tài)為已知情況下,則可視層節(jié)點的激活機率公式為:
RBM 通常采用迭代訓練的方法來訓練特定參數(shù)θ,此參數(shù)可以通過擬合來確定。如果計算訓練集中的最大對數(shù)似然函數(shù)值,則獲得特定參數(shù)θ,通過比較散度(CD)算法,獲得特定參數(shù)θ的改進標準:
式中:ε表示為學習概率,?·?data代表具體數(shù)據(jù)的期望分布值,?·?recon表示通過CD 算法得到的分布期望。
深度置信網(wǎng)絡(luò)DBN 模型的具體訓練一般需要經(jīng)歷兩個重要階段:預訓練和微調(diào)。首先采用無監(jiān)督貪婪方法自下而上進行訓練RBM,然后將底層RBM 隱藏層的具體輸出當作向上一層RBM 的可見層輸入。經(jīng)過逐層訓練,我們可以從高維特定數(shù)據(jù)中提取出更具差異性的低維人臉面部表情圖像特征。其次經(jīng)過有監(jiān)督的方法利用BP 神經(jīng)網(wǎng)絡(luò)對其具體數(shù)據(jù)進行分類,并將偏差由頂層向下層傳播,對RBM 網(wǎng)絡(luò)進行具體微調(diào),最終讓RBM 整個網(wǎng)絡(luò)的參數(shù)值達到最優(yōu)化。
首先對于人臉面部表情辨識,深度學習僅僅能夠提取人臉面部表情圖像的整個特征信息,而不能充分提取局部的具體特征信息。局部敏感質(zhì)量分布圖(LSH)算法能夠提取出人臉面部圖像中的非均勻光照不變特征信息,但其人類面部表情圖像特征亮度值整體偏高,則導致失去了部分人臉面部表情邊緣細節(jié)特征信息;雙編碼局部二值模式(DCLBP)算子雖然能夠較好地獲取人臉面部表情圖像的邊緣局部細節(jié)紋理特征信息,但對非均勻光照所表現(xiàn)的陰影部分處理效果不理想。其次由LSH 算法所提取出來的人臉面部表情圖像中,所對應(yīng)的灰度值部分表現(xiàn)不高,而DCLBP 算子提取出來的人臉面部表情特征圖像中的高灰度值部分則比較明顯。這樣如果直接將LSH 算法與DCLBP 算子的各自特征信息進行加權(quán)融合,就必然會喪失部分有用特征信息,最終導致人臉面部表情識別效果不理想。因此為了更好地利用兩者特征信息的優(yōu)勢,我們在融合之前,先對DCLBP 算子所提取出的人臉面部表情圖像特征信息進行取反操作,這樣兩種算法基本上將人臉面部表情像素灰度值通過不同映射生成人臉面部表情圖像特征,由于兩種特征信息具有類似的分布形式,因此可以支配適當?shù)臋?quán)重將兩者特征信息進行融合,這樣就可以很好地表現(xiàn)出兩種特征信息的優(yōu)點,讓兩者融合后的特征信息涵蓋了更多有用的人臉面部表情識別信息。其LSH 算法與DCLBP 算子的特征融合的步驟為:
(1)設(shè)I(i,j)表示像素大小為M×N的人臉面部表情圖像I在像素點(i,j)處的具體灰度值。定義人臉面部表情特征圖像I的標準差σI表示為:
式中:I∈Ic={ILSH,ILOG}代表不同算法提取的人臉面部表情特征圖像集合。
(2)利用式(21)和式(22),分別計算出ILSH和IDCLBP的標準差σLSH與σDCLBP
(3)計算融合系數(shù)ω1和ω2
LSH 和DCLBP 算法提取的人臉面部表情特征分別為fLSH與fDCLBP,其兩者融合后的有效特征為:
式中:F即為計算局部敏感質(zhì)量分布圖(LSH)算法和雙編碼局部二值模式(DCLBP)算子各自人臉面部表情特征的標準差,并將兩者人臉面部表情特征通過自適應(yīng)融合來構(gòu)造出更為有效的人臉面部表情信息特征。
計算局部敏感質(zhì)量分布圖(LSH)算法和雙編碼局部二值模式(DCLBP)算子的各自特征信息的基本標準差并將兩者特征進行自適應(yīng)融合來構(gòu)造出更為合理的人臉面部表情特征,最后,將融合后的人臉面部表情特征輸入深度置信網(wǎng)絡(luò)(DBN)模型中進行訓練,利用訓練好的深度置信網(wǎng)絡(luò)(DBN)模型識別人臉面部表情,這樣不僅可以有利于獲取人臉面部表情圖像的局部特征信息,而且能夠減少其網(wǎng)絡(luò)訓練的耗時。網(wǎng)絡(luò)結(jié)構(gòu)的聯(lián)合分布為:
式中:H代表LSH 算法與DCLBP 算子兩者各自特征自適應(yīng)融合構(gòu)造出的有效人臉面部表情特征F。h(1),h(2)…h(huán)(l)表示其深度信念網(wǎng)絡(luò)(DBN)對其輸入的特征H學習到差異層次的高級人臉面部表情特征信息。
訓練前首先對人臉面部表情圖像的訓練集樣本數(shù)據(jù)和人臉面部表情圖像測試集樣本數(shù)據(jù)采用雙線性內(nèi)插方法來進行質(zhì)量分布圖協(xié)調(diào)處理。訓練階段的具體步驟如下:
(1)由式(1)計算出原人臉面部表情圖像中每個具體點的質(zhì)量分布圖,并由式(3)獲得非均勻光照不變特征fLSH,其人臉面部表情特征圖像為ILSH;
(2)采用DCLBP 算子對原人臉面部表情圖像實行具體處理,并由式(10)獲得人臉面部表情編碼特征圖像IDCLBP并對其進行取反處理,獲取其邊緣細節(jié)特征fDCLBP;
(3)由式(21)、式(22)分別計算獲得人臉面部表情特征圖像ILSH和IDCLBP的具體標準差σLSH與σDCLBP,進而由式(23)明確自適應(yīng)融合系數(shù)值ω1和ω2,并經(jīng)融合式(24)獲取到局部敏感質(zhì)量分布圖(LSH)算法和雙編碼局部二值模式(DCLBP)算子各自特征信息的標準差值,并將兩者人臉面部表情特征進行自適應(yīng)融合來構(gòu)造出最終更為有效的人臉面部表情特征F;
(4)將LSH 算法與DCLBP 算子經(jīng)過自適應(yīng)融合而架構(gòu)出來的有效人臉面部表情特征F作為具體訓練數(shù)據(jù)輸入到DBN 可視層進行訓練;
(5)采用對比散度算法(CD)具體訓練第一層RBM 模型,從而得到最佳參數(shù);
(6)在多層RBM 網(wǎng)絡(luò)中,前一層RBM 網(wǎng)絡(luò)隱藏層的輸出當作后一層RBM 網(wǎng)絡(luò)的可見層的輸入信息,通過對比散度算法(CD)訓練神經(jīng)網(wǎng)絡(luò),得到最低動力能量函數(shù)以及RBM 的最優(yōu)化的具體參數(shù)值;
(7)重復步驟(5)和步驟(6),然后按序迭代循序訓練每個RBM 層,一直到訓練結(jié)束所有RBM 網(wǎng)絡(luò)為止;
(8)訓練結(jié)束所有RBM 網(wǎng)絡(luò)并得到每個RBM層具體最優(yōu)參數(shù)值后,最終將RBM 的參數(shù)當作BP神經(jīng)網(wǎng)絡(luò)的輸入,不停的改善調(diào)節(jié)RBM 參數(shù)直到最后獲得最優(yōu)化DBN 模型。
在人臉面部表情圖像測試階段過程中,測試樣本過程與訓練樣本過程的操作相同,即通過LSH 算法與DCLBP 算子通過自適應(yīng)融合構(gòu)造出有效人臉面部表情特征F輸入到訓練好的DBN 模型中,并通過網(wǎng)絡(luò)學習獲取可以用來分類識別的人臉面部表情深層次的本質(zhì)特征信息,最后通過具體分類器將其分類并對模型性能進行識別分析。本算法的流程圖3所示。
圖3 人臉面部表情識別基本流程
本文采用了JAFFE 人臉面部表情數(shù)據(jù)庫和自建的新疆維吾爾族人臉面部表情數(shù)據(jù)庫來進行算法的驗證。經(jīng)典的JAFFE 人臉面部表情數(shù)據(jù)庫是由來自10 位日本女性志愿者構(gòu)建的人臉面部表情圖像數(shù)據(jù)庫,每位志愿者的人臉面部表情擁有6 類基本人臉面部表情圖像和1 類中性人臉面部表情圖像,每個人臉面部表情含有3~4 幅人臉面部表情圖像,這樣數(shù)據(jù)庫中就共有213 幅面部表情圖像。本文選擇每例人臉面部表情張量最大的表情圖像作為樣本,待檢測出人臉面部表情后再歸一化成大小為64×64 的表情圖像,然后裁剪其大小為60×60 的子圖像并通過鏡像翻轉(zhuǎn)將人臉面部表情樣本數(shù)量擴大至原來的50 倍,并進行非均勻光照的預處理。同時,為了將實驗的準確性進行進一步的提升,我們在進行實驗時對采用的相互不同個體的7 類表情的3張人臉面部表情圖像,然后隨機采納1 張人臉面部表情圖像當作測試集數(shù)據(jù),剩下的兩張人臉面部表情圖像則當作訓練集數(shù)據(jù),在進行實驗驗證時我們利用3 折交叉驗證的方法,并將最后的人臉面部表情識別結(jié)果為3 次驗證實驗均值。JAFFE 人臉面部表情經(jīng)非均勻光照處理后的數(shù)據(jù)庫如圖4 所示。
圖4 非均勻光照下的JAFFE 人臉面部表情庫
維吾爾族人臉面部表情數(shù)據(jù)庫為課題組成員通過新疆大學學生以及社會自愿者收集而來,具有真實有效性。包含100 位維吾爾族人臉面部表情圖像,包含中性表情和六種基本表情(高興、生氣、害怕、厭惡、悲哀、吃驚)。維吾爾族人臉面部表情圖像處理過程與JAFFE 人臉面部表情數(shù)據(jù)庫處理程序一樣。先將已檢測出的維吾爾族人臉面部表情圖像進行大小歸一化為64×64 的圖像,再擴大到原來的50 倍,并進行非均勻光照的預處理。同樣為了將實驗的準確性進行進一步的提升,我們在進行實驗時對采用的相互不同個體的6 類維吾爾族人臉面部表情的3 張人臉面部表情圖像,然后隨機采納1 張人臉面部表情圖像當作測試集數(shù)據(jù),剩下的兩張人臉面部表情圖像則當作訓練集數(shù)據(jù),在進行實驗驗證時我們利用3 折交叉驗證的方法,并將最后的人臉面部表情識別結(jié)果為3 次驗證實驗均值。維吾爾族人臉面部表情經(jīng)非均勻光照處理后的數(shù)據(jù)庫如圖5所示。
圖5 非均勻光照下的維吾爾族人臉面部表情庫
為了探究不同層數(shù)DBN 和RBM 不同迭代次數(shù)對識別準確率的影響,本文通過實驗方式確定DBN模型網(wǎng)絡(luò)中RBM 的層數(shù)。設(shè)DBN 的RBM 層數(shù)為1~4,RBM 隱含層節(jié)點數(shù)設(shè)置為50。不同RBM 網(wǎng)絡(luò)層數(shù)的DBN 模型表情識別率如圖6 所示。
圖6 不同RBM 網(wǎng)絡(luò)層數(shù)的DBN 模型表情識別率
由圖6 與表1 結(jié)果可知,當DBN 模型中RBM的層數(shù)為1 時,模型的訓練與人臉面部表情的辨識時間較多,且人臉面部表情識別率整體較低,導致這一問題是因為RBM 的層數(shù)太少致使其重構(gòu)偏差稍大。當RBM 的層數(shù)為2 時,在在JAFFE 人臉面部表情數(shù)據(jù)庫和維吾爾族人臉面部表情數(shù)據(jù)庫這兩種數(shù)據(jù)庫中進行表情識別實驗的辨識率均為最高,且模型訓練與人臉面部表情識別耗時最短。當RBM的層數(shù)緊接著繼續(xù)增加時,DBN 模型的人臉面部表情識別率下降,與此同時訓練與識別的耗時逐漸增加。鑒于以上因素,本文DBN 模型最終使用2 層RBM 結(jié)構(gòu)。
表1 不同層數(shù)RBM 的DBN 模型訓練與識別時間
為了驗證本文所提出的方法對于人臉面部表情分類識別的合理性,在局部人臉面部表情圖像中分別提取LBP 特征、HOG 特征、Gabor 特征、LSH 特征、DCLBP 特征以及LSH +DCLBP 的融合算法特征。然后再根據(jù)提取得到的不同特征使用DBN 深度模型在JAFFE 人臉面部表情數(shù)據(jù)庫和維吾爾族人臉面部表情數(shù)據(jù)庫上進行人臉面部表情識別實驗。不同特征的人臉面部表情識別率對比仿真結(jié)果如表2 所示。
表2 基于DBN 模型不同特征提取方法識別率單位:%
由表2 可知,與單獨采用LBP 特征、HOG 特征、Gabor 特征、LSH 特征、DCLBP 特征提取算法相比后可知,本文所提出的LSH+DCLBP 的融合算法,在JAFFE人臉面部表情庫及維吾爾族人臉面部表情數(shù)據(jù)庫上具有很高的識別率,其辨識率分別達到了94.78%和98.03%,其結(jié)果驗證了多特征提取算法融合后的有效性,提高了其人臉面部表情特征提取能力。
為了驗證DBN 該模型在人臉面部表情辨識的成效性,將DBN 與經(jīng)典模式算法SVM 和KNN 算法進行了比較工作。在人臉面部表情圖像中提取人臉面部表情圖像中的局部敏感質(zhì)量分布圖(LSH)光照不變特征和雙編碼局部二值模式(DCLBP)提取人臉面部表情的邊緣局部細節(jié)紋理特征后并進行兩者特征融合,之后采取不同的分類算法都以LSH 光照不變特征與DCLBP 邊緣局部細節(jié)紋理特征的融合特征為輸入,分別在JAFFE 人臉面部表情數(shù)據(jù)庫和維吾爾族人臉面部表情數(shù)據(jù)庫上進行表情面部識別,對比實驗結(jié)果如表3 所示。
表3 基于LSH+DCLBP 融合特征不同分類算法識別率 單位:%
由表3 可知,當分別以LSH+DCLBP 為融合特征信息,并分別輸人進SVM、KNN 和DBN 分類算法時,該DBN 模型對于人臉面部表情識別在不同的人臉面部表情數(shù)據(jù)庫中識別準確率均高于傳統(tǒng)的學習算法SVM 和KNN。DBN 模型將無監(jiān)督的訓練學習和有監(jiān)督的微調(diào)結(jié)合,能夠自主從高維度低層次的圖像特征中學習到高層次的特征信息,最終學習到適合表情識別的特征,在人臉面部表情識別中取得了良好的效果。
為了驗證本文所提出的LSH+DCLBP 融合特征和深度置信網(wǎng)絡(luò)DBN 模型結(jié)合的人臉面部表情算法的優(yōu)越性,將本文所提出的算法與其他算法Log-Gabor[11]、Gabor +LBP[12]、Gabor +Gist[13]、LBP +DCT[14]四種算法分別在JAFFE 人臉面部表情數(shù)據(jù)庫和維吾爾族人臉面部表情數(shù)據(jù)庫上進行對比驗證實驗,結(jié)果如表4 和表5 所示。
表4 不同算法在JAFFE 人臉面部表情數(shù)據(jù)庫實驗對比 單位:%
表5 不同算法在維吾爾族人臉面部表情數(shù)據(jù)庫實驗對比 單位:%
由表4 和表5 可以看到,本文所提出的算法無論是在JAFFE 人臉面部表情數(shù)據(jù)庫還是在維吾爾族人臉面部表情數(shù)據(jù)庫上的人臉面部表情識別率為最高。其中在JAFFE 人臉面部表情數(shù)據(jù)庫中本文算法與其他四種算法對比,可以看出來人臉面部表情識別率至少提高了2.08%,尤其是與Log-Gabor 算法相比較,識別率提高了10.93%,具有很強的算法優(yōu)勢。在維吾爾族人臉面部表情數(shù)據(jù)庫識別中,五種算法的識別率均高于JAFFE 人臉面部表情數(shù)據(jù)庫中的識別率,尤其是本文算法人臉面部表情識別率在其他四種算法中為最高,至少提高了3.42%,尤其是與Log-Gabor 算法相比較,識別率提高了9.46%。本次實驗中可以很好地體現(xiàn)出本文算法的識別率為最高,主要是因為本文算法具有很高的人臉表情特征提取表現(xiàn)力,其他四種算法雖然也是屬于兩種算法的特征融合,但是本文算法除了兩種算法的特征融合之外,還在深度置信網(wǎng)絡(luò)DBN 模型中進行訓練并識別,這就使得人臉面部表情特征更加凸顯。其次在對自建的維吾爾族人臉面部表情表情識別中的辨識率均高于JAFFE 人臉面部表情識別率,尤其是本文提出的算法,這主要就是因為JAFFE 人臉面部表情數(shù)據(jù)庫代表的是亞洲女性,其五官不是很明顯,而維吾爾族人臉表情面部表情特征明顯,表現(xiàn)張力比較大,不易與其他表情混淆,故辨識率高于JAFFE 人臉面部表情數(shù)據(jù)庫。通過實驗再次表明本文提出的算法在對人臉面部表情的識別具有很好的特征提取及識別率。
最后,為了驗證本文算法的實時性,我們在JAFFE人臉面部表情數(shù)據(jù)庫上對不同算法在不同隱藏節(jié)點數(shù)上進行了時間消耗的對比,其結(jié)果如表6 所示。
由表6 可知,當對JAFFE 人臉面部表情數(shù)據(jù)庫中的人臉圖像進行融合特征(LSH+DCLBP)進行初次識別提取時,在深度置信網(wǎng)絡(luò)DBN 中的訓練時間和分類時間都會有不同程度的減少。其中,當隱藏節(jié)點數(shù)為300 時,本文算法消耗的總時間比單獨深度置信網(wǎng)絡(luò)DBN 消耗的總時間減少了6.27%,當隱藏節(jié)點數(shù)為500 時,本文算法消耗的總時間比單獨深度置信網(wǎng)絡(luò)DBN 消耗的總時間減少了4.6%,這是因為我們將人臉面部表情圖像的局部融合特征(LSH+DCLBP)作為深度置信網(wǎng)絡(luò)DBN 的輸入時,由于局部融合特征(LSH+DCLBP)所提取的非均勻光照下的人臉面部表情紋理信息特征會產(chǎn)生很強的魯棒性,進而當深度置信網(wǎng)絡(luò)DBN 在對人臉面部表情圖像進行特征學習時能夠很好地去除重復多余信息的干擾;其次,深度置信網(wǎng)絡(luò)DBN 對初次特征信息進行學習時,是對有效的人臉面部表情特征性數(shù)據(jù)進行學習,而不是無用信息。因此,深度置信網(wǎng)絡(luò)DBN 通過融合局部融合特征(LSH+DCLBP),能很好地削弱深度置信網(wǎng)絡(luò)DBN 的學習及分類時間和運行計算量,從而達到預期的實時性要求,提高了人臉面部表情的識別率。
表6 不同算法訓練和識別所消耗的時間表
本文提出一種融合局部特征與深度置信網(wǎng)絡(luò)(DBN)的相結(jié)合人臉面部表情辨識算法,該算法通過局部敏感質(zhì)量分布圖(LSH)的非均勻光照不變性特征優(yōu)勢以及雙編碼局部二值模式(DCLBP)算法的邊緣局部細節(jié)紋理特征詳細信息,通過估算各自特征的基本標準差后將兩者提取的各自特征進行自適應(yīng)融合來構(gòu)造出更為合理有效的人臉面部表情特征信息,融合特征的提取方法可以對人臉面部表情產(chǎn)生時的面部結(jié)構(gòu)和細節(jié)的變化實現(xiàn)更全面的描述,對于人臉面部表情的類別具有更好的表征作用。最后將融合后的合理有效人臉面部表情特征輸入到深度置信網(wǎng)絡(luò)(DBN)模型中進行相關(guān)訓練,能夠有效地將更加深層次的人臉面部表情特征提取出來,進一步提高了人臉面部表情的識別率。無論是在JAFFE 人臉面部表情數(shù)據(jù)庫還是在維吾爾族人臉面部表情數(shù)據(jù)庫上的人臉面部表情識別率為最高,驗證了本文算法的優(yōu)越性。