葉 楊,孫會龍,劉 貞,2
(1.重慶房地產(chǎn)職業(yè)學院,重慶 400000; 2.重慶理工大學 低碳能源研究中心, 重慶 400054)
人臉表情識別是人機交互領(lǐng)域一個重要的研究方向,有著廣泛的應(yīng)用前景。在虛擬現(xiàn)實表情捕捉設(shè)備的研發(fā)過程中,采用圖像捕捉的方式具有成本優(yōu)勢,難點在于人臉表情識別算法。為進一步提高人臉表情識別的準確性,通常從分類識別和特征提取兩個方面著手進行改進。在分類識別方面,蘇志銘等[1]提出一種基于線段的相似度判決方法,通過比較預(yù)測序列與給定序列的相似性進行表情識別;唐浩等[2]提出一種改進的卷積神經(jīng)網(wǎng)絡(luò)分類方法,較好地降低了表情識別中面部部分遮擋、傾斜等因素對識別率的影響。在特征提取的研究方面, 李雅倩等[3]提出了一種融合全局與局部多樣性的特征提取算法,利用全局特征PCA與局部特征鄰域保持嵌入(NPE)算法的互補性,有效提高了表情識別準確率。
在對人臉表情識別系統(tǒng)的研究上,局部二值模式LBP由于原理清晰、計算簡單、特征描述能力強等特點,被廣泛用于特征提取。為更好地利用LBP算法獲得更高的識別準確率,學者們提出了許多改進算法。Liu等[4]提出一種融合二維Gabor濾波與局部二值模式的表情特征提取算法,在保證識別準確性的同時提高了系統(tǒng)的實時性;Ross等[5]提出一種改進的梯度局部三值模式,有效提高了表情識別系統(tǒng)在復(fù)雜環(huán)境下的魯棒性;Jabid等[6]提出了局部方向模式LDP,通過引入Kirsch算子較好地解決了光照變化及隨機噪聲對目標圖像的影響。
本文針對基于LDP特征的面部表情識別方法特征提取效率不高、針對性不強的問題,提出了一種融合方向梯度特征的自適應(yīng)加權(quán)LDP表情識別方法。該方法首先利用HOG梯度幅值圖對子圖像進行自適應(yīng)加權(quán),得出加權(quán)的LDP特征;之后與HOG方向梯度直方圖特征進行融合,并將其送入SVM分類器中進行分類識別。為驗證本文算法性能,在Extend Cohn-Kanade (CK+)表情庫進行對比實驗。實驗結(jié)果表明:本文提出的算法能有效提高人臉表情的識別準確率。
局部方向模式LDP算法是Jabid等于2010年首次提出的一種用于表情識別的人臉特征提取算法,是局部二值模式(local binary pattern,LBP)[7]的一種改進算法。與LBP算法相比,LDP通過引入Kirsch掩膜進行編碼提取紋理特征,可以較好地解決光照變化及隨機噪聲對目標圖像的影響。算法的具體實現(xiàn)流程如下:
1) 引入Kirsch算子[8]的8方向模板。如圖1所示,計算目標圖像在各個方向上的邊緣響應(yīng)。
圖1 Kirsch八方向模板
2) 將中心點X分別與8個方向的Kirsch算子進行卷積運算,得出mi(i=1,2,3,…,7)位置的邊緣響應(yīng)。邊緣響應(yīng)值反映該方向上的信息量,因此將這8個響應(yīng)值的絕對值按照數(shù)值大小進行排序,取前k個數(shù)值較大的響應(yīng)值予以保留,置1;其余8-k個響應(yīng)值則舍去,置0。最后,以m0位置的值作為最低位,逆時針編碼,則可得出中心像素的LDP值。對中心像素進行LDP編碼的原理示意圖如圖2所示。
圖2 LDP編碼原理圖(k=3)
值得注意的是:若將整幅人臉作為目標圖像進行LDP特征提取,會得到1個56維的特征向量,信息量不夠充足。為了得到信息豐富的人臉表情特征,Jabid在原文中首先將原圖平均分割為7×6個子圖像分別進行LDP特征提取,最后再聯(lián)合起來作為整幅圖像的LDP特征。該方法較好地解決了信息量不足的情況,但忽略了子圖像對識別率貢獻的差別。為此,本文首先根據(jù)表情圖像的HOG邊緣幅值圖自適應(yīng)確定每個子圖像的權(quán)值,通過加權(quán)聯(lián)合得到LDP特征,并融合HOG方向梯度作為表情識別的特征向量。
針對LDP算子提取表情特征時提取效率不高、針對性不強的不足,提出了一種融合方向梯度特征的自適應(yīng)加權(quán)LDP表情識別方法。HOG算法是一種針對圖像差分信息的描述子,對光照變化、旋轉(zhuǎn)等具有良好的魯棒性。Deniz等[9]在2011年首次將HOG算法用于提取人臉特征,并取得了不錯的識別效果。LDP特征是用于描述圖像紋理信息的算子,而HOG特征是用于描述邊緣信息的算子。利用兩者的互補性,提出了一種融合HOG方向梯度與自適應(yīng)加權(quán)LDP特征的表情識別方法。
LDP特征一般以平均分塊的方式聯(lián)合獲取,忽略了不同圖像塊之間對識別率貢獻度的差別[10]。一般來說,邊緣豐富的區(qū)域信息量較大,對于最終的表情識別貢獻度也更大,而HOG幅值圖能較好地描述圖像的邊緣信息[11]。因此,本文通過計算原圖梯度幅值的信息熵[12]來自適應(yīng)地確認LDP分塊權(quán)值。HOG特征的核心算法是計算梯度值I(x,y)及梯度方向θ(x,y)。對于輸入圖像I來說:
(1)
θ(x,y)=arctan(Gy(x,y)/Gx(x,y))
(2)
其中:
Gx(x,y)=I(x+1,y)-I(x-1,y)
(3)
Gy(x,y)=I(x,y+1)-I(x,y-1)
(4)
G(x,y)表示點梯度幅值和方向,Gx(x,y)、Gy(x,y)分別表示像素點(x,y)的水平、垂直方向梯度。
對目標圖像進行HOG特征提取時,首先采用細胞元(cell)分別計算,再以4個cell為1個窗口(block)進行全圖滑動統(tǒng)計提取[13]。經(jīng)HOG算子提取后可得到原圖的直方圖特征V及梯度幅值圖。其中,HOG直方圖V的橫坐標為方向區(qū)間,縱坐標為相應(yīng)的梯度幅值累加值。
將幅值響應(yīng)圖按照LDP特征提取的方式分為7×6塊,計算各子圖像的信息熵Ei:
(5)
其中:n表示像素級,為256;pi(k)為像素值為k的點出現(xiàn)的概率。信息熵的大小反映了子圖像包含信息量的多少,以此為依據(jù)定義權(quán)重wi:
(6)
下面介紹原圖各子圖像的LDP特征向量求取方法。目標像素的LDP編碼可由式(7)表示:
其中
(7)
其中:mi、mk代表鄰接像素和中心像素灰度值;S(x)為符號函數(shù)。
直方圖向量中每個元素的值為
HLDPj=∑x,yf(LDPk(x,y),Cj)
其中
(8)
DLDP={w1HLDP1,w2HLDP2,…,w42HLDP42}T
(9)
僅采用單一的紋理特征進行后續(xù)的表情分類識別往往不能取得更好的識別準確率。本文利用LDP紋理特征與HOG邊緣梯度特征的互補性,提出了一種基于特征融合的表情識別算法。
通過將自適應(yīng)加權(quán)的LDP紋理特征DLDP與原圖的HOG特征向量V進行聯(lián)合,即可得到本文提出的融合特征F:
F={DLDP,V}T
(10)
融合特征F包含了紋理信息、方向梯度信息兩個不同維度的特征描述,特征信息更加豐富全面。圖3為融合方向梯度的加權(quán)LDP特征提取方法原理。
圖3 融合方向梯度的加權(quán)LDP特征提取方法原理
HOG特征以滑動窗口的形式進行提取,強調(diào)了被LDP算法弱化的像素方位信息,并增加了方向梯度這一衡量尺度。同時,梯度幅值圖為子圖像的自適應(yīng)加權(quán)提供了依據(jù)。利用HOG與LDP特征相互補充的特點,將其聯(lián)合起來共同作為表情圖像的特征有利于增大不同樣本間的相似距離,得到更好的識別結(jié)果。
為驗證提出算法的可行性與有效性,本文在拓展的Cohn-Kanade(CK+)表情庫上進行實驗。CK+庫發(fā)布于2010年,是目前主流的人臉表情研究庫之一。該數(shù)據(jù)庫包含123個對象,有中性、憤怒、蔑視、厭惡、恐懼、高興、悲傷、驚訝7種基本表情。圖4為CK+數(shù)據(jù)庫的部分樣本示例。
本文選取CK+數(shù)據(jù)庫的圖像序列中各類非中性表情50張,共300張作為訓(xùn)練樣本,表情分類算法采用支持向量機SVM算法。為進一步驗證本文算法的性能,分別采用本文提出算法、文獻[6]LDP算法、文獻[14]LDP-PCA算法、文獻[15]Multicore-CNN算法構(gòu)建人臉表情識別系統(tǒng)進行實驗比較,結(jié)果如表1所示。
圖4 CK+人臉表情庫部分樣本示例
參數(shù)本文算法正確識別數(shù)/次識別率/%LDP正確識別數(shù)/次識別率/%?PCA-LDP正確識別數(shù)/次識別率/%Multicore-CNN正確識別數(shù)/次識別率/%高興50100489649984794悲傷4692428447944590驚訝4998479445904692恐懼4692408042844692厭惡4284387643864794憤怒4896459048964692平均識別率/%93.386.791.392.3
由實驗結(jié)果可知:本文算法對厭惡表情的識別率明顯降低,原LDP與和PCA-LDP算法對兩種表情的識別率不高,而MultiCore-CNN算法對幾種表情的識別率較為平穩(wěn)。本文算法基于特征識別,而恐懼和厭惡在特征紋理中較為相似,容易導(dǎo)致誤識別。相較于使用紋理特征的算法,卷積神經(jīng)網(wǎng)絡(luò)算法在識別過程中性能較為穩(wěn)定。
采用本文算法的面部表情平均識別率最高,為93.3%,較LDP算法識別率提高了6.6%;較改進PCA-LDP算法提高了2.0%,與使用改進后的神經(jīng)網(wǎng)絡(luò)算法相比提高了1.0%。經(jīng)分析可知:本文提出的算法根據(jù)各子圖像信息量的不同自適應(yīng)加權(quán),得到的加權(quán)LDP特征更加強調(diào)信息豐富的區(qū)域,提高了特征的有效性。同時,本文算法融合了面部圖像的HOG方向梯度特征,從另一角度對表情特征進行補充完善。最終實驗證明:本文提出的融合HOG方向梯度的自適應(yīng)加權(quán)LDP算法可以有效提高面部表情識別的準確率。
表2是4種算法運行速度對比結(jié)果,原LDP算法每1s可識別35幀圖像,本文算法因融合HOG方向梯度導(dǎo)致算法遜于原算法;而MultiCore-CNN算法雖然識別率穩(wěn)定,但是卷積神經(jīng)網(wǎng)絡(luò)的特性導(dǎo)致了速率低于其他3種算法。4種算法運行速度對比結(jié)果如表2所示。
表2 四種算法識別速度對比
圖像捕捉識別是虛擬現(xiàn)實設(shè)備表情捕捉識別方式之一。本文針對LDP的表情特征提取方法識別率偏低的問題進行了分析,發(fā)現(xiàn)各子圖像的特征向量直接聯(lián)合構(gòu)成的LDP特征針對性不強,效率較低;單一采用LDP這一維度對特征進行描述,特征信息不夠豐富全面。針對這兩點不足,本文提出融合方向梯度的自適應(yīng)加權(quán)LDP人臉表情識別方法。首先,對人臉圖像進行HOG方向梯度特征提取,同時得到其梯度幅值圖;之后,將梯度幅值圖按照LDP分塊方式進行子圖像劃分,并根據(jù)各梯度幅值子圖像信息熵計算LDP子圖像權(quán)重,得出自適應(yīng)加權(quán)的LDP特征向量;最后,將原圖像的方向梯度特征與自適應(yīng)加權(quán)LDP特征進行融合,一起作為人臉表情的特征向量。通過在CK+庫上的對比實驗,證明本文算法在人臉表情識別上有著較高的識別率和識別效率。