張雪梅,公維賓,鄔建志,王 超
(長安大學 信息工程學院,陜西 西安 710064)
21世紀是人工智能大爆發(fā)的時代。隨著現(xiàn)代化科學技術的發(fā)展趨于智能化,計算機視覺與智能化設備越來越頻繁地進入人們的生活,情感計算成為了當今一個新的研究熱點。情感識別是情感計算的一個重要研究部分,而人臉的豐富細微變化可以很好地識別人類的情緒。人臉表情識別(facial expression recognition,F(xiàn)ER)是實現(xiàn)人機交互的重要一步,也是情感計算的基礎部分。
目前,F(xiàn)ER的技術路線主要是圖像預處理、特征提取、表情識別與分類。特征提取在人臉的表情識別中具有重要的影響,目前主流的特征提取方法有Gabor濾波器[1]、尺度不變特征轉換(SIFT)[2]、定向梯度直方圖(HOG)[3]、線性判別分析(LDA)[4]和LBP和WLD紋理特征等。紋理特征能夠很好地描述人臉表情的變化。
文獻[5]使用LBP紋理信息對面部表情的關鍵點進行特征提取。文獻[6]對人臉提取Gabor特征,然后通過LBP和LPQ特征編碼進行特征提取。文獻[7]采用了LBP方法對不同表情狀態(tài)下的人臉進行識別。文獻[8]采用了HOG與WLD特征方法,將邊緣的梯度方向與圖像的整體形狀與輪廓相結合。文獻[9]使用韋伯局部圓形梯度模式(WLCGP)進行面部特征提取,將中心像素與周圍像素之間的對比度信息聯(lián)系起來。文獻[10]先把圖像分割成許多小塊,然后對各小塊提取多尺度WLD特征。文獻[11]采用雙韋伯局部描述特征(DBWL)和深度置信網(wǎng)絡前后進行了兩次特征提取。文獻[12]采用LBP作為WLBP的激勵和WLD梯度方法融合進行人臉識別。
上述文獻是基于LBP和WLD特征與Gabor特征、LPQ特征等其他特征相融合的方法,能夠識別不同的表情。人臉表情的變化主要是基于紋理信息的變化,LBP特征和WLD特征是有效的紋理特征,但LBP特征僅考慮了中心像素點與周圍像素點的灰度差值,WLD也只考慮了中心像素點與周圍像素點灰度之間的激勵強度與梯度方向關系。為了更好地識別人臉表情,文中提出一種新的特征提取算法——局部二值韋伯模式(LBWP)特征進行人臉表情識別。
文中選擇了專門應用于人臉表情研究的兩個公開數(shù)據(jù)集CK+(extended Cohn-Kanade dataset)和JAFFE進行實驗。主要對常見的七種表情進行研究,其中包含了一種中性表情和六種基本表情(即厭惡、憤怒、驚訝、恐懼、悲傷、快樂)。
CK+數(shù)據(jù)集是在CK數(shù)據(jù)集的基礎上擴展而來的。該數(shù)據(jù)集是由123名參與者進行實驗而產(chǎn)生的,其一共包含了593個圖像序列。該數(shù)據(jù)集記錄了人臉表情從產(chǎn)生到峰值的變化過程。
JAFFE數(shù)據(jù)集要比CK+數(shù)據(jù)集小一些,其包含了10名來自日本女性的一共213張臉部圖像,都是人臉的正面表情,每個人約21張圖像,每種表情3張左右。
文中將數(shù)據(jù)集中的人臉圖像進行預處理。采用MATLAB人臉檢測方法Face Parts Detection對圖像進行人臉檢測,將檢測到的臉部圖像進行裁剪,把對面部表情沒有作用的部分裁剪(如耳朵、脖子、頭發(fā)等)。對裁剪后的圖像進行尺寸歸一化,歸一化為128*128像素的圖像。
LBP常用于對圖像的紋理特征進行分析,具有灰度不變性、尺度不變性等優(yōu)點。圖1中的左側是對數(shù)據(jù)集中的原始圖像進行預處理,右側是預處理之后進行LBP特征提取的圖像。
圖1 LBP特征提取圖
LBP是一種基于對3*3像素的紋理單元(TU)進行特征提取的算子。LBP算子是對灰度圖像進行編碼處理,取像素中的任一像素點為中心,以一個3*3的矩形作為鄰域,比較該中心點像素與周圍鄰域點像素的大小。圖2是LBP算法中的一個3*3像素的紋理單元和編碼過程。
其中xc是一個紋理單元的中心,xi(i=1,2,…,8)是xc的鄰域像素點。LBP編碼主要分三步:
(a)3*3像素的TU (b)TU的編碼過程
圖2 TU的3*3像素及LBP編碼過程
(1)根據(jù)閾值函數(shù)(1)對xi(i=1,2,…,8)進行編碼。若周圍鄰域某一點的像素大于或者等于中心點的像素,則將該點標記為1,否則標記為0。
(1)
(2)確定每個鄰域的權重,分別為1,2,4,8,16,32,64,128。
(3)根據(jù)權重計算LBP的特征值。
(2)
2.2.1 韋伯定律
韋伯定律是基于感覺差別的一條定律,即初始刺激量的變化將會引起感覺的差別閾值隨之變化,具有一定的規(guī)律性。當刺激強度超過一定的限度,并且達到感覺的差別,如式(3)所示:
K=ΔI/I
(3)
其中,ΔI為差別閾值,I為初始刺激量,K為常量,稱為韋伯分數(shù)或韋伯率。
2.2.2 韋伯特征
WLD是在韋伯定律的基礎上提出的,由兩部分組成,分別為差分激勵和韋伯梯度。圖3是對人臉預處理圖像進行WLD特征提取圖。
圖3 WLD特征提取圖
(4)
韋伯梯度描述的是圖像灰度變化強度在空間結構上的方向梯度信息。分別計算水平和垂直兩個方向上的空間分布像素的變化,然后再利用反正切函數(shù)求韋伯梯度,如式(5)所示:
ω(xc)=arctan(Rh/Rv)
(5)
其中,Rv和Rh分別是中心點像素左右和上下像素點灰度值之差。對于圖2(a)3*3的像素單元,Rv和Rh分別表示如下:
Rv=x7-x3
(6)
Rh=x5-x1
(7)
LBP紋理特征和WLD紋理特征在對人臉圖像進行特征提取方面都具有較強的能力,但在實際應用的過程中有一定的局限性。LBP在特征提取的過程中只考慮了其他周圍像素點灰度值,沒有充分考慮中心像素點與周圍像素點灰度之間的梯度方向關系,WLD考慮了中心像素點與周圍像素點灰度值之間的激勵強度。因此,文中提出一種新的紋理特征算法——局部二值韋伯模式(LBWP)。
該算法是先對圖像提取LBP特征,然后對提取LBP特征的圖像中任意點為中心像素點提取韋伯特征,計算差分激勵與梯度方向提取。這種算法不僅對圖像的灰度變化具有很好的魯棒性,而且對噪聲和光照變化的魯棒性也很強。圖4是在預處理圖的基礎上提取LBWP特征的圖像。
圖4 LBWP特征提取圖
實驗的硬件平臺:在2.8 GHz Inter酷睿CPU和4 GB內存的電腦上運行。軟件平臺:操作系統(tǒng)配置是Windows8,安裝了MATLAB2016a。
從CK+數(shù)據(jù)集中選取40%用作訓練數(shù)據(jù),七種表情一共237張,其余的356張圖像則作為測試數(shù)據(jù)。選取JAFFE數(shù)據(jù)集的75%用于實驗的數(shù)據(jù)測試,其余的54張圖像作為測試數(shù)據(jù)。表1為實驗的訓練數(shù)據(jù)和測試數(shù)據(jù)。將預處理之后的圖像作為特征提取的輸入圖像,然后提取LBWP特征,再使用SVM分類器進行表情分類與識別。
表1 訓練數(shù)據(jù)與測試數(shù)據(jù)
分別采用LBP、WLD、LBWP三種特征提取的方法在CK+數(shù)據(jù)集和JAFFE數(shù)據(jù)集上進行實驗。
圖5是在CK+數(shù)據(jù)集上分別采用LBP、WLD和LBWP三種紋理特征提取的方法進行表情識別,識別的平均正確率分別為93.48%、94.68%、97.14%。WLD特征進行表情識別比LBP特征進行表情識別的準確性高出1.2%,LBWP特征融合之后進行表情識別比LBP特征和WLD特征單獨進行表情識別的正確率分別提高了3.66%、2.46%。三種方法對中立表情都能夠準確識別,對恐懼表情識別的效果不是很好,WLD對其識別的結果為88.24%。LBWP特征對厭惡、憤怒、快樂的識別率明顯高于LBP和WLD特征的識別率。
圖6是在JAFFE數(shù)據(jù)集進行的實驗,LBP特征單獨提取的表情正確率為89.62%,WLD特征單獨提取的正確率為90.57%,特征融合的LBWP的正確識別率為95.77%,比LBP特征和WLD特征各自的識別率都有較大提高,提高了5.2%以上,進一步驗證了LBWP特征融合對表情識別分類的有效性。三種方法對驚訝表情的識別效果達到了最佳,LBWP特征對厭惡、恐懼、悲傷和中立表情的識別率都高于LBP和WLD特征的識別率。LBP特征對悲傷表情的識別率較差,為78.57%,WLD特征對厭惡表情的識別效果更不理想,僅為71.43%。
圖5 CK+數(shù)據(jù)集表情識別
圖6 JAFFE數(shù)據(jù)集表情識別
圖5和圖6都證明了采用LBWP特征提取的方法對表情識別分類的準確率比單一紋理特征進行表情識別的正確率高。CK+數(shù)據(jù)集上整體的平均正確率高于JAFFE數(shù)據(jù)集上整體的平均正確率,高1.37%。
表2 不同方法在CK+數(shù)據(jù)集的表情識別
表2對比了不同的特征提取方法在CK+數(shù)據(jù)集上進行表情分類識別的平均正確率?;贚BP紋理特征與BP神經(jīng)網(wǎng)絡、CNN、KL變換進行特征融合并提取的方法進行表情識別,識別率高達91%以上?;赪LD紋理特征與HOG、DNB特征相融合進行表情識別,識別率達到95%以上。而文中提出的LBWP進行表情識別使用一種紋理特征與別的特征進行表情識別的正確率較高,高出至少1.57%。
表3 不同方法在JAFFE數(shù)據(jù)集的表情識別
表3是基于不同的紋理特征提取方法在JAFFE數(shù)據(jù)集上進行表情識別分類。使用LBP紋理信息和WLD紋理信息與其他的特征提取方法分別在JAFFE數(shù)據(jù)集上進行表情識別,識別分類的正確率沒有很明顯的差距。文中的LBWP紋理特征融合的方法相比于LBP或者WLD紋理特征與其他特征融合表情的正確識別率較高,高出5%以上,進一步驗證了LBWP的有效性。
從表2、表3可以看出,在CK+數(shù)據(jù)集和JAFFE數(shù)據(jù)集上表情識別的結果相比較,文中的LBWP特征提取方法優(yōu)于對LBP特征或WLD特征與別的特征融合方法,進一步驗證了LBWP算法在表情識別方面的有效性。
人臉表情是人們進行情緒表達的基本方式之一,也是一種有效的非語言交流方式,表情識別能夠很好地促進人機交互和智能技術的發(fā)展。文中對表情識別使用的是基于LBP紋理特征和WLD紋理特征融合的局部二值韋伯模式特征提取方法,對CK+數(shù)據(jù)集和JAFFE數(shù)據(jù)集的人臉圖像進行表情識別,并且對該特征提取算法的有效性進行了驗證。
下一步將研究局部二值韋伯模式與別的特征的融合,以進一步驗證該算法是否與別的特征融合仍具有有效性。該算法是基于對CK+和JAFFE兩個正面的人臉數(shù)據(jù)集進行的研究,接下來將進一步在其他的人臉表情數(shù)據(jù)集上研究該算法,研究LBWP算法對不同方向的人臉圖像進行表情識別是否仍然具有有效性。