王 燕,張殷綺
WANG Yan,ZHANG Yinqi
蘭州理工大學 計算機與通信學院,蘭州730050
College of Computer and Communication,Lanzhou University of Technology,Lanzhou 730050,China
人臉表情在人與人交流過程中發(fā)揮著重要作用,與之相應(yīng)的表情識別一直是模式識別與計算機視覺等領(lǐng)域中非常活躍的研究熱點。由于表情具有準確性與復雜性,所以在人臉圖像中對表情特征進行有效提取所采用的方法顯得尤為重要。目前常用的靜態(tài)人臉圖像特征提取方法有基于統(tǒng)計特征提取、基于頻域特征提取等。統(tǒng)計特征如線性判別分析(Linear Discriminant Analysis,LDA)[1]可實現(xiàn)快速識別,但它依賴訓練和檢測圖像的灰度相關(guān)性,有很大局限。頻域特征如Gabor[2-3]可有效提取多尺度的表情特征,Gabor 對光照強度等多種噪聲不敏感,魯棒性強,但其計算量較大,冗余度和特征維數(shù)都較高。局部二值模式(Local Binary Pattern,LBP)[4]能描述圖像的局部紋理,但易受噪聲的影響。而隨著該方法的不斷深入研究,已涌現(xiàn)出許多改進的LBP新方法,如中心對稱局部二值模式(Center-Symmetric Local Binary Pattern,CS-LBP)[5-6],局部定向二值模式(Local Directional Binary Pattern,LDBP)[7-8]在不同程度上提高了識別率。
目前的一種研究方向是提取多尺度特征,將其進行合理組合以及綜合分析,使有限的特征發(fā)揮到極致。基于此提出的局部Gabor 二值模式結(jié)合直方圖統(tǒng)計降維(Local Gabor Binary Pattern Histogram Sequence,LGBPHS)[9]的人臉識別方法,識別率有一定提高,由于在特征提取過程中,需要將圖像進行分塊,在每個分塊中提取特征以及降維。因此該方法勢必增加計算復雜度,而分塊大小需要手動進行,不具確定性,且容易丟失塊與塊之間的表情連續(xù)信息。另外,使用直方圖統(tǒng)計降維,特征維數(shù)仍然較高。局部Gabor 二值模式(Local Gabor Binary Pattern,LGBP)結(jié)合支持向量機(Support Vector Machine,SVM)[10]同樣存在對圖像做分塊操作后所提取的特征不具完整性,且受到多種參數(shù)的限制,整體識別率不高。Gabor 和稀疏系數(shù)[11]的表情識別方法避免了個體特征對表情識別的干擾,在一定程度上提高了識別率。環(huán)形Gabor 與CS-LBP[12]、多通道Gabor 與CS-LBP[13]的人臉識別方法,利用CS-LBP 可提取人臉細節(jié)特征的優(yōu)點并結(jié)合改進的Gabor 獲得了較好的識別率。
近幾年,離散余弦變換(Discrete Cosine Transform,DCT)作為國際標準編碼成為數(shù)字圖像壓縮技術(shù)的核心,具有計算速度快,可去除圖像內(nèi)無關(guān)數(shù)據(jù)且不影響關(guān)鍵屬性和特征,以此發(fā)現(xiàn)特征降維和圖像壓縮存在一定的相似性。文獻[14-15]提出DCT 用于特征降維時可在一定程度提高特征的識別率。
因此基于以上分析,本文提出一種Gabor 結(jié)合改進的CS-LBP 即二值疊加中心對稱局部二值模式(Addition of Two-Valued Center-Symmetric Local Binary Pattern,二值疊加CS-LBP)的特征提取方法。首先使用Gabor提取表情特征整體結(jié)構(gòu),再使用二值疊加CS-LBP 進一步提取特征,提取更為豐富的表情細節(jié)特征。在提取特征時,為保留表情變化的連續(xù)信息,對圖像不做分塊處理,而是直接對整幅圖像提取特征。然后用DCT 做特征降維,并使用最近鄰分類器進行表情的分類識別,最后在表情識別中取得了較好的效果。
中心對稱局部二值模式(Center-Symmetric Local Binary Pattern,CS-LBP)算子在提取特征時對光照,表情等變化具有比LBP 算子更為細致的紋理描述優(yōu)點,CS-LBP 的基本原理是把中心對稱思想引入到LBP 算子中,重新定義了中心像素和鄰域像素之間的計算原則,即計算以中心像素為中心對稱的鄰域像素值對,若大于等于規(guī)定的參數(shù)(中心像素值或中心像素值加實驗中的閾值),則為1,反之為0。然后依次得到一個二進制串,轉(zhuǎn)換為十進制數(shù),即為中心像素的編碼。CS-LBP 特征能更快地從人臉表情圖像中提取,且占用存儲空間小很多,同時又保留了表情的有效信息。CS-LBP[5]的原理如圖1 所示。
圖1 LBP 和CS-LBP 原理
CS-LBP 編碼公式:
LBP 編碼公式:
圖1 中,gc為中心點像素,gp為中心像素周圍的8個像素,R是半徑,P是周圍像素個數(shù),且N=P,T的取值可以為gc,也可以根據(jù)實驗中對閾值的設(shè)定,取值為gc加閾值。LBP 編碼是用周圍8 個像素的灰度值與中心像素點灰度值進行比較,完成二值化,將其轉(zhuǎn)換成十進制數(shù)即為中心像素的編碼。而CS-LBP 是計算以中心像素為中心對稱的鄰域像素值對,也是轉(zhuǎn)換成十進制數(shù)。從圖1 看出,該編碼長度是LBP 編碼的1/2。
Gabor具有與人類大腦皮層簡單細胞的二維反射區(qū)相同的特性,能捕捉頻域不同尺度和方向上的相關(guān)特征,非常適用于表示人臉圖像[3]。
二維Gabor函數(shù)可以表示為:
其中:
z(x,y)表示圖像坐標,kmax是最大頻率,f是頻域內(nèi)Gabor核函數(shù)的空間因子,φu表示Gabor 濾波器的方向選擇性,v的取值決定Gabor濾波的波長,通過變換v可控制采樣的尺度,u的取值表示Gabor 核函數(shù)的方向,通過定義v值和u值就可以得到Gabor濾波器。本文在實驗中的取值定義依次為:kmax=π/2,,v=(0,1,2,3,4),u=(0,1,2,3,4,5,6,7)。最后得到5 個尺度8個方向的Gabor 濾波器,將表情圖像的灰度值I(x,y)和Gabor 濾波器gu,v(x,y) 做卷積運算,即可得到Gabor特征:
針對單一特征提取方法存在表情識別精度不高,且忽略了臉部不同區(qū)域的特征對不同算子的要求,因此本文提出一種Gabor 和二值疊加中心對稱局部二值模式(Addition of Two-Valued Center-Symmetric Local Binary Pattern,二值疊加CS-LBP)方法。二值疊加CS-LBP 是基于CS-LBP 的基礎(chǔ)上進行改進,即同時提取兩個二進制編碼值,將這兩個值轉(zhuǎn)換成十進制數(shù)進行疊加作為中心像素的最終值。由于LBP 和CS-LBP 的特征提取計算方式相對單一,而二值疊加CS-LBP 可同步用兩種運算方式進行特征提取,因此豐富了紋理細節(jié)信息,而且對噪聲有較強的抗干擾能力,使得特征更為健壯。具體算法描述如下:
第一個二進制編碼A的提取:
第二個二進制編碼B的提?。?/p>
具體計算過程如圖2 所示。
圖2 二值疊加CS-LBP 算子示意圖
將上述同時提取到的A和B兩個二進制編碼,各自轉(zhuǎn)換成十進制數(shù)后,進行相加,得到的值即為二值疊加CS-LBP 編碼。其中,gc為中心點像素,gp為中心像素周圍的8 個像素,gp+(N/2)是以中心像素為中心對稱的鄰域像素值,R是半徑,取1;P是周圍像素個數(shù),N=P=8。關(guān)于T的取值范圍在文獻[5]中為[0,0.2],T的取值大小可以過濾掉噪聲對圖像有效表情信息的影響,閾值T取值太大,會丟失主要表情信息,取值太小,則連同噪聲與表情信息一起進行分類。因此本文在實驗中最后設(shè)定閾值T1=T2=0.005,或T1=T2=0.01,兩個取值都可達到實驗得到的最好結(jié)果。如圖3 所示各算子的特征提取圖像,與CS-LBP相比,由于二值疊加CS-LBP使用兩種計算方法同時提取特征,以及閾值對噪聲的有效避免,從而進一步提取更多有效的特征信息。
圖3 三種算子的特征圖
本文提出將Gabor 和二值疊加CS-LBP 算子二者相結(jié)合,使提取的特征既包含多尺度多方向的特性,又包括對細節(jié)特征描述的豐富性。首先對表情圖像進行Gabor濾波,然后再進行二值疊加CS-LBP 編碼,公式如下:
經(jīng)過特征提取后,每幅圖像的特征維數(shù)都會變得很大。以32×32 的圖像為例,經(jīng)處理后的維數(shù)高達32×32×40,這勢必增加下一步計算的復雜度。因此,本文采用離散余弦變換(Discrete Cosine Transform,DCT)進行特征降維。DCT 定義為[15]:
式中:
式(13)中f(m,n) 是一幅大小為N×N的圖像,u和v是降維后的圖像尺寸,C(u,v) 是降維后的圖像矩陣。由于人臉不同區(qū)域所含的表情信息不相同,因此為充分保留更有效的表情信息,對已提取到的特征進行分塊處理后降維,本文在實驗中將每個分塊矩陣大小設(shè)定為8×8,特征圖像分塊后得到(N/8)2個矩陣塊Mi(i=1,2,…,(N/8)2),對每個分塊Mi進行式(13)中的運算,得到Di((N/8),(N/8))(i=1,2,…,(N/8)2) 的能量圖矩陣,由于每個能量圖Di的左上角集中了原矩陣的有效信息,因此只保留左上角的元素,進行式(15)操作。
其中Hi=[hi1,hi2,…,hip,0,0,…,0],A中左上角元素1的個數(shù)為壓縮比P,通過設(shè)置壓縮比就可以實現(xiàn)特征降維,Hi的0 元素已無實際意義,將其去除后所得的H矩陣即為降維后的特征矩陣,本文在實驗中設(shè)置壓縮比P為1/64。如下式所示:
如圖4 所示,以32×32 維的圖像為例,將獲得的每幅二值疊加LGCS-BP 特征劃分為16 個分塊,分塊為8×8 大小,對每個分塊依次進行式(13)、(15)的運算,壓縮比P是1/64,對得到的能量圖去除0 元素后保留左上角的矩陣元素,即是降維后的特征矩陣,其元素個數(shù)為16(=(32/8)×(32/8)),將每塊特征矩陣轉(zhuǎn)換成向量依次順序連接,即是最終用來識別的表情特征向量。
圖4 DCT 降維示意圖
二值疊加LGCS-BP 特征提取和DCT 降維過程如圖5 所示。
圖5 二值疊加LGCS-BP 特征提取和DCT 降維示意圖
本文方法在JAFFE 表情庫中進行實驗,該庫共有7類表情,213 張人臉表情圖像。選擇其中的210 張表情圖像,每個表情含10 幅圖像。由于圖片的尺寸也會影響DCT 的降維效果,庫中原始圖片為256×256 大小,因此將圖片分別做兩組方式進行裁剪和縮放,如圖6 所示,圖6(a)去除背景,保留整個人臉肖像,圖6(b)為面部主要表情區(qū)域,兩組圖片大小經(jīng)預處理后統(tǒng)一為64×64,48×48,32×32 各三種尺寸。
圖6 兩組JAFFE 表情圖像
首先獲取上述圖片的Gabor 結(jié)合二值疊加CS-LBP的表情特征,通過DCT 進行特征降維,最后使用最近鄰分類器進行表情分類識別。如表1 所示。
表1 本文方法在JAFFE 數(shù)據(jù)集上的7 種表情識別率%
由表1 可知,圖6(a)的各表情識別率總體要高于圖6(b),表明經(jīng)過裁剪的面部主要表情區(qū)域圖片會丟失重要的特征信息,影響分類效果。其次,對于不同尺寸的圖片,如圖6(a),生氣、厭惡、驚奇和中性的識別率沒有變化,害怕在48×48 和64×64 維的識別率均為96.7%,32×32 維的識別率為93.3%,表明7 種表情特征在不同尺寸圖片上保持了較好的穩(wěn)定性。
另外,由于每幅圖片在獲得Gabor+二值疊加CS-LBP特征時,它的維數(shù)都會變成原來維數(shù)的40 倍,經(jīng)DCT 降維后,壓縮比P為1/64,即降維后的維數(shù)均為原圖片尺寸的1/64,如32×32×40 維在降維后的維數(shù)為4×4×40維。說明DCT 不僅能有效降維,并且能保留更多的表情紋理信息,提高了識別率。
分別用Gabor+LBP、Gabor+CS-LBP,以及單獨使用這些算法對圖6(a)和(b)兩組圖片進行特征提取,得到的最好識別率如表2 所示。
在表2 的實驗結(jié)果中,圖6(b)的識別率總體要低于圖6(a)的識別率,與表1 的結(jié)果同樣說明對圖片的大幅度裁剪會丟失表情特征用來分類的重要信息。通過上述數(shù)據(jù)的對比分析,Gabor+LBP、Gabor+CS-LBP和Gabor的平均識別率為94.3%。二值疊加CS-LBP 和CS-LBP的為78.6%,LBP 的最低。而本文提出的Gabor+二值疊加CS-LBP 方法的識別率較其他方法有明顯提高,是95.7%,說明將兩種方法的優(yōu)點結(jié)合,能更加有效地將表情整體特征和局部細節(jié)特征相結(jié)合,提高了表情識別率。
表2 3 種算法在不同圖片樣式和尺寸的最好識別率 %
為進一步驗證本文方法的有效性,在JAFFE 數(shù)據(jù)集上,對文獻[7,10]和本文不同方法所得識別率的最好結(jié)果進行了對比。如表3 所示。
表3 與現(xiàn)有方法在JAFFE 數(shù)據(jù)集上的7 種表情平均識別率比較
本文提出的Gabor 和二值疊加CS-LBP 的方法中,由于同時以兩種計算方式提取的二值疊加CS-LBP 能進一步獲取更多的表情紋理細節(jié),將其與Gabor 相結(jié)合使所得的特征信息更為豐富,與單獨使用這些方法相比,提高了表情的識別精度;且該方法對噪聲有較好的抑制作用。本文在特征提取時,對圖像不做分塊處理,而是對整體圖像直接提取,因此能獲得表情連續(xù)變化的信息,在一定程度上避免了圖像分塊而無法保留塊與塊之間的關(guān)聯(lián)信息。將圖像壓縮技術(shù)DCT 應(yīng)用于特征降維,在降低特征維數(shù)的同時,能充分保留特征信息,且相關(guān)參數(shù)設(shè)置簡單,計算量較小。實驗證實了本文方法可有效提高識別精度。
[1] Wang Zhan,Ruan Qiuqi,An Gaoyun.Facial expression recognition based on tensor local linear discriminant analysis[C]//2012 IEEE 11th International Conference on Signal Processing,2012:1226-1229.
[2] Asharaf A B,Lucey S,Chen T.Reinterpreting the application of Gabor filters as a manipulation of the margin in linear support vector machines[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(7):2510-2521.
[3] Liu Weifeng,Wang Zengfu.Facial expression recognition based on fusion of multiple Gabor features[C]//The 18th International Conference on Pattern Recognition,2006:536-539.
[4] Ojala T,Pietikainan M.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7):971-987.
[5] Marko H,Matti P,Cordelia S.Description of interest region with center-symmetric local binary pattern[C]//Proc of Conf on Computer Vision Graphic and Image Processing,2006:58-69.
[6] 盧建云,何中市,余磊.基于多級CS-LBP 特征融合的人臉識別方法[J].計算機工程與科學,2010,32(6).
[7] Wang Yan,He Guoqing.Expression recognition algorithm based on local directional binary pattern[J].Journal of Computational Information Systems,2014,10(8):3221-3228.
[8] 龔劬,葉劍英,華桃桃.結(jié)合改進的LBP 和LDP 的人臉表情識別[J].計算機工程與應(yīng)用,2013,49(22):197-200.
[9] Zhang Wenchao,Shan Shiguang,Gao Wen,et al.Local Gabor Binary Pattern Histogram Sequence (LGBPS):a novel non-statistical model for face representation and recognition[C]//Proceedings of the 10th International Conference on Computer Vision,Beijing,China,2005:150-155.
[10] Bafandehkar A,Rahat M,Nazari M.Pictorial structure based keyparts localization for facial expression recognition using Gabor filters and local binary patterns operator[C]//International Conference on Soft Computing and Pattern Recognition,2011.
[11] 朱明旱,李樹濤,葉華.基于子空間稀疏系數(shù)的表情識別方法[J].計算機工程與應(yīng)用,2014,50(12):33-37.
[12] 邵詩強,施立欣,周龍沙.基于環(huán)形Gabor 小波與CS-LBP算法在人臉識別中的應(yīng)用[J].光電子技術(shù),2012(3):180-184.
[13] 何中市,盧建云,余磊.基于多通道Gabor 濾波與CS-LBP的人臉識別方法[J].計算機科學,2010,37(5).
[14] Zhang Yankun,Liu Chongqing.Efficient face recognition method based on DCT and LDA[J].Journal of Engineer and Electronics,2004,15(2):211-216.
[15] Jiang Bin,Yang Guosheng,Zhang Huanlong.Cpmparative study of dimension reduction and recognition algorithms of DCT and 2DPCA[C]//Proceedings of the 7th International Conference on Machine Learning and Cybernetics,Kunming,2008:12-15.