胡鐘月
(廣西現(xiàn)代職業(yè)技術(shù)學(xué)院,廣西河池 547000)
由于人臉識(shí)別技術(shù)具有低干擾性和高精確性[1],在很多場合下的應(yīng)用都高于其他生物識(shí)別方法,包括一些大范圍的應(yīng)用,比如護(hù)照、駕駛執(zhí)照鑒別、海關(guān)檢查等[2]。
隨著人臉識(shí)別技術(shù)的發(fā)展,基于紋理分析的方法得到了越來越多的應(yīng)用。許多研究表明,紋理分析方法的應(yīng)用能夠超過其他人臉識(shí)別方法主要是因?yàn)槠鋵?duì)正面照臉部表情的細(xì)節(jié)變化進(jìn)行了處理[3]。紋理特征提取是成功進(jìn)行圖像紋理描述、分類與分割的關(guān)鍵環(huán)節(jié),紋理特征的提取直接影響后續(xù)處理的質(zhì)量。提取的紋理特征維數(shù)不大、鑒別能力強(qiáng)、穩(wěn)健性好,且提取過程計(jì)算量小。在過去的30多年,很多紋理特征提取的方法被進(jìn)一步發(fā)展。這些紋理特征大致分為基于統(tǒng)計(jì)特征、基于模板卷積特征、基于頻域特征和基于模型特征這4類[4-7]。
楊關(guān)等人曾提出在紋理分析中構(gòu)建高斯圖模型(Gaussian Graphical Models,GGM)[8],根據(jù)紋理特征的局部馬爾可夫性和高斯變量的條件回歸之間的關(guān)系,將復(fù)雜的模型選擇轉(zhuǎn)變?yōu)檩^為簡單的變量選擇,應(yīng)用懲罰正則化技巧同步選擇鄰域和估計(jì)參數(shù),實(shí)驗(yàn)顯示了基于高斯圖模型的紋理特征對(duì)紋理分析的有效性。但是,復(fù)雜的計(jì)算開銷使其在應(yīng)用中受到了限制。結(jié)合紋理編碼,文獻(xiàn)[9]提出了一種基于統(tǒng)一權(quán)值的紋理分析(Texture Analysis based on Union Weighting,UWTA)方法,采用一組實(shí)驗(yàn)步驟獲得一個(gè)基于識(shí)別率的權(quán)值的固定形式,意識(shí)到了這些權(quán)值并不是最佳的,但是通過比較統(tǒng)一的權(quán)值,可以提高識(shí)別的能力。此后,大多數(shù)基于紋理的人臉自動(dòng)識(shí)別的方法(Automatic Face Recognition,AFR)[10]都開始使用固定權(quán)值來進(jìn)行人臉識(shí)別。文獻(xiàn)[11]提出運(yùn)用最小二乘法得出齊次非線性方程組,一定程度上提高了基于紋理編碼的人臉識(shí)別率。并且通過實(shí)驗(yàn)表明,運(yùn)用最小二乘法要比使用固定權(quán)值方法要好。然而,最小二乘法涉及到一個(gè)相當(dāng)復(fù)雜的方程組,而且還要計(jì)算出大量樣本圖像的每一個(gè)被估計(jì)的權(quán)值。
根據(jù)上述分析,傳統(tǒng)的紋理分析方法僅以每個(gè)臉部區(qū)域的相對(duì)貢獻(xiàn)來標(biāo)記全局相似度[12],針對(duì)這種以局部表示全局而導(dǎo)致不能很好地進(jìn)行特征提取的問題,本文提出了基于局部模式的加權(quán)估計(jì)紋理分析(Weighting Estimation for Texture Analysis,WETA)方法,使用局部二值模式(Local Binary Pattern,LBP)[13-14]或者局部相位量化(Local Phase Quantization,LPQ)[15-16]對(duì)相似空間中最具識(shí)別力的坐標(biāo)軸進(jìn)行紋理分析,并且利用編碼與數(shù)據(jù)庫的不同組合估算出權(quán)值,通過權(quán)值優(yōu)化給出最佳解決方案。與最小二乘法相比,該方法中每個(gè)權(quán)值需要訓(xùn)練樣本的數(shù)量更少,而且運(yùn)算起來更高效,實(shí)驗(yàn)對(duì)兩種紋理編碼方式進(jìn)行了詳細(xì)的分析,驗(yàn)證了所提方法的有效性。
利用局部二值模式(LBP)來進(jìn)行臉部描述,主要通過分配給x=(x,y)坐標(biāo)的每個(gè)像素一個(gè)編碼后,計(jì)算出來在半徑為R的范圍內(nèi),中心像素強(qiáng)度與離中心m等距像素強(qiáng)度之間的差別,決定如何分配編碼。根據(jù)像素強(qiáng)度正負(fù)值之間的差別,分配二進(jìn)制“0”和“1”,當(dāng)采樣點(diǎn)不符合中心像素時(shí)使用雙線內(nèi)插法。LBP紋理編碼以一種無序而又固定的二進(jìn)制串聯(lián)方式組成,用“0”和“1”來表示m等距內(nèi)的像素強(qiáng)度。圖1包括了4張LBP的影像樣本,從中可以看出像素強(qiáng)度與每個(gè)像素的LBP編碼之間的關(guān)系。
圖1 樣圖及相應(yīng)的LBP、LPQ表示法
實(shí)際應(yīng)用中,局部相位量化(Local Phase Quantization,LPQ)方法要比LBP更好,因?yàn)長BQ圖像更模糊,均勻亮度變化更大。與LBP相似,LPQ通過計(jì)算x=(x,y)坐標(biāo)的每個(gè)像素編碼,用編碼代表以x為中心的M×M鄰域內(nèi)(Nx)的像素。
在4個(gè)低頻區(qū)的Nx中觀察傅里葉變換Fx(u),u=(u,v)中的實(shí)值、虛值實(shí)現(xiàn)相位量化。在這里產(chǎn)生了8位二進(jìn)制數(shù),“0”和“1”的選擇取決于每個(gè)值的正、負(fù)。這些二進(jìn)制數(shù)隨意而又固定地串聯(lián)成了1個(gè)8位二進(jìn)制數(shù),以此描繪Nx中的紋理,圖像中所有的像素都利用這種方法得出相應(yīng)的LPQ圖像表示。
此方法包括一個(gè)簡單的過程:在量化步驟前解除傅里葉系數(shù)的關(guān)聯(lián),最大限度地保存紋理代碼的信息。
假設(shè)人臉數(shù)據(jù)庫中包含很多兩眼清晰的圖像,而且圖像中眼睛的像素坐標(biāo)也相同,數(shù)據(jù)庫中用Sir表示第i個(gè)對(duì)象的第r個(gè)圖像。識(shí)別過程中紋理圖像將被劃分成大小相等且不重疊的從1到B的區(qū)域,其中,第b塊區(qū)域紋理編碼的直方圖統(tǒng)計(jì)中,b=1,2,…,B。
第b塊區(qū)域中,bHir和bHjt這2個(gè)直方圖的差別在于圖像Sir和圖像Sjt用不同的距離函數(shù)bdirjt(bHir,bHjt)計(jì)算,文中簡述為bdirjt。
利用計(jì)算直方圖間距的線性組合來測量臉部的全局相異度,從而推斷出2張人臉是否來自同一個(gè)人,即
式中:系數(shù)wb為權(quán)值,表示第b塊區(qū)域與最終識(shí)別一致的相對(duì)相關(guān)性。
所提方法主要的工作是估計(jì)wb系數(shù),并且對(duì)式(1)進(jìn)行重新闡釋,達(dá)到權(quán)值最優(yōu)化的目的。把B區(qū)域中的Sir和Sjt臉部圖像間的直方圖間距進(jìn)行組合,其向量dirjt=[1dirjt,2dirjt,…,Bdirjt]代表B維中的相似空間。進(jìn)一步組合wi's系數(shù),其向量為w=[w1,w2,…,wB]。式(1)可采取以下形式
因此,全局相異度測量的方法是利用系數(shù)向量w來定義相同空間內(nèi)一個(gè)方向的距離向量dirjt。假定最佳加權(quán)與相同空間的方向相符合,那么就可以盡可能地把相同對(duì)象的配對(duì)圖像從不同對(duì)象的配對(duì)圖像中分離出來。
如果假定這2種類型圖像對(duì)的協(xié)方差矩陣是相等的,則可以直接使用Fisher準(zhǔn)則來找出最佳加權(quán)式中和分別是不同對(duì)象中配對(duì)圖像的平均距離向量是協(xié)方差矩陣的合集。許多文獻(xiàn)中的多元統(tǒng)計(jì)分析報(bào)告指出,甚至在協(xié)方差的假設(shè)不成立的情況下,F(xiàn)isher準(zhǔn)則仍然是很有效的。
通過式(3)快速計(jì)算權(quán)值是非常重要的,一般情況下,它并不遵循從左到右的臉部對(duì)稱性。然而,通過二等分系數(shù)的量值去估計(jì),則可以用來執(zhí)行權(quán)值對(duì)稱,降低問題的復(fù)雜程度。假設(shè)區(qū)域b,(b+B)/2,甚至B,與對(duì)稱的臉部區(qū)域相符合,則可以令bw=b+B/2w使得權(quán)值對(duì)稱,如此,式(1)就可以改寫為
如此,解決了權(quán)值估計(jì)問題,也就解決了權(quán)值最優(yōu)化問題。
采用的相似性度量是一個(gè)人臉識(shí)別中的局部模式基礎(chǔ)方法,它將人臉圖像分為一個(gè)常規(guī)的單元格和與局部模式一致的單元格,最后在人臉識(shí)別中的χ2分布上采用最近相鄰分類法
式中:p,q分別是圖像區(qū)域描述符(直方圖向量)。
由于不重合的原因,給出所有編碼值的目的是為小空間偏差提供光照和離群強(qiáng)健虛擬一致,使用類豪斯多夫距離相似性度量似乎是合適的,即采用圖像中每個(gè)LBP或者LPQ編碼,并測試一個(gè)相同的編碼是否出現(xiàn)在圖像的相近位置上,加權(quán)隨著圖像距離而平滑下降。為了實(shí)現(xiàn)區(qū)別性基于外貌圖像和易于控制的空間松弛度的匹配,可以采用距離轉(zhuǎn)換方案。給出一個(gè)二維的參考圖像,可以找到二進(jìn)制或三進(jìn)制編碼的圖像,然后將其轉(zhuǎn)化為稀疏二進(jìn)制圖像集,對(duì)應(yīng)每個(gè)可能二進(jìn)制或三進(jìn)制編碼值(例如一致編碼的59張圖像)。每個(gè)編碼指定它的特別二進(jìn)制或三進(jìn)制編碼值的像素出現(xiàn)的位置,然后計(jì)算它的距離轉(zhuǎn)換圖像。每個(gè)像素點(diǎn)給出了帶有編碼的最近圖像的距離,圖像與圖像之間的距離或者相似性度量可以表示為
它是圖像像素點(diǎn)的編碼值,也是一個(gè)自定義的函數(shù),它將損失傳遞給最近匹配編碼中的給定空間距離上的一個(gè)像素點(diǎn),所有的全局人臉在一些像素點(diǎn)內(nèi)對(duì)齊,默認(rèn)參數(shù)值是像素點(diǎn)。
所提方法的整個(gè)過程如圖2所示,首先利用LBP或LPQ對(duì)人臉圖像進(jìn)行紋理編碼,然后將紋理圖像劃分成B個(gè)大小相等且不重疊的區(qū)域,接著利用Fisher判別分析方法估算出權(quán)值系數(shù)wb,b=1,2,…,B,并利用式bw=b+B/2w對(duì)稱權(quán)值,當(dāng)讀入一個(gè)測試圖像時(shí),進(jìn)行相同的操作,最后利用直方圖間距的線性組合進(jìn)行全局相異度測量,計(jì)算測試圖像與訓(xùn)練圖像之間的歐式距離,最后,利用k近鄰分類器完成人臉的識(shí)別工作。
圖2 所提方法實(shí)現(xiàn)過程
所有的實(shí)驗(yàn)均在4 Gbyte內(nèi)存Intel(R)Core(TM)2.93 GHz Windows XP機(jī)器上完成,編程環(huán)境為MATLAB 7.0。
FERET人臉庫包含200個(gè)人的1 400張圖像,每人7張,它們是在不同的表情、視覺角度及其光照強(qiáng)度下拍攝的,如圖3所示為FERET上某個(gè)人臉的7張圖像。
圖3 FERET上某人的7張人臉圖像
ORL人臉庫共有40個(gè)人的400張圖片,每人10張,其中有些圖像拍攝于不同的時(shí)期,人的臉部表情和臉部細(xì)節(jié)有著不同程度的變化,如圖4所示為ORL上某人的10張圖片。
圖4 ORL人臉庫中某人的10張人臉圖像
實(shí)驗(yàn)中,圖像均被轉(zhuǎn)換為80×64像素分辨率,右側(cè)和左側(cè)眼睛的像素坐標(biāo)值分別為(20,14)和(20,51)。采用統(tǒng)一的LBP變量圖像,圖像含有8個(gè)采樣點(diǎn)(m=8),半徑長為2個(gè)像素點(diǎn)(R=2)。計(jì)算每一個(gè)7×7的像素鄰域(M=7),且在頻率值a=1/7時(shí)執(zhí)行相位量化,通過計(jì)算大小為8×8像素中超過10×8個(gè)非重疊區(qū)域,得到2個(gè)數(shù)據(jù)庫的直方圖。
選取FERET及ORL中每人的前5張人臉圖像用于訓(xùn)練,剩下的用于測試,訓(xùn)練階段利用不同數(shù)據(jù)庫與編碼的4種組合估算權(quán)值,包括LBP-FERET,LPQ-FERET,LBP-ORL,LPQ-ORL,測試階段利用相同的4種組合進(jìn)行識(shí)別率的計(jì)算,這樣估算權(quán)值與測試就有16種不同的組合,利用距離轉(zhuǎn)換度量計(jì)算測試圖像與各個(gè)訓(xùn)練圖像之間的距離,采用k近鄰分類器完成識(shí)別,其中,k值取3,圖5列出了各種組合加權(quán)取得的最好的5個(gè)識(shí)別率,小圖中每個(gè)標(biāo)題顯示了用于估算權(quán)值的編碼與數(shù)據(jù)庫的不同組合。
圖5 不同數(shù)據(jù)庫和編碼技術(shù)配置得出的識(shí)別率
從圖5可以得出16種組合的最佳識(shí)別率,如表1所示,其中,橫向表示訓(xùn)練階段估算權(quán)值的編碼與數(shù)據(jù)庫的不同組合,縱向表示測試階段的編碼與數(shù)據(jù)庫的不同組合。
表1 16種不同組合取得的最佳識(shí)別率 %
從表1可以看出,在相同的人臉數(shù)據(jù)庫上使用相同的紋理編碼可以獲得最好的表現(xiàn)效果,在不同的人臉數(shù)據(jù)庫上使用不同的紋理編碼取得的效果最差。其中,在FERET人臉數(shù)據(jù)庫上取得的最佳識(shí)別率為97.92%,在ORL人臉數(shù)據(jù)庫上取得的最佳識(shí)別率為99.19%,接近100%。同時(shí)可以看出,不管是訓(xùn)練還是測試,LBP與LPQ兩種編碼技術(shù)在同一數(shù)據(jù)庫互相轉(zhuǎn)換,對(duì)實(shí)驗(yàn)效果的影響都很小,與此相反,當(dāng)利用某個(gè)數(shù)據(jù)庫估算權(quán)值而又在另一個(gè)數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn)時(shí),識(shí)別效果明顯下降。
為了更好地體現(xiàn)所提方法的優(yōu)越性,這部分比較了所提方法與其他文獻(xiàn)中的方法,包括 PCA[2]、LDA[4]、LBP[5]、LPQ[6]、PCA-NN[7]、高斯圖模型(GGM)[8]、基于統(tǒng)一權(quán)值的紋理分析方法(UWTA)[9]和基于最小二乘法(Least Squares)的紋理分析方法[11],分別在FERET和ORL數(shù)據(jù)庫中用LBP和LPQ紋理編碼對(duì)識(shí)別率進(jìn)行了測試,各個(gè)比較方法的參數(shù)設(shè)置均與各自的文獻(xiàn)相同,實(shí)驗(yàn)結(jié)果取FERET及ORL人臉數(shù)據(jù)庫中每個(gè)人的前5幅圖像用于訓(xùn)練,剩下的圖像用于測試,詳細(xì)實(shí)驗(yàn)結(jié)果如表2所示。
從表2可以看出,在各種組合情況下,在FERET及ORL兩大人臉庫上,所提方法的識(shí)別率明顯高于其他各個(gè)方法,在 FERET上,所提方法比 PCA、LDA、LBP、LPQ、PCA-NN、GGM、UWTA、基于最小二乘法的紋理分析方法的識(shí)別率分別高了9.92%、5.71%、3.20%、2.09%、1.62%、1.13%、0.84%、0.60%,在 ORL上,所提方法比PCA、LDA、LBP、LPQ、PCA-NN、GGM、UWTA、基于最小二乘法的紋理分析方法的識(shí)別率分別高了7.37%、4.82%、3.62%、2.29% 、2.33% 、1.95% 、1.60% 、0.99% 。
通過引入加權(quán)估計(jì),LBP、LPQ的識(shí)別率明顯提高了很多,進(jìn)行比較的GGM、UWTA、基于最小二乘法的紋理分析方法都是比較先進(jìn)的紋理分析方法,所提方法的識(shí)別率明顯高于這三種紋理分析方法,也正是因?yàn)樗岱椒ㄒ肓思訖?quán)估計(jì),才達(dá)到了比較好的識(shí)別效果,足以體現(xiàn)了所提的加權(quán)估計(jì)紋理分析方法的優(yōu)越性。
表2 各方法在FERET及ORL上識(shí)別率的比較 %
本文提出了基于局部模式的加權(quán)估計(jì)紋理分析來估算最佳面部區(qū)域的權(quán)值,在FERET及ORL兩大人臉數(shù)據(jù)庫上進(jìn)行了實(shí)驗(yàn),利用2種不同的紋理編碼技術(shù),通過對(duì)本文方法與最近類似文獻(xiàn)中其他紋理方法的比較,表明了所提方法在識(shí)別性能方面的優(yōu)越性。實(shí)驗(yàn)結(jié)果表明,在給定的應(yīng)用中,所提方法能夠捕捉到人臉圖像中可能出現(xiàn)的分類的不對(duì)稱性,例如非對(duì)稱的視差發(fā)光格柵。
對(duì)LBP及LPQ進(jìn)行紋理編碼后,進(jìn)行紋理圖像劃分、權(quán)值推斷、權(quán)值對(duì)稱,明顯提高了人臉識(shí)別率,但同時(shí)也增加了額外的開銷,所以,如何在提高識(shí)別率的前提下提高算法的效率,將是進(jìn)一步研究的重點(diǎn)。
:
[1]孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學(xué)報(bào),2008,19(1):48-61.
[2]喬立山,陳松燦,王敏.基于相關(guān)向量機(jī)的圖像閾值技術(shù)[J].計(jì)算機(jī)研究與發(fā)展,2010,47(8):1329-1337.
[3]KOLDA T G,BADER B W.Tensor decompositions and applications[J].SIAM Review,2009,51(3):455-500.
[4]王佳奕,葛玉榮.基于Contourlet及支持向量機(jī)的紋理識(shí)別方法[J].計(jì)算機(jī)應(yīng)用,2013,33(3):677-679.
[5]ZHAO Q,ZHANG D,ZHANG L,et al.High resolution partial fingerprint alignment using pore-valley descriptors[J].Pattern Recognition,2010,43(3):1050-1061.
[6]ZHAO Q,ZHANG D,ZHANG L,et al.Adaptive fingerprint pore modeling and extraction[J].Pattern Recognition,2010,43(8):2833-2844.
[7]SU Y,SHAN S,CHEN X,et al.Adaptive generic learning for face recognition from a single sample per person[C]//Proc.IEEE International Conference on Computer Vision and Pattern Recognition,2010.[S.l.]:IEEE Press,2010:2699-2706.
[8]HU H.Orthogonal neighborhood preserving discriminant analysis for face recognition[J].Pattern Recognition,2008,41(6):2045-2054.
[9]楊關(guān),馮國燦,陳偉福,等.紋理分析中的圖像模型[J].中國圖象圖形學(xué)報(bào),2011,16(10):1818-1825.
[10]XIE Z,LIU G,F(xiàn)ANG Z.Face recognition based on combination of human perception and local binary pattern[J].Lecture Notes in Computer Science,2012,72(2):365-373.
[11]CONNOLLY J F,GRANGER E,SABOURIN R.An adaptive classification system for video-based face recognition[J].Information Sciences,2012,192(1):50-70.
[12]文喬龍,萬遂人,徐雙.Fisher準(zhǔn)則和正則化水平集方法分割噪聲圖像[J]. 計(jì)算機(jī)研究與發(fā)展,2012,49(6):1339-1347.
[13]ARANDJELOVI O.Computationally efficient application of the generic shape-illumination invariant to face recognition from video[J].Pattern Recognition,2012,45(1):92-103.
[14]ZHANG Z,WANG J,ZHA H.Adaptive manifold learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(1):131-137.
[15]HAFIZ F,SHAFIE A A,MUSTAFAH Y M.Face recognition from single sample per person by learning of generic discriminant vectors[J].Procedia Engineering,2012(45):465-472.
[16]LOWE D.Distinctive image features from scale-invariant key points[J].International Journal of Computer Vision,2004,60(1):91-110.