宋宇翔,胡 偉
(1.廣東培正學(xué)院計算機科學(xué)與工程系,廣東 廣州 510830;2.湖南第一師范學(xué)院科研處,湖南 長沙 410002)
責(zé)任編輯:時 雯
人臉識別因其在人機交互、圖像處理和計算機視覺方面的應(yīng)用,已經(jīng)成為近年來的研究熱點。局部鄰接降維方法的目的是為了一個嵌套在高維空間中的有效子空間,該子空間能有效地表示高維空間中的數(shù)據(jù)并且保持高維數(shù)據(jù)的非線性結(jié)構(gòu)。線性判別分析保護了數(shù)據(jù)間的判別信息以及通過最大化類間矩陣與類內(nèi)矩陣的比例來找到最優(yōu)投影軸。
PCA[1]、LDA[2]以及類似算法不能很好地表示數(shù)據(jù)潛在的非線性數(shù)據(jù)結(jié)構(gòu)。許多最新的流形學(xué)習(xí)算法提出了保持局部鄰接關(guān)系的思想。比如局部鄰接嵌入LLE(Locally Linear Embedding)[3]、拉普拉斯映射。文獻(xiàn)[4]提出了局部保持投影算法,該方法是一種起源于拉普拉斯映射的線性子空間方法。LPP[4]能夠找出一個保持局部鄰接信息的線性子空間,它是一種無監(jiān)督學(xué)習(xí)方法,許多變種LPP[4]方法考慮了判別信息。
上述學(xué)習(xí)算法可以被統(tǒng)稱為線性圖嵌入框架的一種推廣,不同的是利用不用的矩陣和權(quán)重。然而,上述方法也存在一些限制,比如LPP[4]、LLE忽略了類別信息,從而降低了識別率。其他限制如LDE、邊界Fisher分析[5]和DLPP[6]涉及到判別矩陣的偽逆矩陣問題,同樣會降低識別率[7-8]。本文在提出一種新方法的,同時考慮了局部圖嵌入和最大化邊界標(biāo)準(zhǔn)[9-10],該方法不必將圖像矩陣轉(zhuǎn)換成一個圖像向量,從而節(jié)約了計算時間避免逆矩陣。
假定給定的訓(xùn)練樣本數(shù)目比較小,線性判別方法如LDA[2],LPP[4]的類內(nèi)離散度矩陣會出現(xiàn)奇異情況,因為需要奇異矩陣的逆,則給利用這些方法造成一定的困難。最大邊界標(biāo)準(zhǔn)MMC[9]是一種尋找類間與類內(nèi)離散度矩陣最小化的差值,本文提出一種新的方法,即最大邊界的局部圖嵌入方法(EM/MMC)。該方法尋找最小化局部鄰接類間離散度矩陣和局部鄰接類內(nèi)離散度矩陣的差,而不是二者之間的比率,因而奇異值的情況可以被避免。為了獲得這些判別向量,同時最小化局部保持類間離散度矩陣和最大化局部保持類內(nèi)離散度矩陣。
該方法通過一個節(jié)點的鄰接節(jié)點及線性權(quán)重重建該節(jié)點從而最小化數(shù)據(jù)樣本的緊湊性。表示過程和LLE[3]類似,LLE根據(jù)最近鄰思想把每個與該節(jié)點最相鄰的幾個節(jié)點作為表示該節(jié)點的特征節(jié)點。
第一步,LLE[3]算法根據(jù)最近鄰思想使用歐式距離找出與每個數(shù)據(jù)點最近的特征節(jié)點。
第二步,計算重建權(quán)重矩陣W,根據(jù)最近鄰點來重建每個點。最小化重構(gòu)誤差來獲得系數(shù)矩陣W,即
對所有訓(xùn)練樣本執(zhí)行完第一步和第二步之后,可以計算出權(quán)重矩陣 W= [wij]N×N。
第三步,通過權(quán)重矩陣W重建每個數(shù)據(jù)點yi,為了保持在重建過程中數(shù)據(jù)的內(nèi)在幾何特征結(jié)構(gòu),最小化重構(gòu)誤差函數(shù)
式中:yi是yj的鄰接點。
重構(gòu)誤差函數(shù)由式(4)可進一步化簡為
其中,M=(I-W)T(I-W)。
最大化局部保持類間離散度矩陣,可以通過式(6)得出
其中,yi和yj是類別輸出。
目標(biāo)函數(shù)式(6)可進一步化簡
局部保持類間離散度矩陣和局部保持類內(nèi)離散度矩陣計算出來以后,通過式(5)、式(7)進而計算投影矩陣,即
約束優(yōu)化問題式(8)就是尋找一個子空間,同時最大化局部保持類間離散度矩陣和最小化局部保持類內(nèi)離散度矩陣。上述優(yōu)化問題式(8)可以轉(zhuǎn)換為
其中,u是一個平衡類內(nèi)矩陣與類間矩陣的參數(shù)。通過引入拉格朗日乘子法解決如上約束優(yōu)化問題,即
其中,λi是拉格朗日乘子。式(10)進而得到
其中,λi和U是相應(yīng)的特征值與特征向量。
實驗采用兩個流行的人臉庫,Yale人臉庫及ORL人臉庫。
Yale人臉庫包含了15個人的165張人臉,每人11張,包括了不同光照條件(燈光往左照射、往右照射、往中間照射),不同的面部表情(正常的、開心的、沮喪的、睡著的、驚訝的以及眨眼的),不同場景的(戴眼鏡的和不戴眼鏡的),如圖1所示為Yale人臉庫中一個人的11幅具有不同特征的人臉圖像。
ORL人臉庫共有40個人的400張圖片,每人10張,其中有些圖像是拍攝于不同時期的,人的臉部表情和臉部細(xì)節(jié)有著不同程度的變化,如圖2所示為ORL上某人的10張圖片。
圖1 Yale人臉庫中某人的11幅人臉圖像
圖2 ORL人臉庫中某人的10張人臉圖像
將本文方法與幾個文獻(xiàn)中的方法進行了比較,如PCA[1],LDA[2],LLE[3],MMC[4],LLE+LDA[5],所有方法的投影矩陣都是由訓(xùn)練樣本計算得來,所有的樣本,包括訓(xùn)練樣本、測試樣本都投影到特征子空間,然后利用歐氏距離與最近鄰原則完成人臉的識別,并且都在同一臺PC機上完成。實驗中,隨機選取了每個人的2~6張圖像作為訓(xùn)練樣本,剩下的所有圖像作為測試樣本,實驗結(jié)果如表1、表2所示。
表1 各個方法在ORL上的識別率
表2 各個方法在Yale上的識別率
由表1及表2可以看出,在訓(xùn)練樣本取2~6張的各種情況下,它的優(yōu)越性均顯而易見。為了更好地體現(xiàn)出本文方法的優(yōu)越性,將幾個文獻(xiàn)中的方法與本文方法在時間復(fù)雜度(包括訓(xùn)練階段的、測試階段)、空間復(fù)雜度做了比較,如表3所示。其中,m和n分別表示圖像矩陣的行數(shù)和列數(shù),L,M,N分別表示投影向量數(shù)、測試樣本數(shù)、訓(xùn)練樣本數(shù)。
表3 各個方法的時間復(fù)雜度比較
從表3可以看出,本文方法在訓(xùn)練階段時的時間復(fù)雜度稍微有點高,但是較LLE+LDA方法還是有明顯的優(yōu)勢的,測時間段的時間復(fù)雜度、空間復(fù)雜度都不必其他方法遜色,甚至比LLE+LDA[8]方法低得多。
綜上所述,本文方法較 PCA[1],LDA[2],LLE[3],LLE+LDA[8],MMC[9]方法,雖然在復(fù)雜度方面沒有大的改善,但是在識別率方面有了很大提高,這也正是本方法解決的最重要的問題。
在模式識別中,人們廣泛使用特征提取技術(shù)來降維及其完成識別工作,本文提出了一種特征提取與識別的新方法,在ORL和Yale上的實驗表明,本文方法的具有高識別率及高效率。下一步將會在其他的數(shù)據(jù)集上進行實驗,改變其他的參數(shù),如μ,Kc,Kp,以進一步研究本文方法的識別效果。同時,可以把EM/MMC方法擴展為監(jiān)督、半監(jiān)督的方法。
[1]劉曉杰,王世亮,張志偉.Gabor小波和LPP相結(jié)合的人臉識別方法研究[J].電視技術(shù),2011,35(23):121-124.
[2]LIAO P,LIU J,WANG M,et al.Ensemble local fractional LDA for face recognition[C]//Proc.CSAE 2012.[S.l.]:IEEE Press,2012:586-590.
[3]ROWEIS S T,SAUL L K.Nonlinear dimensionality reduction by locally linear embedding[J].Science,2000,290(5500):2323-2326 .
[4]HE X,YAN S,HU Y.Learning a locality preserving subspace for visual recognition[C]//Proc.9th ICCV.Nice,F(xiàn)rance:IEEE Press,2003:385-392.
[5]HU H.Orthogonal neighborhood preserving discriminate analysis for face recognition[J].Pattern Recognition,2008,41(5):2045-2054.
[6]YANG L,GONG W,GU X,et al.Null space discriminant locality preserving projections for face recognition[J].Neurocomputing,2008,71(16):3644-3649.
[7]WANG Y,WU Y.Complete neighborhood preserving embedding for face recognition[J].Pattern Recognition,2009(43):1008-1015.
[8]YAN S C,XU D,ZHANG B Y,et al.Graph embedding and extensions:A general framework for dimensionality reduction[J].IEEE Trans.Pattern Anal.Mach.Intell.,2007,29(1):40-51.
[9]HUN D,F(xiàn)EN G,ZHOU S.Two dimensional locality preserving projections with its application to palm print recognition[J].Pattern Recognition,2007,40(1):339-342.
[10]張愛華,尉宇.基于混沌粒子群的決策樹SVM的調(diào)制模式識別[J].電視技術(shù),2012,36(23):126-129.