劉鴻雁,姚明海
(1.渤海大學(xué) 研究生學(xué)院,遼寧 錦州 121013;2.渤海大學(xué) 信息科學(xué)與技術(shù)學(xué)院,遼寧 錦州 121013)
人臉識別技術(shù)是解決網(wǎng)絡(luò)安全和有效身份認(rèn)證的重要手段之一,如何利用人的臉部基礎(chǔ)特征進(jìn)行身份認(rèn)證已經(jīng)成為機(jī)器學(xué)習(xí)和信息安全領(lǐng)域研究的熱點(diǎn)問題.隨著電子技術(shù)的不斷發(fā)展,拍攝人臉圖像數(shù)據(jù)的手段和方式越來越豐富,圖像像素質(zhì)量也越來越高,獲取數(shù)據(jù)維度大幅度提升.
如何對高維數(shù)據(jù)進(jìn)行降維,提高識別算法的計(jì)算速率和識別可靠性成為了身份認(rèn)證領(lǐng)域面臨的又一難題.高維數(shù)據(jù)的降維從來都是機(jī)器學(xué)習(xí)和生物認(rèn)證領(lǐng)域研究的重點(diǎn)課題,而特征選擇是降低高維數(shù)據(jù)維度的有效辦法,通過對特征數(shù)據(jù)進(jìn)行選擇不僅可以降低高維數(shù)據(jù)的維度,而且可以有效的去除特征中存在的大量冗余信息,提高認(rèn)證方法的效率和準(zhǔn)確性[1?3].
隨著科技的不斷發(fā)展,各種各樣的特征選擇方法被提出.例如基于Fisher Score特征選擇算法[4],該方法基于同類樣本數(shù)據(jù)間具有較高的相似度,不同類別樣本數(shù)據(jù)間的相似度較差的原理對特征進(jìn)行評價.但是Fisher Score算法僅僅分析了特征數(shù)據(jù)對樣本數(shù)據(jù)分類問題的支持,而沒有充分考慮特征數(shù)據(jù)之間的相關(guān)性對分類的影響.基于主成分分析的特征選擇方法是將高維數(shù)據(jù)投影到低維空間實(shí)現(xiàn)數(shù)據(jù)的降維,僅考慮了特征自身的貢獻(xiàn)率,沒有考慮特征對類別的支持.還有僅考慮局部結(jié)構(gòu)特征保持的特征選擇方法,這類方法認(rèn)為相對于全局的結(jié)構(gòu)信息局部的特征對于分類更重要.但是這些方法都是從單一的角度對特征數(shù)據(jù)進(jìn)行評價,沒有將特征數(shù)據(jù)與類別之間的相關(guān)性和特征數(shù)據(jù)之間的相關(guān)性進(jìn)行全方位考慮.
因此,本文基于相關(guān)性和支持度提出了全新的特征選擇方法.針對特征數(shù)據(jù)與樣本類別和特征數(shù)據(jù)之間的相關(guān)性角度和相互支持角度進(jìn)行分析.基于同一類別內(nèi)樣本相似度較高,不同類樣本之間相似度較低的出發(fā)點(diǎn)分析特征對分類的支持度.基于互信息理論來分析特征數(shù)據(jù)與樣本類別及特征數(shù)據(jù)之間的相關(guān)性[5].通過對皮爾遜相關(guān)系數(shù)的計(jì)算和分析來對特征的冗余度進(jìn)行分析[6].最終通過多角度分析實(shí)現(xiàn)對特征數(shù)據(jù)的有效評價,最終挖掘出最優(yōu)特征數(shù)據(jù)集合.本文特征選擇流程如圖1所示.
進(jìn)行特征選擇的主要目的就是挖掘空間中最優(yōu)的特征集合來優(yōu)化后續(xù)算法性能和提高算法精度.從特征對分類的支持角度來看,特征對類別的支持度越高,說明其辨識度越好.但是往往由這些類別支持度高的特征構(gòu)成的特征集合分類效果并不理想,這是因?yàn)樘卣鏖g還存在相互作用,也就是特征之間存在相關(guān)性.為了有效挖掘出特征集合中的最優(yōu)特征組合,所有特征都需要進(jìn)行相關(guān)性和支持度的分析.
對于我們要挖掘的最優(yōu)特征組合,其包含的特征數(shù)據(jù)必須是與樣本類別的相關(guān)性較高,而相互之間相關(guān)性較低.這樣的特征組合才有利于對樣本數(shù)據(jù)進(jìn)行分類.互信息判斷一個特征數(shù)據(jù)的重要程度是判斷這個特征數(shù)據(jù)能給樣本數(shù)據(jù)的分類帶來多大的支持,特征攜帶的有利于分類的信息越多說明其越重要.基于互信息的方法可以有效地表述特征數(shù)據(jù)之間的相關(guān)性.此類方法主要是通過信息熵確定特征數(shù)據(jù)包含信息量的多少.具體公式如下:
這里,H(X)為信息熵,X表示離散的隨機(jī)特征集,p(x)為X取值為x的概率.
信息熵雖然表述了特征中含有信息的多少,但是信息熵不能描述不同特征間所包含信息的關(guān)系.聯(lián)合熵可以用來表示特征之間所含有的共同信息的多少.其定義如下:
這里p(x,y)表示X和Y所對應(yīng)聯(lián)合隨機(jī)變量的概率分布,H(X,Y)表示了特征X和Y所包含的共同信息的多少.聯(lián)合熵不能描述特征之間的依賴關(guān)系,對于描述特征之間的依賴程度的強(qiáng)弱,我們使用條件熵來表示.其定義如下:
其中,p(x,y)表示變量x與變量y的聯(lián)合概率分布情況,p(x| y)是已知變量y時,x在其條件下的概率分布.由此我們可以用公式(4)來描述兩個變量之間的相關(guān)性.
I(X,Y)的數(shù)值越大則代表變量X對Y的依賴性就越高,也就是X與Y共同擁有的信息所占比例非常高.反之,它們所共同包含的信息就非常少.
通過特征對類內(nèi)和類間散度的支持程度來判斷其對樣本數(shù)據(jù)類別的支持度.本文采用的方法是計(jì)算特征的Fisher Score.通過分析特征在不同類別上的均值和方差來計(jì)算其Fisher Score,從而判斷其重要性.基于Fisher Score的支持度計(jì)算方法可以很好的判斷特征對類別的支持度.一個特征對類別有較好的支持度,那么這個特征和同一類別樣本間的方差應(yīng)該是盡可能的小,而和其它類樣本間的方差應(yīng)該盡可能的大.
Fisher準(zhǔn)則一方面是要求不同類別間的相識度非常小,另一方面是同一類別內(nèi)的相識度非常大,是一種基于全局考慮的線性準(zhǔn)則.對于集合F來說,在第k個特征數(shù)據(jù)條件下類內(nèi)離散程度如公式(5)所示.
其中C表示樣本數(shù)據(jù)的類別數(shù)量,ni表示第i類樣本的樣本數(shù)量代表了i類樣本數(shù)據(jù)在第k個特征數(shù)據(jù)條件下的方差.在第k個特征條件下的類間離散程度如公式(6)所示.
Fisher(Fk)為特征集F中第k個特征的Fisher Score,對于分類問題,能夠滿足數(shù)據(jù)樣本之間具有較小的類內(nèi)散度和較大的類間散度的特征數(shù)據(jù)就是對分類支持度較大的特征數(shù)據(jù),通過公式(7)我們可以看出,F(xiàn)isher(Fk)計(jì)算的結(jié)果越高,就表示該特征數(shù)據(jù)對分類的支持度就越好.
特征數(shù)據(jù)間的冗余性是對不同特征數(shù)據(jù)進(jìn)行分析,樣本數(shù)據(jù)中兩個特征數(shù)據(jù)的相關(guān)性如果非常高,那么他們就存在冗余性.基于這種假設(shè)采用皮爾遜相關(guān)系數(shù)作為判別兩個特征數(shù)據(jù)之間線性相關(guān)程度的計(jì)算方法,如果特征數(shù)據(jù)之間的皮爾遜相關(guān)系數(shù)越大,則表示他們之間具有較高的冗余度.對于特征Fi和Fj來說,他們的皮爾遜相關(guān)系數(shù)計(jì)算公式如下:
這里,n為樣本總量,F(xiàn)ik表示樣本k在特征Fi下的取值,F(xiàn)jk表示樣本k在特征Fj下的取值表示樣本在特征Fi和Fj下的均值.當(dāng) PFiFj為正時,稱Fi和Fj為正相關(guān),當(dāng)PFiFj為負(fù)時,稱Fi和Fj為負(fù)相關(guān)的大小代表Fi和Fj相關(guān)度,當(dāng)值為0時,代表兩個特征變量是線性不相關(guān),那么也就不存在冗余性.相反當(dāng)值為1時,代表兩個特征是線性相關(guān)的,冗余度也就非常高.
對于特征重要程度的界定有方法有很多,并且這些方法在不同領(lǐng)域都有著非常廣泛的應(yīng)用.本文主要從有無監(jiān)督的角度判斷特征對類別的支持程度、特征數(shù)據(jù)與數(shù)據(jù)類別的相關(guān)性和特征數(shù)據(jù)的冗余性.
監(jiān)督評價主要是分析特征數(shù)據(jù)對數(shù)據(jù)類別的支持度及其與數(shù)據(jù)類別的相關(guān)性,利用公式(7)來計(jì)算特征數(shù)據(jù)對分類的支持度.即這里S描述的是第k個特征數(shù)據(jù)條件下的類別之間離散程度,S表bw示在第k個特征條件下的類內(nèi)離散程度.對于分類問來說,如果一個特征的類間離散程度非常大,而類內(nèi)離散程度非常小,那么我們就說該特征對于類別有較高的支持度.
在特征數(shù)據(jù)與數(shù)據(jù)類別的相關(guān)性評價上我們采用互信息方法來進(jìn)行評價,通過公式(4)來計(jì)算k與c的相關(guān)性I(k,c).對特征k來說,其與數(shù)據(jù)類別的相關(guān)程度越高分類效果就越準(zhǔn)確.對類別的支持度和相關(guān)性,我們將其進(jìn)行加權(quán)融合.具體計(jì)算公式如下:
對于特征k,其S(k,c)結(jié)果越高表示其分類的效果就會更好.
無監(jiān)督評價主要分析特征之間的冗余性,利用公式(8)來對特征的冗余性進(jìn)行評價,計(jì)算每個特征的冗余度得分Pk,對于特征選擇來說其冗余度越低,相互間影響就越小.因此這里Pk的值越小越好.
特征選擇就是在所有特征數(shù)據(jù)集合中選擇出k個具較好支持度、類別相關(guān)性和較小冗余性的特征集合.因此本文的最終特征評價函數(shù)定義如下:
這里S(k,c)表示特征k的最終得分,Pk表示特征的冗余度得分,F(xiàn)Sk為特征k的最終得分.
為驗(yàn)證本文特征選擇方法的效果,將其與一些經(jīng)典的特征選擇算法在多個標(biāo)準(zhǔn)人臉數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)對比,同時也與單一考慮類別支持度和相關(guān)性的方法進(jìn)行了比較.具體方法包括:Fisher得分法、T檢驗(yàn)、卡方檢驗(yàn)(ChiSquare)、支持度評價方法和相關(guān)性評價方法.為檢驗(yàn)本文方法的實(shí)驗(yàn)效果,實(shí)驗(yàn)采用KNN分類器進(jìn)行分類結(jié)果預(yù)測,以KNN分類器的預(yù)測準(zhǔn)確率作為衡量算法有效性的依據(jù).
AR數(shù)據(jù)庫中存儲了100個人的1400張人臉圖像[7].仿真實(shí)驗(yàn)中通過每次隨機(jī)抽取一個人的8張人臉圖像構(gòu)建訓(xùn)練數(shù)據(jù)集合,其余構(gòu)建測試數(shù)據(jù)集合.所有圖像都調(diào)整為30×32大小.由圖2可以看出,在AR數(shù)據(jù)庫上本文方法在特征選擇維度在50~100維時,識別效果明顯好于其它方法,在其它維度下也基本具備較好的效果.
ORL數(shù)據(jù)庫[8]由40個人的400張圖片構(gòu)成,包括了不同表情、狀態(tài)、戴眼鏡等不同面部狀態(tài)變化下的面部圖像.為了便于計(jì)算,本節(jié)實(shí)驗(yàn)同樣將人臉圖像調(diào)整為30×32大小.由圖3可以看出,當(dāng)選取的特征維數(shù)不到50維的時候,本文提出的方法識別準(zhǔn)確率就已明顯高于其它方法.隨著特征維度增加,本文提出方法識別準(zhǔn)確率有著顯著的提升,且始終位于其它方法之上.
CMU PIE數(shù)據(jù)[9]庫由68人,共41368張包括不同表情、姿態(tài)和光照等變化的人臉圖像.為了便于計(jì)算,本文采用了文獻(xiàn)[10]中的預(yù)處理方式.首先選取每一個人同一姿勢同一表情不同光照的21張圖像,然后根據(jù)眼睛位置裁剪出臉部區(qū)域,并將其調(diào)整為30×32大小.由圖4可以看出本文方法、Fisher得分法、ChiSquare方法和支持度評價方法性能明顯優(yōu)于T檢驗(yàn)方法和相關(guān)性評價方法.其中,本文方法在特征維度為100維的時候取得了比其它算法都明顯優(yōu)異的最高準(zhǔn)確率.
UMIST數(shù)據(jù)庫[11]由20個人共575張圖片構(gòu)成,包括了從側(cè)面到正面不同角度、不同姿態(tài)變化的圖像.由圖5就能夠看出,隨著選擇的特征數(shù)量的不斷增加,包括本文方法在內(nèi)的五種方法都具有較高性能.但本文提出的方法性能優(yōu)勢更為明顯,當(dāng)選取的特征維數(shù)不到50維的時候,本文提出的方法識別準(zhǔn)確率就已明顯高于其它方法.
Yaleb數(shù)據(jù)庫[12]由38個人,每人約64張圖片構(gòu)成,包含了面部表情、光照條件等變化的圖像.同樣,在進(jìn)行實(shí)驗(yàn)前將圖片進(jìn)行截取并調(diào)整為30×32大小的預(yù)處理操作.由圖6可以看出本文方法、Fisher得分法和ChiSquare方法明顯優(yōu)于支持度評價方法、T檢驗(yàn)方法和相關(guān)性評價方法.其中,本文提出的方法在較少維度的情況下就表現(xiàn)出了優(yōu)異的識別性能,并且隨著維數(shù)的增加快速的趨于穩(wěn)定,可以更好的進(jìn)行維數(shù)縮減.
為了將高維數(shù)據(jù)降維,提高識別算法的計(jì)算效率及識別準(zhǔn)確性,提出了一種基于相關(guān)性和支持度分析的特征數(shù)據(jù)選擇方法.該算法充分挖掘特征數(shù)據(jù)相互之間、特征數(shù)據(jù)和類別之間的關(guān)系,選擇出具有最大類別支持度、最大類別相關(guān)且具有最小冗余度的特征集合.在AR、ORL、CMU PIE、UMIST和Yaleb五個數(shù)據(jù)庫上與其它方法進(jìn)行了比較,比較結(jié)果證明了本文方法在分類準(zhǔn)確性上明顯好于其它方法,但如何挖掘相關(guān)性和支持度仍是未來研究的重點(diǎn)之一.