亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于相關(guān)性和支持度分析的人臉識別方法

2020-02-02 04:57:32劉鴻雁姚明海

渤海大學(xué)學(xué)報(自然科學(xué)版) 2020年3期

劉鴻雁，姚明海

（1.渤海大學(xué) 研究生學(xué)院，遼寧錦州 121013；2.渤海大學(xué) 信息科學(xué)與技術(shù)學(xué)院，遼寧錦州 121013）

0 引言

人臉識別技術(shù)是解決網(wǎng)絡(luò)安全和有效身份認(rèn)證的重要手段之一，如何利用人的臉部基礎(chǔ)特征進(jìn)行身份認(rèn)證已經(jīng)成為機(jī)器學(xué)習(xí)和信息安全領(lǐng)域研究的熱點(diǎn)問題.隨著電子技術(shù)的不斷發(fā)展，拍攝人臉圖像數(shù)據(jù)的手段和方式越來越豐富，圖像像素質(zhì)量也越來越高，獲取數(shù)據(jù)維度大幅度提升.

如何對高維數(shù)據(jù)進(jìn)行降維，提高識別算法的計(jì)算速率和識別可靠性成為了身份認(rèn)證領(lǐng)域面臨的又一難題.高維數(shù)據(jù)的降維從來都是機(jī)器學(xué)習(xí)和生物認(rèn)證領(lǐng)域研究的重點(diǎn)課題，而特征選擇是降低高維數(shù)據(jù)維度的有效辦法，通過對特征數(shù)據(jù)進(jìn)行選擇不僅可以降低高維數(shù)據(jù)的維度，而且可以有效的去除特征中存在的大量冗余信息，提高認(rèn)證方法的效率和準(zhǔn)確性［1?3］.

隨著科技的不斷發(fā)展，各種各樣的特征選擇方法被提出.例如基于Fisher Score特征選擇算法［4］，該方法基于同類樣本數(shù)據(jù)間具有較高的相似度，不同類別樣本數(shù)據(jù)間的相似度較差的原理對特征進(jìn)行評價.但是Fisher Score算法僅僅分析了特征數(shù)據(jù)對樣本數(shù)據(jù)分類問題的支持，而沒有充分考慮特征數(shù)據(jù)之間的相關(guān)性對分類的影響.基于主成分分析的特征選擇方法是將高維數(shù)據(jù)投影到低維空間實(shí)現(xiàn)數(shù)據(jù)的降維，僅考慮了特征自身的貢獻(xiàn)率，沒有考慮特征對類別的支持.還有僅考慮局部結(jié)構(gòu)特征保持的特征選擇方法，這類方法認(rèn)為相對于全局的結(jié)構(gòu)信息局部的特征對于分類更重要.但是這些方法都是從單一的角度對特征數(shù)據(jù)進(jìn)行評價，沒有將特征數(shù)據(jù)與類別之間的相關(guān)性和特征數(shù)據(jù)之間的相關(guān)性進(jìn)行全方位考慮.

因此，本文基于相關(guān)性和支持度提出了全新的特征選擇方法.針對特征數(shù)據(jù)與樣本類別和特征數(shù)據(jù)之間的相關(guān)性角度和相互支持角度進(jìn)行分析.基于同一類別內(nèi)樣本相似度較高，不同類樣本之間相似度較低的出發(fā)點(diǎn)分析特征對分類的支持度.基于互信息理論來分析特征數(shù)據(jù)與樣本類別及特征數(shù)據(jù)之間的相關(guān)性［5］.通過對皮爾遜相關(guān)系數(shù)的計(jì)算和分析來對特征的冗余度進(jìn)行分析［6］.最終通過多角度分析實(shí)現(xiàn)對特征數(shù)據(jù)的有效評價，最終挖掘出最優(yōu)特征數(shù)據(jù)集合.本文特征選擇流程如圖1所示.

1 相關(guān)性與支持度分析

進(jìn)行特征選擇的主要目的就是挖掘空間中最優(yōu)的特征集合來優(yōu)化后續(xù)算法性能和提高算法精度.從特征對分類的支持角度來看，特征對類別的支持度越高，說明其辨識度越好.但是往往由這些類別支持度高的特征構(gòu)成的特征集合分類效果并不理想，這是因?yàn)樘卣鏖g還存在相互作用，也就是特征之間存在相關(guān)性.為了有效挖掘出特征集合中的最優(yōu)特征組合，所有特征都需要進(jìn)行相關(guān)性和支持度的分析.

1.1 相關(guān)性分析

對于我們要挖掘的最優(yōu)特征組合，其包含的特征數(shù)據(jù)必須是與樣本類別的相關(guān)性較高，而相互之間相關(guān)性較低.這樣的特征組合才有利于對樣本數(shù)據(jù)進(jìn)行分類.互信息判斷一個特征數(shù)據(jù)的重要程度是判斷這個特征數(shù)據(jù)能給樣本數(shù)據(jù)的分類帶來多大的支持，特征攜帶的有利于分類的信息越多說明其越重要.基于互信息的方法可以有效地表述特征數(shù)據(jù)之間的相關(guān)性.此類方法主要是通過信息熵確定特征數(shù)據(jù)包含信息量的多少.具體公式如下：

這里，H（X）為信息熵，X表示離散的隨機(jī)特征集，p(x)為X取值為x的概率.

信息熵雖然表述了特征中含有信息的多少，但是信息熵不能描述不同特征間所包含信息的關(guān)系.聯(lián)合熵可以用來表示特征之間所含有的共同信息的多少.其定義如下：

這里p(x,y)表示X和Y所對應(yīng)聯(lián)合隨機(jī)變量的概率分布，H(X,Y)表示了特征X和Y所包含的共同信息的多少.聯(lián)合熵不能描述特征之間的依賴關(guān)系，對于描述特征之間的依賴程度的強(qiáng)弱，我們使用條件熵來表示.其定義如下：

其中，p(x,y)表示變量x與變量y的聯(lián)合概率分布情況，p(x| y)是已知變量y時，x在其條件下的概率分布.由此我們可以用公式（4）來描述兩個變量之間的相關(guān)性.

I(X,Y)的數(shù)值越大則代表變量X對Y的依賴性就越高，也就是X與Y共同擁有的信息所占比例非常高.反之，它們所共同包含的信息就非常少.

1.2 類別支持度分析

通過特征對類內(nèi)和類間散度的支持程度來判斷其對樣本數(shù)據(jù)類別的支持度.本文采用的方法是計(jì)算特征的Fisher Score.通過分析特征在不同類別上的均值和方差來計(jì)算其Fisher Score，從而判斷其重要性.基于Fisher Score的支持度計(jì)算方法可以很好的判斷特征對類別的支持度.一個特征對類別有較好的支持度，那么這個特征和同一類別樣本間的方差應(yīng)該是盡可能的小，而和其它類樣本間的方差應(yīng)該盡可能的大.

Fisher準(zhǔn)則一方面是要求不同類別間的相識度非常小，另一方面是同一類別內(nèi)的相識度非常大，是一種基于全局考慮的線性準(zhǔn)則.對于集合F來說，在第k個特征數(shù)據(jù)條件下類內(nèi)離散程度如公式（5）所示.

其中C表示樣本數(shù)據(jù)的類別數(shù)量，ni表示第i類樣本的樣本數(shù)量代表了i類樣本數(shù)據(jù)在第k個特征數(shù)據(jù)條件下的方差.在第k個特征條件下的類間離散程度如公式（6）所示.

Fisher（Fk）為特征集F中第k個特征的Fisher Score，對于分類問題，能夠滿足數(shù)據(jù)樣本之間具有較小的類內(nèi)散度和較大的類間散度的特征數(shù)據(jù)就是對分類支持度較大的特征數(shù)據(jù)，通過公式（7）我們可以看出，F(xiàn)isher（Fk）計(jì)算的結(jié)果越高，就表示該特征數(shù)據(jù)對分類的支持度就越好.

1.3 特征冗余性分析

特征數(shù)據(jù)間的冗余性是對不同特征數(shù)據(jù)進(jìn)行分析，樣本數(shù)據(jù)中兩個特征數(shù)據(jù)的相關(guān)性如果非常高，那么他們就存在冗余性.基于這種假設(shè)采用皮爾遜相關(guān)系數(shù)作為判別兩個特征數(shù)據(jù)之間線性相關(guān)程度的計(jì)算方法，如果特征數(shù)據(jù)之間的皮爾遜相關(guān)系數(shù)越大，則表示他們之間具有較高的冗余度.對于特征Fi和Fj來說，他們的皮爾遜相關(guān)系數(shù)計(jì)算公式如下：

這里，n為樣本總量，F(xiàn)ik表示樣本k在特征Fi下的取值，F(xiàn)jk表示樣本k在特征Fj下的取值表示樣本在特征Fi和Fj下的均值.當(dāng) PFiFj為正時，稱Fi和Fj為正相關(guān)，當(dāng)PFiFj為負(fù)時，稱Fi和Fj為負(fù)相關(guān)的大小代表Fi和Fj相關(guān)度，當(dāng)值為0時，代表兩個特征變量是線性不相關(guān)，那么也就不存在冗余性.相反當(dāng)值為1時，代表兩個特征是線性相關(guān)的，冗余度也就非常高.

2 特征評價函數(shù)

對于特征重要程度的界定有方法有很多，并且這些方法在不同領(lǐng)域都有著非常廣泛的應(yīng)用.本文主要從有無監(jiān)督的角度判斷特征對類別的支持程度、特征數(shù)據(jù)與數(shù)據(jù)類別的相關(guān)性和特征數(shù)據(jù)的冗余性.

監(jiān)督評價主要是分析特征數(shù)據(jù)對數(shù)據(jù)類別的支持度及其與數(shù)據(jù)類別的相關(guān)性，利用公式（7）來計(jì)算特征數(shù)據(jù)對分類的支持度.即這里S描述的是第k個特征數(shù)據(jù)條件下的類別之間離散程度，S表bw示在第k個特征條件下的類內(nèi)離散程度.對于分類問來說，如果一個特征的類間離散程度非常大，而類內(nèi)離散程度非常小，那么我們就說該特征對于類別有較高的支持度.

在特征數(shù)據(jù)與數(shù)據(jù)類別的相關(guān)性評價上我們采用互信息方法來進(jìn)行評價，通過公式（4）來計(jì)算k與c的相關(guān)性I(k,c).對特征k來說，其與數(shù)據(jù)類別的相關(guān)程度越高分類效果就越準(zhǔn)確.對類別的支持度和相關(guān)性，我們將其進(jìn)行加權(quán)融合.具體計(jì)算公式如下：

對于特征k，其S(k,c)結(jié)果越高表示其分類的效果就會更好.

無監(jiān)督評價主要分析特征之間的冗余性，利用公式（8）來對特征的冗余性進(jìn)行評價，計(jì)算每個特征的冗余度得分Pk，對于特征選擇來說其冗余度越低，相互間影響就越小.因此這里Pk的值越小越好.

特征選擇就是在所有特征數(shù)據(jù)集合中選擇出k個具較好支持度、類別相關(guān)性和較小冗余性的特征集合.因此本文的最終特征評價函數(shù)定義如下：

這里S(k,c)表示特征k的最終得分，Pk表示特征的冗余度得分，F(xiàn)Sk為特征k的最終得分.

3 實(shí)驗(yàn)結(jié)果與分析

為驗(yàn)證本文特征選擇方法的效果，將其與一些經(jīng)典的特征選擇算法在多個標(biāo)準(zhǔn)人臉數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)對比，同時也與單一考慮類別支持度和相關(guān)性的方法進(jìn)行了比較.具體方法包括：Fisher得分法、T檢驗(yàn)、卡方檢驗(yàn)（ChiSquare）、支持度評價方法和相關(guān)性評價方法.為檢驗(yàn)本文方法的實(shí)驗(yàn)效果，實(shí)驗(yàn)采用KNN分類器進(jìn)行分類結(jié)果預(yù)測，以KNN分類器的預(yù)測準(zhǔn)確率作為衡量算法有效性的依據(jù).

3.1 在AR數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果

AR數(shù)據(jù)庫中存儲了100個人的1400張人臉圖像［7］.仿真實(shí)驗(yàn)中通過每次隨機(jī)抽取一個人的8張人臉圖像構(gòu)建訓(xùn)練數(shù)據(jù)集合，其余構(gòu)建測試數(shù)據(jù)集合.所有圖像都調(diào)整為30×32大小.由圖2可以看出，在AR數(shù)據(jù)庫上本文方法在特征選擇維度在50～100維時，識別效果明顯好于其它方法，在其它維度下也基本具備較好的效果.

3.2 在ORL數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果

ORL數(shù)據(jù)庫［8］由40個人的400張圖片構(gòu)成，包括了不同表情、狀態(tài)、戴眼鏡等不同面部狀態(tài)變化下的面部圖像.為了便于計(jì)算，本節(jié)實(shí)驗(yàn)同樣將人臉圖像調(diào)整為30×32大小.由圖3可以看出，當(dāng)選取的特征維數(shù)不到50維的時候，本文提出的方法識別準(zhǔn)確率就已明顯高于其它方法.隨著特征維度增加，本文提出方法識別準(zhǔn)確率有著顯著的提升，且始終位于其它方法之上.

3.3在CMU PIE數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果

CMU PIE數(shù)據(jù)［9］庫由68人，共41368張包括不同表情、姿態(tài)和光照等變化的人臉圖像.為了便于計(jì)算，本文采用了文獻(xiàn)［10］中的預(yù)處理方式.首先選取每一個人同一姿勢同一表情不同光照的21張圖像，然后根據(jù)眼睛位置裁剪出臉部區(qū)域，并將其調(diào)整為30×32大小.由圖4可以看出本文方法、Fisher得分法、ChiSquare方法和支持度評價方法性能明顯優(yōu)于T檢驗(yàn)方法和相關(guān)性評價方法.其中，本文方法在特征維度為100維的時候取得了比其它算法都明顯優(yōu)異的最高準(zhǔn)確率.

3.4 在UMIST數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果

UMIST數(shù)據(jù)庫［11］由20個人共575張圖片構(gòu)成，包括了從側(cè)面到正面不同角度、不同姿態(tài)變化的圖像.由圖5就能夠看出，隨著選擇的特征數(shù)量的不斷增加，包括本文方法在內(nèi)的五種方法都具有較高性能.但本文提出的方法性能優(yōu)勢更為明顯，當(dāng)選取的特征維數(shù)不到50維的時候，本文提出的方法識別準(zhǔn)確率就已明顯高于其它方法.

3.5 在Yaleb數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果

Yaleb數(shù)據(jù)庫［12］由38個人，每人約64張圖片構(gòu)成，包含了面部表情、光照條件等變化的圖像.同樣，在進(jìn)行實(shí)驗(yàn)前將圖片進(jìn)行截取并調(diào)整為30×32大小的預(yù)處理操作.由圖6可以看出本文方法、Fisher得分法和ChiSquare方法明顯優(yōu)于支持度評價方法、T檢驗(yàn)方法和相關(guān)性評價方法.其中，本文提出的方法在較少維度的情況下就表現(xiàn)出了優(yōu)異的識別性能，并且隨著維數(shù)的增加快速的趨于穩(wěn)定，可以更好的進(jìn)行維數(shù)縮減.

4 總結(jié)

為了將高維數(shù)據(jù)降維，提高識別算法的計(jì)算效率及識別準(zhǔn)確性，提出了一種基于相關(guān)性和支持度分析的特征數(shù)據(jù)選擇方法.該算法充分挖掘特征數(shù)據(jù)相互之間、特征數(shù)據(jù)和類別之間的關(guān)系，選擇出具有最大類別支持度、最大類別相關(guān)且具有最小冗余度的特征集合.在AR、ORL、CMU PIE、UMIST和Yaleb五個數(shù)據(jù)庫上與其它方法進(jìn)行了比較，比較結(jié)果證明了本文方法在分類準(zhǔn)確性上明顯好于其它方法，但如何挖掘相關(guān)性和支持度仍是未來研究的重點(diǎn)之一.