姚明海,王 娜,齊 妙,李 妍
YAO Minghai1,2,WANG Na3,QI Miao2,LI Yan4
1.渤海大學(xué) 信息科學(xué)與技術(shù)學(xué)院,遼寧 錦州 121013
2.東北師范大學(xué) 計(jì)算機(jī)科學(xué)與信息技術(shù)學(xué)院,長(zhǎng)春 130117
3.錦州師范高等專(zhuān)科學(xué)校 計(jì)算機(jī)系,遼寧 錦州 121013
4.大連市婦女創(chuàng)就業(yè)指導(dǎo)服務(wù)中心,遼寧 大連 116001
1.College of Information Science and Technology,Bohai University,Jinzhou,Liaoning 121013,China
2.School of Computer Science and Information Technology,Northeast Normal University,Changchun 130117,China
3.Department of Computer,Jinzhou Teachers Training College,Jinzhou,Liaoning 121013,China
4.Dalian Women and Employment Guidance Service Center,Dalian,Liaoning 116001,China
隨著科學(xué)技術(shù)的飛速發(fā)展,描述事物的數(shù)據(jù)維數(shù)越來(lái)越龐大,這些龐大的數(shù)據(jù)必然會(huì)引起維數(shù)災(zāi)難(Curse of dimensionality)[1]。特征選擇是處理高維數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)降維的有效方法,從原始特征集合中提取特征子集,去掉冗余信息和干擾信息,實(shí)現(xiàn)特征維數(shù)的最優(yōu)縮減,從而提高了后續(xù)算法的預(yù)測(cè)準(zhǔn)確率和計(jì)算性能[2-3]。近些年,特征選擇方法在模式識(shí)別[4-5]、生物信息學(xué)[6]、醫(yī)學(xué)數(shù)據(jù)處理[7]等多個(gè)領(lǐng)域受到廣泛的關(guān)注。特征選擇不改變特征的原始表達(dá),僅從特征集中篩選最能代表觀測(cè)數(shù)據(jù)特點(diǎn)的最優(yōu)特征子集,因此能很好地保持原始特征的含義,更利于人們的理解和判斷。
特征評(píng)價(jià)和特征搜索策略是構(gòu)成特征選擇方法的兩個(gè)重要因素。特征評(píng)價(jià)是判斷所選特征優(yōu)劣的標(biāo)準(zhǔn),特征搜索策略是生成特征子集的主要手段。特征選擇方法按特征子集的評(píng)價(jià)機(jī)制和搜索策略主要分為過(guò)濾式和封裝式兩大類(lèi)。過(guò)濾式方法通過(guò)數(shù)據(jù)的內(nèi)在屬性評(píng)價(jià)特征的優(yōu)劣,獨(dú)立于后續(xù)的學(xué)習(xí)算法,是一種計(jì)算效率較高的方法。具有代表性的方法有T檢驗(yàn)(T-test)[8]、Fisher score[9]、信息增益(Information Gain,InforGain)[10]等。但是,過(guò)濾式特征選擇方法往往忽略了關(guān)于相關(guān)性的分析。封裝式方法是依賴(lài)于機(jī)器學(xué)習(xí)算法的特征選擇方法,通過(guò)分類(lèi)算法的分類(lèi)性能評(píng)價(jià)特征子集的優(yōu)劣。與過(guò)濾式方法相比封裝式方法計(jì)算的精度會(huì)好一些,但算法效率較低??紤]到特征之間的相關(guān)性和冗余性,人們提出了基于空間搜索的最大相關(guān)最小冗余(Minimal Redundancy Maximal Relevance,MRMR)算法[11]。MRMR算法使用互信息衡量特征的相關(guān)性與冗余度,并使用信息差和信息熵兩個(gè)代價(jià)函數(shù)來(lái)尋找特征子集。但是,MRMR算法存在冗余度和相關(guān)性評(píng)價(jià)方法單一,不能根據(jù)用戶(hù)需求設(shè)置特征維度等問(wèn)題。曹靜在文獻(xiàn)[12]中提出了針對(duì)特征相關(guān)性和冗余性加權(quán)融合的方法,但對(duì)于特征選擇的評(píng)價(jià)方法仍然沒(méi)有改進(jìn)。因此本文針對(duì)MRMR算法中的特征冗余度與相關(guān)性計(jì)算方法提出了改進(jìn)方案。在冗余度計(jì)算過(guò)程中提出了一種新的簡(jiǎn)單快速的計(jì)算方法;在計(jì)算特征相關(guān)性過(guò)程中引入多種經(jīng)典過(guò)濾式特征選擇方法對(duì)特征重要性進(jìn)行計(jì)算。
最大相關(guān)最小冗余算法是最為典型的基于空間搜索的過(guò)濾式方法。最大相關(guān)就是指特征與類(lèi)別相關(guān)度大,即特征能最大程度反映樣本類(lèi)別信息;最小冗余指特征間相關(guān)度小即冗余度小。MRMR方法使用互信息度量特征的相關(guān)性與冗余度,使用信息差和信息熵構(gòu)建特征子集的搜索策略。
MRMR算法中最大相關(guān)和最小冗余定義分別如公式(1)和公式(2)所示:
其中,F(xiàn)為特征集合,c為樣本類(lèi)別,I(fr,c)表示特征fr與類(lèi)別c之間的互信息,I(fr,fo)表示特征 fr與特征fo之間的互信息。
給定兩個(gè)隨機(jī)變量x和 y,設(shè)它們的概率密度分別為 p(x),p(y)和 p(x,y),則它們之間的互信息定義如公式(3)所示:
MRMR算法利用公式(4)作為評(píng)價(jià)函數(shù)指導(dǎo)特征子集的選擇。
MRMR算法從空間搜索角度考慮了特征與類(lèi)別間的相關(guān)性和特征冗余度,在性能上普遍優(yōu)于基于排序的特征選擇方法,但其還存在一定的不足。首先,MRMR方法僅使用互信息來(lái)度量特征間的相關(guān)性,這就降低了該方法的適用范圍。眾所周知,評(píng)價(jià)特征重要程度的指標(biāo)有很多,如基尼系數(shù)、Fisher得分、信息增益等等。所以,本文在評(píng)價(jià)特征重要性時(shí)提出了使用多種評(píng)價(jià)指標(biāo)對(duì)特征重要性進(jìn)行評(píng)價(jià)的方法,針對(duì)不同的數(shù)據(jù)選用不同的評(píng)價(jià)指標(biāo),使算法更具有魯棒性,適用范圍更廣。同時(shí)在冗余度評(píng)價(jià)上,設(shè)計(jì)了簡(jiǎn)單直觀的冗余度評(píng)價(jià)函數(shù)。MRMR方法以實(shí)現(xiàn)特征的最大相關(guān)最小冗余為前提,這就意味著無(wú)法避免某些情況下選出的特征維數(shù)過(guò)低。針對(duì)MRMR方法的以上問(wèn)題,本文提出了MMRMR方法,該算法能夠具有更廣泛的適用性和更高的預(yù)測(cè)準(zhǔn)確性。算法流程如圖1所示。
圖1 MMRMR算法流程圖
針對(duì)數(shù)字圖像提出一個(gè)新的冗余度評(píng)價(jià)函數(shù)。其核心思想是:對(duì)于兩個(gè)特征,如果其特征值越相近,則這兩個(gè)特征越相對(duì)冗余。針對(duì)數(shù)字圖像數(shù)據(jù),如果圖像兩個(gè)不同位置的像素值所構(gòu)成的兩組向量值域越相近,就說(shuō)明這兩個(gè)位置越相對(duì)冗余。再進(jìn)一步考慮到數(shù)字圖像往往存在噪聲、模糊等降質(zhì)情況的存在。這里根據(jù)高斯分布 3σ法則(有68.3%的取值存在于 (μ-σ,μ+σ]區(qū)間),利用特征的均值和方差來(lái)重建值域,克服噪聲等降質(zhì)情況的影響。數(shù)學(xué)描述如公式(5)所示:
其中,V是一個(gè)256維的向量,且V∈{0,1}。
對(duì)于特征 f,設(shè)其均值為 fˉ,方差為 fv,則V(max(0,fˉ-fv),min(255,fˉ+fv))=1 ,即256 維V僅在[max(0,fˉ-fσ),min(255,fˉ+fσ)]值域范圍內(nèi)為 1,其余為0。該方法即能準(zhǔn)確計(jì)算不同特征間的冗余性,又能避免噪聲的影響。
對(duì)于特征重要性的判斷有許多經(jīng)典算法,并且這些算法被廣泛地應(yīng)用到了各個(gè)領(lǐng)域。但是目前還沒(méi)有給出某種方法更適用于哪種數(shù)據(jù)的推薦。因此,為了更充分地挖掘數(shù)據(jù)本質(zhì),擴(kuò)大方法的使用范圍,本文采用多種評(píng)價(jià)指標(biāo)計(jì)算特征的重要性。
本文將要進(jìn)行對(duì)比的評(píng)價(jià)函數(shù)分別是:基于T檢驗(yàn)(T-test)的評(píng)價(jià)方法[8]、基于 χ2算法(Chi2 algorithm,ChiSquare)的特征選擇方法[13]、基于Relief算法的特征得分方法[14]、Fisher得分方法[9]、基于信息增益(Information Gain,InforGain)的方法[10]、基于基尼系數(shù)(Gini index,Gini)的方法[15]和 Kruskal-Wallis方法[16]。其中,T-test是利用t分布理論來(lái)比較兩個(gè)特征的差異是否顯著的統(tǒng)計(jì)方法;ChiSquare算法利用χ2統(tǒng)計(jì)來(lái)計(jì)算特征與類(lèi)標(biāo)簽的相關(guān)性,實(shí)現(xiàn)特征重要性打分;Relief算法通過(guò)計(jì)算類(lèi)內(nèi)和類(lèi)間樣本距離來(lái)對(duì)特征打分;Fisher得分方法是尋找一組具有最好判別能力的特征子集的有監(jiān)督方法;InforGain通過(guò)計(jì)算使用特征前后信息熵的改變來(lái)進(jìn)行特征打分;Gini得分是一種基于統(tǒng)計(jì)測(cè)量和不純分割的方法,Gini系數(shù)值越小說(shuō)明這個(gè)特征越好;Kruskal-Wallis得分通過(guò)計(jì)算不同特征的分布是否存在差異進(jìn)行特征打分。鑒于每種方法都有著自身的特點(diǎn),因此本文在特征相關(guān)性評(píng)價(jià)上,針對(duì)不同數(shù)據(jù)集采用了不同的評(píng)價(jià)方法。
MMRMR算法的目標(biāo)是在所有特征中選出k個(gè)具有最大權(quán)重且冗余度最小的特征組合。評(píng)價(jià)函數(shù)定義如公式(6)所示:
使用五個(gè)經(jīng)典的用于生物認(rèn)證的數(shù)據(jù)庫(kù)來(lái)驗(yàn)證MMRMR算法的有效性。在實(shí)驗(yàn)中,對(duì)于相關(guān)性評(píng)價(jià)采用了七種不同的特征權(quán)重計(jì)算方法,產(chǎn)生了七種不同的MMRMR方法,表1中列出了由此產(chǎn)生的七種方法。為了說(shuō)明方法的有效性,本文提出的MMRMR方法同這七種經(jīng)典的過(guò)濾式方法以及原始的MRMR方法在特征選擇維度最高不超過(guò)200維的前提下進(jìn)行對(duì)比實(shí)驗(yàn)。眾所周知,每種特征選擇方法采用的評(píng)價(jià)標(biāo)準(zhǔn)都不盡相同,所以針對(duì)不同的數(shù)據(jù)類(lèi)型一些特征選擇方法會(huì)有著其獨(dú)特的優(yōu)勢(shì)。因此,本文在MMRMR框架下特征權(quán)重計(jì)算方法的選擇上,參考了經(jīng)典方法在不同數(shù)據(jù)庫(kù)的識(shí)別效果,針對(duì)每一個(gè)數(shù)據(jù)庫(kù)選擇識(shí)別率相對(duì)較高的評(píng)價(jià)函數(shù)作為MMRMR框架下的特征權(quán)重計(jì)算方法。
表1 MMRMR框架生成的各種方法
為了體現(xiàn)特征選擇的作用,本文選用基于歐氏距離的K-nn分類(lèi)器進(jìn)行預(yù)測(cè)判斷。本文將以預(yù)測(cè)準(zhǔn)確率(Predictive Accuracy,PR)作為評(píng)估標(biāo)準(zhǔn),其定義如公式(7)所示:
其中,Num表示測(cè)試樣本總數(shù),RP表示被正確判斷的樣本數(shù)量。為了使實(shí)驗(yàn)結(jié)果符合統(tǒng)計(jì)規(guī)律,在實(shí)驗(yàn)過(guò)程中進(jìn)行10次隨機(jī)采樣,將每類(lèi)樣本的一半作為訓(xùn)練樣本,剩余樣本作為測(cè)試樣本,隨機(jī)采樣次數(shù)滿(mǎn)足99%的數(shù)據(jù)均參與過(guò)訓(xùn)練和測(cè)試,計(jì)算獲得的平均PR作為最終結(jié)果。
FERET數(shù)據(jù)庫(kù)[17]包含1428個(gè)用戶(hù)(60%男性,40%女性)的14051張多姿態(tài)人臉灰度圖像。從數(shù)據(jù)庫(kù)中隨機(jī)選出72(人)×6(張)圖像作為實(shí)驗(yàn)數(shù)據(jù),并將圖像大小調(diào)整為32×32。圖2列出了部分實(shí)驗(yàn)用圖像。
圖2 FERET數(shù)據(jù)庫(kù)中部分人臉圖像
由表2可以看出,原始的Fisher得分方法和Relief方法在該數(shù)據(jù)庫(kù)上識(shí)別率相對(duì)較高,因此本文采用了Fisher得分方法和Relief方法作為MRMR框架下的特征權(quán)重計(jì)算方法。MMRMR(F)在維數(shù)僅為200維的前提下就具有最高的準(zhǔn)確率78.06%,其次MMRMR(R)也具有較高的預(yù)測(cè)準(zhǔn)確率。
表2 FERET數(shù)據(jù)庫(kù)上各種方法的平均預(yù)測(cè)準(zhǔn)確率
為了對(duì)實(shí)驗(yàn)結(jié)果有更直觀的認(rèn)識(shí),將MMRMR框架下的Fisher和Relief方法與傳統(tǒng)Fisher和Relief方法的預(yù)測(cè)準(zhǔn)確率隨維度變化的情況在圖3中顯示出來(lái)。由圖3中可以看出本文提出的MMRMR(F)方法在維數(shù)僅為140維時(shí),其準(zhǔn)確率就明顯超過(guò)其他方法,接近采用全體特征的預(yù)測(cè)準(zhǔn)確率。這也充分說(shuō)明了該算法能夠在充分去掉冗余信息的同時(shí)具有更高的預(yù)測(cè)準(zhǔn)確率。MMRMR(R)結(jié)果次之,但是在較低維度時(shí),它的準(zhǔn)確率上升最快,如果再配合更精細(xì)的分類(lèi)器模型,它會(huì)具有在較低運(yùn)算復(fù)雜度的情況下就能產(chǎn)生較高的識(shí)別率的特性。
圖3 部分方法的結(jié)果對(duì)比圖
ORL人臉數(shù)據(jù)庫(kù)[18]包含400張圖片(40(人)×10(張)),包括了面部表情和姿態(tài)的輕微變化。將數(shù)據(jù)庫(kù)中圖像大小調(diào)整為44×36,圖4列出了該數(shù)據(jù)庫(kù)的部分人臉圖像。
圖4 ORL數(shù)據(jù)庫(kù)中部分人臉圖像
由表3可以看出,基于InforGain、ChiSquare和Fisher為評(píng)價(jià)方法的MMRMR(I)、MMRMR(Chi)和MMRMR(F)在維數(shù)為200、180和200時(shí)就具有較高的預(yù)測(cè)準(zhǔn)確率,幾乎都高于傳統(tǒng)的InforGain、ChiSquare和Fisher方法。并且,MMRMR(I)的預(yù)測(cè)準(zhǔn)確率已經(jīng)超過(guò)了90%。在該數(shù)據(jù)庫(kù)上獲得最高預(yù)測(cè)準(zhǔn)確率的方法與FERET數(shù)據(jù)庫(kù)上具有最高準(zhǔn)確率的方法不同,這也說(shuō)明不同的特征選擇方法適用范圍各不相同。
表3 ORL數(shù)據(jù)庫(kù)上各種方法的平均預(yù)測(cè)準(zhǔn)確率
圖5 部分方法的結(jié)果對(duì)比圖
圖6 部分方法的特征選擇結(jié)果(200維)對(duì)比圖
圖5中顯示了本文方法與傳統(tǒng)方法的預(yù)測(cè)準(zhǔn)確率隨選擇特征維度變化的情況。由圖中可以看出本文提出的MMRMR(I)方法明顯優(yōu)于其他方法,在160維時(shí)就接近90%。所有方法的準(zhǔn)確率都沒(méi)有在較低維的時(shí)候超過(guò)使用全體特征的準(zhǔn)確率。原因在于:(1)本文將特征選擇的維度上限設(shè)為200維,如果將上限進(jìn)一步升高,選出更多的特征就可以進(jìn)一步升高準(zhǔn)確率;(2)在經(jīng)過(guò)調(diào)整大小的預(yù)處理后,冗余信息被減少;(3)數(shù)據(jù)庫(kù)過(guò)于簡(jiǎn)單,未能充分體現(xiàn)特征選擇的優(yōu)勢(shì)。
圖6給出了部分方法在200維時(shí)的特征選擇對(duì)比結(jié)果圖。由圖6中可以看出,原始的特征選擇方法除了T-test方法,其他方法基本上都認(rèn)為識(shí)別的重要特征是頭發(fā),這明顯與常識(shí)不服。本文方法選出的特征更多集中在面部區(qū)域,更能代表圖像的特征,并且和實(shí)際情況相吻合。
CMU PIE數(shù)據(jù)庫(kù)[19]包含了68個(gè)人的41368張不同姿態(tài)、光照和表情的人臉圖片。實(shí)驗(yàn)中對(duì)每一個(gè)人選取同一姿態(tài)、同一表情和不同光照的21張圖像,并在實(shí)驗(yàn)前根據(jù)眼睛位置將裁剪出的臉部區(qū)域調(diào)整大小為32×32的大小,部分圖像如圖7所示。
圖7 CMU PIE數(shù)據(jù)庫(kù)中部分人臉圖片
由表4可以看出,由于該數(shù)據(jù)庫(kù)的原因,所有方法的預(yù)測(cè)準(zhǔn)確率都很高,甚至達(dá)到100%。但本文方法的預(yù)測(cè)準(zhǔn)確率仍然高于原始方法,并且展現(xiàn)了在低維數(shù)時(shí)就具有較高識(shí)別率的特性,同時(shí),多個(gè)方法都能在低維度時(shí)達(dá)到100%的準(zhǔn)確率。對(duì)于傳統(tǒng)MRMR算法和文獻(xiàn)[12]中的方法在多個(gè)數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果都不是很理想,這也表明這兩種方法的特征評(píng)價(jià)標(biāo)準(zhǔn)不適用于生物特征數(shù)據(jù)庫(kù)。
表4 PIE數(shù)據(jù)庫(kù)上各種方法的平均預(yù)測(cè)準(zhǔn)確率
由圖8中可以看出,雖然這幾種方法最后都能達(dá)到100%的準(zhǔn)確率,但是本文提出的幾種方法在20維時(shí)就具有較高的準(zhǔn)確率,在40維的時(shí)候就接近了100%。
圖8 部分方法的結(jié)果對(duì)比圖
圖9給出了這幾種方法在60維時(shí)的特征選擇結(jié)果。雖然在準(zhǔn)確率上這幾種方法都很接近,但是從選擇的圖像區(qū)域可以發(fā)現(xiàn)本文提出的幾種方法更優(yōu)秀。其他方法僅選出了輪廓和少量的眼睛,而本文方法選出了五官區(qū)域的重要特征。
圖9 部分方法的特征選擇結(jié)果(60維)對(duì)比圖
擴(kuò)展的YaleB數(shù)據(jù)庫(kù)[20]包含38個(gè)人,每個(gè)人大約64張圖片,包括了面部表情和光照條件的變化。圖片在使用前調(diào)整為32×32像素的大小。圖10中顯示了擴(kuò)展的YaleB數(shù)據(jù)庫(kù)中的部分圖片。
圖10 擴(kuò)展的YaleB數(shù)據(jù)庫(kù)中部分人臉圖片
表5列出了不同方法的預(yù)測(cè)準(zhǔn)確率,可以看到本文提出的MMRMR(Chi)方法在維數(shù)僅為80維的時(shí)候就具有最高的預(yù)測(cè)準(zhǔn)確率。
表5 擴(kuò)展的YaleB數(shù)據(jù)庫(kù)上各種方法的平均預(yù)測(cè)準(zhǔn)確率
圖11是識(shí)別率較高的四種方法的預(yù)測(cè)準(zhǔn)確率隨維度變化曲線(xiàn)圖,如圖所示,本文提出的MMRMR(Chi)方法隨著維度的增大準(zhǔn)確率迅速達(dá)到最大值。其他幾種方法在60維后預(yù)測(cè)準(zhǔn)確率基本無(wú)法進(jìn)一步提高。
圖11 部分方法的結(jié)果對(duì)比圖
在圖11中看出其他方法在200維時(shí)達(dá)到的預(yù)測(cè)準(zhǔn)確率本文的方法在80維時(shí)就已經(jīng)達(dá)到。在80維之后,隨著維數(shù)的增加預(yù)測(cè)準(zhǔn)確率有了明顯下降,這說(shuō)明在80維時(shí)選出的特征組合最好,當(dāng)維數(shù)進(jìn)一步增加就無(wú)法避免選出了冗余特征,造成準(zhǔn)確率的降低。雖然隨著后續(xù)特征的增加,準(zhǔn)確率有了一定的回升,但是冗余特征的存在使得準(zhǔn)確率無(wú)法回到最優(yōu)時(shí)候的高度。部分方法的特征選擇結(jié)果對(duì)比圖如圖12所示。
圖12 部分方法的特征選擇結(jié)果對(duì)比圖
中國(guó)科學(xué)院自動(dòng)化研究所的CASIA虹膜圖像數(shù)據(jù)庫(kù)[21]包括756張來(lái)自108只不同眼睛的圖片,每只眼睛有7幅灰度圖像,圖13顯示了CASIA數(shù)據(jù)庫(kù)中部分虹膜圖像。本文采用文獻(xiàn)[22]中的方法對(duì)虹膜進(jìn)行預(yù)處理。
圖13 CASIA數(shù)據(jù)庫(kù)中部分虹膜圖片
表6的結(jié)果指出,無(wú)論是哪種特征選擇方法在200維的情況下都沒(méi)有超過(guò)不進(jìn)行特征選擇的準(zhǔn)確率。造成這一情況的原因主要是因?yàn)樵趯?shí)驗(yàn)之前進(jìn)行了一系列的預(yù)處理操作。這些操作已經(jīng)將原始圖像中大量的冗余信息和噪聲去除。即使這樣本文提出的MMRMR(I)方法仍然高于原有方法。
表6 CASIA數(shù)據(jù)庫(kù)上各種方法取得的最高平均預(yù)測(cè)準(zhǔn)確率
圖14是ChiSquare、Relief、InforGain、Fisher和MMRMR(I)幾種方法準(zhǔn)確率隨維度變化的曲線(xiàn)圖。從圖中可以看出 MMRMR(I)方法的預(yù)測(cè)準(zhǔn)確率在所有維度下都優(yōu)于其他方法。
圖14 部分方法的結(jié)果對(duì)比圖
雖然MRMR方法的理念非常先進(jìn),但在實(shí)際應(yīng)用中卻有很多明顯的不足,因此本文在現(xiàn)有特征選擇方法的基礎(chǔ)上,針對(duì)MRMR方法進(jìn)行了改進(jìn),提出了MMRMR算法,避免了傳統(tǒng)MRMR算法僅使用互信息判斷特征的相關(guān)性和冗余度的問(wèn)題,另外還解決了傳統(tǒng)算法中不能根據(jù)用戶(hù)需求設(shè)置特征選擇數(shù)量的問(wèn)題。通過(guò)在多個(gè)數(shù)據(jù)庫(kù)上實(shí)驗(yàn),驗(yàn)證了算法的有效性。同時(shí),本文的方法可以適用于不同的數(shù)據(jù)庫(kù),能夠根據(jù)不同數(shù)據(jù)庫(kù)的特點(diǎn)具體問(wèn)題具體分析。本文采用經(jīng)典的過(guò)濾式特征選擇方法進(jìn)行權(quán)重計(jì)算,在后續(xù)研究中會(huì)針對(duì)具體問(wèn)題選擇特定的重要性評(píng)價(jià)算法和冗余度計(jì)算方法或提出新的算法來(lái)提高預(yù)測(cè)的精準(zhǔn)度。
[1]Jain A K,Duin R P W,Mao J.Statistical pattern recognition:a review[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(1):4-37.
[2]Blum A,Langley P.Selection of relevant features and examples in machine learning[J].Artif Intell,1997,97:245-271.
[3]Dash M,Liu H.Feature selection for classifications[J].Intelligent Data Analysis:An Inter J,1997,1:131-156.
[4]Saeys Y,Inza I,Larra?aga P.A review of feature selection techniques in bioinformatics[J].Bioinformatics,2007,23(19):2507-2517.
[5]Zhang D,Chen S,Zhou Z H.Constraint score:a new filter method for feature selection with pairwise constraints[J].Pattern Recognition,2008,41(5):1440-1451.
[6]Naikal N,Yang A Y,Sastry S S.Informative feature selection for object recognition via sparse PCA[C]//2011 IEEE International Conference on Computer Vision(ICCV),2011:818-825.
[7]Zhang N,Ruan S,Lebonvallet S,et al.Kernel feature selection to fuse multi-spectral MRI images for brain tumor segmentation[J].Computer Vision and Image Understanding,2011,115(2):256-269.
[8]Press W H,Teukolsky S A,Vetterling W T,et al.Numerical recipes in C:the art of scientific computing[M].2nd ed.New York:Cambridge University Press,1992.
[9]Bishop C M.Neural networks for pattern recognition[M].Oxford:Oxford University Press,1995.
[10]Cover T M,ThomasJ A.Elementsofinformation theory[M].[S.l.]:Wiley,1991.
[11]Peng H,Long F,Ding C.Feature selection based on mutual information:criteria of max-dependency,max-relevance,and min-redundancy[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(8):1226-1238.
[12]曹靜.基于最大相關(guān)最小冗余的特征選擇算法研究[D].秦皇島:燕山大學(xué),2010.
[13]Liu H,Setiono R.Chi2:feature selection and discretization of numeric attributes[C]//Proc 7th Int Conf Tools with Artif Intell,1995:388-391.
[14]Kira K,Rendell L A.A practical approach to feature selection[C]//Proc 9th Int Workshop on Machine Learning,1992.
[15]Breiman L,F(xiàn)riedman J,Olshen R,et al.Classification and regression trees[M].Montery,CA:Wadsworth Int Group,1984.
[16]Wei L J.Asymptotic conservativeness and efficiency of kruskal-wallis test for k dependent samples[J].Journal of the American Statistical Association,1981,76(376):1006-1009.
[17]Phillips P J.The FERET evaluation methodology for face recognition algorithms[J].IEEE Trans on PAMI,2000,22(10):1090-1104.
[18]Samaria F S,Harter A C.Parameterisation of a stochastic model for human face identification[C]//Proceedings of the Second IEEE Workshop on Applications of Computer Vision,1994:138-142.
[19]Sim T,Baker S,Bsat M.The CMU pose,illumination,and expression database[J].IEEE Trans on PAMI,2003,25:1615-1618.
[20]Lee K C,Ho J,Kriegman D J.Acquiring linear subspaces for face recognition under variable lighting[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(5):684-698.
[21]CASIA-IrisV1[EB/OL].[2013-09-28].http://www.cbsr.ia.ac.cn/IrisDatabase.htm.
[22]Qi M,Lu Y,Li J,et al.User-specific iris authentication based on feature selection[C]//2008 International Conference on Computer Science and Software Engineering,2008:1040-1043.