亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征相關(guān)的譜特征選擇算法

        2017-12-22 09:07:55胡敏杰林耀進(jìn)楊紅和鄭荔平傅為
        智能系統(tǒng)學(xué)報(bào) 2017年4期
        關(guān)鍵詞:特征選擇子集分類器

        胡敏杰,林耀進(jìn),楊紅和,鄭荔平,傅為

        (閩南師范大學(xué) 計(jì)算機(jī)學(xué)院,福建 漳州 363000)

        基于特征相關(guān)的譜特征選擇算法

        胡敏杰,林耀進(jìn),楊紅和,鄭荔平,傅為

        (閩南師范大學(xué) 計(jì)算機(jī)學(xué)院,福建 漳州 363000)

        針對(duì)傳統(tǒng)的譜特征選擇算法只考慮單特征的重要性,將特征之間的統(tǒng)計(jì)相關(guān)性引入到傳統(tǒng)譜分析中,構(gòu)造了基于特征相關(guān)的譜特征選擇模型。首先利用Laplacian Score找出最核心的一個(gè)特征作為已選特征,然后設(shè)計(jì)了新的特征組區(qū)分能力目標(biāo)函數(shù),采用前向貪心搜索策略依次評(píng)價(jià)候選特征,并選中使目標(biāo)函數(shù)最小的候選特征加入到已選特征。該算法不僅考慮了特征重要性,而且充分考慮了特征之間的關(guān)聯(lián)性,最后在2個(gè)不同分類器和8個(gè)UCI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:該算法不僅提高了特征子集的分類性能,而且獲得較高的分類精度下所需特征子集的數(shù)量較少。

        特征選擇;譜特征選擇;譜圖理論;特征關(guān)聯(lián);區(qū)分能力;索搜策略;拉普拉斯;分類精度

        特征選擇是指在原始特征空間中選擇能讓給定任務(wù)的評(píng)價(jià)準(zhǔn)則達(dá)到最優(yōu)的特征子集的過(guò)程,是模式識(shí)別、機(jī)器學(xué)習(xí)等領(lǐng)域中數(shù)據(jù)預(yù)處理的關(guān)鍵步驟之一[1-3]。其主要目標(biāo)是在不顯著降低分類精度和不顯著改變類分布情況下選擇一個(gè)重要特征子集并且移除不相關(guān)或不重要的特征,使留下的特征具有更強(qiáng)的分辨率[4]。其中評(píng)價(jià)準(zhǔn)則是特征選擇算法中的關(guān)鍵步驟,國(guó)內(nèi)外研究者已設(shè)計(jì)了多種評(píng)價(jià)準(zhǔn)則,包括距離度量[5]、信息度量[6]和譜圖理論[7-8]等方法。由于基于譜圖理論的特征選擇模型的可理解性及其完備的數(shù)學(xué)理論,受到了廣泛的關(guān)注[8-9]。

        根據(jù)數(shù)據(jù)是否帶有標(biāo)記,基于譜圖理論的特征選擇可分為有監(jiān)督特征選擇和無(wú)監(jiān)督特征選擇[8-12]。無(wú)監(jiān)督特征選擇算法在構(gòu)造相似性矩陣時(shí)不考慮類信息,通常對(duì)給出的樣本值采用核函數(shù)構(gòu)造相似性矩陣。有監(jiān)督特征選擇算法將類信息引入相似性矩陣中,常根據(jù)類別個(gè)數(shù)來(lái)構(gòu)造對(duì)應(yīng)的相似性矩陣。利用譜圖理論進(jìn)行特征選擇的主要思想是對(duì)鄰接圖Laplacian矩陣進(jìn)行譜分解,其特征向量反映了樣本的類屬關(guān)系[11]。基于該思想,Zhao等[8]設(shè)計(jì)了一個(gè)譜特征選擇框架,框架根據(jù)相似性矩陣是否考慮類標(biāo)記信息分別應(yīng)用于有監(jiān)督和無(wú)監(jiān)督算法,而選擇特征子集過(guò)程與具體學(xué)習(xí)器無(wú)關(guān),利用特征對(duì)樣本分布的影響對(duì)特征進(jìn)行排序。He等[10]結(jié)合譜圖理論和特征的局部保持能力提出了基于Laplacian 得分的特征選擇算法。Zhao[8]和He[10]等基于譜圖理論的特征選擇均僅考慮每個(gè)單獨(dú)的特征按一定的可分性或統(tǒng)計(jì)判據(jù)進(jìn)行排隊(duì)以形成特征序列,并取靠前的特征子集進(jìn)行學(xué)習(xí)。該策略僅在各個(gè)特征間統(tǒng)計(jì)獨(dú)立且類別正態(tài)分布時(shí)較優(yōu),但特征間具有這種關(guān)系僅僅是極少數(shù)[13],實(shí)際上特征空間中特征之間存在較為緊密的關(guān)聯(lián)性。

        針對(duì)已有的基于譜圖理論有監(jiān)督特征選擇算法存在的上述問(wèn)題,我們提出融合特征相關(guān)的譜特征選擇算法,在原始的整個(gè)特征空間中不僅考慮每一個(gè)特征的區(qū)分力,還考慮特征組的區(qū)分性能,迭代地尋找對(duì)保持?jǐn)?shù)據(jù)的局部結(jié)構(gòu)比上一組特征更強(qiáng)的特征組合。由此,提出了基于特征相關(guān)的譜特征選擇算法(spectral feature selection based on feature correlation,SPFC)。實(shí)驗(yàn)結(jié)果表明,該算法不僅提高了特征選擇的分類性能,而且獲得了較高的分類精度下所需特征子集的數(shù)量較少。

        1 譜特征選擇算法

        譜特征選擇算法的主要理論是譜圖理論,本文研究的算法是以Laplacian Score特征選擇算法為基礎(chǔ),因此本節(jié)只介紹圖Laplacian矩陣譜分析。

        式中nk為類別為k的樣本個(gè)數(shù)。

        令G為一無(wú)向有權(quán)圖,則鄰接矩陣Wij=Sij(1≤i,j≤m),且W為對(duì)稱矩陣。令度矩陣D為

        由式(1)可以看出度矩陣D是一個(gè)對(duì)角矩陣,對(duì)角線上的每個(gè)元素是鄰接矩陣W每一行或每一列的和。度矩陣可以解釋為每個(gè)樣本周圍圍繞的其他樣本的密集度,度矩陣中的元素越大,意味著有更多的樣本靠近這個(gè)元素代表的樣本。

        由鄰接矩陣和度矩陣得到相應(yīng)的Laplacian矩陣L和正則化的Laplacian矩陣L

        根據(jù)Laplacian矩陣的性質(zhì)[5],給出下面定義:

        定義1 Laplacian矩陣的最小特征值為0,對(duì)應(yīng)特征向量為單位向量

        letI=[1 1 … 1]T,L*I=0

        定義2 對(duì)于任意一個(gè)n維向量x(數(shù)據(jù)集中的特征列),都滿足下式成立:

        定義3 對(duì)于任意一個(gè)n維向量x(數(shù)據(jù)集中的特征列),任意一個(gè)實(shí)數(shù),都有(特征列中的每個(gè)元素減去一個(gè)相同的值得到的新特征列仍然保持結(jié)果不變):

        ?x∈Rn,?t∈R,x-t*eTL(x-t*e)=xTLx

        譜圖理論說(shuō)明,Laplacian 矩陣的特征值與特征向量包含著數(shù)據(jù)集的樣本分布結(jié)構(gòu)。譜特征選擇在選取有強(qiáng)識(shí)別度的特征時(shí),以特征取值的分布是否與樣本分布的結(jié)構(gòu)保持一致作為特征選擇的評(píng)價(jià)標(biāo)準(zhǔn)。例如在圖1中,每個(gè)圖形(三角和星)表示一個(gè)樣本,形狀不同意味樣本在同一特征上的取值不同,各圓形分別為類1和類2的區(qū)域,即同一區(qū)域內(nèi)的樣本屬于同一類別。在圖1左側(cè)中屬于同一類的樣本在特征F1上取值近似相同,而不屬于同一類的樣本在特征F1上取值不同,因此特征F1對(duì)類1和類2就有很好的識(shí)別能力,此時(shí)稱特征F1的取值分布與樣本分布一致。在圖1右側(cè)中特征F2的取值分布則與樣本分布不一致,F(xiàn)2對(duì)類1和類2不具有很好的識(shí)別能力。因此在譜特征選擇算法中會(huì)選取F1而不選F2。

        圖1 特征與樣本分布一致性示意圖Fig.1 The characteristics and the sample distribution consistency schematic diagram

        而譜特征選擇算法將選擇那些與樣本分布結(jié)構(gòu)一致的特征,即選擇那些使得式(2)取較小值的特征[7]:

        式中:Fr表示第r個(gè)特征,fr是第r個(gè)特征向量,fri和frj表示第r個(gè)特征上的i,j1≤i,j≤m個(gè)樣本的取值,Vfr表示第r個(gè)特征fr的方差。

        一個(gè)隨機(jī)變量x的方差定義為[7]:

        式中:M是數(shù)據(jù)的流行結(jié)構(gòu),u表示x期望值,dP是一個(gè)概率度量。根據(jù)譜圖理論[7],dP可以用對(duì)角矩陣D估計(jì)出來(lái),因此特征fr的方差V(fr)為

        Vfr=∑i(fri-ur)2Dii

        式中ur表示第r個(gè)特征fr的期望值,定義為

        ∑i,jSij(fri-frj)2越小表示在樣本分布結(jié)構(gòu)圖里近鄰的樣本在該特征上差異很小,即一個(gè)識(shí)別能力強(qiáng)的特征會(huì)使得Sij大而(fri-frj)小,因而式(2)趨小。∑i(fri-ur)2Dii越大表示該特征在各樣本上的取值方差越大,一個(gè)區(qū)分能力強(qiáng)的特征應(yīng)該會(huì)賦予同類樣本近似的值而不同類樣本差異大的值,即具有較大方差的特征具有較強(qiáng)的識(shí)別能力。因此式(2)通過(guò)譜圖理論結(jié)合特征的局部信息保持能力和方差來(lái)進(jìn)行特征選擇。

        2 基于特征相關(guān)的譜特征選擇模型

        傳統(tǒng)的譜特征選擇算法采用單獨(dú)最優(yōu)特征組合的啟發(fā)式搜索策略,用式(2)對(duì)每個(gè)特征單獨(dú)度量其重要度,該策略并未考慮特征間的冗余度和交互性,因此需要考慮候選特征與已選特征之間的冗余性和交互性。本文在式(2)的基礎(chǔ)上定義了特征組的重要度公式如式(3)。為了度量每個(gè)候選特征對(duì)已選特征的貢獻(xiàn)程度,同時(shí)定義了式(4)來(lái)計(jì)算候選特征的重要度。模型思想是:首先利用傳統(tǒng)譜特征選擇算法選出使目標(biāo)函數(shù)式(2)最好的一個(gè)特征,然后以這個(gè)特征為核心據(jù)點(diǎn)作為已選特征,依次逐個(gè)評(píng)價(jià)候選特征與已選特征的相關(guān)性,即依次根據(jù)目標(biāo)函數(shù)(式(3))評(píng)價(jià)特征組合后的圖的保持能力,然后根據(jù)式(4)選出保持能力優(yōu)于未組合時(shí)的最強(qiáng)一個(gè)特征,并將該特征加入到已選特征中形成新的組合,接著對(duì)余下候選特征進(jìn)行下一輪的迭代。該算法不僅考慮了特征間的相關(guān)效應(yīng),而且通過(guò)式(4)避免了特征間的冗余。

        定義特征組相關(guān)的目標(biāo)函數(shù)為

        在式(3)的基礎(chǔ)上通過(guò)式(4)評(píng)估候選特征中能提升已有特征子集的區(qū)分能力的特征,其目標(biāo)函數(shù)定義為

        式中:FU表示候選特征集合,fi∈FU,通過(guò)評(píng)估一個(gè)新的特征fi能否使得同類樣本距離小而不同類樣本距離大來(lái)衡量是否加入已選Fs。又在候選特征集合里可能有多個(gè)fi能提升已選子集的能力,由式(3)知新加入的fi使得φFS越小越好,因此在多個(gè)具有提升子集能力的候選特征中選擇使φFS∪f(wàn)i-φFS最小的一個(gè)特征。

        根據(jù)式(4),可提出基于特征相關(guān)的譜特征選擇算法(SPFC)的偽代碼如算法1所示。

        算法1 基于特征相關(guān)的譜特征選擇算法(SPFC)

        輸入樣本集X,類標(biāo)記Y;

        輸出FS特征相關(guān)后的特征序列。

        1)FS=?,F(xiàn)U=F1F2…Fn;

        2)依據(jù)X、Y計(jì)算每?jī)蓚€(gè)樣本間的相似度矩陣Sij(1≤i,j≤m);

        3)依據(jù)相似度構(gòu)建Laplacian圖G,并計(jì)算W、D、L;

        4)根據(jù)傳統(tǒng)譜特征選擇算法求出最具有識(shí)別力的一個(gè)特征fi

        FS=FS∪f(wàn)i,F(xiàn)U=FU-{fi};

        5)whileFU不為空

        6)根據(jù)式(3)計(jì)算φFS;

        7) fori=1 to length(FU)

        ifφFS∪f(wàn)i-φFS>0 then

        L(j)=φFS∪f(wàn)i-φFS;

        j=j+1;

        end if

        8)end for

        9)將L按升序排序

        FS=FS∪f(wàn)L(1),F(xiàn)U=FU-{fL(1)};

        10)end while

        3 實(shí)驗(yàn)設(shè)計(jì)與對(duì)比

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        為了進(jìn)一步驗(yàn)證SPFC算法的有效性,本文從UCI (http://www.ics.uci.edu)中選擇8個(gè)數(shù)據(jù)集,各數(shù)據(jù)集相應(yīng)的描述信息見表1,在表1~3中australian_credit數(shù)據(jù)集簡(jiǎn)寫為AC,VeteranLungCancer數(shù)據(jù)集簡(jiǎn)寫為VE。

        表1 實(shí)驗(yàn)數(shù)據(jù)描述

        3.2 實(shí)驗(yàn)結(jié)果與分析

        為了驗(yàn)證SPFC算法的性能,實(shí)驗(yàn)分為兩部分。第1組實(shí)驗(yàn)與CFS[14]、ChiSquare[15]、FCBF[16]、Laplacian[10]、NRS[17]以及Relief[18]算法進(jìn)行比較由特征子集誘導(dǎo)出來(lái)的分類精度。另一組實(shí)驗(yàn)采用Friedman test[19]和Bonferroni-Dunn test[20]在統(tǒng)計(jì)上對(duì)比SPFC與其他算法在8個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。由于ChiSquare、Laplacian、FCFS、Relief這4種算法得到的是一個(gè)特征序列,而CFS、FCBF、NRS 3種算法得到的是子集約簡(jiǎn),因此,ChiSquare、Fisher、FCFS、Relief這4種算法得到的特征序列取前k個(gè)特征作特征子集,其中k為 CFS、FCBF、NRS算法中得到的3個(gè)約簡(jiǎn)子集數(shù)量的最小值。此外,NRS算法中的鄰域參數(shù)值δ為0.10。在實(shí)驗(yàn)中,采用十折交叉驗(yàn)證法進(jìn)行評(píng)價(jià)特征子集的優(yōu)劣,用KNN(K=10)、CART 2個(gè)不同的基分類器來(lái)評(píng)價(jià)分類精度。

        實(shí)驗(yàn)1 為了比較特征選擇后的分類精度,在表2~4中,分別采用KNN(K=10)、CART 這2個(gè)不同的基分類器進(jìn)行特征子集分類精度的評(píng)價(jià)。此外,為了更加直觀地比較不同方法得到的特征子集的性能,表2、3中加粗的數(shù)值表示最高分類進(jìn)度,下劃線表示精度次優(yōu),最后一行表示不同算法得到的特征子集的平均分類精度,最后一行中加下劃線的數(shù)值表示平均分類精度最高的值。另外,括號(hào)里面的數(shù)值表示數(shù)據(jù)的標(biāo)準(zhǔn)差,括號(hào)外面的數(shù)值表示分類精度。

        表2 不同特征選擇算法在KNN分類器下的分類精度比較

        表 3 不同特征選擇算法在CART分類器下的分類精度比較

        結(jié)合表2、3的實(shí)驗(yàn)結(jié)果可知:

        1)從總體上看,SPFC算法相比CFS、ChiSquare、FCBF、Laplacian、NRS以及Relief算法在KNN、CART基分類器下表現(xiàn)穩(wěn)定,且均獲得最高平均分類精度。相比考慮類信息的傳統(tǒng)譜特征選擇算法Laplacian, SPFC算法優(yōu)于Laplacian。

        2)相比ChiSquare、Laplacian、Relief這3種同樣獲得特征系列的算法,SPFC算法以相同的前k個(gè)特征在不同的基分類器下獲得的平均分精度明顯較高,相比子集約簡(jiǎn)的算法CFS、FCBF、NRS,SPFC取它們子集約簡(jiǎn)數(shù)量的最小值在兩個(gè)基分類器下分類精度明顯要高于NRS,在CART基分類器下SPFC的分類精度高于CFS、FCBF達(dá)兩個(gè)百分點(diǎn)以上,而在KNN基分類器下也顯著高于CFS、FCBF。

        3)每一種算法均會(huì)在某一個(gè)分類器上某個(gè)數(shù)據(jù)集上獲得最高分類精度,但只有SPFC能在兩個(gè)基分類器上多個(gè)數(shù)據(jù)集上獲得最高分類精度。SPFC算法在數(shù)據(jù)集ICU、rice、zoo上性能提升更為明顯,在兩個(gè)分類器上均達(dá)到最高。而ICU為混合型數(shù)據(jù),rice為連續(xù)型數(shù)據(jù)、zoo為離散型數(shù)據(jù)。說(shuō)明SPFC可以處理多類型數(shù)據(jù)集,在大部分各類型數(shù)據(jù)集上SPFC均能達(dá)到較好的穩(wěn)定表現(xiàn)。

        實(shí)驗(yàn)2 為了進(jìn)一步研究比較SPFC算法與其他算法在兩個(gè)分類器下的分類性能是否明顯不同,我們采用Friedman test 和Bonferroni-Dunn在統(tǒng)計(jì)上進(jìn)行驗(yàn)證。 Friedman 統(tǒng)計(jì)值定義為

        式中:k代表對(duì)比算法個(gè)數(shù),N表示數(shù)據(jù)集個(gè)數(shù),Ri表示第i個(gè)算法在8個(gè)數(shù)據(jù)集上的排序均值(見表4)。由表4結(jié)合式(5)算出KNN分類器下FF的值為2.18,cart分類器下FF的值為3.05,又當(dāng)顯著性水平a=0.1時(shí)F(6,42)=1.87,因此在兩個(gè)分類器下都拒絕了零假設(shè)(所有算法性能相等),這時(shí)還需要結(jié)合特定的post-hoc test來(lái)進(jìn)一步分析各個(gè)算法性能的差異。本文采用顯著性水平為0.1的Bonferroni-Dunn test。在這里定義兩個(gè)算法的不同用下面的臨界差:

        在Bonferroni-Dunn test里顯著性水平為0.1且7個(gè)算法對(duì)比時(shí)qα=2.394,因此CD=2.58(k=7,N=8)。如果兩個(gè)算法在所有數(shù)據(jù)集上的平均排序的差不低于臨界差CD,則認(rèn)為它們有顯著性差異。圖2給出了在兩個(gè)分類器下SPFC算法與其他算法的比較,其中,每個(gè)子圖中最上行為臨界值,坐標(biāo)軸畫出了各種算法的平均排序且最左(右)邊的平均排序最高(低)。用一根加粗的線連接性能沒(méi)有顯著差異的算法組。

        從圖2可以直觀看出在KNN分類器下,SPEC算法顯著優(yōu)于Relief算法,雖然與其他算法沒(méi)有顯著差別,但可以看出SPFC算法性能要高于其他算法;在CART分類器下SPFC算法性能顯著優(yōu)于算法NRS、ChiSquare、Relief,而與算法Laplacain、CFS、FCBF性能相當(dāng),但性能相當(dāng)?shù)耐唤M里SPFC算法要遠(yuǎn)遠(yuǎn)優(yōu)于算法Laplacain、CFS、FCBF。

        表4 不同算法在兩個(gè)分類器下的排序均值表

        (a) KNN分類器

        (b) CART分類器 圖2 在KNN和CART分類器下SPEC與其他算法的比較Fig.2 SPEC compared with other algorithms Under the CART and KNN classifier

        4 結(jié)論

        本文針對(duì)傳統(tǒng)的譜特征選擇只考慮特征的單獨(dú)最優(yōu)組合問(wèn)題進(jìn)行改進(jìn),提出基于譜圖理論的特征相關(guān)的特征選擇算法,本文研究發(fā)現(xiàn):1)引入特征之間的統(tǒng)計(jì)相關(guān)性到譜特征選擇中,能有效地解決有用特征可能是冗余的問(wèn)題;2)在公開的UCI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文算法能夠選擇較少的特征,獲得較好的分類精度;3)由表2~4中的數(shù)據(jù)亦看出考慮特征間的相關(guān)性算法(SPEC)比不考慮特征間相關(guān)性算法(Laplacian)能顯著提高特征子集的分類性能。但由于本文實(shí)驗(yàn)采用歐式距離統(tǒng)計(jì)特征間的相關(guān)性,而歐式距離對(duì)于高維特征的計(jì)算差值變化不大,因此對(duì)于高維特征間的相關(guān)性的設(shè)計(jì)有待進(jìn)一步研究。

        [1]LIN Yaojin, Li Jinjin, LIN Peirong, et al. Feature selection via neighborhood multi-granulation fusion[J]. Knowledge-based systems, 2014, 67: 162-168.

        [2] MANORANJAN D, LIU Huan. Consistency-based search in feature selection[J]. Artificial intelligence, 2003,151(1): 155-176.

        [3] ZHANG C, ARUN K, CHRISTOPHER R. Materialization optimizations for feature selection workloads[J]. ACM transactions on database systems, 2016, 41(1): 2.

        [4]曹晉, 張莉, 李凡長(zhǎng). 一種基于支持向量數(shù)據(jù)描述的特征選擇算法[J]. 智能系統(tǒng)學(xué)報(bào), 2015, 10(2): 215-220.

        CAO Jin , ZHANG li, LI Fanchang . A feature selection algorithm based on support vector data description[J]. CAAI transactions on intelligent systems, 2015, 10(2): 215-220 .

        [5]MANORANJAN D, LIU Huan. Feature selection for classification[J]. Intelligent data analysis, 1997, 1(3): 131-156.

        [6]SUN Yujing, WANG Fei, WANG Bo, et al. Correlation feature selection and mutual information theory based quantitative research on meteorological impact factors of module temperature for solar photovoltaic systems[J]. Energies, 2016, 10(1): 7.

        [7]CVETKOVIC D M, ROWLINSON P. Spectral graph theory[J]. Topics in algebraic graph theory, 2004: 88-112.

        [8]ZHAO Zheng, LIU Huan. Spectral feature selection for supervised and unsupervised learning[C]//Proceedings of the 24th international conference on Machine learning. ACM, 2007: 1151-1157.

        [9]ZHAO Zhou, HE Xiaofei, CAI Deng, et al. Graph regularized feature selection with data reconstruction[J]. IEEE transactions on knowledge and data engineering, 2016, 28(3): 689-700.

        [10]HE Xiaofei, CAI Deng, NIYONGI P. Laplacian score for feature selection[M].Cambridge: MIT Press, MA, 2005, 17: 507-514.

        [11]BELABBAS M A, WOLFE P J. Spectral method in machine learning and new strategies for very large datasets[J]. Proceedings of the national academy of sciences, 2009, 106(2): 369-374.

        [12]WANG Xiaodong, ZHANG Xu, ZENG Zhiqiang, et al. Unsupervised spectral feature selection with l 1-norm graph[J]. Neurocomputing, 2016, 200: 47-54.

        [13]邊肇祺,張學(xué)工.模式識(shí)別[M]. 2版. 北京: 清華大學(xué)出版社, 2000.

        [14]HALL M A. Correlation-based feature selection for discrete and numeric class machine learning[C]//the 17thInternational Conference on Machine Learning. San Francisco: Morgan Kaufmann, 2000: 359-366.

        [15]ANDREAS W, ANDREAS P. Attacks on stegan ographic systems[M]. Heidelberg, Berlin: Springer-Verlag, 2000: 61-76.

        [16]YU Lei, LIU Huan. Efficient feature selection via analysis of relevance and redundancy[J]. Journal of machine learning research, 2004, 5(1): 1205-1224.

        [17]HU Qinghua, YU Daren, LIU Jinfu, et al. Neighborhood rough set based heterogeneous feature subset selection[J]. Information sciences, 2008, 178 (18): 3577-3594.

        [18]CRAMMER K, GILAD-BACHRACH R, NAVOT A. Margin analysis of the lvq algorithm[C]//Advances in Neural Information Processing Systems. 2002, 14: 462-469.

        [19]FRIEDMAN M, A comparison of alternative tests of significance for the problem of m rankings[J]. The annals of mathematical statistics, 1940, 11(1): 86-92.

        [20]DUNN O J.Multiple comparisons among means[J]. Journal of the american statistical association, 1961, 56(293): 52-64.

        2017WorkshoponSARinBigDataEra:Models,MethodsandApplications

        During the last decade a series of SAR satellites has been launched, including Chinese Gaofen-3, providing great amount of SAR data with varied modes to meet the varieties of applications. It becomes a challenge to retrieve information from these big data. The main objective of this workshop is to share models, methods and applications of SAR data exploration in the big data era.

        The workshop includes different subjects, such as big SAR data modeling, large-scale intelligent SAR processing, SAR applications in big data frameworks. It will feature keynote presentations by distinguished researchers on this topics, most of them are IEEE GRSS members.

        Website:http://www.radi.ac.cn/BIGSARDATA2017/

        Spectralfeatureselectionbasedonfeaturecorrelation

        HU Minjie, LIN Yaojin, YANG Honghe, ZHENG Liping, FU Wei

        (School of Computer Science, Minnan Normal University, Zhangzhou 363000, China)

        In the traditional spectrum feature selection algorithm, only the importance of single features are considered. In this paper, we introduce the statistical correlation between features into traditional spectrum analysis and construct a spectral feature selection model based on feature correlation. First, the proposed model utilizes the Laplacian Score to identify the most central feature as the selected feature, then designs a new feature group discernibility objective function, and applies the forward greedy search strategy to sequentially evaluate the candidate features. Then, the candidate feature with the minimum objective function is added to the selected features. The algorithm considers both the importance of feature as well as the correlations between features. We conducted experiments on two different classifiers and eight UCI datasets, the results of which show that the algorithm effectively improves the classification performance of the feature subset and also obtains a small number of feature subsets with high classification precision.

        feature selection; spectral feature selection; spectral graph theory; feature relevance; discernibility; search strategy; Laplacian score;classification performance

        2016-09-08.網(wǎng)絡(luò)出版日期2017-04-07.

        國(guó)家自然科學(xué)基金項(xiàng)目(61303131,61379021);福建省高校新世紀(jì)優(yōu)秀人才支持計(jì)劃;福建省教育廳科技項(xiàng)目(JA14192)

        胡敏杰.E-mail:zzhuminjie@sina.com.

        10.11992/tis.201609008

        http://kns.cnki.net/kcms/detail/23.1538.tp.20170407.1758.016.html

        TP18

        A

        1673-4785(2017)04-0519-07

        中文引用格式:胡敏杰,林耀進(jìn),楊紅和,等.基于特征相關(guān)的譜特征選擇算法J.智能系統(tǒng)學(xué)報(bào), 2017, 12(4): 519-525.

        英文引用格式:HUMinjie,LINYaojin,YANGHonghe,etal.SpectralfeatureselectionbasedonfeaturecorrelationJ.CAAItransactionsonintelligentsystems, 2017, 12(4): 519-525.

        胡敏杰,女,1979年生,講師,主要研究方向?yàn)閿?shù)據(jù)挖掘。

        林耀進(jìn),男,1980年生,主要研究方向?yàn)閿?shù)據(jù)挖掘、粒計(jì)算。主持國(guó)家自然科學(xué)基金2項(xiàng)。發(fā)表學(xué)術(shù)論文60余篇。

        楊紅和,男,1969生,高級(jí)實(shí)驗(yàn)師,主要研究方向?yàn)閿?shù)字校園。

        猜你喜歡
        特征選擇子集分類器
        由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
        拓?fù)淇臻g中緊致子集的性質(zhì)研究
        關(guān)于奇數(shù)階二元子集的分離序列
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        每一次愛情都只是愛情的子集
        都市麗人(2015年4期)2015-03-20 13:33:22
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
        九七青青草视频在线观看| 青青草视频网站免费看| 国产精品无码日韩欧| 亚洲精品无码永久在线观看| 久久精品国产亚洲av成人网| 在线播放国产女同闺蜜| 曰本人做爰又黄又粗视频| 天天射综合网天天插天天干| 国产免费一区二区av| 又爽又黄无遮挡高潮视频网站| 97人伦色伦成人免费视频| 久久麻传媒亚洲av国产| 男女激情床上视频网站| 可以免费观看的毛片| 亚洲七久久之综合七久久| 99e99精选视频在线观看| 骚货人妻视频中文字幕| 无码一区东京热| 亚洲一区av无码少妇电影| 天堂女人av一区二区| 亚洲国产成人91| 精品日韩欧美一区二区在线播放| 中文亚洲av片不卡在线观看| 久草中文在线这里只有精品| 亚洲av噜噜狠狠蜜桃| 久久免费大片| 久久人人妻人人做人人爽| 亚洲欧美中文字幕5发布| 免费久久99精品国产| 成人国产高清av一区二区三区| 无码AⅤ最新av无码专区| 中文字幕无码免费久久| 99久久国产综合精品女图图等你 | 男人的av天堂狠狠操| 漂亮人妻被黑人久久精品| 伊人久久大香线蕉亚洲五月天| 天天躁日日躁狠狠躁av麻豆| 亚洲一区二区日韩精品在线| 五月综合丁香婷婷久久| 免费无码黄网站在线观看| 欧美亚洲国产人妖系列视|