葛倩,張光斌,張小鳳
(陜西師范大學(xué) 物理學(xué)與信息技術(shù)學(xué)院,西安 710119)
在不同領(lǐng)域的數(shù)據(jù)挖掘過(guò)程中,產(chǎn)生了包含眾多特征的高維數(shù)據(jù)集,其中,冗余特征和不相關(guān)特征的存在不但會(huì)增加數(shù)據(jù)處理過(guò)程的復(fù)雜度,還在一定程度上降低了后續(xù)分類(lèi)算法的準(zhǔn)確率[1]。因此,對(duì)高維數(shù)據(jù)集進(jìn)行預(yù)處理,減少冗余特征和不相關(guān)特征成為數(shù)據(jù)挖掘的重要研究?jī)?nèi)容。
作為數(shù)據(jù)降維的一種有效方式,特征選擇算法不僅可以篩選出數(shù)據(jù)的重要特征,規(guī)避維數(shù)災(zāi)難造成的分類(lèi)準(zhǔn)確率低的問(wèn)題,還可以降低計(jì)算的復(fù)雜度,提高分類(lèi)模型的性能[2]。特征選擇算法主要分為過(guò)濾式(Filter)、包裝式(Wrapper)與嵌入式(Embedded)方法三類(lèi)[3-6]。其中,包裝式特征選擇算法在特征選擇的過(guò)程中是以分類(lèi)器的分類(lèi)性能評(píng)價(jià)特征子集,如K近鄰算法、序列特征選擇(Sequential Feature Selection,SFS)等[7]。但包裝式特征選擇算法每次選擇特征時(shí)均要執(zhí)行分類(lèi)算法以判斷特征子集的優(yōu)劣,因此算法的計(jì)算效率較低[8]。嵌入式特征選擇方法,是將特征選擇過(guò)程和學(xué)習(xí)模型的訓(xùn)練過(guò)程在同一個(gè)優(yōu)化過(guò)程中完成,并使用同一個(gè)目標(biāo)函數(shù)來(lái)實(shí)現(xiàn)特征篩選,如正規(guī)化方法、決策樹(shù)算法等[9]。嵌入式特征選擇方法可以快速地選擇特征子集,但是目標(biāo)函數(shù)的構(gòu)造是一大難點(diǎn)[10]。過(guò)濾式特征選擇方法使用準(zhǔn)則函數(shù)來(lái)評(píng)估特征相較于目標(biāo)類(lèi)的相關(guān)性或鑒別能力,因其克服了包裝式與嵌入式特征選擇方法計(jì)算復(fù)雜性高的缺點(diǎn)被廣泛用于數(shù)據(jù)的預(yù)處理[11-12]。常見(jiàn)的過(guò)濾式特征選擇方法主要有互信息(Mutual Information,MI)、相關(guān)系數(shù)、最大相關(guān)最小冗余(max-Relevance and Min-Redundancy,mRMR)算法、Relief 算法等[13]。其中,由Kira等[14]在1992 年提出的Relief 算法是一種高效的過(guò)濾式特征選擇算法,因其復(fù)雜性低、高效快速而適用于處理高維數(shù)據(jù),該算法在二分類(lèi)問(wèn)題中顯示出較好的性能[15]。1994年,Kononenko[16]提出了擴(kuò)展的Relief 算法,即ReliefF 算法,該算法不僅可以解決多分類(lèi)問(wèn)題,還可以解決數(shù)據(jù)缺失和存在噪聲的問(wèn)題,已被廣泛應(yīng)用于多個(gè)領(lǐng)域[17-18];但是ReliefF 算法在應(yīng)用中存在穩(wěn)定性不足、特征權(quán)值波動(dòng)較大的問(wèn)題。為此,Wang等[19]提出在給定樣本時(shí),根據(jù)局部樣本的平均偏差計(jì)算其權(quán)重的方法來(lái)提高特征選擇方法的穩(wěn)定性。同時(shí),改進(jìn)已選取的近鄰樣本之間相關(guān)性的計(jì)算方法也可以用來(lái)提高ReliefF 算法的穩(wěn)定性[20-22]。但是,目前所提出的大多數(shù)改進(jìn)算法均忽略了近鄰樣本的選取方式對(duì)于算法穩(wěn)定性的影響;此外,這些改進(jìn)的ReliefF 算法由于缺乏與分類(lèi)模型的交互,對(duì)于特征的選擇標(biāo)準(zhǔn)沒(méi)有明確的評(píng)價(jià)指標(biāo),從而在利用篩選出的特征子集進(jìn)行后續(xù)的分類(lèi)問(wèn)題時(shí)可能會(huì)出現(xiàn)分類(lèi)準(zhǔn)確率較低的問(wèn)題[23]。為了解決這一問(wèn)題,趙玲等[24]提出利用支持向量機(jī)(Support Vector Machine,SVM)與特征選擇算法實(shí)現(xiàn)信息交互以自動(dòng)尋找特征子集的方法;但是,由于每次實(shí)驗(yàn)訓(xùn)練集的隨機(jī)性,篩選的特征子集仍具有較大的隨機(jī)性,不具有泛化能力。
為了實(shí)現(xiàn)最優(yōu)特征子集的自動(dòng)篩選,緩解維數(shù)災(zāi)難造成的分類(lèi)準(zhǔn)確率降低問(wèn)題,本文提出一種可以篩選出穩(wěn)定的特征子集且具有泛化能力的特征選擇算法。首先,對(duì)傳統(tǒng)ReliefF 算法的近鄰樣本選取方法進(jìn)行改進(jìn),提出MICReliefF(Maximum Information Coefficient-ReliefF)算法,利用最大信息系數(shù)(Maximal Information Coefficient,MIC)[25]替代歐氏距離估計(jì)樣本之間差異,尋找同類(lèi)與異類(lèi)近鄰樣本;其次,將選擇的特征子集輸入到SVM 分類(lèi)器,以SVM 的分類(lèi)準(zhǔn)確率作為評(píng)價(jià)指標(biāo),多次尋優(yōu),自動(dòng)確定其最優(yōu)特征子集,實(shí)現(xiàn)MICReliefF 算法與分類(lèi)模型的交互優(yōu)化,即MICReliefF-SVM自動(dòng)特征選擇算法。利用UCI 多個(gè)公開(kāi)數(shù)據(jù)集對(duì)MICReliefF-SVM 算法的性能進(jìn)行了驗(yàn)證,并且利用SVM 模型與極限學(xué)習(xí) 機(jī)(Extreme Learning Machine,ELM)對(duì)MICReliefF-SVM 自動(dòng)特征選擇算法篩選的特征子集進(jìn)行測(cè)試。
ReliefF 算法是一種具有低計(jì)算復(fù)雜度的過(guò)濾式特征選擇算法。首先,從總樣本D中隨機(jī)選取樣本R;然后,在數(shù)據(jù)中找出與樣本R屬同一類(lèi)的k個(gè)最近鄰的樣本,記作Hj,與樣本R不在同一類(lèi)中的k個(gè)最近鄰的樣本,記作M(C)j;最后,計(jì)算樣本中特征A的特征權(quán)重,公式如下:
其中:class(R)是隨機(jī)選取的樣本R所屬的類(lèi)別;P(C)是類(lèi)別C出現(xiàn)的概率;P(class(R)是隨機(jī)選取的樣本R所屬類(lèi)別的概率;diff(A,R,Hj)和diff(A,R,M(C)j)分別表示兩樣本在特征A下的距離;m是抽樣次數(shù)。在ReliefF 算法中,近鄰樣本數(shù)通常設(shè)置為k=10[26]。
ReliefF 算法的偽代碼如下所示。
算法1 ReliefF 算法。
輸入 數(shù)據(jù)集D=,特征個(gè)數(shù)a,迭代次數(shù)m,近鄰樣本的個(gè)數(shù)k。
輸出 特征權(quán)重向量W。
ReliefF 算法的目標(biāo)是通過(guò)多次評(píng)估隨機(jī)選取的樣本實(shí)例與同類(lèi)近鄰樣本和異類(lèi)近鄰樣本之間的類(lèi)間距離和類(lèi)內(nèi)距離,計(jì)算每個(gè)特征的權(quán)重,挑選出權(quán)值高的特征,從而完成特征選擇的任務(wù)[27]。但是,ReliefF 算法在尋找近鄰樣本時(shí),采用的是相似度度量,如果隨機(jī)抽取的樣本較少,將導(dǎo)致特征權(quán)值波動(dòng)較大,進(jìn)而影響特征排名。近鄰樣本的選取對(duì)于算法的穩(wěn)定性具有較大的影響。在選擇近鄰樣本時(shí),ReliefF算法通過(guò)使用歐氏距離來(lái)計(jì)算所有樣本與所隨機(jī)選取的樣本實(shí)例R的相似程度,以便從同類(lèi)與不同類(lèi)樣本中分別選擇k個(gè)距離最小,即相關(guān)性最大的樣本作為近鄰樣本。盡管歐氏距離已經(jīng)成為評(píng)定兩個(gè)樣本之間相近程度的一種常見(jiàn)度量方式,但它普適于樣本的各個(gè)特征度量的標(biāo)準(zhǔn)比較統(tǒng)一的情形。對(duì)絕大部分真實(shí)數(shù)據(jù)集來(lái)說(shuō),樣本中每個(gè)特征的取值不是統(tǒng)一的標(biāo)準(zhǔn),因而會(huì)導(dǎo)致近鄰樣本的選取極易被特征值較大的特征所影響,從而忽略了特征值較小的特征對(duì)于分類(lèi)準(zhǔn)確率的貢獻(xiàn)。
為了提高ReliefF 算法的性能,本文使用最大信息系數(shù)(MIC)來(lái)代替歐氏距離求解樣本之間的相關(guān)性,即MICReliefF 算法。
MIC 是一種用來(lái)捕捉屬性間相關(guān)性的統(tǒng)計(jì)量[25],能夠有效度量變量之間的復(fù)雜關(guān)系。
對(duì)于數(shù)據(jù)集D={U=ui,V=vi},i=1,2,…,N,變量和變量的互信息可以表示為:
其中:p(u,v)是變量U、V的聯(lián)合概率密度;p(u)、p(v)分別是變量U、V的邊緣概率密度。
變量U和變量V的MIC 定義為:
其中:a、b是在x、y軸方向上劃分的格子個(gè)數(shù),應(yīng)滿(mǎn)足|a| ·|b| <B,B=N0.6,N是樣本數(shù)。
盡管ReliefF 算法能夠計(jì)算特征所占的權(quán)重,但由于缺乏與分類(lèi)模型的交互,且對(duì)于特征子集的選擇標(biāo)準(zhǔn)沒(méi)有明確的評(píng)價(jià)指標(biāo),因此,ReliefF 算法本身無(wú)法去除冗余特征。在實(shí)際應(yīng)用中,一般都是根據(jù)已有經(jīng)驗(yàn)設(shè)置權(quán)重閾值,大于閾值的特征被保留下來(lái),而小于閾值的特征則被剔除,這樣就會(huì)導(dǎo)致不當(dāng)?shù)拈撝颠x擇對(duì)分類(lèi)結(jié)果產(chǎn)生不好影響。如果將MICReliefF 算法排序后的特征輸入到SVM 分類(lèi)器,利用SVM模型的分類(lèi)準(zhǔn)確率來(lái)選擇特征子集,通過(guò)多次交互尋優(yōu),則可以自動(dòng)確定其最優(yōu)特征子集,即MICReliefF-SVM 自動(dòng)特征選擇算法。算法的流程如圖1 所示。
為了驗(yàn)證MICReliefF-SVM 自動(dòng)特征選擇算法的性能,使用UCI 公開(kāi)數(shù)據(jù)庫(kù)中乳腺癌數(shù)據(jù)集WDBC、電離層數(shù)據(jù)集Ionosphere、馬腹絞痛數(shù)據(jù)集Horse Colic、蘑菇數(shù)據(jù)集Mushroom、帕金森數(shù)據(jù)集Parkinsons、聲納、地雷、巖石數(shù)據(jù)集Connectionist Bench 以及檢測(cè)是否有新分子的Musk 數(shù)據(jù)集共7 個(gè)常用于分類(lèi)問(wèn)題研究的數(shù)據(jù)集[28]對(duì)算法的特征選擇能力進(jìn)行了測(cè)試。表1 為所選數(shù)據(jù)集的信息,以及每一次實(shí)驗(yàn)時(shí)隨機(jī)選取的訓(xùn)練集和測(cè)試集的個(gè)數(shù)。
表1 實(shí)驗(yàn)數(shù)據(jù)集的信息Tab.1 Information of experimental datasets
實(shí)驗(yàn)中分別采用ReliefF-SVM 算法和MICReliefF-SVM 算法對(duì)7 個(gè)數(shù)據(jù)集中的特征進(jìn)行篩選,每次實(shí)驗(yàn)采用隨機(jī)抽取的方式將每個(gè)數(shù)據(jù)集的總樣本劃分成60%的訓(xùn)練集與40%的測(cè)試集,利用訓(xùn)練集對(duì)SVM 模型進(jìn)行訓(xùn)練,選出分類(lèi)準(zhǔn)確率最高的特征子集,并將其應(yīng)用到測(cè)試集進(jìn)行測(cè)試。為了能選擇出穩(wěn)定的最優(yōu)特征子集,重復(fù)實(shí)驗(yàn)過(guò)程500次,統(tǒng)計(jì)500次實(shí)驗(yàn)中測(cè)試集出現(xiàn)的最優(yōu)特征子集及其出現(xiàn)的次數(shù),最后把500 次實(shí)驗(yàn)中出現(xiàn)次數(shù)最多的最優(yōu)特征子集作為最終的最優(yōu)特征子集,篩選結(jié)果如表2 所示。從表2 中給出的篩選后的特征個(gè)數(shù)結(jié)果可知,與ReliefF-SVM 算法相比,在7 個(gè)UCI 數(shù)據(jù)集上MICReliefF-SVM 算法除對(duì)Connectionist Bench數(shù)據(jù)集篩選后保留相同的特征個(gè)數(shù)之外,在其他數(shù)據(jù)集上都篩除了更多的冗余特征,即能有效地減少樣本的特征維度。
表2 各算法的特征篩選結(jié)果比較Tab.2 Comparison of feature filtering results of different algorithms
為了驗(yàn)證MICReliefF-SVM 算法所選特征子集的分類(lèi)效果以及穩(wěn)定性,利用SVM 與ELM 兩種分類(lèi)模型,分別對(duì)表2篩選出的特征進(jìn)行測(cè)試,即分別采用SVM 與ELM 兩種分類(lèi)模型對(duì)利用MICReliefF-SVM 算法選取的特征子集、ReliefFSVM 算法選取的特征子集以及原始數(shù)據(jù)集中的全部特征進(jìn)行分類(lèi)。在SVM 分類(lèi)器中,采用RBF(Radial Basis Function)核函數(shù),核參數(shù)C=1,γ=100[11];在ELM 分類(lèi)器中,采用Sigmoid 核函數(shù),隱層節(jié)點(diǎn)的個(gè)數(shù)設(shè)置為20[29]。每次實(shí)驗(yàn)仍按照表1 所示的標(biāo)準(zhǔn)劃分訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集,實(shí)驗(yàn)100次,以平均準(zhǔn)確率Acc(Accuracy)、平均敏感度Sen(Sensitivity)、平均特異性Spe(Specificity)、平均精準(zhǔn)度Pre(Precision)以及平均F 值(F-measure)等作為評(píng)價(jià)指標(biāo)。上述評(píng)價(jià)指標(biāo)基于表3 混淆矩陣計(jì)算,其定義如下:
表3 混淆矩陣Tab.3 Confusion matrix
SVM 分類(lèi)模型中各評(píng)價(jià)指標(biāo)的平均值及其標(biāo)準(zhǔn)差如表4 所示。從表4 的數(shù)據(jù)可知:
表4 各特征選擇算法在SVM模型中評(píng)價(jià)指標(biāo)的平均值與標(biāo)準(zhǔn)差比較Tab.4 Mean and standard deviation comparison of evaluation indexes among each feature selection algorithms in SVM model
1)在WDBC 數(shù)據(jù)集中,利用ReliefF-SVM 算法與MICReliefF-SVM 算法選取的特征子集的Accuracy、Sensitivity、F 值指標(biāo)的平均值均優(yōu)于采用原始數(shù)據(jù)集中的全部特征,且MICReliefF-SVM 算法結(jié)果整體最優(yōu)。對(duì)于標(biāo)準(zhǔn)差而言,除Specificity外,Accuracy、Sensitivity、Precision、F 值的標(biāo)準(zhǔn)差均優(yōu)于采用原始數(shù)據(jù)集中的全部特征。
2)在Ionosphere 數(shù)據(jù)集中,除Sensitivity 指標(biāo)外,利用ReliefF-SVM 算法與MICReliefF-SVM 算法選取的特征子集的Accuracy、Specificity、Precision、F 值的平均值及其標(biāo)準(zhǔn)差均優(yōu)于采用原始數(shù)據(jù)集中的全部特征,且MICReliefF-SVM 算法結(jié)果最優(yōu)。
3)在Horse Colic數(shù)據(jù)集中,利用ReliefF-SVM 算法與MICReliefF-SVM 算法選取的特征子集的各指標(biāo)的平均值及其標(biāo)準(zhǔn)差均優(yōu)于采用原始數(shù)據(jù)集中的全部特征,且MICReliefF-SVM 算法結(jié)果最優(yōu)。
4)在Mushroom 數(shù)據(jù)集中,利用ReliefF-SVM 算法與MICReliefF-SVM 算法選取的特征子集的Accuracy、Sensitivity、Specificity、Precision、F 值的平均值均優(yōu)于采用原始數(shù)據(jù)集中的全部特征,其中,MICReliefF-SVM 算法選取的特征子集的Accuracy、Sensitivity、F 值指標(biāo)結(jié)果優(yōu)于ReliefFSVM 算法。對(duì)于標(biāo)準(zhǔn)差而言,利用ReliefF-SVM 算法與MICReliefF-SVM 算法選取的特征子集與原始數(shù)據(jù)集在精確到小數(shù)后4 位時(shí),標(biāo)準(zhǔn)差均為0。
5)在Parkinsons 數(shù)據(jù)集中,除Sensitivity 指標(biāo)外,利用ReliefF-SVM 算法與MICReliefF-SVM 算法選取的特征子集的各指標(biāo)的平均值均優(yōu)于采用原始數(shù)據(jù)集中的全部特征,且MICReliefF-SVM 算法結(jié)果最優(yōu),利用ReliefF-SVM 算法與MICReliefF-SVM 算法選取的特征子集的各指標(biāo)的標(biāo)準(zhǔn)差均優(yōu)于采用原始數(shù)據(jù)集中的全部特征。
6)在Connectionist Bench 數(shù)據(jù)集中,利用MICReliefFSVM 算法選取的特征子集的各指標(biāo)的平均值及其標(biāo)準(zhǔn)差均優(yōu)于利用ReliefF-SVM 算法選取的特征子集以及采用原始數(shù)據(jù)集中的全部特征,除Sensitivity 指標(biāo)的均值外,利用ReliefF-SVM 算法選取的特征子集各指標(biāo)的平均值及其標(biāo)準(zhǔn)差均優(yōu)于采用原始數(shù)據(jù)集中的全部特征。
7)在Musk 數(shù)據(jù)集中,利用ReliefF-SVM 算法與MICReliefF-SVM 算法選取的特征子集的Accuracy、Specificity、Precision、F 值指標(biāo)的平均值均優(yōu)于采用原始數(shù)據(jù)集中的全部特征,且MICReliefF-SVM 算法結(jié)果整體最優(yōu)。對(duì)于標(biāo)準(zhǔn)差而言,MICReliefF-SVM 算法選取的特征子集的指標(biāo)除Specificity 劣于ReliefF-SVM 算法外,Accuracy、Sensitivity、Precision、F 值的標(biāo)準(zhǔn)差均優(yōu)于ReliefF-SVM 算法選取的特征子集和采用原始數(shù)據(jù)集中的全部特征。
ELM 分類(lèi)模型中各評(píng)價(jià)指標(biāo)的平均值及其標(biāo)準(zhǔn)差如表5 所示。
表5 各特征選擇算法在ELM模型中評(píng)價(jià)指標(biāo)的平均值與標(biāo)準(zhǔn)差比較Tab.5 Mean and standard deviation comparison of evaluation indexes among each feature selection algorithms in ELM model
從表5 可知:
1)在WDBC 數(shù)據(jù)集中,利用ReliefF-SVM 算法與MICReliefF-SVM 算法選取的特征子集的各指標(biāo)的平均值均優(yōu)于采用原始數(shù)據(jù)集中的全部特征;其中,利用MICReliefFSVM 算法選取的特征子集的Accuracy、Sensitivity 以及F 值指標(biāo)的平均值高于ReliefF-SVM 算法選取的特征子集。對(duì)于標(biāo)準(zhǔn)差而言,利用ReliefF-SVM 算法與MICReliefF-SVM 算法選取的特征子集的Sensitivity、Precision、F 值指標(biāo)的標(biāo)準(zhǔn)差均優(yōu)于采用原始數(shù)據(jù)集中的全部特征。
2)在Ionosphere 數(shù)據(jù)集中,除Sensitivity 指標(biāo)外,利用MICReliefF-SVM 算法選取的特征子集的Accuracy、Specificity、Precision、F 值的平均值及其標(biāo)準(zhǔn)差均優(yōu)于利用ReliefF-SVM 算法選取的特征子集以及采用原始數(shù)據(jù)集中的全部特征,且ReliefF-SVM 算法選取的特征子集各指標(biāo)的平均值及其標(biāo)準(zhǔn)差均優(yōu)于采用原始數(shù)據(jù)集中的全部特征。
3)在Horse Colic 數(shù)據(jù)集中,利用ReliefF-SVM算法與MICReliefF-SVM 算法選取的特征子集的各指標(biāo)的平均值及其標(biāo)準(zhǔn)差均優(yōu)于采用原始數(shù)據(jù)集中的全部特征,且MICReliefF-SVM 算法結(jié)果最優(yōu)。
4)在Mushroom 數(shù)據(jù)集中,利用MICReliefF-SVM 算法選取的特征子集的Accuracy、Sensitivity、F 值的平均值均優(yōu)于利用ReliefF-SVM 算法選取的特征子集與采用原始數(shù)據(jù)集中的全部特征,且ReliefF-SVM 算法選取的特征子集各指標(biāo)的平均值均優(yōu)于采用原始數(shù)據(jù)集中的全部特征;對(duì)于標(biāo)準(zhǔn)差而言,利用ReliefF-SVM 算法與MICReliefF-SVM 算法選取的特征子集的標(biāo)準(zhǔn)差整體優(yōu)于采用原始數(shù)據(jù)集中的全部特征。
5)在Parkinsons、Connectionist Bench 和Musk 數(shù)據(jù)集中,利用ReliefF-SVM 算法與MICReliefF-SVM 算法選取的特征子集的各指標(biāo)的平均值及其標(biāo)準(zhǔn)差均優(yōu)于采用原始數(shù)據(jù)集中的全部特征,且MICReliefF-SVM 算法結(jié)果最優(yōu)。
SVM 模型與ELM 模型的測(cè)試結(jié)果均證明,MICReliefFSVM 算法可以在減少樣本特征維度的同時(shí),有效提高分類(lèi)準(zhǔn)確率,該算法不僅能夠自動(dòng)選擇出分類(lèi)準(zhǔn)確率良好的特征子集,而且選取的特征子集具有一定的穩(wěn)定性和泛化能力。
為了探究MICReliefF-SVM 算法的計(jì)算效率,本文統(tǒng)計(jì)了采用SVM 與ELM 兩種分類(lèi)模型對(duì)MICReliefF-SVM 算法選取的特征子集、ReliefF-SVM 算法選取的特征子集以及原始數(shù)據(jù)集中的全部特征進(jìn)行分類(lèi)時(shí)100 次實(shí)驗(yàn)的總運(yùn)行時(shí)間,結(jié)果如表6 所示。
從表6 可以看出:在SVM 和ELM 兩種分類(lèi)模型中,對(duì)MICReliefF-SVM 算法選取的特征子集、ReliefF-SVM 算法選取的特征子集進(jìn)行分類(lèi)的運(yùn)算時(shí)間均短于對(duì)原始數(shù)據(jù)集中的全部特征進(jìn)行分類(lèi)的時(shí)間,其中MICReliefF-SVM 算法選取的特征子集的分類(lèi)時(shí)間最短,即計(jì)算效率最高。說(shuō)明本文提出的MICReliefF-SVM 算法可以有效地提高后續(xù)學(xué)習(xí)算法的計(jì)算效率,進(jìn)一步說(shuō)明了MICReliefF-SVM 算法的有效性。
表6 不同特征選擇算法在SVM模型和ELM模型中的運(yùn)行時(shí)間比較 單位:sTab.6 Comparison of running time among different feature selection algorithms in SVM model and ELM model unit:s
為進(jìn)一步驗(yàn)證MICReliefF-SVM 算法的有效性,本文在7個(gè)數(shù)據(jù)集上分別利用SVM 與ELM 分類(lèi)模型比較了MICReliefF-SVM 算法與MI、mRMR、支持向量機(jī)遞歸特征消除(Support Vector Machines-Recursive Feature Elimination,SVM-RFE)、相關(guān)性特征選擇(Correlation-based Feature Selection,CFS)、隨機(jī)森林(Random Forest,RF)、遺傳算法(Genetic Algorithm,GA)[30-33]六種經(jīng)典的傳統(tǒng)特征選擇算法的分類(lèi)準(zhǔn)確率,每次實(shí)驗(yàn)仍按照表1 所示的標(biāo)準(zhǔn)劃分訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集,實(shí)驗(yàn)100次,求其平均準(zhǔn)確率作為評(píng)價(jià)標(biāo)準(zhǔn)。
各特征選擇算法在SVM 分類(lèi)模型中的實(shí)驗(yàn)結(jié)果如表7所示。從表7 中給出的結(jié)果可知:MICReliefF-SVM 算法除了在Mushroom 數(shù)據(jù)集上的準(zhǔn)確率稍劣于RF 特征選擇算法外,在其他6 個(gè)數(shù)據(jù)集上的準(zhǔn)確率均優(yōu)于對(duì)比算法。各特征選擇算法在ELM 分類(lèi)模型中的實(shí)驗(yàn)結(jié)果如表8 所示。從表8中給出的結(jié)果可知:MICReliefF-SVM 算法除在Mushroom 數(shù)據(jù)集和Musk 數(shù)據(jù)集上的準(zhǔn)確率劣于RF 特征選擇算法,在其他6 個(gè)數(shù)據(jù)集上的準(zhǔn)確率均優(yōu)于對(duì)比算法。因此,MICReliefF-SVM 算法所選特征子集的分類(lèi)能力整體上要優(yōu)于對(duì)比算法。
表7 不同特征選擇算法在SVM模型中的分類(lèi)準(zhǔn)確率對(duì)比Tab.7 Comparison of classification accuracy among different feature selection algorithms in SVM model
表8 不同特征選擇算法在ELM模型中的分類(lèi)準(zhǔn)確率對(duì)比Tab.8 Comparison of classification accuracy among different feature selection algorithms in ELM model
本文提出了一種MICReliefF-SVM 交互的自動(dòng)特征選擇算法,采用多個(gè)UCI 數(shù)據(jù)集對(duì)算法的有效性進(jìn)行驗(yàn)證。研究結(jié)果表明:
1)與ReliefF 算法相比,MICReliefF-SVM 算法在特征冗余的篩選上具有一定的優(yōu)勢(shì)。利用SVM 與ELM 分類(lèi)模型對(duì)UCI 多個(gè)公開(kāi)數(shù)據(jù)集上的數(shù)據(jù)進(jìn)行分類(lèi)的對(duì)比實(shí)驗(yàn)結(jié)果表明,MICReliefF-SVM 算法在減少樣本特征維度的同時(shí),有效提高了分類(lèi)準(zhǔn)確率,且該算法可以實(shí)現(xiàn)分類(lèi)準(zhǔn)確率良好的特征子集的自動(dòng)選擇,選取的特征子集具有一定的穩(wěn)定性和泛化能力。
2)與經(jīng)典MI、mRMR、SVM-RFE、CFS、RF 以及GA 特征選擇算法相比,MICReliefF-SVM 算法所選特征子集整體上具有更好的分類(lèi)能力。
在未來(lái)的工作中,將會(huì)繼續(xù)對(duì)提高ReliefF 算法的穩(wěn)定性以及該算法在處理高維特征數(shù)據(jù)方面的應(yīng)用進(jìn)行研究。