亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于最大信息系數(shù)的ReliefF和支持向量機(jī)交互的自動(dòng)特征選擇算法

        2022-11-08 12:42:24葛倩張光斌張小鳳
        計(jì)算機(jī)應(yīng)用 2022年10期
        關(guān)鍵詞:原始數(shù)據(jù)特征選擇子集

        葛倩,張光斌,張小鳳

        (陜西師范大學(xué) 物理學(xué)與信息技術(shù)學(xué)院,西安 710119)

        0 引言

        在不同領(lǐng)域的數(shù)據(jù)挖掘過(guò)程中,產(chǎn)生了包含眾多特征的高維數(shù)據(jù)集,其中,冗余特征和不相關(guān)特征的存在不但會(huì)增加數(shù)據(jù)處理過(guò)程的復(fù)雜度,還在一定程度上降低了后續(xù)分類(lèi)算法的準(zhǔn)確率[1]。因此,對(duì)高維數(shù)據(jù)集進(jìn)行預(yù)處理,減少冗余特征和不相關(guān)特征成為數(shù)據(jù)挖掘的重要研究?jī)?nèi)容。

        作為數(shù)據(jù)降維的一種有效方式,特征選擇算法不僅可以篩選出數(shù)據(jù)的重要特征,規(guī)避維數(shù)災(zāi)難造成的分類(lèi)準(zhǔn)確率低的問(wèn)題,還可以降低計(jì)算的復(fù)雜度,提高分類(lèi)模型的性能[2]。特征選擇算法主要分為過(guò)濾式(Filter)、包裝式(Wrapper)與嵌入式(Embedded)方法三類(lèi)[3-6]。其中,包裝式特征選擇算法在特征選擇的過(guò)程中是以分類(lèi)器的分類(lèi)性能評(píng)價(jià)特征子集,如K近鄰算法、序列特征選擇(Sequential Feature Selection,SFS)等[7]。但包裝式特征選擇算法每次選擇特征時(shí)均要執(zhí)行分類(lèi)算法以判斷特征子集的優(yōu)劣,因此算法的計(jì)算效率較低[8]。嵌入式特征選擇方法,是將特征選擇過(guò)程和學(xué)習(xí)模型的訓(xùn)練過(guò)程在同一個(gè)優(yōu)化過(guò)程中完成,并使用同一個(gè)目標(biāo)函數(shù)來(lái)實(shí)現(xiàn)特征篩選,如正規(guī)化方法、決策樹(shù)算法等[9]。嵌入式特征選擇方法可以快速地選擇特征子集,但是目標(biāo)函數(shù)的構(gòu)造是一大難點(diǎn)[10]。過(guò)濾式特征選擇方法使用準(zhǔn)則函數(shù)來(lái)評(píng)估特征相較于目標(biāo)類(lèi)的相關(guān)性或鑒別能力,因其克服了包裝式與嵌入式特征選擇方法計(jì)算復(fù)雜性高的缺點(diǎn)被廣泛用于數(shù)據(jù)的預(yù)處理[11-12]。常見(jiàn)的過(guò)濾式特征選擇方法主要有互信息(Mutual Information,MI)、相關(guān)系數(shù)、最大相關(guān)最小冗余(max-Relevance and Min-Redundancy,mRMR)算法、Relief 算法等[13]。其中,由Kira等[14]在1992 年提出的Relief 算法是一種高效的過(guò)濾式特征選擇算法,因其復(fù)雜性低、高效快速而適用于處理高維數(shù)據(jù),該算法在二分類(lèi)問(wèn)題中顯示出較好的性能[15]。1994年,Kononenko[16]提出了擴(kuò)展的Relief 算法,即ReliefF 算法,該算法不僅可以解決多分類(lèi)問(wèn)題,還可以解決數(shù)據(jù)缺失和存在噪聲的問(wèn)題,已被廣泛應(yīng)用于多個(gè)領(lǐng)域[17-18];但是ReliefF 算法在應(yīng)用中存在穩(wěn)定性不足、特征權(quán)值波動(dòng)較大的問(wèn)題。為此,Wang等[19]提出在給定樣本時(shí),根據(jù)局部樣本的平均偏差計(jì)算其權(quán)重的方法來(lái)提高特征選擇方法的穩(wěn)定性。同時(shí),改進(jìn)已選取的近鄰樣本之間相關(guān)性的計(jì)算方法也可以用來(lái)提高ReliefF 算法的穩(wěn)定性[20-22]。但是,目前所提出的大多數(shù)改進(jìn)算法均忽略了近鄰樣本的選取方式對(duì)于算法穩(wěn)定性的影響;此外,這些改進(jìn)的ReliefF 算法由于缺乏與分類(lèi)模型的交互,對(duì)于特征的選擇標(biāo)準(zhǔn)沒(méi)有明確的評(píng)價(jià)指標(biāo),從而在利用篩選出的特征子集進(jìn)行后續(xù)的分類(lèi)問(wèn)題時(shí)可能會(huì)出現(xiàn)分類(lèi)準(zhǔn)確率較低的問(wèn)題[23]。為了解決這一問(wèn)題,趙玲等[24]提出利用支持向量機(jī)(Support Vector Machine,SVM)與特征選擇算法實(shí)現(xiàn)信息交互以自動(dòng)尋找特征子集的方法;但是,由于每次實(shí)驗(yàn)訓(xùn)練集的隨機(jī)性,篩選的特征子集仍具有較大的隨機(jī)性,不具有泛化能力。

        為了實(shí)現(xiàn)最優(yōu)特征子集的自動(dòng)篩選,緩解維數(shù)災(zāi)難造成的分類(lèi)準(zhǔn)確率降低問(wèn)題,本文提出一種可以篩選出穩(wěn)定的特征子集且具有泛化能力的特征選擇算法。首先,對(duì)傳統(tǒng)ReliefF 算法的近鄰樣本選取方法進(jìn)行改進(jìn),提出MICReliefF(Maximum Information Coefficient-ReliefF)算法,利用最大信息系數(shù)(Maximal Information Coefficient,MIC)[25]替代歐氏距離估計(jì)樣本之間差異,尋找同類(lèi)與異類(lèi)近鄰樣本;其次,將選擇的特征子集輸入到SVM 分類(lèi)器,以SVM 的分類(lèi)準(zhǔn)確率作為評(píng)價(jià)指標(biāo),多次尋優(yōu),自動(dòng)確定其最優(yōu)特征子集,實(shí)現(xiàn)MICReliefF 算法與分類(lèi)模型的交互優(yōu)化,即MICReliefF-SVM自動(dòng)特征選擇算法。利用UCI 多個(gè)公開(kāi)數(shù)據(jù)集對(duì)MICReliefF-SVM 算法的性能進(jìn)行了驗(yàn)證,并且利用SVM 模型與極限學(xué)習(xí) 機(jī)(Extreme Learning Machine,ELM)對(duì)MICReliefF-SVM 自動(dòng)特征選擇算法篩選的特征子集進(jìn)行測(cè)試。

        1 ReliefF算法

        ReliefF 算法是一種具有低計(jì)算復(fù)雜度的過(guò)濾式特征選擇算法。首先,從總樣本D中隨機(jī)選取樣本R;然后,在數(shù)據(jù)中找出與樣本R屬同一類(lèi)的k個(gè)最近鄰的樣本,記作Hj,與樣本R不在同一類(lèi)中的k個(gè)最近鄰的樣本,記作M(C)j;最后,計(jì)算樣本中特征A的特征權(quán)重,公式如下:

        其中:class(R)是隨機(jī)選取的樣本R所屬的類(lèi)別;P(C)是類(lèi)別C出現(xiàn)的概率;P(class(R)是隨機(jī)選取的樣本R所屬類(lèi)別的概率;diff(A,R,Hj)和diff(A,R,M(C)j)分別表示兩樣本在特征A下的距離;m是抽樣次數(shù)。在ReliefF 算法中,近鄰樣本數(shù)通常設(shè)置為k=10[26]。

        ReliefF 算法的偽代碼如下所示。

        算法1 ReliefF 算法。

        輸入 數(shù)據(jù)集D=,特征個(gè)數(shù)a,迭代次數(shù)m,近鄰樣本的個(gè)數(shù)k。

        輸出 特征權(quán)重向量W。

        ReliefF 算法的目標(biāo)是通過(guò)多次評(píng)估隨機(jī)選取的樣本實(shí)例與同類(lèi)近鄰樣本和異類(lèi)近鄰樣本之間的類(lèi)間距離和類(lèi)內(nèi)距離,計(jì)算每個(gè)特征的權(quán)重,挑選出權(quán)值高的特征,從而完成特征選擇的任務(wù)[27]。但是,ReliefF 算法在尋找近鄰樣本時(shí),采用的是相似度度量,如果隨機(jī)抽取的樣本較少,將導(dǎo)致特征權(quán)值波動(dòng)較大,進(jìn)而影響特征排名。近鄰樣本的選取對(duì)于算法的穩(wěn)定性具有較大的影響。在選擇近鄰樣本時(shí),ReliefF算法通過(guò)使用歐氏距離來(lái)計(jì)算所有樣本與所隨機(jī)選取的樣本實(shí)例R的相似程度,以便從同類(lèi)與不同類(lèi)樣本中分別選擇k個(gè)距離最小,即相關(guān)性最大的樣本作為近鄰樣本。盡管歐氏距離已經(jīng)成為評(píng)定兩個(gè)樣本之間相近程度的一種常見(jiàn)度量方式,但它普適于樣本的各個(gè)特征度量的標(biāo)準(zhǔn)比較統(tǒng)一的情形。對(duì)絕大部分真實(shí)數(shù)據(jù)集來(lái)說(shuō),樣本中每個(gè)特征的取值不是統(tǒng)一的標(biāo)準(zhǔn),因而會(huì)導(dǎo)致近鄰樣本的選取極易被特征值較大的特征所影響,從而忽略了特征值較小的特征對(duì)于分類(lèi)準(zhǔn)確率的貢獻(xiàn)。

        2 MICReliefF-SVM 自動(dòng)特征選擇算法

        為了提高ReliefF 算法的性能,本文使用最大信息系數(shù)(MIC)來(lái)代替歐氏距離求解樣本之間的相關(guān)性,即MICReliefF 算法。

        MIC 是一種用來(lái)捕捉屬性間相關(guān)性的統(tǒng)計(jì)量[25],能夠有效度量變量之間的復(fù)雜關(guān)系。

        對(duì)于數(shù)據(jù)集D={U=ui,V=vi},i=1,2,…,N,變量和變量的互信息可以表示為:

        其中:p(u,v)是變量U、V的聯(lián)合概率密度;p(u)、p(v)分別是變量U、V的邊緣概率密度。

        變量U和變量V的MIC 定義為:

        其中:a、b是在x、y軸方向上劃分的格子個(gè)數(shù),應(yīng)滿(mǎn)足|a| ·|b| <B,B=N0.6,N是樣本數(shù)。

        盡管ReliefF 算法能夠計(jì)算特征所占的權(quán)重,但由于缺乏與分類(lèi)模型的交互,且對(duì)于特征子集的選擇標(biāo)準(zhǔn)沒(méi)有明確的評(píng)價(jià)指標(biāo),因此,ReliefF 算法本身無(wú)法去除冗余特征。在實(shí)際應(yīng)用中,一般都是根據(jù)已有經(jīng)驗(yàn)設(shè)置權(quán)重閾值,大于閾值的特征被保留下來(lái),而小于閾值的特征則被剔除,這樣就會(huì)導(dǎo)致不當(dāng)?shù)拈撝颠x擇對(duì)分類(lèi)結(jié)果產(chǎn)生不好影響。如果將MICReliefF 算法排序后的特征輸入到SVM 分類(lèi)器,利用SVM模型的分類(lèi)準(zhǔn)確率來(lái)選擇特征子集,通過(guò)多次交互尋優(yōu),則可以自動(dòng)確定其最優(yōu)特征子集,即MICReliefF-SVM 自動(dòng)特征選擇算法。算法的流程如圖1 所示。

        3 實(shí)驗(yàn)與結(jié)果分析

        為了驗(yàn)證MICReliefF-SVM 自動(dòng)特征選擇算法的性能,使用UCI 公開(kāi)數(shù)據(jù)庫(kù)中乳腺癌數(shù)據(jù)集WDBC、電離層數(shù)據(jù)集Ionosphere、馬腹絞痛數(shù)據(jù)集Horse Colic、蘑菇數(shù)據(jù)集Mushroom、帕金森數(shù)據(jù)集Parkinsons、聲納、地雷、巖石數(shù)據(jù)集Connectionist Bench 以及檢測(cè)是否有新分子的Musk 數(shù)據(jù)集共7 個(gè)常用于分類(lèi)問(wèn)題研究的數(shù)據(jù)集[28]對(duì)算法的特征選擇能力進(jìn)行了測(cè)試。表1 為所選數(shù)據(jù)集的信息,以及每一次實(shí)驗(yàn)時(shí)隨機(jī)選取的訓(xùn)練集和測(cè)試集的個(gè)數(shù)。

        表1 實(shí)驗(yàn)數(shù)據(jù)集的信息Tab.1 Information of experimental datasets

        實(shí)驗(yàn)中分別采用ReliefF-SVM 算法和MICReliefF-SVM 算法對(duì)7 個(gè)數(shù)據(jù)集中的特征進(jìn)行篩選,每次實(shí)驗(yàn)采用隨機(jī)抽取的方式將每個(gè)數(shù)據(jù)集的總樣本劃分成60%的訓(xùn)練集與40%的測(cè)試集,利用訓(xùn)練集對(duì)SVM 模型進(jìn)行訓(xùn)練,選出分類(lèi)準(zhǔn)確率最高的特征子集,并將其應(yīng)用到測(cè)試集進(jìn)行測(cè)試。為了能選擇出穩(wěn)定的最優(yōu)特征子集,重復(fù)實(shí)驗(yàn)過(guò)程500次,統(tǒng)計(jì)500次實(shí)驗(yàn)中測(cè)試集出現(xiàn)的最優(yōu)特征子集及其出現(xiàn)的次數(shù),最后把500 次實(shí)驗(yàn)中出現(xiàn)次數(shù)最多的最優(yōu)特征子集作為最終的最優(yōu)特征子集,篩選結(jié)果如表2 所示。從表2 中給出的篩選后的特征個(gè)數(shù)結(jié)果可知,與ReliefF-SVM 算法相比,在7 個(gè)UCI 數(shù)據(jù)集上MICReliefF-SVM 算法除對(duì)Connectionist Bench數(shù)據(jù)集篩選后保留相同的特征個(gè)數(shù)之外,在其他數(shù)據(jù)集上都篩除了更多的冗余特征,即能有效地減少樣本的特征維度。

        表2 各算法的特征篩選結(jié)果比較Tab.2 Comparison of feature filtering results of different algorithms

        為了驗(yàn)證MICReliefF-SVM 算法所選特征子集的分類(lèi)效果以及穩(wěn)定性,利用SVM 與ELM 兩種分類(lèi)模型,分別對(duì)表2篩選出的特征進(jìn)行測(cè)試,即分別采用SVM 與ELM 兩種分類(lèi)模型對(duì)利用MICReliefF-SVM 算法選取的特征子集、ReliefFSVM 算法選取的特征子集以及原始數(shù)據(jù)集中的全部特征進(jìn)行分類(lèi)。在SVM 分類(lèi)器中,采用RBF(Radial Basis Function)核函數(shù),核參數(shù)C=1,γ=100[11];在ELM 分類(lèi)器中,采用Sigmoid 核函數(shù),隱層節(jié)點(diǎn)的個(gè)數(shù)設(shè)置為20[29]。每次實(shí)驗(yàn)仍按照表1 所示的標(biāo)準(zhǔn)劃分訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集,實(shí)驗(yàn)100次,以平均準(zhǔn)確率Acc(Accuracy)、平均敏感度Sen(Sensitivity)、平均特異性Spe(Specificity)、平均精準(zhǔn)度Pre(Precision)以及平均F 值(F-measure)等作為評(píng)價(jià)指標(biāo)。上述評(píng)價(jià)指標(biāo)基于表3 混淆矩陣計(jì)算,其定義如下:

        表3 混淆矩陣Tab.3 Confusion matrix

        SVM 分類(lèi)模型中各評(píng)價(jià)指標(biāo)的平均值及其標(biāo)準(zhǔn)差如表4 所示。從表4 的數(shù)據(jù)可知:

        表4 各特征選擇算法在SVM模型中評(píng)價(jià)指標(biāo)的平均值與標(biāo)準(zhǔn)差比較Tab.4 Mean and standard deviation comparison of evaluation indexes among each feature selection algorithms in SVM model

        1)在WDBC 數(shù)據(jù)集中,利用ReliefF-SVM 算法與MICReliefF-SVM 算法選取的特征子集的Accuracy、Sensitivity、F 值指標(biāo)的平均值均優(yōu)于采用原始數(shù)據(jù)集中的全部特征,且MICReliefF-SVM 算法結(jié)果整體最優(yōu)。對(duì)于標(biāo)準(zhǔn)差而言,除Specificity外,Accuracy、Sensitivity、Precision、F 值的標(biāo)準(zhǔn)差均優(yōu)于采用原始數(shù)據(jù)集中的全部特征。

        2)在Ionosphere 數(shù)據(jù)集中,除Sensitivity 指標(biāo)外,利用ReliefF-SVM 算法與MICReliefF-SVM 算法選取的特征子集的Accuracy、Specificity、Precision、F 值的平均值及其標(biāo)準(zhǔn)差均優(yōu)于采用原始數(shù)據(jù)集中的全部特征,且MICReliefF-SVM 算法結(jié)果最優(yōu)。

        3)在Horse Colic數(shù)據(jù)集中,利用ReliefF-SVM 算法與MICReliefF-SVM 算法選取的特征子集的各指標(biāo)的平均值及其標(biāo)準(zhǔn)差均優(yōu)于采用原始數(shù)據(jù)集中的全部特征,且MICReliefF-SVM 算法結(jié)果最優(yōu)。

        4)在Mushroom 數(shù)據(jù)集中,利用ReliefF-SVM 算法與MICReliefF-SVM 算法選取的特征子集的Accuracy、Sensitivity、Specificity、Precision、F 值的平均值均優(yōu)于采用原始數(shù)據(jù)集中的全部特征,其中,MICReliefF-SVM 算法選取的特征子集的Accuracy、Sensitivity、F 值指標(biāo)結(jié)果優(yōu)于ReliefFSVM 算法。對(duì)于標(biāo)準(zhǔn)差而言,利用ReliefF-SVM 算法與MICReliefF-SVM 算法選取的特征子集與原始數(shù)據(jù)集在精確到小數(shù)后4 位時(shí),標(biāo)準(zhǔn)差均為0。

        5)在Parkinsons 數(shù)據(jù)集中,除Sensitivity 指標(biāo)外,利用ReliefF-SVM 算法與MICReliefF-SVM 算法選取的特征子集的各指標(biāo)的平均值均優(yōu)于采用原始數(shù)據(jù)集中的全部特征,且MICReliefF-SVM 算法結(jié)果最優(yōu),利用ReliefF-SVM 算法與MICReliefF-SVM 算法選取的特征子集的各指標(biāo)的標(biāo)準(zhǔn)差均優(yōu)于采用原始數(shù)據(jù)集中的全部特征。

        6)在Connectionist Bench 數(shù)據(jù)集中,利用MICReliefFSVM 算法選取的特征子集的各指標(biāo)的平均值及其標(biāo)準(zhǔn)差均優(yōu)于利用ReliefF-SVM 算法選取的特征子集以及采用原始數(shù)據(jù)集中的全部特征,除Sensitivity 指標(biāo)的均值外,利用ReliefF-SVM 算法選取的特征子集各指標(biāo)的平均值及其標(biāo)準(zhǔn)差均優(yōu)于采用原始數(shù)據(jù)集中的全部特征。

        7)在Musk 數(shù)據(jù)集中,利用ReliefF-SVM 算法與MICReliefF-SVM 算法選取的特征子集的Accuracy、Specificity、Precision、F 值指標(biāo)的平均值均優(yōu)于采用原始數(shù)據(jù)集中的全部特征,且MICReliefF-SVM 算法結(jié)果整體最優(yōu)。對(duì)于標(biāo)準(zhǔn)差而言,MICReliefF-SVM 算法選取的特征子集的指標(biāo)除Specificity 劣于ReliefF-SVM 算法外,Accuracy、Sensitivity、Precision、F 值的標(biāo)準(zhǔn)差均優(yōu)于ReliefF-SVM 算法選取的特征子集和采用原始數(shù)據(jù)集中的全部特征。

        ELM 分類(lèi)模型中各評(píng)價(jià)指標(biāo)的平均值及其標(biāo)準(zhǔn)差如表5 所示。

        表5 各特征選擇算法在ELM模型中評(píng)價(jià)指標(biāo)的平均值與標(biāo)準(zhǔn)差比較Tab.5 Mean and standard deviation comparison of evaluation indexes among each feature selection algorithms in ELM model

        從表5 可知:

        1)在WDBC 數(shù)據(jù)集中,利用ReliefF-SVM 算法與MICReliefF-SVM 算法選取的特征子集的各指標(biāo)的平均值均優(yōu)于采用原始數(shù)據(jù)集中的全部特征;其中,利用MICReliefFSVM 算法選取的特征子集的Accuracy、Sensitivity 以及F 值指標(biāo)的平均值高于ReliefF-SVM 算法選取的特征子集。對(duì)于標(biāo)準(zhǔn)差而言,利用ReliefF-SVM 算法與MICReliefF-SVM 算法選取的特征子集的Sensitivity、Precision、F 值指標(biāo)的標(biāo)準(zhǔn)差均優(yōu)于采用原始數(shù)據(jù)集中的全部特征。

        2)在Ionosphere 數(shù)據(jù)集中,除Sensitivity 指標(biāo)外,利用MICReliefF-SVM 算法選取的特征子集的Accuracy、Specificity、Precision、F 值的平均值及其標(biāo)準(zhǔn)差均優(yōu)于利用ReliefF-SVM 算法選取的特征子集以及采用原始數(shù)據(jù)集中的全部特征,且ReliefF-SVM 算法選取的特征子集各指標(biāo)的平均值及其標(biāo)準(zhǔn)差均優(yōu)于采用原始數(shù)據(jù)集中的全部特征。

        3)在Horse Colic 數(shù)據(jù)集中,利用ReliefF-SVM算法與MICReliefF-SVM 算法選取的特征子集的各指標(biāo)的平均值及其標(biāo)準(zhǔn)差均優(yōu)于采用原始數(shù)據(jù)集中的全部特征,且MICReliefF-SVM 算法結(jié)果最優(yōu)。

        4)在Mushroom 數(shù)據(jù)集中,利用MICReliefF-SVM 算法選取的特征子集的Accuracy、Sensitivity、F 值的平均值均優(yōu)于利用ReliefF-SVM 算法選取的特征子集與采用原始數(shù)據(jù)集中的全部特征,且ReliefF-SVM 算法選取的特征子集各指標(biāo)的平均值均優(yōu)于采用原始數(shù)據(jù)集中的全部特征;對(duì)于標(biāo)準(zhǔn)差而言,利用ReliefF-SVM 算法與MICReliefF-SVM 算法選取的特征子集的標(biāo)準(zhǔn)差整體優(yōu)于采用原始數(shù)據(jù)集中的全部特征。

        5)在Parkinsons、Connectionist Bench 和Musk 數(shù)據(jù)集中,利用ReliefF-SVM 算法與MICReliefF-SVM 算法選取的特征子集的各指標(biāo)的平均值及其標(biāo)準(zhǔn)差均優(yōu)于采用原始數(shù)據(jù)集中的全部特征,且MICReliefF-SVM 算法結(jié)果最優(yōu)。

        SVM 模型與ELM 模型的測(cè)試結(jié)果均證明,MICReliefFSVM 算法可以在減少樣本特征維度的同時(shí),有效提高分類(lèi)準(zhǔn)確率,該算法不僅能夠自動(dòng)選擇出分類(lèi)準(zhǔn)確率良好的特征子集,而且選取的特征子集具有一定的穩(wěn)定性和泛化能力。

        為了探究MICReliefF-SVM 算法的計(jì)算效率,本文統(tǒng)計(jì)了采用SVM 與ELM 兩種分類(lèi)模型對(duì)MICReliefF-SVM 算法選取的特征子集、ReliefF-SVM 算法選取的特征子集以及原始數(shù)據(jù)集中的全部特征進(jìn)行分類(lèi)時(shí)100 次實(shí)驗(yàn)的總運(yùn)行時(shí)間,結(jié)果如表6 所示。

        從表6 可以看出:在SVM 和ELM 兩種分類(lèi)模型中,對(duì)MICReliefF-SVM 算法選取的特征子集、ReliefF-SVM 算法選取的特征子集進(jìn)行分類(lèi)的運(yùn)算時(shí)間均短于對(duì)原始數(shù)據(jù)集中的全部特征進(jìn)行分類(lèi)的時(shí)間,其中MICReliefF-SVM 算法選取的特征子集的分類(lèi)時(shí)間最短,即計(jì)算效率最高。說(shuō)明本文提出的MICReliefF-SVM 算法可以有效地提高后續(xù)學(xué)習(xí)算法的計(jì)算效率,進(jìn)一步說(shuō)明了MICReliefF-SVM 算法的有效性。

        表6 不同特征選擇算法在SVM模型和ELM模型中的運(yùn)行時(shí)間比較 單位:sTab.6 Comparison of running time among different feature selection algorithms in SVM model and ELM model unit:s

        為進(jìn)一步驗(yàn)證MICReliefF-SVM 算法的有效性,本文在7個(gè)數(shù)據(jù)集上分別利用SVM 與ELM 分類(lèi)模型比較了MICReliefF-SVM 算法與MI、mRMR、支持向量機(jī)遞歸特征消除(Support Vector Machines-Recursive Feature Elimination,SVM-RFE)、相關(guān)性特征選擇(Correlation-based Feature Selection,CFS)、隨機(jī)森林(Random Forest,RF)、遺傳算法(Genetic Algorithm,GA)[30-33]六種經(jīng)典的傳統(tǒng)特征選擇算法的分類(lèi)準(zhǔn)確率,每次實(shí)驗(yàn)仍按照表1 所示的標(biāo)準(zhǔn)劃分訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集,實(shí)驗(yàn)100次,求其平均準(zhǔn)確率作為評(píng)價(jià)標(biāo)準(zhǔn)。

        各特征選擇算法在SVM 分類(lèi)模型中的實(shí)驗(yàn)結(jié)果如表7所示。從表7 中給出的結(jié)果可知:MICReliefF-SVM 算法除了在Mushroom 數(shù)據(jù)集上的準(zhǔn)確率稍劣于RF 特征選擇算法外,在其他6 個(gè)數(shù)據(jù)集上的準(zhǔn)確率均優(yōu)于對(duì)比算法。各特征選擇算法在ELM 分類(lèi)模型中的實(shí)驗(yàn)結(jié)果如表8 所示。從表8中給出的結(jié)果可知:MICReliefF-SVM 算法除在Mushroom 數(shù)據(jù)集和Musk 數(shù)據(jù)集上的準(zhǔn)確率劣于RF 特征選擇算法,在其他6 個(gè)數(shù)據(jù)集上的準(zhǔn)確率均優(yōu)于對(duì)比算法。因此,MICReliefF-SVM 算法所選特征子集的分類(lèi)能力整體上要優(yōu)于對(duì)比算法。

        表7 不同特征選擇算法在SVM模型中的分類(lèi)準(zhǔn)確率對(duì)比Tab.7 Comparison of classification accuracy among different feature selection algorithms in SVM model

        表8 不同特征選擇算法在ELM模型中的分類(lèi)準(zhǔn)確率對(duì)比Tab.8 Comparison of classification accuracy among different feature selection algorithms in ELM model

        4 結(jié)語(yǔ)

        本文提出了一種MICReliefF-SVM 交互的自動(dòng)特征選擇算法,采用多個(gè)UCI 數(shù)據(jù)集對(duì)算法的有效性進(jìn)行驗(yàn)證。研究結(jié)果表明:

        1)與ReliefF 算法相比,MICReliefF-SVM 算法在特征冗余的篩選上具有一定的優(yōu)勢(shì)。利用SVM 與ELM 分類(lèi)模型對(duì)UCI 多個(gè)公開(kāi)數(shù)據(jù)集上的數(shù)據(jù)進(jìn)行分類(lèi)的對(duì)比實(shí)驗(yàn)結(jié)果表明,MICReliefF-SVM 算法在減少樣本特征維度的同時(shí),有效提高了分類(lèi)準(zhǔn)確率,且該算法可以實(shí)現(xiàn)分類(lèi)準(zhǔn)確率良好的特征子集的自動(dòng)選擇,選取的特征子集具有一定的穩(wěn)定性和泛化能力。

        2)與經(jīng)典MI、mRMR、SVM-RFE、CFS、RF 以及GA 特征選擇算法相比,MICReliefF-SVM 算法所選特征子集整體上具有更好的分類(lèi)能力。

        在未來(lái)的工作中,將會(huì)繼續(xù)對(duì)提高ReliefF 算法的穩(wěn)定性以及該算法在處理高維特征數(shù)據(jù)方面的應(yīng)用進(jìn)行研究。

        猜你喜歡
        原始數(shù)據(jù)特征選擇子集
        由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
        GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
        拓?fù)淇臻g中緊致子集的性質(zhì)研究
        受特定變化趨勢(shì)限制的傳感器數(shù)據(jù)處理方法研究
        關(guān)于奇數(shù)階二元子集的分離序列
        全新Mentor DRS360 平臺(tái)借助集中式原始數(shù)據(jù)融合及直接實(shí)時(shí)傳感技術(shù)實(shí)現(xiàn)5 級(jí)自動(dòng)駕駛
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        每一次愛(ài)情都只是愛(ài)情的子集
        都市麗人(2015年4期)2015-03-20 13:33:22
        基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
        亚洲最黄视频一区二区| 首页 综合国产 亚洲 丝袜| 国产女女做受ⅹxx高潮| 亚洲大片免费| 日本加勒比一道本东京热| 亚洲tv精品一区二区三区| 亚洲午夜福利在线视频| 欧美日韩中文制服有码| 一区二区三区在线蜜桃| 久久96日本精品久久久| 男ji大巴进入女人的视频小说| 中文字幕福利视频| av毛片在线播放网址| 久久一区二区三区老熟女| 99精品国产在热久久无码 | 岛国视频在线无码| 日本高级黄色一区二区三区| 性按摩xxxx在线观看| 韩国19禁主播深夜福利视频| 成人av天堂一区二区| 邻居人妻的肉欲满足中文字幕| 久久久久亚洲av成人网人人网站| 欧洲午夜视频| 国产三级在线观看高清| 亚洲 欧美 偷自乱 图片| 国产呦系列呦交| 中文字幕天天躁日日躁狠狠| 亚洲成a人一区二区三区久久| 中国美女a级毛片| 亚洲欧洲日产国码高潮αv| 操B小视频国产| 19款日产奇骏车怎么样| 少妇性饥渴bbbbb搡bbbb| 成年奭片免费观看视频天天看| 青青草视频在线播放观看| 中国美女a级毛片| 亚洲色欲在线播放一区| 偷柏自拍亚洲综合在线| 午夜dv内射一区二区| 国产午夜福利小视频合集| 日本视频精品一区二区|