亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于加權(quán)社區(qū)檢測(cè)與增強(qiáng)人工蟻群算法的高維數(shù)據(jù)特征選擇

        2019-09-13 03:38:50巫紅霞
        關(guān)鍵詞:高維特征選擇分類器

        巫紅霞 謝 強(qiáng)

        1(鎮(zhèn)江市高等專科學(xué)校裝備制造學(xué)院 江蘇 鎮(zhèn)江 212000)2(南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 江蘇 南京 210016)

        0 引 言

        特征選擇是數(shù)據(jù)處理與模式識(shí)別領(lǐng)域的基礎(chǔ)性研究,其性能直接影響分類器、模式匹配等應(yīng)用的分類精度與泛化性能[1]。特征選擇的目標(biāo)是從特征集中選出判別性高、冗余度低的特征子集,降低數(shù)據(jù)集的維度,并降低不相關(guān)特征對(duì)數(shù)據(jù)分析的干擾,從而提高數(shù)據(jù)分析的效果與效率[2]。目前已存在大量有效的特征選擇算法,并且已經(jīng)成功地應(yīng)用于低維數(shù)據(jù)領(lǐng)域[3],但許多特征選擇方法在高維海量或高維小樣本數(shù)據(jù)集的處理過程中,存在計(jì)算開銷過大或過學(xué)習(xí)的問題[4]。

        在生物信息學(xué)、基因表達(dá)譜微陣列和圖像識(shí)別等領(lǐng)域中,高維小樣本數(shù)據(jù)容易引發(fā)“維數(shù)災(zāi)難”和過擬合問題,成為了亟待解決的難題。高維度導(dǎo)致計(jì)算復(fù)雜度高且分類器性能差,樣本少則導(dǎo)致分類器學(xué)習(xí)效果差[5]。許多研究人員針對(duì)高維小樣本數(shù)據(jù)提出了有效的解決方案,包括結(jié)合隨機(jī)森林和鄰域粗糙集的特征選擇[6]、基于文化基因算法和最小二乘支持向量機(jī)的特征選擇[7]、基于協(xié)方差估計(jì)多元回歸的特征選擇[8]等。為了提高特征選擇的效果,文獻(xiàn)[6]引入了隨機(jī)森林分類與粗糙集計(jì)算,文獻(xiàn)[7]引入了文化基因與最小二乘SVM,文獻(xiàn)[8]則引入了多元回歸模型等。這些算法對(duì)所有的特征進(jìn)行高復(fù)雜度的運(yùn)算,導(dǎo)致計(jì)算成本極高,難以運(yùn)用于實(shí)際的工程應(yīng)用。文獻(xiàn)[9]的GCACO算法是一種性能較好的高維數(shù)據(jù)特征選擇算法,該算法將特征分類,然后采用ACO(Ant Colony Optimization)算法對(duì)每個(gè)特征分類進(jìn)行尋優(yōu)處理。該算法將特征子集建模為完全圖,導(dǎo)致模型復(fù)雜度較高。

        減少冗余特征與不相關(guān)特征是特征選擇的兩個(gè)目標(biāo),許多研究將減少不相關(guān)特征作為目標(biāo),而忽略了冗余特征對(duì)分類性能的干擾[10]。特征選擇主要可分為3類:過濾式、封裝式和嵌入式,過濾式方法具有結(jié)構(gòu)簡(jiǎn)單、訓(xùn)練速度快、獨(dú)立于具體訓(xùn)練模型的優(yōu)點(diǎn)。過濾式方法對(duì)于高維數(shù)據(jù)的計(jì)算速度快,因此本文采用過濾式方法。此外,本文算法同時(shí)將減少不相關(guān)特征與冗余特征作為研究目標(biāo),提出了無監(jiān)督的高維數(shù)據(jù)特征選擇算法。在特征選擇過程中采用人工蟻群算法對(duì)特征進(jìn)行了高效的尋優(yōu)處理,提取出最優(yōu)的特征子集。

        1 特征選擇的問題模型

        常規(guī)的ACO算法一般基于完全圖進(jìn)行搜索處理,但文獻(xiàn)[9]將特征選擇建模為完全圖,其算法復(fù)雜度較高。此外,因?yàn)樘卣鬟x擇問題的搜索空間有限,所以ACO算法容易陷入局部最優(yōu)。許多高維特征選擇算法并未考慮特征之間的冗余度。針對(duì)上述問題,本文設(shè)計(jì)了新的特征選擇模型。

        1.1 ACO的搜索空間表示

        圖1 特征選擇問題的循環(huán)無向加權(quán)圖

        1.2 特征相似性評(píng)價(jià)

        采用Pearson相關(guān)系數(shù)的絕對(duì)值評(píng)估特征之間的相似性:

        (1)

        (2)

        (3)

        1.3 刪除冗余特征

        許多研究[12]通過計(jì)算當(dāng)前特征集與之前特征集之間的相似性來選擇冗余特征,但在一些特殊情況下,少量變化劇烈的特征導(dǎo)致當(dāng)前特征集與之前特征集的平均相似性較低。為了避免該問題,從當(dāng)前特征集中選出q個(gè)相關(guān)性最高的特征,計(jì)算q個(gè)特征與之前特征集的平均相似性。最終的平均相似性定義為:

        (4)

        式中:Γk為q個(gè)相似性最大的特征集;k為之前選擇的特征集大??;l為之前選擇的特征集。上述的每個(gè)特征集對(duì)應(yīng)人工蟻群算法每次迭代所選擇的網(wǎng)絡(luò)節(jié)點(diǎn)集。

        2 增強(qiáng)的蟻群優(yōu)化算法與高維特征選擇

        2.1 增強(qiáng)蟻群算法的局部開發(fā)能力

        為了防止蟻群在搜索過程中陷入局部最優(yōu),為蟻群算法引入兩個(gè)隨機(jī)算子與一個(gè)變異算子:(1) 隨機(jī)位置(隨機(jī)決定螞蟻開始移動(dòng)的節(jié)點(diǎn));(2) 隨機(jī)方向(隨機(jī)決定螞蟻的移動(dòng)方向);(3) 節(jié)點(diǎn)變異。

        受遺傳算法的啟發(fā),設(shè)計(jì)了變異算子來增加搜索空間的狀態(tài)數(shù)量,以防止發(fā)生早熟收斂。隨機(jī)性算子與變異算子的實(shí)現(xiàn)方法為:ACO的第一次迭代將蟻群隨機(jī)分布于圖中各個(gè)節(jié)點(diǎn);在每次迭代中,基于變異算子的條件交叉圖中的指定節(jié)點(diǎn),蟻群在新的圖模型中游走。通過評(píng)估連續(xù)兩次迭代的信息素改變率來決定是否應(yīng)用變異算子,歸一化的信息素改變率定義為:

        (5)

        變異率決定了變異的發(fā)生概率,人工蟻群算法在早期階段具有很強(qiáng)的全局搜索能力,在迭代過程中局部開發(fā)能力與收斂性逐漸提高。所以本文算法在第一次迭代的變異率設(shè)為最大值0.2,在迭代過程中逐漸降低變異率,從而在全局搜索與局部開發(fā)之間尋求平衡。

        2.2 增強(qiáng)的蟻群優(yōu)化算法

        基于增強(qiáng)的蟻群優(yōu)化算法(Enhanced Ant Colony Optimization,EACO)的特征選擇算法如算法1所示。EACO的每次迭代中,將一個(gè)螞蟻隨機(jī)置于圖中,然后,隨機(jī)決定螞蟻的移動(dòng)方向(順時(shí)針或者逆時(shí)針方向)。隨后螞蟻在循環(huán)圖中游走,直至返回起點(diǎn)位置。一般情況下,信息方差大的特征包含的信息更為豐富,因此選擇方差最高的特征進(jìn)行狀態(tài)切換。每個(gè)節(jié)點(diǎn)被蟻群選擇與刪除的次數(shù)定義為特征的狀態(tài)計(jì)數(shù)器,每次迭代的結(jié)束階段更新節(jié)點(diǎn)的信息素值(特征狀態(tài)計(jì)數(shù)器)。在達(dá)到結(jié)束條件之后,選擇信息素最高的特征作為最終的特征集。

        算法1基于EACO的特征選擇算法

        輸出:基于信息素排列的特征集

        2. 計(jì)算啟發(fā)式信息;

        /*式(3)、式(4)*/

        3. 節(jié)點(diǎn)的信息素初始化為常量τ0;

        4. 創(chuàng)建startnodes與finalnodes兩個(gè)列表;

        5. foreachtfrom 1 toIter

        6.mutationrate=0.2;

        /*變異率初始化為1*/

        7.mutationcondition=Phr(t)-Phr(t-1);

        8. ifmutationcondition>0

        9. 圖中的startnodes與finalnodes應(yīng)用變異算子;

        /*隨機(jī)選擇30%的節(jié)點(diǎn),切換其狀態(tài)*/

        10.mutationrate=mutationrate-(0.2/Iter);

        /*變異率遞減*/

        11.FSCil=0;

        /*初始化為0*/

        12. 將蟻群隨機(jī)分布于變異圖上;

        13. foreachjfrom 1 toAntsdo

        14. 隨機(jī)決定螞蟻的方向;

        15. 蟻群保持移動(dòng);

        16. 蟻群根據(jù)狀態(tài)切換規(guī)則選擇或者取消一個(gè)節(jié)點(diǎn)

        /*式(6)*/

        17.FSCis=FSCis+1;

        18. 計(jì)算信息素改變率;

        /*式(5)*/

        19. 更新信息素值;

        /*式(9)*/

        20. 基于FSC將startnodes與finalnodes兩個(gè)列表分別設(shè)為最優(yōu)節(jié)點(diǎn)與最差節(jié)點(diǎn);

        21. 特征集按信息素降序排列。

        2.3 特征的狀態(tài)切換規(guī)則

        特征的狀態(tài)切換規(guī)則定義為:

        (6)

        (7)

        如果γ大于θ,那么應(yīng)用概率規(guī)則:

        (8)

        式中:γ0為一個(gè)隨機(jī)值。

        2.4 EACO的信息素更新策略

        每次迭代需更新每條邊的信息素,EACO的信息素更新策略定義為:

        (9)

        3 基于社區(qū)檢測(cè)的并行特征選擇方法

        人工蟻群算法的求解效果較好,但是計(jì)算成本較高,因此設(shè)計(jì)了基于社區(qū)檢測(cè)的并行特征選擇方法。通過加權(quán)社區(qū)檢測(cè)技術(shù)將特征集分類,對(duì)每個(gè)分類分別采用EACO并行地選擇特征集,然后設(shè)計(jì)了全局的競(jìng)爭(zhēng)機(jī)制處理所有分類的最優(yōu)特征,選出全局最優(yōu)的特征集。本方法同時(shí)提高了特征選擇的性能與計(jì)算效率。

        3.1 基于加權(quán)社區(qū)檢測(cè)的特征分類

        社區(qū)檢測(cè)算法通過最大化模塊化函數(shù)實(shí)現(xiàn)對(duì)節(jié)點(diǎn)的分類處理,社區(qū)檢測(cè)算法的實(shí)現(xiàn)簡(jiǎn)單、性能較好,但是并未考慮特征子集之間的判別能力差異,因此本文設(shè)計(jì)了加權(quán)的社區(qū)檢測(cè)算法。圖2為特征集的社區(qū)檢測(cè)示意圖。

        圖2 社區(qū)檢測(cè)的示意圖

        (1) 模塊度函數(shù)。模塊度函數(shù)評(píng)估社區(qū)劃分的質(zhì)量,定義為社區(qū)內(nèi)部的總邊數(shù)與網(wǎng)絡(luò)中總邊數(shù)的比例減去一個(gè)期望值。該期望值是將網(wǎng)絡(luò)設(shè)定為隨機(jī)網(wǎng)絡(luò)同樣的社區(qū)劃分所形成的社區(qū)內(nèi)部總邊數(shù)和網(wǎng)絡(luò)總邊數(shù)的比例。假設(shè)一個(gè)加權(quán)網(wǎng)絡(luò)共有N個(gè)節(jié)點(diǎn)與L條邊,若將網(wǎng)絡(luò)分為c個(gè)社區(qū),那么模塊度函數(shù)Q定義為:

        (10)

        式中:A為鄰接矩陣,Axy={0,1},1表示節(jié)點(diǎn)x與y之間存在一條邊。Pxy為x與y之間邊的期望值,Cx與Cy分別為x與y的社區(qū),δ函數(shù)定義為:

        (11)

        一般通過配置模型計(jì)算邊的期望值,定義為Pxy=kxky/2L,kx與ky分別為節(jié)點(diǎn)x與y的度。據(jù)此將式(10)改寫為:

        (12)

        網(wǎng)絡(luò)的總模塊度定義為節(jié)點(diǎn)對(duì)每個(gè)社區(qū)的模塊度之和:

        (13)

        式中:li為社區(qū)i中邊的總數(shù)量;di為社區(qū)i中節(jié)點(diǎn)度的總和。因此eii=li/L為社區(qū)i中邊的分?jǐn)?shù),ai=di/2L為至少一個(gè)端點(diǎn)在社區(qū)i中的邊分?jǐn)?shù)。

        (2) 加權(quán)的模塊化函數(shù)。通過最大化模塊度的社區(qū)檢測(cè)算法存在分辨率的問題,傳統(tǒng)的模塊度方法計(jì)算所有社區(qū)的模塊度qi之和,將所有社區(qū)的貢獻(xiàn)度視為相等。該方法傾向于將小社區(qū)組成大社區(qū),從而實(shí)現(xiàn)較高的模塊度。而在高維數(shù)據(jù)特征分類的應(yīng)用場(chǎng)景中,基于相似性將特征分類,但相似性并未反映特征的判別能力,因此傳統(tǒng)的模塊度社區(qū)檢測(cè)算法無法直接處理特征分類問題。

        為了解決上述問題,通過為模塊度函數(shù)引入一個(gè)權(quán)重項(xiàng)來區(qū)分強(qiáng)弱社區(qū)。加權(quán)的模塊度函數(shù)定義為:

        (14)

        (15)

        式中:Qw為網(wǎng)絡(luò)的加權(quán)模塊度;ni為社區(qū)i的節(jié)點(diǎn)數(shù)量。權(quán)重λi反映了社區(qū)的強(qiáng)度,即社區(qū)中邊與最大值的比例,λiqi表示社區(qū)之間的相似度。權(quán)重λ的作用是確保強(qiáng)連接社區(qū)的貢獻(xiàn)度被分配較高的權(quán)重,而弱連接社區(qū)的貢獻(xiàn)度被分配較低的權(quán)重。

        (3) 最大化加權(quán)模塊度的社區(qū)檢測(cè)。首先,將網(wǎng)絡(luò)的各個(gè)節(jié)點(diǎn)設(shè)置一個(gè)社區(qū),網(wǎng)絡(luò)節(jié)點(diǎn)總數(shù)量為N則設(shè)置N個(gè)社區(qū)。然后,采用貪婪策略遍歷每個(gè)社區(qū),將兩個(gè)社區(qū)合并,如果合并后的加權(quán)模塊度提高,那么產(chǎn)生新的社區(qū)劃分結(jié)果。重復(fù)該迭代過程直至獲得最大的加權(quán)模塊度。

        如果社區(qū)i與社區(qū)j合并,合并后的加權(quán)模塊度增益表示為:

        ΔQw(i,j)=λcom×qcom-[λi×qi+λj×qj]

        (7)

        式中:qcom與λcom分別為合并后新社區(qū)的模塊度與權(quán)重。每次迭代的社區(qū)節(jié)點(diǎn)總數(shù)量ncom、總度數(shù)dcom、邊數(shù)lcom、總權(quán)重λcom、模塊度qcom的計(jì)算公式為:

        (8)

        在每次迭代的結(jié)束階段,將矩陣的第i行替換為更新后的指標(biāo)值,即ni=ncom、li=lcom、di=dcom、qi=qcom、λi=λcom。算法2為基于貪婪加權(quán)模塊度的社區(qū)檢測(cè)算法。

        算法2基于貪婪加權(quán)模塊度的社區(qū)檢測(cè)

        /*網(wǎng)絡(luò)圖*/

        /*最優(yōu)社區(qū)劃分結(jié)果*/

        2. 計(jì)算網(wǎng)絡(luò)參數(shù)n,d,l,lext,Q,Qw;

        4. foreachcfromNto 1 do

        5. foreachi,j∈{1,2,…,c} do

        6. 式(7)計(jì)算u、v的模塊度增益;

        7. end for

        10.Qw=ΛTQ;

        /*Λ為權(quán)重向量,Q為模塊度向量*/

        13. end if

        14. end for

        (9)

        算法3社區(qū)檢測(cè)的局部?jī)?yōu)化程序

        /*最優(yōu)社區(qū)劃分結(jié)果*/

        1. 計(jì)算網(wǎng)絡(luò)參數(shù)n,d,l,lext,Q,Qw;

        3. foreachu,v∈{1,2,…,N} do

        4. 式(9)計(jì)算u、v的模塊度增益;

        5. end for

        9. goto 第3行;

        10. end if

        3.2 并行隊(duì)列的特征選擇

        每次循環(huán)提取每個(gè)特征類(隊(duì)列)的top-k特征;然后,應(yīng)用EACO處理所選的特征子集,從中選出K0個(gè)最優(yōu)特征。然后對(duì)剩余的特征隊(duì)列重復(fù)該過程,直至選出期望數(shù)量的特征子集。雖然該步驟重復(fù)了nf/K0次,nf為選擇的特征數(shù)量,但其時(shí)間成本遠(yuǎn)小于處理全部特征的情況,并且蟻群算法對(duì)于子圖的處理時(shí)間遠(yuǎn)小于處理全部特征的初始圖。圖3是并行隊(duì)列的特征選擇流程圖。

        圖3 并行隊(duì)列的特征選擇流程圖(K0=3)

        算法4為并行隊(duì)列的特征選擇算法。算法的第1、2行為并行的特征選擇處理,通過EACO處理每個(gè)分類,獲得特征隊(duì)列。第4~8行的循環(huán)體迭代地從每個(gè)隊(duì)列中選出全局最優(yōu)的特征子集。

        算法4并行隊(duì)列的特征選擇算法

        /*降維的數(shù)據(jù)集*/

        1. 特征分類;

        2. EACO處理每個(gè)特征分類,獲得特征隊(duì)列;

        3.k=nf/nc;K=K0;

        4. foreachifrom 1 tokdo

        5. 從每個(gè)隊(duì)列中選出top-K特征集FK;

        6. 根據(jù)信息素從FK中選出top-K特征子集;

        7. 更新特征隊(duì)列;

        8. end for

        為了實(shí)現(xiàn)全局地特征比較,應(yīng)當(dāng)將每個(gè)隊(duì)列的信息素做歸一化處理:

        (13)

        式中:τijl為類j中特征i的信息素;l=0與1分別對(duì)應(yīng)該特征被選擇與刪除;LCj為類j的特征數(shù)量;n為特征的總數(shù)量;nc為分類的數(shù)量。

        4 仿真實(shí)驗(yàn)與結(jié)果分析

        實(shí)驗(yàn)的硬件環(huán)境為Intel Xeon CPU E5- 2650 v3@2.3 GHz處理器,軟件環(huán)境為Ubuntu 16.04 LTS操作系統(tǒng)。采用C++語言編程實(shí)現(xiàn)相關(guān)算法。

        4.1 實(shí)驗(yàn)數(shù)據(jù)集

        實(shí)驗(yàn)采用兩組公開數(shù)據(jù)集,第一組為UCI數(shù)據(jù)集,表1為UCI數(shù)據(jù)集的基本屬性。第二組為高維數(shù)據(jù)集[13],表2為高維數(shù)據(jù)集的基本屬性。

        表1 UCI數(shù)據(jù)集的基本屬性

        表2 高維數(shù)據(jù)集的基本屬性

        4.2 分類器與性能評(píng)價(jià)指標(biāo)

        (1) 分類器選擇 本算法是一個(gè)過濾式特征選擇算法,一般將過濾式特征選擇算法與分類器結(jié)合,通過分類的性能評(píng)價(jià)特征選擇算法的性能。為了排除不同分類器的影響,采用四種常用的分類器進(jìn)行實(shí)驗(yàn),分別為SVM(支持向量機(jī))、DT(決策樹)、KNN(k-近鄰分類器)、RF(隨機(jī)森林分類器)。

        (2) 性能評(píng)價(jià)指標(biāo) 根據(jù)文獻(xiàn)[14],分類誤差率CER是評(píng)價(jià)特征選擇算法的有效指標(biāo),CER值越小表示分類性能越高,CER定義為:

        CER=錯(cuò)誤分類的樣本/樣本總數(shù)量

        (15)

        4.3 仿真參數(shù)設(shè)置

        蟻群算法的最大迭代次數(shù)設(shè)為50,信息素?fù)]發(fā)率設(shè)為0.2,信息素初始值設(shè)為0.2,變異特征的概率設(shè)為30%,蟻群規(guī)模設(shè)為數(shù)據(jù)的特征數(shù)量,如果數(shù)據(jù)集的特征數(shù)量大于100,統(tǒng)一將蟻群規(guī)模設(shè)為100。

        4.4 分類器性能的結(jié)果

        本文采用K-折交叉檢驗(yàn)評(píng)估分類器的性能。本算法與其他無監(jiān)督的過濾式特征選擇算法比較,分別為HGSA[15]、FSHD[16]和BGWOFS[17]。其中:HGSA也采用了與本文算法相似的人工蟻群優(yōu)化;FSHD是一種新穎的高維數(shù)據(jù)特征選擇算法,采用正則化機(jī)制對(duì)高維度冗余做懲罰處理,通過反饋機(jī)制學(xué)習(xí)優(yōu)質(zhì)的特征子集;BGWOFS則是一種基于灰狼優(yōu)化算法的特征選擇算法。

        圖4-圖7分別為SVM、DT、KNN、RF四個(gè)分類器的特征選擇結(jié)果,每組實(shí)驗(yàn)獨(dú)立地重復(fù)10次,計(jì)算10次CER值的平均值與標(biāo)準(zhǔn)偏差作為統(tǒng)計(jì)結(jié)果。從圖中可看出,本算法對(duì)于SpamBase、Madelon兩個(gè)模式數(shù)量較多的數(shù)據(jù)集實(shí)現(xiàn)了較好的分類性能,其結(jié)果優(yōu)于其他三種算法。此外,本算法那對(duì)于特征規(guī)模較大的Leukemia數(shù)據(jù)集表現(xiàn)出了較高的分類性能,明顯地優(yōu)于其他三個(gè)算法。最終,本文算法對(duì)于四個(gè)不同的分類器均表現(xiàn)出較好的分類效果,說明本算法選擇的特征集具有較好的判別能力、較低的冗余度與不相關(guān)性,并且具有較高的穩(wěn)定性。

        圖6 KNN分類器的結(jié)果

        圖7 RF分類器的結(jié)果

        4.5 算法的時(shí)間效率

        每組實(shí)驗(yàn)獨(dú)立地重復(fù)10次,計(jì)算10次算法處理時(shí)間的平均值作為統(tǒng)計(jì)結(jié)果。表3是4個(gè)算法處理各個(gè)數(shù)據(jù)集的平均時(shí)間。HGSA與BGWOFS是兩個(gè)基于種群的特征選擇算法,這兩個(gè)算法的計(jì)算時(shí)間隨著特征規(guī)模的增加而劇烈增加。FSHD則是一種分布式的特征選擇算法,其計(jì)算時(shí)間隨著特征規(guī)模的增加呈現(xiàn)緩慢增長(zhǎng)的趨勢(shì)。本文算法是并行算法,即使對(duì)于大規(guī)模的特征集,本文算法也能分為若干的特征子集,并行地處理每個(gè)特征子集,而人工蟻群算法分別處理每個(gè)小規(guī)模的循環(huán)無向圖,實(shí)現(xiàn)了合理的計(jì)算成本。

        表3 4個(gè)算法處理各個(gè)數(shù)據(jù)集的平均時(shí)間 s

        4.6 對(duì)高維數(shù)據(jù)集的分類器性能

        上述實(shí)驗(yàn)評(píng)估了本算法對(duì)于低維數(shù)據(jù)集的性能,本算法的優(yōu)勢(shì)主要在于對(duì)高維數(shù)據(jù)集的處理效果。選擇另外兩個(gè)高維數(shù)據(jù)特征選擇算法與本算法比較,分別為:BKHAFS[18]、TSSLR[19]。BKHAFS是一種新型的基于二元磷蝦群的高維數(shù)據(jù)特征選擇算法,TSSLR則是一種基于兩階段稀疏Logistic回歸的高維數(shù)據(jù)特征選擇算法。

        圖8-圖11所示分別為三個(gè)高維數(shù)據(jù)特征選擇算法與SVM、DT、KNN和RF四個(gè)分類器的性能結(jié)果。每組實(shí)驗(yàn)獨(dú)立地重復(fù)10次,計(jì)算10次CER值的平均值與標(biāo)準(zhǔn)偏差作為統(tǒng)計(jì)結(jié)果。從圖中可看出,本算法對(duì)于文本數(shù)據(jù)集與微陣列數(shù)據(jù)集的處理性能均優(yōu)于其他兩個(gè)算法。主要原因在于BKHAFS與TSSLR均將減少不相關(guān)特征作為目標(biāo),而忽略了冗余特征對(duì)分類性能的干擾,導(dǎo)致特征集中包含噪聲與冗余特征,影響了分類器的分類性能。本算法則同時(shí)將減少不相關(guān)特征與減少冗余度作為目標(biāo),實(shí)現(xiàn)了較好的特征提取結(jié)果。

        圖8 SVM分類器的結(jié)果

        圖9 NB分類器的結(jié)果

        圖10 DT分類器的結(jié)果

        圖11 RF分類器的結(jié)果

        5 結(jié) 語

        許多研究將減少不相關(guān)特征作為目標(biāo),而忽略了冗余特征對(duì)分類性能的干擾,本文將減少冗余特征與不相關(guān)特征作為特征選擇的兩個(gè)目標(biāo)。人工蟻群算法的求解效果較好,但是計(jì)算成本較高,為此設(shè)計(jì)了基于社區(qū)檢測(cè)的并行特征選擇方法。通過加權(quán)社區(qū)檢測(cè)技術(shù)將特征集分類,對(duì)每個(gè)分類分別采用EACO并行地選擇特征集,然后設(shè)計(jì)了全局的競(jìng)爭(zhēng)機(jī)制處理所有分類的最優(yōu)特征,選出全局最優(yōu)的特征集。本方法提高了特征選擇的性能,實(shí)現(xiàn)了合理的計(jì)算效率。

        本算法采用Pearson相關(guān)系數(shù)作為特征相似性的度量指標(biāo),未來將重點(diǎn)研究針對(duì)特定數(shù)據(jù)類型的相似性度量方法,從而提高特定應(yīng)用問題的特征選擇效果。

        猜你喜歡
        高維特征選擇分類器
        一種改進(jìn)的GP-CLIQUE自適應(yīng)高維子空間聚類算法
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        基于加權(quán)自學(xué)習(xí)散列的高維數(shù)據(jù)最近鄰查詢算法
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        一般非齊次非線性擴(kuò)散方程的等價(jià)變換和高維不變子空間
        高維Kramers系統(tǒng)離出點(diǎn)的分布問題
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
        91华人在线| 玩弄丰满奶水的女邻居| 久久精品99久久香蕉国产色戒| 国产一区日韩二区欧美三区| av草草久久久久久久久久久| 国产一区二区亚洲一区| 亚洲av色欲色欲www| 日本护士吞精囗交gif| 日韩精品久久久中文字幕人妻| 国产精品亚洲精品日韩动图| 少妇高潮在线精品观看| 日本免费a级毛一片| 欧美成人免费观看国产| 亚洲成av人片在久久性色av| 97精品人妻一区二区三区蜜桃| 成人国产精品一区二区网站公司| 亚洲旡码a∨一区二区三区| 无码一区二区三区网站| 人妻av中文字幕精品久久| 久久精品免费一区二区喷潮| 国产国语熟妇视频在线观看| 永久无码在线观看| 亚洲日本人妻中文字幕| 亚洲国产av综合一区| 东京热久久综合久久88| 99久久久无码国产精品9| 99成人无码精品视频| 亚洲日产乱码在线中文字幕| 免费av一区二区三区无码| 乱码午夜-极国产极内射 | 精品中文字幕久久久人妻| 东京热日本av在线观看| 无码一区二区三区亚洲人妻| 久久国产热精品波多野结衣av | 亚洲av永久无码精品一福利| 精品人妻系列无码人妻免费视频| 自拍亚洲一区欧美另类| 亚洲成生人免费av毛片| 国产精品久久久免费精品| 精品人妻无码一区二区三区蜜桃一 | 国产av一级片在线观看|