亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于加權(quán)社區(qū)檢測(cè)與增強(qiáng)人工蟻群算法的高維數(shù)據(jù)特征選擇

2019-09-13 03:38:50巫紅霞

計(jì)算機(jī)應(yīng)用與軟件 2019年9期

巫紅霞謝強(qiáng)

1(鎮(zhèn)江市高等專科學(xué)校裝備制造學(xué)院江蘇鎮(zhèn)江 212000)2(南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院江蘇南京 210016)

0 引言

特征選擇是數(shù)據(jù)處理與模式識(shí)別領(lǐng)域的基礎(chǔ)性研究，其性能直接影響分類器、模式匹配等應(yīng)用的分類精度與泛化性能[1]。特征選擇的目標(biāo)是從特征集中選出判別性高、冗余度低的特征子集，降低數(shù)據(jù)集的維度，并降低不相關(guān)特征對(duì)數(shù)據(jù)分析的干擾，從而提高數(shù)據(jù)分析的效果與效率[2]。目前已存在大量有效的特征選擇算法，并且已經(jīng)成功地應(yīng)用于低維數(shù)據(jù)領(lǐng)域[3]，但許多特征選擇方法在高維海量或高維小樣本數(shù)據(jù)集的處理過程中，存在計(jì)算開銷過大或過學(xué)習(xí)的問題[4]。

在生物信息學(xué)、基因表達(dá)譜微陣列和圖像識(shí)別等領(lǐng)域中，高維小樣本數(shù)據(jù)容易引發(fā)“維數(shù)災(zāi)難”和過擬合問題，成為了亟待解決的難題。高維度導(dǎo)致計(jì)算復(fù)雜度高且分類器性能差，樣本少則導(dǎo)致分類器學(xué)習(xí)效果差[5]。許多研究人員針對(duì)高維小樣本數(shù)據(jù)提出了有效的解決方案，包括結(jié)合隨機(jī)森林和鄰域粗糙集的特征選擇[6]、基于文化基因算法和最小二乘支持向量機(jī)的特征選擇[7]、基于協(xié)方差估計(jì)多元回歸的特征選擇[8]等。為了提高特征選擇的效果，文獻(xiàn)[6]引入了隨機(jī)森林分類與粗糙集計(jì)算，文獻(xiàn)[7]引入了文化基因與最小二乘SVM，文獻(xiàn)[8]則引入了多元回歸模型等。這些算法對(duì)所有的特征進(jìn)行高復(fù)雜度的運(yùn)算，導(dǎo)致計(jì)算成本極高，難以運(yùn)用于實(shí)際的工程應(yīng)用。文獻(xiàn)[9]的GCACO算法是一種性能較好的高維數(shù)據(jù)特征選擇算法，該算法將特征分類，然后采用ACO(Ant Colony Optimization)算法對(duì)每個(gè)特征分類進(jìn)行尋優(yōu)處理。該算法將特征子集建模為完全圖，導(dǎo)致模型復(fù)雜度較高。

減少冗余特征與不相關(guān)特征是特征選擇的兩個(gè)目標(biāo)，許多研究將減少不相關(guān)特征作為目標(biāo)，而忽略了冗余特征對(duì)分類性能的干擾[10]。特征選擇主要可分為3類：過濾式、封裝式和嵌入式，過濾式方法具有結(jié)構(gòu)簡(jiǎn)單、訓(xùn)練速度快、獨(dú)立于具體訓(xùn)練模型的優(yōu)點(diǎn)。過濾式方法對(duì)于高維數(shù)據(jù)的計(jì)算速度快，因此本文采用過濾式方法。此外，本文算法同時(shí)將減少不相關(guān)特征與冗余特征作為研究目標(biāo)，提出了無監(jiān)督的高維數(shù)據(jù)特征選擇算法。在特征選擇過程中采用人工蟻群算法對(duì)特征進(jìn)行了高效的尋優(yōu)處理，提取出最優(yōu)的特征子集。

1 特征選擇的問題模型

常規(guī)的ACO算法一般基于完全圖進(jìn)行搜索處理，但文獻(xiàn)[9]將特征選擇建模為完全圖，其算法復(fù)雜度較高。此外，因?yàn)樘卣鬟x擇問題的搜索空間有限，所以ACO算法容易陷入局部最優(yōu)。許多高維特征選擇算法并未考慮特征之間的冗余度。針對(duì)上述問題，本文設(shè)計(jì)了新的特征選擇模型。

1.1 ACO的搜索空間表示

圖1 特征選擇問題的循環(huán)無向加權(quán)圖

1.2 特征相似性評(píng)價(jià)

采用Pearson相關(guān)系數(shù)的絕對(duì)值評(píng)估特征之間的相似性：

(1)

(2)

(3)

1.3 刪除冗余特征

許多研究[12]通過計(jì)算當(dāng)前特征集與之前特征集之間的相似性來選擇冗余特征，但在一些特殊情況下，少量變化劇烈的特征導(dǎo)致當(dāng)前特征集與之前特征集的平均相似性較低。為了避免該問題，從當(dāng)前特征集中選出q個(gè)相關(guān)性最高的特征，計(jì)算q個(gè)特征與之前特征集的平均相似性。最終的平均相似性定義為：

(4)

式中:Γk為q個(gè)相似性最大的特征集；k為之前選擇的特征集大??；l為之前選擇的特征集。上述的每個(gè)特征集對(duì)應(yīng)人工蟻群算法每次迭代所選擇的網(wǎng)絡(luò)節(jié)點(diǎn)集。

2 增強(qiáng)的蟻群優(yōu)化算法與高維特征選擇

2.1 增強(qiáng)蟻群算法的局部開發(fā)能力

為了防止蟻群在搜索過程中陷入局部最優(yōu)，為蟻群算法引入兩個(gè)隨機(jī)算子與一個(gè)變異算子：(1) 隨機(jī)位置(隨機(jī)決定螞蟻開始移動(dòng)的節(jié)點(diǎn))；(2) 隨機(jī)方向(隨機(jī)決定螞蟻的移動(dòng)方向)；(3) 節(jié)點(diǎn)變異。

受遺傳算法的啟發(fā)，設(shè)計(jì)了變異算子來增加搜索空間的狀態(tài)數(shù)量，以防止發(fā)生早熟收斂。隨機(jī)性算子與變異算子的實(shí)現(xiàn)方法為：ACO的第一次迭代將蟻群隨機(jī)分布于圖中各個(gè)節(jié)點(diǎn)；在每次迭代中，基于變異算子的條件交叉圖中的指定節(jié)點(diǎn)，蟻群在新的圖模型中游走。通過評(píng)估連續(xù)兩次迭代的信息素改變率來決定是否應(yīng)用變異算子，歸一化的信息素改變率定義為：

(5)

變異率決定了變異的發(fā)生概率，人工蟻群算法在早期階段具有很強(qiáng)的全局搜索能力，在迭代過程中局部開發(fā)能力與收斂性逐漸提高。所以本文算法在第一次迭代的變異率設(shè)為最大值0.2，在迭代過程中逐漸降低變異率，從而在全局搜索與局部開發(fā)之間尋求平衡。

2.2 增強(qiáng)的蟻群優(yōu)化算法

基于增強(qiáng)的蟻群優(yōu)化算法(Enhanced Ant Colony Optimization,EACO)的特征選擇算法如算法1所示。EACO的每次迭代中，將一個(gè)螞蟻隨機(jī)置于圖中，然后，隨機(jī)決定螞蟻的移動(dòng)方向(順時(shí)針或者逆時(shí)針方向)。隨后螞蟻在循環(huán)圖中游走，直至返回起點(diǎn)位置。一般情況下，信息方差大的特征包含的信息更為豐富，因此選擇方差最高的特征進(jìn)行狀態(tài)切換。每個(gè)節(jié)點(diǎn)被蟻群選擇與刪除的次數(shù)定義為特征的狀態(tài)計(jì)數(shù)器，每次迭代的結(jié)束階段更新節(jié)點(diǎn)的信息素值(特征狀態(tài)計(jì)數(shù)器)。在達(dá)到結(jié)束條件之后，選擇信息素最高的特征作為最終的特征集。

算法1基于EACO的特征選擇算法

輸出：基于信息素排列的特征集

2. 計(jì)算啟發(fā)式信息；

/*式(3)、式(4)*/

3. 節(jié)點(diǎn)的信息素初始化為常量τ0；

4. 創(chuàng)建startnodes與finalnodes兩個(gè)列表；

5. foreachtfrom 1 toIter

6.mutationrate=0.2；

/*變異率初始化為1*/

7.mutationcondition=Phr(t)-Phr(t-1)；

8. ifmutationcondition>0

9. 圖中的startnodes與finalnodes應(yīng)用變異算子；

/*隨機(jī)選擇30%的節(jié)點(diǎn)，切換其狀態(tài)*/

10.mutationrate=mutationrate-(0.2/Iter)；

/*變異率遞減*/

11.FSCil=0；

/*初始化為0*/

12. 將蟻群隨機(jī)分布于變異圖上；

13. foreachjfrom 1 toAntsdo

14. 隨機(jī)決定螞蟻的方向；

15. 蟻群保持移動(dòng)；

16. 蟻群根據(jù)狀態(tài)切換規(guī)則選擇或者取消一個(gè)節(jié)點(diǎn)

/*式(6)*/

17.FSCis=FSCis+1；

18. 計(jì)算信息素改變率；

/*式(5)*/

19. 更新信息素值；

/*式(9)*/

20. 基于FSC將startnodes與finalnodes兩個(gè)列表分別設(shè)為最優(yōu)節(jié)點(diǎn)與最差節(jié)點(diǎn)；

21. 特征集按信息素降序排列。

2.3 特征的狀態(tài)切換規(guī)則

特征的狀態(tài)切換規(guī)則定義為：

(6)

(7)

如果γ大于θ，那么應(yīng)用概率規(guī)則：

(8)

式中:γ0為一個(gè)隨機(jī)值。

2.4 EACO的信息素更新策略

每次迭代需更新每條邊的信息素，EACO的信息素更新策略定義為：

(9)

3 基于社區(qū)檢測(cè)的并行特征選擇方法

人工蟻群算法的求解效果較好，但是計(jì)算成本較高，因此設(shè)計(jì)了基于社區(qū)檢測(cè)的并行特征選擇方法。通過加權(quán)社區(qū)檢測(cè)技術(shù)將特征集分類，對(duì)每個(gè)分類分別采用EACO并行地選擇特征集，然后設(shè)計(jì)了全局的競(jìng)爭(zhēng)機(jī)制處理所有分類的最優(yōu)特征，選出全局最優(yōu)的特征集。本方法同時(shí)提高了特征選擇的性能與計(jì)算效率。

3.1 基于加權(quán)社區(qū)檢測(cè)的特征分類

社區(qū)檢測(cè)算法通過最大化模塊化函數(shù)實(shí)現(xiàn)對(duì)節(jié)點(diǎn)的分類處理，社區(qū)檢測(cè)算法的實(shí)現(xiàn)簡(jiǎn)單、性能較好，但是并未考慮特征子集之間的判別能力差異，因此本文設(shè)計(jì)了加權(quán)的社區(qū)檢測(cè)算法。圖2為特征集的社區(qū)檢測(cè)示意圖。

圖2 社區(qū)檢測(cè)的示意圖

(1) 模塊度函數(shù)。模塊度函數(shù)評(píng)估社區(qū)劃分的質(zhì)量，定義為社區(qū)內(nèi)部的總邊數(shù)與網(wǎng)絡(luò)中總邊數(shù)的比例減去一個(gè)期望值。該期望值是將網(wǎng)絡(luò)設(shè)定為隨機(jī)網(wǎng)絡(luò)同樣的社區(qū)劃分所形成的社區(qū)內(nèi)部總邊數(shù)和網(wǎng)絡(luò)總邊數(shù)的比例。假設(shè)一個(gè)加權(quán)網(wǎng)絡(luò)共有N個(gè)節(jié)點(diǎn)與L條邊，若將網(wǎng)絡(luò)分為c個(gè)社區(qū)，那么模塊度函數(shù)Q定義為：

(10)

式中:A為鄰接矩陣，Axy={0,1}，1表示節(jié)點(diǎn)x與y之間存在一條邊。Pxy為x與y之間邊的期望值，Cx與Cy分別為x與y的社區(qū)，δ函數(shù)定義為：

(11)

一般通過配置模型計(jì)算邊的期望值，定義為Pxy=kxky/2L，kx與ky分別為節(jié)點(diǎn)x與y的度。據(jù)此將式(10)改寫為：

(12)

網(wǎng)絡(luò)的總模塊度定義為節(jié)點(diǎn)對(duì)每個(gè)社區(qū)的模塊度之和：

(13)

式中：li為社區(qū)i中邊的總數(shù)量；di為社區(qū)i中節(jié)點(diǎn)度的總和。因此eii=li/L為社區(qū)i中邊的分?jǐn)?shù)，ai=di/2L為至少一個(gè)端點(diǎn)在社區(qū)i中的邊分?jǐn)?shù)。

(2) 加權(quán)的模塊化函數(shù)。通過最大化模塊度的社區(qū)檢測(cè)算法存在分辨率的問題，傳統(tǒng)的模塊度方法計(jì)算所有社區(qū)的模塊度qi之和，將所有社區(qū)的貢獻(xiàn)度視為相等。該方法傾向于將小社區(qū)組成大社區(qū)，從而實(shí)現(xiàn)較高的模塊度。而在高維數(shù)據(jù)特征分類的應(yīng)用場(chǎng)景中，基于相似性將特征分類，但相似性并未反映特征的判別能力，因此傳統(tǒng)的模塊度社區(qū)檢測(cè)算法無法直接處理特征分類問題。

為了解決上述問題，通過為模塊度函數(shù)引入一個(gè)權(quán)重項(xiàng)來區(qū)分強(qiáng)弱社區(qū)。加權(quán)的模塊度函數(shù)定義為：

(14)

(15)

式中：Qw為網(wǎng)絡(luò)的加權(quán)模塊度；ni為社區(qū)i的節(jié)點(diǎn)數(shù)量。權(quán)重λi反映了社區(qū)的強(qiáng)度，即社區(qū)中邊與最大值的比例，λiqi表示社區(qū)之間的相似度。權(quán)重λ的作用是確保強(qiáng)連接社區(qū)的貢獻(xiàn)度被分配較高的權(quán)重，而弱連接社區(qū)的貢獻(xiàn)度被分配較低的權(quán)重。

(3) 最大化加權(quán)模塊度的社區(qū)檢測(cè)。首先，將網(wǎng)絡(luò)的各個(gè)節(jié)點(diǎn)設(shè)置一個(gè)社區(qū)，網(wǎng)絡(luò)節(jié)點(diǎn)總數(shù)量為N則設(shè)置N個(gè)社區(qū)。然后，采用貪婪策略遍歷每個(gè)社區(qū)，將兩個(gè)社區(qū)合并，如果合并后的加權(quán)模塊度提高，那么產(chǎn)生新的社區(qū)劃分結(jié)果。重復(fù)該迭代過程直至獲得最大的加權(quán)模塊度。

如果社區(qū)i與社區(qū)j合并，合并后的加權(quán)模塊度增益表示為：

ΔQw(i,j)=λcom×qcom-[λi×qi+λj×qj]

(7)

式中：qcom與λcom分別為合并后新社區(qū)的模塊度與權(quán)重。每次迭代的社區(qū)節(jié)點(diǎn)總數(shù)量ncom、總度數(shù)dcom、邊數(shù)lcom、總權(quán)重λcom、模塊度qcom的計(jì)算公式為：

(8)

在每次迭代的結(jié)束階段，將矩陣的第i行替換為更新后的指標(biāo)值，即ni=ncom、li=lcom、di=dcom、qi=qcom、λi=λcom。算法2為基于貪婪加權(quán)模塊度的社區(qū)檢測(cè)算法。

算法2基于貪婪加權(quán)模塊度的社區(qū)檢測(cè)

/*網(wǎng)絡(luò)圖*/

/*最優(yōu)社區(qū)劃分結(jié)果*/

2. 計(jì)算網(wǎng)絡(luò)參數(shù)n,d,l,lext,Q,Qw；

4. foreachcfromNto 1 do

5. foreachi,j∈{1,2，…,c} do

6. 式(7)計(jì)算u、v的模塊度增益；

7. end for

10.Qw=ΛTQ；

/*Λ為權(quán)重向量，Q為模塊度向量*/

13. end if

14. end for

(9)

算法3社區(qū)檢測(cè)的局部?jī)?yōu)化程序

/*最優(yōu)社區(qū)劃分結(jié)果*/

1. 計(jì)算網(wǎng)絡(luò)參數(shù)n,d,l,lext,Q,Qw；

3. foreachu,v∈{1,2,…,N} do

4. 式(9)計(jì)算u、v的模塊度增益；

5. end for

9. goto 第3行；

10. end if

3.2 并行隊(duì)列的特征選擇

每次循環(huán)提取每個(gè)特征類(隊(duì)列)的top-k特征；然后，應(yīng)用EACO處理所選的特征子集，從中選出K0個(gè)最優(yōu)特征。然后對(duì)剩余的特征隊(duì)列重復(fù)該過程，直至選出期望數(shù)量的特征子集。雖然該步驟重復(fù)了nf/K0次，nf為選擇的特征數(shù)量，但其時(shí)間成本遠(yuǎn)小于處理全部特征的情況，并且蟻群算法對(duì)于子圖的處理時(shí)間遠(yuǎn)小于處理全部特征的初始圖。圖3是并行隊(duì)列的特征選擇流程圖。

圖3 并行隊(duì)列的特征選擇流程圖(K0=3)

算法4為并行隊(duì)列的特征選擇算法。算法的第1、2行為并行的特征選擇處理，通過EACO處理每個(gè)分類，獲得特征隊(duì)列。第4～8行的循環(huán)體迭代地從每個(gè)隊(duì)列中選出全局最優(yōu)的特征子集。

算法4并行隊(duì)列的特征選擇算法

/*降維的數(shù)據(jù)集*/

1. 特征分類；

2. EACO處理每個(gè)特征分類，獲得特征隊(duì)列；

3.k=nf/nc;K=K0；

4. foreachifrom 1 tokdo

5. 從每個(gè)隊(duì)列中選出top-K特征集FK；

6. 根據(jù)信息素從FK中選出top-K特征子集；

7. 更新特征隊(duì)列；

8. end for

為了實(shí)現(xiàn)全局地特征比較，應(yīng)當(dāng)將每個(gè)隊(duì)列的信息素做歸一化處理：

(13)

式中：τijl為類j中特征i的信息素；l=0與1分別對(duì)應(yīng)該特征被選擇與刪除；LCj為類j的特征數(shù)量；n為特征的總數(shù)量；nc為分類的數(shù)量。

4 仿真實(shí)驗(yàn)與結(jié)果分析

實(shí)驗(yàn)的硬件環(huán)境為Intel Xeon CPU E5- 2650 v3@2.3 GHz處理器，軟件環(huán)境為Ubuntu 16.04 LTS操作系統(tǒng)。采用C++語言編程實(shí)現(xiàn)相關(guān)算法。

4.1 實(shí)驗(yàn)數(shù)據(jù)集

實(shí)驗(yàn)采用兩組公開數(shù)據(jù)集，第一組為UCI數(shù)據(jù)集，表1為UCI數(shù)據(jù)集的基本屬性。第二組為高維數(shù)據(jù)集[13]，表2為高維數(shù)據(jù)集的基本屬性。

表1 UCI數(shù)據(jù)集的基本屬性

表2 高維數(shù)據(jù)集的基本屬性

4.2 分類器與性能評(píng)價(jià)指標(biāo)

(1) 分類器選擇本算法是一個(gè)過濾式特征選擇算法，一般將過濾式特征選擇算法與分類器結(jié)合，通過分類的性能評(píng)價(jià)特征選擇算法的性能。為了排除不同分類器的影響，采用四種常用的分類器進(jìn)行實(shí)驗(yàn)，分別為SVM(支持向量機(jī))、DT(決策樹)、KNN(k-近鄰分類器)、RF(隨機(jī)森林分類器)。

(2) 性能評(píng)價(jià)指標(biāo) 根據(jù)文獻(xiàn)[14]，分類誤差率CER是評(píng)價(jià)特征選擇算法的有效指標(biāo)，CER值越小表示分類性能越高，CER定義為：

CER=錯(cuò)誤分類的樣本/樣本總數(shù)量

(15)

4.3 仿真參數(shù)設(shè)置

蟻群算法的最大迭代次數(shù)設(shè)為50，信息素?fù)]發(fā)率設(shè)為0.2，信息素初始值設(shè)為0.2，變異特征的概率設(shè)為30%，蟻群規(guī)模設(shè)為數(shù)據(jù)的特征數(shù)量，如果數(shù)據(jù)集的特征數(shù)量大于100，統(tǒng)一將蟻群規(guī)模設(shè)為100。

4.4 分類器性能的結(jié)果

本文采用K-折交叉檢驗(yàn)評(píng)估分類器的性能。本算法與其他無監(jiān)督的過濾式特征選擇算法比較，分別為HGSA[15]、FSHD[16]和BGWOFS[17]。其中：HGSA也采用了與本文算法相似的人工蟻群優(yōu)化；FSHD是一種新穎的高維數(shù)據(jù)特征選擇算法，采用正則化機(jī)制對(duì)高維度冗余做懲罰處理，通過反饋機(jī)制學(xué)習(xí)優(yōu)質(zhì)的特征子集；BGWOFS則是一種基于灰狼優(yōu)化算法的特征選擇算法。

圖4-圖7分別為SVM、DT、KNN、RF四個(gè)分類器的特征選擇結(jié)果，每組實(shí)驗(yàn)獨(dú)立地重復(fù)10次，計(jì)算10次CER值的平均值與標(biāo)準(zhǔn)偏差作為統(tǒng)計(jì)結(jié)果。從圖中可看出，本算法對(duì)于SpamBase、Madelon兩個(gè)模式數(shù)量較多的數(shù)據(jù)集實(shí)現(xiàn)了較好的分類性能，其結(jié)果優(yōu)于其他三種算法。此外，本算法那對(duì)于特征規(guī)模較大的Leukemia數(shù)據(jù)集表現(xiàn)出了較高的分類性能，明顯地優(yōu)于其他三個(gè)算法。最終，本文算法對(duì)于四個(gè)不同的分類器均表現(xiàn)出較好的分類效果，說明本算法選擇的特征集具有較好的判別能力、較低的冗余度與不相關(guān)性，并且具有較高的穩(wěn)定性。

圖6 KNN分類器的結(jié)果

圖7 RF分類器的結(jié)果

4.5 算法的時(shí)間效率

每組實(shí)驗(yàn)獨(dú)立地重復(fù)10次，計(jì)算10次算法處理時(shí)間的平均值作為統(tǒng)計(jì)結(jié)果。表3是4個(gè)算法處理各個(gè)數(shù)據(jù)集的平均時(shí)間。HGSA與BGWOFS是兩個(gè)基于種群的特征選擇算法，這兩個(gè)算法的計(jì)算時(shí)間隨著特征規(guī)模的增加而劇烈增加。FSHD則是一種分布式的特征選擇算法，其計(jì)算時(shí)間隨著特征規(guī)模的增加呈現(xiàn)緩慢增長(zhǎng)的趨勢(shì)。本文算法是并行算法，即使對(duì)于大規(guī)模的特征集，本文算法也能分為若干的特征子集，并行地處理每個(gè)特征子集，而人工蟻群算法分別處理每個(gè)小規(guī)模的循環(huán)無向圖，實(shí)現(xiàn)了合理的計(jì)算成本。

表3 4個(gè)算法處理各個(gè)數(shù)據(jù)集的平均時(shí)間 s

4.6 對(duì)高維數(shù)據(jù)集的分類器性能

上述實(shí)驗(yàn)評(píng)估了本算法對(duì)于低維數(shù)據(jù)集的性能，本算法的優(yōu)勢(shì)主要在于對(duì)高維數(shù)據(jù)集的處理效果。選擇另外兩個(gè)高維數(shù)據(jù)特征選擇算法與本算法比較，分別為：BKHAFS[18]、TSSLR[19]。BKHAFS是一種新型的基于二元磷蝦群的高維數(shù)據(jù)特征選擇算法，TSSLR則是一種基于兩階段稀疏Logistic回歸的高維數(shù)據(jù)特征選擇算法。

圖8-圖11所示分別為三個(gè)高維數(shù)據(jù)特征選擇算法與SVM、DT、KNN和RF四個(gè)分類器的性能結(jié)果。每組實(shí)驗(yàn)獨(dú)立地重復(fù)10次，計(jì)算10次CER值的平均值與標(biāo)準(zhǔn)偏差作為統(tǒng)計(jì)結(jié)果。從圖中可看出，本算法對(duì)于文本數(shù)據(jù)集與微陣列數(shù)據(jù)集的處理性能均優(yōu)于其他兩個(gè)算法。主要原因在于BKHAFS與TSSLR均將減少不相關(guān)特征作為目標(biāo)，而忽略了冗余特征對(duì)分類性能的干擾，導(dǎo)致特征集中包含噪聲與冗余特征，影響了分類器的分類性能。本算法則同時(shí)將減少不相關(guān)特征與減少冗余度作為目標(biāo)，實(shí)現(xiàn)了較好的特征提取結(jié)果。

圖8 SVM分類器的結(jié)果

圖9 NB分類器的結(jié)果

圖10 DT分類器的結(jié)果

圖11 RF分類器的結(jié)果

5 結(jié) 語

許多研究將減少不相關(guān)特征作為目標(biāo)，而忽略了冗余特征對(duì)分類性能的干擾，本文將減少冗余特征與不相關(guān)特征作為特征選擇的兩個(gè)目標(biāo)。人工蟻群算法的求解效果較好，但是計(jì)算成本較高，為此設(shè)計(jì)了基于社區(qū)檢測(cè)的并行特征選擇方法。通過加權(quán)社區(qū)檢測(cè)技術(shù)將特征集分類，對(duì)每個(gè)分類分別采用EACO并行地選擇特征集，然后設(shè)計(jì)了全局的競(jìng)爭(zhēng)機(jī)制處理所有分類的最優(yōu)特征，選出全局最優(yōu)的特征集。本方法提高了特征選擇的性能，實(shí)現(xiàn)了合理的計(jì)算效率。

本算法采用Pearson相關(guān)系數(shù)作為特征相似性的度量指標(biāo)，未來將重點(diǎn)研究針對(duì)特定數(shù)據(jù)類型的相似性度量方法，從而提高特定應(yīng)用問題的特征選擇效果。