巫紅霞 謝 強(qiáng)
1(鎮(zhèn)江市高等專科學(xué)校裝備制造學(xué)院 江蘇 鎮(zhèn)江 212000)2(南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 江蘇 南京 210016)
特征選擇是數(shù)據(jù)處理與模式識(shí)別領(lǐng)域的基礎(chǔ)性研究,其性能直接影響分類器、模式匹配等應(yīng)用的分類精度與泛化性能[1]。特征選擇的目標(biāo)是從特征集中選出判別性高、冗余度低的特征子集,降低數(shù)據(jù)集的維度,并降低不相關(guān)特征對(duì)數(shù)據(jù)分析的干擾,從而提高數(shù)據(jù)分析的效果與效率[2]。目前已存在大量有效的特征選擇算法,并且已經(jīng)成功地應(yīng)用于低維數(shù)據(jù)領(lǐng)域[3],但許多特征選擇方法在高維海量或高維小樣本數(shù)據(jù)集的處理過程中,存在計(jì)算開銷過大或過學(xué)習(xí)的問題[4]。
在生物信息學(xué)、基因表達(dá)譜微陣列和圖像識(shí)別等領(lǐng)域中,高維小樣本數(shù)據(jù)容易引發(fā)“維數(shù)災(zāi)難”和過擬合問題,成為了亟待解決的難題。高維度導(dǎo)致計(jì)算復(fù)雜度高且分類器性能差,樣本少則導(dǎo)致分類器學(xué)習(xí)效果差[5]。許多研究人員針對(duì)高維小樣本數(shù)據(jù)提出了有效的解決方案,包括結(jié)合隨機(jī)森林和鄰域粗糙集的特征選擇[6]、基于文化基因算法和最小二乘支持向量機(jī)的特征選擇[7]、基于協(xié)方差估計(jì)多元回歸的特征選擇[8]等。為了提高特征選擇的效果,文獻(xiàn)[6]引入了隨機(jī)森林分類與粗糙集計(jì)算,文獻(xiàn)[7]引入了文化基因與最小二乘SVM,文獻(xiàn)[8]則引入了多元回歸模型等。這些算法對(duì)所有的特征進(jìn)行高復(fù)雜度的運(yùn)算,導(dǎo)致計(jì)算成本極高,難以運(yùn)用于實(shí)際的工程應(yīng)用。文獻(xiàn)[9]的GCACO算法是一種性能較好的高維數(shù)據(jù)特征選擇算法,該算法將特征分類,然后采用ACO(Ant Colony Optimization)算法對(duì)每個(gè)特征分類進(jìn)行尋優(yōu)處理。該算法將特征子集建模為完全圖,導(dǎo)致模型復(fù)雜度較高。
減少冗余特征與不相關(guān)特征是特征選擇的兩個(gè)目標(biāo),許多研究將減少不相關(guān)特征作為目標(biāo),而忽略了冗余特征對(duì)分類性能的干擾[10]。特征選擇主要可分為3類:過濾式、封裝式和嵌入式,過濾式方法具有結(jié)構(gòu)簡(jiǎn)單、訓(xùn)練速度快、獨(dú)立于具體訓(xùn)練模型的優(yōu)點(diǎn)。過濾式方法對(duì)于高維數(shù)據(jù)的計(jì)算速度快,因此本文采用過濾式方法。此外,本文算法同時(shí)將減少不相關(guān)特征與冗余特征作為研究目標(biāo),提出了無監(jiān)督的高維數(shù)據(jù)特征選擇算法。在特征選擇過程中采用人工蟻群算法對(duì)特征進(jìn)行了高效的尋優(yōu)處理,提取出最優(yōu)的特征子集。
常規(guī)的ACO算法一般基于完全圖進(jìn)行搜索處理,但文獻(xiàn)[9]將特征選擇建模為完全圖,其算法復(fù)雜度較高。此外,因?yàn)樘卣鬟x擇問題的搜索空間有限,所以ACO算法容易陷入局部最優(yōu)。許多高維特征選擇算法并未考慮特征之間的冗余度。針對(duì)上述問題,本文設(shè)計(jì)了新的特征選擇模型。
圖1 特征選擇問題的循環(huán)無向加權(quán)圖
采用Pearson相關(guān)系數(shù)的絕對(duì)值評(píng)估特征之間的相似性:
(1)
(2)
(3)
許多研究[12]通過計(jì)算當(dāng)前特征集與之前特征集之間的相似性來選擇冗余特征,但在一些特殊情況下,少量變化劇烈的特征導(dǎo)致當(dāng)前特征集與之前特征集的平均相似性較低。為了避免該問題,從當(dāng)前特征集中選出q個(gè)相關(guān)性最高的特征,計(jì)算q個(gè)特征與之前特征集的平均相似性。最終的平均相似性定義為:
(4)
式中:Γk為q個(gè)相似性最大的特征集;k為之前選擇的特征集大??;l為之前選擇的特征集。上述的每個(gè)特征集對(duì)應(yīng)人工蟻群算法每次迭代所選擇的網(wǎng)絡(luò)節(jié)點(diǎn)集。
為了防止蟻群在搜索過程中陷入局部最優(yōu),為蟻群算法引入兩個(gè)隨機(jī)算子與一個(gè)變異算子:(1) 隨機(jī)位置(隨機(jī)決定螞蟻開始移動(dòng)的節(jié)點(diǎn));(2) 隨機(jī)方向(隨機(jī)決定螞蟻的移動(dòng)方向);(3) 節(jié)點(diǎn)變異。
受遺傳算法的啟發(fā),設(shè)計(jì)了變異算子來增加搜索空間的狀態(tài)數(shù)量,以防止發(fā)生早熟收斂。隨機(jī)性算子與變異算子的實(shí)現(xiàn)方法為:ACO的第一次迭代將蟻群隨機(jī)分布于圖中各個(gè)節(jié)點(diǎn);在每次迭代中,基于變異算子的條件交叉圖中的指定節(jié)點(diǎn),蟻群在新的圖模型中游走。通過評(píng)估連續(xù)兩次迭代的信息素改變率來決定是否應(yīng)用變異算子,歸一化的信息素改變率定義為:
(5)
變異率決定了變異的發(fā)生概率,人工蟻群算法在早期階段具有很強(qiáng)的全局搜索能力,在迭代過程中局部開發(fā)能力與收斂性逐漸提高。所以本文算法在第一次迭代的變異率設(shè)為最大值0.2,在迭代過程中逐漸降低變異率,從而在全局搜索與局部開發(fā)之間尋求平衡。
基于增強(qiáng)的蟻群優(yōu)化算法(Enhanced Ant Colony Optimization,EACO)的特征選擇算法如算法1所示。EACO的每次迭代中,將一個(gè)螞蟻隨機(jī)置于圖中,然后,隨機(jī)決定螞蟻的移動(dòng)方向(順時(shí)針或者逆時(shí)針方向)。隨后螞蟻在循環(huán)圖中游走,直至返回起點(diǎn)位置。一般情況下,信息方差大的特征包含的信息更為豐富,因此選擇方差最高的特征進(jìn)行狀態(tài)切換。每個(gè)節(jié)點(diǎn)被蟻群選擇與刪除的次數(shù)定義為特征的狀態(tài)計(jì)數(shù)器,每次迭代的結(jié)束階段更新節(jié)點(diǎn)的信息素值(特征狀態(tài)計(jì)數(shù)器)。在達(dá)到結(jié)束條件之后,選擇信息素最高的特征作為最終的特征集。
算法1基于EACO的特征選擇算法
輸出:基于信息素排列的特征集
2. 計(jì)算啟發(fā)式信息;
/*式(3)、式(4)*/
3. 節(jié)點(diǎn)的信息素初始化為常量τ0;
4. 創(chuàng)建startnodes與finalnodes兩個(gè)列表;
5. foreachtfrom 1 toIter
6.mutationrate=0.2;
/*變異率初始化為1*/
7.mutationcondition=Phr(t)-Phr(t-1);
8. ifmutationcondition>0
9. 圖中的startnodes與finalnodes應(yīng)用變異算子;
/*隨機(jī)選擇30%的節(jié)點(diǎn),切換其狀態(tài)*/
10.mutationrate=mutationrate-(0.2/Iter);
/*變異率遞減*/
11.FSCil=0;
/*初始化為0*/
12. 將蟻群隨機(jī)分布于變異圖上;
13. foreachjfrom 1 toAntsdo
14. 隨機(jī)決定螞蟻的方向;
15. 蟻群保持移動(dòng);
16. 蟻群根據(jù)狀態(tài)切換規(guī)則選擇或者取消一個(gè)節(jié)點(diǎn)
/*式(6)*/
17.FSCis=FSCis+1;
18. 計(jì)算信息素改變率;
/*式(5)*/
19. 更新信息素值;
/*式(9)*/
20. 基于FSC將startnodes與finalnodes兩個(gè)列表分別設(shè)為最優(yōu)節(jié)點(diǎn)與最差節(jié)點(diǎn);
21. 特征集按信息素降序排列。
特征的狀態(tài)切換規(guī)則定義為:
(6)
(7)
如果γ大于θ,那么應(yīng)用概率規(guī)則:
(8)
式中:γ0為一個(gè)隨機(jī)值。
每次迭代需更新每條邊的信息素,EACO的信息素更新策略定義為:
(9)
人工蟻群算法的求解效果較好,但是計(jì)算成本較高,因此設(shè)計(jì)了基于社區(qū)檢測(cè)的并行特征選擇方法。通過加權(quán)社區(qū)檢測(cè)技術(shù)將特征集分類,對(duì)每個(gè)分類分別采用EACO并行地選擇特征集,然后設(shè)計(jì)了全局的競(jìng)爭(zhēng)機(jī)制處理所有分類的最優(yōu)特征,選出全局最優(yōu)的特征集。本方法同時(shí)提高了特征選擇的性能與計(jì)算效率。
社區(qū)檢測(cè)算法通過最大化模塊化函數(shù)實(shí)現(xiàn)對(duì)節(jié)點(diǎn)的分類處理,社區(qū)檢測(cè)算法的實(shí)現(xiàn)簡(jiǎn)單、性能較好,但是并未考慮特征子集之間的判別能力差異,因此本文設(shè)計(jì)了加權(quán)的社區(qū)檢測(cè)算法。圖2為特征集的社區(qū)檢測(cè)示意圖。
圖2 社區(qū)檢測(cè)的示意圖
(1) 模塊度函數(shù)。模塊度函數(shù)評(píng)估社區(qū)劃分的質(zhì)量,定義為社區(qū)內(nèi)部的總邊數(shù)與網(wǎng)絡(luò)中總邊數(shù)的比例減去一個(gè)期望值。該期望值是將網(wǎng)絡(luò)設(shè)定為隨機(jī)網(wǎng)絡(luò)同樣的社區(qū)劃分所形成的社區(qū)內(nèi)部總邊數(shù)和網(wǎng)絡(luò)總邊數(shù)的比例。假設(shè)一個(gè)加權(quán)網(wǎng)絡(luò)共有N個(gè)節(jié)點(diǎn)與L條邊,若將網(wǎng)絡(luò)分為c個(gè)社區(qū),那么模塊度函數(shù)Q定義為:
(10)
式中:A為鄰接矩陣,Axy={0,1},1表示節(jié)點(diǎn)x與y之間存在一條邊。Pxy為x與y之間邊的期望值,Cx與Cy分別為x與y的社區(qū),δ函數(shù)定義為:
(11)
一般通過配置模型計(jì)算邊的期望值,定義為Pxy=kxky/2L,kx與ky分別為節(jié)點(diǎn)x與y的度。據(jù)此將式(10)改寫為:
(12)
網(wǎng)絡(luò)的總模塊度定義為節(jié)點(diǎn)對(duì)每個(gè)社區(qū)的模塊度之和:
(13)
式中:li為社區(qū)i中邊的總數(shù)量;di為社區(qū)i中節(jié)點(diǎn)度的總和。因此eii=li/L為社區(qū)i中邊的分?jǐn)?shù),ai=di/2L為至少一個(gè)端點(diǎn)在社區(qū)i中的邊分?jǐn)?shù)。
(2) 加權(quán)的模塊化函數(shù)。通過最大化模塊度的社區(qū)檢測(cè)算法存在分辨率的問題,傳統(tǒng)的模塊度方法計(jì)算所有社區(qū)的模塊度qi之和,將所有社區(qū)的貢獻(xiàn)度視為相等。該方法傾向于將小社區(qū)組成大社區(qū),從而實(shí)現(xiàn)較高的模塊度。而在高維數(shù)據(jù)特征分類的應(yīng)用場(chǎng)景中,基于相似性將特征分類,但相似性并未反映特征的判別能力,因此傳統(tǒng)的模塊度社區(qū)檢測(cè)算法無法直接處理特征分類問題。
為了解決上述問題,通過為模塊度函數(shù)引入一個(gè)權(quán)重項(xiàng)來區(qū)分強(qiáng)弱社區(qū)。加權(quán)的模塊度函數(shù)定義為:
(14)
(15)
式中:Qw為網(wǎng)絡(luò)的加權(quán)模塊度;ni為社區(qū)i的節(jié)點(diǎn)數(shù)量。權(quán)重λi反映了社區(qū)的強(qiáng)度,即社區(qū)中邊與最大值的比例,λiqi表示社區(qū)之間的相似度。權(quán)重λ的作用是確保強(qiáng)連接社區(qū)的貢獻(xiàn)度被分配較高的權(quán)重,而弱連接社區(qū)的貢獻(xiàn)度被分配較低的權(quán)重。
(3) 最大化加權(quán)模塊度的社區(qū)檢測(cè)。首先,將網(wǎng)絡(luò)的各個(gè)節(jié)點(diǎn)設(shè)置一個(gè)社區(qū),網(wǎng)絡(luò)節(jié)點(diǎn)總數(shù)量為N則設(shè)置N個(gè)社區(qū)。然后,采用貪婪策略遍歷每個(gè)社區(qū),將兩個(gè)社區(qū)合并,如果合并后的加權(quán)模塊度提高,那么產(chǎn)生新的社區(qū)劃分結(jié)果。重復(fù)該迭代過程直至獲得最大的加權(quán)模塊度。
如果社區(qū)i與社區(qū)j合并,合并后的加權(quán)模塊度增益表示為:
ΔQw(i,j)=λcom×qcom-[λi×qi+λj×qj]
(7)
式中:qcom與λcom分別為合并后新社區(qū)的模塊度與權(quán)重。每次迭代的社區(qū)節(jié)點(diǎn)總數(shù)量ncom、總度數(shù)dcom、邊數(shù)lcom、總權(quán)重λcom、模塊度qcom的計(jì)算公式為:
(8)
在每次迭代的結(jié)束階段,將矩陣的第i行替換為更新后的指標(biāo)值,即ni=ncom、li=lcom、di=dcom、qi=qcom、λi=λcom。算法2為基于貪婪加權(quán)模塊度的社區(qū)檢測(cè)算法。
算法2基于貪婪加權(quán)模塊度的社區(qū)檢測(cè)
/*網(wǎng)絡(luò)圖*/
/*最優(yōu)社區(qū)劃分結(jié)果*/
2. 計(jì)算網(wǎng)絡(luò)參數(shù)n,d,l,lext,Q,Qw;
4. foreachcfromNto 1 do
5. foreachi,j∈{1,2,…,c} do
6. 式(7)計(jì)算u、v的模塊度增益;
7. end for
10.Qw=ΛTQ;
/*Λ為權(quán)重向量,Q為模塊度向量*/
13. end if
14. end for
(9)
算法3社區(qū)檢測(cè)的局部?jī)?yōu)化程序
/*最優(yōu)社區(qū)劃分結(jié)果*/
1. 計(jì)算網(wǎng)絡(luò)參數(shù)n,d,l,lext,Q,Qw;
3. foreachu,v∈{1,2,…,N} do
4. 式(9)計(jì)算u、v的模塊度增益;
5. end for
9. goto 第3行;
10. end if
每次循環(huán)提取每個(gè)特征類(隊(duì)列)的top-k特征;然后,應(yīng)用EACO處理所選的特征子集,從中選出K0個(gè)最優(yōu)特征。然后對(duì)剩余的特征隊(duì)列重復(fù)該過程,直至選出期望數(shù)量的特征子集。雖然該步驟重復(fù)了nf/K0次,nf為選擇的特征數(shù)量,但其時(shí)間成本遠(yuǎn)小于處理全部特征的情況,并且蟻群算法對(duì)于子圖的處理時(shí)間遠(yuǎn)小于處理全部特征的初始圖。圖3是并行隊(duì)列的特征選擇流程圖。
圖3 并行隊(duì)列的特征選擇流程圖(K0=3)
算法4為并行隊(duì)列的特征選擇算法。算法的第1、2行為并行的特征選擇處理,通過EACO處理每個(gè)分類,獲得特征隊(duì)列。第4~8行的循環(huán)體迭代地從每個(gè)隊(duì)列中選出全局最優(yōu)的特征子集。
算法4并行隊(duì)列的特征選擇算法
/*降維的數(shù)據(jù)集*/
1. 特征分類;
2. EACO處理每個(gè)特征分類,獲得特征隊(duì)列;
3.k=nf/nc;K=K0;
4. foreachifrom 1 tokdo
5. 從每個(gè)隊(duì)列中選出top-K特征集FK;
6. 根據(jù)信息素從FK中選出top-K特征子集;
7. 更新特征隊(duì)列;
8. end for
為了實(shí)現(xiàn)全局地特征比較,應(yīng)當(dāng)將每個(gè)隊(duì)列的信息素做歸一化處理:
(13)
式中:τijl為類j中特征i的信息素;l=0與1分別對(duì)應(yīng)該特征被選擇與刪除;LCj為類j的特征數(shù)量;n為特征的總數(shù)量;nc為分類的數(shù)量。
實(shí)驗(yàn)的硬件環(huán)境為Intel Xeon CPU E5- 2650 v3@2.3 GHz處理器,軟件環(huán)境為Ubuntu 16.04 LTS操作系統(tǒng)。采用C++語言編程實(shí)現(xiàn)相關(guān)算法。
實(shí)驗(yàn)采用兩組公開數(shù)據(jù)集,第一組為UCI數(shù)據(jù)集,表1為UCI數(shù)據(jù)集的基本屬性。第二組為高維數(shù)據(jù)集[13],表2為高維數(shù)據(jù)集的基本屬性。
表1 UCI數(shù)據(jù)集的基本屬性
表2 高維數(shù)據(jù)集的基本屬性
(1) 分類器選擇 本算法是一個(gè)過濾式特征選擇算法,一般將過濾式特征選擇算法與分類器結(jié)合,通過分類的性能評(píng)價(jià)特征選擇算法的性能。為了排除不同分類器的影響,采用四種常用的分類器進(jìn)行實(shí)驗(yàn),分別為SVM(支持向量機(jī))、DT(決策樹)、KNN(k-近鄰分類器)、RF(隨機(jī)森林分類器)。
(2) 性能評(píng)價(jià)指標(biāo) 根據(jù)文獻(xiàn)[14],分類誤差率CER是評(píng)價(jià)特征選擇算法的有效指標(biāo),CER值越小表示分類性能越高,CER定義為:
CER=錯(cuò)誤分類的樣本/樣本總數(shù)量
(15)
蟻群算法的最大迭代次數(shù)設(shè)為50,信息素?fù)]發(fā)率設(shè)為0.2,信息素初始值設(shè)為0.2,變異特征的概率設(shè)為30%,蟻群規(guī)模設(shè)為數(shù)據(jù)的特征數(shù)量,如果數(shù)據(jù)集的特征數(shù)量大于100,統(tǒng)一將蟻群規(guī)模設(shè)為100。
本文采用K-折交叉檢驗(yàn)評(píng)估分類器的性能。本算法與其他無監(jiān)督的過濾式特征選擇算法比較,分別為HGSA[15]、FSHD[16]和BGWOFS[17]。其中:HGSA也采用了與本文算法相似的人工蟻群優(yōu)化;FSHD是一種新穎的高維數(shù)據(jù)特征選擇算法,采用正則化機(jī)制對(duì)高維度冗余做懲罰處理,通過反饋機(jī)制學(xué)習(xí)優(yōu)質(zhì)的特征子集;BGWOFS則是一種基于灰狼優(yōu)化算法的特征選擇算法。
圖4-圖7分別為SVM、DT、KNN、RF四個(gè)分類器的特征選擇結(jié)果,每組實(shí)驗(yàn)獨(dú)立地重復(fù)10次,計(jì)算10次CER值的平均值與標(biāo)準(zhǔn)偏差作為統(tǒng)計(jì)結(jié)果。從圖中可看出,本算法對(duì)于SpamBase、Madelon兩個(gè)模式數(shù)量較多的數(shù)據(jù)集實(shí)現(xiàn)了較好的分類性能,其結(jié)果優(yōu)于其他三種算法。此外,本算法那對(duì)于特征規(guī)模較大的Leukemia數(shù)據(jù)集表現(xiàn)出了較高的分類性能,明顯地優(yōu)于其他三個(gè)算法。最終,本文算法對(duì)于四個(gè)不同的分類器均表現(xiàn)出較好的分類效果,說明本算法選擇的特征集具有較好的判別能力、較低的冗余度與不相關(guān)性,并且具有較高的穩(wěn)定性。
圖6 KNN分類器的結(jié)果
圖7 RF分類器的結(jié)果
每組實(shí)驗(yàn)獨(dú)立地重復(fù)10次,計(jì)算10次算法處理時(shí)間的平均值作為統(tǒng)計(jì)結(jié)果。表3是4個(gè)算法處理各個(gè)數(shù)據(jù)集的平均時(shí)間。HGSA與BGWOFS是兩個(gè)基于種群的特征選擇算法,這兩個(gè)算法的計(jì)算時(shí)間隨著特征規(guī)模的增加而劇烈增加。FSHD則是一種分布式的特征選擇算法,其計(jì)算時(shí)間隨著特征規(guī)模的增加呈現(xiàn)緩慢增長(zhǎng)的趨勢(shì)。本文算法是并行算法,即使對(duì)于大規(guī)模的特征集,本文算法也能分為若干的特征子集,并行地處理每個(gè)特征子集,而人工蟻群算法分別處理每個(gè)小規(guī)模的循環(huán)無向圖,實(shí)現(xiàn)了合理的計(jì)算成本。
表3 4個(gè)算法處理各個(gè)數(shù)據(jù)集的平均時(shí)間 s
上述實(shí)驗(yàn)評(píng)估了本算法對(duì)于低維數(shù)據(jù)集的性能,本算法的優(yōu)勢(shì)主要在于對(duì)高維數(shù)據(jù)集的處理效果。選擇另外兩個(gè)高維數(shù)據(jù)特征選擇算法與本算法比較,分別為:BKHAFS[18]、TSSLR[19]。BKHAFS是一種新型的基于二元磷蝦群的高維數(shù)據(jù)特征選擇算法,TSSLR則是一種基于兩階段稀疏Logistic回歸的高維數(shù)據(jù)特征選擇算法。
圖8-圖11所示分別為三個(gè)高維數(shù)據(jù)特征選擇算法與SVM、DT、KNN和RF四個(gè)分類器的性能結(jié)果。每組實(shí)驗(yàn)獨(dú)立地重復(fù)10次,計(jì)算10次CER值的平均值與標(biāo)準(zhǔn)偏差作為統(tǒng)計(jì)結(jié)果。從圖中可看出,本算法對(duì)于文本數(shù)據(jù)集與微陣列數(shù)據(jù)集的處理性能均優(yōu)于其他兩個(gè)算法。主要原因在于BKHAFS與TSSLR均將減少不相關(guān)特征作為目標(biāo),而忽略了冗余特征對(duì)分類性能的干擾,導(dǎo)致特征集中包含噪聲與冗余特征,影響了分類器的分類性能。本算法則同時(shí)將減少不相關(guān)特征與減少冗余度作為目標(biāo),實(shí)現(xiàn)了較好的特征提取結(jié)果。
圖8 SVM分類器的結(jié)果
圖9 NB分類器的結(jié)果
圖10 DT分類器的結(jié)果
圖11 RF分類器的結(jié)果
許多研究將減少不相關(guān)特征作為目標(biāo),而忽略了冗余特征對(duì)分類性能的干擾,本文將減少冗余特征與不相關(guān)特征作為特征選擇的兩個(gè)目標(biāo)。人工蟻群算法的求解效果較好,但是計(jì)算成本較高,為此設(shè)計(jì)了基于社區(qū)檢測(cè)的并行特征選擇方法。通過加權(quán)社區(qū)檢測(cè)技術(shù)將特征集分類,對(duì)每個(gè)分類分別采用EACO并行地選擇特征集,然后設(shè)計(jì)了全局的競(jìng)爭(zhēng)機(jī)制處理所有分類的最優(yōu)特征,選出全局最優(yōu)的特征集。本方法提高了特征選擇的性能,實(shí)現(xiàn)了合理的計(jì)算效率。
本算法采用Pearson相關(guān)系數(shù)作為特征相似性的度量指標(biāo),未來將重點(diǎn)研究針對(duì)特定數(shù)據(jù)類型的相似性度量方法,從而提高特定應(yīng)用問題的特征選擇效果。