翟俊海, 劉博, 張素芳
(1.河北大學(xué) 河北省機器學(xué)習(xí)與計算智能重點實驗室,河北 保定 071002; 2. 浙江師范大學(xué) 數(shù)理與信息工程學(xué)院,浙江 金華 321004; 3. 河北大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,河北 保定 071002; 4. 中國氣象局 氣象干部培訓(xùn)學(xué)院河北分院,河北 保定 071000)
基于粗糙集相對分類信息熵和粒子群優(yōu)化的特征選擇方法
翟俊海1, 2, 劉博3, 張素芳4
(1.河北大學(xué) 河北省機器學(xué)習(xí)與計算智能重點實驗室,河北 保定 071002; 2. 浙江師范大學(xué) 數(shù)理與信息工程學(xué)院,浙江 金華 321004; 3. 河北大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,河北 保定 071002; 4. 中國氣象局 氣象干部培訓(xùn)學(xué)院河北分院,河北 保定 071000)
特征選擇是指從初始特征全集中,依據(jù)既定規(guī)則篩選出特征子集的過程,是數(shù)據(jù)挖掘的重要預(yù)處理步驟。通過剔除冗余屬性,以達(dá)到降低算法復(fù)雜度和提高算法性能的目的。針對離散值特征選擇問題,提出了一種將粗糙集相對分類信息熵和粒子群算法相結(jié)合的特征選擇方法,依托粒子群算法,以相對分類信息熵作為適應(yīng)度函數(shù),并與其他基于進(jìn)化算法的特征選擇方法進(jìn)行了實驗比較,實驗結(jié)果表明本文提出的方法具有一定的優(yōu)勢。
數(shù)據(jù)挖掘;特征選擇;數(shù)據(jù)預(yù)處理;粗糙集;決策表;粒子群算法;信息熵;適應(yīng)度函數(shù)
中文引用格式:翟俊海,劉博,張素芳.基于粗糙集相對分類信息熵和粒子群優(yōu)化的特征選擇方法[J]. 智能系統(tǒng)學(xué)報, 2017, 12(3): 397-404.
英文引用格式:ZHAI Junhai,LIU Bo,ZHANG Sufang. A feature selection approach based on rough set relative classification information entropy and particle swarm optimization[J]. CAAI transactions on intelligent systems, 2017, 12(3): 397-404.
特征選擇[1-2]是數(shù)據(jù)挖掘的重要預(yù)處理步驟,通過刪除不必要特征,以達(dá)到降低算法復(fù)雜度,提高算法的性能。特征子集的評價至關(guān)重要,特征子集的評價準(zhǔn)則或啟發(fā)式確定后,特征選擇問題從某種意義上來說就是在特征空間中搜索最優(yōu)特征子集問題。研究人員提出了許多特征選擇算法,這些算法有的是從設(shè)計特征子集搜索的方法考慮的,有的是從設(shè)計評價特征子集重要性的度量考慮的。
特征選擇方法主要有篩選法(filter method )、封裝法(wrapper method )和嵌入法(embedded method)3種分類。篩選法獨立于學(xué)習(xí)算法,它依據(jù)啟發(fā)式(如依賴度、互信息、不一致性等)搜索整體最優(yōu)解。因為這類特征選擇算法獨立于數(shù)據(jù)挖掘算法,所以通用性好,適應(yīng)各種數(shù)據(jù)挖掘任務(wù),研究也最為廣泛。實際上,粗糙集領(lǐng)域中的屬性約簡方法就是這類方法的一種典型代表[3-4]。Swiniarski等[5]針對模式識別問題,系統(tǒng)地研究了特征選擇的粗糙集方法;Jensen等[6]提出了基于模糊粗糙集的方法,但是它在某些情況下不收斂;Bhatt等[7]針對文獻(xiàn)[6]中的問題,深入研究模糊粗糙集特征選擇算法的收斂性,得出了非常有價值的結(jié)論;Jensen等[8]研究了模糊粗糙集特征選擇算法的可擴(kuò)展性問題,并提出了相應(yīng)的方法;錢宇華等[9]提出了基于粗糙集正域逼近的屬性約簡(或特征選擇)加速方法,該方法具有很高的計算效率,受到了廣泛關(guān)注;胡清華等[10]在鄰域粗糙集框架下研究了異構(gòu)特征選擇問題,提出的特征選擇算法可以處理實數(shù)值異構(gòu)特征選擇問題。
除了基于粗糙集知識的算法,其他特征選擇問題代表性的工作還包括基于一致性的方法[2,11-12]、基于互信息的方法[13-15]及基于依賴度的方法等[16-17]。
封裝法以算法性能為標(biāo)準(zhǔn)衡量特征子集,由Kohavi等于1997年提出[18]。多年來,一些專家學(xué)者沿著封裝法的思路做出了大量研究;Sindhwani等將多層感知器和SVM相結(jié)合,提出了基于最大輸出信息的特征選擇算法[19];Yang等提出了一種隨機擾動特征選擇方法,具有較好表示能力[20]。封裝法過于依賴學(xué)習(xí)算法,對于全部篩選出的特征子集,必須重復(fù)分類器訓(xùn)練的過程,雖然最終得到的特征子集比較理想,但復(fù)雜度太高,代價過大。
在嵌入法中,特征選擇與分類器的構(gòu)造同步完成。實際上,著名的ID3算法[21]和CART算法[22]都可以看作嵌入式特征選擇方法?;谏窠?jīng)網(wǎng)絡(luò)剪枝思想,Setiono等[23]提出了一種特征選擇算法。該算法通過計算刪除某個特征(剪枝)對神經(jīng)網(wǎng)絡(luò)性能的影響來選擇特征。在此基礎(chǔ)上,Shen等提出了基于SVM的敏感度特征選擇算法[24]。而后,Perkins等提出了Grafting嵌入式特征選擇算法[25]。
粒子群算法由Kennedy提出[26],逐漸被專家學(xué)者廣泛接受和應(yīng)用。但是直到2001年關(guān)于粒子群算法的第一部專著Swarm Intelligence[27]出版后,粒子群算法才得到廣泛應(yīng)用。為解決PSO算法在連續(xù)空間中的局限性,Kennedy等[28]提出了離散二進(jìn)制PSO算法。在此基礎(chǔ)上,Chuang等[29]提出了一種改進(jìn)的二進(jìn)制粒子群算法(IBPSO),有效簡化了特征選擇,并在醫(yī)療診斷基因表達(dá)領(lǐng)域取得了較好的效果;Chuang等[30]基于Catfish機制,提出了一種二進(jìn)制粒子群特征選擇算法,可避免過早收斂的問題;Wang等[31]提出了一種基于粗糙集的粒子群算法,具有較強的搜索能力能更快地尋找到最優(yōu)解;Cervante等[32]提出了基于信息熵的BPSO方法,測試結(jié)果非常理想。Liu等[33]提出了一種集成鄰域信息和粒子群算法的特征選擇方法,結(jié)合粒子加權(quán)提高了算法的穩(wěn)定性;Fong等[34]面向高維和數(shù)據(jù)流格式的大數(shù)據(jù),提出了一種基于粒子群算法的特征選擇方法,提高測試精度的同時降低了處理時間[34]。
本文選擇相對分類信息熵作為適應(yīng)度函數(shù),用粒子群算法搜索最優(yōu)特征子集,并與其他進(jìn)化算法進(jìn)行了實驗比較,實驗結(jié)果表明本文所提的方法更為有效。
1.1 粒子群算法
粒子群算法應(yīng)用的關(guān)鍵是問題編碼和粒子適應(yīng)度評價標(biāo)準(zhǔn)。在問題編碼上,顯然二進(jìn)制編碼是最為合適的。在粒子適應(yīng)度評價標(biāo)準(zhǔn)上,一個合適的適應(yīng)度函數(shù)對特征子集的選擇影響很大,因此適應(yīng)度函數(shù)的設(shè)計是尤為關(guān)鍵的。
圖1 PSO算法流程圖Fig.1 The flowchart of particle swarm optimization algorithm
1.2 粗糙集
定義1 設(shè)DT=(U,A∪D,V,f)為知識涉及的決策表。其中,U={x1,x2,…,xn}為論域;A={a1,a2,…,am}是描述對象的屬性集合;D=geec0ai,即目標(biāo)概念唯一;V為屬性值域;f:U×A→V為信息函數(shù)。
定義2 對于任意條件屬性子集B?A,B的等價關(guān)系為
式中b(x)和b(y)分別是對象x和y在屬性b上的屬性值。
定義3 令X?U,B?A,X關(guān)于B的下近似為
定義4 令X?U,B?A,X關(guān)于B的上近似為
?
定義5 令X?U,B?A,X關(guān)于B的邊界域為
B
首先定義適用于特征選擇問題的適應(yīng)度函數(shù)。
對于形如DT=(U,A∪D,V,f)的決策表,B?A,B和D對U的劃分表示為
U/B=X1+X2+…+Xm
U/D=Y1+Y2+…+Yk
定義6 劃分U/B相對于U/D的概率分布為
定義7 劃分U/B相對于U/D的相對分類信息熵為
相對分類信息熵反映的不一致程度與其值成正比,因此值越小效果越好。本文所選擇的適應(yīng)度函數(shù),即(6)式定義的相對分類信息熵,可通過定理1的證明來驗證其合理性[35]。
定理1保證了本文提出的方法的收斂性,即能夠以很高概率找到整體最優(yōu)解。
算法1 基于粒子群算法的特征選擇算法。
輸入 離散值決策表DT=(U,A∪D,V,f),群體大小N、慣性系數(shù)w、常量系數(shù)c1和c2、數(shù)據(jù)集維數(shù)D。
輸出A′?A。
1)隨機初始化大小為N的種群;
2)repeat;
3)for(i=1;i≤N;i=i+1) ;
4)用式(6)計算種群中每一個個體的適應(yīng)度值;
5)更新歷史最佳位置best;
6)end for;
7)更新全局最佳位置gbest;
8)for(i=1;i≤N;i=i+1) ;
9)for(d=1;d≤D;d=d+1);
10)更新速度信息vid;
11)更新位置信息xid;
12)end for;
13)end for;
14)until(滿足終止條件時);
15)輸出A′。
本文選擇適用于離散值特征選擇的二進(jìn)制粒子群算法,問題的解可用d維0-1向量表示,其中d是屬性個數(shù)。向量的第i個分量為0或1表示屬性是否被選擇。特征選擇的過程分為以下幾步。
1)隨機產(chǎn)生N0個0-1向量(粒子)作為初始粒子群,其中N0是種群的大小。
2)利用式(6)計算所有粒子的適應(yīng)度值。
3)更新粒子歷史最優(yōu)點pbest:將所有粒子的適應(yīng)度值和其歷史最佳點pbest做比對,擇優(yōu)更新pbest。
4)更新全局最最優(yōu)點gbest:將所有粒子的適應(yīng)度值和全局最優(yōu)點gbest做比對,擇優(yōu)更新gbest。
5)根據(jù)上一步更新得到的pbest和gbest,更新粒子的速度和位置。其中速度是根據(jù)上一步得到的pbest和gbest按照公式(7)進(jìn)行更新:
6)若迭代次數(shù)已達(dá)到設(shè)定值,終止并輸出當(dāng)前gbest對應(yīng)的解;否則,令k=k+1轉(zhuǎn)入2)。
粒子運動的步驟即全局最優(yōu)解的求解過程,通過不斷計算每個粒子的適應(yīng)度值,粒子依靠自我認(rèn)知能力和社會認(rèn)知能力來搜索最優(yōu)特征子集,逐漸向全局最佳位置靠攏,并最終得到理想結(jié)果。
在實驗過程中,選擇規(guī)模大小和屬性個數(shù)各異的8個離散UCI數(shù)據(jù)集進(jìn)行實驗。實驗采用Win7操作系統(tǒng)PC機(Intel Core i3處理器,內(nèi)存大小4 GB)。70%的樣例用作訓(xùn)練,30%的樣例用作測試。實驗研究發(fā)現(xiàn),當(dāng)慣性系數(shù)取值在0.9~1.2時,粒子群算法在全局搜索和收斂能力上表現(xiàn)均較好[36]。慣性系數(shù)和加速系數(shù)在常用范圍內(nèi)多次實驗,確定最終取值。慣性系數(shù)w取值為1。加速系數(shù)c1和c2取1.426 94,種群數(shù)目統(tǒng)一設(shè)定為20,終止代數(shù)設(shè)定為50。
首先選擇與本文方法背景知識相關(guān)、時間復(fù)雜度相仿的方法進(jìn)行比較,即選用粗糙集與粒子群算法相結(jié)合的RSPSO算法[31]和改進(jìn)的二進(jìn)制粒子群算法[29]。在表1中給出本文方法與文獻(xiàn)[31]和[29]兩種方法實驗對比結(jié)果,主要對比兩個方面的差異,其中#Fs代表被選擇的特征個數(shù),Ac代表測試精度。更直觀的結(jié)果見圖2~9所示。
表1 實驗結(jié)果比較
圖3 在Voting數(shù)據(jù)集上的實驗結(jié)果Fig.3 The experimental results of data set Voting
圖4 在Mushroom數(shù)據(jù)集上的實驗結(jié)果Fig.4 The experimental results of data set Mushroom
圖5 在Nursery數(shù)據(jù)集上的實驗結(jié)果Fig.5 The experimental results of data set Nursery
圖6 在Car數(shù)據(jù)集上的實驗結(jié)果Fig.6 The experimental results of data set Car
圖7 在Soybean數(shù)據(jù)集上的實驗結(jié)果Fig.7 The experimental results of data set Soybean
圖8 在Tic-Tac-Toe數(shù)據(jù)集上的實驗結(jié)果Fig.8 The experimental results of data set Tic-Tac-Toe
圖9 在SPECT數(shù)據(jù)集上的實驗結(jié)果Fig.9 The experimental results of data set SPECT
通過上述實驗,我們可以看出采用相對分類信息熵作適應(yīng)度函數(shù)的粒子群算法與單純粗糙集知識作為適應(yīng)度函數(shù)的粒子群算法相比,在實驗精度和篩選特征個數(shù)方面要明顯占優(yōu)。
接下來實驗中,比較粒子群算法和遺傳算法在處理特征選擇上的優(yōu)劣,對比方法為文獻(xiàn)[35]中的采用相同適應(yīng)度函數(shù)的遺傳特征選擇方法。從#Fs、Ac、σ和Time 4個方面進(jìn)行了比較,結(jié)果列于表2和表3中。其中,#Fs表示選出的特征數(shù),Ac表示測試精度,σ表示分類標(biāo)準(zhǔn)差,Time表示運行時間。更直觀的實驗結(jié)果如圖10~17所示。
表2 與遺傳算法比較的實驗結(jié)果(1)
Table 2 The experimental results compared with genetic algorithm(1)
數(shù)據(jù)集本文方法文獻(xiàn)[35]方法#FsAc#FsAcKr-vs-Kp120.9733130.9516Voting100.6558120.6224Mushroom80.8829100.8371Nursery60.919770.9021Car50.877350.8628Soybean160.9987190.9979Tic-Tac-Toe70.992970.9935SPECT120.9842150.9769
表3 與遺傳算法比較的實驗結(jié)果(2)
Table 3 The experimental results compared with genetic algorithm(2)
數(shù)據(jù)集本文方法文獻(xiàn)[35]方法σTimeσTimeKr-vs-Kp2.27×10-3415.25764.75×10-3508.5847Voting4.62×10-324.31667.15×10-326.0479Mushroom1.08×10-485.12186.68×10-396.0086Nursery8.72×10-32311.14381.04×10-22653.8612Car5.19×10-310.52683.97×10-310.2885Soybean2.01×10-335.17362.59×10-364.1101Tic-Tac-Toe3.68×10-312.16356.02×10-319.9828SPECT5.43×10-320.56397.52×10-329.7611
圖10 在數(shù)據(jù)集Kr-vs-Kp上的實驗結(jié)果(PSO與GA對比)Fig.10 The experimental results of data set Kr-vs-Kp(PSO,GA)
圖11 在數(shù)據(jù)集Voting上的實驗結(jié)果(PSO與GA對比)Fig.11 The experimental results of data set Voting(PSO,GA)
圖12 在數(shù)據(jù)集Mushroom上的實驗結(jié)果(PSO與GA對比)Fig.12 The experimental results of data set Mushroom(PSO,GA)
圖13 在數(shù)據(jù)集Nursery上的實驗結(jié)果(PSO與GA對比)Fig.13 The experimental results of data set Nursery(PSO,GA)
圖14 在數(shù)據(jù)集Car上的實驗結(jié)果(PSO與GA對比)Fig.14 The experimental results of data set Car(PSO,GA)
圖15 在數(shù)據(jù)集Soybean上的實驗結(jié)果(PSO與GA對比)Fig.15 The experimental results of data set Soybean(PSO,GA)
圖16 在數(shù)據(jù)集Tic-Tac-Toe上的實驗結(jié)果(PSO與GA對比)Fig.16 The experimental results of data set Tic-Tac-Toe(PSO,GA)
圖17 在數(shù)據(jù)集SPECT上的實驗結(jié)果(PSO與GA對比)Fig.17 The experimental results of data set SPECT(PSO,GA)
從表2、表3、圖10~11可以看出,用粒子群算法選出的特征子集在測試精度總體上優(yōu)于遺傳算法,且收斂速度比遺傳算法有大幅提升,篩選出的特征個數(shù)和運行時間較遺傳算法有一定程度的提高,兩者分類標(biāo)準(zhǔn)差基本相當(dāng)。其原因在于,粒子群算法在迭代的過程中具有一定的記憶功能,能夠在保持自身優(yōu)勢的同時感知全局走向,且不需要進(jìn)行較多的參數(shù)設(shè)置,省去了遺傳和變異的過程,實現(xiàn)起來更容易。實驗結(jié)果說明本文方法是行之有效的。
為進(jìn)一步驗證方法的有效性,由上述兩種方法分別對每個數(shù)據(jù)集隨機實驗10次,得到的10組測試結(jié)果組成兩個10維向量,記為X1和X2,對X1和X2進(jìn)行配對t檢驗,p值如表4所示。
表4 配對t檢驗p值
p值均較小,顯著性差異較大,進(jìn)一步證明了方法的可行。
本文選擇相對分類信息熵作為適應(yīng)度函數(shù),用粒子群算法尋找最優(yōu)特征子集,在解決離散值特征選擇問題上效果較好,并與其他方法進(jìn)行了比較。通過實驗我們得出以下結(jié)論:1)粒子群算法相比遺傳算法過程更簡單,省去了復(fù)雜的參數(shù)設(shè)置,容易實現(xiàn);2)粒子群算法擁有較好的測試精度,且在選擇的特征個數(shù)和運行時間方面都有一定程度的提高;3)粒子群算法收斂較快,可以更早得到擁有更好表示能力的特征子集。
[1]GUYON I, GUNN S, NIKRAVESH M, et al. Feature extraction, foundations and applications[M]. Berlin: Springer, 2006.
[2]DASH M, LIU H. Feature selection for classification [J]. Intelligent data analysis, 1997, 1: 131-151.
[3]PAWLAK Z. Rough sets [J]. Internationa journal of information and computer sciences, 1982, 11: 341-356.
[4]苗奪謙, 李道國. 粗糙集理論、算法與應(yīng)用 [M]. 北京: 清華大學(xué)出版社, 2008.
[5]SWINIARSKI R W, SKOWRON A. Rough set methods in feature selection and recognition[J]. Pattern recognition letters, 2003, 24(6): 833-849.
[6]JENSEN R, SHEN Q. Fuzzy-rough sets for descriptive dimensionality reduction[C]//IEEE International Conference on Fuzzy Systems, 2002. Fuzz-IEEE. 2002:29-34.
[7]BHATT R B, GOPAL M. On fuzzy-rough sets approach to feature selection[J]. Pattern recognition letters, 2005, 26(7): 965-975.
[8]JENSEN R, PARTHALáIN N M. Towards scalable fuzzy rough feature selection[J]. Information sciences, 2015, 323(C): 1-15.
[9]QIAN Y H, LIANG J, PEDRYCZ W, et al. Positive approximation: an accelerator for attribute reduction in rough set theory[J]. Artificial intelligence, 2010, 174(9/10): 597-618.
[10]HU Q H, YU D R, LIU J F, et al. Neighborhood rough set based heterogeneous feature subset selection[J]. Information sciences, 2008, 178(18): 3577-3594.
[11]ALMUALLIM H, DIETTERICH T G. Learning boolean concepts in the presence of many irrelevant features[J]. Artificial intelligence, 1994, 69 (1/2): 279-305.
[12]DASH M, LIU H. Consistency-based search in feature selection[J]. Artificial intelligence 2003 (151):155-176.
[13]BATTITI R. Using mutual information for selecting features in supervised neural net learning[J]. IEEE transactions on neural networks, 1994, 5(4): 537-549.
[14]KWAK N, CHOI C H. Input feature selection by mutual information based on parzen window [J]. IEEE transactions on pattern analysis and machine intelligence, 2002, 24(12): 1667-1671.
[15]ESTEVEZ P A, TESMER M, PEREZ C A, et al. Normalized mutual information feature selection [J]. IEEE transactions on neural networks, 2009, 20(2): 189-201.
[16]SONG L, SMOLA A, GRETTON A, et al. Feature selection via dependence maximization [J]. Journal of machine learning research, 2012, 13:1393-1434.
[17]HU Q H, ZHU Pengfei, LIU Jinfu, et al. Feature selection via maximizing fuzzy dependency[J]. Fundamenta informaticae, 2010, 98: 167-181.
[18]KOHAVI R, JOHN G. Wrappers for feature subset selection[J]. Artificial intelligence, 1997, 97(1/2): 273-324.
[19]SINDHWANI V, RAKSHIT S, DEODHARE D, et al. Feature selection in MLPs and SVMs based on maximum output information[J]. IEEE transactions on neural networks, 2004, 15(4): 937-947.
[20]YANG Jianbo, SHEN Kaiquan, ONG Chongjin, et al. Feature selection for MLP neural network: the use of random permutation of probabilistic outputs[J]. IEEE transactions on neural networks, 2009, 20(12): 1911-1922.
[21]QUINLAN J R. Induction of decision trees [J]. Machine learning, 1986, 1: 81-106.
[22]BREIMAN L, FRIEDMAN J H, RICHARD A S, et al. Classification and regression trees[M]. Belmont, CA: wadsworth international group, 1984.
[23]SETIONO R, LIU H. Neural-network feature selector [J]. IEEE transactions on neural networks, 1997, 8(3): 654-662.
[24]SHEN Kaiquan, ONG Chongjin, LI Xiaoping, et al. Feature selection via sensitivity analysis of SVM probabilistic outputs[J]. Machine learning, 2008, 70: 1-20.
[25]PERKINS S, LACKER K, THEILER J. Grafting: fast, incremental feature selection by gradient descent in function space [J]. Journal of machine learning research, 2003 (3) : 1333-1356.
[26]KENNEDY J, EBERHART R. Particle swarm optimization [C]. IEEE International Conference on Neural Networks. Perth, Australia, 1995, 4: 1942-1948.
[27]EBERHART R C, SHI Y H, KENNEDY J. Swarm Intelligence[M]. Massachusetts: Morgan Kaufmann, 2001.
[28]EBERHART R C , KENNEDY J. A discrete binary version of the particle swarm algorithm [J].IEEE conference on systems, 1997, 5: 4104-4109.
[29]CHUANG L Y, CHANG H W, TU C J, et al. Improved binary PSO for feature selection using gene expression data[J]. Computational biology & chemistry, 2008, 32(1): 29-37.
[30]CHUANG L Y, TSAI S W, YANG C H. Improved binary particle swarm optimization using catfish effect for feature selection[J]. Expert systems with applications, 2011, 38(10): 12699-12707.
[31]WANG Xiangyang, YANG Jie, TENG Xiaolong, et al. Feature selection based on rough sets and particle swarm optimization[J]. Pattern recognition letters, 2007, 28(4): 459-471.
[32]CERVANTE L, XUE B, ZHANG M, et al. Binary particle swarm optimisation for feature selection: a filter based approach[J]. Evolutionary computation, 2012, 41: 1-8.
[33]LIU Quanjin, ZHAO Zhimin, LI Yingxin. Ensemble feature selection method based on neighborhood information and PSO algorithm[J]. Acta electronica sinica, 2016, 44(4): 995-1002.
[34]FONG S, WONG R, VASILAKOS A. Accelerated PSO swarm search feature selection for data stream mining big data[J]. IEEE transactions on services computing, 2016, 9(1): 33-45.
[35]翟俊海, 劉博, 張素芳. 基于相對分類信息熵的進(jìn)化特征選擇算法[J]. 模式識別與人工智能, 2016, 29(8):682-690. ZHAI Junhai, LIU Bo, ZHANG Sufang. Feature selection via evolutionary computation based on relative classification information entropy[J]. Pattern recognition and artificial intelligence, 2016, 29(8): 682-690.
[36]SHI B Y, EBERHART R. A modified particle swarm optimizer[J]. IEEE world congress on computational intelligence, 1999, 6: 69-73.
A feature selection approach based on rough set relative classificationinformation entropy and particle swarm optimization
ZHAI Junhai1,2, LIU Bo3, ZHANG Sufang4
(1. Key Lab of Machine Learning and Computational Intelligence, Hebei University, Baoding 071002, China; 2. College of Mathematics, Physics and Information Engineering,Zhejiang Normal University, Jinhua 321004, China; 3. College of Computer Science and Technology, Hebei University, Baoding 071002, China; 4. Hebei Branch of Meteorological Cadres Training Institute, China Meteorological Administration, Baoding 071000, China)
Feature selection, an important step in data mining, is a process that selects a subset from an original feature set based on some criteria. Its purpose is to reduce the computational complexity of the learning algorithm and to improve the performance of data mining by removing irrelevant and redundant features. To deal with the problem of discrete values, a feature selection approach was proposed in this paper. It uses a particle swarm optimization algorithm to search the optimal feature subset. Further, it employs relative classification information entropy as a fitness function to measure the significance of the feature subset. Then, the proposed approach was compared with other evolutionary algorithm-based methods of feature selection. The experimental results confirm that the proposed approach outperforms genetic algorithm-based methods.
data mining; feature selection; data preprocessing; rough set; decision table; particle swarm optimization; information entropy; fitness function
10.11992/tis. 201705004
http://kns.cnki.net/kcms/detail/23.1538.TP.20170703.1854.018.html
2017-05-07. 網(wǎng)絡(luò)出版日期:2017-07-03.
國家自然科學(xué)基金項目(71371063); 河北省自然科學(xué)基金項目(F2017201026); 浙江省計算機科學(xué)與技術(shù)重中之重學(xué)科(浙江師范大學(xué))資助項目.
翟俊海. E-mail: mczjh@126.com.
TP181
A
1673-4785(2017)03-0397-08
翟俊海,男,1964年生,男,教授,中國人工智能學(xué)會粗糙集與軟計算專業(yè)委員會委員,主要研究方向為機器學(xué)習(xí)。近幾年主持或參與省部級以上項目10余項,獲河北省自然科學(xué)三等獎1項,出版專著4部,發(fā)表論文70余篇。
劉博,男,1989年生,碩士研究生,主要研究方向為機器學(xué)習(xí)。
張素芳,女,1966年生,副教授,主要研究方向為機器學(xué)習(xí)。