李素姝,王士同,李 滔
江南大學(xué) 數(shù)字媒體學(xué)院,江蘇 無錫 214122
基于雙模糊信息的特征選擇算法*
李素姝+,王士同,李 滔
江南大學(xué) 數(shù)字媒體學(xué)院,江蘇 無錫 214122
在對傳統(tǒng)特征選擇算法進行研究的基礎(chǔ)上,提出了一種基于雙模糊信息的特征選擇算法(feature selection algorithm based on doubly fuzziness information,F(xiàn)SA-DFI)。第一種模糊體現(xiàn)在對最小學(xué)習(xí)機(least learning machine,LLM)進行模糊化后得到模糊最小學(xué)習(xí)機(fuzzy least learning machine,F(xiàn)UZZYLLM)中;另一種模糊則是在基于貢獻率模糊補充這一方法中體現(xiàn)的,其中貢獻率高的特征才可能被選入最終的特征子集。算法FSA-DFI是將FUZZY-LLM和基于貢獻率的模糊補充方法結(jié)合得到的。實驗表明,和其他算法相比,所提特征選擇算法FSA-DFI能得到更好的分類準(zhǔn)確率、更好的降維效果以及更快的學(xué)習(xí)速度。
特征選擇;雙模糊;最小學(xué)習(xí)機;模糊隸屬度;模糊補充
大數(shù)據(jù)的興起需要更多性能優(yōu)良的機器學(xué)習(xí)算法和特征選擇新方法。特征選擇的目標(biāo)是為了找到具有代表性的特征子集,能表示出整個數(shù)據(jù)域的特性。在一個典型的特征選擇方法中,包括產(chǎn)生候選子集、評估子集、終止選擇以及驗證子集是否有效這幾步。
對特征選擇算法的研究最早可以追溯到20世紀(jì)60年代,當(dāng)時的研究領(lǐng)域主要是在統(tǒng)計學(xué)和信號處理方向,涉及到的特征也很少。90年代以來,對大規(guī)模數(shù)據(jù)的預(yù)處理問題不斷涌現(xiàn),原有的特征選擇算法已不能滿足需求,許多學(xué)者開始研究新算法?;诨バ畔⒌奶卣鬟x擇(mutual information-based feature selection,MIFS)算法[1]是由Battiti給出的一種考慮特征之間相關(guān)性的方法,此種方法需要預(yù)先指定與特征冗余程度有關(guān)的參數(shù)?;谧钚∪哂嘧畲笙嚓P(guān)(minimum redundancy maximum relevance,mRMR)算法[2],使用互信息衡量特征的相關(guān)性和冗余度,并使用信息差和信息熵兩個代價函數(shù)來尋找特征子集,但是計算速度比較慢,冗余度和相關(guān)性評價方法單一,也不能根據(jù)用戶需求設(shè)置特征維度。基于條件互信息(conditional mutual information,CMI)算法[3],融入聚類思想,其在特征選擇過程中一直保持特征互信息不變。Fleuret提出基于條件互信息最大化選擇(conditional mutual information maximization,CMIM)算法[4],采取一種變通的方式,使用單個已選特征代替整個已選子集以估算條件互信息。另外還有雙方聯(lián)合信息(joint mutual information,JMI)方法[5]、雙輸入對稱相關(guān)(double input symmetrical relevance,DISR)方法[6]、條件最大熵特征提?。╟onditional infomax feature extraction,CIFE)[7]以 及 ICAP(interaction capping)[7]方法等可以用來進行特征選擇。然而,上述算法都是在全局范圍內(nèi)對數(shù)據(jù)進行操控,并且難以兼顧泛化性能、學(xué)習(xí)效率和降維性能。
近年來,有關(guān)人工神經(jīng)網(wǎng)絡(luò)的研究發(fā)展迅速,而在其實際應(yīng)用中,大部分的神經(jīng)網(wǎng)絡(luò)模型是基于BP神經(jīng)網(wǎng)絡(luò)及其變化形式。BP算法雖然有神經(jīng)網(wǎng)絡(luò)的普遍優(yōu)點,但存在如收斂速度慢、易陷入局部最優(yōu)等問題[8]。針對這些問題,Wang等人通過揭示單層前向神經(jīng)網(wǎng)絡(luò)(single-layer feedforward neural network,SLFN)的極限學(xué)習(xí)機(extreme learning machine,ELM)[9]以及中心化的嶺回歸之間的關(guān)系,提出了SLFN的最小學(xué)習(xí)機(least learning machine,LLM)理論[10]。與BP算法相比,LLM算法具有較高的學(xué)習(xí)效率和較強的泛化性能,也適用于求解大規(guī)模樣本問題。然而,在實際應(yīng)用中發(fā)現(xiàn)一些輸入樣本并不能被準(zhǔn)確地分配到相應(yīng)的類別[11],因此LLM算法仍然存在一些局限性。對LLM引入模糊隸屬度,從而得到模糊最小學(xué)習(xí)機FUZZY-LLM的概念,使得不同的輸入樣本會對輸出結(jié)果的學(xué)習(xí)產(chǎn)生不同的影響。
為了彌補傳統(tǒng)特征選擇算法難以兼顧泛化性能、學(xué)習(xí)效率和高辨識能力特征子集獲取的不足,同時改進LLM算法存在的一些局限性,本文提出了一種新算法——基于雙模糊信息的特征選擇算法(feature selection algorithm based on doubly fuzziness information,F(xiàn)SA-DFI),其雙模糊具體體現(xiàn)在FUZZY-LLM算法以及基于貢獻率的模糊補充方法中。具體來說,首先將FUZZY-LLM作為一種訓(xùn)練樣本方法運用于每個特征對其進行分類,此時即可得到第一種模糊信息;然后使用一種新的模糊隸屬度函數(shù)將其映射到模糊子空間,即可得到每個特征對應(yīng)的模糊隸屬度集;接著利用模糊隸屬度集和基于貢獻率的模糊補充方法可得到第二種模糊信息,用這種模糊信息指導(dǎo)特征選擇過程的進行,將貢獻率高的特征加入最終的特征子集。
假定已有構(gòu)造好的L個無限可微的核函數(shù)g(xi,θ1),g(xi,θ2),…,g(xi,θL),L表示隱含層節(jié)點個數(shù),其中θ1,θ2,…,θL表示核的L個不同的參數(shù)向量,例如ELM中的wi,bi。關(guān)于樣本集D={xi,yi,i=1,2,…,N}中輸入、輸出樣本的逼近問題,可用下述的嶺回歸實現(xiàn):
式中,C為正則化參數(shù),令H=[h1,h2,…,hN]T。其中,hi=[g(xi,θ1),g(xi,θ2),…,g(xi,θL)],T=[t1,t2,…,tN]T。
根據(jù)文獻[12]的數(shù)據(jù)中心化思想,式(1)對應(yīng)的嶺回歸還可等價于下述中心化嶺回歸問題的解。即令,其中IN×N是對角元素值為1,其余元素為0的N×N單位矩陣,1∈RN為一個所有元素為實數(shù)1的列向量,可以看出LT=L。因此,式(1)的解為:
當(dāng)C非常大時,β退化為:
其中,(LH)?為LH的偽逆(Moore-Penrose generalized inverse)。
LLM算法實現(xiàn)簡單且學(xué)習(xí)效率非常高,能以較強的泛化能力實現(xiàn)函數(shù)逼近,也適用于求解大規(guī)模樣本問題。LLM算法還可應(yīng)用于回歸問題及深度學(xué)習(xí)領(lǐng)域[13-14]。
在分類問題中,有些訓(xùn)練樣本比其他樣本更重要,重要的訓(xùn)練樣本應(yīng)該被正確地分類,而那些被噪聲破壞的樣本意義不大,可以被丟棄。換句話說,存在一個模糊隸屬度si(0<si≤1)和每個訓(xùn)練樣本xi有關(guān)。在分類問題中,模糊隸屬度si可以看成是相應(yīng)的訓(xùn)練樣本對某一類的重要程度。選擇合適的模糊隸屬度也是比較容易的。首先,選擇σ>0作為模糊隸屬度較低的邊界;其次,定義時間為主要屬性,使得模糊隸屬度si成為時間ti的函數(shù):
其中,t1≤t2≤…≤tN是樣本到達系統(tǒng)的時間。這里假設(shè)最后一個樣本xN最重要,令sN=f(tN)=1,第一個樣本x1最不重要,使得s1=f(t1)=σ。若要使得模糊隸屬度與時間成線性關(guān)系,可以令
再應(yīng)用邊界條件得到:
若要使得模糊隸屬度為時間的二次函數(shù),可以令
再應(yīng)用邊界條件可得:
因此,對LLM進行模糊化后得到FUZZY-LLM。
考慮一個帶有類標(biāo)及模糊隸屬度的訓(xùn)練樣本集合D={xi,yi,si,i=1,2,…,N},yi∈{+1,-1},yi表示類標(biāo),其中每個樣本,模糊隸屬度σ≤si≤1,σ表示一個大于0的較小值。前面提到,模糊隸屬度si是相應(yīng)的訓(xùn)練樣本對某一類的重要程度,而參數(shù)是對錯誤的一個衡量,那么式子就是對不同權(quán)重錯誤的衡量。關(guān)于樣本集D中輸入、輸出樣本的逼近問題,可用下述的嶺回歸實現(xiàn):
基于KKT理論,訓(xùn)練模糊LLM等價于解決下述對偶最優(yōu)化問題:
使用KKT相應(yīng)的最佳性條件如下:
將式(11)和式(12)放入式(13)中替換,等式可以寫成:
其中,T=[t1,t2,…,tN]T;模糊矩陣為:
因此,不同模糊矩陣的輸入樣本點會對輸出權(quán)重β的學(xué)習(xí)產(chǎn)生不同的影響。根據(jù)文獻[15],當(dāng)訓(xùn)練樣本個數(shù)較小時,F(xiàn)UZZY-LLM分類器的決策函數(shù)表達如下:
當(dāng)訓(xùn)練樣本個數(shù)較大時,對應(yīng)的決策函數(shù)為:
對于二分類問題,F(xiàn)UZZY-LLM只有一個輸出節(jié)點且最終的決策值是。針對多分類問題,可以使用一對余方法(one versus rest,OVR)[16],訓(xùn)練樣本的預(yù)測類標(biāo)就是有最高決策值的輸出節(jié)點的序列數(shù):
用UCI(http://archive.ics.uci.edu/ml/)中的7個數(shù)據(jù)集Wine、Cleveland、Ionosphere、Dermatology、Wdbc、Glass、Sonar進行實驗,觀察LLM和FUZZY-LLM算法性能的表現(xiàn)差異。在LLM、FUZZY-LLM中使用的激勵函數(shù)形式是sigmoid型,隱含節(jié)點數(shù)為20,C為220,F(xiàn)UZZY-LLM中σ設(shè)為0.1。表1是兩種算法測試準(zhǔn)確率和訓(xùn)練時間的比較??梢钥闯觯琇LM和FUZZY-LLM的訓(xùn)練速度都很快,F(xiàn)UZZY-LLM的學(xué)習(xí)性能并不比LLM差。
在本文算法的雙模糊信息中,將模糊隸屬度的概念引入到LLM中即可得到FUZZY-LLM算法,那么使用該算法對輸入樣本進行訓(xùn)練即可得到第一種模糊信息。由于FUZZY-LLM學(xué)習(xí)性能很好,本文用這種新算法作為一種訓(xùn)練方法,即將這種方法用于每個特征的訓(xùn)練樣本對其分類,得到所有分類器的決策值,用于后文將要介紹的模糊隸屬度函數(shù)的求解。
Table 1 Performance comparison of LLM and FUZZY-LLM表1LLM和FUZZY-LLM性能比較
本章主要介紹本文所提出的第二種模糊,即使用基于貢獻率的模糊補充方法來進行特征選擇。首先介紹一種求樣本模糊隸屬度的新方法,通過該方法進而可以得到每個特征的模糊隸屬度集;接著利用模糊隸屬度集和基于貢獻率的模糊補充方法可得到第二種模糊信息,用其可以指導(dǎo)特征選擇過程的進行,以得到最佳特征子集。
D中的訓(xùn)練樣本根據(jù)類標(biāo)排列如下:
對于有M類的樣本集,用FUZZY-LLM方法對每個特征單獨訓(xùn)練以獲得每個樣本對所屬類的模糊隸屬度。但是模糊隸屬度不僅僅是由所屬類的決策函數(shù)值決定,還和其他分類器的輸出值有關(guān)。用xi,j表示樣本xi的第j個特征,i=1,2,…,N。Ak(xi,j)∈[0,1]表示樣本xi,j對所屬第k類的模糊隸屬度,fk(xi,j)表示由xi,j訓(xùn)練的第k個分類器的決策值,MXi,j,k表示由剩下的(K-1)個分類器獲得的最大決策值:
則模糊隸屬度函數(shù)中的自變量Fk(xi,j)表示如下:
模糊隸屬度函數(shù)Ak(xi,j)的表達式可以計算如下:
(1)當(dāng)fk(xi,j)>MXi,j,k時,表明樣本對所在類的模糊隸屬度比較高,Ak(xi,j)∈[0.5,1]。
(2)當(dāng)fk(xi,j)<MXi,j,k時,表明樣本對所在類的模糊隸屬度比較低,Ak(xi,j)∈[0,0.5]。
(3)當(dāng)fk(xi,j)=MXi,j,k或MXi,j,k=1時,模糊隸屬度為0.5,表明樣本的分類情況不確定。另外,λ為可調(diào)參數(shù),其對樣本所屬類別的模糊隸屬度有較大影響。
現(xiàn)在將第k類中樣本的模糊隸屬度用一個集合表示,如式(23)所示:
其中,ci表示樣本xi,j所屬類的類標(biāo)。S(j)還可用下式定義:
其中,As(xi,j)表示xi,j對模糊集S的隸屬程度。
為了客觀地描述上述概念,圖1描繪了第j個特征的模糊隸屬度集S(j)與訓(xùn)練樣本分布之間的關(guān)系。從圖中可以看出,大部分樣本都有較高的模糊隸屬度(超過0.5),表明只考慮單個特征j時,能夠很好地將這些樣本區(qū)分開。而小部分樣本有比較低的模糊隸屬度(小于0.5),表明特征j并不能將它們正確區(qū)分開。S(j)關(guān)注的是與每個樣本有關(guān)的局部特性。
模糊隸屬度集S(j)的基數(shù)就是模糊隸屬度集中元素累加之和,表示如下:
Fig.1 Relationship betweenS(j)and distribution of training patterns圖1 S(j)與訓(xùn)練樣本分布之間的關(guān)系
基數(shù)值|S(j)|主要是用來直觀地評判一個特征的分類能力。若S(j)中絕大部分樣本As(xi,j)的值都接近于1,則|S(j)|的值也比較大,就可以得出這一特征中訓(xùn)練樣本的分類是比較正確的,由此可推出此特征的分類性能相對較高。而若|S(j)|的值比較低,也可說明其中很多樣本都被分錯,則此特征的分類性能較差?;鶖?shù)|S(j)|注重于對特征分類能力的整體評判。
定義1兩個模糊隸屬度集合S(j)和S(q)的并集可以用S-norm[17]來定義,這里采用S3(A,B)=max(A,B)形式如下(http://www.nicodubois.com/bois5.2.htm):
定義2(S(j)|-|S(q))兩個特征模糊隸屬度集合的差值定義如下[18]:
定義3(G(t))讓表示被選上的t個特征的集合,G(t)表示包含在F(t)中所有特征的模糊隸屬度集合的并集,其提供了一種近似方法去評估在第t次迭代中已選特征所獲得的數(shù)據(jù)覆蓋的質(zhì)量:
定義4(ES(zlt))若是在第t次迭代中的一個候選特征。表示特征和G(t-1)有關(guān)的額外貢獻,是由提供的隸屬度的剩余部分,G(t-1)表示在迭代中累積的并集。候選特征的額外貢獻可用下式表達:
在已選擇第一個特征后,進行如下算法1過程:
(2)選擇特征判定條件:
基于貢獻率的模糊補充特征方法能夠促進特征之間的合作,確保新加入進來的特征具有補充意義。換句話說,新加入進來的特征能夠為已選特征子集帶來更高的模糊隸屬度,而不是被之前已經(jīng)選擇出來的特征所完全覆蓋。
本文提出了一種基于雙模糊信息的特征選擇新算法FSA-DFI。首先將FUZZY-LLM作為一種訓(xùn)練樣本方法運用于每個特征對其進行分類得到第一種模糊信息;然后使用一種新的模糊隸屬度函數(shù)得到每個特征對應(yīng)的模糊隸屬度集,最后使用模糊隸屬度集和基于貢獻率的模糊補充方法得到第二種模糊信息,用這種模糊信息指導(dǎo)特征選擇過程的進行以得到最佳特征子集。若初始特征集合,n表示特征總數(shù)。本文算法步驟描述如下:
(1)初始化,定義初始模糊隸屬度并集G(0)=?,初始已選特征子集F(0)=?,設(shè)定閾值E,設(shè)定可調(diào)參數(shù)λ。
(2)計算特征的模糊隸屬度集,根據(jù)前述3.1節(jié)的式(20)~(24),計算特征集fs中每個特征的模糊隸屬度集合S(zj),j=1,2,…,n。
(3)選擇第一個特征,計算所有特征的模糊隸屬度集基數(shù),選擇使得基數(shù)最大的特征:
(4)進行3.2.2小節(jié)中算法1的過程。
(5)輸出最后被選擇出來的特征集合。
將FSA-DFI算法應(yīng)用在Wine數(shù)據(jù)集上,觀察隨著特征數(shù)目變化,分類精度和貢獻率的變化情況。這里數(shù)據(jù)集劃分為訓(xùn)練和測試部分(70%,30%),產(chǎn)生的特征子集通過KNN1分類器進行評估,閾值E設(shè)為0.1%。圖2展示了被選擇特征數(shù)目相對應(yīng)的分類精度變化和貢獻率的變化。貢獻率一開始呈指數(shù)下降,而分類精度呈上升趨勢后趨于穩(wěn)定。閾值E作為算法結(jié)束條件,獲得了9個特征,分類精度達到穩(wěn)定值98.11%。
Fig.2 Evolution of contribution rateand classification rate versus number of selected features圖2 被選擇特征數(shù)目相對應(yīng)的分類精度變化和貢獻率的變化
本文采用9個來自UCI的真實數(shù)據(jù)集進行實驗,如表2所示。為避免結(jié)果的偶然性,對數(shù)據(jù)集隨機抽取其中的70%作為訓(xùn)練樣本,剩下的30%作為測試樣本并進行10重交叉驗證。特征選擇結(jié)束后得到的特征子集使用KNN1分類器對其進行測試,得到最終的實驗結(jié)果。
Table 2 List of datasets表2 數(shù)據(jù)集列表
實驗平臺:所有數(shù)據(jù)集在Intel Core i3-3240×2 CPU,主頻為3.4 GHz,內(nèi)存為4 GB,編程環(huán)境為Matlab2013a上進行仿真實驗。
(1)經(jīng)過實驗發(fā)現(xiàn),式(22)中的參數(shù)λ在{1.0,1.5,2.0,2.5,3.0,3.5}中取值。這里選取3個數(shù)據(jù)集(Iris、Vehicle、Cleveland)觀察λ對本文算法FSA-DFI泛化性能的影響,如圖3所示,可發(fā)現(xiàn)在這3個數(shù)據(jù)集中,該參數(shù)是比較敏感的。
(2)算法中的閾值E從{0.1,0.2,…,1.0}中選擇。E的值越小,表明選擇的特征數(shù)目越多,降維程度越低,但能獲得更高的測試準(zhǔn)確率,反之亦然。
(3)FUZZY-LLM算法中正則參數(shù)C取值為220,隱含層節(jié)點數(shù)L取為20,算法最常用的激勵函數(shù)形式為sigmoid型。
Fig.3 Effect of parameterλon accuracy of FSA-DFI algorithm圖3 參數(shù)λ對FSA-DFI算法準(zhǔn)確率的影響
實驗主要以測試準(zhǔn)確率、降維程度(DR)和特征選擇時間作為主要評價指標(biāo)。其中,測試準(zhǔn)確率是由10次隨機劃分所得準(zhǔn)確率求均值得到,降維程度計算如下:
本文的對比實驗分為兩部分:第一部分9組實驗是對不同特征選擇方法的泛化性能進行比較分析,與FSA-DFI算法進行比較的有CMIM[4]、JMI[5]、DISR[6]、CIFE[7]、ICAP[7]、MIFS[1]、CMI[3]、mRMR[2]算法,實驗結(jié)果如表3所示。為方便比較,使得CMIM、JMI、DISR、CIFE、ICAP、MIFS、CMI和mRMR這幾種算法最終選擇的特征數(shù)目和本文算法FSA-DFI相同,即降維程度相同。表3中第二列是數(shù)據(jù)集在不同特征選擇算法中所選擇的特征數(shù)目。這些算法運行效率都很高,運行時間幾乎為0,不進行比較。
第二部分9組實驗是在本文的特征選擇算法中采用不同訓(xùn)練方法進行比較的結(jié)果,與FUZZY-LLM方法進行比較的是 SVM[19]、LS-SVM[20]、FSVM[21]和LLM。其中,SVM、LS-SVM和FSVM的核函數(shù)是高斯RBF形式,如式(34)所示:
Table 3 Evaluation of test accuracy表3 測試準(zhǔn)確率對比
SVM、LS-SVM、FSVM實驗中正則參數(shù)C設(shè)為220,σ為1,參數(shù)λ值同F(xiàn)UZZY-LLM;FSVM中模糊隸屬度si的計算同F(xiàn)UZZY-LLM,F(xiàn)SVM中SMO(sequential minimal optimization)算法的參數(shù)TolKKT為0.001,MaxIter為 15 000,KKTViolationLevel為 0,KernelCacheLimit為5 000。LLM方法中所有參數(shù)同F(xiàn)UZZY-LLM。實驗結(jié)果如表4~表6所示,最優(yōu)結(jié)果都用粗體標(biāo)出。
從表3中可以看出,本文所提出的FSA-DFI算法泛化性能很高,其中在 Wdbc、Wine、Vehicle、Cleveland、Glass這5個數(shù)據(jù)集上具有最高的測試準(zhǔn)確率,在其他幾個數(shù)據(jù)集上也具有不錯的性能。
從表4~表6中可以看出,本文提出的訓(xùn)練方法FUZZY-LLM 在 Heart、Wine、Cleveland、Ionosphere、Wdbc和Glass這6個數(shù)據(jù)集中都具有很高的準(zhǔn)確率,而且在Cleveland和Glass這兩個數(shù)據(jù)集中,本文算法的準(zhǔn)確率要遠高于SVM及其延伸算法。另外,在Heart、Wine、Iris、Cleveland、Ionosphere、Wdbc、Vehicle和Glass這8個數(shù)據(jù)集中,本文算法時間花費很少,可見其學(xué)習(xí)效率非常高,同時在這些數(shù)據(jù)集中也能保持不錯的降維效果。同F(xiàn)UZZY-LLM相比,SVM算法通過犧牲學(xué)習(xí)效率以換取較高的測試準(zhǔn)確率;LS-SVM算法也是通過犧牲準(zhǔn)確率以換取較高的降維性能;而FSVM和LLM的總體性能也不如FUZZYLLM。在大規(guī)模數(shù)據(jù)集Wdbc、Vehicle和Segment中,相比于其他算法,采用FUZZY-LLM這種訓(xùn)練方法的效率依然很高,可見該算法可以很好地解決大規(guī)模數(shù)據(jù)集的分類問題。總之,本文算法既能得到很好的泛化能力,又能獲得不錯的降維效果,同時還具有非常高的學(xué)習(xí)效率,三者兼顧,還可以用于解決大規(guī)模數(shù)據(jù)集的分類問題。
Table 4 Comparison results of different training methods in Iris、Wine and Glass datasets表4 在Iris、Wine和Glass數(shù)據(jù)集中采用不同訓(xùn)練樣本方法的比較結(jié)果
Table 6 Comparison results of different training methods in Wdbc、Vehicle and Segment datasets表6 在Wdbc、Vehicle和Segment數(shù)據(jù)集中采用不同訓(xùn)練樣本方法的比較結(jié)果
本文算法FSA-DFI將在4個真實存在的高維生物醫(yī)學(xué)數(shù)據(jù)集上進行測試,如表7所示。其中,Leukemia和Colon數(shù)據(jù)集取自于http://datam.i2r.a-star.edu.sg/datasets/krbd/index.html,SRBCT和DLBCL數(shù)據(jù)集取自于http://www.gems-system.org/,這些數(shù)據(jù)集都是基因表達數(shù)據(jù)。
Table 7 List of high dimensional datasets表7 高維數(shù)據(jù)集列表
Colon數(shù)據(jù)集的樣品是患者體內(nèi)取出后20 min內(nèi)在液氮中快速冷凍的結(jié)腸腺癌樣品,其包括22個正常(標(biāo)為“positive”)和40個腫瘤樣品(標(biāo)為“negative”),每個樣品有 2 000 個基因;Small,round blue cell tumors(SRBCT)of childhood,小圓形藍色腫瘤數(shù)據(jù)集有83個樣品,每個樣品有2 308個基因,分為EWS、RMS、BL、NB這4類;Diffuse large b-cell lymphomas(DLBCL)and follicular lymphomas,彌漫性大b細胞淋巴瘤和濾泡性淋巴瘤有72個樣品,每個樣品有5 469個基因,分為DLBCL和FL這兩類;Leukemia數(shù)據(jù)集取自于Golub報道的白血病患者樣品的集合,數(shù)據(jù)集由72個樣品組成,包含對應(yīng)于來自骨髓和外周血的急性淋巴母細胞性白血?。ˋLL)的25個樣品和急性髓細胞性白血病(AML)的47個樣品,每個樣品測量超過7 129個基因。
Colon、SRBCT、DLBCL和Leukemia數(shù)據(jù)集經(jīng)過算法FSA-DFI測試后選擇出來的特征數(shù)目依次是8、12、7、3。從表8可知,與傳統(tǒng)特征選擇方法相比,本文算法FSA-DFI在高維數(shù)據(jù)集中的分類精度依然很高。從圖4和圖5可得,與現(xiàn)存的其他分類方法相比,本文所提出的基于分類方法FUZZY-LLM所進行的特征選擇算法在應(yīng)用到實際的生物醫(yī)學(xué)數(shù)據(jù)集問題中依然能夠獲得很高的泛化性能和學(xué)習(xí)效率。另外,基于這幾種分類方法進行特征選擇后得到的降維程度都接近100%,這里不予表示。FSA-DFI算法應(yīng)用在Colon、SRBCT、DLBCL和Leukemia數(shù)據(jù)集中的降維度分別為99.59%、99.47%、99.87%、99.96%。因而可得,本文所提出的基于分類方法FUZZY-LLM所進行的特征選擇算法FSA-DFI在應(yīng)用到實際的高維生物醫(yī)學(xué)數(shù)據(jù)集問題中依然能夠兼顧泛化性能、降維程度以及學(xué)習(xí)效率。
本文提出了一種基于雙模糊信息的特征選擇新算法FSA-DFI,該算法能夠在獲取高辨識能力特征子集的同時獲得很好的泛化性能,最突出的特點就是學(xué)習(xí)效率高,甚至在許多高維數(shù)據(jù)集中能獲得比較優(yōu)良的性能,因此可以很好地解決高維數(shù)據(jù)集、大規(guī)模數(shù)據(jù)集的分類問題。該算法的雙模糊具體體現(xiàn)在FUZZY-LLM算法以及基于貢獻率的模糊補充方法中。具體來說,首先將FUZZY-LLM作為一種訓(xùn)練樣本方法運用于每個特征對其進行分類,此時即可得到第一種模糊信息;然后使用一種新的模糊隸屬度函數(shù)得到每個特征對應(yīng)的模糊隸屬度集,第二種模糊信息是從模糊隸屬度集和基于貢獻率的模糊補充方法中得到的,用其可以指導(dǎo)特征選擇過程的進行,以得到最佳特征子集,這種方式加強了特征間的協(xié)作關(guān)系,從而得到具有最小冗余最大相關(guān)性的特征子集。
Table 8 Comparison results of different feature selection methods in Colon,SRBCT,DLBCLand Leukemia datasets表8 在Colon、SRBCT、DLBCL和Leukemia數(shù)據(jù)集中應(yīng)用不同特征選擇方法的比較結(jié)果
Fig.4 Comparison of test accuracy results using different classification methods in Colon,SRBCT,DLBCL and Leukemia datasets圖4 在Colon、SRBCT、DLBCL和Leukemia數(shù)據(jù)集中采用不同分類方法測試準(zhǔn)確率的比較
Fig.5 Comparison of feature selection time using different classification methods in Colon,SRBCT,DLBCL and Leukemia datasets圖5 在Colon、SRBCT、DLBCL和Leukemia數(shù)據(jù)集中采用不同分類方法特征選擇時間的比較
[1]Battiti R.Using mutual information for selecting features in supervised neural net learning[J].IEEE Transactions on Neural Networks,1994,5(4):537-550.
[2]Zhang Ning,Zhou You,Huang Tao,et al.Discriminating between lysine sumoylation and lysine acetylation using mRMR feature selection and analysis[J].PLOS One,2014,9(9):e107464.
[3]Sotoca J M,Pla F.Supervised feature selection by clustering using conditional mutual information-based distances[J].Pattern Recognition,2010,43(6):2068-2081.
[4]Fleuret F.Fast binary feature selection with conditional mutual information[J].Journal of Machine Learning Research,2004,5(3):1531-1555.
[5]Kerroum M A,Hammouch A,Aboutajdine D.Textural feature selection by joint mutual information based on Gaussian mixture model for multispectral image classification[J].Pattern Recognition Letters,2010,31(10):1168-1174.
[6]Bennasar M,Hicks Y,Setchi R.Feature selection using joint mutual information maximisation[J].Expert Systems with Applications,2015,42(22):8520-8532.
[7]Brown G,Pocock A,Zhao Mingjie,et al.Conditional likelihood maximisation:a unifying framework for information theoretic feature selection[J].Journal of Machine Learning Research,2012,13(1):27-66.
[8]Jing Guolin,Du Wenting,Guo Yingying.Studies on prediction of separation percent in electrodialysis process via BP neural networks and improved BP algorithms[J].Desalination,2012,291(14):78-93.
[9]Huang Guangbin,Zhou Hongming,Ding Xiaojian,et al.Extreme learning machine for regression and multiclass classification[J].IEEE Transactions on Systems,Man&Cybernetics:Part B Cybernetics,2012,42(2):513-529.
[10]Wang Shitong,Chung F L.On least learning machine[J].Journal of Jiangnan University:Natural Science Edition,2010,9(5):505-510.
[11]Zhang W B,Ji H B.Fuzzy extreme learning machine for classification[J].Electronics Letters,2013,49(7):448-450.
[12]Zhang Changshui,Nie Feiping,Xiang Shiming.A general kernelization framework for learning algorithms based on kernel PCA[J].Neurocomputing,2010,73(4/6):959-967.
[13]Wang Shitong,Chung F L,Wu Jun,et al.Least learning machine and its experimental studies on regression capability[J].Applied Soft Computing,2014,21(8):677-684.
[14]Wang Shitong,Jiang Yizhang,Chung F L,et al.Feedforward kernel neural networks,generalized least learning machine,and its deep learning with application to image classification[J].Applied Soft Computing,2015,37(C):125-141.
[15]Huang Guangbin,Zhu Qinyu,Siew C K.Extreme learning machine:theory and applications[J].Neurocomputing,2006,70(1/3):489-501.
[16]Student S,Fujarewicz K.Stable feature selection and classification algorithms for multiclass microarray data[J].Biology Direct,2012,7(1):33.
[17]Azadeh A,Aryaee M,Zarrin M,et al.A novel performance measurement approach based on trust context using fuzzy T-norm and S-norm operators:the case study of energy consumption[J].Energy Exploration&Exploitation,2016,34(4):561-585.
[18]Dereli T,Baykasoglu A,Altun K,et al.Industrial applications of type-2 fuzzy sets and systems:a concise review[J].Computers in Industry,2011,62(2):125-137.
[19]Chang C C,Lin C J.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology,2011,2(3):389-396.
[20]Suykens J A K,Gestel T V,Brabanter J D,et al.Least squares support vector machines[J].Euphytica,2002,2(2):1599-1604.
[21]Lin Chunfu,Wang Shengde.Fuzzy support vector machines[J].IEEE Transactions on Neural Networks,2002,13(2):464-471.
附中文參考文獻:
[10]王士同,鐘富禮.最小學(xué)習(xí)機[J].江南大學(xué)學(xué)報:自然科學(xué)版,2010,9(5):505-510.
Feature SelectionAlgorithm Based on Doubly Fuzziness Information*
LI Sushu+,WANG Shitong,LI Tao
School of Digital Media,Jiangnan University,Wuxi,Jiangsu 214122,China
2016-10,Accepted 2016-12.
Based on the traditional feature selection algorithms,this paper proposes a new feature selection algorithm based on doubly fuzziness information(FSA-DFI).One fuzziness is involved in the fuzzified version of least learning machine(LLM),i.e.,FUZZY-LLM,and the other fuzziness is involved in the contribution-rate based fuzzy complementary method in which the features with high contribution rates may be finally selected.The proposed feature selection algorithm is built on the combination of FUZZY-LLM and the contribution-rate based fuzzy complementary method.Experiments indicate that the proposed feature selection algorithm has better classification accuracy,better dimension reduction and faster learning speed,in contrast to other comparative algorithms.
feature selection;doubly fuzziness;least learning machine;fuzzy membership degree;fuzzy complementary
+Corresponding author:E-mail:lss85318977@163.com
10.3778/j.issn.1673-9418.1610058
*The National Natural Science Foundation of China under Grant No.61170122(國家自然科學(xué)基金).
CNKI網(wǎng)絡(luò)優(yōu)先出版:2017-01-03,http://www.cnki.net/kcms/detail/11.5602.TP.20170103.1028.002.html
LI Sushu,WANG Shitong,LI Tao.Feature selection algorithm based on doubly fuzziness information.Journal of Frontiers of Computer Science and Technology,2017,11(12):1993-2003.
A
TP181
LI Sushu was born in 1993.She is an M.S.candidate at School of Digital Media,Jiangnan University.Her research interests include artificial intelligence and pattern recognition,etc.
李素姝(1993—),女,江蘇南通人,江南大學(xué)數(shù)字媒體技術(shù)學(xué)院碩士研究生,主要研究領(lǐng)域為人工智能,模式識別。
WANG Shitong was born in 1964.He is a professor and Ph.D.supervisor at School of Digital Media,Jiangnan University,and the member of CCF.His research interests include artificial intelligence and pattern recognition,etc.
王士同(1964—),男,江蘇揚州人,江南大學(xué)數(shù)字媒體技術(shù)學(xué)院教授、博士生導(dǎo)師,CCF會員,主要研究領(lǐng)域為人工智能,模式識別等。
LI Tao was born in 1990.He is an M.S.candidate at School of Digital Media,Jiangnan University.His research interests include artificial intelligence and pattern recognition,etc.
李滔(1990—),男,四川綿陽人,江南大學(xué)數(shù)字媒體技術(shù)學(xué)院碩士研究生,主要研究領(lǐng)域為人工智能,模式識別等。