汪麗麗,鄧 麗,余 玥,費(fèi)敏銳
(1.上海大學(xué) 機(jī)電工程與自動(dòng)化學(xué)院,上海 200072; 2.上海市電站自動(dòng)化技術(shù)重點(diǎn)實(shí)驗(yàn)室,上海 200072)
基因芯片技術(shù)可快速檢測(cè)成千上萬基因的表達(dá)水平,對(duì)了解基因功能、開展生物學(xué)研究等具有重要意義。文獻(xiàn)[1]通過檢測(cè)一組特異基因的表達(dá)水平進(jìn)行腫瘤亞型的診斷。隨后大量研究人員展開將基因數(shù)據(jù)用于腫瘤診斷及亞型分類的研究。腫瘤基因數(shù)據(jù)往往樣本數(shù)量少而基因數(shù)量非常龐大。數(shù)據(jù)中的大量無關(guān)基因及冗余基因會(huì)對(duì)分類產(chǎn)生一定影響。有研究表明[2],在腫瘤基因數(shù)據(jù)處理過程中,選擇特征基因子集往往比選擇高效分類器更為重要。
傳統(tǒng)特征選擇分為過濾式(filter)與封裝式(wrapper)。過濾式依據(jù)某一標(biāo)準(zhǔn)給特征賦予一定的權(quán)重,具有收斂快、計(jì)算復(fù)雜度低等優(yōu)勢(shì),如F-score[3]、互信息等。封裝式將后續(xù)學(xué)習(xí)器的性能作為特征子集的評(píng)價(jià)準(zhǔn)則,學(xué)習(xí)器包括擴(kuò)展的線性模型(回歸模型[4]、線性支持向量機(jī)[5-8])、基于樹的方法(隨機(jī)森林[9-11])等?;旌咸卣鬟x擇結(jié)合過濾式和封裝式,比過濾式分類效果更優(yōu),比封裝式計(jì)算更快[12-13]。近年來,集成特征選擇算法受到研究學(xué)者們的廣泛關(guān)注。集成特征選擇方法通過數(shù)據(jù)擾動(dòng)或功能擾動(dòng)方法,獨(dú)立構(gòu)造不同學(xué)習(xí)器進(jìn)行特征選擇,集成各個(gè)結(jié)果獲得最終特征子集[14]。一些學(xué)者結(jié)合混合特征選擇和集成特征選擇實(shí)現(xiàn)更優(yōu)化的特征選擇,如:基于FCBF及ABACO、IBGSA 2種啟發(fā)式算法的集成方法[15];基于Relief、IG、FCBF集成方法及ABACO算法[16];基于信噪比和條件信息相關(guān)系數(shù)(CCC)集成方法[17]。
F-score[3]算法簡(jiǎn)單、運(yùn)行速度快,有助于理解數(shù)據(jù)但主要對(duì)線性關(guān)系敏感。SVM遞歸特征消除(SVM-RFE)[5]算法穩(wěn)定能夠反映出數(shù)據(jù)的內(nèi)在結(jié)果。針對(duì)多標(biāo)簽問題可拓展為多分類SVM-RFE(MSVM-RFE)[6-8],但往往不能全面地考慮特征與每個(gè)類別的關(guān)系。基于隨機(jī)森林的特征選擇準(zhǔn)確性高,適合多分類問題,但對(duì)于關(guān)聯(lián)特征的打分不穩(wěn)定[9-11]。隨機(jī)森林特征選擇和MSVM-RFE對(duì)于挖掘非線性關(guān)系有較好的效果。集成特征算法如要得到較好的集成效果,集成學(xué)習(xí)器之間必須呈現(xiàn)差異性[18],所以采用功能擾動(dòng)方法集成這3種差異性較大的特征選擇方法可實(shí)現(xiàn)優(yōu)缺點(diǎn)相互補(bǔ)充,提取出包含最多類別信息的特征子集,以便開展后續(xù)的生物學(xué)研究。
目前,基因數(shù)據(jù)的處理分析大多都是在單臺(tái)機(jī)器上實(shí)現(xiàn)的。然而隨著基因數(shù)據(jù)規(guī)模逐步擴(kuò)大,單機(jī)處理運(yùn)算能力不足的缺陷逐步顯現(xiàn)。分布式計(jì)算框架的出現(xiàn)使存儲(chǔ)及處理海量數(shù)據(jù)成為可能。Spark立足于彈性數(shù)據(jù)集,數(shù)據(jù)緩存在節(jié)點(diǎn)內(nèi)存,適合基因數(shù)據(jù)處理過程中存在的大量迭代運(yùn)算。
綜上所述,本文提出一種基于Spark分布式計(jì)算框架的混合特征選擇方法。該方法利用F-score去除無關(guān)基因,通過集成F-score、MSVM-RFE、基于隨機(jī)森林的特征選擇3種方法得到特征子集,最終實(shí)現(xiàn)SVM分類預(yù)測(cè)。
Hadoop框架一直是首選的大數(shù)據(jù)處理方案,但從Map任務(wù)到Reduce任務(wù),數(shù)據(jù)被寫入磁盤從而產(chǎn)生大量信息通信,并不適合處理迭代任務(wù)。Spark分布式框架基于彈性分布式數(shù)據(jù)集(RDD),數(shù)據(jù)被緩存在工作節(jié)點(diǎn)的內(nèi)存中,適合進(jìn)行機(jī)器學(xué)習(xí)及智能優(yōu)化算法中的迭代運(yùn)算。數(shù)據(jù)集操作不僅包括Map和Reduce操作,還提供很多函數(shù)轉(zhuǎn)換(transform)、數(shù)據(jù)執(zhí)行(action)等操作。
本文將Spark運(yùn)行在現(xiàn)有的Hadoop集群基礎(chǔ)上,通過讀取HDFS上文件創(chuàng)建彈性分布式數(shù)據(jù)集RDD,在RDD分區(qū)的工作節(jié)點(diǎn)上分別執(zhí)行腫瘤基因數(shù)據(jù)的特征選擇操作,執(zhí)行后結(jié)果被發(fā)送到驅(qū)動(dòng)程序進(jìn)行聚合,最后將結(jié)果返回到HDFS平臺(tái)上。
分布式混合特征選擇的主要思路是首先用過濾式特征選擇,在不影響分類正確率的基礎(chǔ)上,去除無關(guān)基因,然后分別進(jìn)行3種不同的特征選擇,集成不同的選擇結(jié)果作為最終的特征子集,最后用支持向量機(jī)進(jìn)行分類檢驗(yàn),混合特征實(shí)現(xiàn)框圖如圖1所示。
圖1 混合特征選擇實(shí)現(xiàn)框圖
分布式混合特征選擇實(shí)現(xiàn)步驟如下:
步驟1從HDFS上讀取腫瘤數(shù)據(jù)集,創(chuàng)建一個(gè)彈性分布式數(shù)據(jù)集。
步驟2通過Map操作將文件每行的數(shù)據(jù)用“,”隔開,通過LabeledPoint來存儲(chǔ)標(biāo)簽列和特征列。
步驟3采用F-score特征選擇方法去除無關(guān)基因,并用支持向量機(jī)進(jìn)行分類檢驗(yàn)。
步驟4對(duì)上一步得到的初選特征子集分別采用F-score、MSVM-REF、基于隨機(jī)森林的特征選擇3種方法,每種方法輸出選擇的特征子集,選擇出現(xiàn)最多次數(shù)的特征為最終特征選擇子集。
步驟5利用最終的特征選擇子集運(yùn)行在支持向量機(jī)上,采用十折交叉驗(yàn)證計(jì)算子集的分類正確率。
腫瘤數(shù)據(jù)成千上萬的基因中有90%以上的基因都是與分類無關(guān)的,所以可以通過F-score粗略地計(jì)算每個(gè)基因與類別之間的關(guān)系,在不降低分類準(zhǔn)確率的條件下,去除這些無關(guān)基因。通常有2種方法來確定初選特征子集的基因數(shù)方法:按照經(jīng)驗(yàn)選擇或根據(jù)某些準(zhǔn)則自動(dòng)確定。本文首先依據(jù)相關(guān)的文獻(xiàn)資料,確定基因數(shù)為100~200之間,然后逐漸減少基因數(shù)進(jìn)行若干次實(shí)驗(yàn)并記錄分類結(jié)果,直到基因數(shù)下降而特征子集的分類正確率基本保持不變則停止。確定選擇基因數(shù)的初選過程如下:
1)F-score特征初選
初始數(shù)據(jù)集RDD1={(x1,y1),(x2,y2),…,(xN,yN)},其中,xi=〈xi1,xi2,…,xin〉為n維向量,n為總基因數(shù),yi取0,1,…,m中某一值,m為標(biāo)簽類別數(shù),N為樣本數(shù)。通過F-score計(jì)算每個(gè)特征與標(biāo)簽類別之間的關(guān)系,計(jì)算公式為:
(1)
2)對(duì)上述階段得到的初選特征子集進(jìn)行SVM分類檢驗(yàn)
本文采用的支持向量機(jī)是在基本型的基礎(chǔ)上引入“軟間隔”概念,并采用hinge損失,SVM目標(biāo)函數(shù)為:
(2)
傳統(tǒng)的SVM求解是引入拉格朗日乘子得到對(duì)偶問題,通過SMO算法求解對(duì)偶問題。在分布式計(jì)算框架下,不需要轉(zhuǎn)換成對(duì)偶問題,而是直接針對(duì)目標(biāo)函數(shù)利用隨機(jī)梯度下降(SGD)優(yōu)化技術(shù)求解,在每次迭代中計(jì)算梯度和、損失和以及更新權(quán)重,直至收斂或達(dá)到指定次數(shù)。其中,隨機(jī)梯度下降更新公式為:
(3)
對(duì)初選特征子集RDD2分別進(jìn)行F-score、MSVM-REF、基于隨機(jī)森林的特征選擇,每個(gè)特征選擇方法都將特征子集作為輸出,得到RDD3、RDD4、RDD5。結(jié)合3個(gè)特征子集計(jì)算出現(xiàn)次數(shù)最多的特征,將放入最終特征子集RDD6中。
1.4.1 F-score特征選擇
F-score在Map階段根據(jù)式(1)逐個(gè)計(jì)算RDD2中每個(gè)特征與標(biāo)簽類別之間的相關(guān)性,在Reduce階段依據(jù)得分按降序排列,選擇q個(gè)相關(guān)性最大的特征,保存為彈性數(shù)據(jù)集RDD3。
1.4.2 MSVM-REF特征選擇
SVM-REF特征選擇過程是基于SVM最大間隔原理的迭代選擇方法。從原始特征集開始,每一次迭代通過訓(xùn)練模型生成權(quán)向量,得到每個(gè)特征的得分,去掉得分最低的特征,當(dāng)剩余特征數(shù)達(dá)到預(yù)先設(shè)定值時(shí),則停止迭代。由于腫瘤亞型診斷中常出現(xiàn)多分類問題,因此采用多分類支持向量機(jī)遞歸消除(MSVM-RFE)。最早的MSVM-RFE(OVA-RFE)采用OvR策略將多分類問題拆分成多個(gè)二分類任務(wù),分別計(jì)算特征重要性,將多個(gè)得分相加后得到排序總分以此作為特征剔除的依據(jù)。OVA-RFE并不能保證最后的特征子集能同時(shí)最小化評(píng)價(jià)函數(shù),所以采用對(duì)OVA-RFE擴(kuò)展的MSVM-RFE。首先利用線性加權(quán)法將問題轉(zhuǎn)換為以下形式:
(4)
利用OBD算法解決該最優(yōu)化問題得到:
(5)
算法1多分類支持向量機(jī)遞歸消除
輸入初選特征子集RDD2,設(shè)定的特征選擇數(shù)q
輸出被選擇的特征子集RDD4
1.初始化
1.1.讀入初選特征子集RDD2為集合S;
1.2.設(shè)置k為特征集S中特征數(shù);
2.重復(fù)以下步驟,直到k=q:
2.1.用集合S訓(xùn)練多分類支持向量機(jī)模型,得到m個(gè)權(quán)重向量w1,w2,…,wm,其中wr=[wr1,wr2,…,wrk]T;
2.2.計(jì)算評(píng)價(jià)指標(biāo),得到特征i對(duì)應(yīng)的得分ci=∑rwri2;
2.3.找出得分最小的特征z=argminici,將此特征z從集合S中除去;
2.4.設(shè)置k為集合S的特征數(shù);
3.返回集合S為RDD4。
1.4.3 基于隨機(jī)森林的特征選擇
隨機(jī)森林的特征重要性度量方法是通過計(jì)算平均值的方法,來收集底層樹的特征重要性并將其整合。由于一棵決策樹頂部的特征對(duì)大部分輸入樣本的最終預(yù)測(cè)決策有一定貢獻(xiàn),因此某一特征作用的部分樣本可以用來作為對(duì)該特征相對(duì)重要性的估計(jì)。通過在多棵隨機(jī)樹中取這些相對(duì)重要性的平均值,可以減少這種估計(jì)的方差。特征的重要性被認(rèn)為是該特征帶來的某一標(biāo)準(zhǔn)的總減少量,在本文中此標(biāo)準(zhǔn)為Gini不純度。
初選特征子集RDD2包含m個(gè)類別和N個(gè)樣本,最初的Gini不純度為:
(6)
其中,pj表示第j類樣本出現(xiàn)的概率。若經(jīng)過一次分割,樣本集被分為k個(gè)部分R1,R2,…,Rk,樣本數(shù)分別為m1,m2,…,mk,此時(shí)的Gini不純度為:
(7)
分割前后Gini減少量為Gini特征重要性(Gini Important),即:
GiniImportant=Gini-Ginisplit
(8)
Gini特征重要性越大,代表該特征越重要,所以將其作為算法2中衡量特征重要性的一大指標(biāo)。
根據(jù)不純度減少原則來選擇基因存在一個(gè)問題,即相關(guān)的多個(gè)特征選擇一個(gè)特征后,其他特征的重要性就會(huì)急劇下降,不利于了解每個(gè)特征的重要性,容易造成誤解。每次訓(xùn)練學(xué)習(xí)器選擇的特征子集差異性較大,不利于下一步選擇結(jié)果的集成,所以采用一種貪心算法-序列后向搜索算法來改善。每次迭代從特征集合中去掉重要性得分最低的特征,通過多次迭代最終得到特征數(shù)目少且分類效果優(yōu)的最優(yōu)特征子集。具體步驟如算法2所示。
算法2基于隨機(jī)森林的序列后向特征算法
輸入初選特征子集RDD2,設(shè)定的特征選擇數(shù)q
輸出被選擇的特征子集RDD5
1.初始化
1.1.讀入初選特征子集RDD2為集合S;
1.2.設(shè)置k為特征集S中特征數(shù);
2.重復(fù)以下步驟,直到k=q:
2.1.對(duì)數(shù)據(jù)集S有放回地抽樣分成n個(gè)子集,分配到各個(gè)計(jì)算節(jié)點(diǎn);
2.2.創(chuàng)建多個(gè)map任務(wù),利用n個(gè)訓(xùn)練子集構(gòu)建n棵對(duì)應(yīng)的決策樹,計(jì)算每棵決策樹分裂過程中的每一個(gè)特征變量的特征重要性GiniImportanti;
2.4.找出重要性得分最小的特征,將其從集合S中除去;
2.5.設(shè)置k為集合S的特征數(shù);
3.返回集合S為RDD5。
在利用隨機(jī)梯度下降求解SVM超平面參數(shù)時(shí),有3個(gè)主要參數(shù)需要設(shè)置:迭代次數(shù),步長(zhǎng)以及正則化參數(shù)C。在SGD中,一開始增加迭代次數(shù)可以提高分類器性能,一旦完成特定次數(shù)迭代后,再增大迭代次數(shù)對(duì)結(jié)果的影響較小,所以希望選擇一個(gè)與該特定次數(shù)相接近的值。步長(zhǎng)是決定算法在最陡的梯度方向上前進(jìn)的距離。步長(zhǎng)越大,SGD收斂速率越快,但會(huì)導(dǎo)致收斂到局部最優(yōu)解。正則化可通過控制模型的復(fù)雜度防止模型出現(xiàn)過擬合。當(dāng)正則化參數(shù)選取過小,對(duì)模型性能的改變隨之減少;當(dāng)參數(shù)過大又會(huì)導(dǎo)致欠擬合降低模型性能。
為了進(jìn)行這3個(gè)參數(shù)的調(diào)優(yōu),創(chuàng)建2個(gè)輔助函數(shù):trainParams函數(shù)與trainMetric函數(shù)。trainParams函數(shù)給定輸出參數(shù)然后訓(xùn)練SVM模型,trainMetric函數(shù)計(jì)算該模型對(duì)應(yīng)的分類正確率。首先給定參考序列,執(zhí)行Map數(shù)據(jù)轉(zhuǎn)換操作,對(duì)序列元素逐一進(jìn)行trainParams、trainMetric函數(shù)操作,然后再執(zhí)行數(shù)據(jù)執(zhí)行操作,輸出不同參數(shù)及其對(duì)應(yīng)分類結(jié)果,選擇分類效果最優(yōu)對(duì)應(yīng)的參數(shù)即為最優(yōu)參數(shù)。
本文的計(jì)算機(jī)集群包括2臺(tái)計(jì)算機(jī),其中一臺(tái)計(jì)算機(jī)同時(shí)作為主節(jié)點(diǎn)與工作節(jié)點(diǎn)(Intel Core i3-6100 CPU @3.70 GHz),另外一臺(tái)作為工作節(jié)點(diǎn)(Intel Core 2 Duo CPU E8200 @2.66 GHz)。內(nèi)存分別為8 GB、4 GB。Spark分布式環(huán)境是部署在Ubuntu系統(tǒng)上,依次安裝JDK、Hadoop、Spark以及Python,并設(shè)置SSH(Secure Shell)免密碼登錄,便于操作工作節(jié)點(diǎn)。計(jì)算機(jī)集群硬件及軟件版本配置情況如表1所示。
表1 集群軟硬件信息
本文使用結(jié)腸癌(Colon)、乳腺癌(Breast)、兒童小型圓形藍(lán)細(xì)胞腫瘤(SRBCT)、白血病(Leukemia)數(shù)據(jù)。數(shù)據(jù)集可從UCI、GEMS網(wǎng)站下載,4個(gè)數(shù)據(jù)集的基因數(shù)、樣本數(shù)、標(biāo)簽類別如表2所示。其中,Colon、Breast數(shù)據(jù)集標(biāo)簽為患病樣本或正常樣本,SRBCT、Leukemia數(shù)據(jù)集標(biāo)簽為不同亞型。
表2 腫瘤數(shù)據(jù)集
2.3.1 F-score實(shí)驗(yàn)分析
F-score作為初步的特征選擇,要求在不降低分類正確率的前提下去除無關(guān)基因及相關(guān)性較低的基因。本文分別對(duì)3個(gè)數(shù)據(jù)集進(jìn)行F-score特征選擇,選擇基因數(shù)為100,用支持向量機(jī)進(jìn)行檢驗(yàn),其分類正確率與不加特征選擇情況對(duì)比如表3所示。
表3 F-score特征選擇前后結(jié)果比較
由于樣本數(shù)量的限制,因此本文采用十折交叉驗(yàn)證,將10次結(jié)果平均值作為最終分類正確率。對(duì)比實(shí)驗(yàn)結(jié)果可知,F-score選擇特征基因子集后,分類正確率不僅沒有下降,反而由于去除了無關(guān)基因,分類正確率在一定程度上有所上升。實(shí)驗(yàn)結(jié)果表明,利用F-score選擇100個(gè)特征基因能很好地保留與分類密切相關(guān)的特征基因。
2.3.2 集成特征選擇算法實(shí)驗(yàn)分析
集成特征選擇算法分析方法如下:
1)各種方法的參數(shù)選擇
在求解支持向量機(jī)時(shí),有3個(gè)參數(shù)需要設(shè)置:即迭代次數(shù)、步長(zhǎng)和正則化參數(shù)。3個(gè)參數(shù)的參考序列分別為Seq(1,5,10,30,50,100)、Seq(0.001,0.01,0.1,1.0)、Seq(0.001,0.01,0.1,1.0,10.0)。當(dāng)單獨(dú)使用SVM計(jì)算特征子集的分類正確率時(shí),通過多次訓(xùn)練模型,在序列中搜索最佳參數(shù)。當(dāng)使用SVM用于特征選擇時(shí),SVM迭代次數(shù)、步長(zhǎng)、正則化參數(shù)取固定值,分別為50、0.01、0.01。
在隨機(jī)森林中,選擇決策樹個(gè)數(shù)為100,原始的序列后向算法每次迭代消除一個(gè)特征,但由于隨機(jī)森林模型本身計(jì)算成本較高,訓(xùn)練消耗時(shí)間較大。因此,希望通過在每次迭代中消除幾個(gè)特征來降低計(jì)算復(fù)雜度,但是增加迭代消除特征數(shù)可能會(huì)導(dǎo)致算法性能的下降。因此,在Colon、Breast、SRBCT、Leukemia數(shù)據(jù)集上分別設(shè)定特征消除數(shù)為1、2、3,訓(xùn)練隨機(jī)森林模型進(jìn)行特征選擇,對(duì)不同特征子集皆采用十折交叉驗(yàn)證計(jì)算分類正確率,記錄數(shù)據(jù)如圖2所示。由圖2可知,當(dāng)?shù)龜?shù)為1和2時(shí),分類準(zhǔn)確率相差不大,當(dāng)?shù)龜?shù)為3時(shí),會(huì)下降多一些,所以選擇迭代消除特征數(shù)為2。
圖2 隨機(jī)森林參數(shù)選擇
2)集成特征選擇與子特征選擇對(duì)比
在初選特征子集基礎(chǔ)上,分別進(jìn)行F-score、MSVM-RFE、基于隨機(jī)森林的特征選擇以及集成特征選擇算法4種特征選擇方法,記錄選擇不同特征數(shù)時(shí)對(duì)應(yīng)的分類正確率,繪制折線圖如圖3所示。折線圖橫軸為選擇的特征數(shù),縱軸為支持向量機(jī)分類正確率。預(yù)期的特征選擇效果是隨著選擇的特征數(shù)增加,分類正確率隨之上升,達(dá)到一定值后保持不變,或者一定程度下降。實(shí)驗(yàn)結(jié)果與預(yù)期大致相符,在達(dá)到某一最大值之后,特征數(shù)的增加不能帶來正確率的上升,正確率會(huì)在一定值上下浮動(dòng)。
圖3 特征選擇對(duì)比折線圖
從圖3可以看出,在Colon、Breast、SRBCT數(shù)據(jù)上,集成特征選擇效果相比F-score、MSVM-RFE、基于隨機(jī)森林的特征選擇效果有一定程度提升,尤其是在基因個(gè)數(shù)較少的時(shí)候有較好的分類正確率。在Leukemia數(shù)據(jù)上,集成特征選擇算法與基于隨機(jī)森林的特征選擇方法效果相差不大,但仍優(yōu)于F-score、MSVM-RFE運(yùn)算效果。出現(xiàn)這樣的原因主要是因?yàn)樵谖㈥嚵屑夹g(shù)中會(huì)對(duì)微陣列數(shù)據(jù)進(jìn)行歸一化,矩陣文件每個(gè)值為2個(gè)信號(hào)的差值,可能為負(fù)值或極小值。Colon、Breast、SRBCT數(shù)據(jù)皆為正值,而Leukemia數(shù)據(jù)存在一些負(fù)值,這些負(fù)值不僅不具有生物學(xué)意義,還在一定程度上會(huì)影響實(shí)驗(yàn)的結(jié)果。由于引入隨機(jī)性隨機(jī)森林的抗噪能力較好,因此在Leukemia數(shù)據(jù)上基于隨機(jī)森林的特征選擇效果較好,另外2種特征選擇效果并不佳,那么集成3種特征選擇方法并不能產(chǎn)生更好的效果,只能維持與相較最好的特征選擇方法相似的效果。對(duì)于這些數(shù)據(jù)點(diǎn),應(yīng)該在特征選擇前置為缺失或賦予統(tǒng)一的數(shù)值。大體上,集成特征選擇方法能充分考慮特征與標(biāo)簽之間線性與非線性關(guān)系,特征子集的分類效果在整體上優(yōu)于子特征選擇方法,實(shí)驗(yàn)表明,集成特征選擇能提取出一組數(shù)量更少、更具有結(jié)果分類能力的特征基因子集。
為解決腫瘤數(shù)據(jù)急劇增長(zhǎng)導(dǎo)致的單機(jī)運(yùn)算能力不足的問題,本文基于Spark分布式計(jì)算框架提出一種混合特征選擇方法。首先利用F-score特征選擇方法去除無關(guān)基因,保留與分類密切相關(guān)的基因。然后集成F-score、MSVM-REF、基于隨機(jī)決策樹的特征選擇3種方法,得到最優(yōu)的特征子集。最后采用支持向量機(jī)分類器對(duì)特征子集進(jìn)行分類預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,本文算法能提取特征數(shù)量少、分類效果好的特征子集。由于最優(yōu)的特征選擇和分類要建立在有效的數(shù)據(jù)預(yù)處理的基礎(chǔ)上,因此下一步將從以下2個(gè)方面進(jìn)行改進(jìn):融合多個(gè)相關(guān)數(shù)據(jù)集生成一個(gè)信息量更大的數(shù)據(jù)集,得到更為可靠的分析結(jié)果;增加集群節(jié)點(diǎn)數(shù)減少算法運(yùn)行時(shí)間。