羅 超,彭玉濤
(井岡山大學(xué)網(wǎng)絡(luò)信息中心 江西 吉安 343009)
在常用的決策樹算法中,最常見的算法是隨機(jī)森林算法。隨機(jī)森林算法的優(yōu)點(diǎn)在于通過(guò)對(duì)數(shù)據(jù)噪聲的高度容忍度來(lái)得到較高預(yù)測(cè)精確度。Chai[1]將隨機(jī)森林算法運(yùn)用到化工故障分類,提高了故障檢測(cè)精度;Cheng[2]在網(wǎng)絡(luò)安全方面運(yùn)用隨機(jī)森林算法,極大提升了網(wǎng)絡(luò)安全監(jiān)測(cè)正確率;Zafari[3]在化工項(xiàng)目評(píng)估管理領(lǐng)域運(yùn)用隨機(jī)森林算法,得到了更加準(zhǔn)確的評(píng)估預(yù)測(cè)結(jié)果。
在具有明顯優(yōu)點(diǎn)的同時(shí),隨機(jī)森林算法也存在一些缺點(diǎn),例如對(duì)數(shù)據(jù)集的特點(diǎn)相近似聚類的檢索效率比較低,對(duì)數(shù)據(jù)集的動(dòng)態(tài)聚類數(shù)據(jù)泛化特征時(shí)造成的誤差估值往往比較大。針對(duì)這些缺陷,也有很多學(xué)者做了大量的研究以改進(jìn)。王德軍等[4]、劉曙光等[5]、王磊[6]分別采用時(shí)間序列特征泛化聚類、遙感數(shù)據(jù)多時(shí)相動(dòng)態(tài)聚類、加權(quán)平均泛化數(shù)據(jù)后聚類的方法,得到了對(duì)精度不同程度的提高,并且聚類的效率也得到了相應(yīng)的改善。對(duì)隨機(jī)森林算法提出了非常有用的改進(jìn)和補(bǔ)充。
本文將嘗試采用將特征聚類KM算法與FCM算法相結(jié)合,對(duì)隨機(jī)森林算法進(jìn)行優(yōu)化,形成KM-FCM-RF算法優(yōu)化模型。對(duì)多模動(dòng)態(tài)K均值聚類和模糊C均值互相融合與補(bǔ)充的方法,采用對(duì)多模動(dòng)態(tài)數(shù)據(jù)集的特征數(shù)據(jù)進(jìn)行聚類,對(duì)傳統(tǒng)的隨機(jī)森林算法進(jìn)行優(yōu)化后,再計(jì)算特征優(yōu)化的差異化DBI的值,重新對(duì)DBI序列值進(jìn)行排序,篩選相關(guān)的特征,在聚類多模動(dòng)態(tài)數(shù)據(jù)時(shí)達(dá)到提高效率的目的。
如果研究人員用Ntree表示決策樹中多維特征的數(shù)量,OOBi表示第i棵決策樹的多模動(dòng)態(tài)數(shù)據(jù)的特征數(shù)據(jù),ErrOOBi代表的是OOBi中錯(cuò)誤數(shù)據(jù)樣本的數(shù)量,如果有一個(gè)數(shù)據(jù)集的特征有d個(gè),那么這個(gè)數(shù)據(jù)集可以稱之為數(shù)據(jù)集D,XJ(j=1,2,…,d)表示該數(shù)據(jù)特征集的度量,其算法步驟如下:
步驟1:首先基礎(chǔ)得到多霧的樣本數(shù)量ErrOOBi的值;
步驟2:置換后,得到了XJ,
再次置換后得到;
步驟3:均值計(jì)算得到的值,可以表示為
步驟4:重復(fù)以上步驟1到步驟3,執(zhí)行次數(shù)限定為Ntree次,循環(huán)結(jié)束后可以得到{ErrOOBi,i=1,2,L,Ntree}
步驟5:根據(jù)以上兩個(gè)輸出結(jié)果,可計(jì)算粗聚類變化的均值:
則可以認(rèn)為多模動(dòng)態(tài)數(shù)據(jù)集的聚類集合就是VI(XJ)。
通過(guò)步驟1到步驟5,可以看到隨著多模特征集中特征維度的增加,循環(huán)訓(xùn)練需要更多的時(shí)間,結(jié)果就必然減緩了訓(xùn)練速度,進(jìn)而降低多模數(shù)據(jù)特征集的訓(xùn)練效果。本文擬采用高維多模聚類的方法,對(duì)以上的算法進(jìn)行優(yōu)化改進(jìn),已加快訓(xùn)練速度和提高性能。
將K均值聚類(KM聚類)和模糊C均值聚類結(jié)合后,劃分多模動(dòng)態(tài)特征族,排序后進(jìn)行聚類。優(yōu)化后得到訓(xùn)練誤差均值DBI,DBI中最小值的聚類特征則為最終的結(jié)果,也是最佳結(jié)果。
2.1.1K均值聚類
根據(jù)春花等[7]的研究,K均值算法中,多模數(shù)據(jù)集中數(shù)據(jù)特征樣本的距離與相似度是反比關(guān)系。已知出事聚類和聚類中心,分別用K和C表示,則(C={μi,1≤i≤K})。
迭代計(jì)算的步驟為:
步驟1:得到每一個(gè)多維動(dòng)態(tài)特征樣本的中心聚類值;
步驟2:重新聚類分簇,并計(jì)算DBI。
重復(fù)執(zhí)行步驟1和步驟2,
步驟3:計(jì)算誤差平方和(SSE),一直到符合收斂條件。(SSE)的計(jì)算公式為:
2.1.2 模糊C均值算法(FCM)
模糊C均值算法主要計(jì)算數(shù)據(jù)集中樣本與聚類中心的關(guān)聯(lián)隸屬度,來(lái)完成對(duì)多維特征數(shù)據(jù)分類[8]。存在多維動(dòng)態(tài)數(shù)據(jù)集Dn×p,其中的樣本數(shù)量為n,隸屬度矩陣U的計(jì)算公式為:
再計(jì)算每個(gè)樣本集聚類中心V,計(jì)算公式為:
則J(U,V)可以用下式表示:
||xi-vj||表示樣本各個(gè)聚類中心的均值。
2.1.3 離散相關(guān)度計(jì)算
使用KM和FCM算法對(duì)動(dòng)態(tài)多模數(shù)據(jù)集的特征計(jì)算中心差異聚類時(shí),計(jì)算出DBI的值,用來(lái)表示離散相關(guān)度索引的值。利用以下的公式來(lái)計(jì)算聚類中心最佳值:
(1)均值離散相關(guān)隸屬度:
(2)各聚類中心的距離值:
根據(jù)樸尚哲等[9]的研究,此時(shí)DBI的值為最佳聚類中心的值。
2.2.1 KM-FCM-RF特征評(píng)估算法
對(duì)多維數(shù)據(jù)集進(jìn)行聚類,并且根據(jù)聚類中心值的均值誤差來(lái)進(jìn)行排序。
步驟1:采用傳統(tǒng)隨機(jī)森林算法,計(jì)算出樣本數(shù)據(jù)多維特征,并以此為排序的根據(jù)。
根據(jù)Alon[10]的研究,使用皮爾遜相關(guān)性系數(shù)ρxy來(lái)衡量族內(nèi)特征與分類信息的相關(guān)性。
在上式中,特征x的均值用Zx來(lái)表示,特征y的均值則用Zy來(lái)表示,
ρxy表示皮爾遜相關(guān)系數(shù),系數(shù)越大,則表示數(shù)據(jù)集特征之間具有越大的相關(guān)程度。
步驟2:根據(jù)閾值δ,篩選出相關(guān)系數(shù)ρxy>δ的高維特征。本文改進(jìn)的閾值δ計(jì)算公式表示為:
根據(jù)式(9)計(jì)算出多維動(dòng)態(tài)數(shù)據(jù)集特征,采用排序的規(guī)則為簇內(nèi)優(yōu)先、簇間其次。最終,計(jì)算得出了多維動(dòng)態(tài)數(shù)據(jù)集的特征簇序列。
2.2.2K均值和C均值優(yōu)化的隨機(jī)森林算法流程
在以上算法的基礎(chǔ)上,將K均值C均值優(yōu)化的隨機(jī)森林算法優(yōu)化流程用下圖1表示。
圖1 算法流程圖
采用Alon等[10]和Golub等[11]提供的高維多模動(dòng)態(tài)特征數(shù)據(jù)集作為輸入的樣本數(shù)據(jù)集。輸入之前,先將數(shù)據(jù)和特征清除冗余,最終數(shù)據(jù)表征如下表1所示:
表1 實(shí)驗(yàn)數(shù)據(jù)集
根據(jù)表1的結(jié)果可以看出,多個(gè)高維特征數(shù)據(jù)集差別不大時(shí),KddCup99由于具有更小的特征數(shù),可以更方便地對(duì)數(shù)據(jù)集中的少量非高位數(shù)據(jù)集進(jìn)行特征提取,并進(jìn)行輸出對(duì)比。反之,Minst則由于具有更多的特征數(shù)和更高維度,更適用于高維數(shù)據(jù)集的特征提取和對(duì)比。
在進(jìn)行仿真實(shí)驗(yàn)時(shí),決策樹采用的是具有200個(gè)決策樹的C4.5基本分類器,并將其最佳聚類范圍設(shè)置為實(shí)驗(yàn)結(jié)果的預(yù)測(cè)閾值評(píng)價(jià)采用ACC標(biāo)準(zhǔn)。如果閾值越大,則算法的優(yōu)化效果越好、聚類數(shù)據(jù)集的性能就越高。
將本文的優(yōu)化算法與傳統(tǒng)的隨機(jī)森林算法分別運(yùn)行在KddCup99和Minst數(shù)據(jù)集進(jìn)行比較,為了得到更穩(wěn)定的結(jié)果,將算法運(yùn)行30次的均值作為最終結(jié)果。實(shí)驗(yàn)結(jié)果對(duì)比如下圖2、圖3所示:
圖2 KddCup99中KM-FCM-RF、RF預(yù)測(cè)精度對(duì)比
圖3 Minst中KM-FCM-RF、RF預(yù)測(cè)精度對(duì)比
根據(jù)以上兩圖可以得到如下結(jié)論:
(1)根據(jù)圖2的結(jié)果可知,在KddCup99的中低維數(shù)據(jù)集訓(xùn)練中,KM-FCM-RF算法在前200個(gè)樣本時(shí),預(yù)測(cè)精度略比RF略小,但從2 000個(gè)樣本開始,預(yù)測(cè)精度一直高于傳統(tǒng)RF算法。
(2)圖3表明,在Minst的高維數(shù)據(jù)集上的訓(xùn)練過(guò)程中,KM-FCM-RF的精度自始至終都比傳統(tǒng)RF算法高。
針對(duì)傳統(tǒng)的隨機(jī)森林算法在多維特征數(shù)據(jù)集預(yù)測(cè)精度不高,本文提出了一種基于K均值和C均值優(yōu)化聚類的隨機(jī)森林算法,即在對(duì)多維特征數(shù)據(jù)集樣本聚類后,集合K均值模糊C-均值算法結(jié)合,計(jì)算得到DBI指標(biāo)并對(duì)該指標(biāo)排序后,進(jìn)一步得到的閾值δ比較,最終得到多維特征數(shù)據(jù)集的特征序列。實(shí)驗(yàn)結(jié)果表明,經(jīng)過(guò)本文優(yōu)化后基于K均值和C均值優(yōu)化聚類的隨機(jī)森林算法,具有更好的聚類效果、預(yù)測(cè)精度更高,具備良好的可行性。