亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征聚類優(yōu)化的KM-FCM-RF算法研究

        2022-02-15 02:48:18彭玉濤
        信息記錄材料 2022年12期
        關(guān)鍵詞:動(dòng)態(tài)數(shù)據(jù)均值聚類

        羅 超,彭玉濤

        (井岡山大學(xué)網(wǎng)絡(luò)信息中心 江西 吉安 343009)

        0 引言

        在常用的決策樹算法中,最常見的算法是隨機(jī)森林算法。隨機(jī)森林算法的優(yōu)點(diǎn)在于通過(guò)對(duì)數(shù)據(jù)噪聲的高度容忍度來(lái)得到較高預(yù)測(cè)精確度。Chai[1]將隨機(jī)森林算法運(yùn)用到化工故障分類,提高了故障檢測(cè)精度;Cheng[2]在網(wǎng)絡(luò)安全方面運(yùn)用隨機(jī)森林算法,極大提升了網(wǎng)絡(luò)安全監(jiān)測(cè)正確率;Zafari[3]在化工項(xiàng)目評(píng)估管理領(lǐng)域運(yùn)用隨機(jī)森林算法,得到了更加準(zhǔn)確的評(píng)估預(yù)測(cè)結(jié)果。

        在具有明顯優(yōu)點(diǎn)的同時(shí),隨機(jī)森林算法也存在一些缺點(diǎn),例如對(duì)數(shù)據(jù)集的特點(diǎn)相近似聚類的檢索效率比較低,對(duì)數(shù)據(jù)集的動(dòng)態(tài)聚類數(shù)據(jù)泛化特征時(shí)造成的誤差估值往往比較大。針對(duì)這些缺陷,也有很多學(xué)者做了大量的研究以改進(jìn)。王德軍等[4]、劉曙光等[5]、王磊[6]分別采用時(shí)間序列特征泛化聚類、遙感數(shù)據(jù)多時(shí)相動(dòng)態(tài)聚類、加權(quán)平均泛化數(shù)據(jù)后聚類的方法,得到了對(duì)精度不同程度的提高,并且聚類的效率也得到了相應(yīng)的改善。對(duì)隨機(jī)森林算法提出了非常有用的改進(jìn)和補(bǔ)充。

        本文將嘗試采用將特征聚類KM算法與FCM算法相結(jié)合,對(duì)隨機(jī)森林算法進(jìn)行優(yōu)化,形成KM-FCM-RF算法優(yōu)化模型。對(duì)多模動(dòng)態(tài)K均值聚類和模糊C均值互相融合與補(bǔ)充的方法,采用對(duì)多模動(dòng)態(tài)數(shù)據(jù)集的特征數(shù)據(jù)進(jìn)行聚類,對(duì)傳統(tǒng)的隨機(jī)森林算法進(jìn)行優(yōu)化后,再計(jì)算特征優(yōu)化的差異化DBI的值,重新對(duì)DBI序列值進(jìn)行排序,篩選相關(guān)的特征,在聚類多模動(dòng)態(tài)數(shù)據(jù)時(shí)達(dá)到提高效率的目的。

        1 傳統(tǒng)隨機(jī)森林算法

        如果研究人員用Ntree表示決策樹中多維特征的數(shù)量,OOBi表示第i棵決策樹的多模動(dòng)態(tài)數(shù)據(jù)的特征數(shù)據(jù),ErrOOBi代表的是OOBi中錯(cuò)誤數(shù)據(jù)樣本的數(shù)量,如果有一個(gè)數(shù)據(jù)集的特征有d個(gè),那么這個(gè)數(shù)據(jù)集可以稱之為數(shù)據(jù)集D,XJ(j=1,2,…,d)表示該數(shù)據(jù)特征集的度量,其算法步驟如下:

        步驟1:首先基礎(chǔ)得到多霧的樣本數(shù)量ErrOOBi的值;

        步驟2:置換后,得到了XJ,

        再次置換后得到;

        步驟3:均值計(jì)算得到的值,可以表示為

        步驟4:重復(fù)以上步驟1到步驟3,執(zhí)行次數(shù)限定為Ntree次,循環(huán)結(jié)束后可以得到{ErrOOBi,i=1,2,L,Ntree}

        步驟5:根據(jù)以上兩個(gè)輸出結(jié)果,可計(jì)算粗聚類變化的均值:

        則可以認(rèn)為多模動(dòng)態(tài)數(shù)據(jù)集的聚類集合就是VI(XJ)。

        通過(guò)步驟1到步驟5,可以看到隨著多模特征集中特征維度的增加,循環(huán)訓(xùn)練需要更多的時(shí)間,結(jié)果就必然減緩了訓(xùn)練速度,進(jìn)而降低多模數(shù)據(jù)特征集的訓(xùn)練效果。本文擬采用高維多模聚類的方法,對(duì)以上的算法進(jìn)行優(yōu)化改進(jìn),已加快訓(xùn)練速度和提高性能。

        2 基于多模高維聚類優(yōu)化的方法

        2.1 聚類方法介紹

        將K均值聚類(KM聚類)和模糊C均值聚類結(jié)合后,劃分多模動(dòng)態(tài)特征族,排序后進(jìn)行聚類。優(yōu)化后得到訓(xùn)練誤差均值DBI,DBI中最小值的聚類特征則為最終的結(jié)果,也是最佳結(jié)果。

        2.1.1K均值聚類

        根據(jù)春花等[7]的研究,K均值算法中,多模數(shù)據(jù)集中數(shù)據(jù)特征樣本的距離與相似度是反比關(guān)系。已知出事聚類和聚類中心,分別用K和C表示,則(C={μi,1≤i≤K})。

        迭代計(jì)算的步驟為:

        步驟1:得到每一個(gè)多維動(dòng)態(tài)特征樣本的中心聚類值;

        步驟2:重新聚類分簇,并計(jì)算DBI。

        重復(fù)執(zhí)行步驟1和步驟2,

        步驟3:計(jì)算誤差平方和(SSE),一直到符合收斂條件。(SSE)的計(jì)算公式為:

        2.1.2 模糊C均值算法(FCM)

        模糊C均值算法主要計(jì)算數(shù)據(jù)集中樣本與聚類中心的關(guān)聯(lián)隸屬度,來(lái)完成對(duì)多維特征數(shù)據(jù)分類[8]。存在多維動(dòng)態(tài)數(shù)據(jù)集Dn×p,其中的樣本數(shù)量為n,隸屬度矩陣U的計(jì)算公式為:

        再計(jì)算每個(gè)樣本集聚類中心V,計(jì)算公式為:

        則J(U,V)可以用下式表示:

        ||xi-vj||表示樣本各個(gè)聚類中心的均值。

        2.1.3 離散相關(guān)度計(jì)算

        使用KM和FCM算法對(duì)動(dòng)態(tài)多模數(shù)據(jù)集的特征計(jì)算中心差異聚類時(shí),計(jì)算出DBI的值,用來(lái)表示離散相關(guān)度索引的值。利用以下的公式來(lái)計(jì)算聚類中心最佳值:

        (1)均值離散相關(guān)隸屬度:

        (2)各聚類中心的距離值:

        根據(jù)樸尚哲等[9]的研究,此時(shí)DBI的值為最佳聚類中心的值。

        2.2 HDC-RF算法

        2.2.1 KM-FCM-RF特征評(píng)估算法

        對(duì)多維數(shù)據(jù)集進(jìn)行聚類,并且根據(jù)聚類中心值的均值誤差來(lái)進(jìn)行排序。

        步驟1:采用傳統(tǒng)隨機(jī)森林算法,計(jì)算出樣本數(shù)據(jù)多維特征,并以此為排序的根據(jù)。

        根據(jù)Alon[10]的研究,使用皮爾遜相關(guān)性系數(shù)ρxy來(lái)衡量族內(nèi)特征與分類信息的相關(guān)性。

        在上式中,特征x的均值用Zx來(lái)表示,特征y的均值則用Zy來(lái)表示,

        ρxy表示皮爾遜相關(guān)系數(shù),系數(shù)越大,則表示數(shù)據(jù)集特征之間具有越大的相關(guān)程度。

        步驟2:根據(jù)閾值δ,篩選出相關(guān)系數(shù)ρxy>δ的高維特征。本文改進(jìn)的閾值δ計(jì)算公式表示為:

        根據(jù)式(9)計(jì)算出多維動(dòng)態(tài)數(shù)據(jù)集特征,采用排序的規(guī)則為簇內(nèi)優(yōu)先、簇間其次。最終,計(jì)算得出了多維動(dòng)態(tài)數(shù)據(jù)集的特征簇序列。

        2.2.2K均值和C均值優(yōu)化的隨機(jī)森林算法流程

        在以上算法的基礎(chǔ)上,將K均值C均值優(yōu)化的隨機(jī)森林算法優(yōu)化流程用下圖1表示。

        圖1 算法流程圖

        3 實(shí)驗(yàn)分析

        3.1 實(shí)驗(yàn)準(zhǔn)備

        采用Alon等[10]和Golub等[11]提供的高維多模動(dòng)態(tài)特征數(shù)據(jù)集作為輸入的樣本數(shù)據(jù)集。輸入之前,先將數(shù)據(jù)和特征清除冗余,最終數(shù)據(jù)表征如下表1所示:

        表1 實(shí)驗(yàn)數(shù)據(jù)集

        根據(jù)表1的結(jié)果可以看出,多個(gè)高維特征數(shù)據(jù)集差別不大時(shí),KddCup99由于具有更小的特征數(shù),可以更方便地對(duì)數(shù)據(jù)集中的少量非高位數(shù)據(jù)集進(jìn)行特征提取,并進(jìn)行輸出對(duì)比。反之,Minst則由于具有更多的特征數(shù)和更高維度,更適用于高維數(shù)據(jù)集的特征提取和對(duì)比。

        在進(jìn)行仿真實(shí)驗(yàn)時(shí),決策樹采用的是具有200個(gè)決策樹的C4.5基本分類器,并將其最佳聚類范圍設(shè)置為實(shí)驗(yàn)結(jié)果的預(yù)測(cè)閾值評(píng)價(jià)采用ACC標(biāo)準(zhǔn)。如果閾值越大,則算法的優(yōu)化效果越好、聚類數(shù)據(jù)集的性能就越高。

        3.2 實(shí)驗(yàn)結(jié)果

        將本文的優(yōu)化算法與傳統(tǒng)的隨機(jī)森林算法分別運(yùn)行在KddCup99和Minst數(shù)據(jù)集進(jìn)行比較,為了得到更穩(wěn)定的結(jié)果,將算法運(yùn)行30次的均值作為最終結(jié)果。實(shí)驗(yàn)結(jié)果對(duì)比如下圖2、圖3所示:

        圖2 KddCup99中KM-FCM-RF、RF預(yù)測(cè)精度對(duì)比

        圖3 Minst中KM-FCM-RF、RF預(yù)測(cè)精度對(duì)比

        根據(jù)以上兩圖可以得到如下結(jié)論:

        (1)根據(jù)圖2的結(jié)果可知,在KddCup99的中低維數(shù)據(jù)集訓(xùn)練中,KM-FCM-RF算法在前200個(gè)樣本時(shí),預(yù)測(cè)精度略比RF略小,但從2 000個(gè)樣本開始,預(yù)測(cè)精度一直高于傳統(tǒng)RF算法。

        (2)圖3表明,在Minst的高維數(shù)據(jù)集上的訓(xùn)練過(guò)程中,KM-FCM-RF的精度自始至終都比傳統(tǒng)RF算法高。

        4 結(jié)論

        針對(duì)傳統(tǒng)的隨機(jī)森林算法在多維特征數(shù)據(jù)集預(yù)測(cè)精度不高,本文提出了一種基于K均值和C均值優(yōu)化聚類的隨機(jī)森林算法,即在對(duì)多維特征數(shù)據(jù)集樣本聚類后,集合K均值模糊C-均值算法結(jié)合,計(jì)算得到DBI指標(biāo)并對(duì)該指標(biāo)排序后,進(jìn)一步得到的閾值δ比較,最終得到多維特征數(shù)據(jù)集的特征序列。實(shí)驗(yàn)結(jié)果表明,經(jīng)過(guò)本文優(yōu)化后基于K均值和C均值優(yōu)化聚類的隨機(jī)森林算法,具有更好的聚類效果、預(yù)測(cè)精度更高,具備良好的可行性。

        猜你喜歡
        動(dòng)態(tài)數(shù)據(jù)均值聚類
        云計(jì)算環(huán)境下動(dòng)態(tài)數(shù)據(jù)聚集算法研究
        基于DBSACN聚類算法的XML文檔聚類
        顳下頜關(guān)節(jié)三維動(dòng)態(tài)數(shù)據(jù)測(cè)量的初步研究
        均值不等式失效時(shí)的解決方法
        均值與方差在生活中的應(yīng)用
        基于改進(jìn)的遺傳算法的模糊聚類算法
        關(guān)于均值有界變差函數(shù)的重要不等式
        基于動(dòng)態(tài)數(shù)據(jù)驅(qū)動(dòng)的突發(fā)水污染事故仿真方法
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        對(duì)偶均值積分的Marcus-Lopes不等式
        国产乱码一区二区三区精品| 亚洲高清视频在线播放| 成在线人免费视频播放| 夜夜高潮夜夜爽免费观看| 看久久久久久a级毛片| 色视频www在线播放国产人成| 精选麻豆国产AV| 青青草绿色华人播放在线视频| 黑人老外3p爽粗大免费看视频| 欧洲熟妇色 欧美| 精品乱子伦一区二区三区| 肉丝高跟国产精品啪啪| 亚洲蜜臀av一区二区三区 | 香港三级精品三级在线专区| 亚洲男人的天堂网站| 99久久无色码中文字幕鲁信| 国产精品白浆一区二区免费看 | 男女性行为免费视频网站| 18禁黄污吃奶免费看网站| 老太脱裤让老头玩ⅹxxxx| 人妻中文字幕一区二区二区| 日本午夜剧场日本东京热| 精品国内在视频线2019| 亚洲综合一区二区三区四区五区| 日本午夜理伦三级好看| 最新国产熟女资源自拍| 国产精品熟女视频一区二区| 久久AV中文综合一区二区| 亚洲一区二区视频免费看| 国产精品私密保养| 国内精品无码一区二区三区| 国产极品喷水视频| 国产精品亚洲精品国产| 岳好紧好湿夹太紧了好爽矜持| 国产午夜福利精品| 97久久国产精品成人观看| 在线无码中文字幕一区| 日韩欧美在线综合网| 精品国产你懂的在线观看| 开心久久婷婷综合中文字幕| 区二区三区玖玖玖|