亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于距離和密度的PBK-means算法

        2020-09-18 00:23:48魏文浩唐澤坤
        計(jì)算機(jī)工程 2020年9期
        關(guān)鍵詞:中心點(diǎn)復(fù)雜度聚類

        魏文浩,唐澤坤,劉 剛

        (蘭州大學(xué) 信息科學(xué)與工程學(xué)院,蘭州 730000)

        0 概述

        數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程,已廣泛應(yīng)用于大中型企業(yè)、軍事、銀行、醫(yī)學(xué)等領(lǐng)域[1]。聚類是數(shù)據(jù)挖掘中將物理或抽象對象的集合分成由類似的對象組成的多個(gè)類的方法。由聚類所生成的簇是一組數(shù)據(jù)對象的集合,這些對象與同一個(gè)簇中的對象彼此相似,與其他簇中的對象相異[2]。在自然科學(xué)和社會(huì)科學(xué)中[3],存在著大量的分類問題。

        在現(xiàn)實(shí)世界中存在著越來越多的無標(biāo)簽數(shù)據(jù),因此使用無監(jiān)督學(xué)習(xí)方法解決問題就顯得非常重要[4],而無監(jiān)督學(xué)習(xí)中的聚類則可以利用數(shù)據(jù)自身特征對無標(biāo)簽數(shù)據(jù)進(jìn)行分類。文獻(xiàn)[5]提出一種基于簡單觀測的迭代方法,由數(shù)據(jù)集導(dǎo)出K個(gè)簇的質(zhì)心作為中心點(diǎn),即K-means聚類算法。K-means算法因思想較為簡單且易實(shí)現(xiàn)的特點(diǎn),成為應(yīng)用最廣泛的聚類算法[6],它將距離作為相似度把數(shù)據(jù)集分為若干個(gè)類[7-8],在同一類中,數(shù)據(jù)間的相似度更高,在不同的類中,數(shù)據(jù)間的相似度更低。但是K-means算法也有局限性,如算法初始中心設(shè)置的隨機(jī)性使聚類結(jié)果易陷入局部最優(yōu)解,并且聚類結(jié)果不穩(wěn)定,易受噪聲點(diǎn)影響。

        近年來,研究人員提出了很多新的聚類算法,其中多數(shù)是對于K-means算法初始聚類中心選擇的優(yōu)化。文獻(xiàn)[9]通過將數(shù)據(jù)集劃分為幾個(gè)最佳子集,然后在每個(gè)子集選擇中心點(diǎn),解決了K-means算法中心點(diǎn)選擇的隨機(jī)性問題,但中心點(diǎn)的合理性取決于數(shù)據(jù)集劃分的好壞。文獻(xiàn)[10]將數(shù)據(jù)集存儲(chǔ)在kd-tree中,根據(jù)距離選擇中心點(diǎn),未考慮密度對聚類效果的影響。除使用kd-tree減小算法時(shí)間復(fù)雜度外,R*-tree[11]和X-tree[12]也被用來存儲(chǔ)數(shù)據(jù)集,但也相應(yīng)地增加了空間復(fù)雜度。文獻(xiàn)[13]提出基于統(tǒng)計(jì)相關(guān)性的區(qū)分因子算法,通過引入Pearson指標(biāo)[14]決定聚類過程,可以自動(dòng)確定簇?cái)?shù),但多次BWP指標(biāo)的計(jì)算增加了算法時(shí)間復(fù)雜度。文獻(xiàn)[15-17]提出了WK-means算法,該算法通過特征加權(quán)[18]選擇中心點(diǎn),考慮了數(shù)據(jù)特征對聚類效果的影響,但是沒有考慮特征值的尺度和特征權(quán)重之間的直接關(guān)系,因此文獻(xiàn)[19]提出MWK-means算法,采用異常簇初始化的方法解決上述問題,但當(dāng)數(shù)據(jù)集更加復(fù)雜時(shí),MWK-means算法需要更多時(shí)間進(jìn)行特征加權(quán)。文獻(xiàn)[20]提出一種鄰聚類算法,利用圖熵的概念可以對復(fù)雜數(shù)據(jù)集進(jìn)行有效聚類,DBSCAN[21]和OPTICS[22]根據(jù)密度選擇核心對象進(jìn)行聚類分析,但這3種算法都對閾值的設(shè)定存在一定敏感性。2014年,《Science》雜志發(fā)表一篇基于密度峰值的快速聚類算法[23],但沒有給出明確的閾值設(shè)定,文獻(xiàn)[24]提出了DCK-means算法,利用數(shù)據(jù)集特征選擇初始聚類中心,參數(shù)設(shè)置更加合理,但當(dāng)數(shù)據(jù)集規(guī)模變大時(shí)算法時(shí)間復(fù)雜度會(huì)大幅提升。

        針對以上問題,本文提出一種PBK-means算法。該算法考慮密度和距離對聚類效果的影響,將得到的初始聚類中心作為K-means算法的輸入?yún)?shù),解決K-means算法易陷入局部最優(yōu)解和抗噪能力差的問題。同時(shí)采用構(gòu)造滿二叉樹的方法并行產(chǎn)生聚類中心,以降低算法的時(shí)間復(fù)雜度。

        1 相關(guān)算法

        Bisecting K-means算法是一種無監(jiān)督學(xué)習(xí)算法,由STEINBACH、KARYPIS和KUMAR于2000年提出,該算法通過對待切分簇的選擇和切分結(jié)果的優(yōu)選來獲得高質(zhì)量的初始聚類中心。如圖1~圖3所示,為了得到K個(gè)簇,將數(shù)據(jù)集所有點(diǎn)作為一個(gè)簇,放入簇表中,不斷地從簇表中選擇簇使用K-means算法進(jìn)行二分聚類,從所有二分實(shí)驗(yàn)中選取具有最小SSE值和的2個(gè)簇,更新簇表,直到產(chǎn)生K個(gè)簇。

        圖1 K-means算法二分聚類步驟1

        圖2 K-means算法二分聚類步驟2

        圖3 K-means算法二分聚類步驟3

        算法1二分K-means算法

        輸入數(shù)據(jù)集D,聚類數(shù)K

        輸出聚類結(jié)果

        1.initialize the Array List

        2.compute the center S of mass of D

        3.add S to the central point sets C

        4.WHILE(size of C

        5. FOR(each sample i∈C){

        6. K-means(Di,2)

        7. get the data sets Di1,Di2belonging to i1,i2

        8. compute the SSE values of D

        9. }END FOR

        10. select j1,j2with minimum SSE values

        11. remove j in sets C

        12. add j1,j2to sets C

        13.}END WHILE

        14.PRINT(sets C,D after classification)

        算法具體步驟如下:

        步驟1給定聚類數(shù)K和數(shù)據(jù)集D={x1,x2,…,xn}。

        步驟2計(jì)算D的質(zhì)心,并把它加入中心點(diǎn)集合C中。

        步驟3遍歷C中的全部中心點(diǎn),使用K-means算法將每個(gè)中心點(diǎn)代表的類分為兩類,并計(jì)算分類后數(shù)據(jù)集D的SSE值的和。

        步驟4選擇SSE值最小的簇群,用新生成的兩個(gè)中心點(diǎn)覆蓋C中的生成這兩類的中心點(diǎn)。

        步驟5重復(fù)步驟3和步驟4,直至得到K個(gè)中心點(diǎn)。

        對于含有K個(gè)中心點(diǎn)的集合C,ci為簇Ci的聚類中心,x為該簇中的一個(gè)樣本,d(x,ci)表示x與ci之間的歐氏距離,SSE指標(biāo)的計(jì)算公式為:

        SSE指標(biāo)的計(jì)算增加了算法時(shí)間開銷,同時(shí),使用K-means算法將簇一分為二會(huì)受到K-means算法隨機(jī)性的影響,不能保證收斂到全局最優(yōu)值。因此,本文提出一種基于距離和密度的并行二分K-means算法,取消了SSE指標(biāo)的計(jì)算,加入權(quán)重的概念,在保持?jǐn)?shù)據(jù)集空間劃分合理性的前提下解決了中心點(diǎn)選擇的隨機(jī)性問題。

        2 PBK-means算法

        2.1 基本定義

        對于給定數(shù)據(jù)集D={x1,x2,…,xn},每個(gè)樣本元素可表示為xm={xm1,xm2,…,xmr},1≤m≤n,其中,r是樣本元素的維度,d(xi,xj)代表樣本元素xi和xj之間的歐氏距離。

        定義1數(shù)據(jù)集D的平均樣本距離定義為[24]:

        (1)

        定義2數(shù)據(jù)集D的特征空間大小定義為:

        (2)

        其中,maxi和mini分別代表數(shù)據(jù)集第i個(gè)特征上的最大值和最小值。

        定義3樣本元素i的密度參數(shù)定義為[25]:

        (3)

        定義4觀察式(3)很容易發(fā)現(xiàn)p(i)是以數(shù)據(jù)樣本i為圓心,以MeanDis(D)為半徑的圓內(nèi)的數(shù)據(jù)樣本數(shù)量。計(jì)算數(shù)據(jù)樣本i與圓內(nèi)全部數(shù)據(jù)樣本的距離,結(jié)合數(shù)據(jù)集特征空間大小,樣本元素i的距離參數(shù)定義為:

        (4)

        定義5樣本元素i的異類參數(shù)定義為:

        (5)

        其中,m是密度參數(shù)大于樣本數(shù)據(jù)i的樣本數(shù)據(jù)數(shù)量。

        定義6樣本元素i的權(quán)重定義為:

        (6)

        其中,w(i)的大小與p(i)和a(i)成正比,與t(i)成反比。t(i)與a(i)的設(shè)定相對文獻(xiàn)[24]的參數(shù)設(shè)定進(jìn)行改進(jìn),利用Range參數(shù)將每個(gè)數(shù)據(jù)對t(i)的貢獻(xiàn)度控制在[1,1+r]之間,a(i)計(jì)算了密度參數(shù)比i大的全部數(shù)據(jù)點(diǎn)與i的平均距離,規(guī)范化密度和距離對聚類的影響,考慮了全局的數(shù)據(jù)點(diǎn)分布,有利于發(fā)現(xiàn)全局最優(yōu)而不是局部最優(yōu)。p(i)值越大,點(diǎn)i的MeanDis(D)半徑內(nèi)的點(diǎn)越多,t(i)值越小,點(diǎn)i的MeanDis(D)半徑內(nèi)的點(diǎn)越密集,a(i)值越大,兩個(gè)以MeanDis(D)為半徑的圓差異越大。因此,每次根據(jù)權(quán)值w選取下一個(gè)中心點(diǎn)可以保證數(shù)據(jù)集空間劃分合理性,同時(shí),p(i)的設(shè)定可以明顯提高算法的抗噪能力。

        2.2 并行二分原則

        首先將數(shù)據(jù)集一分為二得到兩個(gè)簇,然后以每個(gè)簇為起點(diǎn)再一分為二,如此重復(fù),第r次獲得2r個(gè)簇,此過程與細(xì)胞分裂過程類似。細(xì)胞分裂式的二分給予每個(gè)簇均等的切分機(jī)會(huì),每次迭代都要對所有的簇進(jìn)行切分,這個(gè)過程可以并行實(shí)現(xiàn),最后會(huì)產(chǎn)生一棵完全二叉樹。

        顯然,對于K=2r的數(shù)據(jù)集,PBK-means算法可以直接得到結(jié)果,對于2r-1

        雖然都采用了二分思想,但二分K-means算法與本文提出的算法差別依舊明顯,二分K-means算法通過計(jì)算SSE值確定要切分的簇,每次迭代只切分一個(gè)簇,完成聚類需要多次計(jì)算SSE值,增加了時(shí)耗。PBK-means算法通過結(jié)合權(quán)值保證每次對簇的切分都得到較好的效果,第r次迭代同時(shí)對2r-1個(gè)簇進(jìn)行切分,同時(shí)并行實(shí)現(xiàn)的特點(diǎn)使本文算法的執(zhí)行時(shí)間大幅減少。

        2.3 最大權(quán)重原則

        根據(jù)式(6)計(jì)算樣本的權(quán)重,如果滿足條件max(p(i)/t(i)),則將樣本元素i作為第1個(gè)聚類中心,計(jì)算所有樣本元素與當(dāng)前聚類中心的距離,小于MeanDis(D)的樣本元素不能參與下一次聚類中心的選擇,將此距離與權(quán)重相乘,選擇相乘后最大值樣本元素作為第2個(gè)聚類中心。通過產(chǎn)生的2個(gè)中心點(diǎn)生成2個(gè)簇,然后對產(chǎn)生的全部子簇重復(fù)上述過程,在迭代過程中不斷更新子簇的MeanDis(D),直到產(chǎn)生的子簇?cái)?shù)大于或等于需要的類數(shù)K。通過最大權(quán)重選擇中心點(diǎn)的并行二分方法步驟如圖4和圖5所示。

        圖4 本文算法并行二分方法步驟1

        圖5 本文算法并行二分方法步驟2

        算法2PBK-means算法

        輸入數(shù)據(jù)集D,聚類數(shù)K

        輸出聚類結(jié)果

        1.initialize the Array List

        2.initialize Central point sets C//創(chuàng)建中心點(diǎn)集合C

        3.compute Range(D)

        4.WHILE(size of C

        5. get the data sets Dici//將D中的元素分配給ci//生成Di

        6. computeMeansDis(Di)//計(jì)算Di相關(guān)參數(shù)

        7. FOR(each center ciC){

        9. compute p(j) and t(j)

        10. }

        11. select center ci1←sample max(p(j)/t(j))//通過最//大權(quán)重原則選擇2個(gè)新的中心點(diǎn)

        13. compute a(j)

        14. compute w(j)=p(j)*a(j)*1/t(j)

        15. }

        17. compute d(j,ci1)

        18. IF(d(j,ci1)>MeanDis(Di)){

        19. center ci2←sample max(d(j,ci1)*w(j))

        20. }

        21. }

        22. FOR(each center ciC){//更新中心點(diǎn)集合C

        23. remove ciin sets C

        24. add ci1,ci2to sets C

        25. }

        26.}END WHILE

        27.update C//合并更新中心點(diǎn)集合C

        28.K-means input(C,K)//將中心點(diǎn)集合C和類別數(shù)K//作為輸入?yún)?shù)執(zhí)行K-means算法

        29.WHILE(new center!=original center){

        31. FOR(each centercjC){

        32. Compute d(i,cj)

        33. }

        34. IF(MinDis=d(i,cj)){

        35. centercj←sample i

        36. }

        37. }END FOR

        38. compute new center ci=Mean(sample(i&&(icenter ci)))

        39.}END WHILE

        40.PRINT(Cluster C)

        算法具體步驟如下:

        步驟1給定數(shù)據(jù)集,根據(jù)式(6)計(jì)算所有樣本的權(quán)重,選擇滿足條件max(p(i)/t(i))的c1作為第1個(gè)聚類中心,并將c1加入到集合C中。同時(shí),與c1的距離小于MeanDis(D)的樣本不能參與下一次聚類中心的選擇。

        步驟2計(jì)算剩余樣本與c1之間的距離,選擇滿足條件max(w(i)×d(i,c1))的樣本元素設(shè)為c2,并將其加入到集合C中。

        步驟3根據(jù)距離將所有樣本元素分配給c1和c2,得到2個(gè)簇。然后重新計(jì)算這2個(gè)簇的MeanDis(D)和簇中全部樣本元素的w。對于產(chǎn)生的2個(gè)簇,并行執(zhí)行步驟1和步驟2,產(chǎn)生4個(gè)新的聚類中心c3、c4、c5、c6。刪除集合C中的c1和c2,并將c3、c4、c5、c6加入集合C中。

        步驟4根據(jù)距離將對應(yīng)的樣本元素分配給集合C中的m個(gè)中心點(diǎn),產(chǎn)生m個(gè)簇,更新每個(gè)簇的MeanDis(D)和簇中的樣本元素權(quán)重,對產(chǎn)生的m個(gè)簇并行執(zhí)行步驟1和步驟2,刪除集合C中原有元素,將得到的2m個(gè)聚類中心添加到集合C中。

        步驟5重復(fù)步驟4直至集合C中的元素個(gè)數(shù)大于或等于類數(shù)K。迭代q次后會(huì)得到2q個(gè)聚類中心,如果大于K,則使用PCA將2q個(gè)中心點(diǎn)減少至K個(gè)。

        2.4 算法時(shí)間復(fù)雜度

        傳統(tǒng)K-means算法的時(shí)間復(fù)雜度可以被描述為O(nKT),n是樣本集中的樣本元素個(gè)數(shù),K是分類數(shù),T是算法迭代次數(shù)。本文提出的PBK-means算法時(shí)間復(fù)雜度為O(n2+nr+nKT),文獻(xiàn)[24]提出的DCK-means算法時(shí)間復(fù)雜度為O(n2+nS+nKT),r是使用二分法的迭代次數(shù),r值較小,約等于lbK,S是尋找中心點(diǎn)的迭代次數(shù),大小約為K,T是產(chǎn)生的初始聚類中心執(zhí)行K-means算法的迭代次數(shù),O(n2)是使用最大權(quán)重法耗費(fèi)的時(shí)間復(fù)雜度。將本文提出算法得到的初始聚類中心作為K-means算法的輸入?yún)?shù)時(shí),需要的迭代次數(shù)T明顯小于傳統(tǒng)K-means算法隨機(jī)選取聚類中心所需的迭代次數(shù)T,因此,PBK-means算法的時(shí)間復(fù)雜度主要由數(shù)據(jù)集規(guī)模n決定。在處理規(guī)模中小型數(shù)據(jù)集時(shí),本文算法在聚類效果和耗時(shí)方面都有較好的表現(xiàn)。當(dāng)數(shù)據(jù)集規(guī)模增大到一定程度時(shí),本文算法的時(shí)間復(fù)雜度約為O(n2)。目前提出的改進(jìn)聚類算法由于結(jié)合密度或距離,算法時(shí)間復(fù)雜度均在O(n2)~O(n3)之間,本文算法由于結(jié)合了并行實(shí)現(xiàn)的特點(diǎn),初始中心點(diǎn)的選擇過程耗時(shí)更短,效率更高。

        3 實(shí)驗(yàn)數(shù)據(jù)

        對本文提出算法以及對比算法進(jìn)行的實(shí)驗(yàn)由以下3個(gè)部分組成:

        1)算法中心點(diǎn)合并策略;

        2)測試本文算法與對比算法在實(shí)驗(yàn)數(shù)據(jù)集上的精準(zhǔn)度等聚類指標(biāo);

        3)比較本文算法與對比算法在實(shí)驗(yàn)數(shù)據(jù)集上聚類所用的時(shí)間。

        實(shí)驗(yàn)環(huán)境為8 GB內(nèi)存、Intel?CoreTMi5-7500、3.40 GHz,Windows10操作系統(tǒng)。

        3.1 實(shí)驗(yàn)數(shù)據(jù)集參數(shù)

        本文實(shí)驗(yàn)用到了UCI數(shù)據(jù)集,從UCI 網(wǎng)站獲取,數(shù)據(jù)集參數(shù)如表1所示。

        表1 實(shí)驗(yàn)數(shù)據(jù)集參數(shù)

        3.2 實(shí)驗(yàn)結(jié)果

        3.2.1 中心點(diǎn)合并策略

        當(dāng)實(shí)際聚類數(shù)為k時(shí),若k正好為2r,則本文提出算法在r次迭代后得到的中心點(diǎn)可直接作為初始中心點(diǎn)執(zhí)行K-means算法。若2r-1

        圖6 不同合并方法精度

        從圖6可以看出,PCA在合并策略中表現(xiàn)最好,在5個(gè)UCI數(shù)據(jù)集上均取得了最高的聚類精度,PCA方法的原理是將中心點(diǎn)集數(shù)據(jù)矩陣轉(zhuǎn)置后把原先的2r個(gè)特征用數(shù)目更少的k個(gè)特征取代,從舊特征到新特征的映射保持原有數(shù)據(jù)特性。t-SNE比其他3種方法表現(xiàn)都好,但與使用PCA時(shí)的聚類精度平均相差2.36%。在類別數(shù)和樣本數(shù)較少時(shí),通過聚類特征對簇進(jìn)行合并產(chǎn)生的聚類效果較差。

        3.2.2 聚類效果

        聚類效果通過準(zhǔn)確率、蘭德系數(shù)(Rand)、輪廓系數(shù)(Silhouette)、Jaccard系數(shù)、SSE指標(biāo)評判。Canopy-Kmeans算法表示為CK-means,二分K-means算法表示為BK-means,本文提出的算法表示為PBK-means。本文算法與DCK-means算法得到的聚類結(jié)果是固定的,對其他5種對比算法分別進(jìn)行100次實(shí)驗(yàn),取實(shí)驗(yàn)結(jié)果的平均值。表2~表9為算法在UCI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。

        表2 Soybean-small數(shù)據(jù)集聚類結(jié)果指標(biāo)

        表3 Iris數(shù)據(jù)集聚類結(jié)果指標(biāo)

        表4 Wine數(shù)據(jù)集聚類結(jié)果指標(biāo)

        表5 Seeds數(shù)據(jù)集聚類結(jié)果指標(biāo)

        表6 Hepatitis數(shù)據(jù)集聚類結(jié)果指標(biāo)

        表7 Pima數(shù)據(jù)集聚類結(jié)果指標(biāo)

        表8 Glass數(shù)據(jù)集聚類結(jié)果指標(biāo)

        表9 Segmentation數(shù)據(jù)集聚類結(jié)果指標(biāo)

        通過表2~表9對聚類結(jié)果各項(xiàng)指標(biāo)的比較發(fā)現(xiàn):本文提出的算法在Segmentation數(shù)據(jù)集上與DCK-means算法基本相同,原因是Segmentation數(shù)據(jù)集不同類別的數(shù)目差異較大,數(shù)據(jù)分布分隔明顯,由于DCK-means算法與本文算法都考慮了距離與密度,因此都能得到較好的結(jié)果。而在其他數(shù)據(jù)集上PBK-means算法各項(xiàng)指標(biāo)均是最優(yōu)的,本文提出算法在上述8個(gè)UCI數(shù)據(jù)集上的聚類結(jié)果準(zhǔn)確率比傳統(tǒng)K-means算法高27.1%,比Canopy-Kmeans算法高13.6%,比Bisecting K-means算法高14%,比WK-means算法高9.4%,比MWK-means算法高5.8%,比DCK-means算法高3.3%。無論是二分類任務(wù)或者多分類任務(wù),PBK-means算法都能得到較好的聚類效果,證明了算法思想和參數(shù)設(shè)置的合理性。本文提出的PBK-means算法通過結(jié)合距離與密度,每次將選擇的向量空間一分為二,相比于其他算法,更好地考慮了樣本集全部數(shù)據(jù)的分布情況,初始中心點(diǎn)的選擇結(jié)合了距離與密度,可以更快地收斂至全局最優(yōu)。

        3.2.3 聚類時(shí)耗

        本節(jié)比較了PBK-means算法與6種對比算法在UCI數(shù)據(jù)集上聚類所用的時(shí)間,具體耗時(shí)如表10所示。

        表10 UCI數(shù)據(jù)集聚類耗時(shí)

        通過對表10的分析,可以得出以下結(jié)論:

        1)傳統(tǒng)的K-means算法隨機(jī)選擇初始聚類中心,Canopy-Kmeans算法已選取中心點(diǎn)固定半徑內(nèi)的點(diǎn)不能選為中心點(diǎn),但中心點(diǎn)的選取仍是隨機(jī)的,Bisecting K-means算法第1個(gè)中心點(diǎn)選取數(shù)據(jù)集質(zhì)心,但后續(xù)對簇的二分過程相當(dāng)于面對二分類任務(wù)時(shí)的傳統(tǒng)K-means算法。以上3種算法選取初始中心點(diǎn)的隨機(jī)性造成后續(xù)迭代多次才能得到穩(wěn)定的聚類結(jié)果,因此聚類耗時(shí)較大。

        2)在面對多分類任務(wù)時(shí),二分K-means算法計(jì)算SSE指標(biāo)值的大量耗時(shí)使其聚類時(shí)間最長。由于并行實(shí)現(xiàn)的特點(diǎn),本文提出的PBK-means算法所需聚類時(shí)間最少,通過權(quán)衡距離與密度,在保證聚類效果的前提下避免了SSE指標(biāo)的計(jì)算耗時(shí)。在面對二分類任務(wù)時(shí),PBK-means算法略優(yōu)于DCK-means算法,明顯優(yōu)于WK-means算法和MWK-means算法,得到的初始聚類中心在執(zhí)行K-means算法時(shí)迭代次數(shù)明顯小于其他算法。

        4 結(jié)束語

        由于標(biāo)簽信息的缺乏,無監(jiān)督學(xué)習(xí)在數(shù)據(jù)挖掘中越來越重要,聚類在網(wǎng)絡(luò)入侵檢測、自然災(zāi)害監(jiān)測等方面有廣泛的應(yīng)用。本文提出一種PBK-means算法,根據(jù)數(shù)據(jù)分布情況對數(shù)據(jù)集進(jìn)行分類,將距離和密度相結(jié)合從而快速處理中小型規(guī)模的數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明,該算法面對大型數(shù)據(jù)集時(shí)在效率和精度方面都有較好的表現(xiàn)。為獲得最佳初始聚類中心,將PBK-means算法與Mapreduce框架相結(jié)合以及尋找更好的中心點(diǎn)合并策略將是后續(xù)研究的內(nèi)容。

        猜你喜歡
        中心點(diǎn)復(fù)雜度聚類
        Scratch 3.9更新了什么?
        如何設(shè)置造型中心點(diǎn)?
        電腦報(bào)(2019年4期)2019-09-10 07:22:44
        一種低復(fù)雜度的慣性/GNSS矢量深組合方法
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        求圖上廣探樹的時(shí)間復(fù)雜度
        某雷達(dá)導(dǎo)51 頭中心控制軟件圈復(fù)雜度分析與改進(jìn)
        漢字藝術(shù)結(jié)構(gòu)解析(二)中心點(diǎn)處筆畫應(yīng)緊奏
        基于改進(jìn)的遺傳算法的模糊聚類算法
        尋找視覺中心點(diǎn)
        大眾攝影(2015年9期)2015-09-06 17:05:41
        出口技術(shù)復(fù)雜度研究回顧與評述
        人妻系列影片无码专区| 久久精品国产亚洲av麻豆| 亚洲国产高清在线一区二区三区 | 亚洲av无码久久| 色一情一区二| jk制服黑色丝袜喷水视频国产| 国产精品综合女同人妖| 久久精品国产亚洲av麻豆长发| 日日躁夜夜躁狠狠久久av| 亚洲精品一区网站在线观看| 在线视频自拍视频激情| 夜夜夜夜曰天天天天拍国产| 国模少妇一区二区三区| 国产大片中文字幕| 国产女人乱码一区二区三区| 欧美又粗又长又爽做受| 婷婷四房色播| 国产一区二区内射最近人| 久久国产精品婷婷激情| 国产喷水1区2区3区咪咪爱av| 五月天欧美精品在线观看| 久久精品亚洲国产成人av| 色狠狠一区二区三区中文| 欧美艳星nikki激情办公室| 伊人亚洲综合网色AV另类| 亚洲av无吗国产精品| 97精品国产一区二区三区| 久久天天躁夜夜躁狠狠躁2022| 精品视频在线观看一区二区有| 国内自拍速发福利免费在线观看| 久久精品国产9久久综合| 精品国产一区二区三区三级| 亚洲人午夜射精精品日韩| 日韩欧美在线播放视频| 亚洲av天堂在线免费观看| 99热在线观看| 亚洲在AV极品无码天堂手机版| 国产白浆精品一区二区三区| 妃光莉中文字幕一区二区| 成年无码av片完整版| 国产亚洲欧美另类第一页|