亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合K近鄰的改進(jìn)密度峰值聚類算法

        2018-04-08 05:46:27薛小娜高淑萍彭弘銘吳會會
        計算機(jī)工程與應(yīng)用 2018年7期
        關(guān)鍵詞:集上分配聚類

        薛小娜,高淑萍,彭弘銘,吳會會

        XUE Xiaona1,GAO Shuping1,PENG Hongming2,WU Huihui1

        1.西安電子科技大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,西安 710126

        2.西安電子科技大學(xué) 通信工程學(xué)院,西安 710071

        1.School of Mathematics and Statistics,Xidian University,Xi’an 710126,China

        2.School of Telecommunications Engineering,Xidian University,Xi’an 710071,China

        1 引言

        聚類是數(shù)據(jù)挖掘領(lǐng)域中的一種無監(jiān)督分類方法,其目的是將混亂的數(shù)據(jù)進(jìn)行分組,使得同一簇中的樣本盡可能相似,而不同簇中的樣本盡量不同[1-3],現(xiàn)已被廣泛應(yīng)用于信息檢索、模式分類及數(shù)據(jù)挖掘等領(lǐng)域[4]?;诓煌瑢W(xué)習(xí)策略,傳統(tǒng)聚類算法可被劃分為分割聚類(如K-means[5])、密度聚類(如DBSCAN[6]),以及基于傳播的方法(如AP[7])等。

        文獻(xiàn)[8]提出了一種新穎的密度峰值聚類算法DPC,其不僅能檢測出樣本集中存在的聚類數(shù)目,而且能夠有效處理具有不規(guī)則形狀的簇以及異常樣本。盡管DPC算法優(yōu)勢明顯,但其仍存在一些局限:(1)對于大小不同的數(shù)據(jù)集,采用的局部密度計算方式不同,這無形中降低了算法的靈活性;(2)對剩余點的分配策略易造成誤差傳播。近兩年來,許多學(xué)者都在對DPC算法進(jìn)行改進(jìn),雖取得了許多研究成果,但也發(fā)現(xiàn)了一些新問題。例如,文獻(xiàn)[9]基于信息熵理論提出了一種從原始數(shù)據(jù)集中自動獲取截斷距離參數(shù)的新方法,但其所需的時間成本大大增加;文獻(xiàn)[10]將DPC算法和Chameleon算法的優(yōu)點相結(jié)合提出了E_CFSFDP算法,雖避免了將包含多個密度峰值的一個類聚成多類,但其計算開銷高達(dá)O(N2+NlbN+NM)且不利于處理高維數(shù)據(jù)。由于 K 近鄰(K-Nearest-Neighbors,KNN)具有簡單、高效等特點,它不但可以處理文本分類以及流數(shù)據(jù)分類問題,其在聚類中也展現(xiàn)出很強(qiáng)的技巧性[11-13],故該方法不斷被引入DPC算法。例如,文獻(xiàn)[14]提出了DPC-KNN算法,其利用KNN思想來估計每點的密度,并使用主成分分析方法對數(shù)據(jù)降維,提高了對高維數(shù)據(jù)的處理能力且能獲得良好的聚類效果。然而,由于DPC-KNN算法的聚類過程與DPC相同,故DPC算法的缺陷在該算法中仍存在。文獻(xiàn)[15]將模糊加權(quán)KNN引入DPC算法提出了FKNN-DPC算法,也使用KNN來計算每點的密度,并利用新提出的分配策略對剩余點進(jìn)行分配,雖提高了聚類質(zhì)量,但其模型較為復(fù)雜[16]。

        針對上述問題,本文根據(jù)各樣本的相似程度給出一種可適用于任意數(shù)據(jù)集的局部密度計算方法,以增強(qiáng)算法靈活度;受KNN以及隊列思想的啟發(fā),設(shè)計了兩種不同的策略來分配剩余點,以提升聚類質(zhì)量和聚類效率。在21個常用數(shù)據(jù)集上的實驗結(jié)果表明,本文算法IDPCA不僅減少了運(yùn)行時間,而且提升了聚類質(zhì)量。

        2 DPC算法

        DPC算法基于以下兩點假設(shè)進(jìn)行設(shè)計:(1)聚類中心點總是被低密度點包圍;(2)聚類中心與其他高密度點間的距離相對較遠(yuǎn)。將待聚類數(shù)據(jù)集記為X,其大小和維度分別為N和D。對于X中的任意數(shù)據(jù)點xi,其分布情況由兩個屬性刻畫,即局部密度ρi及該點與其他具有較高密度點之間的最小距離δi。ρi的計算方式為:

        其中,φ(x)是分段函數(shù),當(dāng) dij<dc時,φ(x)=1;否則φ(x)=0;dc為截斷距離參數(shù);dij為點 xi和xj間的距離;ρi可解釋為點xi的dc鄰域內(nèi)點的個數(shù)。對于較小的數(shù)據(jù)集,由式(1)估計的密度可能會受統(tǒng)計誤差的影響,此時采用式(2)來估計其局部密度[8]。

        xi的距離δi定義為:

        對于局部密度最大的點xi,其距離為δi=majx (dij)。

        DPC算法通過引入一種啟發(fā)式方法(決策圖)來幫助用戶獲取聚類中心(或稱密度峰值)。圖1(a)顯示了由4個類組成的數(shù)據(jù)分布情況。為了獲取該數(shù)據(jù)的聚類中心,DPC算法首先將每點的ρ值和δ值于坐標(biāo)平面內(nèi)繪出,然后將ρ和δ值都較大的點作為聚類中心,即圖1(b)中右上角的4個數(shù)據(jù)點。然而,對于分布稀疏的數(shù)據(jù),通過ρ-δ決策圖難以確定其聚類中心,此時DPC算法使用γ=ρ×δ來獲取,其中γi值越大,xi越可能是聚類中心。將所有點的γ值降序排列,并于坐標(biāo)平面上繪出,如圖1(c)所示。由于聚類中心的γ值較大,而其他點的γ值較小且呈平滑趨勢,故可使用一條平行于橫軸的直線將其分開,使得直線上方的γ值所對應(yīng)的點即為聚類中心。當(dāng)聚類中心找出后,將剩余點分配到其高密度最近鄰所屬的類中。

        圖1 DPC算法

        3 IDPCA算法

        3.1 算法思想

        對于密度聚類算法來說,各樣本密度的估計準(zhǔn)確與否不僅影響聚類中心的選取,其對聚類質(zhì)量也有直接影響。

        由距離δ定義可知,δ值的大小與密度ρ也密切相關(guān),故ρ對于聚類中心的選取至關(guān)重要。由于DPC算法的密度計算方法不一致且深受截斷距離dc影響,其不能夠保證與當(dāng)前點距離小于dc的點的數(shù)目[15],故有不少成果對該算法中的密度公式進(jìn)行了改進(jìn)。例如,DPC-KNN[14]和FKNN-DPC[15]算法為了消除dc的影響,均從數(shù)據(jù)局部分布情況出發(fā),利用KNN來估計密度,其計算方式分別為:

        盡管改進(jìn)方法中的參數(shù)K比dc容易確定,但面對類間樣本數(shù)不均衡以及疏密度不一的數(shù)據(jù),使用γ=ρ×δ方式選取聚類中心時,類中心點與其他點的區(qū)分度并不高。為了以較高區(qū)分度識別出任意數(shù)據(jù)集中的聚類中心,本文從數(shù)據(jù)的整體分布出發(fā),通過引入相似性系數(shù)來調(diào)節(jié)各點對當(dāng)前點的密度貢獻(xiàn)權(quán)重,給出一種帶有相似性系數(shù)的高斯核函數(shù)來計算其局部密度。

        對于每個數(shù)據(jù)點xi,其局部密度ρi定義為:

        其中,σ取數(shù)據(jù)量的2%[8],r為相似性系數(shù),表示密度函數(shù)與數(shù)據(jù)點間相似度的關(guān)系程度,該值越大,距離點xi越近的點對其密度ρi的貢獻(xiàn)權(quán)重越大。聚類中心的擇取方式類似于DPC算法,即先利用式(3)和式(6)計算各點的δ和ρ值,然后通過γ值決策圖輔助獲得M個局部類的聚類中心,即選取較大的前M個γ值對應(yīng)的點。

        因本文算法IDPCA、DPC、DPC-KNN及FKNN-DPC計算距離δ的方式相同,僅密度計算方法不同,故可通過γ=ρ×δ值來比較各密度公式。圖2(a)顯示了由3個類組成的合成數(shù)據(jù)集;圖2(b)~(f)顯示了采用不同密度方法得到的γ值決策圖,各參數(shù)為K=4,dc=1,r=2。圖2中,所采用的計算方式依次為式(2)、式(1)、式(4)~(6)。

        圖2 采用5種不同密度方法計算的γ值

        觀察圖2可以發(fā)現(xiàn),與DPC算法相比,本文算法IDPCA能夠以較高區(qū)分度識別出圖2(a)數(shù)據(jù)中的3個聚類中心,而DPC-KNN算法和FKNN-DPC算法僅區(qū)分出兩個,故本文提出的密度度量方式在聚類中心選取方面具有一定的優(yōu)勢。

        由于聚類中心往往出現(xiàn)在高密度區(qū)域,故將各聚類中心某鄰域內(nèi)的點看作核心點,而將其他點看作非核心點。核心點的獲取方法為:先將剩余點均分配到距其最近的聚類中心所在的類中,然后計算各局部類Cm中所有點與其類中心cenm間的平均距離um,若xi∈Cm在cenm的εum鄰域內(nèi)(即滿足式(8)),則 xi為核心點。

        其中,|Cm|為第m個局部類Cm中的所有數(shù)據(jù)點的數(shù)目,(i=1,2,|Cm|,m=1,2,…,M)為點 xi∈Cm與cenm間的距離;分離閾值ε與數(shù)據(jù)集大小N有關(guān),為N‰;Xcore為核心點集合。

        為了將剩余點(非核心點)正確歸類,本文設(shè)計了兩種分配策略:全局搜索分配策略和統(tǒng)計學(xué)習(xí)分配策略。前者是以Xcore中的每點為中心,不斷地搜索其未分配的KNN并將之分配到該點所在的局部類中。后者則是通過學(xué)習(xí)每個剩余點被分配至各局部類的概率來將其歸類,其學(xué)習(xí)過程如下:首先依式(9)計算xi與xj的相似度sij,若兩點距離越近,則其相似度越高。每點的歸屬由其KNN分布信息決定,若xi的KNN(KNNi)中屬于Cm的點越多且與xi的距離越近,則sij值越大,此時xi被分配到Cm的概率Pmi也越大。Pmi的計算方式如式(10)所示。

        3.2 算法步驟

        輸入:數(shù)據(jù)集X,相似性系數(shù)r,最近鄰個數(shù)K。

        輸出:類標(biāo)簽labels。

        步驟1使用式(3)和(6)計算每點的δ與ρ值。

        步驟2通過決策圖獲取聚類中心。

        步驟3使用式(7)和(8)提取核心點,并采用全局搜索分配策略將待分類點歸類:

        (1)將核心點集合Xcore置入隊列Q。

        (2)取隊列頭xa,并將之從Q中刪除,然后查找其K個最近鄰KNNa。

        (3)若 x′∈KNNa未被分配,則將 x′分配到 xa所在的類中,并將x′添加至Q尾部;否則轉(zhuǎn)(2)。

        步驟4采用統(tǒng)計學(xué)習(xí)策略分配剩余k個點:

        (2)若MP中有非零值,則將Pmo值最大的點xo歸入MI(o)所表示的類中,轉(zhuǎn)(3);否則終止該策略。

        (3)更新P、MP、MI,令MP(o)=0。對于未分配點xp∈KNNo,更新 P[p][m]、MP(p)及 MI(p)。

        (4)若MP中所有元素均為0,則終止;否則轉(zhuǎn)(3)。

        步驟5仍未被處理的點可看作噪聲點,并將之歸入到其最近鄰所在的類中。

        3.3 算法時間復(fù)雜度

        設(shè)||U0為待分類點的總數(shù)目,N′為全局搜索分配

        策略分配的點數(shù)。IDPCA算法的時間耗費(fèi)主要表現(xiàn)在四方面:(1)計算各數(shù)據(jù)點間的距離所需時間為O(N2)。(2)計算 ρ、δ及 γ值所需時間均為O(N)。(3)將待分類點都分配到距其最近的類中心,并獲取核心點所需時間為O(NM+N+|U0|)。(4)利用全局搜索策略分配N′個點所需時間為O((N-|U0|+N′)2),使用統(tǒng)計學(xué)習(xí)策略分配剩余的N″=N-N″個點所需時間為O(N″2)。因此,IDPCA算法的時間復(fù)雜度近似于O(N2)。

        4 實驗結(jié)果與分析

        聚類算法的性能通常是采用多種不同測試數(shù)據(jù)集來驗證說明的,本文選取21個不同數(shù)據(jù)集進(jìn)行實驗。通過與經(jīng)典聚類算法DBSCAN、K-means、AP及近期提出的DPC算法各項指標(biāo)的比較,以驗證本文算法IDPCA的性能。關(guān)于合成和真實數(shù)據(jù)集的基本屬性將于4.2節(jié)及4.3節(jié)中給出。

        文中將聚類算法研究中廣為采用的聚類精度(Clustering Accuracyn,Acc)、調(diào)整互信息系數(shù)(Adjusted Mutual Information,AMI)、調(diào)整 Rand系數(shù)(Adjusted Rand Index,ARI)這3個指標(biāo)[17-18]作為聚類算法性能度量標(biāo)準(zhǔn)。其中,Acc與AMI的取值范圍均為[]0,1,ARI取值范圍為[]

        -1,1,各指標(biāo)值越大,表明聚類質(zhì)量越高。

        實驗環(huán)境:硬件平臺為Intel?Core?i5-6500 CPU@3.2 GHz 3.19 GHz處理器,16.0 GB RAM;編程環(huán)境為Win7-Matlab 2015b。

        4.1 實驗參數(shù)分析

        本文所提算法包含兩個參數(shù):最近鄰個數(shù)K和相似性系數(shù)r。為了分析這兩個參數(shù)對IDPCA算法聚類質(zhì)量的影響,本文選取了較為典型的數(shù)據(jù)集Circle和S2進(jìn)行實驗,其真實分布如圖3所示。

        圖3 樣本數(shù)據(jù)分布

        圖4(a)、(b)顯示了在Circle數(shù)據(jù)集上參數(shù) K 和 r對IDPCA聚類質(zhì)量的影響。當(dāng)K從3變到4時,對應(yīng)的聚類精度Acc從76.33%變到99.0%,AMI從53.68%變到95.21%,ARI從48.70%變到96.96%;當(dāng)K繼續(xù)增大時,對應(yīng)的Acc、AMI和ARI呈現(xiàn)下降趨勢。當(dāng)r從0.25變到1時,Acc、AMI和ARI急劇增大,Acc從78.67%變到了99%,AMI從61.45%變到95.21%,ARI從54.27%變到96.96%;而當(dāng)r繼續(xù)增大時,對應(yīng)的Acc、AMI和ARI亦呈緩慢下降趨勢。因此,IDPCA算法在Circle數(shù)據(jù)集上的參數(shù)選擇為 K=4和r=1。圖4(c)、(d)顯示了在S2數(shù)據(jù)集上參數(shù)K和r對IDPCA算法聚類質(zhì)量的影響。當(dāng)K逐漸增大時,對應(yīng)的Acc、AMI和ARI也逐漸增大,然后趨于穩(wěn)定。當(dāng)r逐漸增加時,各指標(biāo)值變化相對穩(wěn)定。由此可知S2數(shù)據(jù)集對參數(shù)K和r不敏感,故IDPCA算法在該數(shù)據(jù)集上的參數(shù)選擇可同Circle數(shù)據(jù)集。

        圖4 參數(shù)對IDPCA算法聚類質(zhì)量的影響

        通過對4.2節(jié)和4.3節(jié)中其他數(shù)據(jù)集的數(shù)值實驗發(fā)現(xiàn):當(dāng)最近鄰數(shù)目K=4,相似性系數(shù)r在(0,2]區(qū)間取值時,均能獲得較好的聚類效果。為了便于獲取較好的r值,本文依文獻(xiàn)[19]的尋優(yōu)策略,通過網(wǎng)格搜索法進(jìn)行尋找。該方法將參數(shù)區(qū)域劃分成等距網(wǎng)格,通過遍歷所有網(wǎng)格點來尋找使算法性能達(dá)到最優(yōu)的參數(shù)。由于網(wǎng)格搜索法在步距足夠小的情況下可以在給定區(qū)域內(nèi)找出全局最優(yōu)解[20-21],故適用于本文算法IDPCA。文中將參數(shù)r所在區(qū)間(0,2]劃分為步長為0.2的10個網(wǎng)格點,然后遍歷每個網(wǎng)格點,選取使聚類結(jié)果達(dá)到最優(yōu)的r值。

        4.2 合成數(shù)據(jù)集實驗

        本節(jié)選取12個合成數(shù)據(jù)集進(jìn)行實驗,各數(shù)據(jù)集的基本屬性如表1所示。

        表1 合成數(shù)據(jù)集

        圖5和圖6分別顯示了IDPCA算法與DPC算法對表1中的二維數(shù)據(jù)集進(jìn)行聚類所得到的實驗結(jié)果圖,圖中不同顏色標(biāo)識的點對應(yīng)著不同的類,由黑色“.”標(biāo)記的點為各算法識別出的聚類中心。

        從圖5可看出,IDPCA算法不僅能夠給出符合直觀判斷和真實聚類情況的結(jié)果,而且能有效處理這10個數(shù)據(jù)集中所包含的類間重疊、結(jié)構(gòu)復(fù)雜以及含有噪聲干擾等情況。而在DPC算法的聚類結(jié)果中,則明顯存在著一些類別誤判。例如,對于結(jié)構(gòu)復(fù)雜Circle數(shù)據(jù)集,IDPCA算法僅將外環(huán)樣本中的兩個點錯分到內(nèi)環(huán)的類中,而DPC算法卻將外環(huán)樣本中大部分點錯分到內(nèi)環(huán)中的類中,主要原因是該算法對剩余點的分配策略會導(dǎo)致誤差傳播,即一旦有一點錯分,那么比該點密度小的點也會被誤分。

        為了更全面客觀地評價IDPCA算法的性能,本文不僅將IDPCA算法與DPC算法作了比較,而且與另外3種經(jīng)典的聚類算法(DBSCAN、K-means、AP)也進(jìn)行對比。使用這5種聚類算法對表1中數(shù)據(jù)集進(jìn)行聚類所得的Acc、AMI、ARI指標(biāo)結(jié)果見表2,其中粗體數(shù)據(jù)為最優(yōu)結(jié)果。

        對比表2中各聚類算法所獲得Acc、AMI和ARI值可發(fā)現(xiàn),這5種算法在DIM512和DIM1024數(shù)據(jù)集上表現(xiàn)相同,均達(dá)到了最優(yōu),而對于其他數(shù)據(jù)集,無論是結(jié)構(gòu)較為復(fù)雜的Spiral和Circle,還是數(shù)據(jù)量較大、含噪聲程度不同以及類之間高度重疊的S1~S4,IDPCA均獲得良好的聚類效果。

        4.3 真實數(shù)據(jù)集實驗

        4.3.1UCI數(shù)據(jù)集實驗

        為了進(jìn)一步測試IDPCA算法的性能,從UCI數(shù)據(jù)庫[27]中選取8個真實數(shù)據(jù)集(如表3)進(jìn)行實驗,以期獲得具有指導(dǎo)意義的結(jié)果。

        圖5 IDPCA算法的聚類結(jié)果

        圖6 DPC算法的聚類結(jié)果

        表2 5種聚類算法在合成數(shù)據(jù)集上的實驗結(jié)果對比

        表3 UCI真實數(shù)據(jù)集

        表4顯示了IDPCA及其他4種聚類算法對這8個UCI數(shù)據(jù)集進(jìn)行聚類所得的Acc、AMI、ARI指標(biāo)值,其中符號“—”表示無相應(yīng)值,加粗?jǐn)?shù)據(jù)為最優(yōu)聚類結(jié)果。

        觀察表4可以發(fā)現(xiàn),從AMI和ARI指標(biāo)看,DPC僅在Ionosphere數(shù)據(jù)集上獲得了最優(yōu)的聚類結(jié)果,K-means算法在Parkinson數(shù)據(jù)集上獲得了最優(yōu)的AMI結(jié)果,而在其余真實數(shù)據(jù)集上的最優(yōu)值均由IDPCA算法獲得。

        4.3.2人臉數(shù)據(jù)集實驗

        Olivetti人臉數(shù)據(jù)集[8](Olivetti Face Dataset)由40個類組成,每類又包含10幅維數(shù)為92×112的人臉圖,現(xiàn)已成為測試機(jī)器學(xué)習(xí)算法性能的基準(zhǔn)。由于不同類中各圖像維數(shù)及其相似度都很高,一般算法難以獲得理想的聚類效果且計算開銷較高,故本節(jié)選取該數(shù)據(jù)集的前10個類(100幅圖)進(jìn)行實驗。

        使用IDPCA及DPC、DBSCAN、AP、K-means算法對人臉數(shù)據(jù)集聚類的各指標(biāo)結(jié)果見表5。由于DPC在對該數(shù)據(jù)集聚類時,選取10個聚類中心會導(dǎo)致包含多個密度峰值的類被分裂成多類,故DPC對該數(shù)據(jù)集的聚類結(jié)果是在選取9個聚類中心時獲得的。圖7直觀顯示了IDPCA與DPC在該數(shù)據(jù)集上的聚類性能,圖中不同顏色對應(yīng)著不同的類,由紅色框標(biāo)識的為錯分圖,右下角用白色方塊標(biāo)記的圖為算法識別出的聚類中心。

        表4 五種聚類算法在UCI數(shù)據(jù)集上的實驗結(jié)果對比

        表5 人臉數(shù)據(jù)集對比實驗

        圖7 人臉數(shù)據(jù)集聚類對比

        對比圖7(a)和(b)可以發(fā)現(xiàn),IDPCA有效地識別出了該數(shù)據(jù)集中的10類,僅分配錯4幅圖,其主要原因是這些圖距其真實類中的圖較遠(yuǎn),以致它們被分配到真實類的概率值較低,故被歸入到其他類,而DPC表現(xiàn)略差。

        對比表5中各聚類算法對Olivetti人臉數(shù)據(jù)集的聚類指標(biāo)值可知,IDPCA的結(jié)果均優(yōu)于其他對比算法,精度高達(dá)96%,AP表現(xiàn)也很好,精度達(dá)到了92%,其次是DPC算法。

        4.4 算法效率

        算法的執(zhí)行效率通常也是評估其性能的重要指標(biāo),本節(jié)從時間復(fù)雜度方面將IDPCA與DPC、DBSCAN、AP、K-means算法進(jìn)行比較,并將這5種算法對真實數(shù)據(jù)集進(jìn)行聚類所消耗的時間進(jìn)行對比,以驗證其優(yōu)劣性。

        表6 5種聚類算法時間復(fù)雜度對比

        表6顯示了IDPCA及另外4種對比算法的時間復(fù)雜度,由該表可知IDPCA與DPC算法的時間復(fù)雜度相同,均優(yōu)于AP,而劣于DBSCAN和K-means算法。表7為5種聚類算法對真實數(shù)據(jù)集進(jìn)行聚類所耗時間(均不包括計算距離矩陣或相似度矩陣的時間)。

        表7 各聚類算法對真實數(shù)據(jù)集聚類所需時間s

        由表7可知,K-means與DBSCAN算法的運(yùn)行時間最短,驗證了這兩種算法具有快速有效的優(yōu)勢。盡管IDPCA與DPC算法的時間復(fù)雜度相同,但前者的執(zhí)行速率略優(yōu)于后者,而AP的計算開銷均高于其他對比算法。

        通過不同數(shù)據(jù)集的聚類實驗及算法效率對比實驗可知,本文算法IDPCA不僅在聚類精度方面表現(xiàn)較好,其在執(zhí)行效率方面也略顯優(yōu)勢。

        5 結(jié)束語

        面對結(jié)構(gòu)復(fù)雜、維數(shù)較高及含噪聲的數(shù)據(jù)集,DPC算法仍難以給出符合直觀判斷并與真實聚類情況相吻合的結(jié)果,本文將K近鄰與DPC算法思想相結(jié)合,提出了一種改進(jìn)的密度峰值聚類算法。本文算法優(yōu)點是給出了適用于任意數(shù)據(jù)集的局部密度計算方法,以及兩種不同的剩余點分配策略,不僅減少了誤差傳播,而且有效提高了聚類效率。通過合成數(shù)據(jù)集實驗表明IDPCA算法能夠獲得良好的聚類結(jié)果,尤其在處理結(jié)構(gòu)復(fù)雜的Circle、Spiral數(shù)據(jù)集以及含噪聲程度不同的S1~S4數(shù)據(jù)集時,其聚類性能在Acc、AMI及ARI方面明顯優(yōu)于DPC、AP、DBSCAN和K-means算法。IDPCA算法在真實數(shù)據(jù)集上的突出表現(xiàn)及較快的運(yùn)行速率,進(jìn)一步驗證了其可行性和有效性。

        參考文獻(xiàn):

        [1]Berkhin P.A survey of clustering data mining techniques[J].Grouping Multidimensional Data,2006,43(1):25-71.

        [2]Xu R,Wunsch D.Survey of clustering algorithm[J].IEEE Transactions on Neural Networks,2005,16(3):645-678.

        [3]Xu D,Tian Y.A comprehensive survey of clustering algorithm[J].Annals of Data Science,2015,2(2):165-193.

        [4]Jain A K,Murty M N,F(xiàn)lynn P J.Data clustering:A review[J].ACM Computing Surveys,1999,31(3):264-323.

        [5]Anil K.Data clustering:50 years beyondK-means[J].Pattern Recognition Letters,2010,31(8):651-666.

        [6]Frey B J,Dueck D.Clustering by passing messages between data points[J].Science,2007,315:972-976.

        [7]Ester M,Kriegel H,Sander J,et al.A density-based algorithm for discovering clusters in large spatial databases with noise[C]//Proc of the 2nd International Conference on Knowledge Discovery and Data Mining.Menlo Park:AAAI Press,1996:226-231.

        [8]Rodriguez A,Laio A.Clustering by fast search and find of density peaks[J].Science,2014,344:1492-1496.

        [9]Wang S,Wang D,Li C,et al.Comment on“Clustering by fast search and find of density peaks”[J].Computer Science,arXiv:1501.04267v2.

        [10]Zhang W,Li J.Extended fast search clustering algorithm:widely density clusters,no density peaks[J].Computer Science,2015(5):1-17.

        [11]毋雪雁,王水花,張煜東.K最近鄰算法理論與應(yīng)用綜述[J].計算機(jī)工程與應(yīng)用,2017,53(21):1-7.

        [12]周志陽,馮百明,楊朋霖,等.基于Storm的流數(shù)據(jù)KNN分類算法的研究與實現(xiàn)[J].計算機(jī)工程與應(yīng)用,2017,53(19):71-75.

        [13]Qin C,Song S,Huang G,et al.Unsupervised neighborhood component analysis for clustering[J].Neurocomputing,2015,168:609-617.

        [14]Du M,Ding S,Jia H.Study on density peaks clustering based onK-Nearest Neighbors and principal component analysis[J].Knowledge-Based Systems,2016,99:135-145.

        [15]Xie J Y,Gao H C,Xie W X,et al.Robust clustering by detecting density peaks and assigning points based on fuzzy weightedK-Nearest Neighbors[J].Information Science,2016,354:19-40.

        [16]Liu Y,Ma Z,Yu F.Adaptive density peak clustering based onK-Nearest Neighbors with aggregating strategy[J].Knowledge-Based Systems,2017,133:208-220.

        [17]Vinh N,Epps J,Bailey J.Information theoretic measures for clusterings comparison:Is a correction for chance necessary[C]//Proc of the 26th Annual InternationalConferenceonMachineLearning.NewYork:ACM Press,2009:1073-1080.

        [18]Vinh N X,Epps J,Bailey J.Information theoretic measures for clusterings comparison:Variants,properties,normalization and correction for chance[J].Journal of Machine Learning Research,2010,11:2837-2854.

        [19]Jiang Y Z,Deng Z H,Wang J,et al.Transfer generalized Fuzzy C-Means clustering algorithm with improved fuzzy partitions by leveraging knowledge[J].PR&AI,2013,26(10):975-983.

        [20]王健峰,張磊,陳國興,等.基于改進(jìn)的網(wǎng)格搜索法的SVM參數(shù)優(yōu)化[J].應(yīng)用科技,2012(3):28-31.

        [21]董婷,趙儉輝,胡勇.基于時空優(yōu)化深度神經(jīng)網(wǎng)絡(luò)的AQI等級預(yù)測[J].計算機(jī)工程與應(yīng)用,2017,53(21):17-23.

        [22]Chang H,Yeung D Y.Robust path-based spectral clustering[J].Pattern Recognition,2008,41(1):191-203.

        [23]Veenman C,Reinders M,Backer E.A maximum variance cluster algorithm[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2002,24(9):1273-1280.

        [24]Frant P,Virmajoki O,Hautamaki V.Fast agglomerative clustering using aK-Nearest Neighbor graph[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2006,28(11):1875-1881.

        [25]Fr?nti P,Virmajoki O.Iterative shrinking method for clustering problems[J].Pattern Recognition,2006,39(5):761-765.

        [26]Fr?nti P,Virmajoki O,Hautam?ki V.Fast agglomerative clustering using aK-Nearest Neighbor graph[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2006,28(11):1875-1881.

        [27]Bache K,Lichman M.UCI machine learning repository[EB/OL].[2017-11-30].http://archive.ics.uci.edu/ml.

        猜你喜歡
        集上分配聚類
        Cookie-Cutter集上的Gibbs測度
        應(yīng)答器THR和TFFR分配及SIL等級探討
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        遺產(chǎn)的分配
        一種分配十分不均的財富
        績效考核分配的實踐與思考
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        復(fù)扇形指標(biāo)集上的分布混沌
        基于改進(jìn)的遺傳算法的模糊聚類算法
        一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
        亚洲天堂一区二区三区视频| 四月婷婷丁香七月色综合高清国产裸聊在线| 久久精品无码专区东京热| 午夜精品久久久久久中宇| 日本中文字幕不卡在线一区二区| 91麻豆精品一区二区三区| 久久精品国产色蜜蜜麻豆国语版 | 亚洲免费天堂| 一区二区免费国产a在亚洲| 国产精品一区二区三区在线蜜桃| 农村欧美丰满熟妇xxxx| 无码熟妇人妻av在线影片| 在线观看国产精品91| 99久久精品人妻一区二区三区| 亚洲a∨无码精品色午夜| 野花在线无码视频在线播放 | 26uuu欧美日本在线播放| av免费资源在线观看| 娜娜麻豆国产电影| 欧美自拍区| 日韩女同一区在线观看| 情爱偷拍视频一区二区| 午夜福利92国语| 精品综合久久久久久99| 成人男性视频在线观看| 精品国产性色无码av网站| 亚洲欧美国产日韩制服bt| 国产在线拍91揄自揄视精品91| 日韩精品成人区中文字幕| 日出水了特别黄的视频| 中文字幕亚洲无线码在一区| 国产亚洲午夜高清国产拍精品不卡 | 亚洲一本大道无码av天堂| 亚洲欧美香港在线观看三级片| 免费播放成人大片视频| 把女邻居弄到潮喷的性经历| 热久久这里只有| 久久精品国产亚洲av豆腐| 国产成人精品2021| 五月天丁香久久| 亚洲精品中文字幕码专区|