支 元,李 忠
?
基于K近鄰的模糊密度峰值聚類算法研究
支 元,李 忠
(江蘇聯(lián)合職業(yè)技術(shù)學(xué)院常州劉國(guó)鈞分院,江蘇常州 213000)
基于密度的聚類算法(Density Peak Clustering,DPC)廣泛使用在處理非球形數(shù)據(jù)集的聚類問題,算法使用較少的參數(shù)就能夠?qū)崿F(xiàn)數(shù)據(jù)集的處理。但該算法存在這樣一些的不足:首先,全局變量的設(shè)定沒有考慮數(shù)據(jù)的局部結(jié)構(gòu),特別是當(dāng)不同類別的局部密度差別很大的情況下,容易忽略一些密度較小的類別,聚類效果不理想。其次,DPC提出了一種通過決策圖來(lái)人工選取聚類中心點(diǎn)的方法,這也是DPC算法在人工智能數(shù)據(jù)分析的一個(gè)重大缺陷。為此,本文提出了基于K近鄰的模糊密度峰值聚類算法,算法針對(duì)這兩方面的不足進(jìn)行了改進(jìn)。最后本文使用人工數(shù)據(jù)集和UCI數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明本文所提出的算法,在不通過人工選取聚類中心的情況下,能夠正確地找出類別個(gè)數(shù),并且保持著較高的聚類精確度,驗(yàn)證了算法的有效性。
數(shù)據(jù)挖掘,聚類算法,密度峰值,K近鄰
聚類作為一種無(wú)監(jiān)督的學(xué)習(xí)方法,被廣泛應(yīng)用到數(shù)據(jù)挖掘,模式識(shí)別,機(jī)器學(xué)習(xí),圖像處理等領(lǐng)域。其主要目的是將數(shù)據(jù)集中的樣本劃分為若干個(gè)通常是不相交的子集,每個(gè)子集代表一個(gè)類別,同一類別的數(shù)據(jù)點(diǎn)之間具有較高的相似性,不同類的的數(shù)據(jù)點(diǎn)之間相似性較低。目前,很多不同形式的聚類算法被提出,根據(jù)其使用方法的不同,聚類算法可以劃分為如下幾類:劃分聚類算法[1-2]、層次聚類算法[3]、基于密度的聚類算法[4]、基于網(wǎng)格的聚類算法[5]以及基于模型的聚類算法[6]。每種聚類算法都其固有的優(yōu)缺點(diǎn)和適用的數(shù)據(jù)集。
2014年Rodriguez A,Laio A在Science雜志上提出了一種新的聚類算法[7],算法的核心思想在與對(duì)聚類中心的刻畫上。作者認(rèn)為每個(gè)類別的聚類中心應(yīng)該具有兩個(gè)特點(diǎn):聚類中心本身的密度大,且被密度低的數(shù)據(jù)點(diǎn)包圍;聚類中心與其他密度更大的數(shù)據(jù)點(diǎn)之間的距離相對(duì)更大。在這篇文章中我們稱之為DPC(Density Peak Clustering)。在幾個(gè)測(cè)試實(shí)驗(yàn)中,DPC可以較好的發(fā)現(xiàn)聚類中心,并且能夠?qū)⑵溆帱c(diǎn)分配到其對(duì)應(yīng)的類中。但是,DPC同樣有一些不足。首先,對(duì)于截?cái)嗑嚯x選擇的恰當(dāng)與否直接影響到聚類的準(zhǔn)確性,而的設(shè)置容易忽略數(shù)據(jù)的局部結(jié)構(gòu),對(duì)于類別密度差別比較大的聚類問題,容易忽略低密度的類別,效果不理想。其次,對(duì)于聚類中心點(diǎn)的選擇上,DPC算法通過決策圖來(lái)人為的選擇聚類中心點(diǎn),而人工選擇聚類中心也是DPC算法在智能數(shù)據(jù)分析上的一個(gè)缺點(diǎn)。
為了克服這兩方面的不足,我們提出了基于K近鄰的模糊密度峰值聚類算法(KNN-FDPC)算法。首先,將高斯核函數(shù)與K近鄰算法[8]相結(jié)合,對(duì)密度進(jìn)行計(jì)算。其次,我們提出一種自適應(yīng)的方法,先通過限定公式,篩選出滿足條件的數(shù)據(jù)點(diǎn),將其定義為局部聚類中心。在獲得局部聚類中心后,我們將剩余點(diǎn)進(jìn)行歸類,然后再通過合并算法,對(duì)類別進(jìn)行合并,最終得到聚類結(jié)果。整個(gè)算法過程省去人工選擇聚類中心的過程,大大降低了算法的運(yùn)行時(shí)間,并且在人工數(shù)據(jù)集和UCI數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,所提KNN-FDPC算法同樣擁有較高的聚類精確度,從而驗(yàn)證了算法是有效可行的。
不同于其它的密度聚類算法,Rodriguez A,Laio A提出的DPC算法[7]為聚類算法提供了一種新思路,這個(gè)算法將高于附近數(shù)據(jù)點(diǎn)的局部密度,且與更高局部密度的數(shù)據(jù)點(diǎn)距離相對(duì)較遠(yuǎn)的數(shù)據(jù)點(diǎn)定義為聚類中心。算法依據(jù)這兩個(gè)特點(diǎn),對(duì)數(shù)據(jù)集中的每一個(gè)數(shù)據(jù)點(diǎn)為其定義局部密度和所有局部密度大于的數(shù)據(jù)點(diǎn)中,與距離最小的數(shù)據(jù)點(diǎn)與之間距離。
(2)
(3)
DPC算法的具體流程如下:
方法:
1:計(jì)算距離矩陣;
4:生成決策圖,人工選擇聚類中心;
5:對(duì)非聚類中心的數(shù)據(jù)點(diǎn)進(jìn)行歸類;
6:輸出每個(gè)樣本的類別標(biāo)簽y;
K近鄰算法[8]是一種常用的監(jiān)督學(xué)習(xí)方法,最早被用在分類算法中,KNN算法通過待分類樣本點(diǎn)距離的多數(shù)投票結(jié)果進(jìn)行分類。這種方法已經(jīng)在分類、聚類和其它的領(lǐng)域展現(xiàn)出很強(qiáng)的技巧性,該算法的主要目的是:找出每個(gè)數(shù)據(jù)點(diǎn)距離最近的K個(gè)數(shù)據(jù)點(diǎn)。
假設(shè)我們從一個(gè)m維空間中獲得一個(gè)由個(gè)數(shù)據(jù)點(diǎn)組成的數(shù)據(jù)集。我們使用歐式距離來(lái)計(jì)算點(diǎn)與點(diǎn)之間的距離,要想得到距離點(diǎn)最近的K個(gè)點(diǎn),我們需要計(jì)算除數(shù)據(jù)點(diǎn)之外的所有數(shù)據(jù)點(diǎn)到的距離,選取距離最近的K個(gè)數(shù)據(jù)點(diǎn),作為的K近鄰數(shù)據(jù)點(diǎn)。
3.1 局部密度計(jì)算
針對(duì)DPC算法中的一些不足之處,我們提出了相應(yīng)的解決辦法。首先,在DPC算法中,對(duì)于截?cái)嗑嚯x選擇的恰當(dāng)與否直接影響到聚類的準(zhǔn)確性,并且的設(shè)置具有全局性,數(shù)據(jù)的局部結(jié)構(gòu)容易被忽略,對(duì)于局部差別比較大的聚類問題,效果不理想。在我們的工作中,我們使用核函數(shù)的方法來(lái)定義局部密度,并將KNN的思想運(yùn)用到局部密度計(jì)算中,這在一定程度上體現(xiàn)了數(shù)據(jù)集的局部結(jié)構(gòu)。
3.2 局部聚類中心獲取與類別合并
為了克服DPC算法通過決策圖人工選擇聚類中心的局限性,本文中我們提出了一種方法,使得在沒有人為干涉的情況下能夠正確地獲得聚類結(jié)果。我們先通過限定公式,獲得滿足條件的數(shù)據(jù)點(diǎn),并將數(shù)據(jù)點(diǎn)定義為局部聚類中心,然后將剩余數(shù)據(jù)點(diǎn)進(jìn)行分配得到局部聚類結(jié)束,最后通過提出的合并算法,對(duì)滿足合并條件的類進(jìn)行合并,得到全局聚類結(jié)果。
根據(jù)DPC提出的聚類中心兩個(gè)特點(diǎn):擁有高于附近點(diǎn)的局部密度,且與更高局部密度的點(diǎn)距離相對(duì)較遠(yuǎn)。我們?cè)O(shè)置限定公式,對(duì)聚類中心進(jìn)行初步的選取。通過公式(5)(6),分別計(jì)算所有數(shù)據(jù)點(diǎn)局部密度的平均值和距離的標(biāo)準(zhǔn)方差。如果一個(gè)數(shù)據(jù)點(diǎn)的距離滿足且局部密度滿足則認(rèn)為數(shù)據(jù)點(diǎn)為局部聚類中心。
(6)
通過約束條件獲得的局部聚類中心同時(shí)擁有相對(duì)較大的局部密度和距離。在得到局部聚類中心后,我們使用DPC算法提出的歸類方法,對(duì)其余點(diǎn)進(jìn)行歸類:對(duì)于所有數(shù)據(jù)點(diǎn)按局部密度大小降序排列,從局部密度大的數(shù)據(jù)點(diǎn)開始?xì)w類,如果一個(gè)數(shù)據(jù)點(diǎn)不是局部聚類中心,則該數(shù)據(jù)點(diǎn)的類別與比其局部密度高的所有數(shù)據(jù)點(diǎn)中距離最近的數(shù)據(jù)點(diǎn)類別相同。我們將對(duì)剩余點(diǎn)歸類后的聚類結(jié)果,稱為局部聚類。為了將滿足合并條件的類進(jìn)行合并,從而得到最終的全局聚類,我們?cè)诓辉黾悠渌兞康那闆r下提出了一個(gè)合并算法。
當(dāng)一個(gè)類別中存在一個(gè)數(shù)據(jù)點(diǎn),這個(gè)數(shù)據(jù)點(diǎn)K近鄰的點(diǎn)中存在不屬于該類別的點(diǎn),則認(rèn)為這樣的數(shù)據(jù)點(diǎn)為邊界點(diǎn)。
搜索每一個(gè)類別的邊界點(diǎn)的K個(gè)近鄰點(diǎn),計(jì)算邊界點(diǎn)與不同類點(diǎn)的平均局部密度,取所有平均局部密度的最大值,作為該類別到另外一點(diǎn)所在類別的邊界密度。我們用表示類別A到類別B的邊界密度,如果兩個(gè)類相互間的邊界密度與相同,則將兩個(gè)類合并為一個(gè)類。
合并的過程我們采用一種策略:對(duì)于滿足合并條件的類別,由密度小的局部聚類中心所在類別向密度大的局部聚類中心所在類別合并,合并的過程中,不斷更新類與類的邊界密度,通過這種合并策略,最終的合并結(jié)果會(huì)得到準(zhǔn)確地得到全局聚類結(jié)果。
KNN-FDPC算法的具體流程如下:
輸入:數(shù)據(jù)集X,k近鄰參數(shù)K
1:計(jì)算距離矩陣;
3:自動(dòng)獲得滿足限定公式的聚類中心;
4:將其余點(diǎn)分配到相應(yīng)類別中;
5:計(jì)算類與類邊界密度,并將局部聚類中心點(diǎn)按局部密度從小到大排序;
6:選取局部密度最小的局部中心所在類別,按局部密度從小到大的順序,依次與其它類別進(jìn)行邊界密度比較:若滿足合并條件,將局部密度小的局部聚類中心所在的類合并到密度大的局部聚類中心所在的類中。將局部密度最小的局部聚類中心刪除。跳到步驟5;否則,結(jié)束算法;輸出:每個(gè)樣本的類別標(biāo)簽y。
本文使用聚類精確率[9]:
來(lái)評(píng)估算法對(duì)人工數(shù)據(jù)集和UCI數(shù)據(jù)集的聚類效果。
4.1 人工數(shù)據(jù)集實(shí)驗(yàn)
4.1.1 人工數(shù)據(jù)集
使用二維人工數(shù)據(jù)集來(lái)測(cè)試我們實(shí)驗(yàn)的性能,二維人工數(shù)據(jù)集的可視化,可以直觀的看出我們所提算法的性能。在人工數(shù)據(jù)集實(shí)驗(yàn)部分,我們使用了4個(gè)常用的人工數(shù)據(jù)集,分別是:Spiral[10]、Flame[11]、Aggregation[12]、S1[13]。這4個(gè)數(shù)據(jù)集是測(cè)試聚類算法性能的常用數(shù)據(jù)集。數(shù)據(jù)集的大小,屬性的個(gè)數(shù),類的個(gè)數(shù),如表1所示。
表1 人工數(shù)據(jù)集描述
Tab.1 Description of synthetic data set
4.1.2 人工數(shù)據(jù)集聚類結(jié)果及評(píng)價(jià)
首先使用Flame數(shù)據(jù)集,來(lái)簡(jiǎn)單、明確地說明整個(gè)KNN-FDPC算法的聚類過程,其次使用KNN- FDPC,DPC[7],AP[14],DBSCAN[4],K-means[1]算法對(duì)上述4個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)對(duì)比,其中由于K- means算法的精確度的高低對(duì)初始中心點(diǎn)的選取有關(guān),因此我們選取20次運(yùn)行結(jié)果的平均值作為最終的聚類精確度,對(duì)于K-means,DPC,AP與DBSCAN算法,我們都使用作者提供的原始代碼進(jìn)行實(shí)驗(yàn),在參數(shù)的選擇方面,我們都使用最優(yōu)參數(shù),以獲得最優(yōu)的聚類精確度。5種算法的對(duì)不同數(shù)據(jù)集的聚類精確度對(duì)比如表5所示,S1數(shù)據(jù)集聚類結(jié)果如圖3所示。
我們先利用Flame數(shù)據(jù)集來(lái)詳細(xì)說明我們所提算法的整個(gè)聚類過程。Flame數(shù)據(jù)集如圖1(a)所示,我們?cè)O(shè)置參數(shù)K=9,生成的決策圖如圖1(b)所示。從數(shù)據(jù)集中第一個(gè)數(shù)據(jù)點(diǎn)開始,尋找滿足限制條件的數(shù)據(jù)點(diǎn),并依次定義為:類別1,類別2,類別3……。所有數(shù)據(jù)點(diǎn)中,滿足局部聚類中心限制條件的數(shù)據(jù)點(diǎn)個(gè)數(shù)為4,如圖1(c)所示,不同的顏色對(duì)應(yīng)不同的類別。將這4個(gè)點(diǎn)定義為局部聚類中心,4個(gè)局部聚類中心的局部密度從小到大排序依次為:類別2,類別3,類別1,類別4。在找到聚類中心后,我們將剩余數(shù)據(jù)點(diǎn)進(jìn)行歸類,局部聚類結(jié)果如圖1(d)所示。
由合并算法,我們先計(jì)算出4個(gè)類相互間的邊界密度,如表2所示。其中第a行,第b個(gè)數(shù)據(jù)代表從類別a到類別b的邊界密度,用表示。我們先選取類別2依次與類別3,類別1,類別4進(jìn)行邊界密度的比較,如表2所示,類別2與類別3滿足合并條件=,所以我們將類別為2的所有數(shù)據(jù)點(diǎn)合并到類別3中,如圖1(e)所示,然后刪除局部聚類中心2,并更新表2為表3。合并后剩余三個(gè)局部聚類中心,如圖1(f)所示。3個(gè)局部聚類中心的局部密度從小到大排序依次為:類別3,類別1,類別4。同樣的方法,我們先選取類別3依次與類別1,類別4進(jìn)行邊界密度的比較,如表3所示,類別3與類別1滿足合并條件=,所以我們將類別為3的所有數(shù)據(jù)點(diǎn)合并到類別1中去,如圖1(g)所示,然后刪除局部聚類中心3,并更新表3為表4。合并后剩余三個(gè)聚類中心如圖1(h)所示。2個(gè)局部聚類中心的局部密度從小到大排序依次為:類別1,類別4。比較類別1與類別4的邊界密度,因?yàn)轭悇e,所以終止合并過程。所以最終獲得的全局聚類結(jié)果如圖1(g)所示。
圖1 Flame數(shù)據(jù)集聚類過程。(a) Flame數(shù)據(jù)集。(b) KNN-FDPC算法生成決策圖。(c) KNN-FDPC算法獲得的局部聚類中心。(d)局部聚類結(jié)果(e)類別2合并到類別3后的聚類結(jié)果(f)類別2合并到類別3后的決策圖及局部聚類中心。(g)類別3合并到類別1后的聚類結(jié)果(h)類別3合并到類別1后的決策圖及局部聚類中心。
表2 4個(gè)類別相互間的邊界密度
Tab.2 Mutual boundary density of four categories
表3 2合并到類別3后的邊界密度
Tab.3 Mutual boundary density of three categories
表4 3和并到類別1后的邊界密度
Tab.4 Mutual boundary density of two categories
Aggregation數(shù)據(jù)集包含了7個(gè)不易察覺的類,圖2(a)中彩色點(diǎn)表示滿足約束條件的13個(gè)局部聚類中心。圖2(b)表示剩余數(shù)據(jù)點(diǎn)歸類后的,未合并的KNN-FDPC算法的局部聚類結(jié)果。圖2(c)表示KNN-FDPC算法最終的全局聚類結(jié)果。圖2(d)表示合并后剩余的局部聚類中心,也是最終的聚類中心。合并后局部聚類中心從13個(gè)減少到7個(gè),恰好對(duì)應(yīng)Aggregation數(shù)據(jù)集中的7個(gè)類。結(jié)果顯示,KNN-FDPC數(shù)據(jù)集準(zhǔn)確的將Aggregation數(shù)據(jù)集分為了7個(gè)類。
圖2 Aggregation數(shù)據(jù)集聚類合并過程。(a) KNN-FDPC算法獲得的局部聚類中心。(b)未合并的KNN-FDPC算法聚類結(jié)果。(c) KNN-FDPC算法聚類結(jié)果。(d)合并后剩余的局部聚類中心。
表5 人工數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
Tab.5 Experimental results of synthetic data set
圖3 S1數(shù)據(jù)集聚類結(jié)果
分析實(shí)驗(yàn)結(jié)果,與K-means算法不同,KNN- FDPC,DPC和DBSCAN算法對(duì)各種復(fù)雜形狀的數(shù)據(jù)集有著較好的聚類效果,而K-means算法只能對(duì)球狀分布的數(shù)據(jù)進(jìn)行聚類所以聚類的精確度都相對(duì)較低。與DPC算法相比較,雖然KNN-FDPC是一種自適應(yīng)獲取局部聚類中心,并通過合并算法將局部聚類合并為全局聚類,省去了手動(dòng)選取聚類中心的步驟,但是KNN-FDPC算法同樣能夠準(zhǔn)確的確定聚類中心,確保聚類結(jié)果擁有相仿的精確度。
4.2 UCI數(shù)據(jù)集實(shí)驗(yàn)
4.2.1 UCI數(shù)據(jù)集
為了驗(yàn)證算法在真實(shí)世界數(shù)據(jù)集的有效性,我們?cè)赨CI公共數(shù)據(jù)集上取出3個(gè)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。
從UCI中取出的數(shù)據(jù)集分別為Iris、Seeds和Wine,其中數(shù)據(jù)集Iris的屬性總數(shù)為4,有3個(gè)類別,各類別的樣本數(shù)為50:50:50;數(shù)據(jù)集Seeds屬性總數(shù)為7,有3個(gè)類別,各類別的樣本數(shù)為70:70: 70;數(shù)據(jù)集Wine屬性總數(shù)為13個(gè),有三個(gè)類別,各類別的樣本數(shù)為59:70:47。
表6 UCI數(shù)據(jù)集描述
在實(shí)驗(yàn)之前,我們使用min-max規(guī)則化,對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行一次預(yù)處理,公式如下:
4.2.2 UCI數(shù)據(jù)集聚類結(jié)果及評(píng)價(jià)
如表7所示,KNN-FDPC算法可以自動(dòng)獲得了每個(gè)數(shù)據(jù)集的聚類中心,而不需要手動(dòng)地通過決策圖來(lái)選擇聚類中心。這是KNN-FDPC算法的最明顯的優(yōu)勢(shì)。在精確率方面,KNN-FDPC算法相比較DPC算法,有相似或更好的精確率,說明KNN-FDP算法,在省去人工選擇聚類中心的步驟的同時(shí),同樣可以保持著較高的精確率。
表7 UCI數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
Tab.7 Experimental results of UCI data set
本文設(shè)計(jì)了一種基于K近鄰的模糊密度峰值聚類算法。算法將高斯核函數(shù)與K近鄰算法相結(jié)合,對(duì)局部密度進(jìn)行計(jì)算,可以有效的克服截取距離對(duì)密度影響的問題。其次,采用自適應(yīng)的方法,對(duì)聚類中心進(jìn)行初步選取,獲得局部聚類中心,并將剩余非局部聚類中心數(shù)據(jù)點(diǎn)歸類后,使用提出的合并算法對(duì)類別進(jìn)行合并,獲得準(zhǔn)確的聚類結(jié)果。相較于DPC算法,所提算法在不添加任何參數(shù)的情況下,能夠自動(dòng)地發(fā)現(xiàn)聚類中心,并且很好的解決了由于截取距離設(shè)置的全局性,使得數(shù)據(jù)的局部結(jié)構(gòu)被忽略的問題。KNN-FDPC算法在幾個(gè)人工數(shù)據(jù)集和UCI數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)過程中KNN- FDPC算法準(zhǔn)確的尋找到了聚類中心,并取得了很好的聚類精確度。但是,本文的研究工作還有待進(jìn)一步深入和發(fā)展,比如如何對(duì)高維數(shù)據(jù)進(jìn)行更穩(wěn)定的合并。
[1] 基于機(jī)器視覺的動(dòng)態(tài)多點(diǎn)手勢(shì)識(shí)別方法[J]. 李文生, 解梅, 鄧春健. 計(jì)算機(jī)工程與設(shè)計(jì). 2012(05).
[2] 賈俊芳, 王秀義, 鄭建新. 基于模糊集的興趣發(fā)現(xiàn)新方法[J]. 軟件, 2016, 37(3): 04-08.
[3] LI Yugang. Research on The Generation of Current in A Test Basin for Deepwater Engineering[J]. The Journal of New Industrialization, 2014, 4(8): 9-14.
[4] 孟晨宇, 史淵, 王佳偉, 等. Windows內(nèi)核級(jí)防護(hù)系統(tǒng)[J]. 軟件, 2016, 37(3): 16-20
[5] 基于向量?jī)?nèi)積不等式的分布式k均值聚類算法[J]. 倪巍偉, 陸介平, 孫志揮. 計(jì)算機(jī)研究與發(fā)展. 2005(09).
[6] 基于MapReduce的分布式近鄰傳播聚類算法[J]. 魯偉明, 杜晨陽(yáng), 魏寶剛, 沈春輝, 葉振超. 計(jì)算機(jī)研究與發(fā)展. 2012(08).
[7] ZHANG Chong, WANG Yankai. Orbit and Attitude Coupled Collaborative Control for Spacecraft Formation[J]. The Journal of New Industrialization, 2014, 4(8): 30-36.
[8] 基于K-means聚類的數(shù)字半色調(diào)算法[J]. 何自芬, 詹肇麟, 張印輝. 計(jì)算機(jī)應(yīng)用研究. 2013(01).
[9] Ding S F, Jia H J, Shi Z Z. Spectral clustering algorithm based on adaptive Nystr?m sampling for big data analysis[J]. J Softw, 2014, 25(9): 2037-2049.
[10] Chang H, Yeung D Y. Robust path-based spectral clustering[J]. Pattern Recognition, 2008, 41(1): 191-203.
[11] 鄰域形態(tài)空間與檢測(cè)算法[J]. 張鳳斌, 席亮, 王大偉, 岳新. 控制與決策. 2011(10).
[12] WU Jin, SHANG Xiao, ZHANG Jinhuan. Design of GSM module in Target positioning monitor[J]. The Journal of New Industrialization, 2014, 4(8): 37-43.
[13] 夏新凱, 陳冬火. 基于KeY 的程序分析和驗(yàn)證[J]. 軟件, 2016, 37(3): 74-78
[14] Frey B J, Dueck D. Clustering by passing messages between data points[J]. science, 2007, 315(5814): 972-976.
Fuzzy Density Peaks Clustering Algorithm Based on K-nearest Neighbors
ZHI Yuan, LI Zhong
(Jiangsu Union Technical Institute Changzhou Liu Guojun Branch, Changzhou 213000, China)
A novel clustering algorithm based on density (DPC) has been proposed recently, this algorithm can deal with non-spherical cluster and does not require too many parameters. But the algorithm has some defects. First the local structure of data has not been taken into account when it calculates the local density. It does not perform well when clusters have different densities. Secondly, this algorithm utilizes decision graph to manually select cluster centers. Manual selection of cluster centers is a big limitation of DPC in intelligent data analysis. In this paper, we propose an improved method. It has been improved for the deficiencies in these two aspects. We use synthetic data set and UCI data set to make the experiments. Experimental results show that our algorithms can correctly identify the number of categories without manually selecting cluster center and maintain a high clustering accuracy, which verifies that the proposed algorithm are effective and feasible.
Data mining; Clustering; Density peaks; K nearest neighbor
TP301.6
A
10.3969/j.issn.1003-6970.2017.04.015
2016年度江蘇省教育科學(xué)“十三五”重點(diǎn)資助規(guī)劃課題(項(xiàng)目編號(hào):B-a/2016/03/06)
支元(1982-),男,講師,主要研究方向:數(shù)據(jù)挖掘、智能控制。
支元,江蘇省常州市戚墅堰富民路296號(hào)信息(物聯(lián)網(wǎng))工程系。
本文著錄格式:支元,李忠. 基于K近鄰的模糊密度峰值聚類算法研究[J]. 軟件,2017,38(4):85-90