吳 斌,盧紅麗,江惠君
(南京工業(yè)大學(xué)工業(yè)工程系,南京 211816)
(?通信作者電子郵箱wubin@njtech.edu.cn)
2014 年6 月,《Science》發(fā)表了一種新型聚類算法——密度峰值聚類(Density Peaks Clustering,DPC)算法[1],它不需預(yù)先確定簇的數(shù)量,就能夠發(fā)現(xiàn)并處理任何形狀的數(shù)據(jù)集。DPC 通過決策圖人工選取聚類中心點,然后將剩余數(shù)據(jù)點分配給與它們距離較近且密度更大的數(shù)據(jù)點所在的類簇。DPC具有簡單高效、調(diào)節(jié)參數(shù)少、樣本點一次分配歸類、能發(fā)現(xiàn)各種形狀的簇等優(yōu)勢。基于上述優(yōu)勢,DPC 算法已經(jīng)在多個領(lǐng)域得到成功應(yīng)用,如:圖像分割、優(yōu)化算法、文本發(fā)現(xiàn)、社交網(wǎng)絡(luò)等[2]。但DPC 算法還存在某些缺點:截斷距離dc仍依靠人工經(jīng)驗選取,聚類中心需要人工抉擇,在實際應(yīng)用中聚類效果差等。
自Rodriguez 等[1]提出DPC 算法以來,在學(xué)術(shù)界引起廣泛關(guān)注,學(xué)者們對DPC 算法進行深入研究,研究內(nèi)容主要集中在以下方面:
1)局部密度和相對距離的定義。
謝娟英等[3]采用寬度δ=1 指數(shù)核函數(shù),結(jié)合K近鄰信息重新定義局部密度,使其更能反映樣本的局部分布信息。Seyedi等[4]利用K近鄰思想計算局部密度,并使用基于圖的標簽傳遞策略來分配剩余點的類簇,有效處理位于邊界和重疊區(qū)域的樣本點。Liu 等[5]將共享近鄰(Shared Nearest Neighbor,SNN)思想引入DPC中計算局部密度和相對距離。
2)截斷距離的調(diào)整。
Liu 等[6]引入K近鄰思想計算截斷距離。Wang 等[7]基于數(shù)據(jù)場理論和信息熵理論,提出了一種提取最優(yōu)截斷距離的新方法,計算原始數(shù)據(jù)集在數(shù)據(jù)場中的勢能熵,以獲得最優(yōu)的截斷距離值。
3)聚類中心的獲取方法。
Xu 等[8]運用線性回歸方法擬合γ值,找到潛在聚類中心點,并分析γ曲線獲取階梯來構(gòu)造leading tree,再進一步獲取不同層次的聚類,同時基于前導(dǎo)樹構(gòu)建集群層次結(jié)構(gòu),設(shè)計網(wǎng)格粒度框架使其適用于大規(guī)模和高維數(shù)據(jù)集。Ding 等[9]提出一種簡單的獲取聚類中心策略(γ-graph)。Yan 等[10]為了從決策圖中識別聚類中心,提出一種統(tǒng)計異常檢測方法,同時可以確定聚類中心的數(shù)量。馬春來等[11]通過排序后的簇中心權(quán)值(γ)下降趨勢(斜率)找出“拐點”所在位置,“拐點”之前即為聚類中心點。
4)制定新的分配規(guī)則。
薛小娜等[12]采用新的評價指標獲取聚類中心后,結(jié)合K近鄰與迭代思想,對樣本點實現(xiàn)局部聚類,多類合并完成最終的聚類工作。Liu 等[5]提出兩步分配方法:①通過共享近鄰識別分配屬于一個集群的點;②查找更多鄰居所屬集群分配剩余點。謝娟英等[3]提出兩種基于K鄰近的樣本分配策略,策略1 針對非離群點,策略2 針對離群點和策略1 之后還未分配的非離群點。
5)改進距離矩陣。
Zhang 等[13]結(jié)合局部敏感哈希算法與MapReduce 模型,改進DPC 算法中的距離矩陣計算方法,相較于歐氏距離,降低了計算代價。
綜上所述,現(xiàn)有的改進方法中,參數(shù)及聚類中心需要人工設(shè)定與選擇,缺乏自適應(yīng)調(diào)節(jié)能力,算法缺乏魯棒性。因此,本文提出了一種自適應(yīng)DPC(Adaptive DPC,ADPC)算法,實現(xiàn)了基于基尼系數(shù)的自適應(yīng)截斷距離調(diào)節(jié),并設(shè)計一種自動獲取聚類中心點的策略。
密度峰值聚類算法核心思想如下:1)聚類中心的密度高于其鄰近的樣本點密度;2)聚類中心與比其密度高的數(shù)據(jù)點的距離相對較遠[1]。數(shù)據(jù)集的聚類中心同時擁有較大局部密度和較大相對距離,周圍都是比其局部密度低的點,并且周圍這些點距離其他高密度點相對較遠。ρi表示數(shù)據(jù)集中與數(shù)據(jù)點xi之間的距離小于dc的數(shù)據(jù)點總個數(shù),ρi的值越大,表示與數(shù)據(jù)點xi之間的距離小于截斷距離dc的點數(shù)量越多。當數(shù)據(jù)點xi取最大局部密度(max{ρ})時,相對距離δi表示數(shù)據(jù)集中與xi距離最大的數(shù)據(jù)點與xi點之間的距離,否則表示與xi距離最小的那個數(shù)據(jù)點與xi之間的距離。
定義1局部密度ρi[1]。
局部密度有兩種計算方式:截斷核為離散值的計算方式,高斯核為連續(xù)值的計算方式。
截斷核為:
函數(shù)χ(x)定義為:
式中:ρi為第i個數(shù)據(jù)點對應(yīng)的局部密度;,dij為數(shù)據(jù)點xi和xj之間的歐氏距離;dc為截斷距離;i和j分別為第i個數(shù)據(jù)點、第j個數(shù)據(jù)點,取值范圍從1到數(shù)據(jù)樣本點總個數(shù)n。
高斯核為:
定義2相對距離。
式中:S代表數(shù)據(jù)集S={x1,x2,…,xn},n為數(shù)據(jù)集樣本數(shù),xi為密度峰值點;指標集,當ρi={ρj}時,有=?。
DPC 算法具體步驟如圖1 所示。首先,對樣本集數(shù)據(jù)初始化及預(yù)處理,確定截斷距離;其次,再計算各數(shù)據(jù)點的局部密度ρi和相對距離δi;利用繪制的決策圖(以局部密度為橫坐標,以相對距離為縱坐標)選出ρi和δi較大的點作為聚類中心;然后,對非聚類中心點按照分配策略歸類;最后將每個簇中的數(shù)據(jù)點進一步分為核心點(cluster core)和邊緣點(cluster halo)兩個部分,并檢測噪聲點。其中,核心點是類簇核心部分,其ρ值較大;邊緣點位于類簇的邊界區(qū)域且ρ值較小,兩者的區(qū)分界定則是借助于邊界區(qū)域的平均局部密度。
圖1 DPC算法流程Fig.1 Flowchart of DPC algorithm
標準DPC 算法依靠人工確定截斷距離和聚類中心點,導(dǎo)致了算法的不確定性,同時降低了魯棒性。針對上述情況,ADPC 算法實現(xiàn)截斷距離的自適應(yīng)調(diào)整的目的,并且自動選擇聚類中心以實現(xiàn)數(shù)據(jù)集整個過程的自動聚類。該算法綜合考慮局部密度值和相對距離值,自動選擇出具有較大局部密度和距離的數(shù)據(jù)點作為聚類中心點。
文獻[1]中給出了一個綜合考慮ρi值和δi值的計算量γi(式(5)),主要用于無法直接根據(jù)決策圖判斷聚類中心點的情況。從式(5)可知,聚類中心點的γ值往往比較大,γ值越大的點有越大概率選為聚類中心。
式中:γi(i∈)代表第i個數(shù)據(jù)點的簇中心權(quán)值,數(shù)值越大越有可能被選為聚類中心點。因此,對γi降序排列后,從最前面截取若干個數(shù)據(jù)點作為聚類中心。
在此基礎(chǔ)上,本文對γ重新定義,如式(6)所示。算法首先對局部密度和相對距離進行歸一化處理,然后根據(jù)式(6)計算出各數(shù)據(jù)點的γi,并將它們按降序排列,聚類中心點往往是在γi值較大的點中獲得。
式中:i,j∈。
在標準DPC 算法中,截斷距離dc依靠經(jīng)驗選取,Rodriguez 等[1]給出選擇dc方法,使各樣本點平均鄰居數(shù)約占數(shù)據(jù)集樣本點總數(shù)的1%~2%,這一取值應(yīng)用于不同規(guī)模的數(shù)據(jù)集中,導(dǎo)致在實際應(yīng)用中魯棒性差。截斷距離不僅影響人工選擇聚類中心點,還影響聚類分配中的邊界區(qū)域劃分,進而影響最終的聚類結(jié)果,因此需要一種方法來規(guī)避這種影響?;嵯禂?shù)可做特征選擇,而且可以用來表征數(shù)據(jù)不純度,如式(7)所示。將基尼系數(shù)的定義引申到自適應(yīng)DPC 算法中,用基尼系數(shù)度量數(shù)據(jù)不純度,即基尼系數(shù)G越小,數(shù)據(jù)不純度較小,數(shù)據(jù)分布的不確定性也越小,越容易聚類。自適應(yīng)DPC算法中,提出了一種基于基尼系數(shù)最小化的自適應(yīng)方法,結(jié)合式(6)和式(7),給出截斷距離dc和基尼系數(shù)G的關(guān)系式(8),以此實現(xiàn)自適應(yīng)截斷距離。
式中:Gini(D)代表基尼系數(shù)值,表征數(shù)據(jù)域中數(shù)據(jù)的不純度;D表示數(shù)據(jù)集全部樣本;pi表示每種類別出現(xiàn)的概率。
式中:G代表數(shù)據(jù)集的基尼系數(shù)值大??;Z=(高斯核),Z代表數(shù)據(jù)集總的簇中心權(quán)值大??;γi代表第i個數(shù)據(jù)點的簇中心權(quán)值。
截斷距離dc在不斷的變化中,尋找使基尼系數(shù)G取得最小值時所對應(yīng)的dc,并且將優(yōu)化后的截斷距離作為下一步聚類的基礎(chǔ),代替人工選取截斷距離,規(guī)避人工選取的主觀性,從而達到自適應(yīng)dc的目的。
運用式(9)所示的最大最小方法,對ρi和δi進行數(shù)據(jù)歸一化處理。歸一化處理后的數(shù)據(jù),可以消除ρi和δi量綱的不同而對實驗結(jié)果產(chǎn)生的影響,歸一化之后兩者的數(shù)值均映射到區(qū)間[0,1]。
式中:x*代表歸一化處理后得到的映射數(shù)值;x代表ρi、δi的取值;xmin表示數(shù)據(jù)(ρi或δi)的最小值;xmax表示數(shù)據(jù)(ρi或δi)的最大值。
自動獲取聚類中心主要步驟如算法1 所示,對于人工數(shù)據(jù)集,γ分布滿足冪次定律,即對γ取log函數(shù),log(γ)近似呈直線形式[1]。根據(jù)自適應(yīng)優(yōu)化后的截斷距離計算ρi和δi,對γi取log 函數(shù)后降序排列,然后取較大的前m個值繪制決策圖。對這m個值相鄰兩數(shù)之間取差值,尋找差值變化最大的值,在這之前的所有數(shù)據(jù)點記為初始聚類中心點??紤]到γi差值突變不太明顯的數(shù)據(jù)集,在獲取初始聚類中心點后,對獲取的點進行自動修正。對于UCI 數(shù)據(jù)集,在取log(γ)后,對前m個值降序排列后的數(shù)值進行函數(shù)擬合。在擬合函數(shù)水平線之上的點確定為潛在的聚類中心點。該方法可以盡可能地獲取多數(shù)潛在聚類中心,防止后續(xù)操作時遺漏可能的正確聚類中心點。最終還需要從潛在聚類中心點中準確篩選出實際的聚類中心,進而真正地自動選取聚類中心。
算法1 自動獲取聚類中心。
如圖2(b)所示,從聚類中心到非聚類中心有一個明顯陡峭的下降趨勢,即非聚類中心到聚類中心的轉(zhuǎn)變過程中,有一個跳躍階段,自動獲取聚類中心就是利用這一思想獲取的,可知γ值較大的點為實際聚類中心點??紤]到有些數(shù)據(jù)集γi相鄰兩數(shù)差值變化不太明顯(如圖2(c)),可能導(dǎo)致遺漏聚類中心點。因此對于初步獲取的聚類中心點,如果之后的簇中心權(quán)值出現(xiàn)差值大于之前聚類中心點的平均差值變化,則將該點之前的所有點作為新的聚類中心點,即獲取過程中加上自動修正。
自適應(yīng)DPC 算法的主要步驟如算法2 所示。首先,計算數(shù)據(jù)集的距離矩陣,運用自適應(yīng)截斷距離方法獲取dc值;再根據(jù)優(yōu)化后的dc值計算局部密度ρi和相對距離δi,并對其進行歸一化處理,同時計算γ值;然后,依據(jù)提出的自動獲取聚類中心策略,自動選出局部密度和相對距離較高的點作為聚類中心點;最后,對非聚類中心點按照DPC分配策略聚類。
算法2 自適應(yīng)DPC算法。
圖2 R15、Path-based數(shù)據(jù)集決策圖和γ排序圖Fig.2 Decision graphs and γ sort graphs of R15 and Path-based datasets
自適應(yīng)DPC 算法采用Matlab R2015b 編程實現(xiàn),運行在Windows 7 操作系統(tǒng),4 GB 內(nèi)存,Intel Core i7-4558U CPU @2.80 GHz 的計算機平臺。測試數(shù)據(jù)集選用人工數(shù)據(jù)集和實際問題的UCI(University of California Irvine)數(shù)據(jù)集[14],將實驗結(jié)果與幾種常見的聚類算法進行對比分析,這些算法分別是:基于密度的噪聲應(yīng)用空間聚類(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)、對點排序來確定聚類結(jié)構(gòu)(Ordering Points To Identify the Clustering Structure,OPTICS)、近鄰傳播(Affinity Propagation,AP)、K-均值算法(K-means algorithm,K-means)。評價指標選擇調(diào)整互信息(Adjusted Mutual Information,AMI)、調(diào)整蘭德系數(shù)(Adjusted Rand Index,ARI)[15]、FM 指數(shù)(Fowlkes-Mallows Index,F(xiàn)MI)[16]。三者的取值范圍分別為:AMI∈[0,1],ARI∈[ -1,1],F(xiàn)MI∈[0,1]。三種評價指標的最大值都是1,并且其數(shù)值越大代表聚類效果越好。實驗中用到的數(shù)據(jù)集相關(guān)信息如表1和表2所示。
首先對自適應(yīng)DPC 算法進行分析。以Flame 數(shù)據(jù)集為例,分析自適應(yīng)截斷距離和自動分配聚類中心對算法性能的影響,結(jié)果如圖3 所示,橫坐標是百分比,使得選取的截斷距離滿足各近鄰點的平均數(shù)占數(shù)據(jù)集總數(shù)的1%~10%,縱坐標是基尼系數(shù)值G,根據(jù)式(8)計算。基尼系數(shù)值G隨著dc的變化而變化,G取最小值時,數(shù)據(jù)不純度較小,數(shù)據(jù)分布的不確定性也越小,越容易聚類。通過對大量dc-基尼函數(shù)曲線分析,G取最小值時,滿足截斷距離條件的百分比在1%~6%,因此截斷距離選取樣本點的1%~6%。對于截斷距離的選取,既縮小了選擇范圍、縮短了計算時間,又對其有相關(guān)的自動優(yōu)化操作,目的是找到使基尼系數(shù)G達到最小值的dc,并將它作為最優(yōu)的截斷距離值,然后進行下一步的聚類,最終實現(xiàn)截斷距離的自適應(yīng)操作。
表1 人工數(shù)據(jù)集Tab.1 Synthetic datasets
表2 UCI數(shù)據(jù)集Tab.2 UCI datasets
圖3 dc-基尼函數(shù)圖(Flame)Fig.3 dc-Gini function diagram(Flame)
從圖4(a)所示的標準DPC 的決策圖可看出,該決策圖聚類中心點與非聚類中心點界限不明顯,難以直接看出點的分布規(guī)律,不易直接選取聚類中心點,也不易直接確定聚類中心點個數(shù)。利用自適應(yīng)DPC 算法,獲取如圖4(b)所示改進后的決策圖,優(yōu)化dc后獲得的決策圖更容易正確選擇聚類中心,最終得到準確的聚類結(jié)果圖。
表3給出了自適應(yīng)DPC 算法與標準DPC 算法其及改進算法的對比,改進算法包括:基于共享近鄰的密度峰值快速搜索聚類(Shared-Nearest-Neighbor-based Clustering by fast search and find of Density Peaks,SNN-DPC)算法、模糊加權(quán)K近鄰密度峰值聚類(Fuzzy weightedK-Nearest Neighbors Density Peak Clustering,F(xiàn)KNN-DPC)算法。表中評價指標值A(chǔ)MI、ARI、FMI 結(jié)果保留小數(shù)點后四位,Par 表示各算法的參數(shù)值,加粗值表示較好的實驗結(jié)果,SNN-DPC、FKNN-DPC、DPC 算法在各數(shù)據(jù)集的評價指標值來源文獻[5],表中所有結(jié)果都是參數(shù)調(diào)整后的最佳結(jié)果。表3中算法的參數(shù)說明:ADPC和DPC算法,它們有一個參數(shù)截斷距離(浮點數(shù)),表示各樣本點平均鄰居數(shù)約占數(shù)據(jù)集樣本點總數(shù)的Par%;SNN-DPC 和FKNN-DPC算法,它們有一個參數(shù)K(整數(shù)),表示K個最近鄰點的個數(shù)。
圖4 決策圖和γ排序圖Fig.4 Decision graphs and γ sort graph
從表3 中數(shù)據(jù)可以看出,在大多數(shù)問題上(Path-based 數(shù)據(jù)集和Jain數(shù)據(jù)集除外),自適應(yīng)DPC算法相較其他DPC算法取得了更好的聚類效果。自適應(yīng)DPC 算法提出的兼顧局部密度和相對距離的截斷距離調(diào)節(jié)方法,很大程度上解決了參數(shù)敏感問題,同時自動獲取聚類中心很大程度上解決了人工參與決策的主觀性問題。自適應(yīng)DPC 算法在Path-based 數(shù)據(jù)集和Jain 數(shù)據(jù)集上表現(xiàn)一般,通過分析問題發(fā)現(xiàn),適應(yīng)性DPC算法在Path-based 數(shù)據(jù)集成功獲取了三個聚類中心點,但在最后的聚類結(jié)果上表現(xiàn)不理想,其主要原因是聚類的分配過程出現(xiàn)了偏差:某個高密度點在分配類簇時出錯,導(dǎo)致其近鄰點隨之出現(xiàn)錯誤,引發(fā)一系列連鎖反應(yīng)。而Jain 數(shù)據(jù)集中有兩個具有不同密度的簇,高密度區(qū)域的點通常擁有較高的ρ和δ,易被選為聚類中心點,而且高密度區(qū)域點更易吸引更多的低密度點集聚。相對而言,處于低密度區(qū)域中的點即使有較高的δ也不易被選中為聚類中心點,導(dǎo)致分配結(jié)果不樂觀。
自適應(yīng)DPC 算法在隨點變化的后期出現(xiàn)不太滿意的效果,主要是以下原因造成的:
1)對于某類問題(如Flame 數(shù)據(jù)集、Path-based 數(shù)據(jù)集,類簇邊緣樣本有重疊),簇與簇之間密度差異較小,邊界區(qū)域界限較模糊,增加了聚類分配的難度。
2)DPC 在選擇好聚類中心點之后,對其他樣本點采用貪婪分配策略。將樣本點i分配給與其最近、密度更高的樣本點所屬類簇。這種無需迭代的一次分配策略,可以提高聚類效率,但同時也會引發(fā)“多米諾骨牌”效應(yīng)。一旦某個樣本點出現(xiàn)分配錯誤,將連帶其鄰近點的分配,進而可能影響到更多樣本點的類簇分配情況。
3)同時此分配方式遇到密度分布差異大、核心點稀疏、局部密度值較小這些情況時,容易將原本屬于類簇的部分核心點錯誤的認成噪聲點。執(zhí)行分配策略時,較多地考慮到局部信息而忽略了整體結(jié)構(gòu)趨勢走向(例如Path-based 中底部開口的圓形簇)。
因此,如何在現(xiàn)有基礎(chǔ)上改進分配規(guī)則將是下一步研究的重點,可從以下三個方面著重考慮:1)邊界區(qū)域的平均局部密度的設(shè)定;2)樣本點與聚類中心點的關(guān)聯(lián)程度以及密度分布的差異性;3)樣本數(shù)據(jù)集的整體趨勢,樣本點鄰近區(qū)域范圍內(nèi)的整體情況,尤其關(guān)注低密度近鄰點。
為了進一步驗證算法的性能,將自適應(yīng)DPC 算法與DBSCAN、OPTICS、AP、K-means 等幾種常用的聚類算法進行對比,聚類結(jié)果如表4 所示,DPC、DBSCAN、OPTICS、AP、K-means 在各數(shù)據(jù)集的評價指標值來源文獻[5]。表中Par1、Par2代表各算法的參數(shù),表中“—”表示沒有對應(yīng)值,即Par2列出現(xiàn)“—”表示該算法只有一個參數(shù)。表4 中算法的參數(shù)說明:ADPC 算法有一個參數(shù)截斷距離(浮點數(shù)),表示各樣本點平均鄰居數(shù)約占數(shù)據(jù)集樣本點總數(shù)的Par1%;DBSCAN 和OPTICS 算法,它們都有兩個參數(shù):鄰域半徑ε(浮點數(shù))和minpts(鄰域最少點數(shù),即半徑內(nèi)的期望樣本個數(shù),整數(shù));AP算法有一個參數(shù)偏好參數(shù)Preference(浮點數(shù)),表示樣本點作為聚類中心的參考度;K-means 算法有一個參數(shù)K(整數(shù)),表示設(shè)定K個聚類中心。自適應(yīng)DPC 算法在數(shù)據(jù)集Flame、Aggregation、R15、D31、Path-based、Spiral、DIM512、DIM1024 均比其他算法表現(xiàn)更好。自適應(yīng)DPC算法是對標準DPC算法上的改進,它繼承了DPC算法的優(yōu)勢,同時自適應(yīng)DPC算法已將截斷距離參數(shù)調(diào)至最優(yōu),避免了標準DPC 算法中的參數(shù)設(shè)置的影響,這些因素使得改進后的算法效果更佳。DBCSAN 算法更適用于非凸樣本集聚類,它在聚類的同時還可以找出異常點,因此DBSCAN 算法在Jain和Path-based數(shù)據(jù)集上的表現(xiàn)明顯優(yōu)于其他算法。圖5顯示了部分數(shù)據(jù)集的自適應(yīng)DPC 算法聚類結(jié)果,同樣表明自適應(yīng)DPC算法良好的聚類效果。
為了驗證自適應(yīng)DPC 算法在實際問題中的性能,采用UCI 數(shù)據(jù)集中Seeds 和Libras-movement 兩個實際問題進行測試。其中,Seeds 數(shù)據(jù)集為小麥種子數(shù)據(jù)集,該數(shù)據(jù)集共210個觀察值,包含3 類不同的小麥種子;Libras-movement 數(shù)據(jù)集為運動數(shù)據(jù)集,該數(shù)據(jù)集共360個觀察值,包含15類手勢移動數(shù)據(jù),每類24個樣本數(shù)據(jù)。
表5 給出了本文算法和SNN-DPC、FKNN-DPC、DPC 等算法的聚類結(jié)果性能指標。
表4 人工數(shù)據(jù)集上各聚類算法的評價指標值Tab.4 Evaluation index values of different clustering algorithms on synthetic datasets
表5 UCI數(shù)據(jù)集上各聚類算法的評價指標值Tab.5 Evaluation index values of different clustering algorithms on UCI datasets
圖5 部分數(shù)據(jù)集的自適應(yīng)DPC算法聚類結(jié)果Fig.5 Clustering results of adaptive DPC algorithm for part datasets
從表5 中可以看出,在AMI、ARI、FMI 評價指標值上,自適應(yīng)DPC 算法有明顯的提升,聚類效果更佳。在Seeds 數(shù)據(jù)集中,DPC 算法聚類效果明顯優(yōu)于DBSCAN、OPTICS、AP、K-means 聚類算法,體現(xiàn)了DPC 算法在聚類算法中的優(yōu)勢。自適應(yīng)DPC 算法在準確自動獲取聚類中心的同時,其聚類性能明顯優(yōu)于其他算法。在Libras-movement 數(shù)據(jù)集中,由于每個類別的樣本數(shù)量較少,增加了算法計算密度值時的難度。所有算法在該數(shù)據(jù)集的聚類性能指標都不高,但自適應(yīng)DPC算法聚類效果較其他算法仍有明顯的提升。因此,自適應(yīng)DPC 算法在實際問題中,仍具有良好的聚類性能,能發(fā)現(xiàn)真實數(shù)據(jù)集的聚類中心和分布狀況,且具有較強魯棒性。
針對密度峰值聚類算法無法自動調(diào)節(jié)參數(shù)和選擇聚類中心的問題,本文提出了一種自適應(yīng)密度峰值聚類算法。通過重新定義計算γ公式,基于基尼系數(shù)的思想建立自適應(yīng)截斷距離調(diào)節(jié)方法,同時算法還能夠自動獲取聚類中心點,避免了人工選取聚類中心的不確定性。通過對人工數(shù)據(jù)集和UCI數(shù)據(jù)集的測試,并與其他算法的對比分析,可以得出:自適應(yīng)DPC 算法可以根據(jù)不同數(shù)據(jù)集的特點自動調(diào)節(jié)截斷距離dc,自動選擇聚類中心,在大多數(shù)問題都取得了比其他算法更好的性能指標。但現(xiàn)有的分配規(guī)則制約了其在某些問題中的性能,因此如何改進DPC 算法的分配策略是今后研究的重點。同時,將DPC 算法應(yīng)用于實際問題的聚類分析,也是今后研究的重要方向。