蔡 建 南,鄧 敏,劉 啟 亮,唐 建 波,黃 金 彩
(中南大學(xué)地理信息系,湖南 長(zhǎng)沙 410083)
在實(shí)際應(yīng)用中,由于測(cè)量精度、地理現(xiàn)象本身的隨機(jī)性、隱私保護(hù)等因素,實(shí)際獲取的空間數(shù)據(jù)經(jīng)常包含明顯的不確定性。例如:在傳感器網(wǎng)絡(luò)中,由于受到外界噪聲或者無(wú)線傳輸誤差等影響,使得輸出數(shù)據(jù)具有不確定性[1];在氣候監(jiān)測(cè)領(lǐng)域,一個(gè)氣象站點(diǎn)監(jiān)測(cè)的多種氣候指標(biāo)(如降水、氣溫、氣壓、濕度、風(fēng)力、風(fēng)向等)隨時(shí)間不斷變化,因而監(jiān)測(cè)站點(diǎn)的氣候條件亦具有不確定性[2];為了保護(hù)隱私,許多隱私保護(hù)的技術(shù)使用概率攝動(dòng)的方法來(lái)降低原始數(shù)據(jù)的保真度[3]。為了更好地對(duì)不確定性數(shù)據(jù)進(jìn)行分析,在數(shù)據(jù)分析過(guò)程中一個(gè)數(shù)據(jù)對(duì)象不再是空間內(nèi)的一個(gè)確定點(diǎn),而通常被建模為一個(gè)由一系列采樣點(diǎn)構(gòu)成的不確定區(qū)域,在這個(gè)不確定區(qū)域內(nèi)定義的概率密度函數(shù)用于描述對(duì)象落在每個(gè)確定位置上的概率[4]。空間數(shù)據(jù)的不確定性對(duì)空間數(shù)據(jù)挖掘的影響亦不可忽視,作為空間數(shù)據(jù)挖掘的一項(xiàng)主要任務(wù),近年來(lái)不確定數(shù)據(jù)聚類分析在地學(xué)領(lǐng)域的應(yīng)用已經(jīng)引起國(guó)內(nèi)外學(xué)者的廣泛關(guān)注,旨在聚類分析過(guò)程中建模空間數(shù)據(jù)的不確定性,進(jìn)而獲取更加可靠的聚類結(jié)果[5,6]。在地學(xué)應(yīng)用領(lǐng)域,很多情況下不確定數(shù)據(jù)在幾何空間上具有一定的重疊,而概率分布差異顯著。例如:不同氣溫帶的氣溫波動(dòng)范圍多是重疊的,但是其氣溫的概率分布卻通常是存在差異的,該特征是區(qū)分不同氣溫帶的重要因素。目前,國(guó)內(nèi)外學(xué)者雖然已經(jīng)針對(duì)不確定數(shù)據(jù)聚類分析進(jìn)行了初步的研究,相繼提出了一系列的不確定數(shù)據(jù)聚類算法,但是這些算法在地學(xué)應(yīng)用中的有效性尚缺乏客觀的分析與比較。為此,本文首先對(duì)當(dāng)前不確定聚類方法進(jìn)行分析和歸納;進(jìn)而,采用40組模擬數(shù)據(jù)和亞洲氣候數(shù)據(jù)集對(duì)6種代表性算法進(jìn)行實(shí)驗(yàn)對(duì)比分析,并對(duì)各算法的聚類質(zhì)量進(jìn)行定量度量,給實(shí)際應(yīng)用提供指導(dǎo)。
不確定數(shù)據(jù)聚類常與模糊聚類混淆[7],二者與傳統(tǒng)聚類分析的區(qū)別與聯(lián)系如表1所示。傳統(tǒng)聚類分析的研究對(duì)象是用單個(gè)特征向量表達(dá)的確定點(diǎn),且每個(gè)確定點(diǎn)歸屬于一個(gè)確定的簇。模糊聚類分析的研究對(duì)象也是確定點(diǎn),但是每個(gè)確定點(diǎn)以不同隸屬度歸屬于多個(gè)簇,因此最后得到的數(shù)據(jù)集劃分結(jié)構(gòu)是模糊的。不確定數(shù)據(jù)聚類的研究對(duì)象是不確定對(duì)象,但是每個(gè)不確定對(duì)象歸屬于一個(gè)確定的簇。
傳統(tǒng)的聚類方法可以大致分為:基于劃分的算法、基于層次的算法、基于密度的算法、基于圖論的算法、基于格網(wǎng)的算法、基于模型的算法和混合的算法[8]?,F(xiàn)有不確定數(shù)據(jù)聚類分析算法多是在基于劃分和基于密度的聚類算法的基礎(chǔ)上,通過(guò)發(fā)展不確定對(duì)象間的相似性度量方式進(jìn)行的擴(kuò)展?,F(xiàn)有研究中不確定對(duì)象間的相似性度量的方法主要有3種:1)基于期望距離的方法;2)基于模糊距離函數(shù)的方法;3)基于相對(duì)熵的方法。下面本文將針對(duì)不確定數(shù)據(jù)聚類分析中的代表性算法進(jìn)行回顧。
基于劃分的算法是一類應(yīng)用最廣泛的聚類算法,其核心思想是將包含n個(gè)實(shí)體的數(shù)據(jù)庫(kù),通過(guò)不斷優(yōu)化目標(biāo)劃分準(zhǔn)則,直到數(shù)據(jù)集被劃分為所給定的k個(gè)劃分,其中每個(gè)劃分即為一個(gè)簇。代表性的算法有 K-means算法[9]和 K-medoids算法[10]等。
Chau等[11]基于 K-means算法提出 UK-means算法,用于挖掘位置不確定移動(dòng)對(duì)象的聚集模式。UK-means算法與K-means算法的聚類過(guò)程完全相同,不同之處在于簇中心和距離的計(jì)算:K-means算法中,簇中心是簇中所有確定點(diǎn)的期望值,而UK-means算法中是計(jì)算簇中所有不確定對(duì)象的期望得到的確定點(diǎn);K-means算法中,對(duì)象到簇中心的距離是兩個(gè)確定點(diǎn)之間的距離,而UK-means算法中是對(duì)象不確定區(qū)域內(nèi)所有點(diǎn)到簇中心距離的期望,稱為期望距離。
為了提高UK-means算法的計(jì)算效率,一系列UK-means的改進(jìn)算法相繼被提出。Ngai等[12]基于期望距離的上下界提出了多種剪枝策略,避免了很多不必要的期望距離的計(jì)算。Lee等[13]利用平行軸原理證明了UK-means算法等同于對(duì)每個(gè)不確定對(duì)象的中心進(jìn)行K-means聚類,從而避免了計(jì)算各個(gè)不確定對(duì)象到簇中心的期望距離。Kao等[14]利用Voronoi圖和R樹(shù)給出了UK-means的另一個(gè)剪枝版本,進(jìn)一步提高了期望距離的剪枝效率。
Jiang等[2]采用相對(duì)熵(或 KL散度,Kullback-Leibler divergence)作為不確定對(duì)象間相似性的度量函數(shù)。KL散度雖然不滿足嚴(yán)格的距離概念(如不滿足對(duì)稱性與三角不等式),但是其可以在一定程度上顧及兩個(gè)不確定對(duì)象的概率分布相似性。進(jìn)而,基于K-medoids算法提出了K-Medoids-KL算法及近似的RK-Medoids-KL算法。為了進(jìn)一步適應(yīng)海量數(shù)據(jù)的聚類分析,Jiang等利用快速高斯變換算法提高 K-Medoids-KL和 RK-Medoids-KL算法的效率,然而其聚類精度有所降低。
基于密度的方法將簇視為一系列被低密度區(qū)域分割的高密度對(duì)象所構(gòu)成的區(qū)域[6]。代表性的算法有 DBSCAN 算法[15]和 OPTICS算法[16]等。
Kriegel等[4]通過(guò)計(jì)算兩個(gè)不確定對(duì)象間距離的概率密度分布函數(shù)定義了模糊距離函數(shù)度量指標(biāo),用來(lái)表達(dá)兩個(gè)不確定對(duì)象間的相似性,進(jìn)而在DBSCAN算法的基礎(chǔ)上提出了FDBSCAN算法,用于探測(cè)飛機(jī)零部件CAD建模數(shù)據(jù)中的聚集結(jié)構(gòu)。FDBSCAN對(duì)DBSCAN算法中核對(duì)象以及直接密度可達(dá)的定義進(jìn)行了擴(kuò)展,提出了核對(duì)象概率和可達(dá)概率的概念,分別反映一個(gè)對(duì)象能夠成為核對(duì)象的概率及一個(gè)對(duì)象從另一個(gè)對(duì)象直接密度可達(dá)的概率。實(shí)際應(yīng)用中,F(xiàn)DBSCAN根據(jù)每個(gè)不確定對(duì)象的樣本數(shù)據(jù)計(jì)算核對(duì)象概率及可達(dá)概率。FDBSCAN算法與DBSCAN算法的聚類過(guò)程十分相似,不同之處在于DBSCAN算法是將從當(dāng)前查詢對(duì)象直接密度可達(dá)的對(duì)象加入到當(dāng)前簇,而FDBSCAN算法則是將從當(dāng)前查詢對(duì)象可達(dá)概率大于0.5的對(duì)象加入到當(dāng)前簇。Kriegel等[17]采用相同的相似性度量方式,進(jìn)一步對(duì)OPTICS算法進(jìn)行改進(jìn),僅從理論上分析了FOPTICS算法的實(shí)現(xiàn)過(guò)程與特點(diǎn)。與K-Medoids-KL和 RK-Medoids-KL算法類似,Jiang等[2]采用相對(duì)熵作為不確定對(duì)象間相似性度量方式,對(duì)DBSCAN進(jìn)行擴(kuò)展,得到了一種基于相對(duì)熵的不確定數(shù)據(jù)聚類算法DBSCAN-KL。
進(jìn)一步,從所基于的原型算法、相似性度量方式及適用性場(chǎng)景3個(gè)方面對(duì)當(dāng)前不確定數(shù)據(jù)聚類分析算法進(jìn)行系統(tǒng)的總結(jié)與對(duì)比,如表2所示。
本文的對(duì)比試驗(yàn)選取了6種代表性的算法,UK-means(UK)、FOPTICS(FOP)、K-Medoids-KL(KM-KL)、RK-Medoids-KL(RKM-KL)、DBSCAN-KL(DB-KL)和 OPTICS-KL(OP-KL)算法。由于FDBSCAN算法和FOPTICS算法都是用模糊距離函數(shù)度量對(duì)象間的相似性,而OPTICS算法與DBSCAN算法相比可以發(fā)現(xiàn)不同密度的簇[16],因此本文只選擇了FOPTICS算法進(jìn)行實(shí)驗(yàn)分析。本文將KL散度結(jié)合到OPTICS算法中進(jìn)一步發(fā)展了基于概率分布相似性的不確定數(shù)據(jù)密度聚類算法OPTICS-KL,其拓展方法與DBSCAN-KL類似,故不做詳細(xì)介紹。本文不對(duì)算法的效率進(jìn)行測(cè)試,因此一些針對(duì)上述方法的效率改進(jìn)方法不進(jìn)行比較。通過(guò)選擇上述6種算法進(jìn)行實(shí)驗(yàn)分析,一方面可以分析同一原型方法、不同相似性度量方法的表現(xiàn)差異,另一方面可以分析相同相似性度量方法、不同原型算法的表現(xiàn)差異,故能夠較為全面地對(duì)當(dāng)前方法的表現(xiàn)進(jìn)行分析。
分別用模擬數(shù)據(jù)和2008年亞洲氣候數(shù)據(jù)對(duì)上述6種代表性算法進(jìn)行實(shí)驗(yàn)分析和比較。模擬數(shù)據(jù)為40組具有預(yù)設(shè)劃分結(jié)構(gòu)的數(shù)據(jù),其在幾何空間上高度重合,但各個(gè)不確定對(duì)象的采樣點(diǎn)服從不同的概率分布。實(shí)際數(shù)據(jù)是根據(jù)K?ppen-Geiger氣候分類結(jié)果[18]對(duì)各測(cè)站的氣候類型進(jìn)行標(biāo)記,近似地作為數(shù)據(jù)集中預(yù)知的劃分結(jié)構(gòu)。由于模擬數(shù)據(jù)集和亞洲氣候數(shù)據(jù)集中的劃分結(jié)構(gòu)預(yù)先已知,因此實(shí)驗(yàn)采用外部評(píng)價(jià)方法評(píng)價(jià)聚類的有效性。如果兩個(gè)對(duì)象屬于同一個(gè)簇,則稱它們?yōu)橐粚?duì),給出以下定義:
TP:正確肯定,兩個(gè)對(duì)象在G中是一對(duì),在C中也是一對(duì);
FP:錯(cuò)誤肯定,兩個(gè)對(duì)象在C中是一對(duì),在G中不是一對(duì);
FN:錯(cuò)誤否定,兩個(gè)對(duì)象在G中是一對(duì),在C中不是一對(duì)。
其中:G表示預(yù)先設(shè)定的劃分結(jié)構(gòu),C表示聚類算法得到的結(jié)果?;谝陨隙x,本文采用準(zhǔn)確率(precision)和召回率(recall)作為聚類質(zhì)量的評(píng)價(jià)指標(biāo),其中,準(zhǔn)確率表示聚類結(jié)果中正確聚類的比例;召回率表示預(yù)設(shè)聚類結(jié)構(gòu)被發(fā)現(xiàn)的比例。具體定義如下:
為了模擬幾何中心上有重疊的數(shù)據(jù),實(shí)驗(yàn)中將每個(gè)對(duì)象的不確定范圍都限制在區(qū)間[0,1]d內(nèi),然后通過(guò)一個(gè)連續(xù)分布產(chǎn)生一組隨機(jī)數(shù)作為連續(xù)域內(nèi)一個(gè)不確定對(duì)象的采樣點(diǎn)。預(yù)設(shè)在同一個(gè)簇中的不確定對(duì)象的采樣點(diǎn)由同一個(gè)概率分布產(chǎn)生,包括3種不同類型的概率分布:均勻分布、高斯分布、逆高斯分布。模擬具有k個(gè)簇的數(shù)據(jù)集時(shí),將需要模擬k個(gè)不同的概率密度函數(shù),其中有1個(gè)均勻分布、(k-1)/2個(gè)不同方差的高斯分布,以及(k-1)/2個(gè)不同方差的逆高斯分布。為了讓隨機(jī)數(shù)都落在區(qū)間[0,1]d內(nèi),采樣點(diǎn)的平均值都設(shè)置為0.5,高斯分布和逆高斯分布的標(biāo)準(zhǔn)差設(shè)置為相同的較小值,具體取值如表3所示,使得隨機(jī)數(shù)落在區(qū)間外的幾率非常小,如果落在區(qū)間外,將重新產(chǎn)生隨機(jī)數(shù)。進(jìn)而,對(duì)連續(xù)域內(nèi)的模擬數(shù)據(jù)進(jìn)行離散化,如圖1所示,對(duì)各維空間進(jìn)行四等分,用方格的中心值表示落在同一個(gè)方格中的隨機(jī)數(shù),得到相應(yīng)離散域內(nèi)的模擬數(shù)據(jù)。模擬實(shí)驗(yàn)中一共考慮了4個(gè)主要因素:數(shù)據(jù)的維數(shù)d,對(duì)象個(gè)數(shù)n,樣本大小s和簇的個(gè)數(shù)k,對(duì)這4個(gè)參數(shù)設(shè)置不同的值,一共產(chǎn)生了40組模擬數(shù)據(jù)集,進(jìn)行了8組對(duì)比實(shí)驗(yàn),各參數(shù)的取值如表4所示。
連續(xù)域內(nèi)不確定數(shù)據(jù)的聚類準(zhǔn)確率和召回率比較結(jié)果如圖2和圖3所示;離散域內(nèi)不確定數(shù)據(jù)的聚類準(zhǔn)確率和召回率比較結(jié)果如圖4和圖5所示。評(píng)價(jià)聚類質(zhì)量時(shí)在考慮準(zhǔn)確率的同時(shí),參考召回率對(duì)試驗(yàn)結(jié)果進(jìn)行分析,可以發(fā)現(xiàn):1)除RK-Medoids-KL和FOPTICS外,其他算法聚類質(zhì)量(準(zhǔn)確率與召回率)對(duì)數(shù)據(jù)集的維數(shù)d、對(duì)象個(gè)數(shù)n及采樣點(diǎn)個(gè)數(shù)s都不敏感,但所有算法都會(huì)隨著數(shù)據(jù)集中簇的個(gè)數(shù)k的增加而降低;2)對(duì)于同類型的聚類算法,采用相對(duì)熵相似性的算法聚類質(zhì)量最高,即準(zhǔn)確率與召回率都相對(duì)較高;采用期望距離相似性的聚類算法聚類質(zhì)量最低;3)采用相對(duì)熵相似性的算法中,基于劃分的算法聚類質(zhì)量多優(yōu)于基于密度的算法,KMedoids-KL算法質(zhì)量最高;采用期望距離的劃分算法UK-means算法的聚類質(zhì)量最低。
圖2 連續(xù)域內(nèi)不確定數(shù)據(jù)的聚類準(zhǔn)確率比較Fig.2 Comparison of precision between six uncertain data clustering methods in the continuous case
圖3 連續(xù)域內(nèi)不確定數(shù)據(jù)的聚類召回率比較Fig.3 Comparison of recall between six uncertain data clustering methods in the continuous case
本文選取的氣象數(shù)據(jù)源于美國(guó)國(guó)家大氣研究中心(http://rda.ucar.edu/datasets/ds512.0/)。數(shù)據(jù)集中共包含893個(gè)氣象站點(diǎn)的觀測(cè)數(shù)據(jù),且每個(gè)站點(diǎn)都包含366 d的氣象記錄,每條記錄包含當(dāng)天的平均氣溫、總降水量和平均濕度。本文根據(jù)亞洲K?ppen-Geiger氣候分類圖[18]標(biāo)記出各個(gè)站點(diǎn)的氣候類型(圖6),作為一種近似的真值。亞洲K?ppen-Geiger氣候分類圖中共有5種主要?dú)夂蝾愋停簾釒夂?、干燥氣候、暖溫帶氣候、冷溫帶氣候和極地氣候,而本文數(shù)據(jù)中沒(méi)有分布在極地氣候帶的測(cè)站,所以只有前4種主要?dú)夂蝾愋汀R粋€(gè)測(cè)站每天的氣象數(shù)據(jù)可建模為一個(gè)不確定對(duì)象的樣本點(diǎn),所以實(shí)際數(shù)據(jù)集中不確定對(duì)象的維數(shù)d=3、對(duì)象個(gè)數(shù)n=893、對(duì)象的樣本大小s=366、簇的個(gè)數(shù)k=4。
圖7顯示了各個(gè)算法得到的氣象站點(diǎn)的氣候聚類結(jié)果,圖8顯示了各個(gè)算法的聚類質(zhì)量比較結(jié)果。通過(guò)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行定量比較,可以發(fā)現(xiàn):1)各算法聚類準(zhǔn)確率從高到低依次為:K-Medoids-KL、UK-means、RK-Medoids-KL、FOPTICS、DBSCAN-KL、OPTICS-KL。由 于 OPTICS-KL 與 DBSCAN-KL算法聚類結(jié)果主要包含一個(gè)較大的簇,故其召回率較高,但是二者準(zhǔn)確率都較差,因此綜合考慮準(zhǔn)確率與召回率可以發(fā)現(xiàn)這兩種方法的聚類質(zhì)量較差;FOPTICS算法的聚類結(jié)果召回率最低,且聚類準(zhǔn)確度中等,故可以認(rèn)為其聚類質(zhì)量亦較差。2)K-Medoids-KL、UK-means、RK-Medoids-KL 3種算法的召回率相差不大,且都維持了較高的水平(介于0.6~0.7之間),因此可以認(rèn)為這3種方法的聚類質(zhì)量較高,其中K-Medoids-KL算法的準(zhǔn)確率最高,達(dá)到0.76。3)采用相對(duì)熵相似性的算法中,基于劃分算法的聚類準(zhǔn)確率優(yōu)于基于密度的算法;采用期望距離的劃分算法聚類準(zhǔn)確率優(yōu)于采用模糊距離函數(shù)的密度算法。
圖7 氣象數(shù)據(jù)聚類結(jié)果Fig.7 The clustering results of climate dataset
下面基于模擬與實(shí)際數(shù)據(jù)實(shí)驗(yàn)結(jié)果,對(duì)進(jìn)行測(cè)試的6種不確定聚類算法性能進(jìn)行系統(tǒng)的總結(jié)與分析:1)RK-Medoids-KL與 FOPTICS算法的聚類質(zhì)量對(duì)數(shù)據(jù)維數(shù)、對(duì)象個(gè)數(shù)及采樣個(gè)數(shù)較為敏感,其原因在于:RK-Medoids-KL算法在代表對(duì)象交換階段隨機(jī)選取能優(yōu)化當(dāng)前聚類結(jié)果的非代表對(duì)象與代表對(duì)象進(jìn)行交換,且不能優(yōu)化結(jié)果的非代表對(duì)象也具有較小的交換概率,因此RK-Medoids-KL算法的結(jié)果具有隨機(jī)性;FOPTICS算法采用模糊距離函數(shù)度量對(duì)象間的相似性,對(duì)幾何空間高度重疊的簇區(qū)分能力有限,同時(shí)設(shè)置聚類參數(shù)獲得k個(gè)簇的過(guò)程亦存在隨機(jī)性。各算法聚類質(zhì)量均隨簇個(gè)數(shù)k的增加而降低,說(shuō)明當(dāng)前算法挖掘較為細(xì)致聚類模式的能力尚有欠缺。2)整體上,采用相對(duì)熵相似性的聚類算法聚類質(zhì)量最高,采用模糊距離相似性度量的算法次之,采用期望距離相似性度量的算法聚類質(zhì)量最差。這一實(shí)驗(yàn)結(jié)果說(shuō)明:相對(duì)熵可以同時(shí)顧及不確定對(duì)象在幾何空間和概率分布上的差異性,而期望距離僅僅利用了每個(gè)不確定對(duì)象的中心信息,缺乏區(qū)分概率分布差異性的能力。模糊距離能夠獲取數(shù)據(jù)集中更多的不確定信息,能夠在一定程度上區(qū)分不確定數(shù)據(jù)的概率分布差異性。3)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),采用相對(duì)熵相似性度量的方法中,基于劃分的算法(如RK-Medoids-KL和K-Medoids-KL)聚類質(zhì)量要整體優(yōu)于基于密度的算法(如DBSCAN-KL算法和OPTICS-KL)。當(dāng)前研究一般認(rèn)為基于密度算法的聚類質(zhì)量要優(yōu)于基于劃分的算法[6],本文實(shí)驗(yàn)結(jié)果得出相反結(jié)論可能有兩方面原因:一方面本文實(shí)驗(yàn)中輸入?yún)?shù)k是已知的,而DBSCAN-KL算法和OPTICS-KL算法是通過(guò)將μ設(shè)置為5,并設(shè)置多個(gè)ε值進(jìn)行實(shí)驗(yàn),以近似得到k個(gè)簇,不合理的參數(shù)設(shè)置可能會(huì)導(dǎo)致基于密度的算法的聚類質(zhì)量低于基于劃分的算法;另一方面本文實(shí)驗(yàn)中所采用的模擬數(shù)據(jù)與實(shí)際數(shù)據(jù)在概率空間內(nèi)簇間存在相互鄰接的特點(diǎn),將直接導(dǎo)致基于密度的算法聚類質(zhì)量下降。4)在實(shí)際數(shù)據(jù)集中,雖然K-Medoids-KL算法的聚類質(zhì)量最高,但是其聚類結(jié)果與K?ppen-Geiger氣候分類依然存在一定的偏差,其主要原因可能存在于兩方面:一方面在于氣候分區(qū)不僅考慮氣溫、降水、濕度的差異,還要綜合顧及其他氣候特征;另一方面簇的形態(tài)可能并非完全近似球形。本文研究對(duì)數(shù)據(jù)驅(qū)動(dòng)下的氣候分區(qū)可靠性給出了定量的實(shí)驗(yàn)結(jié)果。
綜合上述實(shí)驗(yàn)結(jié)果與分析,可以進(jìn)一步對(duì)不確定聚類方法在地學(xué)問(wèn)題中的研究與應(yīng)用給出如下建議:1)在實(shí)際研究中,由于簇的形態(tài)與結(jié)構(gòu)是事先未知的,因此建議采用不同的不確定聚類算法進(jìn)行比較分析,目前采用相對(duì)熵相似性度量的方法聚類質(zhì)量相對(duì)較高;2)理論上基于密度的方法比基于劃分的方法適用性更強(qiáng),不僅可以發(fā)現(xiàn)近似球形的簇,亦可發(fā)現(xiàn)非球形的簇,然而現(xiàn)有基于密度的方法的聚類質(zhì)量反而不如基于劃分的方法,對(duì)于基于密度的方法如何選取合適的聚類參數(shù)、克服簇的鄰接等問(wèn)題需要開(kāi)展深入研究。
本文針對(duì)不確定數(shù)據(jù)聚類算法在地學(xué)應(yīng)用中的有效性缺乏客觀比較的問(wèn)題,選取了6種具有代表性算法,首先采用模擬數(shù)據(jù)進(jìn)行測(cè)試,進(jìn)而采用亞洲氣候數(shù)據(jù)集對(duì)其識(shí)別氣候區(qū)的能力進(jìn)行比較分析。通過(guò)準(zhǔn)確率和召回率定量度量6種方法處理幾何空間高度重疊、概率分布差異顯著的模擬數(shù)據(jù)與氣候數(shù)據(jù)時(shí)的聚類質(zhì)量后,發(fā)現(xiàn):1)對(duì)于同類型聚類算法,采用相對(duì)熵相似性度量的算法聚類質(zhì)量總體優(yōu)于采用期望距離和模糊距離函數(shù)的算法;2)采用相對(duì)熵相似性度量的劃分算法聚類質(zhì)量?jī)?yōu)于基于密度的算法,其中K-Medoids-KL算法聚類質(zhì)量最高。
進(jìn)一步的研究工作主要集中在兩方面:1)本文僅是從數(shù)據(jù)本身的不確定性出發(fā),對(duì)各種聚類算法的應(yīng)用效果進(jìn)行了實(shí)驗(yàn)分析,未來(lái)研究中聚類模型本身的不確定性需要引起充分的重視;2)氣候分區(qū)的實(shí)際應(yīng)用中,雖然基于概率分布相似性的劃分聚類算法能夠取得較好的結(jié)果,但是需要用戶輸入簇的個(gè)數(shù),這是一般用戶很難確定的,因此需要進(jìn)一步學(xué)習(xí)如何確定數(shù)據(jù)集中簇的個(gè)數(shù)。
[1] CHENG R,KALASHNIKOV D V,PRABHAKAR S.Evaluating probabilistic queries over imprecise data[A].Proceedings of the 2003 ACM SIGMOD International Conference on Management of Data[C].2003.551-562.
[2] JIANG B,PEI J,TAO Y F,et al.Clustering uncertain data based on probability distribution similarity[J].IEEE Transactions on Knowledge and Data Engineering,2013,25(4):751-763.
[3] AGRAWAL R,SRIKANT R.Privacy-preserving data mining[A].ACM SIGMOD Conference,2000.
[4] KRIEGEL H P,PFEIFLE M.Density-based clustering of uncertain data[A].Proceedings of the 11th ACM SIGKDD International Conference on Knowledge Discovery in Data Mining[C].2005.672-677.
[5] SHI W Z.Principles of Modeling Uncertainties in Spatial Data and Spatial Analyses[M].London:CRC Press,2010.
[6] 鄧敏,劉啟亮,李光強(qiáng),等.空間聚類分析及應(yīng)用[M].北京:科學(xué)出版社,2011.
[7] SATO M,SATO Y,JAIN L C,et al.Fuzzy Clustering Models and Applications[M].Physica-Verlag,1997.
[8] DENG M,LIU Q L,CHENG T,et al.An adaptive spatial clustering algorithm based on Delaunay triangulation[J].Computers,Environment and Urban Systems,2011,35(4):320-332.
[9] MACQUEEN J.Some methods for classification and analysis of multivariate observations[A].Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability[C].1967.281-297.
[10] KAUFMAN L,ROUSSEEUW P.Clustering by Means of Medoids[M].North-Holland,1987.
[11] CHAU M,CHENG R,KAO B,et al.Uncertain data mining:An example in clustering location data[A].Advances in Knowledge Discovery and Data Mining[C].Springer Berlin Heidelberg,2006.199-204.
[12] NGAI W K,KAO B,CHUI C K,et al.Efficient clustering of uncertain data[A].Proceedings of the 6th International Conference on Data Mining[C].2006.436-445.
[13] LEE S D,KAO B,CHENG R.Reducing UK-means to K-means[A].Proceedings of the 7th IEEE International Conference on Data Mining Workshops[C].2007.483-488.
[14] KAO B,LEE S D,LEE F K F,et al.Clustering uncertain data using Voronoi diagrams and r-tree index[J].IEEE Transactions on Knowledge and Data Engineering,2011,22(9):1219-1233.
[15] ESTER M,KRIEGEL H P,SANDER J,et al.A density-based algorithm for discovering clusters in large spatial databases with noise[A].Proceedings of KDD-96[C].1996.226-231.
[16] ANKERST M,BREUNIG M M,KRIEGEL H P,et al.Optics:Ordering points to identify the clustering structure[A].Proceedings of the 1999 ACM SIGMOD International Conference on Management of Data[C].1999.49-60.
[17] KRIEGEL H P,PFEIFLE M.Hierarchical density-based clustering of uncertain data[A].Proceedings of the 5th IEEE International Conference on Data Mining[C].IEEE,2005.
[18] PEEL M C,F(xiàn)INLAYSON B L,MCMAHON T A.Updated world map of the K?ppen-Geiger climate classification[J].Hydrology &Earth System Sciences Discussions,2007,4(2):439-473.