亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向地學(xué)應(yīng)用的不確定數(shù)據(jù)聚類算法比較研究

        2015-02-10 02:25:58南,鄧敏,劉亮,唐波,黃
        地理與地理信息科學(xué) 2015年6期
        關(guān)鍵詞:相似性度量準(zhǔn)確率

        蔡 建 南,鄧 敏,劉 啟 亮,唐 建 波,黃 金 彩

        (中南大學(xué)地理信息系,湖南 長(zhǎng)沙 410083)

        0 引言

        在實(shí)際應(yīng)用中,由于測(cè)量精度、地理現(xiàn)象本身的隨機(jī)性、隱私保護(hù)等因素,實(shí)際獲取的空間數(shù)據(jù)經(jīng)常包含明顯的不確定性。例如:在傳感器網(wǎng)絡(luò)中,由于受到外界噪聲或者無(wú)線傳輸誤差等影響,使得輸出數(shù)據(jù)具有不確定性[1];在氣候監(jiān)測(cè)領(lǐng)域,一個(gè)氣象站點(diǎn)監(jiān)測(cè)的多種氣候指標(biāo)(如降水、氣溫、氣壓、濕度、風(fēng)力、風(fēng)向等)隨時(shí)間不斷變化,因而監(jiān)測(cè)站點(diǎn)的氣候條件亦具有不確定性[2];為了保護(hù)隱私,許多隱私保護(hù)的技術(shù)使用概率攝動(dòng)的方法來(lái)降低原始數(shù)據(jù)的保真度[3]。為了更好地對(duì)不確定性數(shù)據(jù)進(jìn)行分析,在數(shù)據(jù)分析過(guò)程中一個(gè)數(shù)據(jù)對(duì)象不再是空間內(nèi)的一個(gè)確定點(diǎn),而通常被建模為一個(gè)由一系列采樣點(diǎn)構(gòu)成的不確定區(qū)域,在這個(gè)不確定區(qū)域內(nèi)定義的概率密度函數(shù)用于描述對(duì)象落在每個(gè)確定位置上的概率[4]。空間數(shù)據(jù)的不確定性對(duì)空間數(shù)據(jù)挖掘的影響亦不可忽視,作為空間數(shù)據(jù)挖掘的一項(xiàng)主要任務(wù),近年來(lái)不確定數(shù)據(jù)聚類分析在地學(xué)領(lǐng)域的應(yīng)用已經(jīng)引起國(guó)內(nèi)外學(xué)者的廣泛關(guān)注,旨在聚類分析過(guò)程中建模空間數(shù)據(jù)的不確定性,進(jìn)而獲取更加可靠的聚類結(jié)果[5,6]。在地學(xué)應(yīng)用領(lǐng)域,很多情況下不確定數(shù)據(jù)在幾何空間上具有一定的重疊,而概率分布差異顯著。例如:不同氣溫帶的氣溫波動(dòng)范圍多是重疊的,但是其氣溫的概率分布卻通常是存在差異的,該特征是區(qū)分不同氣溫帶的重要因素。目前,國(guó)內(nèi)外學(xué)者雖然已經(jīng)針對(duì)不確定數(shù)據(jù)聚類分析進(jìn)行了初步的研究,相繼提出了一系列的不確定數(shù)據(jù)聚類算法,但是這些算法在地學(xué)應(yīng)用中的有效性尚缺乏客觀的分析與比較。為此,本文首先對(duì)當(dāng)前不確定聚類方法進(jìn)行分析和歸納;進(jìn)而,采用40組模擬數(shù)據(jù)和亞洲氣候數(shù)據(jù)集對(duì)6種代表性算法進(jìn)行實(shí)驗(yàn)對(duì)比分析,并對(duì)各算法的聚類質(zhì)量進(jìn)行定量度量,給實(shí)際應(yīng)用提供指導(dǎo)。

        1 不確定數(shù)據(jù)聚類算法

        不確定數(shù)據(jù)聚類常與模糊聚類混淆[7],二者與傳統(tǒng)聚類分析的區(qū)別與聯(lián)系如表1所示。傳統(tǒng)聚類分析的研究對(duì)象是用單個(gè)特征向量表達(dá)的確定點(diǎn),且每個(gè)確定點(diǎn)歸屬于一個(gè)確定的簇。模糊聚類分析的研究對(duì)象也是確定點(diǎn),但是每個(gè)確定點(diǎn)以不同隸屬度歸屬于多個(gè)簇,因此最后得到的數(shù)據(jù)集劃分結(jié)構(gòu)是模糊的。不確定數(shù)據(jù)聚類的研究對(duì)象是不確定對(duì)象,但是每個(gè)不確定對(duì)象歸屬于一個(gè)確定的簇。

        傳統(tǒng)的聚類方法可以大致分為:基于劃分的算法、基于層次的算法、基于密度的算法、基于圖論的算法、基于格網(wǎng)的算法、基于模型的算法和混合的算法[8]?,F(xiàn)有不確定數(shù)據(jù)聚類分析算法多是在基于劃分和基于密度的聚類算法的基礎(chǔ)上,通過(guò)發(fā)展不確定對(duì)象間的相似性度量方式進(jìn)行的擴(kuò)展?,F(xiàn)有研究中不確定對(duì)象間的相似性度量的方法主要有3種:1)基于期望距離的方法;2)基于模糊距離函數(shù)的方法;3)基于相對(duì)熵的方法。下面本文將針對(duì)不確定數(shù)據(jù)聚類分析中的代表性算法進(jìn)行回顧。

        1.1 基于劃分的算法

        基于劃分的算法是一類應(yīng)用最廣泛的聚類算法,其核心思想是將包含n個(gè)實(shí)體的數(shù)據(jù)庫(kù),通過(guò)不斷優(yōu)化目標(biāo)劃分準(zhǔn)則,直到數(shù)據(jù)集被劃分為所給定的k個(gè)劃分,其中每個(gè)劃分即為一個(gè)簇。代表性的算法有 K-means算法[9]和 K-medoids算法[10]等。

        Chau等[11]基于 K-means算法提出 UK-means算法,用于挖掘位置不確定移動(dòng)對(duì)象的聚集模式。UK-means算法與K-means算法的聚類過(guò)程完全相同,不同之處在于簇中心和距離的計(jì)算:K-means算法中,簇中心是簇中所有確定點(diǎn)的期望值,而UK-means算法中是計(jì)算簇中所有不確定對(duì)象的期望得到的確定點(diǎn);K-means算法中,對(duì)象到簇中心的距離是兩個(gè)確定點(diǎn)之間的距離,而UK-means算法中是對(duì)象不確定區(qū)域內(nèi)所有點(diǎn)到簇中心距離的期望,稱為期望距離。

        為了提高UK-means算法的計(jì)算效率,一系列UK-means的改進(jìn)算法相繼被提出。Ngai等[12]基于期望距離的上下界提出了多種剪枝策略,避免了很多不必要的期望距離的計(jì)算。Lee等[13]利用平行軸原理證明了UK-means算法等同于對(duì)每個(gè)不確定對(duì)象的中心進(jìn)行K-means聚類,從而避免了計(jì)算各個(gè)不確定對(duì)象到簇中心的期望距離。Kao等[14]利用Voronoi圖和R樹(shù)給出了UK-means的另一個(gè)剪枝版本,進(jìn)一步提高了期望距離的剪枝效率。

        Jiang等[2]采用相對(duì)熵(或 KL散度,Kullback-Leibler divergence)作為不確定對(duì)象間相似性的度量函數(shù)。KL散度雖然不滿足嚴(yán)格的距離概念(如不滿足對(duì)稱性與三角不等式),但是其可以在一定程度上顧及兩個(gè)不確定對(duì)象的概率分布相似性。進(jìn)而,基于K-medoids算法提出了K-Medoids-KL算法及近似的RK-Medoids-KL算法。為了進(jìn)一步適應(yīng)海量數(shù)據(jù)的聚類分析,Jiang等利用快速高斯變換算法提高 K-Medoids-KL和 RK-Medoids-KL算法的效率,然而其聚類精度有所降低。

        1.2 基于密度的算法

        基于密度的方法將簇視為一系列被低密度區(qū)域分割的高密度對(duì)象所構(gòu)成的區(qū)域[6]。代表性的算法有 DBSCAN 算法[15]和 OPTICS算法[16]等。

        Kriegel等[4]通過(guò)計(jì)算兩個(gè)不確定對(duì)象間距離的概率密度分布函數(shù)定義了模糊距離函數(shù)度量指標(biāo),用來(lái)表達(dá)兩個(gè)不確定對(duì)象間的相似性,進(jìn)而在DBSCAN算法的基礎(chǔ)上提出了FDBSCAN算法,用于探測(cè)飛機(jī)零部件CAD建模數(shù)據(jù)中的聚集結(jié)構(gòu)。FDBSCAN對(duì)DBSCAN算法中核對(duì)象以及直接密度可達(dá)的定義進(jìn)行了擴(kuò)展,提出了核對(duì)象概率和可達(dá)概率的概念,分別反映一個(gè)對(duì)象能夠成為核對(duì)象的概率及一個(gè)對(duì)象從另一個(gè)對(duì)象直接密度可達(dá)的概率。實(shí)際應(yīng)用中,F(xiàn)DBSCAN根據(jù)每個(gè)不確定對(duì)象的樣本數(shù)據(jù)計(jì)算核對(duì)象概率及可達(dá)概率。FDBSCAN算法與DBSCAN算法的聚類過(guò)程十分相似,不同之處在于DBSCAN算法是將從當(dāng)前查詢對(duì)象直接密度可達(dá)的對(duì)象加入到當(dāng)前簇,而FDBSCAN算法則是將從當(dāng)前查詢對(duì)象可達(dá)概率大于0.5的對(duì)象加入到當(dāng)前簇。Kriegel等[17]采用相同的相似性度量方式,進(jìn)一步對(duì)OPTICS算法進(jìn)行改進(jìn),僅從理論上分析了FOPTICS算法的實(shí)現(xiàn)過(guò)程與特點(diǎn)。與K-Medoids-KL和 RK-Medoids-KL算法類似,Jiang等[2]采用相對(duì)熵作為不確定對(duì)象間相似性度量方式,對(duì)DBSCAN進(jìn)行擴(kuò)展,得到了一種基于相對(duì)熵的不確定數(shù)據(jù)聚類算法DBSCAN-KL。

        進(jìn)一步,從所基于的原型算法、相似性度量方式及適用性場(chǎng)景3個(gè)方面對(duì)當(dāng)前不確定數(shù)據(jù)聚類分析算法進(jìn)行系統(tǒng)的總結(jié)與對(duì)比,如表2所示。

        2 實(shí)驗(yàn)分析與應(yīng)用

        本文的對(duì)比試驗(yàn)選取了6種代表性的算法,UK-means(UK)、FOPTICS(FOP)、K-Medoids-KL(KM-KL)、RK-Medoids-KL(RKM-KL)、DBSCAN-KL(DB-KL)和 OPTICS-KL(OP-KL)算法。由于FDBSCAN算法和FOPTICS算法都是用模糊距離函數(shù)度量對(duì)象間的相似性,而OPTICS算法與DBSCAN算法相比可以發(fā)現(xiàn)不同密度的簇[16],因此本文只選擇了FOPTICS算法進(jìn)行實(shí)驗(yàn)分析。本文將KL散度結(jié)合到OPTICS算法中進(jìn)一步發(fā)展了基于概率分布相似性的不確定數(shù)據(jù)密度聚類算法OPTICS-KL,其拓展方法與DBSCAN-KL類似,故不做詳細(xì)介紹。本文不對(duì)算法的效率進(jìn)行測(cè)試,因此一些針對(duì)上述方法的效率改進(jìn)方法不進(jìn)行比較。通過(guò)選擇上述6種算法進(jìn)行實(shí)驗(yàn)分析,一方面可以分析同一原型方法、不同相似性度量方法的表現(xiàn)差異,另一方面可以分析相同相似性度量方法、不同原型算法的表現(xiàn)差異,故能夠較為全面地對(duì)當(dāng)前方法的表現(xiàn)進(jìn)行分析。

        分別用模擬數(shù)據(jù)和2008年亞洲氣候數(shù)據(jù)對(duì)上述6種代表性算法進(jìn)行實(shí)驗(yàn)分析和比較。模擬數(shù)據(jù)為40組具有預(yù)設(shè)劃分結(jié)構(gòu)的數(shù)據(jù),其在幾何空間上高度重合,但各個(gè)不確定對(duì)象的采樣點(diǎn)服從不同的概率分布。實(shí)際數(shù)據(jù)是根據(jù)K?ppen-Geiger氣候分類結(jié)果[18]對(duì)各測(cè)站的氣候類型進(jìn)行標(biāo)記,近似地作為數(shù)據(jù)集中預(yù)知的劃分結(jié)構(gòu)。由于模擬數(shù)據(jù)集和亞洲氣候數(shù)據(jù)集中的劃分結(jié)構(gòu)預(yù)先已知,因此實(shí)驗(yàn)采用外部評(píng)價(jià)方法評(píng)價(jià)聚類的有效性。如果兩個(gè)對(duì)象屬于同一個(gè)簇,則稱它們?yōu)橐粚?duì),給出以下定義:

        TP:正確肯定,兩個(gè)對(duì)象在G中是一對(duì),在C中也是一對(duì);

        FP:錯(cuò)誤肯定,兩個(gè)對(duì)象在C中是一對(duì),在G中不是一對(duì);

        FN:錯(cuò)誤否定,兩個(gè)對(duì)象在G中是一對(duì),在C中不是一對(duì)。

        其中:G表示預(yù)先設(shè)定的劃分結(jié)構(gòu),C表示聚類算法得到的結(jié)果?;谝陨隙x,本文采用準(zhǔn)確率(precision)和召回率(recall)作為聚類質(zhì)量的評(píng)價(jià)指標(biāo),其中,準(zhǔn)確率表示聚類結(jié)果中正確聚類的比例;召回率表示預(yù)設(shè)聚類結(jié)構(gòu)被發(fā)現(xiàn)的比例。具體定義如下:

        2.1 模擬實(shí)驗(yàn)對(duì)比分析

        為了模擬幾何中心上有重疊的數(shù)據(jù),實(shí)驗(yàn)中將每個(gè)對(duì)象的不確定范圍都限制在區(qū)間[0,1]d內(nèi),然后通過(guò)一個(gè)連續(xù)分布產(chǎn)生一組隨機(jī)數(shù)作為連續(xù)域內(nèi)一個(gè)不確定對(duì)象的采樣點(diǎn)。預(yù)設(shè)在同一個(gè)簇中的不確定對(duì)象的采樣點(diǎn)由同一個(gè)概率分布產(chǎn)生,包括3種不同類型的概率分布:均勻分布、高斯分布、逆高斯分布。模擬具有k個(gè)簇的數(shù)據(jù)集時(shí),將需要模擬k個(gè)不同的概率密度函數(shù),其中有1個(gè)均勻分布、(k-1)/2個(gè)不同方差的高斯分布,以及(k-1)/2個(gè)不同方差的逆高斯分布。為了讓隨機(jī)數(shù)都落在區(qū)間[0,1]d內(nèi),采樣點(diǎn)的平均值都設(shè)置為0.5,高斯分布和逆高斯分布的標(biāo)準(zhǔn)差設(shè)置為相同的較小值,具體取值如表3所示,使得隨機(jī)數(shù)落在區(qū)間外的幾率非常小,如果落在區(qū)間外,將重新產(chǎn)生隨機(jī)數(shù)。進(jìn)而,對(duì)連續(xù)域內(nèi)的模擬數(shù)據(jù)進(jìn)行離散化,如圖1所示,對(duì)各維空間進(jìn)行四等分,用方格的中心值表示落在同一個(gè)方格中的隨機(jī)數(shù),得到相應(yīng)離散域內(nèi)的模擬數(shù)據(jù)。模擬實(shí)驗(yàn)中一共考慮了4個(gè)主要因素:數(shù)據(jù)的維數(shù)d,對(duì)象個(gè)數(shù)n,樣本大小s和簇的個(gè)數(shù)k,對(duì)這4個(gè)參數(shù)設(shè)置不同的值,一共產(chǎn)生了40組模擬數(shù)據(jù)集,進(jìn)行了8組對(duì)比實(shí)驗(yàn),各參數(shù)的取值如表4所示。

        連續(xù)域內(nèi)不確定數(shù)據(jù)的聚類準(zhǔn)確率和召回率比較結(jié)果如圖2和圖3所示;離散域內(nèi)不確定數(shù)據(jù)的聚類準(zhǔn)確率和召回率比較結(jié)果如圖4和圖5所示。評(píng)價(jià)聚類質(zhì)量時(shí)在考慮準(zhǔn)確率的同時(shí),參考召回率對(duì)試驗(yàn)結(jié)果進(jìn)行分析,可以發(fā)現(xiàn):1)除RK-Medoids-KL和FOPTICS外,其他算法聚類質(zhì)量(準(zhǔn)確率與召回率)對(duì)數(shù)據(jù)集的維數(shù)d、對(duì)象個(gè)數(shù)n及采樣點(diǎn)個(gè)數(shù)s都不敏感,但所有算法都會(huì)隨著數(shù)據(jù)集中簇的個(gè)數(shù)k的增加而降低;2)對(duì)于同類型的聚類算法,采用相對(duì)熵相似性的算法聚類質(zhì)量最高,即準(zhǔn)確率與召回率都相對(duì)較高;采用期望距離相似性的聚類算法聚類質(zhì)量最低;3)采用相對(duì)熵相似性的算法中,基于劃分的算法聚類質(zhì)量多優(yōu)于基于密度的算法,KMedoids-KL算法質(zhì)量最高;采用期望距離的劃分算法UK-means算法的聚類質(zhì)量最低。

        圖2 連續(xù)域內(nèi)不確定數(shù)據(jù)的聚類準(zhǔn)確率比較Fig.2 Comparison of precision between six uncertain data clustering methods in the continuous case

        圖3 連續(xù)域內(nèi)不確定數(shù)據(jù)的聚類召回率比較Fig.3 Comparison of recall between six uncertain data clustering methods in the continuous case

        2.2 實(shí)際數(shù)據(jù)對(duì)比分析

        本文選取的氣象數(shù)據(jù)源于美國(guó)國(guó)家大氣研究中心(http://rda.ucar.edu/datasets/ds512.0/)。數(shù)據(jù)集中共包含893個(gè)氣象站點(diǎn)的觀測(cè)數(shù)據(jù),且每個(gè)站點(diǎn)都包含366 d的氣象記錄,每條記錄包含當(dāng)天的平均氣溫、總降水量和平均濕度。本文根據(jù)亞洲K?ppen-Geiger氣候分類圖[18]標(biāo)記出各個(gè)站點(diǎn)的氣候類型(圖6),作為一種近似的真值。亞洲K?ppen-Geiger氣候分類圖中共有5種主要?dú)夂蝾愋停簾釒夂?、干燥氣候、暖溫帶氣候、冷溫帶氣候和極地氣候,而本文數(shù)據(jù)中沒(méi)有分布在極地氣候帶的測(cè)站,所以只有前4種主要?dú)夂蝾愋汀R粋€(gè)測(cè)站每天的氣象數(shù)據(jù)可建模為一個(gè)不確定對(duì)象的樣本點(diǎn),所以實(shí)際數(shù)據(jù)集中不確定對(duì)象的維數(shù)d=3、對(duì)象個(gè)數(shù)n=893、對(duì)象的樣本大小s=366、簇的個(gè)數(shù)k=4。

        圖7顯示了各個(gè)算法得到的氣象站點(diǎn)的氣候聚類結(jié)果,圖8顯示了各個(gè)算法的聚類質(zhì)量比較結(jié)果。通過(guò)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行定量比較,可以發(fā)現(xiàn):1)各算法聚類準(zhǔn)確率從高到低依次為:K-Medoids-KL、UK-means、RK-Medoids-KL、FOPTICS、DBSCAN-KL、OPTICS-KL。由 于 OPTICS-KL 與 DBSCAN-KL算法聚類結(jié)果主要包含一個(gè)較大的簇,故其召回率較高,但是二者準(zhǔn)確率都較差,因此綜合考慮準(zhǔn)確率與召回率可以發(fā)現(xiàn)這兩種方法的聚類質(zhì)量較差;FOPTICS算法的聚類結(jié)果召回率最低,且聚類準(zhǔn)確度中等,故可以認(rèn)為其聚類質(zhì)量亦較差。2)K-Medoids-KL、UK-means、RK-Medoids-KL 3種算法的召回率相差不大,且都維持了較高的水平(介于0.6~0.7之間),因此可以認(rèn)為這3種方法的聚類質(zhì)量較高,其中K-Medoids-KL算法的準(zhǔn)確率最高,達(dá)到0.76。3)采用相對(duì)熵相似性的算法中,基于劃分算法的聚類準(zhǔn)確率優(yōu)于基于密度的算法;采用期望距離的劃分算法聚類準(zhǔn)確率優(yōu)于采用模糊距離函數(shù)的密度算法。

        圖7 氣象數(shù)據(jù)聚類結(jié)果Fig.7 The clustering results of climate dataset

        2.3 模擬與實(shí)際實(shí)驗(yàn)結(jié)果分析

        下面基于模擬與實(shí)際數(shù)據(jù)實(shí)驗(yàn)結(jié)果,對(duì)進(jìn)行測(cè)試的6種不確定聚類算法性能進(jìn)行系統(tǒng)的總結(jié)與分析:1)RK-Medoids-KL與 FOPTICS算法的聚類質(zhì)量對(duì)數(shù)據(jù)維數(shù)、對(duì)象個(gè)數(shù)及采樣個(gè)數(shù)較為敏感,其原因在于:RK-Medoids-KL算法在代表對(duì)象交換階段隨機(jī)選取能優(yōu)化當(dāng)前聚類結(jié)果的非代表對(duì)象與代表對(duì)象進(jìn)行交換,且不能優(yōu)化結(jié)果的非代表對(duì)象也具有較小的交換概率,因此RK-Medoids-KL算法的結(jié)果具有隨機(jī)性;FOPTICS算法采用模糊距離函數(shù)度量對(duì)象間的相似性,對(duì)幾何空間高度重疊的簇區(qū)分能力有限,同時(shí)設(shè)置聚類參數(shù)獲得k個(gè)簇的過(guò)程亦存在隨機(jī)性。各算法聚類質(zhì)量均隨簇個(gè)數(shù)k的增加而降低,說(shuō)明當(dāng)前算法挖掘較為細(xì)致聚類模式的能力尚有欠缺。2)整體上,采用相對(duì)熵相似性的聚類算法聚類質(zhì)量最高,采用模糊距離相似性度量的算法次之,采用期望距離相似性度量的算法聚類質(zhì)量最差。這一實(shí)驗(yàn)結(jié)果說(shuō)明:相對(duì)熵可以同時(shí)顧及不確定對(duì)象在幾何空間和概率分布上的差異性,而期望距離僅僅利用了每個(gè)不確定對(duì)象的中心信息,缺乏區(qū)分概率分布差異性的能力。模糊距離能夠獲取數(shù)據(jù)集中更多的不確定信息,能夠在一定程度上區(qū)分不確定數(shù)據(jù)的概率分布差異性。3)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),采用相對(duì)熵相似性度量的方法中,基于劃分的算法(如RK-Medoids-KL和K-Medoids-KL)聚類質(zhì)量要整體優(yōu)于基于密度的算法(如DBSCAN-KL算法和OPTICS-KL)。當(dāng)前研究一般認(rèn)為基于密度算法的聚類質(zhì)量要優(yōu)于基于劃分的算法[6],本文實(shí)驗(yàn)結(jié)果得出相反結(jié)論可能有兩方面原因:一方面本文實(shí)驗(yàn)中輸入?yún)?shù)k是已知的,而DBSCAN-KL算法和OPTICS-KL算法是通過(guò)將μ設(shè)置為5,并設(shè)置多個(gè)ε值進(jìn)行實(shí)驗(yàn),以近似得到k個(gè)簇,不合理的參數(shù)設(shè)置可能會(huì)導(dǎo)致基于密度的算法的聚類質(zhì)量低于基于劃分的算法;另一方面本文實(shí)驗(yàn)中所采用的模擬數(shù)據(jù)與實(shí)際數(shù)據(jù)在概率空間內(nèi)簇間存在相互鄰接的特點(diǎn),將直接導(dǎo)致基于密度的算法聚類質(zhì)量下降。4)在實(shí)際數(shù)據(jù)集中,雖然K-Medoids-KL算法的聚類質(zhì)量最高,但是其聚類結(jié)果與K?ppen-Geiger氣候分類依然存在一定的偏差,其主要原因可能存在于兩方面:一方面在于氣候分區(qū)不僅考慮氣溫、降水、濕度的差異,還要綜合顧及其他氣候特征;另一方面簇的形態(tài)可能并非完全近似球形。本文研究對(duì)數(shù)據(jù)驅(qū)動(dòng)下的氣候分區(qū)可靠性給出了定量的實(shí)驗(yàn)結(jié)果。

        綜合上述實(shí)驗(yàn)結(jié)果與分析,可以進(jìn)一步對(duì)不確定聚類方法在地學(xué)問(wèn)題中的研究與應(yīng)用給出如下建議:1)在實(shí)際研究中,由于簇的形態(tài)與結(jié)構(gòu)是事先未知的,因此建議采用不同的不確定聚類算法進(jìn)行比較分析,目前采用相對(duì)熵相似性度量的方法聚類質(zhì)量相對(duì)較高;2)理論上基于密度的方法比基于劃分的方法適用性更強(qiáng),不僅可以發(fā)現(xiàn)近似球形的簇,亦可發(fā)現(xiàn)非球形的簇,然而現(xiàn)有基于密度的方法的聚類質(zhì)量反而不如基于劃分的方法,對(duì)于基于密度的方法如何選取合適的聚類參數(shù)、克服簇的鄰接等問(wèn)題需要開(kāi)展深入研究。

        3 總結(jié)與展望

        本文針對(duì)不確定數(shù)據(jù)聚類算法在地學(xué)應(yīng)用中的有效性缺乏客觀比較的問(wèn)題,選取了6種具有代表性算法,首先采用模擬數(shù)據(jù)進(jìn)行測(cè)試,進(jìn)而采用亞洲氣候數(shù)據(jù)集對(duì)其識(shí)別氣候區(qū)的能力進(jìn)行比較分析。通過(guò)準(zhǔn)確率和召回率定量度量6種方法處理幾何空間高度重疊、概率分布差異顯著的模擬數(shù)據(jù)與氣候數(shù)據(jù)時(shí)的聚類質(zhì)量后,發(fā)現(xiàn):1)對(duì)于同類型聚類算法,采用相對(duì)熵相似性度量的算法聚類質(zhì)量總體優(yōu)于采用期望距離和模糊距離函數(shù)的算法;2)采用相對(duì)熵相似性度量的劃分算法聚類質(zhì)量?jī)?yōu)于基于密度的算法,其中K-Medoids-KL算法聚類質(zhì)量最高。

        進(jìn)一步的研究工作主要集中在兩方面:1)本文僅是從數(shù)據(jù)本身的不確定性出發(fā),對(duì)各種聚類算法的應(yīng)用效果進(jìn)行了實(shí)驗(yàn)分析,未來(lái)研究中聚類模型本身的不確定性需要引起充分的重視;2)氣候分區(qū)的實(shí)際應(yīng)用中,雖然基于概率分布相似性的劃分聚類算法能夠取得較好的結(jié)果,但是需要用戶輸入簇的個(gè)數(shù),這是一般用戶很難確定的,因此需要進(jìn)一步學(xué)習(xí)如何確定數(shù)據(jù)集中簇的個(gè)數(shù)。

        [1] CHENG R,KALASHNIKOV D V,PRABHAKAR S.Evaluating probabilistic queries over imprecise data[A].Proceedings of the 2003 ACM SIGMOD International Conference on Management of Data[C].2003.551-562.

        [2] JIANG B,PEI J,TAO Y F,et al.Clustering uncertain data based on probability distribution similarity[J].IEEE Transactions on Knowledge and Data Engineering,2013,25(4):751-763.

        [3] AGRAWAL R,SRIKANT R.Privacy-preserving data mining[A].ACM SIGMOD Conference,2000.

        [4] KRIEGEL H P,PFEIFLE M.Density-based clustering of uncertain data[A].Proceedings of the 11th ACM SIGKDD International Conference on Knowledge Discovery in Data Mining[C].2005.672-677.

        [5] SHI W Z.Principles of Modeling Uncertainties in Spatial Data and Spatial Analyses[M].London:CRC Press,2010.

        [6] 鄧敏,劉啟亮,李光強(qiáng),等.空間聚類分析及應(yīng)用[M].北京:科學(xué)出版社,2011.

        [7] SATO M,SATO Y,JAIN L C,et al.Fuzzy Clustering Models and Applications[M].Physica-Verlag,1997.

        [8] DENG M,LIU Q L,CHENG T,et al.An adaptive spatial clustering algorithm based on Delaunay triangulation[J].Computers,Environment and Urban Systems,2011,35(4):320-332.

        [9] MACQUEEN J.Some methods for classification and analysis of multivariate observations[A].Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability[C].1967.281-297.

        [10] KAUFMAN L,ROUSSEEUW P.Clustering by Means of Medoids[M].North-Holland,1987.

        [11] CHAU M,CHENG R,KAO B,et al.Uncertain data mining:An example in clustering location data[A].Advances in Knowledge Discovery and Data Mining[C].Springer Berlin Heidelberg,2006.199-204.

        [12] NGAI W K,KAO B,CHUI C K,et al.Efficient clustering of uncertain data[A].Proceedings of the 6th International Conference on Data Mining[C].2006.436-445.

        [13] LEE S D,KAO B,CHENG R.Reducing UK-means to K-means[A].Proceedings of the 7th IEEE International Conference on Data Mining Workshops[C].2007.483-488.

        [14] KAO B,LEE S D,LEE F K F,et al.Clustering uncertain data using Voronoi diagrams and r-tree index[J].IEEE Transactions on Knowledge and Data Engineering,2011,22(9):1219-1233.

        [15] ESTER M,KRIEGEL H P,SANDER J,et al.A density-based algorithm for discovering clusters in large spatial databases with noise[A].Proceedings of KDD-96[C].1996.226-231.

        [16] ANKERST M,BREUNIG M M,KRIEGEL H P,et al.Optics:Ordering points to identify the clustering structure[A].Proceedings of the 1999 ACM SIGMOD International Conference on Management of Data[C].1999.49-60.

        [17] KRIEGEL H P,PFEIFLE M.Hierarchical density-based clustering of uncertain data[A].Proceedings of the 5th IEEE International Conference on Data Mining[C].IEEE,2005.

        [18] PEEL M C,F(xiàn)INLAYSON B L,MCMAHON T A.Updated world map of the K?ppen-Geiger climate classification[J].Hydrology &Earth System Sciences Discussions,2007,4(2):439-473.

        猜你喜歡
        相似性度量準(zhǔn)確率
        有趣的度量
        一類上三角算子矩陣的相似性與酉相似性
        模糊度量空間的強(qiáng)嵌入
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        淺析當(dāng)代中西方繪畫(huà)的相似性
        迷向表示分為6個(gè)不可約直和的旗流形上不變愛(ài)因斯坦度量
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        低滲透黏土中氯離子彌散作用離心模擬相似性
        欧美熟妇精品一区二区三区| 久久一区二区三区久久久| 成年美女黄的视频网站| aaa级久久久精品无码片| 激情人妻在线视频| 蜜桃精品国产一区二区三区 | 国模精品无码一区二区二区| 国产精品国产三级国产av主| 人妻夜夜爽天天爽三区麻豆av | 日韩在线一区二区三区免费视频| 欧美性一区| 我的美艳丝袜美腿情缘| 野花香社区在线视频观看播放 | 日本一区二区三深夜不卡| 在线观看 国产一区二区三区| 粗大的内捧猛烈进出视频| 欧美在线综合| 一区二区三区在线观看视频免费 | 日本淫片一区二区三区| 免费国产黄网站在线观看视频| 久久久久国产一区二区三区| 国产亚洲精品性爱视频| 国产老熟女伦老熟妇露脸| 欧美亚洲日本国产综合在线美利坚| 精品性影院一区二区三区内射| 亚洲美女av一区二区| 国产一区二区av免费在线观看| 熟女精品视频一区二区三区| 亚洲AV无码乱码1区久久| 国产午夜三级精品久久久| 欧美 日韩 人妻 高清 中文| 欧美精品偷自拍另类在线观看| 国产成人自拍小视频在线| 蜜桃av噜噜一区二区三区9| 美女无遮挡免费视频网站| 久久国产精品视频影院| 日本免费精品免费视频| 朝鲜女人大白屁股ass孕交| 乱子真实露脸刺激对白| 一区二区三区四区四色av| 精品国产亚洲亚洲国产|