亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        函數(shù)型數(shù)據(jù)的分步系統(tǒng)聚類算法

        2015-08-17 13:06:36郭均鵬王梅南高成菊
        系統(tǒng)管理學(xué)報(bào) 2015年6期
        關(guān)鍵詞:聚類距離函數(shù)

        郭均鵬,王梅南,高成菊,戴 暉

        (天津大學(xué) 管理與經(jīng)濟(jì)學(xué)部,天津 300072)

        在傳統(tǒng)技術(shù)條件下,人們能觀測(cè)和記錄到的數(shù)據(jù)往往是離散和有限的。然而,現(xiàn)實(shí)世界的數(shù)據(jù)卻更加復(fù)雜和多變,很多情況下,需要根據(jù)收集到的有限離散數(shù)據(jù)探索其內(nèi)在變化規(guī)律,如人體生長(zhǎng)曲線、氣溫變化、PH值變化等。在處理點(diǎn)數(shù)據(jù)的過程中發(fā)現(xiàn),當(dāng)觀測(cè)的時(shí)間點(diǎn)十分密集時(shí),數(shù)據(jù)在數(shù)據(jù)空間內(nèi)會(huì)體現(xiàn)出一定的函數(shù)特征。針對(duì)此類數(shù)據(jù)而言,傳統(tǒng)點(diǎn)數(shù)據(jù)的處理方法已不能滿足其分析要求。將具有函數(shù)特征的數(shù)據(jù)看作一個(gè)整體進(jìn)行研究,即函數(shù)型數(shù)據(jù)[1-4],對(duì)函數(shù)型數(shù)據(jù)進(jìn)行研究分析的方法就稱為函數(shù)型數(shù)據(jù)分析。函數(shù)型數(shù)據(jù)最早由Ramsay[1-3]提出,近年來,越來越多的學(xué)者開始關(guān)注和重視函數(shù)型數(shù)據(jù)的研究。

        聚類分析作為一種統(tǒng)計(jì)分析方法,被廣泛應(yīng)用于數(shù)學(xué)、計(jì)算機(jī)科學(xué)、生物學(xué)、經(jīng)濟(jì)學(xué)等許多領(lǐng)域,關(guān)于聚類的研究已取得了大量有意義的成果[5-8],但現(xiàn)有聚類算法大多是針對(duì)點(diǎn)數(shù)據(jù)進(jìn)行的聚類,針對(duì)函數(shù)型數(shù)據(jù)聚類的研究還相對(duì)較少。Abraham[9]將樣本數(shù)據(jù)擬合為B樣條函數(shù),并用k-means(k均值)方法對(duì)函數(shù)型數(shù)據(jù)進(jìn)行聚類。Chiou[10]在最大程度劃分函數(shù)型數(shù)據(jù)的條件下,運(yùn)用FFT(Forward Functional Testing)模型確定聚類數(shù),并在此基礎(chǔ)上進(jìn)行聚類。Liu[11]提出同步校準(zhǔn)和聚類的方法,改進(jìn)了函數(shù)型數(shù)據(jù)分析先校準(zhǔn)再進(jìn)行聚類的傳統(tǒng)模式。王劼[12]定義了一種函數(shù)型數(shù)據(jù)距離,并在此基礎(chǔ)上對(duì)函數(shù)型數(shù)據(jù)進(jìn)行聚類。陳曉鋒[13]將Pearson相似系數(shù)引入到函數(shù)型數(shù)據(jù)聚類分析中,利用基函數(shù)展開對(duì)函數(shù)型數(shù)據(jù)進(jìn)行聚類,研究了歐式距離無(wú)法刻畫的曲線間的形態(tài)差異。Hebrail[14]運(yùn)用動(dòng)態(tài)規(guī)劃方法,在確定各類樣本數(shù)的前提下,用探索分析算法對(duì)函數(shù)型數(shù)據(jù)進(jìn)行聚類。Sangalli[15]提出了一種新k均值算法,可以有效處理振幅和階段變量,在對(duì)未校準(zhǔn)函數(shù)型數(shù)據(jù)進(jìn)行校準(zhǔn)的同時(shí)對(duì)其進(jìn)行聚類。Jank[16]以蒙特卡洛EM算法為基礎(chǔ),提出上升EM和遺傳上升EM算法,并對(duì)網(wǎng)站拍賣數(shù)據(jù)庫(kù)生成的函數(shù)型數(shù)據(jù)進(jìn)行了驗(yàn)證。

        現(xiàn)有函數(shù)型數(shù)據(jù)聚類算法大多以數(shù)據(jù)間的實(shí)際距離作為聚類標(biāo)準(zhǔn),聚類結(jié)果能夠在距離上接近,但不能保證同一類中的數(shù)據(jù)也具有相似的形態(tài)特征。考慮到導(dǎo)函數(shù)可以很好地反映數(shù)據(jù)的內(nèi)在特征,本文首次將導(dǎo)函數(shù)距離引入函數(shù)型數(shù)據(jù)的聚類算法中,將實(shí)際距離與導(dǎo)函數(shù)距離相結(jié)合作為聚類標(biāo)準(zhǔn),使聚類結(jié)果不僅能夠在距離上接近,而且可以保證同類數(shù)據(jù)具有相似的形態(tài)特征,基于此,設(shè)計(jì)了函數(shù)型數(shù)據(jù)的分步系統(tǒng)聚類算法。具體而言,首先根據(jù)實(shí)際距離對(duì)函數(shù)型數(shù)據(jù)進(jìn)行系統(tǒng)聚類,得到在距離上接近的若干個(gè)新類;然后,在此基礎(chǔ)上,根據(jù)導(dǎo)函數(shù)的距離對(duì)每一個(gè)新類中的數(shù)據(jù)進(jìn)行進(jìn)一步聚類,得到在距離上接近且具有相似形態(tài)特征的新類。此外,作為此算法的一個(gè)重要應(yīng)用,在上述研究的基礎(chǔ)上,本文還提出了一種基于本文算法的函數(shù)型數(shù)據(jù)預(yù)測(cè)方法,并進(jìn)行了實(shí)例研究。

        1 函數(shù)型數(shù)據(jù)的生成

        函數(shù)型數(shù)據(jù)是以函數(shù)為表現(xiàn)形式的一種數(shù)據(jù),它將函數(shù)看作一個(gè)整體,而非一系列單獨(dú)的個(gè)體。其表現(xiàn)形式為光滑的曲線xi(t),i=1,2,…,n,其中,t為類似時(shí)間的一類變量,n為函數(shù)型數(shù)據(jù)的個(gè)數(shù)。然而,現(xiàn)實(shí)世界搜集到的數(shù)據(jù)往往是離散的點(diǎn)數(shù)據(jù),要進(jìn)行函數(shù)型數(shù)據(jù)分析,首先要通過擬合將離散的點(diǎn)數(shù)據(jù)生成為函數(shù)型數(shù)據(jù)。假設(shè)第i條曲線是由一系列離散的觀測(cè)數(shù)據(jù)yi1,yi2,…,yin得到,第1步就是將這些值轉(zhuǎn)化為函數(shù)xi(t)。如果觀測(cè)到的數(shù)據(jù)是準(zhǔn)確的,則該過程稱為插值;如果觀測(cè)數(shù)據(jù)存在誤差,則該過程稱為平滑。

        1.1 基函數(shù)

        函數(shù)型數(shù)據(jù)擬合最常用的方法是基函數(shù)擬合?;瘮?shù)是一系列具有一定性質(zhì)的獨(dú)立函數(shù)φi(i=1,2,…,K)的集合,通過線性組合表示函數(shù),其形式為,其中φk是K個(gè)已知的基函數(shù)。B樣條基是對(duì)非周期性數(shù)據(jù)進(jìn)行擬合最常用的樣條函數(shù)系統(tǒng)[9],本文采用B樣條基對(duì)函數(shù)型數(shù)據(jù)進(jìn)行擬合。

        樣條函數(shù)空間。將給定區(qū)間[a,b]劃分為N個(gè)子區(qū)間[xi—1,xi],i=1,2,…,N,其中a=x0<x1<…<xN=b。由下面遞推公式所得到的Bi,k(t)即稱為該劃分上的k階B樣條基函數(shù):

        1.2 函數(shù)平滑

        根據(jù)數(shù)據(jù)特征選擇合適的基函數(shù)系統(tǒng)后,需要計(jì)算系數(shù)向量,從而得到函數(shù)型數(shù)據(jù)[6]:

        式中:向量C表示系數(shù)矩陣ck;向量Φ表示矩陣φk(t)。在此,通過最小化代價(jià)函數(shù)來計(jì)算C的估計(jì)值:

        為求其解,令等式右邊導(dǎo)數(shù)為0:2ΦΦ′—2Φ′y=0,即可求得C的估計(jì)值。

        1.3 函數(shù)校準(zhǔn)

        函數(shù)型數(shù)據(jù)與點(diǎn)數(shù)據(jù)不同,其變化包括振幅和相位兩方面。函數(shù)型數(shù)據(jù)校準(zhǔn)的目的是將所有曲線中存在錯(cuò)位的自變量t移動(dòng)到同一標(biāo)準(zhǔn),從而只對(duì)振幅的變化進(jìn)行分析即可。通過曲線的校準(zhǔn),能夠使不同曲線的特征在自變量相近的地方體現(xiàn)出來。

        如圖1所示,函數(shù)型數(shù)據(jù)x1(t)與x2(t)雖然具有相同的函數(shù)特征,但是在每個(gè)時(shí)間點(diǎn)t的取值不同。為了方便比較,就要去除干擾項(xiàng),該過程就是函數(shù)型數(shù)據(jù)的校準(zhǔn)。

        函數(shù)型數(shù)據(jù)校準(zhǔn)最簡(jiǎn)單也是最常用的方法是時(shí)間軸t平移。設(shè)n個(gè)函數(shù)型數(shù)據(jù)xi(t),i=1,2,…,n,在區(qū)間[t1,t2]上有意義,同時(shí)在區(qū)間外也是有意義的。定義平移變量δi,令(t)=xi(t+δi),通過求下式的最小化確定平移量δi:

        圖1 函數(shù)型數(shù)據(jù)的校準(zhǔn)

        本文算法在利用函數(shù)距離進(jìn)行聚類得到初步聚類結(jié)果的基礎(chǔ)上,采用函數(shù)型數(shù)據(jù)的導(dǎo)函數(shù)距離對(duì)函數(shù)型數(shù)據(jù)進(jìn)行二次聚類,即充分考查函數(shù)型數(shù)據(jù)的內(nèi)部特征,根據(jù)函數(shù)型數(shù)據(jù)的內(nèi)在變化規(guī)律對(duì)新類進(jìn)行進(jìn)一步劃分,無(wú)形中起到了校準(zhǔn)的效果,因此,無(wú)須提前進(jìn)行校準(zhǔn)處理。

        2 函數(shù)型數(shù)據(jù)的分步系統(tǒng)聚類算法

        基本思想:設(shè)有n個(gè)樣品,每個(gè)樣品測(cè)得p項(xiàng)指標(biāo),在初始時(shí)將n個(gè)樣品各自看成一類。首先,根據(jù)函數(shù)型數(shù)據(jù)的實(shí)際距離,采用自底向上聚類算法對(duì)數(shù)據(jù)進(jìn)行初步聚類;然后,計(jì)算函數(shù)型數(shù)據(jù)的導(dǎo)函數(shù)及導(dǎo)函數(shù)之間的距離,根據(jù)函數(shù)型數(shù)據(jù)的導(dǎo)函數(shù)距離對(duì)每一類中的數(shù)據(jù)進(jìn)行進(jìn)一步聚類,得到在距離上接近且同類數(shù)據(jù)具有相似形態(tài)特征的精細(xì)劃分。

        2.1 定義距離

        在聚類的過程中,函數(shù)型數(shù)據(jù)的實(shí)際距離用函數(shù)間的距離進(jìn)行度量,數(shù)據(jù)內(nèi)在特征的相似性用導(dǎo)函數(shù)距離進(jìn)行度量。

        首先定義聚類過程中的距離,設(shè)函數(shù)型數(shù)據(jù)xi(t),i=1,2,…,n在區(qū)間[t1,t2]上可積,x′i(t),i=1,2,…,n是其導(dǎo)函數(shù)。

        函數(shù)型數(shù)據(jù)x1(t)、x2(t)在區(qū)間[t1,t2]上的距離定義為[12]

        函數(shù)型數(shù)據(jù)的導(dǎo)函數(shù)x′1(t)、x′2(t)在區(qū)間[t1,t2]上的距離定義為[12]

        函數(shù)型數(shù)據(jù)xi(t),i=1,2,…,n的均值函數(shù)定義為[12]

        2.2 聚類過程

        首先將記錄到的點(diǎn)數(shù)據(jù)擬合為函數(shù)型數(shù)據(jù),然后針對(duì)函數(shù)型數(shù)據(jù)進(jìn)行分步系統(tǒng)聚類。聚類算法的步驟如下:

        (1)聚類。首先,根據(jù)函數(shù)型數(shù)據(jù)的實(shí)際距離對(duì)數(shù)據(jù)進(jìn)行第1步聚類。

        ①利用式(4)計(jì)算n個(gè)函數(shù)型數(shù)據(jù)兩兩之間的距離,得到數(shù)據(jù)之間的距離矩陣D(0);

        ②令s表示迭代次數(shù),k表示類的個(gè)數(shù)。初始值:s=1,k=n,n個(gè)樣品各自構(gòu)成一類,第i類記為Gi={xi(t)}(i=1,2,…,n)。此時(shí)的類間距離就是樣品間的距離;

        ③根據(jù)計(jì)算得到的距離矩陣D(s),合并類間距離最小的兩類形成一個(gè)新類。新類的中心由均值式(6)表示。令k=n—s;

        ④s=s+1。更新新生成的類的數(shù)據(jù)對(duì)象,由式(4)計(jì)算新的類中心與其他類之間的距離;

        ⑤迭代計(jì)算③和④,直到得到最佳分類個(gè)數(shù)k′。

        通過第1步聚類,將原始數(shù)據(jù)劃分為k′個(gè)新類,得到基于實(shí)際距離的聚類結(jié)果,同類中的數(shù)據(jù)能夠在距離上接近,但不能保證具有相似的形態(tài)特征。

        (2)聚類。將第1步聚類生成的k′個(gè)類看做k′組新原始數(shù)據(jù),針對(duì)每組新原始數(shù)據(jù)逐一進(jìn)行進(jìn)一步聚類。

        針對(duì)每組新原始數(shù)據(jù),計(jì)算其中函數(shù)型數(shù)據(jù)的導(dǎo)函數(shù)x′i(t),并利用式(5)計(jì)算導(dǎo)函數(shù)兩兩之間的距離,得到導(dǎo)函數(shù)距離矩陣和,根據(jù)導(dǎo)函數(shù)距離,重復(fù)第1次聚類中的5個(gè)步驟進(jìn)行第2次聚類,根據(jù)形態(tài)差異進(jìn)行更深入的劃分。

        本文算法將實(shí)際距離和導(dǎo)函數(shù)距離相結(jié)合,在不同層次上進(jìn)行聚類,在考慮函數(shù)型數(shù)據(jù)實(shí)際距離的同時(shí),兼顧了函數(shù)型數(shù)據(jù)本身的內(nèi)在變化規(guī)律。利用該算法進(jìn)行聚類,同類函數(shù)型數(shù)據(jù)不僅在實(shí)際距離上接近,而且具有相似的變化特征。

        3 基于隨機(jī)模擬的算法評(píng)價(jià)

        為了對(duì)本文算法的有效性進(jìn)行檢驗(yàn),用Matlab[17]進(jìn)行模擬實(shí)驗(yàn)。主要思想是:構(gòu)造已知?jiǎng)澐值暮瘮?shù)型數(shù)據(jù),用本文算法進(jìn)行聚類分析,將生成的分類與真實(shí)分類進(jìn)行比較,對(duì)算法的有效性進(jìn)行分析。

        3.1 隨機(jī)數(shù)的生成

        函數(shù)型數(shù)據(jù)隨機(jī)數(shù)的生成和傳統(tǒng)點(diǎn)數(shù)據(jù)的生成過程不同,需要對(duì)點(diǎn)數(shù)據(jù)進(jìn)行擬合。這就要求點(diǎn)數(shù)據(jù)的生成是隨機(jī)的,從而保證的函數(shù)型數(shù)據(jù)具有隨機(jī)性。這里假設(shè)所有數(shù)據(jù)的變量取值范圍相同,并且在相同的時(shí)間間隔內(nèi)取值,即x坐標(biāo)相同。

        本文生成隨機(jī)函數(shù)型數(shù)據(jù)的主要方法是先隨機(jī)生成3個(gè)具有明顯劃分的函數(shù)型數(shù)據(jù),以此為中心擴(kuò)充為4類函數(shù)型數(shù)據(jù)。

        (1)生成區(qū)間中點(diǎn)的隨機(jī)點(diǎn)數(shù)據(jù)集,擬合生成原始函數(shù)型數(shù)據(jù)曲線。首先隨機(jī)生成一個(gè)包含150個(gè)二維實(shí)數(shù)數(shù)據(jù)的點(diǎn)數(shù)據(jù)集作為區(qū)間數(shù)據(jù)集的中點(diǎn),這150個(gè)實(shí)數(shù)點(diǎn)由3類相互獨(dú)立的數(shù)據(jù)集組成,其中每一類各包含50個(gè)點(diǎn),此即初始類別劃分情況。數(shù)據(jù)集中每個(gè)點(diǎn)由一個(gè)確定的變量x和一個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的y軸坐標(biāo)確定,3個(gè)數(shù)據(jù)集中的點(diǎn)根據(jù)以下參數(shù)分別隨機(jī)產(chǎn)生:

        將生成的3個(gè)點(diǎn)數(shù)據(jù)集表示為(a1j,a2j,a3j,…,a50j),j=1,2,3。

        通過前面描述的函數(shù)型數(shù)據(jù)的生成方法將3個(gè)數(shù)據(jù)集分別擬合為函數(shù)型數(shù)據(jù),如圖2所示。

        圖2 原始函數(shù)型數(shù)據(jù)曲線

        由圖2可以很明顯地看出,由于均值方差的不同,3個(gè)函數(shù)型數(shù)據(jù)的取值和形態(tài)變化都有很大的差異。

        (2)產(chǎn)生隨機(jī)區(qū)間數(shù)據(jù)集,隨機(jī)產(chǎn)生3組函數(shù)型數(shù)據(jù)集。以3個(gè)數(shù)據(jù)集中的點(diǎn)為中心,橫坐標(biāo)不變,縱坐標(biāo)延y軸方向擴(kuò)充為區(qū)間數(shù)[yij—r,yij+r],其中r=1,在y軸方向可得到以下3個(gè)區(qū)間數(shù)據(jù)集:

        對(duì)于每個(gè)區(qū)間數(shù)據(jù)集(j=1),從每個(gè)區(qū)間數(shù)內(nèi)隨機(jī)選取1個(gè)點(diǎn)數(shù)據(jù),組成一個(gè)新的點(diǎn)數(shù)據(jù)集,重復(fù)6次,可以得到6個(gè)新點(diǎn)數(shù)據(jù)集,記為(b1,t,b2,t,…,b50,t),t=1,2,…,6。同樣地,對(duì)于后面2個(gè)區(qū)間數(shù)據(jù)集(j=2,3)重復(fù)上述步驟,也各得到6個(gè)新的點(diǎn)數(shù)據(jù)集。最終得到3×6個(gè)點(diǎn)數(shù)據(jù)集,共3類。利用前文描述的函數(shù)型數(shù)據(jù)生成方法將3個(gè)數(shù)據(jù)集分別擬合為函數(shù)型數(shù)據(jù)。

        (3)選取第1步生成的點(diǎn)數(shù)據(jù)集(a1,2,a2,2,…,a50,2),并進(jìn)行如下變化:

        其中,mi=i×0.1,i=1,2,…,6??梢陨?個(gè)點(diǎn)數(shù)據(jù)集,其中每個(gè)數(shù)據(jù)集中包含50個(gè)點(diǎn)數(shù)據(jù)。由于這6個(gè)點(diǎn)數(shù)據(jù)集通過平移得到,故具有相同的形態(tài)特征。同樣,根據(jù)得到的6個(gè)點(diǎn)數(shù)據(jù)集生成6個(gè)函數(shù)型數(shù)據(jù)。

        通過上述步驟,共得到4×6個(gè)數(shù)據(jù)點(diǎn)集,分為4類,并根據(jù)這些數(shù)據(jù)點(diǎn)集生成4×6個(gè)函數(shù)型數(shù)據(jù),如圖3所示。

        圖3 模擬實(shí)驗(yàn)構(gòu)造出的函數(shù)型數(shù)據(jù)

        由圖3可見,對(duì)于前3類而言,同一類中的數(shù)據(jù)在實(shí)際距離上都很接近,第4類同第2類在距離上也很接近,但與第2類不同的是,第4類中的數(shù)據(jù)都具有相同的變化特征。

        3.2 聚類

        對(duì)構(gòu)造好的函數(shù)型數(shù)據(jù)分別利用本文算法和傳統(tǒng)算法進(jìn)行聚類,將聚類結(jié)果與真實(shí)分類進(jìn)行對(duì)比,并對(duì)兩種算法的有效性和精確度進(jìn)行比較。

        對(duì)比算法的基本步驟:將n個(gè)函數(shù)型數(shù)據(jù)看做n個(gè)原始分類,計(jì)算n個(gè)原始分類兩兩之間的距離,合并類間距離最小的兩類形成一個(gè)新類,此時(shí)新原始分類變?yōu)閚—1個(gè);計(jì)算n—1個(gè)新分類兩兩之間的距離,合并類間距離最小的兩類再次形成一個(gè)新類,由此,新原始分類變?yōu)閚—2個(gè);依次迭代進(jìn)行,直到得到期望的最佳分類個(gè)數(shù)。

        分別利用本文算法和傳統(tǒng)算法進(jìn)行聚類,聚類結(jié)果如圖4、5所示。

        圖4 本文算法聚類結(jié)果

        圖5 對(duì)比算法聚類結(jié)果

        3.3 評(píng)價(jià)指標(biāo)

        CR指數(shù)(Corrected Rand Index)是用來衡量同一數(shù)據(jù)集的2個(gè)不同劃分之間差異的指標(biāo),最早由Hubert等[18]提出,其定義如下:

        設(shè) 有n個(gè) 樣 品,U={u1,…,ui,…,uR},V={υ1,…,υj,…,υC}是這同一組樣品的2個(gè)不同的劃分,分別包含R類和C類,則指數(shù)

        CR指數(shù)取值在[—1,1]之間,其值越接近于1,表示U和V兩種劃分越趨于一致;反之,其值接近0或?yàn)樨?fù)時(shí)說明兩種劃分差異較大。CR指數(shù)是一種外部評(píng)價(jià)指標(biāo),即通過對(duì)比聚類結(jié)果和原始給定正確的類別信息來衡量聚類性能的優(yōu)劣,其計(jì)算結(jié)果不受聚類分析算法所選擇距離度量的影響,較為公正客觀,但只能應(yīng)用于標(biāo)準(zhǔn)先驗(yàn)聚類劃分已知的情況。在隨機(jī)模擬中,通常令U為原始先驗(yàn)劃分,V為通過聚類分析得到的劃分結(jié)果,因此,可以利用CR指數(shù)反映它們之間的差距,指數(shù)越接近于1,表明聚類結(jié)果越接近于真實(shí)的劃分,對(duì)應(yīng)的聚類算法則更有效。

        3.4 聚類結(jié)果分析

        用CR指數(shù)衡量聚類結(jié)果,并將聚類結(jié)果與先驗(yàn)類別對(duì)比,形成聚類正確率,結(jié)果如表1所示。

        表1 聚類結(jié)果對(duì)比

        由表1可以看出,本文算法聚類結(jié)果24條曲線中僅有1條劃分錯(cuò)誤,準(zhǔn)確率達(dá)到95.8%,而對(duì)比算法準(zhǔn)確率僅為75%,因此,本文算法的聚類結(jié)果與實(shí)際結(jié)果更接近,要優(yōu)于傳統(tǒng)聚類算法。通過CR指數(shù)也可以看出,本文算法在對(duì)數(shù)據(jù)進(jìn)行深入挖掘時(shí),更能充分利用函數(shù)型數(shù)據(jù)的信息對(duì)數(shù)據(jù)進(jìn)行有效的劃分。

        4 實(shí)例應(yīng)用

        4.1 聚類分析

        為驗(yàn)證本文算法在實(shí)際應(yīng)用中的有效性,選取40個(gè)國(guó)家1970~2010年的人均GDP數(shù)據(jù),運(yùn)用本文分步系統(tǒng)聚類算法對(duì)其進(jìn)行聚類分析。首先,根據(jù)原始數(shù)據(jù)生成函數(shù)型數(shù)據(jù)[19],如圖6所示。

        對(duì)40個(gè)國(guó)家按實(shí)際距離進(jìn)行第1步聚類,聚類結(jié)果如圖7所示。

        圖6 各國(guó)人均GDP曲線

        圖7 第1步聚類結(jié)果

        由圖7可見,第1步聚類將40個(gè)國(guó)家分為A、B、C等3類。A類為澳大利亞、丹麥、加拿大、美國(guó)。B類為奧地利、比利時(shí)、芬蘭、法國(guó)、德國(guó)、意大利、日本、荷蘭。C類為阿富汗、阿爾巴尼亞、阿爾及利亞、巴林、孟加拉共和國(guó)、不丹等。

        A類屬于發(fā)達(dá)國(guó)家,經(jīng)濟(jì)發(fā)展比較穩(wěn)定,1970~2010年人均GDP一直處于世界前列;B類也屬于發(fā)達(dá)國(guó)家,但與A類不同的是,這些國(guó)家在70年代人均GDP較低,但發(fā)展較快,GDP水平快速提高,有的甚至超過了A類國(guó)家,實(shí)際劃分也將這些國(guó)家劃分到發(fā)達(dá)國(guó)家的行列;C類國(guó)家比較多,進(jìn)行進(jìn)一步聚類可以得到更精確的結(jié)果,但是第3類國(guó)家人均GDP都比較低,繼續(xù)用實(shí)際距離進(jìn)行聚類意義不大。

        運(yùn)用本文算法的第2步進(jìn)行聚類,即根據(jù)導(dǎo)函數(shù)距離進(jìn)行聚類,結(jié)果如圖8所示。

        第2步聚類將C類又分為C1和C2兩類。C1為阿富汗、阿爾巴尼亞、孟加拉共和國(guó)、不丹、中國(guó)、布基納法索等。C2為阿爾及利亞、巴林、不丹、保加利亞、哥倫比亞、埃及、加納、圭亞那、肯尼亞等。

        由圖8可見,C1類國(guó)家雖然仍屬于不發(fā)達(dá)國(guó)家,但經(jīng)濟(jì)發(fā)展十分迅速,而C2類國(guó)家的經(jīng)濟(jì)發(fā)展十分緩慢。

        圖8 最終聚類結(jié)果

        4.2 基于分步系統(tǒng)聚類算法的函數(shù)型數(shù)據(jù)補(bǔ)齊方法

        作為本文分步系統(tǒng)聚類算法的一個(gè)重要應(yīng)用,本文還提出了一種基于本文算法的函數(shù)型數(shù)據(jù)補(bǔ)齊方法。其基本思想是:首先,利用本文算法對(duì)函數(shù)型數(shù)據(jù)進(jìn)行聚類,找到與目標(biāo)函數(shù)型數(shù)據(jù)距離接近、形態(tài)特征相似的若干個(gè)同類;然后,利用同類中已知函數(shù)型數(shù)據(jù)的均值對(duì)目標(biāo)函數(shù)型數(shù)據(jù)中的缺失數(shù)據(jù)進(jìn)行補(bǔ)齊。該數(shù)據(jù)補(bǔ)齊方法根據(jù)數(shù)據(jù)變化特征和均值對(duì)缺失數(shù)據(jù)進(jìn)行補(bǔ)齊,是時(shí)間和空間兩方面的有效結(jié)合,不僅可以保證補(bǔ)齊數(shù)據(jù)在距離上與實(shí)際數(shù)據(jù)相接近,而且可以保證與原始數(shù)據(jù)保持相似的變化規(guī)律。且其將同類中所有已知函數(shù)型數(shù)據(jù)引入算法中來,能有效減少“噪聲”的影響。

        以4.1節(jié)中數(shù)據(jù)為例,假設(shè)圭亞那2000~2010年的人均GDP數(shù)據(jù)未知,圭亞那屬于C2類國(guó)家,因此,利用C2類中其他國(guó)家2000~2010年的人均GDP均值對(duì)圭亞那的人均GDP進(jìn)行補(bǔ)齊,實(shí)驗(yàn)結(jié)果如圖9所示。

        圖9 數(shù)據(jù)補(bǔ)齊

        由圖9可見,預(yù)測(cè)結(jié)果曲線與實(shí)際值曲線不僅在距離上接近,而且具有相同的變化特征,表明該方法能夠?qū)瘮?shù)型數(shù)據(jù)中的缺失值進(jìn)行有效地補(bǔ)齊。由于實(shí)驗(yàn)條件的限制,本文算法收集到的數(shù)據(jù)有限,數(shù)據(jù)量較小,實(shí)驗(yàn)中未能取得非常精確的結(jié)果,就統(tǒng)計(jì)學(xué)意義上而言不夠恰當(dāng),但本部分實(shí)驗(yàn)的主要目的是為了更好地描述本文提出的函數(shù)型數(shù)據(jù)補(bǔ)齊方法,而不在于得到精確地?cái)?shù)據(jù)結(jié)果,在以后的研究應(yīng)用或?qū)嶋H應(yīng)用中應(yīng)選擇大數(shù)據(jù)進(jìn)行實(shí)驗(yàn),以得到更加精確的實(shí)驗(yàn)結(jié)果。

        5 結(jié)語(yǔ)

        在對(duì)傳統(tǒng)聚類算法研究的基礎(chǔ)上,根據(jù)函數(shù)型數(shù)據(jù)的特點(diǎn),將導(dǎo)函數(shù)距離引入函數(shù)型數(shù)據(jù)的聚類中來,將實(shí)際距離和導(dǎo)函數(shù)距離相結(jié)合作為聚類標(biāo)準(zhǔn),提出了基于函數(shù)型數(shù)據(jù)實(shí)際距離和導(dǎo)函數(shù)距離的分步系統(tǒng)聚類算法,使聚類結(jié)果不僅能夠在距離上接近,而且可以保證同類數(shù)據(jù)具有相似的形態(tài)特征。利用隨機(jī)模擬對(duì)算法的有效性進(jìn)行了檢驗(yàn),并針對(duì)40個(gè)國(guó)家41年的人均GDP數(shù)據(jù)進(jìn)行了實(shí)例研究,模擬實(shí)驗(yàn)和實(shí)例研究結(jié)果均表明,該算法能夠?qū)瘮?shù)型數(shù)據(jù)進(jìn)行有效聚類。最后,在此基礎(chǔ)上,提出了一種基于函數(shù)型數(shù)據(jù)分步系統(tǒng)聚類算法的數(shù)據(jù)補(bǔ)齊方法,實(shí)例研究結(jié)果表明,該方法能夠?qū)瘮?shù)型數(shù)據(jù)進(jìn)行有效地補(bǔ)齊。

        猜你喜歡
        聚類距離函數(shù)
        二次函數(shù)
        第3講 “函數(shù)”復(fù)習(xí)精講
        二次函數(shù)
        函數(shù)備考精講
        算距離
        基于DBSACN聚類算法的XML文檔聚類
        每次失敗都會(huì)距離成功更近一步
        山東青年(2016年3期)2016-02-28 14:25:55
        基于改進(jìn)的遺傳算法的模糊聚類算法
        愛的距離
        母子健康(2015年1期)2015-02-28 11:21:33
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        手机看片福利一区二区三区| 中文日本强暴人妻另类视频| 日韩少妇人妻中文视频| 狠狠躁夜夜躁人人爽天天古典| 久久99精品久久久久久| 中文字幕日本熟妇少妇| 日本精品久久不卡一区二区| 人妻中文字幕无码系列| 久久婷婷色综合一区二区| 国产亚洲日韩AV在线播放不卡| 日韩一区二区三区熟女| 欧美日韩亚洲中文字幕二区| 国产av无码专区亚洲av手机麻豆| 亚洲午夜无码久久久久软件| 中文字幕一二三四五六七区| 国产又粗又黄又爽的大片| 亚洲成a人片在线| 中文字幕中文一区中文字幕| 一区二区三区国产免费视频 | 午夜福利av无码一区二区| 欧美精品黄页在线观看视频| 亚洲黄色官网在线观看| 精品一区二区三区四区国产| 免费人成在线观看视频播放| 亚洲精品中文字幕不卡在线| 国产一区二区三区精品毛片| 后入到高潮免费观看| 国产天堂网站麻豆| 最新国产主播一区二区| 欧美亅性猛交内射| 国产超碰人人做人人爱ⅴa| 久久91精品国产91久| 在教室轮流澡到高潮h免费视| 国产乱子伦农村xxxx| 伊人一道本| 久久精品伊人久久精品伊人| 欧美最猛黑人xxxx| 99久久久无码国产精品9| 日本视频一区二区二区| 国产精品美女久久久网av| 亚洲av无码久久寂寞少妇|