亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于距離和權(quán)重改進(jìn)的K-means算法

        2020-12-07 08:20:22王子龍宋亞飛
        關(guān)鍵詞:復(fù)雜度聚類定義

        王子龍,李 進(jìn),宋亞飛

        1.空軍工程大學(xué) 研究生院,西安 710051

        2.空軍工程大學(xué) 防空反導(dǎo)學(xué)院,西安 710051

        1 引言

        從海量數(shù)據(jù)中通過(guò)一定方法搜尋到隱藏于其中的信息的技術(shù)稱為數(shù)據(jù)挖掘(Data Mining)技術(shù)[1],在大數(shù)據(jù)、云計(jì)算高速發(fā)展的今天數(shù)據(jù)挖掘技術(shù)得到了廣泛的應(yīng)用。聚類是數(shù)據(jù)挖掘的一種方法,通過(guò)一定過(guò)程將數(shù)據(jù)集分為多個(gè)簇,簇內(nèi)數(shù)據(jù)之間的相似度高,簇間數(shù)據(jù)之間的相似度低[2]。根據(jù)聚類手段的差異,聚類算法可分為劃分聚類、層次聚類、基于密度的聚類、基于網(wǎng)格的聚類和基于模型的聚類[3]。

        由MacQueen J[4]提出的K-means 算法是最廣泛使用的聚類算法[5],它是一種劃分式聚類算法。經(jīng)典K-means聚類算法具有一定的局限性,由于算法的初始聚類中心是隨機(jī)設(shè)置的,聚類結(jié)果不穩(wěn)定而且易陷入局部最優(yōu),結(jié)果易受噪聲點(diǎn)影響;在聚類之前需要用戶預(yù)先設(shè)定K值,算法的自適應(yīng)性較差[6]。

        近年來(lái)大量國(guó)內(nèi)外學(xué)者在經(jīng)典K-means算法的基礎(chǔ)上對(duì)其進(jìn)行了改進(jìn)。Huang等人[7]提出了一種名為WKM(WeightedK-Means)的算法,給各個(gè)特征取不同的權(quán)重,用特征加權(quán)進(jìn)行中心點(diǎn)的選擇,綜合考慮了不同維度數(shù)據(jù)對(duì)聚類結(jié)果的影響,但并未說(shuō)明特征權(quán)重和特征值的尺度之間的關(guān)系。左進(jìn)等人[8]提出依據(jù)數(shù)據(jù)的緊密性來(lái)排除數(shù)據(jù)集中離散點(diǎn)的影響,均勻選擇初始聚類中心,但這種方法仍需手動(dòng)確定K值。朱二周[9]等人提出了一種ZK-means 算法,初始聚類中心選的是數(shù)據(jù)集中密度較高的點(diǎn),但后面未考慮噪點(diǎn)的影響。張素潔等人[10]根據(jù)樣本集中的最遠(yuǎn)距離和樣本密度來(lái)對(duì)中心點(diǎn)進(jìn)行選取,然后綜合SSE 值最終得出最優(yōu)的K值,該算法獲得了較高的聚類準(zhǔn)確率,但時(shí)間復(fù)雜度較高。Zhang等人[11]提出了DCK-means算法,加入了Canopy的思想,同時(shí)在尋找初始點(diǎn)的過(guò)程中又結(jié)合了樣本密度,在處理低密度區(qū)域時(shí)效果良好,但可能在聚類的過(guò)程中將離群點(diǎn)歸為一個(gè)類,影響了聚類效果。錢雪忠等人[12]在密度峰值算法的基礎(chǔ)上引入了K近鄰思想來(lái)確定數(shù)據(jù)點(diǎn)的局部密度,然后提出了一種新的自適應(yīng)聚合策略,有效提高了聚類準(zhǔn)確度和質(zhì)量,但是在此過(guò)程中引入了較高的時(shí)間復(fù)雜度,不適合在大型數(shù)據(jù)集上使用。王義武等人[13]運(yùn)用空間投影的思想,將特征空間劃分為聚類空間和噪聲空間,并舍棄噪聲空間,而聚類空間密度更高維度更小,使得算法時(shí)間消耗減小,但是當(dāng)數(shù)據(jù)集特征維度高且稀疏時(shí),算法可能找不到最優(yōu)子空間。郭永坤[14]等人引入了高密度優(yōu)先聚類的思想,提高了密度差異較大數(shù)據(jù)集的聚類效果,并且增強(qiáng)了算法的穩(wěn)定性,但該方法未考慮孤立點(diǎn)存在的情況,而且在密度差異較小的數(shù)據(jù)集上的聚類效果一般。

        針對(duì)上述部分改進(jìn)K-means算法存在對(duì)噪點(diǎn)敏感、準(zhǔn)確率不高以及時(shí)間消耗大的問(wèn)題,本文以密度峰值算法思想為基礎(chǔ),并根據(jù)前人的研究經(jīng)驗(yàn),提出一種基于距離和權(quán)重改進(jìn)的K-means算法,權(quán)重的計(jì)算綜合了樣本密度(Sample Density)、簇內(nèi)平均距離(Mean Distance within the Cluster)和簇間距離(Distance between the Clusters),并且樣本距離的計(jì)算采用的是加權(quán)的歐氏距離,加大了數(shù)據(jù)屬性之間的區(qū)分程度,減少了異常點(diǎn)的影響,然后通過(guò)計(jì)算得到的樣本密度、樣本權(quán)值和距離來(lái)選擇初始聚類中心,得到K-means聚類算法的初始輸入?yún)?shù),這個(gè)過(guò)程排除了孤立點(diǎn)的影響,有效解決了經(jīng)典K-means 算法的抗噪性差以及易陷入局部最優(yōu)的缺點(diǎn),并且提高了算法的穩(wěn)定性。在UCI數(shù)據(jù)集上測(cè)試實(shí)驗(yàn)結(jié)果表明,本文的改進(jìn)K-means算法聚類準(zhǔn)確度和效率更高。

        2 改進(jìn)K-means算法

        2.1 經(jīng)典K-means算法

        經(jīng)典K-means聚類算法的基本思想是:輸入聚類數(shù)目k之后,首先從數(shù)據(jù)集中隨機(jī)選取k個(gè)樣本點(diǎn)作為初始聚類中心,然后計(jì)算各個(gè)樣本點(diǎn)分別到k個(gè)初始聚類中心的距離,將樣本按照距離最小原則歸類,形成k個(gè)簇,再計(jì)算各個(gè)簇的平均值得到新的聚類中心,不斷重復(fù)上述過(guò)程,直到聚類中心不再發(fā)生變化或者迭代次數(shù)達(dá)到設(shè)定的值之后,算法結(jié)束。

        K-means 算法在計(jì)算樣本之間距離時(shí)采用的一般是歐氏距離[15],算法復(fù)雜度較小,適用于大型數(shù)據(jù)集,計(jì)算公式如下:

        其中,xi={xi1,xi2,…,xim}和xj={xj1,xj2,…,xjm}為任意兩個(gè)維度等于m的樣本點(diǎn),xip表示樣本i對(duì)應(yīng)第p個(gè)維度的具體取值。

        2.2 基于距離和權(quán)重改進(jìn)的K-means算法

        2.2.1 相關(guān)概念

        給定數(shù)據(jù)集D={x1,x2,…,xn},其中的每個(gè)樣本點(diǎn)可表示為xi={xi1,xi2,…,xim},1 ≤i≤n,樣本元素的維度為m。

        定義1計(jì)算距離時(shí)樣本點(diǎn)不同維度數(shù)據(jù)的權(quán)值[16]:

        為了加大數(shù)據(jù)屬性之間的區(qū)分程度,本文參考文獻(xiàn)[16]中的權(quán)值計(jì)算公式來(lái)計(jì)算得到不同維度數(shù)據(jù)的權(quán)值。式(2)為維度權(quán)值計(jì)算公式。其中,xid是第i個(gè)樣本數(shù)據(jù)中的第個(gè)分量值的大??;表示樣本數(shù)據(jù)集中各個(gè)數(shù)據(jù)點(diǎn)的第d個(gè)分量的平均值,引入的權(quán)值在一定程度上能反應(yīng)樣本集整體的數(shù)據(jù)分布特征。

        定義2維度加權(quán)后的歐氏距離如公式(3)所示:

        式中,dw(xi,xj)是樣本xi和樣本xj在m維向量空間下維度加權(quán)后計(jì)算出來(lái)的的歐氏距離,后面簡(jiǎn)寫為dwij,xid和xjd分別是在向量空間第d維下的樣本點(diǎn)xi和樣本點(diǎn)xj的數(shù)據(jù)值。

        觀察式(3),可以看出在引入屬性權(quán)值之后,新的歐氏距離計(jì)算公式使得正常的數(shù)據(jù)與聚類中心的距離變小,而使得異常點(diǎn)與聚類中心的距離變大,從而減少異常點(diǎn)的影響,并且會(huì)使得原本不易區(qū)分的數(shù)據(jù)變得更為突出,起到了類似于放大差異的效果,有利于后面的聚類計(jì)算[16]。本文后面提到的樣本之間的距離指的都是維度加權(quán)過(guò)的歐氏距離。

        定義3數(shù)據(jù)集D的平均樣本距離公式[11]為:

        定義4數(shù)據(jù)集中樣本點(diǎn)i的密度[17]為:

        定義的樣本密度直觀解釋如圖1所示。

        圖1 樣本點(diǎn)密度定義圖解

        定義5由定義4可知,ρ(i)的實(shí)際含義即為以樣本點(diǎn)xi為圓心,以MeanDis(D)為半徑的圓內(nèi)包含的樣本點(diǎn)的數(shù)目,將這些點(diǎn)歸為一個(gè)類簇,它們之間的平均距離定義為:

        定義6定義類簇之間的距離si,表示樣本xi與另一個(gè)具有更高點(diǎn)密度的樣本xj之間的距離。如果樣本xi的密度不是最大,將si定義為min(dwij),如果密度最大的樣本點(diǎn)是xi,則將si定義為max(dwij);數(shù)學(xué)表達(dá)式如下:

        si的計(jì)算原則如圖2所示。

        圖2 樣本的簇間距離選擇原則

        定義7定義樣本點(diǎn)xi的權(quán)重為:

        由式(8)可以看出,ρi越大,即樣本i周圍點(diǎn)越密,則權(quán)重wi越大;si越大,即簇間距離大,則權(quán)重wi越大;ai越大,即簇內(nèi)平均距離越大,一定程度上反映了簇內(nèi)點(diǎn)樣本分布比較松散,則權(quán)重wi越小。

        定義8定義參數(shù)τi為:

        其中,dw(xi,ci-1)是D中待選擇樣本點(diǎn)xi到上一個(gè)已選擇的初始聚類中心ci-1的距離。由τi定義式可以看出,下一個(gè)待選擇樣本點(diǎn)到上一個(gè)中心點(diǎn)越遠(yuǎn)、權(quán)重越大,則參數(shù)τi越大,聚類中心就更可能在其附近產(chǎn)生,很好地反映了數(shù)據(jù)集D的全局分布特征,后面根據(jù)τi一步步選出來(lái)的初始聚類中心也減少了算法的迭代次數(shù)。

        2.2.2 算法思想描述

        算法思想為:首先由上面定義1 至定義7 計(jì)算出樣本密度、樣本權(quán)重,選擇密度最大的點(diǎn)作為第一個(gè)聚類中心,這樣可以有效避免孤立點(diǎn)、噪點(diǎn)的影響,然后計(jì)算當(dāng)前聚類中心與數(shù)據(jù)集中所有點(diǎn)的距離,與它距離在MeanDist(D)之內(nèi)的點(diǎn)不參加后面聚類中心的選擇,然后將這個(gè)距離乘以相對(duì)應(yīng)點(diǎn)的權(quán)重,即得到計(jì)算定義8中參數(shù)τi的值,選出其中的最大值,對(duì)應(yīng)的點(diǎn)作為第二個(gè)初始聚類中心,然后刪去距其MeanDist(D)之內(nèi)的樣本。重復(fù)上述過(guò)程直至數(shù)據(jù)集為空集,即得到k個(gè)初始聚類中心。

        第一個(gè)聚類中心選的是密度最大的點(diǎn),而后面聚類中心的選擇依靠τi的值,由τi的定義式(8)、(9)可以看出,后面依次選出來(lái)的聚類中心都是密度較大,簇間距離大,簇內(nèi)平均距離小的點(diǎn),這就排除了像經(jīng)典K-means 算法隨機(jī)選擇初始聚類中心那樣選到噪點(diǎn)和孤立點(diǎn)的可能性,也符合密度峰值聚類算法[18(]Density Peaks Clustering algorithm,DPC)的假設(shè):一個(gè)數(shù)據(jù)集的聚類中心由低局部密度的數(shù)據(jù)點(diǎn)包圍,而這些低局部密度的點(diǎn)距其他高局部密度的點(diǎn)的距離較大。

        初始點(diǎn)尋找過(guò)程如圖3和圖4所示。

        圖3 第二個(gè)聚類中心的尋找

        圖4 第三個(gè)聚類中心的尋找

        2.2.3 算法流程

        傳統(tǒng)的K-means聚類算法需要手動(dòng)輸入聚類數(shù)目,并且初始聚類中心也是隨機(jī)選取的,缺乏自適應(yīng)性以及聚類結(jié)果的穩(wěn)定性。本文通過(guò)以下步驟,可以自動(dòng)確定初始聚類中心和聚類數(shù)目,具體步驟如下:

        步驟1對(duì)于給定的數(shù)據(jù)集D,由公式(5)計(jì)算得到數(shù)據(jù)集內(nèi)所有樣本的密度,由公式(8)計(jì)算得到數(shù)據(jù)集D內(nèi)所有樣本元素的權(quán)重w。第一個(gè)初始聚類中心選擇D中密度最大的對(duì)象c1,將之添加到聚類中心點(diǎn)的集合C中,此時(shí)C={c1},然后將D中所有距離點(diǎn)c1小于MeanDist(D)的點(diǎn)刪除。

        步驟2選擇具有最大τi=wi?dw(xi,c1)值的點(diǎn)xi作為第2 個(gè)初始聚類中心,記為c2,將c2添加到集合C中,此時(shí)C={c1,c2},與第一步類似的,將D中所有距離c2小于MeanDist(D)的點(diǎn)刪除。

        步驟 3選擇具有最大τi=wi′?dw(xi′,c2)值的點(diǎn)xt′作為第3 個(gè)初始聚類中心,記為c3,將c3添加到集合C中,此時(shí)C={c1,c2,c3} ,將D中所有距離c3小于MeanDist(D)的點(diǎn)刪除,類似地不停重復(fù)上述過(guò)程,直到數(shù)據(jù)集D變?yōu)榭占?。此時(shí)C={c1,c2,…,ck},由此得到k個(gè)初始聚類中心,即集合C中的樣本點(diǎn)。

        步驟4以上面步驟得到的初始聚類中心和聚類數(shù)為輸入,對(duì)給定數(shù)據(jù)集D進(jìn)行K-means 聚類運(yùn)算,直到聚類中心不再變化。

        步驟5輸出最終聚類結(jié)果。

        算法基于距離和權(quán)重改進(jìn)的K-means算法

        輸入:Data setsD

        輸出:Clustering results

        1.initialize the ArrayList;

        2.computeMeanDist(D);// 計(jì)算平均樣本距離

        3.FOR(each samplei∈D){

        4.computeρ(i);//計(jì)算樣本密度

        5.}

        6.FOR(each samplei∈D) {

        7.computeai;

        8.computesi;

        9.computewi;//計(jì)算樣本權(quán)重

        10.}

        11.select Centerc1←sample Maxρ(i);

        12.remove ClusterC1fromD;//找到第一個(gè)初始聚類中心并從D中刪除該簇內(nèi)所有點(diǎn)

        13.WHILE(data setsD!=null){

        14.Centerci←sample(Maxτi)i;

        15.remove ClusterCifromD;//從D中找到令式子wi?dw(xi,ci-1)最大化的點(diǎn)i作為下一個(gè)初始聚類中心,并刪除該簇內(nèi)所有點(diǎn),不斷重復(fù)直到數(shù)據(jù)集D為空

        16.}

        17.END WHILE;

        18.PRINTF(K,Initial CenterC);//輸出得到K個(gè)初始聚類中心

        19.K-means inpu(tD,K,Initial CenterC);//將得到的初始中心點(diǎn)集合作為K-means算法的輸入

        20.WHILE(new center!=original center){

        21.FOR(each samplei∈D){

        22.FOR(each centercj∈C){

        23.computedw(xi,xk);

        24.}

        25.IF(dw(xi,xk)=Mindw(xi,xj)){

        26.Centerck←samplei;//更新聚類中心點(diǎn)

        27.}

        28.}END FOR;

        29.compute NEW Centerci=

        30.Mean(sample(i&&(i∈Clusterci)));

        31.}END WHILE;

        32.PRINTF(ClusterCi);

        改進(jìn)后的K-means算法流程圖如圖5所示。

        圖5 基于距離和權(quán)重改進(jìn)的K-means算法流程圖

        2.3 算法時(shí)間復(fù)雜度

        理論上傳統(tǒng)K-means算法的時(shí)間復(fù)雜度是O(nkT1)[19],其中n為輸入樣本的個(gè)數(shù),k是聚類數(shù)目,T1是算法聚類過(guò)程的迭代次數(shù);WK-means算法引入了特征加權(quán),時(shí)間復(fù)雜度是O(nm2l+nkT2),其中m是樣本維數(shù),l是尋找初始點(diǎn)的迭代次數(shù),T2是進(jìn)行K-means聚類迭代的次數(shù);ZK-means算法利用密度來(lái)確定初始聚類中心,而聚類過(guò)程和K-means 相同,其時(shí)間復(fù)雜度是O(n2kT3);DCK-means 算法的時(shí)間復(fù)雜度為O(n2+nS+nkT4),其中O(n2)是在計(jì)算密度的過(guò)程中引入的,S是尋找初始點(diǎn)的迭代次數(shù),大小大約等于k;本文的改進(jìn)K-means算法的時(shí)間復(fù)雜度是O(n2+nl+nkT5) ,O(nl) 是按步驟2 到步驟3 過(guò)程依次尋找初始聚類中心時(shí)引入的,l是初始中心點(diǎn)尋找過(guò)程中的迭代次數(shù),數(shù)量級(jí)與k相當(dāng),T5是在輸入初始聚類中心的前提下K-means 算法的迭代次數(shù)。在將本文提出的方法得到的初始聚類中心作為初始輸入?yún)?shù)后,迭代次數(shù)T5將大大小于傳統(tǒng)K-means 算法的迭代次數(shù)T1。這一點(diǎn)從后面實(shí)驗(yàn)部分的不同算法時(shí)間消耗對(duì)比可以看出。用本文的改進(jìn)算法處理小中型數(shù)據(jù)時(shí),在時(shí)耗上具有明顯優(yōu)勢(shì),當(dāng)樣本數(shù)量增大到一定程度時(shí),本文的改進(jìn)算法時(shí)間復(fù)雜度接近O(n2)。近幾年提出的結(jié)合了密度的改進(jìn)K-means算法的時(shí)間復(fù)雜度都在O(n2)和O(n3)之間[20],由以上時(shí)間復(fù)雜度的理論分析可以看出,用本文的改進(jìn)算法處理數(shù)據(jù)在時(shí)耗上更有優(yōu)勢(shì),后面實(shí)驗(yàn)部分證實(shí)了這一點(diǎn)。

        3 仿真實(shí)驗(yàn)

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        本文仿真實(shí)驗(yàn)中采用的是UCI數(shù)據(jù)集,從其網(wǎng)站可以獲得,UCI是加州大學(xué)提出的一個(gè)專門用來(lái)測(cè)試聚類效果的標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集[21]。本次實(shí)驗(yàn),選用UCI的三個(gè)子數(shù)據(jù)集 Iris、Waveform 和 Glass,其中 Iris 數(shù)據(jù)集最簡(jiǎn)單,Waveform 和Glass 數(shù)據(jù)集結(jié)構(gòu)相對(duì)更復(fù)雜,目的是為了更全面分析算法的有效性,數(shù)據(jù)集具體情況如表1所示,部分原始數(shù)據(jù)如圖6所示。

        表1 實(shí)驗(yàn)所用數(shù)據(jù)集的樣本分布情況

        圖6 UCI數(shù)據(jù)集的部分?jǐn)?shù)據(jù)示例

        3.2 實(shí)驗(yàn)數(shù)據(jù)集的預(yù)處理

        本次實(shí)驗(yàn)環(huán)境為:Intel?Core i7-8750H、16 GB內(nèi)存、GTX1060顯卡、Windows 10操作系統(tǒng)、Matlab R2016a。

        原始數(shù)據(jù)在輸入到算法之前必須經(jīng)過(guò)數(shù)據(jù)預(yù)處理,一是因?yàn)樵紨?shù)據(jù)不經(jīng)過(guò)預(yù)處理一般情況下無(wú)法輸入到算法中;二是即便可以順利輸入,若是給算法輸入一個(gè)完全原始的數(shù)據(jù)集來(lái)測(cè)試,那么無(wú)論這個(gè)算法的理論準(zhǔn)確率有多么高,實(shí)驗(yàn)結(jié)果也一般不會(huì)很理想;三是避免出現(xiàn)不同維度數(shù)據(jù)“大數(shù)吃小數(shù)”現(xiàn)象[22],造成結(jié)果失真,因此,數(shù)據(jù)集的預(yù)處理工作是必不可少的。

        3.2.1 數(shù)據(jù)集類別編號(hào)

        Iris 數(shù)據(jù)集分為Iris-setosa(山鳶尾)、Iris-versicolor(變色鳶尾)、Iris-virginia(維吉尼亞鳶尾),原始數(shù)據(jù)集中它們的類別標(biāo)號(hào)是英文單詞,位于最后一列,為了便于實(shí)驗(yàn),分別將三類數(shù)據(jù)編號(hào)為1、2、3。

        Waveform數(shù)據(jù)集本身自有類別編號(hào)0、1、2,在這里為了統(tǒng)一改為1、2、3。

        Glass 數(shù)據(jù)集原本類別編號(hào)為1、2、3、5、6、7(類別4的樣本數(shù)目是0 個(gè)),在這里為了便于實(shí)驗(yàn)直接刪除類別4,將編號(hào)重新設(shè)置為1、2、3、4、5、6,并刪除作為數(shù)據(jù)序號(hào)標(biāo)識(shí)的第一列數(shù)據(jù)。

        3.2.2 數(shù)據(jù)標(biāo)準(zhǔn)化

        式中,AVGp是所有的n個(gè)樣本第p個(gè)屬性的平均值,Sp是所有的n個(gè)樣本第p個(gè)屬性的平均絕對(duì)偏差,記xip′為標(biāo)準(zhǔn)化后樣本xi的第p維度的值[23]。

        3.2.3 數(shù)據(jù)歸一化

        數(shù)據(jù)經(jīng)過(guò)標(biāo)準(zhǔn)化后,再將這些數(shù)值放到[0,1]區(qū)間[24]稱為數(shù)據(jù)歸一化,計(jì)算公式如下:

        其中,xip″即為數(shù)據(jù)標(biāo)準(zhǔn)歸一化后樣本xi的第p維度的值,xpmin′為n個(gè)樣本標(biāo)準(zhǔn)化后的第p維度數(shù)值最小的值,xpmax′為n個(gè)樣本標(biāo)準(zhǔn)化后的第p維度數(shù)值最大的值。

        3.3 聚類效果評(píng)價(jià)指標(biāo)

        大部分相關(guān)文獻(xiàn)都將準(zhǔn)確率[25]或者誤分率作為聚類結(jié)果好壞的評(píng)價(jià)指標(biāo),所以本文也將準(zhǔn)確率作為評(píng)價(jià)聚類算法優(yōu)劣的指標(biāo),準(zhǔn)確率的計(jì)算公式如下:

        其中,是聚類結(jié)果中第i類樣本的數(shù)目,Ci是第i類樣本的真實(shí)數(shù)目。

        除此之外,本文還加入了相對(duì)度量中的三種有效性評(píng)價(jià)指標(biāo)對(duì)聚類效果好壞進(jìn)行度量,分別為:

        (1)分割系數(shù)PC[26]

        PC的取值范圍為[1/k,1],值越接近于1,說(shuō)明劃分結(jié)果越清晰,聚類效果越好;反之,PC值接近1/k時(shí),說(shuō)明劃分結(jié)果模糊。

        (2)劃分熵系數(shù)PE[27]

        PE取值范圍為[0,logak],值越接近0,說(shuō)明聚類效果越好;反之當(dāng)PE值接近logak時(shí),說(shuō)明算法無(wú)法正確進(jìn)行聚類。

        (3)Xie-Beni指標(biāo)[28]

        本文選取的這三種聚類有效性評(píng)價(jià)指標(biāo)很有代表性,現(xiàn)有的其他指標(biāo)大部分都是這三種指標(biāo)的變形。

        3.4 實(shí)驗(yàn)結(jié)果與分析

        本次實(shí)驗(yàn),在UCI 的三個(gè)子數(shù)據(jù)集Iris、Waveform和 Glass 上對(duì)經(jīng)典K-means 算法、WK-means 算法、ZK-means算法、DCK-means算法和本文算法進(jìn)行測(cè)試和對(duì)比,每種算法分別運(yùn)行50 次,結(jié)果取平均值。圖7 為五種算法在實(shí)驗(yàn)數(shù)據(jù)集上的平均聚類準(zhǔn)確率。

        表2至表4是五種不同的算法在UCI數(shù)據(jù)集上的測(cè)試結(jié)果。

        表2 算法在Iris數(shù)據(jù)集上的聚類結(jié)果指標(biāo)

        表3 算法在Waveform數(shù)據(jù)集上的聚類結(jié)果指標(biāo)

        表4 算法在Glass數(shù)據(jù)集上的聚類結(jié)果指標(biāo)

        3.4.1 聚類效果分析

        從圖7的準(zhǔn)確率指標(biāo)折線圖可以直觀看出,幾種不同算法在Iris數(shù)據(jù)集上表現(xiàn)最好,在Glass數(shù)據(jù)集上表現(xiàn)最差,而兩者數(shù)據(jù)集大小基本相同,可能原因是Glass數(shù)據(jù)集的類別數(shù)目和屬性數(shù)目明顯高于Iris 數(shù)據(jù)集的,Glass 不同類別的樣本差異較小,數(shù)據(jù)分布分隔不是很明顯。從表2 至表4 聚類結(jié)果四種指標(biāo)的對(duì)比可以看出,本文提出的算法各項(xiàng)指標(biāo)都是最優(yōu)的,在三個(gè)UCI數(shù)據(jù)集上平均準(zhǔn)確率比經(jīng)典K-means算法高24.87%,比WK-means 算法高12.90%,比ZK-means 算法高7%,比DCK-means 算法高1.43%,總體上性能上接近但高于DCK-means算法,因?yàn)閮煞N算法在尋找初始點(diǎn)的過(guò)程中都考慮了距離和密度,相比于其他算法更加具有全局性,而本文算法為了加大數(shù)據(jù)屬性間的區(qū)分程度還引入了維度加權(quán)的歐氏距離,以及在初始聚類中心的尋找過(guò)程中引入?yún)?shù)τi,使得樣本點(diǎn)之間的距離度量更準(zhǔn)確,找到的初始點(diǎn)更能代表各類的大致分布,最終使得聚類結(jié)果更加優(yōu)異。

        3.4.2 改進(jìn)算法的收斂性分析

        當(dāng)輸入數(shù)據(jù)集一定時(shí),改進(jìn)K-means聚類算法的收斂速度和迭代次數(shù)主要取決于初始聚類中心的選取。

        圖8是本文算法和另外幾種算法的聚類時(shí)耗對(duì)比,本文改進(jìn)算法在3 個(gè)UCI 數(shù)據(jù)集上的時(shí)間消耗較其他四種算法有優(yōu)勢(shì),與2.3 節(jié)中時(shí)間復(fù)雜度的理論分析基本一致。

        圖8 算法的平均時(shí)耗對(duì)比

        表5顯示的是算法的迭代次數(shù),可以看出改進(jìn)初始聚類中心的選擇方法后,迭代次數(shù)均有所減少,其中本文改進(jìn)算法的迭代次數(shù)要小于經(jīng)典K-means算法、WK-means 算法、ZK-means 算法和 DCK-means 算法。根據(jù)文獻(xiàn)[6]提出的初始聚類中心選擇原理,聚類計(jì)算中用距離來(lái)度量數(shù)據(jù)對(duì)象之間的相似性,距離越小則相似性越高,對(duì)于密度不均勻的數(shù)據(jù)集,密度越高的部分越容易聚在一起,若能夠找到k個(gè)分別代表相似程度高的那部分?jǐn)?shù)據(jù)集合的聚類中心,那么將更加有利于算法收斂。本文的改進(jìn)K-means 算法優(yōu)化了初始聚類中心的選取過(guò)程,在密度峰值原理的基礎(chǔ)上結(jié)合了數(shù)據(jù)集局部與宏觀特征,并且采用加權(quán)距離減少了異常因素的影響,較其他改進(jìn)算法考慮得更全面,選出來(lái)的初始點(diǎn)更符合上述初始聚類中心選擇原理,從而減少了迭代次數(shù),最終有利于減少運(yùn)行時(shí)間。

        表5 算法平均迭代次數(shù)

        綜上所述,本文提出的改進(jìn)K-means算法的初始聚類中心選擇方法較WK-means 算法、ZK-means 和DCK-means 的有優(yōu)勢(shì),聚類結(jié)果的聚類精度更高且速度較快。從原理上看其優(yōu)勢(shì)在于:(1)采用維度加權(quán)的歐氏距離,減少了離群點(diǎn)的影響,增大了數(shù)據(jù)之間的區(qū)分度。(2)第一個(gè)聚類中心選的是密度最高的點(diǎn),后面的聚類中心選擇根據(jù)的是到上一個(gè)聚類中心的距離以及剩余點(diǎn)的權(quán)重,這個(gè)過(guò)程選出的點(diǎn)符合密度峰值原則,而噪點(diǎn)由于權(quán)重過(guò)小無(wú)法被選為聚類中心,避免了陷入局部最優(yōu)。(3)由2.3 節(jié)時(shí)間復(fù)雜度的分析可知,理論時(shí)間復(fù)雜度相較其他改進(jìn)算法較低。實(shí)驗(yàn)過(guò)程中還發(fā)現(xiàn),測(cè)試傳統(tǒng)K-means 算法時(shí),對(duì)同一組輸入數(shù)據(jù),前后運(yùn)行兩次程序,輸出的結(jié)果是不同的,而本文的改進(jìn)算法在相同前提下多次實(shí)驗(yàn)輸出結(jié)果穩(wěn)定,這是因?yàn)閭鹘y(tǒng)K-means算法初始聚類中心是隨機(jī)選取的,無(wú)法考慮整體情況,萬(wàn)一初始聚類中心選到離散點(diǎn)就會(huì)陷入局部最優(yōu)解。而本文改進(jìn)算法的每一步都是經(jīng)過(guò)計(jì)算可以確定的,不存在隨機(jī)性,初始聚類中心點(diǎn)的選擇考慮了數(shù)據(jù)集整體的分布,結(jié)合了樣本密度、權(quán)重和距離,因此排除了孤立點(diǎn)的影響,最終結(jié)果能夠收斂到全局最優(yōu),避免了陷入局部最優(yōu)解。

        4 結(jié)束語(yǔ)

        本文所提出的改進(jìn)K-means算法,在聚類過(guò)程中結(jié)合了單個(gè)樣本密度、樣本的局部分布以及宏觀分布,距離計(jì)算上還采用了維度加權(quán)的歐氏距離,解決了傳統(tǒng)K-means算法的初始聚類中心選擇問(wèn)題,以及異常數(shù)據(jù)影響聚類效果的問(wèn)題,并且時(shí)間性能也優(yōu)于其他改進(jìn)算法,最后的仿真實(shí)驗(yàn)結(jié)果表明本文改進(jìn)后算法的各項(xiàng)性能指標(biāo)更優(yōu),在聚類精度提高的情況下耗時(shí)也有所減少。聚類算法在數(shù)據(jù)爆炸時(shí)代應(yīng)用廣闊,根據(jù)前面理論分析,本文算法在處理中小型數(shù)據(jù)時(shí)由于明顯減少了聚類過(guò)程中的迭代次數(shù),比其他算法在速度上有優(yōu)勢(shì),但在處理大型數(shù)據(jù)時(shí)由于尋找初始聚類中心引入了更高階的時(shí)間復(fù)雜度,耗時(shí)將大于經(jīng)典K-means 算法,這也是下一步需要解決的問(wèn)題。

        猜你喜歡
        復(fù)雜度聚類定義
        一種低復(fù)雜度的慣性/GNSS矢量深組合方法
        基于DBSACN聚類算法的XML文檔聚類
        求圖上廣探樹(shù)的時(shí)間復(fù)雜度
        成功的定義
        山東青年(2016年1期)2016-02-28 14:25:25
        某雷達(dá)導(dǎo)51 頭中心控制軟件圈復(fù)雜度分析與改進(jìn)
        基于改進(jìn)的遺傳算法的模糊聚類算法
        出口技術(shù)復(fù)雜度研究回顧與評(píng)述
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
        修辭學(xué)的重大定義
        一区二区三区岛国av毛片| 亚洲av无码av日韩av网站| 中文字幕喷水一区二区| 精品人妻免费看一区二区三区 | 亚洲激情综合中文字幕| 亚洲乱色伦图片区小说| 18禁美女裸体网站无遮挡| 爱v天堂在线观看| 在线中文字幕一区二区| 少妇人妻在线无码天堂视频网| 男女边吃奶边做边爱视频| 亚洲国产一区二区三区在观看| av在线高清观看亚洲| 亚洲字幕av一区二区三区四区| 免费国产交换配乱淫| 亚洲毛片av一区二区三区| 精品欧美久久99久久久另类专区| 美腿丝袜中文字幕在线观看| 亚洲综合精品中文字幕| 午夜无码国产理论在线| 日韩欧美第一区二区三区 | 风韵人妻丰满熟妇老熟女视频| 国产成人精品白浆久久69| 国产福利免费看| 少妇裸淫交视频免费看| 无码人妻久久久一区二区三区| 无码av免费精品一区二区三区| 久久亚洲成a人片| 日韩av水蜜桃一区二区三区| 亚洲av久久久噜噜噜噜| 欧美整片第一页| 一区二区三区在线观看视频| 国色天香社区视频在线| 婷婷五月综合缴情在线视频| 国产西西裸体一级黄色大片| 成人大片免费观看视频| 国产精品_国产精品_k频道w| 91精品国产91| 亚洲成人一区二区av| 人妻夜夜爽天天爽三区| 99久久人妻无码精品系列蜜桃|