亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多維空間可調(diào)整的近鄰傳播聚類算法*

        2019-01-17 06:32:40錢雪忠王衛(wèi)濤
        計(jì)算機(jī)與生活 2019年1期
        關(guān)鍵詞:中心點(diǎn)準(zhǔn)確率權(quán)重

        錢雪忠,王衛(wèi)濤

        江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫 214122

        1 引言

        聚類分析是對一組對象進(jìn)行處理,最終將對象分成幾類,使得同一類對象之間的相似度更大,不同類對象的相似度更小。在聚類分析的發(fā)展過程中,提出了k-means、DBSCAN、FCM等聚類算法,2007年Frey和Dueck在Science闡述了近鄰傳播聚類算法(affinity propagation,AP)的原理和應(yīng)用。與其他聚類方法相比,近鄰傳播算法不需事先設(shè)定聚類的個(gè)數(shù),不需初始化聚類中心點(diǎn),是一種快速有效的聚類算法。由于AP算法是基于中心的聚類算法,因此在處理緊湊的具有超球形分布的數(shù)據(jù)集上有較好的性能,但是不適合具有任意空間形狀和多重尺度的數(shù)據(jù)集。

        針對上述問題,Dong等[1]提出了可變相似性度量的近鄰傳播聚類(affinity propagation of variable similarity measure,AP-VSM),該方法采用可變度量來改善數(shù)據(jù)的總體分布特性,該方法在處理一些復(fù)雜的高維數(shù)據(jù)時(shí)有較好的效果,然而該方法在處理不同類之間有相互交叉的情況時(shí)效果較差;Jia等[2]提出了基于光譜尺寸減小的密度自適應(yīng)近鄰傳播聚類(density-adaptive affinity propagation clustering algorithm based on spectral dimension reduction,DAAP),該方法采用最短路徑構(gòu)建相似度矩陣,利用該方法能夠較好地處理多尺度數(shù)據(jù)集的問題,但是該算法在計(jì)算最短路徑時(shí)算法時(shí)間復(fù)雜度過大;Gan等[3]提出了子空間近鄰傳播聚類(subspace clustering using affinity propagation,SAP),該算法利用屬性權(quán)重計(jì)算相似度矩陣,并在迭代過程中動(dòng)態(tài)更新屬性的權(quán)重,從而更新相似度矩陣,利用該方法可以較好地處理復(fù)雜空間的數(shù)據(jù),但是在處理樣本量較大時(shí)稍顯不足;Li等[4]提出了自適應(yīng)調(diào)整偏向參數(shù)的近鄰傳播聚類算法(adjustable preference affinity propagation clustering,APAP),該方法為不同的數(shù)據(jù)點(diǎn)設(shè)置不同的偏向參數(shù),并動(dòng)態(tài)更新,該方法適合高斯分布以及流行分布的數(shù)據(jù),但不適合處理圖像相關(guān)的數(shù)據(jù)集。

        本文針對文獻(xiàn)[1-4]中處理數(shù)據(jù)集中不同類數(shù)據(jù)有交叉的問題,算法時(shí)間復(fù)雜度過大的問題,不適合處理多樣本的問題以及不適合處理圖像相關(guān)的數(shù)據(jù)等問題提出了MSAAP(multidimensional similarity adaptive affinity propagation)算法。首先,針對文獻(xiàn)[5-8]的想法,本文根據(jù)熵值法計(jì)算數(shù)據(jù)集的屬性權(quán)重,然后根據(jù)屬性權(quán)重和高斯核函數(shù)構(gòu)造出一種更加準(zhǔn)確的計(jì)算相似度矩陣的方法;接著針對文獻(xiàn)[9-13]的想法,本文根據(jù)權(quán)重矩陣選取優(yōu)先級(jí)高的屬性,跟該屬性的個(gè)數(shù)n,將空間分成2的n次方個(gè)子空間,最后針對文獻(xiàn)[14-20],本文提出計(jì)算分布各個(gè)子空間的鄰域數(shù)據(jù)點(diǎn)的吸引度和歸屬度之和,進(jìn)而調(diào)整該樣本點(diǎn)的空間分布。然后調(diào)整后的樣本點(diǎn)去重新迭代計(jì)算相似度、吸引度和歸屬度,一直到迭代結(jié)束。本文在第3章詳細(xì)介紹該算法的計(jì)算過程。

        2 近鄰傳播算法

        AP算法把所有的樣本點(diǎn)作為候選聚類中心點(diǎn)。AP算法主要利用數(shù)據(jù)集中任意兩個(gè)樣本點(diǎn)之間的相似度進(jìn)行迭代計(jì)算。其中相似度的定義為兩個(gè)樣本點(diǎn)之間歐式距離平方的負(fù)數(shù),計(jì)算相似度矩陣的公式如下:

        在AP算法中需要設(shè)置偏向參數(shù)的值,默認(rèn)設(shè)置為相似度矩陣的均值,即p=median(s)。該算法在計(jì)算過程中引入了歸屬度矩陣A(availability)和吸引度矩陣R(responsibility),在算法迭代過程中兩個(gè)信息矩陣不斷地迭代更新。其中:A=(a(i,j))m×n,a(i,j)是樣本點(diǎn)j向樣本點(diǎn)i發(fā)送的信息值,表示為樣本點(diǎn)i選擇樣本點(diǎn)j作為聚類中心點(diǎn)的合適程度;R=(r(i,j))m×n,r(i,j)是樣本點(diǎn)i向樣本點(diǎn)j發(fā)送的信息值,表示為樣本點(diǎn)j作為樣本點(diǎn)i聚類中心點(diǎn)的合適程度。歸屬度矩陣和吸引度矩陣的迭代更新的計(jì)算公式如下:

        在計(jì)算歸屬度矩陣相似度矩陣過程中,為了防止震蕩,引入了阻尼因子λ來增強(qiáng)算法的穩(wěn)定性,計(jì)算公式如下:

        根據(jù)以上公式迭代計(jì)算歸屬度矩陣和吸引度矩陣,最終使得聚類目標(biāo)函數(shù)最大化,其聚類目標(biāo)函數(shù)如下:

        式中,ci為樣本點(diǎn)i的聚類中心點(diǎn),C是由ci組成的向量,i=1,2,…,N(N為樣本點(diǎn)個(gè)數(shù)),S(C)為所有樣本點(diǎn)到各自的聚類中心點(diǎn)的相似度之和。其中δk(C)計(jì)算公式如下:

        此式為一致性約束懲罰項(xiàng),如果有樣本點(diǎn)i選擇k作為其聚類中心點(diǎn),即ci=k,那么樣本點(diǎn)k必定選擇自身為聚類中心點(diǎn),即ck=k,否則函數(shù)取值-∞,使樣本點(diǎn)i在下次迭代中不再選擇k作為自身聚類中心點(diǎn)。

        迭代后通過計(jì)算A+R的值來確定聚類中心點(diǎn),當(dāng)(r(k,k)+a(k,k))>0時(shí),樣本點(diǎn)k即為聚類中心點(diǎn)。各個(gè)樣本點(diǎn)的聚類中心點(diǎn)ci的計(jì)算公式如下:該式表示為每個(gè)樣本點(diǎn)選擇歸屬度和吸引度之和最大的聚類中心點(diǎn)作為自身的聚類中心點(diǎn)。

        3 MSAAP算法

        3.1 算法描述

        3.1.1 熵值法計(jì)算屬性權(quán)重

        熵值是具有不確定性的一種度量。信息量越大,不確定性就越小,熵也就越??;信息量越小,不確定性越大,熵也越大。因此根據(jù)熵的特性,可以利用熵值來判斷某個(gè)指標(biāo)的離散程度,指標(biāo)的離散程度越大,該指標(biāo)對綜合評價(jià)的影響(權(quán)重)越大,其熵值越小。同時(shí)熵在信息論中已經(jīng)得到廣泛的應(yīng)用,因此本文通過計(jì)算數(shù)據(jù)樣本點(diǎn)的熵值來確定各個(gè)屬性的權(quán)重,可以更能真實(shí)表達(dá)數(shù)據(jù)集的特性。

        計(jì)算熵值的過程需要依次計(jì)算歸一化指標(biāo)、指標(biāo)比重、指標(biāo)熵值、信息熵冗余度、指標(biāo)權(quán)值。其公式如下:

        式中,xij為數(shù)據(jù)集中第i個(gè)數(shù)據(jù)點(diǎn)的第j項(xiàng)指標(biāo),i=1,2,…,n(n為樣本點(diǎn)個(gè)數(shù)),j=1,2,…,d(d為樣本點(diǎn)屬性個(gè)數(shù));k=1/ln(n)>0,滿足ej≥ 0。ej表示第j項(xiàng)指標(biāo)的熵值,rj表示信息熵冗余度,wj則表示為最終的指標(biāo)權(quán)重。

        圖1中的橫軸為數(shù)據(jù)集的維數(shù),縱軸為每一維特征的權(quán)重,從圖中可以看出,通過計(jì)算樣本點(diǎn)各個(gè)屬性的熵值可以很好地區(qū)分出屬性的重要程度,然后根據(jù)實(shí)際實(shí)驗(yàn)的需要,選取若干個(gè)權(quán)重屬性。圖中用到的數(shù)據(jù)集的具體屬性在第4章中介紹。

        3.1.2 根據(jù)權(quán)重計(jì)算相似度矩陣

        Fig.1 Attributes weighted graphs calculated by entropy method圖1 通過熵值法計(jì)算的屬性權(quán)重圖

        其中,r為核變換系數(shù)。

        為了充分驗(yàn)證本文所采用的相似度計(jì)量方法的有效性,需要通過數(shù)據(jù)集的相似性度量來對比,本文通過任意選取兩個(gè)同類的數(shù)據(jù)點(diǎn)和一個(gè)不同類的數(shù)據(jù)點(diǎn),分別計(jì)算出這兩組的相似度s1和s2,然后計(jì)算出一個(gè)比值rate=(s1-s2)/s2,這樣做的目的在于保證在做不同相似度對比實(shí)驗(yàn)時(shí),都在同一個(gè)數(shù)量級(jí)內(nèi),使得實(shí)驗(yàn)結(jié)果具有更好的可靠性。對比結(jié)果見圖2、圖3。

        Fig.2 Comparison chart of wine data set圖2 wine數(shù)據(jù)集對比圖

        Fig.3 Comparison chart of YaleB data set圖3 YaleB數(shù)據(jù)集對比圖

        圖中es_rate為歐式距離平方的負(fù)數(shù)計(jì)算的相似度比值,ds_rate為密度自適應(yīng)計(jì)算的相似度比值,ws_rate為本文采用的加權(quán)密度自適應(yīng)比值。從結(jié)果看出,ws_rate的比值是最大的,說明了此方法在計(jì)算同類數(shù)據(jù)點(diǎn)的相似度比es_rate和ds_rate更大,在計(jì)算不同類數(shù)據(jù)點(diǎn)之間時(shí),ws_rate相比另外兩種則更小,說明ws_rate計(jì)算相似度更準(zhǔn)確。為保證實(shí)驗(yàn)的公正性,同類數(shù)據(jù)點(diǎn)和不同類數(shù)據(jù)點(diǎn)都是隨機(jī)選取的,并做10次對比實(shí)驗(yàn)。

        3.1.3 根據(jù)多維空間調(diào)整個(gè)體空間分布

        AP算法每次迭代后,會(huì)有吸引度和歸屬度矩陣生成,吸引度和歸屬度矩陣的加和表示了兩兩數(shù)據(jù)點(diǎn)之間的相似程度,因此將吸引度和歸屬度加和的指標(biāo)作為衡量指標(biāo),來調(diào)整個(gè)體的空間分布。

        首先需要前期處理工作,為了避免正負(fù)數(shù)的相互抵消,首先采用sigmoid函數(shù)將AR矩陣映射到[0,1]區(qū)間內(nèi),AR為歸屬度矩陣A和吸引度矩陣R之和。然后根據(jù)3.1.1節(jié)計(jì)算出的權(quán)重矩陣W,選出前l(fā)個(gè)屬性,屬性集合為ls。

        然后將根據(jù)樣本點(diǎn)的距離求出閾值Eps,本文中Eps是通過距離矩陣的平均數(shù)(Median(D))計(jì)算得出的。因?yàn)榫嚯x矩陣的平均數(shù)反映的是整個(gè)數(shù)據(jù)集樣本點(diǎn)之間距離的平均情況,利用該平均數(shù)可以過濾一些邊緣點(diǎn)、噪聲點(diǎn)的干擾。當(dāng)兩個(gè)樣本之間的距離小于該閾值時(shí)表明這兩個(gè)樣本相對整個(gè)數(shù)據(jù)集來說更有可能屬于同一類簇,反之,則說明該兩個(gè)樣本屬于同一類簇的可能性較低,接著根據(jù)閾值Eps計(jì)算每個(gè)樣本點(diǎn)的鄰域areas,通過areas中的樣本點(diǎn)去調(diào)整當(dāng)前樣本的區(qū)域分布,如果D(i,k)≤Eps,則areas(t)=k,t=t+1。如果areas為空,則處理下一個(gè)數(shù)據(jù)點(diǎn);如果不為空,則根據(jù)l值計(jì)算出需要?jiǎng)澐值淖涌臻g數(shù)目nums=2l。接著初始化2l個(gè)空間的初始狀態(tài),初始化的計(jì)算公式如下:

        其中,1表示正相關(guān),-1表示負(fù)相關(guān),j∈ls時(shí)的計(jì)算步驟如下:

        1.首先初始化變量:nums=2l

        2.forcol=1∶l

        3.index=cols(col),step=2(l-col),frep=0,flag=1

        4.fort=1∶nums

        5.frep=frep+1

        6.iffrep≤step status(t,index)=flagend if

        7.iffrep==step

        8.frep=0

        9.ifflag==1flag=-1elseflag=1end if

        10.end if

        11.end for

        12.end for

        圖4中,左側(cè)圖為調(diào)整前的樣本點(diǎn)分布,右側(cè)為調(diào)整后的樣本點(diǎn)分布,其中左側(cè)圖中處于坐標(biāo)軸的中心黑點(diǎn)為當(dāng)前調(diào)整的樣本點(diǎn)。圖4是從模型的角度來分析整體數(shù)據(jù)點(diǎn)調(diào)整的基本規(guī)律,為了更好地展示,采用二維空間來表示,因此劃分的總的子空間數(shù)目為22,其中A、B、C、D分別代表四個(gè)空間,每個(gè)空間內(nèi)包含若干當(dāng)前數(shù)據(jù)點(diǎn)的鄰域點(diǎn),然后分別計(jì)算:

        Fig.4 Chart of spatial adjustment圖4 空間調(diào)整分布示意圖

        接著計(jì)算max{sumA,sumB,sumC,sumD},求出吸引度和歸屬度之和最大的區(qū)域,并計(jì)算出該區(qū)域中所有數(shù)據(jù)點(diǎn)的中心點(diǎn)center,然后用center代替當(dāng)前處理的數(shù)據(jù)點(diǎn)x,最后繼續(xù)迭代計(jì)算下一個(gè)數(shù)據(jù)點(diǎn)。當(dāng)計(jì)算完所有數(shù)據(jù)點(diǎn)之后,更新數(shù)據(jù)集的相似度矩陣s、偏向參數(shù)p,然后進(jìn)行下次迭代。

        在實(shí)驗(yàn)中,為了縮短運(yùn)行時(shí)間,同時(shí)保證迭代過程更加穩(wěn)定,在迭代過程中增加更新頻率freq,如果滿足 mod(iter,freq)=0,則update(data,s,p);反之,則 continue,繼續(xù)下次迭代。在本文中freq是通過sigmoid函數(shù)計(jì)算出的,sigmoid函數(shù)是一個(gè)從大到小變化的平滑函數(shù),在AP算法迭代的初始階段,幅度較大,既保證了迭代的速率又保證對數(shù)據(jù)集一個(gè)整體的調(diào)整變換。隨著算法迭代的深入,幅度縮小,保證了對個(gè)別數(shù)據(jù)點(diǎn)的調(diào)整,同時(shí)也避免了算法為了適應(yīng)不同數(shù)據(jù)集而去不斷調(diào)整頻率的大小,這樣保證了算法的效率性和魯棒性。表1和表2是頻率選取固定值和sigmoid函數(shù)計(jì)算的對比實(shí)驗(yàn)。當(dāng)固定值為1時(shí),為每次迭代都更新。以此來驗(yàn)證采用sigmoid函數(shù)在此處的有效性。

        Table 1 Parameter selection table of wine表1 wine數(shù)據(jù)集的參數(shù)選取表

        Table 2 Parameter selection table of leuk72_3k表2 leuk72_3k數(shù)據(jù)集的參數(shù)選取表

        表1和表2中固定值對應(yīng)的數(shù)據(jù)為freq取一定值時(shí)所對應(yīng)的準(zhǔn)確率和時(shí)間,sigmoid對應(yīng)的數(shù)據(jù)為本文利用sigmoid函數(shù)計(jì)算頻率對應(yīng)的準(zhǔn)確率和時(shí)間。從表中可以看出頻率的選取與準(zhǔn)確率沒有比例關(guān)系,對于任意的數(shù)據(jù)集可能是任意的固定值,因此在實(shí)際的仿真實(shí)驗(yàn)有一定的難度,同時(shí)當(dāng)頻率取某個(gè)固定值時(shí)準(zhǔn)確率高了,那么時(shí)間就會(huì)很慢,時(shí)間快了,準(zhǔn)確率就會(huì)下降。而利用sigmoid函數(shù)計(jì)算頻率就會(huì)在保證準(zhǔn)確率的同時(shí),降低時(shí)間復(fù)雜度。此處提到的準(zhǔn)確率會(huì)在本文4.1節(jié)介紹。

        3.2 算法步驟

        Input:X={x1,x2,…,xn}.

        Output:idx:Clustering results.

        1.w=entropy(X)//由3.1.1節(jié)計(jì)算

        3.pm=Median(Sn×n)

        4.iter←0

        5.A′=AP.update(A),R′=AP.update(R)

        6.frep=floor(a?ln(iter)/ln(b)+c)

        7.if mod(iter,frep)==0

        8.AR=sigmoid(A+R)

        9.ls=sort(w,-1)(1∶l)

        10.fori=1∶n

        12.Eps=Median(dis)t=0

        13.fork=1∶n-1

        14.ifdis(i,k)≤Eps t=t+1areas(t)=kend if

        15.end for

        16.iflength(areas)>0

        17.status=init(l,cols)//由表1計(jì)算

        18.fork=1∶length(areas)

        19.forj=1∶l

        20.ifx(i,j)>x(k,j)status′=-1end if

        21.ifx(I,j)≤x(k,j)status′=1end if

        22.end for

        23.index=find(status′,status) set(index,t)=kt=t+1

        24.end for

        25.fort=1∶nums

        26.sumARs=sum(AR(set(t)))

        27.end for

        28.x(i)=avg(max(sumARs))

        29.end if

        30.end for

        31.Algorithm terminated.

        4 實(shí)驗(yàn)結(jié)果與分析

        不同指標(biāo)往往具有不同的量綱和單位,這樣會(huì)影響數(shù)據(jù)分析的結(jié)果,為了消除指標(biāo)之間的量綱的影響,本文對數(shù)據(jù)集進(jìn)行了歸一化處理。本文選取了13個(gè)UCI數(shù)據(jù)集和ORL、YaleB、JAFFE人臉數(shù)據(jù)庫。數(shù)據(jù)集信息見表3。

        4.1 評價(jià)指標(biāo)

        為了更加客觀地反映聚類算法的優(yōu)劣,本文選取F-Measure作為算法的評價(jià)指標(biāo),F(xiàn)-measure是由precision(精確率)和recall(召回率)共同表示,準(zhǔn)確率(F-measure)通常用來表示聚類準(zhǔn)確性的優(yōu)劣。計(jì)算公式如下:

        Table 3 Information of data set表3 數(shù)據(jù)集信息

        4.2 參數(shù)調(diào)整分析

        由于在實(shí)驗(yàn)過程中,引入了鄰域的閾值和特征維度兩個(gè)參數(shù),當(dāng)參數(shù)不同時(shí),實(shí)驗(yàn)結(jié)果也不同。因此需要在大量的實(shí)驗(yàn)中,找出適合不同數(shù)據(jù)集的參數(shù),表4、表5為本文做的參數(shù)選取實(shí)驗(yàn)。

        表4、表5中,eps表示閾值,dim表示維度。從表4、表5可以看出,參數(shù)閾值和維度對聚類結(jié)果影響很大,因?yàn)樵趯?shí)驗(yàn)中,閾值是控制樣本點(diǎn)的鄰域個(gè)數(shù),能影響散落在各個(gè)空間中鄰域點(diǎn)的數(shù)目,最終會(huì)影響樣本點(diǎn)的分布的調(diào)整,所以閾值對聚類結(jié)果影響較大。而維度是m個(gè)權(quán)重最大的屬性,當(dāng)m取不同值時(shí),選取的屬性個(gè)數(shù)就不同,而在調(diào)整樣本點(diǎn)分布時(shí),所改變的樣本點(diǎn)的屬性不同,因此最終對聚類結(jié)果影響較大。

        Table 4 Parameter selection table of wine表4 wine數(shù)據(jù)集的參數(shù)選取表

        Table 5 Parameter selection table of zoo表5 zoo數(shù)據(jù)集的參數(shù)選取表

        4.3 準(zhǔn)確率、時(shí)間、類數(shù)分析

        本文從準(zhǔn)確率、時(shí)間、聚類類數(shù)3個(gè)維度對AP、AP-VSM、DAAP、SAP、APAP、MSAAP進(jìn)行了對比。其中,F(xiàn)為準(zhǔn)確率(F-measure),Time單位為秒(s)。對比如表6所示。

        從準(zhǔn)確率來看,MSAAP算法在這16個(gè)數(shù)據(jù)集上,相比其他5種算法有了明顯的提升。AP-VSM、DAAP、SAP、APAP這4種算法都有各自適合的數(shù)據(jù)集。DAAP在Sonar、YaleB等數(shù)據(jù)集上處理效果較其他方法差;SAP在leuk72_3k、haberman、ORL等數(shù)據(jù)集上處理效果較差;APAP在JAFFE數(shù)據(jù)集上處理效果較差。而本文提出的MSAAP處理這16個(gè)數(shù)據(jù)集相比其他算法都有較好的改進(jìn)。

        從時(shí)間方面看,DAAP算法由于需要計(jì)算最短路徑,時(shí)間復(fù)雜度最大,其次本文提出的MSAAP算法需要在迭代中調(diào)整樣本點(diǎn)的空間分布,因此時(shí)間復(fù)雜度稍大,MSAAP的時(shí)間復(fù)雜度為O(m×n2),AP、AP-VSM、SAP、DAAP算法的時(shí)間復(fù)雜度都為O(m×n),其中m為近鄰傳播算法的迭代次數(shù),n為樣本點(diǎn)數(shù)。

        從聚類類數(shù)來看,AP-VSM和SAP分別有6個(gè)數(shù)據(jù)集與真實(shí)類數(shù)不同,APAP有5個(gè),DAAP有3個(gè),但都比原始AP算法更接近真實(shí)類數(shù),而MSAAP算法在這16個(gè)數(shù)據(jù)集上最終的聚類個(gè)數(shù)都與真實(shí)類數(shù)相符。

        Table 6 Table of F-measure,Time and clusters表6 F-measure、時(shí)間、類數(shù)對比表

        從準(zhǔn)確率、時(shí)間、類數(shù)來看,MSAAP算法除了在時(shí)間復(fù)雜度上略大于AP、AP-VSM、SAP、APAP這4種算法外,準(zhǔn)確率、類數(shù)相比來說更好。從整體來看,本文算法具有更好的聚類性能。

        4.4 效果圖分析

        為了直觀地看出6種聚類算法優(yōu)劣,本文通過聚類效果圖展示的形式,來更加直觀地反映表4數(shù)據(jù)的有效性。為了更好地顯示聚類效果,通過PCA將數(shù)據(jù)集降至2維,從而可以在平面上顯示最終的聚類結(jié)果。本文選取wine、seeds、YaleB、JAFFE數(shù)據(jù)庫進(jìn)行對比。wine有178個(gè)樣本點(diǎn),13維屬性,3類數(shù)據(jù),wine的屬性變量為連續(xù)變量,是流行分布的,是不平衡的數(shù)據(jù);seeds有210個(gè)樣本點(diǎn),7維屬性,3類數(shù)據(jù),seeds的所有屬性值都為實(shí)值連續(xù)的;YaleB數(shù)據(jù)庫有45個(gè)樣本點(diǎn),192×168維屬性,5類數(shù)據(jù),YaleB每幅圖像都有相對較大的光照變化、表情變化、部分缺損以及姿態(tài)變化;JAFFE數(shù)據(jù)庫有50個(gè)樣本點(diǎn),256×256維屬性,5類數(shù)據(jù),每個(gè)人有7種表情的圖片。

        wine和seeds數(shù)據(jù)集聚類難度在于3類數(shù)據(jù)在分布的區(qū)域位置上相互交叉,不同類的數(shù)據(jù)點(diǎn)之間的距離比同類之間的距離要近,如果算法中用一些傳統(tǒng)的相似度計(jì)算公式或者維度選取不合適會(huì)造成聚類結(jié)果的差異性。YaleB和JAFFE數(shù)據(jù)庫聚類難度在于孤立點(diǎn)較多,會(huì)造成聚類時(shí)選取聚類中心點(diǎn)過多,最終聚類的類數(shù)與實(shí)際情況不符。聚類效果圖見圖5到圖8。

        Fig.5 wine data set clustered by 6 methods圖5 wine數(shù)據(jù)集6種方法聚類效果圖

        Fig.6 seeds data set clustered by 6 methods圖6 seeds數(shù)據(jù)集6種方法聚類效果圖

        Fig.7 YaleB data set clustered by 6 methods圖7 YaleB數(shù)據(jù)集6種方法聚類效果圖

        Fig.8 JAFFE data set clustered by 6 methods圖8 JAFFE數(shù)據(jù)集6種方法聚類效果圖

        圖5到圖8左至右依次為原始數(shù)據(jù)分布圖,AP、AP-VSM、DAAP、SAP、APAP、MSAAP聚類效果圖,從圖5、圖6和圖8可知,當(dāng)數(shù)據(jù)集中有若干個(gè)數(shù)據(jù)點(diǎn)為孤立點(diǎn)時(shí),AP、AP-VSM、DAAP、SAP、APAP這5種算法將這些孤立點(diǎn)單獨(dú)聚為一類,而MSAAP算法很好地處理了這些孤立點(diǎn),證明該方法在處理邊緣點(diǎn)時(shí)效果較好。同時(shí)從4幅圖中可以看出MSAAP聚類的效果圖中的類數(shù)以及聚類中心點(diǎn)的選取都與原始數(shù)據(jù)相符合,聚類后樣本點(diǎn)分布的區(qū)域與原始數(shù)據(jù)集分布的很接近,區(qū)域密度也類似,并且類與類之間相互交叉得很少。而其他5種算法在處理這些數(shù)據(jù)集時(shí)均出現(xiàn)聚類結(jié)果與原始數(shù)據(jù)不一致的情況。

        從這些效果圖中可以直觀地看出MSAAP算法對傳統(tǒng)AP算法有了明顯的改進(jìn),同時(shí)相比較本文中提到的其他改進(jìn)算法也有明顯的改進(jìn)。再結(jié)合表6的數(shù)據(jù)分析說明MSAAP具有很好的聚類性能。

        5 結(jié)束語

        本文介紹了近鄰傳播算法(AP)和基于多維空間調(diào)整數(shù)據(jù)點(diǎn)空間分布的原理與步驟,首先介紹了熵的概念,并通過熵值求解屬性的權(quán)重的計(jì)算步驟;其次利用熵值權(quán)重構(gòu)造新型的相似度矩陣;然后對數(shù)據(jù)點(diǎn)在多維空間分布的位置進(jìn)行動(dòng)態(tài)調(diào)整的問題進(jìn)行建模和求解;最后在UCI數(shù)據(jù)集和人臉數(shù)據(jù)庫上進(jìn)行了對比實(shí)驗(yàn)。證明了本文所研究的方法在處理多重尺度和任意形狀的數(shù)據(jù)集時(shí)具有較好的聚類效果。

        猜你喜歡
        中心點(diǎn)準(zhǔn)確率權(quán)重
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        權(quán)重常思“浮名輕”
        Scratch 3.9更新了什么?
        如何設(shè)置造型中心點(diǎn)?
        電腦報(bào)(2019年4期)2019-09-10 07:22:44
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
        基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
        漢字藝術(shù)結(jié)構(gòu)解析(二)中心點(diǎn)處筆畫應(yīng)緊奏
        国产福利午夜波多野结衣| 亚洲熟妇av一区二区三区| 99久久婷婷国产综合精品青草免费| 亚洲国产精品久久久久秋霞1| 成人日韩av不卡在线观看| 自拍偷拍亚洲视频一区二区三区| 国产乱人伦av在线麻豆a| 久久久久香蕉国产线看观看伊| a观看v视频网站入口免费| 中文字幕人妻一区色偷久久 | 在线亚洲+欧美+日本专区| 人妻无码aⅴ中文系列久久免费| 精品免费人伦一区二区三区蜜桃| 亚洲色图视频在线观看,| 国产午夜视频在线观看免费| 久久久国产精品黄毛片| 国产精品三级一区二区按摩| 亚洲女同性恋在线播放专区| 老熟妇乱子交视频一区| 久久精品人人做人人爽| 99国产精品无码专区| 黄片国产一区二区三区| 亚洲欧美色一区二区三区| 激情另类小说区图片区视频区| 成在线人免费视频播放| 中文字幕人妻饥渴浪妇| 东京热加勒比无码少妇| 国产精品国产三级国产av创| 成人av资源在线观看| 九九久久99综合一区二区| 亚洲国产另类久久久精品黑人| 国产欧美日韩专区毛茸茸| 日本韩国亚洲三级在线| 国产麻豆精品一区二区三区v视界| 亚洲国产成人91| 人妻精品久久久一区二区| 精品无码一区二区三区爱欲| 女人做爰高潮呻吟17分钟| 特黄三级一区二区三区| 免费人成在线观看播放视频| 国内精品久久久久久久97牛牛|