馬欣野,劉亞靜,劉 童
(華北理工大學(xué)礦業(yè)工程學(xué)院,河北 唐山 063200)
在大數(shù)據(jù)時(shí)代背景下,無監(jiān)督學(xué)習(xí)聚類算法的地位尤為突出[1],可以說已成為當(dāng)前數(shù)據(jù)挖掘的主要研究手段。但是該算法存在著一定的缺陷,比如眾多客觀事物中并不能直觀清楚地了解它們之間存在的線性或非線性關(guān)系,使得傳統(tǒng)聚類算法不能有效描述客觀事物間的特征關(guān)系。模糊聚類分析方法作為一種無監(jiān)督學(xué)習(xí)聚類算法,無需專家指導(dǎo)和預(yù)先獲取數(shù)據(jù)樣本,就可借助模糊數(shù)學(xué)思想,根據(jù)一定的準(zhǔn)則對(duì)客觀事物進(jìn)行區(qū)分和分類。由于模糊聚類分析可以有效描述客觀事物樣本數(shù)據(jù)類間的模糊關(guān)系,已被廣泛應(yīng)用于經(jīng)濟(jì)學(xué)[2]、信息科學(xué)[3-5]、工程技術(shù)科學(xué)[6-8]等許多領(lǐng)域。模糊聚類分析中最常用的樣本間距離度量方法為歐式距離方法,該方法是一種二范數(shù)形式,可用來表征樣本類屬性間的模糊距離程度。然而,相關(guān)性會(huì)由于類間屬性值相差較大或者線性變換而產(chǎn)生形變,這樣就導(dǎo)致樣本對(duì)象間所計(jì)算出來的相似度不準(zhǔn)確。
標(biāo)準(zhǔn)差在統(tǒng)計(jì)學(xué)和金融學(xué)中用來描述樣本數(shù)據(jù)的不確定程度(風(fēng)險(xiǎn)),信息熵在信息論中被用來描述樣本數(shù)據(jù)的不確定程度,在一定程度上標(biāo)準(zhǔn)差和信息熵是成正比的,而標(biāo)準(zhǔn)差和模糊熵權(quán)則成反比。即數(shù)據(jù)波動(dòng)程度越大,樣本數(shù)據(jù)的無序性及離散程度也就越大,標(biāo)準(zhǔn)差和熵值也就越大,而該樣本數(shù)據(jù)對(duì)系統(tǒng)的影響(權(quán)重)越小;反之,數(shù)據(jù)波動(dòng)程度越小,樣本數(shù)據(jù)就越有序,離散程度越小,標(biāo)準(zhǔn)差和熵值也就越小,該樣本數(shù)據(jù)對(duì)系統(tǒng)的影響(權(quán)重)也就越大。本研究提出的基于加權(quán)歐式距離的FCM算法,就是將標(biāo)準(zhǔn)差、熵權(quán)法和FCM相結(jié)合的一種算法。
模糊C均值聚類算法是將數(shù)據(jù)集的相似性樣本歸為若干個(gè)類的方法,一般情況下,常用距離作為分類統(tǒng)計(jì)量來計(jì)算各個(gè)數(shù)據(jù)對(duì)象之間的相異度(距離)。目前,歐氏距離、馬氏距離、絕對(duì)距離等為通常選取的距離測(cè)度方法[9],模糊C均值聚類算法通常情況下采用歐氏距離作為距離度量方法,其定義如下:
式中,Xi,Xj分別為兩個(gè)樣本向量。
采用歐氏距離度量數(shù)據(jù)對(duì)象之間相異度的聚類分析常對(duì)樣本各個(gè)指標(biāo)對(duì)象一視同仁,統(tǒng)一處理,計(jì)算出來的對(duì)象間距離是硬性的,還不能準(zhǔn)確表示對(duì)象之間的所屬關(guān)系。將樣本數(shù)據(jù)比作一個(gè)生態(tài)系統(tǒng),生態(tài)系統(tǒng)內(nèi)不同子系統(tǒng)間既是獨(dú)立的單個(gè)系統(tǒng),同時(shí)也相互聯(lián)系,組成一個(gè)大的系統(tǒng)。即各個(gè)小系統(tǒng)之間的類屬關(guān)系不單單取決于它們之間的硬性距離,還取決于這個(gè)小系統(tǒng)本身的生態(tài)特性,也就是說樣本對(duì)象對(duì)整體樣本數(shù)據(jù)的影響程度(權(quán)重)是不同的。因此,依據(jù)樣本對(duì)象自身特有的分布特征賦予不同的權(quán)重,以滿足樣本數(shù)據(jù)系統(tǒng)整體的特征多樣性。加權(quán)的歐氏距離表示如下:
其中,wk(k=1,2,…,L)表示每個(gè)變量的權(quán)重。其權(quán)重系數(shù)wk的取值是否合理,是否符合實(shí)際,直接關(guān)系到是否可以反映各個(gè)指標(biāo)對(duì)象的數(shù)據(jù)分布特征,間接則是影響最終聚類結(jié)果的好壞。因此,在對(duì)數(shù)據(jù)指標(biāo)對(duì)象賦權(quán)的過程中,既要符合數(shù)據(jù)在現(xiàn)實(shí)世界的實(shí)際意義,又要遵從樣本數(shù)據(jù)指標(biāo)對(duì)象本身的分布特征。針對(duì)這一問題,提出了通過將模糊熵權(quán)法和標(biāo)準(zhǔn)差相結(jié)合對(duì)歐式距離進(jìn)行加權(quán)的模糊C均值聚類方法。
通過上面對(duì)歐式距離的加權(quán),使用wk作為表征不同變量在全局中所占據(jù)的不同權(quán)重,其定義如下:
由上式可知,wk值有效表征了數(shù)據(jù)樣本的分布特征,wj為樣本指標(biāo)的熵權(quán)重,代表了不同指標(biāo)之間的權(quán)重占比,考慮的是樣本數(shù)據(jù)的整體信息;sj為樣本指標(biāo)的標(biāo)準(zhǔn)差,考慮的是各指標(biāo)數(shù)據(jù)內(nèi)部的緊湊程度。而且當(dāng)熵權(quán)重越大時(shí),熵值則越小,樣本指標(biāo)就越有序,標(biāo)準(zhǔn)差sj就越小,說明此樣本數(shù)據(jù)對(duì)系統(tǒng)的影響(權(quán)重)越大,而此時(shí)加權(quán)值wj正好最大;反之,當(dāng)熵權(quán)重越小時(shí),則熵值越大,樣本指標(biāo)就越無序,標(biāo)準(zhǔn)差sj就越大,說明此樣本數(shù)據(jù)對(duì)系統(tǒng)的影響(權(quán)重)越小,而此時(shí)加權(quán)值wj正好最小。以下為熵權(quán)重的定義過程。
1)定義一個(gè)系統(tǒng)的整體樣本數(shù)據(jù),假設(shè)Xij為一個(gè)樣本矩陣,其所代表的是第i個(gè)樣本的第j個(gè)指標(biāo)的數(shù)值(i=1,2,…,n;j=1,2,…,m)。
2)指標(biāo)的歸一化處理:異質(zhì)指標(biāo)同質(zhì)化。樣本指標(biāo)之間一般存在不同的量綱,這致使構(gòu)建的評(píng)價(jià)指標(biāo)間不能達(dá)成統(tǒng)一的尺度[10],無法獲取準(zhǔn)確的聚類結(jié)果。因此,對(duì)選取的指標(biāo)需要提前進(jìn)行標(biāo)準(zhǔn)化處理,進(jìn)而可以消除變量之間的量綱關(guān)系,從而使數(shù)據(jù)之間產(chǎn)生可比性關(guān)系[11-12]。此外,由于每個(gè)指標(biāo)的作用效果分為正向負(fù)向,應(yīng)對(duì)指標(biāo)采用特定的標(biāo)準(zhǔn)化方式[10]。其具體方法如下。
正向指標(biāo):
負(fù)向指標(biāo):
式中,Xij為標(biāo)準(zhǔn)化后數(shù)據(jù);X'ij為原始數(shù)據(jù);minXj為第j個(gè)指標(biāo)中的最小值;maxXj為第j個(gè)指標(biāo)中的最大值;n為分類組的個(gè)數(shù),m為指標(biāo)數(shù)。
3)計(jì)算第j項(xiàng)指標(biāo)下第i個(gè)樣本對(duì)象占該指標(biāo)的比重:
式中,i=1,2,…,n;j=1,2,…,m。
4)計(jì)算第j項(xiàng)指標(biāo)的熵值:
其中,k=1/ln(n)>0,滿足ej≥0。
5)計(jì)算信息熵冗余度:
6)計(jì)算各項(xiàng)指標(biāo)的權(quán)值:
假設(shè)數(shù)據(jù)集用向量Xi=(xi1,xi2,…,xiL)(i=1,2,…,n)表示,其中n為樣本個(gè)數(shù),L為每個(gè)樣本的指標(biāo)個(gè)數(shù),xiL為第i個(gè)樣本的第L個(gè)指標(biāo)數(shù)值。FCM算法就是基于目標(biāo)函數(shù)的大小不斷優(yōu)化樣本數(shù)據(jù)集的隸屬度和聚類中心,直到最終獲取均勻的幾個(gè)模糊子集[13]。其迭代過程終止條件分為兩種情況,一種是迭代次數(shù)達(dá)到預(yù)先設(shè)定的數(shù)值,另一種是目標(biāo)函數(shù)達(dá)到最小閾值,通常情況下最小閾值的誤差限設(shè)置為exp-5。目標(biāo)函數(shù)是由隸屬度、樣本到聚類中心的偏差結(jié)合構(gòu)成[14]。其中隸屬度矩陣U的取值范圍在0到1之間。另外,加上歸一化規(guī)定,一個(gè)數(shù)據(jù)集的隸屬度的總和等于1,即:
樣本數(shù)據(jù)到各個(gè)聚類中心的距離用dij來表示,m表示加權(quán)指數(shù),用vi表示聚類中心,則dij=‖vi-xj‖計(jì)算結(jié)果為聚類中心與數(shù)據(jù)點(diǎn)間的加權(quán)歐式距離。那么FCM的價(jià)值函數(shù)的一般化形式為:
構(gòu)造如下新的目標(biāo)函數(shù),即可求得使式(11)達(dá)到最小值的必要條件:
上式中,λj(j=1,2,…,n)為拉格朗日乘子,對(duì)參量求導(dǎo)可得使得式(11)達(dá)到最小的兩個(gè)必要條件,如下:
由上述推導(dǎo)可知FCM算法迭代過程,即不斷優(yōu)化目標(biāo)函數(shù)以確定聚類中心vi和隸屬矩陣U的過程,當(dāng)目標(biāo)函數(shù)的值小于前后兩次的誤差限閾值或者大于迭代次數(shù)時(shí)停止。
本試驗(yàn)采用Iris數(shù)據(jù)集作為測(cè)試數(shù)據(jù)集。Iris數(shù)據(jù)集是國際公認(rèn)比較無監(jiān)督聚類方法效果好壞的典型數(shù)據(jù)集[15],該數(shù)據(jù)集廣泛應(yīng)用于數(shù)據(jù)挖掘和分類領(lǐng)域。Iris數(shù)據(jù)集以鳶尾花的萼片長度和寬度、花瓣長度和寬度四種特征作為數(shù)據(jù)的分類屬性[16],數(shù)據(jù)集分為了3類,分別是山鳶尾(Setosa)、雜色鳶尾(Versicolour)、維吉尼亞鳶尾(Virginica),每類分為50個(gè)數(shù)據(jù)樣本,數(shù)據(jù)集因此共由150個(gè)數(shù)據(jù)組成。
1)初始化參數(shù)C、模糊加權(quán)指數(shù)m,最大迭代次數(shù)以及終止誤差限條件;
2)初始化隸屬矩陣U,并進(jìn)行迭代更新;
3)用式(13)更新聚類中心(i=1,…,c),c是數(shù)量集分為聚類中心個(gè)數(shù),也就是數(shù)據(jù)集種類的個(gè)數(shù);
4)更新目標(biāo)函數(shù),當(dāng)目標(biāo)函數(shù)的值小于前后兩次的誤差限閾值或者大于迭代次數(shù)時(shí),算法停止。
在MATLAB中分別用FCM聚類算法和加權(quán)FCM聚類算法對(duì)Iris數(shù)據(jù)集聚類分析,結(jié)果如表1、圖1所示。
表1 Iris數(shù)據(jù)聚類結(jié)果Table 1 Iris data clustering results
根據(jù)圖1結(jié)果,其試驗(yàn)分析如下。
由圖1可見,Iris數(shù)據(jù)集分為了三類,其中Setosa這一類可由加權(quán)和未加權(quán)算法全部識(shí)別出來。并且可以明顯看出,Setosa這一類與另外兩類在空間內(nèi)并無重疊,線性可分,而另外兩類局部重疊。
圖1 Iris數(shù)據(jù)聚類結(jié)果Fig.1 Iris data clustering results
根據(jù)表1結(jié)果,其試驗(yàn)分析如下。
由表1可見,Iris數(shù)據(jù)集同樣分為了三類,其中加權(quán)和未加權(quán)FCM算法都可將Setosa這一類全部識(shí)別,并且可以明確地確定獲取另外兩類樣本加權(quán)和未加權(quán)FCM算法下的個(gè)體重疊數(shù)量。結(jié)果表明,加權(quán)算法比未加權(quán)算法可以更為有效地識(shí)別Iris數(shù)據(jù)集重疊部分,具有較強(qiáng)的魯棒性,并將識(shí)別率從89.33%提高到95.33%。
通過以上研究結(jié)果,可以得到如下結(jié)論。
1)數(shù)據(jù)本身所具有的特征屬性在空間內(nèi)所呈現(xiàn)的幾何關(guān)系有所不同,因而不同屬性對(duì)系統(tǒng)數(shù)據(jù)的貢獻(xiàn)值不同,所以在進(jìn)行評(píng)價(jià)分類時(shí)需要確定空間權(quán)重系數(shù)。
2)通過將加權(quán)FCM和未加權(quán)FCM進(jìn)行比較:將模糊熵權(quán)法和標(biāo)準(zhǔn)差相結(jié)合,獲取的權(quán)重能夠更為客觀地反映數(shù)據(jù)之間的真實(shí)分布情況,使得獲取途徑更加智能。
3)實(shí)驗(yàn)表明,未加權(quán)后的FCM算法更為有效地提高了分類結(jié)果精度。