沈忠陽,覃亞麗
(浙江工業(yè)大學(xué)信息工程學(xué)院光纖通信與信息工程研究所,浙江杭州310023)
模糊C均值聚類算法在遙感圖像分類中是一種重要的方法[1]。與其他圖像分類算法相比,F(xiàn)CM能夠更多地保留原始圖像信息。但傳統(tǒng)的FCM算法存在以下兩個缺點(diǎn):只考慮圖像中的數(shù)值特征信息,而忽略了像素間的空間約束關(guān)系,有對數(shù)據(jù)集進(jìn)行等劃分的趨勢[2]。在聚類進(jìn)行之前必須給定類的數(shù)目,否則聚類無法進(jìn)行。針對以上問題,本文給出了利用數(shù)據(jù)點(diǎn)的密度大小作為權(quán)值,借助數(shù)據(jù)本身的分布特性,從而克服傳統(tǒng)FCM算法對數(shù)據(jù)集進(jìn)行等劃分的趨勢。應(yīng)用聚類有效性指數(shù),聚類有效性指數(shù)既可以評價聚類結(jié)果的有效性,也可以用來確定最佳聚類數(shù)。
如果樣本點(diǎn)周圍有其它樣本點(diǎn)時,則在該樣本點(diǎn)處的樣本分布密度就大,則該樣本點(diǎn)對于分類的影響就越大。因此,這里選取一種點(diǎn)密度函數(shù)作為加權(quán)系數(shù)wj的計算方法。用wj表示樣本xj對分類的影響程度。對于每個樣本點(diǎn)xi其點(diǎn)密度的表達(dá)式定義為:
式中,如果樣本點(diǎn)周圍的點(diǎn)越多,則zi值就越大。對zi進(jìn)行歸一化:
定義WFCM的目標(biāo)函數(shù)的表達(dá)式為:
式中,uij表示象元xj隸屬于以vi為中心的類別i的隸屬度,dij表示象元xi與象元xj之間的歐氏距離,m、c、n分別表示模糊加權(quán)指數(shù),聚類數(shù),圖像象元個數(shù)。目標(biāo)函數(shù)達(dá)到極小值時,根據(jù)拉格朗日乘數(shù)法求得 uij、vi分別為:
為了解決聚類的類別數(shù)的問題,本文應(yīng)用了一種試探性的、逐步優(yōu)化的方法來確定類的數(shù)目,最后達(dá)到自動分類的目的[3]。人們把對聚類結(jié)果的有效性驗證、尋找最優(yōu)劃分和最佳聚類數(shù)等問題稱為聚類有效性問題。聚類有效性問題可以通過聚類有效性指數(shù)來定量地研究。XB指數(shù)是目前廣泛使用的指標(biāo),VXB指數(shù)的值越小,獲得的聚類結(jié)果越好[4]。其定義為:
(1)選擇最小聚類數(shù)a和最大聚類數(shù)b。選擇聚類數(shù)c,用for循環(huán)實(shí)現(xiàn)c=a到c=b。
(2)選擇模糊加權(quán)指數(shù)m,最大迭代次數(shù)Tmax,終止誤差 ε,初始化隸屬度矩陣U(0)以及聚類中心V(0),計算目標(biāo)函數(shù)Jm。通過公式計算升級隸屬度獲得新的隸屬度,如果‖-u(t)‖≤ε,
ij則停止迭代。
(3)計算聚類有效性指數(shù)VXB。選擇VXB的值最小時的聚類數(shù)c作為最佳聚類數(shù)。
實(shí)驗選取了一幅臨沂地區(qū)的2008年的LANDSAT遙感影像的RGB偽彩色合成圖,圖像大小為200×200象素,如圖1所示。首先用本文給出的改進(jìn)的模糊C均值聚類算法對該遙感圖像進(jìn)行分類。在聚類前,要對參數(shù)進(jìn)行設(shè)置,最小聚類數(shù)a=3,最大聚類數(shù)b=8,模糊加權(quán)指數(shù) m=2.5[5、6],最大迭代次數(shù)Tmax=100,終止誤差ε=10-5。聚類數(shù)m不同時的聚類有效性指數(shù)VXB值如表1所示。
表1 聚類數(shù)c不同時的聚類有效性指數(shù)VXB值
由表1可知該遙感圖像的最佳聚類數(shù)是5。聚類數(shù)為c=5時該算法的聚類結(jié)果如圖2所示。根據(jù)遙感知識把他們分別分為了水域、裸露地、植被地、交通用地、人工建筑,并用5種不同的顏色表示。相同參數(shù)下,傳統(tǒng)FCM算法的輸出聚類結(jié)果如圖3所示。改進(jìn)FCM與FCM算法聚類有效性指數(shù)值如表2所示。
表2 改進(jìn)FCM與FCM算法聚類有效性指數(shù)值(算法的有效性評價)
由表2可知,改進(jìn)后的FCM算法聚類效果優(yōu)于傳統(tǒng)FCM算法。用人工識別的方法,將兩種算法的聚類結(jié)果圖和偽彩色合成圖對比,兩種算法均對水域進(jìn)行了較好的分類,本文給出的改進(jìn)FCM算法對人工建筑分類更精確。尤其是在交通用地如道路的聚類中,F(xiàn)CM算法更多地把裸露地、植被地誤分為交通用地。綜上所述,本文給出的改進(jìn)FCM算法,不僅能自動確定最佳聚類數(shù),而且還能實(shí)現(xiàn)比FCM算法更精確的遙感圖像分類。
本文給出了一種基于改進(jìn)的模糊C均值算法的遙感圖像聚類——基于加權(quán)模糊C均值聚類算法與聚類有效性指數(shù)的遙感圖像聚類。該算法不僅利用了遙感圖像的空間信息,而且通過應(yīng)用聚類有效性指數(shù)對不同聚類數(shù)時的遙感圖像聚類效果進(jìn)行評價。該改進(jìn)算法不僅能實(shí)現(xiàn)更精確的遙感圖像分類,而且能實(shí)現(xiàn)根據(jù)遙感圖像的不同自適應(yīng)地選擇出最佳聚類數(shù)。
[1] Dunn JC.A graph theoretic analysis of pattern classification via Tamura's fuzzy relation [J].IEEE Transactions on Systems,Man,and Cybernetics Society,1974,4(3):310 -313.
[2] 劉小芳,曾黃麟,呂炳朝.點(diǎn)密度函數(shù)加權(quán)模糊C均值算法的聚類分析[J].計算機(jī)工程與應(yīng)用,2004,40(24):64-65.
[3] Rosenberger C,Chehdi K.Unsupervised Clustering Method with Optimal Estimation of The Number of Clusters:Application to Image Segmentation[C].Barcelona:In Proceedings of 15th International Conference on Pattern Recognition,2000:656 -659.
[4] 鐘燕飛,張良培,李平湘.遙感影像分類中的模糊聚類有效性研究[J].武漢大學(xué)學(xué)報(信息科學(xué)版),2009,4(4):391-394.
[5] 高新波,裴繼紅,謝維信.模糊C均值聚類算法中加權(quán)指數(shù)m的研究[J].電子學(xué)報,2000,28(4):80-83.
[6] Nikhl PR,Bezdek JC.On cluster validity for the fuzzy c-means model[J].IEEE Transactions on Fuzzy Systems,1995,3(3):370-379.