潘金艷 ,高 朋 ,高云龍 ,謝有為 ,熊?;?/p>
(1.集美大學 信息工程學院,福建 廈門 361021;2.集美大學 航海學院,福建 廈門 361021;3.廈門大學 航空航天學院,福建 廈門 361101)
聚類分析是一種重要的無監(jiān)督學習方法,在模式識 別、機器學 習、數據挖 掘等領 域有著 廣泛的 應用[1–3].其目的是在一組分布未知的數據中,按照某種相似程度,盡可能地將相同性質的數據點歸為一類.根據數據的集聚規(guī)則,聚類算法可以分為4類:基于劃分、基于層次、基于密度和基于網格[4–5].其中基于劃分的聚類方法,因其直觀的幾何意義和良好的數學模型可描述性而一直受到廣泛關注,最具有代表性的基于劃分 的聚類方法就是模糊 C 均值聚類 (fuzzy Cmeans,FCM).但是傳統FCM聚類算法也存在許多缺陷,如:對噪聲點和孤立點敏感、對不平衡數據集敏感等.
針對FCM算法存在的這 些問題,近年來,研究者們展開了廣泛的研究.有研究將FCM對噪聲點和孤立點敏感問題歸結為樣本點對各數據簇隸屬度之和為1這一約束條件,該約束條件下噪聲點也會獲得較高的隸屬度[6,9],繼而在下一步的迭代過程中對聚類結果造成影響.于是,Krishnapuram等提出了可能C均值聚類模型 (possibilistic C-means clustering,PCM)[7],該模型考慮各個樣本的“各異性”及其與聚類中心的內在聯系,通過松弛樣本點到聚類中心的隸屬度來降低噪聲和異常樣本點的影響.然而PCM沒有考慮不同數據簇之間的相互作用,而且對初始聚類中心的設置極其敏感,易出現聚類中心趨同的情況.Pal等人提出了一種將FCM與PCM相結合 的模糊可能C均值聚 類模型(fuzzy possibilistic C-means clustering,FPCM)[8],該模型不僅考慮了不同數據簇之間的相互作用,而且利用了PCM能夠降低噪聲異常值影響的優(yōu)良特征,因此能夠得到較高質量的聚類結果.但是,當樣本量十分龐大時,由于FPCM全體樣本點對同一聚類中心可能性之和為的約束條件使得每個樣本點的作用將微乎其微,模型難以收斂[9].為了解決這個問題,Pal等人又 提出了 可能模 糊C均值聚 類算法(possibilistic fuzzy C-means clustering,PFCM)[10],該模型的改進之處在于均衡考慮了各樣本點的隸屬度以及可能性,放松了可能性之和為1的約束條件.但同時該模型引入了需要用戶設置的超參數,使得模型變得復雜且不具有自適應特征.相對熵模糊C均值聚類算 法 (relative entropy fuzzy C-means clustering,REFCM)[11]在FCM框架下,采用相對熵正則技術,引入朗伯函數求解模型,松弛了樣本的隸屬度約束條件,降低噪聲和異常樣本點的影響,但算法同樣存在模型復雜和收斂性不好的問題.
FCM算法對非平衡數據集敏感的問題也引發(fā)了眾多研究,其中Noordam等人從數據統計角度出發(fā),提出了簇大小不敏感模糊 C 均值聚類算法 (cluster size insensitive fuzzy C-means clustering,csiFCM)[12],算法在聚類過程中確定數據簇大小的比值,來平衡大數據簇對小數據簇的影響.但是,由于csiFCM對數據簇初始化聚類中心位置和相鄰簇之間的距離都很敏感,于是Lin等人從數據簇完整度和純度的統計特征角度提出了基于完整性的簇大小不敏感模糊C均值聚類算 法 (size-insensitive integrity-based fuzzy C-means,siibFCM)[13]算法,很好的解決了csiFCM存在的問題,但是該算法對噪聲點和孤立點不魯棒,在處理含噪聲的數據集時準確率會大大降低.
此外,本課題組在研究中發(fā)現,FCM模糊隸屬度具有拖尾和翹尾的結構特征,這一特征造成離群樣本的隸屬度會陷入“極端模糊”狀態(tài),這種狀態(tài)使得數據簇的內聚程度以及可分性下降.因此針對這些問題,本文提 出了一 種新的 基于可 靠性的 魯棒模 糊聚類算法 (reliability-based of robust fuzzy flustering,RRFCM),通過分析樣本點的可靠性來降低噪聲點、孤立點和數據簇不平衡問題對聚類結果的影響,提高聚類的質量.
自FCM[14]被提出以來就一直展現出強大的生命力,后人在其基礎上不斷提出各種各樣的衍生算法,來改進其存在的缺點.FCM基本思想是將包含n個樣本點的數據集X={x1,x2,···,xn},按照模糊的方法劃分到c個不同的數據簇,通過最小化簇內加權誤差平方和得到目標函數
對模型(1)通過拉格朗日乘子法求解,得到
其中:c為數據簇的個數,n為數據點的個數,m為模糊控制系數(m >1),uij表示第j個樣本點xj隸屬于第i類vi的程度,即隸屬度.則表示其 歐氏距離的平方.
在FCM算法中,模糊控制系數m的取值對聚類結果的影響很大.當m過小時,聚類的模糊程度將會減小,進而導致數據簇之間的作用力減小;當m=1時,算法退化為k-means算法;而當m過大時,聚類的模糊程度增大,所有數據點趨向于分為一類[15–16].因此,m的取值通常為[1.1,2.5][14–15],一般取值為2[17].
圖1 m取值對隸屬度的影響Fig.1 The influence ofm value on membership degree
在無監(jiān)督學習中,因為缺少數據整體結構特征的先驗知識,通常根據樣本點與整體樣本的偏移程度來判斷其是否為噪聲點,即:如果某一樣本點遠離大部分樣本點,且歐式距離相對較大時,那么該點為噪聲的可能性就會變得很大,反之,則不認為是噪聲;但是,如果數據點周圍也存在較多近鄰樣本點時,實驗中將其視為噪聲點處理顯然會造成較大的誤差.
由式(1)(3)可知,由于模糊隸屬度和為1的約束,噪聲點的存在會使聚類中心發(fā)生偏移,具體表現為:將噪聲點歸為某一類,則該類的聚類中心會偏移向噪聲點方向.當噪聲點距離數據簇較遠時,由于模糊隸屬度的拖尾與翹尾特征會造成本該被舍棄的離群點,陷入了“極度模糊”的狀態(tài),從而造成該數據簇的類內聚程度降低,同時也降低了數據簇間的可分性.下面通過 圖2來說明 這種情 況,如 圖2(a)中有標記為“o”和“*”的兩類數據簇,但是由于噪聲點的存在,FCM算法錯誤的將噪聲點作為新的一類,而本該分開的兩個數據簇卻重疊在了一起,如圖2(b)這樣的聚類結果顯然不符合實際情況.
數據不平衡主要表現在不同數據簇樣本容量或數據簇分布特征(方差)的差異上.以圖3二分類為例,選取正類的樣本數量遠大于負類的樣本數量,且分布特征不一致.由于FCM天生趨向于將數據簇均等分,因此數據簇之間的分界線將明顯偏移向樣本容量和方差較大的數據簇.如圖3(b)所示,黑色實線為理論分界線,虛線為實際分界線.
圖2 噪聲對聚類結果的影響Fig.2 Influence of noise on clustering results
通過以上分析可知,如何確定哪些點為噪聲點,并排除它們對聚類結果帶來的影響就顯得尤為重要.在目前眾 多對噪聲魯棒 性的FCM算 法中,如:PCM[7],FPCM[8],PFCM[10],REFCM[11]等 等,都是通 過描述樣本點與聚類中心的偏移程度,即假設的先驗模型來辨識樣本點是否為噪聲點.然而,根據式(3)可以看出聚類中心的計算也容易受到噪聲點的影響,聚類中心估計不準確,會對噪聲的判別帶來誤導.因此,這類算法的魯棒性對聚類中心的估計依賴性較強.
圖3 數據集不平衡對聚類結果的影響Fig.3 Influence of data sets imbalance on clustering results
與 Fisher 線性判別分析(Fisher linear discriminant analysis,Fisher LDA)思想相似,好的聚類算法應當使得同一簇內的對象彼此相似,不同簇間的對象相異.而目前對噪聲魯棒性強的FCM算法中,都過度強調同一簇內對象的相似性,而忽略了不同簇間的相異性,無法同時實現類內聚程度大,類間可分性強的組合最優(yōu)性.基于這個問題,本文提出了基于全局與局部的不確定性聚類模型.
模糊不確定性是指樣本點類別 屬性的不確定性.在當前聚類中心確定的條件下,一個樣本點距離不同數據簇交疊區(qū)域越遠,則該樣本點的類別不確定性越小,基于這一幾何意 義,本文中 把任意一個樣本 點xj的模糊不確定性建模為
其中n為不確定性因子.基于上述不確定性公式,聚類過程應當使得不確定性最小,即有
圖4是一個最簡單的帶有噪聲的二分類的數據集.對于距離聚類中心較近的點,如點C,它隸屬于某一類的隸屬度值會很大,即具有明確的類別特征;而對于距離數據簇較遠的噪聲點和兩個數據簇交界處的數據點,如點A和點B,表現在圖1中即為橫軸中間和兩端位置,由隸屬度可知它們的類別特征不明顯.根據式(4)可知,對于任意xj,模糊不確定性aj的取值與樣本點的類別屬性無關,其值大小僅取決于樣本點xj與聚類中心vi的歐氏距離.因此 參數aj的引 入,進一步的加強了類別特征不明顯樣本點的影響力,提高了數據簇間的可分性;另外對于具有明確類別特征樣本點,式(5)的權重aj較小,相對削弱了噪聲點和邊緣點對聚類結果的影響,因此提高了算法的魯棒性.
圖4 帶有噪聲的二分類數據集Fig.4 Noisy binary data sets
第3.1節(jié)在分析樣本點的不確定性過程中,依賴當前FCM的聚類中心,對每一個數據點的aj進行 分析,因此將其稱作基于全局不確定性的聚類模型.
相對于全局不確定性的聚類模型,此處基于FCM對數據的劃分,尋找數據點近鄰點信息,建立局部不確定性的聚類模型.通過局部不確定性聚類模型挖掘不同數據簇之間交疊區(qū)域樣本的不確定性,挖掘局部聚類結構特征,從而在聚類過程中,突出不同數據簇交疊區(qū)域樣本的可分性.依據這一思路提出基于模糊理論建立局部不確定性的聚類為
將模型(5)–(6)與FCM相結合,建 立如下基于可靠性的魯棒模糊聚類算法為
其中:uij,vi,xj與FCM算法中符號代表的含義相同,λ為全局不確定性比例系數,γ為局部不確定性比例系數,aj代表數據點的模糊不確定性程度,n為不確定性模糊因子,表示數據點xj的K個近鄰中,與xj標簽相同數據點的均值.很顯然,當λ,γ的值為0的時候,算法退化為FCM.本文中的符號以及定義總結在表1中.
表1 模型中符號及其代表含義Table 1 Notations used in this paper
基于式(8),利用拉格朗日乘子法,建立帶有拉格朗日約束項的輔助函數
函數L對輔助參數βj求偏導數得到
函數L對隸屬度uij求偏導數得到
令式(11)為零,得到
將式(12)代入式(10)得到βj,并將βj代回式(12)得到
函數L對聚類中心vi求偏導數得
令式(14)為零,得到
表2中給出幾種不同算法的時間復雜度,其中,N表示數據點的個數,c表示聚類簇的個數,t表示迭代的次數,w表示選取近鄰窗口的大小,q在FRFCM算法中表示灰階的個數.
表2 不同算法時間復雜度Table 2 Time complexity of different algorithms
可以看 出 FCM[14],csiFCM[12]和 siibFCM[13]3種算法有較低的計算復雜度.而FRFCM (fast robust fuzzy C-means clustering)[18],FLICM (fuzzy local information C-means clustering)[19]和RRFCM3種算法均引入局部近鄰約束,FRFCM算法將基于像素點聚類的方式改 為基于 灰階聚 類,q的取值 為 [0,255](q ?N),因此相較其他聚類算法復雜度要小得多.雖然FRFCM算法也引入了近鄰約束,但僅在算法收斂后,只對隸屬度進行一次隸屬度中值濾波,而FLICM和RRFCM算法的局部信息需要在每次迭代中更新,因此計算代價都很高,優(yōu)點就是相較于其他幾種方法,都能得到較好的聚類結果.
算法可以通過以下步驟迭代得到聚類結果.
步驟1確定m,c,λ,γ的取值,最大迭代次數iteration和目標函數收斂閾值?,初始化迭代次數t=0;
步驟2初始化聚類中心vi;
步驟3第1次迭代時,根據式(2)求隸屬度;若t>1,則根據式(13)更新隸屬度uij;
步驟4根據式(4)更新aj;
步驟5根據式(15)更新聚類中心vi;
步驟6若Jt?Jt+1<ε且t 步驟7根據隸屬度矩陣U得到聚類結果. 分別在人造數據集、UCI數據集[20]進行實驗,來驗證算法對含噪聲數據集、不平衡數據集和真實數據集的魯棒性,并進一步驗證算法在圖像分割實驗中的實用性. 實驗環(huán)境: PC:HUAWEI CPU:1.60 GHz–1.80 GHz RAM:8 GB 應用軟件:MATLAB R2019a 選取相關算法進行對比,以驗證本文算法的有效性,參考文獻 [21–22],文中RRFCM及其對比算法的模糊控制系數m均取2,全局和局部模糊不確定系數λ,γ通過尋優(yōu)得到. 為了驗證算法的好壞,人造數據集和UCI實驗結果用蘭德指數(Rand index,RI)作為評判標準: 蘭德指數是利用樣本點之間的關系來衡量聚類結果,其中:a是樣本點中原來屬于同一類,聚類后仍屬于同一類的數據對個數;b表示原來不屬于同一類,聚類后仍然不屬于同一類的數據對個數;n表示數據點的個數,分母表示所有樣本點所組成的數據對總個數.RI∈[0,1],RI的值越大,表示聚類效果越好. 4.5.1球形數據集 FCM算法對數據集的分布比較敏感,對于凸集或類球形數據集,往往有好的聚類結果.本文首先在球形分布數據集上進行實驗.其中包括兩個可分性較好的高斯分布的數據簇.此外,為了驗證算法的魯棒性,在數據集中加入了3個高斯分布的噪聲點.具體參數如表3所示. 表3 球形數據集及噪聲分布Table 3 Spherical data sets and noise distribution 實驗中λ的取值為0.4,n的取值為2 (不確定因子),γ的取值為1e?6;因為算法對初始值很敏感,這種不確定性會導致聚類結果出現較大的偏差,因此,本文對FCM和RRFCM兩種算法分別進 行10次重復實驗,取RI的平均值作為實驗最終結果,來減小誤差,得到實驗結果如圖5所示. 圖5 RRFCM算法在球形數據集上的聚類分析Fig.5 Clustering analysis of RRFCM algorithm on spherical data sets 表2中兩個高斯分布的均值為理論的聚類中心,因此算法得到的vi偏移越小,則表示受噪聲的影響越小.在圖5(b)(c)中分別用“*”來表示理論聚類中心,“□”表示算法聚類結果.從圖5(b)可以看出FCM將3個噪聲點分給了第1類,由于噪聲點的“拉扯力”,因此,聚類中心向噪聲點的方向發(fā)生較大的偏移.FCM算法分別得到的聚類中心為(2.488,4.911)和(4.786,2.041),蘭德指數RI為60.82%.如圖5(c)所示為RRFCM算法的聚類結果,得到的 聚類中心為 (2.825,4.500) 和(4.714,2.043),蘭德指 數RI為63.40%.算法在對第2類的聚類中心幾乎沒有影響的情況下,使第1類的聚類中心更加靠近真實值,可以看出,算法在沒有降低精度的同時,還對噪聲點表現出了良好的魯棒性. 學生黨支部作為高?;鶎狱h組織的重要組成部分,理應是高校開展思想政治工作的戰(zhàn)斗堡壘,然而,目前理工科院系學生黨支部建設卻面臨著一些突出問題。從個人的角度來講,理工科學生對政治的淡漠和參與度較低,一定程度導致了入黨積極性不足;而“務實”的“功利主義”又導致部分入黨學生動機不純,更看重入黨帶來的現實回報,而非黨組織所要求的政治意識和應當承擔的責任。此外,還有部分學生黨員黨性意識不高,對黨組織歸屬感不強,參與黨支部活動積極性不高等。 4.5.2非球形數據集 FCM算法能很好地識別球形數據集,但對于非球形數據集的識別能力較差.為了驗證RRFCM算法是否具有很好的泛化性能,設置如圖6所示兩個棒狀的高斯分布數據簇,方差均為,通過改變它們的中心距來判斷算法對數據簇形狀變 化的魯 棒性.如 圖6(a),當兩個 棒狀數 據簇中 心距為2.8時,由圖6(b)和圖6(c)可 見FCM和RRFCM算 法都可以很 好的正確分類;進一步縮小中心距為2.4,如圖6(e)所示,FCM算法分界線發(fā)生了傾斜,更加傾向于將兩個數據簇分為上、下兩類來平衡數據簇形狀變化帶來的影響,這種現象在中心距縮小為2.2時更加明顯,如圖6(h)所示,FCM算法分界線幾乎變?yōu)樗椒较?聚類中心也由數據簇的中心位置偏移到中間空白位置,這樣的分類結果顯然是不理想的;而RRFCM算法在3種不同的中心距時,均能正確地將數據集分為左右明顯分離的兩個簇(圖6(c)(f)(i)).實驗結果說明算 法不但 對噪聲具有魯棒性,而且不受數據簇的形狀變化帶來的影響,即對數據分布也有較好的魯棒性,當數據集分布非類球形時,仍然能得到較好的聚類結果. 圖6 RRFCM算法在非球形數據集上的聚類分析Fig.6 Clustering analysis of RRFCM algorithm on non-spherical data sets 4.5.3 非平衡數據集 上述魯棒性驗證實驗是在平衡數據集上進行的,本節(jié)改變數據簇的樣本容量,來驗證RRFCM算法對非平衡數據集的有效性. 選取兩個服從高斯分布的球形數據集,不平衡度設置為20 (正負類樣本容量的比值),數據簇具體參數如表4 所示.對比算法為 FCM[14],csiFCM[12]和 siib-FCM[13].結果如圖7所示,從隸屬度等高線可以看出FCM算法和csiFCM算法的聚類中心明顯偏向較大的數據簇,siibFCM雖然比較好的解決了聚類中心偏移的問題,但是依然存在少量錯分點.而RRFCM算法對數據集大小不敏感,能準確地將兩個簇分開. 圖7 不同算法在非平衡數據集上的聚類效果Fig.7 Clustering effect of different algorithms on size imbalance data sets 表4 非平衡數據集分布Table 4 Size imbalance data sets distribution UCI 數據庫 是加 州大 學歐文分 校 (University of California Irvine,UCI)提供的用于機器學習常用標準測試數據集[20].本文選取了12個UCI數據集,來檢驗RRFCM 算法在處理真實數據時的表現. 實驗選 取 FCM[14],PFCM[10],GIFP–FCM[23–24],csiFCM[12],siibFCM[13]和 RBI–FCM[25]作為對比算法.其中基于改進模糊劃分的廣義模糊C均值聚類(generalized fuzzy C-means clustering algorithm with improved fuzzy partitions,GIFP–FCM) 算法是 Zhu 等人提出的,文章通過引入新的隸屬度約束,解決了基于改進模糊劃分的模糊C均值聚類(improved fuzzy partitions for fuzzy regression models,IFP–FCM)[26]算 法模糊指數m的一般化問題,同時算法從Voronoi距離和競爭學習的角度對其魯棒性和快速收斂性進行了合理解釋;簇間可分的魯棒模糊C均值聚類(robust fuzzy C-means clustering algorithm integrating between cluster information,RBI–FCM)算法是Gao等人提出的,文章利用k-means算法對模糊隸屬度的稀疏特征,降低簇之間相互作用,提高了簇間可分性,另外算法的魯棒性,也有效降低了FCM 對數據簇分布差異性和抽樣不均衡的敏感性,得到理想的聚類結果.該組實驗的評價指標為蘭德指數RI,實驗結果如表5所示,實驗結果表明,RRFCM算法 在12個UCI數據集上均取 得最高的蘭德指數,充分說明RRFCM算法在真實數據上的實用性. 圖像分割是指將圖像分成若干互不重疊的子區(qū)域,使得同一個子區(qū)域內的特征具有相似度高,不同子區(qū)域的屬性呈現較為明顯的差異,是圖像處理與機器視覺的基本方法之一[27],在圖像分析的預處理階段具有十分重要的作用[28],也是圖像后期分析的基礎. 4.7.1人造合成圖像分割 首先在有噪聲的人造圖像上進行實驗. 實驗選 取 FCM[14],csiFCM[12],siibFCM[13],FLICM[18]和FRFCM[19]作為對 比算法.其 中,FLICM和FRFCM算法都是通過引入圖像近鄰信息來優(yōu)化算法,FLICM利用模糊局部(空間和灰度)相似性度量,來提高算法 對噪聲 的不敏 感性和 圖像細 節(jié)保留能力;FRFCM通過引入基于灰階聚類和隸屬度中值濾波器,使得算法不需要像FLICM那樣計算近鄰信息,因此大大降低了計算代價,并且中值濾波還起到了對噪聲魯棒的作 用.實驗選 取分割精度 SA (segmentation accuracy)作為圖像分割結果的評價指標其中:c為類的個數,Ai表示通過算法迭代后屬于第i類像素點,Ci表示在原始圖像中屬于第i類的像素點.顯然,當圖像完美分割的時候,SA的值應該無限接近于1. 表5 各算法在UCI數據集的RI指數(%)Table 5 RI index of each algorithm on UCI data sets (%) 第1張圖像大小為128×128,分為平衡的兩類數據集,左側區(qū)域灰度值為20,右側灰度值為140.為了驗證算法魯棒性,依次加入均值為0,方差為0.05,0.15和0.3的高斯噪聲.從圖9可以看出,當方差為0.05時,5種對比算法都可以準確分類,但只有FLICM和FRFCM兩種算法幾乎可以完全去除噪聲;當方差為0.15和0.3時,隨著噪聲方差的增大,前3 種算法雖然能準確分類,但都變得模糊不清.FLICM算法仍能較好的去除噪聲,對比FRFCM右側區(qū)域則抑制噪聲較差,這種趨勢隨著噪聲方差的增大表現得更加明顯;而RRFCM則受高斯噪聲方差變化的影響較小,只有在方差為0.3時才會出現少量噪點,RRFCM算法在準確分類的同時也有效的去除了噪聲,表現出較好的魯棒性. 從圖8分割精度折線圖可以看出,隨著噪聲方差的增大,除了FLICM和RRFCM算法,其他算法的精度都有所下降,因此SA隨噪聲變化的折線圖更加直觀反映了算法對噪聲較好的魯棒性. 第2張圖片大小為512×512,分為不平衡的四類數據集,其中左上角小正方的灰度值為0,記為I;右上角矩形灰度值為85,記為II;右下角大正方灰度值為255,記為III;左 下角矩形灰度值為170,記為IV;和圖9 一樣依次加入均值和方差均相同的高斯噪聲.由圖10可以看出,無論噪聲方差多大,所有對比算法都不能將I和II分界很好的分出來,并且III和IV的噪聲都無法去除;而本文算法,在當噪聲方差為0.05和0.15時,I和II都能正確分類,且IV的噪聲幾乎被完全的去除掉;當噪聲方差為0.15時,盡管III和IV被錯分到一起,但是整體噪聲仍然得到較好的抑制. 圖8 高斯噪聲方差對SA的影響Fig.8 The influence of Gaussian noise variance on SA 相比于二分類圖像分割,各對比算法在數據不平衡時均出現錯分的情況,并且對噪聲魯棒性也會變得很差.而RRFCM算法僅在噪聲方差較高時才會出現錯分,并且在噪聲抑制上要優(yōu)于其他算法.從圖10的SA折線圖可以觀察到,在噪聲方差變大時,只有FRFCM算法和RRFCM算法仍能保持較高的分割精度,但就分割正確性來說,顯然RRFCM算法要表現的更好. 圖9 人造二分類圖像分割Fig.9 Artificial binary image segmentation 圖10 高斯噪聲方差對SA的影響Fig.10 The influence of Gaussian noise variance on SA 4.7.2 彩色真實圖像分割 接下來選取Berkeley圖庫作為測試對象,選取的圖像為#238011,#15088和#135069. 從 圖12(b)(d)(e)(f)可以看 出,由于月 亮數據簇較小,因 此FCM,siibFCM,FLICM和FRFCM錯誤的 將月亮與周圍天空錯分為一類,導致分割結果中月亮和背景天空融合到一起,并且天空也不能完整分割.雖然 圖12(c)顯 示csiFCM算法將 月亮很好地分割出 來,但是與邊緣天空錯分為一類,而且仍然未解決劃分結果均衡這一問題,即并沒有解決對數據集大小敏感這一問題;而RRFCM算法在 正確分 類的前提下,如 圖12(g)準確地將月亮分割出來;圖13所示水中船只,為了得到圖片主體船,需要將水面和水波作為噪聲劃為一類.在對比算法中,只有FLICM和FRFCM算法可以較好的去除波紋,而其他算法雖然也能正確分類,使主體與背景分割開來,但仍然存在少量水波無法去除.如圖13(g)所示,本文算法完全去掉了波紋,并得到清晰的湖船主體. 圖11 人造四分類圖像分割Fig.11 Artificial quad-classification image segmentation 圖12 各算法對Berkeley圖庫圖像分割結果Fig.12 Algorithms on Berkeley library image segmentation results 圖13 各算法對Berkeley圖庫圖像分割結果Fig.13 Algorithms on Berkeley library image segmentation results 圖14和圖15為算法在常用圖像分割數據集上的實驗結果,選取的c值為2和3.實驗選取的對比算法及參數與圖13和圖14實驗均相同. 在這些 結果中 可以 看到,siibFCM和FLICM算 法在一些數據不均衡或分布不均勻的圖像取得較好的分割結果.而在部分數據不均衡圖像上,siibFCM算法卻并不能很好的解決該問題.對于一些背景“純凈”,但分布不均勻的圖像,FLICM算法的分割結果也不是很理想.FRFCM相較于其他對比算法的優(yōu)點是計算速度快,但也僅在個別圖像上取得較好的分割結果.而RRFCM算法面對這些圖像存在問題,均可以得到較好的分割結果. 在 原圖中加入 均值 為0,方差為0.15的高斯噪 聲,如圖16所示.可見FCM,siibFCM和FRFCM算法僅能看清鷹的輪廓,而不能很好的抑制噪聲;csiFCM算法在加入高斯噪聲后,當噪聲方差較低時,聚類效果和FCM算法相差不大,隨著方差的增加,所有簇將會聚為一類,無法得到可觀測的聚類結果(為了方便觀察,圖16(c) 加入了熱圖),因此在 真實圖像分割 中,csi-FCM算法幾乎不具備魯棒性;FLICM優(yōu)于以上對比算法,對噪聲 具有一 定的抑 制作用,但相比 于RRFCM算法仍存在均衡分類的現象,結果如圖16(e)所示將一部分背景天空錯分到主體鷹這一小數據簇上.為了便于觀察RRFCM算法的魯棒性,如圖16(g)所示加入未加噪聲的分類結果,對比圖16(h)可以看出,RRFCM算法在真實圖像分割中,在解決數據簇大小敏感問題的同時,可以較好地抑制噪聲,結果優(yōu)于對比算法. 圖14 c=2圖像分割Fig.14 c=2 image segmentation 圖15 c=3圖像分割Fig.15 c=3 image segmentation 由實驗結果可知,本文所提出的RRFCM算法,在保證模糊C均值聚類算法優(yōu)點的同時,提高了算法的魯棒性,也有效解決了算法對數據大小敏感的問題,并在人造數據集、真實數據集和圖像分割上取得較好的結果.但算法也存在局限性,對初始聚類中心較為敏感,對初始化聚類中心位置依賴性較強,并且由于要計算數據點近鄰約束信息,因此算法計算代價較高,今后將在解決該問題上進行研究,就其初始化聚類中心不敏感性和算法實現快速性做出更為合理的分析與解釋.4.3 實驗設置
4.4 評價指標
4.5 人造數據集驗證魯棒性和類大小不敏感性
4.6 UCI數據集
4.7 圖像分割
5 結束語