李新社 姚俊平
(高新技術(shù)研究所 陜西 710025)
模糊聚類分析技術(shù)是智能信息處理中的一個(gè)重要研究方向,是用模糊數(shù)學(xué)方法研究聚類問題,模糊聚類算法[1,2]由于具有良好的聚類性能與數(shù)據(jù)表達(dá)能力,已經(jīng)成為近年來研究的熱點(diǎn),廣泛的應(yīng)用在分析和解決實(shí)際問題當(dāng)中,包括工程、計(jì)算機(jī)科學(xué)、生命和醫(yī)學(xué)科學(xué)、社會(huì)科學(xué)、經(jīng)濟(jì)學(xué)、無導(dǎo)師的學(xué)習(xí)、類型學(xué)分析或劃分。這是由于實(shí)際問題中,一組事物是否屬于某一類常常帶有模糊性,也就是問題的界限不是十分清晰。我們不能明確回答是或否,而只能在某種程度上回答是。聚類分析研究已經(jīng)有幾十年的歷史,它的重要性及與其他研究方向的交叉特性均已得到人們的肯定,其中模糊聚類是數(shù)據(jù)挖掘、模式識(shí)別等研究方向的重要研究內(nèi)容之一,在天氣形勢分類、建筑的水泥適應(yīng)性、漢字職別等方面具有極其重要的作用。本文將模糊聚類分析原理與實(shí)際問題結(jié)合起來,重點(diǎn)研究模糊聚類分析的過程和步驟,特別是聚類過程中參數(shù)的客主觀處理方法。
定義1 設(shè) R= (rij)n×n是n階模糊方陣,I是n階單位方陣,若R滿足自反性 ( RI≤),對(duì)稱性( RRT=),傳遞性( RR≤2),則稱R為模糊等價(jià)矩陣。
定義2 設(shè) R= (rij)n×n是n階模糊方陣,I是n階單位方陣,若R滿足自反性( RI≤),對(duì)稱性( RRT=),則稱R為模糊相似矩陣。
定理1 R是n階模糊等價(jià)矩陣? ],1,0[∈?λλR是等價(jià)的布爾矩陣。
定理2設(shè)R是n階模糊等價(jià)矩陣,則 ?0 ≤λ< μ≤1,Rμ所決定的分類中的每一個(gè)類是 λR 所決定的分類中的某個(gè)子類。
定理2表明,當(dāng) λ< μ時(shí), Rμ的分類是 Rλ分類的加細(xì),當(dāng)λ由1變到0時(shí), Rλ的分類由細(xì)變粗,形成一個(gè)動(dòng)態(tài)的聚類過程。
定理3 設(shè)R是n階模糊相似矩陣,則存在一個(gè)最小的自然數(shù) )( nkk ≤,使得kR 為模糊等價(jià)矩陣,且對(duì)一切大于k的自然數(shù)l,恒有klRR= 。
模糊聚類分析的實(shí)質(zhì)一般是指根據(jù)研究對(duì)象本身的屬性來構(gòu)造模糊矩陣,并在此基礎(chǔ)上根據(jù)一定的隸屬度來確定聚類關(guān)系,即用模糊數(shù)學(xué)方法把樣本之間的模糊關(guān)系定量的確定,從而客觀且準(zhǔn)確地進(jìn)行聚類。但大多數(shù)對(duì)象并沒有嚴(yán)格的類屬性和隸屬關(guān)系,它們?cè)趯傩缘确矫娲嬖谥丿B性和交叉性,具有亦此亦被的性質(zhì)。
(1)建立數(shù)據(jù)矩陣
設(shè)論域 U={ x1,x2,…,xn}為被分類對(duì)象,每個(gè)對(duì)象又由m個(gè)指標(biāo)表示其性狀:
則得到原始數(shù)據(jù)矩陣為 X= (xij)n×m。
在實(shí)際問題中,不同的數(shù)據(jù)一般有不同的量綱,為了使觀察的特征值具有相對(duì)意義,使各特征值取值限定在[0,1]上,需進(jìn)行規(guī)格化處理,方法很多。
(2)建立X上的模糊相似矩陣
鑒別X中xi與xj的接近程度,用[0,1]中的數(shù)rij表示xi與xj的相似程度,得到相似矩陣(rij)n×m,對(duì)其求等價(jià)閉包或等價(jià)類,就可對(duì)X中的元素進(jìn)行分類。這里需要指出的是相似系數(shù)矩陣必須符合自反性、對(duì)稱性要求,可根據(jù)實(shí)際情況選擇數(shù)量積法、夾角余選法、相關(guān)指數(shù)、指數(shù)相似系數(shù)法等。
相關(guān)系數(shù)法
最小最大法
絕對(duì)值指數(shù)法
采用何種方法要根據(jù)具體問題具體性質(zhì)確定。這里注意有些模糊概念不具備此類特點(diǎn),比如不能根據(jù)信任關(guān)系對(duì)人員分類,因?yàn)樾湃侮P(guān)系不具有對(duì)稱性。
(3)聚類方法
此外,最大樹法和編網(wǎng)法也經(jīng)常用到。
表
每個(gè)環(huán)境單元可以包括空氣、水分、土壤、作物等四個(gè)因素。環(huán)境單元的污染狀況由污染物在四要素中的超限度來描寫。假設(shè)有五個(gè)單元x1,x2,x3,x4,x5,它們的污染數(shù)據(jù)為如表2所示。
數(shù)據(jù)矩陣為
采用最大值規(guī)格化法將數(shù)據(jù)規(guī)格化
用最大最小貼近度法構(gòu)造模糊相似矩陣得到
用平方追趕法可得傳遞閉包
取λ=1,分成5類 {x1} ,{x2},{x3},{x4},{x5};取λ=0.7,分成4類 {x1} ,{ x2, x4}, {x3},{x5}; 類似處理下去直至合成一類{x1, x2, x4, x3, x5}。動(dòng)態(tài)聚類結(jié)果如圖-1所示。
圖1 動(dòng)態(tài)聚類結(jié)果
上面聚類方法是平方追趕法的應(yīng)用過程,也可直接下從面相似矩陣R出發(fā),以取λ=0.63為例說明。
在R0.63中,顯然 r14=r24=1,于是{x2,x4},{x1,x4} 為相似類,所以有公共元素x4的相似類為 {x1,x2,x4},故分類應(yīng)為{x1,x2,x4},{x3},{x5}。
圖2 模糊聚類步驟
模糊聚類步驟可如圖2所示。模糊聚類最終結(jié)論的可靠性或者說參考價(jià)值與三大因素緊密相關(guān):①樣本選取是否隨機(jī),是否具有代表性;②規(guī)格化和相似度計(jì)算,特別是相似度計(jì)算;③閾值選取直接決定判斷者的意圖或結(jié)論。如何使模糊聚類分析的結(jié)果更加符合客觀實(shí)際,仍然是今后研究的重點(diǎn)問題。
本文將模糊聚類分析原理與實(shí)際問題結(jié)合起來,重點(diǎn)研究模糊聚類分析的過程和步驟,特別是聚類過程中參數(shù)的客主觀處理方法,并就模糊聚類所存在的一些模糊問題進(jìn)行了討論,同時(shí)指出了未來研究的重點(diǎn)和方向。
[1] 孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學(xué)報(bào),2008,19(1):48-61.
[2] 王亮,王士同.動(dòng)態(tài)權(quán)值混合C-均值模糊核聚類算法[J].軟件學(xué)報(bào),2011,28(8):2852-2855.