何 婷,趙春蘭,2*,李 屹,王 兵
(1 西南石油大學(xué) 理學(xué)院,四川 成都 610500;2 西南石油大學(xué) 人工智能學(xué)院,四川 成都 610500;3 西南石油大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,四川 成都 610500)
綜合評價(jià)是指對事物的多層次、多屬性、多方位進(jìn)行分析評價(jià)的過程。基于模糊理論的評價(jià)方法能夠有效地處理指標(biāo)因素的模糊性和隨機(jī)性,近年來在實(shí)踐中得到越來越多的關(guān)注和應(yīng)用[1]。模糊綜合方法(fuzzy comprehension evaluation,FCE)可以綜合考慮各影響因素的特點(diǎn),構(gòu)造隸屬度函數(shù),確定各指標(biāo)的隸屬度,從而得出最終的重要程度排序。這種排序過程是將一些界限不清或定義模糊的指標(biāo)進(jìn)行量化,通過模糊函數(shù)將那些難以量化的指標(biāo)轉(zhuǎn)化為量化指標(biāo),使評價(jià)過程更加合理、準(zhǔn)確[2-3]。
模糊綜合評價(jià)的核心問題包括評價(jià)指標(biāo)權(quán)重的確定、隸屬函數(shù)的構(gòu)造和綜合算子的選擇。大部分學(xué)者將重點(diǎn)放在如何改進(jìn)權(quán)重計(jì)算和合成算子上,對隸屬函數(shù)的研究相對較少。目前,隸屬函數(shù)一般根據(jù)經(jīng)驗(yàn)確定[1,4-5],主要有模糊統(tǒng)計(jì)、二元對比排序和模糊分布等方法,其中模糊分布最為常見,主要包括矩形分布、梯形分布、K次拋物型或半拋物型分布、高斯分布和柯西分布。但是,上述根據(jù)模糊分布確定隸屬度的過程難免會(huì)受到主觀性的較大影響,導(dǎo)致評價(jià)結(jié)果出現(xiàn)偏差。同時(shí),文獻(xiàn)[5]指出隸屬函數(shù)作為模糊集合論的基礎(chǔ),用精確的函數(shù)曲線來處理模糊現(xiàn)象,精確地解決模糊問題,違反了模糊集合論的基本原理。因此,云模型和灰色關(guān)聯(lián)分析法中的灰關(guān)聯(lián)系數(shù)[4,6-7]被應(yīng)用到隸屬度矩陣確定過程。在確定隸屬度函數(shù)后,需根據(jù)評價(jià)指標(biāo)的評價(jià)標(biāo)準(zhǔn)進(jìn)行計(jì)算得到隸屬度值,然而實(shí)際生活中部分被評價(jià)對象不存在評價(jià)指標(biāo)的等級劃分標(biāo)準(zhǔn),評價(jià)時(shí)大多是根據(jù)經(jīng)驗(yàn)或行業(yè)標(biāo)準(zhǔn)劃分指標(biāo)閾值,缺乏科學(xué)的理論依據(jù)[6]。因此,現(xiàn)階段綜合評價(jià)的主要問題是建立科學(xué)的指標(biāo)分級體系和客觀的隸屬度矩陣。而模糊聚類算法作為一種理論成熟、應(yīng)用廣泛的無監(jiān)督聚類學(xué)習(xí)算法,可以通過無監(jiān)督學(xué)習(xí)確定元素屬于各個(gè)聚類簇的隸屬程度,對每一聚類簇進(jìn)行模糊識別實(shí)現(xiàn)數(shù)值與模糊語言之間的轉(zhuǎn)換。因此,將模糊C均值聚類(fuzzyC-means,FCM)算法應(yīng)用到指標(biāo)閾值和隸屬度矩陣的確定過程中,提出一種基于FCM模型的模糊綜合評價(jià)方法,以解決評估過程中的主觀性、模糊性和隨機(jī)性問題。因?yàn)樵趯?shí)際生活中,部分被評價(jià)對象的指標(biāo)具有評價(jià)標(biāo)準(zhǔn),所以本文將分為是否存在評價(jià)指標(biāo)標(biāo)準(zhǔn)兩種情況對FCM算法進(jìn)行研究:當(dāng)存在指標(biāo)標(biāo)準(zhǔn)時(shí),根據(jù)評價(jià)標(biāo)準(zhǔn)確定最佳聚類中心,代入FCM中確定隸屬度矩陣;不存在指標(biāo)標(biāo)準(zhǔn)時(shí),通過AP聚類確定模糊均值聚類的初始聚類中心,改善算法對聚類中心初值選取的隨機(jī)性及對樣本的敏感性,從而減小陷入局部最優(yōu)解的可能性,根據(jù)聚類結(jié)果建立合理的指標(biāo)分級體系和隸屬度矩陣。
聚類分析是進(jìn)行分組處理和數(shù)據(jù)劃分的有效方法,模糊聚類方法考慮樣本間的相互關(guān)系,分析它們之間相互的隸屬度,對類與類之間有交叉的數(shù)據(jù)集進(jìn)行聚類[8]。模糊C均值(FCM)聚類在分類評價(jià)領(lǐng)域已有大量研究成果。FCM聚類分析方法可以定性且定量地確定研究對象間的“親疏關(guān)系”,并能夠在分類對象沒有預(yù)先給定標(biāo)識的情況下,依據(jù)對象間的相似程度,自動(dòng)將其劃分為有意義的類別[9]。
FCM是用隸屬度確定每個(gè)數(shù)據(jù)點(diǎn)屬于某個(gè)聚類程度的一種聚類算法,把n個(gè)對象分為C組,并求每組的聚類中心,用隸屬度uki∈[0,1]來確定其屬于各個(gè)類別的程度,uki滿足
(1)
其中:uki表示第i個(gè)樣本屬于第k類的隸屬度。FCM算法是尋找使目標(biāo)函數(shù)J達(dá)到極小值時(shí)的隸屬度矩陣U和聚類中心c。目標(biāo)函數(shù)表達(dá)式為
(2)
利用拉格朗日乘子法求解(2)式,可得聚類中心ν和隸屬度u的迭代公式如下:
(3)
(4)
FCM 算法需要依據(jù)先驗(yàn)知識指定聚類類別數(shù),算法的靈活性受到限制,并且聚類結(jié)果對聚類中心的初值十分敏感,依賴性較大。初始聚類中心選擇不當(dāng)將會(huì)導(dǎo)致聚類結(jié)果陷入局部極值點(diǎn),得不到全局最優(yōu)解[10]。因此,文中將近鄰傳播(AP)聚類算法用于FCM聚類,對初始聚類中心選取進(jìn)行優(yōu)化。AP聚類算法[11-13]的優(yōu)點(diǎn)為無需事先指定聚類個(gè)數(shù)和初始聚類中心,可以通過傳遞數(shù)據(jù)點(diǎn)的信息找到最佳聚類中心。由此,本文提出將模糊均值聚類算法與AP聚類算法相結(jié)合的改進(jìn)方案,根據(jù)AP聚類算法確定FCM聚類算法的初始聚類中心,改善聚類中心初值選取的隨機(jī)性及敏感性,降低陷入局部最優(yōu)解的可能性。
1.2.1 AP聚類
AP聚類[12]的基本思想是將全部數(shù)據(jù)看作網(wǎng)絡(luò)節(jié)點(diǎn),將所有節(jié)點(diǎn)視為潛在聚類中心,通過計(jì)算節(jié)點(diǎn)間的相似度,構(gòu)成相似度矩陣,再通過節(jié)點(diǎn)間的消息傳遞,找到最合適的聚類中心。節(jié)點(diǎn)間傳遞的消息分為吸引度和歸屬度。吸引度γ(i,k)反映k點(diǎn)適合作為i點(diǎn)的聚類中心的吸引程度;歸屬度a(i,k)反映i點(diǎn)選擇k點(diǎn)作為其聚類中心的歸屬程度。AP聚類分為 4個(gè)步驟。
步驟1初始化吸引度和歸屬度矩陣為0矩陣,并計(jì)算相似度矩陣s,確定參考度p。
步驟2計(jì)算吸引度和歸屬度,即
(5)
(6)
步驟3更新吸引度和歸屬度。為了使算法在迭代過程中避免震蕩,在每次迭代更新時(shí)加入阻尼系數(shù)λ(λ∈(0,1))調(diào)節(jié)算法收斂速度,更新公式如下:
γt+1(i,k)=λγt(i,k)+(1-λ)γt+1(i,k),
(7)
at+1(i,k)=λat(i,k)+(1-λ)at+1(i,k)。
(8)
步驟4迭代執(zhí)行步驟2和3,更新γ(i,k),利用迭代后的γ更新a(i,k);然后得到H個(gè)聚類中心點(diǎn),并據(jù)此劃分出H個(gè)聚類,AP聚類結(jié)果如圖1所示。
圖1 AP聚類結(jié)果示意圖
1.2.2 基于AP聚類改進(jìn)的FCM聚類算法過程
將AP聚類計(jì)算出的聚類中心作為FCM聚類的初始聚類中心,排除因隨機(jī)選擇初始聚類點(diǎn)而對聚類結(jié)果造成的影響,進(jìn)而保證改進(jìn)得到的聚類中心為全局的最優(yōu)解,其具體算法步驟如下。
步驟1設(shè)定聚類參數(shù),其中包括參考度p、模糊指數(shù)權(quán)重m、最小誤差e,以及最大迭代次數(shù)。
步驟2通過AP聚類確定c個(gè)初始聚類中心。
步驟3利用公式(2)和(4)計(jì)算目標(biāo)函數(shù)和初始隸屬度矩陣。
步驟4判斷是否停止迭代。如果‖J(k+1)-J(k)‖ 步驟5令k=k+1,根據(jù)(3)式和(4)式更新聚類中心和隸屬度矩陣,返回步驟4。 因子集是由影響被評價(jià)對象的各指標(biāo)因子組成的集合,用X表示: X={x1,x2,…,xm}。 評價(jià)集是評價(jià)者對被評價(jià)對象做出各種總體評價(jià)結(jié)果的集合,用V表示: V={v1,v2,…,vn}。 從單因素評價(jià)出發(fā),確定被評價(jià)對象對評價(jià)集的隸屬程度,稱為單因素模糊評價(jià),進(jìn)而得到由被評價(jià)對象的所有指標(biāo)評價(jià)結(jié)果組成的模糊關(guān)系矩陣U?,F(xiàn)實(shí)生活中,部分被評價(jià)對象存在一定的評判標(biāo)準(zhǔn),比如地下水質(zhì)量,依據(jù)我國《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)GB/T14848-93》將地下水質(zhì)量劃分為5類。所以將改進(jìn)的FCM算法引入評價(jià)模型時(shí),需根據(jù)指標(biāo)閾值是否存在進(jìn)行分類研究。 2.3.1 存在指標(biāo)閾值:隸屬函數(shù)的建立 當(dāng)被評價(jià)對象存在評判標(biāo)準(zhǔn)時(shí),無需確定指標(biāo)閾值,只需確定隸屬度值。對此類被評價(jià)對象進(jìn)行分析,發(fā)現(xiàn)該評價(jià)對象的各個(gè)指標(biāo)存在相應(yīng)的等級劃分區(qū)間,故可將每一等級區(qū)間視為一類,那么可以認(rèn)為每一區(qū)間中心對應(yīng)著每一類的最佳聚類中心。所以,利用FCM算法確定此類情況的隸屬度矩陣時(shí),其目的不再是尋找使目標(biāo)函數(shù)J達(dá)到極小值時(shí)的隸屬度矩陣U和聚類中心c,而是在給定最佳聚類中心的前提下,尋找使目標(biāo)函數(shù)J達(dá)到極小值時(shí)的隸屬度矩陣U,將二參數(shù)優(yōu)化問題修正為單參數(shù)的條件極值問題,目標(biāo)函數(shù)為 (9) 其中,dij表示第i個(gè)樣本與第j個(gè)聚類中心的歐式距離,可根據(jù)指標(biāo)數(shù)據(jù)與評判標(biāo)準(zhǔn)計(jì)算。同樣地,利用拉格朗日乘子法求解(9)式,得到隸屬度函數(shù) (10) 顯然,當(dāng)數(shù)據(jù)點(diǎn)與某一聚類中心距離越接近時(shí),表示該數(shù)據(jù)點(diǎn)與包含此聚類中心的數(shù)據(jù)集更相似,那么該數(shù)據(jù)點(diǎn)隸屬于此數(shù)據(jù)集的可能性就越大,其對應(yīng)的隸屬度值就越高。如圖2中數(shù)據(jù)點(diǎn)x1,其中d11 圖2 隸屬度示意圖 2.3.2 不存在指標(biāo)閾值:指標(biāo)閾值和隸屬度矩陣的建立 現(xiàn)實(shí)生活中,雖然部分被評價(jià)對象存在統(tǒng)一的評判標(biāo)準(zhǔn),但大部分被評價(jià)對象并不存在等級劃分標(biāo)準(zhǔn)值。故利用模糊分布法確定隸屬度函數(shù)時(shí),還需人為確定評價(jià)等級的閾值,導(dǎo)致評價(jià)結(jié)果過于主觀。FCM聚類算法通過模糊劃分將數(shù)據(jù)自動(dòng)聚類,最后得到最佳聚類中心和隸屬度矩陣。利用每一等級區(qū)間為一類的思想,根據(jù)改進(jìn)FCM聚類算法的聚類結(jié)果客觀確定指標(biāo)閾值。 根據(jù)聚類結(jié)果建立等級劃分閾值,具體過程如下。 步驟1利用AP聚類算法確定聚類個(gè)數(shù)c,即通過AP聚類算法得到初始聚類中心Ck(k=1,2,…,c)。 步驟2利用由AP聚類算法得到的初始聚類中心進(jìn)行FCM聚類,得到最佳聚類中心V={v1,v2,…,vc}(排序后)和隸屬度矩陣U。 步驟3根據(jù)隸屬度矩陣得到所有數(shù)據(jù)點(diǎn)的聚類結(jié)果,計(jì)算每類的上下限值si和fi。 步驟4將聚類結(jié)果進(jìn)行適當(dāng)劃分,得到分級界限值。將某一聚類上限si與相鄰聚類下限fi+1的中間值ti作為邊界值,劃分子區(qū)間。結(jié)合實(shí)際情況,對分割好的區(qū)間進(jìn)行相應(yīng)的語義解釋A1,A2,…,Ac,則各區(qū)間端點(diǎn)值ti即是分級界限值。如圖3所示。 圖3 指標(biāo)閾值劃分結(jié)果 對權(quán)重向量A和模糊關(guān)系矩陣R進(jìn)行模糊合成運(yùn)算,得到綜合評判指標(biāo)B: B=A*R。 “*”的取法不同,評價(jià)結(jié)果也不完全相同。在實(shí)際應(yīng)用時(shí),應(yīng)根據(jù)不同的目的選擇恰當(dāng)?shù)倪\(yùn)算模型。模糊綜合評判的結(jié)果是被評價(jià)對象對各評價(jià)集的綜合隸屬度,反映了所有因素的綜合影響。確定評判對象具體結(jié)果常用的原則是最大隸屬度原則,但該原則會(huì)造成一定的信息損失,導(dǎo)致評判結(jié)果區(qū)分度低,不能真實(shí)反映研究對象間的差異[14]。所以,本次評價(jià)采用加權(quán)平均原則對結(jié)果矩陣進(jìn)行處理,即 (11) 其中,k為待定系數(shù)(k=1或2),目的是控制較大的bj所引起的作用。當(dāng)k趨于無窮大時(shí),加權(quán)平均原則就是最大隸屬度原則[5],新模型的流程見圖4。 圖4 基于改進(jìn)FCM算法的評價(jià)模型流程圖 利用四川某流域36個(gè)監(jiān)測斷面的化學(xué)需氧量、生化需氧量、高錳酸鹽指數(shù)、氨氮、總磷和溶解氧這6項(xiàng)指標(biāo)數(shù)據(jù)來驗(yàn)證新方法的有效性和可行性。選取各個(gè)監(jiān)測面2011—2015年監(jiān)測數(shù)據(jù)的年均值數(shù)據(jù)進(jìn)行分析評價(jià),如表1所示。 表1 各斷面水質(zhì)指標(biāo)實(shí)測值 本文采用變異系數(shù)法[7,15]來計(jì)算指標(biāo)權(quán)重。變異系數(shù)法是直接利用各項(xiàng)指標(biāo)所包含信息計(jì)算權(quán)重的一種客觀賦權(quán)法,通過計(jì)算得到指標(biāo)權(quán)重集:A=[0.474 9,0.116 5,0.180 8,0.084 9,0.027 7,0.115 3]。為將新模型的評價(jià)結(jié)果與傳統(tǒng)的模糊綜合評價(jià)模型(選擇將半梯形函數(shù)作為隸屬函數(shù))結(jié)果進(jìn)行對比,設(shè)置各指標(biāo)權(quán)重值不變。 為驗(yàn)證新模型的有效性,本文討論水質(zhì)指標(biāo)閾值是否存在兩種情況:當(dāng)水質(zhì)指標(biāo)閾值已知時(shí),依據(jù)《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》,水質(zhì)類別可分為Ⅰ類、Ⅱ類、Ⅲ類、Ⅳ類和Ⅴ類水體,故最終確定FCM算法的聚類個(gè)數(shù)為5;當(dāng)水質(zhì)指標(biāo)閾值未知時(shí),將指標(biāo)數(shù)據(jù)帶入AP聚類中,得到FCM的聚類數(shù)以及初始聚類中心,再引入FCM模型中,計(jì)算各指標(biāo)的隸屬度矩陣,得到所有監(jiān)測斷面的模糊關(guān)系矩陣并計(jì)算指標(biāo)閾值建立指標(biāo)評價(jià)體系,如表2所示。然后,根據(jù)權(quán)重向量和隸屬度矩陣進(jìn)行模糊運(yùn)算,得到所有斷面的水質(zhì)綜合評判指標(biāo),最后采用加權(quán)平均原則對結(jié)果矩陣進(jìn)行處理,得到最終評價(jià)結(jié)果。兩種情況的各斷面等級與排名結(jié)果見表3。 表2 水質(zhì)指標(biāo)評價(jià)體系 表3 四川某水域所有監(jiān)測斷面的兩類方法綜合評價(jià)等級與排名 將2類評價(jià)結(jié)果與傳統(tǒng)的模糊綜合評價(jià)方法和單因子評價(jià)結(jié)果進(jìn)行對比,根據(jù)圖5和6,4種模型評價(jià)趨勢基本一致且2類新方法與單因子評價(jià)結(jié)果的相關(guān)系數(shù)均在0.7以上,與傳統(tǒng)模糊綜合評價(jià)結(jié)果相關(guān)系數(shù)均在0.85以上,評價(jià)結(jié)果具有一定的一致性。同時(shí)發(fā)現(xiàn)2種新模型的評價(jià)結(jié)果處于傳統(tǒng)模糊綜合評價(jià)方法和單因子評價(jià)結(jié)果之間,表明新模型可以避免單因子評價(jià)模型僅強(qiáng)調(diào)最差單項(xiàng)指標(biāo)導(dǎo)致評價(jià)結(jié)果較為片面以及傳統(tǒng)模糊綜合評價(jià)中人為選擇隸屬度函數(shù)導(dǎo)致結(jié)果主觀性較強(qiáng)的問題。 圖5 4種模型綜合評價(jià)等級對比圖 圖6 4種模型評價(jià)等級結(jié)果的相關(guān)系數(shù)熱力圖 再對傳統(tǒng)評價(jià)模型與2類新模型的評價(jià)結(jié)果排名進(jìn)行分析(見圖7),發(fā)現(xiàn)2類新模型的排名結(jié)果趨勢大體一致,而傳統(tǒng)評價(jià)模型與2類新模型排名結(jié)果差異較大,所以對排名差異較大的監(jiān)測面進(jìn)行分析。以M和N斷面為例,評價(jià)結(jié)果如表4,傳統(tǒng)評價(jià)模型認(rèn)為M斷面水質(zhì)優(yōu)于N斷面,而兩類新模型結(jié)果相反。分析兩斷面的指標(biāo)數(shù)據(jù)(見表5),可以發(fā)現(xiàn)除高錳酸鹽指數(shù)和總磷指標(biāo)外,其余指標(biāo)無明顯差別,且高錳酸鹽指數(shù)均處于地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)的Ⅲ類以下,但是M斷面的總磷指標(biāo)值是N斷面總磷指標(biāo)值的7.6倍,M斷面的污染程度應(yīng)是比N斷面嚴(yán)重,可見2類新模型的結(jié)果更為合理。 表4 M和N斷面的3種模型評價(jià)結(jié)果 表5 M和N斷面的指標(biāo)數(shù)據(jù) 圖7 3種模型的評價(jià)結(jié)果排名對比 本文提出一種利用改進(jìn)的FCM模型優(yōu)化傳統(tǒng)模糊綜合評價(jià)的新方法,引入模糊聚類的思想解決現(xiàn)階段綜合評價(jià)系統(tǒng)中部分指標(biāo)閾值未知的問題,同時(shí)用FCM模型代替評價(jià)過程中的精確函數(shù)曲線,解決隸屬度確定過程的主觀性問題和模糊性問題。 本文針對實(shí)際生活中評價(jià)指標(biāo)是否存在標(biāo)準(zhǔn)閾值進(jìn)行分類討論:1)當(dāng)被評價(jià)對象存在評價(jià)標(biāo)準(zhǔn)時(shí),將FCM模型簡化為單純的條件極值問題,根據(jù)評價(jià)指標(biāo)等級劃分區(qū)間計(jì)算出最佳聚類中心,在給定最佳聚類中心的條件下,求解目標(biāo)函數(shù),得到對應(yīng)的隸屬度矩陣;2)當(dāng)被評價(jià)對象不存在評價(jià)標(biāo)準(zhǔn)時(shí),不能運(yùn)用精確函數(shù)計(jì)算隸屬度矩陣,本文首先利用AP聚類算法得到初始聚類中心,降低FCM聚類結(jié)果對初始聚類中心的依賴;再通過改進(jìn)的FCM模型對數(shù)據(jù)進(jìn)行模糊劃分,客觀確定隸屬度矩陣,并且根據(jù)得到的聚類結(jié)果建立一套評判標(biāo)準(zhǔn)。 將指標(biāo)數(shù)據(jù)通過改進(jìn)后的FCM模型進(jìn)行劃分,對其進(jìn)行分級,得到等級閾值,使得分級更加科學(xué)。同時(shí),精確隸屬函數(shù)計(jì)算過程繁瑣,易出現(xiàn)誤差且耗時(shí)長,而使用改進(jìn)后的FCM模型計(jì)算隸屬度矩陣時(shí)計(jì)算過程簡單,不易出現(xiàn)誤差且耗時(shí)短。不過對于綜合評價(jià)問題,評價(jià)結(jié)果大多是相對的。因此在解決實(shí)際問題時(shí),人們應(yīng)結(jié)合問題背景知識多層次、多角度建立評價(jià)模型。2 基于改進(jìn)FCM算法的評價(jià)過程
2.1 因子集和評價(jià)集的確定
2.2 權(quán)重向量的確定
2.3 指標(biāo)等級閾值和模糊評判矩陣的確定
2.4 模糊綜合評判
3 案例應(yīng)用與結(jié)果分析
3.1 實(shí)例研究
3.2 結(jié)果分析
4 結(jié)論