韋 相
(紅河學(xué)院計算機科學(xué)與技術(shù)系,云南蒙自 661100)
改革開放以來,我國各省市因起點不同,再加上資源、技術(shù)、地域及政策等條件的差異,使我國各省市的經(jīng)濟發(fā)展水平存在較大的差異,特別是東部和西部的經(jīng)濟水平差異更大.因此,對各省市的經(jīng)濟發(fā)展水平進行分析,總結(jié)出經(jīng)濟發(fā)展的優(yōu)勢和劣勢,有針對性的制定經(jīng)濟發(fā)展戰(zhàn)略,有利于促進國民經(jīng)濟的協(xié)調(diào)發(fā)展[1].
聚類是根據(jù)數(shù)據(jù)自身的相似程度,將數(shù)據(jù)分到不同的類或者簇的過程,因此同一簇中的對象相似性大,而不同簇間的對象相似性小[2].一個對象要么屬于此簇,要么不屬于此簇,不存在介于二者之間的情況,這是一種硬劃分的聚類算法[3-4].
模糊聚類方法在硬劃分的基礎(chǔ)上引進模糊性,它使得各個對象以不同的隸屬度劃分到各個簇中,模糊聚類方法基于Zadeh提出的模糊集概念和模糊數(shù)學(xué)方法.模糊聚類能夠有效地對反映對象既屬于這個集合,又屬于那個集合這種現(xiàn)象,所得的聚類結(jié)果明顯的優(yōu)于硬聚類,更客觀更準確地反映現(xiàn)實情況.
模糊聚類算法有模糊c-均值聚類算法和基于模糊關(guān)系的傳遞閉包等.本文使用基于模糊關(guān)系的傳遞閉包來實現(xiàn)對31省市的指標數(shù)據(jù)進行的聚類分析,基于兩種原因:①省市的指標數(shù)據(jù)不好硬性劃分,具有模糊性,而模糊相似矩陣能很好的處理模糊現(xiàn)象;②使用模糊c-均值聚類算法(FCM)[5]需要事先確定聚類的簇數(shù)c以及每個簇的聚類中心,而對于這些指標數(shù)據(jù)來說,事先很難確定簇數(shù)c和每簇的聚類中心,而模糊相似矩陣不需要事先確定聚類中心,可以根據(jù)等價矩陣,獲得詳細的動態(tài)聚類圖,方便用戶按照自己的理解方式劃分簇數(shù),因而該算法得到廣泛的應(yīng)用.文獻[6]使用模糊聚類算法實現(xiàn)對Web日志的聚類分析,文獻[7]使用模糊聚類分析對Web文檔進行預(yù)取,提高網(wǎng)頁服務(wù)器效率;文獻[8]使用模糊聚類算法對DNA序列進行聚類分析,準確度很高.
經(jīng)濟的協(xié)調(diào)發(fā)展涉及到很多因素,包括:人口、經(jīng)濟、社會、資源、環(huán)境等方面內(nèi)容,每一方面的內(nèi)部都涉及到很多的因素,所以它是一個內(nèi)在關(guān)系極其復(fù)雜的現(xiàn)實系統(tǒng),本文選取的指標包括:人口系統(tǒng)的人力資源相關(guān)指標、經(jīng)濟系統(tǒng)的經(jīng)濟增長相關(guān)指標以及社會系統(tǒng)的生活質(zhì)量相關(guān)指標,建立起一個科學(xué)的綜合評估指標體系[9].本文選取2009年全國31個省市的9項指標,從人力資源、經(jīng)濟增長和生活質(zhì)量3個方面分析地方經(jīng)濟:
1)人力資源:X1-就業(yè)人數(shù)(萬人);
2)經(jīng)濟增長:X2固定資產(chǎn)投入(億元);X3-第一產(chǎn)業(yè)總產(chǎn)值(億元);X4-第二產(chǎn)業(yè)總產(chǎn)值(億元);X5-第三產(chǎn)業(yè)總產(chǎn)值(億元);X6-人均生產(chǎn)總值(元);
3)生活質(zhì)量:X7-城鎮(zhèn)單位就業(yè)人員平均工資(元);X8-居民消費水平(元);X9-社會消費品零售總額(億元).
上述指標的具體數(shù)據(jù)來源于《中國統(tǒng)計年鑒2010》,具體數(shù)據(jù)如表1[10].
表1 31個省市9項指標原始數(shù)據(jù)Tab.1 The nine indicators raw data of the 31 provinces
對上表的數(shù)據(jù)進行標準化處理,本文采用的標準化方法是平移法的極差變換:
說明:max{xij1≤i≤31}表示第 j(1,2,…,9)列的最大值,min{xij1≤i≤31}表示第 j(1,2,…,9)列的最小值.
標準化后得到的數(shù)據(jù)如下表2(因內(nèi)容過多,本文只給出16省的標準化數(shù)據(jù)).
2.1.1 線性關(guān)系的考察。以對照品溶液濃度為橫坐標(X)、峰面積為縱坐標(Y),繪制標準曲線,得出回歸方程。結(jié)果顯示(表1),綠原酸、葫蘆巴堿、D-(-)-奎寧酸和咖啡酸分別在14.6~146.0 μg/mL(r=1.000 0)、10.2~102.0 μg/mL(r=1.000 0)、11.6~116.0 μg/mL(r=0.999 8)、0.499 5~4.995 0 μg/mL(r=0.999 8)的濃度范圍內(nèi)線性關(guān)系良好。
表2 16個省市9項指標的標準數(shù)據(jù)Tab.2 The Nine Indicators standard Data of the 16 Province
根據(jù)以下兩個定義,建立模糊相似矩陣.
定義1模糊相似關(guān)系:設(shè)有論域X,X×X是X上各元素之間的模糊關(guān)系,對于任意x,y∈X,滿足:
i)自反性:R(x,x)=1;ii)對稱性:R(x,y)=R(y,x);
當論域X={x1,x2,…,xn}為有限時,模糊關(guān)系R就構(gòu)成模糊相似矩陣.
兩個向量的相似性可以使用距離法或相似系數(shù)法.距離法包括:海明距離、歐氏距離和切比雪夫距離等;相似系數(shù)法包括:夾角余弦法和相關(guān)系數(shù)法等.采用切比雪夫距離法建立模糊相似矩陣,它的公式如下:
說明:xi表示第i個省市的特征向量(1≤i≤31),d(xi,xj)表示特征向量xi,和xj的距離,c為適當選取的參數(shù),d(xi,xj)定義為2個特征向量之間的距離定義為其各坐標數(shù)值差的最大值.
根據(jù)上面的相似計算方法,對31個省市的特征向量計算相似關(guān)系,得到相似矩陣:
定理1[8]設(shè)R∈M(n×n)是模糊相似矩陣,任意自然數(shù)k,Rk也是模糊相似矩陣,例:R2=R?R(k=2).
定理2[8]設(shè)R∈M(n×n)是模糊相似矩陣,則存在一個最小自然數(shù)k(k≤n),使得傳遞閉包t(R)=Rk,對于任何自然數(shù)b≥k,都有Rb=Rk,此時,t(R)是模糊等價矩陣.
通過求傳遞閉包t(R),可以將模糊相似矩陣改造成為模糊等價矩陣.
計算傳遞閉包t(R)過程:從相似矩陣R出發(fā),經(jīng)過過程R→R2→R4→R8,最多經(jīng)過log2N+1(N為樣本的數(shù)目31)后,必有R2k=(R2k)2,停止迭代,最終的R2k就是模糊等價矩陣.
算法參數(shù)c=1,求出的模糊等價矩陣.當λ=0.72時,得到的λ-截集的把各省市分為4類:
第一類:北京、上海
第二類:天津、浙江、廣東、江蘇
第三類:山東、河南、湖北、湖南、海南、重慶、云南、河北、山西、遼寧、安徽、福建、江西
第四類:內(nèi)蒙古、吉林、黑龍江、廣西、四川、貴州、西藏、陜西、甘肅、青海、寧夏、新疆
得到的λ-截集的分類結(jié)果如下,與文獻[11]相比,結(jié)果相近.
從聚了結(jié)果看,我國區(qū)域經(jīng)濟的發(fā)展不平衡,東部的經(jīng)濟水平較高,包括作為政治中心的北京和經(jīng)濟中心的上海,以及沿海沿江的天津、浙江、廣東、江蘇.而大部分的西部省市,經(jīng)濟發(fā)展水平較低,固定資產(chǎn)投入不足,第三產(chǎn)業(yè)總產(chǎn)值較低,居民消費水平較低.進年來,東西部的差距有進一步擴大的趨勢.因此,調(diào)整國家經(jīng)濟產(chǎn)業(yè)結(jié)構(gòu),改善西部省份的投資環(huán)境,提高西部省市的教育水平,消除東西部人口的文化差異等是以后的工作重點.
本文針對省市分類,初始聚類數(shù)c不好確定的難點,使用了基于相似矩陣的模糊聚類法,該方法,操作簡便,實用性強.基于相似矩陣的模糊聚類法也有它的缺點,即當聚類對象很多時,相似矩陣占用的存儲空間很大,求解傳遞閉包的過程效率很低等.未來的工作方向:使用主成分分析方法或者粗糙集理論等對數(shù)據(jù)的指標個數(shù)進行約簡,可以提供計算的效率.
[1]賞晉,楊有,李曉紅.地區(qū)經(jīng)濟發(fā)展的聚類分析和實例判別[J].西華師范大學(xué)學(xué)報:自然科學(xué)版,2006,27(3):260-263.
[2]Margaret H,Dunham.數(shù)據(jù)挖掘教程[M].郭崇慧,田鳳占,等,譯.北京:清華大學(xué)出版社,2005.
[3]模糊邏輯與計算智能研究編委會.模糊邏輯與計算智能研究進展[C]//2005年中國模糊邏輯與計算智能聯(lián)合學(xué)術(shù)會議論文集.北京:中國科學(xué)技術(shù)大學(xué)出版社,2005.
[4]王士同.神經(jīng)模糊系統(tǒng)及其應(yīng)用[M].北京:北京航空航天大學(xué)出版,1998.
[5]高新波.模糊聚類分析及其應(yīng)用[M].西安:西安電子科技大學(xué)出版社,2004.
[6]李桂英,李吉桂.基于模糊聚類的Web日志挖掘[J].計算機科學(xué),2004,31(12):130-132.
[7]朱培棟,盧錫城,周興銘.基于客戶行為模式的Web文檔預(yù)送[J].軟件學(xué)報,1999,10(11):1142-1147.
[8]易東.基因表達聚類結(jié)果的信息熵評價方法[J].第三軍醫(yī)大學(xué)學(xué)報,2004(4):317-319.
[9]朱慶芳,吳寒光.社會指標體系[M].北京:中國社會科學(xué)出版社,2001.
[10]中國統(tǒng)計年鑒編委會.中國統(tǒng)計年鑒2010[M].北京:中國統(tǒng)計出版社,2010.
[11]楊桂元,黃己立.數(shù)學(xué)建模[M].北京:中國科學(xué)技術(shù)大學(xué)出版社,2008.