[摘要] 采用模糊聚類分析方法,利用主成分分析對聚類的特征變量降維,依據(jù)2005年和2006年的有關(guān)數(shù)據(jù),對西部12省區(qū)的經(jīng)濟發(fā)展狀況進行模糊分類,初步劃分具有不同經(jīng)濟發(fā)展狀況特征的類型,這有助于對各類省區(qū)的發(fā)展狀況做深入分析及制定相應(yīng)的發(fā)展對策。
[關(guān)鍵詞] 數(shù)據(jù)挖掘 主成分分析 模糊聚類 西部經(jīng)濟
自從實施西部大開發(fā)戰(zhàn)略以來,西部經(jīng)濟得到了快速發(fā)展。但是,西部地區(qū)內(nèi)部各省區(qū)經(jīng)濟發(fā)展狀況是不平衡的。因此,對西部各省區(qū)經(jīng)濟發(fā)展狀況進行合理分類,有針對性地促進西部各省區(qū)經(jīng)濟發(fā)展,具有重要的現(xiàn)實意義。
但是,現(xiàn)有關(guān)于西部各省區(qū)經(jīng)濟發(fā)展狀況的分類方法尚存在一些缺陷和不足。這主要表現(xiàn)在對西部各省區(qū)經(jīng)濟發(fā)展狀況的分類無法用精確的度量來表示,因此,采用模糊聚類的方法對西部各省區(qū)經(jīng)濟發(fā)展狀況進行分類就顯得更客觀合理。
一、原始數(shù)據(jù)的預(yù)處理
1.評價指標的選取
綜合有關(guān)文獻的研究,本文選取7項指標以反映西部各省區(qū)經(jīng)濟發(fā)展狀況,即地區(qū)生產(chǎn)總值(R1)、人均地區(qū)生產(chǎn)總值(R2)、固定資產(chǎn)投資(R3)、居民消費價格指數(shù)(l4)、城鎮(zhèn)居民人均消費性支出(R5)、人均財政收入(R6)、海關(guān)進出口總額(R7)。根據(jù)所研究問題的性質(zhì),在上述指標中,指標l4是逆指標,其他均為正指標。對于逆指標,直接求其倒數(shù)為正指標,即R4=l/l4。對于轉(zhuǎn)換后的指標向量,為分析方便統(tǒng)一定義為:R=(R1,R2,R3,R4,R5,R6,R7)。樣本集用X表示,樣本對象數(shù)為12省區(qū),即內(nèi)蒙古、廣西、重慶、四川、貴州、云南、西藏、陜西、甘肅、青海、寧夏、新疆,分別表示為X1、X2、X3、X4、X5、X6、X7、X8、X9、X10、X11、X12。
2.基于主成份分析法的數(shù)據(jù)預(yù)處理
本文根據(jù)2006年~2007年《中國統(tǒng)計年鑒》,選取了主要反映西部12個省區(qū)2005年~2006年的7個經(jīng)濟指標的平均值數(shù)據(jù)[4-5]。即2005年~2006年西部各省區(qū)的地區(qū)生產(chǎn)總值(當年價)、人均地區(qū)生產(chǎn)總值(當年價)、固定資產(chǎn)投資、城鎮(zhèn)居民人均消費性支出、人均財政收入、海關(guān)進出口總額的平均值,2005年~2006年西部各省區(qū)居民消費價格指數(shù)的幾何平均值。
首先求出數(shù)據(jù)矩陣的特征值、特征值的方差貢獻率和累積貢獻率。由于各指標的量綱和單位不同,本文采用最小最大法對原始數(shù)據(jù)進行標準化處理。將數(shù)據(jù)輸入MATLAB7.0進行主成分分析[6],由于前四個主成分的方差貢獻率可達96.5569%,故可選取前四個主成分作為反映經(jīng)濟發(fā)展實力的綜合指標。設(shè)Y1、Y2、Y3、Y4分別代表第一、第二、第三、第四主成份,其線性組合為:
Y1=-0.4563*R1-0.2196* R2-0.5179* R3-0.2984* R4+ 0.2918* R5-0.2026* R6-0.5101* R7
Y2=0.2702* R1-0.5486* R2+0.1365* R3-0.6631* R4-0.4027* R5-0.0635* R6+0.0386* R7
Y3=-0.1955* R1+0.1268* R2-0.0822* R3+0.1352* R4-0.6773* R5+0.4994* R6-0.4611* R7
Y4=0.0076* R1-0.3136* R2+0.0360* R3-0.0859 * R4+0.4648* R5+0.8186* R6+0.0828* R7
二、西部各省區(qū)經(jīng)濟發(fā)展狀況模糊聚類分析
在獲得Y1、Y2、Y3、Y4作為模糊聚類的聚類變量后,可以采用最大樹法,由模糊相似矩陣R求出最大樹T,然后將T剪枝產(chǎn)生連通子樹,最后完成聚類。
1.建立模糊相似矩陣R
以絕對值減數(shù)法建立相似關(guān)系矩陣,方法易懂且明確,其公式如下:
式中,為第i行第k列的屬性值,為第j行第k列的屬性值,其中c為適當選取數(shù),使。本文令屬性個數(shù) ,計算得到的R矩陣如表所示。
表 模糊相似矩陣R
2.求最大樹T
最大樹T可利用Prim算法得出,T中各頂點遍歷所有樣本對象,每一條邊被賦以某一權(quán)值,取值為R中的元素rij,如圖1所示。
3.將T剪枝產(chǎn)生連通子樹
設(shè)定一個合適的λ值,λ∈[0,1],設(shè)T中某邊e的權(quán)值為T(e),若T(e)<λ,則將邊e去掉,如此這樣就將T截成互不連通的幾棵子樹,這些子樹就是基于λ的分類。
取λ=0.78,由連通子樹可得X分為兩類(簇):{X1,X2, X4, X5, X6, X7, X8, X9, X10, X11, X12},{X3}。
取λ=0.82,由連通子樹可得X分為三類(簇):{X2, X4, X5, X6, X7, X8, X9, X10, X11 , X12},{ X1},{ X3}。
取λ=0.83,由連通子樹可得X分為五類(簇):{X2, X5, X6, X7, X8, X9, X10, X11},{ X1},{ X3},{X4},{X12}。
其他同理可求。當取λ=0.83時連通子樹如圖2所示。
圖1 最大樹T圖2 連通子樹
三、結(jié)語
利用結(jié)合主成分分析的模糊聚類技術(shù)實現(xiàn)了西部各省區(qū)經(jīng)濟發(fā)展狀況的分類,獲得具有不同的經(jīng)濟發(fā)展狀況特征的西部各省區(qū)類型,這有助于對西部各類省區(qū)的經(jīng)濟狀況做進一步分析,并根據(jù)不同的具體情況制定針對性的發(fā)展政策,提供有效的激勵或扶持措施,更合理地開發(fā)西部,為西部實現(xiàn)經(jīng)濟騰飛創(chuàng)造條件,并最終達到西部大發(fā)展的目的。
參考文獻:
[1]溫家寶:開拓創(chuàng)新,扎實工作,不斷開創(chuàng)西部大開發(fā)的新局面 [N].人民日報,2005~02~05(2)
[2]蔣志華顧振海:西部12省經(jīng)濟發(fā)展狀況對比研究——基于聚類因子分析法的實證分析[J].經(jīng)濟體制改革,2006,(12):138~141