劉 俐, 劉 璐, 王 智 森
( 大連工業(yè)大學(xué) 信息科學(xué)與工程學(xué)院, 遼寧 大連 116034 )
地域劃分已成為產(chǎn)業(yè)、投資、創(chuàng)新投入等的重要依據(jù),是制定地域發(fā)展政策的首要參考。因此,研究地域劃分是為地域經(jīng)濟(jì)持續(xù)發(fā)展、產(chǎn)業(yè)調(diào)整、區(qū)域布局等戰(zhàn)略設(shè)想的基礎(chǔ)。常見(jiàn)的地域劃分方法有行政劃分和地理劃分,這些方法屬于定性劃分,而隨著社會(huì)經(jīng)濟(jì)發(fā)展和產(chǎn)業(yè)發(fā)展,定性的地域劃分不能及時(shí)反映地域發(fā)展?fàn)顟B(tài)。近年來(lái),國(guó)內(nèi)外專家學(xué)者從不同角度對(duì)中國(guó)地域劃分進(jìn)行了定量的聚類研究[1-3]。以農(nóng)村居民人均消費(fèi)數(shù)據(jù)為研究對(duì)象,應(yīng)用聚類分析方法將31省、市、自治區(qū)劃分為較高、中等、較低3類區(qū)域,并提出促進(jìn)消費(fèi)的建議[4]。山東農(nóng)業(yè)大學(xué)從肉羊產(chǎn)業(yè)發(fā)展的角度對(duì)山東省各市劃分為發(fā)展?jié)摿^(qū)域、優(yōu)勢(shì)欠缺區(qū)域和發(fā)展較成熟區(qū)域,進(jìn)而分析各類區(qū)域的特征,并提出相應(yīng)的發(fā)展建議[5]。范群林等[6]從環(huán)境技術(shù)創(chuàng)新能力的視角將中國(guó)30省、市的區(qū)域劃分為5類,并分析5類地區(qū)的環(huán)境技術(shù)創(chuàng)新能力分布特征,據(jù)此提出各類地區(qū)關(guān)于提升環(huán)境技術(shù)創(chuàng)新能力的相應(yīng)策略,促進(jìn)我國(guó)的可持續(xù)發(fā)展。
聚類分析在目前實(shí)際應(yīng)用中,最常用的兩種方法是系統(tǒng)聚類法和快速聚類法。其中,快速聚類法雖然計(jì)算速度快,但需要實(shí)現(xiàn)根據(jù)樣本空間分布指定分類的數(shù)目,而當(dāng)樣本的變量數(shù)超過(guò)3個(gè)時(shí),該方法的可行性就較差。而系統(tǒng)聚類法利用樣本之間的距離最近原則進(jìn)行聚類,由于類與類之間的距離計(jì)算方法靈活多樣,能使其適應(yīng)不同的要求。但在聚類的過(guò)程中,如果對(duì)多個(gè)變量進(jìn)行直接聚類,存在維度多和計(jì)算量大的問(wèn)題,因此,本研究重點(diǎn)提出基于降維思想的系統(tǒng)聚類方法,使得降維后的聚類標(biāo)準(zhǔn)更加簡(jiǎn)單直觀,降低計(jì)算量。利用中國(guó)城鎮(zhèn)居民消費(fèi)數(shù)據(jù)對(duì)地域進(jìn)行劃分,驗(yàn)證該方法的可用性。
在實(shí)際問(wèn)題中有p個(gè)指標(biāo),將這p個(gè)指標(biāo)看作p個(gè)隨機(jī)變量,記為X1,X2,…,Xp,主成分分析就是將p個(gè)指標(biāo)通過(guò)線性組合轉(zhuǎn)化為p個(gè)新的指標(biāo),而這些新的指標(biāo)C1,C2,…,Ck(k≤p)按照保留主要信息量的原則充分反映原指標(biāo)的信息,并且相互獨(dú)立,即
(1)
模型滿足的條件包括主成分之間相互獨(dú)立;主成分的方差依次遞減;每個(gè)主成分的系數(shù)平方和為1,即
(2)
根據(jù)主成分分析的數(shù)學(xué)模型,原始數(shù)據(jù)及模型條件,將數(shù)學(xué)模型中式(1)寫(xiě)成
(3)
協(xié)方差矩陣的計(jì)算。利用原始數(shù)據(jù)計(jì)算協(xié)方差陣ΣX。
然后,根據(jù)協(xié)方差矩陣計(jì)算特征值和單位特征向量,即UT的列向量是λi,i=1,2,…,p對(duì)應(yīng)的特征向量。
由式(4)計(jì)算特征值λi及其相應(yīng)的單位特征向量ui=(ui1,ui2,…,uip),i=1,2,…,p,其中I表示單位陣。
ΣX-λiI=0
(4)
由于ΣX為非負(fù)定的對(duì)稱陣,必存在正交陣U,使得
(5)
ΣX的特征根λ1,λ2,…,λp分別代表主成分C1,C2,…,Cp的方差,且特征值依次遞減。
最后,根據(jù)特征值計(jì)算貢獻(xiàn)率(Cr)和累計(jì)貢獻(xiàn)率。貢獻(xiàn)率指某個(gè)主成分方差占全部方差的比重,也就是某個(gè)特征值占全部特征值合計(jì)的比重,如式(6)所示。累積貢獻(xiàn)率指前k個(gè)貢獻(xiàn)率的加和,為保留絕大部分?jǐn)?shù)據(jù)信息,將選取累計(jì)貢獻(xiàn)率達(dá)90%以上的前k個(gè)主成分。
(6)
累積貢獻(xiàn)率選取前k個(gè)主成分,再由式(4)得到特征向量,得到C1,C2,…,Ck(k≤p)的具體線性表達(dá)式。對(duì)系統(tǒng)聚類的變量進(jìn)行降維,以線性表達(dá)式中變量前的系數(shù)絕對(duì)值大于0.4為標(biāo)準(zhǔn),篩選符合條件的主要變量集合進(jìn)行系統(tǒng)聚類。
系統(tǒng)聚類法是先將n個(gè)樣品各自看成一類,然后規(guī)定類與類之間的距離,選擇距離最小的一對(duì)合并成新的一類,計(jì)算新類與其他類的距離,再將距離最近的兩類合并,這樣每次減少一類,直至所有的樣品都成為一類為止。
計(jì)算樣本間的歐氏距離。由于以地區(qū)為樣本,對(duì)樣本進(jìn)行聚類,將距離作為聚類的統(tǒng)計(jì)量,且統(tǒng)計(jì)量采用歐氏距離,將每一個(gè)樣品看作p維空間的一個(gè)點(diǎn),令dij為樣品Xi和Xj的距離,m為樣品指標(biāo)具體維度。
(7)
選取離差平方和計(jì)算類間距離。應(yīng)用離差平方和計(jì)算距離,先將n個(gè)樣品各自成一類,然后每次縮小一類,每縮小一類離差平方和就要增大,選擇使離差平方和增加最小的兩類合并,直至所有的樣品歸為一類。
研究數(shù)據(jù)來(lái)源于《中國(guó)統(tǒng)計(jì)年鑒》[7],2011—2015年中國(guó)省級(jí)城鎮(zhèn)居民的人均消費(fèi)支出數(shù)據(jù),具體消費(fèi)項(xiàng)目名稱及變量的選取如表1所示。
表1 居民消費(fèi)項(xiàng)目表
對(duì)5年31個(gè)地區(qū)城鎮(zhèn)居民的8項(xiàng)消費(fèi)支出項(xiàng)目進(jìn)行主成分實(shí)證分析,得到主成分與8個(gè)變量之間的線性組合。并根據(jù)主成分的累計(jì)貢獻(xiàn)率,確定主成分個(gè)數(shù)。再依據(jù)變量前系數(shù)絕對(duì)值的大小,篩選出主要變量作為地域聚類的標(biāo)準(zhǔn)。
以2015年數(shù)據(jù)為例,首先,利用省級(jí)城鎮(zhèn)居民的人均八項(xiàng)消費(fèi)數(shù)據(jù)計(jì)算得出協(xié)方差矩陣
根據(jù)式(4),得到特征值及相應(yīng)的單位特征向量
根據(jù)累計(jì)貢獻(xiàn)率來(lái)確定需要選取的前k個(gè)主成分。由表2累積貢獻(xiàn)率可知,即k取2即可滿足主成分的選取標(biāo)準(zhǔn),可見(jiàn)2015年主成分的選取保留了93.60%的原始信息。
表2 2015年主成分導(dǎo)出一覽表
由單位特征向量寫(xiě)出主成分對(duì)應(yīng)原始變量的系數(shù),新成分選取為C1和C2與原始變量的線性關(guān)系。兩個(gè)主成分C1和C2代替了原來(lái)8個(gè)變量來(lái)描述城鎮(zhèn)居民的總消費(fèi)支出情況。根據(jù)聚類變量降維篩選原則,在C1中符合條件的變量為X1和X3,在C2中為X1,因此2015年消費(fèi)的聚類變量為X1和X3。利用同樣的方法,分別對(duì)2011—2014年省級(jí)城鎮(zhèn)居民人均消費(fèi)支出的數(shù)據(jù)進(jìn)行主成分分析,分別得到2011—2015年期間城鎮(zhèn)居民消費(fèi)的聚類變量,如表3所示。
表3 系統(tǒng)聚類變量
將表3主成分降維的聚類變量作為聚類標(biāo)準(zhǔn),利用系統(tǒng)聚類方法,分別對(duì)2011—2015年省級(jí)地區(qū)進(jìn)行聚類。利用式(7)計(jì)算省級(jí)地區(qū)間的距離,用離差平方和計(jì)算類與類之間的距離,然后將距離較近的兩類合并為一類,以此類推,直至聚類結(jié)束,聚類結(jié)果如圖1所示。
圖1 省級(jí)地區(qū)的聚類結(jié)果
由圖1可見(jiàn),就單個(gè)省級(jí)地區(qū)而言,從5年的聚類結(jié)果來(lái)看,很難實(shí)現(xiàn)跨類發(fā)展,始終保持鄰類別地區(qū)發(fā)展,即一二類內(nèi)的地區(qū)之間波動(dòng),三四類內(nèi)的地區(qū)之間波動(dòng)。各地區(qū)的發(fā)展速度不同,導(dǎo)致有些地區(qū)發(fā)展速度快,超過(guò)了原處于同類別的地區(qū),出現(xiàn)部分地區(qū)波動(dòng)現(xiàn)象。
對(duì)比聚類結(jié)果與實(shí)際情況,發(fā)現(xiàn)此種方法的地域劃分結(jié)果與地域發(fā)展的實(shí)際情況相符。一方面,由于各地的自然資源、產(chǎn)業(yè)發(fā)展?jié)摿?、人均收入等不同,造成省?jí)之間非均衡發(fā)展的趨勢(shì),因此省級(jí)之間被聚為不同類別。另一方面,地域發(fā)展呈現(xiàn)階段性,通過(guò)近5年的聚類結(jié)果顯示,大部分省級(jí)地區(qū)保持穩(wěn)定發(fā)展,而浙江、廣東、青海、新疆、安徽、湖北、廣西、云南、陜西在2013和2014年出現(xiàn)波動(dòng)。這表明大部分地區(qū)發(fā)展較穩(wěn)定,即使出現(xiàn)少數(shù)地區(qū)的波動(dòng)現(xiàn)象,也是發(fā)生在鄰近類別之間。
利用降維系統(tǒng)聚類方法,對(duì)全國(guó)省級(jí)地區(qū)進(jìn)行地域劃分,該方法對(duì)2011—2015年省級(jí)地區(qū)城鎮(zhèn)居民的消費(fèi)數(shù)據(jù)進(jìn)行實(shí)證分析。通過(guò)累積貢獻(xiàn)率對(duì)主成分進(jìn)行篩選,根據(jù)主成分中變量前系數(shù)絕對(duì)值大小來(lái)降低聚類變量的維度,并利用居民消費(fèi)數(shù)據(jù)對(duì)該方法進(jìn)行驗(yàn)證。結(jié)果顯示,就單個(gè)地區(qū)而言,各省級(jí)地區(qū)始終保持在鄰近類別之間發(fā)展,且未出現(xiàn)跨類發(fā)展的現(xiàn)象。表明各地區(qū)保持循序漸進(jìn)的發(fā)展趨勢(shì),這與地域發(fā)展規(guī)律相符,驗(yàn)證了降維系統(tǒng)聚類方法的可用性。地域的有效劃分有助于找準(zhǔn)地域定位,確定發(fā)展目標(biāo),能夠?yàn)樘接懙赜虻陌l(fā)展路徑提供有效參考。