隋易潔 李峰 郝多虎 芮小平 陳民
【摘 要】空間數(shù)據(jù)往往具有海量、高維特點(diǎn),如何從冗余、有噪音的數(shù)據(jù)提取有效信息成為人們研究的重點(diǎn)。降維作為高維數(shù)據(jù)壓縮中,及高效提取所含信息的一種有效途徑,近年來(lái)正引起可視化等領(lǐng)域研究者的高度重視。不同降維技術(shù)由于其數(shù)學(xué)理論依據(jù)和適用范圍不同,可視化結(jié)果有差異。本論文首先分析了不同降維算法,即主成分分析、非線性映射、自組織特征映射、支持向量機(jī)。作者以2013年京津冀區(qū)市尺度為研究單元,運(yùn)用上述算法對(duì)京津冀區(qū)市經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行聚類分析,同時(shí)基于京津冀經(jīng)濟(jì)發(fā)展的實(shí)際狀況,對(duì)成果的差異性展開了深入討論。
【關(guān)鍵詞】降維;數(shù)據(jù)挖掘;經(jīng)濟(jì)發(fā)展
0 引言
近年來(lái),空間信息科學(xué)蓬勃發(fā)展,在各個(gè)行業(yè)都得到了較為深入的應(yīng)用。隨著空間信息技術(shù)的進(jìn)一步普及,涉及到的空間數(shù)據(jù)也日益增多,呈現(xiàn)海量多維的特點(diǎn)??臻g多維數(shù)據(jù)不僅具有多維屬性,每條記錄同時(shí)還對(duì)應(yīng)著空間目標(biāo),由于這種關(guān)系的存在,使得多維可視化和模式識(shí)別過(guò)程具有特殊性,這為空間數(shù)據(jù)的分析帶來(lái)了新的挑戰(zhàn)。由于空間信息具有明顯的時(shí)空分布特征,而這些特征通過(guò)可視化的方式進(jìn)行描述和表達(dá),能夠幫助人們更好的理解空間多維信息所反映的事物內(nèi)在空間規(guī)律。
在常用的空間多維信息可視化系統(tǒng)中,一般采用選維方式和多維可視化技術(shù)來(lái)實(shí)現(xiàn)高維數(shù)據(jù)的顯示和知識(shí)挖掘。多維信息的可視化通常采用降維算法把高維信息轉(zhuǎn)換到人類視覺(jué)能夠感知的三維空間以內(nèi)來(lái)實(shí)現(xiàn),從而發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)性和發(fā)展趨勢(shì),了解數(shù)據(jù)的時(shí)空分布規(guī)律,進(jìn)而做出及時(shí)和正確的判斷和決策。在實(shí)際應(yīng)用中,各種降維算法由于數(shù)學(xué)理論和適用范圍的不同,結(jié)果也具有很大的差異,所以需要針對(duì)特定的應(yīng)用分析來(lái)研究合適的數(shù)據(jù)降維算法。
在傳統(tǒng)的多維信息分析中使用的降維和可視化技術(shù)沒(méi)有考慮空間位置因素的影響,如地理位置接近的目標(biāo)之間往往具有更加相似的特征,這些特征在多維信息中也有所體現(xiàn),即地理位置本身對(duì)多維數(shù)據(jù)的產(chǎn)生是有影響的??臻g自相關(guān)作為一種揭示數(shù)據(jù)空間聚集信息的技術(shù)已經(jīng)得到廣泛應(yīng)用,但其對(duì)于展現(xiàn)高維數(shù)據(jù)的綜合聚集情況顯得無(wú)能為力;同時(shí)該技術(shù)能對(duì)空間單元進(jìn)行分類,但反映的是局部情況,而不能反映出全局的聚類情況,這也需要借助一定的方式來(lái)分析數(shù)據(jù)的低維表達(dá)形式。作者以京津冀省的縣域經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)為研究對(duì)象,進(jìn)行降維算法和可視化技術(shù)實(shí)驗(yàn),以期從理論和實(shí)證研究中,對(duì)空間多維可視化技術(shù)研究獲得一定的理解和取得一定的進(jìn)展。
1 研究結(jié)果及討論
1.1 數(shù)據(jù)說(shuō)明
本文以2013年京津冀經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)為例,對(duì)京津冀地區(qū)經(jīng)濟(jì)發(fā)展?fàn)顩r進(jìn)行分析。在地級(jí)尺度的經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)中,大量數(shù)據(jù)的屬性維度統(tǒng)計(jì)缺失?;诮稻S過(guò)程的維度應(yīng)盡量最大化考慮,本文選擇最能反映地區(qū)經(jīng)濟(jì)發(fā)展情況的17個(gè)屬性,分別是:第一產(chǎn)業(yè)人均生產(chǎn)總值、第二產(chǎn)業(yè)人均生產(chǎn)總值、第三產(chǎn)業(yè)人均生產(chǎn)總值、規(guī)模以上工業(yè)以上企業(yè)情況(資產(chǎn)總計(jì)和負(fù)債總計(jì))、貨物進(jìn)出口總額、人民幣存貸額、財(cái)政收入和支出、城鎮(zhèn)就業(yè)情況(人員數(shù)和人均工資)、社會(huì)消費(fèi)品零售總額、全社會(huì)固定資產(chǎn)投資、人口密度。由于河北與北京、天津地級(jí)單位面積相差較大,總額指標(biāo)不能準(zhǔn)確反映地區(qū)真實(shí)的發(fā)展?fàn)顩r,所以本文將以上屬性折合成人均指標(biāo)。
1.2 算法的分類結(jié)果分析
本文依次采用PCA-NaturalBreaks、NLM-KMeans、PCA-SVM、SOFM將京津冀地區(qū)經(jīng)濟(jì)數(shù)據(jù)進(jìn)行分類,依照各種算法的分類特點(diǎn)以及京津冀地區(qū)特點(diǎn)對(duì)京津冀區(qū)域經(jīng)濟(jì)的發(fā)展現(xiàn)狀進(jìn)行分析。
1.2.1 PCA-NaturalBreaks分類結(jié)果分析
基于PCA[17],并設(shè)置方差舍棄閾值為90%,作者對(duì)京津冀經(jīng)濟(jì)數(shù)據(jù)進(jìn)行分析,并對(duì)結(jié)果進(jìn)行分類。使用PCA方法整體上能體現(xiàn)出京津冀區(qū)域經(jīng)濟(jì)的發(fā)展?fàn)顩r,呈現(xiàn)出濱海新區(qū)在天津成為新的經(jīng)濟(jì)增長(zhǎng)極,以及唐山、石家莊在河北市的龍頭作用。第二等級(jí)城市滄州、保定的劃分體現(xiàn)了北京、天津的輻射作用,河北北部由于地形的阻擋受兩個(gè)直轄市的影響不大。第五等級(jí)城市北京北部郊區(qū)以及門頭溝因位于山區(qū),交通不便,發(fā)展滯后。天津中心城劃分為第五等級(jí),體現(xiàn)了天津環(huán)城區(qū)迅猛發(fā)展的勢(shì)頭。但是,PCA分類結(jié)果未能體現(xiàn)出北京的中心作用, 實(shí)際上北京中心區(qū)縣經(jīng)濟(jì)較河北各市發(fā)達(dá)。
1.2.2 NLM-KMeans分類結(jié)果分析
基于NLM[5]降維算法,并將統(tǒng)計(jì)數(shù)據(jù)集降至一維。基于京津冀的經(jīng)濟(jì)發(fā)展現(xiàn)狀,該結(jié)果能反映真實(shí)的經(jīng)濟(jì)發(fā)展情況,但等級(jí)之間的分類細(xì)節(jié)無(wú)法得到證實(shí)。該分類結(jié)果將北京中心城區(qū)、天津?yàn)I海新區(qū)和河北石家莊、唐山劃分為第一等級(jí),將保定、滄州、邯鄲劃分為第二等級(jí),將河北大部分劃分為第三等級(jí),而北京平原郊區(qū)、天津環(huán)城四區(qū)被劃為第四等級(jí),將北京山地郊區(qū)、天津外圍郊區(qū)以及中心城區(qū)被劃為第五等級(jí)。這從整體上充分體現(xiàn)了環(huán)渤海經(jīng)濟(jì)區(qū)域北京、天津、河北發(fā)展不協(xié)調(diào)、各自為政的現(xiàn)狀,肯定了濱海新區(qū)作為新的經(jīng)濟(jì)增長(zhǎng)極的地位。說(shuō)明京津冀一體化的進(jìn)程仍然不顯著,濱海地區(qū)開發(fā)力度強(qiáng)勁,逐步成為京津冀都市圈經(jīng)濟(jì)發(fā)展日益隆起的地帶。
1.2.3 SOFM分類結(jié)果分析
SOFM[4]的分類結(jié)果,與NLM的結(jié)果類似,SOFM的分類結(jié)果從整體上體現(xiàn)了京津冀經(jīng)濟(jì)發(fā)展格局,但在將唐山、石家莊也被劃分為第二類,未能體現(xiàn)河北的核心發(fā)展格局;其等級(jí)之間的分類細(xì)節(jié)也無(wú)法得到驗(yàn)證。
1.2.4 PCA-SVM分類結(jié)果分析
PCA-SVM的分類結(jié)果,修正了PCA的結(jié)果,將北京中心城區(qū)劃分為第一等級(jí),使PCA-SVM的分類結(jié)果更加合理,北京、天津郊區(qū)發(fā)展不協(xié)調(diào)的狀況也能體現(xiàn)。但在石家莊、唐山被劃至第二類,未能體現(xiàn)出河北經(jīng)濟(jì)核心發(fā)展格局。
綜合以上算法結(jié)果(見表1),總結(jié)京津冀發(fā)展現(xiàn)狀[19-20]如下:第一,京津冀發(fā)展總體仍然發(fā)展不協(xié)調(diào),這點(diǎn)由等級(jí)劃分界限與行政界限基本相符得到證實(shí)。說(shuō)明京津冀發(fā)展離“一體化”的目標(biāo)還有很大一段距離。第二,北京、天津內(nèi)部發(fā)展不協(xié)調(diào)。因?yàn)樗械姆诸惤Y(jié)果都顯示北京中心城區(qū)與郊區(qū)等級(jí)差距很大以及天津中心城區(qū)等級(jí)很低,其中PCA和PCA-SVM將北京郊區(qū)南北劃分為兩級(jí),說(shuō)明北京中心城區(qū)與郊區(qū)發(fā)展差距明顯,北部和南部發(fā)展不一天津基本成同心圓狀發(fā)展,且環(huán)城區(qū)比中心城區(qū)發(fā)展要好[18],第三,SOFM將河北只劃分兩個(gè)等級(jí),說(shuō)明河北西北和東南發(fā)展有所差距,但是差距不明顯?!毒┙蚣蕉际腥^(qū)域規(guī)劃》重點(diǎn)建設(shè)的天津?yàn)I海新區(qū)發(fā)展快速,儼然成為環(huán)渤海經(jīng)濟(jì)區(qū)域的新經(jīng)濟(jì)核心。
2 結(jié)論
利用可視化技術(shù)研究和分析高維數(shù)據(jù)集的內(nèi)在結(jié)構(gòu)和規(guī)律時(shí),需要采用降維方法將其轉(zhuǎn)換到三維以內(nèi)的空間。而不同降維技術(shù)由于其數(shù)學(xué)理論和適用范圍不同,最終的結(jié)果也必定有差異。結(jié)果如下:(1)PCA能粗略地反映京津冀的發(fā)展?fàn)顩r,對(duì)于廣大京津郊區(qū)以及河北的經(jīng)濟(jì)狀況無(wú)法體現(xiàn);(2)NLM能較正確地揭示京津冀地區(qū)北京、天津兩大經(jīng)濟(jì)增長(zhǎng)極的發(fā)展現(xiàn)狀,并能大致地反映河北的經(jīng)濟(jì)發(fā)展?fàn)顩r;(3)SOFM總的劃分界限和NLM相似,但是有錯(cuò)分情況;(4)SVM在非監(jiān)督分類應(yīng)用中依賴于樣本的選取,不能完全挖掘出數(shù)據(jù)內(nèi)在結(jié)構(gòu)。
【參考文獻(xiàn)】
[1]吳昌友.神經(jīng)網(wǎng)絡(luò)的研究及應(yīng)用[D].東北農(nóng)業(yè)大學(xué),2007.
[2]畢達(dá)天,邱長(zhǎng)波,張晗.數(shù)據(jù)降維研究現(xiàn)狀及其進(jìn)展[J].情報(bào)理論與實(shí)踐,2013, 36(2):125-128.
[3]翟永杰.基于支持向量機(jī)的故障智能診斷方法研究[D].華北電力大學(xué)(河北),2004.
[4]武國(guó)正.支持向量機(jī)在湖泊富營(yíng)養(yǎng)化評(píng)價(jià)及水質(zhì)預(yù)測(cè)中的應(yīng)用研究[D].內(nèi)蒙古農(nóng)業(yè)大學(xué),2008.
[5]阮曉芳.支持向量機(jī)方法在醫(yī)學(xué)和環(huán)境化學(xué)中的應(yīng)用研究[D].蘭州大學(xué),2007.
[6]尹飛,馬大政.基于PCA算法的人臉識(shí)別[J].計(jì)算機(jī)技術(shù)與發(fā)展,2008,30(10):1642-1646.
[7]郭素芳.天津區(qū)域經(jīng)濟(jì)協(xié)調(diào)發(fā)展模式及路徑選擇[J].現(xiàn)代城市研究,2010(10):55-59.
[8]賈琦,運(yùn)迎霞.京津冀都市圈城鎮(zhèn)化質(zhì)量測(cè)度及區(qū)域差異分析[J].干旱區(qū)資源與環(huán)境,2015,29(3):8-12.
[9]王明浩,翟毅,劉玉娜.京津冀經(jīng)濟(jì)區(qū)的研究[J].城市經(jīng)濟(jì).2015,12(1):70-77.
[10]陳陽(yáng).京津冀地區(qū)城市體系演化研究——基于關(guān)聯(lián)網(wǎng)絡(luò)和價(jià)值區(qū)段的分析方法[C]//多元與包容——2012中國(guó)城市規(guī)劃年會(huì)論文集.云南:云南科技出版社,2012:209-218.
[11]丁碩,常曉恒,巫慶輝.基于自組織特征映射神經(jīng)網(wǎng)絡(luò)的聚類分析[J].信息技術(shù),2014(6):18-21.
[12]張超.基于支持向量機(jī)的汽輪機(jī)軸系振動(dòng)故障智能診斷研究[D].華北電力大學(xué)(河北),2009.
[責(zé)任編輯:楊玉潔]