董承瑋,芮小平,鄧羽,關興良,李峰
(1.北京市測繪設計研究院,北京 100038;2.中國科學院大學資源與環(huán)境學院,北京 100049;3.中國科學院地理科學與資源研究所,北京 100101;4.全國市長研修學院,北京 100029;5.防災科技學院,河北 三河 065201)
隨著人類認知世界的技術和水平的飛速發(fā)展和提升,所需處理的多維度海量數(shù)據(jù)也越來越多,如何有效挖掘、利用這些數(shù)據(jù),并轉化成人們可以理解的信息和知識成為亟須解決的問題。降維作為能在低維可視空間中對數(shù)據(jù)內(nèi)在結構和分布進行直觀展現(xiàn)的技術,在數(shù)據(jù)分析中占據(jù)著越來越重要的地位。降維方法[1]從待處理數(shù)據(jù)的性質角度考慮,可分為線性方法和非線性方法:線性方法最常用的是主成分分析法(PCA)[2]和多維尺度變換[3-5];非線性方法有非線性映射(NLM)[6]、神經(jīng)網(wǎng)絡[7,8]等。對 于非線性結構的高維數(shù)據(jù),線性的降維方法不能準確地分析和提取其內(nèi)在的結構;而非線性方法的數(shù)學理論基礎不同,各類方法的結果也各不相同。從是否需要已知樣本訓練分類過程的角度看,降維方法可劃分為非監(jiān)督分類和監(jiān)督分類,以上所有算法都是非監(jiān)督算法,而支持向量機(SVM)[9-12]是典型和常用的監(jiān)督算法。
傳統(tǒng)的降維研究大都運用的是非監(jiān)督算法,這在沒有已知樣本集時能在一定程度上揭示多維數(shù)據(jù)的內(nèi)在結構,但不同算法數(shù)學理論依據(jù)和適用范圍不同,最終的結果具有較大差異,且聚類準確程度也無法相互驗證。支持向量機從理論上能得到全局最優(yōu)解,解決了在神經(jīng)網(wǎng)絡方法中無法避免的局部極值問題;SVM通過非線性變換將數(shù)據(jù)映射到高維特征空間,并用線性判別函數(shù)對數(shù)據(jù)分類,可以保證機器有較好的推廣能力;SVM巧妙解決了維數(shù)問題,算法復雜度與樣本維數(shù)無關。但作為監(jiān)督分類,SVM需要已知樣本集來訓練分類過程,PCA和NLM算法的降維結果都可以作為選取SVM已知樣本的依據(jù),但研究證明選樣過程的主觀性對SVM分類結果的影響很大[13]??臻g自相關[14-16]能分析多維經(jīng)濟統(tǒng)計數(shù)據(jù)的空間集聚程度,并揭示發(fā)展中心和典型區(qū)域,這些典型區(qū)域可被作為已知典型樣本集來訓練SVM的分類,這個過程將大大減小選樣的主觀性。
本文提出了一種空間自相關-SVM耦合分析的方法,即基于空間自相關分析選取小樣本集,并結合SVM監(jiān)督分類得到聚類結果。結合2007年四川統(tǒng)計年鑒數(shù)據(jù)及四川經(jīng)濟發(fā)展現(xiàn)狀與規(guī)劃[17-21],分別對PCA-SVM、NLM-SVM 和 空 間 自相關-SVM耦合分析聚類結果進行比較,驗證了本文方法的優(yōu)點。
傳統(tǒng)的統(tǒng)計學方法建立在樣本獨立與大樣本假設的基礎上,由于空間數(shù)據(jù)的特殊性,其獨立性和大樣本假設常得不到滿足。空間統(tǒng)計學中的空間自相關技術很好地解決了經(jīng)典統(tǒng)計方法在空間數(shù)據(jù)應用上的缺陷。空間自相關性使用全局和局部兩種指標來度量,全局指標用于探測整個研究區(qū)域的空間模式,用單一的值反映該區(qū)域的自相關程度;局部指標計算每個空間單元與鄰近單元某一屬性的相關程度。由于全局指標有時會掩蓋局部狀態(tài)的不穩(wěn)定性,因此在很多場合需要采用局部指標來探測空間自相關。常用的計算空間自相關的方法有Moran′s I、Geary′s C、Getis、Join Count等,本文基于 Moran′I研究四川經(jīng)濟發(fā)展的空間格局。Moran′I分為全局 Moran 指 數(shù)[14,15]和 局 部 Moran 指 數(shù)[16]:全 局Moran′s I從總體上反映了研究目標的空間相關性,局部Moran′s I描述區(qū)域單元與其相鄰區(qū)域單元之間的空間集聚程度。
支持向量機在解決小樣本、非線性及高維模式識別中表現(xiàn)出如下特有的優(yōu)勢:1)SVM避開了從歸納到演繹的傳統(tǒng)過程,實現(xiàn)了高效的從訓練樣本到預報樣本的“轉導推理”,大大簡化了通常的分類和回歸等問題;2)SVM是專門針對有限情況的,其目標是得到現(xiàn)有信息下的最優(yōu)解而不僅是樣本數(shù)趨于無窮大時的最優(yōu)值;3)計算的復雜性取決于支持向量(Support Vector,SV)的數(shù)目,而不是樣本空間的維數(shù),這在某種意義上避免了“維數(shù)災難”;4)算法最終將轉化成為一個二次型尋優(yōu)問題,從理論上而言,得到的結果將是全局最優(yōu)解,解決了在神經(jīng)網(wǎng)絡方法中無法避免的局部極值問題,因而它具有很好的泛化性能和預測能力[22]。從本質上看,SVM是一種監(jiān)督分類方法,在對數(shù)據(jù)進行分類時,必須要有一個已知樣本集訓練SVM。在SVM的訓練樣本選擇策略中,有隨機選樣策略、盒子類凸包樣本選擇方法[23]、Adaboost方法[24],也可以通過PCA或者NLM算法的分類結果選擇典型樣本。
通常,經(jīng)濟統(tǒng)計數(shù)據(jù)不包含已知正確分類的樣本集,而基于不同選擇策略的SVM分類結果差異很大,因此,樣本選擇策略是采用SVM分析經(jīng)濟統(tǒng)計數(shù)據(jù)的關鍵,其方法的正確與否直接影響到分析結果的正確性。
在局部空間自相關中,滯后變量Wzi表示目標觀測值相鄰區(qū)域的加權平均對偏離平均值的度量,zi為對觀察值x偏離平均值的度量。以(Wz,z)為坐標點的Moran指數(shù)散點圖,常用來可視化研究局部空間不穩(wěn)定性。Moran指數(shù)散點圖的4個象限,分別對應于區(qū)域單元與其鄰居之間4種類型的局部空間聯(lián)系形式:第一象限(H-H區(qū))代表高觀測值的區(qū)域單元被同是高值的區(qū)域所包圍的空間聯(lián)系形式;第二象限(L-H區(qū))代表低觀測值的區(qū)域單元被高值的區(qū)域所包圍的空間聯(lián)系形式;第三象限(L-L區(qū))代表低觀測值的區(qū)域單元被同是低值的區(qū)域所包圍的空間聯(lián)系形式;第四象限(H-L區(qū))代表高觀測值的區(qū)域單元被低值的區(qū)域所包圍的空間聯(lián)系形式。
從區(qū)域經(jīng)濟發(fā)展角度看,經(jīng)濟發(fā)展中心對周邊存在很強的作用力,使得周邊區(qū)域經(jīng)濟也發(fā)展良好,這對應于H-H類型;而經(jīng)濟落后區(qū)域由于地形、交通等區(qū)域條件的限制具有較強的集聚特征,從而對應于L-L類型;經(jīng)濟發(fā)達區(qū)域的邊緣地帶由于自然條件或者政策性等問題制約了發(fā)展,屬于L-H類型;而在欠發(fā)達地區(qū),某些區(qū)縣旅游、礦產(chǎn)等資源優(yōu)越,發(fā)展具有一定優(yōu)勢,屬于H-L類型。這種多維經(jīng)濟統(tǒng)計數(shù)據(jù)的局部空間分布模式,可以揭示經(jīng)濟發(fā)達區(qū)域、較發(fā)達區(qū)域、欠發(fā)達區(qū)域及奇異點,并進一步提取經(jīng)濟發(fā)展中心和典型區(qū)域。這些典型區(qū)域在一定程度上可作為已知典型樣本集訓練SVM分類過程,從而減少選樣過程的主觀性。
圖1 Moran-SVM技術路線Fig.1 The Moran-SVM technology process
由此可以建立空間自相關-SVM耦合的空間聚類方法,圖1顯示了基于 Moran′s I的SVM聚類(Moran-SVM)的流程,其步驟為:1)運用空間自相關分析經(jīng)濟統(tǒng)計數(shù)據(jù)的PCA和NLM降維結果,得到Moran指數(shù)散點圖和空間自相關顯著性分析圖;2)通過研究象限分布圖和顯著性分析圖,提取高顯著經(jīng)濟發(fā)達和不發(fā)達、較顯著經(jīng)濟發(fā)達等各種不同發(fā)展類型的典型區(qū)域;3)將典型區(qū)域作為已知樣本集導入SVM模型,得到聚類結果。
本文以2007年四川統(tǒng)計年鑒數(shù)據(jù)為例,對四川省區(qū)縣尺度的多維度經(jīng)濟統(tǒng)計數(shù)據(jù)進行分析。在行政單元為區(qū)縣的經(jīng)濟統(tǒng)計數(shù)據(jù)中,大量屬性維度的數(shù)據(jù)統(tǒng)計不完整。基于降維過程的維度應盡量最大化及其可獲得性考慮,本文選擇統(tǒng)計年鑒中最能反映地區(qū)經(jīng)濟發(fā)展情況的18個屬性,分別是:國內(nèi)生產(chǎn)值(第一、第二、工業(yè)、第三產(chǎn)業(yè)和人均生產(chǎn)總值)、民營經(jīng)濟生產(chǎn)情況(第一、第二、工業(yè)、第三產(chǎn)業(yè)和人均民營經(jīng)濟增加值)、從業(yè)情況(從業(yè)人員、職工人數(shù)、人均工資)、地方財政(財政收入和支出)、農(nóng)林牧漁總產(chǎn)值、社會消費品零售總額、全社會固定資產(chǎn)投資。
筆者利用空間自相關對PCA和NLM的降維結果進行分析,得出四川經(jīng)濟統(tǒng)計數(shù)據(jù)的局部Moran′I散點圖及其顯著性分布圖(圖2-圖5),通過分析典型區(qū)域的局部空間聯(lián)系類型及其顯著性,提取出若干經(jīng)濟發(fā)展情況明確且典型的區(qū)縣,作為已知小樣本集導入SVM中進行分類。
對PCA降維結果進行局部Moran指數(shù)分析,得到象限分布圖(圖2):成都周邊-東南區(qū)域沿線、攀枝花處于第一象限,即屬于H-H類型;第一象限周邊區(qū)域受高觀測值鄰域影響,屬于第二象限,即L-H類型;廣大的西北區(qū)域、中南、多數(shù)東北和少數(shù)東南區(qū)縣屬于L-L類型,區(qū)縣本身和周邊鄰域的觀測值都較低;H-L類型主要集中在東北區(qū)域及第二象限周邊的區(qū)縣,絕大部分與L-L類型相鄰,表示其觀測值比較高,屬于經(jīng)濟較發(fā)達地區(qū)。分析局部Moran指數(shù)的顯著性分布圖(圖3)可知:四川絕大部分區(qū)域屬于空間聚集不顯著類型,而成都周邊12個區(qū)縣的空間聚集非常明顯,其外圍的德陽市等3個區(qū)縣也具有顯著的空間相似性,宜賓市也表現(xiàn)出較為顯著的空間聚集效應;廣大經(jīng)濟不發(fā)達的西北區(qū)域和南部攀枝花市則表現(xiàn)出離散的空間分布形式,這與現(xiàn)狀有一定差異。
圖2 PCA降維結果的Moran指數(shù)象限分布Fig.2 Moran′s I quadrant map of PCA
圖3 PCA局部Moran指數(shù)顯著性分析Fig.3 Significance of local Moran′s I of PCA
圖4 NLM降維結果的Moran指數(shù)象限分布Fig.4 Moran′s I quadrant map of NLM
圖5 NLM局部Moran指數(shù)顯著性分析Fig.5 Significance of local Moran′s I of NLM
對NLM降維結果進行局部Moran指數(shù)分析,得到象限分布圖(圖4):東北區(qū)域-成都周邊-東南區(qū)域沿線屬于H-H情況;第一象限周邊區(qū)域受其影響,屬于L-H類型;廣大的西北區(qū)域、中南和少數(shù)東南區(qū)縣屬于L-L類型;H-L類型主要集中在成都周邊和南部區(qū)縣,與L-L類型相鄰,屬于經(jīng)濟相對較發(fā)達地區(qū)。分析局部Moran指數(shù)的顯著性分布圖(圖5)可知:四川東北、中南和東南區(qū)域都屬于空間集聚不顯著類型,而成都周邊、廣大西北區(qū)域空間集聚非常顯著,較為顯著的區(qū)縣主要分布在顯著區(qū)域的周邊鄰域地區(qū)。
基于PCA和NLM降維結果的Moran指數(shù)顯著性分類結果可知,成都周邊為高顯著H-H類型,西北地區(qū)為高顯著L-L類型,可分別采集到第一等級和第四等級的小樣本集;從兩者的Moran′s I象限分布圖可知,成都外圍和東北廣安市附近區(qū)縣屬于第一象限,經(jīng)濟較周邊發(fā)達,而空間聚集效應又不顯著,可作為第二等級;在東北區(qū)縣和第四等級的交叉區(qū)域,存在部分相對高值區(qū)域,其較落后區(qū)域發(fā)達,可作為第三等級。依次每個等級采集3個樣本,導入SVM算法中,并采用RBF核函數(shù)[13],調節(jié)參數(shù),結果如圖6。
圖6 Moran-SVM分類結果Fig.6 The classification map of Moran-SVM
當γ取值較大(大于2)時,分類結果出現(xiàn)欠學習問題,有非H-H類型被劃入第一等級;而其他參數(shù)條件下的分類結果差異不大,將成都周邊、涪城區(qū)和攀枝花東區(qū)分為第一等級,將成都周圍其他區(qū)縣和東北少數(shù)區(qū)縣分為第二等級,將東北和東南其他區(qū)縣及南部分為第三等級,廣大的西部、北部和東南區(qū)縣則屬于第四等級,這與四川經(jīng)濟發(fā)展現(xiàn)狀完全吻合。與NLM分類結果相比較,具有很強的相似性,這也說明了結果的正確性。
(1)采集于PCA和NLM的不同已知樣本集的SVM聚類結果之間差異大(表1)。在PCA-SVM中,第二等級區(qū)縣的數(shù)目非常少,而東北多數(shù)區(qū)縣被劃分至第四等級,并與PCA的分類結果相似,都未能準確展現(xiàn)四川經(jīng)濟發(fā)展現(xiàn)狀;而NLM-SVM的結果與NLM類似,都能體現(xiàn)出經(jīng)濟發(fā)展的核心區(qū)域及經(jīng)濟較發(fā)達區(qū)域。由這兩者結果之間的較大差異可知,已知小樣本集選取的主觀性對結果影響很大,所以需要進一步考慮樣本集的合理選擇。
(2)針對上述已知樣本集選取的主觀性問題,筆者利用PCA和NLM的空間自相關分析結果選取樣本集,證明該步驟不僅能大量減少樣本集的選擇范圍,而且分類結果能揭示出成都經(jīng)濟發(fā)達地區(qū)、東北和東南經(jīng)濟較發(fā)達區(qū)域、西北經(jīng)濟極不發(fā)達區(qū),能準確展現(xiàn)四川經(jīng)濟發(fā)展現(xiàn)狀(表1)。
SVM作為一種監(jiān)督分類算法,需要已知樣本集對聚類過程進行訓練,由于經(jīng)濟統(tǒng)計數(shù)據(jù)不具有已知類別樣本,需要利用一定的方法來選取,而選樣過程的主觀性對SVM的分類結果具有很大的影響,同時最優(yōu)參數(shù)的獲取是一個復雜的區(qū)間搜索過程,不僅較難獲取最優(yōu)參數(shù),而且效率也較低。PCA和NLM降維結果的Moran指數(shù)分析結果能揭示出顯著的H-H和L-L類型,而 Moran指數(shù)的象限分布能提取出空間集聚不顯著、但能揭示經(jīng)濟發(fā)展情況的典型空間單元,從而得到不同經(jīng)濟發(fā)展水平的典型區(qū)域,這些典型區(qū)域可作為小樣本集訓練SVM算法聚類過程。分類結果正確揭示了四川經(jīng)濟發(fā)展現(xiàn)狀的空間格局,證明該方法能大大縮減樣本集的選取范圍,避免選樣過程的主觀性,并具有很好的分類效果,這為SVM已知樣本集的合理選取提供了新方法。
表1 各種方法的等級分布比較Table 1 The comparison of classification results of different methods
SVM具有很好的數(shù)學理論基礎,能避免“維數(shù)災難”,具有很好的泛化性能,且算法效率高,能夠最大化各類之間的距離,對具有已知樣本集的數(shù)據(jù)能很好地進行分析;但它是一種監(jiān)督分類,在分析經(jīng)濟統(tǒng)計數(shù)據(jù)過程中缺少已知樣本,需要利用選樣策略選取典型樣本,比如在PCA和NLM等算法的降維結果中選取不同類別的典型單元,但該過程主觀性較強,對聚類結果的準確性影響很大,為此筆者提出運用空間自相關分析數(shù)據(jù)的局部空間聚集模式及其顯著性指數(shù),并基于局部Moran′I散點圖和顯著性分布圖提取不同類別的已知小樣本集,再訓練SVM聚類過程,以解決選樣過程中的主觀性和復雜性問題。本文論證了空間自相關不僅能大量減少特征樣本集的數(shù)目,同時能準確提取不同經(jīng)濟發(fā)展水平的典型區(qū)域,這不僅簡化了SVM算法小樣本集選取過程,其聚類結果也能準確反映四川經(jīng)濟發(fā)展實際情況??臻g自相關和SVM耦合方法不僅能大量縮減選樣范圍和簡化選樣過程,從而提取出不同類別的典型樣本和解決樣本選擇的主觀性問題,同時也能基于SVM的優(yōu)點準確揭示高維數(shù)據(jù)的內(nèi)在聚類結構。
[1] 吳曉婷,閆德勤.數(shù)據(jù)降維方法分析與研究[J].計算機應用研究,2009,26(8):2832-2835.
[2] 張吉獻.基于主成分分析法的河南省各城市綜合實力評價[J].河南科學,2009,27(1):115-118.
[3] BORG I,GORENEN P.Modern Multidimensional Scaling:Theory and Application[M].Springer:New York,1997.
[4] DIMITRIS K A,DMITRII N R,VICTOR S L.Multidimensional scaling and visualization of large molecular similarity tables[J].Journal of Computational Chemistry,2001,22(5):488-500.
[5] NAUD A.An accurate MDS-based algorithm for the visualiza-tion of large multidimensional datasets[J].Artificial Intelligence and Soft Computing-ICAISC 2006,2006,4029:643-652.
[6] SAMMON J W.A nonlinear mapping for data structure analysis[J].IEEE Transactions Computers,1969,18(5):401-409.
[7] 高雋.人工神經(jīng)網(wǎng)絡原理及仿真實例[M].北京:機械工業(yè)出版社,2003.8.
[8] 閻平凡,張長水.人工神經(jīng)網(wǎng)絡與模擬進化計算(第二版)[M].北京:清華大學出版社,2005.
[9] CORTES C,VAPNIK V.Support vector networks[J].Machine Learning,1995,20:273-297.
[10] BURGES C J C.A tutorial on support vector machines for pattern recognition[J].Data Mining and Knowledge Discovery,1998,2(2):121-167.
[11] GUNN S.Support Vector Machines for Classification and Regression[R].ISIS Technical Report,1998.
[12] 張學工.關于統(tǒng)計學習理論與支持向量機[J].自動化學報,2000,26(1):32-42.
[13] 董承瑋,芮小平,鄧羽,等.空間多維經(jīng)濟統(tǒng)計數(shù)據(jù)的降維方法——以四川省經(jīng)濟統(tǒng)計數(shù)據(jù)為例[J].地理研究,2012,31(8):1411-1421.
[14] GETIS A,ORD J K.The analysis of spatial association by use of distance statistics[J].Geographical Analysis,1992,24:189-206.
[15] GOODCHILD M F.Spatial Autocorrelation,Concepts and Techniques in Modern Geography[M].Norwich,UK:Geo Books,1986.
[16] ANSELIN L.Local indicators of spatial association[J].Geographical Analysis,1995,27:93-115.
[17] 王如淵,李翠華,張學輝,等.四川省FDI區(qū)位選擇的特征與機理[J].地理研究,2008,27(2):385-396.
[18] 陳釗.四川重點區(qū)域發(fā)展戰(zhàn)略研究[J].西華大學學報(哲學社會科學版),2005,4(3):17-20.
[19] 李斌,董鎖成,李雪.四川省生態(tài)經(jīng)濟區(qū)劃研究[J].四川農(nóng)業(yè)大學學報,2009,27(3):302-308.
[20] 張杰.川渝經(jīng)濟發(fā)展水平的比較研究[J].重慶工學院學報,2006,20(7):47-49.
[21] 張杰.重慶、四川主要經(jīng)濟指標的比較研究[J].重慶工商大學學報(西部論壇),2006,16(3):43-45.
[22] STEINWART I.On the influence of the Kernel on the generalization ability of Support Vector Machines[J].The Journal of Machine Learning Research,2002,2:67-93.
[23] 姜文瀚,周曉飛,楊靜宇.核子類凸包樣本選擇方法及其SVM應用[J].計算機工程,2008,34(16):212-124.
[24] 易輝,宋曉峰,姜斌,等.基于AdaBoost方法的支持向量機訓練樣本選擇[J].儀器儀表學報,2009,30(10):72-74.