鈕 亮, 代麗娟
(1.中國(guó)計(jì)量大學(xué) 經(jīng)濟(jì)與管理學(xué)院,浙江 杭州 310018;2.新疆大學(xué) 科學(xué)技術(shù)學(xué)院阿克蘇校區(qū),新疆 阿克蘇 843000)
高技術(shù)產(chǎn)業(yè)作為知識(shí)密集型和技術(shù)密集型產(chǎn)業(yè), 是科技創(chuàng)新的骨干力量, 其發(fā)展關(guān)系到整個(gè)國(guó)家的綜合實(shí)力和競(jìng)爭(zhēng)力。我國(guó)持續(xù)的經(jīng)濟(jì)增長(zhǎng)為高新技術(shù)發(fā)展創(chuàng)造了良好的條件。高新技術(shù)發(fā)展得益于各個(gè)地區(qū)基礎(chǔ)設(shè)施的不斷建設(shè)和完善,并呈現(xiàn)出空間集聚現(xiàn)象。高技術(shù)產(chǎn)業(yè)集聚問(wèn)題一直是學(xué)術(shù)界關(guān)注的熱點(diǎn),一般研究主要集中在高技術(shù)產(chǎn)業(yè)空間集聚[1-2],高技術(shù)產(chǎn)業(yè)創(chuàng)新空間分布[3-4]和高技術(shù)產(chǎn)業(yè)空間演化方面[5-7]。不過(guò)涉及空間集聚現(xiàn)象的高技術(shù)產(chǎn)業(yè)處理的大多是單變量數(shù)據(jù),但實(shí)際高技術(shù)產(chǎn)業(yè)區(qū)域的空間集聚往往依賴于多個(gè)變量的共同作用。盡管有些文獻(xiàn)也處理過(guò)高技術(shù)產(chǎn)業(yè)多個(gè)變量的集聚[8-10],但它們處理的都是非空間聚類。也有一些別的行業(yè)的多變量采用了空間聚集方法,但它們的空間集聚采用主成分和局部Geary系數(shù)結(jié)合的方法[11-13]。在主成分分析中,首先應(yīng)保證所提取的前幾個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到一個(gè)較高的水平,其次對(duì)這些被提取的主成分必須都能夠給出符合實(shí)際背景和意義的解釋,否則主成分將空有信息量而無(wú)實(shí)際含義。由于k均值聚類分析能夠?qū)⑾嗨频亩嘧兞繑?shù)據(jù)歸類成幾種類別,而不失去均衡性[14],也不存在主成分要求的累計(jì)貢獻(xiàn)率問(wèn)題,因此將可以利用k均值聚類分析的優(yōu)點(diǎn)來(lái)改善主成分存在的問(wèn)題。變量的空間自相關(guān)計(jì)算采用局部moran指數(shù)[15],局部moran指數(shù)可以將空間依賴精確到每一個(gè)具體的單元,這為使用k均值聚類提供了數(shù)據(jù)支持。因此將k均值聚類和局部moran指數(shù)相結(jié)合探索高技術(shù)產(chǎn)業(yè)多變量聚類,識(shí)別出高技術(shù)產(chǎn)業(yè)熱點(diǎn)區(qū)域、冷點(diǎn)區(qū)域,是研究問(wèn)題的所在。
多變量空間聚類的k均值和局部moran指數(shù)統(tǒng)計(jì)結(jié)合框架如圖1所示。
基本流程為:(1)整理多變量數(shù)據(jù)為非空間多變量矩陣,對(duì)空間單元進(jìn)行空間權(quán)重設(shè)定;(2)對(duì)多變量中每個(gè)變量做全局空間自相關(guān)測(cè)度,確保變量存在空間依賴;(3)對(duì)滿足全局空間測(cè)度的變量進(jìn)行局部moran指數(shù)轉(zhuǎn)換;(4)對(duì)轉(zhuǎn)換后的帶有空間屬性的變量進(jìn)行k均值空間聚類,最優(yōu)聚類數(shù)通過(guò)肘方法、輪廓線系數(shù)、Gap方法等多種測(cè)度手段的最優(yōu)解來(lái)確定;(5)利用擬合優(yōu)度測(cè)度帶空間屬性的k均值聚類與非空間k均值聚類的優(yōu)勢(shì);(6)根據(jù)局部moran指數(shù)冷熱點(diǎn)探測(cè)特性,測(cè)度多變量空間聚類后的冷熱點(diǎn)分布。
基于局部moran指數(shù)的多變量空間聚類涉及到全局空間自相關(guān),局部空間自相關(guān),k均值聚類、方差擬合優(yōu)度的理論知識(shí),下面分別描述它們的相關(guān)理論。
圖1 基于局部moran指數(shù)的多變量空間聚類
在進(jìn)行多變量空間聚類之前,需要對(duì)每個(gè)變量先做全局空間自相關(guān)的檢測(cè),以評(píng)價(jià)觀察到的數(shù)據(jù)值偏離空間無(wú)關(guān)這個(gè)零假設(shè)的程度。空間無(wú)關(guān)意味著相鄰的空間互不影響,互不依賴。如果變量不存在全局空間自相關(guān),那么多變量中納入空間要素就沒(méi)有意義,進(jìn)而多變量的空間聚類也沒(méi)有意義。是否變量存在全局空間自相關(guān)關(guān)系通過(guò)空間自相關(guān)全局莫蘭指數(shù)(Global Moran's I)來(lái)實(shí)現(xiàn)[16],其公式為:
(1)
全局moran指數(shù)評(píng)估所表達(dá)的模式是聚類模式、離散模式還是隨機(jī)模式,它的范圍在-1和1之間。越接近于1,空間正相關(guān)越強(qiáng),接近0則不存在空間相關(guān)性,接近-1則表示空間負(fù)相關(guān)性越強(qiáng)。moran全局空間自相關(guān)是一種推斷統(tǒng)計(jì),因此要考察它的零假設(shè)情況。p值具有統(tǒng)計(jì)學(xué)上的顯著性,且Z得分為正值,則拒絕零假設(shè),屬性高值集聚;p值具有統(tǒng)計(jì)學(xué)上的顯著性,且Z得分為負(fù)值,屬性低值集聚。如果p值越小,Z分?jǐn)?shù)的絕對(duì)值越大,就可以越放心的拒絕零假設(shè)。p值以小于0.05為參照,Z值以小于-1.96或大于1.96的置信區(qū)間范圍為參照。
全局空間moran相關(guān)性測(cè)度強(qiáng)調(diào)的是整個(gè)區(qū)域的均值空間依賴,它告訴我們空間是否出現(xiàn)了集聚或異常值,但并沒(méi)有告訴我們?cè)谀睦锍霈F(xiàn)集聚或異常值,如果要測(cè)度變量每個(gè)位置的空間依賴性,需引入局部測(cè)度指標(biāo),測(cè)度局部指標(biāo)的方法包括局部moran指數(shù),局部Geary,局部G檢驗(yàn)和moran散點(diǎn)圖等。目前用的最多的是局部moran指數(shù),局部moran指數(shù)是用來(lái)測(cè)度每個(gè)位置與周圍位置的空間依賴性,每個(gè)區(qū)域單元的局部moran指數(shù)描述該區(qū)域單元與周圍顯著的相似性區(qū)域單元之間空間集聚程度,它的公式如下[15]
(2)
對(duì)于任何一個(gè)空間單元i=1,2,…,n。正值Ii表示要素具有包含同樣高或同樣低的屬性值的鄰近要素,該要素是聚類的一部分。與之對(duì)比,負(fù)值Ii表示要素具有包含不同值的鄰近要素,該要素是異常值。局部moran統(tǒng)計(jì)可以用來(lái)解釋局部的不穩(wěn)定性,也即局部偏離全局空間相關(guān)性的情況,實(shí)現(xiàn)識(shí)別“熱點(diǎn)”的要求。為了檢驗(yàn)局部moran指數(shù)的統(tǒng)計(jì)顯著性,將局部moran指數(shù)進(jìn)行Z得分轉(zhuǎn)換,公式如下
(3)
Z分?jǐn)?shù)為正數(shù)且通過(guò)顯著性檢驗(yàn)表示空間存在集聚性,空間集聚包括了高-高值和低-低值集聚。低-低值集聚為冷點(diǎn)集聚,高-高值集聚為熱點(diǎn)集聚。如果Z值為負(fù)數(shù),且數(shù)值較高,意味著該樣點(diǎn)是個(gè)空間離散點(diǎn)??臻g離散點(diǎn)包括高-低值和低-高值,其中高-低離散為孤立的個(gè)別熱點(diǎn)[17]。一般情況下,Z得分在小于-1.96大于1.96的范圍里是統(tǒng)計(jì)顯著的,而在小于-1.645大于1.645上的統(tǒng)計(jì)接近顯著[18]。后續(xù)變量的空間轉(zhuǎn)換采用Z得分轉(zhuǎn)換。
k-means聚類是在一個(gè)數(shù)據(jù)集中尋找子群或類的技術(shù)。在對(duì)數(shù)據(jù)進(jìn)行聚類時(shí),希望將相似性數(shù)據(jù)歸在同一個(gè)類中。由于事先不知道數(shù)據(jù)的類別基礎(chǔ)信息,因此k均值聚類屬于無(wú)監(jiān)督學(xué)習(xí)。k均值聚類度量對(duì)象相似性的距離測(cè)度有歐式距離、歐式距離的平方、切比雪夫距離、明可斯基距離、自定義距離等等,本文的重點(diǎn)是比較空間聚類對(duì)非空間聚類的改善程度,兩種聚類方案選擇的距離測(cè)度要求一樣,所以選擇常用的歐式距離來(lái)實(shí)現(xiàn)。算法為:①?gòu)臉颖军c(diǎn)中隨機(jī)選擇k個(gè)點(diǎn)作為初始簇中心。②將每個(gè)樣本點(diǎn)劃分到距離它最近的中心點(diǎn)μ(j),其中j∈{1,2,…,k}所代表的簇中。③用各簇中所有樣本的中心點(diǎn)替代原有的中心點(diǎn)。④重復(fù)步驟②和③,直到中心點(diǎn)不變或達(dá)到預(yù)定迭代次數(shù)時(shí),算法終止[19]。基于歐式距離的標(biāo)準(zhǔn),k均值算法被描述為一個(gè)優(yōu)化問(wèn)題,通過(guò)迭代使得簇內(nèi)誤差平方和最小。公式如下
(4)
式中,μ(j)為簇j的中心點(diǎn),如果樣本x(i)屬于簇j,則w(i,j)=1,否則w(i,j)=0。
k均值聚類要將觀察數(shù)據(jù)分到事先規(guī)定好的k個(gè)類中,聚類最優(yōu)數(shù)目k要提前確定。k均值聚類最優(yōu)數(shù)目確定有多種手段,有KL方法、Scott方法、Marriot方法、Ball方法、silhouette方法、Gap方法等。 R語(yǔ)言中的NbClust包綜合考慮了這幾種方法可以實(shí)現(xiàn)對(duì)最優(yōu)主題數(shù)的確定[20]。
為了評(píng)測(cè)空間聚類方法的效度,遵循聚類內(nèi)部要素要越具相似性且聚類之間要越具差異性的原則,選擇方差擬合優(yōu)度(GVF)來(lái)測(cè)度它的有效性。方差擬合優(yōu)度(GVF)是評(píng)價(jià)聚類精度的有效方法[21],公式如下
(5)
為了測(cè)度中國(guó)省域高技術(shù)產(chǎn)業(yè)的多個(gè)變量的集聚情況,首先要選擇能夠代表高技術(shù)產(chǎn)業(yè)的變量。對(duì)于能夠代表高技術(shù)產(chǎn)業(yè)發(fā)展的變量,目前學(xué)術(shù)界還未達(dá)成共識(shí)。學(xué)術(shù)界一般都集中在新產(chǎn)品值(NPO)[22]、專利申請(qǐng)數(shù)(PAT)[23]、省份高技術(shù)產(chǎn)業(yè)的R&D經(jīng)費(fèi)內(nèi)部支出(ERD)和R&D人員全時(shí)當(dāng)量(HRD)[24]方面,但研究的取向都以單一變量為主,對(duì)于這些變量共同作用的區(qū)域特征沒(méi)有深入討論。因此為了考察中國(guó)高技術(shù)產(chǎn)業(yè)創(chuàng)新產(chǎn)出的多變量空間聚集特征,變量選擇以這4個(gè)變量為主。數(shù)據(jù)來(lái)源為中國(guó)高技術(shù)產(chǎn)業(yè)統(tǒng)計(jì)年鑒2013—2017年中的數(shù)據(jù)。
為了進(jìn)行空間探測(cè),針對(duì)4個(gè)變量所在的31個(gè)省市自治區(qū)構(gòu)建空間權(quán)重矩陣,利用GeoDa軟件生成 “車相鄰”空間權(quán)重矩陣。按照“車相鄰”鄰近規(guī)則,海南省沒(méi)有邊界相鄰的鄰居,如果空間權(quán)重矩陣中空間單元的鄰居數(shù)為零,在后續(xù)分析中會(huì)造成一些麻煩。為了避免這種情況,可以將海南省的鄰居人為設(shè)定為距離較近的廣東、廣西。為保持空間權(quán)重矩陣的對(duì)稱性,需要給廣東、廣西增加一個(gè)鄰居海南[25]。
經(jīng)濟(jì)數(shù)據(jù)大多數(shù)都是偏態(tài)分布,因此為了計(jì)算各個(gè)變量的全局moran指數(shù)情況,需要通過(guò)描述性統(tǒng)計(jì)觀察數(shù)據(jù)的離散情況,以便于判斷是否對(duì)數(shù)據(jù)進(jìn)行對(duì)數(shù)化處理來(lái)消除偏度。高技術(shù)產(chǎn)業(yè)四種變量的描述統(tǒng)計(jì)結(jié)果見(jiàn)表1。
表1 省份創(chuàng)新活動(dòng)主要變量的描述性統(tǒng)計(jì)
表1顯示了2013—2017年期間,31個(gè)省份每年的高新技術(shù)產(chǎn)業(yè)數(shù)據(jù)描述性結(jié)果。從列角度看,中國(guó)高新技術(shù)產(chǎn)業(yè)的創(chuàng)新活動(dòng)水平呈現(xiàn)遞增趨勢(shì);從行角度看各省份的創(chuàng)新活動(dòng)水平差異較大,表現(xiàn)為各指標(biāo)的變異系數(shù)均大于1,在1.6到3.4之間,說(shuō)明數(shù)據(jù)有一定的離散程度,需要通過(guò)取對(duì)數(shù)的形式處理這些數(shù)據(jù)。對(duì)數(shù)化處理后四種變量的空間集聚呈現(xiàn)的效果通過(guò)對(duì)它們進(jìn)行全局moran指數(shù)、z值和p值判斷來(lái)考察,見(jiàn)圖2。
圖2 空間相關(guān)性測(cè)度
從圖2(a)可以看出,2013—2017這5年以來(lái),PAT,NPO,ERD,HRD的moran指數(shù)大于0.05,存在一定的空間正相關(guān)性。由于全局moran屬于統(tǒng)計(jì)量,需要根據(jù)p值和z值檢驗(yàn)其零假設(shè)情況。其中檢查p值見(jiàn)圖2(b),四個(gè)高新技術(shù)變量的p值均遠(yuǎn)遠(yuǎn)小于0.05,說(shuō)明它們統(tǒng)計(jì)上存在顯著性。z值結(jié)果見(jiàn)圖2(c),四個(gè)變量的z值都大于1.96,說(shuō)明各省指標(biāo)的聚集性存在統(tǒng)計(jì)學(xué)意義上的顯著性,空間相關(guān)性結(jié)論比較可靠。
依照多變量空間聚類的要求,將對(duì)數(shù)化的PAT,NPO,ERD,HRD四個(gè)變量帶入到公式(3)中,經(jīng)過(guò)計(jì)算形成新的帶空間屬性的31行4列矩陣。然后對(duì)這個(gè)矩陣?yán)霉?中的算法進(jìn)行聚類。最優(yōu)聚類主題數(shù)通過(guò)R語(yǔ)言的NbClust包實(shí)現(xiàn)。NbClust包定義了Marriot方法、Ball方法、silhouette方法、Gap方法等幾十個(gè)評(píng)估指標(biāo),然后聚類數(shù)目從2遍歷到15。觀察各種指標(biāo)產(chǎn)生的最優(yōu)聚類數(shù),最后選擇指標(biāo)支持?jǐn)?shù)最多的聚類數(shù)目為最佳聚類數(shù)。結(jié)果見(jiàn)圖3。
圖3 最優(yōu)聚類數(shù)
從圖3中可以看到,有9個(gè)指標(biāo)支持最佳聚類數(shù)目為3,6個(gè)指標(biāo)支持聚類數(shù)為2,所以該方法推薦的最佳聚類數(shù)目為3。為了觀察多變量空間聚類的效果,先將k=3的k均值算法應(yīng)用于普通屬性的PAT、NPO、ERD、HRD變量,再將k=3的k均值算法應(yīng)用于經(jīng)過(guò)局部moran指數(shù)轉(zhuǎn)化的PAT、NPO、ERD、HRD。然后用方差擬合優(yōu)度(GVF)測(cè)度它們的聚類效果,并對(duì)兩次產(chǎn)生的聚類結(jié)果進(jìn)行比較,結(jié)果見(jiàn)表2。 從表2中可以發(fā)現(xiàn),在考慮了空間要素后,各個(gè)類別的聚類觀察值的GVF都有所提升,說(shuō)明空間聚類較好地改善了傳統(tǒng)非空間k均值聚類。
表2 非空間k均值聚類與空間k均值聚類的GVF比較
空間聚類不僅比傳統(tǒng)聚類在聚類效果上有了提升,而且還可以判斷所聚區(qū)域的冷熱點(diǎn)集聚情況。方式是觀察各個(gè)變量在不同聚類中的Z得分情況,參考每個(gè)空間聚類中的Z得分最大值、均值、中位數(shù)來(lái)判斷多變量空間聚類的熱點(diǎn)、冷點(diǎn)以及無(wú)空間相關(guān)性的分布。Z最大值大于1.645為接近熱點(diǎn)聚類,大于1.96為熱點(diǎn)聚類。而在-1.645到1.645之間的空間分布呈現(xiàn)隨機(jī)性。小于-1.96的為冷點(diǎn)聚類。受篇幅的限制,我們選擇2017年數(shù)據(jù)觀察它聚類和冷熱點(diǎn)分布情況,結(jié)果見(jiàn)表3。
2017年中 Cluster1中的省市自治區(qū)是:上海、北京、天津、安徽、山東、廣東、廣西、江蘇、江西、河北、河南、浙江、湖北、湖南、福建、重慶,它們這些區(qū)域根據(jù)Z值的情況可以判斷為趨近熱點(diǎn)區(qū)域,之所以說(shuō)是趨近熱點(diǎn)區(qū)域是因?yàn)閆最大值超過(guò)了1.96,而均值小于1.645,說(shuō)明這些區(qū)域的高新技術(shù)發(fā)展迅猛,取得了非常好的成果,在地圖上呈現(xiàn)為藍(lán)色。Cluster2中的省市自治區(qū)是云南、四川、新疆、甘肅、西藏、青海根據(jù)Z值的情況可以判斷為冷點(diǎn)區(qū)域,說(shuō)明這些區(qū)域的高新技術(shù)發(fā)展緩慢,沒(méi)有什么好的成果發(fā)展出來(lái),在地圖上呈現(xiàn)為紅色。表現(xiàn)不是太明顯的Cluster3中的省市自治區(qū)是內(nèi)蒙古、吉林、寧夏、山西、海南、貴州、遼寧、陜西、黑龍江。這部分的高新技術(shù)的發(fā)展呈現(xiàn)隨機(jī)性分布,在地圖上呈現(xiàn)為灰色,聚類具體結(jié)果見(jiàn)圖4??臻g多元聚類不僅探測(cè)了冷熱點(diǎn)分布,就聚類的準(zhǔn)確性而言也較傳統(tǒng)聚類為好。按照普通聚類情況,圖4(a)中灰色部分里沒(méi)有遼寧省,而在圖4(b)中遼寧省、黑龍江、吉林歸在了一起,這顯然是比較合理的,因?yàn)檫@三個(gè)省份都處于東北經(jīng)濟(jì)帶范疇,遼寧無(wú)論是地緣還是經(jīng)濟(jì)形態(tài)都和浙江、江蘇這些省份不同,因此歸到圖4(a)中的Cluster1這個(gè)聚類是不合適的。圖4(b)中Cluster2紅色版塊的甘肅、四川、新疆、青海、西藏、云南高新企業(yè)集聚顯然是合理的,因?yàn)樗鼈兓咎幱谖鞅边吔貐^(qū),以發(fā)展能源型企業(yè)為主,而高新技術(shù)的重視程度不夠,這就比圖4(a)中Cluster2僅包含西藏和青海兩個(gè)地方要更準(zhǔn)確。因此從圖4(a)、圖4(b)集聚來(lái)看,空間k均值聚類要比傳統(tǒng)k均值聚類更為合理。當(dāng)一些區(qū)域形成空間集聚時(shí),說(shuō)明這些區(qū)域的新技術(shù)產(chǎn)業(yè)在專利申請(qǐng)數(shù)、新產(chǎn)品值、R&D經(jīng)費(fèi)內(nèi)部支出和R&D人員全時(shí)方面是相近的。
表3 2017年不同空間聚類中各個(gè)變量Z值情況
圖4 傳統(tǒng)多變量聚類和空間聚類
盡管空間聚類方法已經(jīng)在高技術(shù)產(chǎn)業(yè)中有了相關(guān)的應(yīng)用,但是它們都集中在單變量領(lǐng)域,而對(duì)多變量的空間聚類中討論不多。帶空間的k均值聚類不但能夠完成無(wú)監(jiān)督聚類,提升聚類精度,而且還能對(duì)形成的聚類進(jìn)行冷熱點(diǎn)判斷,是對(duì)常規(guī)聚類方法的一個(gè)改進(jìn)。但空間聚類的前提是所觀察變量要接受moran全局和局部的檢驗(yàn),符合空間依賴條件的變量采用空間聚類才是有效的。本文將局部moran指數(shù)空間統(tǒng)計(jì)和k-means結(jié)合起來(lái)進(jìn)行高技術(shù)產(chǎn)業(yè)區(qū)域集聚研究,是空間多變量聚類的嘗試性研究,還有一些問(wèn)題有待進(jìn)一步討論。
(1)局部moran指數(shù)統(tǒng)計(jì)受它鄰居數(shù)量和這些鄰居空間統(tǒng)計(jì)的交互影響,這些影響是通過(guò)空間權(quán)重矩陣來(lái)表達(dá)的。由于局部moran指數(shù)統(tǒng)計(jì)的空間權(quán)重設(shè)置通過(guò)“車相鄰”構(gòu)建的,只考慮了與其相鄰的要素的權(quán)重設(shè)置,有時(shí)候空間權(quán)重的設(shè)置還需要通過(guò)距離權(quán)重來(lái)設(shè)置,這樣可以照顧到非相鄰但卻因?yàn)榻?jīng)濟(jì)和社會(huì)因素相近的其他區(qū)域的空間依賴影響。例如今后高新技術(shù)產(chǎn)業(yè)多變量空間聚類權(quán)重可以根據(jù)專利申請(qǐng)數(shù)、新產(chǎn)品值、高技術(shù)產(chǎn)業(yè)的R&D經(jīng)費(fèi)內(nèi)部支出,高技術(shù)產(chǎn)業(yè)R&D人員全時(shí)當(dāng)量相似的區(qū)域的距離作為設(shè)定權(quán)重的標(biāo)準(zhǔn)。
(2)可以考慮其他局部空間自相關(guān),例如局部G檢驗(yàn)、局部Geary系數(shù)和k均值組合實(shí)現(xiàn)的多變量空間聚類,將其與局部moran指數(shù)和k均值聚類產(chǎn)生的結(jié)果進(jìn)行比較,觀察它們聚類的不同效果。
(3)傳統(tǒng)的k-means聚類根據(jù)數(shù)據(jù)的距離測(cè)度(本論文選擇歐式距離)完成類屬劃分,無(wú)法區(qū)分熱點(diǎn)數(shù)據(jù)和冷點(diǎn)數(shù)據(jù),而空間聚類方法由于加入了局部moran指數(shù)素,能夠觀察各個(gè)變量在不同聚類中的Z得分情況,通過(guò)選取每個(gè)空間聚類中的Z得分均值來(lái)判斷多變量空間聚類的熱點(diǎn)、冷點(diǎn)以及離散分布情況,從而使得產(chǎn)生的聚類結(jié)果具有冷熱點(diǎn)分布效應(yīng)。
(4)基于點(diǎn)的空間聚類方法要求足夠的樣本來(lái)達(dá)到分析的穩(wěn)健結(jié)果。經(jīng)驗(yàn)法則考慮30個(gè)樣本為最低門檻,為了k均值聚類的穩(wěn)定性,可以考慮采用重抽樣技術(shù)來(lái)增大樣本量滿足穩(wěn)健性要求。
(5)本文所處理的空間單元是以省域空間尺度為主的,還可以將這種方法擴(kuò)展到市縣級(jí)空間尺度 ,例如選擇長(zhǎng)三角市縣一級(jí)的高技術(shù)產(chǎn)業(yè)區(qū)域,對(duì)其進(jìn)行多變量的空間集聚,以便尋找哪些區(qū)域是相似的和哪些區(qū)域是冷熱點(diǎn)分布的。
以上提到的改進(jìn)地方有待做進(jìn)一步研究。
石家莊鐵道大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2019年1期