賀澤宇,年雁云,陳思文,邊瑞
(蘭州大學(xué)資源環(huán)境學(xué)院,甘肅 蘭州 730000)
城市功能區(qū)是城市規(guī)劃的重點(diǎn),傳統(tǒng)城市功能區(qū)劃分中數(shù)據(jù)選取受主觀因素影響同時(shí)缺少現(xiàn)有城市空間結(jié)構(gòu)的信息[1~2]。隨著地理大數(shù)據(jù)挖掘的不斷發(fā)展,包含GPS信息的交通和社交媒體數(shù)據(jù)在城市布局研究中的應(yīng)用不斷深入,長(zhǎng)時(shí)間序列且有位置信息的數(shù)據(jù)中包含著人們出行和活動(dòng)的潛在信息[3]。
現(xiàn)今大多數(shù)結(jié)合多源數(shù)據(jù)的城市結(jié)構(gòu)、布局的研究表明地理大數(shù)據(jù)在城市感知方面有著極大的優(yōu)勢(shì)[4~6]。如劉瑜等[7]根據(jù)包含位置信息的大數(shù)據(jù)探索出人地交互的方式和人類(lèi)移動(dòng)模式;Liu J等[8]利用出租車(chē)位置、牌照識(shí)別和地理信息等數(shù)據(jù)重建了城市交通流量的時(shí)空模型。簡(jiǎn)志春等[9]提出了一種基于邏輯回歸模型的社交網(wǎng)絡(luò)定位數(shù)據(jù)識(shí)別居民職住地的方法。另一方面,在多源數(shù)據(jù)中POI因其包含的位置信息、地點(diǎn)屬性成為城市研究中的重要數(shù)據(jù)源[10]。如王迪等[11]借助POI數(shù)據(jù)結(jié)合GIS核密度估計(jì)等多種方法對(duì)北京市的空間結(jié)構(gòu)做了分析,并與現(xiàn)行總歸做了對(duì)比;郭昭等[12]基于東莞市POI數(shù)據(jù)識(shí)別了城市功能空間,并進(jìn)一步探究了城市功能的復(fù)合化特征。同時(shí),城市交通數(shù)據(jù)為人群移動(dòng)模式,城市功能區(qū)等相關(guān)研究帶來(lái)了新的視角。陳澤東等[13]以出租車(chē)數(shù)據(jù)為基礎(chǔ)識(shí)別了6類(lèi)城市功能區(qū)并探究了功能區(qū)之間的空間交互特征。逯琳等[14]借助浮動(dòng)車(chē)數(shù)據(jù)快速、精細(xì)地分析了武漢市三環(huán)線(xiàn)范圍內(nèi)的職住空間特征;Liu Y等[15]利用出租車(chē)數(shù)據(jù)進(jìn)行聚類(lèi)分析,引入“源匯區(qū)”的概念,劃分了上海市不同的功能區(qū)。
現(xiàn)有城市功能區(qū)的研究主要利用位置數(shù)據(jù),缺少人群出行的時(shí)間屬性,如何將兩者結(jié)合起來(lái)還缺乏研究。此外現(xiàn)有研究將城市劃分為單一功能區(qū),無(wú)法展現(xiàn)多種類(lèi)型混合區(qū)域的細(xì)節(jié),同時(shí)大多算法較為復(fù)雜,無(wú)法對(duì)快速發(fā)展的城市結(jié)構(gòu)有快速的響應(yīng)。本文基于西安市的出租車(chē)出行數(shù)據(jù),通過(guò)k-medoids算法對(duì)地塊進(jìn)行時(shí)間序列聚類(lèi),挖掘出功能區(qū)和居民出行規(guī)律之間的聯(lián)系,并結(jié)合POI數(shù)據(jù)提高了分析結(jié)果的準(zhǔn)確性,結(jié)果將有助于研究西安市功能區(qū)空間分布的合理性及對(duì)城市發(fā)展規(guī)劃提供建議。
研究區(qū)域選擇包含西安市出租車(chē)出行數(shù)據(jù)的區(qū)域,坐標(biāo)范圍為108.53E~109.36E,34.47N~33.96N,簡(jiǎn)化為 3 518個(gè) 1 km×1 km的方格,如圖1所示。
圖1 研究區(qū)域
(1)出租車(chē)數(shù)據(jù)
本研究使用了西安市交通運(yùn)輸局提供的2019年5月10日~16日一周的出租車(chē)運(yùn)營(yíng)數(shù)據(jù),包含出租車(chē)編號(hào)、經(jīng)緯度、時(shí)間、速度、方位角、載客狀態(tài)等字段。經(jīng)過(guò)刪除重復(fù)、超限、缺失數(shù)據(jù),提取出城市上、下車(chē)位置數(shù)據(jù),最終獲得 690 978條上下車(chē)記錄,部分記錄如表1所示。
表1 出租車(chē)數(shù)據(jù)示例
(2)POI數(shù)據(jù)
POI(Point of Interest)是擁有地理坐標(biāo)和屬性信息的點(diǎn),反映了城市地理實(shí)體的空間分布。文中西安市POI數(shù)據(jù)通過(guò)高德地圖開(kāi)發(fā)平臺(tái)提供的API獲取,并根據(jù)需要對(duì)23個(gè)大類(lèi)做了提取、篩選、合并,最終得到12個(gè)類(lèi)別,總記錄數(shù)為 271 016,每條記錄包括POI的經(jīng)緯度、名稱(chēng)、行政區(qū)、類(lèi)別。
將西安市出租車(chē)出行上、下車(chē)數(shù)據(jù)按1周168個(gè)小時(shí)進(jìn)行顯示如圖2所示,按照工作日、休息日、上車(chē)、下車(chē)分為4個(gè)數(shù)據(jù)集,再計(jì)算每一天每一個(gè)方格中每一時(shí)段的上下車(chē)數(shù)量。
圖2 一周上下車(chē)數(shù)據(jù)時(shí)序曲線(xiàn)
傳統(tǒng)聚類(lèi)中樣本的接近程度主要是根據(jù)距離衡量,這是基于樣本間的獨(dú)立性和不變性。本研究采取一種考慮不同時(shí)間序列復(fù)雜程度的相似性度量方法,此方法使用兩個(gè)時(shí)間序列之間的復(fù)雜度差異信息作為現(xiàn)有距離度量的校正因子[16,17]。表達(dá)式如式(1):
CID(Q,C)=ED(Q,C)×CF(Q,C)
(1)
其中CID是complexity-invariant-distance的縮寫(xiě),表示經(jīng)過(guò)復(fù)雜度校正的時(shí)間序列相似性度量參數(shù),ED表示兩個(gè)時(shí)間序列之間的歐幾里得距離,其中ED的計(jì)算是假設(shè)有兩個(gè)時(shí)間序列曲線(xiàn)Q和C,將其視作n個(gè)點(diǎn)。
Q=q1,q2,…,qi,…,qn
C=c1,c2,…,ci,…,cn
這時(shí)兩個(gè)時(shí)間序列的歐幾里得距離計(jì)算公式如式(2):
(2)
CF表示基于時(shí)間序列復(fù)雜度的校正因子,計(jì)算公式如式(3):
(3)
其中CE(T)是時(shí)間序列T的復(fù)雜度估計(jì),計(jì)算公式如式(4):
(4)
復(fù)雜度因子(CF)使復(fù)雜度具有明顯差異的時(shí)間序列彼此分開(kāi),避免了不同復(fù)雜度時(shí)間序列因傳統(tǒng)距離度量而產(chǎn)生的誤分,在所有時(shí)間序列具有相同復(fù)雜度的情況下,CID簡(jiǎn)化為歐幾里得距離,降低了計(jì)算復(fù)雜度,適用于較為簡(jiǎn)單的時(shí)間序列相似性度量。
本研究采取k-medoids算法對(duì)時(shí)間序列曲線(xiàn)進(jìn)行聚類(lèi)分析。相比于k-means算法,此算法受異常點(diǎn)的影響較小,當(dāng)已知聚類(lèi)數(shù)的時(shí)候,計(jì)算復(fù)雜度低且精度較高。
考慮到聚類(lèi)結(jié)果的有效性、分類(lèi)的效率,本研究選取輪廓系數(shù)法(Silhouette Coefficient)和誤差平方和(SSE)兩種指標(biāo)來(lái)選擇最優(yōu)聚類(lèi)數(shù),結(jié)果如圖3所示。綜合兩種指標(biāo),選取最佳聚類(lèi)數(shù)7。
圖3 輪廓系數(shù)和誤差平方和隨K值的變化
為了對(duì)出租車(chē)出行數(shù)據(jù)的時(shí)間序列聚類(lèi)結(jié)果進(jìn)行補(bǔ)充和修正,引入歸一化POI指數(shù)。首先,分別計(jì)算上下車(chē)聚類(lèi)結(jié)果中每一類(lèi)POI在每一類(lèi)別中的權(quán)重,計(jì)算公式如式(5):
(5)
其中,Ni,j表示第i類(lèi)聚類(lèi)結(jié)果中第j類(lèi)POI的數(shù)量,M代表研究區(qū)域中的方格總數(shù)。
為了消除不同聚類(lèi)結(jié)果中POI指數(shù)數(shù)量級(jí)間的差異從而方便比較,對(duì)Li,j采取傳統(tǒng)的Min-max標(biāo)準(zhǔn)化方法進(jìn)行處理,計(jì)算公式如式(6)。
(6)
其中Lmin,Lmax分別代表每一組上下車(chē)數(shù)據(jù)中的最小、最大POI指數(shù)。
利用k-medoids算法對(duì)提取出的上、下車(chē)位置進(jìn)行時(shí)間序列聚類(lèi)分析,得到每一組數(shù)據(jù)的7個(gè)聚類(lèi)結(jié)果,結(jié)果中包含聚類(lèi)結(jié)果空間分布(圖4、圖5中的a、c)、類(lèi)別平均時(shí)間序列(圖4、圖5中的b、d)。
圖4 工作日上下車(chē)數(shù)據(jù)聚類(lèi)結(jié)果
圖5 休息日上下車(chē)數(shù)據(jù)聚類(lèi)結(jié)果
將沒(méi)有數(shù)據(jù)的方格命名為W0,其他根據(jù)此類(lèi)別的方格總數(shù)從大到小的順序命名為W1-W6。上車(chē)數(shù)據(jù)聚類(lèi)結(jié)果如圖4(a)、(b)所示,每個(gè)聚類(lèi)的平均時(shí)間序列曲線(xiàn)和方格顏色一致。W1類(lèi)從空間分布的角度來(lái)看,主要集中于主城區(qū),與其他類(lèi)別相比分布更為連貫且成片出現(xiàn);從時(shí)間角度來(lái)看,可以發(fā)現(xiàn)出行的早高峰出現(xiàn)在7點(diǎn),午高峰出現(xiàn)在1點(diǎn),10點(diǎn)~12點(diǎn)存在一個(gè)低谷,3點(diǎn)也存在一個(gè)低谷,6點(diǎn)之后出行量開(kāi)始增加,這與工作日居民區(qū)的上班出行習(xí)慣較為一致,初步判斷主要為居民區(qū)和休閑娛樂(lè)區(qū)。
W2類(lèi)主要分布在主城區(qū)以外,分布較為離散,只有一個(gè)高峰在6點(diǎn),出行量總體較少,出行時(shí)間不固定,判斷可能為上班或者事務(wù)性出行。
W3類(lèi)的分布集中于城市外圍,但更為靠近主城區(qū),整體分布比較離散但是小區(qū)域較為連續(xù);7點(diǎn)~8點(diǎn)出行量有一個(gè)高峰,12點(diǎn)和6點(diǎn)有一個(gè)低谷,整體保持平穩(wěn),推測(cè)為風(fēng)景名勝,購(gòu)物場(chǎng)所。
W4類(lèi)所處區(qū)域主要為主城區(qū),分布特征同W1類(lèi)相似,存在早高峰7點(diǎn)和午高峰1點(diǎn),18點(diǎn)之后出行量持續(xù)增加,參考W1類(lèi)估計(jì)為居民區(qū)和休閑娛樂(lè)區(qū)。
W5類(lèi)靠近城市外圍,分布也更為離散,7點(diǎn)到24點(diǎn)出行量基本維持在一個(gè)相同的數(shù)量,推測(cè)主要為風(fēng)景名勝、購(gòu)物服務(wù)。
W6類(lèi)數(shù)量最少,主要分布在城市外圍,10點(diǎn)和18點(diǎn)有一個(gè)高峰,9點(diǎn)和16點(diǎn)有一個(gè)低谷,但出行量較少,推測(cè)早上9點(diǎn)以后為事務(wù)性出行,18點(diǎn)為下班時(shí)間,應(yīng)該屬于辦公場(chǎng)所。
下車(chē)數(shù)據(jù)聚類(lèi)結(jié)果如圖4(c)、(d),對(duì)比工作日的上車(chē)數(shù)據(jù)可以發(fā)現(xiàn),區(qū)域中有下車(chē)數(shù)據(jù)的地塊更多,覆蓋的范圍更大。
休息日上車(chē)數(shù)據(jù)聚類(lèi)結(jié)果如圖5(a)、(b),下車(chē)數(shù)據(jù)聚類(lèi)結(jié)果如圖5(c)、(d)。從空間分布中可以發(fā)現(xiàn),休息日的空間分異程度相比于工作日很小,這符合休息日人們的出行習(xí)慣。
對(duì)于特征不明顯或包含多種特征的區(qū)域依靠單一時(shí)間序列曲線(xiàn)難以進(jìn)行識(shí)別,而時(shí)間序列聚類(lèi)和POI的結(jié)合可以互相補(bǔ)充達(dá)到提高識(shí)別精度的目的。
為了利用POI具有的城市地物屬性特征對(duì)時(shí)間序列分析的結(jié)果進(jìn)行補(bǔ)充,這里引入歸一化POI指數(shù),計(jì)算結(jié)果示例如表2、表3所示。
表2 工作日上車(chē)數(shù)據(jù)聚類(lèi)結(jié)果的歸一化POI指數(shù)
表3 工作日下車(chē)數(shù)據(jù)聚類(lèi)結(jié)果的歸一化POI指數(shù)
以工作日上車(chē)數(shù)據(jù)為例,W1類(lèi)中指數(shù)最大的是金融保險(xiǎn),其次是交通設(shè)施、住宅,推測(cè)是居民區(qū)及其周邊設(shè)施,這比較符合對(duì)聚類(lèi)結(jié)果的推斷;W2類(lèi)POI指數(shù)較高的是風(fēng)景名勝、政府機(jī)構(gòu)、住宅,主要分布在主城區(qū)以外,結(jié)合上文分析推測(cè)為住宅和政府機(jī)構(gòu)的混合區(qū)域;W3類(lèi)考慮為比較成熟的商業(yè)區(qū);W4類(lèi)住宿、住宅的POI指數(shù)最高,且伴隨較高的餐飲服務(wù)、生活服務(wù)推測(cè)為居民區(qū);W5類(lèi)風(fēng)景名勝的POI指數(shù)最大且伴隨較高的住宿服務(wù),推測(cè)為風(fēng)景名勝。W6類(lèi)數(shù)量較少,POI指數(shù)中政府機(jī)構(gòu)、公司企業(yè)POI指數(shù)較大,推測(cè)為政府機(jī)構(gòu)和產(chǎn)業(yè)園區(qū)等工作場(chǎng)所的混合區(qū)域。
結(jié)合歸一化POI指數(shù)對(duì)時(shí)間序列聚類(lèi)結(jié)果的補(bǔ)充、修正,可以確定每一方格的功能區(qū)類(lèi)型。結(jié)果如圖6所示,其中“未識(shí)別區(qū)”為沒(méi)有出租車(chē)上下車(chē)數(shù)據(jù)的地塊。從圖6中可以看出單一功能區(qū)較少,大多數(shù)地塊屬于混合區(qū)。以居民區(qū)為例可以看出,居民區(qū)的選址往往要求購(gòu)物方便或者臨近景區(qū)、周?chē)袑W(xué)校等,所以包含居民區(qū)的地塊也大多會(huì)跟商業(yè)區(qū)、工作區(qū)、科教區(qū)、景區(qū)等混合,與我們的常識(shí)相符。
圖6 功能區(qū)識(shí)別結(jié)果
為了驗(yàn)證結(jié)果的可靠性,在研究區(qū)內(nèi)隨機(jī)選擇了100個(gè)方格,除去無(wú)數(shù)據(jù)區(qū)最終確定42個(gè)方格作為驗(yàn)證點(diǎn),方格的位置如圖7所示,對(duì)照谷歌影像、街道地圖、識(shí)別結(jié)果,目視判別了驗(yàn)證點(diǎn)的功能區(qū)類(lèi)型,正確分類(lèi)34個(gè)方格,錯(cuò)誤分類(lèi)8個(gè)方格,總體精度0.81。此外隨機(jī)選擇了5個(gè)典型區(qū)域的功能區(qū)識(shí)別結(jié)果作為細(xì)節(jié)展示,從左至右分別為谷歌影像、街道地圖、識(shí)別結(jié)果,從上至下分別為不同區(qū)域,結(jié)果如圖8所示。如區(qū)域A包括大明宮國(guó)家遺址公園、方新村與龍首商業(yè)街區(qū)的混合區(qū),分別對(duì)應(yīng)識(shí)別結(jié)果中的景區(qū)、混合區(qū)(居民區(qū)、商業(yè)區(qū)),識(shí)別結(jié)果準(zhǔn)確。
圖7 驗(yàn)證方格位置示意圖
圖8 區(qū)域E識(shí)別結(jié)果與谷歌衛(wèi)星圖像和街道地圖的對(duì)照
此外結(jié)合分析結(jié)果,探索了功能區(qū)在工作日和休息日的動(dòng)態(tài)變化,具體的結(jié)果如圖9所示。其中變化區(qū)域635個(gè),不變區(qū)域854個(gè),除去無(wú)數(shù)據(jù)的區(qū)域,變化區(qū)域占研究區(qū)域的42.6%,不變區(qū)域占比57.4%。變化區(qū)域主要分布在較為靠近城市三環(huán)的區(qū)域,而不變區(qū)域主要分布在城市外圍,說(shuō)明主城區(qū)的土地利用效率較高,利用強(qiáng)度也較大,而郊區(qū)則大多具有較為固定的功能區(qū)類(lèi)型。
圖9 變化區(qū)域與不變區(qū)域分析
本文利用西安市一周的出租車(chē)出行數(shù)據(jù)、POI數(shù)據(jù)對(duì)西安市的功能區(qū)進(jìn)行識(shí)別,結(jié)果表明,城市居民出行特征與城市功能區(qū)相關(guān),說(shuō)明了出租車(chē)數(shù)據(jù)的分析挖掘?qū)Τ鞘泄δ軈^(qū)識(shí)別的可行性。同時(shí)時(shí)間序列聚類(lèi)的結(jié)果也表明單一出租車(chē)數(shù)據(jù)對(duì)地塊類(lèi)別的分類(lèi)有一定的局限性,加入POI數(shù)據(jù)則可以互相補(bǔ)充,提高了功能區(qū)識(shí)別的準(zhǔn)確性,避免了僅靠出租車(chē)數(shù)據(jù)無(wú)法識(shí)別混合區(qū)和POI數(shù)據(jù)缺乏定性分析的局限性。
從最終的分類(lèi)結(jié)果看,平均上車(chē)數(shù)量最多的地塊主要集中在城市的中心,說(shuō)明城市中心活動(dòng)強(qiáng)度最大,活動(dòng)強(qiáng)度與偏離市中心距離成反比。對(duì)比工作日和休息日,工作日地塊的空間分異較大,說(shuō)明休息日人們出行行為較單調(diào),出行需求也較工作日小。同時(shí)本文也存在一定的局限性,城市居民的出行方式多種多樣,出租車(chē)適用于中短距離的出行,僅使用出租車(chē)數(shù)據(jù)會(huì)存在一定的偏差。所以在后續(xù)的研究中,考慮加入多源數(shù)據(jù),如IC卡刷卡數(shù)據(jù)、社交媒體定位數(shù)據(jù)等來(lái)進(jìn)一步提高功能區(qū)識(shí)別的全面性。