段曉旗,張 彤,田有亮,劉沛林,萬 橋,秦永彬
1. 貴州大學計算機科學與技術學院,貴陽 550025; 2. 武漢大學測繪遙感信息工程國家重點實驗室,武漢 430079; 3. 長沙學院鄉(xiāng)村振興研究院,長沙 410022
公共交通在人們的出行過程中扮演著越來越重要的作用,一般而言,像北京、深圳等大城市的通勤活動中,地鐵、公交等公共交通具有便利、高效、價格便宜等優(yōu)勢,成為大多數(shù)人的首選[1]。人類出行行為產生了海量的位置數(shù)據(jù),包括GPS、智能刷卡記錄(smart card data)等,通過數(shù)據(jù)挖掘,可以發(fā)現(xiàn)其背后所蘊含的信息。這些信息可以幫助從活動空間的角度重新認識城市結構,如在深圳郊區(qū)居民的出行特征較為相似,即早上通勤、晚上回家,而發(fā)現(xiàn)居民出行行為影響下的城市活動結構,對于城市管理、交通規(guī)劃及公共交通線路選擇具有重要意義[2-3]。
城市結構表示在一定地域空間內地理要素的相對區(qū)位關系和分布形式,是在長期過程中人類空間活動和區(qū)位選擇的積累結果[4]。而城市活動結構旨在研究人類活動對城市空間的影響,即人類出行活動模式、規(guī)律對城市區(qū)域的影響以及個體與城市區(qū)域之間相互作用的總結[5-6],如通常居民地的活動結構為個體的通勤-上班-回家,商業(yè)區(qū)域的活動結構為休閑娛樂等。然而,在不同的時間段,由于城市區(qū)域內個體出行時空需求多樣,導致城市活動結構的變化更為復雜。先前的城市活動結構研究更多關注城市結構對出行行為的影響,自20世紀70年代開始,出行行為對城市結構的影響引起了地理學家的關注[7]。學者們從不同角度研究了城市結構的影響,如土地利用和居住區(qū)規(guī)?;旌蟍8-9],或試圖通過居民的出行行為來評估城市政策[10]。然而,人類的出行行為也會影響城市結構,所以應該超越物理環(huán)境和經(jīng)濟資源的空間分布來解釋城市[11-12]。一個城市的底層結構,例如城市區(qū)域具有更多內部空間的相互作用以及城市中心如何與其附近區(qū)域相互作用,說明城市作為動態(tài)系統(tǒng)發(fā)揮作用,而非靜態(tài)。考慮到城市離散的物理資源由居民個體出行活動鏈接成一個綜合系統(tǒng)的紐帶,那么,居民個體出行活動就代表了城市空間的相互作用。由于數(shù)據(jù)來源、分析工具及計算能力的限制,這些研究進展有限,大多數(shù)與城市活動結構的研究都集中在城市形態(tài)上。
當前,用于發(fā)現(xiàn)網(wǎng)絡子結構的社區(qū)探測方法,使城市活動結構的探測研究不僅僅局限于研究中心性、功能區(qū)及其交互領域,社區(qū)內部的活動機制成為研究重點。社區(qū)探測為城市活動結構發(fā)現(xiàn)提供了基礎。最具有代表性的研究為文獻[13]提出的社區(qū)發(fā)現(xiàn)優(yōu)化模型Modularity,其核心思想是比較社區(qū)內部和外部的差異來衡量分區(qū)質量,Modularity模型為后續(xù)譜優(yōu)化算法[14]、Louvain[15]、FastNewman[16]等社區(qū)發(fā)現(xiàn)方法的優(yōu)化提供了基礎。文獻[17]基于最小熵的原理提出了Infomap算法,該算法以雙層編碼方式將社區(qū)發(fā)現(xiàn)同信息編碼聯(lián)系到一起,通過編碼長度確定最優(yōu)的劃分結果。文獻[18]借鑒LDA的思想提出了MMSB(mixture membership block model)方法,該方法基于概率統(tǒng)計思想更好地解釋了節(jié)點之間的邊乃至整個網(wǎng)絡的生成過程。文獻[19]以鄭州市為例,利用軌跡數(shù)據(jù)分析了城市中多中心結構的交互關系。文獻[20]利用百度遷徙數(shù)據(jù)對中國城市的網(wǎng)絡特征進行探測。文獻[21]在人口流動的視角下利用統(tǒng)計分析的方法對南京市城市空間結構進行了刻畫。然而實際上城市活動結構的動態(tài)探測,除了有動態(tài)的出行特征外,城市屬性等靜態(tài)特征也同樣重要。上述方法或者只能處理單一的網(wǎng)絡結構,或者只能處理靜態(tài)的屬性信息,并且處理海量的交通數(shù)據(jù)效率較低。
隨著機器學習技術的不斷發(fā)展,部分學者從數(shù)據(jù)驅動的角度對城市活動結構進行了探究。文獻[22]利用出租車軌跡數(shù)據(jù)對城市各區(qū)域之間的聯(lián)系進行探測。文獻[23]用道路將城市劃分為不同的單元,再基于數(shù)據(jù)驅動的方法處理POI和出租車軌跡數(shù)據(jù),發(fā)現(xiàn)城市中各單元所具有的功能。文獻[24]通過POI數(shù)據(jù)和通話數(shù)據(jù)以非監(jiān)督方式對利雅得城市內部吸引力模式進行研究,發(fā)現(xiàn)了全局、市中心和居住地的3種吸引力模式。相比于傳統(tǒng)的算法,數(shù)據(jù)驅動的方式能夠提高計算效率,并且能夠準確挖掘出海量數(shù)據(jù)下的關鍵信息,在城市活動結構探測中發(fā)揮了越來越重要的作用。
然而,在數(shù)據(jù)源多樣且海量的背景下,對于如何融合各種來源的靜態(tài)、動態(tài)數(shù)據(jù),如通話數(shù)據(jù)、軌跡數(shù)據(jù)、刷卡數(shù)據(jù)、城市屬性數(shù)據(jù)等,面臨著前所未有的挑戰(zhàn);另外,居民出行特征具有時空異質性,如何在訓練過程中顧及空間異質性,現(xiàn)有研究鮮有嘗試。
針對以上問題,本文提出一種基于表示學習的數(shù)據(jù)驅動方法,引入高斯混合模型(Gaussian mixture models,GMMs)[25]得到每次訓練的分類結果,并結合文獻[26]的多層地理分異思想,即顧及乘客的出行特征異質性,通過輸入屬性矩陣和出行模式圖完成居民的動態(tài)活動信息及靜態(tài)屬性信息的融合,最終實現(xiàn)城市活動結構的探測。本文的貢獻主要包括:①將不同來源的數(shù)據(jù)進行融合,實現(xiàn)了多圖融合、多信息挖掘;②顧及了時空異質性,本文將時空異質性的概念實際應用于表示學習的框架中;③實現(xiàn)了在進行發(fā)現(xiàn)城市區(qū)域表示的同時,也完成了城市活動結構(社區(qū))的表示。
居民的出行行為在時間和空間上表現(xiàn)出多樣化特征,同一區(qū)域的人群由于目的不同導致出行線路、出行時間產生巨大差異,如早高峰流量最多的區(qū)域為商業(yè)區(qū),而晚高峰則是住宅區(qū)。針對居民活動的時空異質性,文獻[27]對城市中老人22個月的活動進行了統(tǒng)計,發(fā)現(xiàn)了老人的活動具有很強的異質性;文獻[28]運用社會網(wǎng)絡分析和修正的空間交互模型,探討了南京在旅游活動中的時間異質性,發(fā)現(xiàn)每個景點的訪問量會隨著行程時間增加而下降。上述研究通過比較的方法對異質性進行了初步探測,而文獻[26]從統(tǒng)計學的角度提出一種將空間異質性定量化表示方法,q-value,具體公式為
(1)
總之,異質性是居民活動過程中不可忽視的因素,在以居民出行為的城市活動結構發(fā)現(xiàn)過程中需要顧及不同出行模式的異質性,為進一步了解居民出行特征、準確表示居民出行行為,進而發(fā)現(xiàn)城市活動結構具有重要意義。
表示學習是近年來計算機科學研究的熱點,目的是將圖結構Gn×n,映射到低維空間Rn×d,其中d?n,其結果帶有原始圖結構的特征。表示學習的結果能夠完成聚類、分類、邊預測、推薦等下游應用。
表示學習發(fā)展到現(xiàn)在,大體上可以歸納為3大類:基于因子分解的方法、基于隨機游走的方法,以及基于深度學習的方法[29]。基于因子分解的方法將圖轉換成矩陣的形式,例如領域矩陣、拉普拉斯矩陣等,對這些矩陣進行因式分解,從而保持節(jié)點之間的相似度,根據(jù)矩陣性質的不同其分解方式也多樣,代表的算法有HOPE[30]、LLE[31]等。基于隨機游走算法的代表包括Deepwalk[32]、node2vec[33]等,其核心思想為在網(wǎng)絡中不斷重復地隨機漫游,最終形成一條完整的通過網(wǎng)絡的路徑,隱式地保留節(jié)點間的相似度,獲取圖中局部上下文信息。而對于深度學習與日俱增的研究導致大量基于深度神經(jīng)網(wǎng)絡的方法應用于圖的表示中,深度自動編碼器能夠對數(shù)據(jù)中的非線性結構進行建模,如SDNE[34]使用自編碼器(Auto-Encoder)同時優(yōu)化一階與二階相似度,從而保留局部和全局結構,具有一定的穩(wěn)健性;DNGR[35]則是結合了隨機游走和自編碼器的方法,能夠捕獲更高階相似度;而VGAE和GAE則是采用了圖卷積網(wǎng)絡(GCN)和內積譯碼器,與卷積網(wǎng)絡類似,圖卷積網(wǎng)絡通過在圖形上定義卷積算子進行計算,解決了稀疏圖難以高效計算的問題,同時可以學習節(jié)點之間的相似度,具有不錯的泛化能力。
表示學習的方法在挖掘城市活動結構方面有著獨特的效率和準確性優(yōu)勢,但在顧及靜態(tài)屬性特征以及出行模式異質性方面略有不足,這也是本文需要解決的問題。
通過公共交通出行數(shù)據(jù)、POI數(shù)據(jù)和道路信息數(shù)據(jù)(在3.1節(jié)進行描述),旨在將城市分為若干社區(qū),社區(qū)內部保留有居民的出行特征及POI屬性特征。不同于傳統(tǒng)的社區(qū)發(fā)現(xiàn)研究,本文不僅僅將高度交互的節(jié)點聚合,并且考慮到:①居民的出行應該是有向的;②其他的屬性信息(如土地利用類型等),實現(xiàn)更為精確地表示。
數(shù)據(jù)處理過程首先將整個城市劃分為相等的網(wǎng)格(大小為100 m×100 m),并將水體、山脈等不可達的區(qū)域刪除;然后根據(jù)鄰近站點將相似網(wǎng)格進行合并[34]形成格網(wǎng)組,格網(wǎng)組的個數(shù)為18 108。由此產生的網(wǎng)格具有不同類型的交通可達性,并可探測出高分辨率的出行結構,同時大大減少計算量。
本文的流程主要是:通過N個節(jié)點(格網(wǎng)組)之間的屬性矩陣及其交互,將N個節(jié)點V={v1,v2,…,vN}∈RN×F通過表示學習模型得到U個城市活動結構C={C1,C2,…,CU}∈RU×D,其中,D為表示學習后向量維度。
該模型利用自編碼模型對節(jié)點的屬性信息進行編碼,并在編碼到解碼過程中顧及節(jié)點之間的交互信息以及異質性特征,有如下定義。
定義1:屬性相似度矩陣Wa。作為局部靜態(tài)屬性特征,為自編碼模型的輸入數(shù)據(jù),Wa={wa,ij}i,j∈(0,18 108),即
(2)
定義2:出行模式圖Gp(V,Ep,Wp)。用來描述節(jié)點之間的出行信息相似度,V為節(jié)點(格網(wǎng)組)的集合,Ep為節(jié)點之間的邊的集合,Wp為節(jié)點之間邊的權重矩陣,將其定義為
(3)
式中,|Ni|表示從節(jié)點i出發(fā)所到達的節(jié)點數(shù)量;rik(rjt)表示從節(jié)點i(j)到節(jié)點k(t)的流量與節(jié)點i(j)流出流量的比值;atti→k(attj→t)表示節(jié)點i(j)對于節(jié)點k(t)的吸引力,公式為
(4)
本文目的是將上述的屬性相似度矩陣(R18 108×18 108)和出行模式圖(R18 108×18 108)嵌入(映射)到低維空間,得到每個節(jié)點的向量表示,其中向量表示的結果蘊藏了輸入矩陣的關鍵信息以及顧及了異質性特征。然后利用集成的圖嵌入(表示學習)方法發(fā)現(xiàn)城市活動結構,如圖1所示。
圖1 集成的圖嵌入(表示學習)方法Fig.1 Joint network embedding(representational learning) method
集成的圖嵌入方法的基礎模型為自編碼(Auto-Encoder),該模型能夠完成對圖的非線性編碼,并且顧及節(jié)點之間的一階、二階鄰近[34]。自編碼模型主要由兩個部分組成:將輸入數(shù)據(jù)映射為低維向量表示的編碼器和將低維向量重構的解碼器。編碼器包括一個輸入層和若干隱藏層,結構如下
(5)
式中,Yl為編碼器第l層的結果;Wl和bl分別為編碼器第l層的權重和偏差;σ為激活函數(shù);假如自編碼為k層,那么Yk為最終的向量表示,且維度遠小于輸入數(shù)據(jù)的維度。
(6)
(1) 重構損失。重構損失可以表示為
(7)
通過最小化輸入的屬性數(shù)據(jù)與重構后屬性數(shù)據(jù)的差異來保留二者之間的屬性相似度。
(2) 出行模式損失。為了將出行模式信息保留在表示結果中,主要思路是將出行模式圖嵌入低維空間,即出行模式的節(jié)點越相似,那么在低維空間中距離越近。因此,出行模式損失構建為
(8)
(3) 從節(jié)點嵌入到社區(qū)嵌入。在基于屬性信息和出行信息完成節(jié)點嵌入之后,節(jié)點嵌入后的向量表示用來進行社區(qū)類型的發(fā)現(xiàn)。通過對節(jié)點向量進行聚類,那么具有相似屬性和出行模式的區(qū)域形成一個社區(qū)類型。節(jié)點向量表示的默認形式通常為一維向量(d×1),由于每個社區(qū)類型通常包含多個節(jié)點,用一維向量表示社區(qū)類型會過于簡化社區(qū)類型的復雜組合。因此,該模型使用多元高斯混合模型(GMMs)來增強社區(qū)嵌入的表示能力[25]。每種社區(qū)類型的特征是一個平均向量和一個協(xié)方差矩陣,二者共同提供了社區(qū)類型的總體特征。
然而,節(jié)點嵌入和隨后的聚類過程可能不會產生高度緊湊的社區(qū)類型,因為初始節(jié)點嵌入過程不能充分考慮社區(qū)類型在嵌入空間中的聚集性。平均向量表示社區(qū)類型的中心,而協(xié)方差矩陣則表示與其中心相關的節(jié)點成員的緊致性。由于社區(qū)類型檢測被視為一個典型的無監(jiān)督學習問題,因此節(jié)點嵌入、社區(qū)檢測和社區(qū)嵌入結合到一個集成的無監(jiān)督優(yōu)化模型中,該模型迭代地推導出節(jié)點和社區(qū)類型的優(yōu)化嵌入,使社區(qū)結構更為準確[25]。節(jié)點嵌入可以通過減少節(jié)點與社區(qū)類型中心的差異來改進,前提是屬于相同社區(qū)類型的節(jié)點應該緊密嵌入社區(qū)類型中心。當執(zhí)行這種聯(lián)合優(yōu)化時,丟失信息被反向傳播到聯(lián)合嵌入方案(即自動編碼器)并導出改進的節(jié)點嵌入。通過更新節(jié)點嵌入,致使屬于相同社區(qū)類型的節(jié)點將進行更為相似的嵌入;反過來,在每次迭代之后可以訓練出更為一致的社區(qū)類型結構。
假設有M種類型的社區(qū),每個社區(qū)都服從多元高斯分布(φu,τu),其中φu∈Rd和τu∈Rd×d是第u類中節(jié)點向量的平均值和協(xié)方差。每種類型由多個區(qū)域(格網(wǎng)組)組成,具有相同高斯分布的區(qū)域(格網(wǎng)組)屬于同一類型的社區(qū)。最合適的社區(qū)數(shù)量由gap statistic模型確定[30]。為了將社區(qū)類型檢測和嵌入統(tǒng)一到一個集成優(yōu)化框架中,根據(jù)式(8)中對Yi表示結果,需要繼續(xù)優(yōu)化以下似然函數(shù)
(9)
式中,pr(vi∈Cu)表示節(jié)點i是u類型社區(qū)的概率;Yi為i節(jié)點向量表示。那么,從節(jié)點嵌入到社區(qū)嵌入的損失函數(shù)可以表示為
Yi,φu,τu)
(10)
式中,β為平衡參數(shù);M為社區(qū)類別的數(shù)量。
通過最小化式(10)中的損失函數(shù),可以導出最佳的節(jié)點和社區(qū)類型嵌入。同時,還可以得到最優(yōu)解pr(vi∈Cu)。假設Yi未知,可根據(jù)式(9)更新節(jié)點嵌入。這種迭代的節(jié)點嵌入過程可以引導相同社區(qū)類型的節(jié)點具有相似的嵌入,如圖2所示。
圖2 社區(qū)發(fā)現(xiàn)和節(jié)點嵌入的迭代過程Fig.2 Iterative process of community discovery and node embedding
(4) 顧及異質性的表示。在完成節(jié)點嵌入到社區(qū)嵌入之后,社區(qū)之間的居民出行行為表現(xiàn)出比較強烈的異質性。以此為前提,那么需要顧及不同社區(qū)之間的異質性特征,因此,根據(jù)地理探測器的原理[26],相同群體(社區(qū))的群內差距較小,群體(社區(qū))之間的距離較大,有主函數(shù)
(11)
(12)
訓練:利用PyTorch框架進行編碼,調整參數(shù)之后的學習率確定為0.000 5,自編碼的層數(shù)為4層,每層神經(jīng)元的個數(shù)為[18 108,5000,2000,128]。通過Pytorch中的Adam優(yōu)化器,根據(jù)反向傳播原理,使得訓練朝著損失變小的方向發(fā)展。那么,利用基于自編碼模型的表示學習方法將屬性相似度矩陣(R18 108×18 108)和出行模式圖(R18 108×18 108)嵌入(映射)到低維空間,得到每個節(jié)點的向量表示(R18 108×128)。
深圳市是我國改革開放的先驅,人口超過1250萬,占地面積2000多平方千米,毗鄰香港特別行政區(qū)。深圳市擁有國內最為完備的公交、地鐵系統(tǒng),包括8條地鐵干線、199個地鐵站點和808條公交線路、6226個公交站點,如圖3所示。
圖3 研究區(qū)Fig.3 Study area
本文基于SCD、公交軌跡數(shù)據(jù)、公交網(wǎng)絡和道路信息,利用文獻[36]的方法對公交出行進行重建。時間為2017-04-03至2017-04-09,記錄了出行時間、出行地點、到達時間、到達地點及中轉站點,見表1。在一周時間內,搜集了超過40 000 000條記錄。具體的數(shù)據(jù)描述見表2。
表1 2017年4月3日乘客出行示例Tab.1 Example of trip for passengers on April 3, 2017
表2 數(shù)據(jù)描述Tab.2 Data description
深圳市總共有9個行政區(qū)和1個功能區(qū)。一般認為羅湖、福田、南山區(qū)為深圳的中心區(qū),并且向寶安、龍崗、龍華區(qū)擴張。中心區(qū)分布有密集的商業(yè)區(qū)、居住區(qū)等,由于市中心土地用途多樣,居民可以通過短途出行前往工作和休閑中心。盡管如此,由于工作機會位于羅湖、福田和南山區(qū)的中心區(qū)域,以及龍華區(qū)南部和龍崗區(qū)西部,大多數(shù)在郊區(qū)居住的居民在工作日通過地鐵系統(tǒng)進行長途通勤。在一些郊區(qū)和遠郊區(qū)(如寶安、光明、龍華、平山和龍崗區(qū)的北部),工業(yè)區(qū)和城中村仍然是主要的土地利用類型。這些地區(qū)的特點是臨時工和城市村民集中在此,他們對于公共交通使用相對少于市中心地區(qū)的居民。
POI分布具有明顯的空間異質性。深圳市擁有54 897個商業(yè)點和194個娛樂場所,大部分位于市區(qū)(福田、南山和羅湖區(qū));在寶安、光明、龍華和龍崗區(qū)的住宅區(qū),分布著一些小型商業(yè)點。教育點(3540個)、政府機構(5394個)和醫(yī)療服務(7520個)也分布不均:福田和南山區(qū)占主導地位,而其他地區(qū)的教育和醫(yī)療機會很少,在坪山和大鵬,幾乎找不到商業(yè)和教育機構。寶安、光明西部、龍華、坪山中部、龍崗北部、大鵬邊遠地區(qū)等地有旅游景點群(186個)。
根據(jù)本文方法,對深圳市工作日和周末進行了城市活動結構探測,并對探測結果分別進行了分析。
將訓練后的嵌入結果,根據(jù)Gap Statistic算法[37]和輪廓系數(shù)[38]的結果,將工作日(周一至周五)和周末(周六、周天)的城市分為5類。由于城市中每個區(qū)域的居民出行模式不同,導致即使相鄰區(qū)域也會有較大的異質性,深圳市中心區(qū)域表現(xiàn)得尤其明顯。而在公共交通線路相對不發(fā)達地區(qū),如坪山等,具有相對單一的結構。
由圖4可知,不管是工作日還是周末,第Ⅰ類社區(qū)變化不大,集中分布在龍崗北部、坪山地區(qū)和寶安北部等郊區(qū),距離地鐵站點較遠;第Ⅲ類社區(qū)主要分布在南山、羅湖和福田區(qū)中心區(qū)域,以及龍崗北部距離地鐵較近的區(qū)域,該類社區(qū)公共交通較為發(fā)達;第Ⅳ類社區(qū)主要分布于寶安、龍崗、龍華等地鐵線路發(fā)達的地區(qū);第Ⅴ類社區(qū)都集中分布在南山、羅湖和福田中心區(qū)域。
圖4 工作日和周末結果Fig.4 Results of joint network embedding on weekdays and weekends
工作日第Ⅱ類社區(qū)的地鐵線路發(fā)達,而周末第Ⅱ類社區(qū)只分布于中心區(qū),具有明顯的地理空間分布差異。在工作日,第Ⅲ類社區(qū)的節(jié)點數(shù)量要小于周末中第Ⅲ類節(jié)點數(shù)量,主要由于居民在周末更能呈現(xiàn)出一種隨機性,說明周末居民出行的隨機性增加。為了進一步發(fā)現(xiàn)每個社區(qū)的特征,統(tǒng)計了每類社區(qū)的平均出行時間、平均逗留時間、平均出行距離,并繪制了圖5。
圖5 城市活動結構統(tǒng)計Fig.5 Statistics of urban mobility structure
由圖5可知,工作日各社區(qū)的出行時間(圖5(a))、逗留時間(圖5(b))都要大于周末所對應的社區(qū),這是由于工作日通勤等因素的影響,出行者數(shù)量大于周末,因此,導致工作日出行所用的時間要長;工作日居民由于上班的原因,需要在工作地逗留較長時間。工作日中第Ⅱ類社區(qū)的出行距離要大于周末,結合第Ⅱ類社區(qū)的空間分布,可以得知第Ⅱ類社區(qū)的居民主要進行長距離的通勤活動,而在周末大部分居民的出行為了滿足休閑、娛樂等要求,需要進行遠距離出行到達商業(yè)POI分布密集的中心地段,因此其他社區(qū)居民的出行距離比工作日長。如圖5(b)所示,第Ⅱ類與第Ⅴ類社區(qū)逗留時間差異較大,第Ⅱ類社區(qū)逗留時間為5 h左右,而第Ⅴ類社區(qū)逗留7.5 h左右。造成這種差距的原因,主要是周末中第Ⅴ類社區(qū)的居民購物、娛樂、與朋友聚餐等的需求要比第Ⅱ類社區(qū)的居民要強;通過對比深圳市房價數(shù)據(jù),周末第Ⅱ類社區(qū)主要分布于最高房價地區(qū)(平均15萬左右),第Ⅴ類社區(qū)分布在次高房價地區(qū)(平均12萬左右),來自次高房價地區(qū)的中產階級人群(第Ⅴ類社區(qū))更愿意享受節(jié)假日的閑暇時光,因此,在周末逗留時間要大于來自高房價地區(qū)的第Ⅱ類社區(qū)人群。
工作日中第Ⅰ類社區(qū)出行距離最遠,用時也最長,而逗留時間卻最少,說明此社區(qū)的出行模式為處于偏遠地區(qū)的遠距離出行;第Ⅱ類社區(qū)出行時間、出行距離第二長,逗留時間5 h左右,說明此類社區(qū)的出行模式為近市中心的中遠距離出行;第Ⅲ類逗留時間較長、出行距離較短、出行時間較短,為市中心附近的中遠距離出行;第Ⅳ類出行時間與第Ⅲ類相似,而逗留時間較短,與最近地鐵站的距離較遠,說明此類社區(qū)的出行模式為遠離市中心的中短距離出行;第Ⅴ類社區(qū)出行所用時間最短,逗留時間較長,出行距離最短,與最近地鐵站點距離最近,而此類社區(qū)的居民基本上是在本區(qū)域內活動,逗留時間較長,那么此類社區(qū)居民的活動模式為位于中心區(qū)域的近距離出行。
在周末,第Ⅰ、Ⅲ、Ⅳ、Ⅴ類社區(qū)與工作日的出行模式類似,第Ⅱ類社區(qū)的節(jié)點較少,完全位于深圳市中心地區(qū),交通便利,為中心區(qū)近距離、短逗留出行。為了分析社區(qū)之間的流量關系,繪制了工作日和周末的流量圖(圖6)。
注:圓的大小表示社區(qū)的面積大小、顏色表示不同社區(qū)類型與圖4一致,圓內的統(tǒng)計圖表示各類POI密度分布比例,箭頭的方向表示流量方向,箭頭的粗細表示流量大小。圖6 社區(qū)之間的流量Fig.6 Flow between communities
由圖6可知,從POI分布的角度看,不管是工作日還是周末,第Ⅰ類社區(qū)的POI分布密度較小,第Ⅴ類POI分布密度較大;在周末,第Ⅱ類社區(qū)各類POI分布密度都很大,主要由于其位于中心城區(qū)。相比于周末,工作日的整體流量要高很多,由于第Ⅴ類社區(qū)主要位于城市中心區(qū)域,工作機會、娛樂等吸引力較大,而第Ⅰ類社區(qū)位于相對偏遠地區(qū),公共交通不發(fā)達,與其他社區(qū)的聯(lián)系不那么緊密。
在工作日,聯(lián)系最為緊密的為第Ⅲ類、第Ⅴ類社區(qū),主要由于第Ⅲ類社區(qū)位于中心區(qū)周圍,二者之間的可達性較好、吸引力較強;第Ⅱ類、第Ⅴ類社區(qū)之間的聯(lián)系也較為密切,有地鐵線路穿過第Ⅱ類社區(qū),并且能夠達到第Ⅴ類社區(qū)。在周末,第Ⅱ類與第Ⅴ類社區(qū)的聯(lián)系較為緊密,主要是因為二者都位于城市中心區(qū)域,公共交通線路發(fā)達、可達性好、吸引力強。
為了驗證本方法的可靠性,本文選取了經(jīng)典的Combo算法[39]和深度學習中的GraphEncoder算法[40]進行比較。其中,Combo算法提供了一種通用的優(yōu)化框架,以適應不同目標函數(shù)的社區(qū)發(fā)現(xiàn);GraphEncoder算法基于自編碼模型進行節(jié)點的聚類,其效果由于傳統(tǒng)的聚類算法,層數(shù)為4層,根據(jù)Gap statistic確定聚類數(shù)目為10,由于Combo和GraphEncoder只能處理一個網(wǎng)絡,因此輸入相似度矩陣計算為屬性和公交出行模式矩陣的權重相等,即W=0.5wa+0.5wp。
本文利用式(11)對結果進行定量化評估,依據(jù)為是否顧及不同分區(qū)之間的空間異質性。由于Combo算法不產生節(jié)點嵌入,因此使用W來計算它的模塊化的值,本文提出的模型在工作日和周末都明顯優(yōu)于Combo算法和GraphEncoder算法,二者由于只考慮當?shù)厣鐓^(qū)內的公交連接,不利用長途出行信息的提取,因此可能無法檢測到有意義的公交出行社區(qū)。此外,Combo不考慮屬性相似性和出行聯(lián)系的細節(jié)(例如吸引力、旅行時間和目的地分布),而這些都是幫助識別動態(tài)社區(qū)結構的關鍵因素。GraphEncoder是一種典型的深度學習聚類方法,可用于社區(qū)檢測,然而,它只考慮節(jié)點出度、入度及相似度信息,因此沒有考慮必要的旅行動態(tài)。
Combo和GraphEncoder算法在工作日的社區(qū)檢測結果如圖7和圖8所示。由圖7可知,Combo算法得到的結果顯示出很強的局部性模式,因為它執(zhí)行了模塊化優(yōu)化原則,并提取了具有較強的內部連接社區(qū)。Combo算法的缺點是它不考慮連接深圳市區(qū)和郊區(qū)的長途旅行。此外,多源信息(如屬性化信息)沒有辦法利用Combo算法建模,更沒有體現(xiàn)空間異質性特征。
圖7 Combo算法得到的工作日分區(qū)結果Fig.7 Results of weekdays via Combo algorithm
與Combo算法相比,GraphEncoder算法在揭示全局社區(qū)結構方面取得了更好的結果,因為它能夠建立高階相似并將模式圖轉換為節(jié)點之間的嵌入(圖8),在顧及空間異質性方面優(yōu)勢不明顯。并且,該方法也不能融合屬性信息,這一缺陷導致了不同社區(qū)類型節(jié)點數(shù)產生不平衡的結果。
圖8 GraphEncoder算法得到的工作日分區(qū)結果Fig.8 Results of weekdays via GraphEncoder algorithm
由表3可知,本文的方法q值得分都很高,說明社區(qū)之間居民出行的差異性比較明顯,很好地顧及了異質性;而Combo算法在顧及異質性方面要比GraphEncoder算法效果好,主要是因為該算法內部有modularity的優(yōu)化能在一定程度上體現(xiàn)社區(qū)之間的差異。由此可見,本文方法除了能夠融合靜態(tài)、動態(tài)信息外,還能夠顧及到社區(qū)之間的異質性特征,使得最終的表示結果更為準確。
表3 各方法的比較Tab.3 The q-values comparison of baseline methods
本文提出一種顧及異質性的城市活動結構發(fā)現(xiàn)方法,該方法通過融合靜態(tài)屬性信息及動態(tài)的出行信息,實現(xiàn)城市活動結構的表示。該方法在訓練過程中,實現(xiàn)了從節(jié)點嵌入到社區(qū)嵌入的過程,并在此過程中納入地理探測器的思想,顧及了異質性特征。以深圳市的刷卡數(shù)據(jù)為基礎,驗證了該方法的有效性,結果表明,深圳市居民出行具有明顯的多樣性,與行政區(qū)劃關系不大,在空間上表現(xiàn)出強烈的差異性。
通過對特定城市活動結構中常見的出行模式進行分析,可以揭示公交服務不盡如人意的原因。特別地,本文通過城市活動結構探測結果發(fā)現(xiàn)深圳市工作和居住的不平衡是導致市區(qū)主要工作中心和郊區(qū)單功能居住區(qū)早晚高峰時間定向流動的主要因素之一。在緩解交通問題的其他戰(zhàn)略交通規(guī)劃工作中,交通城市活動結構發(fā)現(xiàn)地圖也可用于優(yōu)先考慮未來的土地開發(fā)計劃[41],例如在特定區(qū)域開發(fā)高科技園區(qū)和辦公樓,以促進整體交通無障礙性。對于公共交通出行較少的城市活動結構,應鼓勵公共交通導向型發(fā)展,以促進公共交通乘客量和減少汽車使用。通過所提出的方法,可以深入理解城市,包括居民的流動性和可達性、社會不平等、不同城市地區(qū)的功能[42-43],以及隨著時間的推移驗證現(xiàn)行公共交通系統(tǒng)的有效性。這些知識可以為城市規(guī)劃者和管理者提供環(huán)境可持續(xù)、公平和高效的公共服務提供參考。在后續(xù)的研究中,計劃研發(fā)先進的多層、多任務嵌入技術,例如地鐵和公交服務之間的傳輸,以更好地進行模擬層間之間的交互。