丁鵬程,楊 明,鄭長江,朱 健
(1.南京市城市與交通規(guī)劃設(shè)計研究院股份有限公司,江蘇 南京 210000;2.河海大學(xué),江蘇 南京 210098)
隨著大數(shù)據(jù)時代的發(fā)展,手機信令數(shù)據(jù)為通勤交通出行數(shù)據(jù)提供了新的采集手段,從而為提取通勤出行特征以及識別城市居民職住分布特征提供了有利條件。如何有效地從手機信令數(shù)據(jù)中提取城市居民通勤出行特征以及職住地分布特征成為研究城市通勤的關(guān)鍵。目前,利用手機信令數(shù)據(jù)對城市通勤和職住分布進行研究成為了國內(nèi)外許多學(xué)者關(guān)注和研究的熱點[1-6],國外有Gur Y[7],以以色列為例,建立了跨城市范圍的手機信令數(shù)據(jù)交通規(guī)劃模型,并由此建立以色列城市居民交通OD出行計劃;V Angelakis[8]通過對手機信令數(shù)據(jù)的處理與分析,預(yù)測了國家和城市聚集層面的出行軌跡,并用可視化視圖,對整體出行軌跡進行表達與展現(xiàn)。最后,以構(gòu)造OD矩陣的方式,來劃分交通擁擠路段。國內(nèi)畢曉螢[9]從出行次數(shù)、出行目的分布、出行方式構(gòu)成3個方面入手,將中小城市出行特征與大城市進行比較分析,同時對中小城市不同時期的出行特征進行對比分析;劉杰[10]等根據(jù)手機運營商提供的手機信令數(shù)據(jù),建立交通模型得到各個交通小區(qū)之間的人員出行OD矩陣及其特性;毛曉汶[11]通過處理原始手機信令數(shù)據(jù),并從中提取手機用戶出行特征,用案例的方式分析了區(qū)域的交通出行特征;馬亮[12]利用軌道交通刷卡數(shù)據(jù),提出了絕對通勤圈和相對通勤圈的概念,對軌道交通刷卡數(shù)據(jù)進行了數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)清洗、數(shù)據(jù)匹配、空間映射、數(shù)據(jù)提??;本文通過參考文獻[13-15]提出的基于DBSCAN的空間停留點提取算法對手機信令數(shù)據(jù)進行停留點的提取,然后提出一種職住停留點劃分方法對停留點進行職住劃分,并構(gòu)建一種通勤出行特征提取模型,最后以案例應(yīng)用的方式驗證此方法與模型的可行性。
用手機收發(fā)短信、主被叫、上網(wǎng)、位置更新、小區(qū)切換等,會留下相應(yīng)的位置信令數(shù)據(jù)。每一條手機信令數(shù)據(jù)包括4個字段,分別是:①MSID(匿名加密唯一用戶標識):加密之后每位手機用戶的唯一識別號;②TimeStamp(時間戳,精確到秒):時間發(fā)生時刻;③CellID(基站小區(qū)編號):事件發(fā)生時刻所處基站小區(qū)編號;④EVENT(事件類型):主被叫、發(fā)短信、接短信、開關(guān)機、小區(qū)切換、正常位置更新、周期位置更新等。
手機信令數(shù)據(jù)具有如下三個特征:①存在大量臟數(shù)據(jù)②數(shù)據(jù)量龐大③信令數(shù)據(jù)時間間隔不均勻。針對以上特性,首先進行相應(yīng)的數(shù)據(jù)清洗,包括無效數(shù)據(jù)的清洗、漂移數(shù)據(jù)的清洗和“乒乓效應(yīng)”數(shù)據(jù)的清洗。
本文采用文獻[13]提出的基于DBSCAN的空間停留點提取算法對手機信令數(shù)據(jù)進行停留點的提取。此算法在傳統(tǒng)的DBSCAN空間聚類算法的基礎(chǔ)上進行改進,兼顧到空間和時間兩個維度。其主要思路是遍歷數(shù)據(jù)源并找出其中的核心對象,然后以核心對象為中心,找出所有與核心對象密度相連的對象,將這些對象圈成新簇,接著找出新簇里所有核心對象的密度相連的對象,并將它們加入到新簇,這樣就可以保證簇的邊緣都不是核心對象。隨后尋找沒有被歸到簇里的對象,重復(fù)以上的步驟,直至遍歷整個數(shù)據(jù)源。遍歷整個數(shù)據(jù)源后,不被任何簇包含的對象為噪聲對象。
本文設(shè)計一種職住停留點劃分方法,如圖1所示??紤]到大多數(shù)通勤者在早6:00是在家中,10:00在單位,所以取一個時間段(6:00—10:00),用此時間段的首尾兩個停留點簇分別作為居住停留點簇和就業(yè)停留點簇。在得到居民的職住停留點簇后,可以提取出通勤出行距離,并且利用ArcGIS做出居民職住分布圖。
圖1 職住停留點劃分示意圖
(1)
(2)
表1 新數(shù)據(jù)表字段
圖2 數(shù)據(jù)再處理示意圖
經(jīng)過一系列數(shù)據(jù)處理,得到用戶出行識別數(shù)據(jù)如表2所示。
1)出行次數(shù)。在上面得到用戶出行識別表中,當Stay等于0時,說明手機用戶處于移動之中;當Stay等于1時,說明手機用戶處于停留狀態(tài)。當Stay值從1變成0,又從0變成1時,表明用戶完成一次出行。因此可以利用Stay值變化的次數(shù)來表征用戶一天之內(nèi)的出行次數(shù),計算式如式(3)所示:
(3)
式中:Fj為手機出行用戶j一天之內(nèi)的出行次數(shù);Stayi為手機出行用戶j第i條信令數(shù)據(jù)的Stay值。
進而,可以用式(4)計算一天之內(nèi)所有人的平均出行次數(shù):
(4)
式中:F為1 d之內(nèi)所有人的平均出行次數(shù);n為每一個手機用戶的所有手機信令數(shù)據(jù)總條數(shù);M為手機出行用戶總數(shù)。
2)通勤出行距離。本文用停留點間的直線距離作為出行距離,對于用戶,第j個停留點與第j+1個停留點之間的距離可用式(5)計算:
(5)
式中:R為赤道半徑,取6 138 km。
因此,手機用戶i一天內(nèi)的出行距離就可以用式(6)計算:
(6)
式中:n為手機用戶i全天內(nèi)停留點的數(shù)量。
可以利用上面的職住停留點的劃分方法,提取出居住停留點和就業(yè)停留點,利用式(5)計算居住停留點簇代表點和就業(yè)停留點簇代表點間的直線距離,即表征為通勤出行距離。
進而可以計算所有手機用戶的平均通勤出行距離:
(7)
式中:m為手機出行用戶的數(shù)量;R為赤道半徑,取6 138 km;
3)通勤出行時耗。居民出行時間可以通過出行過程中起止停留點之間的時間差來表征,即用出行開始時之前的停留點簇中最后一個停留點時間記為出行開始時間tf,用出行結(jié)束之后的停留點簇中第一個停留點記為出行的結(jié)束時間tl,則手機用戶i通勤出行時耗tc即可用上午就業(yè)停留點簇中第一個停留點時間tl與居住停留點簇中最后一個停留點時間tf之差來表征,計算式如式(8)所示。
tc=tl-tf,
(8)
進而,居民平均通勤出行時耗以式(9)計算:
(9)
其中,m為手機出行用戶總數(shù)。
4)通勤出行速度。經(jīng)過上面分析,得到通勤出行距離和通勤出行時耗的計算式,則通勤出行速度的計算式如式(10)所示。
(10)
其中,S為用戶的出行速度;tf、Lonf、Latf為出行前的最后一個停留點時間、經(jīng)度和緯度;tl、Lonl、Latl為出行后的第一個停留點時間、經(jīng)度和緯度;R為赤道半徑,取6 138 km。
進而可計算得到所有用戶的平均出行速度,計算式如式(11)所示。
(11)
其中,n為用戶的出行次數(shù)總和;m為手機出行用戶總數(shù);S為所有手機出行用戶的平均出行速度。
本文利用揚州移動某一工作日內(nèi)的手機信令數(shù)據(jù),通過上文的算法進行清洗與挖掘,過濾了無效數(shù)據(jù)10 523條,占12%;過濾乒乓數(shù)據(jù)3 142條,約占全部數(shù)據(jù)的3.6%;過濾漂移數(shù)據(jù)1 136條,約占1.3%。經(jīng)過信令數(shù)據(jù)的清洗后,剩余72 891條有效信令數(shù)據(jù),約占全部數(shù)據(jù)的83%。經(jīng)過數(shù)據(jù)處理后的數(shù)據(jù)表如表3所示,表中的字段含義如表4所示。
表3 數(shù)據(jù)處理結(jié)果示例
表4 數(shù)據(jù)處理結(jié)果字段含義表
deltaVstayTstimePointcenterLoncenterLat相鄰點速度差停留點狀態(tài)停留時間停留開始與結(jié)束時間停留點簇的中心經(jīng)度停留點簇的中心緯度
下面利用通勤出行特征提取模型提取出行次數(shù)、通勤出行距離、通勤出行時耗和通勤出行速度,然后與居民出行調(diào)查數(shù)據(jù)進行對比分析,驗證此模型的可行性。
1)出行次數(shù)。根據(jù)國內(nèi)外研究對“手機出行”的定義,將停留距離的閾值設(shè)置為500 m,將停留時間的閾值設(shè)置為10 min,根據(jù)出行次數(shù)計算式(3)可以算出該工作日揚州市居民平均出行次數(shù):
2.61次/(人·日)
揚州居民出行次數(shù)統(tǒng)計表如表5所示,所得結(jié)果可以看出,利用本文的出行特征提取模型對手機信令數(shù)據(jù)進行提取,可以得出居民出行次數(shù)為2.61次/(人·日),與居民出行調(diào)查分析所得的2.72次相比較為接近,誤差在4%左右,說明本文的出行特征提取模型在出行次數(shù)的提取上具有可行性。
表5 揚州居民出行次數(shù)統(tǒng)計表
2)通勤出行距離。根據(jù)平均通勤出行距離計算式(7)可以計算出揚州居民的平均通勤出行距離:
揚州居民通勤出行距離分布圖如圖3所示,根據(jù)居民出行調(diào)查,居民平均通勤出行距離為3.46 km,大部分集中在5 km以內(nèi)。
圖3 揚州居民通勤出行距離分布圖
提取所得結(jié)果與居民出行調(diào)查分析所得的3.46 km相比,誤差在10%左右,誤差原因主要為提取手機信令數(shù)據(jù)得出的出行距離是直線距離,與實際的路徑距離相比有所減小,但在可接受范圍內(nèi),大體能表征居民的出行距離,說明本文的通勤出行特征提取模型在通勤出行距離的提取上具有可行性。
利用式(5)對揚州居民通勤出行距離進行計算,可以得到居民通勤出行距離分布圖,如圖4所示。
圖4 由手機信令數(shù)據(jù)提取的居民通勤出行距離分布
3)通勤出行時耗。根據(jù)通勤出行時耗計算式(8)和式(9)可以分別計算出每個手機用戶的通勤出行時耗和所有用戶的平均通勤出行時耗。平均通勤出行時耗為:
揚州居民通勤出行時耗折線圖如圖5所示,根據(jù)居民出行調(diào)查,全目的方式的平均出行時耗為22.06 min,主要集中在15 min及30 min左右。
圖5 揚州居民通勤出行時耗折線圖
提取所得結(jié)果20.15 min與居民出行調(diào)查數(shù)據(jù)中的22.06 min相比,誤差在8.6%左右,在可接受范圍內(nèi)。提取居民通勤出行時耗后,可以得到居民通勤出行時耗分布圖,如圖6所示,可以看出居民通勤出行時耗主要分布在5~20 min和25~35 min內(nèi),與居民出行調(diào)查分析大體一致。說明本文的通勤出行特征提取模型在通勤出行時耗的提取上具有可行性。
圖6 由手機信令數(shù)據(jù)提取的居民通勤出行時耗分布
4)通勤出行速度。按照平均出行速度計算式(11),可以計算得出揚州市居民出行的平均速度:
3.89 m/s=14.004 km/h
利用出行速度計算式(10)計算得出的出行速度分布如圖7所示。
圖7 由手機信令數(shù)據(jù)提取的居民通勤出行速度分布
本文選取揚州市居民通勤出行特征分析作為實例,利用基于手機信令數(shù)據(jù)的通勤出行特征提取模型對揚州居民手機信令數(shù)據(jù)進行數(shù)據(jù)挖掘,提取出相應(yīng)的通勤出行特征,包括出行次數(shù)、通勤出行距離、通勤出行時耗以及通勤出行速度,并與居民出行調(diào)查分析進行對比驗證,結(jié)果較為接近。說明本文基于手機信令數(shù)據(jù)的通勤出行特征提取方法具有可行性,為以后利用手機信令數(shù)據(jù)進行通勤出行特征的研究提供了理論依據(jù)。