劉 曉 柳 林,2* 鄒 健
1(山東科技大學(xué)測(cè)繪科學(xué)與工程學(xué)院 山東 青島 266590) 2(國家測(cè)繪局海島(礁)測(cè)繪技術(shù)國家測(cè)繪地理信息局重點(diǎn)實(shí)驗(yàn)室 山東 青島 266590)
城市的公交車系統(tǒng)每天都會(huì)產(chǎn)生海量的時(shí)空軌跡數(shù)據(jù),包括公交刷卡數(shù)據(jù)和GPS定位數(shù)據(jù)等。當(dāng)數(shù)據(jù)無缺失時(shí),將公交刷卡數(shù)據(jù)與GPS定位數(shù)據(jù)融合易得到乘客的上車站點(diǎn)。由于大部分城市采取一票制刷卡制度,刷卡信息中不包含乘客的下車站點(diǎn)及時(shí)間,無法獲取乘客完整的出行鏈和空間出行信息[1],因此快速準(zhǔn)確地從公交數(shù)據(jù)中提取出乘客的上下車站點(diǎn)及時(shí)間是公交數(shù)據(jù)挖掘的基礎(chǔ)[2]。
目前已有一些有關(guān)利用公交刷卡數(shù)據(jù)進(jìn)行的研究,但主要是針對(duì)下車站點(diǎn)及OD矩陣的推斷。文獻(xiàn)[3]提出了公交出行節(jié)的概念,根據(jù)乘客的出行節(jié)是否連續(xù)分多種情況來推斷乘客的下車站點(diǎn),推算模型比較復(fù)雜,處理效率較低;文獻(xiàn)[4]提出了一個(gè)基礎(chǔ)的基于時(shí)空鄰近性的恢復(fù)算法和一個(gè)改進(jìn)的基于歷史的恢復(fù)算法,但需要借助于地鐵刷卡信息;文獻(xiàn)[5]對(duì)公交出行行為進(jìn)行了分類,推算了有往返出行和有換乘的出行乘客的出行起止點(diǎn),但未考慮到其他乘客??傮w來說,現(xiàn)有的基于公交IC卡數(shù)據(jù)的站點(diǎn)推算方法還有很多的不足,因此本文對(duì)公交IC卡數(shù)據(jù)進(jìn)行了深入的探討與研究,改進(jìn)了傳統(tǒng)的上車站點(diǎn)推導(dǎo)算法,提出了下車站點(diǎn)推導(dǎo)算法,以青島市西海岸新區(qū)的公交刷卡數(shù)據(jù)、GPS定位數(shù)據(jù)為例驗(yàn)證了算法的可行性,并利用公交刷卡數(shù)據(jù)識(shí)別了通勤乘客,進(jìn)行了公交通勤分析。
本文研究數(shù)據(jù)來源于青島市琴島通卡股份有限公司及真情巴士集團(tuán)提供的公交刷卡數(shù)據(jù)、GPS定位關(guān)聯(lián)站點(diǎn)數(shù)據(jù)、真情巴士集團(tuán)司機(jī)檔案數(shù)據(jù)、駕駛員對(duì)應(yīng)車號(hào)數(shù)據(jù)(真情巴士集團(tuán)車輛調(diào)度數(shù)據(jù))等,在分析了各數(shù)據(jù)的字段后建立了數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,如圖1所示。
圖1 數(shù)據(jù)字段及關(guān)聯(lián)關(guān)系
公交刷卡數(shù)據(jù)中無車輛編號(hào),無法直接與GPS定位關(guān)聯(lián)站點(diǎn)數(shù)據(jù)匹配上車站點(diǎn),首先可以通過司機(jī)檔案數(shù)據(jù)匹配公交刷卡數(shù)據(jù)中司機(jī)卡號(hào)所對(duì)應(yīng)的員工姓名,然后再通過駕駛員對(duì)應(yīng)車號(hào)數(shù)據(jù)(即車輛調(diào)度數(shù)據(jù))結(jié)合司機(jī)工作日期匹配到車輛編號(hào),匹配完成即可與GPS定位關(guān)聯(lián)站點(diǎn)數(shù)據(jù)融合進(jìn)行處理。
根據(jù)公交刷卡數(shù)據(jù)的字段可以發(fā)現(xiàn)單純地通過公交刷卡數(shù)據(jù)無法獲得乘客的上車站點(diǎn),因此結(jié)合GPS定位數(shù)據(jù)來識(shí)別。通常乘客的刷卡時(shí)間Ti與GPS定位數(shù)據(jù)中同一車輛的到離站時(shí)間區(qū)間(Tas,Tcs)滿足式(1)時(shí),可判定車輛所在的站點(diǎn)S即為乘客的上車站點(diǎn)[4]。
Tas (1) 但在公交運(yùn)營中,有時(shí)會(huì)存在多輛公交車同時(shí)到站的情況,后續(xù)公交車為了節(jié)省時(shí)間會(huì)提前開門上客,此外在高峰時(shí)段因前門擁擠,部分乘客會(huì)選擇后門上車[5],在公交離站后刷卡,因此部分乘客刷卡時(shí)間會(huì)在車輛到離站時(shí)間區(qū)間外。 為提高上車站點(diǎn)識(shí)別率,本文引入了彈性閾值對(duì)到離站時(shí)間區(qū)間進(jìn)行了改進(jìn),若乘客刷卡時(shí)間Ti滿足式(2)時(shí),則可判定站點(diǎn)S為上車站點(diǎn)。 Tas-φ (2) 式中:φ為公交車到離站彈性閾值。 考慮到公交運(yùn)行時(shí)長、候車時(shí)間等因素,在進(jìn)行下車站點(diǎn)推算時(shí)首先以2小時(shí)為閾值,將前后兩次刷卡時(shí)間差值小于2小時(shí)的出行設(shè)為連續(xù)出行,否則為非連續(xù)出行(一天內(nèi)僅一次刷卡記錄的出行也為非連續(xù)出行),所以對(duì)于一天內(nèi)有多次刷卡記錄的乘客可以有多次連續(xù)出行或非連續(xù)出行。 對(duì)任一乘客q在線路L上任一站點(diǎn)i上車,為推算乘客在任一站點(diǎn)j下車的概率提出了如下假設(shè): 1) 對(duì)于連續(xù)出行來說,乘客上次乘車的下車站點(diǎn)大多接近下次乘車的上車站點(diǎn)[5]。 2) 對(duì)于非連續(xù)出行,乘客當(dāng)次乘車的下車站點(diǎn)為下游高頻站點(diǎn)[5]。 3) 對(duì)于下游無高頻站點(diǎn)的非連續(xù)出行,乘客的出行規(guī)律服從整體公交乘客的出行規(guī)律,即乘客會(huì)選擇吸引強(qiáng)度較大的站點(diǎn)下車,且出行站數(shù)服從泊松分布[6]。 2.2.1基于整體出行規(guī)律分析 根據(jù)以往的公交客流分析結(jié)果,從公交乘客整體上看,乘客的出行站數(shù)服從一定的分布規(guī)律,且各站點(diǎn)吸引強(qiáng)度不同。因此,在推算乘客下車站點(diǎn)時(shí)應(yīng)將出行站數(shù)和站點(diǎn)吸引強(qiáng)度兩個(gè)因素考慮在內(nèi)。 1) 單純考慮出行站數(shù)。 居民的公交出行距離通常處于一定范圍內(nèi),而出行距離可以用乘坐的站點(diǎn)數(shù)量來表示。已有的研究指出,下車概率隨途經(jīng)站點(diǎn)數(shù)量服從泊松分布[6-8]。因此僅受途經(jīng)站點(diǎn)數(shù)量一個(gè)因素影響時(shí)的下車概率Fij的公式如下: (3) 式中:λ為途經(jīng)站點(diǎn)數(shù)量的均值,當(dāng)上車站點(diǎn)i下游站點(diǎn)數(shù)量不足λ時(shí),λ=m-i,m為單條線路站點(diǎn)總數(shù)。 2) 單純考慮站點(diǎn)吸引強(qiáng)度。 站點(diǎn)吸引強(qiáng)度是用一條線路上各站點(diǎn)的客流量來表示的,不同站點(diǎn)的吸引強(qiáng)度不同。由于居民的出行具有往返性,各站點(diǎn)的上下車客流量基本相當(dāng)[4]。因此可用各站點(diǎn)上車客流量來計(jì)算站點(diǎn)吸引強(qiáng)度Wj,公式如下: (4) 式中:Sk為站點(diǎn)j的上車人數(shù);m為某一線路站點(diǎn)總數(shù)。 2.2.2基于個(gè)體出行規(guī)律分析 從單個(gè)乘客q來考慮,定義下游站點(diǎn)集Eq、高頻站點(diǎn)集Fq和銜接站點(diǎn)集Gq[6],下車站點(diǎn)的推算分以下幾種情況: 1)C1:對(duì)于乘客的連續(xù)出行,若Gq非空,則站點(diǎn)j的吸引權(quán)重Z1如下: (5) 2)C2:對(duì)于Gq為空集、Fq非空的乘客的連續(xù)出行或者Fq非空的非連續(xù)出行,下游站點(diǎn)j吸引權(quán)重Z2如下: (6) 式中:Sj為乘客q于研究期內(nèi)在站點(diǎn)j的上車次數(shù);p為高頻站點(diǎn)集中的站點(diǎn)個(gè)數(shù);Sp為乘客在高頻站點(diǎn)p的近期上車總次數(shù)。 3)C3:對(duì)于Gq、Fq均為空集的乘客的連續(xù)出行和Fq為空集的乘客的非連續(xù)出行,下游站點(diǎn)j的吸引權(quán)重Z3如下: Z3=1/d (7) 式中:d為下游站點(diǎn)j與下次刷卡上車站點(diǎn)的標(biāo)準(zhǔn)化距離,當(dāng)乘客在研究期內(nèi)的上車站點(diǎn)數(shù)為1時(shí),d=1。 綜上所述, 本文將單個(gè)乘客的出行特征融入到整體公交乘客中,在任一線路任一站點(diǎn)i上車的單個(gè)乘客,在同線路上站點(diǎn)j下車的概率Pij的推算公式為: (8) 式中: (9) 根據(jù)上述下車站點(diǎn)算法即可推算公交乘客的下車站點(diǎn),再將其與GPS定位數(shù)據(jù)結(jié)合即可獲得乘客的下車時(shí)間。 上下車站點(diǎn)匹配完成后,需要對(duì)匹配結(jié)果進(jìn)行驗(yàn)證。常規(guī)的驗(yàn)證方法是將匹配結(jié)果與實(shí)驗(yàn)調(diào)查值進(jìn)行比較,但在實(shí)際生活中,跟蹤調(diào)查單個(gè)乘客上下車站點(diǎn)難度較大。研究乘客的上下車站點(diǎn)本質(zhì)上是為了分析乘客群體的出行特征,因此本文采用上下車客流量來對(duì)算法進(jìn)行檢驗(yàn)[9]。 根據(jù)公交乘客的出行特征,一天各站點(diǎn)的上下車客流量基本相當(dāng),即二者之間應(yīng)該具有線性關(guān)系[9]: Si,on=aSi,of+b (10) 式中:Si,on為站點(diǎn)i的上車人數(shù);Si,of為站點(diǎn)i的下車人數(shù);a、b為回歸系數(shù),若上下車客流量基本相當(dāng),則a的值應(yīng)接近1[6]。 通勤是造成城市早晚高峰的主要原因,早高峰主要集中于居住地附近,而晚高峰多發(fā)生于就業(yè)地附近。目前公交通勤已成為緩解城市交通壓力的重要途徑,掌握通勤者的空間出行特征對(duì)于科學(xué)布局公交站點(diǎn)、動(dòng)態(tài)調(diào)整公交線路具有重要意義。 在對(duì)公交刷卡數(shù)據(jù)進(jìn)行分析后,提出出行時(shí)間鏈的概念,即根據(jù)乘客每次刷卡時(shí)間所處的時(shí)間段對(duì)其進(jìn)行編碼,然后將乘客一天的刷卡時(shí)間碼按時(shí)間先后連接起來即可獲得乘客每天的出行時(shí)間鏈。 時(shí)間段的劃分如表1所示,相鄰的時(shí)間段級(jí)別相差1(即B0與A0相差1個(gè)級(jí)別,B0與A1也相差1個(gè)級(jí)別)。 表1 時(shí)間段編碼 通勤群體有兩大出行規(guī)律:(1) 出行天數(shù)較多,通勤群體幾乎每個(gè)工作日都會(huì)出行,即提取出的出行時(shí)間鏈較多;(2) 出行時(shí)間相對(duì)固定,即出行時(shí)間鏈較穩(wěn)定[10-11]。 城市早晚交通高峰主要是由通勤造成的,以前主要是根據(jù)乘客在高峰時(shí)段的刷卡記錄數(shù)來識(shí)別通勤乘客[12],但該方法會(huì)將在高峰時(shí)刻有多條刷卡記錄的乘客誤判為通勤乘客,同時(shí)對(duì)于一些錯(cuò)時(shí)上下班的城市又會(huì)遺漏大量通勤乘客[13]。PTD(Position-Time-Duration)模型[14]的提出為通勤識(shí)別提供了新的思路,該模型將乘客每天的首次刷卡站點(diǎn)定義為居住地,將乘客在某站點(diǎn)的停留時(shí)長超過閾值的站點(diǎn)定為就業(yè)地[15-16]。 基于通勤出行的特點(diǎn),本文結(jié)合出行時(shí)間鏈和PTD模型進(jìn)行通勤乘客及其職住地的識(shí)別。將各卡號(hào)一周的出行記錄匯總,按照日期和時(shí)間先后進(jìn)行排序,獲取乘客每天的出行時(shí)間鏈。時(shí)間鏈判定方法如下。時(shí)間鏈相同:每天的出行鏈編碼完全相同;時(shí)間鏈相似:首次出行時(shí)間鏈編碼相差1個(gè)級(jí)別,但兩次出行時(shí)間差值在半小時(shí)以內(nèi),其他時(shí)間鏈編碼相同的可認(rèn)為對(duì)應(yīng)的兩天的時(shí)間鏈相似。將乘客一周的出行時(shí)間鏈進(jìn)行對(duì)比,若5天的工作日中出行時(shí)間鏈相同或相似的天數(shù)大于等于3,則對(duì)這些乘客建立PTD模型。 若非居住地PTD模型中存在停留時(shí)長大于等于某一閾值的情況,則可確認(rèn)這些乘客為通勤人員,同時(shí)PTD模型中所對(duì)應(yīng)的站點(diǎn)即為乘客的就業(yè)地站[17]。 本文以2018年8月20日至8月26日的青島市西海岸新區(qū)公交刷卡數(shù)據(jù)為例來進(jìn)行通勤時(shí)空分析。青島市西海岸新區(qū)位于山東省青島市西岸,是我國第九個(gè)國家級(jí)新區(qū),現(xiàn)新區(qū)轄12個(gè)街道,11個(gè)鎮(zhèn),可劃分為十大功能區(qū),目前新區(qū)內(nèi)開通了96條公交線路,共有1 090個(gè)公交站點(diǎn),站點(diǎn)分布圖如圖2所示。 圖2 西海岸新區(qū)公交站點(diǎn)分布圖 新區(qū)的西南部分主要發(fā)展農(nóng)業(yè)、港口、軍民融合產(chǎn)業(yè),就業(yè)地相對(duì)較少。由圖2可見,區(qū)內(nèi)公交站點(diǎn)相當(dāng)稀疏,因此本實(shí)驗(yàn)通勤分析研究過程中會(huì)去除西南部分的三個(gè)功能區(qū)(現(xiàn)代農(nóng)業(yè)示范區(qū)、董家口循環(huán)經(jīng)濟(jì)區(qū)和古鎮(zhèn)口軍民融合創(chuàng)新示范區(qū))。 上下車站點(diǎn)的識(shí)別利用MATLAB軟件實(shí)現(xiàn)。2018年8月20日至8月26日的公交刷卡數(shù)據(jù)共180萬條左右,其中工作日的刷卡數(shù)據(jù)1 347 928條,在匹配上車站點(diǎn)時(shí)取彈性閾值為站間停留時(shí)長的1/5,即φ=1/5(Tcs-Tas),共識(shí)別出了1 260 110條刷卡記錄的上車站點(diǎn),上車站點(diǎn)的識(shí)別率高達(dá)93.485%,與不添加閾值的傳統(tǒng)算法相比多識(shí)別了77 910條,識(shí)別率提高了5.78百分點(diǎn)。 按照上文提出的下車站點(diǎn)算法,以6路、7路、11路、13路公交車為例,提取了各線路的刷卡數(shù)據(jù)來推算下車站點(diǎn)并進(jìn)行驗(yàn)證。根據(jù)各站點(diǎn)的上下車客流量進(jìn)行了回歸分析,分析結(jié)果如圖3所示?;貧w方程的各參數(shù)如表2所示,可以看出各線路回歸方程的系數(shù)a均分布在1左右,說明上下車客流量的相關(guān)性較強(qiáng);各線路的可決系數(shù)R2均大于0.8,接近于1,說明客流量的擬合效果較好,表明本文算法推斷出來的各站點(diǎn)上下車客流量基本均衡,符合居民出行的基本特征,可以進(jìn)一步用于通勤的分析。 圖3 西海岸新區(qū)多線路公交客流量分析 表2 各線路客流回歸參數(shù)表 在進(jìn)行通勤分析時(shí),對(duì)具有3天以上相同或相似出行時(shí)間鏈的乘客建立PTD模型,通過PTD模型來識(shí)別通勤乘客及其職住地。智聯(lián)招聘最新推出的《中國職場(chǎng)人平衡指數(shù)調(diào)研報(bào)告》[18]指出青島的日均工作時(shí)長為8.47 h,因此本文在識(shí)別通勤時(shí)將閾值設(shè)為8 h,共識(shí)別出了656 820條通勤乘客的刷卡記錄,數(shù)據(jù)處理結(jié)果如表3所示(為保護(hù)乘客隱私對(duì)公交卡號(hào)進(jìn)行了處理)。 表3 部分?jǐn)?shù)據(jù)處理結(jié)果 根據(jù)處理結(jié)果,在MATLAB軟件中對(duì)通勤時(shí)間和距離進(jìn)行了多種函數(shù)的擬合,包括泊松分布、指數(shù)分布、對(duì)數(shù)分布和韋伯分布,結(jié)果顯示韋伯分布的擬合效果最好,如圖4-圖5所示。 圖4 西海岸新區(qū)公交通勤時(shí)間分布 圖5 西海岸新區(qū)公交通勤距離分布 可以看出,公交通勤乘客的通勤時(shí)間與通勤距離基本符合韋伯分布,該分布具有明顯的長尾效應(yīng)。通勤時(shí)間主要介于6~21 min,通勤距離一般小于7 km。根據(jù)處理結(jié)果計(jì)算出西海岸新區(qū)的平均通勤時(shí)間為33 min,平均通勤距離為7.9 km,與百度地圖公布的2018年度中國城市交通報(bào)告中青島的行政區(qū)內(nèi)平均通勤時(shí)間為37.8 min、通勤距離為8.3 km[19]的結(jié)果比較接近,說明了本文的識(shí)別結(jié)果較準(zhǔn)確。 借助ArcGIS軟件對(duì)通勤乘客的職住地站點(diǎn)進(jìn)行了可視化分析,結(jié)果如圖6-圖8所示。 圖6 居住地?zé)崃D 圖7 就業(yè)地?zé)崃D 圖8 西海岸新區(qū)公交通勤出行 可以看出,新區(qū)的通勤出行及職住地站點(diǎn)主要集中在青島經(jīng)濟(jì)技術(shù)開發(fā)區(qū),居住地相對(duì)就業(yè)地來說比較分散,居住地站點(diǎn)除了開發(fā)區(qū)之外,在中德生態(tài)園、靈山灣影視文化產(chǎn)業(yè)區(qū)、海洋高新區(qū)等均有分布。經(jīng)濟(jì)技術(shù)開發(fā)區(qū)集先進(jìn)制造業(yè)、高端服務(wù)業(yè)為一體,區(qū)內(nèi)遍布大型工業(yè)園,如海爾工業(yè)園、海信工業(yè)園、澳柯瑪工業(yè)園、青島光谷軟件園等,產(chǎn)業(yè)集群效應(yīng)吸引了大量的通勤出行,與本文的熱力圖中心相符。 本文首先提出了利用公交刷卡數(shù)據(jù)識(shí)別乘客上下車站點(diǎn)的算法,在此基礎(chǔ)上提出了出行時(shí)間鏈的概念,結(jié)合PTD模型來識(shí)別通勤乘客及其職住地,并以青島市西海岸新區(qū)的公交刷卡數(shù)據(jù)為例進(jìn)行實(shí)驗(yàn)驗(yàn)證與通勤時(shí)空分析。在識(shí)別上車站點(diǎn)時(shí),加入了彈性時(shí)間,上車站點(diǎn)的識(shí)別率達(dá)到93.485%,與不添加閾值的傳統(tǒng)算法相比提高了5.78百分點(diǎn)。接著以多線路公交為例推算了下車站點(diǎn),并將上下車客流量進(jìn)行了回歸分析,回歸分析的結(jié)果表明本算法推斷出來的各站點(diǎn)上下車客流量符合居民出行的基本特征,驗(yàn)證了算法的可行性。最后結(jié)合提出的出行時(shí)間鏈和PTD模型識(shí)別了西海岸新區(qū)的通勤乘客及其職住地,計(jì)算出的區(qū)內(nèi)平均通勤時(shí)間為33 min,平均通勤距離為7.9 km,與百度地圖發(fā)布的交通報(bào)告結(jié)果比較接近,此外本文識(shí)別出的區(qū)內(nèi)職住地與通勤出行也與實(shí)際情況基本相符。2.2 下車站點(diǎn)推算
2.3 客流模型檢驗(yàn)
3 城市通勤時(shí)空分析
3.1 出行時(shí)間鏈提取
3.2 通勤職住地識(shí)別
4 實(shí)例分析
4.1 研究區(qū)概況
4.2 站點(diǎn)識(shí)別
4.3 通勤時(shí)空分析
5 結(jié) 語