陳汐,王印海,代壯,馬曉磊,4
1. 北京航空航天大學(xué)交通科學(xué)與工程學(xué)院,北京 100191;2. 美國華盛頓大學(xué)土木和環(huán)境工程系,美國 西雅圖 98195;3. 西南交通大學(xué)交通運(yùn)輸與物流學(xué)院,四川 成都 610031;4. 北京航空航天大學(xué)大數(shù)據(jù)科學(xué)與腦機(jī)智能高精尖創(chuàng)新中心,北京 100191
優(yōu)先發(fā)展公共交通是我國城市發(fā)展和交通發(fā)展的重大戰(zhàn)略方針,且“公交都市”戰(zhàn)略中也提出要構(gòu)建多模式公交系統(tǒng),以實(shí)現(xiàn)新時(shí)期城市交通的轉(zhuǎn)型發(fā)展。目前公眾對城市交通出行個(gè)性化、精細(xì)化和品質(zhì)化的要求逐漸提高,因此發(fā)展多元化的公交出行服務(wù)模式已成為必要趨勢。在此背景下,具有需求響應(yīng)、運(yùn)行靈活等特點(diǎn)的定制公交開始運(yùn)營。定制公交通過整合個(gè)體的出行需求,為出行起終點(diǎn)(origindestination,OD)、出行時(shí)段、服務(wù)水平相似的人群(如通勤用戶)提供個(gè)性化的公共交通服務(wù)[1-2]。常規(guī)公交與定制公交的特點(diǎn)對比見表1。這種新的公交服務(wù)模式被認(rèn)為能夠有效吸引私家車出行用戶轉(zhuǎn)向乘坐公共交通出行。此外,全國各主要城市在新型冠狀病毒肺炎疫情防控期間也推出了針對通勤用戶的“復(fù)工定制公交”線路,保證乘客“一人一座”,以提升市民出行的便捷性和安全性。可見,定制公交可以作為個(gè)性化和精細(xì)化出行需求市場中一種很好的補(bǔ)充形式[4]。
近幾年,“互聯(lián)網(wǎng)+交通”的發(fā)展趨勢有效地促進(jìn)了定制公交這種新的出行模式在國內(nèi)的推廣、普及。運(yùn)營企業(yè)通過搭建線上平臺采集出行需求,用戶通過手機(jī)App等渠道提出個(gè)性化的出行需求?;诖髷?shù)據(jù)挖掘、人工智能算法、物聯(lián)網(wǎng)等技術(shù)手段完成對出行需求的整合、線路的規(guī)劃、運(yùn)營車輛的調(diào)配以及服務(wù)信息發(fā)布等環(huán)節(jié)[1-4]。在線路的實(shí)際運(yùn)營中,公交企業(yè)接收乘客反饋的建議,不斷對現(xiàn)有線路進(jìn)行調(diào)整、優(yōu)化,逐步提升服務(wù)質(zhì)量,使定制公交的運(yùn)營模式形成完整的閉環(huán)。針對以上定制公交服務(wù)設(shè)計(jì)流程,已有文獻(xiàn)對其中涉及的相關(guān)理論方法進(jìn)行了研究。但大部分文獻(xiàn)對出行需求的分析基于小范圍出行需求進(jìn)行調(diào)查,對于城市級的線路設(shè)計(jì)及大規(guī)模出行分析,存在研究群體相對較少、數(shù)據(jù)周期短、分析的準(zhǔn)確度有偏差等問題。隨著移動通信及互聯(lián)網(wǎng)技術(shù)的發(fā)展,針對城市居民的出行需求,實(shí)現(xiàn)了由單一數(shù)據(jù)源到多源數(shù)據(jù)的采集,如從單一的調(diào)查數(shù)據(jù)的收集,到公交IC卡、手機(jī)導(dǎo)航應(yīng)用的普及,這些技術(shù)手段可以采集到大量的出行信息。這些海量、多源的出行數(shù)據(jù)可以很好地解決單一調(diào)查數(shù)據(jù)難以挖掘城市居民出行規(guī)律的問題。因此,如何在多種出行模式下分析乘客的出行規(guī)律、融合出行需求,特別是辨識乘客的通勤行為、挖掘用戶職住地,輔助定制公交的線路設(shè)計(jì)以提高其上座率和服務(wù)率,是值得深入探討的問題。
表1 常規(guī)公交與定制公交特點(diǎn)對比
多源交通出行數(shù)據(jù)符合大數(shù)據(jù)的“4V”特征,即規(guī)模性(volume)、多樣性(variety)、價(jià)值性(value)和高速性(velocity)[5]。第一,公共交通數(shù)據(jù)和新型互聯(lián)網(wǎng)數(shù)據(jù)的體量巨大。據(jù)相關(guān)統(tǒng)計(jì)數(shù)據(jù),來自政府及互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)量正從TB量級增長到PB(EB)量級。第二,本文涉及的相關(guān)數(shù)據(jù)類型繁多,即異構(gòu)多源,包括IC卡、車載GPS、出行導(dǎo)航和規(guī)劃數(shù)據(jù)等。第三,多源出行數(shù)據(jù)具有實(shí)時(shí)性特點(diǎn),即出行需求數(shù)據(jù)可以被實(shí)時(shí)地采集,并反饋給相關(guān)企業(yè)的調(diào)度和決策人員,研究者需要關(guān)注數(shù)據(jù)的計(jì)算效率問題。第四,多源交通出行數(shù)據(jù)的價(jià)值密度低,但是商業(yè)價(jià)值高。例如,車載GPS會實(shí)時(shí)地傳回大量數(shù)據(jù),但是對于特定的公交運(yùn)營或調(diào)度目的,只需要對其中某些數(shù)據(jù)或字段進(jìn)行分析。由于多源交通出行數(shù)據(jù)具有以上特征,在分析挖掘時(shí)會存在一些難點(diǎn)。第一,在海量數(shù)據(jù)中挖掘所需的有價(jià)值的信息是本文的難點(diǎn)之一;第二,本文重點(diǎn)關(guān)注異構(gòu)多源這一特征。異構(gòu)通常指不同形式或類型的數(shù)據(jù)[6],多源指來源不同的數(shù)據(jù),如公交數(shù)據(jù)包括靜態(tài)數(shù)據(jù)、IC卡數(shù)據(jù)等,新型互聯(lián)網(wǎng)數(shù)據(jù)包括導(dǎo)航數(shù)據(jù)和規(guī)劃數(shù)據(jù)等。對單一數(shù)據(jù)源的分析與挖掘已有大量文獻(xiàn)進(jìn)行了相關(guān)討論,如公交乘客上下車站點(diǎn)的推斷、乘客出行行為分析等相關(guān)研究。相比之下,對多源數(shù)據(jù)的分析和應(yīng)用依舊值得進(jìn)一步探討。本文討論的多源出行數(shù)據(jù)具有多源和異構(gòu)兩種性質(zhì)。因此,將多源數(shù)據(jù)進(jìn)行融合,最大化地挖掘、提煉每種數(shù)據(jù)的價(jià)值以輔助定制公交的設(shè)計(jì),是本文重點(diǎn)關(guān)注的問題,也是難點(diǎn)之一。
此外,不同類型的出行數(shù)據(jù)來自多個(gè)部門和企業(yè),存在數(shù)據(jù)單位或者數(shù)據(jù)存儲格式不一致的問題。因此在融合過程中還需要考慮數(shù)據(jù)一致性問題。
基于上述原因,本文在“互聯(lián)網(wǎng)+交通”的大背景下,探究了如何利用多源出行數(shù)據(jù)挖掘城市出行需求,以輔助定制公交的服務(wù)設(shè)計(jì),并探索了一套從數(shù)據(jù)處理到出行需求分析的流程。特別是針對新型互聯(lián)網(wǎng)數(shù)據(jù),提出了互聯(lián)網(wǎng)用戶的通勤需求識別方法、互聯(lián)網(wǎng)數(shù)據(jù)與傳統(tǒng)公交數(shù)據(jù)的融合算法。最后,將該分析流程應(yīng)用到成都市的出行數(shù)據(jù)中,以驗(yàn)證該方法在處理城市級規(guī)模問題中的有效性。
Liu T和Ceder A在參考文獻(xiàn)[1]中針對國內(nèi)定制公交的運(yùn)營與規(guī)劃進(jìn)行了系統(tǒng)的梳理,其線路設(shè)計(jì)如圖1所示。其中,出行需求的提取是后續(xù)設(shè)計(jì)流程的基礎(chǔ),也是本文重點(diǎn)討論的問題,不同于以往研究偏重于利用調(diào)查數(shù)據(jù)或單一數(shù)據(jù)源,本文討論利用多源出行數(shù)據(jù)對需求進(jìn)行挖掘分析,具體步驟如下。
步驟1:出行需求分析。出行需求的獲取可以為后續(xù)線路規(guī)劃模型的設(shè)計(jì)提供準(zhǔn)確的數(shù)據(jù)基礎(chǔ)。對于定制公交,該步驟的主要目的是獲得乘客準(zhǔn)確的出發(fā)地與目的地等資料。不同于出行調(diào)查直接獲取相關(guān)信息,本文通過多源數(shù)據(jù)挖掘乘客的出行信息。因此,如何在海量數(shù)據(jù)中識別乘客的出行起終點(diǎn)信息,進(jìn)一步辨識乘客的出行行為,特別是通勤行為,是需要解決的難點(diǎn)之一。
步驟2:出行區(qū)域聚類/交通小區(qū)劃分。在設(shè)計(jì)線路時(shí),每個(gè)出行區(qū)域或交通小區(qū)都是線路的構(gòu)成元素。若出行區(qū)域范圍劃分得過大,則線路中的走行區(qū)域減少,有利于降低線路成本,但是會導(dǎo)致乘客到站點(diǎn)的走行距離變長,降低定制公交的吸引力,且定制公交的目的是為出行需求相似的用戶提供個(gè)性化、便捷的公交服務(wù)。因此,目前多數(shù)研究通過聚類方法將出行起終點(diǎn)相似的需求進(jìn)行聚類,并考慮每個(gè)區(qū)域的覆蓋半徑,以控制乘客到站點(diǎn)的走行距離,達(dá)到平衡乘客和運(yùn)營者雙方利益的目的。在出行區(qū)域劃分完畢之后,運(yùn)營者可在區(qū)域內(nèi)靈活選擇上下車站點(diǎn)位置。
步驟3:線路設(shè)計(jì)。在確定好每個(gè)出行區(qū)域,并且選擇好站點(diǎn)位置之后,可將提取的需求投影到各出行區(qū)域(站點(diǎn))之中,進(jìn)而得到一張起終點(diǎn)需求表。以此需求為基礎(chǔ),可以構(gòu)建線路規(guī)劃模型。模型的優(yōu)化可以從乘客、運(yùn)營商、環(huán)境和社會效益幾個(gè)方面來考慮,再通過算法進(jìn)行求解,最終得到線路運(yùn)營方案。
值得注意的是,在實(shí)際運(yùn)營中,該框架是反復(fù)迭代的過程,乘客的出行需求是動態(tài)變化的,應(yīng)根據(jù)運(yùn)營狀況,結(jié)合出行數(shù)據(jù)和乘客反饋,定期更新需求及線路,以提升服務(wù)質(zhì)量。本文重點(diǎn)討論步驟1和步驟2,對于步驟3中的線路設(shè)計(jì)問題,很多文獻(xiàn)將其歸結(jié)為車輛路徑問題(vehicle routing problem,VRP)或者裝卸貨(接乘)問題(pickup and delivery problem,PDP),并進(jìn)行了很多討論。本文僅在實(shí)例分析中展示部分線路設(shè)計(jì)的結(jié)果,不將其作為本文重點(diǎn)研究的問題。
本文涉及的數(shù)據(jù)來源主要包括兩個(gè)部分:一類是傳統(tǒng)公交數(shù)據(jù),包括IC卡、車輛GPS數(shù)據(jù)、公交靜態(tài)數(shù)據(jù);另一類是新型互聯(lián)網(wǎng)數(shù)據(jù),即用戶使用手機(jī)導(dǎo)航App產(chǎn)生的出行記錄,包括手機(jī)規(guī)劃數(shù)據(jù)和手機(jī)導(dǎo)航數(shù)據(jù)。
(1)公交IC卡數(shù)據(jù)
不同運(yùn)營商對應(yīng)的IC卡數(shù)據(jù)結(jié)構(gòu)可能不相同,如單一票制收費(fèi)系統(tǒng)中只需上車刷卡,無下車刷卡記錄。而北京等城市采用分段計(jì)費(fèi)模式,刷卡系統(tǒng)中可以記錄乘客的上下車站點(diǎn)信息。因此,目前我國的城市公交還沒有形成統(tǒng)一的刷卡數(shù)據(jù)采集和存儲規(guī)范[7]。但I(xiàn)C卡中存儲的數(shù)據(jù)依舊可以反映城市居民的出行情況。表2給出了目前單一票制IC卡系統(tǒng)中存儲的主要字段及其說明。
(2)公交車輛GPS數(shù)據(jù)
公交車輛GPS通過經(jīng)緯度定位記錄了該車輛實(shí)時(shí)的運(yùn)行狀態(tài),通常每10 s左右產(chǎn)生一條位置記錄。此外,在GPS的數(shù)據(jù)結(jié)構(gòu)中還記錄了車輛的營運(yùn)線路以及到站、離站等信息。通過分析、融合車輛的狀態(tài)信息可以還原其運(yùn)行軌跡。表3給出了GPS數(shù)據(jù)包含的主要字段及其說明。
(3)公交靜態(tài)數(shù)據(jù)
公交靜態(tài)數(shù)據(jù)描述的是公交系統(tǒng)的整體情況,主要包括車輛、人員、線路及站點(diǎn)等信息,其中與本文討論相關(guān)的是站點(diǎn)和線路信息。公交站點(diǎn)的地理信息數(shù)據(jù)記錄了站點(diǎn)對應(yīng)的編號、類型、經(jīng)緯度等信息。該信息可以與GPS數(shù)據(jù)進(jìn)行匹配,從而推斷車輛到離站的具體信息[7]。此外,由于一條公交線路包含多個(gè)站點(diǎn),而一個(gè)公交站點(diǎn)可能會出現(xiàn)在多條公交線路中,因此公交站點(diǎn)與線路信息表主要用于記錄線路與站點(diǎn)的對應(yīng)關(guān)系,包含的字段內(nèi)容主要有線路編號、站點(diǎn)的序號及編號。每條線路的基本信息一般被單獨(dú)存放在一張表中,包括線路的編號、線路運(yùn)營長度、走行方向、起終站點(diǎn)及線路類型等信息[7]。
(1)手機(jī)導(dǎo)航數(shù)據(jù)
手機(jī)導(dǎo)航數(shù)據(jù)記錄了用戶在使用App時(shí)產(chǎn)生的實(shí)時(shí)位置信息,一般每隔5~30 s記錄一次,原始的導(dǎo)航數(shù)據(jù)字段內(nèi)容包括用戶ID、時(shí)間戳、速度及經(jīng)緯度信息。為獲得用戶每次行程的起終點(diǎn),需要對原始的軌跡數(shù)據(jù)進(jìn)行預(yù)處理。根據(jù)參考文獻(xiàn)[8],可以設(shè)定一個(gè)時(shí)間閾值5 min,若某用戶兩條連續(xù)的出行記錄大于此閾值,那么將這兩條記錄的位置信息分別記作上一次行程的終點(diǎn)和下一次行程的起點(diǎn)。對每個(gè)用戶進(jìn)行上述操作,可以得到具體的導(dǎo)航起終點(diǎn)信息,見表4。本文涉及的導(dǎo)航數(shù)據(jù)也可被視為私家車(駕車)出行需求。
(2)手機(jī)規(guī)劃數(shù)據(jù)
用戶在出行之前會查詢導(dǎo)航軟件,以提前對自己的行程進(jìn)行規(guī)劃,這時(shí)系統(tǒng)會記錄查詢的相關(guān)信息,該信息即手機(jī)規(guī)劃數(shù)據(jù),具體內(nèi)容見表5。
表2 公交IC卡數(shù)據(jù)結(jié)構(gòu)說明
表3 車載GPS數(shù)據(jù)結(jié)構(gòu)說明
(3)興趣面數(shù)據(jù)
本文中的興趣面(area of interest,AOI)數(shù)據(jù)是指互聯(lián)網(wǎng)地圖(如高德地圖)中的興趣面。不同于興趣點(diǎn)(point of interest,POI),AOI用來描述地圖中區(qū)域狀的實(shí)體,如居住小區(qū)、辦公樓、大型商圈等。每個(gè)AOI有自己的編號和用地屬性。本文涉及的AOI數(shù)據(jù)包含3種用地類型,即居住類型、辦公類型和商業(yè)類型。
表4 手機(jī)導(dǎo)航數(shù)據(jù)示例
表5 手機(jī)規(guī)劃數(shù)據(jù)示例
在進(jìn)行多源大數(shù)據(jù)挖掘分析之前,通常要對數(shù)據(jù)進(jìn)行清洗或預(yù)處理工作[7]。其主要目的是檢測原始數(shù)據(jù)中的錯(cuò)誤,剔除對分析結(jié)果有影響的數(shù)據(jù),從而提升數(shù)據(jù)的質(zhì)量。本節(jié)介紹了相關(guān)的數(shù)據(jù)預(yù)處理步驟。
(1)剔除無用字段
在第3.1節(jié)和第3.2節(jié)中詳細(xì)介紹了每種數(shù)據(jù)的主要字段內(nèi)容。實(shí)際上,一些字段與公交的出行需求分析無關(guān),因此可以刪除這些字段,以提升數(shù)據(jù)的分析效率。例如,在公交IC卡數(shù)據(jù)中,只需保留用戶的卡號、刷卡時(shí)間、車輛號、線路號等信息。在車載GPS數(shù)據(jù)中,公交車的行駛速度等字段信息對需求分析無影響,可以在預(yù)處理階段進(jìn)行刪除。
(2)剔除冗余數(shù)據(jù)和錯(cuò)誤數(shù)據(jù)
冗余數(shù)據(jù)主要指信息重復(fù)的數(shù)據(jù)。冗余數(shù)據(jù)的存在會對后續(xù)的分析結(jié)果產(chǎn)生影響。例如,在分析公交IC卡時(shí),重復(fù)的數(shù)據(jù)信息會使出行需求的總量偏高。因此,可根據(jù)具體的分析目標(biāo)對冗余數(shù)據(jù)進(jìn)行處理,如進(jìn)行刪除操作,以提高分析的準(zhǔn)確性。
受數(shù)據(jù)采集終端或通信網(wǎng)絡(luò)故障影響,采集到的數(shù)據(jù)記錄會出現(xiàn)信息錯(cuò)誤的情況。例如,對于時(shí)間字段,會出現(xiàn)“24:15:00”的情形。此外,數(shù)據(jù)中還會出現(xiàn)部分字段缺失的情況。為確保后續(xù)分析結(jié)果的準(zhǔn)確性,應(yīng)對數(shù)據(jù)的有效性進(jìn)行檢查,剔除錯(cuò)誤或缺失的數(shù)據(jù)。
本節(jié)根據(jù)多源數(shù)據(jù)挖掘分析框架的幾個(gè)主要步驟,從乘客的出行需求分析及站點(diǎn)選址(交通小區(qū)劃分)兩個(gè)方面對相關(guān)的理論方法進(jìn)行介紹。
大數(shù)據(jù)等信息技術(shù)的應(yīng)用使得交通信息的采集實(shí)現(xiàn)了從單一數(shù)據(jù)源到多源數(shù)據(jù)源的發(fā)展。在本文研究涉及的領(lǐng)域,傳統(tǒng)的公交IC卡數(shù)據(jù)、公交車輛GPS數(shù)據(jù)、公交靜態(tài)數(shù)據(jù)、新型互聯(lián)網(wǎng)數(shù)據(jù)為多元化的出行服務(wù)提供了豐富的數(shù)據(jù)基礎(chǔ)。在定制公交設(shè)計(jì)與優(yōu)化理論中,首要的任務(wù)是準(zhǔn)確捕獲乘客的出行需求。因此,在海量數(shù)據(jù)資源下,如何有效提取用戶的出行軌跡、挖掘完整的出行信息是需要解決的問題之一。本節(jié)主要討論幾種數(shù)據(jù)類型的出行信息挖掘方法。
4.1.1 公交IC卡數(shù)據(jù)上下車站點(diǎn)推斷方法
在使用手機(jī)App乘坐公共交通普及之前,國內(nèi)大部分城市的公交刷卡類型屬于單一票制[9], 即乘客只需上車刷卡,且刷卡時(shí)不會記錄站點(diǎn)位置信息。因此,為獲得乘客的起終點(diǎn)信息,需要進(jìn)行上下車站點(diǎn)的推斷。對于單一票制的推斷,國內(nèi)外已有大量研究,且方法成熟[7,9-12]。本節(jié)根據(jù)國內(nèi)公交IC卡數(shù)據(jù)的特征,簡要介紹推斷方法的主要流程。
(1)乘客上車站點(diǎn)識別方法
由于公交IC卡數(shù)據(jù)不含站臺等位置信息,因此需要結(jié)合GPS數(shù)據(jù)進(jìn)行上車站點(diǎn)的推斷。上車站點(diǎn)識別算法步驟如下。
步驟1:公交GPS在運(yùn)營過程中受到外部環(huán)境影響,會存在數(shù)據(jù)記錄精度有限的情況,因此首先要進(jìn)行GPS數(shù)據(jù)修正[7,12],并與公交靜態(tài)數(shù)據(jù)表進(jìn)行匹配。該步驟的目的是得到車輛準(zhǔn)確的到站時(shí)刻表,該表包含線路編號、車輛編號、站點(diǎn)編號及到站時(shí)間等信息[7],見表6。
步驟2:利用SQL數(shù)據(jù)庫軟件,將公交IC卡數(shù)據(jù)表中的線路編號、車輛編號與表6中的線路編號、車輛編號進(jìn)行“等號”關(guān)聯(lián)。
步驟3:將公交IC卡數(shù)據(jù)表中的刷卡時(shí)間與表6中的“到站時(shí)間”進(jìn)行“大于(>)”關(guān)聯(lián),與表6中的“下一站到站時(shí)間”進(jìn)行“小于(<)”關(guān)聯(lián)。
GPS數(shù)據(jù)的記錄事件產(chǎn)生由開啟和關(guān)閉公交車門的行為引起,因此在上述算法中,假設(shè)乘客上車刷卡時(shí)間要晚于表6中車輛到達(dá)上車站點(diǎn)時(shí)間(或車輛開門時(shí)間),且早于下一站到站時(shí)間?;谝陨霞僭O(shè),根據(jù)線路的到站時(shí)間表,若某用戶刷卡時(shí)間晚于車輛到達(dá)第i個(gè)站點(diǎn)的時(shí)間,且早于第i+1個(gè)站點(diǎn)的到站時(shí)間,則推斷出用戶的上車站點(diǎn)為第i個(gè)站點(diǎn)。
(2)乘客下車站點(diǎn)識別方法
在單一票制中,由于乘客在下車時(shí)無須刷卡,因此在IC卡數(shù)據(jù)字段中無乘客下車相關(guān)信息。但在出行需求分析中,目的地是十分關(guān)鍵的信息,因此如何提取乘客的出行目的地也是需要解決的問題。目前研究中對此類問題的有效解決方法是基于乘客的出行鏈進(jìn)行下車站點(diǎn)推斷[7,12]。
現(xiàn)有文獻(xiàn)認(rèn)為公共交通的出行鏈可以被描述為一名乘客在一天的出行中至少乘坐了兩次及以上的公共交通[7]。在參考文獻(xiàn)[13]中,基于出行鏈的推斷有兩個(gè)假設(shè)條件:第一,在出行鏈中乘客本次出行的起點(diǎn)為上一次出行的終點(diǎn);第二,乘客在一天之中最后一段出行過程的終點(diǎn)與當(dāng)天第一段出行的起點(diǎn)是相同的。此外,本文討論的公交出行不包含地鐵。
基于以上假設(shè),并考慮到公交出行通勤占比很大,具有很強(qiáng)的早晚出行規(guī)律性,例如,早高峰從居住地到達(dá)工作地,晚高峰從工作地回到居住地。因此對下車站點(diǎn)的識別可采取基于連續(xù)性的推斷方法[12,14]。
例如,對于某乘客當(dāng)日的末次出行,假設(shè)乘客會選擇距當(dāng)日首次出行的上車站點(diǎn)最近的站點(diǎn)下車。因此若末次出行乘坐的線路為Ri,首次出行的線路為Rj,則將線路Ri中距離Rj中上車站點(diǎn)最近的站點(diǎn)判定為Ri的下車站點(diǎn)。對于某乘客當(dāng)日的非末次出行,乘客先乘坐線路Rm,再乘坐Rn。因此,選取Rm中距離Rn上車站點(diǎn)最近的站點(diǎn)作為乘客乘坐線路Rm的下車站點(diǎn)。
對于不滿足公交出行鏈描述的公交出行,已有文獻(xiàn)中的處理方法是通過乘客出行距離分布并結(jié)合公交站臺的吸引特征[9],構(gòu)建基于概率的下車站點(diǎn)推斷模型,具體方法可參考文獻(xiàn)[7,9,12]。
4.1.2 用戶通勤行為判別
前文中提到,通勤用戶是定制公交主要的需求來源。因此,挖掘通勤乘客也是定制公交線路設(shè)計(jì)的重要任務(wù)之一。本節(jié)討論了幾種用戶類型的通勤行為判定方法。
(1)公交用戶通勤判別
公交出行通勤用戶在整個(gè)出行總量中占比很大,具有明顯的潮汐規(guī)律性,因此可分析乘客在一定周期(如一個(gè)月)內(nèi)的早晚高峰出行規(guī)律或刷卡規(guī)律,通過刷卡頻次并結(jié)合刷卡站臺周邊的用地信息(如POI信息)進(jìn)行判定[15]。具體步驟如下。
表6 公交到站時(shí)刻表示例
步驟1:查閱已有文獻(xiàn),根據(jù)頻次設(shè)定判定標(biāo)準(zhǔn)。例如,一周工作日中早高峰兩次及以上在同一個(gè)站臺刷卡時(shí),可將該站臺視為居住地。類似地,晚高峰兩次及以上在同一個(gè)站臺刷卡時(shí),可將該站臺視為工作地。
步驟2:對于某用戶,根據(jù)步驟1中的通勤標(biāo)準(zhǔn),判定其居住地和工作地。對于居住地,在推斷其上車站點(diǎn)的基礎(chǔ)上,統(tǒng)計(jì)在一個(gè)周期內(nèi)的早高峰時(shí)段在不同站臺的刷卡頻次,若頻次最高所對應(yīng)的站臺達(dá)到通勤判定標(biāo)準(zhǔn),將該站臺標(biāo)記為居住地,否則判定失敗,該用戶居住地為空。類似地,統(tǒng)計(jì)在一個(gè)周期內(nèi)晚高峰時(shí)段在不同站臺的刷卡頻次,并進(jìn)行工作地判定。
步驟3:對數(shù)據(jù)庫中每個(gè)公交用戶的IC卡記錄進(jìn)行上述步驟的統(tǒng)計(jì)和判定,輸出乘客的工作地和居住地。
(2)規(guī)劃數(shù)據(jù)通勤判別
不同于公交IC卡數(shù)據(jù)的起終點(diǎn)對應(yīng)站臺,規(guī)劃數(shù)據(jù)的起終點(diǎn)信息對應(yīng)的是經(jīng)緯度,這可能導(dǎo)致用戶每次規(guī)劃路徑時(shí)所對應(yīng)的位置信息(經(jīng)緯度)不一致的現(xiàn)象出現(xiàn)。因此,本文提出了一個(gè)基于AOI數(shù)據(jù)的通勤用戶判定方法。該方法的主要思路為利用AOI數(shù)據(jù)將經(jīng)緯度信息映射到更大的區(qū)域,以方便統(tǒng)計(jì)每次規(guī)劃路徑的位置信息,從而得到用戶出行起終點(diǎn)的對應(yīng)區(qū)域。具體判定步驟如下。
算法1規(guī)劃數(shù)據(jù)用戶通勤判別算法
輸入:規(guī)劃數(shù)據(jù)用戶一個(gè)周期內(nèi)(如一個(gè)月)的出行軌跡信息
輸出:用戶居住地與工作地
步驟1:將規(guī)劃數(shù)據(jù)中所有用戶的經(jīng)緯度信息映射到AOI上,得到每個(gè)經(jīng)緯度信息對應(yīng)的AOI編號,以及對應(yīng)的AOI類型。這使得用戶每次的規(guī)劃位置從經(jīng)緯度投影到AOI。
步驟2:查閱已有文獻(xiàn),根據(jù)頻次設(shè)定判定標(biāo)準(zhǔn)。例如,一周工作日中,規(guī)劃數(shù)據(jù)用戶兩次及以上在同一個(gè)AOI并且其類型為“居住類型”規(guī)劃路徑時(shí),可將該AOI視為居住地。類似地,用戶兩次及以上在同一個(gè)AOI并且其類型為“辦公類型”規(guī)劃路徑時(shí),可將該AOI視為工作地。
步驟3:在步驟2的判定標(biāo)準(zhǔn)基礎(chǔ)上,識別規(guī)劃用戶的居住地和工作地,具體方法同公交IC卡用戶的居住地和工作地的識別方法。
步驟4:對規(guī)劃數(shù)據(jù)中每個(gè)用戶的記錄進(jìn)行上述步驟的統(tǒng)計(jì)和判定,輸出乘客的居住地和工作地。
(3)導(dǎo)航數(shù)據(jù)通勤判別
導(dǎo)航數(shù)據(jù)的起終點(diǎn)位置信息對應(yīng)的也是經(jīng)緯度,且由于導(dǎo)航的出行軌跡很多是間斷的,其終點(diǎn)位置不一定是實(shí)際的終點(diǎn)位置(一些用戶會在行程中關(guān)閉導(dǎo)航)。因此,對導(dǎo)航用戶通勤的判別也需要結(jié)合AOI數(shù)據(jù)及導(dǎo)航起點(diǎn)位置信息進(jìn)行判斷。本文提出一個(gè)基于出行頻次的通勤用戶判別算法,具體步驟如下。
算法2導(dǎo)航用戶通勤判別算法
輸入:導(dǎo)航用戶一個(gè)周期內(nèi)(如一個(gè)月)的出行軌跡信息
輸出:用戶居住地與工作地
步驟1:與規(guī)劃數(shù)據(jù)處理方法相同,將導(dǎo)航數(shù)據(jù)中所有用戶的每次軌跡行程的出發(fā)位置信息映射到AOI上,得到每個(gè)經(jīng)緯度信息對應(yīng)的AOI編號,以及對應(yīng)的AOI類型。
步驟2:將一天24 h分割成24個(gè)單元,每個(gè)單元為1 h,初始化兩個(gè)N×3的空矩陣M1和M2,其中N為一個(gè)周期的天數(shù)(如一個(gè)月30天)。
步驟3:對于第i天,針對該用戶所有軌跡的出發(fā)地位置,找到早高峰第一條軌跡對應(yīng)的出發(fā)地AOI編號、AOI類型及導(dǎo)航行為發(fā)生時(shí)對應(yīng)的時(shí)間區(qū)間,將其存儲到M1的第i行。
步驟4:對于第i天,針對該用戶所有軌跡的出發(fā)地位置,找到晚高峰第一條軌跡對應(yīng)的出發(fā)地AOI編號、AOI類型及導(dǎo)航行為發(fā)生時(shí)對應(yīng)的時(shí)間區(qū)間,將其存儲到M2的第i行。
步驟5:按步驟3和步驟4重復(fù)操作一個(gè)周期內(nèi)n天的軌跡信息,將相應(yīng)的出行信息記錄到矩陣M1和M2中。
步驟6:在M1中找到該用戶AOI類型為“居住類型”的頻次數(shù)最高(最頻)的出行AOI編號,并記錄其次數(shù)Nh;在M2中找到該用戶AOI類型為“辦公類型”的最頻出行AOI編號,并記錄其次數(shù)Nw。
步驟7:查閱已有文獻(xiàn),根據(jù)頻次設(shè)定判定標(biāo)準(zhǔn)[16]。例如,如果Nh大于8,則將該AOI區(qū)域標(biāo)記為用戶居住地,否則判定失??;類似地,如果Nw大于8,則將該AOI區(qū)域標(biāo)記為用戶工作地,否則判定失敗。
步驟8:對導(dǎo)航數(shù)據(jù)中每個(gè)用戶的記錄按步驟1~步驟7進(jìn)行統(tǒng)計(jì)和判定,輸出乘客的居住地和工作地。
站點(diǎn)的選址布局在定制公交的服務(wù)設(shè)計(jì)中是重要的一環(huán)。為吸引更多的出行者選擇定制公交,乘客到站點(diǎn)的步行距離不應(yīng)過大。但前文中提到,乘客的需求在一個(gè)區(qū)域內(nèi)是不均勻的,即公交用戶的需求點(diǎn)對應(yīng)的是站臺,而導(dǎo)航軟件用戶的需求點(diǎn)對應(yīng)的是AOI。因此,為保證區(qū)域內(nèi)用戶與定制公交站點(diǎn)的走行距離在合理范圍之內(nèi),通常通過聚類方法將出行起終點(diǎn)相似的需求聚類為一類,在聚類后的區(qū)域中選擇站點(diǎn)位置。一些文獻(xiàn)中也將該問題定義為定制公交的交通小區(qū)劃分問題[3,17-18]。
不同于其他相關(guān)文獻(xiàn)中處理的是單一的數(shù)據(jù)源(公交IC卡數(shù)據(jù)、出租車數(shù)據(jù)或調(diào)查數(shù)據(jù))[3-4,18-19],本文涉及多源數(shù)據(jù),且需求點(diǎn)坐標(biāo)對應(yīng)的格式不一致。因此,在交通小區(qū)劃分問題中如何融合多源數(shù)據(jù)需求是本文面臨的難點(diǎn)之一。針對此問題,本文提出了一種多源數(shù)據(jù)融合方法。
首先,運(yùn)用ArcGis軟件計(jì)算每個(gè)AOI的中心坐標(biāo),將該坐標(biāo)視為互聯(lián)網(wǎng)用戶的需求點(diǎn)。公交站臺坐標(biāo)可從數(shù)據(jù)庫中直接抽取。然后,本文提出一個(gè)改進(jìn)的具有噪聲的基于密度的聚類(density-based spatial clustering of applications with noise,DBSCAN)算法,使用該算法對傳統(tǒng)公交數(shù)據(jù)及互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行融合。由于所需處理的定制公交需求的數(shù)據(jù)規(guī)模通常較大,且存在很多孤立點(diǎn),此外,在需求區(qū)域的劃分中往往不能預(yù)先確定所需的聚類類別數(shù),因此一般的K-means等聚類算法并不適合本文討論的情況。本文采用DBSCAN算法,該算法不需要預(yù)先指定聚類類別的個(gè)數(shù)。但該算法易出現(xiàn)“聚類成片”的問題,即相鄰的臨時(shí)聚類簇容易聚成一類。此外,該算法也不能考慮每個(gè)聚類區(qū)域半徑的大小。也就是說,在劃分定制公交出行區(qū)域時(shí),可能會存在某個(gè)區(qū)域劃分過大,這樣在后續(xù)布設(shè)站點(diǎn)時(shí),該區(qū)域部分乘客到站點(diǎn)的走行距離會過大,這會降低定制公交的服務(wù)質(zhì)量。因此,本文對該算法進(jìn)行了改進(jìn),具體算法步驟如下。
算法3:改進(jìn)的DBSCAN算法
輸入:多源出行需求點(diǎn),聚類半徑r,每個(gè)類別中的最少需求點(diǎn)個(gè)數(shù)minPts
輸出:每個(gè)需求點(diǎn)坐標(biāo)所屬類別
算法描述:
在該算法中,聚類半徑r和每個(gè)類別中最少需求點(diǎn)數(shù)目minPts是兩個(gè)十分關(guān)鍵的參數(shù)。對于聚類半徑r,假設(shè)乘客步行的速度為80 m/min,可接受的步行時(shí)間為5 min,則聚類半徑r為400 m,這保證了在該區(qū)域內(nèi)設(shè)置站點(diǎn)時(shí)乘客的走行時(shí)間在可接受的范圍內(nèi)[19]。對于每個(gè)類別中需求點(diǎn)的個(gè)數(shù),在參考文獻(xiàn)[18]中提到,在每個(gè)區(qū)域中至少應(yīng)存在一個(gè)上車站點(diǎn)和一個(gè)下車站點(diǎn),以對應(yīng)往返的出行需求。因此,在實(shí)際問題中,每個(gè)類別中的需求點(diǎn)個(gè)數(shù)至少為2。因此,基于上述算法,對于每個(gè)劃分好的出行區(qū)域,可利用原有的公交站臺作為定制公交站點(diǎn),也可根據(jù)實(shí)際情況進(jìn)行考察后確定站點(diǎn)位置。參考文獻(xiàn)[4]討論了站點(diǎn)的具體布設(shè)方法。
表7 公交用戶上車站點(diǎn)推斷示例
表8 公交用戶通勤判別示例
本文利用成都市一個(gè)月(2016年11月1—30日)的出行數(shù)據(jù)對以上分析框架的可行性進(jìn)行驗(yàn)證,采用的數(shù)據(jù)包括成都市公交數(shù)據(jù)、互聯(lián)網(wǎng)導(dǎo)航及規(guī)劃數(shù)據(jù)、AOI數(shù)據(jù)。本文使用的數(shù)據(jù)由成都公交集團(tuán)和高德地圖提供。由于數(shù)據(jù)敏感等原因,本文在結(jié)果部分只分析了數(shù)據(jù)的趨勢。圖2是公交IC卡數(shù)據(jù)、互聯(lián)網(wǎng)導(dǎo)航和規(guī)劃數(shù)據(jù)的數(shù)據(jù)量時(shí)間分布。從圖2可以看出,公交IC卡數(shù)據(jù)從6:00開始刷卡量逐漸增加,到10:00逐漸平穩(wěn);從16:00開始刷卡量逐漸增加,到19:00高峰時(shí)段結(jié)束。因此,在通勤判別中將早晚高峰的時(shí)間段定義為6:00-10:00和16:00-19:00。而互聯(lián)網(wǎng)用戶的出行量在8:00-18:00時(shí)段內(nèi)都保持在一個(gè)相對平穩(wěn)的狀態(tài)。因此,為了統(tǒng)一標(biāo)準(zhǔn),在對數(shù)據(jù)進(jìn)行分析、融合時(shí),將互聯(lián)網(wǎng)用戶的通勤時(shí)間范圍也定義在6:00-10:00和16:00-19:00這兩個(gè)時(shí)段。
(1)首先將GPS數(shù)據(jù)和公交IC卡數(shù)據(jù)進(jìn)行匹配以推斷上車站點(diǎn),最終約90%的用戶上車站點(diǎn)可以被成功識別,從而得到乘客的上車站點(diǎn)匹配表,見表7。然后,結(jié)合下車站點(diǎn)推斷算法,整理得到乘客在一個(gè)月內(nèi)的上下車站臺、刷卡時(shí)段及頻次,見表8。最后,選取早高峰時(shí)段6:00-10:00、晚高峰時(shí)段16:00-19:00,設(shè)定頻次閾值,得到成都市公交通勤用戶識別結(jié)果。圖3展示了不同頻次閾值下通勤用戶識別數(shù)量的趨勢。
(2)對互聯(lián)網(wǎng)導(dǎo)航和規(guī)劃數(shù)據(jù)用戶進(jìn)行通勤識別,將導(dǎo)航數(shù)據(jù)和規(guī)劃數(shù)據(jù)用戶OD的經(jīng)緯度坐標(biāo)投影到AOI區(qū)域中。選取早高峰時(shí)段6:00-10:00、晚高峰時(shí)段16:00-19:00,設(shè)定頻次閾值為8[16],按第4.1節(jié)中的算法判定通勤用戶,并得到對應(yīng)的職住地信息,見表9。
(3)通過改進(jìn)的DBSCAN算法融合公交與互聯(lián)網(wǎng)數(shù)據(jù)需求,從而劃分出行區(qū)域。首先計(jì)算每個(gè)AOI的中心坐標(biāo),再與公交站臺坐標(biāo)進(jìn)行聚類融合,最終得到每個(gè)出行區(qū)域,聚類過程如圖4所示,該方法通過聚類半徑r限定了每個(gè)聚類區(qū)域的大小。最終將成都市劃分為多個(gè)出行區(qū)域,其聚類中心空間分布如圖5所示,再將出行需求投影到每個(gè)出行區(qū)域中,得到成都市公交和互聯(lián)網(wǎng)用戶的潛在出行OD需求表,將其作為線路規(guī)劃的數(shù)據(jù)輸入。受運(yùn)營成本等因素的影響,定制公交的服務(wù)不可能覆蓋所有出行區(qū)域。因此,應(yīng)優(yōu)先考慮在出行的熱點(diǎn)區(qū)域進(jìn)行線路設(shè)計(jì)。在數(shù)據(jù)融合后,將出行OD需求表投影到地圖中,得到數(shù)據(jù)融合后OD熱點(diǎn)區(qū)域的空間分布,如圖6所示。在圖6中,圓圈區(qū)域是公交用戶和互聯(lián)網(wǎng)通勤用戶共有的工作地?zé)狳c(diǎn)區(qū)域。因此,在后續(xù)線路中可以優(yōu)先在這兩個(gè)區(qū)域提供定制公交服務(wù),以保證定制公交上座率。
(4)得到出行OD需求后,可通過構(gòu)建線路設(shè)計(jì)模型得到線路方案集。例如,以最大化定制公交服務(wù)率為目標(biāo)構(gòu)建模型。參考文獻(xiàn)[20-21]對此方法進(jìn)行了研究,本文不再討論具體模型和算法。下面將本文挖掘分析的出行需求作為模型輸入,展示了通勤定制公交的線路案例。圖7是方案集中的某條定制公交線路,該線路的潛在出行需求約2600人/天,線路長度為7 km,目前存在的常規(guī)公交線路是48路。表10給出了該定制公交線路在高峰時(shí)段每個(gè)站點(diǎn)間的潛在出行需求。表11對比了不同出行時(shí)段定制公交與常規(guī)公交線路的預(yù)計(jì)出行時(shí)間。
表9 互聯(lián)網(wǎng)導(dǎo)航和規(guī)劃數(shù)據(jù)用戶通勤判別示例
表10 定制公交線路的潛在出行需求(單位:人次)
本文進(jìn)一步從出行時(shí)間和擁擠度方面對定制公交和常規(guī)公交線路進(jìn)行對比。圖8是常規(guī)公交48路63輛運(yùn)營車輛在各時(shí)段的線路運(yùn)營時(shí)間和乘客數(shù)量。從圖8可以看出,由于該線路中間站點(diǎn)數(shù)量多,且通勤客流量大,造成停站時(shí)間過長,進(jìn)而影響其運(yùn)營時(shí)間和乘客出行體驗(yàn)。因此,如果引入定制公交線路,并提供“一人一座”等服務(wù)提高舒適度,可以很好地對常規(guī)公交線路進(jìn)行補(bǔ)充。
表11 定制公交與常規(guī)公交線路的預(yù)計(jì)出行時(shí)間對比
本文提出了一個(gè)基于多源數(shù)據(jù)的定制公交需求辨識方法分析框架,并結(jié)合成都市的出行數(shù)據(jù)討論了該框架的可行性。不同于傳統(tǒng)基于調(diào)查問卷的分析方法,本文通過融合多源出行數(shù)據(jù)、挖掘居民的出行規(guī)律,獲取城市居民的出行需求。本文介紹的方法適用于城市級的大規(guī)模數(shù)據(jù),具有可操作性強(qiáng)、需求覆蓋廣、成本低、出行需求更新及時(shí)等優(yōu)點(diǎn),可作為定制公交服務(wù)設(shè)計(jì)的輔助手段。在未來的研究中,筆者將繼續(xù)圍繞定制公交的線路、時(shí)刻表、車輛調(diào)度及票價(jià)策略等運(yùn)營規(guī)劃方面開展工作。