楊思源
(西南交通大學 經(jīng)濟管理學院,四川 成都 610031)
基于快速公交乘客刷卡數(shù)據(jù)的車輛滿載率推算方法研究
楊思源
(西南交通大學 經(jīng)濟管理學院,四川 成都 610031)
在僅獲得快速公交閘機刷卡系統(tǒng)產(chǎn)生的乘客刷卡數(shù)據(jù)的情況下,結合實地調(diào)研得到的車輛在站點間的行駛時間數(shù)據(jù),利用乘客出站時間間隔將乘客分類,可估算出各車次到達各站點的時間、以及在各站點的上下車人數(shù)等信息,從而計算車輛滿載率。并以成都二環(huán)快速公交為例,通過真實乘客刷卡數(shù)據(jù)驗證了該方法的準確性和實用性,計算結果可以反映出當天系統(tǒng)的運營情況,可為公交的運營、調(diào)度提供參考依據(jù)。
智能交通;滿載率;數(shù)據(jù)挖掘;快速公交;公交運營
隨著近年來人們生活水平的不斷提升,乘客在出行時開始更多的關注乘坐公共交通工具的舒適程度,而車輛擁擠情況的評估一直也是公交運營機構關心的問題,評價車輛擁擠情況的主要參數(shù)包括車輛座位率和滿載率等[1]。國外學者很早就開始關注乘車舒適性對于乘客出行價值的影響,Todd Litman等指出在進行交通規(guī)劃和服務質量評價中不應該只注重乘客出行時間的問題,應該更多的關注乘車的舒適度[2]。在國內(nèi)的公交運營效率和服務質量評價中,也通常選取滿載率作為重要的參數(shù)之一[3]。但是在傳統(tǒng)研究中,主要通過人工調(diào)查的方法獲取各項數(shù)據(jù),耗費人力、物力和財力,而且有時調(diào)查結果不能如實反映實際的運營情況,而公交智能卡數(shù)據(jù)較以往乘車調(diào)查和問卷調(diào)查等手工采集的數(shù)據(jù)體量更大,更精確的記錄了乘客的個人連續(xù)出行信息,并且采集成本很低,是傳統(tǒng)抽樣調(diào)查數(shù)據(jù)的重要補充[4]。
乘客通過刷卡產(chǎn)生的數(shù)據(jù)記錄了大量的乘客乘車信息,將這些信息轉化為可運用于城市交通規(guī)劃及公交運營調(diào)度的信息正成為一項重要的研究內(nèi)容。國外對公交智能卡分析利用的較早,M.Bagchi總結了利用公交智能卡進行數(shù)據(jù)分析的優(yōu)勢以及一定的局限性,比如無法得知乘客目的地等[5],Martin Trépanier等針對普通公交智能卡數(shù)據(jù)乘客下車信息缺失的問題,提出了一個推測乘客下車信息的數(shù)學模型[6]。國內(nèi)的學者也根據(jù)我國公交系統(tǒng)的特點進行了大量的數(shù)據(jù)分析,尹長勇等提出了利用已有數(shù)據(jù)估計乘客上下車站點及車輛運行方向的方法[7],這些研究都針對各自的數(shù)據(jù)的特點以及不足,彌補了當前數(shù)據(jù)無法記載的信息。
快速公交(Bus Rapid Transit,BRT)作為一種新興的城市公共交通系統(tǒng),以快速、安全、高效并且節(jié)省經(jīng)濟的城市公共交通模式,為各個國家解決交通擁堵、增加客流量、縮短旅行時間和提高經(jīng)濟效益等各個方面做出了重要的貢獻[8],近年來也成為了我國許多城市發(fā)展公共交通的主要選擇。由于我國大多數(shù)快速公交系統(tǒng)采用閘機式刷卡、進站乘車的乘車方式,與普通公交相比更加高效、快捷,具有更強的客流吸引力,而與地鐵相比快速公交的車輛運行時間更加靈活,但不具備準點到達的條件[9],所以車輛的具體運行時刻表以及各個車次在各個站點的上下車人數(shù)等方面的信息是缺失的,從而無法得知車輛在運行時的擁擠情況等重要信息。國內(nèi)對于快速公交乘客刷卡數(shù)據(jù)的分析及應用研究較少,其與普通公交運營方式的不同導致了乘客刷卡數(shù)據(jù)結構的不同。本文根據(jù)快速公交數(shù)據(jù)結構的特點,通過系統(tǒng)中記錄的大量乘客進出站信息,包括時間、站點和線路等,利用出站時間間隔對乘客進行分類,估計出哪些乘客乘坐了同一輛車,從而估算出車輛運行軌跡,進而推算車輛運行時的滿載率。
表1 數(shù)據(jù)樣本
快速公交刷卡系統(tǒng)中記錄的乘客信息包括卡號、乘車日期、上下車時間和站點、金額、換乘標識、線路號等。由于進出站閘機均記錄了乘客的刷卡信息,所以選取出站閘機的一條線路上的所有乘客數(shù)據(jù)進行研究,同樣的方法可應用于另一條線路上。數(shù)據(jù)樣本見表1。
乘客刷卡數(shù)據(jù)中記錄了乘客的進出站信息,但是要得到具體的車輛滿載率,就要估算出每位乘客所上的車次和所有車次的到站時間等信息,這些數(shù)據(jù)是無法直接從刷卡數(shù)據(jù)中獲取的,雖然可以通多其他手段獲得,如通過分析車載GPS數(shù)據(jù)獲取車輛到站時間表或進行大量隨車調(diào)研活動采用人工記錄的方法,但是這些方法成本較高、數(shù)據(jù)處理難度和工作量較大。可以直接根據(jù)乘客刷卡數(shù)據(jù),通過聚類的方法先判斷哪些乘客上了同一輛車,再通過乘客的乘車信息估計出車輛的運營信息,依此統(tǒng)計車輛在各個站點的上下車人數(shù),從而計算車輛滿載率,這樣不僅容處理成本相對較低,而且容易執(zhí)行,雖然可能無法達到完全精確,但已足夠用于觀察分析客流趨勢、乘客乘車情況等。
快速公交大多處于城市客流量密集的地帶,可根據(jù)乘客刷卡進出站數(shù)據(jù)的統(tǒng)計分析得知各個時間段及站點各自的客流量特征,而且公交公司在實際運營中也會在不同的時間段根據(jù)客流量大小采取不同的發(fā)車方式,同時客流量的大小也會影響車輛在站點間的運行時間。采所以在后續(xù)的算法中,可根據(jù)客流量將數(shù)據(jù)分成高峰、平峰、低峰幾部分單獨處理,以便達到最佳效果。
要判斷不同站點的乘客是否上了同一輛車,車輛在各個站點間的行駛時間也是車輛運營信息的重要數(shù)據(jù)之一,但是這無法從乘客刷卡數(shù)據(jù)中獲取。由于快速公交具有專用車道,沒有擁堵現(xiàn)象以及紅綠燈等特點,各個車次在各個站點之間的行駛時間波動不大,可以采用多次隨車調(diào)研,然后取調(diào)研數(shù)據(jù)平均值的方式獲取。
乘客的進站時間一般呈隨機分布,而且乘客的等車時間的無法確定,所以很難從進站信息來判斷不同站點進站的乘客是否上了同一輛車。而經(jīng)車輛運營過后,乘客在各個站點的出站時間呈現(xiàn)出一定的規(guī)律性,將模擬的部分乘客的出站時間及站點分布在二維平面上,如圖1所示,對乘客的出站時間進行兩兩比較,在同一站點下車的乘客,時間間隔較小的即認為他們是從同一輛車下車的,可將他們聚為一類。在不同站點下車的乘客,結合車輛在站點間的行駛時間比較不同站點出站的乘客的出站時間間隔,時間間隔較小的可聚為一類(如圖中不同形狀的點),從而通過乘客刷卡信息估計出車次信息(如圖中虛線所示)。由于乘客較多,兩兩比較的方法需要較長的執(zhí)行時間,為提升效率,可通過為每個乘客尋找一個或少量與他在不同站點下車又乘坐了同一輛車的其他乘客,再對這些乘客進行聚類,最后合并、篩選得到的分類結果即可認為是一個車次,這樣也可以減少調(diào)研數(shù)據(jù)造成的誤差。最后通過類中乘客的進出站信息得出車輛的到站時刻表、車輛在各個站點的上下車人數(shù)等信息,從而計算車輛滿載率。
圖1 乘客分類示意圖
3.1 初步分類
將單條線路的刷卡數(shù)據(jù)按照乘客的出站站點、時間的主次順序進行排序,每個站點對應一個乘客的出站時間序列。在此基礎上對乘客進行編號,將在第i站出站的第j個乘客記為Ni,j,其出站時間記為Ti,j。
第一步:對相同站點的乘客進行聚類,取時間閾值θ作為并類距離,先以每站第一個乘客(j=1時)為聚類中心,若Ti,j+1-Ti,j<θ,則將Ni,j+1和Ni,j聚為一類,即認為他們乘坐了同一個車次,否則將Ni,j+1作為聚類中心繼續(xù)上述步驟,直到完成對各個站點乘客的分類。
第二步:對不同站點的乘客根據(jù)時間和站點上的關聯(lián)性進行分類,將第i站到i+a站的行駛時間記為Wi,i+a,若有兩個乘客Ni,j和Ni+a,k,他們的出站時間間隔與兩站間的行駛時間差值若小于θ,即Ti+a,k-Ti,j-Wi,i+a<θ時,則認為這兩個乘客具有關聯(lián)性,即乘坐了同一個車次,否則令a=a+1。為減少調(diào)研數(shù)據(jù)車輛行駛時間造成的誤差,一旦某站具有與當前乘客相關聯(lián)的乘客,就停止對當前乘客的尋找。具體流程如圖2所示。
圖2 初步分類程序流程圖
結合上述兩個步驟,取不同的θ值對乘客進行初步分類,對比在各個θ取值下的分類結果,選取符合實際情況的θ值,最后得到m個分類結果,每個類中的乘客都具有關聯(lián)性,不同的類中可能具有相同的乘客,所以對具有相同乘客的類進行合并,得到相互獨立、互不相關的分類結果,然后即可認為這些分類結果代表了各個車次。
3.2 對分類結果合并
對分類結果進行編號,Ml表示第l個類,對其他類進行搜索,如果Ml+b中包含Ml中也包含的乘客,則對這兩個類進行合并。為了最終結果的準確性,在合并之前計算兩個類中具有相同出站站點的乘客的出站時間間隔,若存在有時間間隔大于θ,則認為兩個類不相關,取消合并,并刪除Ml+b中與Ml共同包含的乘客。否則將Ml+b合并到Ml中,并重新開始搜索其他類中是否包含Ml中也包含的乘客。具體流程如圖3所示。
遍歷所有的類,得到新的分類結果,每個分類結果中的各個乘客相互關聯(lián),且各個類相互獨立,互不相關。但是由于為了減少誤差,分類結果會出現(xiàn)一些包含乘客數(shù)量較少的類,因為已經(jīng)獲得了車次運行的大體趨勢,所以可先將零散的類從結果中刪除,再根據(jù)分類結果確定各個車次到達各個站點的時間,最后將刪除的乘客合并到剩余的類中。
3.3 車輛到站時刻表及滿載率計算
刪除包含乘客數(shù)量較少的類后,將每個分類結果作為一個車次,取每個車次在各個站點第一個下車的乘客作為車輛到達該站的時間(這里為了便于分析,沒有考慮乘客從車輛行走到閘機的時間,因為研究目的是將乘客歸類,所以并不影響結果)。如果某車次在某一站沒有乘客下車,該車到達該站的到站時間則由該車到達前后兩站的時間和車輛在站點間的行駛時間推算。最終作出各個車次的到站時刻表。
利用到站時刻表,將上個步驟刪除掉的類中包含的乘客重新分配到已有的車次上。分配方法:假設有車次l和車次l+1到達j站的時間分別為Sl,j和Sl+1,j,某乘客的出站時間為Ti,j,如果Sl,j<Ti,j<Sl+1,j,則認為乘客乘坐了車次l。
將乘客重新分配完畢后,可根據(jù)數(shù)據(jù)中記錄的上、下車站點統(tǒng)計出車次在各個站點的上下車人數(shù),從而計算車輛在運行時的滿載率。
圖3 合并分類結果程序流程圖
為了驗證算法,取成都二環(huán)快速公交2 013年8月連續(xù)一周的數(shù)據(jù)進行分析。成都快速公交是運營于成都市二環(huán)高架橋上的公共交通系統(tǒng),包含兩條對向循環(huán)線路(K1,K2),沿途共設28個站點,運營時間為早5:30至晚11:30,乘車時需從閘機刷卡走至站臺候車,且各個站點的建設情況沒有顯著的差別。
4.1 數(shù)據(jù)的準備與整理
因為成都快速公交兩條線路的運營方式差別不大,所以只取K1線路的乘客刷卡數(shù)據(jù)進行研究,同樣的方法也可以應用在K2線路上。刪除無效及錯誤數(shù)據(jù)后,5個工作日的K1線路分別記錄了57 856、58 995、56 163、56 091、56 317人次的數(shù)據(jù),周末兩天分別記錄了40 760、37 671人次的數(shù)據(jù)。為了便于分析,將環(huán)線線路上的車輛中轉站點分為始發(fā)站和終點站兩站,即把環(huán)線數(shù)據(jù)變?yōu)閱蜗蚓€路數(shù)據(jù)處理,28個站點變?yōu)?9個站點,遵循始發(fā)站無人下車,終點站無人上車的規(guī)律。
為獲取車輛在站點間的行駛時間數(shù)據(jù),對全天各時段進行隨車調(diào)研,取每個時段每兩個站點間的平均值,收集到的數(shù)據(jù)見表2,其軌跡如圖4所示。
表2 調(diào)研數(shù)據(jù)
圖4 調(diào)研得到的車輛平均運行軌跡(去除車輛在站點的停靠時間)
可見,在去除了車輛在站點的停靠時間后,除在早晚高峰期車輛的運行時間較長外,幾次分別在不同時段調(diào)研得到的車輛的平均運行總時間并沒有太大的波動,車次的運行軌跡也幾乎相同,所以可根據(jù)各時段多次調(diào)研結果的均值作為車輛在各時段站點間的行駛時間。
4.2 時間段劃分
在公共交通系統(tǒng)的運營過程中,各個時間段的客流量特征是不同的,而且公交公司在運營過程中也是根據(jù)客流量特征的變化采取不同的發(fā)車頻率。為防止乘客太過密集導致無法區(qū)分上了不同車次的乘客,在數(shù)據(jù)分析過程中,需要將數(shù)據(jù)根據(jù)高峰期、平峰期、低峰期分開進行處理。因為取乘客的出站刷卡數(shù)據(jù)進行車輛運營信息的推算,所以需觀察乘客的出站客流量特征。如圖5和圖6所示,任意選取某個工作日的數(shù)據(jù),每五分鐘統(tǒng)計一次出站客流量,作客流量頻數(shù)圖。從圖中可見,尤其是在工作日,客流量會呈現(xiàn)明顯的兩個高峰。在劃分聚類的過程中需根據(jù)各個時間段的客流密度選取不同的參數(shù)(如θ值),所以需對各個時間段的數(shù)據(jù)分開進行處理。
圖5 某工作日數(shù)據(jù)每5分鐘進站客流量統(tǒng)計
從圖5中可以看出,每5分鐘的出站客流量均線上方的時間段大概呈現(xiàn)高峰趨勢,所以根據(jù)均線對時間段進行劃分:以5分鐘為一個時間段,如果連續(xù)幾個時間段的客流量均大于均值,即認為這幾個時間段組成一個高峰期。
從多個工作日的劃分結果來看,兩個高峰時段的持續(xù)時間幾乎相同,可對它們進行統(tǒng)一處理,而9:30到16:30之間的平峰期持續(xù)時間較長,為了與其他平峰期時間保持一致以便于后續(xù)處理并減少累積誤差,將其平均分為兩個時間相同的時間段。如果乘客過少,則認為是低峰期。根據(jù)調(diào)研得到的車輛運行軌跡對時間段進行劃分,時間段劃分結果見表3。在接下來的步驟中,會按時段選取數(shù)據(jù)進行滿載率推算。
表3 工作日時間段劃分結果
4.3 車輛運行信息及滿載率推算
取2013年8月某日5個時間段的數(shù)據(jù)進行滿載率計算,高峰期選用較高的車輛行駛時間數(shù)據(jù),平峰期和低峰期選擇較低的車輛行駛時間。當θ取值在一定范圍內(nèi)時,最終得到的車次數(shù)量結果趨于穩(wěn)定狀態(tài),而且車輛的滿載情況也趨于穩(wěn)定。根據(jù)公交公司公布的K1線路當天投入運營的車次總數(shù),可根據(jù)每個時段的發(fā)車數(shù)量確定一個符合實際運營情況的θ取值范圍。
確定各個時間段θ取值后,取車輛定員為160人,作出各個時段的車輛滿載率曲線,以及各個時段的車輛滿載率曲線及所有時段匯總后的車輛滿載率曲線,如圖6所示,7個時段依次從左向右,從上向下排列,最后一個子圖為匯總情況。依此可觀察車輛運營時的擁擠情況和客流趨勢。
圖6 某日不同時段的車輛滿載率曲線
圖中高峰期時段取θ=20,平峰期時段θ=60,低峰期時段θ=90,全天共298個車次,符合當天的實際發(fā)車情況。
本文在不依賴其他類型的數(shù)據(jù)的情況下,僅從乘客刷卡數(shù)據(jù)中挖掘出車輛的運營信息,包括車輛到達各個站點的時間、車輛在各個站點的上下車人數(shù)等,數(shù)據(jù)挖掘成本較低,而且算法簡便、快速。由于在實際的車輛運營過車中,由于乘客行為的無法預估性以及缺乏車輛的實際運營細節(jié),本文提供的算法雖然無法保證車次數(shù)、車次到站時間以及每位乘客所上車次等信息百分之百的準確性,但可以從結果中看出客流趨勢、快速公交在運營過程中乘客的擁擠情況等,也可用于彌補已有數(shù)據(jù)的不足,為改善公交運營制度提供參考依據(jù)。
[1]高桂鳳,魏華,嚴寶杰.城市公交服務質量可靠性評價研究[J].武漢理工大學學報:交通科學與工程版,2007,31(1):140-143.
[2]Litman T.Valuing Transit Service Quality Improvements[J]. Journal of Public Transportation,2007,11(2):43.
[3]楊薇,譚英嘉,葛宏偉.公交線路規(guī)劃與服務評價中滿載率指標的應用研究[J].公路,2014,(3):112-116.
[4]Bagchi M,White P R.What role for smart-card data from bus systems[J].Municipal Engineer,2004,157(1):39-46.
[5]Bagchi M,White P R.The potential of public transport smart card data[J].Transport Policy,2005,12(5):464-474.
[6]Martin Trépanier,Nicolas Tranchant,Robert Chapleau.Individual Trip Destination Estimation in a Transit Smart Card Automated Fare Collection System[J].Journal of Intelligent Transportation Systems Technology Planning&Operations, 2007,11(1):1-14.
[7]尹長勇,陳艷艷,陳紹輝.基于聚類分析方法的公交站點客流匹配方法研究[J].交通信息與安全,2010,(3).
[8]Racehorse V J,Zhang G,Sussman A,et al.Bus rapid transit system deployment for high quality and cost-effective transit service:a comprehensive review and comparative analysis[J]. Iet Intelligent Transport Systems,2015,9(2):175-183.
[9]Pelletier M P,Trépanier M,Morency C.Smart card data use in public transit:A literature review[J].Transportation Research Part C:Emerging Technologies,2011,19(4):557-568.
Study on Deduction of Bus Full-load Rate Based on IC Card Data of Rapid Bus Passengers
Yang Siyuan
(School of Economics&Management,Southwest Jiaotong University,Chengdu 610031,China)
In this paper,we considered the scenario where only the IC card data of the rapid bus passengers was available,then in connection with the running time data of the bus between stops obtained through field investigation,we grouped the passengers based on the interval between their alighting time,from which we could estimate the arrival time of the bus at different stops as well as the quantity of the boarding and alighting passengers and calculate the full-load rate of the bus,and at the end,in the case of the ring-2 rapid bus of Chengdu, we verified the accuracy and practicality of the method.
intelligent traffic;full-load rate;data mining;rapid bus;bus operation
U469.13;F224.0
A
1005-152X(2016)12-0074-05
10.3969/j.issn.1005-152X.2016.12.018
2016-10-08
楊思源(1992-),男,遼寧丹東人,碩士,研究方向:城市公共交通系統(tǒng)分析。