陳玥祺,孫亞,朱昊
上海城市綜合交通規(guī)劃科技咨詢有限公司
公交信息服務(wù)是指為乘客提供乘坐公共汽電車出行所需的各類信息服務(wù)。近些年隨著公交信息化的快速發(fā)展,大數(shù)據(jù)、云平臺和移動互聯(lián)網(wǎng)等技術(shù)的逐步普及,公交信息服務(wù)已由傳統(tǒng)的站牌、地圖手冊等靜態(tài)服務(wù)發(fā)展為以互聯(lián)網(wǎng)和手機APP為主、涵蓋公交出行全過程的動態(tài)信息服務(wù)[1]。
國外發(fā)達國家的公交站點除了提供預(yù)計到站時間等動態(tài)信息服務(wù)外,還提供靜態(tài)信息服務(wù)例如公交首末班發(fā)車時間、公交運行線路圖、途經(jīng)本站點的時刻表等。近幾年國內(nèi)很多城市通過電子站牌提供了動態(tài)信息服務(wù),主要是針對離站點最近的一輛公交車。如何對到站預(yù)測信息服務(wù)質(zhì)量進行評價顯得越來越重要。目前到站信息服務(wù)質(zhì)量評價主要集中在定性分析和乘客滿意度評價等方面[2],由于缺乏量化依據(jù),很難對到站預(yù)測信息服務(wù)質(zhì)量進行客觀準(zhǔn)確的評價。
國內(nèi)的到站預(yù)測信息服務(wù)逐漸從傳統(tǒng)的靜態(tài)信息向動態(tài)信息轉(zhuǎn)變,面向公眾的公交實時到站預(yù)報服務(wù)成為公交信息化建設(shè)的重點。目前站點提供的到站預(yù)報服務(wù)以到站時間預(yù)測和站級預(yù)測為主,到站時間預(yù)測即在電子站牌顯示下一班車到本站的時刻或剩余時間。到站時間預(yù)測的準(zhǔn)確不僅與預(yù)測算法有關(guān),還受時間、天氣、設(shè)備精度、運營調(diào)度等因素影響,預(yù)測難度相對較大。站級預(yù)測為顯示下一班車距離本站的站級數(shù),由于以站級為單位,預(yù)測較前者簡單,但對乘客的實用性不強。此外隨著智能手機的普及和移動互聯(lián)網(wǎng)的發(fā)展,基于手機APP發(fā)布的公交實時信息服務(wù)逐漸增多,乘客多了一種獲取信息的途徑[3]。
雖然到站信息服務(wù)發(fā)布方式眾多,但對于核心的到站時間預(yù)測,由于沒有統(tǒng)一的評價量綱,因此很難對其服務(wù)質(zhì)量進行準(zhǔn)確評價。而公交線路臨時改線使得站點信息來不及更新發(fā)布、道路突發(fā)擁堵導(dǎo)致到站時間預(yù)測準(zhǔn)確度下降,市民針對公交信息服務(wù)的投訴也有越來越多的趨勢[4]。
在國家層面同樣缺少對到站信息服務(wù)質(zhì)量評價的標(biāo)準(zhǔn),如何確定評價指標(biāo),如何設(shè)定評價閾值,以達到公眾和行業(yè)都能接受的程度。對此,本文將結(jié)合以上問題,研究建立一個公交到站預(yù)測信息服務(wù)質(zhì)量的評價體系。
研究將分為兩部分,第一部分對公交線路到站時間預(yù)測的準(zhǔn)確率進行分析,第二部分對時刻表線路的到站準(zhǔn)點率進行分析。
公交到站時間預(yù)測準(zhǔn)確率是利用公交車輛實際到站時間(GPS到離站數(shù)據(jù))和公交車輛預(yù)測到站時間,基于客觀的大數(shù)據(jù),分析距離站點最近一輛公交車的到站預(yù)測精度。通過對應(yīng)的評價指標(biāo),對到站預(yù)測準(zhǔn)確率進行評價。
時刻表線路是指在各站點(包括首末站和中途站)的站牌上張貼靜態(tài)時刻表的公交線路。該靜態(tài)時刻表顯示各個班次到達該站的時間,乘客可通過該時刻表大致了解公交車的到站時間,以方便安排出行時間[5]。對于時刻表線路的準(zhǔn)點率,利用站點靜態(tài)時刻表與公交GPS實際到離站數(shù)據(jù)的比對,通過對應(yīng)指標(biāo),對時刻表線路的到站準(zhǔn)點率進行評價。時刻表雖然是靜態(tài)公交信息服務(wù),但比起動態(tài)的到站預(yù)測信息,其變量因素更多,預(yù)測難度也更大。
圖1 技術(shù)路線
對于到站時間預(yù)測準(zhǔn)確率,預(yù)測的偏差程度為評價重點,本文將從相對偏差和絕對偏差兩方面對預(yù)測準(zhǔn)確率進行評判。
一、相對偏差準(zhǔn)確度
在統(tǒng)計時段內(nèi),預(yù)測信息的準(zhǔn)確率大等于80%的預(yù)測次數(shù)占全部預(yù)測次數(shù)的比例,即為相對偏差準(zhǔn)確度[6]。
對某一次預(yù)測的準(zhǔn)確率,計算公式如下:
式中:
Ci—第i次預(yù)測的準(zhǔn)確率。偏差小于120s為100%準(zhǔn)確,偏差大于實際行程時間,準(zhǔn)確率為0。其它情況則在0-100%之間線性插值計算。
Infr—實際行程時間。
Inff—預(yù)計行程時間。
二、絕對偏差準(zhǔn)確度
某次預(yù)測到站時刻和實際到站時刻偏差n分鐘之內(nèi)認為該次預(yù)測準(zhǔn)確。在統(tǒng)計時段內(nèi),預(yù)測準(zhǔn)確的次數(shù)占全部預(yù)測次數(shù)的比例,即為絕對偏差準(zhǔn)確度[6]。
時刻表線路準(zhǔn)點率分為首站準(zhǔn)點率和中途站準(zhǔn)點率。
時刻表線路需重點考慮靜態(tài)時刻表顯示的到站時刻與公交車輛實際到站時刻之間的偏差,即時刻表的準(zhǔn)點率。
靜態(tài)時刻表和實際到站時刻的絕對偏差n分鐘之內(nèi)認為該班次時刻表準(zhǔn)確。在統(tǒng)計時段內(nèi),準(zhǔn)確班次的數(shù)量占總班次數(shù)量的比例即為時刻表線路準(zhǔn)點率[6]。
基于上述評價指標(biāo),計算公交線路到站預(yù)報相對偏差準(zhǔn)確度、到站預(yù)報絕對偏差準(zhǔn)確度以及時刻表線路到站準(zhǔn)點率。對于這些分析數(shù)據(jù)如何進行分類并確定閾值,是本文研究的重點。由于計算結(jié)果是針對公交線路各站點各班次,屬于相同類型的數(shù)據(jù),因此本文將采用聚類分析的方法對分析數(shù)據(jù)進行分類評價。
聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程。聚類分析的目標(biāo)就是在相似的基礎(chǔ)上收集數(shù)據(jù)來分類,它是統(tǒng)計學(xué)中研究“物以類聚”問題的多元統(tǒng)計分析方法。聚類分析在統(tǒng)計分析的各應(yīng)用領(lǐng)域得到廣泛的應(yīng)用[7]。
常見的聚類方法有層次聚類和非層次聚類。層次聚類又稱系統(tǒng)聚類,其基本思想是:先將各樣品看成一類,然后規(guī)定類與類間的距離,選擇距離最小的一對合并成新的一類,計算新類與其他類之間的距離,再將距離最近的兩類合并,直至所有樣品合為一類[8]。
層次聚類主要有兩種類型:合并聚類和分裂聚類。合并聚類是一種自底向上的聚類算法,從最底層開始,每一次通過合并最相似的聚類來形成上一層次聚類,不斷重復(fù)直至所有數(shù)據(jù)點合并到一個聚類或達到某個終止條件結(jié)束。分裂聚類采用自頂向下的方法,從一個包含全部數(shù)據(jù)的大類開始,將大類中最疏遠的個體分離出去,形成兩類,然后再依據(jù)相似程度不斷重復(fù)進行分解,直到所有個體都自成一類為止。大部分層次聚類采用合并聚類[9]。
本文通過系統(tǒng)聚類可得到分類的個數(shù),通過聚類分析中各算法科學(xué)性和適用性的比較,最后采用K-means算法作為確定評價閾值的方法。
K-means算法屬于非層次聚類算法,是典型的基于原型的目標(biāo)函數(shù)聚類方法的代表,它以數(shù)據(jù)點到原型的某種距離作為優(yōu)化的目標(biāo)函數(shù),利用函數(shù)求極值的方法得到迭代運算的調(diào)整規(guī)則。K-means算法以歐拉距離作為相似度測度,算法采用誤差平方和準(zhǔn)則函數(shù)作為聚類準(zhǔn)則函數(shù)[10]。歐拉距離公式如下:
K-means算法的核心步驟如下:
1.指定聚類數(shù)目K;
2.確定K個初始類中心點
3.根據(jù)距離最近原則進行分類,若數(shù)據(jù)樣本與初始類中心點的距離滿足
4.重新確定K個類中心點,新中心點
5.判斷是否已經(jīng)滿足終止聚類分析的條件。
聚類分析終止的條件有兩個,第一是迭代次數(shù),當(dāng)?shù)螖?shù)到達指定次數(shù)時將終止聚類;第二是類中心點偏移程度,新確定的類中心點距上次迭代所形成的類中心點的最大偏移量小于指定的量時終止聚類[11]。
K-Means聚類算法的優(yōu)點為:1.算法快速、簡單;2.對大數(shù)據(jù)集有較高的效率并且是可伸縮性的;3.時間復(fù)雜度近于線性,而且適合挖掘大規(guī)模數(shù)據(jù)集[10]。
通過上海市某公交公司2018年1月(包括工作日和雙休日)的公交車輛GPS到離站數(shù)據(jù)和公交車輛到站預(yù)測數(shù)據(jù),進行到站時間預(yù)測準(zhǔn)確率和時刻表線路準(zhǔn)點率分析。其中包括500多條公交線路和近70條時刻表線路,公交GPS到離站數(shù)據(jù)日平均327萬條記錄,車輛預(yù)測到站時間數(shù)據(jù)日平均2億3 800萬條記錄,大致日數(shù)據(jù)量為20G,數(shù)據(jù)量較大。
表1 公交車輛GPS到離站數(shù)據(jù)表結(jié)構(gòu)
表2 公交到站預(yù)測數(shù)據(jù)表結(jié)構(gòu)
GPS到離站數(shù)據(jù)記錄了各條線路各個班次的車輛到達和離開各站點(包括首末站和中途站)的情況,表結(jié)構(gòu)如表1所示:
車輛到站預(yù)測數(shù)據(jù)為公交公司運營調(diào)度系統(tǒng)中根據(jù)車輛當(dāng)前的行駛情況,綜合多因素影響,通過到站預(yù)測算法,計算得出的到站預(yù)測時刻。數(shù)據(jù)表結(jié)構(gòu)如表2所示。
首先通過ORACLE數(shù)據(jù)庫的客戶端軟件PL/SQL以及數(shù)據(jù)編程軟件Python,將GPS到離站數(shù)據(jù)與車輛到站預(yù)測數(shù)據(jù)通過線路名、方向、站級數(shù)和車牌號進行關(guān)聯(lián)。
然后對車輛實際到站時刻進行處理,由于GPS到離站數(shù)據(jù)中的到站時刻實際上只是車輛進入車站范圍的進站時刻,而非真正的到站時刻,因此需要進行數(shù)據(jù)清洗。
接著對到離站數(shù)據(jù)進行篩選,由于整個班次的行程為從首站發(fā)車至抵達終點站,而運營系統(tǒng)預(yù)測的時刻僅為到站時刻,因此GPS到離站數(shù)據(jù)將篩選首站的發(fā)車時刻以及后續(xù)站點的到站時刻。
完成上述各項工作后,將計算預(yù)測時間偏差。預(yù)測時間偏差=預(yù)測到站時間—未來實際到站時間,單位為分鐘。
然后將偏差統(tǒng)計結(jié)果,通過數(shù)據(jù)處理軟件SPSS進行聚類分析,得出分類數(shù)量及分類閾值,最終完成到站預(yù)測信息服務(wù)質(zhì)量評價的具體分級標(biāo)準(zhǔn)。
根據(jù)上文3.1的到站預(yù)測準(zhǔn)確率指標(biāo),將公交線路到站預(yù)測準(zhǔn)確率分為相對偏差準(zhǔn)確度和絕對偏差準(zhǔn)確度進行分析研究。
圖2 數(shù)據(jù)處理流程圖
5.3.1 公交線路到站預(yù)報相對偏差準(zhǔn)確度
1)聚類分析
由于公交行業(yè)規(guī)定最小的發(fā)車間隔為20分鐘,因此乘客的平均候車時間為10分鐘。本次研究以10分鐘為標(biāo)準(zhǔn),計算10分以內(nèi)的各班次各站點的到站偏差準(zhǔn)確度。
首先按到站相對偏差準(zhǔn)確度大小依次排列,將準(zhǔn)確度出現(xiàn)重大變化的數(shù)據(jù)作為最差分類先剔除,對剩余數(shù)據(jù)進行聚類分析。利用系統(tǒng)聚類算法進行拐點分析,確定分類數(shù)量。
當(dāng)聚類數(shù)量為3時,類間距離突然增大。因此認定數(shù)據(jù)較好的相對偏差準(zhǔn)確度分為三類。
然后通過數(shù)據(jù)處理軟件SPSS,利用K-means聚類算法指定聚類數(shù)目K=3進行計算,得到如下結(jié)果:
圖3 聚類碎石圖
表3 聚類中心
表4 K-means聚類結(jié)果
圖4 三類聚類區(qū)間分布
三類不同的聚類區(qū)間分布如圖4所示,橫坐標(biāo)為各條線路,左側(cè)縱坐標(biāo)為到站預(yù)測準(zhǔn)確度,右側(cè)縱坐標(biāo)為聚類編號。
表4中,聚類結(jié)果F較大,聚類結(jié)果組間差大,組內(nèi)差小,說明聚類結(jié)果合理。
2)分類結(jié)論
結(jié)合上文聚類所得的三類,加上被剔除的一類較差數(shù)據(jù),10分鐘內(nèi)的公交線路到站相對偏差準(zhǔn)確度分類如下:
表5 公交線路到站預(yù)報相對偏差準(zhǔn)確度分類
5.3.2 公交線路到站預(yù)報絕對偏差準(zhǔn)確度
1) 聚類分析
按照公交行業(yè)“快一慢三”的準(zhǔn)點原則,以3分鐘為偏差區(qū)間,計算各班次各站點的到站預(yù)測偏差情況,然后按到站絕對偏差準(zhǔn)確度依次排列,將偏差出現(xiàn)重大變化的數(shù)據(jù)作為最差分類先剔除,再進行聚類分析。聚類方法及過程同5.3.1,確定分類數(shù)量為三類。
2)分類結(jié)論
結(jié)合聚類所得的三類,加上被剔除的一類較差數(shù)據(jù),3分鐘偏差區(qū)間下的公交線路到站絕對偏差準(zhǔn)確度分類如下:
表6 公交線路到站預(yù)報絕對偏差準(zhǔn)確度分類
表7 綜合評價分類
5.3.3 綜合評價
為了保證評價和分級結(jié)果的可靠性,綜合兩個關(guān)鍵指標(biāo)(相對指標(biāo)和絕對指標(biāo)),進行綜合評價。
綜合兩個評價指標(biāo),500多條公交線路的總體綜合評價分布如下表所示。
表8 綜合評價結(jié)果
由表8可見,目前70%的公交線路到站預(yù)測準(zhǔn)確率在B級以上,預(yù)測方法整體上較為真實可信。
5.3.4 預(yù)測誤差分析
對公交到站時間預(yù)測數(shù)據(jù)的分析,特別是D類公交線路,總結(jié)了以下4類主要誤差原因:
① 車輛GPS數(shù)據(jù)部分時間段缺失;
② 車輛GPS數(shù)據(jù)站點序號錯亂;
③ 公交線路招呼站站點過多;
④ 首站計劃發(fā)車和實際發(fā)車不符。
前兩類部分由于終端設(shè)備、通訊等方面原因,也有公交線路周邊建筑高處定位信號遮擋原因。后兩類則屬于公交公司營運管理的問題,需要公交公司在今后加強營運調(diào)度的監(jiān)管。
時刻表線路準(zhǔn)點率分為首站準(zhǔn)點率和中途站準(zhǔn)點率。首站準(zhǔn)點率是分析首站發(fā)車時刻與時刻表首站發(fā)車時刻的偏差情況,中途站準(zhǔn)點率是分析中途站到站時刻與時刻表中途站到站時刻的偏差情況。
5.4.1 首站準(zhǔn)點率
首先提取所有時刻表線路的首站發(fā)車時刻信息。與上文類似,將首站發(fā)車準(zhǔn)點率依次排列,將準(zhǔn)點率出現(xiàn)重大變化的數(shù)據(jù)作為最差分類剔除,再進行聚類分析,確定分為三類。聚類方法及過程同5.3.1。
3分鐘偏差區(qū)間下時刻表線路首站準(zhǔn)點率分類如下:
表9 首站準(zhǔn)點率分類
5.4.2 中途站準(zhǔn)點率分類
與首站方法類似,將中途站到站準(zhǔn)點率依次排列,剔除最差分類數(shù)據(jù),接著進行聚類分析,確定分為三類。
3分鐘偏差區(qū)間下時刻表線路中途站準(zhǔn)點率分類如下:
表10 中途站準(zhǔn)點率分類
5.4.3 準(zhǔn)點率誤差原因分析
結(jié)合時刻表線路到站準(zhǔn)點率數(shù)據(jù)的分析,總結(jié)了以下兩類主要誤差原因:
① 首站,實際發(fā)車時刻與時刻表發(fā)車時刻偏差較大。
② 中途站,站站間的實際行程時間間隔與時刻表行程時間間隔偏差較大。
對于公交公司,一方面在首站要確保發(fā)車時刻與時刻表時刻一致,減少首站的誤差;另一方面中途站的站間行程時間間隔的預(yù)測要考慮歷史數(shù)據(jù)、不同時段、不同路段及天氣狀況等多種因素,盡量減少與實際情況的誤差,從而提高時刻表的準(zhǔn)點性。
5.4.4 未實施時刻表線路的推廣分析
對于未實施時刻表的公交線路,通過計算其班次行程時間均值、行程時間標(biāo)準(zhǔn)差、變異系數(shù)等指標(biāo),分析線路運行的穩(wěn)定性,將穩(wěn)定性好的線路作為儲備線路,為下一步推廣時刻表化運營提供數(shù)據(jù)支持。
到站預(yù)測信息服務(wù)質(zhì)量的核心即提高公交到站時間預(yù)報的準(zhǔn)確性。對于到站時間預(yù)測可通過三個方面進行改進:
① 到站預(yù)測算法的建議:針對早高峰預(yù)測中車輛晚到的情況,建議算法進一步優(yōu)化邏輯和相應(yīng)參數(shù),減少預(yù)測偏差,以改善乘客體驗。
② 調(diào)度管理改進建議:線路首站實際發(fā)車和計劃保持一致,計劃發(fā)車時刻更新應(yīng)及時,并與預(yù)報算法同步。
③ 調(diào)度設(shè)備改進建議:特別是中心城外地區(qū)的調(diào)度設(shè)備改進,減少公交GPS定位數(shù)據(jù)的丟失、錯誤等情況,減少設(shè)備對預(yù)測誤差的影響。
對于時刻表線路有四方面的改善建議:
① 對于線路,分析非時刻表線路和時刻表線路的運行穩(wěn)定性等運行特征,對時刻表線路的基礎(chǔ)條件進行分類分析,將條件較好的非時刻表線路作為線路儲備。
② 對于首站,改善調(diào)度管理,提高實際發(fā)車時刻與時刻表發(fā)車時刻的相符性。根據(jù)長期歷史實際客流數(shù)據(jù)(APC等),優(yōu)化首站發(fā)車計劃時刻表,盡量與客流相符。
③ 對于中途站,根據(jù)長期歷史GPS數(shù)據(jù),制定并定期優(yōu)化中途站時刻表,與駕駛行為、道路路況等變化因素相適應(yīng)。
此外對于時刻表線路還可以采取組合策略,例如周末結(jié)合工作日,全天結(jié)合平峰,全站結(jié)合大站等方式,從條件好的著手,從易到難。