付 甜,劉曉鋒,陳 強(qiáng)
(天津職業(yè)技術(shù)師范大學(xué) 汽車與交通學(xué)院,天津 300222)
隨著城市地鐵線路的擴(kuò)增,城市軌道交通路網(wǎng)的規(guī)模日益擴(kuò)大,運(yùn)營(yíng)組織的形式也逐漸復(fù)雜,從而產(chǎn)生不安全事故可能性加大,其中地鐵站客流量的突增很容易引起擁堵,會(huì)產(chǎn)生安全隱患,因此地鐵運(yùn)營(yíng)部門(mén)需應(yīng)用相關(guān)短時(shí)客流預(yù)測(cè)技術(shù)提前進(jìn)行安全部署,進(jìn)一步減少不安全事故發(fā)生。城市軌道交通客流預(yù)測(cè)方法有很多,如光志瑞[1]使用線性回歸模型對(duì)地鐵進(jìn)出站客流進(jìn)行了預(yù)測(cè),具有較高的實(shí)際意義。王瑩[2]等使用時(shí)間序列模型對(duì)地鐵進(jìn)站量進(jìn)行了預(yù)測(cè),預(yù)測(cè)精度進(jìn)一步提高。李繼鵬[3]等使用灰色理論對(duì)地鐵客流進(jìn)出站客流進(jìn)行了預(yù)測(cè),得到了較為準(zhǔn)確的預(yù)測(cè)結(jié)果。但在某些方面還是有局限性,比如在處理大數(shù)據(jù)集的時(shí)候,速度會(huì)降低精度也不高等。因此,需要找到相關(guān)的技術(shù)和方法來(lái)使我們的客流預(yù)測(cè)精度提高速度也加快。在集成學(xué)習(xí)方法中比較典型的高準(zhǔn)確率、高效率處理大數(shù)據(jù)的模型為樹(shù)模型,代表的模型為XGBoost[4](Extreme Gradient Boosting)和隨機(jī)森林[5](Random Forest,簡(jiǎn)稱RF),XGBoost模型通過(guò)多弱學(xué)習(xí)器并行使用并將其結(jié)果集成起來(lái)作為最終預(yù)測(cè)結(jié)果從而提高精度和速度,所以常在各種算法大賽中看到。隨機(jī)森林模型對(duì)于大數(shù)據(jù)集的處理能力很強(qiáng)并且精度也高。
從預(yù)測(cè)對(duì)象范圍來(lái)看,Wei等[6]在早期的客流預(yù)測(cè)模型中把星期屬性作為影響因素進(jìn)行軌道交通短期客流預(yù)測(cè),提升了精度,但沒(méi)有考慮到了模型的通用性。后有李春曉等[7]將日期進(jìn)行更加細(xì)化的劃分,通過(guò)實(shí)際應(yīng)用可以得到,影響客流的因素有很多,如日期所在星期、節(jié)假日等屬性都有關(guān)系;除此以外,武創(chuàng)等[8]發(fā)現(xiàn),當(dāng)出現(xiàn)極端天氣(如暴雪、暴雨等)時(shí),乘坐地鐵的人數(shù)會(huì)降低,因此,天氣對(duì)乘客的出行也有較大的影響;李國(guó)強(qiáng)等[9]研究發(fā)現(xiàn),興趣點(diǎn)(Point of Interest,POI)數(shù)據(jù)也對(duì)車站客流量有較大影響,不同站點(diǎn)日客流量不等,之所以這樣是因?yàn)檐囌舅幍奈恢?,具有代表性的有些車站周圍是商業(yè)區(qū),有些車站卻處于郊區(qū)等。Jun等[10]研究發(fā)現(xiàn)首爾市軌道交通站點(diǎn)土地利用屬性對(duì)車站站點(diǎn)客流量有較大影響。國(guó)內(nèi)外學(xué)者雖然在地鐵站點(diǎn)短期客流預(yù)測(cè)方面收獲頗多,但對(duì)客流影響因素的進(jìn)一步挖掘從而會(huì)導(dǎo)致模型預(yù)測(cè)精度提高的研究相對(duì)較少。為此,在基于杭州地鐵2019年1月全站客流的歷史AFC刷卡數(shù)據(jù),對(duì)城市軌道交通客流的波動(dòng)特征及影響因素進(jìn)行了分析,并綜合考慮日期屬性、POI屬性以及天氣屬性,將多特征輸入XGBoost模型當(dāng)中;最后,以杭州地鐵客流為例,驗(yàn)證模型的精度。結(jié)果表明,考慮多特征的XGBoost模型與單一XGBOOST模型相比具有更高的預(yù)測(cè)精度。
提取2019年1月1日-25日共四個(gè)星期的進(jìn)站客流數(shù)據(jù),以十分鐘為時(shí)間間隔觀察杭州地鐵每日全站進(jìn)站客流,結(jié)果如圖1所示。圖中可以看出,城市軌道交通客流呈現(xiàn)出以星期為周期的顯著變化特征,其中day1對(duì)應(yīng)曲線為元旦當(dāng)天客流數(shù)據(jù),由圖可以看出除去元旦當(dāng)天的客流數(shù)據(jù)其他客流數(shù)據(jù)呈現(xiàn)以星期為周期的變化規(guī)律,客流基本相似。這一規(guī)律說(shuō)明了地鐵人流量與節(jié)假日有很大的相關(guān)性。
圖1 單日進(jìn)站客流量
提取杭州地鐵站點(diǎn)POI數(shù)據(jù)和2019年1月1日元旦當(dāng)天AFC刷卡數(shù)據(jù)。觀察不同站點(diǎn)客流量并進(jìn)行比較,不同站點(diǎn)人流量會(huì)有很大的差別,重要的樞紐站點(diǎn)人流量負(fù)載會(huì)很大;其中火車東站進(jìn)站人流量高達(dá)201202人次。
市民對(duì)交通方式的選擇會(huì)受到天氣[11]的影響,比如大雪或大雨天氣,汽車或公交車司機(jī)行駛速度會(huì)降低,這會(huì)引起相應(yīng)的道路交通擁堵、安全風(fēng)險(xiǎn)增高。但因?yàn)榈罔F的運(yùn)營(yíng)受天氣影響較小,所以市民更愿意選擇地鐵作為出行交通工具。
XGBoost是一種boosting算法,XGBoost所應(yīng)用的算法是梯度下降樹(shù)的改進(jìn),其核心思想是每迭代一次增加一棵樹(shù),擬合上次預(yù)測(cè)的殘差,進(jìn)而慢慢接近真實(shí)值。并根據(jù)每個(gè)樣本特征,計(jì)算每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的得分,其所有的得分之和即為該樣本的預(yù)測(cè)值。
在軌道交通客流預(yù)測(cè)問(wèn)題上,XGBoost使用的是基本回歸樹(shù)模型,即
式中:為模型預(yù)測(cè)值,xi為第i個(gè)樣本的類別標(biāo)簽,K為樹(shù)的總數(shù),f噪表示第噪棵樹(shù)。
將XGBoost對(duì)這個(gè)樹(shù)進(jìn)行模型學(xué)習(xí)的過(guò)程中的損失函數(shù)定為目標(biāo)函數(shù),當(dāng)目標(biāo)函數(shù)為最小時(shí),此時(shí)模型為最優(yōu)模型,預(yù)測(cè)精度也最高,可表示為
式中:ob(jt)為目標(biāo)函數(shù)值;l()為訓(xùn)練誤差,一般為常數(shù),用來(lái)衡量預(yù)測(cè)分?jǐn)?shù)和真實(shí)分?jǐn)?shù)的差距;Ω((ft))表示第K棵樹(shù)的復(fù)雜度,如式(3)所示。
其中T為該樹(shù)的葉子節(jié)點(diǎn)個(gè)數(shù);γ為節(jié)點(diǎn)切分的難度,控制葉子節(jié)點(diǎn)分?jǐn)?shù),防止過(guò)擬合;ω為葉子的節(jié)點(diǎn)向量模;λ為正則化系數(shù),也防止過(guò)擬合。
模型學(xué)習(xí)過(guò)程中,目標(biāo)函數(shù)越小模型越優(yōu)。XGBoost利用“貪心法”對(duì)決策樹(shù)已有的葉子節(jié)點(diǎn)進(jìn)行分割并獲取最大增益值,為判斷分裂的條件函數(shù)(式4),當(dāng)條件函數(shù)大于0則進(jìn)行切割,若條件函數(shù)小于0則不進(jìn)行切割。其中中括號(hào)里第一項(xiàng)是進(jìn)行切割后左節(jié)點(diǎn)產(chǎn)生增益,第二項(xiàng)是進(jìn)行切割后右節(jié)點(diǎn)產(chǎn)生增益,第三項(xiàng)是切割前增益,XGBoost對(duì)樣本的遍歷轉(zhuǎn)化成了在葉子節(jié)點(diǎn)上的遍歷,特征的選擇和切割可以并行實(shí)現(xiàn)。
以杭州客流量為研究對(duì)象,取1月1日到25日和28日的歷史運(yùn)行數(shù)據(jù)進(jìn)行試驗(yàn),數(shù)據(jù)采集時(shí)間間隔為10 min。其中將前25天的數(shù)據(jù)作為訓(xùn)練樣本,28日的客流數(shù)據(jù)作為測(cè)試樣本。根據(jù)軌道交通站點(diǎn)客流特征分析,選擇AFC數(shù)據(jù)、日期屬性、天氣屬性以及POI數(shù)據(jù)為輸入變量,28日客流數(shù)據(jù)為輸出變量,部分歷史運(yùn)行數(shù)據(jù)見(jiàn)2.3。
影響城市軌道交通短期客流的特征包括:AFC刷卡數(shù)據(jù)、POI數(shù)據(jù)、天氣因素以及日期屬性,具體見(jiàn)表1。
表1 城市軌道交通客流影響因素指標(biāo)體系
其中AFC刷卡數(shù)據(jù)含義見(jiàn)表2,并對(duì)AFC數(shù)據(jù)以10分鐘時(shí)間粒度進(jìn)行匯總。其中日期屬性包括共5個(gè)因素,week為星期,星期一到星期日分別用1到7表示;weekend=周內(nèi)用0表示,weekend=周末用1表示,1月1日為元旦節(jié)假日,屬于異常值,進(jìn)行剔除。天氣屬性用城市的天氣特征(陰、晴、雨、雪以及溫度共5個(gè)屬性)來(lái)表征,其中temp取最高溫最低溫的平均值,晴天用0表示;多云用1表示;陰用2表示;小雨用3表示;中雨用4表示,部分天氣因素見(jiàn)表3。POI數(shù)據(jù)以站點(diǎn)周邊的用地屬性個(gè)數(shù)(如體育休閑服務(wù)、交通樞紐、公共設(shè)施、住宅區(qū)等18個(gè)屬性)來(lái)表征(表4),并將站點(diǎn)轉(zhuǎn)換為數(shù)字,如表4中stationID列數(shù)字。
表2 部分歷史客流數(shù)據(jù)含義
表3 部分天氣數(shù)據(jù)
表4 部分POI數(shù)據(jù)
為預(yù)測(cè)地鐵客流數(shù)據(jù)的變化情況,實(shí)驗(yàn)使用的數(shù)據(jù)分別來(lái)自2019年天池比賽(杭州地鐵站的歷史刷卡數(shù)據(jù))、百度天氣網(wǎng)站(杭州市歷史天氣數(shù)據(jù))以及kaggle網(wǎng)站(POI數(shù)據(jù)),采集杭州地鐵全線2019年1月1日到25日多因素與進(jìn)站客流數(shù)據(jù)作為訓(xùn)練集,28日進(jìn)站客流數(shù)據(jù)作為測(cè)試集,以10 min為間隔統(tǒng)計(jì)數(shù)據(jù);其中地鐵的運(yùn)營(yíng)路線有3條、站點(diǎn)81個(gè)和數(shù)據(jù)約7000萬(wàn)條作為訓(xùn)練集。用考慮多因素的XGBoost模型對(duì)28日進(jìn)站客流量進(jìn)行預(yù)測(cè),并用誤差評(píng)價(jià)指標(biāo)MSE、R2、MAE對(duì)預(yù)測(cè)結(jié)果進(jìn)行準(zhǔn)確性驗(yàn)證,最后與隨機(jī)森林模型進(jìn)行比較研究,分析算法的適用性。
采用最常用的網(wǎng)格搜索,其核心思想是通過(guò)遍歷參數(shù)組合最終選取一個(gè)最優(yōu)組合,在利用構(gòu)建的模型進(jìn)行軌道站點(diǎn)短期客流預(yù)測(cè)時(shí),需要根據(jù)具體模型考慮的具體因素對(duì)模型設(shè)置參數(shù)。
表5 模型主要參數(shù)設(shè)置
采用3.2中的參數(shù)建立相應(yīng)的客流預(yù)測(cè)模型對(duì)28日的軌道交通站點(diǎn)的日進(jìn)站點(diǎn)客流量進(jìn)行預(yù)測(cè),其預(yù)測(cè)結(jié)果如圖2、表6、表7和表8所示。
表6 單一XGBoost模型與單一隨機(jī)森林模型對(duì)比
表6的預(yù)測(cè)結(jié)果表明,模型1的預(yù)測(cè)效果優(yōu)于模型2,模型1的MAE相較于模型2降低11.03%。
表7的預(yù)測(cè)結(jié)果表明,模型8的預(yù)測(cè)效果最好,考慮多因素的隨機(jī)森林預(yù)測(cè)模型精度均高于單一隨機(jī)森林預(yù)測(cè)。其中模型8的MAE相較于模型2降低了17.63%。
表7 單一隨機(jī)森林(模型2)和多特征隨機(jī)森林模型對(duì)比
由表8和圖2的預(yù)測(cè)結(jié)果可知:從預(yù)測(cè)效果上來(lái)看,模型7的預(yù)測(cè)效果最好,考慮多因素的XGBOOST預(yù)測(cè)模型精度均高于單一XGBoost預(yù)測(cè)。其中模型7的MAE相較于模型1降低了26.64%。由此可以看出:XGBoost預(yù)測(cè)模型在不同情形下比隨機(jī)森林預(yù)測(cè)精度好,考慮多因素分析預(yù)測(cè)比單一因素預(yù)測(cè)精度要好。
表8 單一XGBoost模型1)和多特征的XGBoost模型對(duì)比
圖2 不同特征的XGBOOST模型客流預(yù)測(cè)結(jié)果對(duì)比
國(guó)內(nèi)外學(xué)者們對(duì)軌道交通站點(diǎn)客流預(yù)測(cè)的相關(guān)研究取得了豐碩的成果,但涉及站點(diǎn)客流預(yù)測(cè)精準(zhǔn)度的提高、站點(diǎn)客流影響因素的深入挖掘等方面的研究還相對(duì)較少?;诔鞘熊壍澜煌ㄕ军c(diǎn)客流預(yù)測(cè)研究進(jìn)展提出的XGBoost模型,由于綜合考慮了日期、天氣因素、歷史客流數(shù)據(jù)以及土地利用屬性,其客流量的預(yù)測(cè)精度高于隨機(jī)森林模型,同時(shí)也體現(xiàn)出日期等對(duì)人員出行有很大影響,是預(yù)測(cè)客流量不可忽略的因素。在未來(lái)的研究中,可將社會(huì)經(jīng)濟(jì)因素、城市人口數(shù)量、環(huán)境因素、交通接駁條件等多特征作為影響因素來(lái)處理提高站點(diǎn)客流數(shù)據(jù)預(yù)測(cè)精度,以此為研究軌道站點(diǎn)短期客流量的預(yù)測(cè)方法提供一種思路。