付 甜,劉曉鋒,陳 強
(天津職業(yè)技術(shù)師范大學(xué) 汽車與交通學(xué)院,天津 300222)
隨著城市地鐵線路的擴增,城市軌道交通路網(wǎng)的規(guī)模日益擴大,運營組織的形式也逐漸復(fù)雜,從而產(chǎn)生不安全事故可能性加大,其中地鐵站客流量的突增很容易引起擁堵,會產(chǎn)生安全隱患,因此地鐵運營部門需應(yīng)用相關(guān)短時客流預(yù)測技術(shù)提前進(jìn)行安全部署,進(jìn)一步減少不安全事故發(fā)生。城市軌道交通客流預(yù)測方法有很多,如光志瑞[1]使用線性回歸模型對地鐵進(jìn)出站客流進(jìn)行了預(yù)測,具有較高的實際意義。王瑩[2]等使用時間序列模型對地鐵進(jìn)站量進(jìn)行了預(yù)測,預(yù)測精度進(jìn)一步提高。李繼鵬[3]等使用灰色理論對地鐵客流進(jìn)出站客流進(jìn)行了預(yù)測,得到了較為準(zhǔn)確的預(yù)測結(jié)果。但在某些方面還是有局限性,比如在處理大數(shù)據(jù)集的時候,速度會降低精度也不高等。因此,需要找到相關(guān)的技術(shù)和方法來使我們的客流預(yù)測精度提高速度也加快。在集成學(xué)習(xí)方法中比較典型的高準(zhǔn)確率、高效率處理大數(shù)據(jù)的模型為樹模型,代表的模型為XGBoost[4](Extreme Gradient Boosting)和隨機森林[5](Random Forest,簡稱RF),XGBoost模型通過多弱學(xué)習(xí)器并行使用并將其結(jié)果集成起來作為最終預(yù)測結(jié)果從而提高精度和速度,所以常在各種算法大賽中看到。隨機森林模型對于大數(shù)據(jù)集的處理能力很強并且精度也高。
從預(yù)測對象范圍來看,Wei等[6]在早期的客流預(yù)測模型中把星期屬性作為影響因素進(jìn)行軌道交通短期客流預(yù)測,提升了精度,但沒有考慮到了模型的通用性。后有李春曉等[7]將日期進(jìn)行更加細(xì)化的劃分,通過實際應(yīng)用可以得到,影響客流的因素有很多,如日期所在星期、節(jié)假日等屬性都有關(guān)系;除此以外,武創(chuàng)等[8]發(fā)現(xiàn),當(dāng)出現(xiàn)極端天氣(如暴雪、暴雨等)時,乘坐地鐵的人數(shù)會降低,因此,天氣對乘客的出行也有較大的影響;李國強等[9]研究發(fā)現(xiàn),興趣點(Point of Interest,POI)數(shù)據(jù)也對車站客流量有較大影響,不同站點日客流量不等,之所以這樣是因為車站所處的位置,具有代表性的有些車站周圍是商業(yè)區(qū),有些車站卻處于郊區(qū)等。Jun等[10]研究發(fā)現(xiàn)首爾市軌道交通站點土地利用屬性對車站站點客流量有較大影響。國內(nèi)外學(xué)者雖然在地鐵站點短期客流預(yù)測方面收獲頗多,但對客流影響因素的進(jìn)一步挖掘從而會導(dǎo)致模型預(yù)測精度提高的研究相對較少。為此,在基于杭州地鐵2019年1月全站客流的歷史AFC刷卡數(shù)據(jù),對城市軌道交通客流的波動特征及影響因素進(jìn)行了分析,并綜合考慮日期屬性、POI屬性以及天氣屬性,將多特征輸入XGBoost模型當(dāng)中;最后,以杭州地鐵客流為例,驗證模型的精度。結(jié)果表明,考慮多特征的XGBoost模型與單一XGBOOST模型相比具有更高的預(yù)測精度。
提取2019年1月1日-25日共四個星期的進(jìn)站客流數(shù)據(jù),以十分鐘為時間間隔觀察杭州地鐵每日全站進(jìn)站客流,結(jié)果如圖1所示。圖中可以看出,城市軌道交通客流呈現(xiàn)出以星期為周期的顯著變化特征,其中day1對應(yīng)曲線為元旦當(dāng)天客流數(shù)據(jù),由圖可以看出除去元旦當(dāng)天的客流數(shù)據(jù)其他客流數(shù)據(jù)呈現(xiàn)以星期為周期的變化規(guī)律,客流基本相似。這一規(guī)律說明了地鐵人流量與節(jié)假日有很大的相關(guān)性。
圖1 單日進(jìn)站客流量
提取杭州地鐵站點POI數(shù)據(jù)和2019年1月1日元旦當(dāng)天AFC刷卡數(shù)據(jù)。觀察不同站點客流量并進(jìn)行比較,不同站點人流量會有很大的差別,重要的樞紐站點人流量負(fù)載會很大;其中火車東站進(jìn)站人流量高達(dá)201202人次。
市民對交通方式的選擇會受到天氣[11]的影響,比如大雪或大雨天氣,汽車或公交車司機行駛速度會降低,這會引起相應(yīng)的道路交通擁堵、安全風(fēng)險增高。但因為地鐵的運營受天氣影響較小,所以市民更愿意選擇地鐵作為出行交通工具。
XGBoost是一種boosting算法,XGBoost所應(yīng)用的算法是梯度下降樹的改進(jìn),其核心思想是每迭代一次增加一棵樹,擬合上次預(yù)測的殘差,進(jìn)而慢慢接近真實值。并根據(jù)每個樣本特征,計算每個節(jié)點對應(yīng)的得分,其所有的得分之和即為該樣本的預(yù)測值。
在軌道交通客流預(yù)測問題上,XGBoost使用的是基本回歸樹模型,即
式中:為模型預(yù)測值,xi為第i個樣本的類別標(biāo)簽,K為樹的總數(shù),f噪表示第噪棵樹。
將XGBoost對這個樹進(jìn)行模型學(xué)習(xí)的過程中的損失函數(shù)定為目標(biāo)函數(shù),當(dāng)目標(biāo)函數(shù)為最小時,此時模型為最優(yōu)模型,預(yù)測精度也最高,可表示為
式中:ob(jt)為目標(biāo)函數(shù)值;l()為訓(xùn)練誤差,一般為常數(shù),用來衡量預(yù)測分?jǐn)?shù)和真實分?jǐn)?shù)的差距;Ω((ft))表示第K棵樹的復(fù)雜度,如式(3)所示。
其中T為該樹的葉子節(jié)點個數(shù);γ為節(jié)點切分的難度,控制葉子節(jié)點分?jǐn)?shù),防止過擬合;ω為葉子的節(jié)點向量模;λ為正則化系數(shù),也防止過擬合。
模型學(xué)習(xí)過程中,目標(biāo)函數(shù)越小模型越優(yōu)。XGBoost利用“貪心法”對決策樹已有的葉子節(jié)點進(jìn)行分割并獲取最大增益值,為判斷分裂的條件函數(shù)(式4),當(dāng)條件函數(shù)大于0則進(jìn)行切割,若條件函數(shù)小于0則不進(jìn)行切割。其中中括號里第一項是進(jìn)行切割后左節(jié)點產(chǎn)生增益,第二項是進(jìn)行切割后右節(jié)點產(chǎn)生增益,第三項是切割前增益,XGBoost對樣本的遍歷轉(zhuǎn)化成了在葉子節(jié)點上的遍歷,特征的選擇和切割可以并行實現(xiàn)。
以杭州客流量為研究對象,取1月1日到25日和28日的歷史運行數(shù)據(jù)進(jìn)行試驗,數(shù)據(jù)采集時間間隔為10 min。其中將前25天的數(shù)據(jù)作為訓(xùn)練樣本,28日的客流數(shù)據(jù)作為測試樣本。根據(jù)軌道交通站點客流特征分析,選擇AFC數(shù)據(jù)、日期屬性、天氣屬性以及POI數(shù)據(jù)為輸入變量,28日客流數(shù)據(jù)為輸出變量,部分歷史運行數(shù)據(jù)見2.3。
影響城市軌道交通短期客流的特征包括:AFC刷卡數(shù)據(jù)、POI數(shù)據(jù)、天氣因素以及日期屬性,具體見表1。
表1 城市軌道交通客流影響因素指標(biāo)體系
其中AFC刷卡數(shù)據(jù)含義見表2,并對AFC數(shù)據(jù)以10分鐘時間粒度進(jìn)行匯總。其中日期屬性包括共5個因素,week為星期,星期一到星期日分別用1到7表示;weekend=周內(nèi)用0表示,weekend=周末用1表示,1月1日為元旦節(jié)假日,屬于異常值,進(jìn)行剔除。天氣屬性用城市的天氣特征(陰、晴、雨、雪以及溫度共5個屬性)來表征,其中temp取最高溫最低溫的平均值,晴天用0表示;多云用1表示;陰用2表示;小雨用3表示;中雨用4表示,部分天氣因素見表3。POI數(shù)據(jù)以站點周邊的用地屬性個數(shù)(如體育休閑服務(wù)、交通樞紐、公共設(shè)施、住宅區(qū)等18個屬性)來表征(表4),并將站點轉(zhuǎn)換為數(shù)字,如表4中stationID列數(shù)字。
表2 部分歷史客流數(shù)據(jù)含義
表3 部分天氣數(shù)據(jù)
表4 部分POI數(shù)據(jù)
為預(yù)測地鐵客流數(shù)據(jù)的變化情況,實驗使用的數(shù)據(jù)分別來自2019年天池比賽(杭州地鐵站的歷史刷卡數(shù)據(jù))、百度天氣網(wǎng)站(杭州市歷史天氣數(shù)據(jù))以及kaggle網(wǎng)站(POI數(shù)據(jù)),采集杭州地鐵全線2019年1月1日到25日多因素與進(jìn)站客流數(shù)據(jù)作為訓(xùn)練集,28日進(jìn)站客流數(shù)據(jù)作為測試集,以10 min為間隔統(tǒng)計數(shù)據(jù);其中地鐵的運營路線有3條、站點81個和數(shù)據(jù)約7000萬條作為訓(xùn)練集。用考慮多因素的XGBoost模型對28日進(jìn)站客流量進(jìn)行預(yù)測,并用誤差評價指標(biāo)MSE、R2、MAE對預(yù)測結(jié)果進(jìn)行準(zhǔn)確性驗證,最后與隨機森林模型進(jìn)行比較研究,分析算法的適用性。
采用最常用的網(wǎng)格搜索,其核心思想是通過遍歷參數(shù)組合最終選取一個最優(yōu)組合,在利用構(gòu)建的模型進(jìn)行軌道站點短期客流預(yù)測時,需要根據(jù)具體模型考慮的具體因素對模型設(shè)置參數(shù)。
表5 模型主要參數(shù)設(shè)置
采用3.2中的參數(shù)建立相應(yīng)的客流預(yù)測模型對28日的軌道交通站點的日進(jìn)站點客流量進(jìn)行預(yù)測,其預(yù)測結(jié)果如圖2、表6、表7和表8所示。
表6 單一XGBoost模型與單一隨機森林模型對比
表6的預(yù)測結(jié)果表明,模型1的預(yù)測效果優(yōu)于模型2,模型1的MAE相較于模型2降低11.03%。
表7的預(yù)測結(jié)果表明,模型8的預(yù)測效果最好,考慮多因素的隨機森林預(yù)測模型精度均高于單一隨機森林預(yù)測。其中模型8的MAE相較于模型2降低了17.63%。
表7 單一隨機森林(模型2)和多特征隨機森林模型對比
由表8和圖2的預(yù)測結(jié)果可知:從預(yù)測效果上來看,模型7的預(yù)測效果最好,考慮多因素的XGBOOST預(yù)測模型精度均高于單一XGBoost預(yù)測。其中模型7的MAE相較于模型1降低了26.64%。由此可以看出:XGBoost預(yù)測模型在不同情形下比隨機森林預(yù)測精度好,考慮多因素分析預(yù)測比單一因素預(yù)測精度要好。
表8 單一XGBoost模型1)和多特征的XGBoost模型對比
圖2 不同特征的XGBOOST模型客流預(yù)測結(jié)果對比
國內(nèi)外學(xué)者們對軌道交通站點客流預(yù)測的相關(guān)研究取得了豐碩的成果,但涉及站點客流預(yù)測精準(zhǔn)度的提高、站點客流影響因素的深入挖掘等方面的研究還相對較少?;诔鞘熊壍澜煌ㄕ军c客流預(yù)測研究進(jìn)展提出的XGBoost模型,由于綜合考慮了日期、天氣因素、歷史客流數(shù)據(jù)以及土地利用屬性,其客流量的預(yù)測精度高于隨機森林模型,同時也體現(xiàn)出日期等對人員出行有很大影響,是預(yù)測客流量不可忽略的因素。在未來的研究中,可將社會經(jīng)濟因素、城市人口數(shù)量、環(huán)境因素、交通接駁條件等多特征作為影響因素來處理提高站點客流數(shù)據(jù)預(yù)測精度,以此為研究軌道站點短期客流量的預(yù)測方法提供一種思路。