基金項目:
2021年度廣西高校中青年教師科研基礎(chǔ)能力提升項目“基于DALI及無線技術(shù)的智能照明控制系統(tǒng)的研究與應(yīng)用”(編號:2021KY1125)
作者簡介:
王菊嬌(1986—),碩士,講師,工程師,研究方向:電子信息技術(shù),物聯(lián)網(wǎng)技術(shù)、計算機(jī)應(yīng)用技術(shù)。
摘要:針對軌道交通客流量預(yù)測問題,文章以南寧市軌道交通1號線為對象,提出了一種基于多模型Stacking集成學(xué)習(xí)的方法,對客流量進(jìn)行預(yù)測并進(jìn)行評估。通過融合XGBoost、LightGBM和LSTM模型,利用各模型優(yōu)勢互補(bǔ),降低過擬合風(fēng)險,提高預(yù)測準(zhǔn)確性和泛化能力。結(jié)果顯示:Stacking模型在客流量預(yù)測中表現(xiàn)優(yōu)異,與實際值接近,評價指標(biāo)表現(xiàn)良好,可有效提高運(yùn)營效率和管理決策水平。
關(guān)鍵詞:軌道交通;客流量預(yù)測;Stacking集成學(xué)習(xí)
中圖分類號:U491.1+4文獻(xiàn)標(biāo)識碼:A 47 157 3
0 引言
近年來,城市軌道交通迅速發(fā)展,據(jù)2023年數(shù)據(jù)顯示,全國已有66座城市開通城市軌道交通,總線路長度達(dá)11 900.29 km,其中僅當(dāng)年新增的城市軌道交通運(yùn)營線路長度達(dá)884.55 km,占全球新增線路長度的42.56%。高效便捷、綠色經(jīng)濟(jì)的軌道交通,日益成為人們的優(yōu)選出行工具。然而,軌道交通系統(tǒng)面臨諸如天氣變化,大型文體活動、重大節(jié)假日等造成客流量激增,交通擁堵等問題,除了直接影響著交通運(yùn)營的效率和乘客出行體驗,甚至還會引發(fā)公共安全事件。因此,準(zhǔn)確預(yù)測客流量可以掌握客流規(guī)律和特點,幫助軌道交通提前制定預(yù)案,對優(yōu)化軌道交通系統(tǒng)的運(yùn)營、緩解交通擁堵、提升服務(wù)質(zhì)量以及改善乘客出行體驗至關(guān)重要。
當(dāng)前學(xué)術(shù)界關(guān)于短期客流預(yù)測的方法有很多,趙鵬等[1]用ARIMA模型對客流量進(jìn)行預(yù)測取得一定的成果,但在處理非線性和突發(fā)性數(shù)據(jù)時表現(xiàn)有限;付甜等[2]使用多因素XGBoost進(jìn)行城市軌道交通短時客流預(yù)測,較好地分析客流量與天氣、日期等多種影響因素的關(guān)系模型,利用歷史數(shù)據(jù)進(jìn)行較準(zhǔn)確預(yù)測,不足的是涉及的環(huán)境因素相對較少;韓皓等[3]研究的LightGBM預(yù)測模型,不需要對數(shù)據(jù)進(jìn)行假定,利用其高效性能和較快的訓(xùn)練速度來處理大規(guī)模數(shù)據(jù)集,并取得較好的預(yù)測效果,但在數(shù)據(jù)量較小或噪聲較多的情況容易過擬合;孫越等[4]對原始數(shù)據(jù)進(jìn)行分析和特征提取,訓(xùn)練LSTM模型和ARMA模型,通過組合模型對鐵路客流量預(yù)測,但在多因素影響方面存在改進(jìn)空間。
由于影響軌道交通短時客流量的因素很多,如天氣、時間、特殊事項等,其數(shù)據(jù)具有周期性、非線性和隨機(jī)性,在上述單模型算法和同質(zhì)組合模型中,存在著一定的局限性,如處理非線性關(guān)系時表現(xiàn)有限,容易過擬合,多因素影響上表現(xiàn)不佳等問題。針對這些挑戰(zhàn),本文提出了一種基于多模型Stacking集成學(xué)習(xí)的軌道交通短時客流量預(yù)測方法。該方法通過融合多種優(yōu)秀的異質(zhì)模型(XGBoost、LightGBM、LSTM),訓(xùn)練并預(yù)測最終的客流量結(jié)果,綜合利用各模型優(yōu)勢,彌補(bǔ)其不足,降低過擬合風(fēng)險,提高整體預(yù)測性能和泛化能力,從而實現(xiàn)更準(zhǔn)確和穩(wěn)健的客流量預(yù)測。
1 模型準(zhǔn)備
1.1 XGBoost算法
XGBoost算法[5]處理一些不規(guī)則數(shù)據(jù)有較大的優(yōu)勢,屬于集成學(xué)習(xí)中的Boosting框架算法,包括多個CART(分類回歸樹)的集成,采取迭代增加樹,擬合上一輪迭代中預(yù)測值和真實值的殘差,逐步逼近真實數(shù)值。
XGBoost的預(yù)測模型公式如下:
y︿i=∑mm=1fm(xi)
(1)
式中:m——樹的總量;
fm——第m棵樹;
y︿i——數(shù)據(jù)xi的對應(yīng)的預(yù)測結(jié)果。
1.2 LightGBM算法
LightGBM是一種基于決策樹算法(GBDT)的梯度提升框架,采用基于直方圖的決策樹算法,通過Leaf-wise生長策略來構(gòu)建樹,同時引入了互斥特征捆綁和直方圖做差等技術(shù),以提高訓(xùn)練效率和預(yù)測性能。
LightGBM利用直方圖算法,將連續(xù)的浮點特征(#data)分割為k個離散數(shù)值(分桶bins),建立寬度為k的直方圖,遍歷訓(xùn)練數(shù)據(jù),計算每個離散值在直方圖中的累積統(tǒng)計量,根據(jù)直方圖的離散值來尋找最優(yōu)的分割點。如下頁圖1所示。
LightGBM采用Leaf-wise(按葉子生長)生長策略,能夠在更小的計算代價上建立所需的決策樹。每次從當(dāng)前所有葉子中找到分裂增益最大(一般也是數(shù)據(jù)量最大)的一個葉子,然后分裂,如此循環(huán),但需要控制樹的深度和每個葉子節(jié)點的最小數(shù)據(jù)量,從而減少過擬合。如圖2所示。
1.3 LSTM算法
基于Stacking集成學(xué)習(xí)的軌道交通短時客流量預(yù)測研究/
王菊嬌,闕凡博
LSTM(Long Short-Term Memory)如圖3所示,是一種專門用于處理時間序列數(shù)據(jù)的深度學(xué)習(xí)模型,具有記憶單元和門控機(jī)制,能夠有效捕捉長期依賴關(guān)系。通過遺忘門、輸入門和輸出門的調(diào)控神經(jīng)元細(xì)胞的信息流動,避免梯度消失或梯度爆炸問題,從而在處理序列數(shù)據(jù)時表現(xiàn)更為優(yōu)越。
1.4 Stacking模型
Stacking是一種集成學(xué)習(xí)方法,其通過將多個基礎(chǔ)模型的預(yù)測結(jié)果作為新特征,并通過訓(xùn)練一個次級模型來融合基本模型的預(yù)測結(jié)果。由于兩次所使用的訓(xùn)練數(shù)據(jù)不同,因此可以在一定程度上防止過擬合。本研究采用兩層的學(xué)習(xí)器構(gòu)成,初級學(xué)習(xí)器使用兩種模型,分別是處理不規(guī)則數(shù)據(jù)效果好的XGBoost和效率性能佳的LightGBM,次級學(xué)習(xí)器使用預(yù)測能力強(qiáng)的LSTM深度神經(jīng)網(wǎng)絡(luò),可以捕捉數(shù)據(jù)中的重要模式和特征。
2 模型融合與預(yù)測結(jié)果分析
本文對南寧軌道交通1號線進(jìn)行短時客流預(yù)測分析。1號線是南寧軌道交通系統(tǒng)的首條地鐵線路,全線長32.1 km,起點站為石埠,終點為南寧東站,沿途有25座地下站。
2.1 客流量數(shù)據(jù)分析
客流量數(shù)據(jù)選取的時間為2023-11-06至2023-12-03(4周),并通過官網(wǎng)獲取這個時間段的天氣和氣溫情況。軌道交通1號線各個車站客流量如圖4所示。由圖4可知,在南寧市軌道交通1號線25個車站中,客流量較多的有火車東站、瑯東客運(yùn)站、會展中心站、廣西大學(xué)站、動物園站和朝陽廣場站,這里選取客流量最多的朝陽廣場站作為研究對象。圖5~6為地鐵1號線朝陽廣場站一個月內(nèi)6:30-23:00的進(jìn)站量的分布曲線??土髟谠绺叻搴屯砀叻逵休^大的波動性。另外,朝陽廣場站的客流量整體體現(xiàn)了以星期為周期的波動規(guī)律,周一到周五晚高峰客流量明顯增多,周六、周日客流量增多,同時也受溫度、天氣和所處地段的影響(見圖7)。
對客流量相關(guān)的數(shù)據(jù)特征進(jìn)行分類,分為區(qū)域類型、日期、氣溫、天氣、特殊事件類型等,如表1所示。
2.2 模型融合
基于Stacking集成學(xué)習(xí)的軌道交通短時客流量預(yù)測是通過集成兩層學(xué)習(xí)器,第一層學(xué)習(xí)器采用XGBoost、LightGBM,第二層學(xué)習(xí)器采用LSTM。對應(yīng)的步驟如下:
步驟一:數(shù)據(jù)準(zhǔn)備,將軌道交通客流的原數(shù)據(jù)劃分為兩大類,一類是用于訓(xùn)練的數(shù)據(jù)的集合T,另一類是用于測試的數(shù)據(jù)集合V。按日期進(jìn)行分類,A類為周一~周四的數(shù)據(jù),B類為周五數(shù)據(jù),C類為雙休日數(shù)據(jù)。以A類數(shù)據(jù)預(yù)測為例結(jié)合其他特征參數(shù)進(jìn)行分析,將4周中A類數(shù)據(jù)共16 d的數(shù)據(jù),按照15 min粒度的客流量進(jìn)行分析,時間為南寧地鐵1號線的運(yùn)營時間6:30-23:00,每天67條數(shù)據(jù),合計有1 072條數(shù)據(jù)。將前15 d的數(shù)據(jù)歸為訓(xùn)練集,后1 d的數(shù)據(jù)歸為測試集。
步驟二:初級學(xué)習(xí)器訓(xùn)練過程,如圖8所示。采用XGBoost、LightGBM兩類基模型對訓(xùn)練集合T數(shù)據(jù)處理,將訓(xùn)練集隨機(jī)平分為等5個子集T1、T2、T3、T4、T5,即將前15 d共1 005條客流量數(shù)據(jù)均分成5份,每份客流量數(shù)據(jù)為201條。其中4個子集用作訓(xùn)練集,剩下的1個子集用作測試集,將子集連續(xù)進(jìn)行5次迭代。每次迭代完成后,就使用原始測試集進(jìn)行預(yù)測,得到一個預(yù)測結(jié)果Y,每個基學(xué)習(xí)器進(jìn)行5折交叉驗證會得到對應(yīng)的預(yù)測結(jié)果,這樣就會產(chǎn)生特征樣本的預(yù)測集{Y1,Y2,Y3,Y4,Y5}。5次迭代結(jié)束后,對每一次預(yù)測的結(jié)果取均值得到基學(xué)習(xí)器的預(yù)測結(jié)果,并將此預(yù)測結(jié)果與訓(xùn)練數(shù)據(jù)集5次的測試結(jié)果保存在一起作為次級學(xué)習(xí)器的特征值。
步驟三:將初級學(xué)習(xí)器訓(xùn)練得到的新訓(xùn)練集Y與測試集C作為輸入,通過第二層學(xué)習(xí)器LSTM用于次級訓(xùn)練,最后輸出城市軌道交通客流量預(yù)測的最終結(jié)果。如圖9所示。
2.3 測試結(jié)果
通過Stacking對多種模型進(jìn)行融合,設(shè)置相關(guān)參數(shù),訓(xùn)練集損失最小時即為最合適的迭代次數(shù)。本研究最佳迭代次數(shù)為195次,其在訓(xùn)練集和測試集最終預(yù)測結(jié)果與真實值對比如圖10和圖11所示。
由圖10、圖11可知,預(yù)測結(jié)果與實際值非常接近,兩條曲線相差很小,說明本研究采用的Stacking模型預(yù)測效果很好。
結(jié)合評價指標(biāo)對模型進(jìn)行評估,主要計算出以下三個參數(shù),得出的結(jié)果如表2所示。
MAPE=1N∑ni=1yi-y︿iyi
(2)
MAE=1N∑ni=1|yi-y︿i|
(3)
RMSE= 1N∑ni=1yi-y︿iyi2
(4)
根據(jù)評估結(jié)果可以看出,Stacking模型的平均絕對百分比MAPE、均方根差RMSE、平均絕對誤差MAE都較小,整體效果良好。
3 結(jié)語
本文以南寧市軌道交通1號線為研究對象,通過Stacking集成學(xué)習(xí)算法進(jìn)行客流量的預(yù)測。選擇XGBoost和LightGBM這兩種基于決策樹算法的梯度提升框架作為基學(xué)習(xí)器,以提高預(yù)測準(zhǔn)確性和泛化能力;利用長短期記憶網(wǎng)絡(luò)(LSTM)作為元學(xué)習(xí)器,充分發(fā)揮其在序列數(shù)據(jù)處理方面的優(yōu)勢。通過對南寧市軌道交通1號線客流量的精準(zhǔn)預(yù)測,可以為城市軌道交通部門提前規(guī)劃運(yùn)營策略,調(diào)整發(fā)車間隔、優(yōu)化運(yùn)營時間等措施,從而提升運(yùn)營效率,為城市軌道交通系統(tǒng)的管理決策提供更精確的支持。
參考文獻(xiàn)
[1]趙 鵬,李 璐. 基于ARIMA模型的城市軌道交通進(jìn)站量[J]. 重慶理工大學(xué)學(xué)報(自然科學(xué)版),2020,39(1):40-44.
[2]付 甜,劉曉鋒,陳 強(qiáng). 多因素的XGBoost城市軌道交通短時客流預(yù)測方法[J].裝備制造技術(shù),2022(10):34-37,56.
[3]韓 皓,徐圣安,趙 蒙. 考慮線網(wǎng)結(jié)構(gòu)的LightGBM軌道交通短時客流預(yù)測模型[J]. 鐵道運(yùn)輸與經(jīng)濟(jì),2021,43(10):109-117.
[4]孫 越,宋曉宇,金莉婷,等. 基于ARMA-LSTM組合模型的鐵路客流量預(yù)測[J]. 計算機(jī)應(yīng)用與軟件,2021,38(12):262-267,273.
[5]張杉基.城市軌道交通短時客流預(yù)測與實證分析研究[D]. 蘭州:蘭州交通大學(xué),2020.