馮樹民, 劉 浩, 李來成
(哈爾濱工業(yè)大學(xué) 交通科學(xué)與工程學(xué)院, 哈爾濱 150090)
軌道交通客流預(yù)測(cè)作為軌道交通運(yùn)營管理的重要組成部分,對(duì)提高軌道交通客運(yùn)分擔(dān)率,增加軌道交通運(yùn)營的經(jīng)濟(jì)效益具有重要意義。國內(nèi)外許多學(xué)者對(duì)常態(tài)下的城市軌道交通客流預(yù)測(cè)進(jìn)行了大量的研究,但是實(shí)際運(yùn)營過程中軌道交通客流會(huì)受到工休假日、大型活動(dòng)、雨雪不良天氣等因素的影響,而不良天氣作為最常見的非常態(tài)客流影響因素,極大地影響著客流預(yù)測(cè)模型的預(yù)測(cè)效果。因此有必要結(jié)合不良天氣對(duì)軌道交通客流的影響來完善客流預(yù)測(cè)方法,提高軌道交通客流預(yù)測(cè)精度。
軌道交通客流預(yù)測(cè)的方法主要分為3種,分別為參數(shù)預(yù)測(cè)模型、非參數(shù)預(yù)測(cè)模型和混合預(yù)測(cè)模型。在參數(shù)預(yù)測(cè)模型研究方面,文獻(xiàn)[1]利用社交媒體信息,并使用凸優(yōu)化算法結(jié)合 SARIMA模型來預(yù)測(cè)紐約地鐵的短期客流量。文獻(xiàn)[2]應(yīng)用 SARIMA模型預(yù)測(cè)北京地鐵客流量,并討論客流的變化趨勢(shì)。文獻(xiàn)[3]應(yīng)用ARIMA模型預(yù)測(cè)了常態(tài)城市軌道客流,并介紹了非常態(tài)下(如大型活動(dòng)、特殊天氣等)城市軌道客流的預(yù)測(cè)方法。
非參數(shù)模型由于其能夠從歷史數(shù)據(jù)中獲取比參數(shù)模型更多的特征和規(guī)律,在短期客流預(yù)測(cè)中也得到了更廣泛的應(yīng)用,非參數(shù)模型主要包括支持向量回歸(SVR[4])、神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)等方法。文獻(xiàn)[5]將貪婪搜索算法與K近鄰模型相結(jié)合,并基于互信息來預(yù)測(cè)加利福尼亞州高速公路的短時(shí)交通流量。文獻(xiàn)[6]基于混沌時(shí)間序列理論,構(gòu)建了以RBF神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的交通量預(yù)測(cè)模型。除此之外,深度學(xué)習(xí)和集成學(xué)習(xí)方法,包括深度神經(jīng)網(wǎng)絡(luò)[7]、深度卷積神經(jīng)網(wǎng)絡(luò)、深度遞歸神經(jīng)網(wǎng)絡(luò)[8]、深度信念網(wǎng)絡(luò)[9]和一些集成結(jié)構(gòu)[10]等也隨著人工智能技術(shù)的發(fā)展,被用于客流預(yù)測(cè)問題當(dāng)中。
近年來LSTM長短期記憶神經(jīng)網(wǎng)絡(luò)由于其優(yōu)秀的性能,越來越多的學(xué)者選擇應(yīng)用此模型進(jìn)行交通預(yù)測(cè)。文獻(xiàn)[11]為解決城市軌道客流的異常波動(dòng)問題,建立了基于支持向量回歸(SVR)和LSTM的組合預(yù)測(cè)模型,模型可以準(zhǔn)確預(yù)測(cè)客流波動(dòng)且預(yù)測(cè)準(zhǔn)確度比單個(gè)預(yù)測(cè)模型更高。文獻(xiàn)[12]提出了深度客流量(DeepPF)的概念,結(jié)合環(huán)境因素以及時(shí)空因素建立了 LSTM 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型。文獻(xiàn)[13]利用K-聚類算法提取客流特征,并應(yīng)用LSTM神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)北京地鐵客流。文獻(xiàn)[14]應(yīng)用LSTM神經(jīng)網(wǎng)絡(luò)對(duì)公交上下車客流量進(jìn)行了預(yù)測(cè),結(jié)果表明多個(gè)公交站點(diǎn)的客流量數(shù)據(jù)間存在相關(guān)性。文獻(xiàn)[15]通過結(jié)合Conv-LSTM記憶網(wǎng)絡(luò)和自適應(yīng)K-聚類算法實(shí)現(xiàn)軌道交通客流短期預(yù)測(cè)。文獻(xiàn)[16]考慮軌道交通客流季節(jié)特性,提出基于季節(jié)時(shí)間序列分類模型的軌道交通客流預(yù)測(cè)方法,實(shí)現(xiàn)客流短期預(yù)測(cè)。
現(xiàn)有軌道交通客流量預(yù)測(cè)的研究基礎(chǔ)主要依賴于GPS定位、AFC系統(tǒng)和手機(jī)智能卡信息等數(shù)據(jù)。很少有研究涉及到天氣條件對(duì)客流量的具體影響,然而,天氣條件往往是影響客流變化的關(guān)鍵因素,因此還需結(jié)合天氣條件對(duì)城市軌道客流的具體影響來進(jìn)行客流預(yù)測(cè),以提高預(yù)測(cè)準(zhǔn)確度。本文以哈爾濱市地鐵1號(hào)線進(jìn)出站客流數(shù)據(jù)為基礎(chǔ),分析雨雪天氣下軌道交通客流的波動(dòng)規(guī)律,建立考慮雨雪天氣下軌道交通客流預(yù)測(cè)模型并對(duì)軌道交通客流進(jìn)行預(yù)測(cè),通過MAE、MRE、RMSE等指標(biāo)檢驗(yàn)預(yù)測(cè)結(jié)果,并與SARIMA 、SVM、未考慮雨雪天氣的LSTM預(yù)測(cè)模型進(jìn)行對(duì)比分析,驗(yàn)證預(yù)測(cè)模型的可靠性。該研究對(duì)寒冷地區(qū)軌道交通客運(yùn)分擔(dān)和運(yùn)營管理具有重大的意義。
近年來為了提高預(yù)測(cè)精度,人們提出了許多分析模型,在這些模型中,LSTM神經(jīng)網(wǎng)絡(luò)被公認(rèn)為最合適處理交通預(yù)測(cè)的模型。LSTM神經(jīng)網(wǎng)絡(luò)由基礎(chǔ)記憶單元組成,單個(gè)記憶單元包含輸入門、遺忘門和輸出門。這些門可以判斷先前記憶單元的信息是否會(huì)影響到當(dāng)前記憶單元,使得先前記憶單元中的重要信息可以得到保留,門也可以動(dòng)態(tài)調(diào)整記憶單元的狀態(tài),使LSTM神經(jīng)網(wǎng)絡(luò)能夠在較長時(shí)間跨度內(nèi)捕捉特征,提供更高精度的預(yù)測(cè)結(jié)果。
LSTM神經(jīng)網(wǎng)絡(luò)[12]的單個(gè)記憶單元如圖1所示,其中xt為t時(shí)刻的輸入,ht-1和ht分別為t-1時(shí)刻和t時(shí)刻的隱藏層輸出,ct-1和ct分別為t-1時(shí)刻和t時(shí)刻的記憶單元候選信息。以t時(shí)刻為例,單個(gè)記憶單元中輸入門、遺忘門和輸出門的計(jì)算公式如式(1)~(6)所示。
圖1 LSTM記憶單元結(jié)構(gòu)圖
輸入門:
it=σ(Wi[ht-1,xt]+bi)
(1)
遺忘門:
ft=σ(Wf[ht-1,xt]+bf)
(2)
輸出門:
Ot=σ(Wo[ht-1,xt]+bo)
(3)
記憶單元初始狀態(tài):
(4)
記憶單元輸出狀態(tài):
(5)
隱藏層輸出:
ht=Ot?tanhCt
(6)
式中:Wf,Wi,Wo,Wc為權(quán)重矩陣;bf,bi,bo,bc為偏置項(xiàng);σ表示Sigmoid函數(shù);tanh表示雙曲正切函數(shù);?為Hadamard積。
選用哈爾濱市地鐵1號(hào)線的全線進(jìn)出站客流數(shù)據(jù)(時(shí)間為2017年12月1日至2019年1月31日,共360 000條客流數(shù)據(jù)),客流數(shù)據(jù)包括運(yùn)營日、線路名稱、車站、進(jìn)出站客流量、票務(wù)類型等。由于法定公休節(jié)假日一般以小長假形式進(jìn)行,在節(jié)假日前后均會(huì)對(duì)軌道交通客流造成較大的干擾,節(jié)假日客流數(shù)據(jù)占比較少,其中降雨降雪情況更少,因此剔除法定假日前后1 d的客流數(shù)據(jù)和春節(jié)長假前后3 d的客流數(shù)據(jù),除節(jié)假日外,還剔除城市大型活動(dòng)及突發(fā)事件當(dāng)天的客流數(shù)據(jù)。剔除后為了不影響客流的周期性,使用九期移動(dòng)平均值法[17]補(bǔ)充剔除的客流數(shù)據(jù)。
1)客流基準(zhǔn)值。為了準(zhǔn)確描述軌道交通客流波動(dòng)情況,使用九期移動(dòng)平均法計(jì)算正常天氣條件下的客流基準(zhǔn)值。九期移動(dòng)平均法指當(dāng)前客流的前后四周同一天的客流的均值,計(jì)算過程中如遇到非常態(tài)(降雨、雪等)客流數(shù)據(jù),則舍棄當(dāng)周客流數(shù)據(jù)并提取前(后)一周的常態(tài)客流數(shù)據(jù),直到滿足九期數(shù)據(jù)為止??土骰鶞?zhǔn)值計(jì)算公式為
(7)
2)客流偏差率。為了準(zhǔn)確地量化軌道交通客流波動(dòng)情況,減小土地利用、城市擴(kuò)展等條件對(duì)不同車站客流偏差產(chǎn)生的影響,引入“客流偏差率”[17]來量化客流波動(dòng)情況,客流偏差率指當(dāng)日客流量與客流基準(zhǔn)值差值與客流基準(zhǔn)值的百分比。客流偏差率的計(jì)算公式為
(8)
天氣數(shù)據(jù)源于國家氣象科學(xué)數(shù)據(jù)中心和哈爾濱氣象站(時(shí)間段:2017年12月1日至2019年1月31日,共28 000條天氣數(shù)據(jù)),為研究雨雪天氣的客流波動(dòng)規(guī)律需要對(duì)數(shù)據(jù)進(jìn)行清洗,剔除無效數(shù)據(jù),剔除規(guī)則:1)被剔除軌道交通客流數(shù)據(jù)所對(duì)應(yīng)的天氣數(shù)據(jù)應(yīng)被剔除;2)原始數(shù)據(jù)中降水量標(biāo)記為無數(shù)據(jù)、缺數(shù)據(jù)、降水量小于0.1 mm的天氣數(shù)據(jù)應(yīng)被剔除;3)惡劣天氣(如6級(jí)以上大風(fēng)、冰雹天氣等)的天氣數(shù)據(jù)應(yīng)被剔除。除剔除天氣數(shù)據(jù)外,剩余數(shù)據(jù)均為有效天氣數(shù)據(jù)。
以哈爾濱地鐵1號(hào)線博物館站客流數(shù)據(jù)為例,依據(jù)客流偏差率式(8),計(jì)算工作日雨天、休息日雨天和雪天等不同天氣條件下的客流偏差率,得到博物館車站的降水量與客流偏差率散點(diǎn)圖,如圖2所示(降水包括降雨、降雪、冰雹等多種情況,本文提及降水只包含降雨和降雪兩種情況)。
(a)工作日雨天
(b)休息日雨天
(c)雪天
在圖2(a)中,當(dāng)降雨量小于10 mm時(shí)(小雨),降雨量與客流偏差率無明顯關(guān)系,當(dāng)降雨量大于10 mm后,隨著降雨量的增加,客流偏差率呈下降趨勢(shì);如圖2(b)休息日雨天,隨著降雨量的增加客流偏差率也呈現(xiàn)下降趨勢(shì),并且降雨對(duì)客流的影響相比工作日雨天更強(qiáng);在圖2(c)中,隨著降雪量的增加,客流偏差率呈現(xiàn)上升趨勢(shì)。
分析降水量與客流偏差率的相關(guān)性,結(jié)果見表1。
表1 降水量與客流偏差率相關(guān)性
工作日雨天,降雨量小于10 mm時(shí),降雨量與客流偏差率的相關(guān)系數(shù)為0.006,表明二者無相關(guān)性,降雨量大于10 mm后,相關(guān)系數(shù)為-0.856,呈現(xiàn)顯著的負(fù)相關(guān)關(guān)系;休息日雨天的降雨量與客流偏差率的相關(guān)系數(shù)為-0.907,即存在顯著的負(fù)相關(guān)關(guān)系;雪天的降雪量與客流偏差率的相關(guān)系數(shù)為0.774,呈現(xiàn)顯著的正相關(guān)關(guān)系。
根據(jù)降水量與客流偏差率的相關(guān)關(guān)系,對(duì)不同天氣條件下降水量與客流偏差率進(jìn)行回歸模型擬合,同時(shí)對(duì)不同降水量與客流波動(dòng)持續(xù)時(shí)長關(guān)系進(jìn)行擬合,修正后推導(dǎo)出不同天氣條件下的總客流波動(dòng)區(qū)間和客流波動(dòng)持續(xù)時(shí)長見表2。
表2 不同天氣條件下客流波動(dòng)區(qū)間及客流波動(dòng)持續(xù)時(shí)長
雨雪天氣下軌道交通客流預(yù)測(cè)模型的流程如圖3所示。首先確定影響客流變化的雨雪天氣特征維度(降水量、客流波動(dòng)區(qū)間、客流波動(dòng)影響時(shí)長等),對(duì)雨雪天氣數(shù)據(jù)和客流數(shù)據(jù)進(jìn)行處理,建立預(yù)測(cè)模型后對(duì)LSTM網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練成功后對(duì)特征日期進(jìn)行客流預(yù)測(cè),并對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià),滿意后輸出預(yù)測(cè)結(jié)果。
圖3 雨雪天氣下軌道交通客流預(yù)測(cè)模型流程
1)訓(xùn)練集與測(cè)試集劃分。原始數(shù)據(jù)處理后共分為兩個(gè)子集,前80%的數(shù)據(jù)作為預(yù)測(cè)訓(xùn)練數(shù)據(jù)集,后20%的數(shù)據(jù)作為預(yù)測(cè)測(cè)試數(shù)據(jù)集。
2)數(shù)據(jù)歸一化。為避免不同量級(jí)數(shù)據(jù)整合問題,神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)歸一化處理后統(tǒng)一量綱,其計(jì)算公式為
(9)
3)WI-LSTM參數(shù)構(gòu)建。采用Python編程語言中的Tensorflow編寫WI-LSTM的訓(xùn)練模型和預(yù)測(cè)模型,整個(gè)實(shí)驗(yàn)在Python Keras庫中完成,記憶單元中的默認(rèn)激活函數(shù)為Tanh和Sigmoid函數(shù)。采用Phcharm IDE進(jìn)行編程。經(jīng)過反復(fù)實(shí)驗(yàn),確定WI-LSTM輸入層、隱藏層和輸出層各為1層,隱藏層記憶單元為10。基本特征維度包括:日期、降水量、降水持續(xù)時(shí)長以及量化后的雨雪條件下總客流波動(dòng)區(qū)間和客流波動(dòng)持續(xù)時(shí)長,通過實(shí)驗(yàn)獲得預(yù)測(cè)模型各項(xiàng)參數(shù)見表3。
表3 WI-LSTM預(yù)測(cè)模型參數(shù)
4)WI-LSTM模型訓(xùn)練。完成預(yù)測(cè)模型參數(shù)構(gòu)建后需要對(duì)預(yù)測(cè)模型進(jìn)行訓(xùn)練,為防止欠擬合和過擬合的情況,需調(diào)整相應(yīng)參數(shù)。一般情況下,均方根誤差值小于5%則停止訓(xùn)練。隨著迭代次數(shù)的增加,訓(xùn)練集和測(cè)試集的均方根誤差值會(huì)逐漸減小,在WI-LSTM實(shí)際訓(xùn)練中存在部分過擬合狀態(tài),當(dāng)?shù)螖?shù)達(dá)到30次時(shí)Train loss為0.005 1,Test loss為0.008 1,兩者差值為0.003,說明訓(xùn)練模型表現(xiàn)較好,不存在過擬合和欠擬合狀態(tài),通過多次試驗(yàn)使均方根誤差穩(wěn)定小于0.05,迭代次數(shù)為35。
選擇MAE,RMSE和MRE等評(píng)價(jià)指標(biāo)來檢驗(yàn)預(yù)測(cè)結(jié)果。MAE為平均絕對(duì)誤差,用來反映預(yù)測(cè)值誤差的實(shí)際情況,用來衡量模型的精度。RMSE為均方根誤差,表示偏差的平均值,用來衡量模型的穩(wěn)定性。MRE為平均相對(duì)誤差,用來評(píng)價(jià)模型相對(duì)精度。3種評(píng)價(jià)指標(biāo)分別表示為
(10)
(11)
(12)
為驗(yàn)證WI-LSTM預(yù)測(cè)模型的準(zhǔn)確性,需與其他模型進(jìn)行對(duì)比分析。選取軌道交通客流預(yù)測(cè)中最常用的SARIMA預(yù)測(cè)模型、SVR回歸預(yù)測(cè)模型以及不考慮雨雪天氣的LSTM預(yù)測(cè)模型進(jìn)行對(duì)比分析。同樣以哈爾濱地鐵1號(hào)線的數(shù)據(jù)為基礎(chǔ),建立了SARIMA預(yù)測(cè)模型和SVR回歸預(yù)測(cè)模型,預(yù)測(cè)的目標(biāo)是1 h間隔的進(jìn)站客流,這3個(gè)模型使用相同的訓(xùn)練數(shù)據(jù),每一個(gè)模型的具體參數(shù)如下:
1)SARIMA預(yù)測(cè)模型。差分整合移動(dòng)平均自回歸模型的季節(jié)系數(shù)“S”設(shè)置為17,預(yù)測(cè)時(shí)間為上午6:00至下午22:00。最終確定的SARIMA參數(shù)為(2,1,0)。
2)SVR回歸預(yù)測(cè)模型。模型選取RBF核函數(shù)(RBF-SVR),參數(shù)組合見文獻(xiàn)[5]。
3)LSTM預(yù)測(cè)模型。模型隱藏層神經(jīng)元設(shè)置為10,時(shí)間步為17,其他參數(shù)如表3中WI-LSTM參數(shù)構(gòu)建所設(shè)置。
應(yīng)用以上3種模型與考慮天氣因素的WI-LSTM預(yù)測(cè)模型作對(duì)比,預(yù)測(cè)哈爾濱市地鐵1號(hào)線博物館站2018年7月25日(小雨)及其后4 d和2018年12月21日(中雪)及其后4 d的地鐵進(jìn)站客流,預(yù)測(cè)結(jié)果見表4、5。
表4 降雨日各預(yù)測(cè)模型性能指標(biāo)對(duì)比
表5 降雪日各預(yù)測(cè)模型性能指標(biāo)對(duì)比
從預(yù)測(cè)結(jié)果來看,考慮雨雪天氣的WI-LSTM預(yù)測(cè)模型在多數(shù)情況下都有較好的預(yù)測(cè)結(jié)果。首先,在MAE、RMSE以及MRE方面,SARIMA模型、SVR模型以及普通LSTM模型在多數(shù)情況下數(shù)值均高于WI-LSTM模型,僅在降雨日前兩天出現(xiàn)數(shù)值小于WI-LSTM模型的情況,說明WI-LSTM模型能夠有效學(xué)習(xí)客流在雨雪天氣下的長期特征,相比其他3種模型具有更高的準(zhǔn)確性與穩(wěn)定性。
從預(yù)測(cè)模型角度來看,WI-LSTM模型在雨雪天氣的下的預(yù)測(cè)效果遠(yuǎn)好于其他3種模型,且雨雪對(duì)客流的影響越大,則預(yù)測(cè)效果越好。而普通LSTM客流預(yù)測(cè)模型在不考慮雨雪影響的情況下,預(yù)測(cè)結(jié)果也優(yōu)于核函數(shù)為RBF的SVR 模型以及SARIMA模型,SVR作為一種古老的機(jī)器學(xué)習(xí)算法,與LSTM這種深度學(xué)習(xí)方法相比,具有一定的局限性,而經(jīng)典的數(shù)據(jù)分析模型SARIMA也有明顯的預(yù)測(cè)誤差,這說明了經(jīng)典參數(shù)化方法在處理大量軌道客流數(shù)據(jù)時(shí)的不足。
從預(yù)測(cè)時(shí)間角度來分析,發(fā)現(xiàn)除WI-LSTM模型外的其他3種模型在降雨降雪后的短期時(shí)間內(nèi)均有較大的預(yù)測(cè)偏差,隨著預(yù)測(cè)時(shí)間的增加,在第3天后3種模型的預(yù)測(cè)效果均有較大的改善,這也進(jìn)一步說明了WI-LSTM模型考慮降雨降雪后客流波動(dòng)規(guī)律對(duì)模型預(yù)測(cè)效能的提升。
1)以LSTM神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),結(jié)合雨雪天氣下軌道交通客流波動(dòng)規(guī)律,構(gòu)建了雨雪天氣下軌道交通客流預(yù)測(cè)模型WI-LSTM。選取SARIMA預(yù)測(cè)模型、SVR支持向量機(jī)回歸預(yù)測(cè)模型以及不考慮雨雪天氣的LSTM預(yù)測(cè)模型對(duì)比分析,結(jié)果表明,考慮雨雪天氣影響預(yù)測(cè)模型WI-LSTM的預(yù)測(cè)精度和穩(wěn)定性優(yōu)于其他經(jīng)典客流預(yù)測(cè)模型。該研究對(duì)寒冷地區(qū)軌道交通客流預(yù)測(cè)和運(yùn)營管理具有重要的參考價(jià)值。
2)在雨雪天氣下軌道交通客流預(yù)測(cè)的問題上,站點(diǎn)客流規(guī)模、站點(diǎn)屬性、平高峰等因素均會(huì)影響到軌道交通客流的預(yù)測(cè)效果,未來可以在這些方向進(jìn)行深入研究,進(jìn)一步提高WI-LSTM模型的預(yù)測(cè)效能。