汪崗,馬亮,陳奕霖
(1. 國能包神鐵路集團有限責任公司 調度指揮中心, 內蒙古 包頭 014000;2. 西南交通大學 信息科學與技術學院, 四川 成都 611756;3. 中國鐵道科學研究院集團有限公司 國家鐵路智能運輸系統(tǒng)工程技術研究中心, 北京 100081;4. 西南交通大學 四川省列車運行控制技術工程研究中心,四川 成都 611756)
近年來,隨著我國產(chǎn)業(yè)結構調整,各種運輸方式之間競爭加劇。為防止客戶流失、均衡鐵路運力配置和實現(xiàn)運輸效益最大化,鐵路運輸企業(yè)需要具備較強的精準掌握貨運需求和動態(tài)部署貨運資源的能力。鐵路貨運站裝車量預測研究對貨運調度人員提前準確掌握未來貨運需求、實現(xiàn)空車提前部署、減少空車無效走行和提高貨運效率起到關鍵作用。
目前關于鐵路貨運站裝車量預測的研究較少,但國內外學者對鐵路貨運量預測做了大量研究工作,傳統(tǒng)的預測方法有灰色模型預測法[1-2]和回歸預測法[3],這些方法適合長期的貨運需求量預測,在以往穩(wěn)定、線性變化的貨運量需求預測中具有較高的精度。但對于具有隨機性、不穩(wěn)定性和非線性特征的歷史數(shù)據(jù),這些方法往往表現(xiàn)不佳。針對這一問題,機器學習、深度學習和組合模型等預測法被應用到鐵路貨運量預測研究中。例如,梁寧等[4]引入灰色關聯(lián)分析計算貨運量影響因素權重,將其作為輸入變量構建多項式核函數(shù)與徑向基核函數(shù)線性組合的SVM-mixed預測模型,提高了預測精度;陳鵬芳等[5]采用PCA和WOA算法對LSSVM進行參數(shù)優(yōu)化,提高了模型的準確性和穩(wěn)定性;考慮到深度學習模型的非線性學習能力和數(shù)據(jù)擬合能力,程肇蘭等[6]選用LSTM網(wǎng)絡對廣州鐵路(集團)公司2010—2017年的貨運量數(shù)據(jù)進行預測,并與ARIMA模型和BP神經(jīng)網(wǎng)絡進行對比,結果表明LSTM模型更佳;歐雅琴等[7]采用蜻蜓算法對LSTM參數(shù)進行優(yōu)化,提升了模型預測性能;郭洪鵬等[8]將Bi-LSTM網(wǎng)絡用于鐵路貨運量預測,驗證了該模型在某鐵路企業(yè)月度和日貨運量預測的準確度;徐玉萍等[9]將乘積集結模型與引入注意力機制的LSTM模型進行組合,驗證了組合模型用于鐵路貨運量的預測性能優(yōu)于單一模型。
這些研究對鐵路貨運站裝車量預測做出了積極探索,但大多以全路或鐵路局集團公司管轄范圍內的鐵路貨運量為研究對象,并且以年為時間粒度進行預測,所得結果不適合作為鐵路日常工作計劃編制的依據(jù),而貨運站短期裝車量的預測結果更有助于日常工作計劃編制與貨運組織調整。余姣姣[10]首次以貨運站裝車量為研究對象,但由于相空間重構參數(shù)選擇的差異導致SVM模型的不穩(wěn)定,使得該模型對不同貨運站裝車量預測的性能不同。張志文等[11]利用結合注意力機制的LSTM模型對國家能源投資集團有限責任公司某一區(qū)域內貨運站日裝車量趨勢展開研究,但尚未驗證該方法對具體某一貨運站的預測性能。
考慮到貨運站短期裝車量的波動性和隨機性,研究將模態(tài)分解引入短期裝車量預測中,提出EMDAttention-LSTM組合模型。該方法將原本隨機、波動性強的短期裝車量數(shù)據(jù)分解成有限個固有模態(tài)和趨勢分量,分解后的分量序列特征各異,再利用引入注意力機制的LSTM網(wǎng)絡對各分量分別進行預測,最后疊加各分量預測結果,完成短期裝車量預測工作。結果表明EMD-Attention-LSTM組合模型相較于其他方法具備更高的預測準確度。
貨運站裝車量預測主要目的是為編制和調整貨運日計劃提供依據(jù),約定短期裝車量預測時間粒度為1 d。預測模型表示為
式中:L為歷史數(shù)據(jù)的時間窗口長度,歷史天數(shù);P為預測步長,未來天數(shù);t=(L,L+1,…,N)為可選擇的歷史數(shù)據(jù)時刻值,N為歷史數(shù)據(jù)的長度;xt-L+1:t=(xt-L+1,xt-L+1,…,xt-1,xt)表示預測模型輸入長度為某貨運站L天的歷史裝車量時間序列,等于歷史每天裝車量形成的序列;表示某貨運站未來P天的裝車量預測結果,等于未來每天預測裝車量形成的序列;f為通過映射關系建立鐵路貨運站短期裝車量預測模型,實現(xiàn)基于某貨運站歷史裝車量時間序列,對未來裝車量序列的預測工作。
EMD[12]是一種高效的信號分解方法,該方法不依賴任何基函數(shù),具有良好的自適應性,非常適合處理非線性和非平穩(wěn)的數(shù)據(jù)。EMD基于數(shù)據(jù)局部特征時間尺度,從原信號中提取固有模態(tài)函數(shù)(IMF),其結果是將信號中不同尺度的波動和趨勢分解開來,產(chǎn)生一系列具有不同尺度特征的數(shù)據(jù)序列,每一個序列代表一個固有模態(tài)函數(shù),這使得每一個IMF代表了原信號中所包含的尺度波動成分,而剩余項代表原信號的趨勢或均值。EMD算法與小波算法相比,可以更準確地反映原始數(shù)據(jù)的內部特征,有更強的局部表現(xiàn)能力,因而在處理非線性、非平穩(wěn)數(shù)據(jù)時,EMD方法更為有效[13]。設裝車量時間序列為x(t),其EMD分解步驟如下。
(1)確定x(t)的所有極大值和極小值點。
(2)通過3次樣條插值連接極大值點構成上包絡線eup(t),連接極小值點構成下包絡線elow(t)。
(3)根據(jù)上、下包絡線,計算x(t)的局部均值m1(t),將x(t)與m1(t)相減得到中間序列h1(t)。
(4)以h1(t)代替原始序列x(t),重復步驟(1)—(3),直到h1(t)=x(t)-m1(t)滿足IMF條件,記c1(t)=h1(t),則c1(t)為裝車量序列的第1個IMF分量,它包含原始序列中最短的周期分量。
(5)從原始信號中分離出IMF分量c1(t),得到剩余項r1(t)。
(6)將剩余項r1(t)作為新的原始數(shù)據(jù),重復步驟(1)—(5),直到rN(t)小于設定值或者rN(t)變成單調函數(shù),停止迭代,得到其余IMF分量和1個余量,如下所示。
至此,裝車量序列x(t)就被分解為rN(t),每個IMF分量都反映了原序列在不同時間尺度下的內在模態(tài)特征。
LSTM是循環(huán)神經(jīng)網(wǎng)絡(RNN)的變體,解決了RNN存在的長期信息保存和短期輸入缺失的問題。LSTM引入門控機制來控制單元內容,LSTM單元結構如圖1所示。
圖1 LSTM單元結構Fig.1 Structure of LSTM unit
其中,Ct和Ht分別表示模型t時刻下的記憶狀態(tài)和隱層狀態(tài),Xt和Yt為模型的輸入和輸出,σ為sigmoid激活函數(shù)。LSTM單元內部的計算過程如下。首先,將當前時間步的輸入Xt和前一個時間步的隱狀態(tài)Ht-1送入3個具有sigmoid函數(shù)和1個具有tanh函數(shù)的全連接層分別得到遺忘門Ft、輸入門It、輸出門Ot和候選記憶元的值。其次,通過遺忘門Ft和輸入門It分別控制保留過去記憶元Ct-1的內容和選用候選記憶元的新數(shù)據(jù)得到當前時刻的記憶元Ct,最后將Ct送入具有tanh激活函數(shù)的全連接層,確保其值在(-1,1)內,再與輸出門Ot按元素相乘得到新產(chǎn)生的隱狀態(tài)Ht。其計算公式如下。
式中:Wxi,Wxf,Wxo和Wxc為每一層連接到輸入向量Xt的權重矩陣;Whi,Whf,Who和Whc為每一層連接到前一隱狀態(tài)Ht-1的權重矩陣;bi,bf,bo和bc為偏置參數(shù)。
注意力機制最早由Bahdanau等人在機器翻譯模型中提出[14],注意力機制從人類視覺神經(jīng)系統(tǒng)得到啟發(fā),即人類觀察到的所有事物并非同等重要,大腦通過將注意力引向人類更感興趣的一小部分信息,使得人類能更有效地分配資源。在深度學習模型中,注意力機制通過注意力評分函數(shù)f計算查詢q和鍵k的注意力權重α,旨在利用注意力權重α實現(xiàn)對值v的選擇傾向,通用的注意力機制計算過程如下。
(1)計算某一查詢q對數(shù)據(jù)庫中第i個鍵ki的注意力權重α(q,ki),通過softmax函數(shù)將其值限制在(0,1)內。
(2)將注意力權重α(q,ki)與鍵ki對應的值vi進行加權求和,得到注意力向量,m為數(shù)據(jù)庫中鍵值對k-v的個數(shù)。
EMD-Attention-LSTM預測模型首先對歷史貨運站日裝車量數(shù)據(jù)進行清洗,整理得到重點貨運站歷史裝車量的時間序列數(shù)據(jù)。由于直接對全部歷史數(shù)據(jù)進行分解會導致信息泄露的問題,因此將歷史數(shù)據(jù)劃分為訓練集、驗證集和測試集,采用EMD算法分別進行分解。隨后將分解結果輸入到Attention-LSTM模型進行訓練,得到各分量預測模型并輸出測試集預測結果,最后進行對比驗證,EMD-Attention-LSTM組合模型預測流程如圖2所示。
圖2 EMD-Attention-LSTM組合模型預測流程Fig.2 Prediction process of EMD-Attention-LSTM
具體步驟如下。
(1)數(shù)據(jù)處理。收集歷史貨運站裝車量數(shù)據(jù),采用均值插值法對缺失數(shù)據(jù)進行處理,并將歷史裝車量數(shù)據(jù)按照6∶2∶2劃分為訓練集、驗證集、測試集。
(2)經(jīng)驗模態(tài)分解。采用EMD算法將歷史裝車量數(shù)據(jù)分解為N個固有模態(tài)分量{c1(t),c2(t),…,cN(t)}和1個剩余項分量rN(t),為減少各分量尺度差異對預測結果的影響,采用min-max歸一法對各分量進行歸一化處理,將數(shù)值縮放在(0,1)之間,計算公式如下。
式中:x*為歸一化后的數(shù)據(jù);x為輸入數(shù)據(jù);xmin和xmax為數(shù)據(jù)中的最小值和最大值。
(3)Attention-LSTM模型預測。建立基于注意力機制的LSTM模型,注意力評分函數(shù)設為f(q,ki)=qki,以點積操作實現(xiàn)高效率的注意力機制。將EMD預測分量輸入到Attention-LSTM模型,首先通過全連接層將時序輸入信息映射為高維特征,再利用兩層LSTM網(wǎng)絡提取時序數(shù)據(jù)的有效信息,最后將各分量預測結果相加,重構為最終模型預測結果。Attention-LSTM網(wǎng)絡流程圖如圖3所示。
圖3 Attention-LSTM網(wǎng)絡流程圖Fig.3 Flow of Attention-LSTM network
(4)評價模型預測結果。通過預測值和實際值的誤差度量模型精度,選用對稱平均絕對百分比誤差(SMAPE)、平均絕對百分比誤差(MAE)和均方根誤差(RMSE)作為評價函數(shù),評價函數(shù)值越小表示預測值更貼近實際值,計算公式如下。
式中:n代表待預測裝車量天數(shù);和yi為預測第i天裝車量的預測值和實際值。
采用某鐵路運輸企業(yè)3個重點貨運站從2021年1月1日至2022年6月30日546 d的歷史裝車數(shù)據(jù)進行實驗分析與評估,其中A,B站主要運輸煤炭等大宗貨物,C站主要運輸非煤產(chǎn)品和集裝箱的零散白貨。煤炭等大宗貨物均為整列運輸,非煤產(chǎn)品和集裝箱的零散白貨主要以摘掛列車的方式運輸,故采用列數(shù)表示A,B站裝車量,以車輛數(shù)表示C站裝車量。A,B和C貨運站日裝車量走勢圖如圖4所示。
圖4 A,B和C貨運站日裝車量走勢圖Fig.4 Trend of daily loading quantities of freight stations A, B, and C
可以看出A,B和C站日裝車量序列在短期內存在波動,在長期內趨于平穩(wěn),C站的波動頻率和幅度比A,B站更劇烈。采用PyEMD庫中的EMD函數(shù)將原始數(shù)據(jù)的波動性和趨勢性數(shù)據(jù)進行分離,EMD算法分解結果如圖5所示。
圖5 EMD算法分解結果Fig.5 Decomposition results of EMD algorithm
在深度學習時間序列預測任務中,歷史數(shù)據(jù)長度一般為預測步長的3~7倍[15],考慮A站裝車量預測,選擇輸入序列長度L=15 d和預測序列長度P=3 d的數(shù)據(jù)集,構建貨運站裝車量預測模型,并基于Python 3.7實現(xiàn)了ARIMA,Attention-LSTM,LSTM和SVM的對比模型。其中,深度學習方法使用了torch-1.13.0-cu117框架實現(xiàn),而SVM模型則采用sklearn框架進行編寫,ARIMA模型使用了statsmodels庫實現(xiàn)。通過網(wǎng)格搜索法確定各個模型的最優(yōu)超參數(shù),A站對比模型的超參數(shù)設置如表1所示。
表1 A站對比模型的超參數(shù)設置Tab.1 Hyperparameter setting of comparison models at station A
為了比較EMD-Attention-LSTM裝車量預測模型與其他經(jīng)典模型在鐵路貨運站裝車量預測性能上的差異,基于之前的參數(shù)設置,在同一數(shù)據(jù)集上對所有模型進行了反復實驗。最終得到了A站裝車量預測結果的趨勢圖,A站EMD-Attention-LSTM模型與對比模型預測趨勢圖如圖6所示。
計算得到EMD-Attention-LSTM與對比模型在A站裝車量數(shù)據(jù)上的評價結果如表2所示。
表2 EMD-Attention-LSTM與對比模型在A站裝車量數(shù)據(jù)上的評價結果Tab.2 Evaluation results of EMD-Attention-LSTM and comparison model on the loading quantities of station A
從表2中對比分析得到:EMD-Attention-LSTM模型在SMAPE指標上較ARIMA模型低近3.4%,較LSTM模型低近2.7%;相比于傳統(tǒng)方法,EMDAttention-LSTM模型在MAE和RMSE指標上也顯著降低;基于深度學習的LSTM與Attention-LSTM模型在SMAPE指標上分別比機器學習模型SVM降低了0.4%和1.8%;而基于統(tǒng)計的時間序列預測模型ARIMA與傳統(tǒng)的機器學習模型SVM的預測性能則相差不大;此外,Attention-LSTM模型在3個指標上表現(xiàn)出優(yōu)于經(jīng)典模型LSTM的預測性能,但加入EMD分解后的Attention-LSTM模型表現(xiàn)更為優(yōu)異。
為探究EMD-Attention-LSTM模型的通用性,對同樣主要運輸煤炭等大宗貨物的B站和主要運輸零散白貨的C站的日裝車量進行預測,B貨運站裝車量預測結果如表3所示,C貨運站裝車量預測結果如表4所示。該模型在B站同樣表現(xiàn)出最優(yōu)預測性能,當預測步長分別為P=3 d和P=7 d時,EMD-Attention-LSTM預測模型的SMAPE指標比最優(yōu)的對比模型Attention-LSTM下降了6.7%和3.4%,MAE與RMSE同樣優(yōu)于其他對比模型。在C站該模型比對比模型預測效果要優(yōu),但SMAPE指標僅為38.4%。
表3 B貨運站裝車量預測結果Table 3 Prediction results of loading quantities of freight station B
表4 C貨運站裝車量預測結果Table 4 Prediction results of loading quantities of freight station C
方差可以衡量時間序列的波動性,自相關系數(shù)則可以反映時間序列的趨勢性和隨機性,計算A,B和C貨運站歷史裝車量時間序列的方差和一階自相關系數(shù)如表5所示。
表5 A,B和C貨運站歷史裝車量時間序列的方差和一階自相關系數(shù)Table 5 Variance and first-order autocorrelation coefficients of loading quantities at freight stations A, B, and C
可以發(fā)現(xiàn)預測模型對自相關性較強、方差較小的A,B站預測效果較好,對自相關性較弱、方差大的C貨運站預測性能較差。
在分析鐵路貨運站歷史日裝車量趨勢與特點的基礎上,基于EMD時間序列分解算法和Attention-LSTM神經(jīng)網(wǎng)絡構建了鐵路貨運站短期裝車量預測組合模型EMD-Attention-LSTM,并將其應用于某鐵路運輸企業(yè)重點貨運站的日裝車量預測中。通過與其他主流機器學習和深度學習模型進行對比分析,結果表明EMD-Attention-LSTM模型具有更佳的預測性能。鑒于短期裝車量數(shù)據(jù)存在波動大、隨機性強等特點,EMD-Attention-LSTM模型的預測能力不穩(wěn)定,如B貨運站和C貨運站未來3 d的裝車量預測結果,其SMAPE值分別達到13.8%和38.4%。在后續(xù)研究中,將進一步提升模型的泛化能力以滿足更多實際預測需求。