潘念然
(上海體育學(xué)院經(jīng)濟(jì)與管理學(xué)院,上海 200000)
地鐵作為滿足大眾基本出行需求的一個(gè)重要方式,具有故障率低、運(yùn)力大、穩(wěn)定安全等優(yōu)點(diǎn)。同時(shí),建立較為完善的地下軌道交通網(wǎng)絡(luò),既可以改善地面公共交通能力不足的不利局面,又可以促進(jìn)城市基礎(chǔ)設(shè)施建設(shè),拉動(dòng)經(jīng)濟(jì)社會(huì)發(fā)展。在城市軌道交通發(fā)展建設(shè)和運(yùn)營(yíng)中,客流預(yù)測(cè)一直是相關(guān)研究和實(shí)踐的一個(gè)重要內(nèi)容。特別在當(dāng)前城市軌道交通運(yùn)力快速增長(zhǎng)和客流需求變化較快的情況下,客流預(yù)測(cè)研究的重要性和必要性更加凸顯。在城市軌道交通客流預(yù)測(cè)方法上,已經(jīng)涌現(xiàn)出了多種模型,其中,單變量自回歸移動(dòng)平均模型(ARMA)是最為常用的傳統(tǒng)預(yù)測(cè)方法。ARMA 考慮了差分影響,是自回歸(AR)和移動(dòng)平均(MA)模型的結(jié)合,被廣泛應(yīng)用于基于時(shí)間序列的預(yù)測(cè)研究中[3-4]。近年來,隨著人工智能的發(fā)展,基于深度學(xué)習(xí)算法的支持向量機(jī)(SVM)、隨機(jī)森林(RF)、遞歸神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短期記憶(LSTM)等正成為預(yù)測(cè)研究的重要方向。其中,LSTM能夠識(shí)別數(shù)據(jù)的結(jié)構(gòu)和模式,能夠挖掘數(shù)據(jù)中蘊(yùn)含的非線性和復(fù)雜性,被廣泛用于基于時(shí)間序列的預(yù)測(cè)研究[7-10]。目前,在城市軌道交通客流預(yù)測(cè)研究中,綜合應(yīng)用傳統(tǒng)ARMA 模型和當(dāng)前處于前沿的LSTM模型的研究仍較少?;诖?,本文綜合應(yīng)用ARMA 和LSTM兩種方法展開城市軌道交通客流預(yù)測(cè)研究,通過對(duì)比分析來確定哪個(gè)模型具有更好的準(zhǔn)確性和精度,由此為相關(guān)理論研究和實(shí)踐應(yīng)用提供參考和借鑒。
作為傳統(tǒng)預(yù)測(cè)模型的代表,ARIMA 模型能夠處理數(shù)據(jù)的非平穩(wěn)性,而作為基于深度學(xué)習(xí)算法的代表,LSTM方法能夠?qū)Ψ蔷€性時(shí)間序列數(shù)據(jù)進(jìn)行建模。研究應(yīng)用城市軌道交通客流的時(shí)間序列數(shù)據(jù),分別構(gòu)建ARIMA 和LSTM 模型來預(yù)測(cè)城市軌道交通客流量,并通過比較預(yù)測(cè)結(jié)果的均方根誤差來評(píng)估兩個(gè)模型的預(yù)測(cè)精度和性能。
自回歸滑動(dòng)平均模型:
如果序列Xt不僅與過去的狀態(tài)有關(guān),而且對(duì)之前進(jìn)入系統(tǒng)的外部沖擊也有一定的依賴性。當(dāng)這種動(dòng)態(tài)特征用一個(gè)既包含滯后項(xiàng)又包含過去外部沖擊的模型來描述時(shí),通常稱為自回歸移動(dòng)平均模型,其一般結(jié)構(gòu)為:
根據(jù)時(shí)間序列是否具有季節(jié)性變化,其結(jié)構(gòu)可分為ARIMA(p,d,q)和ARIMA(p,d,q)×(P,D,Q)S,其中p 和q 是自回歸的階數(shù)和移動(dòng)平均階數(shù),d 和D 是非季節(jié)性和季節(jié)性差異時(shí)間,P 和Q 是季節(jié)性自回歸階數(shù)和移動(dòng)平均階數(shù),S 是時(shí)間序列周期或周期長(zhǎng)度。
ARIMA(p,d,q)×(P,D,Q)S
對(duì)于周期為S 的乘積季節(jié)模型,該模型一般定義為:
其中,上式(2)是以S 為周期的時(shí)間序列的P 階自回歸運(yùn)算符,上式(3)是以S 為周期的時(shí)間序列的Q 階移動(dòng)平均運(yùn)算符,上式(4)是以S 為周期的時(shí)間序列的D 階季節(jié)性差分算子。
LSTM 是一種改進(jìn)的RNN 算法,主要用于時(shí)間序列預(yù)測(cè)。LSTM給RNN 增加了三層,分別是遺忘門、輸入門和輸出門。遺忘門以一定的概率決定是否忽略前一層的隱藏單元狀態(tài);輸入門確定輸入以更新序列位置;輸出門決定了最后時(shí)刻的隱含規(guī)則和當(dāng)前時(shí)刻的聯(lián)合狀態(tài)。
城市軌道交通的線路固定,受外界因素的干擾較小,居民使用軌道交通的時(shí)間周期性很強(qiáng),所以整體的城市軌道交通客流量數(shù)據(jù)帶有時(shí)序性特點(diǎn),即客流量會(huì)隨著時(shí)間點(diǎn)、季節(jié)、月份的變化而變化,但是最基本的是以周為單位的變化周期。本文采集的數(shù)據(jù)具體時(shí)間區(qū)間為2019 年4 月1 日至2019 年6 月13 日。在時(shí)間序列數(shù)據(jù)分析中,不同的時(shí)間區(qū)間會(huì)有不同的變化。因此,在此基礎(chǔ)上,本文將數(shù)據(jù)分成日客流量數(shù)據(jù)和分時(shí)客流量數(shù)據(jù),然后將日客流量和分時(shí)客流量分別進(jìn)行模型擬合,分析精度。
2.2.1 平穩(wěn)性檢驗(yàn)
日客流量數(shù)據(jù)具有季節(jié)性特點(diǎn),為了減少誤差,對(duì)原始序列進(jìn)行季節(jié)性差分,時(shí)間序列通過ADF 檢驗(yàn),P 值為0.000<0.05。分時(shí)客流數(shù)據(jù)是非平穩(wěn)的,為了減少誤差,對(duì)原始序列進(jìn)行一階差分,時(shí)間序列進(jìn)行ADF 檢驗(yàn),P 值為0.000<0.05。在三個(gè)顯著水平上,季節(jié)差分序列和一階差分序列都是平穩(wěn)的。
2.2.2 確認(rèn)ARIMA 模型參數(shù)
本文首先建立了ARIMA 模型,并對(duì)參數(shù)進(jìn)行了估計(jì)。為了使建模更加嚴(yán)格,我們使用AIC 和BIC 準(zhǔn)則來確定模型的參數(shù)。對(duì)于日客流量,最小的AIC=1041.298,對(duì)應(yīng)的模型是ARIMA(3,0,1)(0,1,1),對(duì)于分時(shí)客流量,最小的BIC=71779.19,對(duì)應(yīng)的模型是ARIMA(7,1,7)。
2.2.3 ARIMA 模型預(yù)測(cè)
從圖1 可以看出,日客流預(yù)測(cè)結(jié)果的殘差序列是獨(dú)立的白噪聲序列,說明該模型擬合數(shù)據(jù)。圖2 顯示了分時(shí)客流的殘差序列QQ 圖。如圖1 和圖2 所示。
圖1 日客流量殘差序列QQ 圖
圖2 分時(shí)客流量殘差序列QQ 圖
根據(jù)上述可得擬合模型ARIMA(3,0,1) (0,1,1)和ARIMA(7,1,7)。通過編程得到的結(jié)果如下:日客流量ARIMA 模型預(yù)測(cè)結(jié)果RMSE=3167.53,分時(shí)客流ARIMA 模型預(yù)測(cè)結(jié)果RMSE=126.34。結(jié)果表明,當(dāng)預(yù)測(cè)數(shù)據(jù)具有季節(jié)性特征時(shí),誤差約為3,167.53,當(dāng)預(yù)測(cè)數(shù)據(jù)具有非平穩(wěn)性時(shí),誤差約為126.34。預(yù)測(cè)結(jié)果如圖3 和圖4 所示。
圖3 日客流量ARIMA 模型預(yù)測(cè)
圖4 分時(shí)客流量ARIMA 模型預(yù)測(cè)
2.2.4 確認(rèn)LSTM 模型參數(shù)
神經(jīng)網(wǎng)絡(luò)中最關(guān)鍵的是確定輸入神經(jīng)元的數(shù)量、隱藏層的數(shù)量和隱藏單元的數(shù)量。隱藏層和受保護(hù)組過多會(huì)導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)速度延長(zhǎng),太少將缺乏必要的學(xué)習(xí)能力。本文的日客流量和分時(shí)客流量設(shè)定的輸出和輸入均為一維特征,可以看出訓(xùn)練效果較好,如圖5 和圖6 所示。
圖5 日客流量LSTM 模型損失
圖6 分時(shí)客流量LSTM 模型損失
2.2.5 LSTM 模型預(yù)測(cè)
使用訓(xùn)練好的LSTM模型預(yù)測(cè)數(shù)據(jù),結(jié)果如圖7 和8 所示。
圖7 日客流量LSTM 模型預(yù)測(cè)
日客流量LSTM模型的預(yù)測(cè)結(jié)果為RMSE=41200.85,這意味著對(duì)于具有季節(jié)性特征的數(shù)據(jù),每個(gè)LSTM預(yù)測(cè)的均方根誤差約為41200.85。LSTM 模型的分時(shí)客流預(yù)測(cè)結(jié)果為RMSE=211.52,這意味著對(duì)于不平穩(wěn)的數(shù)據(jù),每個(gè)LSTM預(yù)測(cè)的均方根誤差約為211.52。
圖8 分時(shí)客流量LSTM 模型預(yù)測(cè)
平均絕對(duì)誤差用于衡量總誤差的平均值,均方根誤差用于衡量誤差的平均大小,兩者都可用來評(píng)價(jià)模型的擬合精度。為了更加直觀地分析兩種模型的預(yù)測(cè)結(jié)果,本文使用RMSE 來評(píng)估模型。
不同預(yù)測(cè)數(shù)據(jù)和方法的準(zhǔn)確率結(jié)果如表1 所示。均方根誤差結(jié)果因數(shù)據(jù)量、預(yù)測(cè)方法和時(shí)間間隔而異,RMSE 越小,模型的精度就越高。在時(shí)間粒度上,對(duì)于日客流數(shù)據(jù),ARIMA方法的均方根誤差小于LSTM方法,預(yù)測(cè)效果更好;對(duì)于分時(shí)客流,LSTM 方法的均方根誤差大于ARIMA 方法,從RMSE 結(jié)果來看,ARIMA 的預(yù)測(cè)優(yōu)于LSTM。
表1 不同頻率數(shù)據(jù)的均方根誤差
本文在對(duì)城市軌道交通客流預(yù)測(cè)模型進(jìn)行系統(tǒng)分析的基礎(chǔ)上,分別應(yīng)用ARIMA 模型和LSTM模型對(duì)城市軌道客流進(jìn)行擬合和預(yù)測(cè),進(jìn)而對(duì)兩個(gè)模型預(yù)測(cè)的結(jié)果進(jìn)行對(duì)比分析,從而評(píng)估模型預(yù)測(cè)的精度和性能。研究結(jié)果表明,首先,對(duì)于日客流,ARIMA 優(yōu)于LSTM,這是因?yàn)槿湛土髁康臄?shù)據(jù)不足,而LSTM的網(wǎng)絡(luò)需要大量的數(shù)據(jù)來訓(xùn)練以此來達(dá)到更精確的結(jié)果;對(duì)于分時(shí)客流量,將兩種方法結(jié)合起來效果更好。其次,預(yù)測(cè)的質(zhì)量與數(shù)據(jù)質(zhì)量和模型選擇有關(guān),但輸入數(shù)據(jù)的清洗和選擇也很關(guān)鍵。在滿足模型性能要求的前提下(例如,某些模型需要非常大的數(shù)據(jù)集),同一數(shù)據(jù)集可以使用不同的模型。為此,更重要的是對(duì)輸入數(shù)據(jù)進(jìn)行分析,挖掘數(shù)據(jù)的深層次關(guān)系,即優(yōu)化輸入數(shù)據(jù)集。對(duì)于本文中的數(shù)據(jù),日客流量的預(yù)測(cè)最好用ARIMA 算法來預(yù)測(cè);對(duì)于分時(shí)客流的預(yù)測(cè),LSTM 神經(jīng)網(wǎng)絡(luò)也可以作為ARIMA 的替代方法用于預(yù)測(cè),預(yù)測(cè)值與數(shù)據(jù)整體趨勢(shì)大致相同,峰值存在誤差,但整體偏差不大,結(jié)果表明需要優(yōu)化或組合方法來提高較短時(shí)間間隔預(yù)測(cè)的準(zhǔn)確性。