曾陽艷,蘇 雅,張琪慧
(湖南工商大學 大數據與互聯(lián)網創(chuàng)新研究院,湖南 長沙 410205)
近年來交通擁堵現(xiàn)象嚴重,且擁堵時的尾氣排放不僅造成環(huán)境污染,也導致大量能源浪費。道路擁擠造成交通事故的頻發(fā),也給交通治理帶來考驗。道路車流量預測是近年來交通領域的研究熱點之一,從不同道路上的檢測器中采集到車流量數據,通過一些方式學習到其中的數據規(guī)律,可以預測未來時刻不同路段的數據。對交通流量進行準確預測,可以預判交通擁堵的狀態(tài),從而推動智慧城市建設,方便出行者生活。
智能交通的發(fā)展與社會經濟的發(fā)展的聯(lián)系愈加緊密,智能交通系統(tǒng)的研究已然成為當今熱點研究課題[1]。短時交通流預測是實現(xiàn)交通誘導和控制的關鍵,同時也是智能交通系統(tǒng)管理的基礎[2-3]。 短時交通流具有較強的混沌性和非線性等,很多學者針對其特點提出很多智能預測模型和算法[4]。科學合理地預測城市軌道交通客流量,分析并掌握客流變化的特性和規(guī)律,對城市軌道交通可行性研究、線網規(guī)模的規(guī)劃及制定合理的運營管理決策[5]具有重要意義。神經網絡是一種新型的客流預測方法,它擺脫了建立精確數學模型的困擾,具有良好的自組織性、自適應性,有很強的學習能力、抗干擾能力等優(yōu)點,比歷史平均模型、時間序列模型[6]等傳統(tǒng)預測方法更適合復雜、非線性的條件。目前已經廣泛應用于預測領域的神經網絡預測模型包括BP神經網絡模型[7]、多層感知器神經網絡(MLP)[8]、徑向基函數神經網絡(RBF神經網絡)[9]、動態(tài)神經網絡[10]等。
由于實際客流變化復雜,利用神經網絡單一方法預測可能具有片面性,針對不同的交通狀況,將合適的模型進行組合預測可以集各模型的優(yōu)點于一體,從而能夠獲得更好的預測結果。Lizong Zhang等(2018)[11]提出基于遺傳算法(GA)、隨機森林(RF)和SVR的組合方法進行短期交通流量的預測。王圓(2020)[12]先對交通流量進行SARIMA模型預測,然后采用LSTM模型對殘差進行預測,并將預測結果作為BP神經網絡的輸入,預測結果表明組合模型能在一定程度上提高預測精度。但從檢測器收集來的可能受到一些不可觀察的因素干擾,這些噪聲的存在會降低模型的預測準確性,所以在采用組合模型進行交通流量的預測時一定要考慮到數據的降噪問題。
綜上所述,本文針對以上研究模型的不足,考慮城市軌道交通客流的非線性和非平穩(wěn)性的特點,利用適用于非線性、非平穩(wěn)性信號處理方法的EMD (Empirical Mode Decomposition)模型和逼近性能良好的LSTM(Long Short-Term Memory)長短期記憶神經網絡構建EMD-LSTM組合預測模型對城市軌道交通客流進行預測。
2000年以來,有很多突破性的頻譜分析方法,EMD[13-14]方法是大家都認可的一種新型方法,此方法主要描述數據本身,不需要安插其他基函數,只需要按照數據本身的時間尺度特征進行信號方面的分解。這也正是它與其他方法的差異所在。正是由于EMD擁有這樣獨特的性質,所以在理論層面上各類信號都可以用EMD處理,尤其是在處理非線性數據上,EMD擁有很明顯的優(yōu)勢,優(yōu)勝于其他方法,并且具備很高的信噪比。自從提出EMD方法之后,各個領域都廣泛應用其處理一些棘手的問題數據,比如空氣質量、海洋數據、天體觀測數據資料分析、地震記錄數據分析。EMD的主要工作就是將數據分解成不同尺度的各個分量,也稱其為IMF,通過IMF可以更加直觀地觀測數據。
EMD本質是經過特征的時間尺度識別信號中所含有的所有振動模態(tài)。在EMD分解中,每個IMF的狀態(tài)都具有一定的相同性,每個IMF都具有信號的某一時間尺度特征。相比于其他的信號分析方法,EMD分解具有很大可行優(yōu)勢,它的基函數是由自身得到的,所以能在各類的信號處理方面游刃有余,沒有特別嚴格的限定,且具有普遍性。EMD的優(yōu)勢如下:
(1)EMD分解的真正運行是將原數據分解成頻率不同的各個數據,由高到低依次得到。對于各個種類的信號來說,高頻數據往往代表著此數據的主要特征,所以EMD是一種將高頻分量先行提出的一種方法,從另一角度說也是一種新的主成分分析法。
(2)EMD能根據分解過程中的信號特征自適應發(fā)生改變,所以EMD方法具有自適應時序分析特征。
算法如下:
①找到信號x(t)所有的極值點;
②用擬合出上下極值點的包絡線,求得上下包絡線的平均值m(t),得到
h(t)=x(t)-m(t);
③判斷h(t)是否為IMF;
④如果不是,則用h(t)代替x(t),重復步驟①~③,直到h(t)滿足判斷依據。此時h(t)就是需要提取的IMFck(t)。
⑤每經過運算得到一階IMF,就從原信號中去除它,之前的步驟一直重復運算,直到信號最后剩余部分res就只是單調序列或者常值序列。經過EMD方法分解將原始信號x(t)分解成一系列IMF,以及res的線性疊加。
作為一種特殊的遞歸神經網絡(RNN),LSTM[15]具有學習長期依賴的能力。所有的RNN都采用神經網絡的鏈式重復模塊的形式。使用專門構建的存儲單元來存儲信息的內存模塊也有類似的鏈式結構,但是重復模塊的結構不同。如圖1所示,在一個LSTM單元中有四個相互作用的層。
圖1 長短期記憶(LSTM)結構
圖1中,x為輸入,h和C為兩個記憶向量,C為細胞激活向量,均與隱藏向量h大小相同;σ是邏輯函數。tanh的任務是將值推至-1和1之間。
首先,“遺忘門”決定我們要從單元狀態(tài)中刪除什么信息。其次,“輸入門”決定我們將更新哪些值。其中,tanh層為新的候選值Ct創(chuàng)建一個向量。然后,我們將舊的單元狀態(tài)Ct-1更新為新的單元狀態(tài)Ct。在下一部分,“輸出門”決定了我們想要輸出的單元狀態(tài)的哪些部分。最后,我們將單元狀態(tài)通過tanh并乘以輸出門。
(1)Forget gate layer.
ft=σ(Wf·[ht-1,xt]+bf)
(2)Input gate layer.
it=σ(Wi·[ht-1,xt]+bi)
(3)New memory cell.
(4)Final memory cell.
(5)Output gate layer.
ot=σ(WO·[ht-1,xt]+bo)
ht=ot*tanh(Ct)
在本節(jié)中將原始數據進行了經驗模態(tài)分解,根據分解得到的IMF以及殘差構建了基于EMD-LSTM的預測模型(圖2)。
圖2 EMD-LSTM神經網絡組合
實驗數據來源于湖南省長沙市芙蓉區(qū)某路段連續(xù)的交通數據,包含了該路段連續(xù)20天的數據,監(jiān)測點每5分鐘會對通過該監(jiān)測點的車流量進行一次監(jiān)測。原始數據可以組成一個長度為5760的連續(xù)時間序列,通過Python3.7.4軟件繪圖功能得到該路段連續(xù)20天的交通流量折線圖,如圖3所示。
從圖3中可以看出,該路段交通流量變化波動較大,序列平穩(wěn)性較差。其中,交通流量最大為168 人次,最小為2人次,波動非常大。在各個時間段都有多個不同波峰和波谷,且在序列中間還有斷崖式變化,因此該數據適合使用本文模型進行預測分析。首先對數據進行歸一化處理,也稱規(guī)格化處理,以利于神經網絡對樣本的統(tǒng)一分析,獲得更高的網絡性能。本文采用常用的線性函數歸一化方法,歸一化公式為:
圖3 長沙市芙蓉區(qū)某路段連續(xù)20天的交通流量
x*=(xn-xmin)/(xmax-xmin)
通過對芙蓉區(qū)某路段的交通流量時間序列功率譜分析,發(fā)現(xiàn)交通流量主要由日信號、早高峰信號、晚高峰信號組成。對原始交通流量序列進行EMD分解,產生了12個固有模態(tài)函數(intrinsic mode function,IMF),分別對應11個周期項和1個長期趨勢項,具體如圖4所示。圖中IMF1、IMF2、IMF3、IMF4分量頻率較高,為交通數據中高頻分量,IMF5至IMF11周期性明顯,為交通數據中低頻分量,殘差R為整體變化趨勢,為交通數據中的趨勢分量。通過經驗模態(tài)(EMD)分解了連續(xù)20天的交通數據,結果表明EMD能較完整地分解出海平面變化的常規(guī)周期項,得到的IMF分量比原始數據更加穩(wěn)定,提取的長期變化趨勢合理。
圖4 EMD經驗模態(tài)分解
將經過EMD經驗模態(tài)分解得到的各IMF分量和殘差作為LSTM長短期記憶神經網絡的輸入向量。將這些分量劃分數據,選取前90%為訓練數據,后10%為測試數據,然后將訓練集和測試集加入LSTM 神經網絡訓練中。為了準確預測未來2天的序列情況,各分量在訓練時會采用不同輸入節(jié)點數目和隱層節(jié)點數目。人工神經網絡隱層神經元數的確定方法有經驗公式法、反復試驗法、增長法、刪減法和遺傳算法。本文將經驗公式法與反復試驗法結合,使用經驗公式法確定隱含層神經元數目范圍,再通過反復試驗比較結果的準確性,將準確性最高的節(jié)點數目作為隱層節(jié)點數目。本文采用的經驗公式為:
其中,n1表示隱層的神經元數目,m表示輸出神經元數目,a表示1~10之間的常數。據此確定隱層神經元數目的范圍,然后用經驗法進一步驗證結果,根據模型訓練的誤差值篩選出最適合的神經元數。組合模型采用Python3.7.4進行編程,最終得到11個分量預測結果和一個殘余分量預測結果。如圖5所示:
圖5 各IMF分量預測圖
對組合模型預測后得到的分量預測結果進行疊加重構,得到最終的預測結果。將單純使用LSTM模型預測的結果與使用EMD-LSTM組合模型的預測結果進行對比分析,結果如下(圖6):
圖6 LSTM模型與EMD-LSTM組合模型預測對比
為了比較不同預測方法的預測結果,本文采用均方根誤差(RMSE)、平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)3 個指標來衡量各模型的預測結果。
采用上述評價標準分別對單一的LSTM長短期記憶神經網絡預測模型和EMD-LSTM組合預測模型進行誤差分析,其結果如表1所示。為了觀察兩種預測模型在不同交通流量狀態(tài)下的預測效果,對早高峰和晚高峰時間的預測結果進行評價對比,其中早高峰采用早上7:00—9:00的交通流量數據,晚高峰采取晚上17:00—19:00的交通流量數據,結果如表2和表3所示。
表1 交通流量整體預測結果評價對比
表2 早高峰預測結果評價對比
表3 晚高峰預測結果評價對比
線性疊加重構后,EMD-LSTM模型的交通流實驗數據測試集上的預測輸出值的RMSE為8.453,MAE為6.651,MAPE為11.722。在整體的交通流量預測和早高峰、晚高峰預測中,與單獨的LSTM模型對比,EMD-LSTM組合模型在測試集的預測輸出值的誤差均更小,預測結果更為準確。上述實驗表明,LSTM神經網絡在不平穩(wěn)性時間序列數據預測中表現(xiàn)出很強的擬合能力和泛化能力,但依然存在提高空間,原始數據經EMD 分解后降低了波動性造成的影響,大大提高了預測精確度。相比而言,EMD-LSTM預測模型的均方根誤差(RMSE)比單一的LSTM模型低了5.325,平均絕對誤差(MAE)比單一的LSTM模型低了3.942,平均絕對百分比誤差(MAPE)比單一的LSTM模型降低了5.61個百分點,說明了本文所提模型的有效性。
本文提出了EMD-LSTM模型,解決了交通數據長期依賴的問題。對于高度不穩(wěn)定的交通流量分布,引入降噪算法EMD,以便在進行預測之前將原始交通數據分解為更多固定的分量,這使原始時間序列信號分解為固定的振蕩模式以達到降噪目的,因此只需分別對這些分量構建合適的預測模型,重構最終預測結果。研究結果表明,將原始交通數據降噪后分別進行預測,預測精度明顯優(yōu)于未降噪處理的單一模型。但是準確性隨著預測時長增加而降低,短期預測的效果最優(yōu)。節(jié)假日是出行的高峰,對交通流量有著重要影響,未來工作將考慮節(jié)假日因素以優(yōu)化對于交通流量的中長期預測,并且本文研究只考慮了數據的時序性,并沒有考慮交通數據的空間性,未來工作將考慮如何加入空間性進一步提高預測精度。