朱新遠,李大龍,田云強,朱 爽,孫 鋒,于文琪
(1.山東理工大學 交通與車輛工程學院,山東 淄博 255049;2.濟南市公安局交通警察支隊,山東 濟南 250013;3.淄博市公安局交通警察支隊 張店大隊,山東 淄博 255000)
精確高效的短時交通流量預測是交通管控和交通誘導的前提,此方面的研究一直是智能交通領域的熱點問題[1]。近年來,為了提高短時交通流預測的精度,專家和學者們建立了大量的預測模型,大致分為兩類:參數方法和非參數方法。其中,參數方法研究已較為成熟,如時間序列法、歷史平均法、Kalman濾波法等[2-5];非參數方法目前展現(xiàn)出巨大的潛力,主要包括非參數回歸法、神經網絡模型、支持向量機等[6-7]。其中,人工神經網絡由于其較強的并行信息處理能力以及魯棒性,在復雜多變的短時交通流預測中被廣泛應用[8]。
Tsai等[9]利用多時間單位和并行組合的神經網絡進行短時預測,結果表明,與傳統(tǒng)模型相比,該模型具有更高的預測精度;Wei等[10]在預測中采用了經驗模態(tài)分解法和反向傳播神經網絡混合法,預測結果表明,該方法在預測短期數據方面表現(xiàn)良好且穩(wěn)定;吳志周等[11]將灰色預測模型和神經網絡的優(yōu)點相結合,建立了一種基于灰色神經網絡的點速度預測模型;喻丹等[12]將粒子群算法和BP神經網絡進行了結合,結果表明該方法在預測偶發(fā)性擁堵情況下具有更好表現(xiàn);胡楓[13]將BP神經網絡和馬爾科夫模型相結合,證明組合模型相較于單一模型具有更高的預測精度;劉芳[14]通過分析研究BP神經網絡與NARX神經網絡的機理,發(fā)現(xiàn)在對時間序列預測方面,NARX神經網絡更具優(yōu)越性。本文基于NARX神經網絡,提出一種針對交叉口的短時交叉口流量預測模型。
本文研究基于濟南市交叉口地磁數據,選取某十字型交叉口連續(xù)30日的地磁數據,以5 min為間隔對7:00-19:00的數據進行統(tǒng)計、分析,并最終選定工作日的流量數據進行實例分析及評價。
在短時交通流預測中,原始數據的完整性與準確性對預測結果的精度起著至關重要的作用。交通地磁數據的采集過程中,受數據傳輸丟失、數據儲存異常等因素影響,異常數據時有發(fā)生。異常數據大致分為3種情況:丟失數據、不確定數據、錯誤數據。其中不確定數據中包含因交通特性而必然存在的正常波動數據,所以在數據甄別過程中,應盡可能地將正常波動數據與其他異常數據相分離。4種異常數據的取值范圍如圖1所示。
圖1 異常數據分類圖
藍色區(qū)域內的丟失數據和紅色區(qū)域內的錯誤數據存在明顯異常,較容易甄別;黃色區(qū)域內的不確定數據和正常波動數據與常規(guī)數據偏離較小且符合實際情況,在數據甄別過程中應定義為保留數據;綠色區(qū)域內的不確定數據與常規(guī)數據偏離較大,且通常難以直接區(qū)分,該區(qū)域是數據控制的重點與難點。
根據異常數據產生的原因和特征,異常數據的識別方法主要包含以下3種:
1)數值判斷法 數值判斷法指直接判斷交通量的異常數值(如空值),并結合交通流的機理判斷數據的狀態(tài)是否異常。該方法是數據識別過程的基礎方法,一般僅適合于對原始數據的初步判定。
2)閾值分析法 該方法的原理是確保一定時段內的檢測數據值不應超過該路段最大通行能力。由于本文數據來源于交叉口地磁數據,所以數據值應符合交叉口放行規(guī)律與歷史極限值。
3)離散數據檢驗法 該方法利用統(tǒng)計學思想,通過對小概率事件的隨機性檢驗,對異常數據進行甄別。離散數據的具體識別方法是比較上一周期與當前周期的數據差值,若差值超過正常波動區(qū)間,則判定該數據為異常數據。
交通數據預處理的關鍵在于挖掘數據內在的規(guī)律特性,考慮交通流的時間連續(xù)性、隨機性、波動性等因素,結合閾值設定和質量控制對異常數據進行篩選[15]。經過數據篩選后,將時間序列數據中的異常數據給予剔除并進行恢復,數據恢復技術應具有簡單、穩(wěn)定、精準等優(yōu)點。現(xiàn)有數據恢復方法均有弊端,本文從維持時間序列的波動性和準確性角度出發(fā),采用基于歷史數據和時間序列數據相結合的恢復方法,即
(1)
式中:gi表示恢復值;k表示平滑采用寬度;xi(i)表示實際檢測數據;xi(i-7)表示上周同一天的歷史數據;?表示權重系數,一般可取為0.5。
圖2所示為某一天數據處理過程中具有代表性的幾組數據,如在20、40、56等時刻存在異常數據,根據此方法,對異常數據進行恢復,結果如圖3所示。
圖2 原始數據
圖3 恢復數據
NARX神經網絡與其他神經網絡相比,具有動態(tài)回歸的特性,是一種具有記憶功能的神經網絡,這種網絡的輸出不僅與當前的輸入相關,而且受過去的輸出影響,因此在處理非線型問題上,特別是在時間序列預測上具有良好的預測能力[16]。有學者在研究過程中發(fā)現(xiàn),NARX神經網絡的收斂速度和歸一性均優(yōu)于其他神經網絡,這在一定程度上緩解了神經網絡運算耗時長的缺點,滿足交通流預測需求的精確性與高效性,因此本文選取該方法進行城市交通短時交通流預測。
本文所用的經典NARX神經網絡模型結構如圖4所示,其表達式為
圖4 NARX神經網絡
y(t)=f(x(t-1),…,x(t-d),y(t-1),
…,y(t-d))
(2)
式中:y(t)表示神經網絡的輸出值;x(t-1),…,x(t-d)表示過去輸入值;y(t-1),…,y(t-d)表示過去輸出值;f(·)表示非線性模糊函數,d表示反饋延時。
NARX神經網絡主要由輸入層、隱含層和輸出層及輸入和輸出延時構成,在應用模型前應首先確定隱含層、輸入和輸出的延時階數、隱含層神經元等相關參數[17]。
根據研究學者經驗,輸入層的節(jié)點數應根據動態(tài)系統(tǒng)方程的輸入來確定,若動態(tài)系統(tǒng)方程的輸入不明確時,也可以采用逐步測試的方法,最終確定網絡的輸入層節(jié)點數;隱含層參數設定時主要考慮誤差曲面梯度的穩(wěn)定性以及神經網絡性能等因素,參數值通常設定為1;神經元參數的設定需根據預測樣本進行多次驗證,如果參數值設定太小,則無法挖掘數據的潛在規(guī)律,而參數值設定過大則會造成信息重疊,從而產生較大偏差。
根據本次研究的數據規(guī)模,并進行反復測試,最終確定了模型的網絡結構為:輸入層節(jié)點數為1,隱含層數為1,隱含層神經元數量為20,延遲數為3,網絡結構如圖5所示。
圖5 NARX神經網絡圖
考慮均方誤差和訓練速度,本文選取LM(Levenberg-Marquardt)算法對網絡進行了訓練,將所有樣本數據的70%作為訓練數據,15%作為驗證數據,最后15%作為測試數據,直至網絡訓練效果良好再進行預測。
訓練結束后,根據誤差自相關函數和輸入-輸出相關函數對網絡泛化能力進行檢驗。誤差自相關函數反映的是數據與數據之間的相關性,理想狀態(tài)下的模型只在0時刻存在零延遲,即完全不相關。通常誤差自相關函數除零延遲外,其他均落在95%的置信區(qū)間內,則表明網絡訓練效果良好,具有良好的預測能力。本文模型訓練過程中誤差自相關函數值如圖6所示。
圖6 誤差自相關函數值
輸入-輸出相關函數反映的是輸入參數與誤差之間的相關性,理想狀態(tài)下誤差值均為0時,誤差對輸入參數無影響。同樣,該指標落在95%的置信區(qū)間內,才表明網絡性能較優(yōu)。訓練效果如圖7所示。
圖7 輸入-輸出誤差相關函數值
經過訓練、驗證和測試誤差,網絡輸出的預測擬合優(yōu)度圖如圖8所示,預測效果誤差圖如圖9所示。
網絡訓練時,相關系數R值越接近1,訓練效果越佳。而圖8中,訓練數據的R值為0.974 91,驗證數據的R值為0.978 97,測試數據的R值為0.953 10,整體數據的R值為0.971 92,4項R值均較為理想。通過上述分析可知,網絡訓練的效果良好,滿足預測要求,可用于實際交通流的短時預測。
(a)訓練 (b)驗證
圖9 的誤差線分布情況表明,模型訓練誤差值較小,僅在個別時間點出現(xiàn)誤差偏大的情況。
圖9 預測效果誤差圖
基于上述訓練后的NARX神經網絡模型,對單個工作日的交通流(以5 min為時間間隔尺度)進行了預測。模型預測結果(5 min)對比圖如圖10所示,誤差分布曲線如圖11所示。顯然,基于NARX神經網絡的預測結果在大多數時間點上和實際流量較為吻合。
圖10 預測結果對比圖
圖11 誤差分布曲線圖
為了更好地反映預測值與實際情況之間的關系,本文采用相對誤差δ、平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)評價預測效果,即
(3)
(4)
(5)
式中:y(t)表示真實值;y′(t)表示預測值。其中,平均絕對誤差說明預測值的總體偏離程度,數值越大說明預測偏離越大;平均絕對百分比誤差說明預測值的平均偏離程度,數值在0~5之間說明預測精度極高,在10以內說明預測精度高。
分析可知,該模型在短時交通流預測方面達到了預期的效果,精度較高,平均絕對誤差僅為4.035,平均絕對百分比誤差為8.41%。通過相對誤差可以看出,在交通流變化相對平穩(wěn)時段,相對誤差值大部分集中在0.15以內,只有極少數時段超過了0.25。如圖11所示,相對誤差較大的時段均發(fā)生在交通流量突變時,例如時刻20和120。分析其原因是由于流量突變期間,數據相對分散且呈隨機性,NARX神經網絡模型對數據特征的提取能力有所下降,交通流量突變時段的預測精度還有待提高。
綜上所述,本文建立的NARX神經網絡預測模型能夠前瞻性地掌握交通流動態(tài)的變化規(guī)律,實現(xiàn)交叉口短時交通流量的精準預測。