郅英沖, 趙金寶, 李曉飛, 韓剛, 孔維超, 潘春雨
(1.濟南軌道交通集團有限公司, 山東 濟南 250000;2.山東理工大學 交通與車輛工程學院, 山東 淄博 255000;3.東南大學 交通學院, 江蘇 南京 210009)
數字化交通信息技術與智慧公路融合是未來科技引領基礎設施建設重要基礎,數字化交通、信息化融合在交通行業(yè)中成為廣泛關注對象。2022年3月年交通運輸部與科學技術部聯(lián)合印發(fā)了《“十四五”交通領域科技創(chuàng)新規(guī)劃》[1],規(guī)劃提出要打造交通基礎設施數字化升級關鍵技術,研發(fā)交通基礎設施數字化表征基礎理論與方法,推動交通基礎設施全壽命周期數字化。交通流作為交通基礎設施全壽命周期中重要組成部分,受到廣泛關注。道路智慧化信號實時調整、以大數據依托的交通規(guī)劃等方面,實時與精準的交通流預測至關重要,也是作為交通管理部門實時采取交通管控、強化實施交通誘導的重要依據[2]。
交通流預測為交通領域研究的重點課題,在以往交通流預測模型研究中,Ahmaed等[3]首次使用時間序列理論模型對高速公路交通流預測,隨著技術的不斷發(fā)展,傳統(tǒng)交通流預測模型因模型框架單一且預測精度不足,已不能滿足大數據交通流預測。智能預測模型開始逐漸出現在交通領域的視野,通過運用類似“黑箱”的模型進行多維度的處理數據分析。曹潔等[4]通過粒子群算法對BP神經網絡算法進行算法優(yōu)化,并應用于實測交通流數據,驗證了算法的可行性和有效性。王楊等[5]構建自適應門控圖神經網絡,在Pe MSD7和Los-loop上網絡數據集證明了模型的優(yōu)越性。Lou等[6]建立了相關向量機模型,對數據小樣本進行分析,實驗表明,數據具有更好的泛化能力。智能預測分析對于大數據有較強的分析能力,但對于性能要求較高,計算時間較長,訓練過程復雜,不利于大數據的分析預測,專家開始將視野轉向構建多組合的預測模型,目前國內外最常用的方法是采用2種及以上模型組合的方式進行預測。組合模型主要分為兩類:一是使用不同模型相互組合,一種模型的輸出作為另一種模型的輸入;二是不同模型同時進行預測,通過評價指標選擇最優(yōu)結果。丁新宇等[7]建立了深度時空殘差網絡的路網短時交通流預測,通過驗證表明實驗結果的準確性。Xu等[8]將深度置信網絡與支持向量回歸模型結合對重慶金龍路交通數據預測,驗證了其效果更好。汪鳴等[9]通過門控循環(huán)單元模型挖掘數據的時空特征與長短期預測的精度,在長期預測方面具有較好的結果。組合模型之間相互協(xié)調,彌補模型之間的缺點尤為重要,其組合方式變化多樣,不同模型適用于不同的道路交通狀況,需要與數據緊密配合,以實現預測的精度更加準確。
預測精度不僅受模型的影響,時間跨度與時間粒度對預測精度也有影響。Chen等[10]對出租車數據按照不同年份、不同日期、時間粒度為30、60 min作為樣本,結果顯示,不同時間對于預測精度具有重要影響。周海赟等[11]構建SSARX-NARX模型,利用時間粒度為5 min的交通流,通過不同步長進行對數據進行預測,發(fā)現步長越大,效果越好。楊紫煜等[12]通過構建改進卡爾曼濾波對交通流進行預測,分析預測6、10 min的交通流,發(fā)現精度越小,預測質量越高且數據量越大精度越高。姚志洪等[13]建立了小時間粒度的交通流預測模型,小時間粒度能夠更好地反映交通流特征,預測精度更加準確。Tang等[14]將時間粒度分為2、10、60 min進行對比,利用模型對比發(fā)現小粒度預測結果適用性更強。將時間粒度與時間跨度縮短,更加精細化,預測精度可以繼續(xù)提高。
高速公路的數據樣本較大,通過采用深度學習組合預測進行訓練,可以使交通流預測更趨于真實值,但是大多數研究只針對單一時間段對交通流數據進行分析預測,未能充分考慮不同時間粒度對交通流預測的影響。本文中以英國高速公路M3為例,對高速公路交通流進行多模型行組合預測,并進行模型對比,同時針對不同時間粒度的交通流數據進行分析,觀察預測效果。
支持向量機(support vector machines, SVM)在統(tǒng)計算法中是一種比較經典的模型[15],而支持向量機回歸(support vector regression , SVR)是在支持向量機的理論框架構建的基礎上的回歸模型,損失函數是模型的核心算法,利用交通流數據樣本,結合損失函數的性質,采用不敏感損失函數ε,構建SVR模型,稱為ε-SVR模型。
選定訓練數據集T={(x1,z1),(x2,z2),…,(xN,zN)},通過模型輸出f(xt)與真實值zt之間的差值進行損失函數的計算,當誤差小于ε時,忽略不計,反之,當誤差為ξ-|ε|時,ε-SVR的目標函數為
(1)
雙重問題定義為
(2)
當
Qij=K(xi,xj)≡φ(xi)Tφ(xj)。
解決問題后,近似函數為
(3)
利用ν-支持向量分類,另外設置一個參數ν來調節(jié)支持向量的個數,具體優(yōu)化過程為
(4)
雙重問題定義為
(5)
近似函數為
(6)
(7)
核函數將采用高斯徑向基核函數(RBF)為
(8)
長短時記憶(long short-term memory, LSTM)作為循環(huán)神經網絡中的特殊類型形式是由Hochreiter & Schmidhuber 在1997年提出,隨著技術的發(fā)展與創(chuàng)新,Alex Graves對模型算法進行了完善與優(yōu)化,LSTM模型因權重矩陣無法確定,從而導致梯度消失與梯度爆炸的問題[16],利用LSTM模型其強大的特殊記憶功能避免模型長期依賴的問題,得到國內外學者的廣泛關注,具體流程圖如圖1所示。
圖1 LSTM模型流程圖
LSTM的核心稱為記憶模塊,記憶模塊由遺忘門、輸入門、輸出門和一個記憶單元組成的,整理的數據樣本基于cell state(單元狀態(tài))在模型中進行樣本傳輸,LSTM模型將利用“遺忘層”通過運用sigmoid函數控制什么樣的信息通過cell state,將無用信息進行過濾篩選,輸出ft,
ft=σ(Wf[ht-1,xt]+bf),
(9)
式中:σ為激活函數sigmoid;Wf為遺忘門單元權值;bf為偏移量
it=σ(Wi[ht-1,xt]+bi),
(10)
(11)
(12)
最后通過sigmoid層得出初始化輸出ot,并運用tanh層把Ct值歸一化到[-1.1]之間,最終得到ht如公式(13)。
(13)
LSTM模型構建過程中使用的sigmoid激活函數是建立非線性模型算法過程中常用激活函數,使神經函數可以任意逼近任何非線性函數,sigmoid激活函數如公式(14)。
(14)
將高速公路數據樣本加載到LSTM訓練模型進行運算,模型主要通過單元權重和偏移量不斷訓練與更新輸入輸出數據,對數據樣本進行優(yōu)化調整,從而解決循環(huán)神經網絡梯度消失問題,最終得出最優(yōu)結果,達到預測不同時間粒度狀態(tài)下的交通流的精度要求。
SVR模型構建過程中最為關鍵問題在于懲罰因子C,懲罰因子的設置大小,會導致模型過擬合現象。LSTM模型由于其特殊的門控制,因此導致其存在梯度消失與梯度爆炸的問題。SVR-LSTM組合預測模型將結合LSTM模型強大的記憶功能以及SVR模型在高維空間中運用核函數替代功能,使原來的線性算法非線性化,通過不斷更新具有使用價值的信息,作為記憶保存,并進行長期跟蹤,不斷優(yōu)化,最后輸出模型,因此將SVR與LSTM進行結合能夠避免過擬合現象與梯度消失問題。高速公路上交通涵蓋了客車、小汽車、貨車等多種類型車輛,相對于其他道路特征較為復雜,同時交通流數據的時間跨度較長,通過建立組合模型的優(yōu)勢進行數據多方面優(yōu)化,結合模型特點,建立多層次預測模型結構,從不同層面、不同維度提取交通流數據中的相關特征,識別高速公路交通流量特點,并根據不同時間粒度對預測結果是否產生進行分析,能夠更加精確的預測出高速公路路段交通流?;诖?構建SVR-LSTM組合預測模型的預測框架,對高速公路全年樣本交通流數據進行預測分析。具體預測模型流程框架如圖2所示。
圖2 SVR-LSTM系統(tǒng)模型框架圖
預測模型性能優(yōu)劣通過準確率不能直觀地反映出來,為更準確評價交通流預測模型的性能,通常采用評價指標的方式對交通流預測模型進行評價,評價指標通常有均方根誤差、平均絕對誤差、平均絕對百分誤差等。本文主要利用高速公路交通流數據非線性特性、流量特點與模型參數等多方面因素,建立評價指標體系。
① 均方根誤差。均方根誤差(RMSE)是誤差分析的常用指標評價之一,其結果主要表示預測結果的離散程度,均方根誤差值越趨于0,其擬合程度相對越好,計算公式為
(15)
② 平均絕對誤差。平均絕對誤差(MAE)亦是誤差分析的常用指標評價之一,采取誤差的絕對值進行綜合評價,主要是由于預測誤差值有正負之分,為避免正負抵消,平均絕對誤差越低代表預測精度越高。計算公式為
(16)
TensorFlow作為Python開源的深度學習框架,其具有完善的深度學習調用函數,通過搭建數據流圖的處理框架,實現數據的分析預測。本文運用TensorFlow中的Keras高層神經網絡模型,在Python開發(fā)環(huán)境中的Anaconda模塊中完成模型的搭建與訓練,完成數據的深度學習與預測。建立基于SVR-LSTM模型系統(tǒng)的交通流預測框架,在模型框架內實現數據的運算與交互。為保證預測系統(tǒng)生成的實時性與有效性,避免數據對于訓練依賴性問題,通過多次實驗訓練、調整參數,最終完成數據的擬合預測。
2.1.1 實驗數據描述
本文主要選取英國戰(zhàn)略公路網M3高速公路由北向南道路,道路環(huán)境如圖3所示,運用道路攝像頭采集的道路交通流數據,采集的數據為15 min的南行四車道交通流量總和,通過Numpy模型對數據進行合并處理,得到1 440、60、15 min數據采樣時間粒度的數據樣本。
圖3 數據采集環(huán)境
2.1.2 實驗數據處理過程
將選取一周交通流(每15 min交通量為1組)共672組數據用于單一模型與組合預測模型的構建,利用iloc函數進行測試集、訓練集的劃分,訓練集以樣本數據的80%的數據量,測試集以樣本數據的20%的數據量,總計538個訓練樣本與134個測試樣本。高速公路交通流數據分布具有非線性特點,其采集數據量及時間粒度跨度較大,存在異常波動情況、缺失值的情況較少,利用插值法對交通流數據樣本進行預處理,同時為了更好地滿足模型的訓練需要,提高數據預測的精準度與可信度,將差分后的數據進行標準歸一化處理,將按照歸一化標準將數據縮小至[0,1]的區(qū)間上,最終得出輸入訓練集、測試集的數據樣本。交通流數據歸一化結果如圖4所示。數據歸一化公式為
圖4 交通流數據歸一化結果
(17)
式中:x′為歸一化結果;x為數據樣本。
利用Python編程構建SVR模型,選取RBF作為核函數,進行模型訓練實驗,通過調整超參數,模型訓練過程中重點考慮訓練周期過長時存在模型過擬合現象以及計算效率降低。最終在兼顧精度與效率的情況下,確定參數的設置:參數懲罰因子C為15;γ系數為0.659,SVR模型預測結果如圖5所示。隨著迭代次數的繼續(xù)增加,訓練模型誤差波動將越小,當增加到極限時模型有可能出現過擬合現象,LSTM模型預測結果如圖6所示,模型誤差最小如圖7所示,LSTM層數設置輸入層、隱藏層與輸出層,為提高預測精度,經不斷調整模型參數設置,最終確定參數選擇:隱藏層神經元個數為24,迭代數為100,一次訓練所選取的樣本數為20,此時模型趨近穩(wěn)定,LSTM模型迭代平均誤差如圖8所示。
圖5 SVR模型預測結果
圖6 LSTM模型預測結果
圖7 SVR模型誤差
圖8 LSTM模型迭代平均誤差
如圖9所示,通過構建單一模型與組合模型預測的方式對不同模型預測結果進行對比分析,不同的預測模型的精度具有差異,LSTM模型在時間序列峰值與平穩(wěn)性方面性能展現了優(yōu)勢,與交通流特征擬合效果較好,體現了其強大的時間序列特征提取能力與強大的長時間記憶能力,但LSTM模型在突變的交通流序列中性能降低。SVR模型在識別時間序列波動較大的問題上,不能較好地擬合節(jié)假日等特殊因素的交通流特征,而SVR-LSTM模型能夠在突變交通流、平穩(wěn)時段等方面擬合效果更好,說明對于高速公路交通流狀態(tài)下,SVR-LSTM模型能夠具有很好的適應能力。
圖9 模型對比結果
通過利用構建的模型訓練分析,單一模型預測精度相對較低,評價指標顯示SVR模型與LSTM模型的RMSE)分別為37.09、33.46,MAE分別為29.58、24.70。傳統(tǒng)預測模型的效果較差:一方面原因是單一預測模型的影響覆蓋范圍較低,因素考慮不全;另一方面原因由于時間跨度較大,節(jié)假日與天氣之間的影響因素相對有較大明顯,使得交通流量的平穩(wěn)性較差,故擬合效果不夠理想。不同模型預測結果評價指標見表1。
表1 不同模型預測結果評價指標
根據表1可以看出, SVR預測模型預測精度最差,LSTM模型在其強大的記憶能力下相比于SVR預測精度有較大幅度,但是將SVR-LSTM模型組合預測,效果較單一模型較好,依據評價指標RMSE觀測,SVR-LSTM模型相比于單一預測模型精度分別提高了13.8%、4.45%;依據評價指標MAE觀測,SVR-LSTM模型相比于單一預測模型精度分別提高了22.79%、7.53%。
SVR-LSTM模型在預測精度可以保證的前提下,時間粒度與時間周期對于交通流預測也會產生影響,本文在基于組合預測模型的基礎上,提出基于不同時間粒度(DTS)狀態(tài)下的交通流預測,數據選取英國國家高速公路局提供的M3高速公路2018-01-01—12-31交通流數據,時間粒度為24 h,數據樣本為365個;2018-06-01—30,時間粒度為1 h,數據樣本720個;2018-06-17—23,時間粒度為15 min,數據樣本為672個,獲取的數據樣本清單見表2。
表2 獲取的數據樣本清單
基于深度學習組合模型預測對數據樣本進行不同時間跨度、不同時間粒度下交通流的對比分析,通過不斷調整參數與多次實驗的方式將數據樣本進行模型擬合,以達到最優(yōu)擬合結果,結果分別如圖10、11、12所示。
圖10 時間粒度為1 440 min模型預測結果
圖11 時間粒度為60 min模型預測結果
圖12 時間粒度為15 min模型預測結果
不同時間粒度預測結果評價指標見表3,以周為周期、15 min為粒度的交通流量比以年為周期、1 440 min為粒度的交通流量的RMSE降低了74.63%,MAE減小了78.77%;以周為周期、15 min為粒度的交通流量比以月為周期、60 min為粒度的交通流量的RMSE降低了64%,MAE減小了60.55%;以月為周期、60 min為粒度的交通流量比以年為周期、1 440 min為粒度的交通流量的RMSE降低了29.52%,MAE減小了46.20%,以周為周期、15 min為粒度的交通預測精度較1 440、60 min的時間粒度預測精度更高,但相應周期越長,預測效果越差。
表3 不同時間粒度預測結果評價指標
為使未來數字化交通中交通流預測更加精確,使出行者能夠在新時代交通系統(tǒng)中有更好的出行體驗,建立基于SVR-LSTM組合預測模型的高速公路交通流預測模型,運用歸一化方式降低數據波動范圍,通過SVR非線性回歸模型調整與LSTM模型不斷更新數據參數進行交通流預測,并增加對不同時間粒度(DTS)狀態(tài)下的交通流分析,通過建立評價指標體系對比分析預測結果。
實驗結果表明:建立SVR-LSTM模型預測模型對于高速公路交通流量的預測具有更高的預測精度,通過模型對比,SVR-LSTM模型預測結果更趨于真實值?;诓煌瑫r間粒度進行研究,發(fā)現交通流數據時間跨度越小,時間粒度越小,預測精度越高,預測效果越明顯。