崔毓偉, 卜世衍
(中遠(yuǎn)海運(yùn)科技股份有限公司,上海 200135)
隨著我國(guó)撤銷高速公路省界收費(fèi)站工作順利完成,自由流開(kāi)放制式收費(fèi)系統(tǒng)得到了廣泛應(yīng)用,極大地提高了車輛的通行效率,降低了物流成本,加快了全國(guó)高速公路一體化管理進(jìn)程。2018年,交通運(yùn)輸部辦公廳發(fā)布了《關(guān)于加快推進(jìn)新一代國(guó)家交通控制網(wǎng)和智慧公路試點(diǎn)的通知》,其中“基于大數(shù)據(jù)的路網(wǎng)綜合管理”專題提出構(gòu)建基于大數(shù)據(jù)的高速公路運(yùn)營(yíng)與服務(wù)智能化管理決策平臺(tái),并將其應(yīng)用到區(qū)域路網(wǎng)綜合信息采集、運(yùn)營(yíng)調(diào)度、收費(fèi)、資產(chǎn)運(yùn)維養(yǎng)護(hù)、公眾信息服務(wù)和應(yīng)急指揮等領(lǐng)域中。將大數(shù)據(jù)分析技術(shù)應(yīng)用到高速公路管理、運(yùn)營(yíng)和服務(wù)領(lǐng)域中,是智慧高速公路建設(shè)的一個(gè)重要體現(xiàn)。本文從新收費(fèi)體制下高速公路通行流量預(yù)測(cè)的應(yīng)用場(chǎng)景出發(fā),提出高速公路通行流量的分析尺度和以時(shí)間序列預(yù)測(cè)技術(shù)為基礎(chǔ),適合多場(chǎng)景、流數(shù)據(jù)的高速公路收費(fèi)站通行流量預(yù)測(cè)方法。
交通大數(shù)據(jù)分析技術(shù)是構(gòu)建我國(guó)智慧高速公路技術(shù)體系采用的關(guān)鍵技術(shù)之一[1],在高速公路通行流量統(tǒng)計(jì)預(yù)測(cè)中得到廣泛應(yīng)用。全面、準(zhǔn)確地進(jìn)行通行流量分析和預(yù)測(cè),不僅有助于制訂收費(fèi)站和車道運(yùn)營(yíng)養(yǎng)護(hù)方案,及時(shí)向駕駛員發(fā)布道路擁堵信息,而且能為進(jìn)一步規(guī)劃或升級(jí)高速公路監(jiān)控、收費(fèi)等機(jī)電系統(tǒng)建設(shè),判斷投資回收期提供重要依據(jù),是發(fā)揮大數(shù)據(jù)輔助決策功能的重要基礎(chǔ)。省界收費(fèi)站撤銷之后,不停車電子收費(fèi)系統(tǒng)(Electronic Toll Collection,ETC)的普及率大幅提升,城際和省際交流更加便捷,車流量進(jìn)一步增加,給流量預(yù)測(cè)的應(yīng)用場(chǎng)景帶來(lái)了很大的變化。引起該變化的原因主要體現(xiàn)在以下3個(gè)方面:
1)增加了門(mén)架等新的數(shù)據(jù)制造節(jié)點(diǎn);
2)ETC的普及有助于有效分析流量背后綁定的車輛和駕駛員行為信息;
3)適應(yīng)性更強(qiáng)、更適合海量流數(shù)據(jù)的預(yù)測(cè)算法給通行流量預(yù)測(cè)帶來(lái)了新的需求和應(yīng)用契機(jī)。
對(duì)比新舊收費(fèi)體制下高速公路通行流量分析和預(yù)測(cè)的不同,結(jié)果見(jiàn)表1。
表1 新收費(fèi)體制下高速公路通行流量分析和預(yù)測(cè)的變化
由表1可知,做好高速公路通行流量預(yù)測(cè)分析工作,是在新收費(fèi)體制下實(shí)現(xiàn)大數(shù)據(jù)分析和輔助決策的基礎(chǔ)。
高速公路通行流量預(yù)測(cè)的尺度由業(yè)務(wù)需求決定,不同應(yīng)用場(chǎng)景需要不同維度和不同粒度的預(yù)測(cè)數(shù)據(jù)。例如:根據(jù)收費(fèi)站進(jìn)出口總流量和分車型流量的預(yù)測(cè)結(jié)果制訂站級(jí)運(yùn)營(yíng)管理方案,或發(fā)布擁堵預(yù)警;根據(jù)門(mén)架系統(tǒng)的通行流量數(shù)據(jù)制訂不同路段的養(yǎng)護(hù)作業(yè)計(jì)劃,測(cè)算投資回報(bào)時(shí)間。在分析區(qū)域經(jīng)濟(jì)協(xié)同和車輛使用規(guī)律時(shí),需通過(guò)車牌識(shí)別數(shù)據(jù)來(lái)預(yù)測(cè)城際間的路徑通行流量。為滿足不同的應(yīng)用需求,從時(shí)間趨勢(shì)、空間分布和特征屬性等3個(gè)尺度把握交通流量數(shù)據(jù)預(yù)測(cè)。表2為高速公路通行流量預(yù)測(cè)的尺度。
表2 高速公路通行流量預(yù)測(cè)的尺度
分析尺度根據(jù)研究目標(biāo)劃分,實(shí)踐中不同分析尺度的差別主要體現(xiàn)在對(duì)數(shù)據(jù)的預(yù)處理上,根據(jù)不同的觀測(cè)目標(biāo)將數(shù)據(jù)融合為需要的分析尺度,從而給出多維度、多粒度的輔助決策信息。但是,不論何種尺度,流量數(shù)據(jù)在本質(zhì)上都是關(guān)于時(shí)間的函數(shù),因此時(shí)間序列分析方法是處理該問(wèn)題的基本方法。
時(shí)間序列預(yù)測(cè)方法大體上可分為2類:
1)以差分自回歸移動(dòng)平均((Auto-Regressive Integrated Moving Average,ARIMA)模型為代表的經(jīng)典線性回歸模型;
2)可反映非線性關(guān)系的有監(jiān)督機(jī)器學(xué)習(xí)方法,如長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)等模型。
3.1.1 經(jīng)典線性預(yù)測(cè)模型
線形預(yù)測(cè)模型的理論基礎(chǔ)為:對(duì)于平穩(wěn)非白噪聲序列(或差分處理為平穩(wěn)序列),可建立一個(gè)線性模型來(lái)擬合其發(fā)展,提取其中蘊(yùn)含的有用信息[2]。對(duì)于平穩(wěn)序列{xt},其自回歸移動(dòng)平均(Auto-Regressive and Moving Average,ARMA)模型可表示為
(1)
ARMA系列模型最大的特點(diǎn)是要求時(shí)間序列是平穩(wěn)的,序列的均值和方差不隨時(shí)間發(fā)生變化。盡管差分可將非平穩(wěn)的序列平穩(wěn)化,但在實(shí)踐中對(duì)誤差項(xiàng)方差不變的假設(shè)很難達(dá)到[3]。GARCH模型雖然能弱化誤差項(xiàng)方差不變的假設(shè),但這類模型在本質(zhì)上還是擬合序列的線性變化隨機(jī)過(guò)程,難以反映隨時(shí)間發(fā)生的非線性變化。
通行流量具有明顯的周期性波動(dòng)特征,可視其為時(shí)間的函數(shù),但前后時(shí)刻到達(dá)流量的關(guān)聯(lián)程度差異很大。在完全自由流狀態(tài)下,車輛到達(dá)過(guò)程是相互獨(dú)立的,是類似泊松過(guò)程的離散隨機(jī)過(guò)程。隨著交通流量的增大,不同時(shí)刻的交通流的關(guān)聯(lián)性增強(qiáng)。這與下一時(shí)刻完全建立在當(dāng)前時(shí)刻的基礎(chǔ)上的其他類型時(shí)間序列不同,流量時(shí)間序列演化的非線性特征更明顯。因此,針對(duì)實(shí)踐中需獲得多尺度的流量預(yù)測(cè)結(jié)果,應(yīng)選擇一種適應(yīng)性更強(qiáng)的預(yù)測(cè)方法。深度學(xué)習(xí)方法LSTM相比經(jīng)典的ARIMA方法能展現(xiàn)出更好的性能[3]。
3.1.2 機(jī)器學(xué)習(xí)預(yù)測(cè)模型
機(jī)器學(xué)習(xí)是使計(jì)算機(jī)根據(jù)數(shù)據(jù)自動(dòng)學(xué)習(xí),從中得到某種知識(shí)或規(guī)律的一門(mén)學(xué)科,即從觀測(cè)的數(shù)據(jù)中尋找規(guī)律,并利用該規(guī)律對(duì)未知的數(shù)據(jù)或無(wú)法觀測(cè)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。神經(jīng)網(wǎng)絡(luò)是一種強(qiáng)大的非線性機(jī)器學(xué)習(xí)模型,能很好地實(shí)現(xiàn)輸入與輸出之間的非線性映射[4]。在神經(jīng)網(wǎng)絡(luò)系統(tǒng)中,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)能對(duì)時(shí)間維度建模是其標(biāo)志性特征。RNN的每個(gè)輸入向量都對(duì)應(yīng)1個(gè)時(shí)間步和多個(gè)特征,通過(guò)在網(wǎng)絡(luò)中創(chuàng)建循環(huán)來(lái)對(duì)數(shù)據(jù)的時(shí)間維度建模[5]。本文采用時(shí)間序列預(yù)測(cè)中最常用的LSTM網(wǎng)絡(luò)對(duì)收費(fèi)站通行流量進(jìn)行預(yù)測(cè)。LSTM模型獨(dú)特的門(mén)結(jié)構(gòu)允許信息在跨多個(gè)時(shí)間步之后仍保留或遺棄,同時(shí)能克服其他多數(shù)RNN模型存在的梯度消失問(wèn)題[5]。
LSTM網(wǎng)絡(luò)是RNN最常用的變體,其主要特點(diǎn)是隱藏層通過(guò)門(mén)機(jī)制控制信息傳遞的累積速度,有選擇地從前期時(shí)間狀態(tài)中遺忘或加入新的信息,改善原始RNN的長(zhǎng)程依賴問(wèn)題,增強(qiáng)數(shù)據(jù)擬合的效果。LSTM的循環(huán)單元結(jié)構(gòu)[5]由遺忘門(mén)、輸入門(mén)和輸出門(mén)組成(見(jiàn)圖1),當(dāng)前時(shí)刻的序列xt與上一時(shí)刻的輸出ht-1共同構(gòu)成當(dāng)前時(shí)刻循環(huán)單元的輸入,經(jīng)過(guò)遺忘門(mén)的叉乘和輸入門(mén)的求和運(yùn)算,將狀態(tài)ct-1更新到狀態(tài)ct,并將當(dāng)前時(shí)刻的輸出ht作為下一時(shí)刻的輸入。
通過(guò)遺忘門(mén)ft將上一時(shí)刻的輸出ht-1與當(dāng)前時(shí)刻的數(shù)據(jù)xt拼接之后,經(jīng)過(guò)sigmod激活函數(shù)運(yùn)算,可得
ft=σ(Wf(ht-1,xt)+bf)
(2)
輸入門(mén)包括sigmod變換(即it決定哪些值需更新)和tanh變換,生成的新向量為
it=σ(Wi(ht-1,xt)+bi)
(3)
(4)
經(jīng)過(guò)遺忘門(mén)和輸入門(mén)之后,即可將狀態(tài)ct-1更新為狀態(tài)ct,即
(5)
輸出門(mén)與輸入門(mén)類似,通過(guò)一個(gè)sigmod變換來(lái)決定輸出哪些信息,得到ot為
ot=σ(Wo(ht-1,xt)+bo)
(6)
輸出的信息為當(dāng)前狀態(tài)經(jīng)過(guò)一個(gè)tanh變換之后與ot的向量點(diǎn)乘,即
ht=ot⊙tanh(ct)
(7)
本文采用TensorFlow2.1版本中的keras.layers.LSTM模塊引入LSTM層,實(shí)現(xiàn)基于LSTM網(wǎng)絡(luò)的通行流量預(yù)測(cè)。LSTM的門(mén)機(jī)制可在一定程度上將非規(guī)律信息屏蔽,避免訓(xùn)練數(shù)據(jù)中的偶發(fā)信息影響測(cè)試數(shù)據(jù)的擬合精度。
為說(shuō)明基于LSTM網(wǎng)絡(luò)的流量預(yù)測(cè)模型的有效性,以廣東省某高速公路收費(fèi)站某年9—11月(共計(jì)91 d)的交通流量數(shù)據(jù)為基礎(chǔ),建立短時(shí)流量預(yù)測(cè)和趨勢(shì)預(yù)測(cè)模型。流量統(tǒng)計(jì)時(shí)間間隔為15 min,將前81 d的流量數(shù)據(jù)劃分為訓(xùn)練集,將后10 d的流量數(shù)據(jù)劃分為驗(yàn)證集。圖2為該收費(fèi)站某年11月的15 min通行流量變化趨勢(shì)。
圖1 LSTM神經(jīng)網(wǎng)絡(luò)的循環(huán)單元結(jié)構(gòu)
圖2 廣東省某高速公路收費(fèi)站某年11月的15 min通行流量變化趨勢(shì)
從圖2中可看出,日通行流量分布呈現(xiàn)出規(guī)律性波動(dòng)特征。由于LSTM神經(jīng)元特殊的門(mén)結(jié)構(gòu)可有效解決長(zhǎng)程依賴問(wèn)題,為能更好地捕捉通行流量的變化趨勢(shì),模型輸入層采用過(guò)去12 h的15 min通行流量數(shù)據(jù)作為時(shí)間窗,即使用過(guò)去0.5 d的48維輸入向量預(yù)測(cè)下一個(gè)15 min的通行流量。由于實(shí)例訓(xùn)練數(shù)據(jù)集的規(guī)模有限,為避免出現(xiàn)過(guò)擬合問(wèn)題,隱藏層包括1個(gè)LSTM層和1個(gè)全連接層。考慮到通行流量預(yù)測(cè)是一個(gè)回歸問(wèn)題,模型訓(xùn)練的損失函數(shù)采用均方誤差(EMS)的形式,可更快地收斂。同時(shí),由于通行流量本身具有隨機(jī)性,EMS對(duì)離群數(shù)據(jù)的兼容性優(yōu)于其他損失函數(shù)。
(8)
模型優(yōu)化器采用參數(shù)自適應(yīng)學(xué)習(xí)率的Adam方法,梯度更新的數(shù)據(jù)批量(即batch_size)設(shè)定為256。對(duì)于模型訓(xùn)練次數(shù),文獻(xiàn)[3]通過(guò)研究時(shí)間序列預(yù)測(cè)問(wèn)題,認(rèn)為訓(xùn)練次數(shù)epoch對(duì)訓(xùn)練結(jié)果沒(méi)有明顯的影響。測(cè)試結(jié)果表明,訓(xùn)練次數(shù)過(guò)多會(huì)導(dǎo)致訓(xùn)練集過(guò)擬合,在測(cè)試集上效果不佳,當(dāng)epoch設(shè)定為10次時(shí),能達(dá)到較好的擬合效果。
以11月21日06:00開(kāi)始的時(shí)間序列(時(shí)間序列1)和11月28日08:00開(kāi)始的時(shí)間序列(時(shí)間序列2)為例,給出12 h之后的15 min通行流量預(yù)測(cè)結(jié)果示意見(jiàn)圖3。模型預(yù)測(cè)結(jié)果在整個(gè)測(cè)試集上的平均準(zhǔn)確率為0.85。
在圖3所示預(yù)測(cè)結(jié)果的基礎(chǔ)上,給出未來(lái)4 h的通行流量擬合結(jié)果見(jiàn)圖4。從圖4中可看出,預(yù)測(cè)結(jié)果基本上能反映流量的實(shí)際變化趨勢(shì)。
a)時(shí)間序列1
b)時(shí)間序列2
a)時(shí)間序列1
b)時(shí)間序列2
本文分析了新收費(fèi)制式下高速公路通行流量預(yù)測(cè)問(wèn)題的新變化,并從時(shí)間序列的角度提出了通行流量分析尺度和預(yù)測(cè)方法,指出了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法能更好地?cái)M合數(shù)據(jù)中的非線性特征,具有極強(qiáng)的適應(yīng)性和可擴(kuò)展性,能在海量數(shù)據(jù)的訓(xùn)練下完成更多維度、更精細(xì)粒度的預(yù)測(cè)任務(wù)。此外,以高速公路收費(fèi)站為例,采用LSTM網(wǎng)絡(luò)預(yù)測(cè)了未來(lái)通行流量的變化趨勢(shì)。