徐先峰, 夏 振, 趙龍龍
(長安大學 電子與控制工程學院,陜西 西安 710064)
智能交通系統(tǒng)(Intelligent Transportation System,ITS)中的交通流預測是實現(xiàn)現(xiàn)代交通規(guī)劃、交通管理和交通控制的重要因素。交通流預測是分析道路交通狀況、挖掘交通模式、預測道路交通趨勢的過程。它不僅可以為交通管理者提前感知交通擁堵、限制車流提供科學依據,而且可以為人們選擇合適的出行路線、提高出行效率提供參考與保障[1]。然而,由于交通流量具有復雜的空時相關性,如何讓預測更加準確與高效,成為了相關從業(yè)者和學者們共同關注的話題。
對短時交通流預測的研究模型通常大致可分為兩類,即參數(shù)模型和非參數(shù)模型。自回歸積分滑動平均(Autoregressive Integrated Moving Average,ARIMA)模型[2]和卡爾曼濾波模型[3]是兩種典型的參數(shù)模型。由于這些模型依賴于平穩(wěn)性假設,不能反映交通數(shù)據的非線性和不確定性特征,無法準確預測交通流量。非參數(shù)模型包括支持向量機回歸(Support Vector Regression,SVR)模型[4]、貝葉斯模型[5]和深度學習模型[6-7]等。其中,深度學習模型因其強大的學習能力而受到了更為廣泛的關注。Zhang等[8]將門控循環(huán)單元(Gated Recurrent Unit,GRU)模型應用于交通流預測以提高預測精度。GRU是循環(huán)神經網絡(Recurrent Neural Network,RNN)的一種變體,能夠有效地利用自循環(huán)機制來學習時間相關性,從而實現(xiàn)較好的預測效果[9]。但是它只考慮了交通流的動態(tài)變化而忽略了其空間相關性。為了更好地刻畫空間特征,一些研究[10-11]引入卷積神經網絡(Convolutional Neural Network,CNN)進行空間建模。然而,CNN本質上適用于圖像、規(guī)則網格等歐氏空間[12],對復雜拓撲結構的交通網絡具有一定的局限性,無法從本質上刻畫空間相關性。近年來,隨著圖卷積網絡(Graph Convolutional Network,GCN)的發(fā)展[13],它為解決上述問題提供了一個很好的思路。Jin等[14]提出了一種核加權圖卷積網絡(Kernel-Weighted Graph Convolutional Network,KW-GCN)模型來學習交通網絡中節(jié)點的線性組合權重,文獻[15]在現(xiàn)有GCN的基礎上采用了生成性對抗框架。雖然這些基于GCN的模型能夠很好地處理交通網絡圖結構數(shù)據,卻無法兼顧交通數(shù)據的動態(tài)時間特征。
為了充分發(fā)揮GCN局部學習特征、全局利用交通路網結構信息的能力,以及GRU在處理對交通序列長時間依賴問題方面的優(yōu)勢,本文構建了一種基于GCN和GRU的組合模型(GCN-GRU)預測方法,首先使用GCN進行復雜拓撲結構的學習及其空間特征的提取,然后利用GRU學習并處理交通數(shù)據的動態(tài)變化規(guī)律以捕捉時間特征,從而得到完整的交通流數(shù)據的空時特性。將該模型用于高速公路的交通流預測,實驗結果表明,所提出的GCN-GRU組合預測模型具有較低的預測誤差和較高的預測精度。
GCN-GRU組合模型的總體結構及模型元胞具體結構如圖1所示。組合模型的輸入為經過預處理的歷史時間序列數(shù)據,圖卷積層用于交通流數(shù)據的空間特征提取,GRU層通過單元間的信息傳輸獲得動態(tài)變化,以獲取時間特征。最后,GRU的輸出通過全連接層來產生最終的預測結果。
圖1 GCN-GRU組合模型的總體結構及模型元胞
在模型元胞結構中,ht-1為t-1時刻的輸出;GC為圖卷積過程;ut,rt分別為在t時刻的更新門和復位門;ct為t時刻存儲的記憶內容;ht為t時刻的輸出。具體計算過程如下。
ut=σ(Wu[f(X,A),ht-1]+bu)
(1)
rt=σ(Wr[f(X,A),ht-1]+br)
(2)
ct=σ(Wc[f(X,A),(rt*ht-1)]+bc)
(3)
ht=ut*ht-1+(1-ut)*ct
(4)
式中,W和b為訓練過程中的權重和偏差;f(X,A)為圖卷積過程;σ(·)為激活函數(shù)。
下面,分別描述組合模型的圖卷積層部分和門控循環(huán)單元層部分。
獲取復雜的空間相關性是交通預測中的關鍵問題。傳統(tǒng)的CNN可以獲得局部空間特征,但它只能用于歐氏空間,如圖像、規(guī)則網格等。高速公路網是以圖形而不是二維網格的形式存在的,這意味著CNN模型不能反映高速公路網復雜的拓撲結構,因而不能準確地捕捉空間相關性,而GCN可處理任意圖結構數(shù)據,圖卷積是利用定義在傅里葉域中對角化的線性算子來等價代替經典卷積算子實現(xiàn)的一種卷積操作。
如圖2所示,假定節(jié)點1為中心道路,GCN模型可以得到中心道路與其周圍道路之間的拓撲關系,得到空間相關性。
圖2 中心道路與周圍道路的拓撲關系示例
(5)
GCN結構如圖3所示。兩層GCN模型可以表示為
(6)
式中,W0,W1分別為第一層和第二層的權重矩陣;σ(),ReLU()為激活函數(shù)。
獲取時間相關性是交通預測中的另一個關鍵問題。傳統(tǒng)的循環(huán)神經網絡由于梯度消失和梯度爆炸等缺陷而在預測方面存在局限性。LSTM(Long Short-Term Memory,長短期記憶網絡)模型和GRU模型是循環(huán)神經網絡的變體,它們都使用門控機制來記憶盡可能多的長期信息。然而,LSTM由于結構復雜導致訓練時間較長,而GRU模型結構相對簡單、參數(shù)較少,訓練速度較快。因此,選擇GRU模型來從交通流量數(shù)據中獲得時間相關性。
圖3 GCN結構示意圖
GRU結構如圖4所示。其中,ht-1為t-1時刻的隱藏狀態(tài);xt為t時刻的交通信息;rt為復位門,用于控制忽略前一時刻狀態(tài)信息的程度;ut為更新門,用于控制前一時刻狀態(tài)信息進入當前狀態(tài)的程度;ct為t時刻存儲的記憶內容;ht為t時刻的輸出狀態(tài)。GRU以t-1時刻的隱藏狀態(tài)和當前的交通信息作為輸入,得到t時刻的交通狀態(tài)。該模型在捕捉當前時刻交通信息的同時,仍保留了歷史交通信息的變化趨勢,具有捕捉時間相關性的能力。
圖4 GRU結構
由于相鄰路段之間的交通流狀態(tài)相互影響,上下游路段的交通狀況對目標路段有著不同程度的影響。因此,交通流的變化具有一定的空時特征??紤]到周圍路段交通流對預測路段存在著滯后影響,利用互相關函數(shù)(Cross-Correlation Function)在不同的滯后值下尋找存在于不同路段交通數(shù)據序列中的延遲的空時關系,從而篩選出與目標預測路段相關性較強的路段,便于后續(xù)的空時特征分析。假設時間序列可以表示為
(7)
(8)
它們在滯后φ處的互相關性定義如下:
(9)
γu,z(φ)=E[(ut-μu)(zt+φ-μz)]
(10)
(11)
(12)
式中,γu,z(φ)為滯后φ下時間序列U與時間序列Z的協(xié)方差;μu,μz分別為U和Z的平均值;σu,σz分別為U和Z的標準偏差。
在這個定義中,互相關函數(shù)可以看作是滯后φ的函數(shù),最大化互相關函數(shù)的滯后值定義如下:
ψLv=argmax(ccfu,z(ψLv)),v∈[1,N]
(13)
式中,ψLv為使得周圍路段與預測路段的互相關性最大化的滯后值,它描述周圍路段對預測路段的最大影響時間范圍,其可用于空間鄰域的有效選擇??紤]預測路段Lj及其預測時間間隔Δt,當最大化互相關函數(shù)的滯后值在給定時間間隔內時,認為周圍路段影響預測路段;不在此時間間隔內的路段將被排除。形式定義如下:
RLj←{Lv|?0≤|ψLv|≤Δt,v∈[1,N]}
(14)
式中,RLj為第j條路段的空間鄰域集。所有滿足0≤|ψLv|≤Δt的路段都被歸入RLj來選擇Lj的空間鄰域。
本文所使用的是美國交通研究數(shù)據實驗室(Transportation Research Data Laboratory,TRDL)提供的高速公路探測器收集的交通數(shù)據,采樣時間間隔為15 min。由于工作日與周末所體現(xiàn)出來的交通流數(shù)據特性相差較大,為了充分利用交通流數(shù)據的規(guī)律性,選用其中2016年1月4日到3月29日共60個工作日的交通流量數(shù)據作為實驗數(shù)據集,其中數(shù)據集的80%用作訓練集,剩下的20%用作測試集。
圖5為選取的TH5號高速公路部分探測點的分布情況,待選探測點編號分別為1559、1560、1561、1562、1563、1565、1566、1567、1568、1575、1576、1577、1578、1579、1581、1582和1583,其中預測點編號為1579。
圖5 部分探測點的空間分布
由于交通數(shù)據樣本時間間隔為15 min,設置45 min的預測間隔則Δt=4?;诖耍袦髴獫M足條件0≤|ψLv|≤4,然后計算1579與其他探測點之間的互相關性。圖6為其中一個探測點1581與預測點1579的互相關性情況。
圖6 探測點1581與預測點的互相關性
由圖6可知,當滯后值為1時互相關性最大,同時滿足0≤|ψLv|≤4,故認為1581是1579的相鄰探測點。
同理,1559、1560、1563、1575、1576、1577、1578、1582和1583被認為是1579的相鄰探測點,它們使互相關性最大的滯后值如表1所示,1561、1562、1565、1566、1567和1568不符合條件而被排除。
表1 探測點使互相關性最大的滯后值統(tǒng)計
實驗數(shù)據包括兩部分:① 鄰接矩陣,它描述周圍探測點對預測點的交通狀況造成的影響程度即路段之間的空間關系,矩陣中的值表示路段之間的互相關性;② 特征矩陣,它描述了每個探測點上交通流量隨時間的變化,每一列代表一個路段,每一行是不同時段的交通流量。
為了更好地分析實驗結果、評估模型的預測性能,采用均方根誤差(Root Mean Squared Error,RMSE)、決定系數(shù)R2(Coefficient of Determination)和平均絕對誤差(Mean Absolute Error,MAE)3個性能指標來評估實際交通信息和預測結果之間的差異。
(15)
(16)
(17)
設置GCN-GRU模型的學習率為0.001,批次(batch)大小為64,epoch大小為100,模型元胞內含有兩層圖卷積層。隱藏神經元數(shù)是模型的一個重要參數(shù),不同的隱藏神經元數(shù)會對預測精度產生較大影響。因此需要使用不同的隱藏神經元數(shù)進行對比實驗,通過比較預測性能來選擇最佳值。圖7為不同隱藏神經元數(shù)下預測性能的比較結果。可以看出,當隱藏神經元數(shù)增加時,預測精度先增大后減小,這主要是因為當隱藏神經元大于一定程度時,模型復雜度和計算難度極大增加,從而降低了預測精度。當隱藏神經元數(shù)在100附近時預測性能最佳。因此,本文將模型的隱藏神經元數(shù)設置為100。
另外,該模型選擇了修正線性單元(Rectified Linear Unit,ReLU)作為激活函數(shù),它能在避免梯度消失問題的同時有效提高神經網絡的計算速度,使用Adam優(yōu)化器進行訓練以實現(xiàn)學習率的自適應調整。
實驗平臺的主要配置為:Intel E5 2620 V4,32 GB DDR3 RAM,Intel 500 GB SSD,NVIDIA GTX 1080Ti,基于谷歌的TensorFlow的深度學習框架Keras,在PyCharm開發(fā)環(huán)境中完成交通流預測模型的搭建和訓練,利用前45 min的歷史交通流數(shù)據來預測后15 min的交通數(shù)據。將GCN-GRU組合模型的性能與ARIMA模型[2]、SVR模型[4]、堆棧自動編碼器(Stacked Autoencoder,SAEs)模型[6]以及GRU模型[8]等基準方法進行比較。其中,ARIMA模型是比較早的用于交通流預測的一種方法,也是目前公認的交通預測框架中典型的參數(shù)化方法之一。模型的自回歸項系數(shù)設置為0,差分階數(shù)為1,移動平均項系數(shù)為1;SVR以統(tǒng)計學習為理論基礎,是一種為了克服參數(shù)模型的缺點而提出的非參數(shù)模型。該模型參考文獻[4],采用徑向基函數(shù)作為核函數(shù),懲罰參數(shù)設置為0.001;SAEs模型是一種比較著名的能較好地學習交通流特性的深度學習模型。參照文獻[6]的思路,模型設置了4層隱藏層,每個隱藏層中隱藏單元的數(shù)量為150;GRU網絡設置為2層,每層隱藏單元數(shù)設置為64。
圖8展示了一天時間里的GCN-GRU組合模型、ARIMA模型、SVR模型、SAEs模型和GRU模型的預測效果。
圖7 不同隱藏神經元數(shù)下預測性能的比較
圖8 各模型的預測結果對比
使用前45 min的歷史數(shù)據來預測后15 min的交通流數(shù)據,故預測時間為15 min。從圖8中可以直觀地看出,GCN-GRU組合模型的預測值與實際交通數(shù)據最為接近,能很好地從交通數(shù)據中獲取空時特征,組合模型的訓練時間為117 s。表2為不同預測模型的性能指標對比。
表2 GCN-GRU組合模型與其他預測模型的性能指標對比
從表2中可以定量地發(fā)現(xiàn),相較于SAEs模型,GRU模型和GCN-GRU模型的RMSE分別降低了18%和31.5%,R2分別提高了4.1%和6.5%;而相比于ARIMA模型,GRU模型和GCN-GRU模型的RMSE分別降低了23.4%和36%,R2分別提高了14%和16.6%。這是因為GCN-GRU模型和GRU模型強調了時間特征建模的重要性,而GRU正是具備學習并處理交通數(shù)據的動態(tài)變化規(guī)律以捕捉時間特征的優(yōu)勢,從而比ARIMA模型、SAEs模型和SVR模型等方法具有更高的預測精度以及更好的擬合程度。而相比于GRU模型,GCN-GRU組合模型的RMSE、MAE分別降低了16.5%和22.7%,原因在于組合模型中的GCN對復雜拓撲結構的學習及其空間特征的提取能力,而這是GRU模型所不具有的。表2中的對比結果證明了GCN-GRU模型在交通流預測中的有效性。
為了充分挖掘交通流數(shù)據的空時特性以實現(xiàn)短時交通流預測,本文結合GCN與GRU的特點,提出了基于GCN-GRU的組合預測模型。利用美國交通研究數(shù)據實驗室提供的高速公路探測器收集的交通數(shù)據對該模型性能進行評估,并與ARIMA模型、SAEs模型、SVR模型和GRU模型等方法進行比較,實驗結果表明,GCN-GRU組合模型能有效提升預測精度,預測結果能很好地貼合實際交通流數(shù)據,是一種有效的交通流預測模型。后續(xù)的研究中將考慮優(yōu)化GCN與GRU,以進一步提高模型的預測準確性。