薛延明,李光輝,齊 濤
江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院,江蘇 無錫214122
機(jī)動(dòng)車是人們外出的重要交通工具,據(jù)公安部統(tǒng)計(jì),截至2020 年6 月,中國機(jī)動(dòng)車保有量達(dá)3.6 億輛,即平均每4 人擁有一輛機(jī)動(dòng)車;全國機(jī)動(dòng)車駕駛?cè)藬?shù)量達(dá)4.4億,其中汽車駕駛?cè)苏伎側(cè)藬?shù)的90.9%,因此需要預(yù)測交通流量趨勢以進(jìn)行合理管控。然而,由于交通流數(shù)據(jù)的復(fù)雜性和龐大性,對(duì)其進(jìn)行預(yù)測是極具挑戰(zhàn)性的。首先在時(shí)間維度上,交通流數(shù)據(jù)具有波動(dòng)性和突變性,其整體呈現(xiàn)周期性,但是在某段時(shí)間內(nèi)可能產(chǎn)生異常。其次在空間維度上,交通網(wǎng)絡(luò)存在復(fù)雜的道路位置依賴關(guān)系,比如在城市的十字路口處的道路就具有極強(qiáng)的相關(guān)性,預(yù)測交通流將呈現(xiàn)何種流通形式將十分困難。
以往研究者通過傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行交通流預(yù)測,比如向量自回歸(vector autoregressive,VAR)[1]、支持向量回歸機(jī)(support vector regression,SVR)[2]以及滑動(dòng)平均自回歸(autoregressive integrated moving average model,ARIMA)[3]。但是這些方法都是基于變化趨勢平穩(wěn)理想假設(shè),復(fù)雜多變的交通流數(shù)據(jù)往往不符合這一理論基礎(chǔ)。隨著人工智能的興起和發(fā)展,越來越多的人希望通過深度學(xué)習(xí)方法對(duì)交通流進(jìn)行預(yù)測。研究者們通過循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[4-5]、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[6]以及自動(dòng)編碼器[7]進(jìn)行建模。然而這些方法僅僅考慮了時(shí)間維度上的相關(guān)性,忽略了交通數(shù)據(jù)復(fù)雜的空間依賴關(guān)系。
交通流數(shù)據(jù)是非歐式結(jié)構(gòu)的,其節(jié)點(diǎn)沒有固定的鄰域結(jié)構(gòu),很難直接對(duì)其進(jìn)行卷積操作。為了解決以上所提到的問題,圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)應(yīng)運(yùn)而生。GCN 用拉普拉斯變換定義非歐式結(jié)構(gòu)數(shù)據(jù)的卷積操作,Kipf等人首次提出并將其應(yīng)用于分類任務(wù)中[8]。Zhao 等人[9]將GCN 和RNN結(jié)合挖掘交通數(shù)據(jù)的時(shí)空依賴關(guān)系。Yu等人[10]則通過CNN和門控機(jī)制來提取交通流數(shù)據(jù)的時(shí)空相關(guān)性。Li 等人[11]提出了擴(kuò)散卷積網(wǎng)絡(luò)提取交通流數(shù)據(jù)空間特征信息。Cui等人[12]提出了一種基于物理網(wǎng)絡(luò)拓?fù)涞牧髁繄D卷積網(wǎng)絡(luò),同時(shí)通過L1和L2范數(shù)提高了模型的可解釋性。Wang等人[13]提出了一種可學(xué)習(xí)的位置卷積網(wǎng)絡(luò),提高了模型的預(yù)測性能。馮寧等人[14]用圖卷積分別對(duì)日、周和近期數(shù)據(jù)進(jìn)行特征提取來預(yù)測交通流數(shù)據(jù)。但是這些方法都缺乏靈活的局部特征提取能力。Cui 等人[15]將小波變換和RNN進(jìn)行結(jié)合提取交通流的時(shí)空相關(guān)性。小波變換可以更好地提取局部空間信息,且不需要在圖中指定領(lǐng)域范圍進(jìn)行特征提取。然而一條道路的交通狀況不僅受其相鄰道路的影響,還需要特別關(guān)注易發(fā)重大事故或者位于網(wǎng)絡(luò)樞紐的道路。交通流數(shù)據(jù)還存在動(dòng)態(tài)變化性,圖中道路的相關(guān)性會(huì)隨著時(shí)間而發(fā)生改變,一些重要的時(shí)間點(diǎn)可能是影響整體數(shù)據(jù)的關(guān)鍵點(diǎn)。然而,目前的方法通常將交通圖看作靜態(tài)圖,通過固定的鄰接矩陣來獲得圖中的領(lǐng)域空間相關(guān)性。同時(shí)利用RNN在提取時(shí)間特征信息時(shí)通常只考慮交通流數(shù)據(jù)的順序相關(guān)性,然而交通流數(shù)據(jù)作為一種時(shí)序數(shù)據(jù)不只是順序相關(guān)的,一些重大交通事故可能會(huì)影響交通網(wǎng)絡(luò)相當(dāng)長的時(shí)間,而現(xiàn)有方法忽略了時(shí)空動(dòng)態(tài)變化性和影響大小關(guān)系。因此本文提出了融合圖小波和注意力機(jī)制的交通流預(yù)測方法,實(shí)驗(yàn)證明該方法的預(yù)測誤差低于現(xiàn)有的方法。
本文的主要貢獻(xiàn)包括:
(1)提出了一種基于圖小波變換和自適應(yīng)矩陣的空間特征融合提取方法,該方法能分別提取交通流數(shù)據(jù)局部和全局空間特征信息,并通過注意力機(jī)制捕獲空間特征的動(dòng)態(tài)變化性。
(2)提出了一種時(shí)間特征融合機(jī)制,融合分別從改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)和自注意力網(wǎng)絡(luò)中提取的局部和全局時(shí)間特征信息。
交通網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)通常被認(rèn)為是圖結(jié)構(gòu),交通圖可以表示為G=(V,E,A),其中V為圖的頂點(diǎn)集合,代表測量車速的傳感器節(jié)點(diǎn)集合,這些傳感器被部署在交通道路上方或路邊,每隔一段時(shí)間記錄車輛速度。E表示傳感器節(jié)點(diǎn)之間邊的集合,反映了節(jié)點(diǎn)之間的連通關(guān)系。A為G的加權(quán)鄰接矩陣,表示節(jié)點(diǎn)之間的距離。交通流數(shù)據(jù)可以表示為X=,t表示時(shí)間序列,n表示交通數(shù)據(jù)中傳感器節(jié)點(diǎn)序號(hào),表示節(jié)點(diǎn)n在時(shí)間t的交通速度。在真實(shí)的交通網(wǎng)絡(luò)中許多道路都是雙向道路,可將交通網(wǎng)絡(luò)看成無向圖。
為了獲得圖中的空間依賴關(guān)系,在頻域中定義卷積操作而實(shí)現(xiàn)。對(duì)于交通流數(shù)據(jù)X,圖卷積操作*g通過核濾波器F對(duì)其進(jìn)行卷積操作,其卷積核為gθ,U為Laplace 矩陣的特征向量,卷積操作可以表示為:
其中,D是一個(gè)度對(duì)角矩陣,Dii=∑j Aij。L表示圖的Laplace矩陣,In表示單位矩陣。
由于在大型圖中進(jìn)行矩陣分解復(fù)雜性高,通過Chebyshev 多項(xiàng)式進(jìn)行近似計(jì)算[16],可將計(jì)算復(fù)雜度降為O(K|ε|)[17],圖卷積可以改寫為:
其中,θ0、θ1分別是一跳和二跳節(jié)點(diǎn)的超參數(shù),可以由θ統(tǒng)一表示。最后可以得到圖卷積層的一階線性表達(dá)式:
其中,H(l)代表第l層的輸出,σ(·)是sigmoid 激活函數(shù),W為可學(xué)習(xí)的權(quán)重矩陣。但是需要超參數(shù)來決定圖卷積核的大小,因此在圖中進(jìn)行卷積操作不夠靈活。
本文方法通過圖小波卷積層和自適應(yīng)矩陣來提取空間特征信息,利用注意力機(jī)制來捕捉動(dòng)態(tài)空間變化性。本文還提出了時(shí)間特征融合機(jī)制來提取時(shí)間特征信息,方法的整體框架如圖1 所示,本文將其命名為STIGCN(graph convolutional network integrating spatio-temporal attention and graph wavelet)。
圖1 STIGCN框架圖Fig. 1 Structure of STIGCN
現(xiàn)有大多數(shù)交通預(yù)測方法是通過圖傅里葉定義圖卷積操作,需要指定跳數(shù)來對(duì)一定范圍內(nèi)的鄰居節(jié)點(diǎn)進(jìn)行特征聚合,這使得中心節(jié)點(diǎn)的領(lǐng)域被一個(gè)指定半徑的圓嚴(yán)格限制,因此提取特征過程不靈活,局部特征提取能力受到限制[15]。本文基于圖小波變換進(jìn)行卷積操作,小波變換具有局部化特性,可以捕獲信號(hào)的突變并檢測出信號(hào)中的峰值,將圖小波運(yùn)用在交通預(yù)測中可以捕獲到交通網(wǎng)絡(luò)中一些重要道路信息和路段中一些突變的交通變化信息,且不需要定義跳數(shù),從而變得更為靈活,具有更好的局部空間特征提取能力。與圖傅里葉變換類似,圖小波變換也是將圖信號(hào)映射到頻域中進(jìn)行卷積操作,不同的是傅里葉變換只能將時(shí)域信號(hào)分解為頻域信號(hào)的組合,而小波變換可以展示信號(hào)隨時(shí)間變化過程中相位最大的頻率的位置和時(shí)間。圖小波采用一個(gè)母小波函數(shù)將信號(hào)分解為不同的頻率分量,在圖網(wǎng)絡(luò)中可以表示為一組小波基ψs=[ψs1,ψs2,…,ψsn],ψsi表示節(jié)點(diǎn)i相關(guān)的小波基。s為尺度參數(shù),控制小波的大小,λ表示L的特征值。圖小波基ψs可以表示為:
相比傅里葉變換,圖小波基ψs和更加稀疏,因此計(jì)算更加快速有效。此外,圖小波變換聚合局部節(jié)點(diǎn)信息來表征節(jié)點(diǎn)特征,從而提高了方法的可解釋性。
然而交通網(wǎng)絡(luò)中的空間關(guān)系是不確定的,道路節(jié)點(diǎn)除了與鄰居節(jié)點(diǎn)密切相關(guān)以外,還和位于網(wǎng)絡(luò)中心的重要道路節(jié)點(diǎn)相關(guān),而這些節(jié)點(diǎn)可能相距較遠(yuǎn),而通過基于距離計(jì)算的鄰接矩陣無法體現(xiàn)出這些道路的相關(guān)性[18],因此本文采用了一個(gè)自適應(yīng)矩陣在全局范圍內(nèi)進(jìn)行空間特征學(xué)習(xí),其表達(dá)式為:
其中,p和m分別是A前c個(gè)特征值組成的特征向量和對(duì)角矩陣,E1,E2∈RN×c,自適應(yīng)矩陣以及圖小波卷積可以分別提取局部和全局空間特征信息。由于空間依賴通常是非線性的,需要一個(gè)非線性激活函數(shù),在本文中采用ReLU函數(shù)。通過一個(gè)對(duì)角權(quán)重矩陣Λ可以得到STIGCN的圖卷積層迭代式為:
在小波變換過程中也可以用Chebyshev多項(xiàng)式進(jìn)行近似計(jì)算,圖小波的Chebyshev多項(xiàng)式可以表示為:
本文通過一種新穎的RNN方法——記憶增強(qiáng)循環(huán)神經(jīng)網(wǎng)絡(luò)(memory-augmented RNN,MRNN)進(jìn)行局部時(shí)間特征提取[19]。該方法是基于ARIMA 建模的,MRNN的結(jié)構(gòu)如圖2所示。
圖2 MRNN結(jié)構(gòu)圖Fig. 2 Architecture of MRNN
MRNN是在RNN的不同位置添加了長期記憶濾波器,該結(jié)構(gòu)也可以看作通過記憶參數(shù)c對(duì)歷史數(shù)據(jù)進(jìn)行軟注意,從而提高了RNN的長期記憶能力。第i個(gè)長期記憶濾波器可以表示為:
其中,B表示時(shí)序分析方法中的后移運(yùn)算符,BXt表示前一時(shí)刻的序列數(shù)據(jù)Xt-1。di是第i個(gè)記憶濾波器的差分記憶參數(shù),可以保證預(yù)測的穩(wěn)定性,di∈[0,0.5] 。
本文將經(jīng)過圖卷積提取空間特征的交通數(shù)據(jù)輸入到MRNN中提取時(shí)間特征信息,其數(shù)學(xué)表達(dá)式為:
其中,K表示濾波長度,m(t)負(fù)責(zé)捕捉長期記憶信息,RNN的隱層狀態(tài)h(t)負(fù)責(zé)捕捉短期記憶信息,兩個(gè)單元并行運(yùn)算得到時(shí)序數(shù)據(jù)的時(shí)間依賴關(guān)系。d(t)表示時(shí)間步t的差分記憶參數(shù)向量。GC(·)表示圖卷積層操作,[]表示多個(gè)矩陣的拼接操作。在STIGCN中通過MRNN 可以得到時(shí)間的順序相關(guān)性,計(jì)算得到未來T個(gè)時(shí)間步的局部時(shí)間特征HL。
2.4.1 空間動(dòng)態(tài)變化性提取方法
交通流數(shù)據(jù)的空間相關(guān)性會(huì)隨著時(shí)間的變化而變化,例如某道路發(fā)生了交通事故,其將會(huì)成為未來一段時(shí)間里影響交通最大因素。只通過圖小波和自適應(yīng)矩陣對(duì)圖中空間特征進(jìn)行特征提取會(huì)忽略交通流的動(dòng)態(tài)變化性,因此為了獲取不同時(shí)間步的空間相關(guān)性,本文通過注意力機(jī)制[20]對(duì)不同時(shí)間步的交通空間圖進(jìn)行重要性系數(shù)分配,如圖3所示??臻g注意力機(jī)制可以使得各交通道路在不同時(shí)間點(diǎn)上聚焦于更重要更相關(guān)的其他交通道路的交通流特征信息。
圖3 空間權(quán)重隨時(shí)間的變化情況Fig. 3 Changes of spatial weight over time
對(duì)于圖卷積層的輸出Hs,通過權(quán)重矩陣Wq、Wk、Wv可以計(jì)算空間注意力層的輸出Hatten,其表達(dá)式為:
其中,d表示Hs的輸入維度。
在STIGCN中采用多頭注意力機(jī)制,可以綜合多個(gè)注意力層的結(jié)果進(jìn)行特征表示。當(dāng)有K個(gè)注意力頭時(shí),多頭注意力可以表示為:
2.4.2 局部和全局時(shí)間融合機(jī)制
通過RNN 可以提取時(shí)間的相關(guān)性,但是其存在一些不足。首先RNN 具有遺忘性,隨著時(shí)間序列的增加,RNN 會(huì)逐漸遺忘過去的特征信息,因此RNN只能獲得局部的時(shí)間信息。其次RNN的時(shí)間特征表示是順序的,但是在實(shí)際交通網(wǎng)絡(luò)中時(shí)間依賴關(guān)系往往是復(fù)雜的,而不只是順序相關(guān)的。例如某時(shí)刻發(fā)生了交通事故,則該時(shí)間點(diǎn)對(duì)未來的時(shí)間點(diǎn)影響將是最大的且會(huì)持續(xù)很長一段時(shí)間,而非主要受前一個(gè)時(shí)刻的影響。
由于交通網(wǎng)絡(luò)時(shí)間依賴關(guān)系是交錯(cuò)復(fù)雜的,本文通過自注意力層對(duì)交通數(shù)據(jù)做了全局時(shí)間信息提取,其方法框架如圖4所示。
圖4 時(shí)間特征融合機(jī)制Fig. 4 Temporal feature fusion mechanism
然而自注意力層忽略了時(shí)序數(shù)據(jù)之間的相對(duì)位置關(guān)系,因此在計(jì)算之前需要使得方法平等地對(duì)待不同位置的數(shù)據(jù)。本文對(duì)輸入數(shù)據(jù)Ht的每個(gè)位置進(jìn)行位置編碼,獲得每個(gè)節(jié)點(diǎn)i的嵌入,其表達(dá)式如下所示:
將時(shí)間嵌入與原本的數(shù)據(jù)進(jìn)行加和得到自注意力層的輸入Hin[i]:
然后通過多頭注意力機(jī)制可以得到全局時(shí)間特征表示HG:
最后通過卷積層Conv(·),權(quán)重矩陣Wl和Wg將局部和全局時(shí)間特征進(jìn)行融合輸出,其表達(dá)式為:
算法1STIGCN
本文基于兩個(gè)真實(shí)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。第一個(gè)數(shù)據(jù)集為美國華盛頓州西雅圖地區(qū)高速公路上的車流數(shù)據(jù),名為Freeway Traffic 數(shù)據(jù)集[21]。該數(shù)據(jù)覆蓋了4 條相連的高速公路,包括I-5、I-90、I-405 和SR-520。原始數(shù)據(jù)包括車速、交通量以及密度,在對(duì)該數(shù)據(jù)集進(jìn)行了全面的數(shù)據(jù)清洗后選取了2015年一整年的高質(zhì)量交通數(shù)據(jù)信息[22],包括323 個(gè)傳感器節(jié)點(diǎn)。第二個(gè)數(shù)據(jù)集為美國加利福尼亞州運(yùn)輸部門的PEMS系統(tǒng)部分?jǐn)?shù)據(jù),簡稱為PeMSD7[23],實(shí)驗(yàn)采用時(shí)間跨度為2012年5月和6月工作日的數(shù)據(jù),包含了228個(gè)節(jié)點(diǎn)。兩個(gè)數(shù)據(jù)集中的數(shù)據(jù)均采取了每隔5 min進(jìn)行采樣。
在Freeway Traffic 數(shù)據(jù)集中,鄰接矩陣由0 和1組成,節(jié)點(diǎn)相鄰為1,不相鄰為0。交通速度數(shù)據(jù)采用了最大最小值歸一化,將速度規(guī)定在[0,1]范圍內(nèi),具體表達(dá)式如下:
在PeMSD7數(shù)據(jù)集中,鄰接矩陣是根據(jù)交通網(wǎng)絡(luò)中節(jié)點(diǎn)之間的距離計(jì)算的,通過以下計(jì)算得到鄰接矩陣A:
其中,dij表示節(jié)點(diǎn)之間的距離,σ2和ε分別控制鄰接矩陣A的分布和稀疏性,本文參照文獻(xiàn)[10]分別設(shè)定為10和0.5。
交通速度數(shù)據(jù)采用的歸一化方法如下所示:
本文基于Pytorch框架構(gòu)建相關(guān)深度學(xué)習(xí)實(shí)驗(yàn)方法。所有的實(shí)驗(yàn)均在GPU 服務(wù)器上完成,該服務(wù)器CPU型號(hào)為Intel?Core?i9-9900X@3.5 GHz,GPU的型號(hào)為兩塊11 GB NVIDIA GTX 2080Ti,內(nèi)存為32 GB。
數(shù)據(jù)前70%作為訓(xùn)練集,剩下的數(shù)據(jù)中20%作為驗(yàn)證集,10%作為測試集。STIGCN的批處理大小為32,每層神經(jīng)元的丟棄率為0.1,注意力多頭個(gè)數(shù)設(shè)置為4,圖小波核尺度s在兩個(gè)數(shù)據(jù)集中都設(shè)置為0.08,滯后系數(shù)k設(shè)置為8。所有深度學(xué)習(xí)方法的批處理大小均采用Adam函數(shù)作為所有方法的訓(xùn)練優(yōu)化器,學(xué)習(xí)率初始值均設(shè)定為0.001。本文的評(píng)價(jià)指標(biāo)包括平均絕對(duì)誤差(mean absolute error,MAE)、平均絕對(duì)百分比誤差(mean absolute percentage error,MAPE)和均方根誤差(root mean square error,RMSE)。對(duì)于輸入數(shù)據(jù)x,三種評(píng)價(jià)標(biāo)準(zhǔn)可以定義為:
本文利用兩個(gè)真實(shí)的交通流數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析及評(píng)估,在實(shí)驗(yàn)過程中將STIGCN與其他方法進(jìn)行性能對(duì)比,對(duì)比方法包括8 種算法,分別是歷史平均方法(history average model,HA)、支持向量回歸機(jī)(linear support vector regression,LSVR)、記憶增強(qiáng)循環(huán)神經(jīng)網(wǎng)絡(luò)(memory-augmented recurrent neural network,MRNN)[19]、時(shí)間圖卷積網(wǎng)絡(luò)(temporal graph convolutional network,TGCN)[9]、時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(spatiotemporal graph convolutional network,STGCN)[10]、擴(kuò)散卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(diffusion convolutional recurrent neural network,DCRNN)[11]、圖小波循環(huán)神經(jīng)網(wǎng)絡(luò)(graph wavelet gated recurrent neural network,GWGR)[15]、多注意力圖神經(jīng)網(wǎng)絡(luò)(graph multi-attention network,GMAN)[24]。
MRNN的滯后系數(shù)k設(shè)置為8,TGCN的GRU隱藏層維度為64,GWGR的小波尺度s在兩個(gè)數(shù)據(jù)集上都設(shè)置為0.08,隱層維度為64,輸出層維度為128。STGCN[10]、DCRNN[11]、GMAN[24]的參數(shù)設(shè)置均參考文獻(xiàn),設(shè)置為默認(rèn)值。另外,為了比較Chebyshev 多項(xiàng)式的效果,本文還通過Chebyshev表示圖上的卷積操作,具體是對(duì)圖小波進(jìn)行了三階近似計(jì)算,并設(shè)置方法STIGCN-Che。
表1展示了各方法在PeMSD7和Freeway Traffic兩個(gè)數(shù)據(jù)集中的預(yù)測表現(xiàn),實(shí)驗(yàn)中的方法均是通過前60 min的歷史數(shù)據(jù)來預(yù)測未來45 min的交通情況。
表1 各方法在兩個(gè)數(shù)據(jù)集上的預(yù)測表現(xiàn)Table 1 Prediction performance of each method on two datasets
圖5 展示了所有深度學(xué)習(xí)方法的平均絕對(duì)誤差MAE與迭代次數(shù)的關(guān)系,其中TGCN迭代了1 000次,圖中僅顯示100 次迭代結(jié)果。從圖5 可知,STIGCN在Freeway Traffic 數(shù)據(jù)集中的MAE 是最低的,且收斂速度相較于其他算法也更快,由此可以說明STIGCN的泛化能力相較對(duì)比算法更加優(yōu)異。
圖5 Freeway Traffic數(shù)據(jù)集中各方法驗(yàn)證集迭代情況Fig. 5 Validation set iteration of each method in Freeway Traffic dataset
通過實(shí)驗(yàn)可知統(tǒng)計(jì)方法HA 和機(jī)器學(xué)習(xí)方法LSVR均無法捕捉復(fù)雜的交通流特征信息,預(yù)測效果不佳。對(duì)于MRNN這類RNN方法來說,其效果要明顯優(yōu)于機(jī)器學(xué)習(xí)方法,在15 min預(yù)測任務(wù)中對(duì)比LSVR和HA,F(xiàn)reeway Traffic 數(shù)據(jù)集上其MAE 分別降低了23.1%和29.4%,在PeMSD7 數(shù)據(jù)集上分別降低了18.4%和49.1%。這類方法缺陷在于只考慮了時(shí)間相關(guān)性,在短期預(yù)測中效果較優(yōu),但在長期預(yù)測中效果不佳,比如在Freeway Traffic數(shù)據(jù)集中,MAE在15 min預(yù)測中較STGCN 低了3.97%,但是在45 min 預(yù)測中高了2.84%。TGCN 和STGCN 是基于GCN 的方法,考慮了交通流數(shù)據(jù)中復(fù)雜的空間依賴關(guān)系,同時(shí)分別通過GRU和CNN考慮了時(shí)間依賴關(guān)系,因此在性能上要優(yōu)于RNN模型。PeMSD7數(shù)據(jù)集上STGCN在30 min 預(yù)測任務(wù)中MAE 和RMSE 分別比MRNN 模型降低了10.1%和4.5%。而在45 min 預(yù)測任務(wù)中MAE 和RMSE 分別比MRNN 模型降低了17.7%和9.6%。TGCN 在前30 min 預(yù)測任務(wù)中性能不及MRNN,但在45 min 預(yù)測任務(wù)中的RMSE 降低了8.7%,由此可知隨著預(yù)測時(shí)間步長的增加,深度學(xué)習(xí)模型的性能將逐漸優(yōu)于RNN 方法。DCRNN 模型是基于擴(kuò)散卷積來提取圖中的空間相關(guān)性,在預(yù)測精度上要高于TGCN和STGCN。
實(shí)驗(yàn)還表明基于小波變換的圖卷積網(wǎng)絡(luò)方法在短期預(yù)測任務(wù)中的性能優(yōu)于基于傅里葉變換的方法。GWGR在兩個(gè)數(shù)據(jù)集中進(jìn)行15 min預(yù)測任務(wù)的三個(gè)誤差指標(biāo)(MAE、RMSE、MAPE)均低于傳統(tǒng)的GCN 方法,但是長期預(yù)測中效果不佳。本文提出的STIGCN 方法在長期預(yù)測中誤差比GWGR 小,在Freeway Traffic數(shù)據(jù)集上,相比GWGR模型在15 min、30 min和45 min預(yù)測任務(wù)中誤差(MAE)分別降低了6.1%、10.2%和14.2%。GWGR 隨著時(shí)間步長的增加,性能下降迅速,主要原因是GRU 具有遺忘性,而STIGCN 通過MRNN 和注意力機(jī)制增強(qiáng)了模型的記憶性,從而提高了長期預(yù)測性能。本文方法還和采用了圖嵌入表示和注意力機(jī)制的方法GMAN進(jìn)行了比較,在預(yù)測性能上也優(yōu)于該方法,尤其是在15 min預(yù)測任務(wù)中,STIGCN 要明顯優(yōu)于GMAN,其原因主要是圖小波更能捕獲交通網(wǎng)絡(luò)中一些重要的路段和變化,同時(shí)自適應(yīng)矩陣也能從全局角度發(fā)掘一些隱藏的重要道路信息,從而挖掘更多隱藏信息。
此外,實(shí)驗(yàn)還比較了STIGCN-Che和STIGCN之間的性能差異,如圖6 所示。通過Chebyshev 多項(xiàng)式近似圖上的矩陣分解可加快計(jì)算速度,在大型的圖中可降低算法的復(fù)雜性。
圖6 STIGCN和STIGCN-Che計(jì)算時(shí)間比較Fig. 6 Comparison of calculation time between STIGCN and STIGCN-Che
3.5.1 圖小波和自適應(yīng)矩陣分析
STIGCN 通過圖小波變換對(duì)圖中的節(jié)點(diǎn)進(jìn)行特征表示,圖小波矩陣零值在兩個(gè)數(shù)據(jù)集中的分布情況如表2所示。
表2 圖小波矩陣稀疏情況統(tǒng)計(jì)Table 2 Statistics of graph wavelet matrix sparsity
圖小波變換矩陣包括了一個(gè)對(duì)角權(quán)重矩陣Λ和小波基ψs,圖小波變換矩陣可以表示為。本文將圖小波基和圖小波變換矩陣在Freeway Traffic數(shù)據(jù)集上進(jìn)行了可視化展示,如圖7所示。
圖7 圖小波和自適應(yīng)矩陣Fig. 7 Graph wavelet and adaptive matrix
對(duì)比Laplace傅里葉基可以發(fā)現(xiàn),ψs相比U更為稀疏,數(shù)量級(jí)遠(yuǎn)小于N2。因此在大型網(wǎng)絡(luò)中進(jìn)行圖上的卷積操作復(fù)雜度更低,同時(shí)可以提高方法的可解釋性。除此以外,本文還分析了自適應(yīng)矩陣的權(quán)重分布情況,相比圖7(c)的圖小波矩陣,自適應(yīng)矩陣可以從全局角度提取額外的道路節(jié)點(diǎn)空間特征信息。
3.5.2 注意力模塊分析
STIGCN 采用注意力機(jī)制對(duì)圖小波卷積和自適應(yīng)矩陣提取的空間特征信息進(jìn)行再提取,根據(jù)節(jié)點(diǎn)之間的重要性進(jìn)行權(quán)重分配,從而可以捕捉空間特征隨時(shí)間的動(dòng)態(tài)變化性。圖8 展示了在不同時(shí)間的空間相關(guān)性熱力圖,圖中顏色越紅表明節(jié)點(diǎn)被關(guān)注度越高,越藍(lán)則相反。從圖中可以看到,節(jié)點(diǎn)6 在不同的時(shí)間點(diǎn)上對(duì)鄰近節(jié)點(diǎn)的關(guān)注程度不同。
圖8 空間動(dòng)態(tài)變化圖Fig. 8 Spatial dynamic change diagram
3.5.3 時(shí)間融合機(jī)制分析
STIGCN 除了在空間上通過注意力機(jī)制獲取空間隨時(shí)間的動(dòng)態(tài)變化性,在時(shí)間上也通過自注意力模塊來獲取時(shí)間的動(dòng)態(tài)變化性,得到全局時(shí)間相關(guān)性。MRNN 可以獲取時(shí)間的順序相關(guān)性,順序相關(guān)性是局部相關(guān)的特征提取方法,STIGCN 通過將MRNN和子注意力模塊提取的時(shí)間特征進(jìn)行融合而更好地提取交通流的時(shí)間特征信息。為了驗(yàn)證時(shí)間融合機(jī)制的有效性,設(shè)置了以下消融實(shí)驗(yàn):
(1)RNN 方法。只通過MRNN 獲得局部時(shí)間信息。
(2)自注意力方法。只通過子注意力層獲取全局時(shí)間信息。
(3)順序疊加方法。將MRNN 提取的局部時(shí)間特征直接傳入自注意力模塊中提取特征信息。
(4)信息融合機(jī)制。將局部和全局時(shí)間特征信息進(jìn)行融合處理。
實(shí)驗(yàn)結(jié)果如表3 所示。從實(shí)驗(yàn)結(jié)果來看本文提出的時(shí)間融合機(jī)制提高了預(yù)測性能,由此可驗(yàn)證時(shí)間融合機(jī)制的有效性。本文還設(shè)置了注意力機(jī)制相關(guān)消融實(shí)驗(yàn),STIGCN-NA 表示沒有空間注意力機(jī)制,具體如表3所示。因此可以證明注意力機(jī)制能有效地獲取空間動(dòng)態(tài)變化性。
表3 兩個(gè)數(shù)據(jù)集消融實(shí)驗(yàn)結(jié)果Table 3 Ablation experiment results for two datasets
在本實(shí)驗(yàn)中,本文考察了一些重要的參數(shù)。其中小波核尺度參數(shù)s、隱藏層維度以及輸出層維度是對(duì)算法影響最大的參數(shù)。本文將輸入批處理大小設(shè)置為32,訓(xùn)練迭代次數(shù)設(shè)置為20,并在兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。
在PeMSD7 數(shù)據(jù)集中隱藏層維度設(shè)置為[16,32,64,128,200],輸出層維度為[16,32,64,128,256]。水平軸表示維度大小,豎直軸表示不同評(píng)價(jià)標(biāo)準(zhǔn)的值,如圖9 所示。在隱藏層維度和輸出維度各為128 時(shí),MAE 和RMSE 達(dá)到最小然后又上升,其主要原因是產(chǎn)生了過擬合。
圖9 參數(shù)選擇中誤差變化情況Fig. 9 Error change in parameter selection
在Freeway Traffic數(shù)據(jù)集中,隱藏層維度設(shè)置為[16,32,64,100]。從圖中可知當(dāng)隱層和輸出層各為64時(shí)誤差達(dá)到最小。另外,本文將圖小波尺度參數(shù)設(shè)置為[0.02,0.08,0.16,0.24,0.32],當(dāng)尺度參數(shù)s在0.08時(shí),在兩個(gè)數(shù)據(jù)集中誤差都達(dá)到最小。
本文在兩個(gè)數(shù)據(jù)集上比較了一天的預(yù)測值和真實(shí)值的擬合程度,如圖10 所示。其中車速的變化可以反映車流量的變化,平均車速降低表示車流量減少。從圖中可知,STIGCN能較好地?cái)M合真實(shí)值。此外從圖中可以發(fā)現(xiàn),F(xiàn)reeway Traffic 數(shù)據(jù)集的速度數(shù)據(jù)變化不平穩(wěn)且波動(dòng)較大,從圖中無法看出明顯的早高峰和晚高峰,但是在中午和晚上這段時(shí)間車流量明顯減少。而從PeMSD7 中可以看到較明顯的早高峰和晚高峰,從早晨4:00 到6:30 車流量顯著減少,7:30 之后出現(xiàn)早高峰,同時(shí)在晚上17:30 后出現(xiàn)晚高峰。
圖10 兩個(gè)數(shù)據(jù)集中車速變化情況Fig. 10 Changes of vehicle speed on two datasets
本文提出了一種融合圖小波和注意力機(jī)制的交通流預(yù)測方法。該方法通過圖小波和自適應(yīng)矩陣來分別提取局部和全局的空間相關(guān)性,并采用新穎的RNN模型MRNN來提取時(shí)間順序相關(guān)性。為了獲取交通流數(shù)據(jù)的時(shí)空相關(guān)性,本文將注意力機(jī)制加入到方法中,提出了一種時(shí)間融合機(jī)制來提取時(shí)間特征信息,實(shí)驗(yàn)結(jié)果說明了該方法能提高預(yù)測精度,降低預(yù)測誤差。今后將考慮交通網(wǎng)絡(luò)中結(jié)構(gòu)相關(guān)性,并對(duì)方法的魯棒性進(jìn)行研究。