陳喜群,周凌霄,曹 震
(浙江大學(xué)建筑工程學(xué)院,杭州310058)
隨著我國經(jīng)濟(jì)發(fā)展和城市化進(jìn)程推進(jìn),城市規(guī)模逐步擴(kuò)大,交通擁堵帶來的經(jīng)濟(jì)損失、環(huán)境污染、能源浪費(fèi)等問題日益加劇,給交通出行者和相關(guān)管理部門帶來極大不便和困擾.
智能交通系統(tǒng)(Intelligent Transportation Systems,ITS)是緩解交通擁堵問題的有效手段[1].交通流預(yù)測是實(shí)現(xiàn)交通系統(tǒng)智能化的關(guān)鍵所在,短時(shí)交通流預(yù)測可以幫助交管部門識別交通流演化態(tài)勢,提前制定短時(shí)交通管制措施,有效緩解交通擁堵,還可以幫助出行者了解路網(wǎng)運(yùn)行狀況,進(jìn)行路徑規(guī)劃.國內(nèi)外文獻(xiàn)就單個(gè)路段或固定檢測點(diǎn)位的交通流預(yù)測做了廣泛研究,但對于大規(guī)模路網(wǎng)交通流的預(yù)測相對較少,同時(shí),現(xiàn)有模型較少將路網(wǎng)拓?fù)浣Y(jié)構(gòu)融入預(yù)測模型中,因而模型的現(xiàn)實(shí)解釋意義不強(qiáng),預(yù)測精度有待提高.因此,本文提出基于圖卷積網(wǎng)絡(luò)的交通流預(yù)測框架,旨在通過提取交通流時(shí)空相關(guān)性和路網(wǎng)拓?fù)浣Y(jié)構(gòu),實(shí)現(xiàn)路網(wǎng)短時(shí)交通流預(yù)測,實(shí)現(xiàn)城市級復(fù)雜路網(wǎng)交通流預(yù)測,同時(shí)考慮路網(wǎng)拓?fù)浣Y(jié)構(gòu)的影響,提高交通流預(yù)測精度.
國內(nèi)外有關(guān)交通流預(yù)測研究大多集中于單點(diǎn)或單一路段上,通常采用ARIMA等參數(shù)模型以及機(jī)器學(xué)習(xí)等非參數(shù)模型進(jìn)行預(yù)測.例如,Ahmed等[2]首次將ARIMA模型應(yīng)用于高速公路短期流量預(yù)測.Wu等[3]應(yīng)用支持向量回歸(SVR)進(jìn)行旅行時(shí)間預(yù)測.由于城市交通環(huán)境的復(fù)雜性,目前針對城市路網(wǎng)短時(shí)交通流預(yù)測的相關(guān)研究還有待深入.
近年來,學(xué)者們將傳統(tǒng)模型應(yīng)用于路網(wǎng)層面,取得較好的效果,Cheng 等[4]提出一種自適應(yīng)k 近鄰(k-NN)模型用于短期路網(wǎng)交通預(yù)測;Du等[5]基于傳統(tǒng)的交通波模型設(shè)計(jì)旅行時(shí)間預(yù)測算法.許多學(xué)者借助深度學(xué)習(xí)強(qiáng)大的非線性數(shù)據(jù)挖掘能力,提出基于深度學(xué)習(xí)的路網(wǎng)交通流預(yù)測模型,Ma等[6]提出基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的方法預(yù)測路網(wǎng)交通流量.Yu 等[7]提出基于長短時(shí)記憶網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)的方法,用于高峰期路網(wǎng)交通流預(yù)測.根據(jù)現(xiàn)有研究經(jīng)驗(yàn),混合模型往往比單一模型具有更好的預(yù)測效果,Sun 等[8]應(yīng)用圖形拉索(Graphical Lasso)和神經(jīng)網(wǎng)絡(luò)融合算法進(jìn)行路網(wǎng)規(guī)模的流量預(yù)測;Yu 等[9]融合CNN和LSTM 實(shí)現(xiàn)北京路網(wǎng)交通速度預(yù)測.
傳統(tǒng)深度學(xué)習(xí)模型雖然具有較高的精度,但未考慮路網(wǎng)拓?fù)浣Y(jié)構(gòu)帶來的影響.圖卷積網(wǎng)絡(luò)(GCN)的興起為路網(wǎng)交通流預(yù)測模型帶來新的機(jī)遇.Li等[10]提出圖卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(GCRNN)用于預(yù)測路網(wǎng)交通速度,并應(yīng)用于高速公路路網(wǎng)預(yù)測;本文提出的模型應(yīng)用在包含多種道路類型的城市路網(wǎng),且預(yù)測時(shí)間間隔更短.Zhang等[11]提出帶注意力機(jī)制的圖卷積網(wǎng)絡(luò)預(yù)測模型,稱為AGCSeq2Seq,具有較高的預(yù)測精度,混合模型結(jié)構(gòu)相對較復(fù)雜,待標(biāo)定參數(shù)數(shù)量多;相較而言,本文構(gòu)建的模型更加簡潔,測試路網(wǎng)范圍更大.
鑒于ITS和人工智能的快速發(fā)展,目前雖已有許多預(yù)測算法,每種算法都有其優(yōu)點(diǎn)和缺點(diǎn),但由于各種復(fù)雜因素的影響,例如路網(wǎng)拓?fù)浣Y(jié)構(gòu)、交叉口信號控制和交通事故等,大規(guī)模城市路網(wǎng)交通流預(yù)測仍然是具有挑戰(zhàn)性的科學(xué)問題.
GCN能同時(shí)對節(jié)點(diǎn)特征信息與圖結(jié)構(gòu)信息進(jìn)行端到端的學(xué)習(xí),是對圖數(shù)據(jù)進(jìn)行處理建模的很好選擇[12].本文提出的路網(wǎng)短時(shí)交通流預(yù)測模型是在基本GCN的基礎(chǔ)上進(jìn)行構(gòu)建,模型框架如圖1所示,在傳統(tǒng)圖卷積網(wǎng)絡(luò)基礎(chǔ)上形成3個(gè)模塊:鄰接交通流信息提取模塊、相關(guān)交通流信息提取模塊和歷史信息提取模塊.分別得到矩陣和,通過不同的權(quán)重P1、P2和P3加權(quán)求和獲得最終的輸出.
圖1 圖卷積路網(wǎng)交通流預(yù)測模型框架Fig.1 Framework of network-wide traffic prediction model based on GCN
圖1所示框架的3個(gè)組成模塊內(nèi)容如下:
(1)鄰接交通流信息提取(模塊I).模塊I 考慮路網(wǎng)拓?fù)浣Y(jié)構(gòu),輸入是由各個(gè)路段交通流時(shí)間序列堆疊而成的矩陣X.通過各個(gè)路段的實(shí)際地理位置提取鄰接矩陣,若路段在地理上存在上下游鏈接關(guān)系,則認(rèn)為其鄰接.在模塊I中,將鄰接矩陣A(k)和交通流矩陣X輸入圖卷積網(wǎng)絡(luò)進(jìn)行特征提取,得到最終的輸出.其中,A(k)表示k階鄰接矩陣,對于節(jié)點(diǎn)i,其k階鄰表示至多經(jīng)過k個(gè)節(jié)點(diǎn)即可到達(dá)i的所有節(jié)點(diǎn)集合.
(2)相關(guān)交通流信息提取(模塊II).模塊II 考慮交通流之間的時(shí)間和空間相關(guān)性,將圖卷積網(wǎng)絡(luò)中的鄰接矩陣A(k)替換為相關(guān)矩陣C,其中,C由X通過一系列變換得到,即
式中:f(·)為相應(yīng)的函數(shù)映射,可以是皮爾遜相關(guān)系數(shù)計(jì)算函數(shù),也可以是其他機(jī)器學(xué)習(xí)方法.獲取相關(guān)系數(shù)矩陣C后,和交通流矩陣X輸入圖卷積網(wǎng)絡(luò)進(jìn)行特征提取,得到輸出.
(3)歷史信息提取(模塊III).提取歷史上同一時(shí)刻的交通流信息,將直接構(gòu)建成與輸出同等尺寸的矩陣.
式中:hnt(n=1,2,…,N,t=1,2,…,T)為一定時(shí)間之前(如一天、一周、一個(gè)月等)路段n在t時(shí)刻的歷史交通流信息.
(4)矩陣融合.矩陣和通過不同的權(quán)重P1、P2和P3加權(quán)求和得到輸出為
式中:為最終輸出;⊙為哈達(dá)馬(Hadamard)乘子,為矩陣相應(yīng)位置的數(shù)值相乘;表示路段n在t時(shí)刻的預(yù)測交通流信息.
本文所采用的GCN模型的優(yōu)勢是考慮路網(wǎng)拓?fù)浣Y(jié)構(gòu),通過圖卷積網(wǎng)絡(luò)提取出各個(gè)節(jié)點(diǎn)之間的關(guān)系.模型識別出具有關(guān)聯(lián)性的節(jié)點(diǎn),其對應(yīng)路段在現(xiàn)實(shí)中是相鄰或存在交通流的相互影響.為可視化這種相關(guān)關(guān)系,利用節(jié)點(diǎn)顏色和大小代表該節(jié)點(diǎn)與其余所有節(jié)點(diǎn)的相關(guān)系數(shù):取絕對值的平均值,即通過提取這些節(jié)點(diǎn)之間的相關(guān)關(guān)系,識別出重要節(jié)點(diǎn)對上下游的影響,提高模型的預(yù)測精度和可解釋性,模塊II考慮交通流之間的相關(guān)系數(shù)矩陣,提取路網(wǎng)交通流之間隱式的相關(guān)關(guān)系,再結(jié)合顯式的路網(wǎng)拓?fù)溧徑雨P(guān)系,實(shí)現(xiàn)準(zhǔn)確的短時(shí)交通流預(yù)測效果.
為測試構(gòu)建的圖卷積網(wǎng)絡(luò)交通流預(yù)測模型,分析美國馬里蘭州包含多種道路類型的城市路網(wǎng),如圖2所示,包含高速公路、快速路、主干道和次干道等道路類型,數(shù)據(jù)來源于區(qū)域綜合交通信息系統(tǒng)(RITIS).表1為實(shí)際路網(wǎng)統(tǒng)計(jì)信息,共包含582個(gè)路段,單個(gè)路段的長度范圍為0.010~4.323 km之間.獲取的交通流參數(shù)是路段平均速度,數(shù)據(jù)集包含2017年1月1日~3月31日城市道路網(wǎng)各個(gè)路段每5 min的平均速度.
使用前兩個(gè)月的速度數(shù)據(jù)作為訓(xùn)練集,剩余的一個(gè)月數(shù)據(jù)用作測試集.使用前60 min 速度數(shù)據(jù)預(yù)測未來30 min的路網(wǎng)速度.激活函數(shù)采用ReLU函數(shù),即:Re LU(x)=max{0,x}.
圖2 實(shí)際測試路網(wǎng)示意圖Fig.2 Illustration of test road network
表1 路網(wǎng)基礎(chǔ)信息描述Table1 Description for road network
圖卷積網(wǎng)絡(luò)的超參數(shù)主要包括:鄰接矩陣的k值、隱含層的層數(shù)和隱含層神經(jīng)元個(gè)數(shù).在路網(wǎng)案例中,模塊II 隱含層數(shù)為1層,隱含層神經(jīng)元個(gè)數(shù)設(shè)定為32,相關(guān)矩陣按皮爾遜相關(guān)系數(shù)計(jì)算.
模型共訓(xùn)練80 epoch,采用均方根誤差(Root Mean Square Error,RMSE)作為損失函數(shù),計(jì)算平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)用以評價(jià)模型性能.RMSE和MAPE的定義為
式中:N為路段數(shù)量;T為預(yù)測的時(shí)間間隔;ynt和分別表示速度的真實(shí)值和預(yù)測值.
圖3和圖4分別為不同k值和隱含層層數(shù)對模型測試誤差和效率的影響(僅改變模塊I的參數(shù)).由圖3可知,k值從0 變?yōu)?時(shí),預(yù)測精度有顯著提高,因?yàn)?,?dāng)k=0時(shí),圖卷積網(wǎng)絡(luò)退化為全連接網(wǎng)絡(luò),僅考慮交通流相關(guān)性,未考慮路網(wǎng)拓?fù)浣Y(jié)構(gòu);當(dāng)k值逐漸增大時(shí),模型精度有所提升,因?yàn)檩^大的k值能使模型捕獲更多相鄰路段之間的空間相關(guān)性;隨著k值繼續(xù)增大,模型的性能提升效果不明顯,因?yàn)殡S著階數(shù)的上升,路段之間距離變大,相互間的影響削弱,更多階近鄰的加入使得模型引入部分不甚相關(guān)的數(shù)據(jù);在同時(shí)考慮模型精度和復(fù)雜度的情形下,本文選擇k=5.由圖4可知,隨著隱含層數(shù)的增加,RMSE和MAPE先下降后逐漸上升.表明在該案例中,較淺層的圖卷積網(wǎng)絡(luò)結(jié)構(gòu)即可捕獲復(fù)雜的相關(guān)關(guān)系,隨著深度的增加,模型可能出現(xiàn)過擬合問題.
圖3 k值對模型性能的影響(1層隱含層)Fig.3 Impacts of k value on model performance(1 layer)
圖4 隱含層數(shù)對模型性能的影響(k=5)Fig.4 Impacts of number of layers on model performance(k=5)
采用時(shí)空深度張量神經(jīng)網(wǎng)絡(luò)模型(STDTNN)[13]、歷史平均(HA)、自回歸移動平均模型(ARMA)、隨機(jī)森林(RF)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短時(shí)記憶網(wǎng)絡(luò)(LSTM)、融合CNN和LSTM(FCL)等現(xiàn)有的模型與GCN模型進(jìn)行對比,預(yù)測性能如表2所示.結(jié)果表明,GCN模型在精度指標(biāo)上均優(yōu)于基準(zhǔn)模型,且在保證精度的條件下,展現(xiàn)出較高的效率.僅考慮相關(guān)矩陣的模型也呈現(xiàn)出較好的結(jié)果,說明不僅鄰近交通流之間存在相關(guān)性,一些看似不相關(guān)的路段交通流也存在潛在相似性,這通常由路網(wǎng)結(jié)構(gòu)、道路周邊區(qū)域規(guī)劃等相似性導(dǎo)致,因此,考慮潛在交通流時(shí)空相關(guān)性對模型精度也會產(chǎn)生重要影響.同時(shí)考慮鄰接矩陣和相關(guān)矩陣的GCN模型具有更好的效果,表明考慮路網(wǎng)拓?fù)浣Y(jié)構(gòu)和交通流相關(guān)性可以有效地提升模型精度.
表2 模型預(yù)測性能對比Table2 Prediction performance comparison of different models
為測試GCN模型多步預(yù)測的效果,同時(shí)預(yù)測未來30 min(即6步)的路網(wǎng)速度演化規(guī)律,表3和表4為不同預(yù)測步數(shù)下GCN模型的預(yù)測誤差.結(jié)果表明:預(yù)測誤差隨著預(yù)測步長的增多而增加,增加量在5‰以內(nèi),時(shí)間最接近的未來交通速度與當(dāng)前交通流狀況最相關(guān),最容易預(yù)測;比較不同道路類型上的多步預(yù)測性能,由于主次干道有行人、信號交叉口和分支道路的影響,所以相對更難預(yù)測,同時(shí),主次干道的車速較小,其相對誤差相應(yīng)較大.
為進(jìn)一步測試模型預(yù)測效果,提取每天上午07:00-09:00和下午17:00-19:00 早、晚高峰預(yù)測結(jié)果,將真實(shí)速度和預(yù)測速度繪制成散點(diǎn)圖,45°線表示真實(shí)值和預(yù)測值相同,越接近45°線精度越高.如圖5所示,直方圖表示數(shù)據(jù)在x軸和y軸上的投影,大多數(shù)散點(diǎn)接近45°線,且在±10 mph(±16 km/h)范圍內(nèi),皮爾遜相關(guān)系數(shù) PCC(Pearson Correlation Coefficient)為0.857,表明GCN模型在早、晚高峰時(shí)期也能保持良好的預(yù)測性能.
表3 多步預(yù)測誤差表(RMSE)Table3 Multi-step prediction performance of the GCN model (mph)
表4 多步預(yù)測誤差表(MAPE)Table4 Multi-step prediction performance of the GCN model (%)
圖5 早、晚高峰時(shí)期模型預(yù)測結(jié)果散點(diǎn)圖Fig.5 Prediction performanceof GCN modelat peak hours
GCN模型考慮路網(wǎng)拓?fù)浣Y(jié)構(gòu),圖6和圖7可視化這種相關(guān)性,顏色越深,表明該節(jié)點(diǎn)與其余節(jié)點(diǎn)越相關(guān).圖6為相關(guān)系數(shù)大于一定閾值的節(jié)點(diǎn)拓?fù)浣Y(jié)構(gòu),以真實(shí)地理位置進(jìn)行布局,可以發(fā)現(xiàn)模型和現(xiàn)實(shí)存在一定的匹配關(guān)系;節(jié)點(diǎn)代表每一條路段,節(jié)點(diǎn)大小和顏色代表與該路段有關(guān)聯(lián)的路段數(shù)量,節(jié)點(diǎn)間的邊代表兩個(gè)路段之間的相關(guān)系數(shù),越接近深色,相關(guān)系數(shù)越接近于1;不少路段與其他路段存在強(qiáng)相關(guān)性,通常為高速路的立交橋和主次干道的交叉口,這些路段在現(xiàn)實(shí)中也是對上、下游產(chǎn)生重要影響的關(guān)鍵節(jié)點(diǎn).圖7為所有節(jié)點(diǎn)的真實(shí)地理位置圖,圖7呈現(xiàn)出和圖6相類似的結(jié)果.
圖6 相關(guān)節(jié)點(diǎn)拓?fù)浣Y(jié)構(gòu)圖Fig.6 Graph topology of correlated nodes
圖7 各相關(guān)節(jié)點(diǎn)真實(shí)地理位置圖Fig.7 Geographical layout of correlated nodes
本文提出用于路網(wǎng)交通流預(yù)測的GCN模型框架,采用真實(shí)大規(guī)模城市路網(wǎng)浮動車數(shù)據(jù)對GCN模型進(jìn)行測試,通過實(shí)驗(yàn)確定合適的超參數(shù),可視化路網(wǎng)各節(jié)點(diǎn)之間的相關(guān)性,并將這種相關(guān)性嵌入GCN模型框架中,利用GCN模型獨(dú)特的鄰接矩陣設(shè)計(jì),使得模型同時(shí)考慮真實(shí)的路網(wǎng)拓?fù)浣Y(jié)構(gòu)和交通流的時(shí)空相關(guān)性,具有較高的預(yù)測精度、預(yù)測效率和現(xiàn)實(shí)解釋意義.通過與現(xiàn)有模型進(jìn)行對比發(fā)現(xiàn),GCN模型在預(yù)測精度和計(jì)算效率上均有所提升,其中RMSE為5.012,MAPE為0.153.本文探究模型在多步預(yù)測下的預(yù)測結(jié)果,不同道路類型的預(yù)測結(jié)果以及早、晚高峰時(shí)段下的預(yù)測結(jié)果,GCN模型均具有較好的表現(xiàn).GCN模型改進(jìn)路網(wǎng)交通流預(yù)測框架,其高效和高精度特性為實(shí)際交通管控和路徑規(guī)劃場景應(yīng)用奠定基礎(chǔ).后續(xù)研究可以在混合模型、超參數(shù)尋優(yōu)等方面進(jìn)行深入.