朱凱利 朱海龍 劉靖宇 石曄瓊 王歡
摘要:交通預(yù)測在智能交通中有著重要的意義和應(yīng)用,本文提出一種用于交通預(yù)測的圖卷積神經(jīng)網(wǎng)絡(luò),使用圖卷積對城市道路網(wǎng)絡(luò)進行建模,利用GCN捕獲圖的拓撲結(jié)構(gòu),處理時空交通預(yù)測任務(wù)。將該方法應(yīng)用到真實的數(shù)據(jù)集中,通過對車流量的預(yù)測和車速的預(yù)測實驗表明,該方法優(yōu)于目前其它預(yù)測方法。
關(guān)鍵詞:圖卷積;GCN;拓撲結(jié)構(gòu);車流量
0引言
城市交通擁堵現(xiàn)象日益嚴(yán)重,不僅浪費了出行時間,加劇了城市環(huán)境污染,更使得城市交通事故頻發(fā),影響交通運行,長此以往,造成惡性循環(huán)。因此,實現(xiàn)對城市路網(wǎng)交通流的有效預(yù)測,能夠有效預(yù)判城市交通現(xiàn)狀,進而合理進行調(diào)度,解決城市交通堵塞問題?,F(xiàn)有的解決城市交通流預(yù)測問題的方法主要有兩種:
(1)基于傳統(tǒng)的統(tǒng)計學(xué)預(yù)測模型。該方法主要通過車流量、速度、密度之間的關(guān)系進行建模,將交通流數(shù)據(jù)進行回歸以及優(yōu)化參數(shù)。實現(xiàn)交通數(shù)據(jù)的擬合預(yù)測,主要包括歷史均值法、自回歸滑動平均法等。但是由于交通場景的復(fù)雜性,該預(yù)測模型較難得到準(zhǔn)確地預(yù)測結(jié)果。Kumer等人采用ARIMA模型,將預(yù)測的車流量用數(shù)學(xué)模型的形式表現(xiàn)出來,但這一方法只適用于線性數(shù)據(jù)。而交通流數(shù)據(jù)是非線性的復(fù)雜的:Kumar提出了基于Kalman濾波技術(shù)的交通流預(yù)測模型,克服了SARIMA模型依賴于大量數(shù)據(jù)進行開發(fā)的缺陷。
(2)基于數(shù)據(jù)驅(qū)動的預(yù)測模型。該模型通過數(shù)據(jù)的規(guī)律來推測其變化趨勢。以此來進行交通流預(yù)測。這種方法不需要考慮交通場景的動態(tài)特性,只需要根據(jù)歷史的交通流數(shù)據(jù)作為預(yù)測值,但該方法預(yù)測準(zhǔn)確性較低,不能很好地適應(yīng)時間特征。Zhang等人設(shè)計了基于殘差卷積單元的ST-ResNet來對城市人流量進行預(yù)測,這種方法雖然提取了流量數(shù)據(jù)的時空特征,但將輸入限制為標(biāo)準(zhǔn)的2維或3維網(wǎng)格數(shù)據(jù),因而不能用于圖結(jié)構(gòu)的高速路網(wǎng)上的交通預(yù)測問題。Seo等人提出了圖卷積循環(huán)網(wǎng)絡(luò)(GCRN),但在特定設(shè)置下很難確定循環(huán)網(wǎng)絡(luò)和圖卷積的最佳組合。Yu等人提出了一個帶有門控機制的圖卷積網(wǎng)絡(luò),并應(yīng)用于交通量預(yù)測問題。Li等人在人體動作識別任務(wù)中引入圖卷積,提出多種劃分策略將節(jié)點的鄰域劃分為不同子集,通過控制子集的個數(shù),保證不同節(jié)點可以共享卷積核權(quán)重。譜圖方法通過圖拉普拉斯矩陣將網(wǎng)格數(shù)據(jù)上的卷積操作推廣到圖結(jié)構(gòu)數(shù)據(jù)上。但這些模型都沒有考慮交通數(shù)據(jù)在時間維度上的周期性和趨勢性等多種固有特性。
綜合以上分析可知,交通流流量預(yù)測還存在一些不足。為此,本文提出一種新的預(yù)測模型——圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network,GCN),GCN能夠直接利用圖結(jié)構(gòu)信息提取局部特征,處理任意連接的不規(guī)則數(shù)據(jù)來完成交通預(yù)測任務(wù),因為數(shù)據(jù)可以用交通路網(wǎng)的圖結(jié)構(gòu)(Graph)來描述。
1 圖卷積神經(jīng)網(wǎng)絡(luò)預(yù)測模型
1.1 圖卷積神經(jīng)網(wǎng)絡(luò)描述
圖卷積神經(jīng)網(wǎng)絡(luò)是一種對圖數(shù)據(jù)進行深度學(xué)習(xí)的方法,研究的對象是圖數(shù)據(jù),研究的模型是卷積神經(jīng)網(wǎng)絡(luò)。其是一種數(shù)據(jù)格式,可以用于表示社交網(wǎng)絡(luò)、通信網(wǎng)絡(luò)、蛋白分子網(wǎng)絡(luò)等。圖中的節(jié)點表示網(wǎng)絡(luò)中的個體,連邊表示個體之間的連接關(guān)系。許多機器學(xué)習(xí)任務(wù),例如社團發(fā)現(xiàn)、鏈路預(yù)測等都需要用到圖結(jié)構(gòu)數(shù)據(jù)。因此圖卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn)為這些問題解決提供了新的思路。
1.2 圖卷積神經(jīng)網(wǎng)絡(luò)預(yù)測模型
交通網(wǎng)絡(luò)的本質(zhì)是一個圖結(jié)構(gòu),并且每個節(jié)點都可以看作是圖上的信號。因此,為了充分利用交通網(wǎng)絡(luò)的拓撲特性,本文使用譜圖方法將卷積操作推廣到圖結(jié)構(gòu)數(shù)據(jù),將數(shù)據(jù)視為圖上的信號,然后直接在圖上對圖信號進行處理,來捕獲空間中有意義的模式和特征,譜圖方法將圖轉(zhuǎn)化為代數(shù)形式,分析圖的拓撲屬性。
在譜圖分析中,圖由對應(yīng)的拉普拉斯矩陣表示,圖的拉普拉斯矩陣表示為:
2 實驗結(jié)果與分析
為了驗證本文模型的性能,本文在兩個真實的數(shù)據(jù)集上進行實驗,將路網(wǎng)交通速度作為模型的輸入?yún)?shù),通過對比實驗以及對實驗結(jié)果進行分析,驗證該模型的可行性。
2.1 數(shù)據(jù)集介紹
評估T-GCN模型在實際數(shù)據(jù)集(SZ-taxidataset)上的預(yù)測性能后,說明數(shù)據(jù)集與交通速度有關(guān)。在不損失概括性的前提下,實驗部分使用了交通速度作為交通信息。
數(shù)據(jù)集SZ-taxi為2015年1月1日至1月31日深圳出租車軌跡。選擇羅湖區(qū)156條主要道路作為研究區(qū)域,實驗數(shù)據(jù)主要包括兩部分:一個是一個156*156的鄰接矩陣,描述了道路之間的空間關(guān)系,每一行表示一條道路,矩陣中的值表示道路之間的連接性:另一個是特征矩陣,描述了每條道路上的速度隨時間的變化,每一行代表一條路,每一列是不同時段道路上的交通速度。每15min計算一次每條路上的車速。
2.2 實驗參數(shù)設(shè)置
本文基于Tensorflow框架實現(xiàn)GCN模型,主要設(shè)計的參數(shù)有:批量大小、隱藏層數(shù)和訓(xùn)練周期。其中隱藏層數(shù)的不同對預(yù)測結(jié)果的準(zhǔn)確性有很大的影響,通過實驗不斷調(diào)整隱藏層數(shù)來選取最優(yōu)值,當(dāng)批量大小為64、訓(xùn)練周期為1000、隱藏層數(shù)為32時為最佳組合。
2.3 基準(zhǔn)方法
本文將GCN模型在S-taxi數(shù)據(jù)集上進行訓(xùn)練,并與以下基準(zhǔn)方法進行了比較:
ARIMA:自回歸平均滑動法。將觀測到的時間序列擬合為參數(shù)模型,預(yù)測未來的交通數(shù)據(jù)。
HA:歷史均值法。將歷史的交通信息作為輸入預(yù)測未來的交通數(shù)據(jù)。
LSTM:長短時記憶網(wǎng)絡(luò)。由遺忘門、輸入門、輸出門組成的一種特殊的RNN模型。
本文采用平均絕對誤差(MAE)、均方誤差(RMSE)和準(zhǔn)確性(ACC)3個評價指標(biāo)來驗證模型(RMSE、MAE都是進行測量預(yù)測誤差的,數(shù)值越大表示預(yù)測效果越差,數(shù)值越小表示預(yù)測效果越好:準(zhǔn)確性表示預(yù)測準(zhǔn)確精度)。具體的計算公式為:
2.4 實驗結(jié)果及分析
將GCN模型在S-taxi數(shù)據(jù)集上進行訓(xùn)練,并與3個基準(zhǔn)方法進行了比較。本文選用總數(shù)據(jù)集的80%作為訓(xùn)練數(shù)據(jù)集的輸入,20%作為測試數(shù)據(jù)集的輸入。
交通預(yù)測對比試驗數(shù)據(jù)見表1.從表中可以看出,傳統(tǒng)的預(yù)測模型由于自身建模能力的不足,導(dǎo)致預(yù)測效果和真實的數(shù)據(jù)有很大的差別。GCN的RMSE、MAE比ARIMA數(shù)值低,ACC提高了47.84%;GCN的RMSE、MAE比HA數(shù)值低,ACC提高了22.59%;GCN的RMSE、MAE比LSTM數(shù)值低,ACC提高了12.07%。
一天中的交通預(yù)測結(jié)果與真實值的比較,如圖3所示。從圖中可以看出,該模型在一天當(dāng)中的預(yù)測結(jié)果與數(shù)據(jù)真實值較為接近。說明GCN模型可以通過訓(xùn)練獲得最佳的預(yù)測性能。
3 結(jié)束語
本文提出一種新的圖卷積神經(jīng)網(wǎng)絡(luò)模型。在真實的數(shù)據(jù)集上對路網(wǎng)交通速度進行預(yù)測,該模型采用拓撲圖結(jié)構(gòu)的形式作為模型的輸入,解決了傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)不能輸入非規(guī)則數(shù)據(jù)的問題。實驗結(jié)果表明,本文提出的模型預(yù)測準(zhǔn)確度相對優(yōu)于現(xiàn)有的預(yù)測模型,具有較高的魯棒性。未來將優(yōu)化圖卷積模型,進一步提高模型的預(yù)測準(zhǔn)確性。