溫美玲,路鵬遠,蔡 林,程洋溢
(1.武漢大學(xué) 測繪學(xué)院,湖北 武漢 430070;2.武漢大學(xué) 計算機學(xué)院,湖北 武漢 430070)
隨著城市的快速發(fā)展,城市道路上的車輛逐日增多,留下海量的軌跡數(shù)據(jù)。這些軌跡數(shù)據(jù)較傳統(tǒng)交通數(shù)據(jù)具有覆蓋面廣、實時性高等突出特點,具有巨大的利用潛力。如何使用大規(guī)模軌跡數(shù)據(jù)處理交通和道路問題,是世界各國智能交通領(lǐng)域研究的熱點,各種研究成果如雨后春筍般涌現(xiàn),目前主要應(yīng)用領(lǐng)域有路網(wǎng)更新[1]、交通決策[2]、道路堵塞疏通[3]、交通擁堵評價[4]、動態(tài)交通誘導(dǎo)[5]和城市交通綜合評估[6]等。
交通擁堵已成為我國的一個老大難問題,嚴(yán)重影響了人民群眾生活,制約了社會經(jīng)濟的發(fā)展[7],因此筆者著重探討軌跡大數(shù)據(jù)在交通擁堵評估和預(yù)測方面的應(yīng)用,建立了一種基于深度學(xué)習(xí)的城市短時交通擁堵評估和預(yù)測模型。
筆者采用交通流參數(shù)對交通擁堵狀況進行評估[8],3個主要的交通流參數(shù)分別是交通量f、交通流速度v、交通流密度k。其計算公式為:
f=N/t
(1)
式中:N為通過該路段的車輛數(shù);t為時間。
v=L/t
(2)
式中:L為道路總長度;t為道路上所有車輛穿過道路所用的平均時間。本文對交通流速度的計算采用某段道路上所有車輛速度的平均值。
k=N/L
(3)
式中:N為路段內(nèi)車輛數(shù),L為路段總長度。
由式(1)~式(3)可得到交通流密度與交通量和交通流速度的關(guān)系:
k=f/v
(4)
研究樣本為北京市2012年11月1日到8日的城市出租車交通數(shù)據(jù),以市北二環(huán)的一條道路為研究目標(biāo)。數(shù)據(jù)預(yù)處理流程如圖1所示。
圖1 數(shù)據(jù)預(yù)處理流程圖
使用MATLAB R2016a批量讀取數(shù)據(jù),未經(jīng)處理的每一天的數(shù)據(jù)在三千萬條左右,將范圍鎖定在目標(biāo)道路后,每一天的數(shù)據(jù)在三百萬條左右,每一條數(shù)據(jù)包括9個數(shù)據(jù)項,它們分別是車輛標(biāo)識、觸發(fā)事件、運營狀態(tài)、GPS時間、GPS經(jīng)度、GPS緯度、GPS速度、GPS方向和GPS狀態(tài)。
由于研究目標(biāo)為短時交通流,提取每兩分鐘的數(shù)據(jù),因此一天共分為720個時間點。然后求出目標(biāo)道路每一時間點的交通量f、速度v和密度k,處理結(jié)果如表1所示。因原表格過大,此處只截取前5段數(shù)據(jù)。
表1 交通流部分參數(shù)
對平均車速v、交通量f和交通流密度k進行權(quán)值配置,得到評價交通狀況的綜合參數(shù),根據(jù)評價區(qū)間判斷道路的交通狀況。但3個參數(shù)的量綱互不相同,需要對參數(shù)進行歸一化處理,參照文獻[9]的方法對處理后的參數(shù)進行權(quán)值配置,得到綜合參數(shù)。
計算出路段在若干時間點的平均車速v、交通量f和交通流密度k,即得到交通狀況指標(biāo)向量F,如式(5)所示。
F={(v1,f1,k1),(v2,f2,k2),…,(vn,fn,kn) }
(5)
對于路段在第i個時間點的平均車速vi、交通量fi和交通流密度ki進行權(quán)值配置,權(quán)值矩陣B定義如式(6)所示。
B=[b1,b2,b3]=[0.45,0.10,0.45]
(6)
式中:b1為平均車速的權(quán)值;b2為交通量的權(quán)值;b3為交通流密度的權(quán)值。
根據(jù)交通狀況指標(biāo)向量F和權(quán)值矩陣B可得交通狀況綜合參數(shù)C為:
C=F×BT
(7)
(8)
式中:ci為第i個時間點該路段的交通狀況綜合參數(shù)。
為方便后續(xù)數(shù)據(jù)處理,利用標(biāo)準(zhǔn)函數(shù)法對交通狀況綜合參數(shù)C進行歸一化處理:
(9)
式中:cmin,cmax分別為綜合參數(shù)向量C中的最小值和最大值。
城市道路交通擁堵評價指標(biāo)體系將道路分為城市道路和高速公路,將路段的平均行程速度劃分為5個等級,1級表示運行最擁堵,5級表示運行最暢通,如表2所示。
表2 路段平均行程速度等級劃分
對北京二環(huán)北端路段8天交通數(shù)據(jù),以兩分鐘為時間間隔進行數(shù)據(jù)采樣,利用表2判斷道路交通擁堵情況。
根據(jù)式(5)~式(9)得到當(dāng)日北二環(huán)交通狀況綜合參數(shù)如圖2所示。
圖2 11月8日北京市北二環(huán)交通狀況綜合參數(shù)
根據(jù)表2可知,在圖2中11月8日北京市北二環(huán)在0:00~6:40交通較為通暢,在6:40~8:00交通狀況逐漸變得擁堵,在8:00~11:00交通較為擁堵,在11:00~13:00擁堵有所緩解,在13:00~19:00交通較為擁堵,在19:00~24:00交通逐漸好轉(zhuǎn),與日常認知基本一致。同時可以看出北二環(huán)在中午最為擁堵,同時存在早晚高峰的情況。
將北京市北二環(huán)11月1日~8日共計8天的交通數(shù)據(jù)作為數(shù)據(jù)集,并利用長短期記憶模型(long short-term memory,LSTM)建立交通擁堵預(yù)測模型,實現(xiàn)參數(shù)向量的數(shù)字化表達,通過參數(shù)向量一段時間的數(shù)據(jù)變化預(yù)測參數(shù)向量的走勢。選擇均方誤差(mean square error,MSE),均方根誤差(root mean square error,RMSE),平均絕對誤差(mean absolute error,MAE)和平均絕對百分比誤差(mean absolute percent error,MAPE)作為評價指標(biāo),將長短期記憶模型(LSTM)與向量回歸模型(support vector regression,SVR)和循環(huán)神經(jīng)網(wǎng)絡(luò)模型(recurrent neural netwok,RNN)進行對比,最后得出LSTM模型的預(yù)測結(jié)果并進行評價。
LSTM[10]是一種特殊的RNN網(wǎng)絡(luò),LSTM結(jié)構(gòu)的特點是利用遺忘門、輸入門和輸出門優(yōu)化RNN網(wǎng)絡(luò),有效解決了梯度消失或梯度爆炸的問題。LSTM的相關(guān)方程如式(10)~式(15)所示[11]。
ft=σ(Wfht-1+Ufxt+bf)
(10)
it=σ(Wiht-1+Uixt+bi)
(11)
(12)
(13)
ot=σ(Woht-1+Uoxt+bo)
(14)
(15)
將已有的參數(shù)向量數(shù)據(jù)分為訓(xùn)練集和測試集兩部分,訓(xùn)練集用于訓(xùn)練已有的LSTM網(wǎng)絡(luò),測試集用于驗證LSTM網(wǎng)絡(luò)的預(yù)測效果。具體步驟為:對采集的道路交通數(shù)據(jù)進行數(shù)據(jù)預(yù)處理并構(gòu)建數(shù)據(jù)樣本集,將樣本集數(shù)據(jù)送入LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)進行模型訓(xùn)練,并導(dǎo)出網(wǎng)絡(luò)參數(shù),建立短期交通擁堵的預(yù)測模型。其流程如圖3所示。
圖3 交通擁堵預(yù)測流程圖
為避免過擬合,在LSTM層后加入Dropout層,增加每層各個特征之間的正交性,在最后加入輸出層。每次將30個數(shù)據(jù)送入LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,為了提高訓(xùn)練精度,每次將最新的數(shù)據(jù)帶入網(wǎng)絡(luò)進行更新,使預(yù)測結(jié)果更加準(zhǔn)確。
仿真環(huán)境為window10系統(tǒng)(64 bit),Python選用Anaconda下3.7.5版本,編譯器為pycharm(2020.2),keras,sklearn的集成開發(fā)庫。支持向量回歸模型選用linearSVR模型,C=1.25。RNN模型中第一層RNN網(wǎng)絡(luò)神經(jīng)元數(shù)為80,第二層RNN網(wǎng)絡(luò)神經(jīng)元數(shù)為100,第一層和第二層Dropout網(wǎng)絡(luò)屏蔽率均為0.2。LSTM模型中第一層LSTM網(wǎng)絡(luò)神經(jīng)元數(shù)為80,第二層LSTM網(wǎng)絡(luò)神經(jīng)元數(shù)為100,第一層和第二層Dropout網(wǎng)絡(luò)屏蔽率均為0.2。
將11月1日~7日的數(shù)據(jù)作為訓(xùn)練集,8日數(shù)據(jù)作為預(yù)測集,linearSVR模型、RNN模型和LSTM模型的預(yù)測效果如表3所示。
表3 各模型交通狀況綜合參數(shù)預(yù)測效果
從表3可知,LSTM模型的預(yù)測結(jié)果在各個指標(biāo)上均好于linearSVR模型和RNN模型,具有較好的預(yù)測效果。
linearSVR模型、RNN模型和LSTM模型的預(yù)測結(jié)果和實際結(jié)果對比如圖4~圖6所示。通過比較發(fā)現(xiàn),長短期記憶模型(LSTM)具有較好的預(yù)測效果,可以為有關(guān)部門的決策提供依據(jù),改善交通狀況。
圖4 linearSVR模型預(yù)測結(jié)果和實際結(jié)果對比圖
圖5 RNN模型預(yù)測結(jié)果和實際結(jié)果對比圖
圖6 LSTM模型預(yù)測結(jié)果和實際結(jié)果對比圖
通過讀取海量軌跡數(shù)據(jù),獲得了平均車速、交通量和交通流密度,并對上述數(shù)據(jù)進行加權(quán)計算得到了交通狀況綜合參數(shù),建立了合理的交通狀況評估模型。將深度學(xué)習(xí)的方法應(yīng)用到交通狀況預(yù)測模型中,分析比較了不同神經(jīng)網(wǎng)絡(luò)的精度,并通過比較發(fā)現(xiàn),長短期記憶模型(LSTM)具有較好的預(yù)測效果,可為決策分析提供有價值的參考。