李文根,楊涵晨,劉天穎,關(guān)佶紅
(同濟(jì)大學(xué) 電子與信息工程學(xué)院,上海 201804)
交通問(wèn)題是現(xiàn)代城市治理的一個(gè)重點(diǎn)、難點(diǎn)問(wèn)題.在眾多交通問(wèn)題中,挖掘交通運(yùn)行規(guī)律,準(zhǔn)確預(yù)測(cè)城市交通狀態(tài),進(jìn)而預(yù)見(jiàn)性地優(yōu)化交通控制,對(duì)于發(fā)展智能交通具有重要意義.得益于數(shù)據(jù)采集技術(shù)和移動(dòng)通訊技術(shù)的快速發(fā)展,城市能夠獲取大量與交通相關(guān)的數(shù)據(jù),包括車(chē)輛移動(dòng)軌跡數(shù)據(jù)、實(shí)時(shí)車(chē)流統(tǒng)計(jì)數(shù)據(jù)、道路交通狀況數(shù)據(jù)、交通事故數(shù)據(jù).這些數(shù)據(jù)中蘊(yùn)含著城市交通運(yùn)行的基本模式和規(guī)律.基于這些數(shù)據(jù),交通運(yùn)輸領(lǐng)域和計(jì)算機(jī)科學(xué)領(lǐng)域的專(zhuān)家和學(xué)者提出了大量的交通狀態(tài)預(yù)測(cè)模型和算法,實(shí)現(xiàn)了對(duì)交通流量、交通速度和交通擁堵的準(zhǔn)確預(yù)測(cè).
現(xiàn)有交通狀態(tài)預(yù)測(cè)模型多種多樣[1],如概率統(tǒng)計(jì)模型[2-3]、時(shí)間序列模型[4-5]、傳統(tǒng)機(jī)器學(xué)習(xí)模型[6-8]和深度學(xué)習(xí)模型[9-14].
概率模型[2-3]主要通過(guò)統(tǒng)計(jì)歷史數(shù)據(jù)中不同交通狀態(tài)出現(xiàn)的頻率來(lái)預(yù)測(cè)未來(lái)的交通狀態(tài),主要使用Markov 模型及其變體實(shí)現(xiàn).
時(shí)間序列模型[4-5]主要利用交通狀態(tài)序列的時(shí)間依賴(lài)性實(shí)現(xiàn),包括短期依賴(lài)、周期性和趨勢(shì)性.主要模型包括ARIMA 模型[4]和泊松(Poisson)模型[5].
影響交通狀態(tài)的因素很多,如交通網(wǎng)絡(luò)結(jié)構(gòu)、興趣點(diǎn)(Points of Interest,POI)分布、天氣和大型活動(dòng).傳統(tǒng)機(jī)器學(xué)習(xí)模型[6-8]通過(guò)提取這些因素的特征訓(xùn)練模型進(jìn)行交通狀態(tài)預(yù)測(cè),如支持向量機(jī)(Support Vector Machine,SVM)、梯度提 升回歸 樹(shù)(Gradient Boosting Regression Tree,GBRT)、隨機(jī)森林(Random Forest,RF).
近年來(lái),各類(lèi)深度學(xué)習(xí)模型[9-14]也廣泛用于交通狀態(tài)預(yù)測(cè),通過(guò)提取深層次的時(shí)空特征,實(shí)現(xiàn)了較好的交通狀態(tài)預(yù)測(cè)效果.早期的深度預(yù)測(cè)模型有LSTM 模型[9]和時(shí)空殘差網(wǎng)絡(luò)[10].目前,圖神經(jīng)網(wǎng)絡(luò)[11-13,15]、生成對(duì)抗網(wǎng)絡(luò)[14]和多任務(wù)學(xué)習(xí)[16-17]是交通狀態(tài)預(yù)測(cè)研究的主流.
雖然上述交通狀態(tài)預(yù)測(cè)模型各有所長(zhǎng),但它們具有一個(gè)共同特點(diǎn),即構(gòu)建于交通狀態(tài)具有較高可預(yù)測(cè)性的基礎(chǔ)之上.換句話而言,只有當(dāng)交通狀態(tài)本身具有較高可預(yù)測(cè)性時(shí),現(xiàn)有預(yù)測(cè)模型才能實(shí)現(xiàn)較好的預(yù)測(cè)性能.
然而,交通狀態(tài)可預(yù)測(cè)性的高低是定性描述,一個(gè)本質(zhì)問(wèn)題仍然有待回答:城市不同區(qū)域的交通狀態(tài)具有多大的可預(yù)測(cè)性,即最好的預(yù)測(cè)模型能實(shí)現(xiàn)的最高預(yù)測(cè)準(zhǔn)確度是多少?由于缺乏對(duì)這個(gè)問(wèn)題的回答,現(xiàn)有交通狀態(tài)預(yù)測(cè)模型只能假設(shè)預(yù)測(cè)對(duì)象具有高可預(yù)測(cè)性,卻無(wú)法建立模型和交通狀態(tài)可預(yù)測(cè)性的聯(lián)系.將二者結(jié)合起來(lái),大大增加了現(xiàn)有交通狀態(tài)預(yù)測(cè)模型使用場(chǎng)景的不確定性,也降低了其可用性.為有效回答上述本質(zhì)問(wèn)題,本文提出了基于熵的交通狀態(tài)可預(yù)測(cè)性量化方法,從靜態(tài)可預(yù)測(cè)性和動(dòng)態(tài)可預(yù)測(cè)性?xún)蓚€(gè)角度來(lái)量化給定區(qū)域交通狀態(tài)的整體可預(yù)測(cè)性和在特定時(shí)刻的可預(yù)測(cè)性.此外,分析了多種類(lèi)型的交通狀態(tài)預(yù)測(cè)模型的預(yù)測(cè)性能與交通狀態(tài)可預(yù)測(cè)性之間的關(guān)聯(lián)關(guān)系,為預(yù)測(cè)模型的設(shè)計(jì)和使用提供了參考依據(jù).
本文的研究實(shí)現(xiàn)了對(duì)城市交通狀態(tài)可預(yù)測(cè)性的量化分析,可以從一個(gè)新的視角來(lái)認(rèn)識(shí)整個(gè)城市交通的運(yùn)行狀況.同時(shí),通過(guò)利用預(yù)測(cè)模型與交通狀態(tài)可預(yù)測(cè)性之間的關(guān)系,可以融合多類(lèi)交通狀態(tài)預(yù)測(cè)模型,實(shí)現(xiàn)自適應(yīng)的交通狀態(tài)預(yù)測(cè),有效提高預(yù)測(cè)的準(zhǔn)確度.
1.1 問(wèn)題定義首先,本文將整個(gè)城市空間劃分為較小的空間區(qū)域R1,R2,···,Rm,劃分方式可以是網(wǎng)格劃分、行政區(qū)域劃分或者泰森多邊形劃分.
定義 1(交通狀態(tài)序列)每個(gè)區(qū)域Ri(i=1,2,···,m)的交通狀態(tài)為時(shí)間序列Si=(x1,x2,···,xn),其中xj(j=1,2,···,n)表示Ri在tj時(shí)刻的交通狀態(tài),可以是交通流量、交通速度或者是交通擁堵系數(shù).
定義 2(交通狀態(tài)可預(yù)測(cè)性量化)給定一個(gè)交通狀態(tài)序列Si,交通狀態(tài)可預(yù)測(cè)性量化旨在以數(shù)值形式對(duì)Si的可預(yù)測(cè)性進(jìn)行計(jì)算和表示,給出預(yù)測(cè)模型能夠達(dá)到的最高預(yù)測(cè)準(zhǔn)確度.
通過(guò)對(duì)交通狀態(tài)可預(yù)測(cè)性進(jìn)行量化,能夠解決不同區(qū)域交通狀態(tài)可預(yù)測(cè)性的可比性問(wèn)題,可以更直觀深入地了解特定區(qū)域交通狀態(tài)的動(dòng)態(tài)特性.
1.2 數(shù)據(jù)集為更好地描述相關(guān)技術(shù)和方法,首先簡(jiǎn)要介紹使用的數(shù)據(jù)集.本文將使用通過(guò)高德地圖采集得到的上海交通狀態(tài)數(shù)據(jù)集.圖1(a)展示了數(shù)據(jù)采集空間范圍[121.330°E~121.338°E,31.086°N~31.094°N],涵蓋了上海中心區(qū)域.我們將該區(qū)域劃分為32 × 32=1 024 個(gè)網(wǎng)格區(qū)域,每個(gè)網(wǎng)格區(qū)域的邊長(zhǎng)約800 m.由于部分非交通區(qū)域沒(méi)有交通狀態(tài)信息,去掉這些區(qū)域后得到908 個(gè)區(qū)域,如圖1(b)所示.
圖1 數(shù)據(jù)采集范圍和網(wǎng)格區(qū)域劃分Fig.1 The range for data collection and its grid partitions.
數(shù)據(jù)集涵蓋了從2020 年11 月1 日到2020 年12 月15 日,共45 d 的交通狀態(tài)信息.每天從早6點(diǎn)到晚10 點(diǎn),每20 min 采樣一次所有區(qū)域的交通擁堵系數(shù).單日約4.3 萬(wàn)條記錄,總計(jì)約200 萬(wàn)條記錄.交通擁堵系數(shù)取值區(qū)間為[0,1],通過(guò)交通流量、交通速度等信息綜合計(jì)算得到,取值越大表示交通越擁堵.
圖2 展示了每周單位小時(shí)平均交通擁堵系數(shù).從圖中可以看出,周一到周五的早晚高峰比較明顯,早高峰從7 點(diǎn)到9 點(diǎn),8 點(diǎn)最嚴(yán)重;晚高峰集中在5 點(diǎn)和6 點(diǎn).周六和周日兩天無(wú)明顯高峰,不過(guò)周六中午的交通較本周其他時(shí)間更為擁堵.
圖2 每周單位小時(shí)平均交通擁堵系數(shù)分布Fig.2 Average traffic congestion factor by hour of the day and day of the week
交通狀態(tài)可預(yù)測(cè)性量化需要回答兩個(gè)問(wèn)題:①給定區(qū)域的交通狀態(tài)具有多大可預(yù)測(cè)性?②給定區(qū)域的交通狀態(tài)在某個(gè)時(shí)刻具有多大可預(yù)測(cè)性?為了有效回答這兩個(gè)問(wèn)題,將分別提出靜態(tài)可預(yù)測(cè)性量化方法和動(dòng)態(tài)可預(yù)測(cè)性量化方法.
2.1 靜態(tài)可預(yù)測(cè)性量化靜態(tài)可預(yù)測(cè)性量化方法旨在對(duì)給定區(qū)域的交通狀態(tài)序列進(jìn)行整體評(píng)估,計(jì)算其可預(yù)測(cè)性.
交通狀態(tài)序列的可預(yù)測(cè)性本質(zhì)上刻畫(huà)了交通狀態(tài)的規(guī)律性,而交通狀態(tài)的規(guī)律性主要通過(guò)其時(shí)間依賴(lài)性體現(xiàn).熵[18-20]是衡量序列時(shí)間依賴(lài)性的一種有效方法.因此,我們首先通過(guò)計(jì)算交通狀態(tài)序列的熵來(lái)量化其規(guī)律性.
給定交通狀態(tài)序列Si=(x1,x2,···,xn),其熵值Ei的計(jì)算公式如下:
其中,s是Si的任意子序列,p(s)表示s出現(xiàn)在Si中的概率.
其中,sk表示Si中從第k條記錄開(kāi)始且未在前k?1條記錄中出現(xiàn)過(guò)的最短子序列.文獻(xiàn)[21]研究表明,LZ 方法得到的估計(jì)熵與真實(shí)熵Ei非常接近.
例1.給定區(qū)域Ri的交通擁堵系數(shù)序列Si=(0.3,0.5,0.5,0.3,0.2),則s1=(0.3)表示從 第1條記錄0.3 開(kāi)始的最短子序列;s2=(0.5)表示從第2 條記錄0.5 開(kāi)始且未在之前子序列中出現(xiàn)的最短子序列;s3=(0.5,0.3)表示從第3 條記錄0.5 開(kāi)始且未在子序列(0.3,0.5)中出現(xiàn)的最短子序列.類(lèi)似地,可以計(jì)算得到s4=(0.3,0.2)和s5=(0.2).因此,
其中,|Si|=5.
其中,Γi表示Si中不同取值的個(gè)數(shù).由于交通擁堵系數(shù)是連續(xù)值,為降低計(jì)算復(fù)雜度,將交通擁堵系數(shù)分為4 個(gè)區(qū)間[0,0.25),[0.25,0.5),[0.5,0.75),[0.75,1.0)來(lái)計(jì)算熵,并分別用0,1,2,3 表示.例如,Si=(0.3,0.5,0.5,0.3,0.2)轉(zhuǎn)化為Si=(1,2,2,1,0).因此,計(jì)算熵的交通狀態(tài)有4 個(gè)不同取值,Γi的最大取值為4.特別地,當(dāng)Si所有取值相同時(shí),Γi=1.
圖3 展示了908 個(gè)區(qū)域的靜態(tài)可預(yù)測(cè)性分布.從圖3 中可以看出,所有區(qū)域的可預(yù)測(cè)性均比較高,超過(guò)了0.9.這表明,理論上采用最優(yōu)的交通狀態(tài)預(yù)測(cè)模型,可以實(shí)現(xiàn)高準(zhǔn)確度的交通狀態(tài)預(yù)測(cè).
圖3 區(qū)域數(shù)量在交通狀態(tài)靜態(tài)可預(yù)測(cè)性上的累計(jì)分布Fig.3 The cumulative distribution of regions in terms of static predictability of traffic status
2.2 動(dòng)態(tài)可預(yù)測(cè)性量化給定區(qū)域Ri,其交通狀態(tài)可預(yù)測(cè)性會(huì)隨時(shí)間動(dòng)態(tài)變化.例如,可能上午6點(diǎn)可預(yù)測(cè)性高,9 點(diǎn)可預(yù)測(cè)性較低.因此,有必要分析量化交通狀態(tài)在特定時(shí)刻的可預(yù)測(cè)性.針對(duì)該問(wèn)題,提出了交通狀態(tài)動(dòng)態(tài)可預(yù)測(cè)性量化方法.
給定交通狀態(tài)序列Si=(x1,x2,···,xn),首先通過(guò)瞬時(shí)熵[22]Ei(t)量化其動(dòng)態(tài)規(guī)律性.瞬時(shí)熵Ei(t)計(jì)算Si在時(shí)刻t的規(guī)律性,其計(jì)算公式如下:
其中,Λt是指以第t條記錄xt結(jié)尾,且未在子序列(x1,x2,···,xt?Λt)中出現(xiàn)過(guò)的最短子序列的長(zhǎng)度.
例2 給定交通狀態(tài)序列Si=(0.3,0.5,0.5,0.3,0.2),有其中 Λt=2 是因?yàn)橐缘? 條記錄0.5 結(jié)束且滿足要求的最短子序列為(0.5,0.5),長(zhǎng)度為2.
與靜態(tài)可預(yù)測(cè)性類(lèi)似,動(dòng)態(tài)可預(yù)測(cè)性 Πmax(t)可以通過(guò)求解下列等式得到.
圖4 展示了所有區(qū)域全部時(shí)刻的動(dòng)態(tài)可預(yù)測(cè)性分布.從圖4 中可以看出,大部分時(shí)刻的可預(yù)測(cè)性高于0.9,可以實(shí)現(xiàn)較準(zhǔn)確的預(yù)測(cè).不過(guò),存在少部分時(shí)刻的可預(yù)測(cè)性較低,說(shuō)明部分區(qū)域在某些時(shí)刻的交通狀態(tài)比較難預(yù)測(cè).
圖4 區(qū)域數(shù)量在交通狀態(tài)動(dòng)態(tài)可預(yù)測(cè)性上的累計(jì)分布Fig.4 The cumulative distribution of regions in terms of dynamic predictability of traffic status
圖5 給出了一個(gè)區(qū)域兩周內(nèi)(12 月2 日—12月15 日)交通狀態(tài)的動(dòng)態(tài)可預(yù)測(cè)性.從圖中可看出,該區(qū)域交通狀態(tài)可預(yù)測(cè)性隨時(shí)間動(dòng)態(tài)變化,大部分時(shí)間能達(dá)到0.9 以上,部分時(shí)刻可預(yù)測(cè)性偏低,低于0.875.
圖5 選定區(qū)域交通狀態(tài)的動(dòng)態(tài)可預(yù)測(cè)性Fig.5 The dynamic predictability of traffic status in one selected region.
圖6 可視化了各個(gè)區(qū)域在上午6 點(diǎn)和9 點(diǎn)的可預(yù)測(cè)性.從圖6 中可以看出,兩個(gè)時(shí)刻的可預(yù)測(cè)性存在明顯差異,9 點(diǎn)時(shí)大量區(qū)域的可預(yù)測(cè)性低于6 點(diǎn).
圖6 各區(qū)域早上6 點(diǎn)(a 圖)和9 點(diǎn)(b 圖)的動(dòng)態(tài)可預(yù)測(cè)性,顏色越深可預(yù)測(cè)性越大Fig.6 Dynamic predictability for all regions at 6:00 am(left)and 9:00 am(right),respectively,and the deeper color corresponds to higher predictability.
進(jìn)一步分析不同交通狀態(tài)預(yù)測(cè)模型的性能與交通狀態(tài)可預(yù)測(cè)性之間的關(guān)聯(lián)關(guān)系,從而明確模型適用范圍,為模型的設(shè)計(jì)和選擇提供依據(jù).
3.1 交通狀態(tài)預(yù)測(cè)模型本文以下列4 種有代表性的交通狀態(tài)預(yù)測(cè)模型為例分析其與交通狀態(tài)可預(yù)測(cè)性的關(guān)聯(lián)關(guān)系,其他交通狀態(tài)預(yù)測(cè)模型可采用相同的方式進(jìn)行分析.
3.1.1 Markov 模型 Markov 模型是一種經(jīng)典的概率模型,通過(guò)統(tǒng)計(jì)歷史數(shù)據(jù)獲取預(yù)測(cè)目標(biāo)出現(xiàn)的概率.特別地,對(duì)于交通狀態(tài)預(yù)測(cè),Markov 模型假設(shè)未來(lái)交通狀態(tài)依賴(lài)于之前時(shí)刻的交通狀態(tài).如果只依賴(lài)于前一時(shí)間點(diǎn)的交通狀態(tài),則稱(chēng)為一階Markov 模型.一般地,α 階Markov 模型依賴(lài)于前 α個(gè)時(shí)刻的交通狀態(tài),即:
實(shí)際應(yīng)用中很難獲取上述分布,因此通過(guò)統(tǒng)計(jì)歷史交通狀態(tài)數(shù)據(jù),生成一個(gè)概率轉(zhuǎn)移矩陣,以概率最大的交通狀態(tài)作為預(yù)測(cè)結(jié)果.
3.1.2 帶權(quán)時(shí)變泊松模型 時(shí)變泊松模型(Timevarying Poisson Model)[23]廣泛用于預(yù)測(cè)特定時(shí)刻的狀態(tài)取值.對(duì)于交通狀態(tài)來(lái)說(shuō),在時(shí)刻t出現(xiàn)交通狀態(tài)x的概率為:
其中,λ(t)為泊松分布參數(shù),它隨時(shí)間動(dòng)態(tài)變化,用于描述分布周期性.在該分布中,當(dāng)x=λ(t)時(shí)概率最大.給定交通狀態(tài)序列Si,λ(t)的計(jì)算方式:
其中,γ 表示歷史交通狀態(tài)周期數(shù),一般以一周7天為周期.該公式計(jì)算歷史 γ 個(gè)相同時(shí)刻交通狀態(tài)平均值.一般當(dāng)前時(shí)刻的交通狀態(tài)與時(shí)間距離近的交通狀態(tài)記錄相關(guān)性更大.因此,引入帶權(quán)時(shí)變泊松模型(Weighted Time-varying Poisson Model,WTP),賦予距離近的記錄更大的權(quán)重,即:
其中,β ∈(0,1).
3.1.3 隨機(jī)森林回歸模型 隨機(jī)森林回歸模型(Random Forest Regression Model,RFR)是一種使用非常普遍的集成模型,集成了多個(gè)決策樹(shù)模型,每個(gè)模型在樣本子集或特征子集上進(jìn)行訓(xùn)練,可有效解決過(guò)擬合問(wèn)題.假設(shè)有g(shù)個(gè)決策樹(shù)模型,則最終預(yù)測(cè)結(jié)果為:
其中,fi(x)為第i個(gè)模型的預(yù)測(cè)結(jié)果.隨機(jī)森林模型需要提取歷史數(shù)據(jù)中的特征用于訓(xùn)練模型.表1列出了提取的主要特征.
表1 交通狀態(tài)預(yù)測(cè)特征Tab.1 Extracted features for traffic status prediction.
3.1.4 LSTM 模型 基于深度模型的交通狀態(tài)預(yù)測(cè)模型很多,這里以簡(jiǎn)單的LSTM 模型為例分析深度模型與可預(yù)測(cè)性的關(guān)聯(lián)關(guān)系.交通狀態(tài)具有長(zhǎng)期的(Long Term)周期性和短期的(Short Term)時(shí)間依賴(lài)性,LSTM 模型可以較好地考慮這兩種特性,因此對(duì)時(shí)間序列預(yù)測(cè)具有較好的性能.
3.2 預(yù)測(cè)模型性能與可預(yù)測(cè)性的關(guān)聯(lián)關(guān)系所有預(yù)測(cè)模型的超參數(shù)都通過(guò)實(shí)驗(yàn)設(shè)置為最優(yōu)取值.本文采用絕對(duì)誤差(Mean Absolute Error,MAE)E1和對(duì)稱(chēng)平均絕對(duì)百分比誤差(symmetric Mean Absolute Percentage Error,sMAPE)E2評(píng)估預(yù)測(cè)模型的性能.其計(jì)算公式如下:
其中,yi是真實(shí)值,是預(yù)測(cè)值,n是預(yù)測(cè)的樣本數(shù)量.對(duì)稱(chēng)平均絕對(duì)百分比誤差E2中分母部分加1以防止yi和同時(shí)為0 時(shí)出現(xiàn)除數(shù)為0 的情況.
圖7 展示了預(yù)測(cè)模型的絕對(duì)誤差E1隨著交通狀態(tài)可預(yù)測(cè)性增加的變化.從圖中可以看出,當(dāng)交通狀態(tài)可預(yù)測(cè)性較低時(shí),LSTM 模型和RFR 模型的預(yù)測(cè)效果遠(yuǎn)好于Markov 模型和WTP 模型.這是因?yàn)長(zhǎng)STM 模型和RFR 模型能夠通過(guò)提取深層次特征或利用更多外部特征來(lái)克服預(yù)測(cè)性低帶來(lái)的預(yù)測(cè)困難.當(dāng)可預(yù)測(cè)性較高時(shí),4 種模型的性能差距縮小.這時(shí),選擇Markov 模型和WTP 模型可以實(shí)現(xiàn)較高預(yù)測(cè)準(zhǔn)確度的同時(shí)大幅降低特征提取和模型訓(xùn)練的開(kāi)銷(xiāo).
圖7 預(yù)測(cè)模型的絕對(duì)誤差E 1 隨可預(yù)測(cè)性的變化Fig.7 Absolute errorE 1 vs.predictability on four prediction models.
圖8 展示了預(yù)測(cè)模型的對(duì)稱(chēng)平均絕對(duì)百分比誤差E2隨著可預(yù)測(cè)性增加的變化.具有與絕對(duì)誤差E1相似的結(jié)果.
圖8 預(yù)測(cè)模型的對(duì)稱(chēng)平均絕對(duì)百分比誤差E 2 誤差隨可預(yù)測(cè)性的變化Fig.8 Symmetrical mean absolute percentage errorE 2 vs.predictability on four prediction models.
本文提出了對(duì)交通狀態(tài)靜態(tài)和動(dòng)態(tài)可預(yù)測(cè)性進(jìn)行量化的方法,并分析對(duì)比了多類(lèi)交通狀態(tài)預(yù)測(cè)模型與量化可預(yù)測(cè)性的關(guān)聯(lián)關(guān)系.研究結(jié)果表明,不同交通狀態(tài)預(yù)測(cè)模型的預(yù)測(cè)性能與交通狀態(tài)可預(yù)測(cè)性之間的關(guān)聯(lián)關(guān)系存在差異,有必要針對(duì)具有特定可預(yù)測(cè)性的預(yù)測(cè)問(wèn)題選擇合適的預(yù)測(cè)模型.在未來(lái)工作中,將研究不同時(shí)間粒度和空間粒度下的交通狀態(tài)可預(yù)測(cè)性,并分析發(fā)掘交通狀態(tài)可預(yù)測(cè)性的時(shí)空關(guān)聯(lián)性和因果關(guān)系.