(中國(guó)科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院,安徽 合肥 230022)
在諸多交通問題中,交通擁堵是發(fā)生頻率最高、影響最大、時(shí)間持續(xù)最長(zhǎng)的問題。美國(guó)德克薩斯州2012年因交通擁堵?lián)p失近1210億美元[1]。交通狀態(tài)估計(jì)是交通擁堵控制的前提和關(guān)鍵,準(zhǔn)確的交通狀態(tài)估計(jì)可以密切監(jiān)視交通系統(tǒng)狀態(tài),充分利用道路容量,指導(dǎo)運(yùn)營(yíng)管理決策[2]。
基于數(shù)據(jù)融合的交通狀態(tài)估計(jì)是交通領(lǐng)域研究熱點(diǎn)。Deng等人使用環(huán)路探測(cè)器計(jì)數(shù)、藍(lán)牙旅行時(shí)間讀數(shù)和GPS(Global Positioning System)定位樣本等多個(gè)數(shù)據(jù)源,引入信息度量量化異構(gòu)流量測(cè)量值,改善高速公路段上交通狀態(tài)估計(jì)[3]。Yuan等人使用拉格朗日系統(tǒng)模型,采用擴(kuò)展卡爾曼濾波技術(shù)估計(jì)交通狀態(tài),證明了拉格朗日估計(jì)優(yōu)于傳統(tǒng)歐拉方法[4]。Alfredo等人開發(fā)了一種基于模型的方法,利用多源數(shù)據(jù)建立動(dòng)脈走廊實(shí)時(shí)交通預(yù)測(cè)模型,將高速公路狀態(tài)估計(jì)拓展到城市環(huán)境[5]。Felix利用探測(cè)器速度數(shù)據(jù),將交通流分解自由流、同步流以及動(dòng)作干擾,獲得數(shù)據(jù)低密度情況下更準(zhǔn)確結(jié)果[6]。Yang利用密度、速度多種屬性來估計(jì)該區(qū)域擁堵狀態(tài),在北京和上海大型出租車GPS數(shù)據(jù)集上取得良好效果[7]。Majid基于交通流理論開發(fā)一種定義明確的非線性函數(shù),以根據(jù)隊(duì)列尾部位置和連接車輛平均速度獲得隊(duì)列內(nèi)車輛數(shù)量,在存在測(cè)量噪聲情況下,仍具有較高效率和準(zhǔn)確性[8]。
傳統(tǒng)研究不同程度上實(shí)現(xiàn)了對(duì)交通狀態(tài)的估計(jì),但對(duì)監(jiān)測(cè)器精度有較高要求。交通系統(tǒng)是非線性系統(tǒng),具有強(qiáng)不確定性,許多現(xiàn)象無法用確定性分析方法來研究,應(yīng)引入不確定分析方法。本文結(jié)合傳統(tǒng)數(shù)據(jù)融合算法優(yōu)勢(shì),同時(shí)引入車輛構(gòu)成因素,結(jié)合CNN和SVM各自優(yōu)勢(shì),利用多監(jiān)測(cè)點(diǎn)數(shù)據(jù)進(jìn)行擁堵預(yù)測(cè),進(jìn)而提升交通狀態(tài)預(yù)估的準(zhǔn)確率。
卷積神經(jīng)網(wǎng)絡(luò)是一種專門用來處理類似網(wǎng)狀結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),隨著深度學(xué)習(xí)的發(fā)展,在諸多領(lǐng)域都表現(xiàn)優(yōu)異,包括圖像分類、對(duì)象監(jiān)測(cè)、語(yǔ)義分割等,這要?dú)w功于它不同層次上學(xué)習(xí)判別特征能力[9]。從結(jié)構(gòu)上看,CNN主要由卷積層、池化層和全連接層構(gòu)成。
卷積層對(duì)兩個(gè)實(shí)變函數(shù)進(jìn)行卷積運(yùn)算,在CNN中,一般進(jìn)行多維度卷積操作:
(1)
式中,I為輸入數(shù)據(jù);K為卷積核。
池化層使用某一位置相鄰輸出的總體統(tǒng)計(jì)特征來代替網(wǎng)絡(luò)在該位置的輸出,可以使輸入表示近似不變,常用的池化操作有:最大池化、平均池化、L2范數(shù)以及基于中心像素距離的加權(quán)平均函數(shù)。
全連接層每一個(gè)結(jié)點(diǎn)都與上一層所有結(jié)點(diǎn)相連,把提取到的特征綜合起來,在整個(gè)卷積神經(jīng)網(wǎng)絡(luò)中起分類作用。作用在于將卷積得到的特征映射到樣本標(biāo)記空間,核心操作是矩陣向量乘積。
SVM算法是基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法,它以最小化結(jié)構(gòu)風(fēng)險(xiǎn)為依據(jù),縮小樣本置信區(qū)間范圍,使經(jīng)驗(yàn)風(fēng)險(xiǎn)與實(shí)際風(fēng)險(xiǎn)更加接近,提高樣本可推廣性。利用非線性變換將樣本空間映射到高維空間,并在高維空間中尋找最優(yōu)線性分類超平面,以兼顧最小化風(fēng)險(xiǎn)和算法泛化能力。康軍等人已將SVM算法引用到交通領(lǐng)域,對(duì)短時(shí)交通流進(jìn)行預(yù)測(cè)[10]。
SVM算法主要有三種:硬間隔支持向量機(jī)、軟間隔支持向量機(jī)和非線性支持向量機(jī)。本文采用的是基于核方法的非線性支持向量機(jī)。
令φ(x)表示將樣本點(diǎn)x映射后的特征向量,在特征空間中劃分超平面所對(duì)應(yīng)的模型可表示為
f(x)=wTx+b
(2)
式中,w和b為待求解的模型參數(shù)。則待求解問題可以表示為
(3)
其對(duì)應(yīng)的拉格朗日對(duì)偶問題是:
(4)
(5)
考慮到模型復(fù)雜度和數(shù)值計(jì)算的問題,本文采用的是RBF(Radial Basis Function)核函數(shù):
(6)
于是式(5)可以寫成:
(7)
得到最終決策函數(shù):
(8)
傳統(tǒng)交通狀態(tài)估計(jì)模型主要采用速度、流量、道路占有率等信息作為模型輸入,取得了一定效果[7]。本文將交通擁堵因素拓展到車輛構(gòu)成,考慮相同車流量下,大車型比例越大,則越容易造成擁堵。因此,本文在擁堵因素方面采用速度、流量、道路占有率、大型車比例作為輸入。
單個(gè)監(jiān)測(cè)點(diǎn)可能存在精度不高問題,擁堵狀況容易造成車輛排隊(duì)過長(zhǎng)超過監(jiān)測(cè)器范圍。因此本文假設(shè)擁堵路段單個(gè)監(jiān)測(cè)器所測(cè)量數(shù)據(jù)是不準(zhǔn)確的,采用某一交叉口上下游多個(gè)監(jiān)測(cè)點(diǎn)對(duì)目標(biāo)路段進(jìn)行估計(jì)。
為實(shí)現(xiàn)交通狀態(tài)預(yù)估計(jì),本文采用某一時(shí)刻前20 min數(shù)據(jù)進(jìn)行分析,提前預(yù)估出路段交通狀態(tài),為車輛路段選擇提供參考。因此,本文模型的輸入主要從擁堵因素、空間、時(shí)間三個(gè)維度進(jìn)行構(gòu)建。
本文根據(jù)擁堵程度,將交通狀態(tài)分為暢通、擁擠、擁堵三類。參考指標(biāo)是美國(guó)加利福尼亞運(yùn)輸部性能測(cè)量系PeMS(Performance Measurement System)交通數(shù)據(jù)延遲項(xiàng),通過聚類分析得到延遲項(xiàng)劃分標(biāo)準(zhǔn):延遲項(xiàng)為0,表示車輛沒有延遲,定義為暢通狀態(tài);延遲項(xiàng)在0~1間,表示車輛有輕微延遲,定義為擁擠狀態(tài);延遲項(xiàng)大于1,表示有嚴(yán)重延遲,定義為擁堵狀態(tài)。
在提取特征方面,CNN模型可以自動(dòng)進(jìn)行,避免了人工提取特征好壞對(duì)結(jié)果的影響。分類問題中,SVM學(xué)習(xí)超平面是距離各個(gè)類別樣本點(diǎn)最遠(yuǎn)的平面,分類準(zhǔn)確率更加具有優(yōu)勢(shì)。Niu等人已將CNN-SVM應(yīng)用到圖像識(shí)別領(lǐng)域[11]。為結(jié)合CNN和SVM優(yōu)勢(shì),本文提出CNN-SVM混合分類模型對(duì)交通狀態(tài)進(jìn)行預(yù)估。CNN對(duì)交通數(shù)據(jù)進(jìn)行特征提取,SVM利用提取后特征對(duì)交通狀態(tài)進(jìn)行分類,具體結(jié)構(gòu)如圖1所示。
圖1 CNN-SVM模型結(jié)構(gòu)圖
模型的輸入是擁堵因素、空間、時(shí)間三維矩陣。為取得最佳學(xué)習(xí)效果,需要對(duì)模型輸入進(jìn)行標(biāo)準(zhǔn)化。本文采用的是線性歸一化方法:
(9)
交通數(shù)據(jù)通過3個(gè)卷積層進(jìn)和4個(gè)全連接層對(duì)交通狀態(tài)進(jìn)行估計(jì)。CNN訓(xùn)練結(jié)束后,將網(wǎng)絡(luò)最后一層全連接的輸出作為特征,輸入到SVM模型中進(jìn)行分類。CNN-SVM模型訓(xùn)練分為兩個(gè)過程:
① 利用交通流數(shù)據(jù)訓(xùn)練CNN模型;
② 利用CNN提取的特征對(duì)SVM模型進(jìn)行訓(xùn)練。
美國(guó)加利福尼亞州是擁堵常發(fā)性地區(qū),本文選取該地區(qū)Hollywood Fwy公路進(jìn)行分析,路段監(jiān)測(cè)點(diǎn)分布如圖2所示。設(shè)待預(yù)測(cè)路段編號(hào)為O(764766),選取呈對(duì)稱分布的3個(gè)上游監(jiān)測(cè)點(diǎn)U1(717488)、U2(717489)、U3(717490)和3個(gè)下游監(jiān)測(cè)點(diǎn)D1(775990)、D2(717486)、D3(769405)。
圖2 美國(guó)加利福尼亞州局部路段監(jiān)測(cè)點(diǎn)分布圖
假設(shè)待預(yù)測(cè)路段單個(gè)監(jiān)測(cè)器監(jiān)測(cè)數(shù)據(jù)是不準(zhǔn)確的,實(shí)驗(yàn)?zāi)繕?biāo)是通過該路段上下游多個(gè)監(jiān)測(cè)器前20 min監(jiān)測(cè)數(shù)據(jù)對(duì)該路段交通狀態(tài)進(jìn)行預(yù)估,進(jìn)而指導(dǎo)車輛選擇合理行車路線。
實(shí)驗(yàn)采用2017年9月20日到2017年10月27日PeMS交通數(shù)據(jù)進(jìn)行實(shí)驗(yàn),數(shù)據(jù)的采樣間隔時(shí)間為5 min。其中,2017年9月20日到2017年10月20日作為訓(xùn)練數(shù)據(jù),2017年10月21日到2017年10月27日作為測(cè)試數(shù)據(jù)。
車輛構(gòu)成信息和CNN-SVM模型是影響預(yù)估準(zhǔn)確性的主要因素。因此,本文設(shè)計(jì)了兩個(gè)對(duì)比實(shí)驗(yàn),分別對(duì)比CNN-SVM模型下考慮車輛構(gòu)成和忽略車輛構(gòu)成的預(yù)估準(zhǔn)確性,以及CNN模型和CNN-SVM模型的預(yù)估準(zhǔn)確性。
實(shí)驗(yàn)具體參數(shù)如下:
① CNN模型。卷積層個(gè)數(shù)為3,卷積核大小為2×2,3個(gè)卷積核層數(shù)分別為6、12和24,全連接層的神經(jīng)元個(gè)數(shù)為128、32、8、3,激活函數(shù)采用ReLU函數(shù),模型輸出采用softmax激活函數(shù)。模型采用交叉熵?fù)p失函數(shù),訓(xùn)練過程采用Adam算法進(jìn)行優(yōu)化。
② SVM模型。采用Hinge Loss損失函數(shù),核函數(shù)采用RBF核函數(shù)。為防止過擬合,懲罰因子c設(shè)置為0.8。
CNN-SVM模型預(yù)測(cè)結(jié)果如表1所示。其中擁堵狀態(tài)和暢通狀態(tài)的預(yù)估準(zhǔn)確率相對(duì)較高,測(cè)試集中暢通狀態(tài)預(yù)估準(zhǔn)確率達(dá)到了96.77%;擁擠狀態(tài)預(yù)估準(zhǔn)確率相對(duì)較低,只有90.71%。原因在于擁擠狀態(tài)處在暢通和擁堵狀態(tài)之間,容易被誤判為暢通或者擁堵。但從整體上來看,訓(xùn)練集中交通狀態(tài)預(yù)估準(zhǔn)確率達(dá)到94.68%,測(cè)試集準(zhǔn)確率達(dá)到了95.32%,準(zhǔn)確度基本滿足預(yù)估要求。
表1 CNN-SVM模型預(yù)測(cè)結(jié)果
考慮車輛構(gòu)成和忽略車輛構(gòu)成對(duì)比實(shí)驗(yàn)中,模型訓(xùn)練準(zhǔn)確度如圖3所示。黑色實(shí)線代表忽略車輛構(gòu)成訓(xùn)練結(jié)果,灰色虛線代表考慮車輛構(gòu)成訓(xùn)練結(jié)果。
圖3 考慮車輛構(gòu)成和忽略車輛構(gòu)成訓(xùn)練結(jié)果對(duì)比
灰色虛線剛開始上升速度較慢,當(dāng)訓(xùn)練次數(shù)超過300次后,考慮車輛構(gòu)成模型準(zhǔn)確率逐漸高于忽略車輛構(gòu)成模型準(zhǔn)確率。原因在于,考慮車輛構(gòu)成信息時(shí),模型需要學(xué)習(xí)知識(shí)比較多,一開始準(zhǔn)確度上升比較慢,后期經(jīng)過充分訓(xùn)練,考慮車輛構(gòu)成的模型得到了更多信息,因此預(yù)測(cè)結(jié)果比忽略車輛信息更高。同時(shí),忽略車輛信息的模型信息量有限,后期隨著訓(xùn)練次數(shù)增加開始趨向于過擬合,預(yù)估效果后期開始逐漸下降。
針對(duì)不同數(shù)據(jù)集,考慮車輛構(gòu)成和忽略車輛構(gòu)成預(yù)測(cè)結(jié)果如表2所示。驗(yàn)證集中,考慮車輛構(gòu)成模型預(yù)估準(zhǔn)確度比忽略車輛構(gòu)成模型提升1.40%,在測(cè)試集中,考慮車輛構(gòu)成的模型預(yù)估準(zhǔn)確度比忽略車輛構(gòu)成模型提升1.12%。說明車輛構(gòu)成對(duì)于交通狀態(tài)有著不可忽略的影響。
表2 考慮車輛構(gòu)成和忽略車輛構(gòu)成預(yù)測(cè)結(jié)果對(duì)比
CNN模型和CNN-SVM模型的對(duì)比實(shí)驗(yàn)中,CNN采用的是softmax分類器,CNN-SVM采用的是SVM分類器,其預(yù)估結(jié)果如表3所示。驗(yàn)證集中,CNN-SVM模型預(yù)估準(zhǔn)確度比CNN模型提升1.84%,在測(cè)試集中,CNN-SVM模型預(yù)估準(zhǔn)確度比CNN模型提升2.25%,說明SVM具有更高的分類效果。
表3 CNN模型和CNN-SVM模型預(yù)測(cè)結(jié)果對(duì)比
SVM模型雖然可對(duì)交通狀態(tài)進(jìn)行估計(jì),但在單個(gè)監(jiān)測(cè)器數(shù)據(jù)不準(zhǔn)確的前提下,其使用其他監(jiān)測(cè)器數(shù)據(jù)時(shí)分類準(zhǔn)確率不足80%,且輸入維度過高,不適合基于多監(jiān)測(cè)器檢測(cè)數(shù)據(jù)的交通狀態(tài)預(yù)估。因此,在交通狀態(tài)預(yù)估方面,CNN-SVM相對(duì)于CNN模型和SVM模型更加具有優(yōu)勢(shì)。
本文提出了一種基于車輛構(gòu)成和特征提取的交通狀態(tài)預(yù)估模型,考慮相同車流量下,大車型比例對(duì)擁堵的影響。將交通狀態(tài)分成暢通、擁擠和擁堵三種狀態(tài),以多個(gè)道路監(jiān)測(cè)器數(shù)據(jù)為輸入來預(yù)估交通狀態(tài)。通過CNN自動(dòng)提取交通擁堵特征,將得到的特征輸入SVM進(jìn)行交通狀態(tài)預(yù)估。通過考慮車輛構(gòu)成和忽略車輛構(gòu)成的實(shí)驗(yàn),以及CNN-SVM模型和CNN模型的對(duì)比實(shí)驗(yàn),在PeMS數(shù)據(jù)集的Hollywood Fwy公路上進(jìn)行驗(yàn)證,結(jié)果表明考慮車輛構(gòu)成信息的CNN-SVM模型,具有更好的交通狀態(tài)預(yù)估能力。
本文實(shí)驗(yàn)沒有考慮不同道路通行能力差異帶來的區(qū)別,后續(xù)可以結(jié)合不同規(guī)模的道路進(jìn)行分類探討,使模型具有更廣泛的應(yīng)用場(chǎng)景。