李 瑩,李曉霞
(1.西安郵電大學(xué) 現(xiàn)代郵政學(xué)院,陜西 西安 710061,2.長安大學(xué) 汽車學(xué)院,陜西 西安 710061)
智能運輸系統(tǒng)(ITS)代表了運輸系統(tǒng)未來的發(fā)展方向,旨在提供更好更智能的服務(wù)。主要基于數(shù)據(jù)采集技術(shù)、通信技術(shù)和數(shù)據(jù)庫管理技術(shù),可提供包括智能交通控制系統(tǒng)、車禍管理系統(tǒng)、智能交通導(dǎo)航系統(tǒng)、駕駛輔助系統(tǒng)等在內(nèi)的多個重要應(yīng)用[1]。
ITS中最重要的便是數(shù)據(jù)的采集和分析,并在此基礎(chǔ)上做出決策。由此可見,ITS天然地與大數(shù)據(jù)緊密結(jié)合在一起。文獻[2]和文獻[3]指出,精確有效的大數(shù)據(jù)分析工具能更好地支撐ITS。
雖然對交通流進行精準(zhǔn)預(yù)測是智能運輸系統(tǒng)中的重要組成部分,但是,隨著海量數(shù)據(jù)的積累,傳統(tǒng)的分析手段不足以充分挖掘有效信息[4]。文獻[5]指出,交通流預(yù)測手段已經(jīng)從傳統(tǒng)的基于統(tǒng)計學(xué)的參數(shù)方法[6]、基于機器學(xué)習(xí)的非參數(shù)方法[7],演變?yōu)榛诖髷?shù)據(jù)的深度學(xué)習(xí)方法[8]。
近年來,文獻研究的預(yù)測模型主要包括:時間序列模型、神經(jīng)網(wǎng)絡(luò)模型、支持向量機模型、歷史平均模型等,但是大部分模型未考慮目標(biāo)路段所在路網(wǎng)的物理空間信息,而是只利用了該路段的歷史交通流數(shù)據(jù)信息。WU[9]等人利用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)分別處理時間、時間維度的信息進行了短時交通流的預(yù)測,鄒東[10]等人基于Elman神經(jīng)網(wǎng)絡(luò)算法構(gòu)建了預(yù)測模型,劉小明[11]等人基于時延特性進行了多斷面的短時交通流預(yù)測,陸文琦[5]等人基于混合深度學(xué)習(xí),構(gòu)建了智能網(wǎng)聯(lián)環(huán)境下的交通流預(yù)測模型,結(jié)果表明該模型在不同車道均有理想的預(yù)測效果。于德新[12]等人利用GRU-RUN模型對交叉路口的短時交通流進行了預(yù)測研究。戢曉峰[13]等人針對節(jié)假日的交通流實際數(shù)據(jù),建立了基于深度學(xué)習(xí)的框架進行預(yù)測。由此可見,運用神經(jīng)網(wǎng)絡(luò)或深度神經(jīng)網(wǎng)絡(luò)來開展交通流數(shù)據(jù)的精準(zhǔn)預(yù)測是方法發(fā)展的趨勢,值得進一步深入研究。
然而,大部分研究只開展了單一路段的預(yù)測,傳統(tǒng)的機器學(xué)習(xí)模型也很難捕捉到時空特性強烈耦合的道路交通狀況的特征,因此交通狀態(tài)預(yù)測的有效性和精度也將受此影響。特別是,當(dāng)前道路復(fù)雜度高、交通數(shù)據(jù)類型多維、數(shù)據(jù)量巨大,傳統(tǒng)的算法如支持向量機等很難對數(shù)據(jù)特征進行充分的學(xué)習(xí),因此,本文在智能運輸系統(tǒng)的背景下,在考慮了多維時空因素的基礎(chǔ)上,提出將深度學(xué)習(xí)架構(gòu)的SDAE模型用于交通流預(yù)測,通過對不同類預(yù)測模型對比,驗證了模型的有效性和優(yōu)越性。
對智能運輸系統(tǒng)(ITS)中產(chǎn)生的海量數(shù)據(jù),進行有效的學(xué)習(xí)利用,從而完成交通流的預(yù)測。需要同時考慮訓(xùn)練模型特征提取的充分完備性和預(yù)測功能的泛化性,是一項十分艱巨的任務(wù)。
自編碼器的基本結(jié)構(gòu)包括輸入層、隱藏層和重構(gòu)層,如圖1所示。自編碼器的本質(zhì)是重構(gòu)輸入數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),從而獲取有效的學(xué)習(xí)特征、去除數(shù)據(jù)噪聲、提高模型的泛化能力,最終學(xué)習(xí)到的有效特征被記錄于隱藏層。
圖1 自編碼器結(jié)構(gòu)
訓(xùn)練樣本集表示為:{x(1),x(2),x(2),…},x(i)∈Rd,自編碼器首先按式(1)將樣本x(i)編碼,完成了從輸入層到隱藏層的映射。進一步按式(2)對y(x(i))進行解碼,從而完成隱藏層到重構(gòu)層的映射。
y(x)=f(W1x+b)
(1)
z(x)=g[W2y(x)+c]
(2)
式中:W1為編碼權(quán)重矩陣;b為編碼偏置向量,W2為解碼權(quán)重矩陣;c為解碼偏置向量,本文默認激活函數(shù)f(x)和g(x)為logistic sigmoid函數(shù)1/[1+exp(-x)]。
為達到訓(xùn)練效果,使得重構(gòu)誤差最小化,定義損失函數(shù)為重構(gòu)誤差LAE:
(3)
進一步可對AE進行無監(jiān)督訓(xùn)練,利用誤差反向傳播過程可對網(wǎng)絡(luò)進行Fine-tuning調(diào)優(yōu)。
先在AE的基礎(chǔ)上介紹降噪自編碼器DAE模型。DAE模型具有與AE一致的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練目標(biāo),不同之處在于,DAE在訓(xùn)練前主動在樣本中添加一定的隨機噪聲數(shù)據(jù),訓(xùn)練過程旨在消除噪聲干擾,并重構(gòu)未污染的純凈輸入信息,從而間接地實現(xiàn)抑制噪聲數(shù)據(jù)的效果。文獻[14]指出,通過對污染數(shù)據(jù)的特征映射解析還原原始純凈數(shù)據(jù),此過程加強了系統(tǒng)的穩(wěn)定性和魯棒性。
同理,定義損失函數(shù)為:
(4)
在DAE的基礎(chǔ)上,將l個DAE模型堆疊(Stacked)之后組成深度學(xué)習(xí)結(jié)構(gòu),構(gòu)成SDAE架構(gòu),如圖2所示。前一層DAE中的隱藏層作為下一層DAE的輸入,即可逐層完成訓(xùn)練(共l層),通過反向誤差傳播過程進行調(diào)優(yōu)。注意到損失函數(shù)保持不變,仍為LDAE,調(diào)優(yōu)標(biāo)準(zhǔn)即為最小化LDAE。
圖2 SDAE結(jié)構(gòu)
借鑒文獻[8],為了將SDAE模型用于交通流的預(yù)測,需要在最頂層添加一個標(biāo)準(zhǔn)的預(yù)測器(Predictor)。本文選擇Logistic回歸預(yù)測器作為深度學(xué)習(xí)網(wǎng)絡(luò)的有監(jiān)督交通流預(yù)測器。綜上,深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,其算法實現(xiàn)過程如表1所示。
圖3 交通流預(yù)測的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)
表1 SDAE訓(xùn)練算法Table1 TrainingofSDAE算法1SDAE模型的訓(xùn)練Step1)初始化SDAE網(wǎng)絡(luò)參數(shù)設(shè)定網(wǎng)絡(luò)的學(xué)習(xí)率α,訓(xùn)練周期κ,網(wǎng)絡(luò)結(jié)構(gòu)層數(shù)l,權(quán)重衰減參數(shù)λ,初始化編碼權(quán)重矩陣W1,編碼偏置向量b,解碼權(quán)重矩陣W2,解碼偏置向量c,輸入層和隱藏層單元數(shù)目,對x進行歸一化處理后加入噪聲:x→x~Step2)訓(xùn)練第一層DAE模型,將其隱含層作為第二層DAE模型的輸入,以此類推,直至完成第l層DAE的訓(xùn)練Step3)將n個DAE堆疊形成SDAE,在頂層添加logistic標(biāo)準(zhǔn)預(yù)測器實現(xiàn)交通流預(yù)測功能Step4)利用BP方法調(diào)整整個網(wǎng)絡(luò)的參數(shù),即對整個網(wǎng)絡(luò)進行調(diào)優(yōu)
本文所用數(shù)據(jù)來源于美國加利福尼亞運輸部性能測量系統(tǒng)(PEMS)。該系統(tǒng)由超過15 000個獨立探測器對高速公路通過的車輛信息進行采集,采集的時間間隔為5 min。選擇2020年10月到11月的數(shù)據(jù)進行實驗,其中80%的數(shù)據(jù)用于訓(xùn)練,20%的數(shù)據(jù)用于測試。
根據(jù)PEMS指導(dǎo)手冊,當(dāng)且僅當(dāng)訪問對象為獨立探測器級別時可獲取該道路的交通流信息。對不同道路的探測器數(shù)據(jù)進行分析,可獲取不同道路的交通流時間序列數(shù)據(jù)。文獻[8]將PEMS中所有道路數(shù)據(jù)作為數(shù)據(jù)輸入算法,從而達到多維時空(Spatial and Temporal)分析的目的。但本文認為,不同道路之間物理距離越遠,其空間關(guān)聯(lián)程度越微弱。更合理的做法應(yīng)該是針對某預(yù)測道路對象,將與之相連接的相鄰道路數(shù)據(jù)納入算法進行分析。
定義所預(yù)測路段為AB,記與點A相連的路段共SA條,分別為{lane1,lane2,…,laneSA},同理點B相連的路段{lane1,lane2,…,laneSB}。
以加州奧克蘭市的高速公路為例,如圖3所示。選取589號和980號高速公路之間的路段作為預(yù)測路段,標(biāo)記為AB,如圖4所示。與點A相連的路段有24號和580號左右兩側(cè)高速公路,共3段:{lane1,lane2,lane3},與點B相連的路段880號和980號高速公路,共兩段:{lane1,lane2}。
圖4 奧克蘭市高速公路布局
圖5 預(yù)測路段與周邊道路結(jié)構(gòu)
AB路段從2020年10月1日到2020年10月4日的交通流量變化情況如圖6所示,其趨勢表現(xiàn)出明顯的一致性。
(a)2020年10月1日
為了驗證模型的有效性和可行性,用以下性能指標(biāo)進行對比分析:平均絕對誤差MAE、平均相對誤差MRE和均方根誤差RMSE。
為了對預(yù)測效果進行對比,選擇了基于統(tǒng)計學(xué)的時間序列模型ARIMA、基于機器學(xué)習(xí)的支持向量機模型SVM與本文模型進行對比。特別地,作為縱向?qū)Ρ龋€對SDAE模型進行了只輸入預(yù)測路段時間序列數(shù)據(jù)的預(yù)測訓(xùn)練,將其標(biāo)記為SDAE-T。作為區(qū)分,本文提出的考慮多維時空因素的SDAE則標(biāo)記為SDAE-ST。
根據(jù)SDAE模型的網(wǎng)絡(luò)結(jié)構(gòu),需要確定輸入層、隱藏層的單元數(shù)和隱藏層數(shù)目。以AB路段為例,輸入數(shù)據(jù)為AB段交通流的時間序列和相連道路交通流的時間序列,共6組時間序列的數(shù)據(jù)作為輸入。這樣處理既能考慮交通流的空間關(guān)聯(lián)性,又能使得訓(xùn)練數(shù)據(jù)高效簡潔。為了預(yù)測時刻的交通流量,需要用到前r個時間棧數(shù)據(jù)進行訓(xùn)練,即Xt-1,Xt-2,…,Xt-r,最終輸入數(shù)據(jù)的維度為6×r,由SDAE的網(wǎng)絡(luò)結(jié)構(gòu)可知輸出層的維度為6。
短期交通流預(yù)測,可根據(jù)選定的數(shù)據(jù)天數(shù)d確定r:r=288×d。不失一般性,本文設(shè)定天數(shù)范圍為{1,2,…,7},隱藏層數(shù)目l范圍{1,2,…,7},隱藏層單元數(shù)目范圍為{200,250,300,350,400,450,500,550,600},運行算法得到最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)如表2所示。
表2 SDAE模型結(jié)構(gòu)Table2 StructureofSDAE結(jié)構(gòu)參數(shù)計算結(jié)果r864l4隱藏層單元數(shù)目[350350350350]
圖7和圖8分別為2020年11月28日至30日和2020年11月18日至20日的預(yù)測效果與觀測值的對比。短期交通流預(yù)測天數(shù)一般不宜過多,存在一定的主觀性。本文經(jīng)多次實驗,初步確定天數(shù)取d=2較為合適,模型效果較好。
圖7 預(yù)測效果(11月28日至30日)
圖8 預(yù)測效果(11月18日至20日)
預(yù)測的結(jié)果雖然存在一定的偏差擾動,但所預(yù)測的交通流量變化趨勢同觀測值保持著高度的一致性。
不同模型的預(yù)測性能對比情況如表3所示。從表3可知,SDAE-ST的平均絕對誤差MAE最小,具有更高的預(yù)測精度。而SDAE-T預(yù)測精度最低,ARIMA相比更高,SVM則表現(xiàn)為比ARIMA更高的精度,但二者相差不大,屬同一預(yù)測精度水平。這證明了由于SDAE-T只利用了預(yù)測道路的歷史數(shù)據(jù),而未考慮其路網(wǎng)空間維度的影響,因此預(yù)測精度較低。模型之間的平均相對誤差MRE和均方根誤差RMSE的差異與MAE保持一致,也驗證了本文模型的優(yōu)越性。
綜合來看,ARIMA和SVM皆考慮了時空因素的影響,各項指標(biāo)相差較小,但都高于SDAE-T的預(yù)測精度,這說明開展多維時空分析是很有必要的。在所選的幾種模型中,SDAE-ST的精度最高,具有更加優(yōu)越的性能。
表3 不同模型的預(yù)測性能對比Table3 Performancecomparisonofdifferentmethods模型MAEMRE/%RMSESDAE-ST11.017.5610.63SDAE-T13.8910.3814.25ARIMA13.569.2913.78SVM12.988.6712.21
智能運輸系統(tǒng)環(huán)境下,大數(shù)據(jù)的采集和分析手段更加先進,且交通流預(yù)測作為其關(guān)鍵性技術(shù)功能,本文得以在大數(shù)據(jù)的基礎(chǔ)上,提出了基于深度學(xué)習(xí)的交通流預(yù)測模型。
模型利用將多個降噪自編碼器DAE堆疊的思路,構(gòu)建了棧式SDAE的深度學(xué)習(xí)結(jié)構(gòu),通過在頂層添加Logistic回歸預(yù)測的設(shè)計實現(xiàn)交通流的預(yù)測功能。同時結(jié)合實際的交通流數(shù)據(jù),通過與不同模型的預(yù)測實驗對比,證明了本方法的有效性。在進行實際交通流的預(yù)測時,應(yīng)考慮多維時空因素的影響,才能獲得更好的預(yù)測精度。此外,本文數(shù)據(jù)來源于美國。因此本模型在用于中國高速公路時,需要考慮以下兩點。①需要考慮中美兩國測量系統(tǒng)的差異、流量計算公式,確保數(shù)據(jù)的真實。②總的來說中國的交通流量大于美國,因此可以適當(dāng)放寬時間間隔以應(yīng)對數(shù)據(jù)容量的計算壓力。