陳 昆,曲大義,賈彥峰,王 韜,洪家樂
(青島理工大學(xué) 機(jī)械與汽車工程學(xué)院,青島 266525)
隨著社會經(jīng)濟(jì)的高速發(fā)展,生活水平不斷提高,汽車擁有量顯著增加,截止到2019年底,國內(nèi)的汽車數(shù)量約為2.615億輛,相比于2018年末增加了2122萬輛,其中私家車數(shù)量約為2.235億輛,增加了1905萬輛[1]。擁堵已經(jīng)成為了城市交通狀況的常態(tài),為了緩解這一問題,有的城市選擇在原有的道路條件下進(jìn)行擴(kuò)建,但其成本過高。從長遠(yuǎn)來看應(yīng)當(dāng)利用智能交通系統(tǒng)對交通擁堵進(jìn)行有效地疏通,其中交通流預(yù)測起著至關(guān)重要的作用[2-3],能實時地為出行者提供有效的信息,有助于交通控制和交通誘導(dǎo),提高通行效率[4]。當(dāng)前在短時交通流量預(yù)測方面提出的方法包括:基于傳統(tǒng)統(tǒng)計分析方法的模型和基于現(xiàn)代化智能信息處理的模型。第一種包括:回歸分析預(yù)測[5]、時間序列的自回歸統(tǒng)計以及概率預(yù)測[6]等方法;第二種方法為非參數(shù)模型,其對復(fù)雜數(shù)據(jù)有較強(qiáng)的處理能力,能夠較好地提取交通流中的非線性特征[7],如SVM模型(Support Vector Machines)。姚亞夫等[8]利用ARIMA模型(Auto-regressive Integrated Moving Average model)對交通流量進(jìn)行預(yù)測,并證明了該方法的合理性。陳軍等[9]用SVM模型和BP模型(Back Propagation)分別對交通流量進(jìn)行了預(yù)測,其結(jié)果表明了SVM模型在預(yù)測城市交通流量方面的優(yōu)越性。蔣曉峰等[10]通過遺傳算法優(yōu)化了SVM模型中的超參數(shù),得到了良好的預(yù)測結(jié)果。
但上述的方法尚未考慮交通流的復(fù)雜性。從交通流的特征來看,在同一位置的交通流參數(shù)具有長期趨勢性,且通常認(rèn)為預(yù)測的交通流量與歷史的交通流量數(shù)據(jù)存在一定的線性關(guān)系,但又因其交通的隨機(jī)波動性,導(dǎo)致交通流中亦存在非線性關(guān)系。ARIMA模型能夠準(zhǔn)確處理交通流量中的線性特征,而SVM模型能夠捕捉其中的非線性特征,且具有魯棒性的優(yōu)點,因此利用上述模型的組合形式能更好地預(yù)測交通流量并提高其預(yù)測準(zhǔn)確性。本文將ARIMA與SVM組合起來,構(gòu)建了ARIMA-SVM組合預(yù)測模型,并利用文獻(xiàn)[11]中西安市區(qū)道路的交通流量數(shù)據(jù)對模型進(jìn)行仿真分析,且對比了ARIMA-SVM模型與ARIMA和SVM單一模型的預(yù)測精度。
ARIMA模型是在ARMA的基礎(chǔ)上將非平穩(wěn)的時間序列經(jīng)過差分處理為較為平穩(wěn)的時間序列進(jìn)行預(yù)測。交通流存在一定的周期性,使得交通流數(shù)據(jù)成為具有趨勢變化的一種時間序列[12],因此對城市道路的短時交通流預(yù)測可以利用ARIMA模型。其公式為
(1)
式中:yt,yt-i分別為預(yù)測值和歷史交通流數(shù)據(jù);μ為常數(shù)項;γi,θi分別為自相關(guān)系數(shù)和誤差項系數(shù);p,q分別為自回歸階數(shù)和移動平均階數(shù);εt,εt-i分別為模型的誤差和時間點i的偏差。
將預(yù)處理之后的西安市道路流量數(shù)據(jù)進(jìn)行時間序列穩(wěn)定性檢驗,通過ADF法檢驗其是否存在單位根。利用MATLAB數(shù)值仿真軟件中的ADF test()函數(shù)進(jìn)行檢驗,當(dāng)返回值為1時,即表示該交通流數(shù)據(jù)相對平穩(wěn);當(dāng)返回值為0時,則認(rèn)為其不平穩(wěn)。將所得的交通流數(shù)據(jù)用函數(shù)檢驗得到的返回值為0,之后對數(shù)據(jù)進(jìn)行一階差分處理,即差分次數(shù)d=1,重復(fù)上述操作,得到的返回值為1,表示序列平穩(wěn),即初步認(rèn)定ARIMA(p,d,q)中得d值為1。
將經(jīng)過一階差分后的交通流序列分別通過自相關(guān)系數(shù)ACF和偏相關(guān)系數(shù)PACF進(jìn)行相關(guān)性檢驗,通過觀察相關(guān)函數(shù)圖,得到最優(yōu)的p和q,取95%的置信區(qū)間。
通過圖1可以看出,在偏相關(guān)函數(shù)和自相關(guān)函數(shù)第4階出現(xiàn)截尾和衰減趨于0的現(xiàn)象,即確定q=4,p=4。
圖1 相關(guān)函數(shù)圖
通過觀察模型的正態(tài)性檢驗圖(圖2),可知,其正態(tài)性檢驗基本呈線性分布,表示模型訓(xùn)練效果好,因此確定最優(yōu)模型為ARIMA(4,1,4)。利用交通流數(shù)據(jù)對模型進(jìn)行仿真,其預(yù)測相對誤差如圖3所示。測試集前一部分?jǐn)?shù)據(jù)相對誤差較小,之后出現(xiàn)了一定的波動,但整體來看預(yù)測效果良好。
圖2 正態(tài)性檢驗
SVM模型是基于結(jié)構(gòu)風(fēng)險最小化原理構(gòu)建的,其預(yù)測模型函數(shù)表達(dá)式為
f(x)=w·φ(x)+b
(2)
式中:f(x)為預(yù)測函數(shù);w為權(quán)重;φ(x)為非線性映射;b為偏置。
對于實際交通流問題存在許多影響因素,因此交通流數(shù)據(jù)一般為非線性[13],可以利用核函數(shù)對非線性以及難以區(qū)分的數(shù)據(jù)的處理能力,將樣本從原低維的空間中通過核函數(shù)映射到高維空間加以區(qū)分,利用Lagrangian函數(shù)和對偶理論進(jìn)行轉(zhuǎn)換,并按照KKT(Karush Kuhn Tucker)定理對已轉(zhuǎn)換的問題進(jìn)行優(yōu)化,其優(yōu)化后的模型為
(3)
SVM模型常用的核函數(shù)包括線性核函數(shù)、徑向基核函數(shù)、多項式核函數(shù)以及多層感知器核函數(shù)等,核函數(shù)的選取對SVM模型的學(xué)習(xí)及泛化能力有重要影響。通過經(jīng)驗選取適應(yīng)度較好的徑向基核函數(shù):
(4)
為了提高模型預(yù)測精度,將數(shù)據(jù)特征轉(zhuǎn)化為相同尺度,對所選用的交通流量進(jìn)行數(shù)據(jù)歸一化,選取數(shù)據(jù)中的最值通過縮放將其歸一到[0,1]中,假設(shè)有M個樣本{x1,x2,x3,…,xm},則
(5)
其中min(x)為M個樣本中的最小值,max(x)為M個樣本中的最大值,利用MATLAB數(shù)值仿真軟件對其進(jìn)行訓(xùn)練預(yù)測,并利用網(wǎng)格法尋找最佳的懲罰參數(shù)和核函數(shù)參數(shù)。
利用訓(xùn)練集歸一化得到的數(shù)據(jù)對SVM模型進(jìn)行訓(xùn)練,并導(dǎo)入測試集中的數(shù)據(jù)進(jìn)行模型仿真,其預(yù)測結(jié)果與真實交通流量的相關(guān)性分析如圖4所示。
判定系數(shù)R2的計算公式為
(6)
通常R2>0.75表示模型具有良好的擬合性和可解釋性;而R2<0.5,表示模型擬合效果較差。通過仿真可知SVM模型的R2=0.943,其值接近1,表示該模型的預(yù)測精度較高,能充分捕捉交通流中的非線性特征。
考慮到交通流容易受多種因素干擾,既存在線性交通流特征,也存在非線性交通流特征,因此本文采取ARIMA-SVM組合預(yù)測的方法對交通流進(jìn)行預(yù)測,首先對交通流量數(shù)據(jù)進(jìn)行預(yù)處理后,然后利用ARIMA與SVM分別對交通流數(shù)據(jù)進(jìn)行預(yù)測,最后對各模型的預(yù)測結(jié)果進(jìn)行加權(quán)組合[14]。依據(jù)各個模型在預(yù)測結(jié)果中的誤差大小來確定單一模型在組合模型中的權(quán)重,即在預(yù)測結(jié)果中的誤差越大,則在組合模型中所占權(quán)重越小。組合模型能減少對實際交通流量的預(yù)測誤差,提升預(yù)測精度,具體流程如圖5所示。
圖5 模型流程
>以組合模型預(yù)測誤差最小為原則,來確定最優(yōu)權(quán)重組合。設(shè)
(7)
(8)
a+b=1
(9)
對于短時交通流預(yù)測一般是指根據(jù)歷史數(shù)據(jù)對未來時間的交通流量進(jìn)行預(yù)測,通常其時間粒度不超過15 min。本文將道路橫斷面交通檢測器15 min內(nèi)檢測到的交通流量作為模型輸入,所用數(shù)據(jù)來自于西安市市區(qū)的交通流量[11],數(shù)據(jù)采集技術(shù)為視頻采集,采集環(huán)境避開了大雨和大霧等不良天氣。因為工作日人們的外出更具規(guī)律,所以選取16個工作日交通流量數(shù)據(jù)用于模型的訓(xùn)練和預(yù)測,采集時段為7:30—11:30,共288個數(shù)據(jù)??紤]到交通受外界因素影響時,如出現(xiàn)突發(fā)狀況或交通檢測器工作異常時,會導(dǎo)致數(shù)據(jù)的異常和丟失,將此類噪聲數(shù)據(jù)用于模型的訓(xùn)練,會降低預(yù)測精度,因此,需要對異常的數(shù)據(jù)進(jìn)行剔除,而丟失的數(shù)據(jù)使用前一天相同時間段的交通流數(shù)據(jù)進(jìn)行補(bǔ)充。
數(shù)據(jù)集中共288個數(shù)據(jù),前272個用于模型訓(xùn)練,即訓(xùn)練集,剩余的16個數(shù)據(jù)用于對模型的評價,即測試集。
本文通過比較各模型的均方根誤差ERMSE,以及平均絕對百分比誤差EMAPE,可以得知訓(xùn)練后的模型在短時交通流量預(yù)測上取得的效果。
(10)
(11)
由于有多組預(yù)測值,因此權(quán)重確定函數(shù)以矩陣的形式表達(dá),用MATALB數(shù)值仿真軟件建模求解。得a=0.453887,b=0.546113。由式(7)計算可以得到2個單一模型的組合模型:
(12)
對比各個模型預(yù)測結(jié)果以及交通流量的真實值,如圖6所示。
由圖6可知,建立的3個模型都有較好的預(yù)測效果,都能擬合出交通流的趨勢。就單一模型而言,交通流變化較大時,SVM模型相比于ARIMA模型能更好地捕捉交通流中復(fù)雜特征;交通流較為平穩(wěn)時,ARIMA模型的預(yù)測效果更好。而組合模型兼顧了2個單一模型的優(yōu)勢,從圖6中可以看出,在交通流平穩(wěn)上升與下降階段,組合模型的預(yù)測曲線與實際值曲線幾乎重合;在其他階段的預(yù)測效果依然優(yōu)于單一模型的預(yù)測效果。
從表1中各個模型的評價指標(biāo)可知,組合模型的2個評價指標(biāo)均低于ARIMA模型和SVM模型,證明了組合模型的預(yù)測效果更好,在面對較為復(fù)雜的交通情況時,仍然有較高的預(yù)測精度。
表1 模型預(yù)測評價
建立了一種關(guān)于道路橫斷面交通流量的ARIMA-SVM組合預(yù)測模型,經(jīng)過對3個模型的預(yù)測結(jié)果對比得知,ARIMA預(yù)測模型的EMAPE為4.17,SVM預(yù)測模型的EMAPE為3.69,ARIMA-SVM組合預(yù)測模型的EMAPE為1.57。組合模型的EMAPE和ERMSE均小于單一模型,由此可知,相比于ARIMA模型的線性預(yù)測以及SVM模型的非線性、高維度和小樣本數(shù)據(jù)預(yù)測,組合模型的預(yù)測結(jié)果要優(yōu)于單一預(yù)測模型,該模型融合了2個單一模型的優(yōu)勢,對復(fù)雜道路交通流的預(yù)測得到了較好的效果。