蘭添賀,曲大義,陳 昆,劉浩敏
(青島理工大學(xué) 機(jī)械與汽車(chē)工程學(xué)院,青島 266525)
城市道路交通具有路網(wǎng)復(fù)雜,交通流量大和潮汐性明顯等特點(diǎn)[1]。隨著汽車(chē)保有量的增加,交通擁堵的情況日益頻發(fā),顯著影響了城市居民的出行。因此采用先進(jìn)的技術(shù)手段,對(duì)城市路段的車(chē)流量進(jìn)行監(jiān)測(cè)和預(yù)測(cè),成為智能交通領(lǐng)域的研究熱點(diǎn)之一[2]。短時(shí)交通流預(yù)測(cè)可以為交通管理控制和出行選擇提供幫助。近年來(lái),國(guó)內(nèi)外學(xué)者對(duì)短時(shí)交通流預(yù)測(cè)進(jìn)行了大量的研究,提出多種方法提高交通流預(yù)測(cè)的準(zhǔn)確度。
目前交通流預(yù)測(cè)的方法主要分為兩類(lèi)[3],一種是基于傳統(tǒng)數(shù)理統(tǒng)計(jì)模型和回歸分析模型的預(yù)測(cè)方法[4-5],另一種是基于機(jī)器學(xué)習(xí)算法及其優(yōu)化改進(jìn)模型的預(yù)測(cè)方法[6-7]。其中傳統(tǒng)數(shù)理統(tǒng)計(jì)回歸分析方法主要有歷史平均法模型(Historical Average Method, HAM)[8]、線性回歸模型(Linear Regression, LR)[9]、卡爾曼濾波模型[10]和指數(shù)平滑模型[11]等。但是交通流量往往具有隨機(jī)性強(qiáng)和數(shù)據(jù)量巨大的特點(diǎn),傳統(tǒng)方法很難達(dá)到理想的預(yù)測(cè)效果,因此基于機(jī)器學(xué)習(xí)算法的預(yù)測(cè)模型成為交通流預(yù)測(cè)研究的熱門(mén)方向。機(jī)器學(xué)習(xí)算法具有收斂速度快和適應(yīng)力強(qiáng)的特點(diǎn),能夠大大提升交通流預(yù)測(cè)的準(zhǔn)確度[12]。VLADIMIR等[13]提出一種能夠?qū)崟r(shí)進(jìn)行短時(shí)交通流預(yù)測(cè)的模型,該模型采用隨機(jī)森林算法(Random Forests, RF)。RF算法參數(shù)少,訓(xùn)練速度快。通過(guò)實(shí)際數(shù)據(jù)證明了該算法具有更快預(yù)測(cè)速度和更低的預(yù)測(cè)誤差。DINH等[14]為了提高交通流預(yù)測(cè)模型的性能,將SVM算法與K近鄰算法相結(jié)合,在保證一定準(zhǔn)確度的前提下,進(jìn)一步提高了模型的訓(xùn)練速度和訓(xùn)練規(guī)模。RAJALAKSHMI等[15]以多層感知機(jī)(Multilayer Perceptron, MLP)算法為模型框架,建立交通流預(yù)測(cè)模型,并使用粒子群優(yōu)化算法對(duì)MLP算法的權(quán)重和閾值進(jìn)行優(yōu)化,從而實(shí)現(xiàn)動(dòng)態(tài)調(diào)整MLP的網(wǎng)絡(luò)參數(shù)。實(shí)驗(yàn)結(jié)果表明,優(yōu)化的MLP交通流預(yù)測(cè)模型具有更穩(wěn)定的預(yù)測(cè)效果。
綜上所述,機(jī)器學(xué)習(xí)模型有效提升了交通流預(yù)測(cè)的準(zhǔn)確度。但是面對(duì)復(fù)雜多樣的城市道路,需要模型具有更好的通用性和更高的準(zhǔn)確度,因此本文使用布谷鳥(niǎo)搜索算法(Cuckoo Search, CS)對(duì)SVM模型的重要參數(shù)進(jìn)行優(yōu)化,以期提高對(duì)不同類(lèi)型城市道路交通流預(yù)測(cè)的準(zhǔn)確度。將青島市的多組典型城市道路交通流量數(shù)據(jù)作為研究對(duì)象,設(shè)置HAM模型、LR模型、MLP模型、RF模型和SVM模型作為對(duì)比實(shí)驗(yàn)?zāi)P?驗(yàn)證CS-SVM模型的優(yōu)越性。
SVM模型在被提出后得到了快速的發(fā)展。SVM模型被廣泛應(yīng)用于回歸分析、文本分類(lèi)和模式識(shí)別等問(wèn)題中,并取得了良好的效果[16]。其中支持向量機(jī)回歸(Support Vector Regression, SVR)是SVM的重要分支。SVR模型能夠進(jìn)行回歸預(yù)測(cè)分析,核心思想是讓目標(biāo)集合中所有的點(diǎn)到回歸平面的距離最近。
設(shè)樣本集為A={(xk,yk),k=1,2,3,…,n},將變量x通過(guò)非線性變化σ()映射到高維特征空間H中。其次構(gòu)建線性回歸函數(shù)g(x)=ωTσ(x)+b,并以此構(gòu)建二次規(guī)劃方程如下:
(1)
(2)
最終將回歸問(wèn)題的求解方程表示為
(3)
YANG等通過(guò)觀察自然界中布谷鳥(niǎo)的產(chǎn)卵行為,提出一種優(yōu)化算法--布谷鳥(niǎo)搜索算法(Cuckoo Search, CS)[17]。CS算法具有較強(qiáng)的全局搜索能力,并且具有內(nèi)置參數(shù)少、計(jì)算容易等特點(diǎn)。CS算法的核心思想為:模擬布谷鳥(niǎo)的飛行尋找過(guò)程,尋找最為合適的鳥(niǎo)巢用于孵化鳥(niǎo)蛋。
設(shè)布谷鳥(niǎo)每次產(chǎn)出α個(gè)鳥(niǎo)蛋,在一定鳥(niǎo)巢數(shù)量的范圍下,鳥(niǎo)巢主人發(fā)現(xiàn)鳥(niǎo)蛋不是自己出產(chǎn)的概率為φ(φ∈[0,1])。布谷鳥(niǎo)的搜索過(guò)程和孵蛋過(guò)程如下:
首先,初始化鳥(niǎo)巢的數(shù)量和位置,設(shè)鳥(niǎo)巢數(shù)量為β。設(shè)置適應(yīng)度函數(shù),并第一次對(duì)每個(gè)鳥(niǎo)巢的合適程度進(jìn)行評(píng)價(jià)。每個(gè)鳥(niǎo)巢的主人通過(guò)Levy飛行搜索機(jī)制對(duì)鳥(niǎo)巢進(jìn)行修補(bǔ),設(shè)搜索最大次數(shù)為N。評(píng)價(jià)修補(bǔ)后的鳥(niǎo)巢與之前鳥(niǎo)巢的合適程度,并按照貪婪法則保留更優(yōu)的鳥(niǎo)巢,計(jì)算過(guò)程如下:
ηi,t+1=ηi,t+l·L
(4)
u,v服從的均勻分布函數(shù)如下:
(5)
式中:Γ為伽瑪函數(shù);λ為調(diào)整參數(shù),取值范圍為[0,1]。
其次,如果發(fā)現(xiàn)外來(lái)鳥(niǎo)蛋,鳥(niǎo)巢主人將對(duì)鳥(niǎo)巢進(jìn)行修補(bǔ),修補(bǔ)的概率為φ。計(jì)算過(guò)程如下:
ηi,t+1=ηi,t+φ(ηj,t-ηi,t)
(6)
式中:ηj,t為ηi,t鄰近的鳥(niǎo)巢;φ取值[0,1]。
最后,鳥(niǎo)巢主人將修補(bǔ)后的鳥(niǎo)巢與當(dāng)前適合程度最高的鳥(niǎo)巢進(jìn)行比較,留下適合程度更高的鳥(niǎo)巢進(jìn)行產(chǎn)蛋孵化。判定是否達(dá)到最大搜索次數(shù),若沒(méi)有達(dá)到最大次數(shù)則繼續(xù)以上步驟尋找適合程度最佳的鳥(niǎo)巢;若達(dá)到最大次數(shù),則停止搜索開(kāi)始產(chǎn)蛋孵化。
SVM模型中的重要參數(shù)為C和epsilon。其中C為懲罰系數(shù),體現(xiàn)在對(duì)樣本中錯(cuò)誤數(shù)據(jù)的容忍程度。當(dāng)數(shù)據(jù)較為分散隨機(jī)時(shí),應(yīng)將C設(shè)置調(diào)高,以舍棄更多的數(shù)值,提高模型的泛化能力;當(dāng)數(shù)據(jù)規(guī)律性明顯、數(shù)據(jù)較為統(tǒng)一時(shí),應(yīng)將C設(shè)置調(diào)低,保留更多數(shù)值的特征,以提高擬合結(jié)果的準(zhǔn)確度。自由參數(shù)通常通過(guò)實(shí)驗(yàn)和歷史經(jīng)驗(yàn)進(jìn)行設(shè)定,存在不確定性。當(dāng)模型面對(duì)不同城市路段的交通流數(shù)據(jù)時(shí),往往需要根據(jù)數(shù)據(jù)的特點(diǎn)進(jìn)行參數(shù)調(diào)整,因此參數(shù)選擇很大程度上影響最終預(yù)測(cè)結(jié)果的準(zhǔn)確性。
(7)
基于上述改進(jìn),SVM模型的優(yōu)化過(guò)程如下:
步驟1:將原始交通流數(shù)據(jù)序列化分組,作為輸入數(shù)據(jù)。設(shè)置初始參數(shù)的數(shù)值,建立SVM模型。
步驟2:將隨機(jī)生成的β個(gè)鳥(niǎo)巢位置設(shè)為Wi,t=[xt,c,xt,e],xt,c為第t次迭代i鳥(niǎo)巢的c位置分量,對(duì)應(yīng)SVM的參數(shù)C;xt,e為第t次迭代i鳥(niǎo)巢的e位置分量,對(duì)應(yīng)SVM的參數(shù)epsilon。計(jì)算鳥(niǎo)巢位置的適應(yīng)度函數(shù),將Wi,t作為當(dāng)前的最適合鳥(niǎo)巢。
步驟3:對(duì)鳥(niǎo)巢進(jìn)行修補(bǔ)和位置更新,并對(duì)更新的位置加入擾動(dòng)因子。將加入擾動(dòng)因子的最新鳥(niǎo)巢位置和上一個(gè)鳥(niǎo)巢位置進(jìn)行對(duì)比,保留適應(yīng)度更高的鳥(niǎo)巢位置,作為當(dāng)前的最佳鳥(niǎo)巢。
步驟4:判定是否達(dá)到設(shè)定的最大搜索次數(shù),如果沒(méi)有達(dá)到最大次數(shù)則重復(fù)上述步驟;如果達(dá)到最大次數(shù),則停止訓(xùn)練,并將當(dāng)前計(jì)算的鳥(niǎo)巢位置作為最佳結(jié)果。
步驟5:將最佳鳥(niǎo)巢位置分量作為SVM模型的對(duì)應(yīng)參數(shù)C和epsilon。對(duì)每一組城市道路交通數(shù)據(jù)進(jìn)行訓(xùn)練,獲取預(yù)測(cè)結(jié)果,從而建立基于CS-SVM模型的短時(shí)交通流預(yù)測(cè)模型。優(yōu)化過(guò)程流程如圖1所示。
圖1 優(yōu)化過(guò)程流程
選擇青島市即墨區(qū)的城市交通流量數(shù)據(jù)作為研究對(duì)象。數(shù)據(jù)的收集時(shí)間為2021-10-31-2021-11-13,總計(jì)14 d。交通流量數(shù)據(jù)的時(shí)間間隔為5 min,每個(gè)路段的數(shù)據(jù)量為4032個(gè)。將收集的數(shù)據(jù)進(jìn)行整理和清洗。對(duì)于數(shù)據(jù)出現(xiàn)空缺的問(wèn)題,考慮到交通流數(shù)據(jù)具有周期性和規(guī)律性,且車(chē)流量的變化是隨時(shí)間變化而逐漸增減的,因此將空缺位置附近兩個(gè)數(shù)據(jù)的平均值作為填補(bǔ)數(shù)據(jù)。并設(shè)置有效數(shù)據(jù)區(qū)間,去除無(wú)效數(shù)據(jù)。為檢驗(yàn)本文提出的模型具有廣泛適用性,收集4個(gè)不同路段的交通流量數(shù)據(jù)進(jìn)行研究。4個(gè)不同的典型城市路段如下:
即蘭路:雙向六車(chē)道,為地面開(kāi)放式道路。最高車(chē)輛數(shù)為81輛。車(chē)流量稀疏,鄰近郊區(qū)。
青威路:雙向八車(chē)道,為地面開(kāi)放式道路。最高車(chē)輛數(shù)為145輛。鄰近學(xué)校,潮汐特征明顯。
墨城路:雙向六車(chē)道,為地面開(kāi)放式道路。最高車(chē)輛數(shù)為139輛。鄰近商業(yè)區(qū)。
海爾路:雙向六車(chē)道,道路延伸處與多條縱向干線以非立體交通的形式交匯。最高車(chē)輛數(shù)為122輛。
即蘭路(JLR)、青威路(QWR)、墨城路(MCR)和海爾路(HER)的數(shù)據(jù)信息見(jiàn)表1。
表1 路段數(shù)據(jù)信息
CS-SVM模型的對(duì)比模型設(shè)置為:HAM模型、LR模型、MLP模型、RF模型和SVM模型。將時(shí)間步長(zhǎng)設(shè)置為12(12×5=60 min)。MLP模型的學(xué)習(xí)率設(shè)置為0.0001,一次性的投放抓取次數(shù)設(shè)置為128。所有模型訓(xùn)練集和測(cè)試集的比例為0.2。訓(xùn)練輪數(shù)epoch設(shè)置為300。CS-SVM模型的鳥(niǎo)巢數(shù)量設(shè)置為20,最大飛行搜索次數(shù)設(shè)置為100,擾動(dòng)系數(shù)?取值為0.5。
表2為所有模型的短時(shí)交通流預(yù)測(cè)結(jié)果。從表2可以看到,CS-SVM模型的預(yù)測(cè)誤差明顯低于其他對(duì)比模型。其中相比傳統(tǒng)數(shù)理統(tǒng)計(jì)和回歸分析模型,CS-SVM具有顯著的提升。4個(gè)路段的MAE值,CS-SVM相比HAM模型和LR模型平均下降了39.62%和31.59%。4個(gè)路段的RMSE值,CS-SVM相比HAM模型和LR模型平均下降了38.64%和29.11%。此外,CS-SVM具有比傳統(tǒng)機(jī)器學(xué)習(xí)模型更高的準(zhǔn)確度。CS-SVM模型相比MLP模型和RF模型的MAE值平均下降了20.10%和10.04%,相比MLP模型和RF模型的RMSE值平均下降了19.84%和9.54%。同時(shí),CS-SVM模型相比沒(méi)有加入CS算法優(yōu)化的SVM模型,在MAE值上4個(gè)路段平均下降了6.56%,在RMSE值上4個(gè)路段平均下降了7.36%??梢?jiàn)本文提出的CS-SVM模型具有更高的準(zhǔn)確度和更廣泛的適用性。
表2 短時(shí)交通流預(yù)測(cè)結(jié)果
圖2為CS-SVM算法優(yōu)化過(guò)程中的迭代次數(shù)和適應(yīng)度值變化曲線。
圖2 迭代次數(shù)和適應(yīng)度值
由圖2可以看出,4個(gè)路段的CS-SVM算法均在35次以?xún)?nèi)求出了最佳適應(yīng)度鳥(niǎo)巢位置。因此CS-SVM算法在參數(shù)優(yōu)化過(guò)程中能夠快速收斂。并且在面對(duì)不同路段時(shí),CS-SVM算法均能表現(xiàn)出良好的優(yōu)化效果,具有高效穩(wěn)定的優(yōu)點(diǎn)。
為了提高交通流預(yù)測(cè)模型的準(zhǔn)確度和適用性,本文使用CS算法對(duì)SVM的重要參數(shù)進(jìn)行優(yōu)化。同時(shí)為了進(jìn)一步提高CS算法的優(yōu)化效果,加入擾動(dòng)因子加強(qiáng)CS算法尋找鳥(niǎo)巢位置的隨機(jī)性和變異能力。為驗(yàn)證CS-SVM模型的預(yù)測(cè)效果,選用4組青島市的典型城市交通流量數(shù)據(jù)作為研究對(duì)象,并與HAM模型、LR模型、MLP模型、RF模型和SVM模型進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果表明,CS-SVM模型具有更小的預(yù)測(cè)誤差,并且面對(duì)4條不同的路段均能表現(xiàn)出良好的模型性能。因此,本文提出的CS-SVM模型能夠有效提升短時(shí)交通流預(yù)測(cè)的準(zhǔn)確度,能夠?yàn)榻煌ńM織優(yōu)化、居民出行選擇和交通流理論研究等方面提供相應(yīng)的幫助。