馬瑩瑩,靳雪振
(華南理工大學(xué) 土木與交通學(xué)院,廣東 廣州 510640)
短時(shí)交通流預(yù)測可為交通控制及交通誘導(dǎo)提供數(shù)據(jù)支撐,是智能交通領(lǐng)域研究的重點(diǎn)和熱點(diǎn)。交通流數(shù)據(jù)采集過程中易受隨機(jī)因素影響,導(dǎo)致交通流數(shù)據(jù)非線性和不確定性增加,預(yù)測難度增大。短時(shí)交通預(yù)測領(lǐng)域現(xiàn)有研究大致可分為參數(shù)預(yù)測、非參數(shù)預(yù)測和組合預(yù)測等3大類。邱敦國等[1]綜合SARIMA模型在歷史周期性預(yù)測上的優(yōu)勢和RBF模型在空間相關(guān)性的預(yù)測優(yōu)勢,提出SARIMA-RBF模型,在同時(shí)考慮交通流歷史周期性和空間相關(guān)性情況下,其相較于單個(gè)模型具有更好的預(yù)測效果;李林超等[2]以交通流縱向時(shí)間及橫向空間相關(guān)性構(gòu)建時(shí)間-空間狀態(tài)向量,采用網(wǎng)格搜索方法對(duì)支持向量回歸模型參數(shù)進(jìn)行標(biāo)定建立預(yù)測模型,結(jié)果表明,相對(duì)于傳統(tǒng)支持向量回歸模型,考慮交通流時(shí)、空間相關(guān)關(guān)系可提升模型預(yù)測精度。
深度學(xué)習(xí)算法[3]憑借其深層結(jié)構(gòu)特點(diǎn)的優(yōu)勢,開始被應(yīng)用于短時(shí)交通流預(yù)測領(lǐng)域,其中包括堆疊自動(dòng)編碼機(jī)(SAE)模型、深度置信網(wǎng)路(DBN)模型[4]、長短期記憶網(wǎng)絡(luò)(LSTM)模型[5]、卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型[6],其中以長短期記憶網(wǎng)絡(luò)的應(yīng)用最為廣泛。翁小雄等[7]考慮引入交通流數(shù)據(jù)中的客車占比特征,提高了基于LSTM短時(shí)交通流預(yù)測模型的預(yù)測精度;閆佳慶等[8]通過對(duì)路網(wǎng)路段的時(shí)空分析, 并引入大型車因素,提高了基于GRU神經(jīng)網(wǎng)絡(luò)的交通流速度預(yù)測模型的預(yù)測準(zhǔn)確度。
交通流數(shù)據(jù)具有隨機(jī)性和非線性特征,傳統(tǒng)的小波分析通過對(duì)數(shù)據(jù)的分解與重構(gòu),能夠有效的對(duì)原始數(shù)據(jù)進(jìn)行降噪,但小波去噪的效果會(huì)受小波函數(shù)的選取以及小波分解尺度大小的影響,從而影響組合預(yù)測模型精度。集合經(jīng)驗(yàn)?zāi)B(tài)分解(ensemble empirical mode decomposition ,EEMD)可依據(jù)數(shù)據(jù)自身的時(shí)間尺度特征進(jìn)行分解,即將原始數(shù)據(jù)或信號(hào)分解為有限個(gè)本征模函數(shù)(Intrinsic Mode Function,IMF)。經(jīng)分解得到的各IMF分量包含原數(shù)據(jù)不同時(shí)間尺度的局部特征信號(hào),在使用時(shí)無需設(shè)定任何基函數(shù),與建立在先驗(yàn)性的諧波基函數(shù)和小波基函數(shù)上小波分析算法具有本質(zhì)差別和特有優(yōu)勢。
綜上,筆者提出一種基于EEMD和小波分析的數(shù)據(jù)分析方法,利用EEMD將原交通流時(shí)間序列分解為N個(gè)本征模態(tài)函數(shù)(IMF)和1個(gè)趨勢項(xiàng)(Res),并利用小波分析對(duì)IMF分量進(jìn)行降噪處理。在此基礎(chǔ)上,提出兩類短時(shí)短時(shí)交通流預(yù)測模型構(gòu)建方法,并分別構(gòu)建基于長短時(shí)記憶網(wǎng)絡(luò)模型(long short-term memory, LSTM)、序列模型(Sequence to Sequence, Seq2seq)和引入注意力機(jī)制序列模型(sequence to sequence with attention,Seq2seq-Attention)的短時(shí)交通流預(yù)測模型進(jìn)行對(duì)比,對(duì)所提兩類模型構(gòu)建方法的有效性及普適性進(jìn)行檢驗(yàn)。
為解決經(jīng)驗(yàn)?zāi)B(tài)分解(empirical mode decomposition,EMD)在分解原數(shù)據(jù)時(shí),模態(tài)混疊現(xiàn)象缺陷及迭代停止條件缺乏統(tǒng)一標(biāo)準(zhǔn)等問題,文獻(xiàn)[8]提出了集合經(jīng)驗(yàn)?zāi)B(tài)分解(EEMD),即通過一種噪聲輔助信號(hào)處理(NADA),利用添加均值為0的高斯白噪聲進(jìn)行輔助分析,即EEMD,過程為:
Step 1:將白噪聲信號(hào)ω(t)加入原始信號(hào)x(t)中,得到信號(hào)x′(t):
x′(t)=x(t)+ω(t)
(1)
Step 2:將信號(hào)x′(t)進(jìn)行分解,得到多個(gè)本征模態(tài)函數(shù)Ii(t)(i=1,2,…,N)和1個(gè)趨勢項(xiàng)r′(t):
(2)
Step 3:重復(fù)Step 1、Step 2,每次加入強(qiáng)度相同、序列不等的白噪聲:
(3)
Step 4:利用白噪聲頻譜的均值為零的特點(diǎn),將所得IMF分量求均值,得到最終IMF分量Ii(t):
(4)
對(duì)信號(hào)進(jìn)行小波分解后,利用門限閾值對(duì)所分解的小波系數(shù)進(jìn)行權(quán)重處理,然后對(duì)小信號(hào)再進(jìn)行重構(gòu),即可達(dá)到信號(hào)降噪的目的。小波分析的基本思想是使用一簇小波函數(shù)來表示或逼近某一信號(hào)或函數(shù),其中小波函數(shù)是小波分析的關(guān)鍵,是具有震蕩性、能夠迅速衰減到0的一類函數(shù),即小波函數(shù)ψ(t)∈L2(R),且滿足:
(5)
(6)
式中:ψ(t)為基小波函數(shù),其可通過尺度的伸縮和時(shí)間軸上的平移構(gòu)成一簇函數(shù)系;ψa,b(t)為子小波;a為尺度因子,反映小波的周期長度;b為平移因子,反映時(shí)間上的平移,且有a,b∈R,a≠0。
若ψa,b(t)是由式(6)給出的子小波,對(duì)于給定的能量有限信號(hào)f(t)=L2(R),其連續(xù)小波變換(continuous wavelet transform,CWT)為:
(7)
交通流時(shí)間序列數(shù)據(jù)屬于離散數(shù)據(jù)可表示為函數(shù)f(kΔ),其中:k表示樣本數(shù)量,且k=1,2,…,N;Δ表示取樣時(shí)間間隔,通常為5 min,則式(7)的離散小波變換形式為:
(8)
EEMD分解得到的前幾個(gè)本征模態(tài)分量,通常集中了原信號(hào)中最顯著、最重要的信息,分量的頻率是從高到底排列的,并且會(huì)隨著信號(hào)的變化而變化。為充分利用EEMD與小波分析兩種算法在數(shù)據(jù)處理方面的各自優(yōu)勢,筆者提出一種EEMD與小波分析組合的數(shù)據(jù)降噪方法,分為兩個(gè)步驟:
(9)
式中:N為分解所得IMF分量個(gè)數(shù),其數(shù)量和IMF的定義有關(guān),由極值點(diǎn)以及篩選終止條件來決定,也可在EMD分解中人為設(shè)置IMF分量的個(gè)數(shù),使其不受終止條件的限制。
在運(yùn)用EEMD+小波分析算法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理的基礎(chǔ)上,提出2類短時(shí)交通流組合預(yù)測模型構(gòu)建方法:將經(jīng)過EEMD+小波分析降噪的IMF分量和殘差分量進(jìn)行重組,并將重組后的數(shù)據(jù)作為短時(shí)交通流預(yù)測模型的輸入數(shù)據(jù),模型輸出值為最終預(yù)測結(jié)果(方法1);將經(jīng)EEMD+小波分析降噪的IMF分量和趨勢項(xiàng)分別作為短時(shí)交通流預(yù)測模型的輸入數(shù)據(jù),對(duì)模型輸出的各分量預(yù)測值進(jìn)行重組,作為最終預(yù)測結(jié)果(方法2)。
將經(jīng)過EEMD+小波分析算法降噪后的IMF分量和趨勢項(xiàng)進(jìn)行重組,并將重組后的數(shù)據(jù)作為短時(shí)交通流預(yù)測模型的輸入數(shù)據(jù),以此建立一個(gè)基于EEMD+小波分析算法,重構(gòu)原時(shí)間序列數(shù)據(jù)的短時(shí)交通流預(yù)測模型,其主要實(shí)現(xiàn)步驟如下:
Step 2:將小波分析降噪處理后的本征模態(tài)函數(shù)I″i(t)和趨勢項(xiàng)進(jìn)行重構(gòu),得到重構(gòu)信號(hào)x″(t):
(10)
Step 3:選取Min-Max標(biāo)準(zhǔn)化方法對(duì)數(shù)據(jù)進(jìn)行歸一化處理,即通過對(duì)原始數(shù)據(jù)的線性變換,使結(jié)果落到[0,1]區(qū)間;
Step 4:確定LSTM模型、Seq2seq模型、Seq2seq-Attention模型等3個(gè)短時(shí)交通流預(yù)測模型的網(wǎng)絡(luò)結(jié)構(gòu)及超參數(shù)。模型超參數(shù)包括網(wǎng)絡(luò)層數(shù)、隱藏層單元數(shù)、學(xué)習(xí)率、迭代次數(shù)、激勵(lì)函數(shù)、損失函數(shù)、優(yōu)化函數(shù)、批處理數(shù)量等;
Step 5:利用訓(xùn)練集數(shù)據(jù)對(duì)建立的短時(shí)交通流預(yù)測模型進(jìn)行訓(xùn)練,更新各層連接權(quán)值,達(dá)到期望誤差或最大迭代次數(shù)后,停止訓(xùn)練,反歸一化輸出結(jié)果得到最終預(yù)測值。
將經(jīng)EEMD+小波分析降噪的IMF分量和趨勢項(xiàng)分別作為短時(shí)交通流預(yù)測模型的輸入數(shù)據(jù),對(duì)模型輸出的各分量預(yù)測值進(jìn)行重組,以此建立一個(gè)基于EEMD+小波分析算法分量預(yù)測組合的短時(shí)交通流預(yù)測模型,主要實(shí)現(xiàn)步驟如下:
Step 1:同方法1中Step 1;
Step 2:選取Min-Max標(biāo)準(zhǔn)化方法對(duì)IMF分量和趨勢項(xiàng)進(jìn)行歸一化處理,即通過對(duì)原始數(shù)據(jù)的線性變換,使結(jié)果落到[0,1]區(qū)間;
Step 3:將經(jīng)小波分析和歸一化處理后的I′i(t)和趨勢項(xiàng)分別作為單獨(dú)的數(shù)據(jù)集輸入建立的LSTM、Seq2seq、Seq2seq Attention等短時(shí)交通流預(yù)測模型;
Step 4:同方法1中Step 4;
Step 5:利用訓(xùn)練數(shù)據(jù)對(duì)短時(shí)交通流預(yù)測模型進(jìn)行訓(xùn)練,更新各層連接權(quán)值,達(dá)到期望誤差或最大迭代次數(shù)后,停止訓(xùn)練,反歸一化輸出結(jié)果。
Step 6:利用式(10)將模型輸出的各分量預(yù)測值進(jìn)行重構(gòu),重構(gòu)后的數(shù)據(jù)即為最終預(yù)測值。
為對(duì)所建立的短時(shí)交通流預(yù)測模型的回歸效果進(jìn)行分析,選取均方根誤差(RMSE)、平均絕對(duì)百分比誤差(MAPE)以及確定系數(shù)(R2)來評(píng)估模型擬合效果。其中RMSE衡量觀測值同真值之間的偏差;MAPE為0%表示完美模型,MAPE大于100%則表示劣質(zhì)模型;R2也稱為擬合優(yōu)度統(tǒng)計(jì)量,越接近1表明回歸線與各觀測點(diǎn)越接近,回歸的擬合程度就越好。計(jì)算公式如下:
(11)
(12)
式中:y′={y′1,y′2,…,y′n}為預(yù)測值,y={y1,y2,…,yn}為真實(shí)值。
研究數(shù)據(jù)來自加拿大Whitemud Drive高速公路,它是一條橫穿加拿大阿爾伯塔省埃德蒙頓市的市內(nèi)高速公路,全長28 km,基本限速為80 km/h,數(shù)據(jù)記錄頻率為20 s/次,在主干道和閘道上裝有地感線圈,用于觀測車流量、車速以及車輛密度。
圖1 Whitemud Drive高速地感線圈位置分布Fig. 1 Position distribution of Whitemud Drive high-speed ground induction coil
選取該高速東行方向的地磁線圈數(shù)據(jù)作為研究對(duì)象,隨機(jī)選取VDS1017、VDS1034、VDS1029、VDS1019這 4個(gè)檢測器數(shù)據(jù)為研究對(duì)象,選取2015年8月8日至28日(剔除周末數(shù)據(jù))共15天數(shù)據(jù),以5 min時(shí)間間隔進(jìn)行聚合,前14天數(shù)據(jù)作為模型訓(xùn)練集(共4 032組),第15天數(shù)據(jù)作為模型測試集(共288組)。
利用EEMD算法對(duì)VDS1017檢測器處流量數(shù)據(jù)進(jìn)行分解。該信號(hào)經(jīng)過EEMD分解得到10個(gè)本征模態(tài)分量和1個(gè)趨勢項(xiàng)Res,結(jié)果如圖2。
由于隨機(jī)噪聲信號(hào)在不同時(shí)刻的關(guān)聯(lián)性較弱,因而其自相關(guān)函數(shù)在零點(diǎn)處有最大取值,然后在零點(diǎn)兩旁迅速衰減接近于0;而一般信號(hào)的自相關(guān)函數(shù)在0點(diǎn)取得最大值后緩慢振蕩,不出現(xiàn)迅速衰減至0的現(xiàn)象。因此,對(duì)EEMD分解所得IMF分量進(jìn)行自相關(guān)計(jì)算,利用含噪分量自相關(guān)函數(shù)在零點(diǎn)附近迅速衰減的特點(diǎn)來實(shí)現(xiàn)對(duì)含噪IMF分量的篩選。將EEMD分解得到的IMF分量進(jìn)行歸一化自相關(guān)函數(shù)處理,結(jié)果如圖3。
圖2 含噪原始信號(hào)的EEMD分解結(jié)果Fig. 2 EEMD decomposition results of noisy original signal
圖3 各階IMF分量的歸一化自相關(guān)函數(shù)Fig. 3 Normalized autocorrelation function of each order of IMF components
根據(jù)上述分量篩選原理,IMF1~I(xiàn)MF3在零點(diǎn)處取得最大值后,在零點(diǎn)兩旁迅速衰減,表明這3個(gè)分量具有明顯的含噪特征。因此,選取前3個(gè)IMF分量進(jìn)行小波分析處理,其中小波基函數(shù)選取db4小波系,分解層數(shù)設(shè)定為3,同時(shí)保留其他信號(hào)主導(dǎo)的IMF分量與余項(xiàng),小波去噪結(jié)果如圖4。
由圖4可知:經(jīng)小波降噪處理后,IMF1~I(xiàn)MF3中包含的噪聲被有效濾除。
圖4 小波降噪效果分析Fig. 4 Analysis of wavelet noise reduction effect
為驗(yàn)證篩選方法的有效性,對(duì)IMF4作小波分析處理,觀察圖像發(fā)現(xiàn)降噪后的IMF4與原IMF4分量幾乎無變化,可知IMF4分量中幾乎不含噪聲,進(jìn)一步表明了篩選方法的有效性。
運(yùn)用VDS1017、VDS1034、VDS1029、VDS1019 這4個(gè)檢測器處數(shù)據(jù),對(duì)基于方法1、方法2與LSTM模型、Seq2seq模型、Seq2Seq Attention模型組合構(gòu)建的短時(shí)交通流預(yù)測模型的有效性和適應(yīng)性進(jìn)行分析,將所提方法1、方法2分別與單一的LSTM模型、Seq2seq模型、Seq2Seq-Attention模型和小波分析-LSTM模型、小波分析-Seq2seq模型和小波分析-Seq2Seq Attention模型的預(yù)測性能進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如圖5。
圖5 模型誤差指標(biāo)對(duì)比Fig. 5 Comparison of model error indicators
對(duì)比選取的四個(gè)模型的均方根誤差、平均絕對(duì)百分比誤差可知:相較于單一的LSTM模型、Seq2seq模型、Seq2Seq-Attention模型和小波分析-LSTM模型、小波分析-Seq2seq模型和小波分析-Seq2Seq Attention模型,基于方法1、方法2與LSTM模型、Seq2seq模型、Seq2Seq-Attention模型組合構(gòu)建的預(yù)測模型的誤差評(píng)價(jià)指標(biāo)均明顯下降,模型性能最好的為基于方法2的組合預(yù)測模型、其次是基于方法1的預(yù)測模型,最后分別是基于小波分析的組合預(yù)測模型和單一模型。
筆者所提的兩類組合預(yù)測模型能大幅提高原預(yù)測模型的預(yù)測性能,方法2對(duì)于模型的提升效果最佳,并在LSTM模型、Seq2seq模型、Seq2Seq-Attention模型這3種類型的模型中均得到驗(yàn)證。表明筆者所提出的兩類組合預(yù)測模型構(gòu)建方法具有很高的準(zhǔn)確度和普適性。
針對(duì)交通流數(shù)據(jù)非線性和不確定性的特點(diǎn),利用集合經(jīng)驗(yàn)?zāi)B(tài)分解(EEMD)和小波分析來去除原交通流時(shí)間序列數(shù)據(jù)中的隨機(jī)噪聲部分,并在此基礎(chǔ)上提出的兩類短時(shí)交通流組合預(yù)測模型構(gòu)建方法。通過借助長短期記憶網(wǎng)絡(luò)(LSTM)、序列模型(Seq2seq)、引入注意力機(jī)制序列模型(Seq2seq-Attention)等短時(shí)交通流預(yù)測模型進(jìn)行試驗(yàn),表明所提兩類模型構(gòu)建方法具有很高的有效性和普適性,通過分別與單一的LSTM、Seq2seq和Seq2Seq-Attention模型以及基于小波分析與LSTM、Seq2seq和Seq2Seq-Attention模型的組合預(yù)測模型進(jìn)行對(duì)比實(shí)驗(yàn),表明兩類方法均能有效提升初始短時(shí)交通流預(yù)測模型的預(yù)測性能,且方法2對(duì)于模型的提升效果更加顯著。
筆者試驗(yàn)場景為高速公路斷面,未充分考慮道路網(wǎng)絡(luò)的空間復(fù)雜性及其他維度信息,如速度、密度、占有率或天氣狀況等外部信息,后續(xù)研究將結(jié)合復(fù)雜的交通網(wǎng)絡(luò)及道路環(huán)境構(gòu)建預(yù)測模型,增強(qiáng)預(yù)測模型的泛化能力,進(jìn)一步提高短時(shí)交通流預(yù)測模型性能,為高速公路信息預(yù)測和交通誘導(dǎo)措施制定提供支撐。