傅晨琳,黃 敏,沙志仁
(1.中山大學(xué) 智能交通系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,廣東 廣州 510006;2. 廣東方緯科技有限公司 研發(fā)中心,廣東 廣州 510006)
城市軌道交通以其大運(yùn)量、低成本和高環(huán)保的特點(diǎn),逐漸成為發(fā)展智慧交通的關(guān)鍵。城市軌道交通站點(diǎn)客流量是評(píng)價(jià)其服務(wù)水平和實(shí)現(xiàn)城市軌道交通資源有效配置的基礎(chǔ)數(shù)據(jù)和依據(jù),因而掌握客流波動(dòng)的特征和規(guī)律,可以實(shí)現(xiàn)科學(xué)合理地預(yù)測(cè)各站點(diǎn)短期客流對(duì)開(kāi)展客流控制和列車(chē)調(diào)度。由于城市軌道交通進(jìn)站客流受到站點(diǎn)位置、節(jié)假日、重大事件等因素的影響,客流序列的波動(dòng)呈現(xiàn)很強(qiáng)的非線性和非平穩(wěn)性,客流量的預(yù)測(cè)難度較大。
客流預(yù)測(cè)常用方法主要有ARIMA 時(shí)間序列模型、回歸模型、神經(jīng)網(wǎng)絡(luò)等,郝勇等[1]運(yùn)用時(shí)間序列模型通過(guò)客流7 d 均量分別進(jìn)行系統(tǒng)日客流量的迭代預(yù)測(cè)和遞推預(yù)測(cè);李麗輝、Smith 等[2-3]分別采用隨機(jī)森林回歸和季節(jié)差分自回歸移動(dòng)平均模型預(yù)測(cè)短期交通量;李春曉等[4]提出一種基于廣義動(dòng)態(tài)模糊神經(jīng)網(wǎng)絡(luò)(GD—FNN)用于預(yù)測(cè)短時(shí)進(jìn)站客流量。為更有效地利用模型的優(yōu)點(diǎn),互相彌補(bǔ)缺陷,組合預(yù)測(cè)的理論和方法已成為目前的趨勢(shì)。王興川等[5]構(gòu)建基于小波分解與重構(gòu)的GM—ARIMA客流預(yù)測(cè)模型,基于AFC 客流數(shù)據(jù)實(shí)現(xiàn)對(duì)大型活動(dòng)期間的軌道交通客流預(yù)測(cè);Yu 等[6]將經(jīng)驗(yàn)?zāi)B(tài)分解法和BP 神經(jīng)網(wǎng)絡(luò)組合對(duì)地鐵客流進(jìn)行預(yù)測(cè)。
目前,有關(guān)城市軌道交通分時(shí)客流預(yù)測(cè)的研究較少,而且由于城市軌道交通進(jìn)站客流在時(shí)空分布不均勻,呈現(xiàn)出非線性、非穩(wěn)態(tài)的特點(diǎn),傳統(tǒng)的預(yù)測(cè)方法難以捕捉數(shù)據(jù)間的非線性波動(dòng),而時(shí)間序列存在間歇性,在數(shù)據(jù)分解時(shí)容易出現(xiàn)模態(tài)混疊的現(xiàn)象。為提高進(jìn)站客流預(yù)測(cè)精準(zhǔn)度,將噪聲輔助數(shù)據(jù)分析的集合經(jīng)驗(yàn)?zāi)B(tài)分解法和適合時(shí)間序列預(yù)測(cè)的BP 神經(jīng)網(wǎng)絡(luò)構(gòu)建組合預(yù)測(cè)模型對(duì)城市軌道交通進(jìn)站客流進(jìn)行短期預(yù)測(cè)。
經(jīng)驗(yàn)?zāi)B(tài)分解法(Empirical Mode Decomposition,EMD)是Huang 等人于1998 年提出的一種自適應(yīng)信號(hào)時(shí)頻處理方法[7],特別適用于非線性非平穩(wěn)信號(hào)的分析處理。由于自身優(yōu)勢(shì)和適用性,其在交通領(lǐng)域的應(yīng)用日益成熟。而集合經(jīng)驗(yàn)?zāi)B(tài)分解法(Ensemble Empirical Mode Decomposition,EEMD)是針對(duì)傳統(tǒng)EMD 在處理間歇性的時(shí)間序列信號(hào)時(shí)會(huì)出現(xiàn)模式混合的情況而提出的改進(jìn)算法[8],利用EMD 尺度分離原則和噪聲統(tǒng)計(jì)特性,在處理非平穩(wěn)、非線性間歇性時(shí)間序列能有效抑制模態(tài)混疊,充分保持原有序列的動(dòng)態(tài)性,區(qū)分異常狀態(tài),將信號(hào)逐級(jí)分解成不同頻率和特征尺度的若干個(gè)獨(dú)立的特征模態(tài)函數(shù)(Intrinsic Mode Function,IMF)。
EEMD 的分解原理是通過(guò)添加白噪聲輔助分析,促進(jìn)數(shù)據(jù)在分解中進(jìn)行抗混處理,以抑制模式混疊現(xiàn)象。EEMD 的理論依據(jù)是在待分解信號(hào)添加白噪聲,使其成為真實(shí)時(shí)間序列和白噪聲的混合,利用白噪聲頻譜在整個(gè)時(shí)頻的均勻分布特性使數(shù)據(jù)按照時(shí)間尺度自動(dòng)分布到適合的參考尺度范圍。由于白噪聲具有零均值性,雖然每次分解中白噪聲互不相同,經(jīng)過(guò)多次分解求平均值后,噪聲就可以互相抵消,信號(hào)本身才是唯一持久穩(wěn)固的部分,即本質(zhì)是一種添加白噪聲的多次經(jīng)驗(yàn)?zāi)B(tài)分解[9],分解后的IMF 分量應(yīng)滿足近似為周期函數(shù),且任意數(shù)據(jù)點(diǎn)的極值包絡(luò)線的平均值為零。EEMD的分解流程圖如圖1 所示。
EEMD 分解的具體步驟如下。
(1)向原始序列X(t)中分別添加N次均值為0,幅值標(biāo)準(zhǔn)差為0.2 的白噪聲,添加噪聲后的序列為X’(t),確定X’(t)所有的極大值和極小值。
(2)利用三次樣條插值法分別擬合極大值和極小值的上下包絡(luò)線,根據(jù)上下包絡(luò)線計(jì)算其局部均值m(t)及差值d(t),判斷d(t)是否滿足IMF 條件:如果滿足,將d(t)表示為第i個(gè) IMF 分量,并以剩余量r來(lái)替代X’(t);第i個(gè) IMF 分量通常被記作cn(t);若不滿足,則用X’(t)替代d(t)。
(3)重復(fù)以上步驟,當(dāng)r為單調(diào)函數(shù)或小于某固定值時(shí),一次分解過(guò)程完成,分解后的原始序列可表示成n個(gè)IMF 分量與剩余量r的和。
(4)將以上步驟多次分解對(duì)應(yīng)的IMF 總體求平均值,消除白噪聲的影響,得到EEMD 分解后的IMF 分量及剩余量,可表示為
圖1 EEMD 的分解流程圖Fig.1 Decomposition flow chart of EEMD
式中:cj(t)為第j個(gè)IMF 分量:r(t)為剩余量。
BP 神經(jīng)網(wǎng)絡(luò)(Back Propagation Network)也被稱為誤差反向傳播神經(jīng)網(wǎng)絡(luò),是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),具有監(jiān)督的學(xué)習(xí)模式,是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)。BP 神經(jīng)網(wǎng)絡(luò)算法的基本思想是梯度下降法,通過(guò)反向傳播不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,使網(wǎng)絡(luò)的實(shí)際輸出和期望輸出的誤差平方和為最小。BP 神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)通常包括輸入層、隱含層和輸出層,輸入層負(fù)責(zé)接收神經(jīng)網(wǎng)絡(luò)的輸入信息,隱含層位于中間,是輸入層和輸出層中神經(jīng)元連接信息的傳輸帶,并對(duì)輸入信息進(jìn)行分析處理,隱含層可以是多層的,輸出層是將分析處理后的結(jié)果集合輸出,即神經(jīng)網(wǎng)絡(luò)的輸出。每一層都由不同數(shù)量的神經(jīng)元組成,典型的單隱含層BP 神經(jīng)網(wǎng)絡(luò)的模型拓?fù)鋱D如圖2所示。
建立BP 神經(jīng)網(wǎng)絡(luò)模型需要確定包括隱含層層數(shù)、各層節(jié)點(diǎn)數(shù)、學(xué)習(xí)速率、迭代次數(shù)、各層神經(jīng)元激勵(lì)函數(shù)等因素,對(duì)網(wǎng)絡(luò)性能有一定的影響,在應(yīng)用時(shí)需要通過(guò)試驗(yàn)不斷調(diào)整得出適應(yīng)值。
為更準(zhǔn)確地進(jìn)行客流預(yù)測(cè),將EEMD和BP 神經(jīng)網(wǎng)絡(luò)組合構(gòu)建EEMD—BP 組合模型預(yù)測(cè)城市軌道交通短期進(jìn)站客流,其組合思路為:先運(yùn)用EEMD 對(duì)城市軌道交通日進(jìn)站客流序列進(jìn)行模態(tài)分解,再對(duì)分解后得到的IMF 分量進(jìn)行識(shí)別和篩選,按照與原始時(shí)間序列的相關(guān)程度將分量分為高相關(guān)分量和低相關(guān)分量;接著設(shè)計(jì)實(shí)驗(yàn)研究不同分量組合形式輸入BP 神經(jīng)網(wǎng)絡(luò)的客流預(yù)測(cè)情況,并對(duì)比分析各實(shí)驗(yàn)組的預(yù)測(cè)結(jié)果。簡(jiǎn)言之,組合模型分為數(shù)據(jù)分解階段、分量識(shí)別階段、客流預(yù)測(cè)階段、結(jié)果分析階段。
(1)數(shù)據(jù)分解階段。由于城市軌道
交通客流數(shù)據(jù)是非線性、非穩(wěn)態(tài)的,且具有間歇性,因而需要先通過(guò)EEMD 將原始客流序列分解為若干個(gè)簡(jiǎn)單獨(dú)立的IMF 分量,分解出的IMF 分量按照頻率由高到低排列,各自表示原始客流數(shù)據(jù)的局部特點(diǎn),如振蕩范圍、變化趨勢(shì)、周期模式等。分解本質(zhì)是將影響原始序列波動(dòng)的各成分特征分類分離出來(lái),即原始客流序列呈現(xiàn)出的波動(dòng)性就是這些分量疊加的結(jié)果。
圖2 典型的單隱含層BP 神經(jīng)網(wǎng)絡(luò)的模型拓?fù)鋱DFig.2 Model topology diagram of BP neural network
(2)分量識(shí)別階段。通過(guò)EEMD 分解后,將得到的IMF 分量中識(shí)別篩選出對(duì)原始客流序列有顯著影響的高相關(guān)分量。高頻分量的周期較短,代表較短時(shí)間范圍內(nèi)客流的波動(dòng)模式,低頻分量的周期較長(zhǎng),代表較長(zhǎng)時(shí)間范圍內(nèi)客流的變化模式,而剩余量代表原始數(shù)據(jù)整個(gè)時(shí)間范圍的長(zhǎng)期變化趨勢(shì)。為更好地分析IMF 分量與原始客流序列之間的內(nèi)在關(guān)系,識(shí)別有意義的分量,用以下統(tǒng)計(jì)量來(lái)分析。①平均周期:定義為快速傅里葉變換的最大振幅所對(duì)應(yīng)的頻率的倒數(shù),代表各 IMF 分量的波動(dòng)周期;②Pearson 相關(guān)系數(shù):用于衡量數(shù)據(jù)間的線性相關(guān)關(guān)系,相關(guān)系數(shù)越大,表示相應(yīng)的分量與原始客流序列間的線性程度越強(qiáng);③Kendall 相關(guān)系數(shù):用于衡量定序變量間的線性關(guān)系,相關(guān)系數(shù)越大,表示分量與原始序列在某時(shí)刻變化方向一致性越高;④方差占比:每個(gè)IMF 分量方差所占數(shù)據(jù)列總體方差的比重。根據(jù)各統(tǒng)計(jì)量的值分析出原始客流序列的高相關(guān)分量。
(3)客流預(yù)測(cè)階段。通過(guò)對(duì)IMF 分量的識(shí)別篩選之后,為對(duì)比和驗(yàn)證不同模式的預(yù)測(cè)效果,利用BP 神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)以下6 組實(shí)驗(yàn)。①直接將原始客流時(shí)間序列作為神經(jīng)網(wǎng)絡(luò)的輸入;②將分解后的所有IMF 分量以單獨(dú)的方式作為神經(jīng)網(wǎng)絡(luò)的輸入;③將篩選后的高相關(guān)性分量以單獨(dú)的方式作為神經(jīng)網(wǎng)絡(luò)的輸入;④將篩選后的高相關(guān)性分量以組合的方式作為神經(jīng)網(wǎng)絡(luò)的輸入;⑤將篩選后的高相關(guān)性分量以單獨(dú)的方式,低相關(guān)性分量以組合的方式作為神經(jīng)網(wǎng)絡(luò)的輸入;⑥將篩選后的高相關(guān)性分量以組合的方式,低相關(guān)性分量以組合的方式作為神經(jīng)網(wǎng)絡(luò)的輸入。
(4)結(jié)果分析階段。為了合理比對(duì)不同輸入模式的預(yù)測(cè)效果,采用均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)、平均絕對(duì)百分比誤差(MAPE) 3 個(gè)指標(biāo)進(jìn)行判斷分析。均方根誤差能體現(xiàn)預(yù)測(cè)誤差的離散分布程度,值越大表示誤差分布越離散,越偏離平均值,預(yù)測(cè)效果越差;平均絕對(duì)誤差是預(yù)測(cè)值與算術(shù)平均值誤差絕對(duì)值的平均,可避免誤差互相抵消,更直觀反映實(shí)際誤差的大小,值越小表示實(shí)際誤差越?。黄骄^對(duì)百分比誤差是絕對(duì)百分比誤差的平均值,可用于評(píng)價(jià)模型預(yù)測(cè)結(jié)果的好壞,值越大說(shuō)明預(yù)測(cè)效果越差。均方根誤差σ、平均絕對(duì)誤差ρ、平均絕對(duì)百分比誤差τ3 個(gè)指標(biāo)可以表示為
式中:n為所預(yù)測(cè)的時(shí)間段個(gè)數(shù);y(t)為原始數(shù)據(jù)值;為預(yù)測(cè)值。
廣州珠江新城站為廣州地鐵3 號(hào)線和5 號(hào)線的換乘站,位于廣州天河中央商務(wù)區(qū),是廣州最繁忙的城市軌道交通站點(diǎn)之一。以江新城站為樣本,選取2016 年10 月10 日至11 月30 日期間工作日的分時(shí)進(jìn)站客流作為原始數(shù)據(jù),采用EEMD—BP組合模型對(duì)該站進(jìn)行短期客流預(yù)測(cè)。
根據(jù)珠江新城地鐵站的運(yùn)營(yíng)時(shí)間,以15 min為間隔共2 774 個(gè)數(shù)據(jù),珠江新城站部分工作日日進(jìn)站客流隨時(shí)間的變化如圖3 所示。由圖3 可知,工作日客流在17 : 30—19 : 30 呈明顯的晚高峰,對(duì)應(yīng)工作客流下班通勤,也是站點(diǎn)實(shí)施常態(tài)化客流控制的時(shí)段。另外,客流在21 : 00—22 : 00 之間還有一個(gè)小晚高峰,對(duì)應(yīng)夜間活動(dòng)返程客流。需要注意的是,由于燈光節(jié)的影響,少部分日期的22 : 00 附近出現(xiàn)客流異常情況。運(yùn)用EEMD 對(duì)原始客流進(jìn)行分解,采樣期間工作日的進(jìn)站客流序列分解為10 個(gè)IMF 分量和1 個(gè)剩余量,原時(shí)間序列及分解后得到的IMF 分量如圖4 所示。將分解所得的IMF 分量按照頻率由高到低依次排列,各自的波動(dòng)代表了原始時(shí)間序列的波動(dòng)特征成分,最后無(wú)法分解的部分為剩余量,剩余量單調(diào)遞增,說(shuō)明整個(gè)采樣期間工作日的進(jìn)站客流呈上升的趨勢(shì)。
為識(shí)別與原始序列相關(guān)程度較高的分量,對(duì)各分量進(jìn)行平均周期、Pearson 相關(guān)系數(shù)、Kendall相關(guān)系數(shù)、方差占比4 個(gè)指標(biāo)的統(tǒng)計(jì)分析,各IMF 分量的統(tǒng)計(jì)分析結(jié)果如表1 所示。從周期上看,IMF1 至IMF4 都體現(xiàn)了進(jìn)站客流的分時(shí)波動(dòng),其中IMF2 和IMF3 對(duì)應(yīng)了一天之內(nèi)的2 個(gè)高峰,IMF4 體現(xiàn)了半天的波動(dòng)性,恰好在時(shí)間上將白天平峰與晚間高峰分隔開(kāi),而IMF5 的波形與原始波形最為相似,體現(xiàn)了原始客流的日波動(dòng)性;而IMF7 的周期接近5,體現(xiàn)了一周工作日的波動(dòng)性;IMF10 的周期與原始客流時(shí)間范圍一致,則體現(xiàn)整個(gè)采樣時(shí)間的客流變化特征。從Pearson 相關(guān)系數(shù)和Kendall 相關(guān)系數(shù)看,IMF2 和IMF3 的周期雖然相同,但I(xiàn)MF3 的相關(guān)系數(shù)更大,說(shuō)明IMF3 與原始序列的線性關(guān)系和一致性更高,因而IMF3 對(duì)應(yīng)的是傍晚的高峰??傮w來(lái)看,IMF2 至IMF5 的相關(guān)系數(shù)與其他分量相比明顯更大,說(shuō)明這些分量與原始序列的波動(dòng)一致性較高,且他們的方差占比總和為全部占比的97.8%,說(shuō)明他們是原始序列變化趨勢(shì)中的主導(dǎo)分量。根據(jù)相關(guān)系數(shù)的參考準(zhǔn)則[10],選擇分量IMF2 至IMF5 為高相關(guān)分量,其余分量為低相關(guān)分量。
圖3 珠江新城站部分工作日日進(jìn)站客流隨時(shí)間的變化Fig.3 Daily passenger flow in the Zhujiang New Town Station
圖4 原時(shí)間序列及分解后得到的IMF 分量Fig.4 Original time series and IMFs obtained after decomposition
選用單隱含層結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)建立預(yù)測(cè)模型。為提高預(yù)測(cè)精度,預(yù)測(cè)前對(duì)數(shù)據(jù)進(jìn)行異常值剔除,剔除原始序列中受燈光節(jié)影響導(dǎo)致客流異常的3 d,將原數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集為前32 d 的數(shù)據(jù),按8:2 劃分訓(xùn)練集和驗(yàn)證集,最后3 d 為測(cè)試集。將每天的時(shí)間序列樣本劃分為4 個(gè)時(shí)段,分別是(06 : 00,12 : 00],(12 : 00,17 : 00],(17 : 00,20 : 00],(22 : 00,23 : 45]。訓(xùn)練過(guò)程中,樣本以15 min 為間隔,以6 為滾動(dòng)單位,即取前6 個(gè)連續(xù)樣本為基礎(chǔ)訓(xùn)練預(yù)測(cè)下一個(gè)樣本(以6 : 00—7 : 30 為輸入預(yù)測(cè)7 : 45 數(shù)據(jù),再以6 : 15—7 : 45為輸入預(yù)測(cè)8 : 00的數(shù)據(jù))。參數(shù)設(shè)置經(jīng)過(guò)嘗試,隱藏層激活函數(shù)為elu,輸出層激活函數(shù)為linear,損失函數(shù)采用mae。按照實(shí)驗(yàn)方案的設(shè)計(jì),輸入節(jié)點(diǎn)個(gè)數(shù)基于滾動(dòng)單位,IMF 分量及每日劃分時(shí)段,隱含層節(jié)點(diǎn)數(shù)選擇誤差最小的最優(yōu)數(shù),各組實(shí)驗(yàn)的BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練的關(guān)鍵參數(shù)如表2 所示。
表1 各IMF 分量的統(tǒng)計(jì)分析結(jié)果Fab.1 Statistical analysis results of each IMF
表2 各組實(shí)驗(yàn)的BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練的關(guān)鍵參數(shù)Fab.2 Parameters of BP neural network in each group of experiments
采用均方根誤差、平均絕對(duì)誤差、平均絕對(duì)百分比誤差作為指標(biāo)對(duì)EEMD—BP 組合預(yù)測(cè)模型的預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià),各實(shí)驗(yàn)方案的預(yù)測(cè)結(jié)果評(píng)價(jià)分析如表3 所示。
通過(guò)表3 可以得出,將原始序列分解為特征分量的形式輸入比直接將原始客流序列作為神經(jīng)網(wǎng)絡(luò)輸入的預(yù)測(cè)效果精度高,高相關(guān)分量是預(yù)測(cè)精準(zhǔn)度提高的關(guān)鍵特征分量,分量以組合的形式輸入改善預(yù)測(cè)精度的效果更好,且將高相關(guān)分量和低相關(guān)分量分開(kāi)作為輸入得出最佳預(yù)測(cè)結(jié)果為實(shí)驗(yàn)6。實(shí)際數(shù)據(jù)與實(shí)驗(yàn)6 預(yù)測(cè)結(jié)果比較如表4 所示。
表3 各實(shí)驗(yàn)方案的預(yù)測(cè)結(jié)果評(píng)價(jià)分析Fab.3 Evaluation of prediction results of each experimental program
表4 實(shí)際數(shù)據(jù)與實(shí)驗(yàn)6 預(yù)測(cè)結(jié)果比較Fab.4 Comparison of actual data with best experimental predictions
(1)城市軌道交通進(jìn)站客流易受多種因素的影響而呈現(xiàn)時(shí)空分布不均勻,難以進(jìn)行較精準(zhǔn)的短期客流預(yù)測(cè)。EEMD—BP 組合預(yù)測(cè)模型通過(guò)將原始客流序列分解為含有客流不同局部波動(dòng)特征的若干IMF 分量,并根據(jù)對(duì)原始序列波動(dòng)的影響程度識(shí)別篩選出高相關(guān)分量和低相關(guān)分量,作為BP 神經(jīng)網(wǎng)絡(luò)的輸入再進(jìn)行預(yù)測(cè)。
(2)經(jīng)過(guò)實(shí)驗(yàn)比較分析,結(jié)果表明此模型不僅能提高客流短期預(yù)測(cè)的精準(zhǔn)度,減少預(yù)測(cè)模型的輸入量,而且將高相關(guān)分量和低相關(guān)分量分類,再以組合的形式分開(kāi)輸入時(shí)可以最大改善預(yù)測(cè)效果,預(yù)測(cè)精準(zhǔn)度可達(dá)93.01%。
(3)這種預(yù)測(cè)方法可以應(yīng)用于基于歷史客流數(shù)據(jù)對(duì)城市軌道交通的客流預(yù)測(cè)領(lǐng)域,為制定客流控制、列車(chē)調(diào)度等方案提供數(shù)據(jù)基礎(chǔ)和科學(xué)依據(jù)。