亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于棧式自編碼的高速鐵路站間客流短期預測研究

2021-05-20 02:29:30劉杰

重慶交通大學學報(自然科學版) 2021年5期

劉杰

(重慶工程職業(yè)技術(shù)學院智能制造與交通學院，重慶 402260)

0 引言

隨著我國高速鐵路的迅猛發(fā)展，高速鐵路客流預測成為鐵路運營管理的重要任務(wù)之一，同時也是提升服務(wù)和管理水平的重要依據(jù)。目前已經(jīng)有許多針對鐵路領(lǐng)域的客流預測研究。汪健雄等[1]基于鐵路客流的時間特征提出了一種BP神經(jīng)網(wǎng)絡(luò)改進模型，在春運客流預測中取得了較好的預測效果；李曉俊等[2]利用人工神經(jīng)網(wǎng)絡(luò)具有的高度非線性映射能力，提出徑向基神經(jīng)網(wǎng)絡(luò)鐵路短期客流預測模型，在T15次列車硬座席別客運量預測上取得較好效果；楊曉等[3]在考慮高速鐵路短期客流的周期性和波動性基礎(chǔ)上，提出一種改進重力模型對客流進行預測，結(jié)果表明該方法有較好的適用性；SUN Yuxing等[4]將小波分析和支持向量機模型結(jié)合對客流做短期預測，預測結(jié)果不僅精度高，還具有較強魯棒性；李麗輝等[5]在分析影響短期鐵路客流因素的基礎(chǔ)上，提出基于隨機森林回歸算法預測模型，在上海到北京2015年7月—8月的客流預測中精度達到0.92；王貴平[6]運用改進的四階段法和弗雷特法得到滇中全方式客流分布，最后建立Logit模型成功預測了鐵路網(wǎng)絡(luò)客流；LAI Qingying等[7]考慮了列車服務(wù)頻率的影響，提出一種高速鐵路短期客流預測混合模型，并以2012年6月—2016年12月北京南站至上海虹橋車站客流數(shù)據(jù)為驗證對象，取得了較好的預測效果；M.MILO等[8]將季節(jié)自回歸集成移動平均方法用在塞爾維亞鐵路客流預測上，取得了較好的效果。以往國內(nèi)外研究主要分為傳統(tǒng)時序模型和機器學習模型兩類。傳統(tǒng)時序模型使用簡單，但對復雜非線性數(shù)據(jù)預測精度不高。機器學習模型需要構(gòu)建較多的特征信息才能保證其精度要求，但這樣增加了研究的成本和難度。

鐵路客流預測的困難源于客流數(shù)據(jù)本身的非線性復雜性和外部因素的影響。要想提高預測精度，一種方法是收集外部數(shù)據(jù)增加特征數(shù)量，但這就會導致預測成本的極大增加。另一種方法是充分挖掘已有歷史數(shù)據(jù)特征信息，但一般預測方法的非線性特征挖掘能力有限，導致部分有效信息丟失。筆者在不增加預測成本的原則下，利用人工神經(jīng)網(wǎng)絡(luò)強大的非線性特征挖掘能力，提出一種基于棧式自編碼的高速鐵路客流預測模型，并通過案例驗證其可行性。

1 問題描述

以“天”為單位統(tǒng)計的渝萬線各車站站間客流為研究對象?？土鲾?shù)據(jù)本質(zhì)就是時間序列數(shù)據(jù)，因此客流預測問題就是時間序列預測問題，其客流數(shù)據(jù)描述表達式為：

(1)

在不考慮政治、經(jīng)濟等外部因素影響的情況下，只利用歷史數(shù)據(jù)信息進行預測，預測結(jié)果為：

(2)

2 數(shù)據(jù)處理

2.1 特征提取

表1 本征特征說明

G=(g1,…gk…,gK)

(3)

式中：G為關(guān)聯(lián)特征向量；gk為第k個提取特征；K為特征總數(shù)。

2.2 構(gòu)建樣本和標簽集

(4)

式中：xs為第s個樣本；X為樣本集；S為樣本總數(shù)；L標簽集。

有了樣本集和標簽集就可以用來訓練客流預測模型。

3 客流預測建模

選擇神經(jīng)網(wǎng)絡(luò)作為建?？蚣艿脑蛟谟谙啾葌鹘y(tǒng)的預測模型，神經(jīng)網(wǎng)絡(luò)模型在大規(guī)模數(shù)據(jù)量和高維度數(shù)據(jù)特征上相比傳統(tǒng)預測模型更具備優(yōu)勢，而數(shù)據(jù)量和維度也是直觀體現(xiàn)數(shù)據(jù)復雜度的兩個關(guān)鍵指標，大量研究表明數(shù)據(jù)復雜度越高，神經(jīng)網(wǎng)絡(luò)的優(yōu)勢越明顯，如圖1。模型構(gòu)建分為兩個部分，第一部分利用棧式自編碼模型預訓練神經(jīng)網(wǎng)絡(luò)參數(shù)；第二部分在第一部得到的初始參數(shù)基礎(chǔ)上重新訓練神經(jīng)網(wǎng)絡(luò)得到預測模型。

圖1 神經(jīng)網(wǎng)絡(luò)模型和傳統(tǒng)模型性能對比

3.1 棧式自編碼

要構(gòu)建一個有H個隱藏層的神經(jīng)網(wǎng)絡(luò)客流預測模型，如果直接采用樣本集和標簽集進行有監(jiān)督訓練會出現(xiàn)梯度彌散現(xiàn)象，導致預測效果不佳，因此采用棧式自編碼技術(shù)解決這一問題。棧式自編碼的思想就是利用自編碼訓練的方法逐層貪婪的訓練神經(jīng)網(wǎng)絡(luò)，最終得到神經(jīng)網(wǎng)絡(luò)每一層的神經(jīng)元初始參數(shù)，具體步驟如下[10]：

第1步：為訓練有H1個神經(jīng)元的第1層隱藏層參數(shù)，需要構(gòu)建一個含輸入層，隱藏層和輸出層的3層自編碼網(wǎng)絡(luò)，自編碼網(wǎng)絡(luò)的輸入和輸出層神經(jīng)元數(shù)量相同，將所有樣本作為該自編碼網(wǎng)絡(luò)的輸入和輸出，如圖2，最后選定合適的激活函數(shù)和損失函數(shù)后開始無監(jiān)督訓練，樣本集訓練完成后得到第1層隱藏層神經(jīng)元所有參數(shù)，記為W(1)。

圖2 第1層隱藏層參數(shù)訓練網(wǎng)絡(luò)模型

圖3 第2層隱藏層參數(shù)訓練網(wǎng)絡(luò)模型

第3步：重復以上步驟直到訓練完H個隱藏層為止，從而得到所有隱藏層參數(shù)(W(1),W(2),…,W(H))。

3.2 神經(jīng)網(wǎng)絡(luò)客流預測模型

訓練客流預測模型前，首先保留棧式自編碼訓練得到的所有隱藏層結(jié)構(gòu)和參數(shù)，然后將樣本作為輸入，與樣本對應(yīng)的標簽作為輸出，有監(jiān)督的重新訓練一次，最終得到客流預測模型，如圖4。

圖4 神經(jīng)網(wǎng)絡(luò)客流預測模型

4 案例分析

4.1 結(jié)果計算

(5)

式中：|T|為預測時間天數(shù)。

計算結(jié)果和綜合自回歸移動平均模型(以下簡稱ARIMA)、霍爾特-溫特斯模型(以下簡稱Holt-winters)、長短期記憶模型(以下簡稱LSTM)、季節(jié)趨勢分解法(以下簡稱STL)4種常用預測模型對比。5種模型在不同階段的預測精度表現(xiàn)不一樣，根據(jù)結(jié)果將整個預測時間分為3個階段進行分析，第1階段0～93 d，第2階段94～229 d，第3階段230～322 d，結(jié)果如圖5。

從圖5可以看出，在第1階段除Holt-winters外，其它模型誤差隨預測時間的增加，總體呈遞增趨勢。Holt-winters雖然在2～14 d誤差呈遞減趨勢，但誤差整體水平遠高于其它模型。通過計算，整體平均相對誤差由低到高依次為文中模型、LSTM、ARIMA、STL和Holt-winters，數(shù)值分別為9.16%、10.2%、12%、13%和33.9%?？梢娫?個月短期客流預測中文中模型表現(xiàn)最好。

圖5 第1階段平均相對誤差變化情況

通過計算，第2階段整體平均相對誤差由低到高依次為LSTM、文中模型、ARIMA、STL和Holt-winters，數(shù)值分別為12.1%、13.2%、17.9%、23%和31.4%。文中模型和LSTM對比，在94～112 d誤差水平基本一樣，在113～220 d文中模型整體平均相對誤差比LSTM略高1.4%，在221～229 d兩個模型預測精度基本又一樣。整個第2階段LSTM表現(xiàn)最好，如圖6。

圖6 第2階段平均相對誤差變化情況

通過計算，第3階段整體平均相對誤差由低到高依次為文中模型、LSTM、ARIMA、Holt-winters和STL，數(shù)值分別為11.5%、12.9%、18.6%、24.3%和28.9%。第3階段文中模型表現(xiàn)最好，如圖7。在分析完3個階段各模型誤差變化情況后，最后對5種模型所有預測數(shù)據(jù)相對誤差取平均值得到3個階段整體平均相對誤差值，如表2。

表2 各模型整體平均相對誤差情況

圖7 第3階段平均相對誤差變化情況

從表2可知，在渝萬線高鐵客流數(shù)據(jù)集的測試中，提出模型整體平均相對誤差指標低于其它4種模型，相比同樣是基于神經(jīng)網(wǎng)絡(luò)框架的LSTM模型誤差小1.18%。其余3種模型誤差指標均超過18%，在數(shù)據(jù)集上表現(xiàn)最差的模型為STL。雖然在第2階段LSTM表現(xiàn)略優(yōu)于本文模型，但文中模型整體性能是最好的。

4.2 結(jié)果分析

1)在渝萬線高鐵客流數(shù)據(jù)集實驗發(fā)現(xiàn)文中模型適應(yīng)于3個月內(nèi)的短期客流預測，因此文中模型在其它數(shù)據(jù)集中應(yīng)用時可以將此數(shù)值作為經(jīng)驗值使用。

2)基于神經(jīng)網(wǎng)絡(luò)框架的模型，如LSTM和文中模型整體表現(xiàn)優(yōu)于基于趨勢分解的模型，如ARIMA、STL和Holt-winters，這說明高鐵客流除了具有周期性、波動性這些常規(guī)特性之外，還具有很強的非線性特性，這導致傳統(tǒng)趨勢分解預測模型預測效果不佳。

3)在100 d以上的客流預測不建議采用基于歷史數(shù)據(jù)特征挖掘的模型，因為從文中結(jié)果可以看出神經(jīng)網(wǎng)格框架模型雖然有很強的擬合能力，但是中遠期客流預測中社會和經(jīng)濟大環(huán)境等宏觀因素不能忽略，因此需要增加外部特征數(shù)據(jù)，利用擬合能力再強的模型預測精度都不會很理想。

5 結(jié) 語

高速鐵路客流預測是提高高鐵服務(wù)水平的基礎(chǔ)，從理論研究角度來看，將特征提取和自編碼等機器學習技術(shù)應(yīng)用于高鐵客流預測有助于充分挖掘歷史數(shù)據(jù)信息，實證分析也獲得了較好的預測效果。探索了一種有效的高鐵站間短期客流預測方法，但隨著數(shù)據(jù)規(guī)模的擴大，神經(jīng)網(wǎng)絡(luò)的訓練時間會顯著增加，因此如何提升算法效率以適應(yīng)大規(guī)模數(shù)據(jù)集是下一步研究的重點。另外由于政治、經(jīng)濟等外部因素的數(shù)據(jù)收集難度較大，所以對于中長期的客流預測還是一個難點，有待進一步研究。