范禮乾
(中鐵第四勘察設(shè)計(jì)院集團(tuán)有限公司,湖北武漢 430063)
客流預(yù)測(cè)是現(xiàn)代城市軌道列車運(yùn)營(yíng)的必然需要,也是長(zhǎng)期以來備受關(guān)注的研究熱點(diǎn)。目前,客流預(yù)測(cè)方法主要分為參數(shù)方法和非參數(shù)方法。
在參數(shù)模型中,自回歸模型、自回歸滑動(dòng)平均模型和自回歸綜合滑動(dòng)平均模型,是傳統(tǒng)而有效的客流預(yù)測(cè)方法[1]。由于時(shí)滯變量之間的線性假設(shè),這些模型的應(yīng)用受到了限制。為了跟蹤真實(shí)客流的非線性特征,研究人員引入并改進(jìn)了各種非參數(shù)模型,基于神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法作為非參數(shù)方法的代表,在對(duì)任意函數(shù)具有良好映射能力的同時(shí),具有非常好的泛化能力,備受關(guān)注?,F(xiàn)有研究已經(jīng)提出了許多機(jī)器學(xué)習(xí)方法用于客流預(yù)測(cè),其中,遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)、長(zhǎng)短時(shí)記憶(long shortterm memory,LSTM)網(wǎng)絡(luò)等可以很好地捕獲數(shù)據(jù)的時(shí)間序列特征,在客流預(yù)測(cè)課題上得到了廣泛的應(yīng)用[2]??土鞅憩F(xiàn)出來的空間特征可以通過卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)進(jìn)行提取[3]。一些研究也將注意力機(jī)制(attention mechanism,AM)用在客流預(yù)測(cè)中以提升模型性能。為彌補(bǔ)傳統(tǒng)機(jī)器學(xué)習(xí)在面對(duì)大量客流數(shù)據(jù)時(shí)出現(xiàn)的學(xué)習(xí)不足或者過度的問題,出現(xiàn)了組合神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型[4]。
綜上,該研究基于深度學(xué)習(xí)的網(wǎng)絡(luò)架構(gòu),實(shí)現(xiàn)對(duì)客流的精準(zhǔn)預(yù)測(cè)。該研究的貢獻(xiàn)主要體現(xiàn)在兩個(gè)方面:第一,綜合了基于客流時(shí)間序列數(shù)據(jù)的時(shí)間特征和基于地鐵站間連接和旅客出行網(wǎng)絡(luò)的空間特征實(shí)現(xiàn)多站點(diǎn)客流數(shù)據(jù)的動(dòng)態(tài)預(yù)測(cè)。第二,提出了一種具有注意機(jī)制的時(shí)空卷積網(wǎng)絡(luò)(attention mechanism spatio-temporal network,AMSTN)模型,將嵌入AM模塊的CNN 與LSTM 網(wǎng)絡(luò)融合在一起,實(shí)現(xiàn)客流數(shù)據(jù)時(shí)空特征的有效捕捉。
式(1)中:μ表示AMSTN 模型,相鄰的站點(diǎn)編號(hào)站在地理上彼此相鄰。矩陣的每一行都表明客流預(yù)測(cè)依賴于歷史數(shù)據(jù),是一個(gè)時(shí)間序列問題;矩陣的每一列描述了不同站點(diǎn)之間的客流關(guān)系,增強(qiáng)了模型預(yù)測(cè)的空間相關(guān)性。因此,μ的回歸可以實(shí)現(xiàn)客流數(shù)據(jù)時(shí)空維度的雙重捕獲。
針對(duì)客流數(shù)據(jù)表現(xiàn)出來的空間特征,選用CNN 網(wǎng)絡(luò)用于數(shù)據(jù)空間特征的捕獲。CNN 由三個(gè)主要網(wǎng)絡(luò)層組成:卷積、池化和全連接。卷積層和池化層的任務(wù)是過濾輸入數(shù)據(jù)并提取有用的信息,以用作全連接層的輸入;全連接層主要是對(duì)特征信息進(jìn)行合并;之后,經(jīng)指數(shù)函數(shù)或邏輯函數(shù)輸出最終分類標(biāo)簽。
在對(duì)數(shù)據(jù)表現(xiàn)出的時(shí)間特征捕獲上選用了LSTM網(wǎng)絡(luò)單元。LSTM 解決了RNN 的隨內(nèi)環(huán)深度增加帶來的反向傳播相關(guān)梯度消失問題,將存儲(chǔ)單元與柵極結(jié)構(gòu)相結(jié)合,以學(xué)習(xí)何時(shí)忘記先前的記憶并更新記憶,使得網(wǎng)絡(luò)具備了長(zhǎng)序列學(xué)習(xí)能力。
為了增加網(wǎng)絡(luò)對(duì)關(guān)鍵因素的關(guān)注度,集成了AM模塊。AM 有軟注意力和硬注意力。硬注意機(jī)制集中于輸入信息中的一個(gè)元素,基于最大或隨機(jī)抽樣來選擇信息。軟注意機(jī)制為所有輸入信息賦予權(quán)重,使輸入信息能夠更有效地使用。因此,試驗(yàn)中采用軟注意機(jī)制,增加網(wǎng)絡(luò)中重要特征的信息流權(quán)重。結(jié)構(gòu)見圖1。
圖1 AM 結(jié)構(gòu)圖
最終整合了CNN、AM 和LSTM 三個(gè)網(wǎng)絡(luò)單元,形成具有雙重注意力和時(shí)空特征捕獲能力的AMSTN 網(wǎng)絡(luò)。在確定AM 位置作為每個(gè)卷積模塊的輸出后,AM 單元首先集成到CNN 網(wǎng)絡(luò)中,后連接到Reshape層對(duì)數(shù)據(jù)降維。這是因?yàn)樵贑NN 階段,原始的二維客流數(shù)據(jù)經(jīng)過切片處理后變?yōu)槿S,為了能順利連接到LSTM 需要再降至二維。在Reshape 層之后,連接LSTM 網(wǎng)絡(luò)單元,使網(wǎng)絡(luò)具有處理長(zhǎng)時(shí)間序列的能力。網(wǎng)絡(luò)架構(gòu)見圖2。
圖2 AMSTN 網(wǎng)絡(luò)架構(gòu)圖
在數(shù)值試驗(yàn)中,共收集了北京地鐵13 號(hào)線西直門至東直門的16 個(gè)地鐵站的客流數(shù)據(jù),選取上午5 時(shí)至晚上11 時(shí)的數(shù)據(jù),以5 分鐘為間隔進(jìn)行整理。從眾多的字段中去除不相關(guān)的信息后進(jìn)行數(shù)據(jù)歸一化將數(shù)據(jù)映射到同一量綱:
考慮到神經(jīng)網(wǎng)絡(luò)的不確定性,將每個(gè)試驗(yàn)重復(fù)100 次,并以平均絕對(duì)誤差(mean absolute error,MAE)指標(biāo)的均值作為最終的試驗(yàn)結(jié)果。定義如下:
式(3)中:pi為實(shí)際客流數(shù)據(jù);為預(yù)測(cè)客流數(shù)據(jù);N為預(yù)測(cè)客流總數(shù)。
對(duì)于神經(jīng)網(wǎng)絡(luò),模型參數(shù)很大程度上決定了模型性能,因此,需進(jìn)行一系列的試驗(yàn)來對(duì)其進(jìn)行選擇。首先,確定網(wǎng)絡(luò)中CNN 和LSTM 層數(shù)。一般情況下,隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的增加,訓(xùn)練效果會(huì)從欠擬合到良好擬合再到過擬合。由于CNN 和LSTM 共同影響AMSTN 模型的性能,同時(shí)為平衡試驗(yàn)精度及成本,將兩種神經(jīng)網(wǎng)絡(luò)的最深層數(shù)設(shè)置為3,通過試驗(yàn),找到合適的網(wǎng)絡(luò)層數(shù)組合。對(duì)于神經(jīng)網(wǎng)絡(luò)來說,網(wǎng)絡(luò)深度和神經(jīng)元數(shù)量相互依賴[5],因此,在試驗(yàn)中將CNN 和LSTM 神經(jīng)元數(shù)量均設(shè)置為64,以確定網(wǎng)絡(luò)的層數(shù)。通過表1 可以看出,當(dāng)CNN 層數(shù)為2,LSTM 層數(shù)為1時(shí),網(wǎng)絡(luò)性能最好。
表1 各網(wǎng)絡(luò)深度的模型性能
通常,每個(gè)神經(jīng)網(wǎng)絡(luò)層的神經(jīng)元數(shù)量為32、64、128 等。隨著網(wǎng)絡(luò)深度的增加,神經(jīng)元數(shù)量逐漸增加。因此,將可能的神經(jīng)元數(shù)量組合試驗(yàn),找到最適合的神經(jīng)元個(gè)數(shù),結(jié)果見表2。
表2 各神經(jīng)元個(gè)數(shù)組合的模型性能
結(jié)果表明,當(dāng)CNN 神經(jīng)元數(shù)量為32 和128,LSTM中為64 時(shí),網(wǎng)絡(luò)性能最好。
其次,對(duì)步長(zhǎng)即輸入序列的滑動(dòng)窗口長(zhǎng)度n進(jìn)行確定。AMSTN 模型使用前n時(shí)刻的客流數(shù)據(jù)來預(yù)測(cè)下一時(shí)刻的客流數(shù)據(jù),其中,時(shí)刻是數(shù)據(jù)中最小的離散時(shí)間單位。將n的值從6 增加到20,表3 試驗(yàn)結(jié)果表明最合適的步長(zhǎng)為10。
表3 各步長(zhǎng)的模型性能
首先,驗(yàn)證AMSTN 模型的穩(wěn)定性。通過多次迭代,發(fā)現(xiàn)隨著訓(xùn)練輪數(shù)的增加,在經(jīng)過20 次迭代后,模型損失逐漸穩(wěn)定,并在后續(xù)的訓(xùn)練中一直在特定的容差范圍內(nèi)波動(dòng),圖3 所示為模型損失收斂曲線。表明模型是收斂的,具有一定的穩(wěn)定性。
圖3 AMSTN 模型收斂曲線
將AMSTN 模型的預(yù)測(cè)性能與其他標(biāo)準(zhǔn)預(yù)測(cè)模型的預(yù)測(cè)性能進(jìn)行比較,基線模型的神經(jīng)網(wǎng)絡(luò)單元組成及對(duì)應(yīng)神經(jīng)元個(gè)數(shù)如表4 所示。
表4 網(wǎng)絡(luò)模型組成
使用四種模型對(duì)同一車站同一天的客流進(jìn)行預(yù)測(cè),得到各模型的性能表現(xiàn)指標(biāo)如圖4 所示,各個(gè)模型的預(yù)測(cè)情況如圖5 所示。
圖4 各模型預(yù)測(cè)性能指標(biāo)
圖5 各模型預(yù)測(cè)效果
可以得出:第一,三種基線模型中,AMCN 模型表現(xiàn)更好,因?yàn)镃NN 和LSTM 單元使模型能夠捕獲數(shù)據(jù)之間的時(shí)空相關(guān)性。第二,相比而言,AMSTN 模型的預(yù)測(cè)效果最好,不僅可以捕捉數(shù)據(jù)之間的時(shí)空相關(guān)性,同時(shí)AM 的添加使模型能夠聚焦于關(guān)鍵特征。第三,從預(yù)測(cè)曲線可以看出,在客流變化復(fù)雜的區(qū)域,AMSTN 的表現(xiàn)更為突出,說明AM 能夠捕捉到影響模型的主要因素。通過模型的性能指標(biāo)以及預(yù)測(cè)曲線,表明相較于其他三種基線模型,AMSTN 模型更適合客流的預(yù)測(cè)。
該研究探討了城市軌道交通不同站點(diǎn)的客流預(yù)測(cè)問題,在CNN 上集成AM 和LSTM,捕獲客流數(shù)據(jù)的時(shí)空相關(guān)性同時(shí)提高模型對(duì)關(guān)鍵影響因素的聚焦能力?;趯?shí)際客流數(shù)據(jù)的仿真結(jié)果,比較了不同模型的預(yù)測(cè)性能。結(jié)果表明,所提出的模型在客流預(yù)測(cè)問題上更有優(yōu)勢(shì)。在未來的研究中,還可以考慮天氣等因素對(duì)研究進(jìn)行改進(jìn)。