黃 平, 彭其淵, 文 超, 楊宇翔
(1. 西南交通大學(xué) 交通運(yùn)輸與物流學(xué)院, 四川 成都 610031; 2.綜合交通運(yùn)輸智能化國(guó)家地方聯(lián)合工程實(shí)驗(yàn)室, 四川 成都 610031;3. 滑鐵盧大學(xué) 鐵路研究中心, 滑鐵盧 N2L3G1; 4. 亞琛工業(yè)大學(xué) 交通科學(xué)研究所, 亞琛 52074)
高速鐵路高安全性、高速度、高密度的優(yōu)勢(shì)使我國(guó)高速鐵路在短短的八年多時(shí)間里,發(fā)展成為世界上高速鐵路最發(fā)達(dá)的國(guó)家之一。截至2017年,我國(guó)高速鐵路運(yùn)營(yíng)里程超過(guò)2.5萬(wàn)km,每日開(kāi)行的高速動(dòng)車(chē)組旅客列車(chē)數(shù)占到了全部旅客列車(chē)數(shù)的65%以上。高速鐵路的建設(shè)運(yùn)營(yíng),在提升鐵路路網(wǎng)規(guī)模與質(zhì)量、緩解運(yùn)輸能力緊張、提高鐵路運(yùn)輸服務(wù)質(zhì)量等方面均取得了顯著效果[1]。
列車(chē)在運(yùn)行過(guò)程中受到來(lái)自鐵路系統(tǒng)內(nèi)外的各類(lèi)因素干擾而晚點(diǎn),從而降低正點(diǎn)率和運(yùn)輸服務(wù)質(zhì)量。瑞士鐵路聯(lián)盟2011—2015年的統(tǒng)計(jì)數(shù)據(jù)顯示,其鐵路正點(diǎn)率僅為88%(晚點(diǎn)超過(guò)3 min記為晚點(diǎn)列車(chē))[2]。中國(guó)鐵路總公司的相關(guān)統(tǒng)計(jì)數(shù)據(jù)顯示,雖然我國(guó)高速鐵路2015年的始發(fā)正點(diǎn)率達(dá)到了98.8%、終到正點(diǎn)率達(dá)到95.4%,但我國(guó)高速列車(chē)的運(yùn)行正點(diǎn)率也只有90%。
列車(chē)晚點(diǎn)常被分為初始晚點(diǎn)和連帶晚點(diǎn)兩類(lèi)[3],其中本文所研究的初始晚點(diǎn)按照來(lái)源不同又可分為兩種情況:
(1) 由于設(shè)備故障、交通事故、自然環(huán)境等外部因素造成的晚點(diǎn),稱為外因引起的初始晚點(diǎn)。
(2) 由于其他列車(chē)連帶影響造成的晚點(diǎn),其對(duì)于前行列車(chē)而言是連帶晚點(diǎn),而對(duì)于被影響的后行列車(chē)而言則是初始晚點(diǎn)。
列車(chē)運(yùn)行圖吸收晚點(diǎn)的能力是運(yùn)行圖編制質(zhì)量評(píng)價(jià)的重要指標(biāo),列車(chē)運(yùn)行圖彈性被認(rèn)為是描述和度量晚點(diǎn)吸收和恢復(fù)能力的重要評(píng)判標(biāo)準(zhǔn)[4-5]。對(duì)于晚點(diǎn)恢復(fù)模型的研究,計(jì)算機(jī)仿真方法被認(rèn)為是建立連帶晚點(diǎn)恢復(fù)模型的有效方法[6]。Yuan等[7]建立了晚點(diǎn)在車(chē)站傳播的隨機(jī)理論模型,用于估計(jì)連帶晚點(diǎn)的影響及由于進(jìn)路沖突和接續(xù)晚點(diǎn)造成的影響,模型考慮了晚點(diǎn)列車(chē)在車(chē)站及區(qū)間的恢復(fù)參數(shù)。Meester[8]初步建立了列車(chē)晚點(diǎn)傳播模型,并指出連帶晚點(diǎn)的分布可以從初始晚點(diǎn)的分布推導(dǎo)。 在基于運(yùn)行實(shí)績(jī)數(shù)據(jù)研究列車(chē)晚點(diǎn)恢復(fù)問(wèn)題方面,Hansen[9]基于離線歷史數(shù)據(jù)建立了晚點(diǎn)傳播模型,用于檢測(cè)徑路沖突和調(diào)度決策問(wèn)題,但該模型并沒(méi)有針對(duì)晚點(diǎn)恢復(fù)問(wèn)題進(jìn)行細(xì)致研究。Wallander[10]運(yùn)用數(shù)據(jù)驅(qū)動(dòng)方法,基于芬蘭旅客列車(chē)的運(yùn)行數(shù)據(jù)建立了晚點(diǎn)鏈,但其僅僅有1個(gè)月的運(yùn)行數(shù)據(jù)。Khadilkar[11]基于印度鐵路的實(shí)際數(shù)據(jù)計(jì)算得到了每列車(chē)的平均恢復(fù)時(shí)間為0.13 min/km,且該數(shù)據(jù)太過(guò)粗略,并不能反映列車(chē)在各站、各區(qū)間的恢復(fù)能力。
從已有研究分析來(lái)看,基于列車(chē)運(yùn)行實(shí)績(jī)進(jìn)行高速鐵路運(yùn)輸組織的相關(guān)問(wèn)題的研究嚴(yán)重缺乏,但這些研究均指出基于高速鐵路列車(chē)運(yùn)行實(shí)績(jī)數(shù)據(jù)對(duì)于運(yùn)輸組織優(yōu)化問(wèn)題具有重要的作用。Ma等[12]基于高速鐵路運(yùn)行數(shù)據(jù)開(kāi)發(fā)并初步應(yīng)用了一套優(yōu)于傳統(tǒng)理論模型的智能系統(tǒng),該系統(tǒng)具備更優(yōu)的晚點(diǎn)檢測(cè)功能。劉健等[13]以京滬高速鐵路實(shí)績(jī)數(shù)據(jù)為基礎(chǔ)進(jìn)行列車(chē)運(yùn)行仿真,得到了突發(fā)事件的發(fā)生概率。莊河等[14]及 Xu等[15]均基于我國(guó)高速鐵路列車(chē)運(yùn)行數(shù)據(jù)分析了晚點(diǎn)的分布函數(shù),但其研究只能得到相應(yīng)的晚點(diǎn)時(shí)長(zhǎng)概率分布規(guī)律,并不能對(duì)列車(chē)在將來(lái)時(shí)刻的晚點(diǎn)時(shí)間進(jìn)行定量預(yù)測(cè)。
本文所研究的晚點(diǎn)恢復(fù)時(shí)間是指高速列車(chē)初始晚點(diǎn)時(shí)長(zhǎng)與列車(chē)到達(dá)終到站或從分界站交出時(shí)車(chē)站到達(dá)晚點(diǎn)時(shí)間的差值,它等于晚點(diǎn)列車(chē)晚點(diǎn)后在其剩余運(yùn)行里程中所利用的所有恢復(fù)時(shí)間之和。在晚點(diǎn)發(fā)生后,該晚點(diǎn)能否恢復(fù)、恢復(fù)能力有多強(qiáng),是鐵路部門(mén)及旅客非常關(guān)注的問(wèn)題,直接影響到了后續(xù)的列車(chē)運(yùn)行組織和旅客的出行計(jì)劃安排。已有研究多以列車(chē)運(yùn)行圖優(yōu)化為目標(biāo),偏重優(yōu)化理論方面,在指導(dǎo)調(diào)度員決策方面略顯不足,對(duì)基于數(shù)據(jù)進(jìn)行高速鐵路列車(chē)運(yùn)行晚點(diǎn)恢復(fù)理論和方法的研究尚待進(jìn)一步加強(qiáng)。研究高速鐵路的晚點(diǎn)恢復(fù)模型,預(yù)測(cè)高速列車(chē)在一定初始晚點(diǎn)水平、運(yùn)行圖結(jié)構(gòu)下的晚點(diǎn)恢復(fù)情況,能夠使調(diào)度員較為準(zhǔn)確地估計(jì)列車(chē)的運(yùn)行情況,制定合理的行車(chē)指揮決策并指導(dǎo)客運(yùn)及其他相關(guān)部門(mén)協(xié)同完成運(yùn)輸任務(wù),在提高鐵路行車(chē)指揮質(zhì)量方面具有一定的實(shí)踐意義。本文基于武廣高速鐵路列車(chē)運(yùn)行實(shí)績(jī)數(shù)據(jù),分析高速列車(chē)初始晚點(diǎn)恢復(fù)的影響因素,建立了初始晚點(diǎn)恢復(fù)的隨機(jī)森林模型,模型檢驗(yàn)表明其具有很好的數(shù)據(jù)擬合及預(yù)測(cè)效果。本文的主要立足點(diǎn)主要是通過(guò)晚點(diǎn)恢復(fù)時(shí)間的預(yù)測(cè),為調(diào)度員提供較為簡(jiǎn)單直觀的決策依據(jù),直接服務(wù)于行車(chē)指揮實(shí)踐。
高速列車(chē)運(yùn)行過(guò)程是一個(gè)動(dòng)態(tài)的過(guò)程,列車(chē)將受到來(lái)自各方面的干擾而晚點(diǎn)。在運(yùn)行實(shí)際中,調(diào)度員將依據(jù)調(diào)度規(guī)則及經(jīng)驗(yàn),運(yùn)用緩沖時(shí)間恢復(fù)晚點(diǎn)。圖1中3條折線分別表示從列車(chē)運(yùn)行實(shí)績(jī)中獲取的3列車(chē)的初始晚點(diǎn)恢復(fù)過(guò)程,這3列車(chē)均在廣州北站發(fā)生了初始晚點(diǎn),折線上的各點(diǎn)分別為列車(chē)在各站的到達(dá)晚點(diǎn)時(shí)間,單位為分鐘。以G6014為例,該列車(chē)在廣州北站延誤了20 min、在清遠(yuǎn)—英德西區(qū)間恢復(fù)1 min、在英德西—韶關(guān)區(qū)間恢復(fù)1 min、在郴州西—耒陽(yáng)西區(qū)間恢復(fù)5 min、在株洲西—長(zhǎng)山南區(qū)間恢復(fù)4 min??偟膩?lái)說(shuō),G6014列車(chē)在全程利用了11 min緩沖時(shí)間來(lái)恢復(fù)初始晚點(diǎn),其他列車(chē)的晚點(diǎn)恢復(fù)過(guò)程與G6014類(lèi)似。
本研究只針對(duì)如圖1所示的列車(chē)(即晚點(diǎn)發(fā)生后在后續(xù)運(yùn)行中晚點(diǎn)不再增加的列車(chē),晚點(diǎn)發(fā)生后在后續(xù)運(yùn)行中受到二次或多次干擾導(dǎo)致晚點(diǎn)后續(xù)增加的情況不考慮在內(nèi))?;谖鋸V高鐵列車(chē)運(yùn)行實(shí)績(jī)數(shù)據(jù)建立晚點(diǎn)恢復(fù)模型來(lái)描述高速列車(chē)晚點(diǎn)的恢復(fù)過(guò)程,并最終用于晚點(diǎn)恢復(fù)的預(yù)測(cè),從而為高速鐵路行車(chē)組織提供決策輔助及理論依據(jù)。
本文的列車(chē)運(yùn)行實(shí)績(jī)數(shù)據(jù)來(lái)源于廣鐵集團(tuán)所管轄的京廣高速鐵路南段(武廣高速鐵路),武廣高速鐵路全長(zhǎng)1 069 km,共設(shè)18個(gè)車(chē)站。所有列車(chē)運(yùn)行實(shí)績(jī)數(shù)據(jù)均從廣鐵集團(tuán)高鐵調(diào)度所CTCS系統(tǒng)獲得,包括上行線廣鐵集團(tuán)管轄的武廣高鐵廣州北站至赤壁北站共14個(gè)車(chē)站、13個(gè)區(qū)間的所有晚點(diǎn)列車(chē)記錄,時(shí)間跨度為2015年2月24日到2015年12月22日。該數(shù)據(jù)記錄了列車(chē)車(chē)次、車(chē)站、每次列車(chē)在每個(gè)車(chē)站的圖定與實(shí)際到發(fā)通過(guò)時(shí)刻、最高列車(chē)運(yùn)行速度、每日行車(chē)量、以及行車(chē)間隔等,部分?jǐn)?shù)據(jù)見(jiàn)表1。
表1 原始數(shù)據(jù)表
由于上下行列車(chē)運(yùn)行圖冗余時(shí)間分布不同而需分開(kāi)考慮,因此本文只考慮上行列車(chē)運(yùn)行實(shí)績(jī)數(shù)據(jù)建模,上行方向總共開(kāi)行列車(chē)29 662列列車(chē)。下行方向的建模方法相同。
隨機(jī)森林是一個(gè)由多個(gè)樹(shù)分類(lèi)器{h(x,βk),k=1,2,…}構(gòu)成的現(xiàn)代機(jī)器學(xué)習(xí)算法,可以處理大量且多維度的復(fù)雜數(shù)據(jù),并且對(duì)變量間的共線性不敏感,被譽(yù)為當(dāng)前最好的數(shù)據(jù)挖掘算法之一。其中每一棵樹(shù)是采用CART(Classification and Regression Tree)算法構(gòu)建的沒(méi)有剪枝的決策樹(shù)[16]。x為輸入變量,βk為獨(dú)立同分布的隨機(jī)向量,其決定了單棵樹(shù)的生長(zhǎng)過(guò)程。隨機(jī)森林可用于分類(lèi)與回歸,本文基于高速列車(chē)運(yùn)行實(shí)績(jī)建立初始晚點(diǎn)恢復(fù)的回歸模型,探明影響恢復(fù)過(guò)程的各因素與恢復(fù)時(shí)間的關(guān)系。
隨機(jī)森林可以理解為由多棵決策樹(shù)組成的森林,每個(gè)訓(xùn)練樣本需要經(jīng)過(guò)每棵樹(shù)進(jìn)行預(yù)測(cè),然后根據(jù)所有決策樹(shù)的預(yù)測(cè)結(jié)果最后來(lái)決定整個(gè)森林的預(yù)測(cè)結(jié)果。森林中每一棵樹(shù)都是二叉樹(shù),其生成遵循自上而下的遞分原則,即從根節(jié)點(diǎn)開(kāi)始依次對(duì)訓(xùn)練集進(jìn)行劃分。在二叉樹(shù)中,根節(jié)點(diǎn)包含全部的訓(xùn)練集數(shù)據(jù),按照節(jié)點(diǎn)不純度最小原則,分裂為左節(jié)點(diǎn)和右節(jié)點(diǎn),他們分別包含訓(xùn)練集的一個(gè)子集,按照同樣的原則,節(jié)點(diǎn)繼續(xù)分裂,直到滿足分支停止規(guī)則而停止生長(zhǎng)。
初始晚點(diǎn)的時(shí)間大小將直接影響其影響的程度,對(duì)于晚點(diǎn)恢復(fù)的要求也各不相同,如20 min的初始晚點(diǎn)與10 min的初始晚點(diǎn)相比,若要恢復(fù)正點(diǎn),20 min的初始晚點(diǎn)需要利用更多的緩沖時(shí)間。初始晚點(diǎn)時(shí)間越長(zhǎng),對(duì)路網(wǎng)列車(chē)運(yùn)行產(chǎn)生的影響一般越大,對(duì)晚點(diǎn)恢復(fù)的影響也越大。因此,本文首先考慮將列車(chē)在初始晚點(diǎn)站的晚點(diǎn)時(shí)間(PD)作為第一個(gè)自變量。
列車(chē)在運(yùn)行全過(guò)程是一個(gè)非常復(fù)雜的過(guò)程,由于受限于更為詳細(xì)的實(shí)際閉塞分區(qū)占用及解鎖以及車(chē)站進(jìn)路等數(shù)據(jù)的采集,本文考慮到在列車(chē)運(yùn)行圖基本結(jié)構(gòu)不變的情況下各列車(chē)的進(jìn)路及到發(fā)線使用、閉塞分區(qū)占用和解鎖過(guò)程均基本不變,轉(zhuǎn)而可以通過(guò)分析高速列車(chē)在運(yùn)行時(shí)刻、作業(yè)時(shí)間上的歷史表現(xiàn)來(lái)近似體現(xiàn)上述作業(yè)過(guò)程,并作為晚點(diǎn)恢復(fù)預(yù)測(cè)的相關(guān)輸入?yún)?shù)及條件。
運(yùn)行圖中預(yù)留的車(chē)站和區(qū)間緩沖時(shí)間是調(diào)度員進(jìn)行列車(chē)運(yùn)行調(diào)整和使列車(chē)晚點(diǎn)恢復(fù)的資源,能夠在一定程度上吸收由于列車(chē)運(yùn)行過(guò)程中受到隨機(jī)因素干擾而導(dǎo)致的晚點(diǎn)時(shí)間[17]。本文基于高速鐵路列車(chē)運(yùn)行實(shí)績(jī)數(shù)據(jù),統(tǒng)計(jì)了各車(chē)站、區(qū)間的晚點(diǎn)恢復(fù)率見(jiàn)表2、表3。
表2 各站晚點(diǎn)恢復(fù)率
表3 各區(qū)間晚點(diǎn)恢復(fù)率
表2、表3數(shù)據(jù)顯示:平均有43.39%的到達(dá)晚點(diǎn)列車(chē)在車(chē)站緩沖時(shí)間作用下能得到一定程度的晚點(diǎn)恢復(fù),而平均有42.44%的出發(fā)晚點(diǎn)列車(chē)能夠在其下一個(gè)區(qū)間在緩沖時(shí)間作用下得到一定程度的晚點(diǎn)恢復(fù)。更進(jìn)一步,計(jì)算得到了各列車(chē)在車(chē)站(區(qū)間)的計(jì)劃平均停留時(shí)間、實(shí)際平均停留時(shí)間對(duì)比,見(jiàn)圖2。從圖2可以看出:(1)武廣高速鐵路列車(chē)在車(chē)站獲得的晚點(diǎn)恢復(fù)時(shí)間比區(qū)間的多,車(chē)站緩沖時(shí)間的作用要明顯于區(qū)間緩沖時(shí)間;(2)株洲西—長(zhǎng)沙南區(qū)間的緩沖時(shí)間利用遠(yuǎn)遠(yuǎn)大于其他區(qū)間,平均利用緩沖時(shí)間達(dá)到了3 min。因此,列車(chē)晚點(diǎn)后經(jīng)停各站的總停站緩沖時(shí)間(TD)和所經(jīng)過(guò)區(qū)間的總區(qū)間緩沖時(shí)間(RB)將是影響初始晚點(diǎn)恢復(fù)的關(guān)鍵因素,把TD與RB也作為本文的自變量。另外,由于株洲西—長(zhǎng)沙南的平均緩沖時(shí)間利用值特別大,列車(chē)如果以晚點(diǎn)狀態(tài)通過(guò)該區(qū)間將可能獲得較大幅度的晚點(diǎn)恢復(fù),因此本文引入一個(gè)0-1變量(ZC)標(biāo)識(shí)列車(chē)是否晚點(diǎn)狀態(tài)通過(guò)該區(qū)間。TD及RB的計(jì)算式為
( 1 )
( 2 )
( 3 )
最終,本文選擇PD、TD、RB、ZC作為回歸模型的自變量,晚點(diǎn)恢復(fù)時(shí)間(RT)作為模型的因變量,建立高速列車(chē)初始晚點(diǎn)恢復(fù)的隨機(jī)森林回歸模型。表4所示為用于建模的高速列車(chē)運(yùn)行實(shí)績(jī)數(shù)據(jù)示例,以2015年2月24日的G554列車(chē)為例,該列車(chē)在郴州西站發(fā)生15 min的初始晚點(diǎn),其在后續(xù)運(yùn)行里程中的總停站時(shí)間為10 min、區(qū)間總緩沖時(shí)間為47 min、其晚點(diǎn)狀態(tài)經(jīng)過(guò)株洲西—長(zhǎng)沙南區(qū)間,該列車(chē)到達(dá)交出站赤壁北時(shí)恢復(fù)正點(diǎn)運(yùn)行。
表4 建模數(shù)據(jù)示例
由于過(guò)小的初始晚點(diǎn)時(shí)間可能在晚點(diǎn)發(fā)生的車(chē)站或者臨近區(qū)間直接被緩沖時(shí)間吸收,晚點(diǎn)持續(xù)過(guò)程較短,因此本文提取了初始晚點(diǎn)時(shí)間大于4 min的2 653列列車(chē)作為研究對(duì)象,并且刪除在晚點(diǎn)運(yùn)行過(guò)程中受到二次或多次干擾導(dǎo)致列車(chē)晚點(diǎn)增加的列車(chē),對(duì)數(shù)據(jù)進(jìn)行降噪等預(yù)處理操作后,剩余用于建模的數(shù)據(jù)樣本量為917。所有樣本按照模型自變量和因變量屬性的分布見(jiàn)圖3。
圖3結(jié)果表明提取的各變量值都不服從傳統(tǒng)統(tǒng)計(jì)模型的變量高斯分布假設(shè), 自變量PD、TD以及因變量RT都是明顯的右偏分布,而RB為左偏分布。
圖4為各連續(xù)變量的散點(diǎn)矩陣圖,表5為各變量偏相關(guān)系數(shù)表,從圖4的散點(diǎn)分布以及紅色線條以及表5的偏相關(guān)系數(shù)都可以看出因變量(RT)與各自變量PD、TD、RB都有著比較難以確定的復(fù)雜關(guān)系;同時(shí)各自變量之間卻有著可能的線性關(guān)系,如TD與RB之間可能存在線性關(guān)系。以上各變量分布情況以及變量之間的關(guān)系情況表明因變量與各自變量之間的關(guān)系較為復(fù)雜,若建立傳統(tǒng)的統(tǒng)計(jì)學(xué)模型(如多元線性模型)將不能完整的描述變量之間的復(fù)雜關(guān)系,模型用于列車(chē)晚點(diǎn)時(shí)間的預(yù)測(cè)精度將會(huì)較低。因此,本文考慮利用能夠解決復(fù)雜關(guān)系的機(jī)器學(xué)習(xí)模型來(lái)建立列車(chē)晚點(diǎn)恢復(fù)模型。
表5 各變量偏相關(guān)系數(shù)
隨機(jī)森林是典型的采用Bagging技術(shù)的多分類(lèi)模型,對(duì)于森林里的每一棵樹(shù)采用自助法(Bootstrap)隨機(jī)抽樣技術(shù),從總樣本集N中有放回地重復(fù)隨機(jī)抽取一定量的訓(xùn)練集生成訓(xùn)練集合,然后根據(jù)自助樣本集生成k個(gè)決策樹(shù)組成森林,未被抽到的樣本集叫做“袋外數(shù)據(jù)”O(jiān)OB(Out-of-bag)作為測(cè)試集用于模型的測(cè)試[18]。訓(xùn)練集的樣本量直接影響了模型的穩(wěn)定性和擬合效果,而測(cè)試集的測(cè)試效果直接反映了模型的預(yù)測(cè)精度,在構(gòu)建模型之前需要確定合理的訓(xùn)練集和測(cè)試集樣本量。為此,本文分別用不同的數(shù)據(jù)量來(lái)構(gòu)建模型,每個(gè)比例數(shù)據(jù)量下分別運(yùn)行100次,得到數(shù)據(jù)量與模型穩(wěn)定性及擬合效果的關(guān)系圖,見(jiàn)圖5。對(duì)于模型訓(xùn)練集殘差平方平均值的分布越集中表明模型越穩(wěn)定,對(duì)于模型測(cè)試集,預(yù)測(cè)殘差平方的平均分布越集中表明模型用于預(yù)測(cè)越穩(wěn)定。圖5表明:當(dāng)每次抽取的訓(xùn)練集樣本較少時(shí),誤差分布較離散,模型的穩(wěn)定性較差;同時(shí),由于訓(xùn)練集較少時(shí)測(cè)試集較多,因此,測(cè)試集殘差分布較為穩(wěn)定;隨著選取訓(xùn)練集樣本量的增加,模型穩(wěn)定性明顯提高,且訓(xùn)練集和測(cè)試集誤差都有減小的趨勢(shì);但隨著模型選取的訓(xùn)練集達(dá)到80%,模型測(cè)試集預(yù)測(cè)結(jié)果的殘差分布較分散,模型的預(yù)測(cè)效果不理想?;谝陨戏治?,本文最終選擇用70%數(shù)據(jù)量用于模型建立,剩余30%樣本作為測(cè)試集數(shù)據(jù),用于模型有效性檢驗(yàn)和預(yù)測(cè),這樣既能保證模型有較高的穩(wěn)定性,又能使得有足夠的測(cè)試數(shù)據(jù)集且有較好的預(yù)測(cè)效果。
隨機(jī)森林模型計(jì)算精度及預(yù)測(cè)能力主要決定于兩個(gè)主要參數(shù):
(1) 宏觀參數(shù):森林的規(guī)模,即隨機(jī)森林里決策樹(shù)的數(shù)量。森林的規(guī)模越大,模型的擬合及預(yù)測(cè)結(jié)果越穩(wěn)定,但計(jì)算機(jī)運(yùn)行時(shí)間也越長(zhǎng)。
(2) 微觀參數(shù):每一棵樹(shù)的計(jì)算精度,受到每棵樹(shù)節(jié)點(diǎn)數(shù)和每個(gè)節(jié)點(diǎn)的預(yù)選變量數(shù)的影響,其決定了單棵樹(shù)的生長(zhǎng)情況,即單棵樹(shù)的擬合效果與預(yù)測(cè)能力,需要找到合理的預(yù)選變量個(gè)數(shù),使模型殘差(即模型的損失函數(shù)取到最小值)最小,模型損失函數(shù)計(jì)算式為
( 4 )
本文利用R語(yǔ)言編程建立隨機(jī)森林模型,并對(duì)模型的兩個(gè)參數(shù)進(jìn)行優(yōu)化。
(1) 宏觀參數(shù)確定
為了確定合理的森林規(guī)模,我們研究了森林規(guī)模在[1,500]區(qū)間對(duì)應(yīng)的模型誤差,見(jiàn)圖6。隨機(jī)森林模型中樹(shù)的個(gè)數(shù)小于100時(shí)誤差波動(dòng)較大,當(dāng)森林規(guī)模大于100后誤差較小且比較穩(wěn)定,最終確定最優(yōu)森林規(guī)模為125時(shí)模型誤差達(dá)到最小。
(2) 微觀參數(shù)確定
本模型參與建立隨機(jī)森林模型的自變量有4個(gè),為了確定節(jié)點(diǎn)處應(yīng)隨機(jī)選取的變量數(shù),分別計(jì)算出節(jié)點(diǎn)處所選變量為1、2、3、4時(shí)對(duì)應(yīng)的模型誤差。見(jiàn)圖7,當(dāng)每個(gè)節(jié)點(diǎn)的預(yù)選變量數(shù)為2時(shí),模型的平均擬合誤差最小,為4.629。
每棵樹(shù)的分類(lèi)強(qiáng)度越大,即樹(shù)枝越茂盛,則模型整體的分類(lèi)性能越好,圖8為隨機(jī)森林里每棵樹(shù)的節(jié)點(diǎn)數(shù)分布,由圖可知每棵樹(shù)的節(jié)點(diǎn)數(shù)落在區(qū)間[37,67],足見(jiàn)樹(shù)的結(jié)構(gòu)較復(fù)雜,分類(lèi)能力較強(qiáng)。
因此,最終確定森林規(guī)模為125,節(jié)點(diǎn)處預(yù)選變量為2,模型達(dá)到誤差最小為4.629。
隨機(jī)森林通常沒(méi)有固定的函數(shù)模型表達(dá)式,R軟件“randomforest”包建立的隨機(jī)森林模型能夠自動(dòng)輸出模型自變量的重要度系數(shù)見(jiàn)表6,提供了判斷各個(gè)變量對(duì)于建立模型重要性的信息。從表6可以看出:自變量PD系數(shù)最大,說(shuō)明其對(duì)隨機(jī)森林回歸模型的貢獻(xiàn)最大,其次是TD、RB,0-1變量(ZC)對(duì)模型的影響最小。
表6 變量重要度系數(shù)表
通過(guò)分析模型訓(xùn)練集數(shù)據(jù)的殘差見(jiàn)圖9,可以看出,絕大多數(shù)的模型預(yù)測(cè)值與真實(shí)列車(chē)運(yùn)行晚點(diǎn)恢復(fù)記錄的偏差為0,說(shuō)明模型對(duì)測(cè)試集數(shù)據(jù)的擬合效果非常好。
雖然隨機(jī)森林模型建立過(guò)程中利用袋外數(shù)據(jù)進(jìn)行預(yù)測(cè),為了進(jìn)一步驗(yàn)證模型的預(yù)測(cè)能力,本文利用余下的30%的數(shù)據(jù)進(jìn)行模型的預(yù)測(cè)能力驗(yàn)證,275個(gè)測(cè)試數(shù)據(jù)的預(yù)測(cè)結(jié)果見(jiàn)圖10。
模型的預(yù)測(cè)精度見(jiàn)圖11。從兩圖的結(jié)果可以看出:隨機(jī)森林模型的預(yù)測(cè)精度在1 min允許的誤差情況下能達(dá)到80%,當(dāng)允許誤差為3 min時(shí)預(yù)測(cè)精度超過(guò)了90%,且模型的預(yù)測(cè)誤差最大為8 min,可見(jiàn)模型的預(yù)測(cè)效果非常好。
表7所示為隨機(jī)森林模型分別對(duì)訓(xùn)練集數(shù)據(jù)和測(cè)試集數(shù)據(jù)的計(jì)算精度,從表中可以看出,模型對(duì)所有樣本的平均絕對(duì)誤差在1 min以內(nèi),平均相對(duì)誤差小于15%,由此可見(jiàn)模型對(duì)于的擬合及預(yù)測(cè)效果很好。
表7 隨機(jī)森林模型的計(jì)算精度指標(biāo)
為了更進(jìn)一步評(píng)估隨機(jī)森林模型的效果,本文還分別建立了代表傳統(tǒng)統(tǒng)計(jì)建模方法的多元線性回歸模型以及另一現(xiàn)代流行的機(jī)器學(xué)習(xí)算法——支持向量機(jī)模型(限于篇幅,未能在本文詳細(xì)報(bào)道),上述模型仍將PD、TD、RB和ZC作為自變量,RT作為因變量,訓(xùn)練集和測(cè)試集不變。將隨機(jī)森林模型與多元線性回歸模型、支持向量機(jī)模型進(jìn)行允許誤差下預(yù)測(cè)精度的比較見(jiàn)表8,結(jié)果表明:支持向量機(jī)模型預(yù)測(cè)能力與隨機(jī)森林模型比較接近,它們都明顯優(yōu)于多元線性模型,但隨機(jī)森林模型仍然是預(yù)測(cè)效果最佳的模型。
表8 不同允許誤差下各模型預(yù)測(cè)精度對(duì)比 %
本文獲取了武廣高速鐵路列車(chē)運(yùn)行實(shí)績(jī)數(shù)據(jù),提取出了了晚點(diǎn)列車(chē)運(yùn)行數(shù)據(jù)(晚點(diǎn)時(shí)間大于4 min),并對(duì)晚點(diǎn)列車(chē)晚點(diǎn)恢復(fù)時(shí)間以及晚點(diǎn)恢復(fù)時(shí)間的影響因素進(jìn)行分析,確定了晚點(diǎn)列車(chē)在初始晚點(diǎn)站的晚點(diǎn)時(shí)間、列車(chē)晚點(diǎn)后經(jīng)停各站的總停站緩沖時(shí)間和列車(chē)晚點(diǎn)后經(jīng)各區(qū)間的總區(qū)間緩沖時(shí)間以及標(biāo)識(shí)列車(chē)是否晚點(diǎn)通過(guò)株洲西—長(zhǎng)沙南區(qū)間的0-1變量為自變量等4個(gè)晚點(diǎn)恢復(fù)時(shí)間的影響因素。根據(jù)各變量的分布情況以及變量之間的關(guān)系情況確定建立了列車(chē)晚點(diǎn)恢復(fù)時(shí)間預(yù)測(cè)的隨機(jī)森林模型。模型有效性檢驗(yàn)及預(yù)測(cè)結(jié)果表明:
(1) 隨機(jī)森林模型能夠很好地?cái)M合高速列車(chē)初始晚點(diǎn)恢復(fù)的數(shù)據(jù)。
(2) 隨機(jī)森林模型對(duì)高速列車(chē)初始晚點(diǎn)恢復(fù)時(shí)間具有很高預(yù)測(cè)精度,當(dāng)允許誤差在3 min以內(nèi)時(shí),模型的預(yù)測(cè)精度超過(guò)了90%。
(3) 隨機(jī)森林模型與多元線性回歸模型、支持向量機(jī)模型的對(duì)比結(jié)果顯示,隨機(jī)森林模型具有更優(yōu)的預(yù)測(cè)精度。
本文基于中國(guó)高速鐵路列車(chē)運(yùn)行實(shí)績(jī)研究了初始晚點(diǎn)的恢復(fù)模型,相比于傳統(tǒng)的優(yōu)化模型更加貼近于運(yùn)輸實(shí)際過(guò)程,在下一步研究中將考慮晚點(diǎn)列車(chē)在運(yùn)行過(guò)程中受到二次干擾導(dǎo)致晚點(diǎn)增加的情況,建立更加完善的高速鐵路列車(chē)晚點(diǎn)延誤傳播及恢復(fù)模型,豐富高速鐵路行車(chē)指揮理論,為高速鐵路調(diào)度指揮智能化提供理論指導(dǎo)及技術(shù)支撐。本文的研究只是基于我國(guó)高速列車(chē)大規(guī)模運(yùn)行實(shí)績(jī)數(shù)據(jù)進(jìn)行列車(chē)運(yùn)行晚點(diǎn)建模及行車(chē)指揮理論與方法研究的開(kāi)始,還有大量的工作需要加速推進(jìn),如:(1)基于不同致因初始晚點(diǎn)的影響,探明不同致因初始晚點(diǎn)的影響程度,包括影響列車(chē)數(shù)、總影響時(shí)間等;(2)不同致因初始晚點(diǎn)與連帶晚點(diǎn)的關(guān)系研究,構(gòu)建基于大規(guī)模運(yùn)行實(shí)績(jī)數(shù)據(jù)的我國(guó)高速列車(chē)晚點(diǎn)傳播及恢復(fù)模型,通過(guò)研究基于高速列車(chē)實(shí)績(jī)的晚點(diǎn)傳播及恢復(fù)的預(yù)測(cè)模型,建立高速鐵路預(yù)測(cè)調(diào)度理論與方法。
TELET E, et al. A Model to Quantify the Resilience of Mass Railway Transportation Systems[J]. Reliability Engineering & System Safety, 2016, 153:1-14.
[6] KEIJI K, NAOHIKO H, SHIGERU M. Simulation Analysis of Train Operation to Recover Knock-on Delay under High-frequency Intervals[J]. Case Studies on Transport Policy, 2015, 3(1):92-98.
[7] YUAN J, HANSEN I A. Optimizing Capacity Utilization of Stations by Estimating Knock-on Train Delays[J]. Transportation Research Part B:Methodological, 2007, 41(2):202-217.
[8] MEESTER L E, MUNS S. Stochastic Delay Propagation in Railway Networks and Phase-type Distributions[J]. Transportation Research Part B:Methodological, 2007, 41(2):218-230.
[9] HANSEN I A, GOVERDE R M P,VAN DER MEER D J. Online Train Delay Recognition and Running Time Prediction[C]// Intelligent Transportation Systems (ITSC), 2010 13th International IEEE Conference on. New York: IEEE, 2010:1783-1788.
[10] WALLANDER J, M
KITALO M. Data Mining in Rail Transport Delay Chain Analysis[J]. International Journal of Shipping and Transport Logistics, 2012, 4(3):269-285.
[11] KHADILKAR H. Data-Enabled Stochastic Modeling for Evaluating Schedule Robustness of Railway Networks[J/OL]. Transport Science,2016:1161-1176[2016-12-05].https://pubsonline.informs.org/doi/10.1287/trsc.,2016.0703.
[12] MA M, WANG P, CHU C H, et al. Efficient Multipattern Event Processing Over High-Speed Train Data Streams[J]. IEEE Internet of Things Journal, 2017, 2(4):295-309.
[13] 劉健, 孟學(xué)雷, 王金霞. 突發(fā)事件下的列車(chē)運(yùn)行圖穩(wěn)定性分析[J].鐵路計(jì)算機(jī)應(yīng)用,2015,24(9):1-5.
LIU Jian, MENG Xuelei, WANG Jinxia. Stability Analysis of Train Diagram in Emergency[J].Railway Computer Application,2015, 24(9):1-5.
[14] 莊河, 文超, 李忠燦, 等. 基于高速列車(chē)運(yùn)行實(shí)績(jī)的致因-初始晚點(diǎn)時(shí)長(zhǎng)分布模型 [J]. 鐵道學(xué)報(bào), 2017, 39(9):25-31.
ZHUANG He, WEN Chao, LI Zhongcan, et al. Cause Based Primary Delay Distribution Models of High-speed Trains on Account of Operation Records [J]. Journal of the China Railway Society, 2017,39(9):25-31.
[15] XU P, CORMAN F, PENG Q. Analyzing Railway Disruptions and Their Impact on Delayed Traffic in Chinese High-speed Railway[J]. IFAC-Papers OnLine, 2016, 49(3):84-89.
[16] BREIMAN L. Random Forests[J]. Machine learning, 2001, 45(1):5-32.
[17] 文超, 彭其淵, 陳芋宏. 高速鐵路列車(chē)運(yùn)行沖突機(jī)理[J].交通運(yùn)輸工程學(xué)報(bào), 2012, 12(2):119-126.
WEN Chao, PENG Qiyuan, CHEN Yuhong. Mechanism of Train Operation Conflict on High-speed Rail[J].Journal of Transportation Engineering, 2012, 12(2):119-126.
[18] BREIMAN L. Bagging Predictors[J]. Machine Learning, 1996, 24(2):123-140.