龐子帥,王麗雯,彭其淵*,b
(西南交通大學,a.交通運輸與物流學院;b.綜合交通運輸國家地方聯(lián)合工程實驗室,成都 611756)
研究高速鐵路干擾條件下列車時刻表調(diào)整方法,一方面,可以緩解列車運行沖突,使鐵路網(wǎng)絡(luò)通過能力快速恢復(fù),保證鐵路運輸?shù)陌踩\營;另一方面,可以提升高速鐵路調(diào)度決策水平,有效地減少我國高速鐵路網(wǎng)絡(luò)列車和旅客晚點時間,對提升高速鐵路的運輸效率與旅客的出行服務(wù)質(zhì)量具有重要作用。
干擾條件下,列車時刻表調(diào)整的既有研究主要基于仿真方法、數(shù)學優(yōu)化方法和強化學習方法。仿真方法的優(yōu)勢在于能夠提供一個精確、可靠及直觀的系統(tǒng)評估平臺。朱子軒等[1]運用多智能體通信機制,建立單線鐵路網(wǎng)絡(luò)列車運行智能調(diào)度仿真模型,利用Anylogic軟件將仿真模型運用于西南地區(qū)某單線鐵路網(wǎng)絡(luò),驗證模型的有效性及合理性;楊銳等[2]基于部件組合思想,同時,考慮線路可雙向運行和列車運行過程中隨機擾動,建立列車運行仿真模型,可快速生成與列車運行環(huán)境和列車運行規(guī)則對應(yīng)的仿真框架;QUAGLIETTA等[3]研究隨機干擾條件下最優(yōu)調(diào)度方案的穩(wěn)定性問題,開發(fā)將調(diào)度系統(tǒng)與仿真環(huán)境結(jié)合的框架,通過評估不同預(yù)測水平下的干擾情景,探討預(yù)測范圍對穩(wěn)定性和交通管理效果的影響。數(shù)學優(yōu)化方法主要根據(jù)列車運行資源占用情況設(shè)定約束條件(例如,到發(fā)線最大數(shù)量限制、區(qū)間最小運行時間限制及最小間隔時間限制等)實現(xiàn)制定目標。VEELENTURF等[4]建立整數(shù)線性規(guī)劃模型,模型考慮干擾開始階段至恢復(fù)正常階段的鐵路網(wǎng)絡(luò)信息,測試結(jié)果表明,模型能夠在較短的計算時間內(nèi)找到最優(yōu)解;鄧念等[5]針對高速鐵路區(qū)間完全中斷情況,構(gòu)建列車運行調(diào)整混合整數(shù)線性規(guī)劃模型,模型旨在盡量減少取消列車的數(shù)量和列車晚點時間加權(quán)求和量;徐培娟等[6]基于替代圖理論,針對多種干擾事件建立混合整數(shù)線性優(yōu)化模型,模型可同步實現(xiàn)列車運行調(diào)整和列車運行徑路調(diào)整,通過兩階段近似求解算法在600 s 內(nèi)可以實現(xiàn)求解;李智等[7]研究多條線路列車運行圖對抗干擾的魯棒性,引入經(jīng)濟學中的邊際效用遞減規(guī)律優(yōu)化列車緩沖時間,提升時刻表魯棒性;牛宏俠等[8]基于生滅過程提出能夠?qū)④囌竞蛥^(qū)間冗余時間同步優(yōu)化的模型,模型可以平衡冗余時間不足和雙重冗余之間的關(guān)系。隨著大數(shù)據(jù)及云計算技術(shù)的發(fā)展,深度強化學習等人工智能技術(shù)逐漸被運用到列車運行調(diào)整中,基于人工智能的強化學習模型可以離線學習且無需多次求解。?EMROV 等[9]于2016年,最早將強化學習運用到列車時刻表調(diào)整上,但其僅使用Q-Learning算法,存在作用的維度限制和緩慢的收斂速度等缺點;LIAO 等[10]基于深度強化學習模型,研究干擾條件下考慮列車節(jié)能的時刻表調(diào)整方法,結(jié)果顯示,提出的模型可以節(jié)約6%的能耗,但其未考慮列車區(qū)間和車站現(xiàn)場實際需求;代學武等[11]提出一種適用于突發(fā)事件下列車群運行調(diào)整的無模型強化學習方法,該研究可使列車群的平均晚點時間減少2%~20%;王榮笙等[12]提出干擾場景下基于蒙特卡羅樹搜索-強化學習的列車運行智能調(diào)整策略優(yōu)化方法,與通過CPLEX 軟件求解的數(shù)學優(yōu)化模型相比,提出的方法能在0.001 s內(nèi)給出同樣最優(yōu)的列車運行調(diào)整方案;韓忻辰等[13]基于Q-Learning 算法研究晚點列車調(diào)整方法;俞勝平等[14]隨后證明了策略梯度強化學習方法相比于QLearning算法有更好的效果。
目前,既有的研究方法中,仿真方法雖結(jié)果直觀,但存在參數(shù)不確定、環(huán)境復(fù)雜和計算時間長等缺點。數(shù)學優(yōu)化方法在大規(guī)模問題上面臨求解效率低等問題。近年來,強化學習方法開始在列車時刻表調(diào)整中嶄露頭角,但大多僅基于Q-Learning算法。鑒于此,本文基于近端策略優(yōu)化(PPO)方法,建立列車時刻表調(diào)整模型,得到以總晚點最小的列車時刻表調(diào)整方案。提出的模型可離線訓練,無需在線實時求解,為鐵路調(diào)度指揮決策模型的實用奠定基礎(chǔ)。
高速鐵路列車在沒有干擾的情況下需按照鐵路部門制定的計劃運行圖運行。然而,鐵路是一個復(fù)雜的系統(tǒng),不可避免地受到內(nèi)部基礎(chǔ)設(shè)施、外部環(huán)境和人為因素的影響。在日常作業(yè)中,因線路故障、信號系統(tǒng)故障、異物侵入、列車車底故障及天氣因素等突發(fā)干擾導(dǎo)致列車晚點是鐵路運輸組織中的常態(tài)問題。干擾條件下,鐵路時刻表調(diào)整問題如圖1 所示。圖1(a)為鐵路列車計劃時刻表,包含4個車站(車站A、車站B、車站C及車站D)和4列列車(列車1、列車2、列車3 及列車4)。圖1(b)為圖1(a)對應(yīng)的在2次干擾條件下可能的列車時刻表調(diào)整方案。干擾條件下,鐵路列車調(diào)度員可采取,例如,改變列車區(qū)間運行時間、車站停站時間和運行順序等方法調(diào)整得到實時的鐵路列車時刻表。如圖1(b)所示的實時時刻表中,對列車2 在車站A采取延長停站時間措施,避免與列車1的出站進路沖突;對列車1在車站A-車站B區(qū)間采取延長區(qū)間運行時間方法,避免在干擾發(fā)生時進入干擾區(qū)間;對列車1和列車2在車站B采取改變運行順序的措施,減少總的列車晚點時間。
圖1 干擾條件下列車時刻表調(diào)整示意圖Fig.1 Train timetable rescheduling under interruptions
目前,干擾條件下,鐵路時刻表調(diào)整的主要方法是基于人工調(diào)整,一方面,這種方式的前瞻性較差,且不同調(diào)度人員采取的調(diào)整策略和效果也各不相同;另一方面,數(shù)學優(yōu)化模型在求解速度方面會隨問題規(guī)模呈指數(shù)增長(例如受影響的晚點列車數(shù)),而干擾條件下,需要鐵路管理者能夠快速決策,保障良好的運輸態(tài)勢。因此,傳統(tǒng)方法難以滿足鐵路實時決策需求。本文使用深度強化學習PPO模型研究干擾條件下列車時刻表調(diào)整,并證明PPO 模型相對于既有強化學習和調(diào)度員現(xiàn)場決策方案具有明顯優(yōu)勢,為干擾條件下列車時刻表調(diào)整決策奠定基礎(chǔ)。
深度強化學習(Deep Reinforcement Learning,DRL) 模型主要包括智能體(agent)、環(huán)境(environment)、狀態(tài)(S)、行動(A)和獎勵(R)。強化學習的核心思想就是下一步的狀態(tài)只和當前的狀態(tài)以及當前狀態(tài)將要采取的動作有關(guān)。智能體執(zhí)行某一動作a(a∈A)將會影響環(huán)境狀態(tài),環(huán)境將由原來的狀態(tài)s轉(zhuǎn)換到新狀態(tài)s′(s,s′∈S),并且將為新狀態(tài)環(huán)境給出獎勵信號r(r∈R),環(huán)境狀態(tài)之間的轉(zhuǎn)換是一個馬爾科夫過程。隨后,智能體基于來自環(huán)境的新狀態(tài)和獎勵反饋,根據(jù)特定策略執(zhí)行新的動作。上述過程是智能體和環(huán)境通過狀態(tài)、動作和獎勵進行交互的一種方式。智能體貪婪地遍歷每種動作,根據(jù)執(zhí)行不同動作后環(huán)境給與相應(yīng)獎勵,后續(xù)將以大概率選取獎勵回報高的動作執(zhí)行,不斷優(yōu)化選取動作的策略,達到系統(tǒng)優(yōu)化的目的。
本文建立的列車運行仿真環(huán)境包含列車運行車站和線路等基本信息,最小到發(fā)間隔時間信息等;智能體的動作空間包括改變列車區(qū)間運行時間、車站停站時間和運行順序等;系統(tǒng)回報考慮列車在終點站的總晚點時間值;此外,系統(tǒng)每一時刻的環(huán)境狀態(tài)作為輸入,智能體根據(jù)輸入決定采取的動作。最終,智能體根據(jù)各動作所得到的回報選取最優(yōu)動作,最優(yōu)動作序列構(gòu)成鐵路時刻表調(diào)整策略。模型結(jié)構(gòu)框架如圖2所示。
圖2 模型框架圖Fig.2 Framework of proposed model
本文使用近端策略優(yōu)化(PPO)算法[15]。PPO 算法由OpenAI 于2017 年提出,被認為是目前強化學習中最先進的算法之一。其偽代碼如下所示。
注:πθ 為策略;p 為轉(zhuǎn)移概率。
DRL模型使用神經(jīng)網(wǎng)絡(luò)模型當作其策略,使其可以對任何狀態(tài)做出動作。本文使用執(zhí)行者-評論家(Actor-Critic)模式的神經(jīng)網(wǎng)絡(luò)策略。執(zhí)行者-評論家有兩個網(wǎng)絡(luò):執(zhí)行者和評論家。執(zhí)行者輸入是系統(tǒng)當前的狀態(tài),輸出是各個動作對應(yīng)的概率。執(zhí)行者根據(jù)系統(tǒng)當前的狀態(tài)決定應(yīng)該采取哪個動作;列車運行仿真時,智能體在每一時間步都將以較大概率選擇回報最大的動作執(zhí)行,并以較小的概率選擇其他動作,以探索不同的可能性。評論家輸入是系統(tǒng)的狀態(tài)和動作,輸出是該動作的狀態(tài)價值函數(shù)。評論家告訴執(zhí)行者這個動作有多好,應(yīng)該如何調(diào)整。執(zhí)行者的學習是基于策略梯度方法。
對于執(zhí)行者網(wǎng)絡(luò),最后一層使用SoftMax 函數(shù)輸出各動作對應(yīng)的概率,在不斷學習過程中,更新執(zhí)行者權(quán)重和誤差項參數(shù),調(diào)整各動作對應(yīng)的選擇概率;對于評論家網(wǎng)絡(luò),最后一層使用線性激活函數(shù)輸出狀態(tài)價值函數(shù),輸出為連續(xù)值,評估所選動作與預(yù)估回報之間的差異。執(zhí)行者和評論家網(wǎng)絡(luò)如圖3 所示,其中執(zhí)行者的輸出維度L表示列車數(shù)量。
圖3 執(zhí)行者和評論家網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of actor and critic
本文建立的高速鐵路列車運行仿真環(huán)境如圖4所示。仿真環(huán)境的主要參數(shù)包括:車站數(shù)、車站股道數(shù)、區(qū)間里程、區(qū)間最小運行時間及最小到達和出發(fā)間隔時間。仿真環(huán)境包含個車站的一段區(qū)段={1,2,…,K}。該區(qū)段任意區(qū)間均可能發(fā)生隨機干擾,列車在干擾發(fā)生期間不能通過。由于高速鐵路上下行方向列車運行相互獨立,本文將分開考慮上下行方向列車。線路各車站單方向可用到發(fā)線數(shù)量為ui,i∈{1,2,…,K}。受干擾影響的列車群需在滿足約束條件的基礎(chǔ)上運行到車站K。列車區(qū)間最小運行時間τi,i∈{1,2,…,K-1} 由鐵路技術(shù)文件確定,列車停站最小停站時間為Wmin,列車最小到達和出發(fā)間隔時間分別為和。
圖4 列車運行環(huán)境Fig.4 Train operation environment
為保證得到的列車時刻表的可行性,系統(tǒng)仿真過程中需考慮列車運行約束條件。本文在列車運行仿真環(huán)境中考慮的約束條件如下。
(1)列車間隔約束
相鄰兩列車在到達車站時,間隔時間需滿足最小到達間隔時間,出站時需滿足最小出發(fā)間隔時間,即
(2)區(qū)間運行時間和車站停站時間約束
列車在區(qū)間運行時,運行時間需不小于最小區(qū)間運行時間。在車站停站時,停站時間應(yīng)不小于最小停站時間,即
式中:Rmin和Wmin分別為區(qū)間最小運行時間和車站最小停站時間。
(3)車站到發(fā)線數(shù)量約束
為能夠?qū)崿F(xiàn)列車越行,在各車站越行時,同時停車的數(shù)量應(yīng)不大于到發(fā)線數(shù)量,即
(4)列車發(fā)車時間約束
由于旅客上車的需要,列車只允許早到,不允許提前出發(fā),即
對于區(qū)間運行時間和車站停站時間約束,仿真過程得到列車時刻表時,每一區(qū)間/車站直接加上對應(yīng)的最小運行時間/停站時間,再加上強化學習模型所選取的動作作為緩沖時間,保證每個區(qū)間/車站滿足最小間隔時間需求。對于列車發(fā)車時間約束,若按照Agent 直接選擇的動作,列車會提前發(fā)車,將會直接在強化學習選擇的動作上加上一定的時間,使列車在車站停站時間增加,以此保證列車不會提前發(fā)車。列車間隔和車站到發(fā)線數(shù)量兩個約束將作為判斷系統(tǒng)是否達到終止狀態(tài)的條件之一。若任意約束條件不滿足,系統(tǒng)將終止,重新開始下一輪仿真;否則,將繼續(xù)列車運行仿真,直到所有列車到達車站K。因此,在仿真系統(tǒng)中,設(shè)置列車運行約束條件能保證所得到時刻表的可行性。
列車運行時間由區(qū)間運行時間和車站停站時間構(gòu)成。本文將列車區(qū)間運行過程和停站過程均視為系統(tǒng)的時間步。列車在區(qū)間的運行時間由最小區(qū)間運行時間(由最大速度和區(qū)間里程確定)和區(qū)間冗余時間確定,車站停站時間由最小停站時間和車站冗余時間確定。因此,對于區(qū)間運行過程,DRL 模型的動作為該區(qū)間列車運行安排的區(qū)間冗余時間。對于車站停站過程,DRL 模型的動作為該車站需要的停站時間,l∈{1,2,…,L} ;k∈{1,2,…,2K-1,2K}。其中,表示列車l在位置k采取的動作。由于高速鐵路系統(tǒng)可能存在不同速度等級列車(例如,速度等級為250 km·h-1的“D”字頭列車和速度等級為350 km·h-1的“G”字頭列車),本文對不同速度等級列車設(shè)定不同的動作空間。
此外,為提高DRL模型選取動作的可行性,使用列車計劃時刻表中的停站方案對列車停站時間動作進行動作掩碼。因區(qū)間冗余時間無此要求,對區(qū)間冗余時間動作選取結(jié)果不進行任何操作。車站停站時間動作掩碼為
①列車到發(fā)時間狀態(tài)轉(zhuǎn)移
當列車處于出發(fā)狀態(tài)時(將要進入?yún)^(qū)間),需考慮列車在該站和下一車站是否停車。若停車,則需加上啟停附加時間,其狀態(tài)更新為
②列車晚點時間轉(zhuǎn)移
各列車在各站到達和出發(fā)晚點時間由實際時間和計劃時間確定。因此,模型中,列車晚點時間是實際時間和計劃時間之差,即
③列車間隔時間轉(zhuǎn)移
列車在k+1 位置(時刻)與前行列車的間隔時間同樣可以通過2列列車的實際運行時間計算,即
式中:列車l-1是列車l在位置k+1的前行列車。
④列車是否停站轉(zhuǎn)移
列車是否停站由計劃時刻表給定。因此,對于該狀態(tài),任意時刻與之前時刻無直接關(guān)系,由列車計劃時刻表給定,即
⑤列車到達/出發(fā)狀態(tài)轉(zhuǎn)移
列車到達和出發(fā)狀態(tài)交替出現(xiàn)。因此,狀態(tài)之間的轉(zhuǎn)換概率為1,位置狀態(tài)的概率為0,即
式中:“//”為求余數(shù)。
⑥列車位置轉(zhuǎn)移
列車需從始發(fā)站運行到終到站,即從位置1到位置2K。DRL模型在選擇動作時,只要選擇的動作可以滿足鐵路系統(tǒng)的相關(guān)約束條件(例如,間隔約束和到發(fā)線數(shù)量約束等),列車群將到達下一個位置。因此,位置狀態(tài)參數(shù)更新方式為
式中:“|?→?”為所有列車運行相關(guān)的約束條件均滿足要求;“ ”為條件。
仿真環(huán)境需給予智能體一定的獎勵,使其探索更好的解。本文經(jīng)過大量實驗,最終確定選擇的回報函數(shù)形式如下:當列車未到達位置2K時,系統(tǒng)每前進1步,將會得到1個較小的瞬時獎勵,以此增加列車到達終點站的概率。此外,一旦列車群到達車站K(即最后位置2K),系統(tǒng)將給予智能體較大的瞬時獎勵M。此外,DRL 模型需盡可能使列車晚點時間更少,即各列車晚點時間需考慮到獎勵中。由于DRL 系統(tǒng)目標是最大化獎勵和回報,當達到最后位置2K時,從給予瞬時獎勵M中減去所有列車在最后1個位置的總晚點時間。最后,系統(tǒng)回報R是各步瞬時獎勵之和,即
式中:e為較小的常數(shù);M為遠遠大于列車群在最后一個位置總晚點時間的整數(shù)。
本文使用我國武漢到廣州(武廣)高速鐵路廣州北到長沙南區(qū)段作為模型測試環(huán)境。武廣高速鐵路廣州北至長沙南區(qū)段全程約700 km,設(shè)計時速為350 km·h-1,分別經(jīng)過廣州北、清遠、英德西、韶關(guān)、樂昌東、郴州西、耒陽西、衡陽東、衡山西、株洲西和長沙南,共11 個車站。該區(qū)段各站和區(qū)間參數(shù)如表1所示。此外,武廣高速列車的啟動附加時分為2 min,停車附加時分為3 min,即tac=2,tde=3。
表1 武廣高速鐵路廣州北至長沙南區(qū)段線路參數(shù)Table 1 Parameters of WH-GZ railway line
在DRL 模型進行訓練之前,需基于實驗優(yōu)化DRL算法參數(shù)。為確定模型參數(shù),本文進行了多次實驗。根據(jù)實驗結(jié)果,選取的DRL模型參數(shù)如表2所示。此外,武廣高速列車加速和減速時間標準、系統(tǒng)仿真時回報參數(shù)M和列車最小間隔時間標準等系統(tǒng)仿真參數(shù)設(shè)置如表3所示。
表2 DRL模型參數(shù)設(shè)置Table 2 Parameter setting for DRL model
表3 仿真系統(tǒng)參數(shù)設(shè)置Table 3 Parameter setting for environment
為展示模型效果,本文分別從隨機干擾條件下和歷史數(shù)據(jù)中選取兩個不同案例驗證模型。從隨機干擾條件下選取案例可保證模型的實際可行性,從歷史數(shù)據(jù)中選取案例可與調(diào)度員歷史決策情況進行對比,各案例詳細情況如下。
案例1 選取隨機干擾條件下的時刻表調(diào)整。案例1 來自于武廣高鐵上行方向廣州南至長沙南區(qū)段,干擾時間從10~90 min隨機取值。此外,為更精確地模擬高鐵現(xiàn)場調(diào)度指揮情況,受干擾列車后續(xù)可能受到二次干擾,二次干擾時間從10~30 min隨機取值。由于隨機干擾影響列車數(shù)參數(shù)未知,但建模時需考慮問題規(guī)模。因此,考慮干擾的可能時間長短,案例1 在每次仿真時,均考慮30 列列車。若對于選定的干擾時間值,部分列車未受干擾影響,則對這些列車不進行相應(yīng)的時刻表調(diào)整。案例1中,通過計算機產(chǎn)生2次隨機干擾,第1次發(fā)生在清遠—英德西區(qū)間,干擾強度為38 min;列車通過第1 次干擾后,在樂昌東—郴州西區(qū)間受到第2次干擾,第2次干擾強度為15 min。
案例2 來自于廣州北—長沙南區(qū)段上行方向,由線路設(shè)備故障導(dǎo)致。2015年11月21日,廣州北上行方向進站咽喉處道岔發(fā)生故障,總計影響8 列列車,包括:1 列速度250 km·h-1的“D”字頭動車和7列時速350 km·h-1的高鐵列車。所有受影響列車中,最大晚點時間為45 min,最小晚點時間為8 min。
本文建立的列車運行仿真環(huán)境考慮多個特征/狀態(tài),且各特征類型不同。為對比模型效果,同時測定兩種能夠處理多維狀態(tài)特征的強化學習模型,即PPO 和A2C(Advantage Actor-Critic)。PPO 和A2C 是目前研究中應(yīng)用最廣泛和效果最好的強化學習模型。PPO和A2C模型在案例1和案例2上的訓練結(jié)果如圖5所示。
圖5 PPO和A2C模型訓練結(jié)果Fig.5 Training results of PPO and A2C
由圖5 可知,對于案例1,PPO 模型能夠在20000 步內(nèi)快速收斂,A2C 模型需要約90000 步才能達到收斂。對于案例2,PPO 模型能夠在60000步內(nèi)收斂,A2C模型需要約70000步以后才能達到收斂。此外,對于兩個案例,A2C 模型獲得的回報均低于PPO 模型,表明A2C 獲得的解的質(zhì)量低于PPO模型,即PPO模型效果明顯好于A2C模型。
為驗證PPO 模型的性能,選取A2C 模型、商業(yè)軟件精確求解方法以及實際運行數(shù)據(jù)(調(diào)度員實際決策方案)作為對比。案例1 和案例2 的總晚點時間結(jié)果對比如表4 和表5 所示,基于PPO 模型的列車時刻表調(diào)整結(jié)果如圖6所示。
表4 PPO和A2C模型在案例1上的性能Table 4 Performance of PPO and A2C on case 1 (min)
表5 PPO和A2C模型在案例2上的性能Table 5 Performance of PPO and A2C on case 2 (min)
圖6 基于PPO的干擾條件下列車時刻表調(diào)整結(jié)果Fig.6 Timetable rescheduling results based on PPO
在案例1 中,各方法對比結(jié)果顯示,PPO、A2C及Gurobi求解結(jié)果中,列車到達衡陽東站總的晚點時間分別為254,291,249 min。由表4 可知,對于案例1,PPO 模型所得的解接近由Gurobi 得到的最優(yōu)解(離最優(yōu)解僅相差2.0%),且明顯優(yōu)于A2C模型的解。PPO 模型相較于A2C 模型可減少約13%的列車總晚點時間。
對于案例2,PPO模型獲得的解中,所有列車到達長沙南站的總晚點時間為188 min(其中,2 列列車實現(xiàn)完全恢復(fù))。A2C 模型的總晚點時間為237 min,Gurobi求解結(jié)果的總晚點時間為184 min,而調(diào)度員決策方案的總晚點時間為258 min。由表5可知,PPO所得的解接近由Gurobi得到的最優(yōu)解(離最優(yōu)解僅相差2.2%),且明顯優(yōu)于A2C得到的解。使用PPO 模型相較于A2C 和調(diào)度員決策方案,列車總晚點時間分別減少約20.7%和27.1%,由此表明,對于復(fù)雜案例2,PPO 模型優(yōu)于A2C 模型和調(diào)度員決策方案。
由圖6可知,案例1中,共包含30列車。其中,受兩次干擾影響的列車共24列,未受影響的列車6列。案例1中,均為相同速度等級的列車,列車之間越行次數(shù)較少。案例2 同時包含不同速度等級列車,且各列車停站模式相差較大,圖6(b)中,列車越行次數(shù)較多。此外,時速為250 km·h-1的“D”字頭動車在樂昌東(LCE)站之前被時速為350 km·h-1的列車多次越行,以減小列車總晚點時間;當該列車經(jīng)過耒陽西(LYW)車站時,晚點時間全部恢復(fù),對后續(xù)列車無影響。因此,在圖6(b)中,18:00 后僅展示了該列車。
為了解DRL 模型的效率,各模型的訓練時長和執(zhí)行時長如表6 所示。由表6 可知,PPO 模型在案例1和案例2上分別可在405 min和140 min內(nèi)收斂。DRL模型最大的優(yōu)勢在于其可以離線訓練,在線調(diào)用。因此,本文對保存的模型調(diào)用和執(zhí)行測試時間也進行了記錄,PPO和A2C模型在加載和執(zhí)行測試時長均小于1 s,表明PPO 模型訓練保存后可快速調(diào)用,可以滿足實時調(diào)度指揮決策需求。
表6 模型收斂時長Table 6 Time cost of models
本文針對干擾條件下高速鐵路時刻表調(diào)整問題,考慮列車運行約束,以列車總晚點時間最小為目標,設(shè)計合理的智能體交互仿真環(huán)境,通過強化學習近端策略優(yōu)化算法求解驗證不同干擾強度情況下的武廣高速鐵路實例。結(jié)果證明,相比于其他強化學習模型,PPO模型在收斂速度和解的質(zhì)量上具有明顯優(yōu)勢,由PPO模型得到的調(diào)整方案的總晚點時間相較于A2C 模型和調(diào)度員決策方案可分別減少20.7%和27.1%。PPO模型得到的解與問題最優(yōu)解僅相差約2%。此外,PPO 等強化學習模型可以離線訓練,在線調(diào)用執(zhí)行,調(diào)用和執(zhí)行總耗時不超過1 s,相比于傳統(tǒng)數(shù)學優(yōu)化模型可以更好地滿足現(xiàn)場實時決策需求。