張 輝,郭建媛,豆 飛,唐雨昕,杜佳敏
(1. 北京交通大學交通運輸學院,北京 100044;2. 北京地鐵運營有限公司,北京 100044)
城市軌道交通因具有方便準時等優(yōu)點,吸引和承載了大量乘客的交通出行,這使得車站經(jīng)常出現(xiàn)大客流聚集的情況。尤其是在高峰時段,當有限的線路運輸能力不能及時滿足出行需求時,許多乘客會聚集在站臺上無法上車,如果在站臺等候的乘客數(shù)量超過了站臺的設(shè)計容納人數(shù),那么車站將會產(chǎn)生運營安全隱患。因此,在早晚高峰時期,對客流常采取控制措施,以緩解車站的客流壓力。
近年來,國內(nèi)外許多學者對軌道交通車站客流控制問題進行了研究。姜曼以城市軌道交通單線多站系統(tǒng)為研究對象,采取結(jié)合客流需求管理的運力資源配置方法,研究了擁擠客流的控制問題[1]。李登輝等以乘客總等待時間最少和客運周轉(zhuǎn)量最大為目標,建立了線路客流協(xié)同控制線性規(guī)劃模型[2]。趙鵬等以乘客延誤損失最小化和客運周轉(zhuǎn)量最大化為優(yōu)化目標,利用所求解的控流率為限流措施,制定提供量化的依據(jù)[3]。Shi 等以特定線網(wǎng)下各車站乘客等待時間和風險總和最小化為目標,建立了一個雙目標整數(shù)線性規(guī)劃模型,用來描述乘客控制過程[4]。Li 等以最小化地鐵線路的時刻表和發(fā)車間隔偏差為目標,建立了針對車站每列車的出發(fā)時間和載客量演變的耦合狀態(tài)空間模型[5]。Zhang 等將列車運行和乘客上下車過程作為約束,以乘客總出行時間最小為目標,建立了非線性非凸規(guī)劃模型[6]。
同時,從模型構(gòu)建上可以分為線性規(guī)劃模型[2-4]、二次規(guī)劃模型[5]和非線性組合優(yōu)化模型[6]。非線性組合優(yōu)化客流控制模型能夠更充分地刻畫優(yōu)化的安全和效率目標,對此傳統(tǒng)的運籌學方法無法在短時間內(nèi)做出動態(tài)決策。
為此,有學者嘗試使用強化學習的方式進行客流控制優(yōu)化求解。Jiang 等以最小化地鐵車站乘客的滯留次數(shù)和候車時間為目標,提出基于強化學習方法來優(yōu)化每個車站一定時間內(nèi)的進站量,得到了比較好的優(yōu)化效果[7]。另外,他們又以全線乘客滯留的懲罰值最小為目標,提出了將協(xié)調(diào)客流控制與列車重調(diào)度策略相結(jié)合的線路優(yōu)化方案[8]。
綜上所述,一方面,在目前的研究中,客流控制以提高乘客出行效率為主要的模型優(yōu)化目標,相對較少考慮過多客流控制對乘客出行造成的不便,而過度的客流控制會增加乘客的等待時間,影響乘客的出行效率;另一方面,強化學習在客流控制問題上僅有初次嘗試,還具有很大的研究空間。 因此,筆者建立了多目標多站客流協(xié)調(diào)控制模型,目的是在滿足列車容量約束下,最小化地鐵車站乘客的站臺超限量、平均等待時間,提高客流控制強度的綜合效益;并基于強化學習深度Q 網(wǎng)絡(luò),優(yōu)化每個車站在一定時間內(nèi)的進站量,以緩解車站站臺的乘客擁堵,保障乘客的出行效率。
為構(gòu)建模型,對相關(guān)影響因素作如下假設(shè):
1) 列車按運行計劃開行,不存在晚點。
2) 控制乘客進站,不會導致高峰期乘客出行需求減少。
3) 在地鐵線路上,各車站可實施乘客進站控制策略。
4) 乘客遵循先到先上的原則。
相關(guān)的參數(shù)以及所用變量在表1 中列出,目標函數(shù)如下:
模型目標是在客流控制強度較小時,盡量減少乘客在站臺等待的超限數(shù)及等待時間。
約束條件如下:
表1 變量及參數(shù)定義 Table 1 Definition of variables and parameters
式(2)表示到達站臺時間等于乘客到達站外時間與站外等候時間以及站內(nèi)走行時間之和;式(3)表示站臺等待時間等于登上列車時間減去到達站臺時間;式(4)表示乘客的平均等待時間等于車站外以及站臺等待時間之和與總乘客數(shù)的比值;式(5)表示上車人數(shù)要小于列車定員與最大滿載率的乘積;式(6)表示乘客的上車時間等于列車到站時間;式(7)~(9)指乘客到達、進站候車和登上列車3 種不同狀態(tài)的0~1 變量;式(10)~(12)表示在站外等候、站臺等候以及上車的累計乘客數(shù)量;式(13)表示站臺等待人數(shù)等于上車人數(shù)及滯留站臺人數(shù)之和;式(14)表示客流進站率為進站乘客數(shù)量與到站總?cè)藬?shù)之比;式(15)表示站臺超限人數(shù)等于站臺人數(shù)與站臺容量之差;式(16)為客流控制強度約束,允許乘客進站比率越大,客流控制強度越小。
上面提出的客流控制模型屬于典型的復雜約束下的非線性模型,下面使用深度Q網(wǎng)絡(luò)進行該模型的求解,給出客流協(xié)調(diào)控制的深度Q 網(wǎng)絡(luò)模型框架和算法流程。
如圖1 所示,基于深度Q 網(wǎng)絡(luò)的客流控制強化學習框架包括環(huán)境、狀態(tài)、動作集,首先智能體將各車站的初始乘客數(shù)作為狀態(tài),輸入到深度Q 網(wǎng)絡(luò)中,網(wǎng)絡(luò)根據(jù)Q 值更新公式,選擇各車站客流控制率作為動作,將狀態(tài)和動作輸入到環(huán)境中進行乘客與列車之間的交互,得到下一個狀態(tài)與獎勵后再次輸入到網(wǎng)絡(luò)中去,以此不斷迭代更新。
圖1 基于深度Q 網(wǎng)絡(luò)的客流控制強化學習框架 Figure 1 Reinforcement learning framework for passenger flow control based on deep q-network
該環(huán)境可以仿真單條地鐵線路上各個車站的客流到達直至上車離開的過程,通常包括3 個子流程:到達車站、進入車站、上車-下車[9]。如果單位時間內(nèi)進站量的控制率大于0,則被限制進入站臺的乘客應在站外等待,并根據(jù)下一階段的控制率和上一階段站外等候乘客的到達順序進入車站。
車站狀態(tài)是指在單條線路某個時間步長上每個車站的進站客流需求量。每個車站的進站率隨控制時間步長發(fā)生改變,而車站狀態(tài)隨進站率不同發(fā)生改變。
將總仿真時間分為M 個控制時間步長,控制站的進站率將會每15 min 改變一次。在控制乘客進站量的情況下,將控制時間步長m(0<m≤M)內(nèi)車站n 的狀態(tài)Sm,n定義為
式中,Dm,n為在控制時間步長m 內(nèi)車站n 的到站人數(shù),為第m-1 時段車站n 的進站人數(shù)。
控制乘客進站量時,一些在步長m-1 內(nèi)到達車站的乘客可能需要在車站外等候,直到下一個步長m 才允許進入車站,所以表示步長m-1 內(nèi)在站外等候的乘客數(shù)量。
動作ai指的是在每個控制時間步長m 內(nèi)車站n 所選擇的動作,表示在步長m 內(nèi)車站n 允許乘客進站數(shù)量的百分比,即控制下的進站率,則動作集A 包含了單條線路上某車站的進站量控制率。假設(shè)在控制時間步長m 內(nèi)有100 人希望進入車站n,A={0.2,0.4,0.6,0.8,1.0},對車站n 執(zhí)行動作a1=0.2,則在步長m 內(nèi)允許進站的乘客數(shù)量為20 人,動作a5=1.0 表示允許所有乘客進入車站。
獎勵函數(shù)定義了強化學習問題的目標[10]。在本研究中,目標是在客流控制強度較小的情況下,盡量減少乘客在站臺等待的超限數(shù)及乘客的平均等待時間。因此,獎勵函數(shù)為
強化學習算法過程如下:
?
6 遍歷線路上的車站 7 根據(jù)當前狀態(tài)選擇動作,將動作與環(huán)境交互 8 根據(jù)環(huán)境函數(shù)得出下一狀態(tài),獎勵值及站臺超限人數(shù) 9 記錄當前狀態(tài),動作,下一狀態(tài),獎勵 10 將記錄的參數(shù)傳入網(wǎng)絡(luò)進行訓練 11 更新狀態(tài)并打印動作及站臺超限人數(shù) 12 end for 13 每一時間步長的獎勵求和并更新時間步長m 14 如果m 達到需要控制的時間步長,循環(huán)結(jié)束15 end while 16 計算客流控制時段內(nèi)一條線路所有乘客平均等待時間17 END
這里用一個真實線路的仿真實例來評估強化學習方法在地鐵的客流協(xié)調(diào)控制中的可用性。選取北京地鐵八通線在2019 年某工作日8:00—9:30 時間段進行實驗,該線路的車站情況如圖2 所示。
圖2 北京地鐵八通線線路圖 Figure 2 Route map of Metro Batong Line
使用當日八通線的實際工作日運營時間表,獲取當日AFC 數(shù)據(jù)OD 客流量作為實驗輸入,各車站分時進站量如圖3 所示。該模擬在TensorFlow2.0 中調(diào)用keras 庫實現(xiàn),所用參數(shù)如表2 所示。共做了100 次訓練,并與未采用本客流控制模型的目標參數(shù)進行比較。
訓練曲線如圖4 所示。實施客流控制策略的獎勵值越高,在該線路上客流控制強度較低,乘客平均等待時間和車站乘客超限人數(shù)的綜合指標將會減小。由訓練結(jié)果和訓練曲線可知,在第38 次訓練時候,獎勵值達到最大,即:車站站臺乘客超限量與該線路上乘客平均等待時間的綜合指標最小。
圖3 不同時段的進站客流量 Figure 3 Inbound passenger flow in different periods
表2 實驗參數(shù)設(shè)定 Table 2 Experimental parameter setting
圖4 訓練曲線 Figure 4 Training curve
如表3 所示,與未采取客流控制相比較,采取客流控制后超限人數(shù)明顯減少。同時,如表4 所示,采取客流控制的情況下,乘客平均等待時間從4 min 43 s縮短到4 min 20 s。對應的客流進站率如表5 所示。
本研究提出的模型,使用實際的線路、車站與列車運行計劃以及實際刷卡的客流數(shù)量進行驗證。在實驗環(huán)境下,于15 min 之內(nèi)完成了100 次迭代,并在10 min
內(nèi)可以達到收斂,并開始趨于穩(wěn)定。在時間效率和數(shù)據(jù)規(guī)模與特征上,均可以對實際應用實施提供支撐。
表3 各時段乘客站臺超限量 Table 3 Platform overrun in each period 人
表4 平均等待時間 Table 4 Average waiting time
表5 地鐵八通線控制車站的客流進站率 Table 5 passenger flow control strategy of Metro Batong Line
同時,本研究提出的模型在應用實施時,也需要滿足一定的條件,并且還有待于進一步細化和完善,列舉如下:
1) 在應用實施時,本研究提出的模型需要獲取基本的數(shù)據(jù)輸入,包括線路車站節(jié)點序列、列車運行計劃、高峰期乘客出行OD 需求,各個車站的進站走行時間和站臺的安全容量,并設(shè)置控流下的列車最大滿載率。
2) 在模型應用實施時,可根據(jù)現(xiàn)場的要求和條件,進一步加強模型約束,并轉(zhuǎn)換控制方案的表達形式。例如,根據(jù)應用要求,縮小客流控制的車站和時間范圍,將進站率轉(zhuǎn)化成單位時間的進站人數(shù),以利用實施。
3) 本模型適用于線路單向大客流的控制,更適用于潮汐明顯的郊區(qū)向市中心連接的線路,如果應用于線路雙向大客流的控制,還需要對模型進行改進。
本研究提出了一種基于深度Q 網(wǎng)絡(luò)的多站客流協(xié)調(diào)控制模型,目標是在滿足站臺容量約束條件下,最小化地鐵車站乘客的站臺超限量、平均等待時間,提高客流控制強度的綜合效益。使用北京地鐵八通線,驗證了該模型和方法的可用性。與未采取客流控制的結(jié)果相比,采取客流控制策略,可以有效降低乘客等待時間,減少車站站臺乘客的超限人數(shù),提高乘客出行效率。