孫 劍
(北京地鐵通號分公司,北京 100082)
我國城市化和汽車化進(jìn)程加速,導(dǎo)致交通擁堵、交通事故、環(huán)境污染和能源短缺等問題日趨嚴(yán)重。在地鐵軌道交通體系中,需要對各種信號進(jìn)行控制,以保障列車安全、高效地行駛[1]。地鐵軌道交通信號智能控制是利用先進(jìn)的信息技術(shù)手段對地鐵列車進(jìn)行精細(xì)化運(yùn)行控制和調(diào)度,以提高地鐵運(yùn)行效率、安全性和服務(wù)質(zhì)量[2]。其目標(biāo)是通過合理地調(diào)整地鐵軌道交通信號來優(yōu)化交通流量分配、緩解交通擁堵、提高交通運(yùn)行效率、降低發(fā)生交通事故的概率以及提高交通安全性[3]。
為了進(jìn)一步實(shí)現(xiàn)對地鐵軌道交通信號的智能化控制,該文結(jié)合多Agent技術(shù)對地鐵軌道交通信號智能控制方法進(jìn)行研究。Agent技術(shù)可以對交通流量、路況以及車速等數(shù)據(jù)進(jìn)行實(shí)時監(jiān)測和分析,快速響應(yīng)交通狀況的變化。該技術(shù)還可以根據(jù)不同環(huán)境和條件進(jìn)行自我調(diào)整和優(yōu)化,以適應(yīng)不同的交通流量和路況,從而提高控制效率和精度。該技術(shù)具有快速響應(yīng)和實(shí)時處理的特點(diǎn),可以實(shí)現(xiàn)對地鐵軌道交通信號控制的實(shí)時監(jiān)測和控制功能,從而提高運(yùn)行效率和安全性[4]。
在地鐵軌道交通信號智能控制中,需要根據(jù)列車的位置、速度和狀態(tài)等信息實(shí)時監(jiān)測路段的情況,以便控制信號機(jī)的開關(guān)。同時,還需要設(shè)置適當(dāng)?shù)男盘栭g距和信號燈顏色等參數(shù),以保障列車行駛的安全性和高效性。
在地鐵軌道交通中,信號控制器通常被安裝在信號機(jī)箱內(nèi)(該機(jī)箱通常被安裝在路軌附近或者站臺的下方)。信號控制器的安裝位置需要考慮信號控制器與信號機(jī)之間的距離、信號控制器所需的電力和通信設(shè)施等因素。信號控制器會分布在軌道線路的各個關(guān)鍵位置,例如車站、隧道入口以及信號區(qū)間等位置(這些位置通常是列車行駛的關(guān)鍵節(jié)點(diǎn))。交通信號控制器示意圖如圖1所示。
圖1 交通信號控制器示意圖
在控制器中,各個模塊的基本功能如下:1)感知模塊。感知模塊負(fù)責(zé)獲取并監(jiān)測列車的實(shí)時位置、速度和狀態(tài)等關(guān)鍵信息,并將其傳輸給控制模塊進(jìn)行處理和分析。2)控制模塊??刂颇K是信號控制器的核心部分,會根據(jù)實(shí)時的列車位置和路段情況計算最優(yōu)的信號控制方案,并給信號機(jī)發(fā)送控制命令。3)通信模塊。通信模塊負(fù)責(zé)與其他設(shè)備或者控制中心進(jìn)行通信,以實(shí)現(xiàn)信息交換和下發(fā)控制命令等功能,確保實(shí)時共享和協(xié)調(diào)數(shù)據(jù)。4)存儲模塊。存儲模塊可以存儲歷史數(shù)據(jù)和控制參數(shù)等信息,以便后續(xù)的分析和優(yōu)化[5]。該模塊會持久存儲感知模塊獲取的數(shù)據(jù)、控制模塊計算的控制方案和其他相關(guān)信息。
由于地鐵軌道交通流的動態(tài)時變性較強(qiáng)且具有一定的隨機(jī)性和不確定性,因此應(yīng)用的控制器不僅需要具備對狀態(tài)的識別功能,而且需要具備自尋優(yōu)的控制策略和對外界環(huán)境的適應(yīng)能力[6]??刂破髟趹?yīng)用過程中需要不斷學(xué)習(xí),其實(shí)現(xiàn)過程如下:假設(shè)決策時間步長為k,地鐵軌道交通環(huán)境狀態(tài)為sk。通常情況下,地鐵軌道交通狀態(tài)包括的交通信息為綠燈已經(jīng)持續(xù)的時間Tr、綠燈相位的交通流量F以及各個紅燈相位當(dāng)中排隊長度最大值L。根據(jù)上述假設(shè),確定地鐵軌道交通環(huán)境的狀態(tài)集合如公式(1)所示。
式中:Trk為決策時間步長k下交通信息為綠燈已經(jīng)持續(xù)的時間;Fk為決策時間步長k下綠燈相位的交通流量;Lk為決策時間步長k下各個紅燈相位當(dāng)中排隊長度最大值。
再假設(shè)控制器針對狀態(tài)sk所選擇的行為為ak,ak的設(shè)定分為2 種:1)將通行權(quán)切換為下一個相位。2)保持當(dāng)前的相位通行權(quán)到下一個時刻。為了防止某個階段發(fā)生意外或者某個階段的通行權(quán)限無限擴(kuò)大,該文提出了一種基于經(jīng)驗的方法,針對各個階段分別設(shè)定最短的綠燈時間和最長的綠燈時間。在控制器學(xué)習(xí)的過程中,懲罰函數(shù)是修改策略的基礎(chǔ)條件,懲罰函數(shù)的選擇如公式(2)所示。
式中:r(s,a)為控制器的懲罰函數(shù);Pr和Pg為2 個權(quán)重因子;La為等待時間的警戒值;Lr為等待時間的最大值;Lg為等待時間。
在控制器學(xué)習(xí)的過程中,每個Agent 會根據(jù)當(dāng)前的環(huán)境狀態(tài)和感知的信息選擇最優(yōu)的行為來控制信號機(jī)??刂破鲗W(xué)習(xí)過程中的策略更新依賴于獎勵和懲罰信號,通過與環(huán)境的交互不斷調(diào)整和優(yōu)化控制策略。這樣,控制器可以逐漸學(xué)習(xí)最優(yōu)的控制策略,以縮短車輛等待時間、提高交通效率。
在完成對地鐵軌道交通信號控制器的設(shè)置工作后,結(jié)合Agent技術(shù)對地鐵軌道交通信號控制算法進(jìn)行計算。在地鐵軌道交通系統(tǒng)中,信號控制算法的計算至關(guān)重要,控制算法的設(shè)計和優(yōu)化直接影響地鐵運(yùn)行的安全性、效率和乘客的出行體驗。對控制算法進(jìn)行計算,可以實(shí)現(xiàn)智能化的信號控制功能,達(dá)到提高交通系統(tǒng)運(yùn)行效率、緩解交通擁堵以及優(yōu)化列車行進(jìn)速度和間隔的目標(biāo)。對控制算法進(jìn)行計算還可以幫助確定最優(yōu)的信號控制策略。通過分析和建模地鐵軌道交通系統(tǒng)的特點(diǎn)和需求,結(jié)合實(shí)時的交通數(shù)據(jù)和列車狀態(tài)信息,可以利用計算方法來推導(dǎo)最佳的信號控制方案。這些方案可以基于多Agent技術(shù)使各個信號機(jī)之間相互協(xié)調(diào)、協(xié)同工作,以最大程度地提高交通系統(tǒng)的整體效能。
首先,需要對車輛的信號狀態(tài)進(jìn)行描述,假設(shè)第k個相位的信號所顯示的狀態(tài)為ψk,針對不同狀態(tài)設(shè)置不同的ψk取值,如公式(3)所示。
當(dāng)?shù)趉相位為綠燈時,ψk取值為0;當(dāng)?shù)趉相位為紅燈時,ψk取值為1;當(dāng)?shù)趉相位為黃燈時,ψk取值為2。
其次,將信號顯示狀態(tài)與車輛到達(dá)時的狀態(tài)組合并將其作為交通狀態(tài),如公式(4)所示。
式中:pi為地鐵軌道交通狀態(tài);si為狀態(tài)類別,i=ψ,1,2,…,m。
在該基礎(chǔ)上,提出了一種基于經(jīng)驗的方法,并將其與實(shí)際情況相結(jié)合,具有很強(qiáng)的主觀性。結(jié)合實(shí)際情況,進(jìn)一步提出了地鐵軌道交通交通信號控制規(guī)則體系[7]。針對不同的地鐵軌道交通狀況,應(yīng)該生成n個相應(yīng)的規(guī)則。綜上所述,該文提出了一種基于時間序列的地鐵軌道交通信號控制方法。為了在控制過程中實(shí)現(xiàn)對停車延遲的統(tǒng)計功能,假設(shè)考察的時間由Γ個長度為Δs的時間段所構(gòu)成,在第i個時間段中,Δs內(nèi)一直處于靜止?fàn)顟B(tài)的車輛為Csi,從靜止?fàn)顟B(tài)轉(zhuǎn)變?yōu)樾旭偁顟B(tài)的車輛為Cmi,從行駛狀態(tài)轉(zhuǎn)變?yōu)殪o止?fàn)顟B(tài)的車輛為Cni,那么在Δs內(nèi)總停車延遲Ti如公式(5)所示。
其中,Csi、Cmi和Cni的取值均為自然數(shù)。
對地鐵軌道交通信號的控制目標(biāo)是通過調(diào)整信號盡可能地縮短停車延誤和等待延誤的時間,屬于延誤最小化問題,因此,確定地鐵軌道交通信號控制算法函數(shù)如公式(6)所示。
式中:minT為延誤最小化目標(biāo)函數(shù)值。
在控制的過程中,每間隔Δs的時間就需要對地鐵軌道交通狀態(tài)進(jìn)行1 次判定。根據(jù)狀態(tài)和相應(yīng)的控制規(guī)則采取控制行為。在地鐵軌道交通信號控制算法中,引入強(qiáng)化學(xué)習(xí),Agent 可以感知其環(huán)境的不同狀態(tài),并且可以執(zhí)行不同的動作。Agent 學(xué)習(xí)尋優(yōu)的過程可以通過馬爾科夫決策過程最優(yōu)策略問題描述,Agent 獲得的狀態(tài)轉(zhuǎn)換評價值即為回報值。當(dāng)回報值最大時,停止Agent 學(xué)習(xí),并將此時得到的函數(shù)作為地鐵軌道交通信號控制函數(shù)。
在確定地鐵軌道交通信號控制算法后,為了協(xié)調(diào)多個Agent,需要確保各個Agent 之間可以進(jìn)行信息傳遞。在交通信號控制Agent 控制的軌道上,因某種原因(例如發(fā)生設(shè)備故障,導(dǎo)致軌道擁堵)需要對軌道進(jìn)行協(xié)調(diào),以實(shí)現(xiàn)快速疏導(dǎo)的目標(biāo)。該協(xié)同要求是根據(jù)一個特定的鄰近的交通控制智能體提出的,是一種直接的一對一通信。當(dāng)交通控制智能體控制的信號燈顏色發(fā)生變化時,需要向其附近的所有地鐵軌道交通信號智能控制器發(fā)出相應(yīng)的信息,從而使其做出相應(yīng)的決策[8]。由于各個Agent 感知到的狀態(tài)是有限的,因此可以采用概率統(tǒng)計的方式協(xié)調(diào)多個Agent。根據(jù)公式(7)計算某一個Agent 對另一個Agent 處于某種狀態(tài)時所采取的動作信任度。
式中:Beli(x,j,ak j)為第i個Agent 對第j個Agent 在x狀態(tài)下所采取的動作aj的信任度;Nk j為Dirichlet 分布的參數(shù)。
根據(jù)相鄰信號智能控制器控制Agent 在當(dāng)前狀態(tài)下將要采取的動作信任度,從而給出最優(yōu)的反應(yīng)策略。
在多個Agent 的交通信號智能協(xié)調(diào)控制中,除了確保各個Agent 之間的信息傳遞和動作協(xié)調(diào)外,還需要考慮地鐵軌道交通網(wǎng)的整體利益,使其穩(wěn)定地運(yùn)行。為了實(shí)現(xiàn)這一目標(biāo),在控制過程中引入了博弈論和經(jīng)驗知識相結(jié)合的方法。
博弈論是一種分析決策制約條件和結(jié)果的數(shù)學(xué)工具,可以解決多個Agent 之間的沖突和協(xié)調(diào)問題。在地鐵軌道交通信號智能控制中,當(dāng)各個信號智能控制Agent 處于相鄰位置時,它們的決策會相互影響。通過博弈論的方法可以確定各個Agent 在不同狀態(tài)下采取的最佳動作,使整體的控制效果達(dá)到最佳。通過計算某一個Agent 對另一個Agent 處于某種狀態(tài)時所采取的動作的信任度,可以給出最優(yōu)的反應(yīng)策略。這種基于博弈論的協(xié)調(diào)方法能夠有效平衡各個Agent 之間的利益,提高整體交通系統(tǒng)的效率和穩(wěn)定性。
除了博弈論外,經(jīng)驗知識也被融入多個Agent 的交通信號智能協(xié)調(diào)控制中。經(jīng)驗知識是基于歷史數(shù)據(jù)和實(shí)踐經(jīng)驗總結(jié)出的規(guī)則和策略,可以調(diào)節(jié)協(xié)調(diào)過程中發(fā)生的狀況。例如在地鐵軌道交通信號智能控制過程中,當(dāng)控制區(qū)域內(nèi)的線路都處在交通高峰時,交通信號控制Agent 就不會再以博弈論為基礎(chǔ)進(jìn)行協(xié)調(diào),而是改為以管理Agent 為基礎(chǔ),通過管理Agent 的人機(jī)界面進(jìn)行協(xié)調(diào)控制。綜上所述,通過多個Agent 相互之間的協(xié)調(diào)控制確保最終控制效果為最理想狀態(tài)下的控制效果,同時也可以確保實(shí)現(xiàn)等待時間最短的控制效果。該方法可以有效提高交通系統(tǒng)的效率,緩解交通擁堵和延誤情況,為乘客提供更便捷、更舒適的出行體驗。
該文結(jié)合多Agent技術(shù)提出了一種全新的地鐵軌道交通信號智能控制方法,為了驗證該控制方法的可行性,選擇將基于有序樣本聚類的控制方法作為對照I 組,將基于電子信息技術(shù)的控制方法作為對照II 組,將該文提出的基于多Agent技術(shù)的控制方法作為試驗組。利用3 種控制方法對相同試驗對象進(jìn)行地鐵軌道交通信號控制。以某城市范圍內(nèi)的某一地鐵軌道交通作為試驗研究對象,為了對比3 種方法的控制效果,選擇將平均車輛等待時間作為評價指標(biāo)。在試驗過程中,按照以下內(nèi)容設(shè)置相同的試驗條件:將信號的轉(zhuǎn)換周期設(shè)置為120 s,將黃燈亮起的持續(xù)時間設(shè)置為5 s。在50 次控制中,記錄每種控制方法應(yīng)用下的平均車輛等待時間,結(jié)果記錄見表1。
表1 3 種控制方法控制效果對比表
對表1 中的試驗數(shù)據(jù)進(jìn)行分析可知,試驗組每10 次控制中平均等待時間均控制在65.00 s~70.00 s,當(dāng)控制次數(shù)從0 次~10 次增至40 次~50 次時,試驗組的平均等待時間逐漸縮短(68.25 s~65.63 s)。表明試驗組的控制方法在縮短車輛等待時間方面具有一定效果。對照I 組和對照II 組在整個試驗過程中的平均等待時間都較長,并且沒有明顯縮短的趨勢。對照I 組的平均等待時間為125.26 s~131.24 s,對照II 組的平均等待時間為124.25 s~135.26 s,平均等待時間均超過120.00 s,當(dāng)控制次數(shù)為30 次~40 次時,對照組II 的平均等待時間達(dá)到135.26 s,這表明對照I 組和對照II 組在縮短車輛等待時間方面效果比試驗組差。對照I 組和對照II 組控制方法不合理,延長了車輛等待時間,對地鐵軌道交通運(yùn)行效率有一定負(fù)面影響,而該文提出的基于多Agent技術(shù)的控制方法能夠有效縮短等待時間,提高地鐵軌道交通運(yùn)行效率,從而有效控制地鐵軌道交通信號。
綜上所述,該文將多Agent技術(shù)應(yīng)用到對地鐵軌道交通信號的控制中,提出了一種全新的智能控制方法。通過對比試驗驗證了該控制方法的有效性。通過對比得出,該文提出的控制方法可以有效縮短等待時間,從而提高地鐵軌道交通的運(yùn)行效率。