關(guān)鍵詞:區(qū)域交通信號協(xié)調(diào)控制;馬爾科夫決策;多智能體Nash Q Learning;LSTM;SUMO
中圖分類號:TP181 文獻(xiàn)標(biāo)志碼:A
0 引言(Introduction)
隨著城市汽車數(shù)量的急劇增加,城市交通系統(tǒng)面臨巨大的壓力,因此迫切需要更有效的交通信號控制方法提升路網(wǎng)通行效率[1-2]。然而,傳統(tǒng)的交通信號控制方法在面對復(fù)雜多變的交通流時(shí),很難精準(zhǔn)描述交通實(shí)時(shí)動態(tài)變化過程[3]。為了克服這一難題,近年來多智能體強(qiáng)化學(xué)習(xí)模型被引入相關(guān)研究,以優(yōu)化城市區(qū)域交通信號的控制過程[4-6]。宋太龍等[7]通過修正強(qiáng)化學(xué)習(xí)模型中獎勵(lì)函數(shù)計(jì)算方法,對交通信號配時(shí)進(jìn)行優(yōu)化。WU等[8]利用監(jiān)控?cái)z像頭和車聯(lián)網(wǎng)技術(shù)收集各個(gè)交叉口的狀態(tài)信息。田超等[9]提出構(gòu)建擁堵鏈和擁堵環(huán),以期綜合分析路網(wǎng)擁堵狀況。
上述方法雖然在城市交通信號控制方面取得了一定的進(jìn)展,但是缺乏對采集狀態(tài)數(shù)據(jù)進(jìn)行預(yù)處理的過程。同時(shí),強(qiáng)化學(xué)習(xí)算法遵循馬爾科夫決策過程(Markov Decision Process,MDP)僅能獲取部分可觀測狀態(tài)信息,降低了狀態(tài)數(shù)據(jù)集豐富度[10]。
針對以上問題,本文提出一種改進(jìn)的多智能體Nash QLearning交通信號協(xié)調(diào)控制方法。首先,該方法采用狀態(tài)離散編碼方法,對輸入模型的數(shù)據(jù)進(jìn)行預(yù)處理,以提高數(shù)據(jù)質(zhì)量。其次,在算法框架中融入長短時(shí)記憶網(wǎng)絡(luò)LSTM模塊,旨在從輸入數(shù)據(jù)中挖掘更多的可觀測狀態(tài)信息,提升模型的決策能力。
1 基于強(qiáng)化學(xué)習(xí)的區(qū)域交通信號控制(Regionaltraffic signal control based on reinforcementlearning)
城市交通擁堵問題日漸突出,給人們的日常出行帶來了一系列的問題。有效的交通信號控制方法對于緩解交通擁堵、減少車輛等待時(shí)間等問題具有重要的作用。城市交通路網(wǎng)中交叉口之間的關(guān)聯(lián)性越來越強(qiáng),特別是相鄰交叉口之間的交通流相互關(guān)聯(lián)、相互影響。當(dāng)其中一個(gè)交叉口發(fā)生交通擁堵情況時(shí),很可能導(dǎo)致關(guān)聯(lián)交叉口的交通延誤明顯增大。因此,設(shè)計(jì)有效的區(qū)域交通信號協(xié)調(diào)控制方法,提升整個(gè)區(qū)域的通行效率,具有重要的工程實(shí)際研究價(jià)值。
不失一般性,考慮如圖1所示的由三岔路口與“十”字路口構(gòu)成的區(qū)域路網(wǎng)。兩種不同類型的路口交通信號控制有不同的相位設(shè)置。在路口①,有3種不同的相位。首先,當(dāng)1車道綠燈亮起,車輛可以從1車道通行至4、6和11車道;其次,當(dāng)2車道綠燈亮起,車輛可以從2車道通行至4、6和11車道;最后,當(dāng)3車道綠燈亮起,車輛可以從3車道通行至4、6和11車道。此外,有一種傳統(tǒng)的“十”字路口,路口②③④⑤只有2種相位:東西直行和南北直行。這些相位設(shè)置是為了確保路口交通流暢,提高交通效率。
在本研究中,基于強(qiáng)化學(xué)習(xí)的區(qū)域交通信號控制過程可近似為區(qū)域路網(wǎng)中每個(gè)路口在進(jìn)行信號控制時(shí)的一個(gè)典型的馬爾科夫決策動態(tài)過程,通過五元組表示,其中S 為環(huán)境狀態(tài)集合,A 為智能體的動作空間集合,R 為在狀態(tài)S 中執(zhí)行A 中動作獲得的獎勵(lì)值,P:P(St+1=s'|St=s,At=a)為狀態(tài)轉(zhuǎn)移概率,γ∈[0,1]表示折扣因子。對整個(gè)區(qū)域路網(wǎng)進(jìn)行狀態(tài)空間、動作空間、獎勵(lì)函數(shù)定義,并建立狀態(tài)之間的轉(zhuǎn)移概率模型,然后計(jì)算每個(gè)狀態(tài)的價(jià)值函數(shù),并在此基礎(chǔ)上確定最優(yōu)策略,即在每個(gè)狀態(tài)下應(yīng)該采取的最佳動作,以最大化累計(jì)獎勵(lì)。利用馬爾科夫決策過程,確定區(qū)域路網(wǎng)中各個(gè)路口的最優(yōu)交通信號控制策略,進(jìn)而提升區(qū)域路網(wǎng)的通行效率。
2 強(qiáng)化學(xué)習(xí)基礎(chǔ)(The basics of reinforcementlearning)
強(qiáng)化學(xué)習(xí)是智能體通過與外部環(huán)境交互學(xué)習(xí)建立狀態(tài)與動作之間的映射關(guān)系,其學(xué)習(xí)的目標(biāo)就是能夠達(dá)到最大的獎勵(lì)回報(bào)函數(shù)值。在這個(gè)過程中,與外部環(huán)境交互并且能對環(huán)境做出反應(yīng)的體系稱為智能體。智能體獲取當(dāng)前的環(huán)境狀態(tài)和上一步的瞬時(shí)獎勵(lì),并利用所學(xué)到的策略確定最佳執(zhí)行動作。將動作作用于環(huán)境時(shí),環(huán)境發(fā)生變化,進(jìn)入一個(gè)新的狀態(tài),環(huán)境產(chǎn)生帶評價(jià)性的瞬時(shí)獎勵(lì)并反饋給智能體。強(qiáng)化學(xué)習(xí)的本質(zhì)是智能體通過不斷與環(huán)境進(jìn)行交互,學(xué)習(xí)并優(yōu)化策略,從而最大化其能獲得的累計(jì)獎勵(lì)。
如圖2所示,智能體與環(huán)境的交互通常通過馬爾科夫決策過程進(jìn)行建模。馬爾科夫決策過程為所有強(qiáng)化學(xué)習(xí)算法的基礎(chǔ),完整的馬爾科夫決策過程用一個(gè)由每時(shí)刻的狀態(tài)St、動作At 及獎勵(lì)值R(St,At)組成的序列表示,這一序列的核心特點(diǎn)是,環(huán)境下一時(shí)刻的狀態(tài)與獎勵(lì)只取決于當(dāng)前時(shí)刻的狀態(tài)與智能體的動作,并且環(huán)境的狀態(tài)轉(zhuǎn)移概率是不變的,這一特性也被稱為馬爾科夫特性。強(qiáng)化學(xué)習(xí)的目的是學(xué)到一個(gè)可以盡可能提高累計(jì)獎勵(lì)的策略,在任務(wù)中累計(jì)獲得的獎勵(lì)也稱為回報(bào)。一般將回報(bào)定義為
3.2.2 動作空間
本研究構(gòu)建了一個(gè)包括“Y”字形路網(wǎng)在內(nèi)的六路口區(qū)域路網(wǎng)模型。如圖5所示,該路網(wǎng)主要由兩種類型的路口構(gòu)成:編號為①②③④⑤的路口屬于第一類,為傳統(tǒng)“十”字形路口,設(shè)置了東西直行和右轉(zhuǎn)、南北直行和右轉(zhuǎn)2個(gè)相位;編號為⑥的路口屬于第二類,設(shè)置了3個(gè)相位(車輛從三岔路口的一條進(jìn)車道進(jìn)入可放行至對面任意一條三岔路口出車道,3條進(jìn)車道的放行方式相同)。圖6展示了上述6個(gè)路口對應(yīng)的兩類不同交通信號相位設(shè)置。在兩類路口中,第一類路口有2個(gè)相位,第二類路口有3個(gè)相位,這些相位被定義為智能體的動作空間。在每個(gè)控制步中,每個(gè)智能體只能執(zhí)行如圖7所示的某個(gè)相位。當(dāng)一個(gè)控制步結(jié)束時(shí),智能體執(zhí)行的動作可以保持當(dāng)前相位,或者按照圖7中的運(yùn)行邏輯執(zhí)行下一個(gè)相位。通過執(zhí)行一系列的動作,智能體實(shí)現(xiàn)了路口交通信號控制方案的動態(tài)更新。
3.2.3 獎勵(lì)函數(shù)
獎勵(lì)函數(shù)可選取等待時(shí)間、停車次數(shù)、排隊(duì)長度等來反映獎勵(lì)值的大小。在本文中,獎勵(lì)函數(shù)定義為在相鄰兩個(gè)時(shí)間步中,區(qū)域路網(wǎng)路口所有車道上車輛總的等待時(shí)間之差,所有車輛既包括正在行駛的車輛,又包括等待通行的車輛,則獎勵(lì)函數(shù)公式定義為
R=Wt-Wt+1 (13)
其中:Wt 表示在第t個(gè)采樣時(shí)間步,區(qū)域路網(wǎng)路口各條車道上車輛的等待時(shí)間之和;Wt+1 表示第t+1個(gè)采樣時(shí)間步,區(qū)域路網(wǎng)路口各條車道上車輛的等待時(shí)間之和。
設(shè)計(jì)上述獎勵(lì)函數(shù)的目的是使智能體更有效地管理車流,減少車輛的等待時(shí)間,并提高整體交通效率。隨著車輛等待時(shí)間的減少,獎勵(lì)值將相應(yīng)增加,從而鼓勵(lì)智能體選擇能夠最大化獎勵(lì)的交通信號控制策略。
3.2.4 Nash Q Learning-LSTM算法
本研究提出一種改進(jìn)的多智能體Nash Q Learning算法,旨在提升區(qū)域內(nèi)多個(gè)交叉口的車輛通行效率,減少車輛排隊(duì)長度和等待時(shí)間。在該算法中,每個(gè)控制交通信號燈的交叉口都被看作一個(gè)獨(dú)立的智能體,采用Q Learning算法進(jìn)行決策,其核心目標(biāo)是通過選擇具有最大Q值的動作,利用貪婪算法選擇最優(yōu)策略,旨在最大限度地緩解交通擁堵問題。當(dāng)所有智能體一同訓(xùn)練時(shí),系統(tǒng)將達(dá)到納什均衡狀態(tài)。本文將LSTM 網(wǎng)絡(luò)引入Nash Q Learning算法中,提出了一種新的多智能體Nash Q Learning 算法,即Nash Q Learning-LSTM 算法。LSTM 網(wǎng)絡(luò)用于捕獲潛在的狀態(tài)信息,豐富輸入Nash QLearning模型的狀態(tài)數(shù)據(jù)集,從而提高模型的決策能力。NashQ Learning-LSTM交通信號控制框架如圖8所示。
在如圖8所示的框架中,算法網(wǎng)絡(luò)從每個(gè)路口環(huán)境中接收由離散化編碼法和單元格劃分法得到的狀態(tài)數(shù)據(jù)集。這些數(shù)據(jù)經(jīng)過算法中的兩層全連接層進(jìn)行狀態(tài)特征提取,隨后輸入LSTM網(wǎng)絡(luò)。LSTM網(wǎng)絡(luò)的作用是發(fā)掘隱藏的狀態(tài)信息,以提升狀態(tài)數(shù)據(jù)集的完整性。在算法訓(xùn)練過程中,新的狀態(tài)數(shù)據(jù)集與動作集構(gòu)成了Q值表。在每一回合中,算法會遍歷Q值表,選取其中最大的Q值對應(yīng)的動作,作為最優(yōu)動作來改變信號燈的相位。改變信號燈相位后,系統(tǒng)將反饋獎勵(lì)值給智能體。融入了LSTM 網(wǎng)絡(luò)的Nash Q Learning-LSTM 算法在所有智能體一同訓(xùn)練后,系統(tǒng)將達(dá)到納什均衡狀態(tài),使每個(gè)路口都能得到當(dāng)前狀態(tài)下的最優(yōu)動作。
Nash Q Learning-LSTM算法流程如算法1所示。
首先,在網(wǎng)絡(luò)算法中對狀態(tài)、動作和Q值表進(jìn)行初始化。通過全連接層,將來自環(huán)境的初步狀態(tài)信息合并以提取網(wǎng)絡(luò)所需的狀態(tài)特征,這些特征包括車輛的位置信息、車輛排隊(duì)長度信息和車輛數(shù)量信息。其次,將狀態(tài)特征輸入LSTM 網(wǎng)絡(luò)中,在經(jīng)過一系列內(nèi)部結(jié)構(gòu)的更新后獲取隱藏狀態(tài)信息,形成增強(qiáng)狀態(tài)。在由增強(qiáng)狀態(tài)和動作組成的Q值表中,Nash Q Learning 算法會選擇具有最大Q值的最優(yōu)動作。當(dāng)交通信號燈執(zhí)行了最優(yōu)動作選擇的相位,環(huán)境將發(fā)生改變,進(jìn)入下一個(gè)狀態(tài),并同時(shí)產(chǎn)生獎勵(lì)值反饋給智能體。其中,Q值的更新遵循納什Q值方程,詳見公式(9)。
4 仿真與結(jié)果分析(Simulation and result analysis)
4.1 仿真環(huán)境與參數(shù)設(shè)置
了驗(yàn)證本文所提方法的有效性,以如圖5所示的路網(wǎng)為例,基于微觀交通仿真平臺SUMO(Simulation of UrbanMobility)搭建仿真環(huán)境。為便于實(shí)驗(yàn),各進(jìn)口方向均設(shè)置為單向行駛的單車道。為了展示本文所提方法在不同交通流量狀態(tài)下的控制效果,設(shè)置了3種不同交通流量模式,其中低流量(3500輛/回合),即在本文的區(qū)域路網(wǎng)中生成3 500輛車,并通過隨機(jī)方式設(shè)置每輛車的出發(fā)地和目的地,待車輛全部通過路網(wǎng)后回合結(jié)束。中流量、高流量同理,中流量為每回合生成7000輛車,高流量為每回合生成10000輛車。參數(shù)設(shè)置如表1所示。
4.2 實(shí)驗(yàn)結(jié)果與分析
為了驗(yàn)證改進(jìn)后的Nash Q Learning-LSTM 算法相較于原始Nash Q Learning算法的優(yōu)越性,本文進(jìn)行了對比分析。同時(shí),為了更全面地評估改進(jìn)算法的性能,本文還選擇了傳統(tǒng)的固定配時(shí)交通信號控制方法和自適應(yīng)交通信號控制方法作為對照組并進(jìn)行了仿真實(shí)驗(yàn)測試。在傳統(tǒng)交通信號控制方法中,固定配時(shí)控制方法中各交叉口的相序和各相位綠燈時(shí)長始終保持不變。自適應(yīng)交通信號控制算法可以根據(jù)交叉口的實(shí)時(shí)交通狀態(tài),動態(tài)調(diào)整交叉口的信號配時(shí)方案,以適應(yīng)交通狀態(tài)的變化。這些對照組的使用有助于驗(yàn)證改進(jìn)后多智能體強(qiáng)化學(xué)習(xí)方法的有效性。
針對低流量、中流量、高流量3種交通流量條件,對上述不同的交通信號控制方法進(jìn)行了比較分析。考慮以下3個(gè)評價(jià)指標(biāo):車輛平均等待時(shí)間、平均排隊(duì)長度和平均停車次數(shù)。在每個(gè)回合中,當(dāng)交通信號控制方法獲得更高的獎勵(lì)時(shí),車輛的等待時(shí)間會更短,同時(shí)車輛的排隊(duì)長度和停車次數(shù)也會減少(圖9)。這一系列實(shí)驗(yàn)旨在驗(yàn)證本文提出的Nash Q Learning-LSTM算法應(yīng)用在多智能體交通信號控制任務(wù)中的有效性,并與傳統(tǒng)方法進(jìn)行比較,以便更好地理解其性能和潛在優(yōu)勢。不同交通信號控制方法的測試結(jié)果如表2所示。其中,自適應(yīng)交通信號控制算法能夠根據(jù)實(shí)時(shí)交通情況和道路條件進(jìn)行動態(tài)調(diào)整,而不是依賴于預(yù)設(shè)的定時(shí)計(jì)劃,能夠更快速地適應(yīng)交通變化、提高區(qū)域交通流量和減少交通延誤。與固定配時(shí)控制方法相比,如圖10至圖12所示,在低流量、中流量、高流量3種車流量下,自適應(yīng)交通信號控制算法在車輛平均等待時(shí)間、平均排隊(duì)長度、平均停車次數(shù)評價(jià)指標(biāo)上都優(yōu)于固定配時(shí)控制方法。其中,車輛的平均等待時(shí)間分別減少了18.1%、18.2%、13.4%,平均排隊(duì)長度分別減少了17.5%、11.1%、17.2%,平均停車次數(shù)分別減少了20.5%、17.2%、13.5%?;诙嘀悄荏w強(qiáng)化學(xué)習(xí)的交通信號控制方法具有更好的自適應(yīng)性,可以通過明確的獎勵(lì)機(jī)制指導(dǎo)交通控制的決策,從而使得優(yōu)化目標(biāo)更明確和可調(diào)控,還能通過探索新的策略尋找更優(yōu)動作,也能夠利用已有的經(jīng)驗(yàn)提高算法訓(xùn)練效率。與自適應(yīng)交通信號控制算法相比,基于多智能體強(qiáng)化學(xué)習(xí)Nash Q Learning算法,在低流量、中流量、高流量下車輛的平均等待時(shí)間分別減少了9%、6.4%和3.1%,平均排隊(duì)長度分別減少了3.8%、1.2%和0.6%,平均停車次數(shù)分別減少了3.9%、7.6%和3%。進(jìn)一步在Nash Q Learning算法結(jié)構(gòu)中加入LSTM 網(wǎng)絡(luò),改進(jìn)后的Nash Q Learning-LSTM算法在低流量、中流量、高流量下車輛的平均等待時(shí)間分別減少了11.5%、16.2%和10.0%,平均排隊(duì)長度分別減少了9.1%、8.2%和7.6%,平均停車次數(shù)分別減少了18.3%、16.1%和10.0%。改進(jìn)的Nash Q Learning-LSTM的累計(jì)獎勵(lì)、車輛平均等待時(shí)間、車輛平均排隊(duì)長度、車輛平均停車次數(shù)都優(yōu)于Nash Q Learning算法的相應(yīng)指標(biāo)。
實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)交通信號控制方法和原始Nash QLearning算法相比,加入LSTM 網(wǎng)絡(luò)的Nash Q Learning-LSTM算法展現(xiàn)出更好的控制效果。
5 結(jié)論(Conclusion)
本文提出一種基于改進(jìn)的多智能體Nash Q Learning的區(qū)域交通信號協(xié)調(diào)控制方法,用于實(shí)現(xiàn)對區(qū)域多交叉口的交通信號控制。所提算法的一個(gè)特色之處是引入了LSTM 模塊,用于更全面地捕獲可觀測狀態(tài)信息,豐富輸入Nash Q Learning模型的狀態(tài)數(shù)據(jù)集,從而提高模型的決策能力。此外,采用離散編碼方法將區(qū)域路口的進(jìn)出口路段劃分為不同長度的單元格,以便獲取狀態(tài)數(shù)據(jù),并依據(jù)不同車流量大小選擇狀態(tài)影響向量以準(zhǔn)確描述各車道上的交通狀態(tài)。通過一系列仿真實(shí)驗(yàn),將改進(jìn)后的Nash Q Learning-LSTM 算法與原始Nash QLearning算法、固定配時(shí)控制方法和自適應(yīng)控制算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明,在不同交通流量大小的情況下,改進(jìn)后的Nash Q Learning-LSTM算法在累計(jì)獎勵(lì)、車輛平均等待時(shí)間、平均排隊(duì)長度及平均停車次數(shù)等關(guān)鍵性能指標(biāo)上均展現(xiàn)出了顯著的優(yōu)勢,相較于其他對照組算法,其性能表現(xiàn)更為出色。
作者簡介:
蘇港(1997-),女,碩士生。研究領(lǐng)域:強(qiáng)化學(xué)習(xí)及其在交通信號控制中的應(yīng)用。
葉寶林(1984-),男,博士,副教授。研究領(lǐng)域:深度強(qiáng)化學(xué)習(xí)及其在智能交通系統(tǒng)中的應(yīng)用。
姚青(1974-),女,博士,教授。研究領(lǐng)域:機(jī)器視覺,視頻圖像,GIS的信息技術(shù)應(yīng)用研究。
陳濱(1987-),男,博士,副教授。研究領(lǐng)域:智慧交通,圖像處理,深度學(xué)習(xí),區(qū)塊鏈技術(shù)。
張一嘉(1981-),男,博士,高級工程師。研究領(lǐng)域:通信對抗,軟件無線電,復(fù)雜網(wǎng)絡(luò)。