張 蕾,郭全盛,林建新,李建武
(1. 北京建筑大學(xué)電氣與信息工程學(xué)院,北京 100044;2. 建筑大數(shù)據(jù)智能處理方法研究北京市重點(diǎn)實(shí)驗(yàn)室,北京 100044;3. 北京建筑大學(xué)土木與交通工程學(xué)院,北京 100044;4. 北京理工大學(xué)前沿技術(shù)研究院,北京 100081)
近年來,隨著城市的不斷擴(kuò)張以及人口的快速增長,全球大都市中的交通運(yùn)輸需求急劇提升。超大規(guī)模的交通流量給現(xiàn)有基礎(chǔ)設(shè)施帶來巨大壓力,導(dǎo)致嚴(yán)重?fù)矶?加劇了碳排放污染,給城市規(guī)劃、社會(huì)穩(wěn)定帶來負(fù)面影響。緩解城市交通擁堵是國家“十四五”規(guī)劃中加快建設(shè)交通強(qiáng)國的重點(diǎn)和難點(diǎn),是刻不容緩的。城市交通車流量變化之間有著復(fù)雜且緊密的聯(lián)系,通過有效調(diào)控,疏導(dǎo)車輛選擇合適的通行線路,為有關(guān)部門提供科學(xué)的決策支撐,進(jìn)行有針對(duì)性的交通疏導(dǎo),提高通行效率和經(jīng)濟(jì)效益。
自適應(yīng)交通信號(hào)控制(Adaptive Traffic Signal Control,ATSC)旨在根據(jù)交通現(xiàn)狀實(shí)時(shí)調(diào)控交通信號(hào)燈的變化,緩解交通路網(wǎng)中存在的交通擁堵現(xiàn)象,提升車輛通行效率。在網(wǎng)格狀的路網(wǎng)中,如在車流量密集的市中心區(qū)域,傳統(tǒng)的多道路交叉口控制方法通過在所有交叉口之間設(shè)置固定偏移量實(shí)現(xiàn)協(xié)調(diào)控制,最經(jīng)典的是FixedTime算法[1],該算法設(shè)置了隨機(jī)偏移量和固定的信號(hào)變化時(shí)間。此外,美國交通運(yùn)輸委員會(huì)與美國聯(lián)邦公路局編寫的信號(hào)控制手冊(cè)中也采用了類似方法[2]。然而,上述方法過于簡單,現(xiàn)實(shí)交通網(wǎng)絡(luò)難以達(dá)到理想狀態(tài),很難通過固定偏移量進(jìn)行全局優(yōu)化。
針對(duì)此缺陷,研究人員提出基于優(yōu)化的算法,最常見的是基于馬爾可夫決策過程(Markov Decision Process,MDP)的強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)算法,用于對(duì)真實(shí)世界的交通量進(jìn)行動(dòng)態(tài)調(diào)控[3]。例如,Wei等[4]提出基于強(qiáng)化學(xué)習(xí)的IntelliLight模型,使用深度Q網(wǎng)絡(luò)(Deep Q Network,DQN)對(duì)交通環(huán)境進(jìn)行分析,進(jìn)而預(yù)測交通信號(hào)燈的下一個(gè)狀態(tài)。近年來,強(qiáng)化學(xué)習(xí)領(lǐng)域的重要分支——Actor-Critic (A2C,演員-評(píng)論家)算法被廣泛用于ATSC中,并通過深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)來模擬A2C的策略和狀態(tài)[5]。Hua等[6]提出了CoLight模型,使用圖注意力網(wǎng)絡(luò)結(jié)合相鄰交叉點(diǎn)之間的影響,用于對(duì)多個(gè)交通信號(hào)燈進(jìn)行控制。Chu等[7]提出了多智能體A2C模型(Multi-agent A2C,MA2C),將深度神經(jīng)網(wǎng)絡(luò)與多智能體強(qiáng)化學(xué)習(xí)(Multi-agent Reinforcement Learning,MARL)結(jié)合,在交通信號(hào)控制領(lǐng)域中得到了較好的實(shí)驗(yàn)效果。然而,以上算法的表達(dá)能力易受策略設(shè)計(jì)的影響,即錯(cuò)誤的策略反而降低交通調(diào)控的效果。
強(qiáng)化學(xué)習(xí)主要分為三類:基于價(jià)值的方法(value based)、基于策略的方法(policy based)和演員-評(píng)論家算法(Actor-Critic,A2C)。由于A2C算法既可以處理高維連續(xù)的行動(dòng),又可以單步更新快速學(xué)習(xí),因此,在具有線性回歸智能體的ATSC中,A2C算法的表現(xiàn)優(yōu)于前兩種[10]。
(1)
(2)
在多智能體網(wǎng)絡(luò)G=(V,ε)中,V是節(jié)點(diǎn)集,ε是路徑集。如果節(jié)點(diǎn)i和j之間存在邊,則稱它們?yōu)猷従庸?jié)點(diǎn)。i的鄰居節(jié)點(diǎn)定義為Ni,本地區(qū)域定義為Vi=Ni∪i。此外,d(i,j)為連接任意兩個(gè)智能體之間的最小邊數(shù)。
在多智能體Actor-Critic算法 (Multi-agent Actor-Critic,MA2C)中,首先,提取鄰居節(jié)點(diǎn)的策略信息,用來提高每一個(gè)智能體的可觀察性;其次,提出空間折扣因子,削弱來自其它智能體狀態(tài)和獎(jiǎng)勵(lì)的信息。在智能體之間聯(lián)系有限的情況下,從鄰居智能體之間抽樣最新策略πt-1,將Ni=[πt-1,j]j∈Ni作為深度神經(jīng)網(wǎng)絡(luò)的輸入,此時(shí),當(dāng)前狀態(tài)為st,Vi。局部(local)策略公式如下
πt,i=πθi(·|st,Vi,πt-1,Ni)
(3)
其中,πθi為第i個(gè)智能體采用策略梯度算法直接用參數(shù)化模型擬合的策略[11]。由此,局部智能體將接收到實(shí)時(shí)的最近鄰居智能體的策略。這是基于兩個(gè)交通控制事實(shí):首先是交通狀態(tài)在短時(shí)間內(nèi)變化緩慢,因此,當(dāng)前步驟策略與最后一步策略非常相似;其次是在當(dāng)前的狀態(tài)和策略下,交通狀態(tài)的動(dòng)態(tài)變化符合馬爾科夫決策過程。
雖然局部智能體知道局部區(qū)域狀態(tài)和鄰域策略,但難以通過局部的價(jià)值回歸來擬合全局回報(bào)。為了達(dá)到全局合作的效果,假設(shè)全局獎(jiǎng)勵(lì)分解為rt=∑i∈Vrt,i,引入空間折扣因子α,調(diào)整智能體i的全局獎(jiǎng)勵(lì)
(4)
其中,Di是與智能體i之間的最大距離,α類似于強(qiáng)化學(xué)習(xí)中的時(shí)間折扣因子γ,此處是按照空間順序而不是時(shí)間順序按比例縮小信號(hào),折扣全局獎(jiǎng)勵(lì)在貪心控制(α=0)和合作控制(α=1)之間得到平衡,且與估計(jì)局部策略πθi的優(yōu)勢更相關(guān)。使用α將鄰居狀態(tài)轉(zhuǎn)化為
(5)
(6)
其中,Vωi是智能體學(xué)習(xí)到的價(jià)值函數(shù)。價(jià)值損失式(2)變?yōu)?/p>
(7)
(8)
為了避免傳統(tǒng)強(qiáng)化學(xué)習(xí)中各智能體之間缺乏聯(lián)系、算法策略不佳等問題,提出顧及路口壓力的多智能體Actor-Critic算法(Intersection Pressure-based Mulit-agent A2C,IPMA2C)。首先,基于顧及路口壓力的強(qiáng)化學(xué)習(xí)策略對(duì)交通路口進(jìn)行分析,通過緩解壓力的方法對(duì)路網(wǎng)進(jìn)行優(yōu)化;其次,構(gòu)建基于深度神經(jīng)網(wǎng)路的多智能體Actor-Critic模型,提升交通調(diào)控能力。
1) 交通路口的進(jìn)車道、出車道
交通路口的進(jìn)車道是車輛進(jìn)入交通路口的車道,交通路口的出車道是車輛駛出該路口的車道。將交通路口的進(jìn)車道集合表示為Lin,出車道集合表示為Lout。
2) 交通運(yùn)動(dòng)
交通運(yùn)動(dòng)定義為汽車從一個(gè)進(jìn)車道通過一個(gè)交通路口行駛到一個(gè)出車道。將通過一個(gè)交通路口的交通行為表示為(l,m),其中,l是進(jìn)車道,m是出車道。
3) 運(yùn)動(dòng)信號(hào)、相位
以交通路口信號(hào)控制車輛的運(yùn)動(dòng),其中,綠燈表示允許移動(dòng),紅燈表示禁止移動(dòng)。將運(yùn)動(dòng)信號(hào)定義為a(l,m),其中,a(l,m)=1表示綠燈,即允許運(yùn)動(dòng)(l,m),a(l,m)=0表示紅燈,即禁止運(yùn)動(dòng)(l,m)。相位是運(yùn)動(dòng)信號(hào)的組合,定義為p={(l,m)|a(l,m)=1},其中,l∈Lin,m∈Lout。
4) 運(yùn)動(dòng)壓力、交通路口壓力
(9)
如果所有車道的最大容量xmax相同,則w(l,m)只表示進(jìn)出車輛數(shù)量之間的差異。
交通路口i的壓力定義為所有交通運(yùn)動(dòng)的絕對(duì)壓力之和
(10)
壓力Pi表示車輛進(jìn)出密度的不平衡程度,Pi越大,車輛分布就越不平衡。
因此,將多路口交通信號(hào)調(diào)控問題描述為:每個(gè)路口都由一個(gè)強(qiáng)化學(xué)習(xí)智能體來控制交通信號(hào)燈,在每個(gè)時(shí)間步t內(nèi),智能體i從環(huán)境中觀察到自己的狀態(tài)。給定車輛分布和當(dāng)前信號(hào)階段,智能體的目標(biāo)是采取最優(yōu)動(dòng)作at,i(即交通路口的信號(hào)燈進(jìn)入哪個(gè)階段),從而獲得最大獎(jiǎng)勵(lì)(即所有車輛的平均行駛時(shí)間最短)。
1) 狀態(tài)(State)
狀態(tài)是為一個(gè)單獨(dú)的交通路口定義的,即多智能體強(qiáng)化學(xué)習(xí)中智能體觀察到的內(nèi)容,包括該交通路口i在t時(shí)刻每個(gè)進(jìn)車道的車輛數(shù)xt,i(l)(l∈Lin,i),及在t時(shí)刻出車道的車輛數(shù)xt,i(m)(m∈Lout,i)。狀態(tài)表示為
st,i={xt,i(l),xt,i(m)}l∈Lin,i,m∈Lout,i
(11)
其中,l是交通路口i的進(jìn)車道,m是交通路口i的出車道,Lin,i是進(jìn)車道的集合,Lout,i是出車道的集合。
2) 動(dòng)作(Action)
在t時(shí)刻,每個(gè)智能體從動(dòng)作集A中選擇一個(gè)動(dòng)作at,i作為該階段的動(dòng)作,即信號(hào)接下來的狀態(tài)。每個(gè)智能體有四個(gè)動(dòng)作,分別為東西直行,東西左轉(zhuǎn),南北直行,南北左轉(zhuǎn),如圖1。
圖1 動(dòng)作定義圖
圖1中,(a)東西直行 (b)東西左轉(zhuǎn) (c)南北直行 (d)南北左轉(zhuǎn)
3) 獎(jiǎng)勵(lì)(Reward)
定義智能體i的獎(jiǎng)勵(lì)為
rt,i=-Pt,i
(12)
其中,Pt,i是第i個(gè)交通路口在t時(shí)刻的壓力,即進(jìn)出車道上車輛密度之間的不平衡程度。通過最小化Pt,i,使路網(wǎng)內(nèi)的車輛可以均勻分布,進(jìn)而優(yōu)化路網(wǎng)的車輛吞吐量。
由于交通流是復(fù)雜的時(shí)空數(shù)據(jù),如果智能體只知道當(dāng)前時(shí)刻的狀態(tài),則馬爾科夫決策過程可能會(huì)變得不穩(wěn)定。最簡單的方法是將所有歷史狀態(tài)全部輸入到Actor-Critic算法中,但是會(huì)顯著增加狀態(tài)的維度,減少Actor-Critic對(duì)最臨近交通狀況的關(guān)注。LSTM可以保持隱藏狀態(tài)并記住簡短的歷史信息[12],因此,本文將LSTM作為隱藏層,從輸入中提取信息。
IPMA2C模型如圖2所示。首先,狀態(tài)和鄰居策略分別輸入到全連接層FC;然后,利用LSTM作為最后一個(gè)隱藏層從狀態(tài)中提取特征;輸出層連接Actor-Critic算法的Actor和Critic兩部分,其中Actor對(duì)應(yīng)的是Softmax函數(shù),Critic對(duì)應(yīng)的是Linear函數(shù)。采用正交初始化[13]和RMSprop[14]作為梯度優(yōu)化器。對(duì)于每個(gè)輸入的狀態(tài),采用貪婪策略收集交通環(huán)境的統(tǒng)計(jì)數(shù)據(jù)。為防止梯度爆炸,所有歸一化的狀態(tài)被縮放到[0,2]范圍內(nèi),且每個(gè)梯度的上限為40。類似,將獎(jiǎng)勵(lì)歸一化并縮放到[-2,2],以穩(wěn)定小批量更新。
圖2 IPMA2C模型
基于SUMO[15]平臺(tái),生成由25個(gè)交通路口和信號(hào)燈構(gòu)成的模擬交通網(wǎng)絡(luò),如圖3。該網(wǎng)絡(luò)由限速20m/s的雙車道主干道組成,其中,交通路口間的距離為300m。每個(gè)路口的動(dòng)作包括:東西直行、東西左轉(zhuǎn)、南北直行和南北左轉(zhuǎn)四種,車輛可以自主右轉(zhuǎn)。設(shè)F1={x4->x10,x5->x11,x6->x12}(東->西),F2={x1->x7,x2->x8,x3->x9}(北->南)為兩組車輛起點(diǎn)至目的地(Origin-Destination,OD)的集合。
圖3 包含25個(gè)路口的5×5模擬交通網(wǎng)絡(luò)圖,圓圈內(nèi)為示例交通路口
初始狀態(tài),大量車流從F1的起點(diǎn)不斷生成,少量車流從F2的起點(diǎn)生成。15分鐘后,F1生成少量車流,F2則變?yōu)樯纱罅寇嚵?由此循環(huán)往復(fù)。通過生成大量的車流以產(chǎn)生交通擁堵,檢測IPMA2C模型在交通疏導(dǎo)方面的能力。
為了在模型運(yùn)行時(shí)間Ts內(nèi)模擬交通環(huán)境,定義Δt為強(qiáng)化學(xué)習(xí)中智能體與交通環(huán)境之間的交互周期。如果Δt太長,智能體無法對(duì)路網(wǎng)產(chǎn)生有效調(diào)控;如果Δt太短,智能體的即時(shí)決策將無法按時(shí)傳達(dá)。此外,如果交通燈的控制切換過于頻繁,則會(huì)存在安全隱患。設(shè)Ts=3600s,Δt=5s。對(duì)于馬爾科夫決策過程,設(shè)γ=0.99,α=0.75,獎(jiǎng)勵(lì)系數(shù)a=0.2veh/s,狀態(tài)和獎(jiǎng)勵(lì)的歸一化因子分別為5veh和2000veh;對(duì)于IPMA2C模型,設(shè)minibatch的大小|B|=120,β=0.01。
為了驗(yàn)證IPMA2C模型的效率和穩(wěn)定性,將其與傳統(tǒng)的經(jīng)典交通控制模型進(jìn)行對(duì)比。選取的基準(zhǔn)模型如下:
1)具有隨機(jī)偏移量和固定變化時(shí)間的FixedTime方法[1];
2)對(duì)車輛等待時(shí)間和隊(duì)列長度進(jìn)行優(yōu)化的多智能體Actor-Critic算法(MA2C)[7];
3)學(xué)習(xí)智能體之間互相影響和聯(lián)合動(dòng)作的CoLight算法[6]。
圖4為IPMA2C模型與其它基準(zhǔn)模型在一個(gè)小時(shí)內(nèi)到達(dá)目的地的車輛數(shù)量變化情況。在開始的前15分鐘,IPMA2C模型并未展現(xiàn)出優(yōu)勢,這是因?yàn)殡m然有大量車流進(jìn)入路網(wǎng),但尚未造成嚴(yán)重?fù)矶?此時(shí),傳統(tǒng)交通控制方法均可實(shí)現(xiàn)良好的調(diào)控。隨著路網(wǎng)中車流量越來越大,IPMA2C模型的優(yōu)勢開始逐漸顯現(xiàn),最終,有更多車輛到達(dá)目的地,性能優(yōu)于其它模型。
圖4 車輛到達(dá)數(shù)量對(duì)比圖
圖5為網(wǎng)內(nèi)車輛平均速度的變化情況。在前15分鐘,即沒有擁堵時(shí),四種模型的平均車速均逐漸上升。當(dāng)產(chǎn)生嚴(yán)重?fù)矶聲r(shí),四種模型的平均車速均開始下降。但在整個(gè)過程中,IPMA2C模型的平均車速均高于其它三種模型,體現(xiàn)了最優(yōu)性能。
圖5 平均速度對(duì)比圖
表1為其它評(píng)價(jià)指標(biāo)的統(tǒng)計(jì)結(jié)果,IPMA2C模型提升了交通調(diào)控效率。其中,車輛的平均行程時(shí)間縮短了至少5%,平均行程等待時(shí)間縮短了8%,平均行程時(shí)間損失縮短了7%,而平均行程速度提升了至少6%。這些實(shí)驗(yàn)結(jié)果均表明IPMA2C模型的性能優(yōu)于其它基準(zhǔn)模型。
表1 實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)表
相比其它方法,IPMA2C通過顧及路口壓力的強(qiáng)化學(xué)習(xí)策略,對(duì)路口的狀態(tài)進(jìn)行分析,通過基于深度神經(jīng)網(wǎng)絡(luò)的Actor-Critic算法對(duì)交通信號(hào)進(jìn)行調(diào)控。顧及路口壓力的強(qiáng)化學(xué)習(xí)策略,將關(guān)注重心放在減少路口等待車輛的數(shù)量上,而非縮短車輛等待時(shí)間;在基于深度神經(jīng)網(wǎng)絡(luò)的Actor-Critic模型中,全連接網(wǎng)絡(luò)FC有強(qiáng)大的特征提取能力,LSTM作為隱藏層具有長時(shí)記憶的能力,可以保留歷史信息。因此,在緩解擁堵方面有更好的效果,性能也是最好的。
本文提出一種新穎的顧及路口壓力的多智能體Actor-Critic算法,用于對(duì)交通信號(hào)進(jìn)行智能調(diào)控,緩解了交通擁堵。首先,設(shè)計(jì)更合理的顧及路口壓力的強(qiáng)化學(xué)習(xí)策略;其次,提出基于深度神經(jīng)網(wǎng)絡(luò)的IPMA2C模型;最后,在模擬交通網(wǎng)絡(luò)中驗(yàn)證IPMA2C模型的魯棒性、最優(yōu)性,其性能優(yōu)于其它傳統(tǒng)的基準(zhǔn)算法。
在未來工作中,將研究更先進(jìn)的策略優(yōu)化模型,并嘗試將其推廣到交通路口數(shù)量更多、路網(wǎng)更復(fù)雜的真實(shí)環(huán)境中進(jìn)行測試。