馬東方,陳曦,吳曉東,金盛*
(1.浙江大學(xué),海洋傳感與網(wǎng)絡(luò)研究所,杭州 310058;2.公安部,交通管理科學(xué)研究所,江蘇無錫 214151)
城市化進程的快速發(fā)展和小汽車保有量的持續(xù)增加對城市交通管理與控制不斷提出新的挑戰(zhàn),交通擁堵已經(jīng)成為諸多城市普遍存在的嚴(yán)峻問題。為緩解交通擁堵,保障路網(wǎng)交通流暢通,研究者從需求引導(dǎo)、交通組織及信號控制等多個角度進行系統(tǒng)化探索,提出了諸多行之有效的措施和方法。信號控制是在給定的路網(wǎng)結(jié)構(gòu)和交通組織方案下,通過信號燈調(diào)節(jié)分配沖突交通流的通行權(quán),實現(xiàn)網(wǎng)絡(luò)時空資源的優(yōu)化配置,提高路網(wǎng)交通流的整體運行效率。目前,關(guān)于信號控制的優(yōu)化已有很多研究成果,按其優(yōu)化手段可分為模型驅(qū)動和數(shù)據(jù)驅(qū)動兩類。模型驅(qū)動通常以排隊最短、延誤最小及停車次數(shù)最少為優(yōu)化目標(biāo),以交通流量為輸入變量,通過理論推導(dǎo)刻畫目標(biāo)函數(shù)的顯式數(shù)學(xué)表達(dá)模型。然而,上述理論推導(dǎo)過程往往伴隨很多理想化假設(shè)(例如,規(guī)律性的車輛到達(dá)模式等),與實際交通流運行狀態(tài)存在較大偏差,致使該類方法的實際控制效果欠佳。數(shù)據(jù)驅(qū)動類方法多以強化學(xué)習(xí)為手段,通過決策行為與環(huán)境空間的動態(tài)交互探究交通流運行狀態(tài)的各種深層次和非線性特征,刻畫各類復(fù)雜運行狀態(tài)和信號方案下的交通流運行效果,提升決策方案的實施效果,是信號優(yōu)化的新興趨勢。
與模型驅(qū)動類方法單純以流量數(shù)據(jù)為因變量不同,強化學(xué)習(xí)類方法的基礎(chǔ)輸入為狀態(tài)空間,即由實際交通流數(shù)據(jù)提取的排隊長度和延誤時間等信息組成的向量或矩陣表達(dá)。信號控制的狀態(tài)空間屬性一般為連續(xù)變量,使用傳統(tǒng)的表格式強化學(xué)習(xí)面臨著高維狀態(tài)存儲困難和搜索耗時巨大等難題。為此,很多學(xué)者將深度學(xué)習(xí)的感知能力與強化學(xué)習(xí)的決策能力相結(jié)合,設(shè)計了一些基于深度強化學(xué)習(xí)的信號優(yōu)化方法。例如,LI 等[1]提出了一種基于深度Q學(xué)習(xí)網(wǎng)絡(luò)(Deep Q-learning network,DQN)的信號控制方案優(yōu)化方法,并驗證了該網(wǎng)絡(luò)具有很好的性能。亦有學(xué)者基于其他深度強化學(xué)習(xí)算法構(gòu)建了多類新型信號控制優(yōu)化方法,例如,Actor-Critic(AC)方法等[2]。然而,現(xiàn)有研究主要側(cè)重于算法的模型設(shè)計,忽略了對狀態(tài)空間的精化。近年來,越來越多的數(shù)據(jù)被納入狀態(tài)空間,例如,等待時間、通行時間及承載車輛數(shù)等[3];然而,狀態(tài)空間的冗余信息不僅會增加模型訓(xùn)練的時間開銷,也會制約算法的擬合優(yōu)度,降低方案性能[4]。因此,智能體狀態(tài)空間優(yōu)化是一項非常必要且重要的工作。
多路口交通流之間存在密切時空相關(guān)性,其信號方案之間亦存在交互影響,應(yīng)通過協(xié)同控制的方式確保多路口方案的整體最優(yōu)性。多路口的協(xié)調(diào)控制策略主要分為集中式和分布式兩類。集中式是將所有智能體的決策行為聯(lián)合建模并統(tǒng)一優(yōu)化,存在兩點困境:一是算法復(fù)雜度隨智能體數(shù)目的增加而爆炸式增長,無法應(yīng)用于大規(guī)模區(qū)域;二是可擴展性受限,無法進行模型移植。分布式策略是融合本路口和鄰接路口的交通狀態(tài)與信號狀態(tài)更新單智能體的狀態(tài)空間[5],并采用獨立優(yōu)化的方式實現(xiàn)多智能體協(xié)同,例如,Multi-Agent Actor Critic(MA2C)等[6]。然而,此類方法的智能體交互明顯不足,無法保障全局最優(yōu)性。
為提升智能體之間的信息交互,提高算法的實際控制效果,本文面向干線協(xié)調(diào)控制提出一種多智能體協(xié)同決策優(yōu)化方法,設(shè)置中心和局部兩類智能體:局部智能體基于DQN網(wǎng)絡(luò)優(yōu)化單路口方案;中心智能體評判局部智能體的學(xué)習(xí)策略,并從全局層面對局部智能體進行策略調(diào)整。為減少信息冗余,提升智能體學(xué)習(xí)效率和決策效果,本文首先優(yōu)化單智能體的學(xué)習(xí)方式、狀態(tài)空間及回報函數(shù)。
狀態(tài)、回報及動作是強化學(xué)習(xí)的3 個基本要素。在信號優(yōu)化中,強化學(xué)習(xí)的動作空間由相位相序結(jié)構(gòu)直接決定,無需動態(tài)調(diào)整;狀態(tài)和回報有多類表達(dá)形式,且這些表達(dá)形式直接決定了智能體的學(xué)習(xí)效果。因此,本文以單路口控制為基礎(chǔ)闡述智能體架構(gòu)設(shè)計及狀態(tài)與回報的維度空間優(yōu)化方法。
強化學(xué)習(xí)的目標(biāo)是最大化一個馬爾可夫決策過程(Markov Decision Process,MDP)的長期回報。當(dāng)決策問題的解空間相對較小時,可用表格描述狀態(tài)與動作的價值函數(shù)(一般用Q 值表示),進而以價值最大化為目標(biāo)選擇決策行為和生成動作方案;然而,信號優(yōu)化的狀態(tài)空間具有多樣性和異構(gòu)性,傳統(tǒng)表格式強化學(xué)習(xí)方法無法枚舉所有動作價值函數(shù),利用深度學(xué)習(xí)擬合狀態(tài)到?jīng)Q策的映射關(guān)系(即DQN 算法)成為近年研究的主流手段?;贒QN模型架構(gòu),本文設(shè)計了單智能體的深度網(wǎng)絡(luò),該網(wǎng)絡(luò)包含3個子模塊:特征提取、狀態(tài)-回報映射關(guān)系挖掘及相位門控。特征提取模塊利用卷積神經(jīng)網(wǎng)絡(luò)捕捉圖像類信息的關(guān)鍵特征,并與數(shù)值類特性拼接為狀態(tài)空間后輸入至共享全連接層;全連接層挖掘交通狀態(tài)與潛在回報的映射模式,并將映射模式與當(dāng)前相位信息輸入至相位門控模塊;相位門控模塊在模型訓(xùn)練階段用以挖掘狀態(tài)-Q值之間的映射關(guān)系[3],在應(yīng)用階段是根據(jù)各個動作的Q 值和既定策略確定最佳動作。
信號優(yōu)化中的當(dāng)前相位信息至關(guān)重要。例如,某兩相位控制路口,若當(dāng)前時刻南北向放行,但東西向負(fù)荷大,則應(yīng)切換相位;反之,保持當(dāng)前相位。為突出當(dāng)前相位信息的重要性,本文在相位門控模塊設(shè)計如下學(xué)習(xí)策略:個體相位分布式訓(xùn)練決策模型,宏觀決策時,利用當(dāng)前相位對應(yīng)的決策模型計算Q值并確定動作方案。
系統(tǒng)運行中,智能體與環(huán)境交互會產(chǎn)生多樣化的相位-動作組合樣本,每種組合的出現(xiàn)概率差異很大。若采用隨機采樣策略訓(xùn)練模型,則可能會出現(xiàn)低頻率的相位-動作方案其樣本量不足的風(fēng)險,導(dǎo)致欠擬合現(xiàn)象。為此,本文設(shè)計一種分區(qū)記憶機制,即將不同相位-動作組合樣本存儲于獨立記憶庫,訓(xùn)練時,從多個記憶庫中等量采集樣本。單智能體優(yōu)化網(wǎng)絡(luò)如圖1所示。
圖1 單智能體優(yōu)化網(wǎng)絡(luò)Fig.1 Network forindividual agen
基于確定的單智能體決策優(yōu)化模型,需進一步優(yōu)化結(jié)構(gòu)中的狀態(tài)空間和回報函數(shù)。對于狀態(tài)空間,首先,融合已有文獻(xiàn)中的要素信息,組合多種待選狀態(tài)空間,然后,基于效果測試確定最佳組合。同理,基于類似方式優(yōu)化回報函數(shù)。
現(xiàn)有文獻(xiàn)[4,5,8]中,常用的狀態(tài)要素主要包含如下11項。
(1)進口道排隊長度L。定義車輛速度小于0.1 m·s-1為排隊等待狀態(tài)。
(2)進口道承載車輛數(shù)Nin。承載車輛包含排隊車輛和行駛車輛。
(3)出口道承載車輛數(shù)Nout。
(4)進口道延誤D,計算方法為
式中:Dω為進口道ω的車輛延誤;和vω,max分別為ω的車輛平均速度和最大速度(m·s-1)。
(5)進口道車輛排隊時間W,即進口道所有車輛的排隊時間之和。車輛j在時刻t的等待時間為
式中:為車輛j在時刻t的等待時間,即車輛速度小于0.1 m·s-1的累計時長(s);為車輛j時刻t的速度(m·s-1),車輛啟動后其等待時間更新為0。
(6)車輛平均停車次數(shù)S,即車輛通過連續(xù)多個路口時的平均停車次數(shù)累計值。
(7)相位切換指示C。保持當(dāng)前相位C=0;否則,C=1。
(8)實施動作a后Δt時段內(nèi)通過路口的車輛數(shù)N。
(9)實施動作a后Δt時段內(nèi)通過路口車輛的總通行時間T,即通過路口所有車輛在進口道的行程時間之和。
(10)路口圖像信息M。將路口分割成大小相同的若干方形網(wǎng)格,個體網(wǎng)格能且僅能容納單輛車輛。若網(wǎng)格被車輛占據(jù)則賦值為1;否則,賦值為0?;诼房趫D像信息的狀態(tài)值表達(dá)示例如圖2所示。
圖2 路口的圖像表示及車輛位置矩陣示例Fig.2 Image representation of an intersection and matrix of vehicle positions
圖2(b)矩陣中的元素與圖2(a)的網(wǎng)格一一對應(yīng),空缺元素表示單元網(wǎng)格內(nèi)無車輛,信息值為0;容納有車輛的矩陣元素信息值設(shè)置為1。
(11)路口當(dāng)前相位Pc。
(12)路口下一相位Pn。
回報空間通常依據(jù)控制策略在狀態(tài)空間中選擇部分要素,進而通過權(quán)重分配確定回報函數(shù)的表達(dá)形式。以上狀態(tài)指標(biāo)1~6 均可作為回報函數(shù)的候選要素。假設(shè)回報函數(shù)包含x個要素,其函數(shù)模型可表示為
式中:rt,1為智能體獨立運行時t時刻的回報值,即智能體的局部回報;Fχ為要素χ的回報值;αχ為權(quán)重系數(shù)。
由于干線協(xié)調(diào)的優(yōu)化目標(biāo)是在保障支路通行效率的基礎(chǔ)上減少干線車輛的停車次數(shù),因此干線平均停車次數(shù)應(yīng)為關(guān)鍵回報要素,其函數(shù)構(gòu)造方法將在第2部分詳細(xì)討論。
為平衡干線協(xié)調(diào)的全局最優(yōu)性與算法復(fù)雜性,本文融合分布式和集中式兩種協(xié)同策略優(yōu)勢提出一種混合式協(xié)同優(yōu)化方法,該方法為每個信號路口配置1個局部智能體,并為這些局部智能體共同設(shè)置1 個全局智能體。局部智能體僅觀測本路口狀態(tài),依據(jù)局部狀態(tài)生成并執(zhí)行本路口動作方案,進而輸出當(dāng)前回報;中心智能體觀測全局狀態(tài),評價局部智能體與全局目標(biāo)的一致性,并向局部智能體反饋附加回報,用以提升全局交通流運行效率。混合式協(xié)同的總體框架如圖3所示,該架構(gòu)通過智能體之間的交互合作最大化全局回報,同時,也保留了局部智能體的決策能力,降低了算法復(fù)雜度。
圖3 多智能體干線協(xié)調(diào)控制框架Fig.3 Multi-agent cooperative optimization framework for arterial signals
回報函數(shù)應(yīng)在單智能體狀態(tài)空間的基礎(chǔ)上融入全局要素,適當(dāng)修正。從全局層面看,所有路段均同步兼有出口和入口屬性,單智能體狀態(tài)空間中的進口道承載車輛數(shù)在中心智能體中應(yīng)調(diào)整為所有車道的承載車輛數(shù)。同時,為在支路交通流不受影響的前提下最小化主路車流的停車次數(shù),關(guān)鍵回報指標(biāo)應(yīng)設(shè)置為干道停車次數(shù)。
本文將0.1 m·s-1的速度定義為排隊狀態(tài)的閾值,因此,車輛j在t時刻的停車次數(shù)為
進口道ω在t時刻的平均停車次數(shù)St,ω為
式中:Jω為車道ω上的車輛數(shù)。
干線協(xié)調(diào)控制中,支路與主路具有差異化的重要性,中心智能體的回報函數(shù)應(yīng)對干道和相交道路的要素設(shè)置不同的權(quán)重。假設(shè)智能體回報函數(shù)中包含x個要素,則干道和相交道路在t時刻的全局回報Rt,ψ為
式中:Ψ為符號變量,Ψ=1 代表相交道路,Ψ=2代表干道。
中心智能體的總回報Rt為
局部智能體的狀態(tài)空間與傳統(tǒng)單智能體設(shè)置方法保持一致,而回報包含局部回報和全局附加回報,即
式中:和分別為局部智能體n的局部回報和附加回報,n∈{1,2,3,…,K}。
當(dāng)局部智能體的動作影響全局通行效率時,中心智能體降低附加回報,阻止局部智能體以降低全局回報為代價提升本路口運行效率的情況發(fā)生,確保干線協(xié)調(diào)的整體最優(yōu)性。
為驗證本文模型的可行性與優(yōu)越性,首先,將控制算法封裝成軟件模塊,并基于Simulation of Urban Mobility 軟件搭建仿真平臺,并通過應(yīng)用程序接口(Application Programming Interface,API)實現(xiàn)優(yōu)化軟件與仿真平臺的信息交互。其次,設(shè)置仿真實驗參數(shù),確定最佳智能體設(shè)計方案,并對比新方法與傳統(tǒng)方法的運行效果,驗證新方法優(yōu)越性。
仿真路網(wǎng)包含3 個信號路口,幾何布局如下:(1)3 個路口的進口道和出口道長度均為450 m,四周共有a~h 這8 個進出口;(2)所有進口道均包含3條車道,其車道屬性由內(nèi)向外依次是左轉(zhuǎn)專用道、直行車道及直右共享車道;(3)路口均采用對稱式放行的固定相位相序結(jié)構(gòu),包含南北直行、南北左轉(zhuǎn)、東西直行及東西左轉(zhuǎn)4 個相位,相位黃燈時間為3 s。仿真路網(wǎng)實驗設(shè)置如圖4所示。模型訓(xùn)練中,強化學(xué)習(xí)網(wǎng)絡(luò)的參數(shù)設(shè)置如表1所示。
表1 參數(shù)設(shè)置Table 1 Settings for theproposed method
圖4 實驗設(shè)置Fig.4 Experiment settings
為確定優(yōu)化模型的最佳參數(shù),需對網(wǎng)絡(luò)進行預(yù)學(xué)習(xí)。為使智能體充分挖掘多樣化的交通狀態(tài)特征,車輛的到達(dá)由具有一定到達(dá)率的泊松分布產(chǎn)生,預(yù)學(xué)習(xí)流量配置包含低、中及高這3 個階段,如表2所示。此外,干線直行包括a→h和h→a這兩個方向,流量設(shè)置相等;支路直行、干線左轉(zhuǎn)支路左轉(zhuǎn)車流設(shè)置方法類似。
表2 訓(xùn)練流量結(jié)構(gòu)Table 2 Configurations for train traffic flow
在測試階段,參照實際路口的交通負(fù)荷設(shè)置4:00-22:00 這18 h 的交通流OD 矩陣,其中,早高峰(7:00-7:30)和午間高峰(12:00-12:30)的OD 分布如圖5所示。
圖5 高峰ODFig.5 Flow percentage of each OD pair
首先,基于狀態(tài)特征要素設(shè)置多組狀態(tài)-回報方案,實驗篩選3組最佳組合,進而,以干線排隊長度、支路排隊長度、干線停車次數(shù)、干線等待時間及支路等待時間5 個指標(biāo)為依據(jù)對比分析不同組合下的控制效果。
組合1 狀態(tài)空間包含進口道排隊長度和承載車輛數(shù)等6個維度{L,Nin,W,S,Pc,Pn},相應(yīng)的回報函數(shù)為
式中:Ωn為智能體n的進口道集合。
組合2 狀態(tài)空間僅包含Nin和Pc兩個維度,回報為進口道排隊長度之和,即
與組合1 相反,組合2 的狀態(tài)和回報均相對簡單。
組合3 依據(jù)文獻(xiàn)[7]的研究結(jié)果,信號優(yōu)化應(yīng)兼顧上、下游路段的負(fù)荷均衡,盡可能避免高峰時段的排隊溢流現(xiàn)象?;诖?,本文將所有出口道上車輛數(shù)Nout作為狀態(tài)空間的元素之一,設(shè)計組合3 為{Nin,Nout,Pc},回報函數(shù)同組合2。
在18 h 的測試時段內(nèi),3 種組合下的區(qū)域運行效率如表3所示。
組合3 在干線排隊長度、干線停車次數(shù)、干線等待時間及支路等待時間等方面均顯著優(yōu)于組合1和組合2;干線協(xié)調(diào)下的控制目標(biāo)是優(yōu)先保障干線暢通,因此,組合3 的支路排隊長度略高于組合2,符合既定目標(biāo)。同時,在模型訓(xùn)練效率方面,組合2和組合3 的訓(xùn)練時間相當(dāng),均顯著低于組合1。因此,從訓(xùn)練效率和模型效果兩方面綜合評估,組合3是最佳狀態(tài)空間。測試時段內(nèi)各評估指標(biāo)的變化情況如圖6所示。
圖6 3種局部智能體的測試結(jié)果Fig.6 Simulation results with three design methods for local agents
由圖6可知,組合1 的支路排隊長度和等待時間相對于其他兩種組合均大幅增加,且在高峰時段出現(xiàn)極端擁堵情況,說明過于復(fù)雜的狀態(tài)空間和回報函數(shù)設(shè)計不一定有利于信號控制。組合2 和組合3 的干線與支路等待時間相對穩(wěn)定,組合3 雖然在支路上與組合2存在細(xì)微差別,但在干線排隊長度和等待時間方面卻有顯著優(yōu)勢,在達(dá)到干線協(xié)調(diào)控制目標(biāo)的同時提升了區(qū)域通行效率。
為評估混合式協(xié)同方法的優(yōu)越性,本文選取經(jīng)典強化學(xué)習(xí)模型進行對比實驗。為保證對比結(jié)果的公平性和可信度,對比方法和新方法均在最佳智能體模型的基礎(chǔ)上進行參數(shù)調(diào)優(yōu)。經(jīng)多次調(diào)試,中心和局部智能體的回報函數(shù)分別為
式中:Lt,1和St,1分別為相交道路進口道的排隊長度和停車次數(shù);Lt,2和St,2分別為干道進口道的排隊長度和停車次數(shù)。
分布式協(xié)同是多智能體協(xié)同優(yōu)化的常用策略,典型算法是深度MA2C網(wǎng)絡(luò)[6]。該方法將衰減后的相鄰路口狀態(tài)和回報作為本路口的狀態(tài)空間要素,局部智能體依據(jù)路口狀態(tài)獨立完成方案優(yōu)化。為與本文方法保持一致,將局部智能體的算法改為本文相同的DQN算法。同時,為突出協(xié)調(diào)控制優(yōu)勢,將獨立控制也作為一種參考方法,即單路口均采用獨立DQN架構(gòu)優(yōu)化信號方案。
排隊長度與等待時間在測試時段內(nèi)的變化趨勢如圖7所示,匯總情況如表4所示。
圖7 協(xié)同控制測試結(jié)果Fig.7 Simulation results of different coordinated control methods
表4 協(xié)同方法結(jié)果對比Table 4 Performances of different coordinated methods
由圖6和表4可知,分布式協(xié)同相對于獨立優(yōu)化降低了干線排隊長度、等待時間及停車次數(shù),但支路排隊長度和等待時間卻明顯增加。因此,分布式協(xié)同沒有較好地實現(xiàn)干線和支路的有效平衡?;旌鲜絽f(xié)同的干線停車次數(shù)相對于獨立優(yōu)化和分布式協(xié)同分別降低了14.8%和13.6%。在干線等待時間方面,新方法相對于獨立優(yōu)化和分布式協(xié)同分別降低了73.3%和70.6%;同時,混合式協(xié)同的支路停車次數(shù)和排隊長度接近或略優(yōu)于獨立優(yōu)化和分布式協(xié)同,因此,新方法顯著提升了區(qū)域交通流,尤其是干線交通流的運行效率。
本文融合分區(qū)記憶、相位門控等技術(shù),探究基于DQN算法的干線信號協(xié)同控制最佳智能體設(shè)計方法,搭建了智能體間的混合式協(xié)同決策優(yōu)化流程。仿真實驗證明,本文的智能體設(shè)計優(yōu)于傳統(tǒng)設(shè)計方法,且混合式協(xié)同可在保障支路交通流運行效率的基礎(chǔ)上顯著提升干線交通流通行效率。
為促使新方法可適用于實際工程,需進一步探索如下工作:(1)引入多樣化的交通流量結(jié)構(gòu)和相位相序結(jié)構(gòu),依據(jù)多類復(fù)雜場景不斷充實模型架構(gòu);(2)設(shè)置不同規(guī)模大小的測試網(wǎng)絡(luò)進行實驗,驗證方法的可拓展性;(3)突破仿真框架模擬測試的局限,基于真實數(shù)據(jù)學(xué)習(xí)現(xiàn)實世界的復(fù)雜反饋。