王龐偉 馮 月 鄧 輝 汪云峰 王 力
(北方工業(yè)大學(xué)城市道路交通智能控制技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室 北京100144)
隨著汽車保有量的逐年增加,人民生活水平逐漸提高,同時(shí)帶來的交通擁堵、能源消耗、環(huán)境污染和交通事故等問題日益突出,不僅影響人們的出行效率和生命安全,而且導(dǎo)致巨額的財(cái)力和物力損失。近年來,隨著互聯(lián)網(wǎng)、信息通信和環(huán)境感知等相關(guān)技術(shù)的快速發(fā)展,車聯(lián)網(wǎng)技術(shù)成為解決交通問題的新方案。王龐偉等[1]提出1 種利用車路信息融合的實(shí)時(shí)交通狀態(tài)評(píng)價(jià)方法,用實(shí)時(shí)交通狀態(tài)評(píng)價(jià)得分表示交通狀態(tài)變化趨勢(shì),運(yùn)用信息融合方法提高了交通狀態(tài)評(píng)價(jià)結(jié)果的實(shí)時(shí)性與客觀性,同時(shí)為車路協(xié)同技術(shù)應(yīng)用于實(shí)時(shí)交通誘導(dǎo),緩解城市交通擁堵提供了理論依據(jù)。趙盼明等[2]研究了基于模糊控制的信號(hào)協(xié)調(diào)優(yōu)化方案,通過一級(jí)和二級(jí)模糊控制器分別對(duì)區(qū)域交叉口群信號(hào)進(jìn)行協(xié)調(diào)控制,達(dá)到減少區(qū)域最大排隊(duì)長(zhǎng)度和平均行車延誤的目的。隨著深度學(xué)習(xí)的出現(xiàn),交通信號(hào)控制系統(tǒng)通過車聯(lián)網(wǎng)獲取路況信息,同時(shí)通過深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)[3-4](deep q-learning network,DQN)無模型數(shù)據(jù)驅(qū)動(dòng)的方法控制交叉口,使車輛快速通過交叉口,緩解城市道路擁堵,提高道路通行能力。
目前國(guó)內(nèi)外學(xué)者已在該研究領(lǐng)域積累了顯著科研成果。曹建峰[5]提出了分段優(yōu)化的數(shù)解法智能交通綠波帶算法,在控制連續(xù)交叉口中取得較好效果,但在一定程度上不能適應(yīng)多變的交通流特征。常玉林等[6]提出了1 種實(shí)現(xiàn)雙向綠波信號(hào)控制的改進(jìn)圖解法。結(jié)果表明該圖解法設(shè)計(jì)的雙向綠波可有效提高干線道路的通行率,緩解交通擁堵情況。宋現(xiàn)敏等[7]構(gòu)建信號(hào)協(xié)同優(yōu)化模型,提升信號(hào)交叉口時(shí)空資源利用率。Mousavi等[8]和Li[9]等將強(qiáng)化學(xué)習(xí)應(yīng)用在交通信號(hào)燈控制系統(tǒng)中,通過自適應(yīng)控制,信號(hào)燈配時(shí)可以根據(jù)實(shí)際交通狀況發(fā)生變化。文峰等[10]提出深度強(qiáng)化學(xué)習(xí)策略并應(yīng)用各種神經(jīng)網(wǎng)絡(luò)的優(yōu)化方法及引入經(jīng)驗(yàn)池、貪婪策略。結(jié)果表明,相比于傳統(tǒng)Q學(xué)習(xí)策略,可以更好的疏通交通擁堵,提高交通系統(tǒng)效率。劉義等[11]提出分布式、自適應(yīng)的信號(hào)控制方案,通過在線學(xué)習(xí)各種流量負(fù)荷,實(shí)時(shí)推理計(jì)算控制參數(shù),并得了一定改進(jìn)效果。Xu等[12]和Touhbi等[13]通過收集道路數(shù)據(jù),采用將整個(gè)交叉口劃分為網(wǎng)格的方法將復(fù)雜交通場(chǎng)景量化為狀態(tài),提出了1 種深度強(qiáng)化學(xué)習(xí)模型來控制交通信號(hào)燈配時(shí),并通過仿真實(shí)驗(yàn)驗(yàn)證了該模型在交通信號(hào)控制方面的有效性。Wu 等[14]提出了基于深度學(xué)習(xí)的串聯(lián)-并聯(lián)方案,并對(duì)公交車進(jìn)行分配。Arel 等[15]使用價(jià)值函數(shù)來預(yù)測(cè)交通交叉口的最佳交通信號(hào),并基于利用智能體之間的交互達(dá)到更優(yōu)控制效果。Jin等[16]將常用信號(hào)控制策略與強(qiáng)化學(xué)習(xí)技術(shù)相結(jié)合來預(yù)測(cè)路口的最佳交通信號(hào)配時(shí)。Zhao等[17]提出了帶有動(dòng)態(tài)折現(xiàn)因子的Q-learning 模型。并將該模型與普通模型進(jìn)行對(duì)比。Wan 等[18]對(duì)比了神經(jīng)網(wǎng)絡(luò),模糊系統(tǒng)和遺傳算法在交通信號(hào)控制的效果。Tan 等[19]將每個(gè)路口建模為智能體,并讓各智能體間進(jìn)行協(xié)作來控制交通信號(hào)。
綜上所述,在交通信號(hào)控制技術(shù)中應(yīng)用DQN可以對(duì)復(fù)雜的交通情況進(jìn)行配時(shí)疏導(dǎo),并且可以在深度強(qiáng)化學(xué)習(xí)的過程中找到最優(yōu)信號(hào)規(guī)劃方案。然而,目前深度學(xué)習(xí)方法應(yīng)用于交叉信號(hào)控制通常是將單個(gè)路口圖像化,利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)交叉口交通流進(jìn)行預(yù)測(cè),然后對(duì)預(yù)測(cè)結(jié)果進(jìn)行相應(yīng)預(yù)測(cè)配時(shí)控制。此外,對(duì)于連續(xù)交叉口信號(hào)控制處理問題,由于交叉口過多致使?fàn)顟B(tài)空間模型復(fù)雜化,同時(shí)需要處理不同狀態(tài)的多交叉口空間模型,導(dǎo)致傳統(tǒng)強(qiáng)化學(xué)習(xí)的復(fù)雜性呈指數(shù)增長(zhǎng),增加了狀態(tài)獲取及反饋評(píng)價(jià)的復(fù)雜度,使其較難應(yīng)用于多交叉口。
針對(duì)上述問題,采用上下層Agent 網(wǎng)絡(luò)的DQN策略對(duì)連續(xù)交叉口交通信號(hào)進(jìn)行控制,以減少狀態(tài)獲取及反饋評(píng)價(jià)的復(fù)雜度,解決連續(xù)交叉口信號(hào)控制問題。此外,為保證訓(xùn)練目標(biāo)的平穩(wěn)性,避免其訓(xùn)練陷入目標(biāo)值與預(yù)測(cè)值的反饋循環(huán)中震蕩發(fā)散,采用Adam 優(yōu)化算法和Double 和Dueling 優(yōu)化方法對(duì)DQN優(yōu)化訓(xùn)練,相比于傳統(tǒng)DQN控制模型,該方法可根據(jù)不同道路環(huán)境和交通狀態(tài)實(shí)時(shí)切換路口相位,增加了交叉口之間的協(xié)作能力,保障交叉口行車暢通,提高交叉口通行能力,為緩解交通擁堵、提高出行效率并減少安全事故提出了新的解決方案和理論依據(jù)。
通過車聯(lián)網(wǎng)技術(shù)和各交通傳感器實(shí)時(shí)獲取交通信號(hào)配時(shí)數(shù)據(jù)、車輛行駛狀態(tài),以及道路實(shí)際狀況等信息建立深度強(qiáng)化學(xué)習(xí)方法,基于神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)當(dāng)前交通狀態(tài)實(shí)現(xiàn)交通信號(hào)控制。
對(duì)連續(xù)交叉口信號(hào)燈的控制分為上下層控制:下層Agent 為各個(gè)路口的交通信號(hào)控制器,各控制器都有獨(dú)自的學(xué)習(xí)策略;上層Agent 主要用來調(diào)整下層Agent的臨時(shí)策略。上層與下層控制器共同控制整個(gè)區(qū)域的信號(hào)燈,多主體系統(tǒng)模型見圖1。
首先將路口上游車輛的環(huán)境信息分別構(gòu)建為位置矩陣和速度矩陣;然后采用卷積神經(jīng)網(wǎng)絡(luò)來匹配狀態(tài)和預(yù)期的未來反饋值,并采取優(yōu)化后的深度強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練;最后結(jié)合實(shí)際交通場(chǎng)景,通過SUMO交通仿真建模進(jìn)行實(shí)驗(yàn),驗(yàn)證該模型的可行性。
圖1 連續(xù)交叉口上下層信號(hào)控制模型框架Fig.1 Frame of upper-and-lower signal control model for continuous intersections
2.1.1 下層神經(jīng)網(wǎng)絡(luò)的狀態(tài)空間定義
為了準(zhǔn)確描述交叉口的交通信息,將交叉口每個(gè)方向的車輛等待時(shí)間W、車輛延誤時(shí)長(zhǎng)D以及信號(hào)燈相位變化C作為狀態(tài)輸入。此外,為準(zhǔn)確表示交叉口車輛的位置和速度信息的具體分布,對(duì)交叉路口區(qū)域進(jìn)行離散化建模。
見圖2,整個(gè)交叉口被劃分成大小相同的矩形網(wǎng)格,為減小計(jì)算量,節(jié)約計(jì)算資源,將車輛的速度與位置信息儲(chǔ)存在矩陣?yán)锩?。其中將各個(gè)車道分成網(wǎng)格并看作1個(gè)元胞,檢測(cè)器檢測(cè)車輛狀態(tài)信息,對(duì)于每個(gè)小方塊區(qū)域都用單通道卷積Q表示時(shí)間t內(nèi)檢測(cè)到的速度及位置信息;若檢測(cè)器未檢測(cè)到車輛,則將該區(qū)塊補(bǔ)0。將得到的速度與位置矩陣作為整個(gè)路網(wǎng)的狀態(tài)信息。
圖2 路口矩陣化離散建模Fig.2 Intersection matrix discrete modeling
2.1.2 下層神經(jīng)網(wǎng)絡(luò)的動(dòng)作選取
交通信號(hào)燈根據(jù)當(dāng)前的交通狀態(tài)選擇適當(dāng)?shù)膭?dòng)作來引導(dǎo)交叉路口的車輛。本文把階段間的切換作為動(dòng)作空間,并將相位之間做切換的過程建模為馬爾可夫決策過程(Markov decision process,MDP)。MDP 是序貫決策(sequential decision)的數(shù)學(xué)模型,用于在系統(tǒng)狀態(tài)具有馬爾可夫性質(zhì)的交通場(chǎng)景中模擬智能體可實(shí)現(xiàn)的隨機(jī)性策略與反饋值,然后通過深度強(qiáng)化學(xué)習(xí)中的反復(fù)試驗(yàn),結(jié)合MDP控制策略來學(xué)習(xí)反饋值最低的切換策略。
MDP循環(huán)見圖3。
圖3 MDP循環(huán)流程圖Fig.3 Flow of the MDP cycle
在圖3中,各回路表示在1個(gè)相位周期內(nèi)路口信號(hào)燈相位轉(zhuǎn)換情況,本文將循環(huán)的單位時(shí)間離散化為5 s,在切換后,當(dāng)前所處相位將更新為所選擇的相序狀態(tài)。此外,為實(shí)現(xiàn)模型切換相位,分別設(shè)置最大和最小燈色持續(xù)時(shí)間,將最大和最小信號(hào)燈相位持續(xù)時(shí)間設(shè)置為60 s和5 s,即若某一相位綠燈時(shí)間達(dá)到60 s之后將強(qiáng)制切換到下一相位,或最小持續(xù)時(shí)間為5 s,并以原始控制方案為基礎(chǔ)不斷迭代更新。
2.1.3 下層神經(jīng)網(wǎng)絡(luò)反饋值定義
為向強(qiáng)化學(xué)習(xí)模型提供關(guān)于先前行為表現(xiàn)的反饋,需定義反饋值來幫助交通信號(hào)采取最佳行動(dòng)策略。以降低車輛的平均延誤為目標(biāo),同時(shí)確保模型更易收斂,將Reward定義為1 個(gè)時(shí)間段之內(nèi)的車輛平均延誤減少值,故在訓(xùn)練時(shí)應(yīng)確保Reward>0。
由式可知,若ri變大,則平均等待時(shí)間比以前增加,為達(dá)到使車輛延誤不斷減少的目的,要保證ri盡量取最大。
2.1.4 下層神經(jīng)網(wǎng)絡(luò)建模
使用2 個(gè)參數(shù)一致的主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò),其中主網(wǎng)絡(luò)θ用于實(shí)時(shí)更新權(quán)重,目標(biāo)網(wǎng)絡(luò)θ-在主網(wǎng)絡(luò)y次更新后更新,用狀態(tài)值函數(shù)V(s) 和動(dòng)作優(yōu)勢(shì)函數(shù)A(a)聯(lián)合更新下層神經(jīng)網(wǎng)絡(luò)的最大累積反饋Q值。優(yōu)化器選擇自適應(yīng)矩陣估計(jì)Adam,之后在學(xué)習(xí)過程中采取?-greedy 策略和經(jīng)驗(yàn)回放策略提升收斂速度與訓(xùn)練準(zhǔn)確率,從而使車輛延誤進(jìn)一步降低。
底層CNN 由3 個(gè)卷積層和3 個(gè)完全連接層組成,并使用Leaky ReLU函數(shù)作為激活函數(shù)
式中:x為單位的輸出;β為避免負(fù)側(cè)的零梯度產(chǎn)生死亡神經(jīng)元的常數(shù)。Leaky ReLU函數(shù)可以比其他激活函數(shù)(如,tanh 和sigmod)更快地收斂,從而加快訓(xùn)練時(shí)車輛延誤的收斂速度。神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)見圖4。
圖4 處理車輛信息的圖卷積神經(jīng)網(wǎng)絡(luò)Fig.4 Graph convolutional neural network for processing vehicle information
圖4 為車輛速度與位置信息矩陣在圖卷積神經(jīng)網(wǎng)絡(luò)中的處理過程,首先把通過車聯(lián)網(wǎng)技術(shù)獲取到的信息矩陣化處理,其次通過3 個(gè)卷積層處理數(shù)據(jù)。3 個(gè)卷積層和完全連接層構(gòu)造如下:第1 個(gè)卷積層包含32 個(gè)濾鏡,每個(gè)濾鏡的大小為4*4,每次通過輸入的數(shù)據(jù)移動(dòng)步幅為4*4;第2 個(gè)卷積層有64 個(gè)濾鏡,每個(gè)濾鏡的大小為2*2,移動(dòng)步幅為2*2,2 個(gè)卷積層后輸出的大小為30*30*64;第3 個(gè)卷積層有128 個(gè)濾波器,大小為2*2,移動(dòng)步幅大小為1*1,第3 個(gè)卷積層的輸出是30*30*128 張量,1 個(gè)全連接層將張量轉(zhuǎn)換成128*1 矩陣。在全連接層之后,數(shù)據(jù)被分成大小相同的2 個(gè)部分,為64*1。其中第1 部分代表狀態(tài)值函數(shù)V(s),表示當(dāng)前路網(wǎng)的靜態(tài)狀態(tài)本身具有的價(jià)值函數(shù);第2 部分代表依賴狀態(tài)的動(dòng)作優(yōu)勢(shì)函數(shù)A(a),表示選擇某個(gè)Action 額外帶來的路網(wǎng)延誤變化值,因可能的Action 數(shù)是合法相位的數(shù)量k,故A(a)的大小是k*1,把這2 個(gè)部分再次組合得到每個(gè)動(dòng)作的Q值,其 中CNN 中 的 參 數(shù) 表 示 為θ,Q(s,a) 轉(zhuǎn) 變 為Q(s,a,θ-) ,表示網(wǎng)絡(luò)參數(shù)為均方誤差損失,該Q函數(shù)表示從狀態(tài)s開始,使用a作為第1 個(gè)行為的最大累積反饋值,通過當(dāng)前路網(wǎng)交通狀態(tài),預(yù)測(cè)得出平均期望值r,并由控制器執(zhí)行當(dāng)前神經(jīng)網(wǎng)絡(luò)下的最優(yōu)信號(hào)切換策略。
2.1.5 下層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的優(yōu)化
DQN 模型的核心為卷積神經(jīng)網(wǎng)絡(luò)。將輸入的原始路網(wǎng)數(shù)據(jù)矩陣,通過Q-learning進(jìn)行訓(xùn)練得到輸出為最優(yōu)策略的估計(jì)Q值。
圖5為DQN的框架圖,車輛位置矩陣和速度矩陣經(jīng)過卷積層和全連接層,再通過輸入的狀態(tài)和動(dòng)作輸出包含每1 個(gè)動(dòng)作Q值的向量,從而得出下一步的執(zhí)行動(dòng)作。
圖5 DQN的模型框架圖Fig.5 Framework of the DQN model
1)深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)。在DQN訓(xùn)練過程中,讓Qtarget(s,a,θ)表示狀態(tài)s下的目標(biāo)Q值,用均方誤差(MSE)更新神經(jīng)網(wǎng)絡(luò),其損失函數(shù)J見式(3)。
式中:P(s)為1 個(gè)訓(xùn)練批次中出現(xiàn)狀態(tài)s的概率。為了在每次迭代中提供穩(wěn)定的更新,采用單獨(dú)的目標(biāo)網(wǎng)絡(luò)θ-來生成Q值。
主神經(jīng)網(wǎng)絡(luò)中的參數(shù)通過反向傳播進(jìn)行更新,其中θ-基于以下等式中的θ進(jìn)行更新。
式中:α為更新速率,表示新參數(shù)對(duì)目標(biāo)網(wǎng)絡(luò)的影響程度;Q(s,a;θi)為當(dāng)前網(wǎng)絡(luò)評(píng)估當(dāng)前狀態(tài)動(dòng)作對(duì)應(yīng)的Q值;Q(s,a;θi)為目標(biāo)值網(wǎng)絡(luò)的輸出。通過當(dāng)前值網(wǎng)絡(luò)的參數(shù)θ更新復(fù)制給目標(biāo)值網(wǎng)絡(luò)θ-,再最小化當(dāng)前Q值和目標(biāo)網(wǎng)絡(luò)Qtarget值之間的均方誤差來更新網(wǎng)絡(luò)參數(shù),從而將網(wǎng)絡(luò)的誤差項(xiàng)縮小到有限區(qū)間,并且使Q值和梯度值均處于合理的范圍,從而使路網(wǎng)延誤穩(wěn)步下降。
2)Dueling DQN 優(yōu)化方法。在特殊狀態(tài)st時(shí),如路網(wǎng)內(nèi)車輛過少或過多的情況下,執(zhí)行動(dòng)作at將不影響下1 個(gè)狀態(tài)st+1的延誤,易導(dǎo)致路網(wǎng)延誤在當(dāng)前狀態(tài)下無法收斂。為解決這一問題,采用Dueling DQN提升DQN的學(xué)習(xí)效果與收斂速度。
在原始網(wǎng)絡(luò)的基礎(chǔ)上,用深度網(wǎng)絡(luò)擬合強(qiáng)化學(xué)習(xí)中的Q值,并將Q值函數(shù)分為狀態(tài)V值和動(dòng)作V值,Q值通過狀態(tài)V值和動(dòng)作V’值相加更新。
在神經(jīng)網(wǎng)絡(luò)中,狀態(tài)V(s;θ)值表示在未來步驟中采取概率動(dòng)作的總體預(yù)期反饋值,對(duì)于每個(gè)動(dòng)作A(s,a;θ),Q值是基于狀態(tài)V和狀態(tài)相關(guān)的A(a)函數(shù)之和,函數(shù)A(a)是當(dāng)前實(shí)際動(dòng)作相比于最優(yōu)動(dòng)作多帶來的累積折扣回報(bào),Q值計(jì)算見式(5)。
式中:A(s,a;θ)為采取的動(dòng)作對(duì)值函數(shù)的重要性,若A>0,則該動(dòng)作能更好地降低延誤,反之則表示該動(dòng)作的潛在反饋值小于平均值。
3)Double DQN優(yōu)化方法。傳統(tǒng)DQN存在過估計(jì)的缺點(diǎn),由于估值的不均勻性,在參數(shù)更新和迭代時(shí),會(huì)產(chǎn)生過估計(jì)問題,從而導(dǎo)致當(dāng)前相位切換方案不是最優(yōu)方案,為防止Q值被高估,Qtarget值由Double DQN算法更新。
式(6)中的2個(gè)Q網(wǎng)絡(luò)內(nèi)。其中:Q決定狀態(tài)Reward值最大項(xiàng);Q'函數(shù)負(fù)責(zé)選取動(dòng)作,以減輕過高估計(jì)的問題,從而有效降低路網(wǎng)上車輛的平均延誤的情況。
4)神經(jīng)網(wǎng)絡(luò)參數(shù)。本文采用1 種基于排序的優(yōu)先經(jīng)驗(yàn)回放結(jié)構(gòu)方法以增加學(xué)習(xí)效率。通過增加平均延誤更低樣本的重放概率,以基于排序的方法來計(jì)算體驗(yàn)樣本的優(yōu)先概率,其中樣本m的誤差δ定義為
將誤差δ排序,設(shè)這些經(jīng)驗(yàn)的優(yōu)先級(jí)pm為其排序的倒數(shù),Pm為對(duì)樣本m進(jìn)行采樣的概率
式中:τ為使用多少優(yōu)先級(jí),當(dāng)τ為0 時(shí),采取隨機(jī)抽樣。
神經(jīng)網(wǎng)絡(luò)模型的優(yōu)化器選擇Adam(自適應(yīng)矩陣估計(jì))方法。設(shè)J(θ)為損失函數(shù),計(jì)算參數(shù)梯度g。
分別用指數(shù)移動(dòng)平均值更新一階和二階偏置矩s和r。
式中:ρs和ρr分別為一階和二階指數(shù)衰減率,使用時(shí)間步長(zhǎng)t,對(duì)一階和二階偏置矩進(jìn)行校正。
式中:?,分別為校正后的一階偏置矩和二階偏置矩。計(jì)算梯度更新(逐元素)
最終參數(shù)更新
表1 神經(jīng)網(wǎng)絡(luò)參數(shù)表Tab.1 Parameters of the neural network
上層Agent 對(duì)連續(xù)交叉口進(jìn)行控制時(shí),首先基于原始方案對(duì)下層每個(gè)路口的動(dòng)作進(jìn)行調(diào)整,最后根據(jù)每個(gè)路口平均排隊(duì)長(zhǎng)度更新控制方案。
2.2.1 上層狀態(tài)空間定義
多主體系統(tǒng)建模見圖6。
圖6 上層狀態(tài)空間定義圖Fig.6 Definition of the upper state space
系統(tǒng)中每個(gè)主體均是路口的交通信號(hào)控制器,網(wǎng)絡(luò)分層控制的上層控制器能夠控制下層多個(gè)路口信號(hào)控制器一起形成的區(qū)域。設(shè)各路口編號(hào)分別為1,2,……其中每個(gè)下層路口的Agent均有獨(dú)自的學(xué)習(xí)策略,并由上層Agent 提供指導(dǎo)。信號(hào)的二次調(diào)整過程將各路口的延誤進(jìn)行排序,將上層的狀態(tài)空間為延誤最高的路口編號(hào)數(shù)據(jù),見圖7。
圖7 上層狀態(tài)空間示意圖Fig.7 Upper state space
2.2.2 上層動(dòng)作空間定義
為減少車輛平均延誤,各路口的信號(hào)燈相位時(shí)間需要重新合理分配。設(shè)j為綠燈調(diào)整時(shí)間,其具體值由每個(gè)路口車輛的平均延誤rˉ決定。若當(dāng)前路口ζ的平均延誤是rζ,則該路口的相位綠燈時(shí)間調(diào)整為
2.2.3 上層神經(jīng)網(wǎng)絡(luò)反饋值定義
將上層Agent的反饋值rk定義為所有路口車輛的平均延誤。
式中:m為路口的總數(shù)量;Nn為車輛的總數(shù)量。
模型執(zhí)行框架見圖8。
主卷積神經(jīng)網(wǎng)絡(luò)選擇當(dāng)前路口狀態(tài)和暫定相位切換動(dòng)作為反饋值,以選擇最有價(jià)值的動(dòng)作。首先系統(tǒng)生成1 個(gè)訓(xùn)練批次的數(shù)據(jù),將當(dāng)前狀態(tài)和動(dòng)作以及收到的反饋值作為四元組(s,a,r,s’)存儲(chǔ)在存儲(chǔ)器中。目標(biāo)網(wǎng)絡(luò)θ-是增加學(xué)習(xí)穩(wěn)定性的單獨(dú)神經(jīng)網(wǎng)絡(luò),通過選擇具有最大Q值的動(dòng)作來獲得最優(yōu)策略,并在每次訓(xùn)練后更新樣本的優(yōu)先級(jí),接著通過Adam 反向傳播更新神經(jīng)網(wǎng)絡(luò)中的學(xué)習(xí)率。模型根據(jù)?和具有最大Q值的Action選擇操作得出初始控制方案。最后根據(jù)全局車輛平均延誤和每個(gè)路口的車均延誤對(duì)所有路口相位綠燈時(shí)長(zhǎng)進(jìn)行二次調(diào)整,模型通過學(xué)習(xí)可以對(duì)不同交通場(chǎng)景做出相應(yīng)反應(yīng),從而降低車輛延誤。
介紹了實(shí)驗(yàn)所用的仿真環(huán)境及相關(guān)參數(shù)設(shè)置,基于SUMO 對(duì)分布式深度強(qiáng)化學(xué)習(xí)算法在交通信號(hào)控制中的應(yīng)用效果進(jìn)行評(píng)估,并與傳統(tǒng)綠波控制和普通DQN網(wǎng)絡(luò)配時(shí)方案進(jìn)行對(duì)比分析。
圖8 上下層網(wǎng)絡(luò)的全局模型框架Fig.8 Global model framework of upper and lower networks
為驗(yàn)證本文信號(hào)控制算法的性能及有效性,基于SUMO 進(jìn)行仿真模擬車聯(lián)網(wǎng)環(huán)境,將本研究提出的上下層交叉口信號(hào)控制算法與傳統(tǒng)數(shù)解法綠波帶算法、未采用上下層網(wǎng)絡(luò)優(yōu)化的DQN算法模型進(jìn)行對(duì)比。其仿真流程及環(huán)境搭建見圖9。
圖9 SUMO仿真平臺(tái)示意圖Fig.9 SUMO Simulation platform
以典型連續(xù)3 交叉口為例,通過仿真得出評(píng)估指標(biāo),分別統(tǒng)計(jì)車均延誤和車輛排隊(duì)長(zhǎng)度。
仿真實(shí)驗(yàn)基于SUMO 軟件中的Python 接口完成。實(shí)時(shí)獲取車聯(lián)網(wǎng)信息并自適應(yīng)調(diào)整信號(hào)燈控制策略。其中,算法模型通過深度學(xué)習(xí)框架Tensorflow實(shí)現(xiàn)。
3.2.1 交叉口設(shè)置
以3 個(gè)連續(xù)交叉口作為仿真實(shí)例(見圖10),每個(gè)交叉口取300 m×300 m的區(qū)域,其中每個(gè)交叉路口均由4條相互垂直的道路組成,每條道路為雙向2車道,沿著進(jìn)口道的內(nèi)到外依次是直左車道和右轉(zhuǎn)車道,每個(gè)交叉口均由4個(gè)相位控制,黃燈持續(xù)時(shí)間設(shè)置為3 s,全紅時(shí)間設(shè)置為2 s。
3.2.2 車輛參數(shù)設(shè)置
模擬車輛的參數(shù)設(shè)置見表2。
圖10 連續(xù)交叉口仿真場(chǎng)景Fig.10 Simulation scenario for continuous intersections
表2 車輛參數(shù)表Tab.2 Parameters of vehicles
3.2.3 交通參數(shù)設(shè)置
車輛到達(dá)方式及流量大小對(duì)交通仿真的質(zhì)量會(huì)產(chǎn)生重要的影響。為了更符合現(xiàn)實(shí)情況,場(chǎng)景中車輛的到達(dá)符合隨機(jī)過程分布,車輛隨機(jī)進(jìn)入交叉口并選擇車道。在實(shí)驗(yàn)中,選擇3 種不同車流密度進(jìn)行模型訓(xùn)練,仿真持續(xù)7 200 s,表3為不同車流量下各交叉口和車道的平均車輛到達(dá)率,其中車輛的到達(dá)率符合泊松分布。
表3 車流到達(dá)率Tab.3 Traffic arrival rates
為了驗(yàn)證基于上下層的強(qiáng)化學(xué)習(xí)在交通信號(hào)控制時(shí)的有效性,將本文方法與傳統(tǒng)數(shù)解法綠波帶控制和基于單層的強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)控制方案在平均車輛延誤,路口車輛平均排隊(duì)長(zhǎng)度2 方面進(jìn)行對(duì)比。在設(shè)定的時(shí)間內(nèi),平均累計(jì)反饋值越大,表明算法表現(xiàn)越好;其余3 種交通衡量指標(biāo)值越小,表示車輛在交叉口的通行情況越好,模型可達(dá)到更優(yōu)控制效果。
3.3.1 平均延誤
本節(jié)將平均車輛延誤作為評(píng)估值,在2 400,3 600,4 800 veh/h 這3 種不同的車流量下,統(tǒng)計(jì)3種算法下所有車輛的平均延誤時(shí)長(zhǎng)并進(jìn)行比較,以驗(yàn)證本文控制模型的可行性。
由圖11 和表4 可知,其中實(shí)線為本文的模型,粗虛線為單層神經(jīng)網(wǎng)絡(luò)控制模型,細(xì)虛線為數(shù)解法綠波帶信號(hào)控制模型,在不同車流量時(shí),本文模型的車輛延誤下降趨勢(shì)大致相同,同時(shí)控制效果強(qiáng)于單層DQN 控制模型與數(shù)解法綠波帶模型。通過圖12(a)~(c)對(duì)比可知隨著車流量的減小,各模型的車均延誤也隨之降低,并且本文的上下層神經(jīng)網(wǎng)絡(luò)模型優(yōu)于其余2 種模型,對(duì)比數(shù)解法綠波算法和單層DQN 控制模型其降低比例分別為26%和7.8%,說明基于上下層神經(jīng)網(wǎng)絡(luò)的控制下,車輛的平均延誤更低,更好地保障車輛的通行能力。
3.3.2 平均排隊(duì)長(zhǎng)度
圖11 各流量下的車均延誤Fig.11 Vehicle average delay at different circumstances
表4 各模型在不同流量下的車均延誤統(tǒng)計(jì)Tab.4 Vehicle delay under different flow rates
本節(jié)將平均排隊(duì)長(zhǎng)度設(shè)置為評(píng)估值。在2 400 veh/h,3 600 veh/h,4 800 veh/h這3種不同的車流量下,統(tǒng)計(jì)對(duì)比車輛的平均排隊(duì)長(zhǎng)度,以驗(yàn)證本文控制模型的可行性。
由圖12和表5可知,經(jīng)過模型的訓(xùn)練,基于上下層控制的神經(jīng)網(wǎng)絡(luò)模型比數(shù)解法綠波帶算法平均減少了19.7%,同時(shí)控制效果強(qiáng)于單層DQN控制模型的26.3%。圖12(a)~(c)對(duì)比可知在車流量為4 800 veh/h 時(shí)排隊(duì)長(zhǎng)度的降比最大,其數(shù)值為32.1%。由此可知,本文的上下層神經(jīng)網(wǎng)絡(luò)模型數(shù)據(jù)優(yōu)于其余2 種模型,說明基于上下層神經(jīng)網(wǎng)絡(luò)的控制下,車輛的平均排隊(duì)長(zhǎng)度更低,且在車流量較高時(shí)的控制效果更好,從而更好地保障車輛的通行能力。
圖12 各流量下的平均排隊(duì)長(zhǎng)度Fig.12 Average queue length at different circumstances
表5 各模型在不同流量下的排隊(duì)長(zhǎng)度統(tǒng)計(jì)Tab.5 Average queue length under different flow rates
3.3.3 車流量變化時(shí)的延誤
由于實(shí)際情況下路網(wǎng)的流量是不斷變化的,以車流量在2 400~3 600 veh/h 為前提訓(xùn)練,統(tǒng)計(jì)對(duì)比車輛的平均延誤,以驗(yàn)證在車流量變化下模型的控制效果。
圖13 流量為2 400~3 600 veh/h的車均延誤Fig. 13 Vehicle average delay at 2 400~3 600 veh/h
由圖13 可知,其中實(shí)線為本文的模型,粗虛線為單層神經(jīng)網(wǎng)絡(luò)控制模型,細(xì)虛線為數(shù)解法綠波帶信號(hào)控制模型,可知在車流量不斷變化時(shí),本文模型的車輛延誤曲線與流量固定時(shí)呈相同趨勢(shì),同時(shí)控制效果介于2 400 veh/h 和3 600 veh/h 之間且強(qiáng)于其余2 種模型。對(duì)比數(shù)解法綠波算法和單層DQN 控制模型其降低比例分別為27.3%和9.9%,說明本文的算法模型可以適用于車流量不斷變化的情況。
1)以車聯(lián)網(wǎng)環(huán)境為前提,在獲取道路和車輛信息的基礎(chǔ)上,以降低交叉口車均延誤為研究?jī)?nèi)容和目的。選取了上下層Agent對(duì)多個(gè)交叉口進(jìn)行信號(hào)控制,并建立了上下層Agent的交叉口控制模型,并且在不同車流量的前提,對(duì)比該方法對(duì)信號(hào)的控制效果。
2)提出了使用深度強(qiáng)化學(xué)習(xí)模型來解決交通燈控制問題,搭建了Dueling Double DQN 模型來進(jìn)行訓(xùn)練。其中交通信息用車輛檢測(cè)器以及車聯(lián)網(wǎng)技術(shù)來收集,車輛檢測(cè)器收集車輛的各種信息,將信號(hào)燈切換的行為建模為馬爾可夫決策過程,將2 個(gè)周期之間的平均等待時(shí)間之差作為反饋值,同時(shí),為了處理復(fù)雜的交通場(chǎng)景,本文的模型應(yīng)用了各種訓(xùn)練神經(jīng)網(wǎng)絡(luò)優(yōu)化方法。
3)建立的連續(xù)交叉口信號(hào)控制方法可應(yīng)用于實(shí)際不同交通場(chǎng)景中,根據(jù)不同的路口結(jié)構(gòu)和車流量分類訓(xùn)練,并在車流量適中的前提下有著較好控制能力,為車聯(lián)網(wǎng)環(huán)境下的信號(hào)控制的相關(guān)技術(shù)的應(yīng)用提供理論依據(jù)和實(shí)現(xiàn)方案。