車聯(lián)網(wǎng)環(huán)境下連續(xù)信號(hào)交叉口協(xié)同控制模型*

2021-04-29 13:32:22王龐偉汪云峰

交通信息與安全 2021年1期

王龐偉馮月鄧輝汪云峰王力

（北方工業(yè)大學(xué)城市道路交通智能控制技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室北京100144）

0 引言

隨著汽車保有量的逐年增加，人民生活水平逐漸提高，同時(shí)帶來的交通擁堵、能源消耗、環(huán)境污染和交通事故等問題日益突出，不僅影響人們的出行效率和生命安全，而且導(dǎo)致巨額的財(cái)力和物力損失。近年來，隨著互聯(lián)網(wǎng)、信息通信和環(huán)境感知等相關(guān)技術(shù)的快速發(fā)展，車聯(lián)網(wǎng)技術(shù)成為解決交通問題的新方案。王龐偉等[1]提出1 種利用車路信息融合的實(shí)時(shí)交通狀態(tài)評(píng)價(jià)方法，用實(shí)時(shí)交通狀態(tài)評(píng)價(jià)得分表示交通狀態(tài)變化趨勢(shì)，運(yùn)用信息融合方法提高了交通狀態(tài)評(píng)價(jià)結(jié)果的實(shí)時(shí)性與客觀性，同時(shí)為車路協(xié)同技術(shù)應(yīng)用于實(shí)時(shí)交通誘導(dǎo)，緩解城市交通擁堵提供了理論依據(jù)。趙盼明等[2]研究了基于模糊控制的信號(hào)協(xié)調(diào)優(yōu)化方案，通過一級(jí)和二級(jí)模糊控制器分別對(duì)區(qū)域交叉口群信號(hào)進(jìn)行協(xié)調(diào)控制，達(dá)到減少區(qū)域最大排隊(duì)長(zhǎng)度和平均行車延誤的目的。隨著深度學(xué)習(xí)的出現(xiàn)，交通信號(hào)控制系統(tǒng)通過車聯(lián)網(wǎng)獲取路況信息，同時(shí)通過深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)[3-4]（deep q-learning network，DQN）無模型數(shù)據(jù)驅(qū)動(dòng)的方法控制交叉口，使車輛快速通過交叉口，緩解城市道路擁堵，提高道路通行能力。

目前國(guó)內(nèi)外學(xué)者已在該研究領(lǐng)域積累了顯著科研成果。曹建峰[5]提出了分段優(yōu)化的數(shù)解法智能交通綠波帶算法，在控制連續(xù)交叉口中取得較好效果，但在一定程度上不能適應(yīng)多變的交通流特征。常玉林等[6]提出了1 種實(shí)現(xiàn)雙向綠波信號(hào)控制的改進(jìn)圖解法。結(jié)果表明該圖解法設(shè)計(jì)的雙向綠波可有效提高干線道路的通行率，緩解交通擁堵情況。宋現(xiàn)敏等[7]構(gòu)建信號(hào)協(xié)同優(yōu)化模型，提升信號(hào)交叉口時(shí)空資源利用率。Mousavi等[8]和Li[9]等將強(qiáng)化學(xué)習(xí)應(yīng)用在交通信號(hào)燈控制系統(tǒng)中，通過自適應(yīng)控制，信號(hào)燈配時(shí)可以根據(jù)實(shí)際交通狀況發(fā)生變化。文峰等[10]提出深度強(qiáng)化學(xué)習(xí)策略并應(yīng)用各種神經(jīng)網(wǎng)絡(luò)的優(yōu)化方法及引入經(jīng)驗(yàn)池、貪婪策略。結(jié)果表明,相比于傳統(tǒng)Q學(xué)習(xí)策略,可以更好的疏通交通擁堵,提高交通系統(tǒng)效率。劉義等[11]提出分布式、自適應(yīng)的信號(hào)控制方案，通過在線學(xué)習(xí)各種流量負(fù)荷，實(shí)時(shí)推理計(jì)算控制參數(shù)，并得了一定改進(jìn)效果。Xu等[12]和Touhbi等[13]通過收集道路數(shù)據(jù)，采用將整個(gè)交叉口劃分為網(wǎng)格的方法將復(fù)雜交通場(chǎng)景量化為狀態(tài)，提出了1 種深度強(qiáng)化學(xué)習(xí)模型來控制交通信號(hào)燈配時(shí)，并通過仿真實(shí)驗(yàn)驗(yàn)證了該模型在交通信號(hào)控制方面的有效性。Wu 等[14]提出了基于深度學(xué)習(xí)的串聯(lián)-并聯(lián)方案，并對(duì)公交車進(jìn)行分配。Arel 等[15]使用價(jià)值函數(shù)來預(yù)測(cè)交通交叉口的最佳交通信號(hào)，并基于利用智能體之間的交互達(dá)到更優(yōu)控制效果。Jin等[16]將常用信號(hào)控制策略與強(qiáng)化學(xué)習(xí)技術(shù)相結(jié)合來預(yù)測(cè)路口的最佳交通信號(hào)配時(shí)。Zhao等[17]提出了帶有動(dòng)態(tài)折現(xiàn)因子的Q-learning 模型。并將該模型與普通模型進(jìn)行對(duì)比。Wan 等[18]對(duì)比了神經(jīng)網(wǎng)絡(luò)，模糊系統(tǒng)和遺傳算法在交通信號(hào)控制的效果。Tan 等[19]將每個(gè)路口建模為智能體，并讓各智能體間進(jìn)行協(xié)作來控制交通信號(hào)。

綜上所述，在交通信號(hào)控制技術(shù)中應(yīng)用DQN可以對(duì)復(fù)雜的交通情況進(jìn)行配時(shí)疏導(dǎo)，并且可以在深度強(qiáng)化學(xué)習(xí)的過程中找到最優(yōu)信號(hào)規(guī)劃方案。然而，目前深度學(xué)習(xí)方法應(yīng)用于交叉信號(hào)控制通常是將單個(gè)路口圖像化，利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)交叉口交通流進(jìn)行預(yù)測(cè)，然后對(duì)預(yù)測(cè)結(jié)果進(jìn)行相應(yīng)預(yù)測(cè)配時(shí)控制。此外，對(duì)于連續(xù)交叉口信號(hào)控制處理問題，由于交叉口過多致使?fàn)顟B(tài)空間模型復(fù)雜化，同時(shí)需要處理不同狀態(tài)的多交叉口空間模型，導(dǎo)致傳統(tǒng)強(qiáng)化學(xué)習(xí)的復(fù)雜性呈指數(shù)增長(zhǎng)，增加了狀態(tài)獲取及反饋評(píng)價(jià)的復(fù)雜度，使其較難應(yīng)用于多交叉口。

針對(duì)上述問題，采用上下層Agent 網(wǎng)絡(luò)的DQN策略對(duì)連續(xù)交叉口交通信號(hào)進(jìn)行控制，以減少狀態(tài)獲取及反饋評(píng)價(jià)的復(fù)雜度，解決連續(xù)交叉口信號(hào)控制問題。此外，為保證訓(xùn)練目標(biāo)的平穩(wěn)性，避免其訓(xùn)練陷入目標(biāo)值與預(yù)測(cè)值的反饋循環(huán)中震蕩發(fā)散，采用Adam 優(yōu)化算法和Double 和Dueling 優(yōu)化方法對(duì)DQN優(yōu)化訓(xùn)練，相比于傳統(tǒng)DQN控制模型，該方法可根據(jù)不同道路環(huán)境和交通狀態(tài)實(shí)時(shí)切換路口相位，增加了交叉口之間的協(xié)作能力，保障交叉口行車暢通，提高交叉口通行能力，為緩解交通擁堵、提高出行效率并減少安全事故提出了新的解決方案和理論依據(jù)。

1 車聯(lián)網(wǎng)環(huán)境下連續(xù)信號(hào)交叉口協(xié)同控制系統(tǒng)框架

1.1 車聯(lián)網(wǎng)環(huán)境下連續(xù)信號(hào)交叉口信號(hào)模型框架

通過車聯(lián)網(wǎng)技術(shù)和各交通傳感器實(shí)時(shí)獲取交通信號(hào)配時(shí)數(shù)據(jù)、車輛行駛狀態(tài)，以及道路實(shí)際狀況等信息建立深度強(qiáng)化學(xué)習(xí)方法，基于神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)當(dāng)前交通狀態(tài)實(shí)現(xiàn)交通信號(hào)控制。

1.2 連續(xù)交叉口上下層信號(hào)模型

對(duì)連續(xù)交叉口信號(hào)燈的控制分為上下層控制：下層Agent 為各個(gè)路口的交通信號(hào)控制器，各控制器都有獨(dú)自的學(xué)習(xí)策略；上層Agent 主要用來調(diào)整下層Agent的臨時(shí)策略。上層與下層控制器共同控制整個(gè)區(qū)域的信號(hào)燈，多主體系統(tǒng)模型見圖1。

首先將路口上游車輛的環(huán)境信息分別構(gòu)建為位置矩陣和速度矩陣；然后采用卷積神經(jīng)網(wǎng)絡(luò)來匹配狀態(tài)和預(yù)期的未來反饋值，并采取優(yōu)化后的深度強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練；最后結(jié)合實(shí)際交通場(chǎng)景，通過SUMO交通仿真建模進(jìn)行實(shí)驗(yàn)，驗(yàn)證該模型的可行性。

圖1 連續(xù)交叉口上下層信號(hào)控制模型框架Fig.1 Frame of upper-and-lower signal control model for continuous intersections

2 基于上下層Agent 協(xié)同控制的連續(xù)交叉口信號(hào)控制模型

2.1 下層路口控制的神經(jīng)網(wǎng)絡(luò)架構(gòu)

2.1.1 下層神經(jīng)網(wǎng)絡(luò)的狀態(tài)空間定義

為了準(zhǔn)確描述交叉口的交通信息，將交叉口每個(gè)方向的車輛等待時(shí)間W、車輛延誤時(shí)長(zhǎng)D以及信號(hào)燈相位變化C作為狀態(tài)輸入。此外，為準(zhǔn)確表示交叉口車輛的位置和速度信息的具體分布，對(duì)交叉路口區(qū)域進(jìn)行離散化建模。

見圖2，整個(gè)交叉口被劃分成大小相同的矩形網(wǎng)格，為減小計(jì)算量，節(jié)約計(jì)算資源，將車輛的速度與位置信息儲(chǔ)存在矩陣?yán)锩?。其中將各個(gè)車道分成網(wǎng)格并看作1個(gè)元胞，檢測(cè)器檢測(cè)車輛狀態(tài)信息，對(duì)于每個(gè)小方塊區(qū)域都用單通道卷積Q表示時(shí)間t內(nèi)檢測(cè)到的速度及位置信息；若檢測(cè)器未檢測(cè)到車輛，則將該區(qū)塊補(bǔ)0。將得到的速度與位置矩陣作為整個(gè)路網(wǎng)的狀態(tài)信息。

圖2 路口矩陣化離散建模Fig.2 Intersection matrix discrete modeling

2.1.2 下層神經(jīng)網(wǎng)絡(luò)的動(dòng)作選取

交通信號(hào)燈根據(jù)當(dāng)前的交通狀態(tài)選擇適當(dāng)?shù)膭?dòng)作來引導(dǎo)交叉路口的車輛。本文把階段間的切換作為動(dòng)作空間，并將相位之間做切換的過程建模為馬爾可夫決策過程（Markov decision process，MDP）。MDP 是序貫決策（sequential decision）的數(shù)學(xué)模型，用于在系統(tǒng)狀態(tài)具有馬爾可夫性質(zhì)的交通場(chǎng)景中模擬智能體可實(shí)現(xiàn)的隨機(jī)性策略與反饋值，然后通過深度強(qiáng)化學(xué)習(xí)中的反復(fù)試驗(yàn)，結(jié)合MDP控制策略來學(xué)習(xí)反饋值最低的切換策略。

MDP循環(huán)見圖3。

圖3 MDP循環(huán)流程圖Fig.3 Flow of the MDP cycle

在圖3中，各回路表示在1個(gè)相位周期內(nèi)路口信號(hào)燈相位轉(zhuǎn)換情況，本文將循環(huán)的單位時(shí)間離散化為5 s，在切換后，當(dāng)前所處相位將更新為所選擇的相序狀態(tài)。此外，為實(shí)現(xiàn)模型切換相位，分別設(shè)置最大和最小燈色持續(xù)時(shí)間，將最大和最小信號(hào)燈相位持續(xù)時(shí)間設(shè)置為60 s和5 s，即若某一相位綠燈時(shí)間達(dá)到60 s之后將強(qiáng)制切換到下一相位，或最小持續(xù)時(shí)間為5 s，并以原始控制方案為基礎(chǔ)不斷迭代更新。

2.1.3 下層神經(jīng)網(wǎng)絡(luò)反饋值定義

為向強(qiáng)化學(xué)習(xí)模型提供關(guān)于先前行為表現(xiàn)的反饋，需定義反饋值來幫助交通信號(hào)采取最佳行動(dòng)策略。以降低車輛的平均延誤為目標(biāo)，同時(shí)確保模型更易收斂，將Reward定義為1 個(gè)時(shí)間段之內(nèi)的車輛平均延誤減少值，故在訓(xùn)練時(shí)應(yīng)確保Reward＞0。

由式可知，若ri變大，則平均等待時(shí)間比以前增加，為達(dá)到使車輛延誤不斷減少的目的，要保證ri盡量取最大。

2.1.4 下層神經(jīng)網(wǎng)絡(luò)建模

使用2 個(gè)參數(shù)一致的主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)，其中主網(wǎng)絡(luò)θ用于實(shí)時(shí)更新權(quán)重，目標(biāo)網(wǎng)絡(luò)θ-在主網(wǎng)絡(luò)y次更新后更新，用狀態(tài)值函數(shù)V(s) 和動(dòng)作優(yōu)勢(shì)函數(shù)A(a)聯(lián)合更新下層神經(jīng)網(wǎng)絡(luò)的最大累積反饋Q值。優(yōu)化器選擇自適應(yīng)矩陣估計(jì)Adam，之后在學(xué)習(xí)過程中采取?-greedy 策略和經(jīng)驗(yàn)回放策略提升收斂速度與訓(xùn)練準(zhǔn)確率，從而使車輛延誤進(jìn)一步降低。

底層CNN 由3 個(gè)卷積層和3 個(gè)完全連接層組成，并使用Leaky ReLU函數(shù)作為激活函數(shù)

式中：x為單位的輸出；β為避免負(fù)側(cè)的零梯度產(chǎn)生死亡神經(jīng)元的常數(shù)。Leaky ReLU函數(shù)可以比其他激活函數(shù)（如，tanh 和sigmod）更快地收斂，從而加快訓(xùn)練時(shí)車輛延誤的收斂速度。神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)見圖4。

圖4 處理車輛信息的圖卷積神經(jīng)網(wǎng)絡(luò)Fig.4 Graph convolutional neural network for processing vehicle information

圖4 為車輛速度與位置信息矩陣在圖卷積神經(jīng)網(wǎng)絡(luò)中的處理過程，首先把通過車聯(lián)網(wǎng)技術(shù)獲取到的信息矩陣化處理，其次通過3 個(gè)卷積層處理數(shù)據(jù)。3 個(gè)卷積層和完全連接層構(gòu)造如下：第1 個(gè)卷積層包含32 個(gè)濾鏡，每個(gè)濾鏡的大小為4*4，每次通過輸入的數(shù)據(jù)移動(dòng)步幅為4*4；第2 個(gè)卷積層有64 個(gè)濾鏡，每個(gè)濾鏡的大小為2*2，移動(dòng)步幅為2*2，2 個(gè)卷積層后輸出的大小為30*30*64；第3 個(gè)卷積層有128 個(gè)濾波器，大小為2*2，移動(dòng)步幅大小為1*1，第3 個(gè)卷積層的輸出是30*30*128 張量，1 個(gè)全連接層將張量轉(zhuǎn)換成128*1 矩陣。在全連接層之后，數(shù)據(jù)被分成大小相同的2 個(gè)部分，為64*1。其中第1 部分代表狀態(tài)值函數(shù)V(s)，表示當(dāng)前路網(wǎng)的靜態(tài)狀態(tài)本身具有的價(jià)值函數(shù)；第2 部分代表依賴狀態(tài)的動(dòng)作優(yōu)勢(shì)函數(shù)A(a)，表示選擇某個(gè)Action 額外帶來的路網(wǎng)延誤變化值，因可能的Action 數(shù)是合法相位的數(shù)量k，故A(a)的大小是k*1，把這2 個(gè)部分再次組合得到每個(gè)動(dòng)作的Q值，其中CNN 中的參數(shù) 表示為θ，Q(s，a) 轉(zhuǎn) 變為Q(s，a，θ-) ，表示網(wǎng)絡(luò)參數(shù)為均方誤差損失，該Q函數(shù)表示從狀態(tài)s開始，使用a作為第1 個(gè)行為的最大累積反饋值，通過當(dāng)前路網(wǎng)交通狀態(tài)，預(yù)測(cè)得出平均期望值r，并由控制器執(zhí)行當(dāng)前神經(jīng)網(wǎng)絡(luò)下的最優(yōu)信號(hào)切換策略。

2.1.5 下層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的優(yōu)化

DQN 模型的核心為卷積神經(jīng)網(wǎng)絡(luò)。將輸入的原始路網(wǎng)數(shù)據(jù)矩陣，通過Q-learning進(jìn)行訓(xùn)練得到輸出為最優(yōu)策略的估計(jì)Q值。

圖5為DQN的框架圖，車輛位置矩陣和速度矩陣經(jīng)過卷積層和全連接層，再通過輸入的狀態(tài)和動(dòng)作輸出包含每1 個(gè)動(dòng)作Q值的向量，從而得出下一步的執(zhí)行動(dòng)作。

圖5 DQN的模型框架圖Fig.5 Framework of the DQN model

1）深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)。在DQN訓(xùn)練過程中，讓Qtarget(s，a，θ)表示狀態(tài)s下的目標(biāo)Q值，用均方誤差（MSE）更新神經(jīng)網(wǎng)絡(luò)，其損失函數(shù)J見式（3）。

式中：P(s)為1 個(gè)訓(xùn)練批次中出現(xiàn)狀態(tài)s的概率。為了在每次迭代中提供穩(wěn)定的更新，采用單獨(dú)的目標(biāo)網(wǎng)絡(luò)θ-來生成Q值。

主神經(jīng)網(wǎng)絡(luò)中的參數(shù)通過反向傳播進(jìn)行更新，其中θ-基于以下等式中的θ進(jìn)行更新。

式中：α為更新速率，表示新參數(shù)對(duì)目標(biāo)網(wǎng)絡(luò)的影響程度；Q(s，a;θi)為當(dāng)前網(wǎng)絡(luò)評(píng)估當(dāng)前狀態(tài)動(dòng)作對(duì)應(yīng)的Q值；Q(s，a;θi)為目標(biāo)值網(wǎng)絡(luò)的輸出。通過當(dāng)前值網(wǎng)絡(luò)的參數(shù)θ更新復(fù)制給目標(biāo)值網(wǎng)絡(luò)θ-，再最小化當(dāng)前Q值和目標(biāo)網(wǎng)絡(luò)Qtarget值之間的均方誤差來更新網(wǎng)絡(luò)參數(shù)，從而將網(wǎng)絡(luò)的誤差項(xiàng)縮小到有限區(qū)間，并且使Q值和梯度值均處于合理的范圍，從而使路網(wǎng)延誤穩(wěn)步下降。

2）Dueling DQN 優(yōu)化方法。在特殊狀態(tài)st時(shí)，如路網(wǎng)內(nèi)車輛過少或過多的情況下，執(zhí)行動(dòng)作at將不影響下1 個(gè)狀態(tài)st+1的延誤，易導(dǎo)致路網(wǎng)延誤在當(dāng)前狀態(tài)下無法收斂。為解決這一問題，采用Dueling DQN提升DQN的學(xué)習(xí)效果與收斂速度。

在原始網(wǎng)絡(luò)的基礎(chǔ)上，用深度網(wǎng)絡(luò)擬合強(qiáng)化學(xué)習(xí)中的Q值，并將Q值函數(shù)分為狀態(tài)V值和動(dòng)作V值，Q值通過狀態(tài)V值和動(dòng)作V’值相加更新。

在神經(jīng)網(wǎng)絡(luò)中，狀態(tài)V(s;θ)值表示在未來步驟中采取概率動(dòng)作的總體預(yù)期反饋值，對(duì)于每個(gè)動(dòng)作A(s，a;θ)，Q值是基于狀態(tài)V和狀態(tài)相關(guān)的A(a)函數(shù)之和，函數(shù)A(a)是當(dāng)前實(shí)際動(dòng)作相比于最優(yōu)動(dòng)作多帶來的累積折扣回報(bào)，Q值計(jì)算見式（5）。

式中：A(s，a;θ)為采取的動(dòng)作對(duì)值函數(shù)的重要性，若A＞0，則該動(dòng)作能更好地降低延誤，反之則表示該動(dòng)作的潛在反饋值小于平均值。

3）Double DQN優(yōu)化方法。傳統(tǒng)DQN存在過估計(jì)的缺點(diǎn)，由于估值的不均勻性，在參數(shù)更新和迭代時(shí)，會(huì)產(chǎn)生過估計(jì)問題，從而導(dǎo)致當(dāng)前相位切換方案不是最優(yōu)方案，為防止Q值被高估，Qtarget值由Double DQN算法更新。

式（6）中的2個(gè)Q網(wǎng)絡(luò)內(nèi)。其中：Q決定狀態(tài)Reward值最大項(xiàng)；Q'函數(shù)負(fù)責(zé)選取動(dòng)作，以減輕過高估計(jì)的問題，從而有效降低路網(wǎng)上車輛的平均延誤的情況。

4）神經(jīng)網(wǎng)絡(luò)參數(shù)。本文采用1 種基于排序的優(yōu)先經(jīng)驗(yàn)回放結(jié)構(gòu)方法以增加學(xué)習(xí)效率。通過增加平均延誤更低樣本的重放概率，以基于排序的方法來計(jì)算體驗(yàn)樣本的優(yōu)先概率，其中樣本m的誤差δ定義為

將誤差δ排序，設(shè)這些經(jīng)驗(yàn)的優(yōu)先級(jí)pm為其排序的倒數(shù)，Pm為對(duì)樣本m進(jìn)行采樣的概率

式中：τ為使用多少優(yōu)先級(jí)，當(dāng)τ為0 時(shí)，采取隨機(jī)抽樣。

神經(jīng)網(wǎng)絡(luò)模型的優(yōu)化器選擇Adam（自適應(yīng)矩陣估計(jì)）方法。設(shè)J(θ)為損失函數(shù)，計(jì)算參數(shù)梯度g。

分別用指數(shù)移動(dòng)平均值更新一階和二階偏置矩s和r。

式中：ρs和ρr分別為一階和二階指數(shù)衰減率，使用時(shí)間步長(zhǎng)t，對(duì)一階和二階偏置矩進(jìn)行校正。

式中：?，分別為校正后的一階偏置矩和二階偏置矩。計(jì)算梯度更新（逐元素）

最終參數(shù)更新

表1 神經(jīng)網(wǎng)絡(luò)參數(shù)表Tab.1 Parameters of the neural network

2.2 上層控制的神經(jīng)網(wǎng)絡(luò)架構(gòu)

上層Agent 對(duì)連續(xù)交叉口進(jìn)行控制時(shí)，首先基于原始方案對(duì)下層每個(gè)路口的動(dòng)作進(jìn)行調(diào)整，最后根據(jù)每個(gè)路口平均排隊(duì)長(zhǎng)度更新控制方案。

2.2.1 上層狀態(tài)空間定義

多主體系統(tǒng)建模見圖6。

圖6 上層狀態(tài)空間定義圖Fig.6 Definition of the upper state space

系統(tǒng)中每個(gè)主體均是路口的交通信號(hào)控制器，網(wǎng)絡(luò)分層控制的上層控制器能夠控制下層多個(gè)路口信號(hào)控制器一起形成的區(qū)域。設(shè)各路口編號(hào)分別為1，2，……其中每個(gè)下層路口的Agent均有獨(dú)自的學(xué)習(xí)策略，并由上層Agent 提供指導(dǎo)。信號(hào)的二次調(diào)整過程將各路口的延誤進(jìn)行排序，將上層的狀態(tài)空間為延誤最高的路口編號(hào)數(shù)據(jù)，見圖7。

圖7 上層狀態(tài)空間示意圖Fig.7 Upper state space

2.2.2 上層動(dòng)作空間定義

為減少車輛平均延誤，各路口的信號(hào)燈相位時(shí)間需要重新合理分配。設(shè)j為綠燈調(diào)整時(shí)間，其具體值由每個(gè)路口車輛的平均延誤rˉ決定。若當(dāng)前路口ζ的平均延誤是rζ，則該路口的相位綠燈時(shí)間調(diào)整為

2.2.3 上層神經(jīng)網(wǎng)絡(luò)反饋值定義

將上層Agent的反饋值rk定義為所有路口車輛的平均延誤。

式中：m為路口的總數(shù)量;Nn為車輛的總數(shù)量。

2.3 整體架構(gòu)

模型執(zhí)行框架見圖8。

主卷積神經(jīng)網(wǎng)絡(luò)選擇當(dāng)前路口狀態(tài)和暫定相位切換動(dòng)作為反饋值，以選擇最有價(jià)值的動(dòng)作。首先系統(tǒng)生成1 個(gè)訓(xùn)練批次的數(shù)據(jù)，將當(dāng)前狀態(tài)和動(dòng)作以及收到的反饋值作為四元組(s，a，r，s’)存儲(chǔ)在存儲(chǔ)器中。目標(biāo)網(wǎng)絡(luò)θ-是增加學(xué)習(xí)穩(wěn)定性的單獨(dú)神經(jīng)網(wǎng)絡(luò)，通過選擇具有最大Q值的動(dòng)作來獲得最優(yōu)策略，并在每次訓(xùn)練后更新樣本的優(yōu)先級(jí)，接著通過Adam 反向傳播更新神經(jīng)網(wǎng)絡(luò)中的學(xué)習(xí)率。模型根據(jù)?和具有最大Q值的Action選擇操作得出初始控制方案。最后根據(jù)全局車輛平均延誤和每個(gè)路口的車均延誤對(duì)所有路口相位綠燈時(shí)長(zhǎng)進(jìn)行二次調(diào)整，模型通過學(xué)習(xí)可以對(duì)不同交通場(chǎng)景做出相應(yīng)反應(yīng)，從而降低車輛延誤。

3 系統(tǒng)仿真與結(jié)果分析

介紹了實(shí)驗(yàn)所用的仿真環(huán)境及相關(guān)參數(shù)設(shè)置，基于SUMO 對(duì)分布式深度強(qiáng)化學(xué)習(xí)算法在交通信號(hào)控制中的應(yīng)用效果進(jìn)行評(píng)估，并與傳統(tǒng)綠波控制和普通DQN網(wǎng)絡(luò)配時(shí)方案進(jìn)行對(duì)比分析。

圖8 上下層網(wǎng)絡(luò)的全局模型框架Fig.8 Global model framework of upper and lower networks

3.1 實(shí)驗(yàn)環(huán)境設(shè)計(jì)

為驗(yàn)證本文信號(hào)控制算法的性能及有效性，基于SUMO 進(jìn)行仿真模擬車聯(lián)網(wǎng)環(huán)境，將本研究提出的上下層交叉口信號(hào)控制算法與傳統(tǒng)數(shù)解法綠波帶算法、未采用上下層網(wǎng)絡(luò)優(yōu)化的DQN算法模型進(jìn)行對(duì)比。其仿真流程及環(huán)境搭建見圖9。

圖9 SUMO仿真平臺(tái)示意圖Fig.9 SUMO Simulation platform

以典型連續(xù)3 交叉口為例，通過仿真得出評(píng)估指標(biāo)，分別統(tǒng)計(jì)車均延誤和車輛排隊(duì)長(zhǎng)度。

3.2 仿真環(huán)境與參數(shù)設(shè)置

仿真實(shí)驗(yàn)基于SUMO 軟件中的Python 接口完成。實(shí)時(shí)獲取車聯(lián)網(wǎng)信息并自適應(yīng)調(diào)整信號(hào)燈控制策略。其中，算法模型通過深度學(xué)習(xí)框架Tensorflow實(shí)現(xiàn)。

3.2.1 交叉口設(shè)置

以3 個(gè)連續(xù)交叉口作為仿真實(shí)例（見圖10），每個(gè)交叉口取300 m×300 m的區(qū)域，其中每個(gè)交叉路口均由4條相互垂直的道路組成，每條道路為雙向2車道，沿著進(jìn)口道的內(nèi)到外依次是直左車道和右轉(zhuǎn)車道，每個(gè)交叉口均由4個(gè)相位控制，黃燈持續(xù)時(shí)間設(shè)置為3 s，全紅時(shí)間設(shè)置為2 s。

3.2.2 車輛參數(shù)設(shè)置

模擬車輛的參數(shù)設(shè)置見表2。

圖10 連續(xù)交叉口仿真場(chǎng)景Fig.10 Simulation scenario for continuous intersections

表2 車輛參數(shù)表Tab.2 Parameters of vehicles

3.2.3 交通參數(shù)設(shè)置

車輛到達(dá)方式及流量大小對(duì)交通仿真的質(zhì)量會(huì)產(chǎn)生重要的影響。為了更符合現(xiàn)實(shí)情況，場(chǎng)景中車輛的到達(dá)符合隨機(jī)過程分布，車輛隨機(jī)進(jìn)入交叉口并選擇車道。在實(shí)驗(yàn)中，選擇3 種不同車流密度進(jìn)行模型訓(xùn)練，仿真持續(xù)7 200 s，表3為不同車流量下各交叉口和車道的平均車輛到達(dá)率，其中車輛的到達(dá)率符合泊松分布。

表3 車流到達(dá)率Tab.3 Traffic arrival rates

3.3 實(shí)驗(yàn)評(píng)估與結(jié)果分析

為了驗(yàn)證基于上下層的強(qiáng)化學(xué)習(xí)在交通信號(hào)控制時(shí)的有效性，將本文方法與傳統(tǒng)數(shù)解法綠波帶控制和基于單層的強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)控制方案在平均車輛延誤，路口車輛平均排隊(duì)長(zhǎng)度2 方面進(jìn)行對(duì)比。在設(shè)定的時(shí)間內(nèi)，平均累計(jì)反饋值越大，表明算法表現(xiàn)越好；其余3 種交通衡量指標(biāo)值越小，表示車輛在交叉口的通行情況越好，模型可達(dá)到更優(yōu)控制效果。

3.3.1 平均延誤

本節(jié)將平均車輛延誤作為評(píng)估值，在2 400，3 600，4 800 veh/h 這3 種不同的車流量下，統(tǒng)計(jì)3種算法下所有車輛的平均延誤時(shí)長(zhǎng)并進(jìn)行比較，以驗(yàn)證本文控制模型的可行性。

由圖11 和表4 可知，其中實(shí)線為本文的模型，粗虛線為單層神經(jīng)網(wǎng)絡(luò)控制模型，細(xì)虛線為數(shù)解法綠波帶信號(hào)控制模型，在不同車流量時(shí)，本文模型的車輛延誤下降趨勢(shì)大致相同，同時(shí)控制效果強(qiáng)于單層DQN 控制模型與數(shù)解法綠波帶模型。通過圖12（a）～（c）對(duì)比可知隨著車流量的減小，各模型的車均延誤也隨之降低，并且本文的上下層神經(jīng)網(wǎng)絡(luò)模型優(yōu)于其余2 種模型，對(duì)比數(shù)解法綠波算法和單層DQN 控制模型其降低比例分別為26%和7.8%，說明基于上下層神經(jīng)網(wǎng)絡(luò)的控制下，車輛的平均延誤更低，更好地保障車輛的通行能力。

3.3.2 平均排隊(duì)長(zhǎng)度

圖11 各流量下的車均延誤Fig.11 Vehicle average delay at different circumstances

表4 各模型在不同流量下的車均延誤統(tǒng)計(jì)Tab.4 Vehicle delay under different flow rates

本節(jié)將平均排隊(duì)長(zhǎng)度設(shè)置為評(píng)估值。在2 400 veh/h，3 600 veh/h，4 800 veh/h這3種不同的車流量下，統(tǒng)計(jì)對(duì)比車輛的平均排隊(duì)長(zhǎng)度，以驗(yàn)證本文控制模型的可行性。

由圖12和表5可知，經(jīng)過模型的訓(xùn)練，基于上下層控制的神經(jīng)網(wǎng)絡(luò)模型比數(shù)解法綠波帶算法平均減少了19.7%，同時(shí)控制效果強(qiáng)于單層DQN控制模型的26.3%。圖12（a）～（c）對(duì)比可知在車流量為4 800 veh/h 時(shí)排隊(duì)長(zhǎng)度的降比最大，其數(shù)值為32.1%。由此可知，本文的上下層神經(jīng)網(wǎng)絡(luò)模型數(shù)據(jù)優(yōu)于其余2 種模型，說明基于上下層神經(jīng)網(wǎng)絡(luò)的控制下，車輛的平均排隊(duì)長(zhǎng)度更低，且在車流量較高時(shí)的控制效果更好，從而更好地保障車輛的通行能力。

圖12 各流量下的平均排隊(duì)長(zhǎng)度Fig.12 Average queue length at different circumstances

表5 各模型在不同流量下的排隊(duì)長(zhǎng)度統(tǒng)計(jì)Tab.5 Average queue length under different flow rates

3.3.3 車流量變化時(shí)的延誤

由于實(shí)際情況下路網(wǎng)的流量是不斷變化的，以車流量在2 400～3 600 veh/h 為前提訓(xùn)練，統(tǒng)計(jì)對(duì)比車輛的平均延誤，以驗(yàn)證在車流量變化下模型的控制效果。

圖13 流量為2 400～3 600 veh/h的車均延誤Fig. 13 Vehicle average delay at 2 400～3 600 veh/h

由圖13 可知，其中實(shí)線為本文的模型，粗虛線為單層神經(jīng)網(wǎng)絡(luò)控制模型，細(xì)虛線為數(shù)解法綠波帶信號(hào)控制模型，可知在車流量不斷變化時(shí)，本文模型的車輛延誤曲線與流量固定時(shí)呈相同趨勢(shì)，同時(shí)控制效果介于2 400 veh/h 和3 600 veh/h 之間且強(qiáng)于其余2 種模型。對(duì)比數(shù)解法綠波算法和單層DQN 控制模型其降低比例分別為27.3%和9.9%，說明本文的算法模型可以適用于車流量不斷變化的情況。

4 結(jié)束語

1）以車聯(lián)網(wǎng)環(huán)境為前提，在獲取道路和車輛信息的基礎(chǔ)上，以降低交叉口車均延誤為研究?jī)?nèi)容和目的。選取了上下層Agent對(duì)多個(gè)交叉口進(jìn)行信號(hào)控制，并建立了上下層Agent的交叉口控制模型，并且在不同車流量的前提，對(duì)比該方法對(duì)信號(hào)的控制效果。

2）提出了使用深度強(qiáng)化學(xué)習(xí)模型來解決交通燈控制問題，搭建了Dueling Double DQN 模型來進(jìn)行訓(xùn)練。其中交通信息用車輛檢測(cè)器以及車聯(lián)網(wǎng)技術(shù)來收集，車輛檢測(cè)器收集車輛的各種信息，將信號(hào)燈切換的行為建模為馬爾可夫決策過程，將2 個(gè)周期之間的平均等待時(shí)間之差作為反饋值，同時(shí)，為了處理復(fù)雜的交通場(chǎng)景，本文的模型應(yīng)用了各種訓(xùn)練神經(jīng)網(wǎng)絡(luò)優(yōu)化方法。

3）建立的連續(xù)交叉口信號(hào)控制方法可應(yīng)用于實(shí)際不同交通場(chǎng)景中，根據(jù)不同的路口結(jié)構(gòu)和車流量分類訓(xùn)練，并在車流量適中的前提下有著較好控制能力，為車聯(lián)網(wǎng)環(huán)境下的信號(hào)控制的相關(guān)技術(shù)的應(yīng)用提供理論依據(jù)和實(shí)現(xiàn)方案。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放