亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        車聯(lián)網(wǎng)環(huán)境下連續(xù)信號(hào)交叉口協(xié)同控制模型*

        2021-04-29 13:32:22王龐偉汪云峰
        交通信息與安全 2021年1期
        關(guān)鍵詞:交通信號(hào)下層交叉口

        王龐偉 馮 月 鄧 輝 汪云峰 王 力

        (北方工業(yè)大學(xué)城市道路交通智能控制技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室 北京100144)

        0 引 言

        隨著汽車保有量的逐年增加,人民生活水平逐漸提高,同時(shí)帶來的交通擁堵、能源消耗、環(huán)境污染和交通事故等問題日益突出,不僅影響人們的出行效率和生命安全,而且導(dǎo)致巨額的財(cái)力和物力損失。近年來,隨著互聯(lián)網(wǎng)、信息通信和環(huán)境感知等相關(guān)技術(shù)的快速發(fā)展,車聯(lián)網(wǎng)技術(shù)成為解決交通問題的新方案。王龐偉等[1]提出1 種利用車路信息融合的實(shí)時(shí)交通狀態(tài)評(píng)價(jià)方法,用實(shí)時(shí)交通狀態(tài)評(píng)價(jià)得分表示交通狀態(tài)變化趨勢(shì),運(yùn)用信息融合方法提高了交通狀態(tài)評(píng)價(jià)結(jié)果的實(shí)時(shí)性與客觀性,同時(shí)為車路協(xié)同技術(shù)應(yīng)用于實(shí)時(shí)交通誘導(dǎo),緩解城市交通擁堵提供了理論依據(jù)。趙盼明等[2]研究了基于模糊控制的信號(hào)協(xié)調(diào)優(yōu)化方案,通過一級(jí)和二級(jí)模糊控制器分別對(duì)區(qū)域交叉口群信號(hào)進(jìn)行協(xié)調(diào)控制,達(dá)到減少區(qū)域最大排隊(duì)長(zhǎng)度和平均行車延誤的目的。隨著深度學(xué)習(xí)的出現(xiàn),交通信號(hào)控制系統(tǒng)通過車聯(lián)網(wǎng)獲取路況信息,同時(shí)通過深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)[3-4](deep q-learning network,DQN)無模型數(shù)據(jù)驅(qū)動(dòng)的方法控制交叉口,使車輛快速通過交叉口,緩解城市道路擁堵,提高道路通行能力。

        目前國(guó)內(nèi)外學(xué)者已在該研究領(lǐng)域積累了顯著科研成果。曹建峰[5]提出了分段優(yōu)化的數(shù)解法智能交通綠波帶算法,在控制連續(xù)交叉口中取得較好效果,但在一定程度上不能適應(yīng)多變的交通流特征。常玉林等[6]提出了1 種實(shí)現(xiàn)雙向綠波信號(hào)控制的改進(jìn)圖解法。結(jié)果表明該圖解法設(shè)計(jì)的雙向綠波可有效提高干線道路的通行率,緩解交通擁堵情況。宋現(xiàn)敏等[7]構(gòu)建信號(hào)協(xié)同優(yōu)化模型,提升信號(hào)交叉口時(shí)空資源利用率。Mousavi等[8]和Li[9]等將強(qiáng)化學(xué)習(xí)應(yīng)用在交通信號(hào)燈控制系統(tǒng)中,通過自適應(yīng)控制,信號(hào)燈配時(shí)可以根據(jù)實(shí)際交通狀況發(fā)生變化。文峰等[10]提出深度強(qiáng)化學(xué)習(xí)策略并應(yīng)用各種神經(jīng)網(wǎng)絡(luò)的優(yōu)化方法及引入經(jīng)驗(yàn)池、貪婪策略。結(jié)果表明,相比于傳統(tǒng)Q學(xué)習(xí)策略,可以更好的疏通交通擁堵,提高交通系統(tǒng)效率。劉義等[11]提出分布式、自適應(yīng)的信號(hào)控制方案,通過在線學(xué)習(xí)各種流量負(fù)荷,實(shí)時(shí)推理計(jì)算控制參數(shù),并得了一定改進(jìn)效果。Xu等[12]和Touhbi等[13]通過收集道路數(shù)據(jù),采用將整個(gè)交叉口劃分為網(wǎng)格的方法將復(fù)雜交通場(chǎng)景量化為狀態(tài),提出了1 種深度強(qiáng)化學(xué)習(xí)模型來控制交通信號(hào)燈配時(shí),并通過仿真實(shí)驗(yàn)驗(yàn)證了該模型在交通信號(hào)控制方面的有效性。Wu 等[14]提出了基于深度學(xué)習(xí)的串聯(lián)-并聯(lián)方案,并對(duì)公交車進(jìn)行分配。Arel 等[15]使用價(jià)值函數(shù)來預(yù)測(cè)交通交叉口的最佳交通信號(hào),并基于利用智能體之間的交互達(dá)到更優(yōu)控制效果。Jin等[16]將常用信號(hào)控制策略與強(qiáng)化學(xué)習(xí)技術(shù)相結(jié)合來預(yù)測(cè)路口的最佳交通信號(hào)配時(shí)。Zhao等[17]提出了帶有動(dòng)態(tài)折現(xiàn)因子的Q-learning 模型。并將該模型與普通模型進(jìn)行對(duì)比。Wan 等[18]對(duì)比了神經(jīng)網(wǎng)絡(luò),模糊系統(tǒng)和遺傳算法在交通信號(hào)控制的效果。Tan 等[19]將每個(gè)路口建模為智能體,并讓各智能體間進(jìn)行協(xié)作來控制交通信號(hào)。

        綜上所述,在交通信號(hào)控制技術(shù)中應(yīng)用DQN可以對(duì)復(fù)雜的交通情況進(jìn)行配時(shí)疏導(dǎo),并且可以在深度強(qiáng)化學(xué)習(xí)的過程中找到最優(yōu)信號(hào)規(guī)劃方案。然而,目前深度學(xué)習(xí)方法應(yīng)用于交叉信號(hào)控制通常是將單個(gè)路口圖像化,利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)交叉口交通流進(jìn)行預(yù)測(cè),然后對(duì)預(yù)測(cè)結(jié)果進(jìn)行相應(yīng)預(yù)測(cè)配時(shí)控制。此外,對(duì)于連續(xù)交叉口信號(hào)控制處理問題,由于交叉口過多致使?fàn)顟B(tài)空間模型復(fù)雜化,同時(shí)需要處理不同狀態(tài)的多交叉口空間模型,導(dǎo)致傳統(tǒng)強(qiáng)化學(xué)習(xí)的復(fù)雜性呈指數(shù)增長(zhǎng),增加了狀態(tài)獲取及反饋評(píng)價(jià)的復(fù)雜度,使其較難應(yīng)用于多交叉口。

        針對(duì)上述問題,采用上下層Agent 網(wǎng)絡(luò)的DQN策略對(duì)連續(xù)交叉口交通信號(hào)進(jìn)行控制,以減少狀態(tài)獲取及反饋評(píng)價(jià)的復(fù)雜度,解決連續(xù)交叉口信號(hào)控制問題。此外,為保證訓(xùn)練目標(biāo)的平穩(wěn)性,避免其訓(xùn)練陷入目標(biāo)值與預(yù)測(cè)值的反饋循環(huán)中震蕩發(fā)散,采用Adam 優(yōu)化算法和Double 和Dueling 優(yōu)化方法對(duì)DQN優(yōu)化訓(xùn)練,相比于傳統(tǒng)DQN控制模型,該方法可根據(jù)不同道路環(huán)境和交通狀態(tài)實(shí)時(shí)切換路口相位,增加了交叉口之間的協(xié)作能力,保障交叉口行車暢通,提高交叉口通行能力,為緩解交通擁堵、提高出行效率并減少安全事故提出了新的解決方案和理論依據(jù)。

        1 車聯(lián)網(wǎng)環(huán)境下連續(xù)信號(hào)交叉口協(xié)同控制系統(tǒng)框架

        1.1 車聯(lián)網(wǎng)環(huán)境下連續(xù)信號(hào)交叉口信號(hào)模型框架

        通過車聯(lián)網(wǎng)技術(shù)和各交通傳感器實(shí)時(shí)獲取交通信號(hào)配時(shí)數(shù)據(jù)、車輛行駛狀態(tài),以及道路實(shí)際狀況等信息建立深度強(qiáng)化學(xué)習(xí)方法,基于神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)當(dāng)前交通狀態(tài)實(shí)現(xiàn)交通信號(hào)控制。

        1.2 連續(xù)交叉口上下層信號(hào)模型

        對(duì)連續(xù)交叉口信號(hào)燈的控制分為上下層控制:下層Agent 為各個(gè)路口的交通信號(hào)控制器,各控制器都有獨(dú)自的學(xué)習(xí)策略;上層Agent 主要用來調(diào)整下層Agent的臨時(shí)策略。上層與下層控制器共同控制整個(gè)區(qū)域的信號(hào)燈,多主體系統(tǒng)模型見圖1。

        首先將路口上游車輛的環(huán)境信息分別構(gòu)建為位置矩陣和速度矩陣;然后采用卷積神經(jīng)網(wǎng)絡(luò)來匹配狀態(tài)和預(yù)期的未來反饋值,并采取優(yōu)化后的深度強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練;最后結(jié)合實(shí)際交通場(chǎng)景,通過SUMO交通仿真建模進(jìn)行實(shí)驗(yàn),驗(yàn)證該模型的可行性。

        圖1 連續(xù)交叉口上下層信號(hào)控制模型框架Fig.1 Frame of upper-and-lower signal control model for continuous intersections

        2 基于上下層Agent 協(xié)同控制的連續(xù)交叉口信號(hào)控制模型

        2.1 下層路口控制的神經(jīng)網(wǎng)絡(luò)架構(gòu)

        2.1.1 下層神經(jīng)網(wǎng)絡(luò)的狀態(tài)空間定義

        為了準(zhǔn)確描述交叉口的交通信息,將交叉口每個(gè)方向的車輛等待時(shí)間W、車輛延誤時(shí)長(zhǎng)D以及信號(hào)燈相位變化C作為狀態(tài)輸入。此外,為準(zhǔn)確表示交叉口車輛的位置和速度信息的具體分布,對(duì)交叉路口區(qū)域進(jìn)行離散化建模。

        見圖2,整個(gè)交叉口被劃分成大小相同的矩形網(wǎng)格,為減小計(jì)算量,節(jié)約計(jì)算資源,將車輛的速度與位置信息儲(chǔ)存在矩陣?yán)锩?。其中將各個(gè)車道分成網(wǎng)格并看作1個(gè)元胞,檢測(cè)器檢測(cè)車輛狀態(tài)信息,對(duì)于每個(gè)小方塊區(qū)域都用單通道卷積Q表示時(shí)間t內(nèi)檢測(cè)到的速度及位置信息;若檢測(cè)器未檢測(cè)到車輛,則將該區(qū)塊補(bǔ)0。將得到的速度與位置矩陣作為整個(gè)路網(wǎng)的狀態(tài)信息。

        圖2 路口矩陣化離散建模Fig.2 Intersection matrix discrete modeling

        2.1.2 下層神經(jīng)網(wǎng)絡(luò)的動(dòng)作選取

        交通信號(hào)燈根據(jù)當(dāng)前的交通狀態(tài)選擇適當(dāng)?shù)膭?dòng)作來引導(dǎo)交叉路口的車輛。本文把階段間的切換作為動(dòng)作空間,并將相位之間做切換的過程建模為馬爾可夫決策過程(Markov decision process,MDP)。MDP 是序貫決策(sequential decision)的數(shù)學(xué)模型,用于在系統(tǒng)狀態(tài)具有馬爾可夫性質(zhì)的交通場(chǎng)景中模擬智能體可實(shí)現(xiàn)的隨機(jī)性策略與反饋值,然后通過深度強(qiáng)化學(xué)習(xí)中的反復(fù)試驗(yàn),結(jié)合MDP控制策略來學(xué)習(xí)反饋值最低的切換策略。

        MDP循環(huán)見圖3。

        圖3 MDP循環(huán)流程圖Fig.3 Flow of the MDP cycle

        在圖3中,各回路表示在1個(gè)相位周期內(nèi)路口信號(hào)燈相位轉(zhuǎn)換情況,本文將循環(huán)的單位時(shí)間離散化為5 s,在切換后,當(dāng)前所處相位將更新為所選擇的相序狀態(tài)。此外,為實(shí)現(xiàn)模型切換相位,分別設(shè)置最大和最小燈色持續(xù)時(shí)間,將最大和最小信號(hào)燈相位持續(xù)時(shí)間設(shè)置為60 s和5 s,即若某一相位綠燈時(shí)間達(dá)到60 s之后將強(qiáng)制切換到下一相位,或最小持續(xù)時(shí)間為5 s,并以原始控制方案為基礎(chǔ)不斷迭代更新。

        2.1.3 下層神經(jīng)網(wǎng)絡(luò)反饋值定義

        為向強(qiáng)化學(xué)習(xí)模型提供關(guān)于先前行為表現(xiàn)的反饋,需定義反饋值來幫助交通信號(hào)采取最佳行動(dòng)策略。以降低車輛的平均延誤為目標(biāo),同時(shí)確保模型更易收斂,將Reward定義為1 個(gè)時(shí)間段之內(nèi)的車輛平均延誤減少值,故在訓(xùn)練時(shí)應(yīng)確保Reward>0。

        由式可知,若ri變大,則平均等待時(shí)間比以前增加,為達(dá)到使車輛延誤不斷減少的目的,要保證ri盡量取最大。

        2.1.4 下層神經(jīng)網(wǎng)絡(luò)建模

        使用2 個(gè)參數(shù)一致的主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò),其中主網(wǎng)絡(luò)θ用于實(shí)時(shí)更新權(quán)重,目標(biāo)網(wǎng)絡(luò)θ-在主網(wǎng)絡(luò)y次更新后更新,用狀態(tài)值函數(shù)V(s) 和動(dòng)作優(yōu)勢(shì)函數(shù)A(a)聯(lián)合更新下層神經(jīng)網(wǎng)絡(luò)的最大累積反饋Q值。優(yōu)化器選擇自適應(yīng)矩陣估計(jì)Adam,之后在學(xué)習(xí)過程中采取?-greedy 策略和經(jīng)驗(yàn)回放策略提升收斂速度與訓(xùn)練準(zhǔn)確率,從而使車輛延誤進(jìn)一步降低。

        底層CNN 由3 個(gè)卷積層和3 個(gè)完全連接層組成,并使用Leaky ReLU函數(shù)作為激活函數(shù)

        式中:x為單位的輸出;β為避免負(fù)側(cè)的零梯度產(chǎn)生死亡神經(jīng)元的常數(shù)。Leaky ReLU函數(shù)可以比其他激活函數(shù)(如,tanh 和sigmod)更快地收斂,從而加快訓(xùn)練時(shí)車輛延誤的收斂速度。神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)見圖4。

        圖4 處理車輛信息的圖卷積神經(jīng)網(wǎng)絡(luò)Fig.4 Graph convolutional neural network for processing vehicle information

        圖4 為車輛速度與位置信息矩陣在圖卷積神經(jīng)網(wǎng)絡(luò)中的處理過程,首先把通過車聯(lián)網(wǎng)技術(shù)獲取到的信息矩陣化處理,其次通過3 個(gè)卷積層處理數(shù)據(jù)。3 個(gè)卷積層和完全連接層構(gòu)造如下:第1 個(gè)卷積層包含32 個(gè)濾鏡,每個(gè)濾鏡的大小為4*4,每次通過輸入的數(shù)據(jù)移動(dòng)步幅為4*4;第2 個(gè)卷積層有64 個(gè)濾鏡,每個(gè)濾鏡的大小為2*2,移動(dòng)步幅為2*2,2 個(gè)卷積層后輸出的大小為30*30*64;第3 個(gè)卷積層有128 個(gè)濾波器,大小為2*2,移動(dòng)步幅大小為1*1,第3 個(gè)卷積層的輸出是30*30*128 張量,1 個(gè)全連接層將張量轉(zhuǎn)換成128*1 矩陣。在全連接層之后,數(shù)據(jù)被分成大小相同的2 個(gè)部分,為64*1。其中第1 部分代表狀態(tài)值函數(shù)V(s),表示當(dāng)前路網(wǎng)的靜態(tài)狀態(tài)本身具有的價(jià)值函數(shù);第2 部分代表依賴狀態(tài)的動(dòng)作優(yōu)勢(shì)函數(shù)A(a),表示選擇某個(gè)Action 額外帶來的路網(wǎng)延誤變化值,因可能的Action 數(shù)是合法相位的數(shù)量k,故A(a)的大小是k*1,把這2 個(gè)部分再次組合得到每個(gè)動(dòng)作的Q值,其 中CNN 中 的 參 數(shù) 表 示 為θ,Q(s,a) 轉(zhuǎn) 變 為Q(s,a,θ-) ,表示網(wǎng)絡(luò)參數(shù)為均方誤差損失,該Q函數(shù)表示從狀態(tài)s開始,使用a作為第1 個(gè)行為的最大累積反饋值,通過當(dāng)前路網(wǎng)交通狀態(tài),預(yù)測(cè)得出平均期望值r,并由控制器執(zhí)行當(dāng)前神經(jīng)網(wǎng)絡(luò)下的最優(yōu)信號(hào)切換策略。

        2.1.5 下層強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的優(yōu)化

        DQN 模型的核心為卷積神經(jīng)網(wǎng)絡(luò)。將輸入的原始路網(wǎng)數(shù)據(jù)矩陣,通過Q-learning進(jìn)行訓(xùn)練得到輸出為最優(yōu)策略的估計(jì)Q值。

        圖5為DQN的框架圖,車輛位置矩陣和速度矩陣經(jīng)過卷積層和全連接層,再通過輸入的狀態(tài)和動(dòng)作輸出包含每1 個(gè)動(dòng)作Q值的向量,從而得出下一步的執(zhí)行動(dòng)作。

        圖5 DQN的模型框架圖Fig.5 Framework of the DQN model

        1)深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)。在DQN訓(xùn)練過程中,讓Qtarget(s,a,θ)表示狀態(tài)s下的目標(biāo)Q值,用均方誤差(MSE)更新神經(jīng)網(wǎng)絡(luò),其損失函數(shù)J見式(3)。

        式中:P(s)為1 個(gè)訓(xùn)練批次中出現(xiàn)狀態(tài)s的概率。為了在每次迭代中提供穩(wěn)定的更新,采用單獨(dú)的目標(biāo)網(wǎng)絡(luò)θ-來生成Q值。

        主神經(jīng)網(wǎng)絡(luò)中的參數(shù)通過反向傳播進(jìn)行更新,其中θ-基于以下等式中的θ進(jìn)行更新。

        式中:α為更新速率,表示新參數(shù)對(duì)目標(biāo)網(wǎng)絡(luò)的影響程度;Q(s,a;θi)為當(dāng)前網(wǎng)絡(luò)評(píng)估當(dāng)前狀態(tài)動(dòng)作對(duì)應(yīng)的Q值;Q(s,a;θi)為目標(biāo)值網(wǎng)絡(luò)的輸出。通過當(dāng)前值網(wǎng)絡(luò)的參數(shù)θ更新復(fù)制給目標(biāo)值網(wǎng)絡(luò)θ-,再最小化當(dāng)前Q值和目標(biāo)網(wǎng)絡(luò)Qtarget值之間的均方誤差來更新網(wǎng)絡(luò)參數(shù),從而將網(wǎng)絡(luò)的誤差項(xiàng)縮小到有限區(qū)間,并且使Q值和梯度值均處于合理的范圍,從而使路網(wǎng)延誤穩(wěn)步下降。

        2)Dueling DQN 優(yōu)化方法。在特殊狀態(tài)st時(shí),如路網(wǎng)內(nèi)車輛過少或過多的情況下,執(zhí)行動(dòng)作at將不影響下1 個(gè)狀態(tài)st+1的延誤,易導(dǎo)致路網(wǎng)延誤在當(dāng)前狀態(tài)下無法收斂。為解決這一問題,采用Dueling DQN提升DQN的學(xué)習(xí)效果與收斂速度。

        在原始網(wǎng)絡(luò)的基礎(chǔ)上,用深度網(wǎng)絡(luò)擬合強(qiáng)化學(xué)習(xí)中的Q值,并將Q值函數(shù)分為狀態(tài)V值和動(dòng)作V值,Q值通過狀態(tài)V值和動(dòng)作V’值相加更新。

        在神經(jīng)網(wǎng)絡(luò)中,狀態(tài)V(s;θ)值表示在未來步驟中采取概率動(dòng)作的總體預(yù)期反饋值,對(duì)于每個(gè)動(dòng)作A(s,a;θ),Q值是基于狀態(tài)V和狀態(tài)相關(guān)的A(a)函數(shù)之和,函數(shù)A(a)是當(dāng)前實(shí)際動(dòng)作相比于最優(yōu)動(dòng)作多帶來的累積折扣回報(bào),Q值計(jì)算見式(5)。

        式中:A(s,a;θ)為采取的動(dòng)作對(duì)值函數(shù)的重要性,若A>0,則該動(dòng)作能更好地降低延誤,反之則表示該動(dòng)作的潛在反饋值小于平均值。

        3)Double DQN優(yōu)化方法。傳統(tǒng)DQN存在過估計(jì)的缺點(diǎn),由于估值的不均勻性,在參數(shù)更新和迭代時(shí),會(huì)產(chǎn)生過估計(jì)問題,從而導(dǎo)致當(dāng)前相位切換方案不是最優(yōu)方案,為防止Q值被高估,Qtarget值由Double DQN算法更新。

        式(6)中的2個(gè)Q網(wǎng)絡(luò)內(nèi)。其中:Q決定狀態(tài)Reward值最大項(xiàng);Q'函數(shù)負(fù)責(zé)選取動(dòng)作,以減輕過高估計(jì)的問題,從而有效降低路網(wǎng)上車輛的平均延誤的情況。

        4)神經(jīng)網(wǎng)絡(luò)參數(shù)。本文采用1 種基于排序的優(yōu)先經(jīng)驗(yàn)回放結(jié)構(gòu)方法以增加學(xué)習(xí)效率。通過增加平均延誤更低樣本的重放概率,以基于排序的方法來計(jì)算體驗(yàn)樣本的優(yōu)先概率,其中樣本m的誤差δ定義為

        將誤差δ排序,設(shè)這些經(jīng)驗(yàn)的優(yōu)先級(jí)pm為其排序的倒數(shù),Pm為對(duì)樣本m進(jìn)行采樣的概率

        式中:τ為使用多少優(yōu)先級(jí),當(dāng)τ為0 時(shí),采取隨機(jī)抽樣。

        神經(jīng)網(wǎng)絡(luò)模型的優(yōu)化器選擇Adam(自適應(yīng)矩陣估計(jì))方法。設(shè)J(θ)為損失函數(shù),計(jì)算參數(shù)梯度g。

        分別用指數(shù)移動(dòng)平均值更新一階和二階偏置矩s和r。

        式中:ρs和ρr分別為一階和二階指數(shù)衰減率,使用時(shí)間步長(zhǎng)t,對(duì)一階和二階偏置矩進(jìn)行校正。

        式中:?,分別為校正后的一階偏置矩和二階偏置矩。計(jì)算梯度更新(逐元素)

        最終參數(shù)更新

        表1 神經(jīng)網(wǎng)絡(luò)參數(shù)表Tab.1 Parameters of the neural network

        2.2 上層控制的神經(jīng)網(wǎng)絡(luò)架構(gòu)

        上層Agent 對(duì)連續(xù)交叉口進(jìn)行控制時(shí),首先基于原始方案對(duì)下層每個(gè)路口的動(dòng)作進(jìn)行調(diào)整,最后根據(jù)每個(gè)路口平均排隊(duì)長(zhǎng)度更新控制方案。

        2.2.1 上層狀態(tài)空間定義

        多主體系統(tǒng)建模見圖6。

        圖6 上層狀態(tài)空間定義圖Fig.6 Definition of the upper state space

        系統(tǒng)中每個(gè)主體均是路口的交通信號(hào)控制器,網(wǎng)絡(luò)分層控制的上層控制器能夠控制下層多個(gè)路口信號(hào)控制器一起形成的區(qū)域。設(shè)各路口編號(hào)分別為1,2,……其中每個(gè)下層路口的Agent均有獨(dú)自的學(xué)習(xí)策略,并由上層Agent 提供指導(dǎo)。信號(hào)的二次調(diào)整過程將各路口的延誤進(jìn)行排序,將上層的狀態(tài)空間為延誤最高的路口編號(hào)數(shù)據(jù),見圖7。

        圖7 上層狀態(tài)空間示意圖Fig.7 Upper state space

        2.2.2 上層動(dòng)作空間定義

        為減少車輛平均延誤,各路口的信號(hào)燈相位時(shí)間需要重新合理分配。設(shè)j為綠燈調(diào)整時(shí)間,其具體值由每個(gè)路口車輛的平均延誤rˉ決定。若當(dāng)前路口ζ的平均延誤是rζ,則該路口的相位綠燈時(shí)間調(diào)整為

        2.2.3 上層神經(jīng)網(wǎng)絡(luò)反饋值定義

        將上層Agent的反饋值rk定義為所有路口車輛的平均延誤。

        式中:m為路口的總數(shù)量;Nn為車輛的總數(shù)量。

        2.3 整體架構(gòu)

        模型執(zhí)行框架見圖8。

        主卷積神經(jīng)網(wǎng)絡(luò)選擇當(dāng)前路口狀態(tài)和暫定相位切換動(dòng)作為反饋值,以選擇最有價(jià)值的動(dòng)作。首先系統(tǒng)生成1 個(gè)訓(xùn)練批次的數(shù)據(jù),將當(dāng)前狀態(tài)和動(dòng)作以及收到的反饋值作為四元組(s,a,r,s’)存儲(chǔ)在存儲(chǔ)器中。目標(biāo)網(wǎng)絡(luò)θ-是增加學(xué)習(xí)穩(wěn)定性的單獨(dú)神經(jīng)網(wǎng)絡(luò),通過選擇具有最大Q值的動(dòng)作來獲得最優(yōu)策略,并在每次訓(xùn)練后更新樣本的優(yōu)先級(jí),接著通過Adam 反向傳播更新神經(jīng)網(wǎng)絡(luò)中的學(xué)習(xí)率。模型根據(jù)?和具有最大Q值的Action選擇操作得出初始控制方案。最后根據(jù)全局車輛平均延誤和每個(gè)路口的車均延誤對(duì)所有路口相位綠燈時(shí)長(zhǎng)進(jìn)行二次調(diào)整,模型通過學(xué)習(xí)可以對(duì)不同交通場(chǎng)景做出相應(yīng)反應(yīng),從而降低車輛延誤。

        3 系統(tǒng)仿真與結(jié)果分析

        介紹了實(shí)驗(yàn)所用的仿真環(huán)境及相關(guān)參數(shù)設(shè)置,基于SUMO 對(duì)分布式深度強(qiáng)化學(xué)習(xí)算法在交通信號(hào)控制中的應(yīng)用效果進(jìn)行評(píng)估,并與傳統(tǒng)綠波控制和普通DQN網(wǎng)絡(luò)配時(shí)方案進(jìn)行對(duì)比分析。

        圖8 上下層網(wǎng)絡(luò)的全局模型框架Fig.8 Global model framework of upper and lower networks

        3.1 實(shí)驗(yàn)環(huán)境設(shè)計(jì)

        為驗(yàn)證本文信號(hào)控制算法的性能及有效性,基于SUMO 進(jìn)行仿真模擬車聯(lián)網(wǎng)環(huán)境,將本研究提出的上下層交叉口信號(hào)控制算法與傳統(tǒng)數(shù)解法綠波帶算法、未采用上下層網(wǎng)絡(luò)優(yōu)化的DQN算法模型進(jìn)行對(duì)比。其仿真流程及環(huán)境搭建見圖9。

        圖9 SUMO仿真平臺(tái)示意圖Fig.9 SUMO Simulation platform

        以典型連續(xù)3 交叉口為例,通過仿真得出評(píng)估指標(biāo),分別統(tǒng)計(jì)車均延誤和車輛排隊(duì)長(zhǎng)度。

        3.2 仿真環(huán)境與參數(shù)設(shè)置

        仿真實(shí)驗(yàn)基于SUMO 軟件中的Python 接口完成。實(shí)時(shí)獲取車聯(lián)網(wǎng)信息并自適應(yīng)調(diào)整信號(hào)燈控制策略。其中,算法模型通過深度學(xué)習(xí)框架Tensorflow實(shí)現(xiàn)。

        3.2.1 交叉口設(shè)置

        以3 個(gè)連續(xù)交叉口作為仿真實(shí)例(見圖10),每個(gè)交叉口取300 m×300 m的區(qū)域,其中每個(gè)交叉路口均由4條相互垂直的道路組成,每條道路為雙向2車道,沿著進(jìn)口道的內(nèi)到外依次是直左車道和右轉(zhuǎn)車道,每個(gè)交叉口均由4個(gè)相位控制,黃燈持續(xù)時(shí)間設(shè)置為3 s,全紅時(shí)間設(shè)置為2 s。

        3.2.2 車輛參數(shù)設(shè)置

        模擬車輛的參數(shù)設(shè)置見表2。

        圖10 連續(xù)交叉口仿真場(chǎng)景Fig.10 Simulation scenario for continuous intersections

        表2 車輛參數(shù)表Tab.2 Parameters of vehicles

        3.2.3 交通參數(shù)設(shè)置

        車輛到達(dá)方式及流量大小對(duì)交通仿真的質(zhì)量會(huì)產(chǎn)生重要的影響。為了更符合現(xiàn)實(shí)情況,場(chǎng)景中車輛的到達(dá)符合隨機(jī)過程分布,車輛隨機(jī)進(jìn)入交叉口并選擇車道。在實(shí)驗(yàn)中,選擇3 種不同車流密度進(jìn)行模型訓(xùn)練,仿真持續(xù)7 200 s,表3為不同車流量下各交叉口和車道的平均車輛到達(dá)率,其中車輛的到達(dá)率符合泊松分布。

        表3 車流到達(dá)率Tab.3 Traffic arrival rates

        3.3 實(shí)驗(yàn)評(píng)估與結(jié)果分析

        為了驗(yàn)證基于上下層的強(qiáng)化學(xué)習(xí)在交通信號(hào)控制時(shí)的有效性,將本文方法與傳統(tǒng)數(shù)解法綠波帶控制和基于單層的強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)控制方案在平均車輛延誤,路口車輛平均排隊(duì)長(zhǎng)度2 方面進(jìn)行對(duì)比。在設(shè)定的時(shí)間內(nèi),平均累計(jì)反饋值越大,表明算法表現(xiàn)越好;其余3 種交通衡量指標(biāo)值越小,表示車輛在交叉口的通行情況越好,模型可達(dá)到更優(yōu)控制效果。

        3.3.1 平均延誤

        本節(jié)將平均車輛延誤作為評(píng)估值,在2 400,3 600,4 800 veh/h 這3 種不同的車流量下,統(tǒng)計(jì)3種算法下所有車輛的平均延誤時(shí)長(zhǎng)并進(jìn)行比較,以驗(yàn)證本文控制模型的可行性。

        由圖11 和表4 可知,其中實(shí)線為本文的模型,粗虛線為單層神經(jīng)網(wǎng)絡(luò)控制模型,細(xì)虛線為數(shù)解法綠波帶信號(hào)控制模型,在不同車流量時(shí),本文模型的車輛延誤下降趨勢(shì)大致相同,同時(shí)控制效果強(qiáng)于單層DQN 控制模型與數(shù)解法綠波帶模型。通過圖12(a)~(c)對(duì)比可知隨著車流量的減小,各模型的車均延誤也隨之降低,并且本文的上下層神經(jīng)網(wǎng)絡(luò)模型優(yōu)于其余2 種模型,對(duì)比數(shù)解法綠波算法和單層DQN 控制模型其降低比例分別為26%和7.8%,說明基于上下層神經(jīng)網(wǎng)絡(luò)的控制下,車輛的平均延誤更低,更好地保障車輛的通行能力。

        3.3.2 平均排隊(duì)長(zhǎng)度

        圖11 各流量下的車均延誤Fig.11 Vehicle average delay at different circumstances

        表4 各模型在不同流量下的車均延誤統(tǒng)計(jì)Tab.4 Vehicle delay under different flow rates

        本節(jié)將平均排隊(duì)長(zhǎng)度設(shè)置為評(píng)估值。在2 400 veh/h,3 600 veh/h,4 800 veh/h這3種不同的車流量下,統(tǒng)計(jì)對(duì)比車輛的平均排隊(duì)長(zhǎng)度,以驗(yàn)證本文控制模型的可行性。

        由圖12和表5可知,經(jīng)過模型的訓(xùn)練,基于上下層控制的神經(jīng)網(wǎng)絡(luò)模型比數(shù)解法綠波帶算法平均減少了19.7%,同時(shí)控制效果強(qiáng)于單層DQN控制模型的26.3%。圖12(a)~(c)對(duì)比可知在車流量為4 800 veh/h 時(shí)排隊(duì)長(zhǎng)度的降比最大,其數(shù)值為32.1%。由此可知,本文的上下層神經(jīng)網(wǎng)絡(luò)模型數(shù)據(jù)優(yōu)于其余2 種模型,說明基于上下層神經(jīng)網(wǎng)絡(luò)的控制下,車輛的平均排隊(duì)長(zhǎng)度更低,且在車流量較高時(shí)的控制效果更好,從而更好地保障車輛的通行能力。

        圖12 各流量下的平均排隊(duì)長(zhǎng)度Fig.12 Average queue length at different circumstances

        表5 各模型在不同流量下的排隊(duì)長(zhǎng)度統(tǒng)計(jì)Tab.5 Average queue length under different flow rates

        3.3.3 車流量變化時(shí)的延誤

        由于實(shí)際情況下路網(wǎng)的流量是不斷變化的,以車流量在2 400~3 600 veh/h 為前提訓(xùn)練,統(tǒng)計(jì)對(duì)比車輛的平均延誤,以驗(yàn)證在車流量變化下模型的控制效果。

        圖13 流量為2 400~3 600 veh/h的車均延誤Fig. 13 Vehicle average delay at 2 400~3 600 veh/h

        由圖13 可知,其中實(shí)線為本文的模型,粗虛線為單層神經(jīng)網(wǎng)絡(luò)控制模型,細(xì)虛線為數(shù)解法綠波帶信號(hào)控制模型,可知在車流量不斷變化時(shí),本文模型的車輛延誤曲線與流量固定時(shí)呈相同趨勢(shì),同時(shí)控制效果介于2 400 veh/h 和3 600 veh/h 之間且強(qiáng)于其余2 種模型。對(duì)比數(shù)解法綠波算法和單層DQN 控制模型其降低比例分別為27.3%和9.9%,說明本文的算法模型可以適用于車流量不斷變化的情況。

        4 結(jié)束語

        1)以車聯(lián)網(wǎng)環(huán)境為前提,在獲取道路和車輛信息的基礎(chǔ)上,以降低交叉口車均延誤為研究?jī)?nèi)容和目的。選取了上下層Agent對(duì)多個(gè)交叉口進(jìn)行信號(hào)控制,并建立了上下層Agent的交叉口控制模型,并且在不同車流量的前提,對(duì)比該方法對(duì)信號(hào)的控制效果。

        2)提出了使用深度強(qiáng)化學(xué)習(xí)模型來解決交通燈控制問題,搭建了Dueling Double DQN 模型來進(jìn)行訓(xùn)練。其中交通信息用車輛檢測(cè)器以及車聯(lián)網(wǎng)技術(shù)來收集,車輛檢測(cè)器收集車輛的各種信息,將信號(hào)燈切換的行為建模為馬爾可夫決策過程,將2 個(gè)周期之間的平均等待時(shí)間之差作為反饋值,同時(shí),為了處理復(fù)雜的交通場(chǎng)景,本文的模型應(yīng)用了各種訓(xùn)練神經(jīng)網(wǎng)絡(luò)優(yōu)化方法。

        3)建立的連續(xù)交叉口信號(hào)控制方法可應(yīng)用于實(shí)際不同交通場(chǎng)景中,根據(jù)不同的路口結(jié)構(gòu)和車流量分類訓(xùn)練,并在車流量適中的前提下有著較好控制能力,為車聯(lián)網(wǎng)環(huán)境下的信號(hào)控制的相關(guān)技術(shù)的應(yīng)用提供理論依據(jù)和實(shí)現(xiàn)方案。

        猜你喜歡
        交通信號(hào)下層交叉口
        《城市軌道交通信號(hào)圖冊(cè)》正式出版
        《城市軌道交通信號(hào)設(shè)備》正式出版
        城市軌道交通信號(hào)設(shè)備監(jiān)測(cè)技術(shù)探討
        一類多個(gè)下層的雙層規(guī)劃問題
        信號(hào)交叉口延誤參數(shù)獲取綜述
        積雪
        陜西橫山羅圪臺(tái)村元代壁畫墓發(fā)掘簡(jiǎn)報(bào)
        考古與文物(2016年5期)2016-12-21 06:28:48
        交通信號(hào)智能指揮模型
        一種Y型交叉口設(shè)計(jì)方案的選取過程
        考慮黃燈駕駛行為的城市交叉口微觀仿真
        亚洲精品久久7777777| 熟女少妇丰满一区二区| 成人午夜免费无码视频在线观看 | 蜜桃高清视频在线看免费1| 亚州终合人妖一区二区三区| 亚洲精品蜜夜内射| 天天燥日日燥| 一区二区三区日韩亚洲中文视频| 久草精品手机视频在线观看| 人妻秘书被社长浓厚接吻| 人妻少妇精品中文字幕专区| 日本高清h色视频在线观看| 久久国产精品国产精品日韩区| 亚洲精品中文字幕尤物综合| 久久精品国产亚洲av成人文字| 国产色xx群视频射精| 日本丰满人妻xxxxxhd| 亚洲国产香蕉视频欧美| 国产精品国产三级国av在线观看 | 亚洲国产av无码精品无广告| 成人影院yy111111在线| 亚洲av永久无码精品秋霞电影影院 | 欧美日韩精品久久久免费观看 | 国产精品1区2区| 国产91大片在线观看| av手机免费在线观看高潮| 亚洲sm另类一区二区三区| 国产精品免费久久久久影院| 亚洲区日韩精品中文字幕| 国产激情免费观看视频| 国产在线观看午夜视频| 亚洲精品国产精品乱码在线观看| 啦啦啦www播放日本观看| 欧美成人免费观看国产| 国产小车还是日产的好 | 色综合久久蜜芽国产精品| 国产精品麻豆成人av电影艾秋| 精品久久久久久午夜| 人妻少妇被粗大爽视频| 午夜熟女插插xx免费视频| 黑人巨大白妞出浆|