亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        城市交通信號(hào)局部博弈交互下的學(xué)習(xí)協(xié)調(diào)控制

        2020-12-07 08:20:52夏新海
        關(guān)鍵詞:交通信號(hào)交通流交叉口

        夏新海

        廣州航海學(xué)院 港口與航運(yùn)管理學(xué)院,廣州 510725

        1 引言

        效率低下的交通信號(hào)控制造成的交叉口延誤占城市交通凈延誤的5%至10%[1]。城市交通信號(hào)控制系統(tǒng)優(yōu)化可以減少行程延誤、交叉口延誤和交叉口停車次數(shù)。自適應(yīng)交通信號(hào)控制系統(tǒng),如SCOOT、SCATS、PRODYN、OPAC、RHODES、UTOPIA、CRONOS、TUC比固定配時(shí)和感應(yīng)式交通信號(hào)控制系統(tǒng)的控制方案的性能更好。然而,自適應(yīng)交通信號(hào)控制方案往往在可擴(kuò)展性和魯棒性等方面受到限制。其中許多交通信號(hào)控制系統(tǒng)(如SCOOT和SCATS)是基于實(shí)時(shí)交通數(shù)據(jù)運(yùn)行的集中控制系統(tǒng),并且一些系統(tǒng)(如OPAC和RHODES)應(yīng)用動(dòng)態(tài)優(yōu)化來尋找控制方案。然而,它們不能自適應(yīng)地從環(huán)境中學(xué)習(xí),并且隨著交叉口數(shù)目的增加,計(jì)算復(fù)雜度呈指數(shù)級(jí)增加。此外,一些學(xué)者、研究人員也應(yīng)用了神經(jīng)模糊網(wǎng)絡(luò)、tabu 搜索、自組織協(xié)調(diào)圖、情感算法、遺傳算法等來改進(jìn)交通信號(hào)控制方案。然而這些算法存在兩個(gè)主要局限性,分別是需要大量的數(shù)據(jù)來校準(zhǔn)大規(guī)模路網(wǎng)的參數(shù)和指數(shù)復(fù)雜性。為了克服這些局限性,研究人員還探索了基于數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等來替代實(shí)時(shí)自適應(yīng)控制算法。

        在較高飽和度交通環(huán)境下,城市路網(wǎng)中各交叉口處的交通流存在較大相互關(guān)聯(lián)性,因此引入博弈學(xué)習(xí)方法能更有效地進(jìn)行城市區(qū)域路網(wǎng)交通的交通信號(hào)控制。

        近十年來,在交通信號(hào)控制領(lǐng)域,RL(強(qiáng)化學(xué)習(xí))的實(shí)現(xiàn)已經(jīng)得到了很好的研究。Thorpe 利用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)等待時(shí)間,并應(yīng)用在線策略RL(SARSA)來進(jìn)行信號(hào)控制[2]。Mikami 和Kakazu 結(jié)合進(jìn)化算法和強(qiáng)化學(xué)習(xí)技術(shù)提出了合作交通信號(hào)控制方案[3]。Bingham提出了基于模糊邏輯的規(guī)則,其根據(jù)車輛數(shù)量分配綠燈時(shí)間[4]。

        Abdulhai等應(yīng)用了離線策略(Q-Learning)算法來優(yōu)化孤立交叉口的交通信號(hào)控制[5]。由于聯(lián)合狀態(tài)動(dòng)作的空間呈指數(shù)級(jí)增長(zhǎng),其在更大路網(wǎng)中的應(yīng)用具有挑戰(zhàn)性。后來,Wiering 等提出了考慮車輛等待時(shí)間的網(wǎng)絡(luò)級(jí)合作學(xué)習(xí)算法,并使用基于車輛的值函數(shù)將狀態(tài)空間減少到合理數(shù)量[6]。然而,其等待時(shí)間的預(yù)測(cè)并不準(zhǔn)確,交通模擬器缺少車道變換和動(dòng)態(tài)路徑選擇等重要模塊。研究人員還研究了合作多agent系統(tǒng)在城市交通控制的應(yīng)用[7-9]。近年來,El-Tantawy 等提出了基于鄰域協(xié)調(diào)RL的信號(hào)控制,并描述了一個(gè)聯(lián)合決策來介紹多agent框架[10]。盡管Q-Learning 和SARSA 是最廣泛使用的時(shí)間差分技術(shù),但研究人員還應(yīng)用了其他算法,如actorcritic時(shí)間差分、帶函數(shù)逼近的Q-Learning及依賴于動(dòng)作的自適應(yīng)動(dòng)態(tài)規(guī)劃[11-13]。Abdul Aziz H M 等將R-馬爾可夫平均回報(bào)技術(shù)(R-Markov Average Reward Technology)應(yīng)用于交通信號(hào)控制,在強(qiáng)化學(xué)習(xí)狀態(tài)定義中添加相鄰交叉口擁擠信息[14]。

        總的來說,上述研究沒有充分考慮與相鄰交通信號(hào)控制agent 之間的信息交互,或者相鄰交叉口交通信號(hào)控制agent 沒有明確的交互和協(xié)調(diào),未涉及聯(lián)合狀態(tài)動(dòng)作空間的最優(yōu)性。相鄰交通信號(hào)控制agent信息提供了周圍控制agent的擁塞狀態(tài)等信息,其有助于agent更好地學(xué)習(xí)。假設(shè)某一特定交叉口的相鄰交叉口交通負(fù)荷過重,從而該交叉口在不久的將來也將承受過重的交通負(fù)荷。僅使用本地局部信息,agent 無法知道將出現(xiàn)的即時(shí)擁塞。如果相鄰交叉口交換擁塞狀態(tài)等信息時(shí),若相鄰交叉口發(fā)生擁擠,agent 將通過學(xué)習(xí)來調(diào)整交通信號(hào)設(shè)置。

        由于城市路網(wǎng)中交叉口間的交通流是相互影響的,通過相鄰交叉口擁擠信息、策略和效用等信息的交換,使得交叉口交通信號(hào)控制agent間能實(shí)現(xiàn)通信,此控制問題可用博弈框架來建模,從而有利于緩解維數(shù)災(zāi)難問題,并且有效地平衡城市路網(wǎng)交通信號(hào)控制系統(tǒng)整體和交叉口局部交通信號(hào)控制性能。本文在建立城市區(qū)域交通信號(hào)控制系統(tǒng)模型的基礎(chǔ)上,設(shè)計(jì)基于交叉口局部信息交互的博弈學(xué)習(xí)方法,其利用路網(wǎng)拓?fù)渲芯植拷徊婵诮煌飨嗷ビ绊懙年P(guān)系,保證區(qū)域交通信號(hào)控制系統(tǒng)效率在分布化機(jī)制下能夠?qū)崿F(xiàn)最優(yōu)化。在博弈學(xué)習(xí)過程中交叉口交通信號(hào)控制agent進(jìn)行局部交通控制信息交互,自主學(xué)習(xí)控制策略,從而逐漸收斂到最優(yōu)策略。最后通過仿真實(shí)驗(yàn)分析此算法的有效性和收斂性。

        2 城市區(qū)域交通信號(hào)控制系統(tǒng)模型

        利用節(jié)點(diǎn)表示城市區(qū)域交通網(wǎng)絡(luò)中的交叉路口,弧線表示交通流。假設(shè)Sr1、τr1分別為交通流r1的飽和流率和轉(zhuǎn)彎率,且為可測(cè)的常數(shù)。此外,交叉口i的周期Ci,相位p的有效綠燈時(shí)間yi,p,及損失時(shí)間Li滿足,其中Fi是允許車輛離開交叉口i的相位集合,以交叉口1為基準(zhǔn)交叉口,交叉口i相對(duì)于交叉口1 相位差為θi。為了對(duì)區(qū)域路網(wǎng)交通信號(hào)控制進(jìn)行協(xié)調(diào),對(duì)于任意一個(gè)交叉口i,考慮從交叉口j流向交叉口i的單向交通流r,交通流r在時(shí)刻k+1 末的車輛排隊(duì)長(zhǎng)度等于在時(shí)刻k末,交叉口到來的車輛流量Ii,r加上剩余的車輛排隊(duì)長(zhǎng)度,減去在有效綠燈時(shí)間內(nèi)駛出的車輛流量Oi,r[15]。

        建立交通流r的動(dòng)態(tài)離散時(shí)間模型如下:

        其中,xi,r(k)表示當(dāng)?shù)趉個(gè)交通信號(hào)控制周期開始時(shí),交叉口i的交通流r上的車輛數(shù)量。xi,r(k+1)表示第k+1 個(gè)交通信號(hào)控制周期開始時(shí),交叉口i的交通流r上的車輛數(shù)量。T表示交通信號(hào)控制時(shí)間間隔,為一個(gè)交通信號(hào)控制周期C。Ii,r(k)和Oi,r(k)分別表示交通流r的駛?cè)肓髁亢婉偝隽髁俊?/p>

        對(duì)于交通流r,駛?cè)氲能嚵鱽碜杂谙噜徑徊婵趈中的交通流w1、w2、w3,并且只有交通流w1中的左轉(zhuǎn)車流最終會(huì)流入交通流r。假設(shè)左轉(zhuǎn)車流占整個(gè)交通流w1的比例為τj,w1;i,r,稱之為轉(zhuǎn)彎率,即τj,w1;i,r表示從交叉口j的w1交通流流入到交叉口i的交通流r的轉(zhuǎn)彎率。同理交通流w2中只有直行車流駛?cè)虢煌鱮,相應(yīng)地τj,w2;i,r稱為直行率。交通流w3中只有右轉(zhuǎn)車流駛?cè)虢煌鱮,相應(yīng)地τj,w3;i,r稱為右轉(zhuǎn)率。故r的流入量Ii,r(k)=τj,w1;i,rOj,w1(k)+τj,w2;i,rOj,w2(k)+τj,w3;i,rOj,w3(k)。因此交通流r的流入量Ir,k(k)可以表示為:

        其中,G表示交叉口j中駛?cè)虢煌鱮的車流的集合,即G=w1,w2,w3。τj,w;i,r表示從交叉口j的交通流w轉(zhuǎn)入到交叉口i的交通流r的轉(zhuǎn)彎率。

        對(duì)于駛出車流量Oi,r(k),它是由單位交通信號(hào)控制周期內(nèi)的釋放的車流量q和相位的綠燈時(shí)間yi,p(k)決定的,因此交通流r的駛出流量Oi,r(k)可以表示成:

        其中,vi,r表示交叉口i允許交通流r通行的相位的集合,qi,r表示交通流r的車流量。

        令zi,p(k)=qi,r yi,p(k)作為系統(tǒng)控制變量。將式(2)和(3)及zi,p(k)=qi,r yi,p(k)代入式(1)得:

        根據(jù)式(3)中Or,w(k)的定義,式(4)中的Oj,w(k)可以寫成以及T=C。所以式(4)可以寫成:

        接下來,整個(gè)區(qū)域交通路網(wǎng)都應(yīng)用式(5),可得到整個(gè)區(qū)域交通路網(wǎng)的離散狀態(tài)時(shí)空表達(dá)式:

        另外,若區(qū)域路網(wǎng)中交通流只有外界輸入交通流量,則式(2)和(4)必須表示成:

        其中,di,r表示交叉口i進(jìn)入交通流r的交通需求。為了簡(jiǎn)化,假定di,r已知。于是式(6)可以寫成:

        其中,X(k)、Z(k)、d(k)分別表示系統(tǒng)的狀態(tài)向量、交通信號(hào)控制向量、交通需求向量,且d(k)是常數(shù)向量。狀態(tài)矩陣B為單位矩陣,H是包含網(wǎng)絡(luò)特性(如拓?fù)浣Y(jié)構(gòu)、飽和流率、轉(zhuǎn)彎率)的控制輸入矩陣,D是需求矩陣[16]。

        交通信號(hào)控制agent 通過無線網(wǎng)絡(luò)與其他agent 進(jìn)行通信和協(xié)調(diào)。為此,提出交通信號(hào)控制agent 之間博弈學(xué)習(xí)方法,通過它們之間的交互,并通過實(shí)時(shí)采集的交通流來最小化車輛在交叉口的等待時(shí)間,以最小化整個(gè)路網(wǎng)中的等待時(shí)間。

        3 城市區(qū)域交叉口交通信號(hào)博弈協(xié)調(diào)控制框架

        傳統(tǒng)分布式交通信號(hào)控制系統(tǒng)雖然開銷較少,但系統(tǒng)協(xié)調(diào)效率受限,并且存在維數(shù)災(zāi)難問題,因此這里引入局部交互思想,將交通信號(hào)控制優(yōu)化問題建模為交叉口交通信號(hào)控制agent 局部合作博弈,通過相鄰交叉口交通信號(hào)控制agent間的信息交互實(shí)現(xiàn)系統(tǒng)協(xié)調(diào)效率與優(yōu)化開銷的有效折中[17]。

        定義城市區(qū)域路網(wǎng)交通系統(tǒng)由N個(gè)交叉口構(gòu)成,定義博弈模型為元組:

        其中,M={1,2,…,N}為系統(tǒng)中交叉口交通信號(hào)控制agent 的集合;Am為系統(tǒng)中第m個(gè)交叉口交通信號(hào)控制agent 的可用的策略集合,即決策空間,由Am=Xm×Zm;X和Z含義見式(6)和式(9),分別表示m的狀態(tài)空間和動(dòng)作空間;Jm是交叉口交通信號(hào)控制agentm相鄰交叉口交通信號(hào)控制agent 的集合;U(mam,a-m)為交叉口交通信號(hào)控制agentm的效用函數(shù)。其中am是交叉口交通信號(hào)控制agentm執(zhí)行的策略,a-m是除交叉口交通信號(hào)控制agentm以外其他交叉口交通信號(hào)控制agent執(zhí)行的策略[18]。

        設(shè)gm(am,aJm)為交叉口交通信號(hào)控制agentm的滿意效用,是關(guān)于交通流r上的車輛數(shù)量、綠燈相位持續(xù)時(shí)間內(nèi)釋放的車流量的函數(shù),且:

        xm(h+1)=fdxi(x(h),zm(h),z-m(k)) 由式(5)定義,Q和R為對(duì)角元素為正的對(duì)角矩陣,上標(biāo)T 表示轉(zhuǎn)置操作符,x(h|k)為在周期k時(shí)給定條件下在周期h時(shí)的s的預(yù)測(cè)值,z(h)表示在周期h的動(dòng)作。

        根據(jù)單個(gè)交叉口交通信號(hào)控制agent的滿意效用定義,定義城市區(qū)域網(wǎng)絡(luò)交通滿意效用為所有交叉口交通信號(hào)控制agent滿意效用之和。

        城市區(qū)域路網(wǎng)交通信號(hào)控制系統(tǒng)的整體目標(biāo)是通過尋找最優(yōu)聯(lián)合策略,使得系統(tǒng)滿意效用達(dá)到最大,即:

        根據(jù)第2章分析,相鄰交叉口之間交通流相互影響較大,并不是任意兩個(gè)交叉口的交通信號(hào)控制都有明顯的相互干擾,因此Um(am,a-m)可以表示為Um(am,aJm)。這里定義U(mam,aJm)如下:

        交叉口交通信號(hào)控制agent的效用函數(shù)由自身滿意效用和相鄰交叉口交通信號(hào)控制agent的滿意效用之和組成。因此每個(gè)交叉口交通信號(hào)控制agent的決策不僅要考慮提高自身滿意效用,還要盡可能地減少對(duì)相鄰交叉口交通信號(hào)控制agent滿意效用的影響。通過這種局部合作方式,每個(gè)交叉口交通信號(hào)控制agent 在決策時(shí)將大大降低其自利性,并且可以使得此博弈問題能夠收斂到最優(yōu)聯(lián)合策略。為了實(shí)現(xiàn)局部交互,相鄰交叉口交通信號(hào)控制agent 之間需要交換信息,其中包括交叉口交通信號(hào)控制agent的滿意效用和策略選擇。局部交互博弈模型可以表示為:

        記交叉口交通信號(hào)控制agent 聯(lián)合策略為a*=,若任意交叉口交通信號(hào)控制agent 不能獨(dú)自地改變策略增加其效用值,稱a*為博弈G的純策略納什均衡點(diǎn),則路網(wǎng)滿意效用最大化問題P1的全局最優(yōu)解構(gòu)成博弈G的一個(gè)純策略納什均衡點(diǎn)[17]。

        4 基于交叉口交通信號(hào)控制agent 局部博弈交互的學(xué)習(xí)算法

        傳統(tǒng)的學(xué)習(xí)算法如最佳動(dòng)態(tài)響應(yīng)、非遺憾學(xué)習(xí)和虛擬對(duì)策都能使得勢(shì)能博弈收斂到某一純策略納什均衡點(diǎn),但往往無法達(dá)到最優(yōu)。因此設(shè)計(jì)一種基于局部信息博弈交互的學(xué)習(xí)算法來確保路網(wǎng)中每個(gè)交叉口交通信號(hào)控制agent在博弈中收斂到最優(yōu)策略并最大化網(wǎng)絡(luò)滿意效用。

        4.1 算法描述

        算法基于交叉口交通信號(hào)控制agent 局部博弈交互的學(xué)習(xí)算法

        (1)初始化。設(shè)置k=0,令每個(gè)交叉口交通信號(hào)控制agentm∈M以相等概率從其可行控制策略集合Am中選擇初始控制策略am(0)。

        (2)交叉口交通信號(hào)控制agent 與其相鄰交叉口交通信號(hào)控制agent交換信息,包括效用值和策略選擇。

        (3)任意選擇一個(gè)交叉口交通信號(hào)控制agenti∈M,其他所有交叉口交通信號(hào)控制agent重復(fù)上一次迭代的策略,即a-i(k+1)=a-i(k)。而對(duì)于交叉口交通信號(hào)控制agenti,它將根據(jù)一個(gè)離散概率分布來選擇k+1 時(shí)刻的策略ai(k+1) 。記交叉口交通信號(hào)控制agenti策略選擇為ai(k+1)=ai∈Ai時(shí),其效用函數(shù)值可表示為Ui(ai,aJi(k))。根據(jù)式(15)可以計(jì)算得到交叉口交通信號(hào)控制agenti選擇ai(k+1)=ai的概率:

        其中,γ為折扣因子表示交叉口交通信號(hào)控制agenti執(zhí)行Ai中的所有策略可以獲得的效用之和。因此,交叉口交通信號(hào)控制agenti會(huì)以概率執(zhí)行策略ai。

        (4)如果迭代次數(shù)達(dá)到預(yù)設(shè)的最大值tmax,所有交叉口交通信號(hào)控制agent停止更新策略;否則,回到步驟(2),算法繼續(xù)。在算法中,γ取值必須合理。如果γ過大,博弈學(xué)習(xí)可能不能收斂到最優(yōu)的純策略納什均衡點(diǎn);如果γ過小,將會(huì)減慢收斂速度。故在設(shè)計(jì)γ值時(shí)需要綜合考慮性能表現(xiàn)和收斂速度。

        在算法的每次迭代中,隨機(jī)選擇一個(gè)交叉口交通信號(hào)控制agent更新控制策略而保持其他交叉口交通信號(hào)控制agent的策略不變。重復(fù)該過程直到滿足某些準(zhǔn)則時(shí)才停止。如步驟(3),選中的交叉口交通信號(hào)控制agent按照概率進(jìn)行策略更新。此概率分布的計(jì)算由交叉口交通信號(hào)控制agent當(dāng)前策略及其鄰居的策略共同決定,見式(15)所示。根據(jù)式(15)的設(shè)計(jì),交叉口交通信號(hào)控制agent會(huì)以更高的概率選擇使其獲得更大效用的策略。在數(shù)次迭代后,每個(gè)交叉口交通信號(hào)控制agent的策略選擇都會(huì)以無限接近于1 的概率收斂到最優(yōu)策略。該結(jié)論將在4.2節(jié)進(jìn)行分析。在局部博弈交互學(xué)習(xí)過程中,相鄰交叉口交通信號(hào)控制agent 間還需交換必要的信息,如交叉口交通信號(hào)控制agent 的效用值和控制策略選擇[19]。

        4.2 算法最優(yōu)性和收斂性分析

        若所有交叉口交通信號(hào)控制agent 執(zhí)行算法,聯(lián)合策略a∈A1?A2?…?AM的平穩(wěn)概率分布可以表示為,其中A=A1?A2?…?AM表示交叉口交通信號(hào)控制agent聯(lián)合策略集合[17]。

        記使路網(wǎng)交通信號(hào)控制系統(tǒng)滿意效用最大化的最優(yōu)聯(lián)合策略為a*:

        當(dāng)γ值足夠大時(shí),有exp{γφ(a*)}>exp{γφ(a)},?a∈{Aa*},則a*的平穩(wěn)概率分布可以計(jì)算為:

        式(17)表示以任意接近1的概率得到最優(yōu)解。因此當(dāng)γ值足夠大時(shí),博弈學(xué)習(xí)算法可以任意接近1的概率達(dá)到問題P1的最優(yōu)解。

        5 案例研究

        應(yīng)用MATLAB實(shí)現(xiàn)博弈學(xué)習(xí)算法,利用VISSIM微觀交通仿真平臺(tái)進(jìn)行仿真,構(gòu)建路網(wǎng),設(shè)計(jì)不同的交通情景,加載博弈學(xué)習(xí)控制算法插件。案例分析用到的路網(wǎng)采用比較常用的來分析交通信號(hào)控制相關(guān)問題的allsop和charlesworth的著名測(cè)試道路網(wǎng)絡(luò),其基本布局見圖1,其包括23條路段和21個(gè)信號(hào)設(shè)置變量,分別位于6個(gè)信號(hào)控制交叉口[20]?;境跏悸肪W(wǎng)相位方案見表1,各連接上的交通流量見表2(即式(9)中路網(wǎng)交通需求矩陣D)。

        表1 路網(wǎng)的交通信號(hào)相位方案

        圖1 分析用到的路網(wǎng)

        案例分析其借鑒英國(guó)交通與道路研究所提出的離線優(yōu)化交通網(wǎng)絡(luò)信號(hào)配時(shí)所采用的路網(wǎng)性能性能指標(biāo)(Performance Evaluation Index,PEI),見式(18),把時(shí)間與費(fèi)用統(tǒng)一考慮,其是路網(wǎng)流量和路網(wǎng)交通信號(hào)配時(shí)參數(shù)的函數(shù)[21]。

        其中,dl是連接l的延誤,l∈L,L是路網(wǎng)所有連接的集合,是連接l上的延誤的特定加權(quán)因子。K是停車懲罰系數(shù),表示停車次數(shù)相對(duì)于延誤的重要性。Sl是連接l上每秒停車的次數(shù)。是連接l上停車次數(shù)S的連接特定加權(quán)因子。

        表2 路網(wǎng)連接車流量

        案例用到仿真參數(shù)設(shè)置如下:最小和最大周期時(shí)長(zhǎng)為36 s和120 s;相位最小綠燈時(shí)間為7 s,每個(gè)相位的綠燈間隔時(shí)間為5 s,包括4 s黃燈和1 s全紅。感應(yīng)控制單位綠燈延長(zhǎng)時(shí)間為2 s,最大綠燈時(shí)間為80 s。=1,K=1。Sl學(xué)習(xí)率(α)為0.8。在博弈學(xué)習(xí)過程中,算法的學(xué)習(xí)因子γ可隨迭代的進(jìn)行而變化,并且在第i次迭代中設(shè)置γ=i。最大學(xué)習(xí)次數(shù)(tmax)為500。轉(zhuǎn)彎率τj,w;i,r可由表1和表2的數(shù)據(jù)計(jì)算得到。

        5.1 情景1:基準(zhǔn)情景

        在測(cè)試交通需求增加產(chǎn)生的可能影響之前,博弈學(xué)習(xí)使用現(xiàn)有的連接交通流需求(D1)應(yīng)用于基準(zhǔn)情景,模型的收斂性如圖2 所示。在第338 次的學(xué)習(xí),該算法收斂,得到評(píng)價(jià)指標(biāo)值為364.30,而在第一次學(xué)習(xí)時(shí)評(píng)價(jià)指標(biāo)值為528.30。換句話說,相對(duì)于評(píng)價(jià)指標(biāo)的初始值,改進(jìn)率為45%。在算法的運(yùn)行過程中,各交叉口交通信號(hào)控制agent 通過交互局部效用值和策略,利用減小搜索空間,并圍繞最優(yōu)信號(hào)配時(shí)設(shè)置的參數(shù)來搜索全局最優(yōu),避免陷入局部最優(yōu)解。

        圖2 基準(zhǔn)情景下博弈學(xué)習(xí)方法的收斂性

        基準(zhǔn)情景下博弈學(xué)習(xí)、感應(yīng)控制、遺傳算法運(yùn)行收斂后得到的最優(yōu)評(píng)價(jià)指標(biāo)值分別為364.30、443.50、365.20,總旅行時(shí)間分別為170 veh·h、203 veh·h、170 veh·h。采用博弈學(xué)習(xí)和遺傳算法所得評(píng)價(jià)指標(biāo)結(jié)果非常接近。然而,由于該方法比具有二進(jìn)制編碼/解碼過程的遺傳算法更容易應(yīng)用,因此可以認(rèn)為該方法優(yōu)于遺傳算法。此外,所提出的模型與感應(yīng)控制相比,評(píng)價(jià)指標(biāo)的最終值提高了22%。表3 中給出了三種方法在基準(zhǔn)情景下的運(yùn)行收斂后得到的最優(yōu)交通信號(hào)配時(shí)方案。其中相位差是絕對(duì)相位差,交叉口1為基準(zhǔn)交叉口。

        表3 基準(zhǔn)情景下最優(yōu)信號(hào)配時(shí)方案

        5.2 情景2

        在路網(wǎng)的基準(zhǔn)情景交通需求的基礎(chǔ)上增加20%(D2=120%D1)。這種情景下,所提出的模型算法的收斂性如圖3所示。

        圖3 情景2下博弈學(xué)習(xí)方法的收斂性

        從圖3 可看出,經(jīng)過478 次學(xué)習(xí)過程,博弈學(xué)習(xí)達(dá)到收斂,收斂后的方案的評(píng)價(jià)指標(biāo)值781.80,而評(píng)價(jià)指標(biāo)在第一次學(xué)習(xí)時(shí)評(píng)價(jià)指標(biāo)為1 043.50。在情景2 下,博弈學(xué)習(xí)、感應(yīng)控制、遺傳算法達(dá)到收斂的評(píng)價(jià)指標(biāo)值分別為781.80、891.20、804.50,總旅行時(shí)間分別為356 veh·h、405 veh·h、365 veh·h,因此博弈學(xué)習(xí)優(yōu)于另外兩種方法。相對(duì)于基準(zhǔn)情景,交通需求增加20%,其評(píng)價(jià)指標(biāo)的最終值大約增長(zhǎng)1 倍。對(duì)于情景2,三種方法收斂后的交通信號(hào)配時(shí)方案見表4。可以看出交通需求的增長(zhǎng)導(dǎo)致路網(wǎng)周期時(shí)間相對(duì)于基準(zhǔn)情景也增加。

        表4 情景2收斂后的交通信號(hào)配時(shí)方案

        5.3 情景3

        在這種情況下,為了表明博弈學(xué)習(xí)在高交通需求條件下的有效性,將基準(zhǔn)情景下的路網(wǎng)中連接流量增加到50%(D3=150%D1)。相對(duì)于初始解,博弈學(xué)習(xí)的最終評(píng)價(jià)指標(biāo)值改進(jìn)了20%。在第551 次學(xué)習(xí)過程內(nèi)算法停止,發(fā)現(xiàn)路網(wǎng)評(píng)價(jià)指標(biāo)的最優(yōu)值為2 137.50,如圖4所示。算法運(yùn)行過程中,路網(wǎng)評(píng)價(jià)指標(biāo)值比情景2下有更高的波動(dòng)趨勢(shì),其根本原因是交通需求的增加導(dǎo)致了交通擁擠的加劇,使得交通信號(hào)配時(shí)優(yōu)化問題的最優(yōu)解難以找到。在情景3下,博弈學(xué)習(xí)、感應(yīng)控制、遺傳算法的達(dá)到收斂的評(píng)價(jià)指標(biāo)值分別為2 137.5、2 286.5、2 228.5,總旅行時(shí)間分別為965 veh·h、1 034 veh·h、1 006 veh·h,因此博弈學(xué)習(xí)優(yōu)于另外兩種方法。表5 給出了收斂后的信號(hào)配時(shí)和相應(yīng)的參數(shù)值,其中博弈學(xué)習(xí)的優(yōu)化周期達(dá)到了設(shè)定的最大周期120 s。

        圖4 情景3下博弈學(xué)習(xí)方法的收斂性

        表5 情景3收斂后的交通信號(hào)配時(shí)方案

        因此,在路網(wǎng)交通需求量較大的情況下,博弈學(xué)習(xí)也能收斂到全局最優(yōu)的解,并比遺傳算法和感應(yīng)控制產(chǎn)生更好的評(píng)價(jià)指標(biāo)值。

        6 結(jié)束語(yǔ)

        本文在建立城市區(qū)域交通信號(hào)控制系統(tǒng)模型的基礎(chǔ)上,設(shè)計(jì)基于交叉口局部信息交互的博弈學(xué)習(xí)方法,其利用網(wǎng)絡(luò)拓?fù)渲芯植肯嗷ビ绊懙年P(guān)系,保證區(qū)域交通系統(tǒng)效率在分布化機(jī)制下能夠?qū)崿F(xiàn)最優(yōu)化。在博弈學(xué)習(xí)過程中交叉口進(jìn)行局部信息交互,自主調(diào)整策略使其逐漸收斂到最優(yōu)策略,具有更好的交通需求管控能力和收斂性能。以路網(wǎng)平均延誤和平均停車次數(shù)通過加權(quán)構(gòu)建算法性能指標(biāo),在某中等規(guī)模路網(wǎng)的三種交通需求情景下,利用博弈學(xué)習(xí)方法均優(yōu)于遺傳算法方法和感應(yīng)控制方法,并且博弈學(xué)習(xí)均能收斂到最優(yōu)解。博弈學(xué)習(xí)能更有效地判斷最佳聯(lián)合策略,能夠與新興的通信技術(shù)協(xié)同工作,有助于異構(gòu)智能交通控制系統(tǒng)集成方案的解決。在未來的研究中,可以考慮基于云架構(gòu)的分布式學(xué)習(xí)機(jī)制,進(jìn)一步分析學(xué)習(xí)率參數(shù)和折扣因子對(duì)算法的影響,并應(yīng)用于更大規(guī)模的路網(wǎng),提高系統(tǒng)交通信號(hào)配時(shí)決策效率。同時(shí)可考慮通過引入車聯(lián)網(wǎng)環(huán)境中的I2I通信技術(shù)允許交叉口交通信號(hào)控制agent與其他交叉口交通信號(hào)控制agent 交換信息,實(shí)現(xiàn)博弈學(xué)習(xí)算法與車聯(lián)網(wǎng)技術(shù)模式相結(jié)合,有望在下一代智能交通系統(tǒng)中發(fā)揮重要作用[22]。

        猜你喜歡
        交通信號(hào)交通流交叉口
        《城市軌道交通信號(hào)圖冊(cè)》正式出版
        《城市軌道交通信號(hào)設(shè)備》正式出版
        城市軌道交通信號(hào)設(shè)備監(jiān)測(cè)技術(shù)探討
        信號(hào)交叉口延誤參數(shù)獲取綜述
        交通信號(hào)智能指揮模型
        交通流隨機(jī)行為的研究進(jìn)展
        一種Y型交叉口設(shè)計(jì)方案的選取過程
        路內(nèi)停車對(duì)交通流延誤影響的定量分析
        考慮黃燈駕駛行為的城市交叉口微觀仿真
        具有負(fù)壓力的Aw-Rascle交通流的Riemann問題
        区久久aaa片69亚洲| 精品女厕偷拍视频一区二区区| 综合久久精品亚洲天堂| 久久综合噜噜激激的五月天| 亚洲国产成人久久三区| 亚洲日本在线电影| 国产农村三片免费网站| 亚洲国产欲色有一二欲色| 亚洲av色福利天堂久久入口| 亚洲 日韩 激情 无码 中出| 99久久精品日本一区二区免费| 乱子真实露脸刺激对白| 日本一区二区视频免费观看| 男人天堂亚洲一区二区| 无码人妻精品中文字幕| 久久露脸国产精品| 日韩精品国产自在欧美| 福利视频自拍偷拍视频| 国语淫秽一区二区三区四区| 丰满人妻一区二区三区免费视频| 国产人妻精品一区二区三区| 国产小屁孩cao大人免费视频| 日韩精品一级在线视频| 亚洲av手机在线网站| 日韩av无码精品一二三区| 伊人色综合九久久天天蜜桃| 中文字幕第一页在线无码一区二区| 亚洲中文字幕综合网站| 制服丝袜一区二区三区| 国产一卡2卡3卡四卡国色天香| 香蕉视频免费在线| 国产一区二区三区探花| 极品少妇被黑人白浆直流| 欧洲精品免费一区二区三区| av狼人婷婷久久亚洲综合| 国产午夜激情视频在线看| 日韩av无码社区一区二区三区| 国产又爽又粗又猛的视频| 黑人巨大精品欧美在线观看| 亚洲一区二区视频免费看| 国产精品婷婷久久爽一下|