亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Q-強(qiáng)化學(xué)習(xí)的干道交叉口信號配時(shí)模型

        2021-11-08 00:53:20徐建閩席嘉鵬
        關(guān)鍵詞:動(dòng)作優(yōu)化信號

        徐建閩,席嘉鵬

        (華南理工大學(xué) 土木與交通學(xué)院, 廣東 廣州 510000)

        0 引言

        現(xiàn)階段交通問題頻發(fā),而信號配時(shí)作為交通管理的重要內(nèi)容,保障了交通的秩序與效率。道路上交叉口之間存在著影響,所以現(xiàn)在主流的固定配時(shí)的信號控制方法尚有改進(jìn)空間。因此,有學(xué)者利用機(jī)器學(xué)習(xí)算法來求解更好的自適應(yīng)信號配時(shí)方法,所使用的方法主要有強(qiáng)化學(xué)習(xí)以及神經(jīng)網(wǎng)絡(luò)等。

        ABDULHAI等[1-2]提出了一個(gè)通過Q-強(qiáng)化學(xué)習(xí)模型計(jì)算兩相位信號交叉口的最優(yōu)配時(shí),并認(rèn)為Q-強(qiáng)化學(xué)習(xí)具有對環(huán)境優(yōu)秀的適應(yīng)能力。WIERING等[3]通過引入網(wǎng)格網(wǎng)絡(luò)系統(tǒng),開發(fā)了基于模型的RL-TSC方法,此方法主要用于高流量的交通流,和固定配時(shí)相比可以大大降低車均延誤。KUYER等[4]在前人的基礎(chǔ)上,通過協(xié)調(diào)模型法并結(jié)合分布式算法,建立了新的RL-TSC 系統(tǒng),不過該法對硬件具有一定要求,因?yàn)樯婕暗蕉鄠€(gè)Agent間的協(xié)調(diào)。BALAJI等[5]對自適應(yīng)信號配時(shí)模型展開論述,在模型中加入周邊路口的交通狀態(tài)、延誤等因子,建立了更加完善的城市道路Agent系統(tǒng)的體系框架,并使之更加具有實(shí)用性與泛用性。王新[6]設(shè)計(jì)的城市TSC系統(tǒng)可適用于單交叉口和井字路網(wǎng),利用Q強(qiáng)化學(xué)習(xí)算法[7-10]對信號配時(shí)決策法進(jìn)行優(yōu)化,可以完成相鄰路口之間的信息交互。文峰等[11]接著他人的研究成果[12-15]提出使用多個(gè)深度置信網(wǎng)絡(luò)的DQN方法,并把此方法與交叉口的信號配時(shí)相結(jié)合,提高了信號配時(shí)的有效性,但此方法強(qiáng)調(diào)單一交叉口,且每個(gè)交叉口都是獨(dú)立的。

        綜上所述,現(xiàn)階段對于自適應(yīng)交通信號配時(shí)的研究開始逐漸涉及強(qiáng)化學(xué)習(xí),但是這類研究多是針對單一交叉口,也即更加強(qiáng)調(diào)獨(dú)立強(qiáng)化學(xué)習(xí)[16]??墒沁@些方法應(yīng)用于一個(gè)擁有若干交叉口的干道時(shí),每多涉及一個(gè)交叉口,狀態(tài)空間的數(shù)量就會(huì)爆炸性地增長,就會(huì)出現(xiàn)維數(shù)災(zāi)難。此外,單一交叉口的研究結(jié)果對整個(gè)干道甚至整個(gè)路網(wǎng)效率的提升幫助及其有限。因而,本文擬提出一個(gè)基于Q-強(qiáng)化學(xué)習(xí)的干道信號配時(shí)優(yōu)化模型, 通過引入干道相鄰交叉口的信息交互機(jī)制,消除維數(shù)災(zāi)難問題。同時(shí)將此方法應(yīng)用在中山市主城區(qū)的道路上進(jìn)行分析和仿真,證明了方法的可行性和有效性。

        1 基于Q-強(qiáng)化學(xué)習(xí)的單交叉口信號配時(shí)優(yōu)化模型

        1.1 Q-強(qiáng)化學(xué)習(xí)模型

        Q-強(qiáng)化學(xué)習(xí)是一個(gè)基于值的強(qiáng)化學(xué)習(xí)算法,利用Q函數(shù)尋找最優(yōu)的“動(dòng)作—選擇”策略[17]。其公式為

        (1)

        Q-強(qiáng)化學(xué)習(xí)的特點(diǎn)[18]有:

        ① 它根據(jù)動(dòng)作值函數(shù)評估應(yīng)該選擇哪個(gè)動(dòng)作,這個(gè)函數(shù)決定了處于某一個(gè)特定狀態(tài)以及在該狀態(tài)下采取特定動(dòng)作的獎(jiǎng)勵(lì)期望值。

        ② 函數(shù)Q(s,a)→返回在當(dāng)前狀態(tài)下采取該動(dòng)作的未來獎(jiǎng)勵(lì)期望。

        ③ 在我們探索環(huán)境之前:Q-table 給出相同的任意的設(shè)定值→ 但是隨著對環(huán)境的持續(xù)探索→Q給出越來越好的近似。

        1.2 基于Q-強(qiáng)化學(xué)習(xí)的單交叉口信號配時(shí)優(yōu)化模型

        此模型的建立方法[19]可分為以下步驟:

        (1) 路口的狀態(tài)空間為S,假定周期C和每個(gè)相位綠燈時(shí)間gi是狀態(tài)變量。對于四相控十字路口,那么S=(C,g1,g2,g3,g4)。

        (2) 交叉口信號燈配時(shí)動(dòng)作的集合A對于交叉口的交通狀態(tài),把固定配時(shí)作為起始信號配時(shí)方案,再修改各個(gè)相位的綠燈時(shí)間,得到相應(yīng)的信號燈配時(shí)動(dòng)作的集合。對于四相控路口,設(shè)Δgi為第i相位的綠燈時(shí)間修改量,每個(gè)相位都采用3種動(dòng)作,即減少綠燈時(shí)間1 s,綠燈時(shí)間不變,增加綠燈時(shí)間1 s,即Δgi={-1 s,0 s,+1 s},則A={(g1+Δg1,g2+Δg2,g3+Δg3,g4+Δg4)},此外,A是有限且離散的。

        (3) 獎(jiǎng)懲函數(shù)r(s,a)為負(fù)面回報(bào),即行為動(dòng)作a完成后,車均延誤越大,函數(shù)r(s,a)隨之增大,懲罰也越大。r(s,a)的計(jì)算方法如下:

        (2)

        式中,rt(s,a)是在狀態(tài)s時(shí),t時(shí)間步發(fā)生行為動(dòng)作a得到的回報(bào);dtk是t時(shí)間步所對應(yīng)的信號燈配時(shí)動(dòng)作集合A在行為動(dòng)作a發(fā)生后周期內(nèi)車均延誤;dt0是t的起始方案在周期內(nèi)的車均延誤;C0、Ck是動(dòng)作變化前后的信號配時(shí)方案周期。

        (4) 通過以上分析,算法如下:

        ① 設(shè)學(xué)習(xí)速率αt、折減系數(shù)γ;

        ② 令t=0,把所有交叉口的Q0(s0,a0)設(shè)置成固定配時(shí)方案的平均延誤;

        ③ 按順序進(jìn)行各個(gè)時(shí)間步;

        ④ 選擇一個(gè)起始狀態(tài)s0;

        ⑤ 在狀態(tài)s0所對應(yīng)的信號燈配時(shí)動(dòng)作集合A中選一個(gè)行為動(dòng)作at+1;

        ⑥ 執(zhí)行行為動(dòng)作at+1,并計(jì)算此時(shí)的回報(bào)rt+1,然后進(jìn)行下一狀態(tài)st+1;

        ⑦ 此處的目標(biāo)是車輛平均延誤盡可能小,從而保證Q值最小,接著利用公式迭代Q-函數(shù):

        ⑧s←st+1,t←t+1,繼續(xù)返回③。

        單交叉口交通信號配時(shí)優(yōu)化模型的基本流程如圖1所示。

        圖1 單交叉口交通信號配時(shí)優(yōu)化模型的基本流程

        2 基于Q-強(qiáng)化學(xué)習(xí)的干道交叉口信號配時(shí)模型

        對于單個(gè)交叉口的強(qiáng)化學(xué)習(xí)模型,若放在干道中使用,則具有其自身的局限性,即每多涉及一個(gè)交叉口,按照Q-強(qiáng)化學(xué)習(xí)的定義,狀態(tài)空間的數(shù)量就會(huì)爆炸性地增長,在每個(gè)時(shí)間步內(nèi),每個(gè)交叉口Agent之間均會(huì)進(jìn)行信息的交互,然后調(diào)整自身的動(dòng)作,信息量會(huì)指數(shù)形式增加,長期學(xué)習(xí)過程中就會(huì)出現(xiàn)維數(shù)災(zāi)難。故而引入交互機(jī)制,具體方法是:干道上相鄰交叉口之間,可以通過它們的交通信號控制Agent實(shí)現(xiàn)直接交換信號配時(shí)動(dòng)作和交通狀態(tài),對單交叉口優(yōu)化模型進(jìn)行擴(kuò)展,以達(dá)到提高干道上相鄰交叉口間信息交互的效率并增強(qiáng)模型的適用性以及求解算法的有效性。

        2.1 基本思想

        干道上的各交叉口在進(jìn)行本交叉口的交通信號配時(shí)決策時(shí)都會(huì)被其他交叉口尤其是其上下游的交叉口交通信號配時(shí)的變化所影響,所以在干道上相鄰交叉口間,進(jìn)行交通信號控制Agent的交通狀態(tài)和行為動(dòng)作的交互是必要的,干道Q-強(qiáng)化學(xué)習(xí)模型的交互過程如圖2所示。

        圖2 干道Q-強(qiáng)化學(xué)習(xí)模型的交互過程

        對于一條干道上的某個(gè)交叉口來說,其上下游相鄰交叉口對其的交通影響最大,所以盡可能考慮其上下游相鄰交叉口的狀態(tài)空間可以在降低信息交互次數(shù)的同時(shí)保證模型的可靠性。在每個(gè)時(shí)間段內(nèi),先遍歷這個(gè)交叉口動(dòng)作集中的每一個(gè)動(dòng)作,以此交叉口和相鄰2個(gè)交叉口的Q值之和為目標(biāo)函數(shù),目標(biāo)函數(shù)最小時(shí),得到一個(gè)最優(yōu)動(dòng)作,按照這種方法,當(dāng)干道上每一個(gè)交叉口Agent的動(dòng)作都被改變時(shí),跳出此時(shí)間段,等待下一個(gè)時(shí)間段重復(fù)此流程。這個(gè)方法大大降低了交叉口Agent之間的信息交互次數(shù)。

        2.2 模型訓(xùn)練

        基于Q-強(qiáng)化學(xué)習(xí)的干道交叉口信號配時(shí)模型(簡稱干道Q-強(qiáng)化學(xué)習(xí)模型)的模型訓(xùn)練方法如下:

        (3)

        重復(fù)這個(gè)過程,等到干道上所有交叉口的交通信號控制Agent都改變了它們的行為動(dòng)作為止。

        圖3 干道Q-強(qiáng)化學(xué)習(xí)模型的基本結(jié)構(gòu)框架

        2.3 干道Q-強(qiáng)化學(xué)習(xí)模型相關(guān)參數(shù)的獲取

        對于干道的信號控制來說,工作做到這里已經(jīng)完成。但是,在城市道路中,車流量具有實(shí)時(shí)而且動(dòng)態(tài)的特征,可是信號配時(shí)相位、相序、周期的調(diào)整會(huì)涉及到各個(gè)路口行為動(dòng)作的選擇,這對于最小時(shí)間步t的設(shè)定具有一定的影響。

        按照一般情況,交叉口信號配時(shí)周期不宜小于60 s,而模型的計(jì)算時(shí)間遠(yuǎn)遠(yuǎn)小于交叉口信號配時(shí)周期,所以,最小時(shí)間步t宜設(shè)定為干道所有交叉口信號配時(shí)周期的最大值。這樣可以保證每次優(yōu)化都處于不同的信號周期,提升優(yōu)化效率。

        3 實(shí)例分析——中山市主城區(qū)示范道路路口信號優(yōu)化

        3.1 問題描述

        中山市東區(qū)南北向最為關(guān)鍵的通道—興中道,是中山市城區(qū)南北向的一條主干道,也是一條模范嚴(yán)管路,該道路限速60 km/h,從南至北共有5個(gè)重要信號燈控交叉路口,沿街出入出口也偏多。

        交通流量數(shù)據(jù)是通過支隊(duì)自建的信號控制平臺(tái)中安裝在路口進(jìn)口道處的交通線圈檢測器獲取的。線圈檢測器作為一種高可靠性的全場景檢測手段,在實(shí)際應(yīng)用中是最為可靠的車輛檢測器,能夠用于分析存在的主要交通特性。以下數(shù)據(jù)分析時(shí)段中早高峰時(shí)段定為7:00-9:00時(shí),平峰時(shí)段定為9:00-11:00時(shí)。

        經(jīng)過實(shí)際觀察以及市民反饋得到的信息,興中道也是交通問題頻發(fā)路段。以興中道為例來進(jìn)行交叉口間交通信號配時(shí)決策分析。

        仿真所使用的路網(wǎng)如圖4所示:從上到下交叉口的間距分別是: 612、681、321 m。南北為主干道方向,自由車流速度45 km/h,早高峰(7:00-9:00)時(shí),南北向車流量qSN=1 488 輛/h,qNS=1 232 輛/h,東西向的流量分別為:qEW1=713 輛/h,qWE1=728 輛/h,qEW2=qWE2=903 輛/h,qEW3=1 072 輛/h,qWE3=1 153 輛/h,qEW4=830 輛/h,qWE4=635 輛/h。平峰(9:00-11:00)時(shí),南北向車流量qSN=1 161 輛/h,qNS=1 050 輛/h, 東西向車流量分別為:qEW1=580 輛/h,qWE1=451 輛/h,qEW2=502 輛/h,qWE2=435 輛/h,qEW3=850 輛/h,qWE3=909 輛/h,qEW4=207 輛/h,qWE4=271輛/h。

        圖4 仿真所使用的路網(wǎng)

        針對這兩種強(qiáng)化學(xué)習(xí)模型,干道上每一交叉口的Agent在做決策用到Q-學(xué)習(xí)算法時(shí),只受到該交叉口的狀態(tài)和行為動(dòng)作影響,控制中心發(fā)出指令判斷需要協(xié)調(diào)的車流方向。以興中道為例,事實(shí)上,南向北方向的車流量更大,控制中心起始選擇南向北方向作為協(xié)調(diào),仿真所使用的路網(wǎng)如圖4所示,南向北車道上的車得到行駛優(yōu)先權(quán)。

        圖5和圖6所示分別為1、2、3、4路口早高峰(7:00-9:00)和平峰(9:00-11:00)的干道上各路口固定信號配時(shí)相位圖。

        圖5 干道上各路口早高峰固定配時(shí)相位圖

        圖6 干道上各路口平峰固定配時(shí)相位圖

        圖7 興中道路網(wǎng)系統(tǒng)車均延誤

        取興中道-松苑路(2號交叉口)為模型訓(xùn)練的開始,Δgi={-1 s,0 s,+1 s},從而得到該交叉口此時(shí)間段的動(dòng)作集,開始模型訓(xùn)練。

        3.2 路網(wǎng)系統(tǒng)的性能分析

        把上文所述的路網(wǎng)的平均延誤當(dāng)做性能指標(biāo),不同的兩種車流情況下,即南北向均得到較小車流量(平峰,接近自由流)以及較大車流量(早高峰,接近飽和流量)的時(shí)候,固定配時(shí)、單交叉口優(yōu)化模型、干道Q-強(qiáng)化學(xué)習(xí)模型3種方案仿真結(jié)果如圖7所示。

        總的來說,兩種基于強(qiáng)化學(xué)習(xí)的配時(shí)方法的車均延誤小于固定配時(shí)的車均延誤。

        經(jīng)過多次仿真實(shí)驗(yàn)可以看出,干道Q-強(qiáng)化學(xué)習(xí)模型在平峰流量的情況下具備快速收斂的作用。實(shí)驗(yàn)證明,經(jīng)過300次迭代運(yùn)行后,干道Q-強(qiáng)化學(xué)習(xí)模型已經(jīng)開始收斂,相比單交叉口優(yōu)化模型還未開始收斂具有優(yōu)勢。當(dāng)車流量接近飽和流量時(shí),干道Q-強(qiáng)化學(xué)習(xí)的效果逐漸變差但仍具備一定優(yōu)勢。

        對于平峰低流量的外部環(huán)境,干道Q-強(qiáng)化學(xué)習(xí)模型的收斂速度在單交叉口獨(dú)立優(yōu)化模型的基礎(chǔ)上提升76.79%,車均延誤降低17.93%。低流量下不同模型的收斂速度和車均延誤見表1。

        表1 低流量下不同模型的收斂速度和車均延誤

        對于早高峰高流量的外部環(huán)境,干道Q-強(qiáng)化學(xué)習(xí)模型不能保證模型一定收斂,10次仿真實(shí)驗(yàn)結(jié)果有2次并未收斂(在模型未收斂時(shí),下一時(shí)間段的信號相位保持不變),但是在這種高流量的情況下,此模型同樣具備快速收斂的作用。在收斂情況下,干道Q-強(qiáng)化學(xué)習(xí)模型的收斂速度在單交叉口獨(dú)立優(yōu)化模型的基礎(chǔ)上提升67.77%。高流量下不同模型的收斂速度和車均延誤見表2。

        表2 高流量下不同模型的收斂速度和車均延誤

        該仿真運(yùn)行結(jié)果證實(shí)干道Q-強(qiáng)化學(xué)習(xí)模型通過引入相鄰交叉口的信息交互,有效地改善了Q-強(qiáng)化學(xué)習(xí)模型直接應(yīng)用在干道上多個(gè)交叉口時(shí)的局限性,此模型能夠改善相關(guān)交通問題。

        4 結(jié)語

        本文在交叉口交通信號控制單交叉口獨(dú)立優(yōu)化模型的基礎(chǔ)上,利用干道相鄰交叉口間的交互機(jī)制對模型進(jìn)行優(yōu)化,解決了該模型在實(shí)際應(yīng)用中有可能出現(xiàn)的維數(shù)災(zāi)難問題。從仿真結(jié)果來看,當(dāng)車流量處于較小水平(平峰期,此時(shí)車流狀態(tài)接近自由流,車輛間干擾較小)時(shí),基于Q-強(qiáng)化學(xué)習(xí)的干道信號配時(shí)決策方法對比固定配時(shí)和獨(dú)立強(qiáng)化學(xué)習(xí)算法優(yōu)越性明顯,既縮短了延誤,又提升了收斂速率;當(dāng)車流量處于較高水平(高峰期,此時(shí)車流量接近飽和流量)時(shí),基于Q-強(qiáng)化學(xué)習(xí)的干道信號配時(shí)決策方法在延誤方面對比固定配時(shí)和獨(dú)立強(qiáng)化學(xué)習(xí)算法有所改善但差別不大,在收斂速率上有一定優(yōu)越性。因此,本文還存在一些后續(xù)的問題值得研究,即在較大流量時(shí),該模型是否可以具備更強(qiáng)大的環(huán)境適應(yīng)能力和動(dòng)態(tài)協(xié)調(diào)能力,比如在這種特殊情況下,是否可以改進(jìn)協(xié)調(diào)機(jī)制,添加一個(gè)新的影響因子,以達(dá)到提高交通運(yùn)行效率的目的。

        猜你喜歡
        動(dòng)作優(yōu)化信號
        超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
        民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        信號
        鴨綠江(2021年35期)2021-04-19 12:24:18
        完形填空二則
        基于FPGA的多功能信號發(fā)生器的設(shè)計(jì)
        電子制作(2018年11期)2018-08-04 03:25:42
        動(dòng)作描寫要具體
        畫動(dòng)作
        動(dòng)作描寫不可少
        深夜福利国产| 亚洲国色天香卡2卡3卡4| 丰满爆乳一区二区三区| 日本a在线免费观看| 日本一区二区三区在线观看视频| 青青草成人在线免费视频| 日本最大色倩网站www| 96免费精品视频在线观看| 亚洲人妻有码中文字幕| 日本精品视频二区三区| 亚洲女初尝黑人巨高清| 欧美a视频在线观看| 午夜精品一区二区三区视频免费看| 日本一区二区三区视频国产| 亚洲精品熟女国产| 揄拍成人国产精品视频| 中文字幕一区二区区免| 在厨房拨开内裤进入毛片| 艳妇臀荡乳欲伦交换在线播放| 国产亚洲精品国产福利在线观看| 91精品啪在线观看国产色| 亚洲精品无码精品mv在线观看| 亚洲国产精品成人无码区| 久久亚洲第一视频黄色| 国产av剧情精品麻豆| 无码人妻一区二区三区免费视频 | 中文字幕34一区二区| 在线精品无码字幕无码av| 久久免费网国产AⅤ| 色婷婷久久99综合精品jk白丝| 音影先锋中文字幕在线| 亚洲处破女av日韩精品| 韩国女主播一区二区在线观看 | 国产日本精品一区二区免费| 少妇人妻中文字幕hd| 亚洲av鲁丝一区二区三区| 91精品人妻一区二区三区蜜臀 | 在线观看av中文字幕不卡| 一本色道久久88综合亚洲精品| 亚洲午夜无码毛片av久久| 性一乱一搞一交一伦一性|