亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Q-強(qiáng)化學(xué)習(xí)的干道交叉口信號配時(shí)模型

2021-11-08 00:53:20徐建閩席嘉鵬

廣西大學(xué)學(xué)報(bào)(自然科學(xué)版) 2021年4期

徐建閩，席嘉鵬

(華南理工大學(xué) 土木與交通學(xué)院，廣東廣州 510000)

0 引言

現(xiàn)階段交通問題頻發(fā)，而信號配時(shí)作為交通管理的重要內(nèi)容，保障了交通的秩序與效率。道路上交叉口之間存在著影響，所以現(xiàn)在主流的固定配時(shí)的信號控制方法尚有改進(jìn)空間。因此，有學(xué)者利用機(jī)器學(xué)習(xí)算法來求解更好的自適應(yīng)信號配時(shí)方法，所使用的方法主要有強(qiáng)化學(xué)習(xí)以及神經(jīng)網(wǎng)絡(luò)等。

ABDULHAI等[1-2]提出了一個(gè)通過Q-強(qiáng)化學(xué)習(xí)模型計(jì)算兩相位信號交叉口的最優(yōu)配時(shí)，并認(rèn)為Q-強(qiáng)化學(xué)習(xí)具有對環(huán)境優(yōu)秀的適應(yīng)能力。WIERING等[3]通過引入網(wǎng)格網(wǎng)絡(luò)系統(tǒng)，開發(fā)了基于模型的RL-TSC方法，此方法主要用于高流量的交通流，和固定配時(shí)相比可以大大降低車均延誤。KUYER等[4]在前人的基礎(chǔ)上，通過協(xié)調(diào)模型法并結(jié)合分布式算法，建立了新的RL-TSC 系統(tǒng)，不過該法對硬件具有一定要求，因?yàn)樯婕暗蕉鄠€(gè)Agent間的協(xié)調(diào)。BALAJI等[5]對自適應(yīng)信號配時(shí)模型展開論述，在模型中加入周邊路口的交通狀態(tài)、延誤等因子，建立了更加完善的城市道路Agent系統(tǒng)的體系框架，并使之更加具有實(shí)用性與泛用性。王新[6]設(shè)計(jì)的城市TSC系統(tǒng)可適用于單交叉口和井字路網(wǎng)，利用Q強(qiáng)化學(xué)習(xí)算法[7-10]對信號配時(shí)決策法進(jìn)行優(yōu)化，可以完成相鄰路口之間的信息交互。文峰等[11]接著他人的研究成果[12-15]提出使用多個(gè)深度置信網(wǎng)絡(luò)的DQN方法，并把此方法與交叉口的信號配時(shí)相結(jié)合，提高了信號配時(shí)的有效性，但此方法強(qiáng)調(diào)單一交叉口，且每個(gè)交叉口都是獨(dú)立的。

綜上所述，現(xiàn)階段對于自適應(yīng)交通信號配時(shí)的研究開始逐漸涉及強(qiáng)化學(xué)習(xí)，但是這類研究多是針對單一交叉口，也即更加強(qiáng)調(diào)獨(dú)立強(qiáng)化學(xué)習(xí)[16]?？墒沁@些方法應(yīng)用于一個(gè)擁有若干交叉口的干道時(shí)，每多涉及一個(gè)交叉口，狀態(tài)空間的數(shù)量就會(huì)爆炸性地增長，就會(huì)出現(xiàn)維數(shù)災(zāi)難。此外，單一交叉口的研究結(jié)果對整個(gè)干道甚至整個(gè)路網(wǎng)效率的提升幫助及其有限。因而，本文擬提出一個(gè)基于Q-強(qiáng)化學(xué)習(xí)的干道信號配時(shí)優(yōu)化模型，通過引入干道相鄰交叉口的信息交互機(jī)制，消除維數(shù)災(zāi)難問題。同時(shí)將此方法應(yīng)用在中山市主城區(qū)的道路上進(jìn)行分析和仿真，證明了方法的可行性和有效性。

1 基于Q-強(qiáng)化學(xué)習(xí)的單交叉口信號配時(shí)優(yōu)化模型

1.1 Q-強(qiáng)化學(xué)習(xí)模型

Q-強(qiáng)化學(xué)習(xí)是一個(gè)基于值的強(qiáng)化學(xué)習(xí)算法，利用Q函數(shù)尋找最優(yōu)的“動(dòng)作—選擇”策略[17]。其公式為

(1)

Q-強(qiáng)化學(xué)習(xí)的特點(diǎn)[18]有：

① 它根據(jù)動(dòng)作值函數(shù)評估應(yīng)該選擇哪個(gè)動(dòng)作，這個(gè)函數(shù)決定了處于某一個(gè)特定狀態(tài)以及在該狀態(tài)下采取特定動(dòng)作的獎(jiǎng)勵(lì)期望值。

② 函數(shù)Q(s，a)→返回在當(dāng)前狀態(tài)下采取該動(dòng)作的未來獎(jiǎng)勵(lì)期望。

③ 在我們探索環(huán)境之前：Q-table 給出相同的任意的設(shè)定值→ 但是隨著對環(huán)境的持續(xù)探索→Q給出越來越好的近似。

1.2 基于Q-強(qiáng)化學(xué)習(xí)的單交叉口信號配時(shí)優(yōu)化模型

此模型的建立方法[19]可分為以下步驟：

(1) 路口的狀態(tài)空間為S，假定周期C和每個(gè)相位綠燈時(shí)間gi是狀態(tài)變量。對于四相控十字路口，那么S=(C,g1,g2,g3,g4)。

(2) 交叉口信號燈配時(shí)動(dòng)作的集合A對于交叉口的交通狀態(tài)，把固定配時(shí)作為起始信號配時(shí)方案，再修改各個(gè)相位的綠燈時(shí)間，得到相應(yīng)的信號燈配時(shí)動(dòng)作的集合。對于四相控路口，設(shè)Δgi為第i相位的綠燈時(shí)間修改量，每個(gè)相位都采用3種動(dòng)作，即減少綠燈時(shí)間1 s，綠燈時(shí)間不變，增加綠燈時(shí)間1 s，即Δgi={-1 s，0 s，+1 s}，則A={(g1+Δg1,g2+Δg2,g3+Δg3,g4+Δg4)}，此外，A是有限且離散的。

(3) 獎(jiǎng)懲函數(shù)r(s,a)為負(fù)面回報(bào)，即行為動(dòng)作a完成后，車均延誤越大，函數(shù)r(s,a)隨之增大，懲罰也越大。r(s,a)的計(jì)算方法如下：

(2)

式中，rt(s,a)是在狀態(tài)s時(shí)，t時(shí)間步發(fā)生行為動(dòng)作a得到的回報(bào)；dtk是t時(shí)間步所對應(yīng)的信號燈配時(shí)動(dòng)作集合A在行為動(dòng)作a發(fā)生后周期內(nèi)車均延誤；dt0是t的起始方案在周期內(nèi)的車均延誤；C0、Ck是動(dòng)作變化前后的信號配時(shí)方案周期。

(4) 通過以上分析，算法如下：

① 設(shè)學(xué)習(xí)速率αt、折減系數(shù)γ；

② 令t=0，把所有交叉口的Q0(s0,a0)設(shè)置成固定配時(shí)方案的平均延誤；

③ 按順序進(jìn)行各個(gè)時(shí)間步；

④ 選擇一個(gè)起始狀態(tài)s0；

⑤ 在狀態(tài)s0所對應(yīng)的信號燈配時(shí)動(dòng)作集合A中選一個(gè)行為動(dòng)作at+1；

⑥ 執(zhí)行行為動(dòng)作at+1，并計(jì)算此時(shí)的回報(bào)rt+1，然后進(jìn)行下一狀態(tài)st+1；

⑦ 此處的目標(biāo)是車輛平均延誤盡可能小，從而保證Q值最小，接著利用公式迭代Q-函數(shù)：

⑧s←st+1，t←t+1，繼續(xù)返回③。

單交叉口交通信號配時(shí)優(yōu)化模型的基本流程如圖1所示。

圖1 單交叉口交通信號配時(shí)優(yōu)化模型的基本流程

2 基于Q-強(qiáng)化學(xué)習(xí)的干道交叉口信號配時(shí)模型

對于單個(gè)交叉口的強(qiáng)化學(xué)習(xí)模型，若放在干道中使用，則具有其自身的局限性，即每多涉及一個(gè)交叉口，按照Q-強(qiáng)化學(xué)習(xí)的定義，狀態(tài)空間的數(shù)量就會(huì)爆炸性地增長，在每個(gè)時(shí)間步內(nèi)，每個(gè)交叉口Agent之間均會(huì)進(jìn)行信息的交互，然后調(diào)整自身的動(dòng)作，信息量會(huì)指數(shù)形式增加，長期學(xué)習(xí)過程中就會(huì)出現(xiàn)維數(shù)災(zāi)難。故而引入交互機(jī)制，具體方法是：干道上相鄰交叉口之間，可以通過它們的交通信號控制Agent實(shí)現(xiàn)直接交換信號配時(shí)動(dòng)作和交通狀態(tài)，對單交叉口優(yōu)化模型進(jìn)行擴(kuò)展，以達(dá)到提高干道上相鄰交叉口間信息交互的效率并增強(qiáng)模型的適用性以及求解算法的有效性。

2.1 基本思想

干道上的各交叉口在進(jìn)行本交叉口的交通信號配時(shí)決策時(shí)都會(huì)被其他交叉口尤其是其上下游的交叉口交通信號配時(shí)的變化所影響，所以在干道上相鄰交叉口間，進(jìn)行交通信號控制Agent的交通狀態(tài)和行為動(dòng)作的交互是必要的，干道Q-強(qiáng)化學(xué)習(xí)模型的交互過程如圖2所示。

圖2 干道Q-強(qiáng)化學(xué)習(xí)模型的交互過程

對于一條干道上的某個(gè)交叉口來說，其上下游相鄰交叉口對其的交通影響最大，所以盡可能考慮其上下游相鄰交叉口的狀態(tài)空間可以在降低信息交互次數(shù)的同時(shí)保證模型的可靠性。在每個(gè)時(shí)間段內(nèi)，先遍歷這個(gè)交叉口動(dòng)作集中的每一個(gè)動(dòng)作，以此交叉口和相鄰2個(gè)交叉口的Q值之和為目標(biāo)函數(shù)，目標(biāo)函數(shù)最小時(shí)，得到一個(gè)最優(yōu)動(dòng)作，按照這種方法，當(dāng)干道上每一個(gè)交叉口Agent的動(dòng)作都被改變時(shí)，跳出此時(shí)間段，等待下一個(gè)時(shí)間段重復(fù)此流程。這個(gè)方法大大降低了交叉口Agent之間的信息交互次數(shù)。

2.2 模型訓(xùn)練

基于Q-強(qiáng)化學(xué)習(xí)的干道交叉口信號配時(shí)模型(簡稱干道Q-強(qiáng)化學(xué)習(xí)模型)的模型訓(xùn)練方法如下：

(3)

重復(fù)這個(gè)過程，等到干道上所有交叉口的交通信號控制Agent都改變了它們的行為動(dòng)作為止。

圖3 干道Q-強(qiáng)化學(xué)習(xí)模型的基本結(jié)構(gòu)框架

2.3 干道Q-強(qiáng)化學(xué)習(xí)模型相關(guān)參數(shù)的獲取

對于干道的信號控制來說，工作做到這里已經(jīng)完成。但是，在城市道路中，車流量具有實(shí)時(shí)而且動(dòng)態(tài)的特征，可是信號配時(shí)相位、相序、周期的調(diào)整會(huì)涉及到各個(gè)路口行為動(dòng)作的選擇，這對于最小時(shí)間步t的設(shè)定具有一定的影響。

按照一般情況，交叉口信號配時(shí)周期不宜小于60 s，而模型的計(jì)算時(shí)間遠(yuǎn)遠(yuǎn)小于交叉口信號配時(shí)周期，所以，最小時(shí)間步t宜設(shè)定為干道所有交叉口信號配時(shí)周期的最大值。這樣可以保證每次優(yōu)化都處于不同的信號周期，提升優(yōu)化效率。

3 實(shí)例分析——中山市主城區(qū)示范道路路口信號優(yōu)化

3.1 問題描述

中山市東區(qū)南北向最為關(guān)鍵的通道—興中道，是中山市城區(qū)南北向的一條主干道，也是一條模范嚴(yán)管路，該道路限速60 km/h，從南至北共有5個(gè)重要信號燈控交叉路口，沿街出入出口也偏多。

交通流量數(shù)據(jù)是通過支隊(duì)自建的信號控制平臺(tái)中安裝在路口進(jìn)口道處的交通線圈檢測器獲取的。線圈檢測器作為一種高可靠性的全場景檢測手段，在實(shí)際應(yīng)用中是最為可靠的車輛檢測器，能夠用于分析存在的主要交通特性。以下數(shù)據(jù)分析時(shí)段中早高峰時(shí)段定為7：00-9：00時(shí)，平峰時(shí)段定為9：00-11：00時(shí)。

經(jīng)過實(shí)際觀察以及市民反饋得到的信息，興中道也是交通問題頻發(fā)路段。以興中道為例來進(jìn)行交叉口間交通信號配時(shí)決策分析。

仿真所使用的路網(wǎng)如圖4所示：從上到下交叉口的間距分別是： 612、681、321 m。南北為主干道方向，自由車流速度45 km/h，早高峰(7:00-9:00)時(shí)，南北向車流量qSN=1 488 輛/h，qNS=1 232 輛/h，東西向的流量分別為：qEW1=713 輛/h，qWE1=728 輛/h，qEW2=qWE2=903 輛/h，qEW3=1 072 輛/h，qWE3=1 153 輛/h，qEW4=830 輛/h，qWE4=635 輛/h。平峰(9:00-11:00)時(shí)，南北向車流量qSN=1 161 輛/h，qNS=1 050 輛/h，東西向車流量分別為：qEW1=580 輛/h，qWE1=451 輛/h，qEW2=502 輛/h，qWE2=435 輛/h，qEW3=850 輛/h，qWE3=909 輛/h，qEW4=207 輛/h，qWE4=271輛/h。

圖4 仿真所使用的路網(wǎng)

針對這兩種強(qiáng)化學(xué)習(xí)模型，干道上每一交叉口的Agent在做決策用到Q-學(xué)習(xí)算法時(shí)，只受到該交叉口的狀態(tài)和行為動(dòng)作影響，控制中心發(fā)出指令判斷需要協(xié)調(diào)的車流方向。以興中道為例，事實(shí)上，南向北方向的車流量更大，控制中心起始選擇南向北方向作為協(xié)調(diào)，仿真所使用的路網(wǎng)如圖4所示，南向北車道上的車得到行駛優(yōu)先權(quán)。

圖5和圖6所示分別為1、2、3、4路口早高峰(7:00-9:00)和平峰(9:00-11:00)的干道上各路口固定信號配時(shí)相位圖。

圖5 干道上各路口早高峰固定配時(shí)相位圖

圖6 干道上各路口平峰固定配時(shí)相位圖

圖7 興中道路網(wǎng)系統(tǒng)車均延誤

取興中道-松苑路(2號交叉口)為模型訓(xùn)練的開始，Δgi={-1 s，0 s，+1 s}，從而得到該交叉口此時(shí)間段的動(dòng)作集，開始模型訓(xùn)練。

3.2 路網(wǎng)系統(tǒng)的性能分析

把上文所述的路網(wǎng)的平均延誤當(dāng)做性能指標(biāo)，不同的兩種車流情況下，即南北向均得到較小車流量(平峰，接近自由流)以及較大車流量(早高峰，接近飽和流量)的時(shí)候，固定配時(shí)、單交叉口優(yōu)化模型、干道Q-強(qiáng)化學(xué)習(xí)模型3種方案仿真結(jié)果如圖7所示。

總的來說，兩種基于強(qiáng)化學(xué)習(xí)的配時(shí)方法的車均延誤小于固定配時(shí)的車均延誤。

經(jīng)過多次仿真實(shí)驗(yàn)可以看出，干道Q-強(qiáng)化學(xué)習(xí)模型在平峰流量的情況下具備快速收斂的作用。實(shí)驗(yàn)證明，經(jīng)過300次迭代運(yùn)行后，干道Q-強(qiáng)化學(xué)習(xí)模型已經(jīng)開始收斂，相比單交叉口優(yōu)化模型還未開始收斂具有優(yōu)勢。當(dāng)車流量接近飽和流量時(shí)，干道Q-強(qiáng)化學(xué)習(xí)的效果逐漸變差但仍具備一定優(yōu)勢。

對于平峰低流量的外部環(huán)境，干道Q-強(qiáng)化學(xué)習(xí)模型的收斂速度在單交叉口獨(dú)立優(yōu)化模型的基礎(chǔ)上提升76.79%，車均延誤降低17.93%。低流量下不同模型的收斂速度和車均延誤見表1。

表1 低流量下不同模型的收斂速度和車均延誤

對于早高峰高流量的外部環(huán)境，干道Q-強(qiáng)化學(xué)習(xí)模型不能保證模型一定收斂，10次仿真實(shí)驗(yàn)結(jié)果有2次并未收斂(在模型未收斂時(shí)，下一時(shí)間段的信號相位保持不變)，但是在這種高流量的情況下，此模型同樣具備快速收斂的作用。在收斂情況下，干道Q-強(qiáng)化學(xué)習(xí)模型的收斂速度在單交叉口獨(dú)立優(yōu)化模型的基礎(chǔ)上提升67.77%。高流量下不同模型的收斂速度和車均延誤見表2。

表2 高流量下不同模型的收斂速度和車均延誤

該仿真運(yùn)行結(jié)果證實(shí)干道Q-強(qiáng)化學(xué)習(xí)模型通過引入相鄰交叉口的信息交互，有效地改善了Q-強(qiáng)化學(xué)習(xí)模型直接應(yīng)用在干道上多個(gè)交叉口時(shí)的局限性，此模型能夠改善相關(guān)交通問題。

4 結(jié)語

本文在交叉口交通信號控制單交叉口獨(dú)立優(yōu)化模型的基礎(chǔ)上，利用干道相鄰交叉口間的交互機(jī)制對模型進(jìn)行優(yōu)化，解決了該模型在實(shí)際應(yīng)用中有可能出現(xiàn)的維數(shù)災(zāi)難問題。從仿真結(jié)果來看，當(dāng)車流量處于較小水平(平峰期，此時(shí)車流狀態(tài)接近自由流，車輛間干擾較小)時(shí)，基于Q-強(qiáng)化學(xué)習(xí)的干道信號配時(shí)決策方法對比固定配時(shí)和獨(dú)立強(qiáng)化學(xué)習(xí)算法優(yōu)越性明顯，既縮短了延誤，又提升了收斂速率；當(dāng)車流量處于較高水平(高峰期，此時(shí)車流量接近飽和流量)時(shí)，基于Q-強(qiáng)化學(xué)習(xí)的干道信號配時(shí)決策方法在延誤方面對比固定配時(shí)和獨(dú)立強(qiáng)化學(xué)習(xí)算法有所改善但差別不大，在收斂速率上有一定優(yōu)越性。因此，本文還存在一些后續(xù)的問題值得研究，即在較大流量時(shí)，該模型是否可以具備更強(qiáng)大的環(huán)境適應(yīng)能力和動(dòng)態(tài)協(xié)調(diào)能力，比如在這種特殊情況下，是否可以改進(jìn)協(xié)調(diào)機(jī)制，添加一個(gè)新的影響因子，以達(dá)到提高交通運(yùn)行效率的目的。