亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強化學習的自適應(yīng)交通信號控制研究

        2022-09-01 07:25:42徐建閩周湘鵬首艷芳
        關(guān)鍵詞:適應(yīng)控制綠燈交叉口

        徐建閩,周湘鵬,首艷芳

        (1. 華南理工大學 土木與交通學院,廣東 廣州 510640; 2. 華南理工大學 廣州現(xiàn)代產(chǎn)業(yè)技術(shù)研究院, 廣東 廣州 510640)

        0 引 言

        交通信號控制分為定時控制,感應(yīng)控制和自適應(yīng)控制,而定時控制和感應(yīng)控制效率較低,靈活性不強。隨著車聯(lián)網(wǎng)和人工智能技術(shù)的發(fā)展,自適應(yīng)交通控制逐漸成為了研究熱點。

        傳統(tǒng)的自適應(yīng)交通信號控制方法主要有基于交通流預(yù)測的控制方法和基于數(shù)學模型的控制方法。郭海鋒等[1]依據(jù)歷史交通流量制定了交通狀態(tài)-信號周期模板,以預(yù)測的交通量為依據(jù)調(diào)整信號周期和綠信比;徐建閩等[2]先使用K近鄰算法預(yù)測短時交通量,然后建立模型求解信號周期,再根據(jù)各相位交通狀態(tài)、最大綠燈時間確定是否延長相位進行自適應(yīng)控制?;诮煌A(yù)測的自適應(yīng)交通控制算法的控制效果依賴于預(yù)測算法的精度且采用的交通信息較為單一,效果有限。目前有多種基于數(shù)學模型的自適應(yīng)控制方法。LI Lubing等[3]使用兩階段法以延誤為優(yōu)化目標建立優(yōu)化模型實現(xiàn)隨機需求下的自適應(yīng)信號控制;Y.LI等[4]采用多目標優(yōu)化的方法實時優(yōu)化延誤時間,排隊長度,污染排放?;跀?shù)學模型的自適應(yīng)控制方法結(jié)合多種因素對道路信號配時進行分析,但只考慮了當前狀態(tài)下的最優(yōu)控制動作。

        強化學習交通控制方法通過探索試錯使信號控制機能作出最大化獎勵值的相位動作以期實現(xiàn)交叉口的最優(yōu)控制,控制效果往往優(yōu)于非學習型自適應(yīng)控制方法。盧守峰等[5]分別對定周期和不定周期模式下的強化學習控制方法進行了研究,并與定時控制方法進行了對比;F.RASHEED等[6]、S.TOUHBI等[7]以排隊長度和當前信號狀態(tài)為輸入,并分析了多種自適應(yīng)控制策略,結(jié)果表明,基于深度強化學習的自適應(yīng)控制方法能取得更低的延誤和排隊長度;A.G.ROAN等[8]使用了一種基于時間差分的強化學習方法,并使用了連續(xù)時間馬爾可夫過程進行多路交叉口的信號控制;賴建輝[9]、孫浩等[10]采用高維離散化模型作為輸入,并對強化學習算法進行了改進以研究其收斂性和控制效果。

        為了進一步提高交叉口通行效率,并考慮到動作空間的影響,提出了一種改進的D3QN自適應(yīng)信號控制方法,使用不定步長動作控制模式同時輸出相位和綠燈時間,分析了在穩(wěn)定流和隨機流場景下的收斂性和控制效果,有效地降低了交叉口延誤時間和排隊長度。

        1 系統(tǒng)模型與算法設(shè)計

        1.1 強化學習交通控制

        強化學習交通控制機以ε-greedy規(guī)則探索動作(信號機以概率1-ε使用最大Q值對應(yīng)的相位動作,以概率ε隨機選擇相位),在不斷的探索與試錯中最大化期望獎勵值為:

        (1)

        式中:rt為時刻t執(zhí)行相位動作后得到的獎勵值;信號控制機時刻t得到的獎勵值在時刻τ衰減為γτ-trt,其中γ∈[0,1]為衰減系數(shù),由于城市道路交通的高時間關(guān)聯(lián)性,γ取值為0.95。

        控制機通過策略π選擇相位動作,采用相位動作效用函數(shù)表示某一時刻交通狀態(tài)s下采取動作a獲得的效用值為:

        Qπ(s,a)=Ea~π(s)[r+γVπ(s′)]

        (2)

        式中:s′為狀態(tài)s后可能的狀態(tài);Ea~π(s)為策略π下的累計期望;r為狀態(tài)s下采取動作a獲得的獎勵值;Vπ(s′)表示交通控制策略π在交通狀態(tài)s′下的價值。

        而交通狀態(tài)s下的估計價值Vπ(s)可根據(jù)式(3)求得:

        Vπ(s)=Rs+γ∑Pss′Vπ(s′)

        (3)

        式中:Pss′為從交通狀態(tài)s轉(zhuǎn)移到交通狀態(tài)s′的概率;Rs為狀態(tài)s下獲得的即時獎勵,通過Bellman方程不斷迭代以優(yōu)化信號控制策略π。

        1.2 改進的D3QN控制方法

        由于在線學習的方法會導(dǎo)致嚴重的交通擁堵,通過離線學習訓練得到的模型進行交通控制。首先生成一個隨機初始化交通控制策略π,將檢測到的交叉口狀態(tài)輸入到信號控制策略π,策略π輸出下一相位動作,信號燈執(zhí)行此相位動作后反饋給智能體一個獎勵值以更新策略π,經(jīng)過多次迭代最終收斂,獲得最優(yōu)策略π*。一般情況下信號控制策略可由Q表表示,當交叉口交通狀態(tài)很復(fù)雜時,使用Q表作出相位動作決策會出現(xiàn)維度爆炸的問題,使用神經(jīng)網(wǎng)絡(luò)擬合相位動作效用函數(shù)如DQN(深度Q神經(jīng)網(wǎng)絡(luò))可解決此問題。神經(jīng)網(wǎng)絡(luò)參數(shù)為θ,信號控制機在交通狀態(tài)s下使用相位動作a的實際價值為y*,Q(s′,a′;θ)為神經(jīng)網(wǎng)絡(luò)θ在交通狀態(tài)s下采取相位動作a的估計值,則有:

        (4)

        式中:a′為狀態(tài)s′下采用的動作。

        以最小化時序差分誤差δ優(yōu)化神經(jīng)網(wǎng)絡(luò)參數(shù)θ:

        δ=y*-Qπ(s,a)

        (5)

        Li(θ)=Ea~π(s)(δ2)

        (6)

        為避免Q值過高的估計,將相位動作選擇和相位動作價值的估計解耦,在Double DQN中估計Q值的計算公式為:

        (7)

        其中θ和θ-分別為原神經(jīng)網(wǎng)絡(luò)和目標神經(jīng)網(wǎng)絡(luò)。

        為保證信號控制算法快速收斂,將狀態(tài)-價值對作為兩部分輸出。DQN的輸出是相位動作效用函數(shù)的值,輸出層的前一層是全聯(lián)接層,而Dueling DQN把全聯(lián)接層分成兩股,分別估算交通狀態(tài)價值Vπ(s)和當前交通狀態(tài)下各相位動作優(yōu)勢值A(chǔ)π(s,a),所以相位動作效用函數(shù)為:

        Qπ(s,a)=Vπ(s)+Aπ(s,a)

        (8)

        其中滿足:

        (9)

        為了解決樣本間的相關(guān)性過大的問題,D3QN訓練樣本從經(jīng)驗池中直接抽取產(chǎn)生,每個樣本被選擇的概率是相等的。但這種采樣方式無法區(qū)分樣本的重要性,導(dǎo)致一些重要的信息得不到充分利用,可以通過改進抽樣方法加快算法的訓練效率,采用和樹的方法進行樣本抽取。將時序差分誤差的絕對值|δ|作為優(yōu)先級值存儲于和樹的葉子節(jié)點,然后根據(jù)優(yōu)先級的和與抽樣數(shù)獲取抽樣區(qū)間數(shù),并在每個區(qū)間隨機抽取一個數(shù),從根節(jié)點向下搜索對應(yīng)葉子節(jié)點,如此從樣本池抽取到的個體即為訓練樣本。

        此外,算法根據(jù)ε-greedy策略選擇的動作為策略輸出,信號燈執(zhí)行完輸出的動作便返回一個獎勵值繼續(xù)下一步迭代。為了平衡算法探索與利用之間的關(guān)系,筆者采用了一種基于獎勵值序列的自適應(yīng)探索因子,算法的探索因子依據(jù)最近一段連續(xù)動作序列獲得的平均獎勵值確定。探索因子ε取值為:

        (10)

        (11)

        2 強化學習自適應(yīng)控制策略

        為使模型輸入準確地表達交通狀態(tài),輸入狀態(tài)向量由兩部分組成。第1部分表示交叉口當前信號燈狀態(tài),為1組one-hot向量。第2部分通過對交叉口各車道進行分段處理以獲得各車道狀態(tài)[11]。對于車道x,其長度為l,將其分成k小段,每小段長度為l/k,其中,記車道x第y小段車輛數(shù)為ux,y,車道x第y小段的平均車速為vx,y,所以交叉口各車道狀態(tài)為(u1,1,v1,1,…,ux,y,vx,y,…,ue,k,ve,k),其中e為交叉口車道數(shù)。因此,文中方法狀態(tài)向量長度為2ek+|P|,|P|為交叉口相位數(shù)。

        2.1 強化學習自適應(yīng)信號控制模式

        2.1.1 定周期自適應(yīng)控制

        定周期自適應(yīng)控制是強化學習自適應(yīng)控制中的一種模式。該模式計算出最佳周期時間,給定統(tǒng)一的最小綠燈時間和最大綠燈時間,輸入交叉口交通狀態(tài),輸出下一周期的相位方案。定周期控制每隔最佳周期采集一次交通狀態(tài),輸出信號配時方案,但是該模式下動作空間隨著相位的增加而指數(shù)級擴大,只適合兩相位的小型交叉口。

        2.1.2 固定步長動作控制

        給定最小綠燈時間gmin,智能體每隔時間步長Δt對交通狀態(tài)進行一次采集作為深度Q神經(jīng)網(wǎng)絡(luò)的輸入,輸出n個動作(對應(yīng)n個相位)的Q值,選擇最大Q值對應(yīng)的相位,當選擇的相位與當前運行相位一致時,在當前相位運行時間步長Δt,當選擇的相位與當前運行相位不一致時,運行黃燈時間b秒后在新相位上運行Δt-b秒。然后再次采集環(huán)境的狀態(tài)值,輸入神經(jīng)網(wǎng)絡(luò),確定下一時間步長Δt的相位動作。信號機每隔固定時間步長Δt對相位進行一次決策。固定步長動作控制模式中,交通狀態(tài)采集間隔受最小綠燈時間gmin約束,Δt滿足約束為:

        Δt≥gmin+b

        (12)

        2.1.3 不定步長動作控制

        給定最小綠燈時間gmin,首先根據(jù)實用信號周期公式計算最小周期時間為:

        (13)

        (14)

        智能體根據(jù)當前輸入的狀態(tài)向量輸出下一相位動作at,所以下一相位pt為:

        (15)

        綠燈時間gpt為:

        (16)

        在相位pt運行一個綠燈持續(xù)時間gpt后,環(huán)境將狀態(tài)反饋給智能體,獲取下一個相位pt′及綠燈持續(xù)時間gpt′。

        2.2 獎勵函數(shù)

        排隊長度是評價交叉口運行效率的一個重要指標,不同于定時控制,在強化學習自適應(yīng)交通控制中,信號控制機頻繁地切換相位也能降低交叉口的排隊長度,所以在以排隊長度作為獎勵函數(shù)時往往需要考慮相位的切換。以各相位對應(yīng)車道的最大空間占有率之和為優(yōu)化目標可以解決此問題,降低交叉口各相位的空間占有率等價于路網(wǎng)流量輸入一定的前提下,使交叉口各相位滯留的車輛最少。基于空間占有率的獎勵函數(shù)在t時刻得到的獎勵值Rt為:

        (17)

        其中:

        (18)

        2.3 訓練迭代過程

        研究的城市交叉口有4個相位且流量較大,不適合采用定周期自適應(yīng)控制模式。不定步長動作控制和固定步長動作控制分別對應(yīng)不同的訓練迭代流程。固定步長動作的訓練迭代流程為:

        Step 1總迭代次數(shù)為T,初始化當前迭代次數(shù)t=0,神經(jīng)網(wǎng)絡(luò)訓練間隔ttrain,目標神經(jīng)網(wǎng)絡(luò)更新間隔ttarget,訓練選取樣本數(shù)為batch_size。

        Step 2獲取當前交通狀態(tài)st,神經(jīng)網(wǎng)絡(luò)輸出各相位對應(yīng)的Q值,選擇最大Q值對應(yīng)的相位at。

        Step 5當t

        Step 6當t

        Step 7若t

        不定步長動作的訓練迭代流程為:

        Step 1仿真總時長為M,初始化當前迭代次數(shù)t=0,神經(jīng)網(wǎng)絡(luò)訓練間隔ttrain,目標神經(jīng)網(wǎng)絡(luò)更新間隔ttarget。

        Step 2獲取當前交通狀態(tài)st,神經(jīng)網(wǎng)絡(luò)輸出各相位動作對應(yīng)的Q值,選擇最大Q值對應(yīng)的動作at,根據(jù)at確定下一相位pt和下一相位綠燈時間gpt。

        Step 5當前仿真時間m

        Step 6當前仿真時間m

        Step 7若當前仿真時間m

        3 算例分析

        3.1 實驗準備

        Sumo是一個開源的、空間上連續(xù)、時間上離散的微觀交通仿真軟件[12],使用Sumo對興中大道與松苑路交叉口(交叉口渠化如圖1)的交通信號控制進行研究,該交叉口一共有4個相位(圖2)。交叉口流量見表1。

        圖1 交叉口渠化Fig. 1 Channelization of the intersection

        圖2 交叉口相位相序Fig. 2 Phase sequence of the intersection

        表1 交叉口流量Table 1 Traffic flow of the intersection

        表2 超參數(shù)設(shè)置Table 2 Hyperparameters setting

        分別在穩(wěn)定流和隨機流的場景下進行仿真訓練,一共仿真訓練60回合,每回合仿真運行25 000 s。其中隨機流服從均值為穩(wěn)定流交通量的二項分布,各車道每秒以相應(yīng)概率輸入車輛進行仿真。

        3.2 實驗結(jié)果

        為驗證文中方法的收斂性,將筆者方法與原D3QN算法進行收斂性對比,圖3為2種算法在穩(wěn)定流場景下每回合的獎勵值變化,圖4為2種算法在隨機流場景下每回合的獎勵值變化。從圖4和圖5可知,改進的D3QN算法收斂性優(yōu)于原D3QN算法。

        圖3 穩(wěn)定流下的獎勵值Fig. 3 Rewards under stable flow

        圖4 隨機流下的獎勵值Fig. 4 Rewards under stochastic flow

        由于已有的強化學習自適應(yīng)控制方法多采用固定步長動作模式,在強化學習固定步長動作模式中,時間步長Δt不應(yīng)過長,考慮到最小綠燈時間,分別取Δt為8、9、10 s,仿真結(jié)果圖5表明在固定步長動作控制模式中,時間步長Δt為8 s時控制效果最優(yōu),更高的交通狀態(tài)采集頻率對應(yīng)更好的信號控制效果。不定步長動作模式各個相位綠燈時間取值范圍如表3。

        表3 各相位綠燈時間取值范圍Table 3 Value range of green light time of each phase

        圖5 不同時間步長控制延誤時間Fig. 5 Control delay time with different time steps

        為進一步驗證文中方法的效果,將文中方法與韋伯斯特法、固定步長控制、文獻[13]方法進行對比,并使用不同的隨機數(shù)種子進行仿真取平均值,采集連續(xù)1 h的延誤時間和排隊長度。表4為4種控制方法在穩(wěn)定流和隨機流場景下的延誤時間和排隊長度,顯然,穩(wěn)定流場景下的延誤時間和排隊長度均優(yōu)于隨機流場景。兩種場景中,筆者方法均能獲得最優(yōu)控制效果,與其他3種方法相比,延誤時間分別平均降低了26.2%、15.2%、11.4%,排隊長度分別平均降低了20.1%、13.3%、11.6%。

        表4 控制效果對比Table 4 Comparison of contral effect

        4 結(jié) 語

        提出了一種改進的D3QN自適應(yīng)交通信號控制方法,使用不定步長動作控制模式同時輸出相位和綠燈時間,構(gòu)造了以空間占有率為優(yōu)化目標的獎勵函數(shù)。相比于已有方法,文中方法的收斂性得到了提升,延誤時間和排隊長度得到了優(yōu)化。

        此次研究的對象是混合車流在單交叉口的自適應(yīng)控制,下一步研究可以區(qū)域路網(wǎng)為研究對象,綜合自適應(yīng)控制與綠波協(xié)調(diào)控制,結(jié)合車路協(xié)同技術(shù),對路網(wǎng)的交通狀態(tài)進行優(yōu)化并對其進行評價;也可以某一類車輛如公交車輛為研究對象進行公交優(yōu)先控制以期改善公交信號控制效果,提高城市公共交通運行效率。

        猜你喜歡
        適應(yīng)控制綠燈交叉口
        為什么紅燈停,綠燈行
        采用自適應(yīng)控制的STATCOM-SEIG系統(tǒng)Matlab仿真
        電子測試(2018年15期)2018-09-26 06:01:04
        信號交叉口延誤參數(shù)獲取綜述
        紅燈停,綠燈行
        考慮執(zhí)行器飽和的改進無模型自適應(yīng)控制
        自動化學報(2016年8期)2016-04-16 03:38:51
        一種Y型交叉口設(shè)計方案的選取過程
        基于 L1自適應(yīng)控制的無人機橫側(cè)向控制
        Rucklidge混沌系統(tǒng)的自適應(yīng)控制
        考慮黃燈駕駛行為的城市交叉口微觀仿真
        基于VISSIM的交叉口改善評價研究
        河南科技(2014年14期)2014-02-27 14:12:02
        久久九九精品国产av| 蜜桃视频无码区在线观看| 无码欧美毛片一区二区三| 肥臀熟女一区二区三区| 久久久精品欧美一区二区免费| 麻豆AV免费网站| 2021国产最新无码视频| av网站免费在线不卡| 一区二区午夜视频在线观看| 91精品人妻一区二区三区久久久| 国产一区二区精品久久岳| 亚洲人成77777在线播放网站| 两个人看的www中文在线观看| 大陆啪啪福利视频| 国产精品日韩亚洲一区二区| 人人妻人人澡人人爽超污| 最近免费mv在线观看动漫| 成人a在线观看| 人人爽亚洲aⅴ人人爽av人人片| 午夜桃色视频在线观看| 日韩av一区二区网址| 亚洲精品美女久久久久久久| 亚洲黄色电影| 亚洲爆乳大丰满无码专区| 亚洲中文字幕乱码免费看| 91成人自拍在线观看| 精品久久久bbbb人妻| 性一交一乱一乱一视频| 亚洲欧美日韩精品中文乱码| 91久久精品国产性色tv| 日韩av一区二区不卡| 国产精品久久久久一区二区三区| 亚洲日韩国产精品乱-久| 国产午夜亚洲精品理论片不卡| 国产一级片内射在线视频| 在线不卡精品免费视频| 美女内射毛片在线看免费人动物| 嫩草影院未满十八岁禁止入内| 综合91在线精品| 国产伦精品一区二区三区在线| 偷拍一区二区三区高清视频|