亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的綜合干線協(xié)調(diào)控制方法

        2021-06-29 07:04:52尚春琳劉小明田玉林董路熙
        關(guān)鍵詞:協(xié)調(diào)控制干線交叉口

        尚春琳,劉小明,田玉林,董路熙

        (北方工業(yè)大學(xué),城市道路智能交通控制技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京100144)

        0 引言

        公交專用道作為一種緩解交通擁堵、轉(zhuǎn)變城市交通發(fā)展方式的有效手段,近年來得到各國政府的大力推廣。但是專用道公交的干線優(yōu)先控制在實(shí)際應(yīng)用中效率相對較低,一個關(guān)鍵原因就是社會車輛干線協(xié)調(diào)與專用道公交干線優(yōu)先間的信號控制存在較大差異。對此,部分學(xué)者以人均延誤最低為目標(biāo),通過延誤模型分析、公交預(yù)信號設(shè)置[1]等措施,將公交優(yōu)先作為社會車輛干線協(xié)調(diào)設(shè)置的指標(biāo)因素之一,進(jìn)而實(shí)現(xiàn)社會車輛干線綠波同公交優(yōu)先的兼容。然而公交車輛因其隨機(jī)性和波動性的特征,其路段分布差異性較大,極易造成信號利用率低、公交優(yōu)先效果差的問題。對此也有學(xué)者在社會車輛干線協(xié)調(diào)的基礎(chǔ)上,通過車速引導(dǎo)[2]、主動優(yōu)先[3]、車速引導(dǎo)和信號調(diào)整相結(jié)合[3]等措施優(yōu)化公交車輛的路口特性,然而這也帶來了前期軟硬件設(shè)備需求高[3],對社會車輛干線協(xié)調(diào)影響大[4]等問題。并且隨著公交線路長度和密度的不斷增加,其關(guān)聯(lián)交通狀態(tài)信息也逐漸呈現(xiàn)高維連續(xù)的特點(diǎn),進(jìn)一步增加了交通信號實(shí)時準(zhǔn)確決策的難度。

        強(qiáng)化學(xué)習(xí)(Reinforcement Learning)因其實(shí)時決策的優(yōu)勢,逐漸在速度控制、路徑?jīng)Q策[5]及分布式信號優(yōu)化[6]等方面取得了一些研究成果。但受限于傳統(tǒng)強(qiáng)化學(xué)習(xí)難以較好處理高維且連續(xù)的交通狀態(tài)信息的自身限制,制約了其實(shí)時決策的進(jìn)一步優(yōu)化。對此有學(xué)者借助深度學(xué)習(xí)的數(shù)據(jù)處理優(yōu)勢,開展深度強(qiáng)化學(xué)習(xí)在交通領(lǐng)域的研究,文獻(xiàn)[7]將深度強(qiáng)化學(xué)習(xí)應(yīng)用到交通信號決策過程,并較好地提升了交叉口的通行效率。文獻(xiàn)[8]從有軌電車與社會車輛協(xié)同的角度,提出一種基于深度強(qiáng)化學(xué)習(xí)的有軌電車信號優(yōu)先控制策略,驗(yàn)證了深度強(qiáng)化學(xué)習(xí)在處理協(xié)同優(yōu)先問題的可行性。

        本文通過分析社會車輛干線和公交干線路段運(yùn)行狀態(tài),從各路段車輛行程時間分布差異入手,在不破壞社會車輛干線協(xié)調(diào)的基礎(chǔ)上,提出一種集成社會車輛干線協(xié)調(diào)控制和公交干線優(yōu)先控制的綜合干線協(xié)調(diào)控制方法,將公交車輛通過交叉口整個過程中的交通信號多步控制問題轉(zhuǎn)變?yōu)轳R爾科夫決策過程,并考慮信號調(diào)整對上下游交叉口通行狀態(tài)的影響,以全線路人均延誤變化和停車次數(shù)變化最優(yōu)為目標(biāo),構(gòu)建基于深度強(qiáng)化學(xué)習(xí)迭代分析的專用道公交干線信號優(yōu)先策略。

        1 綜合干線協(xié)調(diào)控制方法

        干線協(xié)調(diào)控制的關(guān)鍵是按照公交車輛的路段分布,實(shí)時調(diào)整該路段的信號控制策略,這個過程需要判斷公交車輛所在路段和交叉口信號執(zhí)行狀態(tài),故通過車載GPS信息實(shí)時獲取公交狀態(tài)。但動態(tài)交通感知及信號控制具有比較高的實(shí)時性要求,且隨著干線路段數(shù)量及公交車輛數(shù)量的變化,其信號決策呈現(xiàn)多狀態(tài)多動作的高維狀態(tài),為此采用深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG),解決連續(xù)狀態(tài)空間和連續(xù)動作空間問題。

        1.1 交通狀態(tài)空間構(gòu)建

        若路段上存在公交車輛,定義Δq>0,否則說明路段上不存在公交車輛,故路段i上實(shí)際存在3種情況:無公交車輛(Δqi=0,Δq′i=0)、存在單向公交車輛(ΔqiΔq′i=0,Δqi+Δq′i≠0)和雙向均存在公交車輛(ΔqiΔq′i≠0),其中,Δqi,Δq′i分別為路段i正向行駛和逆向行駛車輛數(shù)。上述情況中僅有后兩種情況涉及信號控制方案調(diào)整。

        如圖1所示,對比分析社會車輛和公交車輛的路段行程時間發(fā)現(xiàn),公交車輛的行程時間分布滯后于社會車輛。

        圖1 車輛特性分布Fig.1 Vehicle characteristic distribution

        對公交車輛的行程時間進(jìn)行K-S檢驗(yàn)發(fā)現(xiàn),其漸進(jìn)顯著性為0.101>0.05,即為正態(tài)分布,獲取行程時間置信度為1-α的置信區(qū)間Tt為

        式中:Tt1,Tt2為置信區(qū)間的上、下限;為樣本均值;χ為樣本標(biāo)準(zhǔn)差;w為樣本數(shù)量;tα2表示t檢驗(yàn)。

        公交車輛到達(dá)第i+1 交叉口的時段為,此時第i+1交叉口綠燈的起止時刻為,其中,βi為社會車輛協(xié)調(diào)相位差,Δgi+1為第i+1交叉口的綠燈時長。如圖2所示,車輛到達(dá)時段與交叉口綠燈時段關(guān)系主要分為3情況,即包含、交叉、獨(dú)立。不同情況下,公交不停車通過交叉口i的概率分別為

        圖2 關(guān)系示意圖Fig.2 Relationship indication

        綜上,為在實(shí)際應(yīng)用中能充分掌握車輛的實(shí)時狀態(tài)變化,專用道公交的路段i行駛狀態(tài)被定義為si=(Δqi,λi),其中,Δqi,λi分別為路段i是否存在公交車輛、交叉口通過概率。本文模型的狀態(tài)空間定義為S=(s1,…,si,…,sn),其中,n表示干線路段數(shù)。

        1.2 關(guān)聯(lián)動作分析

        交叉口信號控制需要根據(jù)公交車輛狀態(tài)實(shí)時調(diào)整,故針對交通狀態(tài)構(gòu)建相應(yīng)的信號調(diào)整動作關(guān)聯(lián)模型。由1.1節(jié)分析可知,Δq的狀態(tài)決定是否存在公交優(yōu)先需求,λ的狀態(tài)決定需要執(zhí)行信號調(diào)整的程度。定義整個干線的決策動作空間為A=(a1,…,a,…,an),且路段i的信號決策動作ai存在4 種情況,分別為其中,為信號早斷調(diào)整量,為信號延長調(diào)整量。實(shí)際運(yùn)行過程中各交叉口存在最大、最小綠燈限制,因此信號調(diào)整在不同狀態(tài)存在不同的調(diào)整約束,故定義ai=μ(si) 表示動作空間A與狀態(tài)空間S之間的關(guān)聯(lián)關(guān)系,具體分析如下。

        1.3 動作收益函數(shù)構(gòu)建

        公交信號優(yōu)先能夠在一定程度上優(yōu)化公交的停車次數(shù)和延誤等指標(biāo),但公交優(yōu)先權(quán)的增加會給社會車輛通行造成一定的負(fù)面影響,為獲取最佳優(yōu)化效果,本文選取人均延誤和公交停車次數(shù)等指標(biāo)構(gòu)建動作收益函數(shù)。

        信號調(diào)整會對路段車輛的通行產(chǎn)生影響,故利用韋伯斯特延誤公式量化分析信號調(diào)整對社會車輛道路延誤的影響,即

        式中:γi和分別為信號調(diào)整前、后的綠信比;gi為交叉口i的綠燈時長;C為干線交叉口公共周期;為在綠信比γ情況下的平均延誤;分別為信號調(diào)整前后的平均延誤;Cost(Δti)為調(diào)整后的社會車輛平均延誤變化量;Δti為交叉口信號調(diào)整量,q為進(jìn)口道到達(dá)流率;x為進(jìn)口道飽和度。

        信號調(diào)整會提升公交的通行效率,選取公交交叉口通行狀態(tài)變化分析信號調(diào)整的影響。信號調(diào)整前公交車輛的到達(dá)時段和交叉口綠燈時段分別為,公交不停車通過下游交叉口的時段范圍為信號調(diào)整后,公交不停車通過下游交叉口的時段范圍為;當(dāng) 公交車在上游路口停車等待時,即≠0,信號調(diào)整后的公交不停車通過下游交叉口時段范圍為綜上,信號調(diào)整后的狀態(tài)轉(zhuǎn)移矩陣為

        式中:為上下游均不停車通過的概率;為上游不停車通過下游停車等待的概率;為上游停車等待下游不停車通過的概率;為上游和下游均停車等待的概率。可知,下一狀態(tài)的概率分布只能由當(dāng)前狀態(tài)決定,在時間序列中它前面的狀態(tài)均與之無關(guān)。

        公交在交叉口不停車通過,在行程時間上會出現(xiàn)累計(jì)優(yōu)化,故信號調(diào)整對公交車輛的影響可定義為

        式中:為交叉口公交平均停車延誤,可根據(jù)歷史數(shù)據(jù)統(tǒng)計(jì)值;Δηi為信號調(diào)整前后概率變化,包括分別為式(6)中4 種概率的變化量

        根據(jù)式(5)和式(7),獲取公交線路人均延誤變化量為

        式中:為公交乘客承載量,可以通過上下車刷卡數(shù)據(jù)獲??;qi為社會車輛流量;M為公交車輛總數(shù)。

        通過式(6)可以獲取公交在每個交叉口不停車通過的概率,對全線路而言,公交在交叉口停車次數(shù)的變化量為

        根據(jù)式(8)和式(9),結(jié)合歸一化分析可得本文獎懲函數(shù)為

        式中:φ1,φ2∈(0,1) 為權(quán)重系數(shù),需要根據(jù)優(yōu)化意圖自主設(shè)置;r為獎懲值;δ1(Yy),δ2(Ys)分別為人均延誤變化量和公交交叉口停車次數(shù)變化量的歸一化表達(dá)。

        2 深度強(qiáng)化學(xué)習(xí)求解模型

        2.1 仿真環(huán)境構(gòu)建

        模型的環(huán)境構(gòu)建是獲取動作執(zhí)行后下一輪狀態(tài)及獎懲值的關(guān)鍵所在,本文通過仿真動態(tài)獲取動作評估參數(shù)。選取云南省昆明市環(huán)城南路某路段作為真實(shí)場景構(gòu)建Vissim 仿真環(huán)境,該路段長約1.3 km,主要包括4個交叉口,信號控制主要分為早高峰(7:00-10:00)、日間(10:00-16:30)、晚高峰(16:30-20:30)、夜間(20:30-7:00)這4個階段,控制方案均為兩相位,具體如表1所示。

        表1 路口信號配時表Table 1 Intersection signal timetable

        設(shè)置α=0.05,認(rèn)為人均延誤變化和停車次數(shù)變化的權(quán)重同等重要,故φ1=φ2=0.5,測試路段的交叉口數(shù)量n=4,各交叉口的最大綠燈時間高峰時段依次為75,95,75,75 s,其他時段依次為60,65,60,60 s,最小綠燈時間全天依次為28,28,28,28 s。主要依靠車載GPS設(shè)備獲取,測試區(qū)域內(nèi)公交車輛運(yùn)行時段為6:30-23:30。通過視頻采集和人工調(diào)研的方式,采集測試路段的動態(tài)交通信息,具體如圖3所示。

        圖3 交通流量分析Fig.3 Traffic flow analysis

        分析公交運(yùn)行特性,獲取干線協(xié)調(diào)相位差(夜間時段僅選取公交運(yùn)行時段范圍內(nèi)數(shù)據(jù)),如表2所示。可以發(fā)現(xiàn),公交車輛干線因公交駐站時間影響,其相位差與社會車輛相位差存在較大差異。

        表2 干線相位差對比Table 2 Phase difference comparison

        根據(jù)道路交通組織構(gòu)建交通仿真模型,基于Vissim軟件的二次開發(fā),實(shí)現(xiàn)深度強(qiáng)化學(xué)習(xí)決策求解與仿真模型的實(shí)時交互,建模效果如圖4所示。

        圖4 交通仿真模型Fig.4 Traffic simulation model

        2.2 深度強(qiáng)化學(xué)習(xí)求解

        如圖5所示,DDPG 由Actor 決策網(wǎng)絡(luò)和Critic評價網(wǎng)絡(luò)組成。Actor決策網(wǎng)絡(luò)包括在線決策網(wǎng)絡(luò)和目標(biāo)決策網(wǎng)絡(luò)兩部分,采用確定性決策,用以從當(dāng)前狀態(tài)獲取下一步動作,并在取值范圍內(nèi)隨機(jī)取值A(chǔ)t作為動作量;Critic 評價網(wǎng)絡(luò)主要包括在線Q網(wǎng)絡(luò)和目標(biāo)Q網(wǎng)絡(luò)兩部分,使用式(8)衡量所采取動作的優(yōu)劣。

        圖5 DDPG算法流程圖Fig.5 DDPG algorithm flowchart

        算法執(zhí)行步驟如下:

        初始化系統(tǒng)參數(shù),包括網(wǎng)絡(luò)參數(shù),獎懲函數(shù)等。

        fort=1 toT

        (1)每當(dāng)干線路段Δq發(fā)生改變時,算法開始下一次迭代,并確定狀態(tài)St;

        (2)結(jié)合調(diào)整約束和隨機(jī)噪聲,確定決策動作At;

        (3)仿真環(huán)境執(zhí)行決策動作At,得到新一輪的獎懲值rt和新的狀態(tài)St+1;

        (4)如果樣本池溢出,按照時間順序刪除最早樣本記錄;

        (5)Actor 網(wǎng)絡(luò)將信息(St,At,rt,St+1)放入到經(jīng)驗(yàn)回放,作為在線網(wǎng)絡(luò)的訓(xùn)練集;

        (6)從經(jīng)驗(yàn)回放中進(jìn)行采樣,獲取N個(St,At,rt,St+1) 作為在線決策網(wǎng)絡(luò)和Q 網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù);

        (7)基于標(biāo)準(zhǔn)BP方法計(jì)算在線Q網(wǎng)絡(luò)梯度;

        (8)更新在線Q網(wǎng)絡(luò)參數(shù)θe;

        (9)計(jì)算決策網(wǎng)絡(luò)的決策梯度(Policy Gradient,PG);

        (10)更新在線決策網(wǎng)絡(luò)參數(shù)θn;

        (11)更新目標(biāo)網(wǎng)絡(luò)的n1,e1。end for iterative calculation

        3 實(shí)驗(yàn)與驗(yàn)證

        3.1 深度強(qiáng)化學(xué)習(xí)模型訓(xùn)練

        兼顧學(xué)習(xí)速率和之前保留訓(xùn)練效果的需求、平衡經(jīng)驗(yàn)及獎勵的重視程度,經(jīng)過多次試驗(yàn),本文折扣因子γ=0.9,迭代次數(shù)T=7000,Actor和Critic網(wǎng)絡(luò)學(xué)習(xí)率分別為10-4和10-5,隱藏層采用3 個全連接網(wǎng)絡(luò),神經(jīng)元個數(shù)為512,經(jīng)驗(yàn)池大小為103,批量為32,初始方差和最小方差分別為1.80和0.02,衰減率為10-4。圖6為DDPG訓(xùn)練結(jié)果。

        圖6 DDPG訓(xùn)練結(jié)果Fig.6 DDPG train results

        從圖6可知,前500次迭代,DDPG模型獲得的獎勵變化并不明顯,并且相應(yīng)的動作決策波動也非常大;500~3000 次迭代時,模型進(jìn)入快速搜索學(xué)習(xí)階段,動作決策波動和平均累計(jì)獎勵也逐漸趨于穩(wěn)定;3000次迭代以后,模型逐漸趨于穩(wěn)定,每次迭代的獎勵變化量逐漸減少,說明模型處于收斂狀態(tài),且訓(xùn)練收斂效果良好。

        3.2 控制效果分析

        設(shè)置社會車輛干線協(xié)調(diào)、專用道公交干線協(xié)調(diào)、本文干線協(xié)調(diào)3組對比實(shí)驗(yàn),通過真實(shí)場景交通仿真進(jìn)行案例分析。仿真發(fā)現(xiàn),本文干線協(xié)調(diào)控制的目標(biāo)值在各階段均為最優(yōu),比其他兩種干線協(xié)調(diào)方式,分別提升29.77%和8.11%,具體如圖7所示。

        圖7 獎懲函數(shù)值rFig.7 Optimization objective function value

        如圖8所示,社會車輛干線、公交車輛干線、本文干線協(xié)調(diào)控制狀態(tài)下的公交交叉口平均停車次數(shù)分別為2.30,1.06,1.10 次,說明本文干線協(xié)調(diào)控制能夠較好地保障公交運(yùn)行效率。分析3 種狀態(tài)下的道路人均延誤發(fā)現(xiàn),公交車輛干線、社會車輛干線、本文干線協(xié)調(diào)控制的全天平均延誤分別為17.63,14.91,10.82 s,本文方法比前兩者分別優(yōu)化提升38.63%、27.43%,說明本文方法能夠在提高公交通行效率的同時降低對社會車輛的負(fù)面影響。

        圖8 交通仿真結(jié)果Fig.8 Traffic simulation results

        4 結(jié)論

        本文從社會車輛干線協(xié)調(diào)需求和公交車輛干線優(yōu)先需求兼容的角度,構(gòu)建了基于深度強(qiáng)化學(xué)習(xí)的綜合干線協(xié)調(diào)控制方法,線路人均延誤比于單一社會車輛干線協(xié)調(diào)、公交車輛干線協(xié)調(diào)分別優(yōu)化提升38.63%、27.43%。通過實(shí)際場景仿真測試發(fā)現(xiàn):本文干線協(xié)調(diào)控制方法突破了單一綠波協(xié)調(diào)方案的局限性,適用于高維連續(xù)交通狀態(tài)下的深度強(qiáng)化學(xué)習(xí)框架,實(shí)現(xiàn)連續(xù)狀態(tài)及連續(xù)動作下的實(shí)時決策求解。

        猜你喜歡
        協(xié)調(diào)控制干線交叉口
        基于熵權(quán)TOPSIS的高速干線物流卡車司機(jī)駕駛行為評價
        多個MFD 子區(qū)邊界協(xié)調(diào)控制方法
        信號交叉口延誤參數(shù)獲取綜述
        一種Y型交叉口設(shè)計(jì)方案的選取過程
        中小城市交通干線模糊控制的實(shí)現(xiàn)
        OLP在干線DW DM網(wǎng)絡(luò)中的應(yīng)用模式
        乳化瀝青廠拌冷再生在干線公路的應(yīng)用
        考慮黃燈駕駛行為的城市交叉口微觀仿真
        省地縣三級AVC系統(tǒng)協(xié)調(diào)控制及實(shí)現(xiàn)
        基于NSGA-Ⅱ的DSVC和DSTATCOM協(xié)調(diào)控制研究
        国产综合久久久久影院| 人妻丰满av无码中文字幕| 精品中文字幕在线不卡| 日产精品99久久久久久| 国产97在线 | 免费| 国产妇女乱一性一交| 国产一区二区在线观看av| 99国产精品久久99久久久| 无遮无挡爽爽免费毛片| 免费无遮挡无码视频在线观看 | 亚洲中文无码av在线| 麻豆五月婷婷| 美女草逼视频免费播放| 国产精品毛片无遮挡高清| 国产乱子伦农村叉叉叉| 久久精品无码专区东京热| 国产成人AⅤ| 成人性生交大全免费看| 夜夜揉揉日日人人青青| 国产福利午夜波多野结衣| av中文字幕少妇人妻| 亚洲一区二区三区在线高清中文| 亚洲精品一区二区三区麻豆| 国产免费av片无码永久免费| 天天狠狠综合精品视频一二三区| 久99久精品免费视频热77| 国产自拍视频免费在线观看| 亚洲精品白浆高清久久久久久 | 狠狠噜天天噜日日噜| 中文字幕人妻少妇美臀| 日本男人精品一区二区| 国产成熟人妻换╳╳╳╳ | 五月天激情婷婷婷久久| 人妻无码视频| 中文字幕日韩人妻高清在线| 中文字幕av永久免费在线| 天堂8在线天堂资源bt| 亚洲av无码成人网站www| 一二三四在线观看韩国视频| 丰满少妇作爱视频免费观看| 无码丰满少妇2在线观看|