亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的大型活動(dòng)關(guān)鍵交叉口信號(hào)控制

        2023-08-23 07:19:10宋太龍賀玉龍劉欽
        科學(xué)技術(shù)與工程 2023年22期
        關(guān)鍵詞:動(dòng)作信號(hào)活動(dòng)

        宋太龍, 賀玉龍, 劉欽

        ( 北京工業(yè)大學(xué)北京市交通工程重點(diǎn)實(shí)驗(yàn)室, 北京 100124)

        大型活動(dòng)的舉辦會(huì)給場(chǎng)館周邊路網(wǎng)帶來具有時(shí)段性特點(diǎn)的交通壓力,為保證活動(dòng)的順利舉辦,需要對(duì)活動(dòng)場(chǎng)館周圍的路網(wǎng)進(jìn)行交通管制。交通信號(hào)控制作為一種可以在時(shí)間以及空間上分配路權(quán)的控制方式,設(shè)置合理而有效的配時(shí)方案不僅可以降低車流的行駛延誤,更可以保障區(qū)域路網(wǎng)的正常運(yùn)行,而路網(wǎng)中關(guān)鍵交叉口的高效有序運(yùn)行又是保證整體路網(wǎng)正常運(yùn)轉(zhuǎn)的關(guān)鍵[1],當(dāng)關(guān)鍵交叉口發(fā)生擁堵或混亂時(shí),將對(duì)周圍道路產(chǎn)生負(fù)面影響并導(dǎo)致路網(wǎng)通行效率大幅降低,因此針對(duì)活動(dòng)場(chǎng)館周圍關(guān)鍵交叉口的交通信號(hào)進(jìn)行有效控制具有重要意義,活動(dòng)場(chǎng)館周圍關(guān)鍵交叉口運(yùn)行狀態(tài)的優(yōu)劣不僅影響了大型活動(dòng)是否可以順利舉辦,同時(shí)也決定了大型活動(dòng)條件下路網(wǎng)運(yùn)行狀態(tài)的好壞。

        相比于日常生活,大型活動(dòng)舉辦時(shí)期的交通量變化更為迅速,短時(shí)聚散現(xiàn)象明顯,流量波動(dòng)大,乘坐公共交通出行需求上升。傳統(tǒng)的信號(hào)控制方案僅針對(duì)各進(jìn)口道排隊(duì)信息,沒有差異性分析日常出行與大型活動(dòng)出行的出行特性。

        現(xiàn)針對(duì)大型活動(dòng)下的交通出行特征,分析大型活動(dòng)相關(guān)出行者的交通需求,構(gòu)建以大型活動(dòng)為背景的場(chǎng)館路網(wǎng)關(guān)鍵交叉口信號(hào)控制方法,在建模過程中,考慮到大型活動(dòng)的交通運(yùn)行特點(diǎn),如短時(shí)內(nèi)人群聚集數(shù)量大,搭乘公共交通人數(shù)多的特點(diǎn),通過將信控優(yōu)化過程中的關(guān)鍵指標(biāo)從傳統(tǒng)的車均延誤、停車次數(shù)設(shè)計(jì)為不同出行方式的時(shí)間損失,公共交通排隊(duì)時(shí)間等指標(biāo),從乘客出行延誤的角度出發(fā),在信號(hào)配時(shí)方案中將保障活動(dòng)參與者的優(yōu)先權(quán),并以各進(jìn)口道排隊(duì)時(shí)間以及交叉口單位時(shí)間內(nèi)的停駛車輛數(shù)作為評(píng)價(jià)交叉口信號(hào)配時(shí)方案好壞的關(guān)鍵指標(biāo),結(jié)合三者共同構(gòu)建以深度強(qiáng)化學(xué)習(xí)算法-A2C(advantage actor critic)方法為基礎(chǔ)的信號(hào)控制模型,并將傳統(tǒng)的定時(shí)控制方法以及其他深度強(qiáng)化學(xué)習(xí),如Q-learning、DQN算法作為實(shí)驗(yàn)對(duì)照組,驗(yàn)證模型的優(yōu)勢(shì)。

        1 交叉口信號(hào)控制研究

        隨著計(jì)算機(jī)計(jì)算水平以及信息檢測(cè)技術(shù)的提高,目前針對(duì)交叉口的信號(hào)控制理論研究已經(jīng)具備了一定的深度,從傳統(tǒng)的定時(shí)控制發(fā)展到基于檢測(cè)器的感應(yīng)控制,并逐漸發(fā)展到基于實(shí)時(shí)大數(shù)據(jù)的自適應(yīng)控制。

        傳統(tǒng)的定時(shí)控制比較經(jīng)典的是Webster法、美國(guó)的HCM法燈[2];定時(shí)控制的方法好處在于可以根據(jù)調(diào)查得到的歷史流量數(shù)據(jù),計(jì)算不同時(shí)段的最優(yōu)周期以及信號(hào)配時(shí)并長(zhǎng)期產(chǎn)生較好的控制效果。但該方法無法適應(yīng)短時(shí)變化的交通流,且沒有充分利用交通流運(yùn)行的時(shí)空規(guī)律,導(dǎo)致綠燈時(shí)間的空放現(xiàn)象發(fā)生。

        感應(yīng)控制相比定時(shí)控制更多的是對(duì)道路使用情況信息的檢測(cè)。借助檢測(cè)器對(duì)道路使用情況進(jìn)行檢測(cè),并根據(jù)監(jiān)測(cè)數(shù)據(jù)做出信號(hào)燈時(shí)長(zhǎng)或周期的調(diào)整,達(dá)到降低交叉口延誤的目的。

        相比于固定配時(shí)和感應(yīng)配時(shí),自適應(yīng)交通信號(hào)控制方法提高了信號(hào)燈的靈活性以及信號(hào)控制效率[3],強(qiáng)化學(xué)習(xí)作為一種可以通過當(dāng)前環(huán)境狀態(tài)尋求最優(yōu)控制動(dòng)作的自適應(yīng)控制算法,可以很好地通過交叉口的運(yùn)行狀態(tài)信息,如交叉口的排隊(duì)情況、流量大小等,選取應(yīng)用于下一階段的最優(yōu)信號(hào)配時(shí),達(dá)到降低交叉口整體延誤的效果。在自學(xué)習(xí)算法方面,Q學(xué)習(xí)算法、SARSA算法是最早一批在交叉口信號(hào)控制領(lǐng)域進(jìn)行應(yīng)用研究的強(qiáng)化學(xué)習(xí)方法[4]。宋國(guó)治等[5]使用深度Q-learning算法對(duì)交叉口進(jìn)行信號(hào)燈配時(shí)優(yōu)化,實(shí)驗(yàn)證明,深度Q-learning算法下的信號(hào)控制相比于定時(shí)控制單車延誤更小,綠燈利用率更高;白靜靜等[6]考慮到SARSA算法在目標(biāo)選擇策略中既考慮新狀態(tài)下的最優(yōu)獎(jiǎng)勵(lì)又考慮新狀態(tài)所帶來的風(fēng)險(xiǎn),因此將其應(yīng)用于交叉口配時(shí)中,結(jié)果表明SARSA算法的配時(shí)優(yōu)化效果高于Q學(xué)習(xí);李振龍等[7]使用排隊(duì)消散指數(shù)對(duì)交通狀態(tài)進(jìn)行描述,通過對(duì)排隊(duì)閾值的設(shè)計(jì),提高智能體對(duì)狀態(tài)變化的敏感性,達(dá)到有效控制的目的。

        然而,強(qiáng)化學(xué)習(xí)直接應(yīng)用于大型交叉口交通信號(hào)燈控制會(huì)由于環(huán)境變化較為復(fù)雜導(dǎo)致模型復(fù)雜度過高,因此后續(xù)研究中逐漸使用深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合的方式構(gòu)建深度強(qiáng)化學(xué)習(xí)方法[8],達(dá)到既可以有效提取交叉口環(huán)境的抽象運(yùn)行狀態(tài),又可以準(zhǔn)確高效的選取最優(yōu)動(dòng)作以進(jìn)行信號(hào)相位以及綠燈時(shí)長(zhǎng)的優(yōu)化,強(qiáng)化學(xué)習(xí)方法應(yīng)用于信號(hào)控制的控制流程如圖1所示。

        圖1 基于強(qiáng)化學(xué)習(xí)方法的交叉口信號(hào)控制流程Fig.1 Signal control flow of intersection based on reinforcement learning method

        傳統(tǒng)的考慮大型活動(dòng)的自適應(yīng)控制方法通常將交叉口內(nèi)各進(jìn)口道的檢測(cè)信息作為環(huán)境信息,將車均延誤、停車次數(shù)以及排隊(duì)長(zhǎng)度作為評(píng)價(jià)交叉口運(yùn)行狀態(tài)的指標(biāo)[4],并依此建立信號(hào)交叉口最優(yōu)控制模型,求解最優(yōu)配時(shí)方案。賈彥峰等[9]考慮關(guān)鍵路口可能發(fā)生的排隊(duì)溢流現(xiàn)象,提出線軸結(jié)合方法優(yōu)化過飽和交叉口的信號(hào)相位,以達(dá)到緩解某運(yùn)行方向排隊(duì)過長(zhǎng)的情況。Li等[10]將交叉口各進(jìn)口道的隊(duì)列長(zhǎng)度、車輛運(yùn)行速度定義為狀態(tài)信息,將車輛的累計(jì)延誤定義為獎(jiǎng)勵(lì),構(gòu)建了基于DQN(deep Q-network)算法的交叉口信號(hào)控制方法,實(shí)驗(yàn)證明該方法相比為Webster法、Q-learning算法效果更優(yōu),車輛延誤更低。傳統(tǒng)的交叉口優(yōu)化方案往往以交叉口整體運(yùn)行效率為目標(biāo),在大型活動(dòng)舉辦期間,如果僅從各進(jìn)口道流量進(jìn)行考慮,不針對(duì)分析活動(dòng)參與者的出行特征以及大型活動(dòng)相關(guān)的車流與社會(huì)車流差異性,則構(gòu)建的信號(hào)控制方案是無法適配活動(dòng)場(chǎng)地周邊實(shí)際交叉口的出行者通行需求。

        2 考慮大型活動(dòng)特征的A2C信號(hào)優(yōu)化模型

        2.1 大型活動(dòng)交通流運(yùn)行特征

        大型活動(dòng)場(chǎng)館周圍的路網(wǎng)交通流運(yùn)行特征變化主要有以下特點(diǎn):①需求產(chǎn)生時(shí)間集中且需求量較大;活動(dòng)開始以及結(jié)束時(shí)間場(chǎng)館周圍路網(wǎng)的壓力會(huì)顯著性變化,流量隨時(shí)間變化曲線如圖2所示;②公共交通出行量增加;參加活動(dòng)的群眾以及志愿者普遍采用公共交通作為自己前往活動(dòng)場(chǎng)館的出行方式,媒體、部分活動(dòng)參與者會(huì)乘坐活動(dòng)大客車前往場(chǎng)館[11];③擁堵存在方向性特征。

        圖2 流量隨時(shí)間變化曲線Fig.2 Variation curve of flow over time

        2.2 基于A2C算法的信號(hào)控制模型構(gòu)建

        A2C算法是在原AC(actor-critic)算法的基礎(chǔ)上,對(duì)A3C(asynchronous advantage actor critic)算法的改進(jìn)版本,A3C算法基于異步強(qiáng)化學(xué)習(xí)思想[12],在原AC算法的基礎(chǔ)上加入異步操作,使多個(gè)AC結(jié)構(gòu)網(wǎng)絡(luò)同步運(yùn)行,但工作組過多導(dǎo)致的內(nèi)存問題以及環(huán)境的初始化不同步,從而使得部分?jǐn)?shù)據(jù)存在冗余。A2C算法采用并行架構(gòu),每個(gè)工作組都會(huì)獨(dú)立的與自己的環(huán)境進(jìn)行交互,且不再依賴于運(yùn)行效率較低的經(jīng)驗(yàn)池結(jié)構(gòu),避免了由經(jīng)驗(yàn)池抽樣不均勻?qū)е碌膶W(xué)習(xí)經(jīng)驗(yàn)存在偏置的問題,A2C的算法架構(gòu)如圖3所示 。

        Update Collector用于收集參數(shù)的更新;Agent為智能體圖3 A2C算法架構(gòu)及交互方式Fig.3 Advantage actor critic algorithm architecture and interaction mode

        在本文模型的構(gòu)建過程中,考慮大型活動(dòng)背景下出行者數(shù)量大且采用公共交通出行的特點(diǎn),在獎(jiǎng)勵(lì)函數(shù)的構(gòu)建過程中,將公交車、小汽車等車型的等待時(shí)間作為參數(shù),其中,將降低公交車出行延誤以及等待時(shí)間作為主要影響參數(shù);Agent根據(jù)當(dāng)前交叉口環(huán)境所提供的各進(jìn)口道交通狀態(tài)信息State,執(zhí)行信號(hào)方案,并依據(jù)獎(jiǎng)勵(lì)函數(shù)的計(jì)算值調(diào)整動(dòng)作的執(zhí)行,以保證智能體在放行方案的選取上實(shí)現(xiàn)公交優(yōu)先,優(yōu)先滿足大型活動(dòng)出行者的出行需求。

        2.2.1 交通狀態(tài)構(gòu)建

        狀態(tài)空間是智能體做出動(dòng)作前可觀測(cè)到的基礎(chǔ)信息,智能體基于狀態(tài)信息選擇最優(yōu)動(dòng)作[13]。

        因此狀態(tài)空間的構(gòu)建應(yīng)盡可能全面且有效地表示交叉口的運(yùn)行狀態(tài),既要保證信息復(fù)雜度較低,也要保證信息的有效性較高,復(fù)雜多變且冗余信息較多的狀態(tài)空間會(huì)導(dǎo)致算法無法高效運(yùn)行[14]。

        在狀態(tài)空間的構(gòu)建中,狀態(tài)信息在傳統(tǒng)的各進(jìn)口道流量信息的基礎(chǔ)上,將各車道的排隊(duì)情況以及公交車數(shù)量考慮在內(nèi);狀態(tài)矩陣構(gòu)建由以上信息組成,狀態(tài)空間大小m(2+L/C),其中,M為車道數(shù),L為檢測(cè)區(qū)域長(zhǎng)度,C為網(wǎng)格長(zhǎng)度,檢測(cè)網(wǎng)格內(nèi)存在車輛即為1,否則為0,本文實(shí)驗(yàn)中,進(jìn)口道車道數(shù)為22,檢測(cè)區(qū)域長(zhǎng)度為60 m,網(wǎng)格長(zhǎng)度5 m,狀態(tài)空間大小22×14。狀態(tài)空間示意圖如圖4所示;相比于直接以照片形式將交叉口圖像信息作為狀態(tài)描述的方式更能有效降低狀態(tài)復(fù)雜度,達(dá)到降低數(shù)據(jù)維度、去除冗余信息,加快模型收斂的目的。

        Q1~Q5為每車道的小時(shí)流率圖4 狀態(tài)空間示意圖Fig.4 Schematic diagram of state space

        2.2.2 動(dòng)作空間構(gòu)建

        為保證信號(hào)控制過程中滿足行人過街時(shí)長(zhǎng)以及減少綠燈時(shí)間設(shè)置不合理情況的發(fā)生,對(duì)模型中交叉口最小綠燈時(shí)間以及最大綠燈時(shí)間進(jìn)行約束,從而減少頻繁切換相位導(dǎo)致的非穩(wěn)態(tài)交通系統(tǒng)情況發(fā)生。

        基于強(qiáng)化學(xué)習(xí)的信號(hào)控制中動(dòng)作主要設(shè)為以下兩種。

        (1)切換相位。將動(dòng)作空間設(shè)置為{0,1},即智能體通過選擇是否切換相位作為動(dòng)作達(dá)到對(duì)交叉口信號(hào)時(shí)長(zhǎng)的控制,動(dòng)作的選擇往往間隔一定時(shí)長(zhǎng)[15]。

        (2)調(diào)整綠燈時(shí)長(zhǎng)。將信號(hào)燈各相位的時(shí)長(zhǎng)默認(rèn)為最小綠燈時(shí)間,智能體通過對(duì)當(dāng)前相位綠燈時(shí)間是否延長(zhǎng)t秒作為動(dòng)作的選擇[16],即該相位綠燈時(shí)間增加t秒或維持不變,且綠燈時(shí)長(zhǎng)最大不能超過最大綠燈時(shí)間。

        本文中智能體的動(dòng)作設(shè)置為對(duì)當(dāng)前相位綠燈時(shí)長(zhǎng)的調(diào)整,進(jìn)行如下設(shè)計(jì)。

        (1)動(dòng)作空間由信號(hào)放行相位組成,其大小={phase1,phase2,phase3,phase4},當(dāng)該相位綠燈時(shí)間達(dá)到最小綠燈時(shí)長(zhǎng)時(shí),Agent進(jìn)行動(dòng)作選擇,并從4個(gè)信號(hào)相位中選擇一個(gè)放行相位,若與當(dāng)前放行相位一致,則持續(xù)時(shí)間1 s;智能體下一動(dòng)作選擇為1 s后[17];

        最小綠燈時(shí)間Gmin的計(jì)算公式為

        (1)

        式(1)中:LP為人行橫道寬度;VP為滿足行人過街的平均速度;I為綠燈間隔時(shí)間。

        (2)當(dāng)顯示綠燈時(shí)間不足最小綠燈時(shí)間時(shí),智能體無法采用動(dòng)作將信號(hào)切換至下一相位;當(dāng)顯示綠燈時(shí)間達(dá)到最大設(shè)計(jì)時(shí)長(zhǎng)時(shí),強(qiáng)制切換值下一相位。

        (3)切換相位時(shí),進(jìn)行3 s的黃燈顯示,并重新判定當(dāng)前綠燈時(shí)長(zhǎng)是否滿足最小綠燈時(shí)間。

        將動(dòng)作空間設(shè)置從切換相位與否修改為連續(xù)性的調(diào)整綠燈時(shí)長(zhǎng),雖然增加了模型復(fù)雜度,但是提高了綠燈時(shí)間的利用率。

        2.2.3 獎(jiǎng)勵(lì)函數(shù)構(gòu)建

        獎(jiǎng)勵(lì)函數(shù)是指智能體在觀測(cè)交叉口交通狀態(tài)并根據(jù)狀態(tài)信息采取動(dòng)作后得到的反饋值[18],即交叉口信號(hào)配時(shí)變化產(chǎn)生影響的一個(gè)判定值,該值用于判定當(dāng)前交通狀態(tài)下采用該信號(hào)相位的一個(gè)好壞程度,在強(qiáng)化學(xué)習(xí)處理交叉口信號(hào)控制的問題中,獎(jiǎng)勵(lì)函數(shù)通常選擇累計(jì)等待時(shí)間、累計(jì)延誤、某一主要進(jìn)口道的延誤、實(shí)際車速與車道限速的差值或停車次數(shù)等指標(biāo)。

        考慮到大型活動(dòng)舉辦過程中,活動(dòng)參與者大多數(shù)采取公共交通且需要保證參加活動(dòng)的準(zhǔn)時(shí)性的特點(diǎn),因此對(duì)關(guān)鍵交叉口進(jìn)行信號(hào)優(yōu)化控制建模時(shí),針對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行如下設(shè)計(jì),獎(jiǎng)勵(lì)函數(shù)的指標(biāo)包括不同車型的平均損失時(shí)間,公交排隊(duì)等待時(shí)間、各進(jìn)口道停駛車輛數(shù)、交叉口總延誤等[19]。

        考慮出行者不同車型的平均損失時(shí)間Dp計(jì)算公式為

        (2)

        (3)

        單位時(shí)間內(nèi)停駛流量計(jì)算公式為

        (4)

        交叉口總延誤計(jì)算公式為

        (5)

        2.2.4 動(dòng)作選擇策略

        智能體在動(dòng)作選擇過程中,通常根據(jù)Q值,采用貪婪算法以保證每次智能體都會(huì)選取到以獲取獎(jiǎng)勵(lì)更多為目的的動(dòng)作[20],但僅采用貪婪算法可能會(huì)導(dǎo)致算法迭代過程中動(dòng)作的選擇方案陷入局部最優(yōu)解。

        針對(duì)此情況,采用動(dòng)態(tài)ε-greedy策略,在動(dòng)作的選擇過程中,將智能體隨機(jī)選擇下一階段信號(hào)相位的可能性定為ε,將選取當(dāng)前最優(yōu)信號(hào)相位的可能性定為1-ε,且隨著迭代次數(shù)的增加,ε值逐漸減小,即為保證訓(xùn)練過程中不會(huì)陷入局部最優(yōu)解,智能體會(huì)隨著迭代次數(shù)的增加,隨機(jī)選取信號(hào)方案的概率降低,選擇可以獲取更多獎(jiǎng)勵(lì)值的信號(hào)相位的可能性增大。計(jì)算公式為

        (6)

        式(6)中:εm為下一仿真步中,動(dòng)作選擇時(shí)的隨機(jī)探索概率;εmin為根據(jù)經(jīng)驗(yàn)設(shè)置的最小值;εcurrent為當(dāng)前仿真步中動(dòng)作選擇時(shí)的隨機(jī)探索概率;m為當(dāng)前仿真步數(shù);M為總仿真步數(shù)。

        算法引入優(yōu)勢(shì)函數(shù)思想,優(yōu)勢(shì)函數(shù)計(jì)算公式如式(7)所示,通過對(duì)比動(dòng)作價(jià)值函數(shù)Qπ(s,a)計(jì)算的值與狀態(tài)價(jià)值函數(shù)Vπ(s)值的大小,評(píng)價(jià)Agent采用當(dāng)前信控相位相比于其他信控相位的優(yōu)勢(shì)大小,帶有神經(jīng)網(wǎng)絡(luò)的動(dòng)作價(jià)值函數(shù)Q(s,a,w)以及帶有神經(jīng)網(wǎng)絡(luò)的狀態(tài)價(jià)值函數(shù)V(s,w)計(jì)算公式如下。

        Aπ(s,a)=Qπ(s,a)-Vπ(s)

        (7)

        Q(s,a,w)≈qπ(s,a)

        (8)

        (9)

        (10)

        算法的損失函數(shù)為

        (11)

        式(11)中:LA2C(w)為A2C算法的損失函數(shù);v(st,w)為使用神經(jīng)網(wǎng)絡(luò)計(jì)算的t時(shí)刻的狀態(tài)價(jià)值函數(shù)值,使用梯度下降更新參數(shù)w。

        3 仿真實(shí)驗(yàn)和實(shí)驗(yàn)結(jié)果

        3.1 案例分析

        選取SUMO(simulation of urban mobility)軟件作為交通仿真的搭建平臺(tái),通過設(shè)計(jì)道路網(wǎng)絡(luò)模塊及構(gòu)建交通需求模型,并借助Traci接口進(jìn)行檢測(cè)器設(shè)計(jì)以及算法交互,完成仿真實(shí)驗(yàn)的設(shè)計(jì)。本文以北京市海淀區(qū)首都體育館為活動(dòng)場(chǎng)館選取周邊大型交叉口構(gòu)建仿真實(shí)驗(yàn)場(chǎng)景。

        3.1.1 交叉口進(jìn)口道分布情況

        以中關(guān)村南大街與西直門外大街輔路所構(gòu)成的交叉口為實(shí)驗(yàn)場(chǎng)地,交叉口渠化情況如圖5和圖6所示。該交叉口為典型的四岔結(jié)構(gòu),東西向與南北向同為5進(jìn)口道,4出口道的配置,其中東西向左轉(zhuǎn)專用車道與直行車道以及右轉(zhuǎn)專用車道比例為2∶2∶1;北進(jìn)口道在臨近路口停車線時(shí)最右側(cè)借助道路拓寬手段增加右轉(zhuǎn)空間,為簡(jiǎn)化模型,左轉(zhuǎn)專用車道與直行車道以及右轉(zhuǎn)專用車道比例設(shè)置為

        圖5 首都體育館周邊交叉口實(shí)景圖Fig.5 Real scene of intersection around Capital Gymnasium

        2∶3∶1;南進(jìn)口道簡(jiǎn)化為左轉(zhuǎn)專用車道與直行車道以及右轉(zhuǎn)專用車道比例為2∶3∶1;各方向進(jìn)口道車道分布情況如表1所示。

        表1 交叉口進(jìn)口道車道分布情況Table 1 Lane distribution of entrance road at intersection

        3.1.2 各進(jìn)口道流量特征

        為保證實(shí)驗(yàn)具有一定的實(shí)際意義且不受疫情封控及其他管控因素的影響,選取2019年西直門外大街-中關(guān)村南大街交叉口高峰時(shí)段實(shí)際調(diào)查流量作為輸入,流量調(diào)查表如表2所示。

        表2 交叉口實(shí)際調(diào)查交通量Table 2 Actual investigated traffic volume at intersection

        3.1.3 現(xiàn)狀基礎(chǔ)信號(hào)配時(shí)

        選取晚高峰(17:00—19:00)時(shí)段對(duì)交叉口信號(hào)燈配時(shí)進(jìn)行調(diào)查,現(xiàn)狀配時(shí)方案如表3所示。交叉口初始信號(hào)相位如圖7所示。

        表3 中關(guān)村南大街-西直門外大街輔路交叉口現(xiàn)狀信號(hào)配時(shí)方案Table 3 Current signal timing scheme of Zhongguancun South Street-Xizhimenwai Street Auxiliary Road intersection

        圖7 交叉口信號(hào)相位示意圖Fig.7 Phase diagram of intersection signal

        3.2 設(shè)計(jì)及仿真結(jié)果分析

        本文算法參數(shù)設(shè)計(jì)如表4所示。

        表4 實(shí)驗(yàn)參數(shù)設(shè)置Table 4 Experimental parameter settings

        為驗(yàn)證本文模型的準(zhǔn)確性以及有效性,本文分別選擇不同類型的信號(hào)配時(shí)作為對(duì)照試驗(yàn),對(duì)照試驗(yàn)組如表5所示。

        表5 對(duì)照實(shí)驗(yàn)組Table 5 Control experimental group

        單次仿真步為100 000個(gè)時(shí)間步,共計(jì)200萬仿真步。針對(duì)不同方案的仿真實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖8~圖12所示。

        圖8 所有實(shí)驗(yàn)迭代過程中獎(jiǎng)勵(lì)收斂情況Fig.8 Reward convergence in all experimental iterations

        由圖8可知,無論是收斂的效率、模型訓(xùn)練過程中的穩(wěn)定性還是獎(jiǎng)勵(lì)值的獲取,本文所構(gòu)建信號(hào)控制方法總是優(yōu)于DQN算法以及Q-learning算法的控制效果。

        本文算法的policy loss與value loss的收斂過程如圖9所示。

        圖9 基于A2C算法的控制模型值函數(shù)與策略函數(shù)損失值Fig.9 Loss of control model value function and strategy function based on A2C algorithm

        將訓(xùn)練好的交叉口信號(hào)控制模型進(jìn)行測(cè)試,以單位時(shí)間內(nèi)(每分鐘)交叉口檢測(cè)區(qū)域內(nèi)的總停駛車輛數(shù)以及交叉口各進(jìn)口道總車輛延誤為判定指標(biāo),評(píng)價(jià)各控制方案的優(yōu)劣性,結(jié)果如圖10所示。

        圖10 各控制方案效果對(duì)比(以交叉口總延誤為指標(biāo))Fig.10 Effect comparison of control schemes (with total delay at intersection as index)

        本文所構(gòu)建的模型所產(chǎn)生的行駛延誤較小,相比于現(xiàn)狀基礎(chǔ)配時(shí)延誤降低約65.7%,相比于DQN算法控制模型交叉口總延誤降低約21.4%。

        為進(jìn)一步對(duì)比本文模型相比于DQN算法控制模型的性能,將仿真過程中檢測(cè)器收集的交叉口總延誤數(shù)據(jù)以及每分鐘交叉口各進(jìn)口道的停駛車輛數(shù)在時(shí)間步上進(jìn)行差值處理,結(jié)果如圖11和圖12所示,大部分仿真時(shí)間內(nèi)基于A2C所構(gòu)建的信號(hào)控制模型在單位時(shí)間產(chǎn)生的延誤大小以及停駛車輛數(shù)均低于基于DQN算法所構(gòu)建的信號(hào)控制模型,從仿真實(shí)驗(yàn)結(jié)果數(shù)據(jù)中將公交車的運(yùn)行數(shù)據(jù)進(jìn)行處理,如圖13所示,所有實(shí)驗(yàn)組中,本文模型的公交車平均停車次數(shù)以及排隊(duì)等待時(shí)間最低,從而驗(yàn)證了本文模型的有效性。

        圖11 交叉口總延誤差值處理情況Fig.11 Processing of total delay difference at intersection

        圖12 交叉口停駛車輛數(shù)差值處理情況Fig.12 Treatment of difference of stopped vehicles at the intersection

        圖13 公交車運(yùn)行指標(biāo)效果對(duì)比Fig.13 Comparison of bus operation indicators

        4 結(jié)論

        研究了以考慮大型活動(dòng)進(jìn)行為背景的關(guān)鍵交叉口信號(hào)控制方法,在構(gòu)建模型的過程中充分考慮并分析大型活動(dòng)周邊道路的交通流運(yùn)行規(guī)律以及大型活動(dòng)參與者的出行特征,將以傳統(tǒng)深度強(qiáng)化學(xué)習(xí)為基礎(chǔ)的信號(hào)控制方法中的控制指標(biāo)更改為以單位時(shí)間內(nèi)交叉口停駛車輛數(shù)為主,不同出行方式平均時(shí)間損失以及總延誤時(shí)間為輔的形式,不僅優(yōu)化了交叉口的綠燈使用效率,提高了交叉口的運(yùn)行質(zhì)量,同時(shí)降低了公共交通的出行延誤,在一定程度上為大型活動(dòng)的順利舉辦提供了一定的有效措施。仿真實(shí)驗(yàn)表明,本文所構(gòu)建的以深度強(qiáng)化學(xué)習(xí)方法A2C為基礎(chǔ),考慮大型活動(dòng)出行特征的方法能有效提高交叉口的運(yùn)行效率,同時(shí)降低了公共交通的延誤,有效緩解交通擁堵現(xiàn)象。

        但是目前的研究?jī)?nèi)容僅針對(duì)活動(dòng)場(chǎng)館的單交叉口,對(duì)于活動(dòng)舉辦場(chǎng)館周邊的多個(gè)關(guān)鍵交叉口的信號(hào)協(xié)調(diào)控制問題,是后續(xù)研究的方向。

        猜你喜歡
        動(dòng)作信號(hào)活動(dòng)
        “六小”活動(dòng)
        “活動(dòng)隨手拍”
        行動(dòng)不便者,也要多活動(dòng)
        中老年保健(2021年2期)2021-08-22 07:31:10
        信號(hào)
        鴨綠江(2021年35期)2021-04-19 12:24:18
        完形填空二則
        基于FPGA的多功能信號(hào)發(fā)生器的設(shè)計(jì)
        電子制作(2018年11期)2018-08-04 03:25:42
        三八節(jié),省婦聯(lián)推出十大系列活動(dòng)
        海峽姐妹(2018年3期)2018-05-09 08:20:40
        動(dòng)作描寫要具體
        畫動(dòng)作
        動(dòng)作描寫不可少
        久久这里只有精品9| 精品无人区无码乱码毛片国产 | 蜜桃视频一区二区三区在线观看| 久久亚洲国产中v天仙www| 国产一区二区黑丝美女| 热久久久久久久| 国产亚洲三级在线视频| 亚洲国产一区二区三区精品| 久久99精品久久水蜜桃| 中文在线√天堂| 福利一区二区三区视频午夜观看| 青青草原亚洲在线视频| 国产精品女丝袜白丝袜美腿| 午夜天堂av天堂久久久| 在线观看免费人成视频色9| 韩国精品一区二区三区| 国产熟女露脸大叫高潮| 日本成人精品在线播放| 色先锋av影音先锋在线| 国产精品久久久久国产精品| 丰满少妇高潮在线观看| 富婆猛男一区二区三区| 射精区-区区三区| 天天摸日日摸狠狠添| 99久久99久久精品免观看| 亚洲愉拍自拍视频一区| 精品亚洲一区二区三区四区五 | 正在播放国产多p交换视频| 久久网视频中文字幕综合| 毛片av中文字幕一区二区| 少妇激情一区二区三区99| 亚洲综合久久精品无码色欲| 天天影视色香欲综合久久| 日本老年人精品久久中文字幕| 久久精品中文字幕有码| 97在线视频人妻无码| 成人欧美一区二区三区a片| 五月天婷婷一区二区三区久久 | 国产偷国产偷亚洲综合av| 国产美女在线精品免费观看| 人人妻人人添人人爽日韩欧美|