亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強化學習的道路信號燈控制算法

        2021-11-19 08:17:38王偉光
        計算機仿真 2021年10期
        關鍵詞:交叉口交通道路

        高 航,王偉光

        (1.濰坊醫(yī)學院臨床醫(yī)學院,山東 濰坊 261053;2.山東管理學院智能工程學院,山東 濟南 250037)

        1 引言

        道路十字路口是由進出車輛、十字路口、道路以及信號燈組成。其中,道路信號燈控制器使用相位,即表示允許特定動作信號燈的組合,來控制十字路口的車輛通行。基本上,一個道路信號控制策略可以解耦成任意給定時間的兩個連續(xù)決策,即下一個階段狀態(tài)和狀態(tài)持續(xù)時間。為此,各類策略與模型被提出來。其中,最簡單和最普遍的一種是固定時間、基于周期的道路信號控制模式,即通過一定的順序周期序顯示階段狀態(tài),各周期中的每個階段都設以固定的、可能唯一的持續(xù)時間。但在實際應用過程中,固定時間、基于周期的道路信號控制模式在遇到車流量大、早晚高峰便變得不適用,經常處于半癱瘓狀態(tài)。

        為此,需要一種道路信號燈自適應控制,具備無環(huán)相位序列和動態(tài)相位持續(xù)時間,以適應交十字路口復雜的交通狀況。各種各樣的方法與技術隨之被提出,例如文獻[1]針對傳統(tǒng)分布式自適應交通信號控制協(xié)調效率受限,并且存在維數(shù)災難問題,建立了城市區(qū)域交通信號控制系統(tǒng)模型,將其優(yōu)化問題建模為局部交叉口交通信號博弈協(xié)調控制,提出了一種基于交叉口交通信號控制agent局部信息博弈交互的學習算法,取得了更好的交通信號燈控制效果。文獻[2]針對目前道路信號控制中NS-BML模型只考慮現(xiàn)在瞬時密度而忽略歷史密度的問題,提出了一種記憶密度策略,從長時記憶密度策略和短時記憶密度策略兩個角度分析了該策略對曼哈頓式網絡的影響,從而有助于提高道路信號燈控制系統(tǒng)的運行效率。文獻[3]為解決城市交通路口擁堵問題,結合PFI車流運行特征,給出了信號控制策略,建立了優(yōu)化模型,明顯提升十字路口的運行效率。文獻[4]針對城市交通擁堵所帶來的嚴重危害性,基于平面交叉路口交通燈切換時間相對固定,惡劣天氣或發(fā)生交通事故時路口經常發(fā)生交通堵塞的實際情況,提出了一種平面交叉口交通擁堵多方向交通燈運行時間自適應算法,有助于提高車輛的通行效率。

        為了滿足日益增長的交通需求,不僅需要通過擴大交通基礎設施來擴大交通能力,更重要的是優(yōu)化新交通工具的車隊或交通控制和管理,以提高交通能力。隨著互聯(lián)網技術和人工智能的快速發(fā)展,交通信號燈的智能管理已成為智能交通的熱點問題。

        2 道路信號燈控制情況介紹

        2.1 交通控制的基本參數(shù)

        1)周期是指交通交叉口信號燈各階段輪流運行一次所需的時間,即從一個階段到下一個階段所需的時間,定義的符號為C[5-6]。信號周期是影響城市道路通行能力的關鍵因素,通常與道路流量有關。

        2)相位

        交叉路口的車輛經常發(fā)生沖突,必須根據(jù)某些規(guī)則通過交叉路口。交通信號燈在一個或多個方向上引導交通流而不發(fā)生沖突。

        3)綠信比

        在一個信號周期內,某相位通行時間(有效綠燈長度)與周期時間的比值就是綠信比,用λ表示如下式,其中周期長度為C,tGi第i的有效綠燈時間。

        (1)

        合理的綠信比是確保安全高效交通流的重要因素[7]。信號相位的綠信比越大,該階段的交通流效率越高,但會影響其他階段的交通流。因此,有必要平衡各相位的綠信比。

        2.2 交通信號控制評估指標

        交通標志管理評估指數(shù)旨在量化交通效率,而交通標志評估指數(shù)通常可直接用作交叉口信號管理計劃。為了優(yōu)化配時,選擇交叉點評估指標非常重要[8-9]。下文詳細解釋了每個指標的含義。

        1)延誤

        延誤是指給定時間段內所有車輛的平均延誤,是交叉口最常用的評價指標。它反映了車輛使用過程中交通狀況、信號管理和其他干擾造成的時間浪費。

        2)停車次數(shù)

        當車輛通過交叉口時,由于紅燈或擁堵的影響,車輛將完全停止。車輛停得越多,產生的污染物質越多,產生的噪音和油耗就越多,同時,道路車輛緊急停車很可能導致交通事故[10]。

        3)通行能力

        通行能力是指在實際道路條件下能夠通過車道的車輛總數(shù)。

        4)旅行時間

        旅行時間是指車輛通過該區(qū)域所需的時間。由于交通的動態(tài)性,車輛通過該區(qū)域所需的時間將根據(jù)實際交通狀況而變化[11-13]。例如,在路段擁堵時,車輛旅行時間很大,而在路段通行順暢時,車輛旅行時間較小。

        2.3 Webster配時法

        Webster配時法旨在將車輛延遲時間降至最低。它是城市交叉口最常用的信號管理方法。參見Webster配時法,主要包括車輛延遲、最佳循環(huán)時間和各階段的計時參數(shù)。

        1)車輛延誤計算

        Webster在1958年提出了Webster延遲模型,是世界上應用最廣泛的手術延遲模型。將車輛延誤分為排隊延誤、常數(shù)延誤和隨機延誤。各路口車輛延誤表達式如下:

        (2)

        其中C是信號周期,綠信比入,當前相位的流量q,車道飽和度x。

        2)最佳周期的計算

        在具有n個相位的交叉口,根據(jù)公式(2)得到總的交叉口車輛延誤D的表達式為:

        (3)

        其中qi為第i相位的車流量,di是第i個相位的平均車輛延誤,要使得總的車輛延誤最小,因此將車輛延誤函數(shù)D對周期長度C求偏導,并令偏導數(shù)等于0,如下式:

        (4)

        然后經過一系列的等價代換、簡化近似計算等復雜的數(shù)學推導,求得最佳信號周期CO如公式(5):

        (5)

        在最佳周期公式中,L是信號周期內的總損失時間,計算公式如(6),其中l(wèi)是相位信號的損失時間,信號的相位數(shù)是n,周期中的全紅時間AR.

        L=nl+AR

        (6)

        而Y是各相位的臨界車道的交通流量比之和,如下式:

        (7)

        在每個信號相位中,都有一些道路可以通行。在這些道路上,臨界帶的交通流量比定義為臨界帶內的流量與道路可通過的最大流量(飽和流量)之比。

        3 強化學習理論模型

        強化學習是人工智能的重要組成部分。它被認為是實現(xiàn)類人智能的關鍵因素,并吸引了許多著名研究人員和企業(yè)的注意。

        如圖1所示,在強化學習框架中,有四個關鍵要素,其中主體是決策主體,狀態(tài)是主體的環(huán)境抽象,獎勵用于衡量當前戰(zhàn)略的質量,在確認的情況下,代理首先監(jiān)控環(huán)境,從狀態(tài)接收信息,然后根據(jù)觀察到的信息(狀態(tài))給出決策(操作);采取環(huán)境行動后,環(huán)境狀態(tài)發(fā)生變化,并為代理人的活動提供反饋(報酬);代理人根據(jù)報酬值改變策略[14-15]。當保費為正值時,表示代理選擇的行動是正確的,并增加了選擇活動的可能性。相反,這表明代理人的決定是錯誤的,必須降低采取行動的可能性。學習旨在最大化累積獎勵,找到狀態(tài)知識和執(zhí)行活動的最佳映射,即學習最佳策略。與受控學習方法不同,驗證學習方法不需要手動記錄信息,而是基于智能體與環(huán)境交互所產生的數(shù)據(jù),同時提供信息和培訓,直到學習到最佳策略。

        圖1 強化學習框架

        4 基于PPO的單交叉口信號優(yōu)化控制算法設計

        4.1 單交叉口信號控制的強化學習模型

        可對單路口信號管理進行建模,以強化學習問題。如圖2所示,PPO算法是交叉口處的代理。代理在交叉口獲得道路空間,然后做出決策,即生成信號管理系統(tǒng),并繼續(xù)優(yōu)化代理的決策能力,表示做出決策后將返還獎勵[16]。信號管理系統(tǒng)已經實施?,F(xiàn)在將詳細實施加強單路口信號管理網絡結構的狀態(tài)、動作、獎勵功能和學習算法。

        圖2 基于強化學習的單交叉口信號控制[11]

        4.1.1 狀態(tài)空間

        由于傳感器技術的發(fā)展,目前的城市道路上安裝了環(huán)路傳感器,可以實時獲取道路上的交通流模式。傳感器位于每個接入帶的入口和出口,以實時收集交通信息并將其加載到交叉口的控制中心。道路上的車輛數(shù)量和排隊長度。圖4交叉口有八條通道,該區(qū)域共設置了16個傳感器位置。因此,空間被定義為使用16個傳感器記錄的車輛平均速度,16個傳感器和8條道路登記的車輛數(shù)量。車輛隊列的長度和條件為40維向量。

        4.1.2 動作空間

        在交叉路口的智能體需要根據(jù)當前道路的狀態(tài),去設計合適的相位和相位通行時間來指導車輛通行,從而最大化路口的通行能力。在傳統(tǒng)的信號控制方法中,交通燈執(zhí)行的相位順序是固定的,如依次執(zhí)行1,2,3,4相位,只調整執(zhí)行各個相位的的時間。固定相位順序的方法不能靈活的應對變化的車流,而本文提出了一種不加相位限制的控制方法,各個相位之間可以任意切換。中本文的算法中將行動空間定義為交叉口的四個綠燈相位,在每一個時間間隔ΔT,智能體根據(jù)當前的狀態(tài)選擇一個動作,也就是一個信號相位。而且在信號控制的過程中我們考慮了不同相位切換時的安全性,需要用黃燈警示車輛。如果當前相位與下一執(zhí)行相位不同,則先執(zhí)行黃燈相位Ty秒(本文中設置的是3秒),警示車輛交通燈將要切換相位,然后執(zhí)行選擇的相位,持續(xù)ΔT-Ty秒,如果相位不改變則繼續(xù)執(zhí)行當前相位ΔT秒。

        4.1.3 獎勵函數(shù)

        獎勵函數(shù)是評估上一階段在交叉口實施的系統(tǒng)的質量。根據(jù)返回的獎勵值,智能體不斷增強決策能力。車輛等待時間越短,停車時間和駕駛時間越短,這就是為什么我們要設置溢價,即移動到選擇操作前后道路的累計等待時間。獎勵函數(shù)根據(jù)以下等式定義:

        rt=Wt-1-Wt

        (8)

        (9)

        4.1.4 PPO模型的網絡結構

        在本文中,單交叉口信號管理的PPO模型由兩個完全連接的神經網絡表示,兩個神經網絡具有相同的網絡結構:參與者和關鍵。參與者和關鍵神經網絡輸入是由交通模式數(shù)據(jù)組成的40維向量,車輛速度、車輛數(shù)量和車道長度,然后在三層上完全連接隱蔽層。三個隱藏層分別包含128、64和32個神經元,隱藏層由Relu函數(shù)激活。對于參與者網絡,輸出為所有動作的概率值,因此最后一層為softmax層,輸出向量為4維,所有動作相加的概率為1;對于關鍵網絡,輸出是操作的分數(shù),因此最后一層是完整的接口層,輸出向量是一維的。

        4.2 基于PPO的單交叉口信號優(yōu)化控制算法

        本文中設計的基于PPO的交叉口控制系統(tǒng)是一個閉環(huán)負反饋系統(tǒng),如圖3所示。管理系統(tǒng)通過交通觀察模塊實時采集交通模式數(shù)據(jù),然后評估交通參數(shù),選擇下一個時段的相位系統(tǒng),交通燈執(zhí)行相位系統(tǒng)。隨后,PPO網絡將根據(jù)監(jiān)控效果交替更新,這將提高智能體的決策能力。

        圖3 單交叉口控制流程

        本文設計了基于PPO的單交叉口信號控制算法。該設計算法可以自由改變相位,解決了信號優(yōu)化控制方法、固定周期相位序列和低工作速率綠燈時間的問題。每個階段的行程時間最短,即使在某些階段沒有車輛,也會在每個階段交替進行。為了提高相位變化期間的安全性,在算法步驟變化之前添加黃燈警告步驟。當從策略模型中獲得下一步系統(tǒng)時,它不是直接執(zhí)行的,而是評估階段系統(tǒng)是否已被修改。如果已更改,則必須先完成黃燈警告裝置,然后再實施系統(tǒng)。例如,如果第1階段已從代理處獲得三次,則第1階段將在30秒內執(zhí)行,這樣大大提高了交叉口控制效率。

        5 仿真分析

        5.1 實驗平臺與仿真場景設計

        5.1.1 實驗平臺

        本文件中選擇的交通模擬程序為“Simulationof Urban Mobility”,簡稱為“SUMO”,是一種用于微型交通和多式聯(lián)運的開源模擬軟件。Sumo提供了一個交通控制接口,通過該接口可以實時監(jiān)控交通模擬并實現(xiàn)傳輸參數(shù)。Tra CI使用基于TCP的客戶端/服務器架構,使用sumo模擬作為服務器,Python編寫的控制器是客戶端。

        使用開源神經框架pyfair以PPO算法的形式構建神經網絡,設計控制算法Python語言交通信號控制中心(服務器),使用sumo simulation軟件simulation來模擬真實運行的道路網絡(客戶端),并通過tra CL接口了解服務器和客戶之間的數(shù)據(jù)和命令傳輸。

        5.1.2 單交叉口交通仿真場景設計

        根據(jù)SUMO給出的說明,首先定義了路網的節(jié)點、邊緣和接口,并創(chuàng)建了路網的XML配置文件,打開網絡配置文件。每個方向有兩個入口點,一個穿過車道,另一個穿過左側車道。

        本文的單交叉口仿真中用到的基本參數(shù)如下:

        ●道路長度:200m。

        ●傳感器位置:在每個入車道停車線后5m處和停車線后100m處各放置一個。

        ●車輛信息:車輛長度是5m,最高速度是13.9m/s,車輛之間的最小間距是2.5m,加速度是1m/s2,減速度是1m/s2。

        5.2 仿真參數(shù)設置

        5.2.1 路口流量設置

        為了盡可能地模擬交叉口實際交通的時空特征,將交叉口劃分為四種交通流模式:低飽和、近飽和、過飽和不均勻負載模式,交通法規(guī)規(guī)定飽和流量設置為1800pcu/h,每個階段的最大飽和率之和由y確定。過飽和模式意味著Y>1;平衡負載意味著不同階段之間的流量非常高,某些方向的交通流量很高,而某些方向的交通流量則很少。

        表1 四種交通流量模式設置(單位:pcu/h)

        5.2.2 固定配時法相位方案和Webster配時法相位方案設置

        固定時間方法意味著階段計劃輪流實施,每個階段的持續(xù)時間是固定的,與輪換的任何變化無關。在模擬中,第一階段、第二階段、第三階段和第四階段被設置為27s,各階段計劃之間的黃色燈光為3s。

        Webster計時方法是使用Webster公式計算每個階段的行程時間,該公式與交通網絡收集的歷史交通數(shù)據(jù)相對應。相位系統(tǒng)之間有一個黃色燈3s。根據(jù)Webster方法計算的每個流動模式的韋伯斯特階段計劃如表2所示:

        表2 Webster配時法相位方案(單位:秒)

        5.2.3 模型訓練參數(shù)設置

        基于PPO方法的交叉口信號優(yōu)化控制模型的訓練參數(shù)設置如表3所示:

        表3 訓練參數(shù)設置

        5.3 結果分析

        5.3.1 基于強化學習單交叉信號控制效果評估

        在對基于PPO模型的信號控制算法進行訓練后,將單點信號控制的有效性與Webster方法和固定定時方法進行比較。車輛的平均停車時間和平均行程時間。圖4顯示了三種算法的控制效果比較。

        如圖4(a)所示:在接近飽和、過飽和和不平衡負載的情況下,采用PPO算法的車輛在交叉口的平均等待時間最低,其次是Webster法,而不變計時法最差。PPO算法對減少交叉口車輛平均等待時間有明顯影響;在低飽和交通模式下,PPO算法的效果非常接近固定時間法,而等待時間Webster法比其他兩種方法要長得多。PPO算法與固定定時方法相似,且優(yōu)于固定定時方法。在圖4(b)停車次數(shù)效果對比中,除去不飽和流量模式,PPO算法可略微改善交叉口的平均車輛數(shù)量。在圖4(c)中,車輛行駛時間的比較與車輛平均等待時間的影響非常相似。在近飽和、過飽和和不平衡荷載條件下,PPO算法的效果優(yōu)于Webster方法,Webster方法優(yōu)于固定時間法;在低飽和模式下,PPO算法的效果接近于固定定時方法,而Webster方法消耗的車輛行駛時間最多??筛鶕?jù)交叉口實時交通模式智能修改管理系統(tǒng),可提高大多數(shù)交通方式的交通管理效率。當流量非常低時,Webster的優(yōu)化效果不如固定計時法,因為根據(jù)Webster公式計算的最佳時間,太小,且每一步的計時太小,導致通過交叉口的交通不完整,停車次數(shù)過多。

        表5 三種算法的車輛平均停車次數(shù)(單位:次數(shù))

        表6 三種算法的車輛平均車輛旅行時間比(單位:秒)

        為了量化PPO算法的改善效果,表4至6計算了使用三種控制算法的車輛的平均等待時間、停車時間和平均行駛時間。平均等待時間分別為35.73%和54.07%,與Webster計時法相比分別減少了17.83%、19.86%和7.84%;就停車時間而言,與固定計時方法相比,PPO分別下降31.82%、32.16%和24.66%;比較車輛平均行駛時間,從固定時間中分別下降27.74%、28.17%和41.49%,改善效果非常明顯。

        表4 三種算法的車輛平均等待時間比(單位:秒)

        6 結束語

        本文提出了一種基于PPO算法的交通信號管理方法,并在sumo仿真平臺上對不同的交通需求進行了測試。實驗結果表明,本文提出的交通信號管理方法與配時方法相比,具有更好的控制效果,能夠顯著減少交叉口排隊車輛的數(shù)量。該方法僅進行了仿真研究,未在實際場景中測試其控制效果;此外,本文中提出的方法在某些方面仍需改進。未來,有必要將應用場景從簡單的單交叉口擴展到具有多個交叉口的復雜道路網。

        猜你喜歡
        交叉口交通道路
        堅持中國道路——方向決定道路,道路決定命運
        當代陜西(2022年4期)2022-04-19 12:08:50
        道聽途說
        繁忙的交通
        童話世界(2020年32期)2020-12-25 02:59:14
        我們的道路更寬廣
        青年歌聲(2020年12期)2020-12-23 06:30:00
        小小交通勸導員
        信號交叉口延誤參數(shù)獲取綜述
        一種Y型交叉口設計方案的選取過程
        一次騎行帶來的感悟
        考慮黃燈駕駛行為的城市交叉口微觀仿真
        基于VISSIM的交叉口改善評價研究
        河南科技(2014年14期)2014-02-27 14:12:02
        娇妻玩4p被三个男人伺候电影| 国产视频最新| 亚洲一区二区高清在线| 日韩精品中文字幕第二页| 精品卡一卡二卡3卡高清乱码| 日韩欧美在线综合网另类| 日本aⅴ大伊香蕉精品视频| 久久久久亚洲av成人网址| 免费人妻精品区一区二区三 | 色欧美与xxxxx| 免费观看国产激情视频在线观看| 国产麻花豆剧传媒精品mv在线| 国产精一品亚洲二区在线播放| 久久久精品国产亚洲AV蜜| 国产精品又污又爽又色的网站| 日本xxxx色视频在线观看| 色老头在线一区二区三区| 国产精品国产三级国产av创| 日韩有码中文字幕在线视频| 国产av无码国产av毛片| 久久久精品国产sm调教网站 | 欧美中出在线| 精品少妇人妻av一区二区蜜桃 | 国产精品一区二区 尿失禁 | 亚洲第一女优在线观看| 日韩av一区二区三区激情在线 | 亚洲国产精品国自产拍性色| 中文无码精品a∨在线观看不卡| 欧美喷潮系列在线观看| av免费在线手机观看| 欧美亅性猛交内射| 国产一区二区三区在线观看免费| 亚洲AV无码AV色| 国产在线观看视频一区二区三区| 亚洲妇女无套内射精| 麻豆久久五月国产综合| 国产熟女av一区二区三区四季| 精品国产一区二区三区av免费| 精品人妻中文无码av在线| 亚洲午夜无码久久yy6080 | 狠狠躁狠狠躁东京热无码专区|