亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Deep Q Networks的交通指示燈控制方法

        2021-06-30 12:44:40顏文勝呂紅兵
        關(guān)鍵詞:交通信號(hào)信號(hào)燈指示燈

        顏文勝,呂紅兵

        (1.臺(tái)州職業(yè)技術(shù)學(xué)院 信息技術(shù)工程學(xué)院,浙江 臺(tái)州 318000;2.浙江大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,杭州 310027)

        0 引言

        現(xiàn)有的道路交叉口管理都是通過(guò)紅綠指示燈來(lái)實(shí)現(xiàn)的。固定時(shí)間、基于周期的道路指示燈控制模式效率低下,導(dǎo)致車(chē)流滯留時(shí)間長(zhǎng)、能源浪費(fèi)大、空氣質(zhì)量惡化等問(wèn)題。在某些情況下,它還可能導(dǎo)致交通事故[1-2]?,F(xiàn)有的道路指示燈控制要么以固定的程序,要么沒(méi)能考慮實(shí)時(shí)交通[3],這在應(yīng)對(duì)各種實(shí)際情況時(shí),特別是在早晚高峰車(chē)流量徒增的情況中將面臨交通臨時(shí)癱瘓的現(xiàn)象。

        為進(jìn)一步改善這一現(xiàn)狀,不少學(xué)者進(jìn)行了深入研究。例如文獻(xiàn)[4]為提高智能交通信號(hào)在實(shí)際應(yīng)用中的效率,提出一種改進(jìn)的控制方法,將交通信號(hào)圖像輸入卷積神經(jīng)網(wǎng)絡(luò)的輸入層,通過(guò)卷積層與采樣層的卷積計(jì)算、殘差計(jì)算以及梯度計(jì)算識(shí)別交通信號(hào),將識(shí)別交通信號(hào)結(jié)果選取自適應(yīng)跳躍式信號(hào)控制方法實(shí)現(xiàn)了智能交通信號(hào)控制。文獻(xiàn)[5]針對(duì)城市單交叉口的交通信號(hào)控制問(wèn)題,基于四相位定相序?qū)谓徊婵诮煌暨M(jìn)行控制,運(yùn)用模糊控制系統(tǒng)輸入為車(chē)輛排隊(duì)數(shù)和車(chē)輛到達(dá)率,輸出為當(dāng)前綠燈相位的綠燈延長(zhǎng)時(shí)間,提出一種交通燈信號(hào)的模糊控制方法,從而能有效減少車(chē)輛的平均延誤時(shí)間,提高交叉口的通行能力。文獻(xiàn)[6]針對(duì)城市交通子區(qū)內(nèi)部與邊界交叉口協(xié)調(diào)控制問(wèn)題,提出基于分層多粒度與宏觀基本圖交通信號(hào)控制模型(HDMF),從而能夠有效疏導(dǎo)子區(qū)域內(nèi)部與邊界交通,實(shí)現(xiàn)整體路網(wǎng)的車(chē)流量最大化。文獻(xiàn)[7]在城市交通環(huán)境下,通過(guò)分析控制方法靈活性與穩(wěn)定性的關(guān)系,將穩(wěn)定狀態(tài)引入信號(hào)控制決策模塊,建立穩(wěn)定規(guī)則庫(kù),提出了一種考慮網(wǎng)絡(luò)穩(wěn)定性的多智能體強(qiáng)化學(xué)習(xí)控制方法,從而提高了算法的運(yùn)行效率,同時(shí)保證了控制效果,將適用于復(fù)雜交通網(wǎng)絡(luò)。

        隨著計(jì)算機(jī)、通信和交通檢測(cè)技術(shù)的變革式發(fā)展,城市道路指示控制系統(tǒng)的技術(shù)環(huán)境正從數(shù)據(jù)貧乏向數(shù)據(jù)豐富的時(shí)代演化發(fā)展[8-10]。本文發(fā)揮Deep Q Networks無(wú)需固定控制規(guī)則、無(wú)需同時(shí)獲取大量數(shù)據(jù),而通過(guò)不斷地從環(huán)境中獲取狀態(tài)和獎(jiǎng)勵(lì)進(jìn)行更新的特性,提出了一種基于Deep Q Networks的交通指示燈控制方法。

        1 交通指示燈控制的問(wèn)題描述

        在道路交通信號(hào)控制場(chǎng)景中,信號(hào)燈被用來(lái)管理道路十字路口的交通流[11]。道路十字路口的信號(hào)燈設(shè)有3個(gè)狀態(tài)信號(hào):紅、黃、綠。通常,道路十字路口會(huì)有來(lái)自多個(gè)方向的車(chē)輛涌入,存在有的方向車(chē)流量大、有的方向車(chē)流量小的情況。當(dāng)前,信號(hào)燈所采用的固定規(guī)則模式,難以應(yīng)對(duì)十字路口車(chē)流不均的情況,導(dǎo)致十字路口有的方向嚴(yán)重?fù)矶卢F(xiàn)象。這一問(wèn)題在北京、上海等大城市中非常嚴(yán)重,目前采用的是高峰時(shí)間段由人工控制的方式進(jìn)行緩解。

        為了能夠讓車(chē)流交替通過(guò)十字路口的同時(shí),使得各路口等待車(chē)輛數(shù)達(dá)到均衡,需要調(diào)整路口信號(hào)燈的持續(xù)時(shí)間,以應(yīng)對(duì)道路十字路口的不同交通情況。為此,需要解決的問(wèn)題是如何通過(guò)借鑒歷史經(jīng)驗(yàn),通過(guò)動(dòng)態(tài)改變道路指示燈的每個(gè)狀態(tài)的持續(xù)時(shí)間,以緩解道路十字路口車(chē)輛擁堵問(wèn)題。面對(duì)這一問(wèn)題,通常的想法是延長(zhǎng)擁堵方向上綠燈的時(shí)間,讓該道路上更多的車(chē)輛通行。但是,根據(jù)當(dāng)前復(fù)雜交通狀況,給出一種適用的控制規(guī)則是困難的,更難以適應(yīng)每天狀態(tài)各異的道路交通。

        一種常用的解決方式是韋伯斯特(Webster)法[12]。該方法是一種自適應(yīng)韋氏交通信號(hào)控制算法,通過(guò)收集各時(shí)段的數(shù)據(jù),然后利用韋氏方法計(jì)算下一時(shí)段的周期和信號(hào)燈持續(xù)時(shí)間。這種自適應(yīng)Webster方法本質(zhì)上使用最近的時(shí)間區(qū)間來(lái)收集數(shù)據(jù),并假設(shè)下一區(qū)間的流量需求大致相同。其時(shí)間區(qū)間的選擇至關(guān)重要,并體現(xiàn)了各種各樣的權(quán)衡,較小的區(qū)間允許更頻繁地適應(yīng)變化的交通需求,而較大的區(qū)間不太頻繁地適應(yīng),但有利于增加穩(wěn)定性。

        (1)

        式中,Cm是完成一次車(chē)輛通行的時(shí)間區(qū)間;yi是第i個(gè)相位上交通量最大的車(chē)道的車(chē)流比;L是一個(gè)信號(hào)周期的總損失時(shí)間。

        (2)

        式中,l是車(chē)輛啟動(dòng)的損失時(shí)間;I是信號(hào)燈為綠的時(shí)間間隔;A是信號(hào)燈為黃的時(shí)間間隔。

        令表示路口車(chē)流延誤最低的最佳周期時(shí)長(zhǎng):

        (3)

        Deep Q Networks,則是一種機(jī)器學(xué)習(xí)范式,在這種范式中,個(gè)體通過(guò)與環(huán)境的反復(fù)交互,尋求通過(guò)制定一種狀態(tài)-行動(dòng)政策來(lái)最大化累積回報(bào)。Deep Q Networks通過(guò)制定最優(yōu)狀態(tài)-行動(dòng)政策來(lái)實(shí)現(xiàn)獎(jiǎng)勵(lì)的最優(yōu)控制。Deep Q Networks是嘗試解決道路指示控制問(wèn)題的一種合適技術(shù),能夠通過(guò)強(qiáng)化學(xué)習(xí)三要素對(duì)問(wèn)題進(jìn)行很好地描述:agent(道路指示控制器)、environment(交通狀態(tài))以及actions(交通信號(hào))。

        基于Deep Q Networks的交通指示燈控制如圖 1所示,其中左圖是道路指示燈控制示意圖。圖中信號(hào)燈首先通過(guò)車(chē)載網(wǎng)絡(luò)[13]采集道路交通信息。信號(hào)燈對(duì)數(shù)據(jù)進(jìn)行處理,得到道路交通的狀態(tài)和獎(jiǎng)勵(lì)[14]。信號(hào)燈使用右圖顯示的深度學(xué)習(xí)網(wǎng)絡(luò)選擇下一步動(dòng)作。信號(hào)燈整個(gè)這一“強(qiáng)化學(xué)習(xí)+深度學(xué)習(xí)”的自動(dòng)控制過(guò)程,構(gòu)成了道路交通信號(hào)燈控制的Deep Q Networks模型。

        圖1 基于Deep Q Networks的交通指示燈控制

        2 道路指示燈控制的Deep Q Networks模型

        根據(jù)道路十字路口車(chē)輛的位置和速度這兩個(gè)信息定義道路指示燈控制的狀態(tài)模型。通過(guò)車(chē)載網(wǎng)絡(luò)和定位系統(tǒng),可以很容易地獲得當(dāng)前道路車(chē)輛的位置和速度[13]。然后,道路十字路口的信號(hào)燈可以通過(guò)車(chē)輛信息位置矩陣得到當(dāng)前路口的虛擬快照?qǐng)D像。將當(dāng)前路口的虛擬快照劃分為相同大小的小正方形網(wǎng)格。其中,網(wǎng)格長(zhǎng)度c應(yīng)確保只能容納一輛車(chē)。在每個(gè)網(wǎng)格中,狀態(tài)值由位置p跟速度v組成,即[p,v]。其中,位置p是一個(gè)二進(jìn)制值,表示網(wǎng)格中是否有車(chē)輛。如果網(wǎng)格中有輛車(chē),則該網(wǎng)格中的值為1;否則,則為0。速度v為整數(shù)值,表示車(chē)輛當(dāng)前速度,單位為m/s。

        圖2為道路十字路口虛擬快照示意圖,整個(gè)道路場(chǎng)景被分割為正方形網(wǎng)絡(luò)。相應(yīng)的位置矩陣與網(wǎng)格大小相同,如圖 3所示。其中,一個(gè)網(wǎng)絡(luò)單元代表一個(gè)位置狀態(tài),空白單元表示對(duì)應(yīng)網(wǎng)格中沒(méi)有車(chē)輛,其值設(shè)為0。

        圖3 交通路口車(chē)流位置矩陣

        道路指示燈需要根據(jù)當(dāng)前的交通狀態(tài),選擇合適的行為引導(dǎo)路口車(chē)輛通行。通常,在道路指示燈控制系統(tǒng)中,通過(guò)選擇下一周期中紅綠燈每一階段的持續(xù)時(shí)間來(lái)確定行動(dòng)空間。但是如果相鄰兩個(gè)周期內(nèi)的持續(xù)時(shí)間變化很大,系統(tǒng)將可能會(huì)變得不穩(wěn)定。

        因此,為了應(yīng)對(duì)道路指示的動(dòng)態(tài)調(diào)度,將兩個(gè)相鄰周期之間的持續(xù)時(shí)間調(diào)度建模為一個(gè)高維馬爾可夫決策(MDP)。MDP是一個(gè)靈活的模型,它可以應(yīng)用于交通燈較多、需要更多狀態(tài)的復(fù)雜交叉路口,甚至能夠滿(mǎn)足具有五、六條道路的不規(guī)則交叉路口。在MDP中,交通燈在一個(gè)小步驟中只改變一個(gè)階段的持續(xù)時(shí)間,本文將采用一個(gè)四元組[t1,t2,t3,t4]表示當(dāng)前周期中4個(gè)階段的持續(xù)時(shí)間。下一個(gè)時(shí)間周期的行為如圖 4所示。圖中,一個(gè)圓表示在一個(gè)時(shí)間周期中4個(gè)階段的持續(xù)時(shí)間,并將當(dāng)前周期到后續(xù)時(shí)間變化離散為5 s。將各階段的最大合法持續(xù)時(shí)間設(shè)置為60 s,最小合法持續(xù)時(shí)間設(shè)置為0 s。道路指示燈根據(jù)當(dāng)前狀態(tài)選擇行為,信號(hào)燈的狀態(tài)按順序循環(huán)變化。

        圖4 多指示燈下的MDP決策

        為了保證安全,相鄰狀態(tài)之間需要有黃色信號(hào),使行駛的車(chē)輛在信號(hào)變?yōu)榧t色之前停止。將黃色信號(hào)持續(xù)時(shí)間Tyellow的定義為該道路上的最大速度vmax除以路口減速率adec:

        (4)

        獎(jiǎng)勵(lì)是區(qū)別強(qiáng)化學(xué)習(xí)與其他學(xué)習(xí)算法的一個(gè)重要特征。獎(jiǎng)勵(lì)的作用是就先前行為的表現(xiàn)向強(qiáng)化學(xué)習(xí)模型提供反饋。因此,明確獎(jiǎng)勵(lì)方式以正確指導(dǎo)模型自主學(xué)習(xí)是很重要的,將有助于選擇最佳的行動(dòng)策略。

        在道路指示控制系統(tǒng)中,主要目標(biāo)是要提高十字路口車(chē)輛通行效率。衡量車(chē)輛通行效率的一個(gè)主要指標(biāo)是十字路口車(chē)輛的等待時(shí)間。因此,將強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)定義為相鄰兩個(gè)周期之間累積等待時(shí)間的變化,用it表示觀察的第i量車(chē)從第t個(gè)周期開(kāi)始的時(shí)間,用Nt表示到第t個(gè)周期對(duì)應(yīng)的車(chē)輛總數(shù),將車(chē)輛i在第t周期的等待時(shí)間記為ωit,t(1≤it≤Nt),則第t周期的獎(jiǎng)勵(lì)定義為:

        rt=Wt-Wt+1

        (5)

        其中:

        (6)

        由式(5)可知,如果獎(jiǎng)勵(lì)相較之前有所增加,則等待時(shí)間的增量將小于之前。這意味著獎(jiǎng)勵(lì)時(shí)采取行動(dòng)前和行動(dòng)后累計(jì)等待時(shí)間的增量。

        3 基于Deep Q Networks的交通指示燈控制

        在交通指示燈控制問(wèn)題描述的基礎(chǔ)上,基于所構(gòu)建的道路指示燈控制Deep Q Networks模型,提出了基于Deep Q Networks的道路指示控制方法。

        首先,令Q(s,a)表示在狀態(tài)s=(X;Y)當(dāng)采取行動(dòng)a時(shí)的行為價(jià)值函數(shù),即最大可實(shí)現(xiàn)的預(yù)期折扣獎(jiǎng)勵(lì):

        (7)

        (8)

        接著,在強(qiáng)化學(xué)習(xí)算法中,將狀態(tài)s同時(shí)作為目標(biāo)網(wǎng)絡(luò)和評(píng)估網(wǎng)絡(luò)的輸入,依據(jù)式(8),構(gòu)建神經(jīng)網(wǎng)絡(luò)迭代i次后的訓(xùn)練損失函數(shù)模型:

        (9)

        式中,r為當(dāng)前步驟采取行為所獲得的獎(jiǎng)勵(lì)值,s′和a′分別為下一步的狀態(tài)和行為。

        根據(jù)式(9)在神經(jīng)網(wǎng)絡(luò)中進(jìn)行反向傳播并更新主神經(jīng)網(wǎng)絡(luò)中的參數(shù):

        θi′ =αθi′ + (1-α)θi

        (10)

        式中,α為更新速率,它表示最新參數(shù)對(duì)目標(biāo)網(wǎng)絡(luò)中各組件的影響程度。

        最后,給出基于Deep Q Networks道路指示燈控制方法的訓(xùn)練流程:

        步驟1 初始化車(chē)流狀態(tài)s和控制行為a;

        步驟2 對(duì)于訓(xùn)練步長(zhǎng)k=1,2,…,K:

        步驟4: 給定行動(dòng),確定新?tīng)顟B(tài)s′;

        步驟5: 根據(jù)式(5)、式(6)計(jì)算獎(jiǎng)勵(lì)值r;

        步驟6: 將狀態(tài)、行動(dòng)和獎(jiǎng)勵(lì)以[s,a*,r,s′]形式在記憶庫(kù)M中存儲(chǔ);

        步驟7: 判斷:如果k>k0執(zhí)行學(xué)習(xí)操作;

        步驟8: 從記憶庫(kù)中取樣一小批量樣本;

        步驟9: 根據(jù)式(10)更新目標(biāo)網(wǎng)絡(luò)及參數(shù)θi′;

        步驟10: 根據(jù)式(7)計(jì)算行為價(jià)值函數(shù)值Q(s,a);

        步驟11: 運(yùn)用梯度下降更新網(wǎng)絡(luò),利用貪婪策略依式(9)計(jì)算損失函數(shù)。

        4 算例仿真

        為了更好地驗(yàn)證本文方法的有效性以及對(duì)比優(yōu)勢(shì),在本節(jié)分別與固定時(shí)間控制模式、Webster控制模式進(jìn)行了對(duì)比仿真實(shí)驗(yàn)。本仿真基于Intel Core i5cpu硬件環(huán)境,運(yùn)用微觀交通仿真平臺(tái)SUMO v0.32構(gòu)造道路指示燈仿真場(chǎng)景,實(shí)現(xiàn)道路指示燈的自主控制。方法模型運(yùn)用python語(yǔ)言開(kāi)發(fā),并通過(guò)Pycharm平臺(tái)編譯運(yùn)行。如圖 5所示,以浙江省臺(tái)州市市府大道與東環(huán)大道交叉路口實(shí)測(cè)交通數(shù)據(jù)為測(cè)試樣本,構(gòu)造了道路指示燈仿真環(huán)境。運(yùn)用基于Deep Q Networks的道路指示燈控制方法進(jìn)行仿真計(jì)算?;贒eep Q Networks的道路指示燈控制方法中的參數(shù)預(yù)設(shè)如表 1所示。

        圖5 道路指示燈仿真場(chǎng)景

        參數(shù)賦值訓(xùn)練步長(zhǎng)K7 000記憶庫(kù)M3 600目標(biāo)網(wǎng)絡(luò)更新率α0.006折扣因子γ0.84

        針對(duì)道路指示燈控制問(wèn)題,運(yùn)用基于Deep Q Networks的道路指示燈控制方法進(jìn)行仿真計(jì)算,方法效果如圖 6所示。由結(jié)果可知,隨著訓(xùn)練次數(shù)的增加,訓(xùn)練誤差不斷減少,價(jià)值函數(shù)趨于穩(wěn)定,方法收斂效果較好、穩(wěn)定性較強(qiáng),能夠適用于道路指示燈自主控制問(wèn)題。

        圖6 方法實(shí)驗(yàn)效果

        如圖 7所示,為運(yùn)用本文方法與固定時(shí)間控制模式、Webster控制模式的仿真實(shí)驗(yàn)結(jié)果對(duì)比圖。通過(guò)仿真結(jié)果對(duì)比可知,本文方法能夠獲得更好的道路指示燈控制策略,在交通路口車(chē)輛隊(duì)列長(zhǎng)度、等待時(shí)間等方面優(yōu)化效果更為明顯,有效地減少車(chē)輛停留時(shí)間、車(chē)輛延誤,從而有效緩解高峰時(shí)期的交通擁堵現(xiàn)象。

        圖7 方法對(duì)比結(jié)果

        5 結(jié)束語(yǔ)

        針對(duì)當(dāng)前城市道路擁堵、十字路口車(chē)輛通行效率低的問(wèn)題,本文提出了基于Deep Q Networks的道路指示燈控制方法。首先,對(duì)道路指示燈控制問(wèn)題進(jìn)行描述,分析常用方法,聚焦十字路口道路指示控制的關(guān)鍵。然后,以狀態(tài)、行動(dòng)和獎(jiǎng)勵(lì)三要素為主構(gòu)建了道路指示燈控制的強(qiáng)化學(xué)習(xí)模型,滿(mǎn)足道路指示燈控制特征,提升了Deep Q Networks的適用性。最后,提出了基于Deep Q Networks的道路指示控制模型和方法流程,實(shí)現(xiàn)了道路指示燈的自主控制?;诔鞘械缆窋?shù)據(jù)的仿真計(jì)算,并與固定控制模式、韋伯斯特控制模式仿真比對(duì),驗(yàn)證了論文方法對(duì)道路指示控制問(wèn)題的適用性和優(yōu)越性,為交通信號(hào)智能化控制提供了新的思路與途徑。

        猜你喜歡
        交通信號(hào)信號(hào)燈指示燈
        《城市軌道交通信號(hào)圖冊(cè)》正式出版
        交通信號(hào)燈
        《城市軌道交通信號(hào)設(shè)備》正式出版
        城市軌道交通信號(hào)設(shè)備監(jiān)測(cè)技術(shù)探討
        信號(hào)燈為什么選這三個(gè)顏色?
        交通信號(hào)智能指揮模型
        安裝在路面的交通信號(hào)燈
        榮威750車(chē)ABS指示燈和防側(cè)滑指示燈異常點(diǎn)亮
        交通信號(hào)燈控制系統(tǒng)設(shè)計(jì)
        上海大眾POLO充電指示燈點(diǎn)亮
        日本一级二级三级不卡| 国产av一区二区三区日韩| 99国产精品久久久蜜芽| 中文无码免费在线| av无码久久久久久不卡网站| 最新国产女主播福利在线观看| 激情五月婷婷六月俺也去 | 久久夜色撩人精品国产小说 | 久久国产精品精品国产色婷婷| 射精情感曰妓女色视频| 欧美片欧美日韩国产综合片| 一区二区亚洲精品国产精| 久久久99精品免费视频| 色综合久久蜜芽国产精品| 国产精品网站在线观看免费传媒 | 亚洲AV无码久久精品国产老人| 中文字幕av人妻一区二区| av网站韩日在线观看免费| 风骚人妻一区二区三区| 丰满的人妻hd高清日本| 亚洲成色www久久网站夜月| 亚洲成a人片在线观看中文!!!| 五十路在线中文字幕在线中文字幕| 大陆老熟女自拍自偷露脸| 国产精品久久人妻无码| 日本www一道久久久免费榴莲 | 亚洲av无码片在线观看| 国产在线天堂av| 极品精品视频在线观看| 国产av在线观看久久| 欧美成人精品午夜免费影视| 未满十八勿入av网免费| 国产三级视频一区二区| 上海熟女av黑人在线播放| 99国产精品自在自在久久| 国产一在线精品一区在线观看| 美女扒开内裤露黑毛无遮挡 | 国产精品视频自拍在线| 小sao货水好多真紧h无码视频| 亚洲色大成网站www在线观看| 在线视频一区二区观看|