亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于交通路網(wǎng)狀態(tài)感知的交通信號配時優(yōu)化技術(shù)

        2021-11-28 03:59:08胡小光胡曉杰
        河南科技 2021年16期
        關(guān)鍵詞:控制策略模型

        胡小光 胡曉杰

        摘 要:本文提出多通道的3D卷積預(yù)測網(wǎng)絡(luò)結(jié)合Double-DQN的配時控制策略,并將其與Deep-Q-learning、Q-learning進行對比分析,進行仿真實驗。結(jié)果表明,多通道的3D卷積預(yù)測網(wǎng)絡(luò)結(jié)合Double-DQN的控制策略明顯優(yōu)于Q-learning和Deep-Q-learning。

        關(guān)鍵詞:智能交通信號配時;3D卷積;深度強化學(xué)習(xí);多通道矩陣;Double-DQN

        中圖分類號:U491.54文獻標識碼:A文章編號:1003-5168(2021)16-0018-04

        Abstract: In this paper, a multi-channel 3D convolution prediction network combined with Double-DQN timing control strategy was proposed, which was compared with Deep-Q-Learning and Q-Learning. The results show that the control strategy of multi-channel 3D convolution prediction network combined with Double-DQN timing control strategy is obviously better than Q-learning and Deep-Q-learning.

        Keywords: traffic signal timing control;3D convolution neural network;deep reinforcement learning;multilevel network;Double-DQN

        智能交通信號配時是一種緩解交通擁堵的有效手段。智能交通系統(tǒng)(Intelligent Transportation System,ITS)產(chǎn)生于20世紀60年代末70年代初。由于交通狀況是隨機的,可變性以及不確定性強,因此,很難訓(xùn)練出適合的模型對交通信號進行控制。強化學(xué)習(xí)的常見模型是標準的馬爾可夫決策過程(Markov Decision Process,MDP)。強化學(xué)習(xí)是一類重要的機器學(xué)習(xí)技術(shù),它通過與環(huán)境的交互來學(xué)習(xí)最優(yōu)的控制決策[1]。交通信號控制領(lǐng)域很早就開始運用強化學(xué)習(xí)方法來解決交通控制問題。隨著深度學(xué)習(xí)和強化學(xué)習(xí)的發(fā)展,它們被結(jié)合為深度強化學(xué)習(xí)用來估計[Q]值以代替復(fù)雜的[Q]值表。DeepMind團隊將最新的AlphaGo論文發(fā)布在Nature上,使得深度強化學(xué)習(xí)算法受到多數(shù)研究人員的關(guān)注[2]。隨著交通路網(wǎng)的擴大,道路信息變得復(fù)雜,對智能信號控制模型進行優(yōu)化是探索智能交通的必經(jīng)之路。

        1 控制模型

        1.1 相位

        相位是對交通信號控制的簡單描述。一般情況下,相位越大,交通越容易擁堵。相位一代表南北方向允許通行(南北方向綠燈),東西方向等待(東西方向紅燈);相位二則與相位一相反。圖1是一個三岔口和一個四岔口的相位模型的相位一(三岔口可以右轉(zhuǎn)、四岔口南北方向綠燈)。信號時長[g]是固定的,指相位持續(xù)的時間。當前,相位信號時長[g]結(jié)束后下一個相位自適應(yīng)選擇合適相位執(zhí)行下個信號時長[g]。信號時長[g]可以根據(jù)不同大小的仿真交通地圖更改,從而得到合適的信號時長[g]。

        1.2 強化學(xué)習(xí)控制模型

        強化學(xué)習(xí)控制模型如圖2所示。交通燈控制智能體(Agent)通過實時地與環(huán)境進行交互,在每個時間步[t],控制智能體(Agent)獲取到路網(wǎng)的狀態(tài)[St]和獎勵[r],同時返回給路網(wǎng)一個最優(yōu)控制命令。

        1.3 Double-DQN

        在智能交通信號配時中,隨著時間的推動,Q-learning中建立復(fù)雜的[Q]值表變得尤其煩瑣。因此,需要訓(xùn)練一個價值神經(jīng)網(wǎng)絡(luò)Vnet來實時計算出預(yù)測[Q]值,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,路網(wǎng)的狀態(tài)[St]、動作[a]和獎勵[r]作為輸入。

        為解決DQN中[Q]值過高估計的問題,在Double-DQN里,不再是直接在目標Q網(wǎng)絡(luò)里找各個動作中最大值,而是先在當前Q網(wǎng)絡(luò)中找出最大[Q]值對應(yīng)的動作,然后利用這個選擇出來的動作amax(S′j,w)在目標網(wǎng)絡(luò)里面計算目標[Q]值。研究結(jié)果表明:Q-learning、DQN兩種算法[3]在應(yīng)用過程中都有可能得到不符合實際情況的高動作值。Double-DQN算法通過下列基本原理解決這一問題:不再是直接在目標Q網(wǎng)絡(luò)里面找各個動作中最大[Q]值,而是先在當前Q網(wǎng)絡(luò)中先找出最大[Q]值對應(yīng)的動作。

        2 基于Double-DQN的交通信號控制算法

        2.1 建立多個交叉感受野的路網(wǎng)模型

        卷積神經(jīng)網(wǎng)絡(luò)仿造生物的視知覺機制構(gòu)建,可以進行監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí),其隱含層內(nèi)的卷積核參數(shù)共享和層間連接的稀疏性使得卷積神經(jīng)網(wǎng)絡(luò)能夠以較小的計算量對格點化特征,例如,像素和音頻進行學(xué)習(xí)、有穩(wěn)定的效果且對數(shù)據(jù)沒有額外的特征工程要求。本研究采用卷積神經(jīng)網(wǎng)絡(luò)對路網(wǎng)進行特征提取[4]。

        因為神經(jīng)網(wǎng)絡(luò)的輸入是矩陣,所以研究者把收集到的路網(wǎng)狀態(tài)信息轉(zhuǎn)變?yōu)榫仃嚨男问?,作為預(yù)測神經(jīng)網(wǎng)絡(luò)的輸入,在收集道路信息時按照空間順序進行移動來收集道路特征。如圖3所示,將路網(wǎng)劃分成多個相互重疊的區(qū)域,不僅保證了不同區(qū)域之間的關(guān)聯(lián)性,并且保證了對路網(wǎng)感知的全局性。

        2.2 路網(wǎng)狀態(tài)獲取

        根據(jù)路網(wǎng)道路的車輛密度和車輛平均通過速度來刻畫狀態(tài)[St]。先將整個路網(wǎng)分成若干個相互重疊的區(qū)域,按照每個區(qū)域?qū)β肪W(wǎng)進行遍歷和規(guī)范化,規(guī)范化后得到多通道的矩陣[C]。

        2.3 車輛密度和車輛平均行駛速度計算

        2.3.1 道路車輛密度[d]計算。假定在交通路網(wǎng)中各邊道路共計[q]條,各車道長[long],有車輛[m]臺,汽車長設(shè)定為[vehicle_long],則路網(wǎng)車輛密度[d]計算公式為:

        2.3.2 車輛平均行駛速度[ave_v]計算。假定在某一條道路上,道路長度為[long],[tm]時間段內(nèi)通過此道路的車輛數(shù)為[m]臺,則在時間段[tm]內(nèi)車輛的平均行駛速度計算公式為:

        2.4 多通道的3D卷積預(yù)測網(wǎng)絡(luò)結(jié)合Double-DQN

        3D卷積神經(jīng)網(wǎng)絡(luò)的輸入是通過堆疊多個連續(xù)的幀組成一個立方體,然后在立方體中運用3D卷積核。與2D卷積神經(jīng)網(wǎng)絡(luò)相比,3D卷積神經(jīng)網(wǎng)絡(luò)更適合用于對時空特征的提取方面,這主要是因為3D卷積神經(jīng)網(wǎng)絡(luò)模型能更有效地建立時間相關(guān)數(shù)據(jù)模型[5]。本研究在收集路網(wǎng)狀態(tài)信息時,收集3個連續(xù)的時間片段,且每一個時間片段均對路網(wǎng)進行寬度優(yōu)先遍歷,分別收集每條道路中的四個交通狀態(tài)特征:流出車輛的密度、流入車輛的密度、流入道路車輛通過速度、流出道路車輛通過速度。這樣就可以得到12個道路狀態(tài)矩陣,如圖4所示,從而作為預(yù)測神經(jīng)網(wǎng)絡(luò)的輸入,在融合時間特征的基礎(chǔ)上收集多個通道的道路狀態(tài)特征,為神經(jīng)網(wǎng)絡(luò)的輸入做了重要的數(shù)據(jù)貢獻。

        2.5 Inception模型在預(yù)測網(wǎng)絡(luò)中的應(yīng)用

        受Inception V1、V2模型啟發(fā),在3D卷積神經(jīng)網(wǎng)絡(luò)中引進了Inception V1、V2模型,引入1×1卷積核,以降低卷積運算量,同時增加了網(wǎng)絡(luò)層數(shù),用多個小的卷積核代替某一個或多個大的卷積核,大大節(jié)省了網(wǎng)絡(luò)訓(xùn)練參數(shù)的個數(shù)。

        2.5.1 Inception V2網(wǎng)絡(luò)模型。借鑒Inception V2模型,以感受野尺寸25為例,用兩個3×3的卷積核代替之前5×5的卷積核,擁有相同的感受野,可以節(jié)省網(wǎng)絡(luò)訓(xùn)練的參數(shù)個數(shù)。

        之前的訓(xùn)練參數(shù):

        式中:[C1]是輸入矩陣通道數(shù);[C2]是卷積核個數(shù)。

        改進后訓(xùn)練參數(shù):

        式中:[C1]是輸入矩陣通道數(shù);[C2]是卷積核個數(shù)。

        改進后的網(wǎng)絡(luò)訓(xùn)練參數(shù)明顯減少,網(wǎng)絡(luò)深度加深,網(wǎng)絡(luò)的非線性映射和網(wǎng)絡(luò)的擬合能力增強。但是,Inception V2模型的缺點也很明顯,由于神經(jīng)網(wǎng)絡(luò)用兩個3×3的卷積核代替之前5×5的卷積核,使得卷積運算量變大,加入Inception V2模型后卷積運算量變大為3.6萬。

        2.5.2 解決預(yù)測神經(jīng)網(wǎng)絡(luò)卷積運算量過大問題。為了解決因引入Inception V2模型使得卷積運算量變大這一問題,考慮在預(yù)測神經(jīng)網(wǎng)絡(luò)中加入1×1卷積核。1×1卷積核有跨通道特征整合、特征通道的升維降維、降低卷積運算量的作用。在本試驗中以感受野尺寸25為例,在引入Inception V2模型的基礎(chǔ)上每兩層神經(jīng)網(wǎng)絡(luò)中間加入6個1×1卷積核后使得原來的卷計算量由3.6萬降低為2.5萬,在加深了網(wǎng)絡(luò)深度的基礎(chǔ)上盡可能地降低卷積運算量。預(yù)測神經(jīng)網(wǎng)絡(luò)的設(shè)計如表1所示,共有8層神經(jīng)網(wǎng)絡(luò)(Conv1—Conv8)。

        3 仿真試驗

        3.1 SUMO仿真試驗

        為了對Deep-Q-learning、Q-learning以及多通道的3D卷積結(jié)合Double-DQN配時控制策略性能進行對比,研究者將三種控制策略同時分配在城市交通仿真系統(tǒng)(Simulation of Urban Mobility,SUMO)中,用SUMO系統(tǒng)模擬交通車輛的行駛,并記錄需要進行對比的性能指標,從而得出結(jié)論。仿真試驗的路網(wǎng)設(shè)定交叉口總計160個,共有123個交叉口有紅綠燈,15個出車點,15個收車點。試驗分為2.5 s和5 s兩個流量級別,0 s自起點出發(fā),經(jīng)過特定間隔依序出發(fā)去向終點,出車總時長20 000 s。

        3.2 仿真試驗結(jié)果分析

        本試驗使用兩個指標用來衡量Q-learning、Deep-Q-learning以及多通道的3D卷積結(jié)合Double-DQN三種不同控制策略的性能。其中,指標一是車輛在10 s內(nèi)的平均等待時間,指標二是當前時刻全路網(wǎng)中的車輛總數(shù),這兩個衡量指標都是越小代表控制策略性能越優(yōu)秀。圖6是在SUMO仿真環(huán)境下設(shè)置1、2級流量,Q-learning、Deep-Q-learning以及多通道的3D卷積結(jié)合Double-DQN三種不同控制策略的兩種性能指標結(jié)果分析圖。

        根據(jù)試驗結(jié)果分析圖可知,多通道的3D卷積結(jié)合Double-DQN的控制策略明顯優(yōu)于Q-learning和Deep-Q-learning這兩種控制策略。

        參考文獻:

        [1]SUTTON R S,BATO A G.Reinforcement learning: an introduction[J]. IEEE Transactions on Neural Networks,1998(5):1054.

        [2]高思琦.基于深度強化學(xué)習(xí)的多智能體城市道路交叉口交通流優(yōu)化控制研究[D].福州:福建工程學(xué)院,2019.

        [3]MNIH V,KAVUKCUOGLU K, SILVER D,et al. Human-level control through deep reinforcement learning[J]. Nature,2015(7540):529-533.

        [4]尹璐.基于深度強化學(xué)習(xí)的交通燈配時優(yōu)化技術(shù)的研究[D].沈陽:沈陽理工大學(xué),2020.

        [5]DU T, BOURDEV L, FERGUS R, et al. Learning Spatiotemporal Features with 3D Convolutional Networks[C]//International Conference on Computer Vision. IEEE Computer Society,2015:4489-4497.

        猜你喜歡
        控制策略模型
        一半模型
        考慮虛擬慣性的VSC-MTDC改進下垂控制策略
        能源工程(2020年6期)2021-01-26 00:55:22
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        工程造價控制策略
        山東冶金(2019年3期)2019-07-10 00:54:04
        現(xiàn)代企業(yè)會計的內(nèi)部控制策略探討
        3D打印中的模型分割與打包
        容錯逆變器直接轉(zhuǎn)矩控制策略
        基于Z源逆變器的STATCOM/BESS控制策略研究
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        波多野结衣在线播放| 亚洲国产精品免费一区| 国产成人亚洲综合二区| 偷拍综合在线视频二区| 免费看黄色电影| 亚洲A∨无码国产精品久久网| 极品少妇一区二区三区四区| 色婷婷久久亚洲综合看片| 国产女主播精品大秀系列| 精品五月天| 一本色道久久综合亚州精品| 加勒比东京热中文字幕| 久久久国产精品黄毛片| 久久免费大片| 澳门精品一区二区三区| 久久综合伊人77777麻豆| 麻麻张开腿让我爽了一夜| 久久精品国产亚洲一区二区| 天堂av国产一区二区熟女人妻 | 免费无码一区二区三区a片百度 | 亚洲精品乱码久久麻豆| 99re66在线观看精品免费| 日本一卡2卡3卡四卡精品网站| 亚洲色偷拍一区二区三区| 一区二区三区在线乱码| 亚洲av无码一区二区一二区| a级黑人大硬长爽猛出猛进| 国产360激情盗摄一区在线观看 | 久久婷婷五月综合色丁香| 国产精品视频二区不卡| 26uuu欧美日本在线播放| 亚洲黄色av一区二区三区| 欧洲美女黑人粗性暴交| 午夜tv视频免费国产区4| 国产一区二区三区探花| 色老板美国在线观看| 亚洲国产一区二区三区亚瑟| 魔鬼身材极品女神在线 | 亚洲熟妇自偷自拍另欧美| 日韩久久一级毛片| 漂亮人妻被强中文字幕乱码 |