亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于交通路網(wǎng)狀態(tài)感知的交通信號配時優(yōu)化技術(shù)

2021-11-28 03:59:08胡小光胡曉杰

河南科技 2021年16期

胡小光胡曉杰

摘要：本文提出多通道的3D卷積預(yù)測網(wǎng)絡(luò)結(jié)合Double-DQN的配時控制策略，并將其與Deep-Q-learning、Q-learning進行對比分析，進行仿真實驗。結(jié)果表明，多通道的3D卷積預(yù)測網(wǎng)絡(luò)結(jié)合Double-DQN的控制策略明顯優(yōu)于Q-learning和Deep-Q-learning。

關(guān)鍵詞：智能交通信號配時;3D卷積;深度強化學(xué)習(xí);多通道矩陣;Double-DQN

中圖分類號：U491.54文獻標識碼：A文章編號：1003-5168（2021）16-0018-04

Abstract： In this paper， a multi-channel 3D convolution prediction network combined with Double-DQN timing control strategy was proposed， which was compared with Deep-Q-Learning and Q-Learning. The results show that the control strategy of multi-channel 3D convolution prediction network combined with Double-DQN timing control strategy is obviously better than Q-learning and Deep-Q-learning.

Keywords： traffic signal timing control;3D convolution neural network;deep reinforcement learning;multilevel network;Double-DQN

智能交通信號配時是一種緩解交通擁堵的有效手段。智能交通系統(tǒng)（Intelligent Transportation System，ITS）產(chǎn)生于20世紀60年代末70年代初。由于交通狀況是隨機的，可變性以及不確定性強，因此，很難訓(xùn)練出適合的模型對交通信號進行控制。強化學(xué)習(xí)的常見模型是標準的馬爾可夫決策過程（Markov Decision Process，MDP）。強化學(xué)習(xí)是一類重要的機器學(xué)習(xí)技術(shù)，它通過與環(huán)境的交互來學(xué)習(xí)最優(yōu)的控制決策[1]。交通信號控制領(lǐng)域很早就開始運用強化學(xué)習(xí)方法來解決交通控制問題。隨著深度學(xué)習(xí)和強化學(xué)習(xí)的發(fā)展，它們被結(jié)合為深度強化學(xué)習(xí)用來估計[Q]值以代替復(fù)雜的[Q]值表。DeepMind團隊將最新的AlphaGo論文發(fā)布在Nature上，使得深度強化學(xué)習(xí)算法受到多數(shù)研究人員的關(guān)注[2]。隨著交通路網(wǎng)的擴大，道路信息變得復(fù)雜，對智能信號控制模型進行優(yōu)化是探索智能交通的必經(jīng)之路。

1 控制模型

1.1 相位

相位是對交通信號控制的簡單描述。一般情況下，相位越大，交通越容易擁堵。相位一代表南北方向允許通行（南北方向綠燈），東西方向等待（東西方向紅燈）;相位二則與相位一相反。圖1是一個三岔口和一個四岔口的相位模型的相位一（三岔口可以右轉(zhuǎn)、四岔口南北方向綠燈）。信號時長[g]是固定的，指相位持續(xù)的時間。當前，相位信號時長[g]結(jié)束后下一個相位自適應(yīng)選擇合適相位執(zhí)行下個信號時長[g]。信號時長[g]可以根據(jù)不同大小的仿真交通地圖更改，從而得到合適的信號時長[g]。

1.2 強化學(xué)習(xí)控制模型

強化學(xué)習(xí)控制模型如圖2所示。交通燈控制智能體（Agent）通過實時地與環(huán)境進行交互，在每個時間步[t]，控制智能體（Agent）獲取到路網(wǎng)的狀態(tài)[St]和獎勵[r]，同時返回給路網(wǎng)一個最優(yōu)控制命令。

1.3 Double-DQN

在智能交通信號配時中，隨著時間的推動，Q-learning中建立復(fù)雜的[Q]值表變得尤其煩瑣。因此，需要訓(xùn)練一個價值神經(jīng)網(wǎng)絡(luò)Vnet來實時計算出預(yù)測[Q]值，在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時，路網(wǎng)的狀態(tài)[St]、動作[a]和獎勵[r]作為輸入。

為解決DQN中[Q]值過高估計的問題，在Double-DQN里，不再是直接在目標Q網(wǎng)絡(luò)里找各個動作中最大值，而是先在當前Q網(wǎng)絡(luò)中找出最大[Q]值對應(yīng)的動作，然后利用這個選擇出來的動作amax（S′j，w）在目標網(wǎng)絡(luò)里面計算目標[Q]值。研究結(jié)果表明：Q-learning、DQN兩種算法[3]在應(yīng)用過程中都有可能得到不符合實際情況的高動作值。Double-DQN算法通過下列基本原理解決這一問題：不再是直接在目標Q網(wǎng)絡(luò)里面找各個動作中最大[Q]值，而是先在當前Q網(wǎng)絡(luò)中先找出最大[Q]值對應(yīng)的動作。

2 基于Double-DQN的交通信號控制算法

2.1 建立多個交叉感受野的路網(wǎng)模型

卷積神經(jīng)網(wǎng)絡(luò)仿造生物的視知覺機制構(gòu)建，可以進行監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)，其隱含層內(nèi)的卷積核參數(shù)共享和層間連接的稀疏性使得卷積神經(jīng)網(wǎng)絡(luò)能夠以較小的計算量對格點化特征，例如，像素和音頻進行學(xué)習(xí)、有穩(wěn)定的效果且對數(shù)據(jù)沒有額外的特征工程要求。本研究采用卷積神經(jīng)網(wǎng)絡(luò)對路網(wǎng)進行特征提取[4]。

因為神經(jīng)網(wǎng)絡(luò)的輸入是矩陣，所以研究者把收集到的路網(wǎng)狀態(tài)信息轉(zhuǎn)變?yōu)榫仃嚨男问?，作為預(yù)測神經(jīng)網(wǎng)絡(luò)的輸入，在收集道路信息時按照空間順序進行移動來收集道路特征。如圖3所示，將路網(wǎng)劃分成多個相互重疊的區(qū)域，不僅保證了不同區(qū)域之間的關(guān)聯(lián)性，并且保證了對路網(wǎng)感知的全局性。

2.2 路網(wǎng)狀態(tài)獲取

根據(jù)路網(wǎng)道路的車輛密度和車輛平均通過速度來刻畫狀態(tài)[St]。先將整個路網(wǎng)分成若干個相互重疊的區(qū)域，按照每個區(qū)域?qū)β肪W(wǎng)進行遍歷和規(guī)范化，規(guī)范化后得到多通道的矩陣[C]。

2.3 車輛密度和車輛平均行駛速度計算

2.3.1 道路車輛密度[d]計算。假定在交通路網(wǎng)中各邊道路共計[q]條，各車道長[long]，有車輛[m]臺，汽車長設(shè)定為[vehicle_long]，則路網(wǎng)車輛密度[d]計算公式為：

2.3.2 車輛平均行駛速度[ave_v]計算。假定在某一條道路上，道路長度為[long]，[tm]時間段內(nèi)通過此道路的車輛數(shù)為[m]臺，則在時間段[tm]內(nèi)車輛的平均行駛速度計算公式為：

2.4 多通道的3D卷積預(yù)測網(wǎng)絡(luò)結(jié)合Double-DQN

3D卷積神經(jīng)網(wǎng)絡(luò)的輸入是通過堆疊多個連續(xù)的幀組成一個立方體，然后在立方體中運用3D卷積核。與2D卷積神經(jīng)網(wǎng)絡(luò)相比，3D卷積神經(jīng)網(wǎng)絡(luò)更適合用于對時空特征的提取方面，這主要是因為3D卷積神經(jīng)網(wǎng)絡(luò)模型能更有效地建立時間相關(guān)數(shù)據(jù)模型[5]。本研究在收集路網(wǎng)狀態(tài)信息時，收集3個連續(xù)的時間片段，且每一個時間片段均對路網(wǎng)進行寬度優(yōu)先遍歷，分別收集每條道路中的四個交通狀態(tài)特征：流出車輛的密度、流入車輛的密度、流入道路車輛通過速度、流出道路車輛通過速度。這樣就可以得到12個道路狀態(tài)矩陣，如圖4所示，從而作為預(yù)測神經(jīng)網(wǎng)絡(luò)的輸入，在融合時間特征的基礎(chǔ)上收集多個通道的道路狀態(tài)特征，為神經(jīng)網(wǎng)絡(luò)的輸入做了重要的數(shù)據(jù)貢獻。

2.5 Inception模型在預(yù)測網(wǎng)絡(luò)中的應(yīng)用

受Inception V1、V2模型啟發(fā)，在3D卷積神經(jīng)網(wǎng)絡(luò)中引進了Inception V1、V2模型，引入1×1卷積核，以降低卷積運算量，同時增加了網(wǎng)絡(luò)層數(shù)，用多個小的卷積核代替某一個或多個大的卷積核，大大節(jié)省了網(wǎng)絡(luò)訓(xùn)練參數(shù)的個數(shù)。

2.5.1 Inception V2網(wǎng)絡(luò)模型。借鑒Inception V2模型，以感受野尺寸25為例，用兩個3×3的卷積核代替之前5×5的卷積核，擁有相同的感受野，可以節(jié)省網(wǎng)絡(luò)訓(xùn)練的參數(shù)個數(shù)。

之前的訓(xùn)練參數(shù)：

式中：[C1]是輸入矩陣通道數(shù);[C2]是卷積核個數(shù)。

改進后訓(xùn)練參數(shù)：

式中：[C1]是輸入矩陣通道數(shù);[C2]是卷積核個數(shù)。

改進后的網(wǎng)絡(luò)訓(xùn)練參數(shù)明顯減少，網(wǎng)絡(luò)深度加深，網(wǎng)絡(luò)的非線性映射和網(wǎng)絡(luò)的擬合能力增強。但是，Inception V2模型的缺點也很明顯，由于神經(jīng)網(wǎng)絡(luò)用兩個3×3的卷積核代替之前5×5的卷積核，使得卷積運算量變大，加入Inception V2模型后卷積運算量變大為3.6萬。

2.5.2 解決預(yù)測神經(jīng)網(wǎng)絡(luò)卷積運算量過大問題。為了解決因引入Inception V2模型使得卷積運算量變大這一問題，考慮在預(yù)測神經(jīng)網(wǎng)絡(luò)中加入1×1卷積核。1×1卷積核有跨通道特征整合、特征通道的升維降維、降低卷積運算量的作用。在本試驗中以感受野尺寸25為例，在引入Inception V2模型的基礎(chǔ)上每兩層神經(jīng)網(wǎng)絡(luò)中間加入6個1×1卷積核后使得原來的卷計算量由3.6萬降低為2.5萬，在加深了網(wǎng)絡(luò)深度的基礎(chǔ)上盡可能地降低卷積運算量。預(yù)測神經(jīng)網(wǎng)絡(luò)的設(shè)計如表1所示，共有8層神經(jīng)網(wǎng)絡(luò)（Conv1—Conv8）。

3 仿真試驗

3.1 SUMO仿真試驗

為了對Deep-Q-learning、Q-learning以及多通道的3D卷積結(jié)合Double-DQN配時控制策略性能進行對比，研究者將三種控制策略同時分配在城市交通仿真系統(tǒng)（Simulation of Urban Mobility，SUMO）中，用SUMO系統(tǒng)模擬交通車輛的行駛，并記錄需要進行對比的性能指標，從而得出結(jié)論。仿真試驗的路網(wǎng)設(shè)定交叉口總計160個，共有123個交叉口有紅綠燈，15個出車點，15個收車點。試驗分為2.5 s和5 s兩個流量級別，0 s自起點出發(fā)，經(jīng)過特定間隔依序出發(fā)去向終點，出車總時長20 000 s。

3.2 仿真試驗結(jié)果分析

本試驗使用兩個指標用來衡量Q-learning、Deep-Q-learning以及多通道的3D卷積結(jié)合Double-DQN三種不同控制策略的性能。其中，指標一是車輛在10 s內(nèi)的平均等待時間，指標二是當前時刻全路網(wǎng)中的車輛總數(shù)，這兩個衡量指標都是越小代表控制策略性能越優(yōu)秀。圖6是在SUMO仿真環(huán)境下設(shè)置1、2級流量，Q-learning、Deep-Q-learning以及多通道的3D卷積結(jié)合Double-DQN三種不同控制策略的兩種性能指標結(jié)果分析圖。

根據(jù)試驗結(jié)果分析圖可知，多通道的3D卷積結(jié)合Double-DQN的控制策略明顯優(yōu)于Q-learning和Deep-Q-learning這兩種控制策略。

參考文獻：

[1]SUTTON R S，BATO A G.Reinforcement learning： an introduction[J]. IEEE Transactions on Neural Networks，1998（5）：1054.

[2]高思琦.基于深度強化學(xué)習(xí)的多智能體城市道路交叉口交通流優(yōu)化控制研究[D].福州：福建工程學(xué)院，2019.

[3]MNIH V，KAVUKCUOGLU K， SILVER D，et al. Human-level control through deep reinforcement learning[J]. Nature，2015（7540）：529-533.

[4]尹璐.基于深度強化學(xué)習(xí)的交通燈配時優(yōu)化技術(shù)的研究[D].沈陽：沈陽理工大學(xué)，2020.

[5]DU T， BOURDEV L， FERGUS R， et al. Learning Spatiotemporal Features with 3D Convolutional Networks[C]//International Conference on Computer Vision. IEEE Computer Society，2015：4489-4497.