胡小光 胡曉杰
摘 要:本文提出多通道的3D卷積預(yù)測網(wǎng)絡(luò)結(jié)合Double-DQN的配時控制策略,并將其與Deep-Q-learning、Q-learning進行對比分析,進行仿真實驗。結(jié)果表明,多通道的3D卷積預(yù)測網(wǎng)絡(luò)結(jié)合Double-DQN的控制策略明顯優(yōu)于Q-learning和Deep-Q-learning。
關(guān)鍵詞:智能交通信號配時;3D卷積;深度強化學(xué)習(xí);多通道矩陣;Double-DQN
中圖分類號:U491.54文獻標識碼:A文章編號:1003-5168(2021)16-0018-04
Abstract: In this paper, a multi-channel 3D convolution prediction network combined with Double-DQN timing control strategy was proposed, which was compared with Deep-Q-Learning and Q-Learning. The results show that the control strategy of multi-channel 3D convolution prediction network combined with Double-DQN timing control strategy is obviously better than Q-learning and Deep-Q-learning.
Keywords: traffic signal timing control;3D convolution neural network;deep reinforcement learning;multilevel network;Double-DQN
智能交通信號配時是一種緩解交通擁堵的有效手段。智能交通系統(tǒng)(Intelligent Transportation System,ITS)產(chǎn)生于20世紀60年代末70年代初。由于交通狀況是隨機的,可變性以及不確定性強,因此,很難訓(xùn)練出適合的模型對交通信號進行控制。強化學(xué)習(xí)的常見模型是標準的馬爾可夫決策過程(Markov Decision Process,MDP)。強化學(xué)習(xí)是一類重要的機器學(xué)習(xí)技術(shù),它通過與環(huán)境的交互來學(xué)習(xí)最優(yōu)的控制決策[1]。交通信號控制領(lǐng)域很早就開始運用強化學(xué)習(xí)方法來解決交通控制問題。隨著深度學(xué)習(xí)和強化學(xué)習(xí)的發(fā)展,它們被結(jié)合為深度強化學(xué)習(xí)用來估計[Q]值以代替復(fù)雜的[Q]值表。DeepMind團隊將最新的AlphaGo論文發(fā)布在Nature上,使得深度強化學(xué)習(xí)算法受到多數(shù)研究人員的關(guān)注[2]。隨著交通路網(wǎng)的擴大,道路信息變得復(fù)雜,對智能信號控制模型進行優(yōu)化是探索智能交通的必經(jīng)之路。
1 控制模型
1.1 相位
相位是對交通信號控制的簡單描述。一般情況下,相位越大,交通越容易擁堵。相位一代表南北方向允許通行(南北方向綠燈),東西方向等待(東西方向紅燈);相位二則與相位一相反。圖1是一個三岔口和一個四岔口的相位模型的相位一(三岔口可以右轉(zhuǎn)、四岔口南北方向綠燈)。信號時長[g]是固定的,指相位持續(xù)的時間。當前,相位信號時長[g]結(jié)束后下一個相位自適應(yīng)選擇合適相位執(zhí)行下個信號時長[g]。信號時長[g]可以根據(jù)不同大小的仿真交通地圖更改,從而得到合適的信號時長[g]。
1.2 強化學(xué)習(xí)控制模型
強化學(xué)習(xí)控制模型如圖2所示。交通燈控制智能體(Agent)通過實時地與環(huán)境進行交互,在每個時間步[t],控制智能體(Agent)獲取到路網(wǎng)的狀態(tài)[St]和獎勵[r],同時返回給路網(wǎng)一個最優(yōu)控制命令。
1.3 Double-DQN
在智能交通信號配時中,隨著時間的推動,Q-learning中建立復(fù)雜的[Q]值表變得尤其煩瑣。因此,需要訓(xùn)練一個價值神經(jīng)網(wǎng)絡(luò)Vnet來實時計算出預(yù)測[Q]值,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,路網(wǎng)的狀態(tài)[St]、動作[a]和獎勵[r]作為輸入。
為解決DQN中[Q]值過高估計的問題,在Double-DQN里,不再是直接在目標Q網(wǎng)絡(luò)里找各個動作中最大值,而是先在當前Q網(wǎng)絡(luò)中找出最大[Q]值對應(yīng)的動作,然后利用這個選擇出來的動作amax(S′j,w)在目標網(wǎng)絡(luò)里面計算目標[Q]值。研究結(jié)果表明:Q-learning、DQN兩種算法[3]在應(yīng)用過程中都有可能得到不符合實際情況的高動作值。Double-DQN算法通過下列基本原理解決這一問題:不再是直接在目標Q網(wǎng)絡(luò)里面找各個動作中最大[Q]值,而是先在當前Q網(wǎng)絡(luò)中先找出最大[Q]值對應(yīng)的動作。
2 基于Double-DQN的交通信號控制算法
2.1 建立多個交叉感受野的路網(wǎng)模型
卷積神經(jīng)網(wǎng)絡(luò)仿造生物的視知覺機制構(gòu)建,可以進行監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí),其隱含層內(nèi)的卷積核參數(shù)共享和層間連接的稀疏性使得卷積神經(jīng)網(wǎng)絡(luò)能夠以較小的計算量對格點化特征,例如,像素和音頻進行學(xué)習(xí)、有穩(wěn)定的效果且對數(shù)據(jù)沒有額外的特征工程要求。本研究采用卷積神經(jīng)網(wǎng)絡(luò)對路網(wǎng)進行特征提取[4]。
因為神經(jīng)網(wǎng)絡(luò)的輸入是矩陣,所以研究者把收集到的路網(wǎng)狀態(tài)信息轉(zhuǎn)變?yōu)榫仃嚨男问?,作為預(yù)測神經(jīng)網(wǎng)絡(luò)的輸入,在收集道路信息時按照空間順序進行移動來收集道路特征。如圖3所示,將路網(wǎng)劃分成多個相互重疊的區(qū)域,不僅保證了不同區(qū)域之間的關(guān)聯(lián)性,并且保證了對路網(wǎng)感知的全局性。
2.2 路網(wǎng)狀態(tài)獲取
根據(jù)路網(wǎng)道路的車輛密度和車輛平均通過速度來刻畫狀態(tài)[St]。先將整個路網(wǎng)分成若干個相互重疊的區(qū)域,按照每個區(qū)域?qū)β肪W(wǎng)進行遍歷和規(guī)范化,規(guī)范化后得到多通道的矩陣[C]。
2.3 車輛密度和車輛平均行駛速度計算
2.3.1 道路車輛密度[d]計算。假定在交通路網(wǎng)中各邊道路共計[q]條,各車道長[long],有車輛[m]臺,汽車長設(shè)定為[vehicle_long],則路網(wǎng)車輛密度[d]計算公式為:
2.3.2 車輛平均行駛速度[ave_v]計算。假定在某一條道路上,道路長度為[long],[tm]時間段內(nèi)通過此道路的車輛數(shù)為[m]臺,則在時間段[tm]內(nèi)車輛的平均行駛速度計算公式為:
2.4 多通道的3D卷積預(yù)測網(wǎng)絡(luò)結(jié)合Double-DQN
3D卷積神經(jīng)網(wǎng)絡(luò)的輸入是通過堆疊多個連續(xù)的幀組成一個立方體,然后在立方體中運用3D卷積核。與2D卷積神經(jīng)網(wǎng)絡(luò)相比,3D卷積神經(jīng)網(wǎng)絡(luò)更適合用于對時空特征的提取方面,這主要是因為3D卷積神經(jīng)網(wǎng)絡(luò)模型能更有效地建立時間相關(guān)數(shù)據(jù)模型[5]。本研究在收集路網(wǎng)狀態(tài)信息時,收集3個連續(xù)的時間片段,且每一個時間片段均對路網(wǎng)進行寬度優(yōu)先遍歷,分別收集每條道路中的四個交通狀態(tài)特征:流出車輛的密度、流入車輛的密度、流入道路車輛通過速度、流出道路車輛通過速度。這樣就可以得到12個道路狀態(tài)矩陣,如圖4所示,從而作為預(yù)測神經(jīng)網(wǎng)絡(luò)的輸入,在融合時間特征的基礎(chǔ)上收集多個通道的道路狀態(tài)特征,為神經(jīng)網(wǎng)絡(luò)的輸入做了重要的數(shù)據(jù)貢獻。
2.5 Inception模型在預(yù)測網(wǎng)絡(luò)中的應(yīng)用
受Inception V1、V2模型啟發(fā),在3D卷積神經(jīng)網(wǎng)絡(luò)中引進了Inception V1、V2模型,引入1×1卷積核,以降低卷積運算量,同時增加了網(wǎng)絡(luò)層數(shù),用多個小的卷積核代替某一個或多個大的卷積核,大大節(jié)省了網(wǎng)絡(luò)訓(xùn)練參數(shù)的個數(shù)。
2.5.1 Inception V2網(wǎng)絡(luò)模型。借鑒Inception V2模型,以感受野尺寸25為例,用兩個3×3的卷積核代替之前5×5的卷積核,擁有相同的感受野,可以節(jié)省網(wǎng)絡(luò)訓(xùn)練的參數(shù)個數(shù)。
之前的訓(xùn)練參數(shù):
式中:[C1]是輸入矩陣通道數(shù);[C2]是卷積核個數(shù)。
改進后訓(xùn)練參數(shù):
式中:[C1]是輸入矩陣通道數(shù);[C2]是卷積核個數(shù)。
改進后的網(wǎng)絡(luò)訓(xùn)練參數(shù)明顯減少,網(wǎng)絡(luò)深度加深,網(wǎng)絡(luò)的非線性映射和網(wǎng)絡(luò)的擬合能力增強。但是,Inception V2模型的缺點也很明顯,由于神經(jīng)網(wǎng)絡(luò)用兩個3×3的卷積核代替之前5×5的卷積核,使得卷積運算量變大,加入Inception V2模型后卷積運算量變大為3.6萬。
2.5.2 解決預(yù)測神經(jīng)網(wǎng)絡(luò)卷積運算量過大問題。為了解決因引入Inception V2模型使得卷積運算量變大這一問題,考慮在預(yù)測神經(jīng)網(wǎng)絡(luò)中加入1×1卷積核。1×1卷積核有跨通道特征整合、特征通道的升維降維、降低卷積運算量的作用。在本試驗中以感受野尺寸25為例,在引入Inception V2模型的基礎(chǔ)上每兩層神經(jīng)網(wǎng)絡(luò)中間加入6個1×1卷積核后使得原來的卷計算量由3.6萬降低為2.5萬,在加深了網(wǎng)絡(luò)深度的基礎(chǔ)上盡可能地降低卷積運算量。預(yù)測神經(jīng)網(wǎng)絡(luò)的設(shè)計如表1所示,共有8層神經(jīng)網(wǎng)絡(luò)(Conv1—Conv8)。
3 仿真試驗
3.1 SUMO仿真試驗
為了對Deep-Q-learning、Q-learning以及多通道的3D卷積結(jié)合Double-DQN配時控制策略性能進行對比,研究者將三種控制策略同時分配在城市交通仿真系統(tǒng)(Simulation of Urban Mobility,SUMO)中,用SUMO系統(tǒng)模擬交通車輛的行駛,并記錄需要進行對比的性能指標,從而得出結(jié)論。仿真試驗的路網(wǎng)設(shè)定交叉口總計160個,共有123個交叉口有紅綠燈,15個出車點,15個收車點。試驗分為2.5 s和5 s兩個流量級別,0 s自起點出發(fā),經(jīng)過特定間隔依序出發(fā)去向終點,出車總時長20 000 s。
3.2 仿真試驗結(jié)果分析
本試驗使用兩個指標用來衡量Q-learning、Deep-Q-learning以及多通道的3D卷積結(jié)合Double-DQN三種不同控制策略的性能。其中,指標一是車輛在10 s內(nèi)的平均等待時間,指標二是當前時刻全路網(wǎng)中的車輛總數(shù),這兩個衡量指標都是越小代表控制策略性能越優(yōu)秀。圖6是在SUMO仿真環(huán)境下設(shè)置1、2級流量,Q-learning、Deep-Q-learning以及多通道的3D卷積結(jié)合Double-DQN三種不同控制策略的兩種性能指標結(jié)果分析圖。
根據(jù)試驗結(jié)果分析圖可知,多通道的3D卷積結(jié)合Double-DQN的控制策略明顯優(yōu)于Q-learning和Deep-Q-learning這兩種控制策略。
參考文獻:
[1]SUTTON R S,BATO A G.Reinforcement learning: an introduction[J]. IEEE Transactions on Neural Networks,1998(5):1054.
[2]高思琦.基于深度強化學(xué)習(xí)的多智能體城市道路交叉口交通流優(yōu)化控制研究[D].福州:福建工程學(xué)院,2019.
[3]MNIH V,KAVUKCUOGLU K, SILVER D,et al. Human-level control through deep reinforcement learning[J]. Nature,2015(7540):529-533.
[4]尹璐.基于深度強化學(xué)習(xí)的交通燈配時優(yōu)化技術(shù)的研究[D].沈陽:沈陽理工大學(xué),2020.
[5]DU T, BOURDEV L, FERGUS R, et al. Learning Spatiotemporal Features with 3D Convolutional Networks[C]//International Conference on Computer Vision. IEEE Computer Society,2015:4489-4497.