張乾隆,胡智群,肖海林
(湖北大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,武漢 430062)
隨著城市規(guī)模的不斷擴(kuò)大,城市交通擁堵問(wèn)題愈加嚴(yán)重。為了解決擁堵問(wèn)題,如何提高車(chē)輛通行效率近幾年來(lái)被廣泛地進(jìn)行研究。然而,除了駕駛車(chē)輛,行人也是使用道路的主要元素。追求車(chē)輛通行效率所帶來(lái)的潛在行人安全問(wèn)題也不容忽視。據(jù)交通事故統(tǒng)計(jì)[1]22%的行人死亡事故發(fā)生在有標(biāo)志的人行橫道上,超過(guò)30%的行人死亡可以歸因于非法穿越行為。因此,綜合考慮車(chē)輛效率和行人安全的交通信號(hào)控制機(jī)制變得至關(guān)重要。
傳統(tǒng)的基于效率的交通信號(hào)控制通常是基于歷史車(chē)流量預(yù)設(shè)的固定配時(shí)方案,或者基于當(dāng)前車(chē)流狀態(tài)調(diào)整交通信號(hào)時(shí)長(zhǎng),或者基于人工智能算法智能調(diào)整信號(hào)配時(shí)方案。例如SCOOT[2]和SCATS[3]系統(tǒng)已在全世界廣泛使用。但是這些信號(hào)控制方案缺乏自適應(yīng)性和預(yù)見(jiàn)性,甚至導(dǎo)致大量的人力負(fù)擔(dān)。近年來(lái),人工智能技術(shù)在交通控制領(lǐng)域的應(yīng)用有效地解決SCOOT,SCATS系統(tǒng)所面臨的問(wèn)題。文獻(xiàn)[4-5]提出利用Q學(xué)習(xí)算法將交通信號(hào)控制問(wèn)題轉(zhuǎn)換為馬爾可夫決策問(wèn)題,通過(guò)與交通環(huán)境的不斷交互反饋,無(wú)需復(fù)雜的數(shù)學(xué)模型,不斷積累經(jīng)驗(yàn)學(xué)習(xí)最佳的控制策略。由于Q學(xué)習(xí)需要通過(guò)表來(lái)存儲(chǔ)所學(xué)習(xí)到的Q值,當(dāng)網(wǎng)絡(luò)狀態(tài)復(fù)雜且高維時(shí),需要占用較大的內(nèi)存資源,無(wú)法適應(yīng)于復(fù)雜的場(chǎng)景。文獻(xiàn)[6-7]對(duì)Q學(xué)習(xí)進(jìn)行改進(jìn),將DQN算法應(yīng)用在交通信號(hào)控制,通過(guò)深度神經(jīng)網(wǎng)絡(luò)對(duì)Q值進(jìn)行近似,選取最佳交通信號(hào)燈動(dòng)作。由于DQN算法依賴(lài)于找到最大近似Q值,當(dāng)處理連續(xù)動(dòng)作的交通場(chǎng)合時(shí),需要對(duì)每個(gè)步驟迭代優(yōu)化,隨著迭代的增加,量化誤差越來(lái)越大,無(wú)法在連續(xù)復(fù)雜的交通網(wǎng)絡(luò)中找到最優(yōu)策略。文獻(xiàn)[7]提出利用DDPG算法解決Q學(xué)習(xí)應(yīng)用在交通場(chǎng)合時(shí)動(dòng)作空間不連續(xù)問(wèn)題,利用策略網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)組成的雙網(wǎng)絡(luò)結(jié)構(gòu),在與交通環(huán)境交互探索時(shí)對(duì)所選Q值動(dòng)作不斷進(jìn)行梯度計(jì)算調(diào)整,使得智能體傾向于生成車(chē)輛效率更好的動(dòng)作選擇,不斷引導(dǎo)智能體找到最優(yōu)策略。這些策略方法根據(jù)路口車(chē)流量自適應(yīng)的調(diào)整配時(shí)方案,能夠有效地提高路口的通行效率,緩解交通擁堵問(wèn)題。但是這些方案只注重駕駛車(chē)輛,沒(méi)有考慮行人因素。由于車(chē)輛和行人速度相差較大,只考慮車(chē)輛擁堵現(xiàn)象,會(huì)導(dǎo)致綠燈期間行人不能完全通過(guò)馬路,與車(chē)輛產(chǎn)生沖突,安全受到威脅。據(jù)文獻(xiàn)[8]研究發(fā)現(xiàn)79%的行人在交通燈變紅之前沒(méi)有通過(guò)交叉路口。
在有關(guān)行人安全過(guò)馬路的研究中,文獻(xiàn)[9]提出一種行人手動(dòng)激活控制方案,在有過(guò)馬路需求時(shí),行人通過(guò)手動(dòng)按下激活按鈕改變交通信號(hào)燈狀態(tài),以保障安全通過(guò)路口。但是經(jīng)過(guò)研究發(fā)現(xiàn)[10],這種將行人與車(chē)輛分離的控制方案,實(shí)際上大大影響了交通信號(hào)燈控制系統(tǒng)的整體效率。Guo等人[11]和Midenet等人[12]的研究發(fā)現(xiàn)車(chē)輛和行人信號(hào)協(xié)調(diào)控制對(duì)交叉口安全具有積極影響。
為了進(jìn)一步探討車(chē)輛與行人行為對(duì)交通信號(hào)控制的影響,通過(guò)仿真、數(shù)學(xué)模型等手段研究協(xié)調(diào)控制被廣泛研究。文獻(xiàn)[13]考慮行人因素的條件下,提出一種基于遺傳算法的交通信號(hào)燈控制方案。通過(guò)適應(yīng)度函數(shù)表示車(chē)輛與行人的等待數(shù)量,評(píng)價(jià)候選染色體的有效性來(lái)調(diào)控信號(hào)燈。然而所考慮的僅僅是減少行人或者車(chē)輛的等待隊(duì)列長(zhǎng)度,沒(méi)有考慮車(chē)輛和行人整體協(xié)調(diào),在遇到兩者不公平的情形下,設(shè)定車(chē)輛優(yōu)先級(jí)大于行人。文獻(xiàn)[14]綜合考慮了車(chē)輛和行人的隊(duì)列長(zhǎng)度,提出一種基于分布式多智能體強(qiáng)化學(xué)習(xí)的交通信號(hào)控制方案,實(shí)現(xiàn)車(chē)輛與行人等待時(shí)間最小化。但是忽略了行人在綠燈期間可能無(wú)法完全通過(guò)路口,造成與車(chē)輛沖突的問(wèn)題。文獻(xiàn)[15]提出了一種考慮車(chē)輛總延遲和行人安全的全網(wǎng)絡(luò)交通信號(hào)策略。通過(guò)建立行人-車(chē)輛混合流網(wǎng)絡(luò)宏觀模型智能調(diào)控交通信號(hào)燈,過(guò)程中考慮到綠燈閃爍期間行人違規(guī)率較高,在每個(gè)綠燈閃爍期間結(jié)束時(shí)引入一個(gè)動(dòng)態(tài)全紅階段,并根據(jù)違規(guī)行人的數(shù)量自適應(yīng)調(diào)整其持續(xù)時(shí)間。但是動(dòng)作空間里固定了綠燈閃爍時(shí)間而且持續(xù)時(shí)間較長(zhǎng),由于行人往往忽略綠燈閃爍剩余時(shí)間強(qiáng)行通過(guò)路口,會(huì)導(dǎo)致每一動(dòng)態(tài)全紅階段持續(xù)時(shí)間都較長(zhǎng),大大影響了車(chē)輛通行效率。
為了協(xié)調(diào)車(chē)輛效率和行人安全,本文提出了一種基于行人安全的交通信號(hào)燈智能控制方案,通過(guò)對(duì)交叉口流量的實(shí)時(shí)觀測(cè),綜合考慮行人違規(guī)和車(chē)輛效率存在的矛盾,精準(zhǔn)設(shè)計(jì)強(qiáng)化學(xué)習(xí)架構(gòu)中的獎(jiǎng)勵(lì)函數(shù)引導(dǎo)智能體學(xué)習(xí),智能地調(diào)控交通信號(hào)周期時(shí)長(zhǎng),相位順序以及相位持續(xù)時(shí)間,實(shí)現(xiàn)交叉路口安全高效的智能控制,同時(shí),采用基于優(yōu)先經(jīng)驗(yàn)的樣本采樣和方差縮放,加速了算法收斂。研究結(jié)果表明,基于行人安全配時(shí)方案在行人與車(chē)輛沖突量,車(chē)輛的排隊(duì)長(zhǎng)度、等待時(shí)間和平均速度等方面均優(yōu)于固定配時(shí)方案和DQN配時(shí)方案。
在交通信號(hào)燈控制中,自適應(yīng)地調(diào)整周期時(shí)長(zhǎng)、相位順序和相位持續(xù)時(shí)間可以看成典型的馬爾可夫決策問(wèn)題,它很好的符合強(qiáng)化學(xué)習(xí)(RL,reinforcement learning)框架。智能體通過(guò)和交叉路口環(huán)境交互,獲取環(huán)境狀態(tài)st,隨后采用“試錯(cuò)”機(jī)制尋找最佳策略π。在每次探索過(guò)程中,智能體根據(jù)所選策略執(zhí)行動(dòng)作at,動(dòng)作執(zhí)行后將積累的獎(jiǎng)勵(lì)值rt和交叉口下一狀態(tài)st+1返還給智能體,智能體以獎(jiǎng)勵(lì)值為導(dǎo)向?qū)?dòng)作評(píng)估,不斷更新策略,如此循環(huán)以尋找最大預(yù)期值Q。如公式(1):
Qπ(s,a) =E[rt+γrt + 1+γ2rt + 2+...|st=s,
(1)
式中,Q(s,a)定義為智能體接收到交叉路口車(chē)輛和行人狀態(tài)s時(shí),交通信號(hào)燈采取動(dòng)作a時(shí)所獲得的未來(lái)累計(jì)獎(jiǎng)勵(lì);γ∈[0,1]為折扣因子,表明了未來(lái)交通信號(hào)燈配時(shí)方案回報(bào)相對(duì)于當(dāng)前配時(shí)方案回報(bào)的重要程度。
隨后通過(guò)貝爾曼公式不斷更新值函數(shù)直至逼近最優(yōu)值函數(shù),由此智能體學(xué)習(xí)最優(yōu)策略π*,如公式(2):
(2)
DDPG算法是一種基于策略梯度的RL算法,可以通過(guò)與交通系統(tǒng)在線互動(dòng)輸出連續(xù)的動(dòng)作。算法采用行動(dòng)者-評(píng)判家(AC,actor-critic)框架,通過(guò)相同的神經(jīng)網(wǎng)絡(luò)架構(gòu),構(gòu)成當(dāng)前Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò),目標(biāo)Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò),協(xié)作完成算法的決策與更新。
▽?duì)圈蘆≈E[▽?duì)圈蘍(s,μ(s|θμ)|θQ)=
E[▽aQ(s,μ(s)|θQ)▽?duì)圈苔?s|θμ)]
(3)
當(dāng)前Critic網(wǎng)絡(luò)用于擬合并參數(shù)化Q函數(shù)為Q(s,a|θQ),并采用均方誤差形式完成對(duì)當(dāng)前交通信號(hào)燈配時(shí)方案的實(shí)時(shí)評(píng)估,具體形式如公式(4):
(4)
式中,yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′),μ′和Q′分別對(duì)應(yīng)目標(biāo)Actor網(wǎng)絡(luò)和目標(biāo)Critic網(wǎng)絡(luò)。其中,目標(biāo)Actor網(wǎng)絡(luò)用于輸出估計(jì)的交通信號(hào)燈配時(shí)方案,目標(biāo)Critic網(wǎng)絡(luò)用于輸出對(duì)估計(jì)的交通信號(hào)燈配時(shí)方案評(píng)估。
當(dāng)前Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)通過(guò)從記憶庫(kù)中采樣實(shí)現(xiàn)更新,而目標(biāo)Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的更新采用軟更新的形式,能夠使得目標(biāo)網(wǎng)絡(luò)參數(shù)變化小,訓(xùn)練更易于收斂。軟更新的具體形式如式(5):
θμ′←τθμ+(1-τ)θμ′
(5a)
θQ′←τθQ+(1-τ)θQ′
(5b)
1.2.1 交叉口行人交通背景
行人在穿越路口時(shí),往往不會(huì)注意綠燈剩余時(shí)間,經(jīng)常會(huì)發(fā)生還沒(méi)有完全通過(guò)路口,信號(hào)燈就變成了紅燈的情況;老年人和兒童在通過(guò)路口的時(shí)候,往往會(huì)因?yàn)樗俣冗^(guò)慢而不能在綠燈期間通過(guò)路口;攜帶較多、較重物品的行人在通過(guò)路口時(shí)同樣也會(huì)遇到相同的情況。這些情況下,行人安全難以保證。行人在規(guī)定綠燈時(shí)間內(nèi),不能按時(shí)通過(guò)交叉口,極易和車(chē)輛產(chǎn)生沖突,一方面行人安全難以保證,另一方面造成交通阻塞。以前的交通信號(hào)燈智能控制方案往往只專(zhuān)注于提高車(chē)輛效率,而忽略了行人,這實(shí)際上有很大的安全隱患。因此,智能交通有必要將行人不確定因素考慮進(jìn)去,尤其是行人較多的例如學(xué)校、醫(yī)院等旁邊的交叉路口。
通過(guò)實(shí)際行人交通背景我們可以知道,行人經(jīng)常會(huì)發(fā)生不能在規(guī)定時(shí)間內(nèi)通過(guò)交叉口的情況[16-17]。因?yàn)閺?qiáng)化學(xué)習(xí)特殊的“試錯(cuò)”學(xué)習(xí)機(jī)制,這實(shí)際上可以作為一條條寶貴的“學(xué)習(xí)經(jīng)驗(yàn)”供智能體學(xué)習(xí),以保證智能體能夠有效的學(xué)習(xí)行人行為,進(jìn)而保障行人安全。
1.2.2 PRE-DDPG算法設(shè)計(jì)
DDPG算法中當(dāng)前Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)在采樣更新時(shí)認(rèn)為記憶庫(kù)中所有經(jīng)驗(yàn)都一樣重要,因此它等概率地從經(jīng)驗(yàn)池中選取一定數(shù)目的樣本來(lái)訓(xùn)練網(wǎng)絡(luò)。而實(shí)際上,通過(guò)行人交通背景分析知道,在交叉口行人不能按時(shí)通過(guò)時(shí),智能體理應(yīng)獲取一個(gè)較差的“經(jīng)驗(yàn)”,以避免這種情況的發(fā)生。因此,為了更有效地保證行人安全,合理處理交叉口行人與車(chē)輛行為實(shí)際經(jīng)驗(yàn),結(jié)合獎(jiǎng)勵(lì)值函數(shù)的精準(zhǔn)設(shè)計(jì),提出一種基于優(yōu)先經(jīng)驗(yàn)回放的DDPG(PER-DDPG,DDPG with prioritized experience replay)行人安全算法,并在記憶庫(kù)滿(mǎn)了后對(duì)方差進(jìn)行0.999的縮放,以提高優(yōu)先級(jí)大的樣本的利用率,進(jìn)而提高學(xué)習(xí)的效率,加快算法收斂。TD誤差δ(t)計(jì)算如式(6)所示:
δ(t)=Rt+1+γQ(St+1,At+1)-Q(St,At)
(6)
定義抽取樣本的概率如式(7)所示:
pi=|δ(t)|+ε
(7)
其中:ε用于防止概率為0。
為了避免每次抽樣都需要針對(duì)p對(duì)所有樣本排序,采用SumTree的樹(shù)形結(jié)構(gòu)對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)。SumTree是一種樹(shù)形結(jié)構(gòu),每片樹(shù)葉存儲(chǔ)每個(gè)樣本的優(yōu)先級(jí)p,每個(gè)樹(shù)枝節(jié)點(diǎn)只有兩個(gè)分叉,節(jié)點(diǎn)的值是兩個(gè)分叉的和。數(shù)據(jù)采樣時(shí),將優(yōu)先級(jí)p的總和除以抽樣數(shù),得到區(qū)間數(shù),然后在每個(gè)區(qū)間里隨機(jī)選取一個(gè)數(shù),將此數(shù)從SumTree的根節(jié)點(diǎn)開(kāi)始按照一定規(guī)律向下搜索,最后將搜索得到的優(yōu)先級(jí)p與樣本數(shù)據(jù)相對(duì)應(yīng),即可實(shí)現(xiàn)更為高效的經(jīng)驗(yàn)回放。SumTree結(jié)構(gòu)如圖1所示。
圖1 SumTree結(jié)構(gòu)圖
本小節(jié)主要闡述行人安全智能交通燈控制算法中狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)的設(shè)計(jì)和信號(hào)燈控制模型的建立。
1.3.1 狀態(tài)
狀態(tài)為在每一時(shí)間步中,智能體接收到關(guān)于交叉路口環(huán)境的定量描述。本設(shè)計(jì)將路口車(chē)輛等待數(shù)量,行人與車(chē)輛的沖突量作為狀態(tài)輸入。定義狀態(tài)表達(dá)式如下所示:
st={w1,...,wn,v1,...,vn}
(8)
式中,w1,...,wn表示道路nn上車(chē)輛的平均等待數(shù)量;v1,...,vn表示人行橫道n上行人與車(chē)輛的沖突量。
1.3.2 動(dòng)作
本設(shè)計(jì)將動(dòng)作設(shè)置為交通信號(hào)燈周期可變、相位可變和相位持續(xù)時(shí)間可變。定義動(dòng)作如式(9)所示:
at={c,p1,...,p6,d1,...,dm}
(9)
式中,cc代表決定下一周期持續(xù)時(shí)間的時(shí)長(zhǎng),為避免周期過(guò)大或過(guò)小,將周期限制在內(nèi)[cminT,cmaxT],cmin,cmax,T分別取0.6,2,90;p1,...,p6表示下一周期相位持續(xù)順序;d1,...,dm表示下一周期內(nèi)各階段的持續(xù)時(shí)長(zhǎng)的比例因子,通過(guò)與環(huán)境交互后由softmax歸一化處理確定。
1.3.3 獎(jiǎng)勵(lì)
為有效保證行人安全,我們?cè)O(shè)定只有在綠燈亮起范圍內(nèi)通過(guò)路口的行人才是合法的,其他各階段行人出現(xiàn)在人行橫道上均視為違規(guī)行為,視為與車(chē)輛正常行駛發(fā)生沖突,此時(shí)行人數(shù)量稱(chēng)為行人與車(chē)輛的沖突量。由此,在評(píng)價(jià)行人過(guò)路口是否安全時(shí),我們以每一時(shí)刻行人與車(chē)輛的沖突量多少來(lái)反映,智能體通過(guò)學(xué)習(xí)減少?zèng)_突量來(lái)保障行人安全。在評(píng)價(jià)車(chē)輛通行效率時(shí),評(píng)價(jià)指標(biāo)為每條道路上車(chē)輛的平均速度。
綜上所述,本文充分考慮行人安全和車(chē)輛通行效率存在的矛盾及行人與車(chē)輛不同行為所帶來(lái)的不同經(jīng)驗(yàn),定義獎(jiǎng)勵(lì)函數(shù)如下所示:
(10)
1.3.4 基于行人安全的交通信號(hào)燈控制模型
本模型綜合考慮了交叉口行人安全和車(chē)輛效率,通過(guò)共享行人與車(chē)輛狀態(tài),賦予路口智能體更為廣闊的觀測(cè)視野,同時(shí),采用優(yōu)先經(jīng)驗(yàn)回放提高采樣效率,加速算法收斂,使智能體能夠通過(guò)觀測(cè)的全局狀態(tài)及時(shí)調(diào)控自身策略,導(dǎo)出全局最優(yōu)Q值,基于行人安全的交通信號(hào)控制結(jié)構(gòu)如圖2所示。
圖2 基于行人安全的交通信號(hào)控制結(jié)構(gòu)示意圖
每一回合開(kāi)始,讀取相同的行人與車(chē)輛流量文件,以一個(gè)周期為頻率更新信號(hào)配時(shí)。當(dāng)前Actor網(wǎng)絡(luò)的輸出確定下一周期的時(shí)長(zhǎng)、相位順序及相位持續(xù)時(shí)間。當(dāng)一個(gè)周期結(jié)束以后通過(guò)目標(biāo)Actor網(wǎng)絡(luò)和目標(biāo)Critic網(wǎng)絡(luò)的輸出值函數(shù)與當(dāng)前Critic網(wǎng)絡(luò)輸出的值函數(shù)計(jì)算出TD誤差,并按概率大小存儲(chǔ)到優(yōu)先經(jīng)驗(yàn)回放池,當(dāng)前Critic網(wǎng)絡(luò)從優(yōu)先經(jīng)驗(yàn)池中按概率抽樣更新,進(jìn)而指導(dǎo)當(dāng)前Actor在下一時(shí)刻作出包含更少?zèng)_突量和更高車(chē)輛效率的配時(shí)方案,以不斷完善策略,如此循環(huán)直至達(dá)到最終仿真時(shí)長(zhǎng)。基于行人安全的交通燈智能控制模型偽代碼如算法1所示。
算法1基于行人安全的交通信號(hào)燈控制模型
初始化:隨機(jī)初始化當(dāng)前Actor 神經(jīng)網(wǎng)絡(luò)μ(st|θμ)和當(dāng)前Critic 神經(jīng)網(wǎng)絡(luò)Q(s,a|θQ),初始化目標(biāo)網(wǎng)絡(luò)μ′和Q′,記憶庫(kù)R和高斯噪聲N。
算法:
1)for episode = 1, M do:
2)在SUMO平臺(tái)上導(dǎo)入行人與車(chē)輛流量文件
3)隨機(jī)初始化分布N用作動(dòng)作探索
4)初始化初始狀態(tài)s0
5)for step = 1, 10800 do:
6)Actor 網(wǎng)絡(luò)獲取當(dāng)前路口行人與車(chē)輛沖突量
信息和路口車(chē)輛通行速度信息,并根據(jù)當(dāng)前的策略選取動(dòng)作傳遞給交通信號(hào)燈執(zhí)行,即ai=μ(sj|θμ)+N
7)Actor網(wǎng)絡(luò)將獲取的路口行人與車(chē)輛數(shù)據(jù)
(si,ai,ri,si+1)存儲(chǔ)在記憶庫(kù)中,以作為網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)
的數(shù)據(jù)集。
8)計(jì)算記憶庫(kù)R中樣本抽樣概率
9)pi=|δ(t)|+ε
10)將搜索得到的優(yōu)先級(jí)p與樣本數(shù)據(jù)相對(duì)應(yīng),作
為當(dāng)前Actor網(wǎng)絡(luò)和當(dāng)前Critic網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)
11)yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′)
12)記憶庫(kù)存儲(chǔ)滿(mǎn)后對(duì)方差進(jìn)行0.999的縮放
13)根據(jù)公式(3)更新當(dāng)前 Actor 網(wǎng)絡(luò)
14)根據(jù)公式(4更新當(dāng)前Critic網(wǎng)絡(luò)
15)更新目標(biāo)網(wǎng)絡(luò)
16)θμ′←τθμ+(1-τ)θμ′
θμ′←τθμ+(1-τ)θμ′
17)end for
18)end for
交通仿真環(huán)境采用SUOM1.9.0(simulation of urban mobility,城市交通仿真)搭建,并利用TraCI接口完成與算法的在線交互。算法環(huán)境采用python3.6.6+TensorFlow1.1.2搭建完成。
2.1.1 單路口屬性設(shè)置
針對(duì)單路口進(jìn)行仿真分析,道路為4車(chē)道,每條路長(zhǎng)150 m,從里到外分別為:左轉(zhuǎn)或直行,直行,右轉(zhuǎn),人行道。其中車(chē)道限速為34 km/h,人行道限速為1 m/s,人行橫道速限速為1.3 m/s。在仿真中不考慮車(chē)輛右轉(zhuǎn)的情況。
2.1.2 交通燈初始屬性設(shè)置
交通燈屬性設(shè)置按SUMO官方推薦四車(chē)道設(shè)置,具體見(jiàn)表1。
表1 交通信號(hào)燈初始相位設(shè)置
2.1.3 流量設(shè)置
車(chē)輛和行人的到達(dá)服從泊松分布,根據(jù)在不同時(shí)間段更改車(chē)輛和行人到達(dá)概率有效模擬出“早高峰”、“晚高峰”和“超低峰”等場(chǎng)景,從而反映出一天內(nèi)真實(shí)的流量環(huán)境。將一天的交通流量進(jìn)行壓縮至3個(gè)小時(shí)(10 800 s)進(jìn)行仿真實(shí)驗(yàn)。分為0~1 350 s,1 350~3 150 s,3 150~4 050 s,4 050~5 400 s,5 400~6 300 s,6 300~7 650 s,7 650~8 550 s,8 550~10 800 s共8個(gè)時(shí)間段對(duì)流量進(jìn)行統(tǒng)計(jì)。各時(shí)間段內(nèi)的到達(dá)流量如圖3所示。車(chē)輛隨機(jī)進(jìn)入交叉口的入口并提前選擇所在車(chē)道,駛出路口時(shí)隨機(jī)選擇目標(biāo)車(chē)道,行人隨機(jī)進(jìn)入交叉口的入口,直行通過(guò)路口。
圖3 車(chē)輛與行人流量分布柱狀圖
2.1.4 參數(shù)選取
神經(jīng)網(wǎng)絡(luò)參數(shù)及其余參數(shù)選取參考文獻(xiàn)[18-19],實(shí)際使用中根據(jù)學(xué)習(xí)情況作適當(dāng)調(diào)整,具體參數(shù)如表2和表3所示。
表2 神經(jīng)網(wǎng)絡(luò)參數(shù)
表3 其余參數(shù)
為了測(cè)試模型的有效性,將本文方法與以下方法進(jìn)行對(duì)比。各方案配備相同的路口屬性和行人與車(chē)輛流量,如2.1.1和2.1.3所示。
1)固定配時(shí)方案。交通燈的相位及相位持續(xù)時(shí)間設(shè)置如2.1.2節(jié),方案中利用SUMO的TraCI接口直接獲取每一時(shí)刻行人與車(chē)輛沖突量,車(chē)輛的平均速度等數(shù)據(jù)來(lái)反映路口車(chē)輛通行效率和行人安全度。
2)DQN算法配時(shí)方案[20]。狀態(tài)設(shè)定為路口車(chē)輛位置-速度矩陣和行人位置-速度矩陣;初始動(dòng)作設(shè)定為每個(gè)子階段10 s,學(xué)習(xí)后智能體根據(jù)路口流量動(dòng)態(tài)地改變相位持續(xù)時(shí)間(可以為0 s);獎(jiǎng)勵(lì)值函數(shù)設(shè)定同行人安全配時(shí)方案保持一致。方案中相關(guān)參數(shù)設(shè)置見(jiàn)表4所示。
表4 DQN配時(shí)方案相關(guān)參數(shù)
為了驗(yàn)證本研究的有效性和可用性,需要進(jìn)行仿真實(shí)驗(yàn)回答以下兩個(gè)問(wèn)題:
問(wèn)題1:本研究是否能夠提高行人安全性?即在相同的實(shí)驗(yàn)環(huán)境下與對(duì)比方案相比,平均沖突量是否有明顯降低?
問(wèn)題2:本研究是否兼顧了行人安全和車(chē)輛效率?即在相同的實(shí)驗(yàn)環(huán)境下與對(duì)比方案相比,路口的總體性能如何?
強(qiáng)化學(xué)習(xí)中學(xué)習(xí)率的選取至關(guān)重要,實(shí)驗(yàn)設(shè)計(jì)驗(yàn)證前先進(jìn)行學(xué)習(xí)率的確定,然后進(jìn)行對(duì)比實(shí)驗(yàn)。
2.3.1 PRE-DDPG算法學(xué)習(xí)率選取
圖4描述了單路口下基于行人安全配時(shí)方案在不同學(xué)習(xí)率下的收斂結(jié)果。從圖4中可以看出學(xué)習(xí)速率過(guò)大或者過(guò)小都可能帶來(lái)性能的損失。當(dāng)LR-A=LR-C=0.000 001時(shí),算法表現(xiàn)出較好的性能優(yōu)勢(shì)。因此在本小節(jié)后續(xù)的仿真中,算法學(xué)習(xí)率均選擇LR-A=LR-C=0.000 001。
圖4 不同學(xué)習(xí)率的行人安全配時(shí)方案訓(xùn)練過(guò)程中回合獎(jiǎng)勵(lì)值性能對(duì)比
2.3.2 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析
為了回答以上2個(gè)問(wèn)題,本小節(jié)進(jìn)行了如下實(shí)驗(yàn)設(shè)計(jì):
1)針對(duì)問(wèn)題1,進(jìn)行對(duì)比實(shí)驗(yàn)1:
為了驗(yàn)證交叉口行人安全是否得到提高,即各配時(shí)方案中行人與車(chē)輛的平均沖突量情況,在同一實(shí)驗(yàn)環(huán)境下將所提行人安全配時(shí)方案與其它對(duì)比方案作對(duì)比實(shí)驗(yàn)。
(1)各配時(shí)方案行人與車(chē)輛平均沖突量對(duì)比
圖5即為各配時(shí)方案中行人與車(chē)輛的平均沖突量對(duì)比。從圖5可以看到,在相對(duì)于其他配時(shí)方案,基于學(xué)習(xí)的配時(shí)方案能夠根據(jù)人流量、車(chē)流量的情況實(shí)時(shí)地調(diào)整最佳配時(shí)方案,有效地減少行人與車(chē)輛的相互沖突。相對(duì)于DQN配時(shí)方案,我們所提出的行人安全配時(shí)方案平均沖突量為0.66,減少了16.40%的行人與車(chē)輛的事故率,有效地改善了行人過(guò)馬路的安全性。
圖5 行人與車(chē)輛的平均沖突量對(duì)比
2)針對(duì)問(wèn)題2,進(jìn)行對(duì)比實(shí)驗(yàn)2:
為了驗(yàn)證所提行人安全配時(shí)方案的總體性能,在同一實(shí)驗(yàn)環(huán)境下對(duì)各方案作摘除行人因素的對(duì)比實(shí)驗(yàn)。
1)考慮行人安全下,各配時(shí)方案車(chē)輛平均速度對(duì)比。
圖6為各配時(shí)方案中車(chē)輛在平均速度的對(duì)比情況。從圖中可以發(fā)現(xiàn),本文所提出的方案在平均速度性能上優(yōu)于對(duì)比方案,特別是在高峰車(chē)流量下(例如,時(shí)間段3)。通過(guò)對(duì)各時(shí)段的數(shù)據(jù)進(jìn)行平均處理,我們可以得到行人安全配時(shí)方案中每條道路上車(chē)輛平均速度為21.40 km/h。相對(duì)于DQN配時(shí)方案均速度提高了40.28%,相對(duì)于固定配時(shí)方案平均速度提高了29.62%,車(chē)輛效率有效得到改善。同時(shí)可以看到,DQN配時(shí)方案相對(duì)于固定配時(shí)方案車(chē)輛平均速度減少了5.40%,平均沖突量減少了64.04%,可以明顯看出DQN配時(shí)方案為保證行人安全通過(guò)交叉口犧牲了一定的車(chē)輛通行效率。
圖6 車(chē)輛平均速度性能對(duì)比
2)摘除行人因素前后,各配時(shí)方案車(chē)輛平均時(shí)延對(duì)比。
為了更好地比較各方案中行人因素對(duì)車(chē)輛效率的影響,分別對(duì)各方案作摘除行人因素的對(duì)比實(shí)驗(yàn)。圖7為各方案中每條路上車(chē)輛平均時(shí)間延遲的對(duì)比情況。時(shí)間延遲為車(chē)輛實(shí)際行駛時(shí)間與最大行駛速度行駛時(shí)間的差值。從圖7可以看到各配時(shí)方案中行人因素對(duì)于車(chē)輛效率的影響:
圖7 車(chē)輛平均時(shí)間延遲對(duì)比
(1)將行人安全配時(shí)方案和DQN配時(shí)方案分別做摘除行人因素前后車(chē)輛平均時(shí)延對(duì)比,得到所提行人安全配時(shí)方案由不考慮行人時(shí)的車(chē)輛平均時(shí)延2.59 s增長(zhǎng)到3.32 s,DQN配時(shí)方案由5.46 s增長(zhǎng)到7.05 s??梢钥闯?,交叉口考慮行人安全會(huì)對(duì)車(chē)輛效率產(chǎn)生一定的負(fù)面影響。
(2)盡管考慮行人安全會(huì)對(duì)車(chē)輛效率產(chǎn)生一定的負(fù)面影響,但所提基于行人安全配時(shí)方案在兼顧行人安全和車(chē)輛效率方面,優(yōu)勢(shì)仍然比較明顯。對(duì)比車(chē)輛平均時(shí)延可以看到,行人安全配時(shí)方案相對(duì)于DQN配時(shí)方案(不考慮行人)有39.16%的提高,相對(duì)于DQN配時(shí)方案有52.90%的提高,相對(duì)于固定配時(shí)方案有47.54%的提高。
提出了基于行人安全的交通信號(hào)燈智能控制方案,折中考慮行人安全與車(chē)輛通行效率,實(shí)現(xiàn)系統(tǒng)效用的最大化。相對(duì)于傳統(tǒng)配時(shí)方案,所提方案考慮行人因素并且自適應(yīng)性強(qiáng),能夠在連續(xù)強(qiáng)大的交通環(huán)境中提取合適的特征,選取合適的動(dòng)作。研究結(jié)果顯示,該算法模型具有較好的收斂性,在兼顧行人安全和車(chē)輛效率上都明顯優(yōu)于固定配時(shí)方案和DQN配時(shí)方案。本文僅考慮了單路口時(shí)行人和車(chē)輛問(wèn)題,沒(méi)有做多路口的情況,下一步的研究主要集中在多路口協(xié)調(diào)下的行人和車(chē)輛問(wèn)題。