付一豪,鮑 泓,梁天驕,付東普,潘 峰
(1.北京聯(lián)合大學(xué) 北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室,北京 100101;2.北京聯(lián)合大學(xué) 機(jī)器人學(xué)院,北京 100027;3.首都經(jīng)濟(jì)貿(mào)易大學(xué) 管理工程學(xué)院,北京 100070)
隨著無(wú)人駕駛技術(shù)的逐漸落地,這些技術(shù)運(yùn)行的安全性和魯棒性問(wèn)題得到了廣泛關(guān)注?;跈C(jī)器學(xué)習(xí)的算法無(wú)需嚴(yán)格的編程規(guī)則就能解決復(fù)雜問(wèn)題,在對(duì)大量樣本數(shù)據(jù)進(jìn)行適當(dāng)訓(xùn)練后,模型就擁有處理不可預(yù)見(jiàn)情況的能力[1,2]。但該類(lèi)算法存在訓(xùn)練需要大量數(shù)據(jù),而數(shù)據(jù)的獲得以及標(biāo)注成為發(fā)展的一大障礙。
近些年,隨著AlphaGo[3]在圍棋比賽上出色的發(fā)揮,深度強(qiáng)化學(xué)習(xí)迅速成為研究熱點(diǎn)并應(yīng)用在各個(gè)領(lǐng)域[4~8]。有研究者將深度強(qiáng)化學(xué)習(xí)應(yīng)用在換道決策算法中,比如基于深度Q網(wǎng)絡(luò)(deep Q network,DQN)的換道決策方法[9~12],其中,文獻(xiàn)[10]將周?chē)?chē)輛的位置和速度信息進(jìn)行卷積特征提取,讓DQN進(jìn)行車(chē)速與換道的決策,但在實(shí)驗(yàn)中過(guò)于理想化,雖可直接獲取所有車(chē)輛的信息,但沒(méi)有很好地解決DQN收斂速度慢的問(wèn)題。另外,在基于視覺(jué)的無(wú)人車(chē)換道決策研究方面,DQN 相關(guān)文獻(xiàn)較少,大多數(shù)是使用DDPG(deep deterministic policy gradient)與長(zhǎng)短期記憶(long short-term memory,LSTM)結(jié)合的方式[13],這些方法較為復(fù)雜,不易實(shí)現(xiàn)且實(shí)時(shí)性較差,難以滿(mǎn)足實(shí)際需求。
為了更好地解決上述問(wèn)題,本文提出了基于視覺(jué)DQN的無(wú)人車(chē)換道決策模型。
本文所提決策模型結(jié)構(gòu)如圖1 所示?;谝曈X(jué)DQN的換道決策模塊,根據(jù)前方視覺(jué)圖像進(jìn)行換道決策,基于DQN的速度決策模塊,根據(jù)前車(chē)及本車(chē)信息進(jìn)行速度決策。
圖1 基于視覺(jué)DQN的無(wú)人車(chē)換道決策模型結(jié)構(gòu)
DQN針對(duì)傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法無(wú)法處理高維輸入的問(wèn)題,使用神經(jīng)網(wǎng)絡(luò)來(lái)替代原始的學(xué)習(xí)Q 表,直接將環(huán)境狀態(tài)映射為智能體動(dòng)作。它擁有兩大特點(diǎn):經(jīng)驗(yàn)回放和雙網(wǎng)絡(luò)結(jié)構(gòu)。經(jīng)驗(yàn)回放可讓DQN進(jìn)行離線(xiàn)訓(xùn)練,并去除樣本相關(guān)性。雙網(wǎng)絡(luò)結(jié)構(gòu)也是打亂相關(guān)性的一種機(jī)制,它建立2個(gè)參數(shù)不同、結(jié)構(gòu)相同的網(wǎng)絡(luò),分別為估值網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)。估值網(wǎng)絡(luò)擁有最新的參數(shù),每訓(xùn)練一段時(shí)間,就將其參數(shù)更新到目標(biāo)網(wǎng)絡(luò)上。算法更新公式如式(1)所示
式中 Q(st,at)為估計(jì)值,Q′(st+1)為目標(biāo)值,lr為學(xué)習(xí)率,R為獎(jiǎng)勵(lì)值,γ為衰減因子,結(jié)構(gòu)如圖2所示。
圖2 DQN結(jié)構(gòu)
本文算法以DQN 為網(wǎng)絡(luò)主體,輸入數(shù)據(jù)為三原色(RGB)圖像。首先將Xception 卷積模型[14]加入在網(wǎng)絡(luò)前部,并與注意力機(jī)制結(jié)合,用以提取特征,接著將特征信息展平與全連接層結(jié)合輸出Q 值,最后結(jié)合Q-Masking 輸出最終動(dòng)作,如圖3所示。
圖3 基于視覺(jué)DQN的無(wú)人車(chē)換道決策算法結(jié)構(gòu)
1.2.1 注意力機(jī)制
本文網(wǎng)絡(luò)模型為了使DQN 聚焦圖像中的重要特征以提高網(wǎng)絡(luò)的收斂速度,特引入注意力機(jī)制,其模塊為卷積塊注意力模塊(convolutional block attention module,CBAM)[15],該模塊分為兩部分:通道注意力和空間注意力,通道注意力主要關(guān)注有意義的特征,而空間注意力則關(guān)注特征的位置信息。其過(guò)程如式(2)所示
式中 ?為element-wise乘法操作,Mc為通道注意力操作,F(xiàn)為輸入的特征圖,Ms為空間注意力操作,結(jié)構(gòu)如圖4。
圖4 CBAM結(jié)構(gòu)
1.2.2 狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)及Q-Masking定義
狀態(tài)空間s,動(dòng)作空間a及獎(jiǎng)勵(lì)函數(shù)R定義
其中,s為680 ×480的RGB圖像;a1為保持車(chē)道動(dòng)作,a2,a3分別為左、右換道;dchange為期望換道距離,dfront為前車(chē)距無(wú)人車(chē)的距離,dtarget為目標(biāo)車(chē)道(換道對(duì)應(yīng)的車(chē)道)上目標(biāo)車(chē)輛的距離;w1,w2皆為權(quán)重參數(shù)。該獎(jiǎng)勵(lì)函數(shù)用以引導(dǎo)無(wú)人車(chē)做出合適的換道決策:當(dāng)無(wú)人車(chē)保持車(chē)道時(shí),按式(3)獎(jiǎng)勵(lì)函數(shù)R公式中第一行給予獎(jiǎng)勵(lì);當(dāng)無(wú)人車(chē)選擇換道時(shí),按第二行給予獎(jiǎng)勵(lì)。
Q-Masking設(shè)置:1)當(dāng)車(chē)道為0 時(shí)禁止左轉(zhuǎn),車(chē)道為3時(shí)禁止右轉(zhuǎn);2)當(dāng)無(wú)人車(chē)距目標(biāo)車(chē)道車(chē)輛距離小于安全距離,則禁止換道。
主體網(wǎng)絡(luò)為DQN,輸入數(shù)據(jù)為前車(chē)距離、前車(chē)速度和本車(chē)車(chē)速。其結(jié)構(gòu)如圖5所示。
圖5 基于DQN的速度決策算法結(jié)構(gòu)
狀態(tài)空間s,動(dòng)作空間a及獎(jiǎng)勵(lì)函數(shù)R定義
其中,vfront為前車(chē)車(chē)速,vself為本車(chē)車(chē)速;a4為保持車(chē)速,a5,a6分別為加、減速5 km/h;dwilling為無(wú)人車(chē)期望與前車(chē)保持的距離;w3為權(quán)重系數(shù)。該獎(jiǎng)勵(lì)函數(shù)期望與前車(chē)保持合適的距離來(lái)應(yīng)對(duì)換道需求。
Q-Masking設(shè)置:1)若前車(chē)較遠(yuǎn),則最高速行駛;若與前車(chē)距離接近安全距離,則強(qiáng)制減速。2)當(dāng)車(chē)速達(dá)到最高時(shí),禁止加速;當(dāng)車(chē)速達(dá)到最低時(shí),禁止減速。
Q-Masking在本文的應(yīng)用體現(xiàn)在以下3個(gè)方面:1)先驗(yàn)規(guī)則的應(yīng)用,例如在換道過(guò)程中,若無(wú)人車(chē)在最左側(cè)車(chē)道,則禁止向左換道;2)約束的應(yīng)用,例如限速,當(dāng)車(chē)速達(dá)到最高時(shí),屏蔽加速動(dòng)作;3)基于規(guī)則的方法應(yīng)用,例如基于規(guī)則的碰撞時(shí)間方法,屏蔽導(dǎo)致碰撞的決策。
經(jīng)過(guò)上述3個(gè)方面的應(yīng)用,無(wú)人車(chē)直接將已有的先驗(yàn)知識(shí)納入學(xué)習(xí)過(guò)程,無(wú)需為異常狀態(tài)(碰撞)設(shè)置負(fù)獎(jiǎng)勵(lì),從而簡(jiǎn)化獎(jiǎng)勵(lì)函數(shù),擺脫這類(lèi)先驗(yàn)狀態(tài)的探索。其本身學(xué)習(xí)速度加快,在學(xué)習(xí)過(guò)程中更加專(zhuān)注于高級(jí)策略。
Q-Masking與DQN結(jié)合的算法流程如下:初始化記憶表M初始化估值網(wǎng)絡(luò)Q以及目標(biāo)網(wǎng)絡(luò)Q′
其中,N為總回合數(shù),Tmax為單回合最大時(shí)間,p為隨機(jī)概率,ε為貪婪因子即以多少概率采取隨機(jī)動(dòng)作。
仿真平臺(tái)為Carla。它主要用于城市自動(dòng)駕駛系統(tǒng)的開(kāi)發(fā)、訓(xùn)練以及驗(yàn)證。實(shí)驗(yàn)場(chǎng)景為具有四車(chē)道的高速路,如圖6(a)所示。實(shí)驗(yàn)采用Python3.7 作為編程語(yǔ)言,神經(jīng)網(wǎng)絡(luò)框架使用Tensorflow-GPU2.1,顯卡NVIDIA GTX3070。設(shè)定訓(xùn)練最大回合數(shù)為10000,單回合最大時(shí)間為2 min,終止條件為無(wú)人車(chē)達(dá)到單回合最大時(shí)間或到達(dá)終點(diǎn),車(chē)程為1 km,單回合車(chē)流量為40,中間兩車(chē)道車(chē)流量大,兩邊車(chē)道車(chē)流量相對(duì)較小,其車(chē)流量分布如圖6(b)所示。
圖6 實(shí)驗(yàn)場(chǎng)景與車(chē)流量分布
每輛車(chē)的初始位置在預(yù)設(shè)置的200個(gè)出生點(diǎn)中隨機(jī)選取,初始車(chē)速范圍為30 ~40 km/h,道路限速為50 km/h,車(chē)輛的行駛控制采用Carla自帶的自動(dòng)駕駛功能。無(wú)人車(chē)的橫向控制采用傳統(tǒng)的純追蹤算法。
本文取衰減因子γ =0.95,學(xué)習(xí)率設(shè)置為0.001,批尺寸大小為32,記憶庫(kù)容量為20 000。此外,為了防止樣本失衡,特將記憶庫(kù)均分成2個(gè)部分:換道數(shù)據(jù)存儲(chǔ)與保持車(chē)道數(shù)據(jù)存儲(chǔ),從而保證數(shù)據(jù)平衡性,使網(wǎng)絡(luò)最終能夠收斂。
2.2.1 基于DQN的速度決策算法訓(xùn)練與分析
本文提出的算法與2021 世界智能駕駛挑戰(zhàn)賽(天津)仿真賽中,自動(dòng)駕駛賽項(xiàng)冠軍所采用的基于規(guī)則的換道決策算法[16]進(jìn)行比較,最后通過(guò)分析總獎(jiǎng)勵(lì),來(lái)描述模型訓(xùn)練結(jié)果,如圖7(a)所示??芍?,本文算法在訓(xùn)練350 次,獎(jiǎng)勵(lì)趨于穩(wěn)定,均值在290,優(yōu)于對(duì)比算法的速度決策。
圖7 模型訓(xùn)練結(jié)果
2.2.2 基于視覺(jué)DQN的換道決策算法訓(xùn)練與分析
在基于DQN的速度決策算法的基礎(chǔ)上,本文對(duì)基于注意力機(jī)制的換道決策算法進(jìn)行消融實(shí)驗(yàn)并與比賽方法進(jìn)行對(duì)比,通過(guò)分析規(guī)定時(shí)間內(nèi)到達(dá)終點(diǎn)的成功率以及總獎(jiǎng)勵(lì),來(lái)描述模型訓(xùn)練結(jié)果,如圖7(b)和圖7(c)所示。
由圖7(b)可知,訓(xùn)練10 000 次后本文方法、無(wú)注意力機(jī)制方法的成功率分別為99.6%和99.3%,本文方法在訓(xùn)練過(guò)程中成功率最高且提升快。由圖7(c)可知,本文算法在訓(xùn)練400 次,獎(jiǎng)勵(lì)趨于穩(wěn)定,均值在510;無(wú)注意力機(jī)制算法在訓(xùn)練1 800 次,獎(jiǎng)勵(lì)趨于穩(wěn)定,均值在440;比賽方法平均獎(jiǎng)勵(lì)為410。綜上,本文方法可以明顯提升DQN 的收斂速度,同時(shí)體現(xiàn)了強(qiáng)化學(xué)習(xí)的優(yōu)越性。
場(chǎng)景1的車(chē)流量為40,場(chǎng)景2的車(chē)流量為100。3種算法的測(cè)試結(jié)果如表1所示。
表1 3 種算法測(cè)試結(jié)果
由表1可知,場(chǎng)景1中,本文方法在平均獎(jiǎng)勵(lì)和平均速度方面皆高于其他方法;場(chǎng)景2中,在車(chē)輛相對(duì)密集的條件下,3種方法的平均獎(jiǎng)勵(lì)和平均速度有所下降,但本文方法仍能發(fā)揮較好的性能。
在基于視覺(jué)的無(wú)人車(chē)換道決策算法應(yīng)用上,本文提出了基于視覺(jué)DQN的無(wú)人車(chē)換道決策算法,通過(guò)結(jié)合注意力機(jī)制和Q-Masking方法,簡(jiǎn)化獎(jiǎng)勵(lì)函數(shù),解決了DQN收斂速度慢等問(wèn)題。實(shí)驗(yàn)結(jié)果表明:本文所提出的方法在滿(mǎn)足實(shí)時(shí)性要求的同時(shí),在平均獎(jiǎng)勵(lì)和平均速度方面都有較大提升,為無(wú)人駕駛技術(shù)提供了一種換道方案選擇。