宋曉琳,盛 鑫,曹昊天,李明俊,易濱林,黃 智
(湖南大學(xué),汽車車身先進(jìn)設(shè)計(jì)與制造國(guó)家重點(diǎn)實(shí)驗(yàn)室,長(zhǎng)沙 410082)
近年來(lái),智能車輛已成為車輛工程領(lǐng)域的研究熱點(diǎn)之一,具備自動(dòng)駕駛系統(tǒng)的智能車輛相比傳統(tǒng)車輛不僅更加安全、舒適,且有助于節(jié)約能源和降低污染物排放[1]。智能車輛自動(dòng)駕駛系統(tǒng)通常由感知模塊、行為決策模塊、規(guī)劃模塊和控制模塊等構(gòu)成,其中行為決策模塊是上層感知模塊和下層規(guī)劃控制模塊間的重要橋梁,基于感知信息決策車輛應(yīng)采取的行為,從而為下層規(guī)劃控制提供目標(biāo)引導(dǎo),起著承上啟下的關(guān)鍵作用,智能汽車換道行為決策是其中很重要的一種。
現(xiàn)有智能車輛換道行為決策方法按照決策機(jī)理,可以分為非數(shù)據(jù)驅(qū)動(dòng)方法和數(shù)據(jù)驅(qū)動(dòng)方法兩大類。其中有限狀態(tài)機(jī)(finite state machine,F(xiàn)SM)、動(dòng)態(tài)博弈(dynamic game)等方法屬于非數(shù)據(jù)驅(qū)動(dòng)方法。例如冀杰等[2]將車輛行駛過(guò)程劃分為車道保持、跟馳、變道和緊急制動(dòng)4 種狀態(tài),構(gòu)建有限狀態(tài)機(jī)進(jìn)行換道行為決策。Kurt 等[3]將決策過(guò)程進(jìn)行層次劃分,構(gòu)造分層有限狀態(tài)機(jī)用于決策,以此簡(jiǎn)化狀態(tài)轉(zhuǎn)移規(guī)則來(lái)提高決策時(shí)的規(guī)則查詢效率。各類有限狀態(tài)機(jī)方法均需要人為劃分狀態(tài)并制定狀態(tài)轉(zhuǎn)移規(guī)則,因而存在規(guī)則完備性的固有問題。有學(xué)者提出動(dòng)態(tài)博弈方法,在換道行為決策時(shí)考慮車輛間的持續(xù)交互作用。Wang 等[4]將換道行為決策問題表述為微分博弈(differential game),假定自車和周邊車輛進(jìn)行非合作博弈,自車根據(jù)其他車輛的預(yù)期行為進(jìn)行換道行為決策。Yu等[5]將自車及周邊車輛視作斯塔克伯格博弈(Stackelberg game)參與者,估計(jì)周邊車輛的駕駛激進(jìn)度以確定其收益函數(shù),通過(guò)在線求解動(dòng)態(tài)博弈問題來(lái)確定自車換道行為。動(dòng)態(tài)博弈方法求解平衡點(diǎn)的計(jì)算復(fù)雜度較高,在車載嵌入式計(jì)算平臺(tái)上的實(shí)時(shí)性往往難以滿足要求。
數(shù)據(jù)驅(qū)動(dòng)方法主要包括模仿學(xué)習(xí)方法和強(qiáng)化學(xué)習(xí)方法等。模仿學(xué)習(xí)方法基于數(shù)據(jù)驅(qū)動(dòng),模仿專家駕駛員策略進(jìn)行決策。例如Bojarski 等[6]使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)基于車載視覺傳感器原始圖像信息進(jìn)行模仿學(xué)習(xí)決策控制,并在結(jié)構(gòu)化道路場(chǎng)景和非結(jié)構(gòu)化道路場(chǎng)景中進(jìn)行了測(cè)試。Codevilla 等[7]在此基礎(chǔ)上提出條件模仿學(xué)習(xí)方法,通過(guò)引入駕駛員指令來(lái)加速模仿學(xué)習(xí)并使駕駛員可在一定程度上干預(yù)決策以保障行車安全。Kuefler 等[8]則使用生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)模仿專家駕駛員進(jìn)行決策,實(shí)驗(yàn)表明該方法能學(xué)習(xí)到諸如緊急狀況處置等高階策略。但模仿學(xué)習(xí)方法需要海量數(shù)據(jù)支持,存在模型訓(xùn)練成本較高、工作時(shí)無(wú)法根據(jù)環(huán)境變化在線調(diào)整優(yōu)化策略、難以適應(yīng)復(fù)雜多變的真實(shí)道路環(huán)境等不足。而強(qiáng)化學(xué)習(xí)可在與環(huán)境在線交互過(guò)程中學(xué)習(xí)得到優(yōu)化策略,因此,近幾年來(lái)強(qiáng)化學(xué)習(xí)在電子游戲[9]、機(jī)器人控制[10]和高級(jí)輔助駕駛系統(tǒng)[11]等領(lǐng)域取得一系列顯著成果,因而有學(xué)者將其應(yīng)用于智能車輛換道行為決策中。Mirchevska 等[12]使用深度Q 網(wǎng)絡(luò)(deep Q network,DQN)深度強(qiáng)化學(xué)習(xí)方法進(jìn)行智能車輛高速公路場(chǎng)景換道行為決策,仿真實(shí)驗(yàn)表明該方法決策性能優(yōu)于傳統(tǒng)基于復(fù)雜規(guī)則的方法。 Wang 等[13]采用連續(xù)的狀態(tài)空間和動(dòng)作空間,設(shè)計(jì)具有閉式貪婪策略的Q函數(shù)逼近器來(lái)提高深度Q 網(wǎng)絡(luò)的計(jì)算效率,從而更快地學(xué)習(xí)得到了平穩(wěn)有效的換道策略。然而,由于強(qiáng)化學(xué)習(xí)方法未利用先驗(yàn)知識(shí),僅通過(guò)主動(dòng)策略探索尋找優(yōu)化策略,因而策略學(xué)習(xí)效率偏低,處理復(fù)雜問題顯得能力不足,制約了其在智能車輛換道行為決策領(lǐng)域的應(yīng)用。
針對(duì)強(qiáng)化學(xué)習(xí)方法策略學(xué)習(xí)效率偏低的問題,本文中將模仿學(xué)習(xí)引入強(qiáng)化學(xué)習(xí),采用模仿學(xué)習(xí)從專家駕駛員示范數(shù)據(jù)中學(xué)習(xí)其宏觀決策經(jīng)驗(yàn),換道行為決策時(shí)依據(jù)學(xué)習(xí)得到的專家駕駛員經(jīng)驗(yàn)確定所需求解的換道行為決策子問題,構(gòu)造多個(gè)強(qiáng)化學(xué)習(xí)模塊分治處理不同的換道行為決策子問題,以此縮減強(qiáng)化學(xué)習(xí)所需求解問題的規(guī)模,降低優(yōu)化策略學(xué)習(xí)難度,提高策略學(xué)習(xí)速度,從而使其比單純強(qiáng)化學(xué)習(xí)方法能夠處理更為復(fù)雜的智能車輛換道行為決策問題。
本文中設(shè)計(jì)的智能車輛換道行為決策方法分為宏觀決策和細(xì)化決策兩層,如圖1 所示。其中,每一換道行為決策周期t 所需輸入信息It包括通過(guò)車輛總線獲取的自車信息、通過(guò)感知融合獲取的周邊車輛信息和通過(guò)高精地圖獲取的道路信息。宏觀決策模塊使用模仿學(xué)習(xí)構(gòu)建的極端梯度提升(extreme gradient boosting,XGBoost)模型,將It輸入XGBoost模型的K 個(gè)基學(xué)習(xí)器CART 中,求和各基學(xué)習(xí)器輸出s并通過(guò)Softmax變換得到宏觀決策指令概率向量St,再依據(jù)St從車道保持、左換道、右換道中選擇宏觀決策指令Ct,縮減所需求解的換道行為決策問題規(guī)模。細(xì)化決策模塊的3 個(gè)確定性策略梯度(deep deterministic policy gradient,DDPG)深度強(qiáng)化學(xué)習(xí)子模塊DDPG_LK、DDPG_LLC 和DDPG_RLC 分別負(fù)責(zé)求解車道保持、左換道和右換道行為決策子問題,根據(jù)宏觀決策指令Ct調(diào)用相應(yīng)子模塊,利用強(qiáng)化學(xué)習(xí)得到的優(yōu)化換道行為決策策略,確定自車運(yùn)動(dòng)目標(biāo)位置Pt,輸出給下層模塊后進(jìn)入下一行為決策周期。
圖1 行為決策方法整體框架
由于車輛行駛時(shí)與周邊車輛及道路均存在交互作用,因而換道行為決策時(shí)需要綜合考慮自車運(yùn)動(dòng)狀態(tài)、周邊車輛運(yùn)動(dòng)狀態(tài)及車道可通行性。圖2 中carh 表示自車,自車的前方、后方、左前方、左后方、右前方、右后方6 個(gè)區(qū)域中最鄰近周邊車輛按順時(shí)針方向標(biāo)記為car1~car6。
圖2 自車與周邊車輛標(biāo)識(shí)
換道行為決策輸入信息如下。
(1)自車當(dāng)前時(shí)刻t運(yùn)動(dòng)狀態(tài)信息Sh,t:包括自車車速vh,t和縱向加速度ah,t。
(2)周邊車輛當(dāng)前時(shí)刻t 運(yùn)動(dòng)狀態(tài)信息Si,t(i =1,2,…,6):包括與自車間縱向距離dyi,t、橫向距離dxi,t和相對(duì)車速rvi,t。若某區(qū)域無(wú)周邊車輛(如圖2 中左前區(qū)域),則將距離設(shè)為∞,相對(duì)車速設(shè)為0。
(3)車道通行性信息Ir,t:由左側(cè)車道標(biāo)記和右側(cè)車道標(biāo)記flagl,t和flagr,t組成,記錄自車相鄰車道可通行狀況,可供通行標(biāo)記為1,不可供通行(如對(duì)向車道、非機(jī)動(dòng)車道、路沿)標(biāo)記為0。
最終,輸入信息可用It表示為
本文中基于專家駕駛員宏觀決策示范樣本,構(gòu)造XGBoost模型[14]模仿專家駕駛員選擇宏觀決策指令,選用分類回歸樹(classification and regression tree,CART)作為基學(xué)習(xí)器。模仿學(xué)習(xí)目標(biāo)函數(shù)O(θ)定義為
單個(gè)基學(xué)習(xí)器Tk的模型復(fù)雜度定義為
式中:m 為基學(xué)習(xí)器Tk的葉子節(jié)點(diǎn)數(shù)為節(jié)點(diǎn)權(quán)值的L2范數(shù);權(quán)重系數(shù)γ、λ均取1。
圖3 XGBoost模型構(gòu)建過(guò)程
XGBoost 通過(guò)集成一系列學(xué)習(xí)能力較弱的基學(xué)習(xí)器來(lái)獲得較好的性能,模型構(gòu)建過(guò)程如圖3 所示?;趯<荫{駛員宏觀決策示范樣本,不斷訓(xùn)練CART基學(xué)習(xí)器擬合先前模型殘差并集成入XGBoost 模型中,不斷迭代直到訓(xùn)練預(yù)設(shè)數(shù)量基學(xué)習(xí)器或模型殘差小于設(shè)定閾值。訓(xùn)練第k 個(gè)基學(xué)習(xí)器Tk時(shí)的學(xué)習(xí)目標(biāo)函數(shù)為
式中:θk為Tk的參數(shù);Ω(Tk)為Tk的模型復(fù)雜度;yi-為前一輪迭代的模型殘差為Tk的輸出;學(xué)習(xí)率ε取值范圍(0,1)。
如圖1所示,換道行為決策時(shí)輸入信息It傳入宏觀決策模塊XGBoost 模型各基學(xué)習(xí)器,將各基學(xué)習(xí)器的輸出向量s 求和后,利用Softmax 函數(shù)即可得到宏 觀 決 策 指 令 概 率 向 量St=(p1,p2,p3),其 中p1,p2和p3分別是宏觀決策指令應(yīng)為車道保持、左換道和右換道的概率。選擇概率向量St中最大概率值對(duì)應(yīng)的宏觀決策指令Ct輸出,據(jù)此確定所需求解的換道行為決策子問題是車道保持、左換道還是右換道。
假定各換道行為決策子問題均滿足馬爾可夫性,將其構(gòu)造為無(wú)模型馬爾可夫決策過(guò)程(Markov decision process,MDP),表示為MDP(S,A,R,γ)。S為觀測(cè)狀態(tài)空間;s ∈S 為觀測(cè)狀態(tài)即輸入信息It;決策動(dòng)作空間A 為圖4 所示目標(biāo)車道中心線上的運(yùn)動(dòng)可達(dá)域,即自車本決策周期在車輛運(yùn)動(dòng)學(xué)約束下所能到達(dá)位置的集合;決策動(dòng)作a ∈A,即自車本決策周期運(yùn)動(dòng)目標(biāo)位置Pt;獎(jiǎng)勵(lì)R 表征環(huán)境對(duì)自車換道行為決策的反饋;γ ∈(0,1]為折扣系數(shù),體現(xiàn)對(duì)短期獎(jiǎng)勵(lì)相比長(zhǎng)期獎(jiǎng)勵(lì)的重視程度。
圖4 運(yùn)動(dòng)可達(dá)域及運(yùn)動(dòng)目標(biāo)位置
求解換道行為決策子問題即是尋找使該馬爾可夫決策過(guò)程在無(wú)窮時(shí)域期望獎(jiǎng)勵(lì)值最大化的優(yōu)化策略πopt:S →A
式中:t為決策時(shí)刻;k為決策時(shí)間步;Rt+k為第k時(shí)間步的獎(jiǎng)勵(lì)值;E[]為求數(shù)學(xué)期望。
各子模塊使用DDPG 深度強(qiáng)化學(xué)習(xí)方法[15]學(xué)習(xí)換道行為決策子問題的優(yōu)化策略。利用具備強(qiáng)大非線性擬合能力的深度神經(jīng)網(wǎng)絡(luò)構(gòu)造表征策略函數(shù)μ(s|θμ)的演員網(wǎng)絡(luò)和表征動(dòng)作價(jià)值評(píng)估函數(shù)Q(s,a|θQ)的評(píng)論家網(wǎng)絡(luò)。通過(guò)經(jīng)驗(yàn)回放[16]打破經(jīng)歷樣本間時(shí)序相關(guān)性,同時(shí)采用類似DQN 的獨(dú)立目標(biāo)網(wǎng)絡(luò)機(jī)制[17]來(lái)提高策略學(xué)習(xí)收斂性,DDPG 由主演員網(wǎng)絡(luò)θμ、目標(biāo)演員網(wǎng)絡(luò)θμ,ta、主評(píng)論家網(wǎng)絡(luò)θQ和目標(biāo)評(píng)論家網(wǎng)絡(luò)θQ,ta4部分構(gòu)成。
如圖1 所示,換道行為決策時(shí)細(xì)化決策模塊根據(jù)宏觀決策模塊輸出的宏觀決策指令Ct,調(diào)用相應(yīng)DDPG子模塊的主演員網(wǎng)絡(luò),根據(jù)輸入信息It確定自車本決策周期運(yùn)動(dòng)目標(biāo)位置Pt,下發(fā)執(zhí)行后將經(jīng)歷(It,Pt,It+1,Rt,Et)存入經(jīng)驗(yàn)回放庫(kù)中,其中It對(duì)應(yīng)觀測(cè)狀態(tài)s,Pt對(duì)應(yīng)決策動(dòng)作a,It+1對(duì)應(yīng)決策動(dòng)作執(zhí)行后更新的觀測(cè)狀態(tài)s",Rt為獎(jiǎng)勵(lì)值,Et記錄是否滿足終止條件。定期從經(jīng)驗(yàn)回放庫(kù)中隨機(jī)采樣經(jīng)歷樣本,訓(xùn)練DDPG的主評(píng)論家網(wǎng)絡(luò)和主演員網(wǎng)絡(luò)。
訓(xùn)練主評(píng)論家網(wǎng)絡(luò)以更加準(zhǔn)確地評(píng)估動(dòng)作價(jià)值,主評(píng)論家網(wǎng)絡(luò)學(xué)習(xí)損失函數(shù)定義為
其中
式中:n 為批采樣經(jīng)歷樣本數(shù);Ri為經(jīng)歷樣本i 獎(jiǎng)勵(lì)值;Q(si,ai|θQ)為使用主評(píng)論家網(wǎng)絡(luò)估計(jì)的動(dòng)作價(jià)值;Qta(s"i,μta(s"i|θμ,ta)|θQ,ta)為使用目標(biāo)演員網(wǎng)絡(luò)和目標(biāo)評(píng)論家網(wǎng)絡(luò)估計(jì)的未來(lái)動(dòng)作價(jià)值。根據(jù)式(6)計(jì)算損失值,使用Adam 優(yōu)化器按設(shè)定的學(xué)習(xí)率αQ更新網(wǎng)絡(luò)參數(shù)。
訓(xùn)練主演員網(wǎng)絡(luò)以優(yōu)化換道行為決策策略,根據(jù)式(8)計(jì)算采樣策略梯度值,使用Adam 優(yōu)化器按設(shè)定的學(xué)習(xí)率αμ更新網(wǎng)絡(luò)參數(shù):
式中μ(s|θμ)為確定性策略。
目標(biāo)演員網(wǎng)絡(luò)和目標(biāo)評(píng)論家網(wǎng)絡(luò)無(wú)需訓(xùn)練,通過(guò)式(9)和式(10)所示更新方式使其網(wǎng)絡(luò)參數(shù)緩慢逼近對(duì)應(yīng)主網(wǎng)絡(luò):
式中τ為目標(biāo)網(wǎng)絡(luò)參數(shù)更新率,0 <τ ?1。
強(qiáng)化學(xué)習(xí)在獎(jiǎng)勵(lì)值引導(dǎo)下進(jìn)行優(yōu)化策略探索學(xué)習(xí),因而獎(jiǎng)勵(lì)函數(shù)設(shè)置十分關(guān)鍵。為使換道行為決策策略兼顧安全性、通行效率及乘坐舒適性,各子模塊獎(jiǎng)勵(lì)函數(shù)需包含如下3部分內(nèi)容。
(1)安全性獎(jiǎng)勵(lì)函數(shù):車輛行駛過(guò)程中,需與前后車輛間保持安全車距,安全性獎(jiǎng)勵(lì)函數(shù)可表示為
式中:Thf為自車與最近前車間的車頭時(shí)距值;Thr為自車與最近后車間的車頭時(shí)距值;Thb為車頭時(shí)距閾值,Thb設(shè)定為4 s[18]。
(2)通行效率獎(jiǎng)勵(lì)函數(shù):車輛在保證安全前提下,應(yīng)盡可能以較高車速行駛,設(shè)置通行效率獎(jiǎng)勵(lì)函數(shù)為
式中:vh,t為自車當(dāng)前車速;vl為當(dāng)前路段限速;vf為當(dāng)前路段車流速度。
(3)乘坐舒適性懲罰函數(shù):車輛行駛過(guò)程中應(yīng)避免頻繁變速換道,以保證乘客乘坐舒適性,乘坐舒適性懲罰函數(shù)表示為
其中
式中:pa為急加減速懲罰項(xiàng);plc為換道懲罰項(xiàng)。
則各子模塊的復(fù)合獎(jiǎng)勵(lì)函數(shù)表示為
式中:ws、wv和wc為各項(xiàng)權(quán)重系數(shù),調(diào)參確定的最佳權(quán)重系數(shù)取值為(0.9,0.8,0.4),歸一化操作Normal用來(lái)將復(fù)合獎(jiǎng)勵(lì)函數(shù)取值范圍變換到[0,1]區(qū)間。
本文中使用圖5 所示駕駛模擬器采集專家駕駛員宏觀決策示范樣本。其中虛擬駕駛環(huán)境為4.2 km 長(zhǎng)的環(huán)形三車道高速公路,設(shè)置一輛可控自車和若干輛由自動(dòng)駕駛模型[19]控制的環(huán)境車輛,各車輛均基于簡(jiǎn)化車輛運(yùn)動(dòng)學(xué)模型[20],道路全段限速90 km/h。
圖5 駕駛模擬器及虛擬駕駛環(huán)境
由于不同駕駛員駕駛經(jīng)驗(yàn)不同,因而宏觀決策行為傾向性不同,為避免決策二義性問題,僅采集1名專家駕駛員的宏觀決策示范樣本。共進(jìn)行10 輪模擬駕駛實(shí)驗(yàn),每輪需駕駛自車在虛擬駕駛環(huán)境道路上行駛5 圈,以5 Hz 采樣頻率同步記錄自車與環(huán)境車輛的狀態(tài)、道路信息和駕駛員操縱輸入。為避免疲勞駕駛,兩輪實(shí)驗(yàn)間隔時(shí)間均大于15 min。
剔除駕駛員出現(xiàn)失誤或違規(guī)的數(shù)據(jù)后獲得約2.5 h 的原始數(shù)據(jù)。使用寬度為5 s、重疊量為2 s 的移動(dòng)窗口從原始數(shù)據(jù)中提取樣本:提取窗口起點(diǎn)時(shí)刻自車與周邊車輛的運(yùn)動(dòng)狀態(tài)信息和道路通行性信息,作為樣本特征值;通過(guò)窗口范圍內(nèi)自車橫向位置的極差判斷駕駛員是否采取換道,將此宏觀決策行為作為樣本對(duì)應(yīng)標(biāo)簽值。提取得到3 020 組專家駕駛員宏觀決策示范樣本,其中車道保持1 328 組,左換道873組,右換道819組。
為保障專家駕駛員宏觀決策示范樣本類別平衡,對(duì)車道保持類別樣本進(jìn)行下采樣隨機(jī)保留850組。網(wǎng)格調(diào)參確定的最佳XGBoost 模型訓(xùn)練參數(shù)設(shè)置如表1 所示。通過(guò)十折交叉驗(yàn)證評(píng)估模型性能,XGBoost 模型平均測(cè)試集分類準(zhǔn)確率為91.46%,歸一化混淆矩陣如圖6 所示,算得kappa 系數(shù)值為0.87,表明構(gòu)建的XGBoost 模型可以較好模仿專家駕駛員進(jìn)行宏觀行為決策。
使用專家駕駛員所有宏觀決策示范樣本訓(xùn)練得到最終XGBoost 模型。XGBoost 模型相比神經(jīng)網(wǎng)絡(luò)等黑箱模型的顯著優(yōu)勢(shì)是其內(nèi)在決策機(jī)理可知,因而安全性更高且易于迭代優(yōu)化。可以通過(guò)統(tǒng)計(jì)XGBoost 模型中基于各學(xué)習(xí)特征組分裂的節(jié)點(diǎn)數(shù)目占比來(lái)獲知其內(nèi)在決策機(jī)理,如圖7所示。由圖7可看出,基于主車前方周邊車輛car1~car3 的運(yùn)動(dòng)狀態(tài)S1,t、S2,t、S3,t以及道路通行性信息Ir,t分裂的節(jié)點(diǎn)占比較高,對(duì)模型輸出影響較顯著,表明XGBoost 模型主要基于主車前方車輛的運(yùn)動(dòng)狀態(tài)及道路通行性狀況進(jìn)行宏觀決策。
表1 XGBoost訓(xùn)練參數(shù)設(shè)置
圖6 歸一化混淆矩陣
圖7 分裂節(jié)點(diǎn)數(shù)目占比統(tǒng)計(jì)
由于本文中著重研究換道行為決策,因而對(duì)下層模塊進(jìn)行簡(jiǎn)化處理:采用基于五次多項(xiàng)式的軌跡規(guī)劃方法[21],并假定控制模塊能使自車?yán)硐氲馗櫮繕?biāo)軌跡行駛。
細(xì)化決策模塊各DDPG 子模塊網(wǎng)絡(luò)結(jié)構(gòu)如表2所示,訓(xùn)練參數(shù)設(shè)置如表3所示。通過(guò)與圖5虛擬駕駛環(huán)境在線交互來(lái)訓(xùn)練各DDPG 子模塊,每當(dāng)自車行駛一圈或與環(huán)境車輛發(fā)生碰撞時(shí)終止當(dāng)前訓(xùn)練輪次,重新隨機(jī)初始化虛擬駕駛環(huán)境后開始新的訓(xùn)練輪次,直到完成設(shè)定輪次訓(xùn)練。
平滑處理后的訓(xùn)練過(guò)程中單步平均獎(jiǎng)勵(lì)值變化曲線如圖8 所示,可看出經(jīng)過(guò)約1 600 輪次訓(xùn)練后獎(jiǎng)勵(lì)值逐漸穩(wěn)定在高位,策略學(xué)習(xí)收斂。由式(16)可知單步獎(jiǎng)勵(lì)理論最大值為1,但由于多數(shù)情況下自車需要在安全、通行效率和乘坐舒適性間平衡取舍,因而平均值必然小于1,圖8中終端單步平均獎(jiǎng)勵(lì)值約為0.85,已較為逼近實(shí)際可達(dá)最優(yōu)值。
表2 DDPG網(wǎng)絡(luò)結(jié)構(gòu)
表3 DDPG訓(xùn)練參數(shù)設(shè)置
圖8 單步平均獎(jiǎng)勵(lì)值變化曲線
參與測(cè)試比對(duì)的換道行為決策方法如下。
(1)D_FSM:文獻(xiàn)[19]提出的有限狀態(tài)機(jī)方法。
(2)D_IL:基于多層感知機(jī)(multi?layer percep?tron,MLP)的行為克隆模仿學(xué)習(xí)方法,使用模擬駕駛實(shí)驗(yàn)采集的數(shù)據(jù)訓(xùn)練。
(3)D_RL:?jiǎn)渭儚?qiáng)化學(xué)習(xí)方法,網(wǎng)絡(luò)結(jié)構(gòu)及獎(jiǎng)勵(lì)函數(shù)設(shè)置與本文細(xì)化決策子模塊相同。
(4)D_IRL:本文中設(shè)計(jì)的模仿強(qiáng)化學(xué)習(xí)方法。
首先比對(duì)D_IRL 與D_RL 的策略學(xué)習(xí)速度。為消除隨機(jī)因素影響,兩者使用相同訓(xùn)練參數(shù)設(shè)置分別進(jìn)行5 次訓(xùn)練,結(jié)果如圖9 所示。由圖9 可知,D_IRL 的平均終端獎(jiǎng)勵(lì)值相比D_RL 占優(yōu),且D_IRL平均策略學(xué)習(xí)收斂所需訓(xùn)練輪次數(shù)比D_RL 降低約32%,表明本文基于宏觀決策指令縮減待求解換道行為決策問題規(guī)模的機(jī)制,有效降低了優(yōu)化策略求解難度,顯著提升了策略學(xué)習(xí)速度。
圖9 策略學(xué)習(xí)速度對(duì)比
采用上述4 種方法分別控制虛擬駕駛環(huán)境中自車進(jìn)行100 輪隨機(jī)初始化的自動(dòng)駕駛測(cè)試,以評(píng)估本文方法與各基線方法的換道行為決策策略綜合性能,每輪行駛里程為1圈,結(jié)果如表4所示。
表4 自動(dòng)駕駛測(cè)試統(tǒng)計(jì)結(jié)果
由表4可知如下結(jié)果。
(1)在安全性方面,D_IRL、D_RL和D_FSM 方法在測(cè)試中主車均未發(fā)生碰撞事件,而D_IL 有3 次碰撞記錄,這可能是由于行為克隆模仿學(xué)習(xí)方法無(wú)法依據(jù)環(huán)境變化在線調(diào)整策略,遇到訓(xùn)練樣本覆蓋范圍外的情形策略失效造成的,由此可見D_IRL 策略的安全性優(yōu)于D_IL。
(2)在通行效率方面,D_IRL 策略的表現(xiàn)較優(yōu),測(cè)試中主車平均車速相比D_FSM 提升5.7%,相比D_RL提升0.6%,與D_IL基本持平。
(3)在乘坐舒適性方面,D_IRL 方法測(cè)試中主車車速標(biāo)準(zhǔn)差相比D_FSM 降低45.6%,相比D_IL降低3.4%,相比D_RL 降低13.8%,表明D_IRL 策略較少采取急加減速動(dòng)作,乘坐舒適性較優(yōu)。D_IRL 方法測(cè)試中主車平均單輪換道次數(shù)少于D_IL 和D_RL,減少了換道時(shí)橫向加速度變化對(duì)乘坐舒適性的影響;D_IRL 方法測(cè)試中主車平均單輪換道次數(shù)高于D_FSM,這是因?yàn)镈_FSM 基于規(guī)則的策略偏于保守,謹(jǐn)慎采取換道而比較容易引發(fā)緊急制動(dòng),而D_IRL 的策略則更加積極主動(dòng),通過(guò)更主動(dòng)采取安全換道行為來(lái)提升通行效率,并通過(guò)規(guī)避部分不必要的緊急制動(dòng)來(lái)提高乘坐舒適性,這一點(diǎn)在兩者平均車速及車速標(biāo)準(zhǔn)差的對(duì)比中也可以得到體現(xiàn)。
綜上所述,本文中設(shè)計(jì)的D_IRL 方法學(xué)習(xí)得到的換道行為決策策略的綜合性能優(yōu)于其他3 種基線方法,在安全性、通行效率和乘坐舒適性間取得了良好平衡。
為了更直觀地展現(xiàn)本文方法換道行為決策策略的性能,基于自動(dòng)駕駛仿真軟件Prescan 搭建兩個(gè)典型場(chǎng)景進(jìn)行換道行為決策測(cè)試。場(chǎng)景中主車的換道行為決策模塊采用本文方法,環(huán)境車輛的運(yùn)動(dòng)由文獻(xiàn)[19]的自動(dòng)駕駛模型控制。兩場(chǎng)景測(cè)試過(guò)程中的鳥瞰視角關(guān)鍵幀如圖10 所示,圖中主車為用紅框標(biāo)記的綠色車,各關(guān)鍵幀車輛實(shí)時(shí)速度也標(biāo)注在圖中,測(cè)試道路長(zhǎng)度均為200 m。
由圖10(a)可見:場(chǎng)景1中主車前后及兩側(cè)相鄰車道均有環(huán)境車輛,且主車通行嚴(yán)重受制于前方白色車輛,主車換道行為決策模塊根據(jù)輸入信息,判定應(yīng)采取左換道以獲得更好的通行效率;主車安全換到左側(cè)車道后,前向運(yùn)動(dòng)空間充足,平緩加速至目標(biāo)車速行駛。
由圖10(b)可見:場(chǎng)景2中位于主車同車道前方的紅色車輛在開始階段忽然制動(dòng)減速,由于主車兩側(cè)相鄰車道均有環(huán)境車輛且距離較近,主車換道行為決策模塊根據(jù)輸入信息,判定應(yīng)采取減速?gòu)亩苊馀c前車發(fā)生碰撞;待前車開始提速后,主車調(diào)整車速繼續(xù)車道保持,以安全距離跟馳前車行駛。
由以上兩個(gè)典型場(chǎng)景的測(cè)試結(jié)果可看出,采用本文方法學(xué)習(xí)得到的換道策略可以較好地應(yīng)對(duì)主動(dòng)換道、前方車輛急減速等情況,具備良好的工程應(yīng)用前景。
圖10 典型場(chǎng)景換道行為決策測(cè)試
本文中設(shè)計(jì)了一種基于模仿強(qiáng)化學(xué)習(xí)的智能車輛換道行為決策方法,其中宏觀決策模塊XGBoost模型模仿專家駕駛員選擇宏觀決策指令,確定所需求解的行為決策子問題,在此基礎(chǔ)上,使用細(xì)化決策模塊對(duì)應(yīng)DDPG 子模塊強(qiáng)化學(xué)習(xí)得到的優(yōu)化策略,確定車輛運(yùn)動(dòng)目標(biāo)位置并作為行為決策結(jié)果下發(fā)執(zhí)行。仿真結(jié)果表明,本文方法相比單純強(qiáng)化學(xué)習(xí)方法在策略學(xué)習(xí)速度上有顯著提升,且換道行為決策策略的綜合性能優(yōu)于有限狀態(tài)機(jī)等現(xiàn)有方法。
本文研究中假定換道行為決策輸入信息是準(zhǔn)確無(wú)誤的,實(shí)際情況中受車載傳感器等因素影響,輸入信息可能是不準(zhǔn)確或不完整的。后續(xù)研究將考慮輸入信息的缺失及噪聲問題,以提高換道行為決策方法的魯棒性。另外,如何在實(shí)車平臺(tái)上應(yīng)用本文中設(shè)計(jì)的換道行為決策方法也將是后續(xù)研究的重點(diǎn)內(nèi)容。