金立生,韓廣德,謝憲毅,郭柏蒼,劉國峰,朱文濤
(燕山大學(xué)車輛與能源學(xué)院,秦皇島 066004)
自動(dòng)駕駛技術(shù)作為汽車產(chǎn)業(yè)未來轉(zhuǎn)型升級(jí)的重要方向[1],在緩解交通擁堵、提高交通安全性、降低能耗等方面具有巨大潛能。隨著自動(dòng)駕駛車輛在局部道路測(cè)試中的快速部署,自動(dòng)駕駛車輛和人類駕駛車輛之間相互影響的混合交通場(chǎng)景正成為一種新常態(tài)[2]。決策技術(shù)作為自動(dòng)駕駛車輛智能、高效完成各項(xiàng)行駛?cè)蝿?wù)的核心體現(xiàn),需要有效應(yīng)對(duì)復(fù)雜環(huán)境信息不確定性帶來的挑戰(zhàn),以滿足車輛安全性、經(jīng)濟(jì)性和乘車舒適性等需求。因此,復(fù)雜交通場(chǎng)景下的智能決策技術(shù)已成為自動(dòng)駕駛智能化的重要標(biāo)簽。
現(xiàn)階段,自動(dòng)駕駛的決策技術(shù)多采用基于規(guī)則(rule-based)的分解式方案,主要應(yīng)用于稀疏交通工況[3],面對(duì)復(fù)雜的交通環(huán)境,依據(jù)現(xiàn)有預(yù)測(cè)模型難以編寫出涵蓋所有交通場(chǎng)景與行為的全部決策方案。強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)領(lǐng)域的進(jìn)步極大推動(dòng)了自動(dòng)駕駛決策技術(shù)的發(fā)展。RL 基于馬爾科夫過程(Markov decision process,MDP)采用閉環(huán)學(xué)習(xí)的形式,利用回報(bào)函數(shù)作為激勵(lì),采用探索試錯(cuò)的方法自主迭代學(xué)習(xí)[4],逐步改善決策能力?;赗L 的自動(dòng)駕駛決策技術(shù)具有較好的自主決策能力,能夠依據(jù)有效的回報(bào)函數(shù)(安全性、舒適性等)指導(dǎo)相應(yīng)的駕駛行為。RL 憑借對(duì)高維信息較好的提取能力,通過不斷探索學(xué)習(xí)從復(fù)雜的交通場(chǎng)景中抽象出最優(yōu)策略的隱藏映射,可較好應(yīng)對(duì)場(chǎng)景特征難以顯性表達(dá)的難題和減緩不確定性的影響,在自動(dòng)駕駛決策領(lǐng)域具有巨大的應(yīng)用潛力。
學(xué)者們基于RL 算法在自動(dòng)駕駛決策領(lǐng)域開展了諸多研究,在駕駛模擬器Carla、Torcs、Prescan 等仿真環(huán)境中展現(xiàn)出RL算法強(qiáng)大的優(yōu)越性和靈活性,涵蓋L3-L5 級(jí)自動(dòng)駕駛的車道保持、跟馳、換道、交叉口通行等駕駛?cè)蝿?wù)。RL 可以通過處理非結(jié)構(gòu)化數(shù)據(jù),利用高維度感知信息學(xué)習(xí)實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的決策映射,即端到端方案[5]。端到端方案與分解式方案相比,具有框架簡潔、環(huán)感信息無損輸入等優(yōu)點(diǎn)[6],在自動(dòng)駕駛決策領(lǐng)域得到廣泛應(yīng)用。但是端到端方案存在可解釋性低、遷移性不強(qiáng)等缺點(diǎn)[7-8],尤其面臨交互式駕駛場(chǎng)景的復(fù)雜性和不確定性,實(shí)現(xiàn)完全自主決策仍然是一個(gè)非常具有挑戰(zhàn)性的問題。
現(xiàn)階段的學(xué)者們和車企普遍專注于單車智能決策的解決方案,本文中以RL 算法發(fā)展為主線,梳理RL 算法演變、分類、主要思想及在單車智能決策領(lǐng)域的應(yīng)用;歸納了RL前沿發(fā)展,以逆強(qiáng)化學(xué)習(xí)、分層強(qiáng)化學(xué)習(xí)、混合策略等算法為例著重分析其在決策領(lǐng)域的應(yīng)用;總結(jié)分析了RL在自動(dòng)駕駛決策應(yīng)用的不足,并提出了研究展望。
RL 主要由智能體(Agent)、環(huán)境(Env)、狀態(tài)(State)、動(dòng)作(Action)、獎(jiǎng)勵(lì)(Reward)組成[9]。RL 概念由Minsky(1954)首次提出[10],歷經(jīng)動(dòng)態(tài)規(guī)劃方法[11](1957)、策略迭代[12](1960)、獎(jiǎng)懲機(jī)制應(yīng)用控制理論[13](1965)、時(shí)間差分算法[14](1988)、Q-learning算法[15](1989)、SARSA 算法[16](1994)、神經(jīng)動(dòng)態(tài)規(guī)劃方法[17](1996)、置信上限樹算法[18](2006)、確定性策 略 梯 度(deterministic policy gradient,DPG)[19](2014)等傳統(tǒng)算法發(fā)展,形成試錯(cuò)法、最優(yōu)控制及時(shí)序差分法等學(xué)習(xí)思想,RL 算法不依賴標(biāo)簽數(shù)據(jù),關(guān)注Agent與Env之間的交互。
其中應(yīng)用較為廣泛的傳統(tǒng)算法Q-learning 和SARSA 都是基于時(shí)序差分法的RL 算法,依據(jù)QTable 實(shí)現(xiàn)決策,二者的Q(s,a)值更新方式看似相似,實(shí)現(xiàn)原理卻截然不同。
式 中:s為 當(dāng) 前State;a為 當(dāng) 前Action;r為 獲 得 的Reward;s′為下一個(gè)State;a′為下一個(gè)Action;α為學(xué)習(xí)率;γ為折扣系數(shù);Q(s,a)、Q(s′,a′)為動(dòng)作價(jià)值Q函數(shù)。
Q-learning 為離線策略算法,依據(jù)ε-greedy 策略選擇當(dāng)前s對(duì)應(yīng)的動(dòng)作a,與Env 交互得到r、s′[20],maxa′Q(s′,a′)中的動(dòng)作a′不依賴于當(dāng)前ε-greedy 策略,動(dòng)作a和a′并非來自同一個(gè)策略。SARSA 屬于在線策略算法,動(dòng)作a和a′是來自同一個(gè)策略,即Q(s′,a′)中的a′為依據(jù)ε-greedy策略獲得。
現(xiàn)階段RL 算法在自動(dòng)駕駛決策領(lǐng)域的應(yīng)用較少,學(xué)者們基于值函數(shù)的RL算法執(zhí)行一些離散的駕駛動(dòng)作策略,這類傳統(tǒng)算法通常只能處理一些相對(duì)簡單且低維State空間的駕駛場(chǎng)景。
Pyeatt 等[21](1998)將Q-learning 算法應(yīng)用于賽車模擬器中賽車的轉(zhuǎn)向、加速等基本任務(wù)。Qlearning 和SARSA 等RL 傳統(tǒng)算法,面對(duì)連續(xù)或高維State 的 動(dòng) 態(tài) 駕 駛 場(chǎng) 景 時(shí),Agent 受Q-Table 容 量 限制,很難快速迭代出最大行為價(jià)值函數(shù)值并選擇相應(yīng)的Action 或找到全局最優(yōu)解,可能會(huì)導(dǎo)致自動(dòng)駕駛車輛在超車環(huán)節(jié)因輸入空間不能更好地?cái)U(kuò)展而無法完美地避免碰撞發(fā)生。
直至DQN 算法[22](2015)在《Nature》發(fā)表,新的子領(lǐng)域—深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)真正推動(dòng)自動(dòng)駕駛決策技術(shù)的發(fā)展。學(xué)者們借鑒DQN 算法利用深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)近似行為價(jià)值函數(shù)的思想,結(jié)合深度學(xué)習(xí)(deep learning,DL)算法的感知能力與RL 算法的決策能力,將相機(jī)、模擬器界面等采集的圖像作為State輸入,較好地完成車輛車道保持和避障等任務(wù)[23]。
此后,RL 研究進(jìn)展與成果備受關(guān)注,DRL 典型算法相繼被提出,算法多樣化,應(yīng)用靈活性較高。以單智能體為例,根據(jù)算法是否依賴模型,RL 可分為基于無模型的強(qiáng)化學(xué)習(xí)(model-free RL,MFRL)和基于模型的強(qiáng)化學(xué)習(xí)(model-based RL,MBRL)兩類[24]。Guan 等[25]按照最優(yōu)策略的獲得方式進(jìn)一步細(xì)分為直接式RL 和間接式RL,見表1。直接式RL基于梯度下降法,直接優(yōu)化累積獎(jiǎng)勵(lì)的期望值求解最優(yōu)策略;而間接式RL 則根據(jù)貝爾曼方程,間接求解最優(yōu)性條件獲得最優(yōu)策略。
1.2.1 基于MFRL的決策研究
(1)MFRL經(jīng)典算法
MFRL 不依賴轉(zhuǎn)移概率,算法框架相對(duì)簡單,可分為基于值、策略以及結(jié)合值與策略(actor-critic,AC)3類[26]。
基于值的MFRL算法,以DNN逼近價(jià)值函數(shù),應(yīng)用于離散的動(dòng)作空間問題,如DQN 系列算法,見表2。
表2 DQN系列算法
基于策略的MFRL 算法,無須估計(jì)State 或State-Action 的價(jià)值,通常直接將策略以參數(shù)化表示[34],可以應(yīng)用于連續(xù)的動(dòng)作空間問題,但樣本利用率偏低。如策略梯度法,由于梯度每次更新后會(huì)根據(jù)新分布進(jìn)行采樣,造成新梯度的估計(jì)只與現(xiàn)策略有關(guān)而獨(dú)立于過去的估計(jì)。
Lillicrap 等[35](2015)結(jié)合DQN、DPG、AC[36-38]等算法思想,提出了深度確定性策略梯度算法(deep deterministic policy gradient,DDPG),基 于AC 的MFRL 算法,可以提升RL 算法對(duì)連續(xù)動(dòng)作空間的適應(yīng)性。隨后,TRPO、PPO、SAC 等各類典型算法相繼提出,見表3。
表3 MFRL典型算法更新
(2)基于MFRL的決策研究
車聯(lián)網(wǎng)(vehicle to everything,V2X)技術(shù)為自動(dòng)駕駛車輛獲取全面、有效的感知數(shù)據(jù)提供了強(qiáng)有力的支撐和新的發(fā)展思路。面對(duì)合作駕駛、對(duì)抗駕駛等多種駕駛策略,RL以環(huán)境狀態(tài)完全可知作為MDP成立的必要條件,目前學(xué)術(shù)研究主要側(cè)重于完全可觀察的確定性環(huán)境。MFRL 算法因框架簡潔、種類多樣,被廣泛應(yīng)用于自動(dòng)駕駛的決策子任務(wù),不同算法適用駕駛場(chǎng)景的復(fù)雜程度、Reward 時(shí)效性、樣本數(shù)量等各不相同。
基于值的MFRL 算法,面臨自動(dòng)駕駛決策技術(shù)中連續(xù)或大的離散動(dòng)作空間問題時(shí),依據(jù)貪婪策略很難找到最優(yōu)值。雖然可以將車速和轉(zhuǎn)向角的控制范圍劃分為均勻的離散動(dòng)作空間,達(dá)到降低復(fù)雜性的目的,但若步長值過大,易產(chǎn)生不穩(wěn)定的動(dòng)作輸出。
車速和轉(zhuǎn)向角采用連續(xù)動(dòng)作輸出有利于車輛的穩(wěn)定運(yùn)行?;诓呗缘腗FRL 算法旨在通過無梯度或梯度法直接評(píng)估最佳策略,適用于自動(dòng)駕駛連續(xù)動(dòng)作空間決策問題,但若每步策略改變過多,易破壞決策算法訓(xùn)練的穩(wěn)定性。
趨于AC 框架的MFRL 算法兼顧基于值、策略算法的優(yōu)點(diǎn),針對(duì)決策領(lǐng)域的適應(yīng)性更強(qiáng),同時(shí)一些優(yōu)異算法融入MFRL 算法框架,如內(nèi)在獎(jiǎng)勵(lì)指導(dǎo)智能體探索環(huán)境的好奇心機(jī)制、改善輸入特征的注意力機(jī)制、考慮歷史行為影響的長短期記憶(long shortterm memory,LSTM)等優(yōu)化方法,以此提升算法的效率和決策效果。
① 車道保持
自動(dòng)駕駛車輛根據(jù)當(dāng)前車道、導(dǎo)航、地圖等信息,考慮安全、效率、舒適性等需求輸出相應(yīng)的決策動(dòng)作,車道保持作為自動(dòng)駕駛決策技術(shù)中必不可缺的基礎(chǔ)子任務(wù),側(cè)重于車輛的橫向控制,故在此僅做簡要分析。DDPG、PPO、SAC 等經(jīng)典算法基于端到端方案,能夠依據(jù)視覺等信息直接輸出連續(xù)動(dòng)作,從而提供更平滑的軌跡,在駕駛模擬器中較好完成了直線道路和彎道等車道保持任務(wù)[47-50]。其State、Action等參數(shù)的常見設(shè)置見表4。
表4 車道保持任務(wù)State、Action等設(shè)置
② 跟馳
跟馳以車道保持技術(shù)為基礎(chǔ),主要集中于主車的縱向速度策略優(yōu)化研究。作為自動(dòng)決策技術(shù)關(guān)鍵性的基礎(chǔ)子任務(wù),可采用基于RL算法端到端的方案集成舒適性、駕駛風(fēng)格等決策需求進(jìn)行統(tǒng)一設(shè)計(jì)。跟馳效果受道路條件的不確定性、車輛參數(shù)以及前車運(yùn)動(dòng)的隨機(jī)性等因素影響?;贛FRL 的跟馳算法能夠根據(jù)車輛狀態(tài)及周圍環(huán)境信息進(jìn)行自主決策,在滿足駕駛習(xí)慣、乘坐舒適性等決策需求的同時(shí),實(shí)現(xiàn)車輛加速、減速或勻速等縱向速度的策略映射,體現(xiàn)決策系統(tǒng)的人性化。跟馳算法的獎(jiǎng)勵(lì)函數(shù)可結(jié)合安全性、乘車舒適性等多部分組成。其State、Action等參數(shù)的常見設(shè)置見表5。
表5 跟馳任務(wù)State、Action等設(shè)置
朱冰等[51](2019)利用真實(shí)駕駛數(shù)據(jù)對(duì)前車運(yùn)動(dòng)的隨機(jī)性建模并引入PPO 算法框架中,實(shí)現(xiàn)跟馳決策策略,并在真實(shí)駕駛數(shù)據(jù)庫中驗(yàn)證了跟馳效果。Gao 等[52](2019)考慮駕駛風(fēng)險(xiǎn),通過人性化地設(shè)計(jì)Reward 函數(shù),采用Q-learning 算法,基于端到端方案實(shí)現(xiàn)了跟馳的自主決策,在跟車效率、安全性等方面都取得較好效果。
跟馳決策結(jié)合人類專家數(shù)據(jù)集,可提高訓(xùn)練過程的穩(wěn)定性或經(jīng)驗(yàn)回放機(jī)制的效率。Vecerik 等[53](2017)使用示教數(shù)據(jù)(模擬器采集的專家數(shù)據(jù))、Agent 與仿真環(huán)境交互所得的采集數(shù)據(jù)混合于經(jīng)驗(yàn)池中,采用優(yōu)先經(jīng)驗(yàn)回放機(jī)制提升Rward 收斂速度。Liu 等[54](2021)提出了SAC 算法結(jié)合人類專家數(shù)據(jù)集(模擬器采集)的新框架,Agent自適應(yīng)調(diào)整探索和人類專家數(shù)據(jù)集之間的采樣率,提升學(xué)習(xí)進(jìn)程。Li等[55](2021)運(yùn)用真實(shí)世界的人類駕駛數(shù)據(jù)集與Agent采集數(shù)據(jù)交互存儲(chǔ)到經(jīng)驗(yàn)池,采用 DDPG 算法結(jié)合優(yōu)先經(jīng)驗(yàn)的方式在Carla 模擬器中訓(xùn)練自動(dòng)駕駛車輛的跟馳任務(wù)。不同專家的數(shù)據(jù)來源屬性不同,跟馳效果存在一定區(qū)別。
③ 換道
面對(duì)交通場(chǎng)景的不確定性,換道決策仍然是自動(dòng)駕駛汽車復(fù)雜且具有挑戰(zhàn)性的任務(wù)之一。目前,主動(dòng)換道以直線多車道場(chǎng)景為主,強(qiáng)制換道多為高速公路、城市高架道路合流區(qū)場(chǎng)景的匯入、匯出任務(wù)。換道決策的研究有助于提升自動(dòng)駕駛車輛應(yīng)對(duì)復(fù)雜駕駛工況的決策水平。
高速公路場(chǎng)景因其路況良好、不確性因素少,是自動(dòng)駕駛技術(shù)落地應(yīng)用的最佳場(chǎng)景,學(xué)者們運(yùn)用MFRL 經(jīng)典算法能訓(xùn)練出較好的換道策略[56]。而城市道路交通復(fù)雜,通常受限于MFRL 經(jīng)典算法傳統(tǒng)框架稀疏獎(jiǎng)勵(lì)、獎(jiǎng)勵(lì)設(shè)定不合理等問題,影響RL 算法的收斂程度和訓(xùn)練效果。
除LSTM、注意力機(jī)制、動(dòng)作約束等改善RL學(xué)習(xí)效率的方法外,Liu等[57](2020)通過收集多名駕駛員的換道等駕駛操作和習(xí)慣、機(jī)器視覺和車輛狀態(tài)信息等數(shù)據(jù),提取駕駛風(fēng)格等特征融入DDPG 框架,實(shí)現(xiàn)自動(dòng)駕駛個(gè)性化駕駛的策略。
考慮周圍車輛的影響,結(jié)合風(fēng)險(xiǎn)評(píng)估進(jìn)行Reward 設(shè)計(jì),對(duì)Agent 規(guī)避危險(xiǎn)動(dòng)作具有一定的指導(dǎo)性。Li等[58](2022)基于概率模型的駕駛風(fēng)險(xiǎn)評(píng)估方法,提出了基于DQN 算法的風(fēng)險(xiǎn)感知決策策略,面對(duì)相鄰車道附近車輛的影響,在Carla 駕駛器中較好地完成換道決策。
強(qiáng)制換道,以高速公路合流區(qū)匯入任務(wù)為例,車輛匯入受合流區(qū)的幾何設(shè)計(jì)、車道通行規(guī)則(限速等)及主線交通流狀況等因素影響。車輛在有限的加速匝道選擇合適的車速及匯入時(shí)機(jī),對(duì)決策技術(shù)是個(gè)考驗(yàn)。RL 多采用交通環(huán)境、周圍車輛等信息(主線車速度、匝道自主車速度、兩車縱向/橫向車距等參數(shù))作為State輸入。
LSTM 算法可以將歷史和交互駕駛數(shù)據(jù)對(duì)Action 選擇的影響融入DNN,提升車輛匯入效率。Wang等[59](2018)通過LSTM算法學(xué)習(xí)自主車輛與其他車輛的交互駕駛行為作為內(nèi)部State 輸入DQN 網(wǎng)絡(luò)中,在SUMO仿真環(huán)境完成車輛匯入任務(wù)。
根據(jù)映射思想對(duì)Reward 做進(jìn)一步設(shè)計(jì)引導(dǎo)目標(biāo)函數(shù)的收斂性。Lin 等[60](2019)采用DDPG 框架,將處于匝道的匯入車輛向主干道做投影,以映射的等效碰撞距離作為Reward 設(shè)計(jì)依據(jù)之一,有效提升了車輛匯入效率。
④ 交叉口通行
城市道路交叉口的自動(dòng)駕駛安全通行屬于多目標(biāo)優(yōu)化及策略問題,其不確定性和交通事故率高而備受關(guān)注。自動(dòng)駕駛車輛在交叉路口的通行決策通常為連續(xù)的動(dòng)作控制問題,是自動(dòng)駕駛汽車最具有挑戰(zhàn)性的任務(wù)之一。
以十字形交叉路口場(chǎng)景為例,其中筆直交叉路徑、左轉(zhuǎn)越過橫向方向路徑和左轉(zhuǎn)越過相反方向路徑是碰撞風(fēng)險(xiǎn)較高的3種典型場(chǎng)景[61]。
MFRL 經(jīng)典算法基于信號(hào)燈規(guī)律可實(shí)現(xiàn)十字形交叉路口無車流干擾的規(guī)則通行,結(jié)合LSTM、鳥瞰圖、注意力機(jī)制、風(fēng)險(xiǎn)評(píng)估等方法,可以提升十字形交叉路口場(chǎng)景的通行效率。
Li等[61](2022)根據(jù)車輛前端相機(jī)以兩個(gè)不同時(shí)間步長采集的交通圖像,結(jié)合CNN-LSTM 網(wǎng)絡(luò)框架提取空間、時(shí)間特征作為DQN 算法框架的State 輸入,在Carla 模擬器中實(shí)現(xiàn)無信號(hào)燈十字形交叉口的安全通行。Kargar等[62](2022)在無紅綠燈的城市道路仿真環(huán)境中,將高精度地圖的可行駛區(qū)域、道路邊界等信息以及車輛參考路徑、自主車、其他車輛的相關(guān)信息轉(zhuǎn)換成鳥瞰圖作為State 輸入,結(jié)合視覺注意力機(jī)制提取地圖中的重要車輛和關(guān)鍵部分的特征,提升學(xué)習(xí)收斂速度,采用DQN 算法較好地完成十字路口通行任務(wù)?;陲L(fēng)險(xiǎn)評(píng)估的Reward 相對(duì)于基于碰撞的Reward,可以加快策略的收斂速度,針對(duì)十字形交叉口可以適應(yīng)一定程度的遮擋等突發(fā)場(chǎng)景。Kamran 等[63](2020)考慮風(fēng)險(xiǎn)度量和效用的Reward,設(shè)計(jì)了最低安全Reward指導(dǎo)DQN算法框架的十字形交叉口通行策略,通行任務(wù)效果良好。
1.2.2 基于MBRL的決策研究
MBRL 源自最優(yōu)控制領(lǐng)域[64],Agent 根據(jù)Env 建立的模型進(jìn)行學(xué)習(xí)并獲取下一State 的Action,對(duì)策略進(jìn)行優(yōu)化并找到最優(yōu)策略,以獲得最大的累積Reward。由于每一個(gè)樣本都可以用來逼近模型,在數(shù)據(jù)效率上明顯優(yōu)于MFRL。如人工智能AlphaGo采用樹搜索與DNN 結(jié)合的MBRL 方法在圍棋博弈中擊敗人類頂尖選手[65]。
MBRL與MFRL兩種方法各有優(yōu)劣,適用不同的任務(wù)場(chǎng)景。雖然MBRL 的研究相對(duì)于MFRL 更為前沿,但Agent 的學(xué)習(xí)效果與模型的準(zhǔn)確性息息相關(guān)。由于交通環(huán)境的不確定性以及駕駛策略的多樣性,MBRL 模型的設(shè)計(jì)難度相對(duì)較高。相對(duì)于MFRL 在自動(dòng)駕駛決策領(lǐng)域的廣泛應(yīng)用,目前,MBRL 算法主要集中在控制、能量管理、生態(tài)駕駛等領(lǐng)域,在智能決策領(lǐng)域通常采用前沿算法的混合策略,單純MBRL算法應(yīng)用較少。
Puccetti 等[66](2021)基 于 自 回 歸 模 型ARX 的MBRL 算法,設(shè)計(jì)了一種車輛最優(yōu)速度的控制器,用于實(shí)現(xiàn)車輛最優(yōu)的速度跟蹤策略,表現(xiàn)出較好的魯棒性和學(xué)習(xí)效率。
學(xué)者們借助V2X 技術(shù),采用DRL 方法結(jié)合道路坡度、交通規(guī)則、信號(hào)燈、曲率等因素進(jìn)行經(jīng)濟(jì)駕駛,開展智能網(wǎng)聯(lián)汽車巡航研究。Lee 等[67](2022)基于Q-learning算法結(jié)合車輛縱向動(dòng)力學(xué)、電池能耗等方面分析,考慮道路坡度與跟車距離等駕駛條件,建立Dyna 風(fēng)格的MBRL 算法調(diào)整車輛巡航速度,達(dá)到最小化能耗的目的,見圖1。
圖1 考慮道路坡度與跟車距離的巡航速度策略
環(huán)境狀態(tài)完全可觀測(cè)是RL 算法MDP 建模成立的前提,基于V2X 的自動(dòng)駕駛技術(shù)正迅速成為解決眾多交通問題的解決方案之一。但受其信號(hào)傳輸效率、建設(shè)成本等問題的制約,大規(guī)模應(yīng)用尚未實(shí)現(xiàn)。
自動(dòng)駕駛車輛進(jìn)入無通信路口易受到靜態(tài)遮擋和動(dòng)態(tài)遮擋,由于傳感器噪聲干擾、采集范圍受限和感知結(jié)果的不確定性,存在駕駛盲區(qū)、中遠(yuǎn)距離感知不穩(wěn)定等問題。非完全可觀測(cè)情況下的自動(dòng)駕駛?cè)蝿?wù)可視為MDP 的一般表現(xiàn)形式,即部分可觀察的馬爾可夫決策過程(partially observable Markov decision processes,POMDP)。
POMDP 作為環(huán)境狀態(tài)部分可知或動(dòng)態(tài)不確定環(huán)境下序貫決策的理想模型,POMDP可由類似MDP的描述方式六元組< S,A,O,T,R,Z>來描述,S表示有限狀態(tài)集合,A 表示有限動(dòng)作集合,O 表示有限觀察集合,T是一個(gè)狀態(tài)轉(zhuǎn)移矩陣,R是獎(jiǎng)勵(lì)函數(shù),Z是觀察函數(shù)[68]。由于Agent 在受遮擋的環(huán)境中無法直接觀察某些狀態(tài)信息,例如周圍車輛的駕駛意圖,可將其概率分布轉(zhuǎn)換至狀態(tài)。用于表示觀察確定的情況下環(huán)境所處狀態(tài)的概率分布,稱為信念狀態(tài),通常以b表示。當(dāng)前置信b的情況下,在執(zhí)行動(dòng)作a和 得 到 觀 察O 后,需 要 更 新 置 信 為b'[69]。POMDP 利用信念狀態(tài)映射Action,令累積Reward 的期望最大化,找到最優(yōu)策略。當(dāng)前Action 影響下一步的State及Reward。
面對(duì)動(dòng)態(tài)不確定性的駕駛環(huán)境,基于POMDP構(gòu)建包含自動(dòng)駕駛汽車所有可執(zhí)行Action 的信念搜索樹,通過樹搜索得出順序決策,應(yīng)用框架如圖2所示。
圖2 POMDP決策應(yīng)用框架[68]
Bai 等[70](2015)基 于 在 線POMDP 算 法 之 一DESPOT 算法,結(jié)合貝爾曼方程對(duì)置信度樹內(nèi)部節(jié)點(diǎn)選擇最佳動(dòng)作,在動(dòng)態(tài)的多行人環(huán)境中完成實(shí)車自動(dòng)駕駛。提出的POMDP 規(guī)劃器僅控制車輛沿參考路徑行駛的加速度大小,實(shí)現(xiàn)加速、保持和減速等行為動(dòng)作。未對(duì)行人模型進(jìn)行意圖變化分析,但在POMDP 算法中進(jìn)行了置信度更新和重規(guī)劃處理。Hoel等[71](2019)針對(duì)主干道連續(xù)行駛和靠近出口匝道行駛的兩種交通場(chǎng)景轉(zhuǎn)化為POMDP 問題進(jìn)行研究,通過蒙特卡洛樹搜索改進(jìn)神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程,根據(jù)AlphaGo Zero 算法建立的決策框架,在仿真環(huán)境中實(shí)現(xiàn)自動(dòng)駕駛車輛換道和跟馳任務(wù)。
結(jié)合駕駛員過交叉口慢行、待轉(zhuǎn)、習(xí)慣性觀察的思想,在十字形交叉口設(shè)置左轉(zhuǎn)關(guān)鍵位置點(diǎn),可以輔助十字形交叉口左轉(zhuǎn)任務(wù)的實(shí)施。Shu 等[72](2020)針對(duì)十字形交叉口有遮擋的左轉(zhuǎn)通行進(jìn)行研究,依據(jù)大量十字路口左轉(zhuǎn)自然駕駛數(shù)據(jù)得出待轉(zhuǎn)位置關(guān)鍵左轉(zhuǎn)點(diǎn),如圖3 所示,建立基于POMDP 理論的分層規(guī)劃框架,仿真驗(yàn)證結(jié)果令左轉(zhuǎn)通行效率提升20%以上。
圖3 基于關(guān)鍵點(diǎn)轉(zhuǎn)向示意圖
面對(duì)復(fù)雜場(chǎng)景下不完全狀態(tài)信息的建模,如添加動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)推理交通參與者的意圖或非正態(tài)分布的多模態(tài)不確定性POMDP 問題,求解POMDP的最優(yōu)策略需消耗巨大算力。
RL 算法通常以DNN 近似駕駛決策策略,但其DNN 往往只是一個(gè)平滑的映射,DRL 經(jīng)典算法很難學(xué)習(xí)一個(gè)能夠表現(xiàn)出不同行為的策略。例如城市環(huán)境中自動(dòng)駕駛由多項(xiàng)任務(wù)組成,由于周圍車輛的交互影響,復(fù)雜任務(wù)的決策算法可能會(huì)被多個(gè)子任務(wù)所影響,自動(dòng)駕駛決策技術(shù)迫切需要適應(yīng)性更強(qiáng)的RL決策模型和發(fā)展前沿。
RL 作為人工智能的主流方向之一,已經(jīng)進(jìn)入百家爭鳴的時(shí)代。學(xué)者們針對(duì)RL算法樣本復(fù)雜性、超參數(shù)的敏感性、可解釋性和安全性等問題,面向單智能體決策,圍繞以下幾個(gè)方面開展前沿性研究:逆強(qiáng)化學(xué)習(xí)[73](IRL)、分層強(qiáng)化學(xué)習(xí)[74](HRL)、元強(qiáng)化學(xué)習(xí)[75](Meta RL)、離線強(qiáng)化學(xué)習(xí)[76](Offline RL)、多任務(wù)強(qiáng)化學(xué)習(xí)[77](MTDRL)、混合型強(qiáng)化學(xué)習(xí)[78]等,見表6。同時(shí)遷移強(qiáng)化學(xué)習(xí)[79]、量子強(qiáng)化學(xué)習(xí)[80]、分布式強(qiáng)化學(xué)習(xí)[81]、Transformer 強(qiáng)化學(xué)習(xí)[82]、安全強(qiáng)化學(xué)習(xí)[83]、貝葉斯強(qiáng)化學(xué)習(xí)[84]、可解釋的強(qiáng)化學(xué)習(xí)[85]等方面也是近年的研究熱點(diǎn)。
表6 RL主要前沿方向
面向單車智能駕駛的RL前沿決策技術(shù),目前應(yīng)用廣泛、相對(duì)成熟的前沿主流為IRL、HRL 及混合策略等算法,且均取得了突破性進(jìn)展。
3.2.1 基于IRL的行為決策研究
IRL 起源于模仿學(xué)習(xí),將專家做出的決策視為最優(yōu)或接近最優(yōu)的策略,即專家策略所產(chǎn)生的累積Reward 設(shè)為最高。IRL 基于最大邊際化或概率模型的角度出發(fā),從已有策略或觀察到的專家行為推斷Reward,從而改善Reward 誤差過大、獎(jiǎng)賞稀疏、收斂困難等問題。
在自動(dòng)駕駛決策研究中,IRL 通常借助專家駕駛員的行為數(shù)據(jù)進(jìn)行學(xué)習(xí)并推理出Reward,再根據(jù)Reward 正向執(zhí)行RL 算法,結(jié)合駕駛場(chǎng)景的特征優(yōu)化駕駛行為策略。其中結(jié)合GAN 思想的反向RL 方法—對(duì)抗性逆強(qiáng)化學(xué)習(xí)(GAIL)近年來被廣泛應(yīng)用[127-128],如圖4所示。
圖4 GAIL結(jié)構(gòu)圖
You等[129](2019)考慮駕駛員的駕駛風(fēng)格建立基于State-Action 的獎(jiǎng)勵(lì)函數(shù),采用Q-learning 結(jié)合最大熵原理的IRL 框架確定車輛在多車道環(huán)境的最優(yōu)駕駛策略。Wang等[130](2021)將元學(xué)習(xí)算法與GAIL算法相結(jié)合,把保守和中性駕駛風(fēng)格作為元訓(xùn)練任務(wù),并用挑戰(zhàn)性駕駛風(fēng)格(攻擊性駕駛)作為元測(cè)試任務(wù),仿真環(huán)境中實(shí)現(xiàn)自動(dòng)駕駛車輛換道決策。Liu等[131](2022)采用主成分分析法將專家先驗(yàn)知識(shí)提取駕駛風(fēng)格,采用基于最大熵的IRL 框架根據(jù)駕駛風(fēng)格定制自動(dòng)駕駛車輛變道任務(wù)。
IRL 算法多適用于車道保持、跟馳、巡航或簡易換道等任務(wù)。由于復(fù)雜交通場(chǎng)景中周圍參與者的不確定性,所需的專家駕駛數(shù)據(jù)通常較大,且相同情況下不同的專家駕駛員做出的決策可能完全不同,推理出的Reward 指導(dǎo)性過弱而導(dǎo)致策略不適應(yīng)?,F(xiàn)實(shí)世界的部分專家數(shù)據(jù)集(NGSIM等)僅涵蓋具體任務(wù)的交通場(chǎng)景。模擬環(huán)境中采集的專家數(shù)據(jù),會(huì)存在泛化性弱和數(shù)據(jù)集偏差等問題。
3.2.2 基于HRL的行為決策研究
依據(jù)駕駛員實(shí)際駕駛過程為離散與連續(xù)的分層次駕駛思想,HRL 算法以MDP、POMDP 作為數(shù)學(xué)基礎(chǔ),建立離散的上層決策與連續(xù)的下層執(zhí)行框架。分層系統(tǒng)中不同的局部策略作為一個(gè)獨(dú)立的子功能,如高速公路主干道行駛總策略可細(xì)分為左/右換道、車道保持、跟馳等多個(gè)獨(dú)立子任務(wù),簡化了State空間容量,可以較好地應(yīng)對(duì)RL經(jīng)典算法中可能出現(xiàn)的維度災(zāi)難等問題,提升整體決策性能。
Option、HAM、MAXQ、Skill系列算法抽象出不同級(jí)別的控制層,實(shí)現(xiàn)HRL 多級(jí)控制。而基于目標(biāo)(Goal)的HRL 算法,其Goal 則屬于目標(biāo)層面上的定義,上層控制器根據(jù)上層策略選擇一個(gè)關(guān)鍵Goal,下層控制器根據(jù)Goal及下層策略選擇Action。
Chen 等[132](2018)針對(duì)具有人行道與紅綠燈設(shè)施的駕駛場(chǎng)景,采用基于策略梯度算法的HRL 框架,設(shè)定了紅燈、黃燈、綠燈分別執(zhí)行的子通行策略,在仿真環(huán)境中實(shí)現(xiàn)自動(dòng)駕駛車輛的信號(hào)燈通行任務(wù)。Chen 等[133](2019)基于DDPG 的HRL 框架融入時(shí)間/空間注意力機(jī)制,提升了神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)性和換道效率,在TORCS 模擬器中實(shí)現(xiàn)換道任務(wù)。Duan等[134](2020)針對(duì)高速公路主干路駕駛場(chǎng)景,采用HRL 思想將駕駛?cè)蝿?wù)分解為車道內(nèi)行駛、左/右車道變更3個(gè)Option,采用異步并行的訓(xùn)練方法學(xué)習(xí)每個(gè)動(dòng)作的子策略和主策略。周圍車輛社會(huì)偏好性的融入可以較好地體現(xiàn)超車決策算法的舒適性和穩(wěn)定性。呂超等[135](2022)基于周圍車輛的社會(huì)偏好性(利他型、利己型和互惠型)概率模型,結(jié)合Qlearning 算法搭建HRL 框架,通過實(shí)車采集數(shù)據(jù)與Carla模擬器完成自車超車任務(wù)的聯(lián)合驗(yàn)證。
HRL 算法可很好地解決自動(dòng)駕駛多任務(wù)決策,但是與MTDRL的原理截然不同,HRL上下層次同時(shí)訓(xùn)練的不穩(wěn)定問題,高價(jià)狀態(tài)遷移函數(shù)的平穩(wěn)性、自動(dòng)學(xué)習(xí)分層結(jié)構(gòu)及避免人工定義Goal 空間是進(jìn)一步有待解決的問題。
3.2.3 基于混合策略的RL算法
直接采用端到端方案在解決自動(dòng)駕駛復(fù)雜決策任務(wù)時(shí),由于須考慮的影響因素多,框架設(shè)計(jì)存在困難,結(jié)合多種決策方案組成混合策略,可以兼容多種方案的特點(diǎn),提升決策能力。
(1)分解式框架與端到端方案的混合策略
將基于先驗(yàn)知識(shí)(車輛模型、駕駛行為數(shù)據(jù)、交通規(guī)則等)的Rule-base 算法與RL算法聯(lián)合實(shí)施,提升自動(dòng)駕駛車輛決策能力的適應(yīng)性。Qiao 等[136](2019)針對(duì)具有停止線的十字形交叉路口場(chǎng)景將基于啟發(fā)式的決策結(jié)構(gòu)與基于Option 類型的DQN 分層算法構(gòu)建混合模型框架,完成跟隨前車和停止線停止的任務(wù)。Lubars 等[137](2020)針對(duì)高速合流區(qū)匯入任務(wù),利用DDPG 算法提升匯入效率和乘客舒適度、MPC算法提升車輛匯入安全性的特點(diǎn),將兩種算法相聯(lián)合作為匯入決策,在SUMO 模擬器單加速車道和單主干道的仿真環(huán)境中較好地完成了匯入決策。Bai 等[138](2022)提出了一種混合型決策框架,該框架基于Rule-base 的IDM 算法和Dueling DQN算法的共同協(xié)作,如圖5 所示??紤]安全規(guī)則的影響,實(shí)現(xiàn)自動(dòng)駕駛車輛在有信號(hào)交叉口的安全通行。
圖5 基于規(guī)則和RL協(xié)作策略框架
利用MBRL 算法的決策能力,結(jié)合下層Rulebase 算法執(zhí)行軌跡跟蹤任務(wù),可在一定程度上提升車輛軌跡的穩(wěn)定性,遇到突發(fā)狀況,可結(jié)合Rulebase 方法執(zhí)行安全冗余設(shè)計(jì)。Shi 等[139](2019)提出基于h-DQN 的變道決策與純跟蹤控制體系搭建的混合式結(jié)構(gòu),仿真環(huán)境中完成自動(dòng)駕駛車輛完整換道任務(wù)。HRL 算法開展換道時(shí)間和換道軌跡的決策,純跟蹤算法執(zhí)行軌跡跟蹤任務(wù)。Naveed 等[140](2021)將一種HRL結(jié)構(gòu)結(jié)合PID控制器構(gòu)建自動(dòng)駕駛決策和軌跡跟蹤的混合框架,利用LSTM 來處理不完全觀測(cè)的問題,在Carla 模擬器中完成車輛換道/跟馳任務(wù)。
針對(duì)自動(dòng)駕駛生態(tài)駕駛,基于MBRL 算法構(gòu)建混合策略可以較好地應(yīng)對(duì)交通規(guī)則,并兼顧車輛的能量管理。Yavas 等[141](2022)針對(duì)自適應(yīng)巡航任務(wù),將傳統(tǒng)跟馳模型IDM 與基于Dyna 思想的MBRL算法組成混合策略,提升巡航效果的優(yōu)越性。
(2)集成式?jīng)Q控混合策略
將決策和控制問題整合為集成式?jīng)Q控框架,使用統(tǒng)一的約束模型。Guan 等[78](2021)針對(duì)十字交叉路口交通場(chǎng)景,提出了集成式?jīng)Q策和控制框架(IDC),采用基于MBRL 的GEP 算法,實(shí)現(xiàn)不同交通條件下的無碰撞駕駛,并進(jìn)行了實(shí)車驗(yàn)證。Jiang等[142](2021)針對(duì)基于靜態(tài)路徑規(guī)劃和最佳動(dòng)態(tài)跟蹤模塊組成的IDC 框架,通過融入有限狀態(tài)機(jī)選擇路徑進(jìn)行改進(jìn),實(shí)現(xiàn)十字交叉路口識(shí)別信號(hào)燈的通行。
任何RL算法都非常依賴算力。基于RL的自動(dòng)駕駛決策技術(shù),無論采用先離線訓(xùn)練策略、后在線應(yīng)用策略的方式,還是同時(shí)訓(xùn)練和應(yīng)用策略的方式[143],都需要面對(duì)車載單元有限資源的限制和安全性的約束。智能網(wǎng)聯(lián)云系統(tǒng)的發(fā)展為此提供了較好支撐。李升波[143](2022)依托李克強(qiáng)院士[144](2020)提出的云支持智能網(wǎng)聯(lián)汽車架構(gòu),通過云端平臺(tái)獲取車輛狀態(tài)及環(huán)境信息、迭代訓(xùn)練基于RL的自動(dòng)駕駛策略,車端接收成熟的RL策略、測(cè)試驗(yàn)證和應(yīng)用,循環(huán)往復(fù),實(shí)現(xiàn)車云路一體化的自動(dòng)駕駛策略進(jìn)化與應(yīng)用。
智能決策能力是衡量和評(píng)價(jià)自動(dòng)駕駛能力的核心指標(biāo)。RL 技術(shù)在仿真環(huán)境中可以有效地用于不同級(jí)別的自動(dòng)駕駛決策任務(wù),經(jīng)過RL相關(guān)技術(shù)及前沿算法的開發(fā)與應(yīng)用,訓(xùn)練效率、收斂性與穩(wěn)定性、場(chǎng)景泛化能力均得到一定的提升與改善,但除特定場(chǎng)景的自動(dòng)駕駛車輛應(yīng)用外,現(xiàn)有的相關(guān)研究并未在實(shí)際環(huán)境中開展,基于RL的自動(dòng)駕駛決策技術(shù)在工程化落地存在諸多困難。RL 在智能決策方面的應(yīng)用需要實(shí)質(zhì)性的突破,對(duì)其決策技術(shù)展望如下。
(1)安全冗余決策系統(tǒng)的設(shè)立
決策系統(tǒng)對(duì)自動(dòng)駕駛汽車的安全性具有決定性作用。DRL 算法固有的DNN 黑盒特性,除網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)外,可結(jié)合自動(dòng)駕駛多層鳥瞰語義地圖、其他模型(如樹模型、混合決策策略等)來提高RL智能決策的可解釋性;“長尾效應(yīng)”作為自動(dòng)駕駛的難題,海量數(shù)據(jù)是解決問題的核心資源,先驗(yàn)知識(shí)和基于RL的學(xué)習(xí)融合、V2X 的信息共享等技術(shù)是解決“長尾”的算法基礎(chǔ);Reward 無法兼顧策略安全性與穩(wěn)定性,安全深度強(qiáng)化學(xué)習(xí)算法的前沿發(fā)展是提高RL 算法安全性的趨勢(shì)之一。自動(dòng)駕駛作為系統(tǒng)化工程,無法從單點(diǎn)解決問題,尤其面對(duì)決策系統(tǒng)自身算法性能的局限性、決策輸入/輸出信息準(zhǔn)確率的影響,車輛安全、平穩(wěn)、高效的行駛需要安全冗余的決策系統(tǒng)。從整車框架層面、功能定義層面進(jìn)行決策技術(shù)的安全冗余設(shè)計(jì),也是自動(dòng)駕駛真正落地的基礎(chǔ)和前提。
(2)虛擬環(huán)境向真實(shí)的轉(zhuǎn)換
目前,基于RL的自動(dòng)駕駛決策應(yīng)用大部分研究工作是在仿真環(huán)境下完成的,只有少數(shù)研究成果實(shí)現(xiàn)工程化應(yīng)用。真實(shí)環(huán)境和虛擬環(huán)境之間的較大差異,令仿真環(huán)境中RL的應(yīng)用效果與實(shí)際部署之間存在較大差距。借助云端化網(wǎng)聯(lián)自動(dòng)駕駛技術(shù)的虛實(shí)結(jié)合模式,如平行駕駛技術(shù)等,也是引導(dǎo)決策算法由虛擬邁入現(xiàn)實(shí)的有效手段之一;虛擬到現(xiàn)實(shí)的策略遷移,可以通過域自適應(yīng)、域隨機(jī)化和圖像翻譯等學(xué)習(xí)方法縮小兩者之間的差距;遷移強(qiáng)化學(xué)習(xí)等研究的投入有助于加快虛擬環(huán)境向真實(shí)環(huán)境的轉(zhuǎn)換。仿真中的環(huán)境狀態(tài)信息全部可知,但面對(duì)真實(shí)環(huán)境下無V2X 應(yīng)用、存在遮擋情況的實(shí)際駕駛場(chǎng)景,自動(dòng)駕駛RL 技術(shù)的工程化落地面臨很多挑戰(zhàn),現(xiàn)階段RL 技術(shù)的應(yīng)用還處于摸索階段,自動(dòng)駕駛決策的潛力還沒有被完全發(fā)掘出來,但這一領(lǐng)域仍然具有廣闊前景。