張智飛
0? 引言
車輛實(shí)現(xiàn)自動(dòng)駕駛,對(duì)于緩解城市擁堵、提高行駛安全性以及降低運(yùn)輸成本等方面具有公認(rèn)的作用。如何實(shí)現(xiàn)車輛的自動(dòng)駕駛是目前汽車行業(yè)非常重要的發(fā)展和研究方向。
1? 自動(dòng)駕駛車輛行為決策問(wèn)題分類及難點(diǎn)
1.1 車輛決策問(wèn)題分類? 車輛的決策以橫縱向駕駛行為可分為:①駕駛行為推理問(wèn)題,如停車、避讓和車道保持等;②速度決策問(wèn)題,如加速、減速或保持速度等。也可根據(jù)車輛駕駛行為將問(wèn)題分為車輛控制行為、基本行車行為、基本交通行為、高級(jí)行車行為、高級(jí)交通行為。
1.2 決策難點(diǎn)分析? 實(shí)現(xiàn)自動(dòng)駕駛關(guān)鍵在于車輛的行為決策是否合理可行。如何綜合車輛運(yùn)行環(huán)境及車輛信息,結(jié)合行駛目的做出具有安全性、可靠性以及合理性的駕駛行為是決策控制的難點(diǎn)亦是實(shí)現(xiàn)自動(dòng)駕駛的難點(diǎn)。
應(yīng)對(duì)環(huán)境多變性、檢測(cè)不準(zhǔn)確性、交通復(fù)雜性、交規(guī)約束性等諸多車輛行駛不利因素,如何降低或消除其產(chǎn)生的不利影響,是行為決策模塊的研究重點(diǎn)。此前已有研究人員提出了許多應(yīng)對(duì)不同環(huán)境的決策方法,可分為基于規(guī)則的行為決策方法和基于統(tǒng)計(jì)的行為決策方法。但其中仍有許多亟待解決的問(wèn)題。本文分別對(duì)兩種方法中應(yīng)用較廣的模型及基于有限狀態(tài)機(jī)模型和深度強(qiáng)化學(xué)習(xí)模型的自動(dòng)駕駛決策方法進(jìn)行探討,對(duì)其適用性、可靠性及實(shí)現(xiàn)原理進(jìn)行對(duì)比分析。提出行為決策方法的發(fā)展趨勢(shì),為自動(dòng)駕駛車輛行為決策方法的研究提供參考。
2? 基于有限狀態(tài)機(jī)的行為決策模型
有限狀態(tài)機(jī)模型作為經(jīng)典的智能車輛駕駛行為決策方法,因其結(jié)構(gòu)簡(jiǎn)單、控制邏輯清晰,多應(yīng)用于園區(qū)、港口等封閉場(chǎng)景。在這些封閉場(chǎng)景中道路具有固定的路線和節(jié)點(diǎn),因此可預(yù)先設(shè)計(jì)行駛規(guī)則。這種預(yù)先設(shè)計(jì)行駛規(guī)則的方法將特定場(chǎng)景的車輛決策描述為離散事件,在不同場(chǎng)景通過(guò)不同事件觸發(fā)相應(yīng)的駕駛行為。這種基于事件響應(yīng)的模型稱為有限狀態(tài)機(jī)決策模型。
2.1 有限狀態(tài)機(jī)模型的原理? 有限狀態(tài)機(jī)(FSM,F(xiàn)inite-State Machine)是對(duì)特定目標(biāo)在有限個(gè)狀態(tài)中由特定事件觸發(fā)使?fàn)顟B(tài)相互轉(zhuǎn)移并執(zhí)行相應(yīng)動(dòng)作的數(shù)學(xué)模型。已經(jīng)被廣泛應(yīng)用在特定場(chǎng)景無(wú)人駕駛車輛、機(jī)器人系統(tǒng)等領(lǐng)域。有限狀態(tài)機(jī)主要由四部分組成:事件(Event)、轉(zhuǎn)換(Transition)、狀態(tài)(State)及動(dòng)作(Action)。
式中:∑是輸入集,也稱事件集,是狀態(tài)集能接受的所有可能輸入;Λ是輸出集,也稱動(dòng)作集,是FSM的響應(yīng)動(dòng)作集合;S是狀態(tài)集,包含對(duì)象特定場(chǎng)景下的所有狀態(tài);s0是初始狀態(tài),表示FSM的初始條件或默認(rèn)狀態(tài);f是終止?fàn)顟B(tài),是FSM狀態(tài)集的子集,可以是空集;δ是轉(zhuǎn)換邏輯,是FSM的狀態(tài)轉(zhuǎn)移條件。
使用此模型時(shí)應(yīng)滿足:①以上所有集合為有限集。②任意時(shí)刻均有對(duì)應(yīng)狀態(tài),任意狀態(tài)均有對(duì)應(yīng)動(dòng)作。③忽略狀態(tài)轉(zhuǎn)移時(shí)間。
2.2 有限狀態(tài)機(jī)模型在車輛決策中的應(yīng)用? Junior車隊(duì)[1]在2007年的DAPRA比賽中使用并聯(lián)結(jié)構(gòu)有限狀態(tài)機(jī)模型實(shí)現(xiàn)了包括初始狀態(tài)、車道跟隨等13種行駛狀態(tài)的相互切換,圖1中顯示了11種情況省略了避障(ESCAPE)和交通堵塞(TRAFFIC JAM)兩種情況。
BOSS車隊(duì)[2]采用了如圖2所示的有限狀態(tài)機(jī)層次式混聯(lián)結(jié)構(gòu)模型,此結(jié)構(gòu)根據(jù)車輛自身的行為和駕駛場(chǎng)景分為兩層,各層對(duì)應(yīng)不同的狀態(tài),一定程度上解決了有限狀態(tài)機(jī)模型在駕駛狀態(tài)增多時(shí),結(jié)構(gòu)凌亂難以維護(hù)的缺點(diǎn)。
中國(guó)科學(xué)技術(shù)大學(xué)研發(fā)的智能先鋒Ⅱ[3]智能車采用分為行為決策和駕駛動(dòng)作執(zhí)行(運(yùn)動(dòng)規(guī)劃、控制)的兩層有限狀態(tài)機(jī)決策模型。
綜上所述,基于有限狀態(tài)機(jī)模型及其拓展模型的決策系統(tǒng)其結(jié)構(gòu)相對(duì)簡(jiǎn)單、框架清晰應(yīng)用較為廣泛。但是當(dāng)智能車輛行駛環(huán)境比較復(fù)雜時(shí),其狀態(tài)集和輸入集大量增加,結(jié)構(gòu)變得復(fù)雜且場(chǎng)景劃分比較困難。因此此方法適用于簡(jiǎn)單場(chǎng)景時(shí)具有較高可靠性。
3? 基于深度強(qiáng)化學(xué)習(xí)的行為決策模型
人工智能自誕生以來(lái),經(jīng)過(guò)六十多年的發(fā)展,已經(jīng)成為一門具有日臻完善的理論基礎(chǔ)、日益廣泛的應(yīng)用領(lǐng)域的交叉學(xué)科。近年來(lái),對(duì)深度強(qiáng)化學(xué)習(xí)算法的進(jìn)一步認(rèn)識(shí)和挖掘,是人工智能實(shí)現(xiàn)應(yīng)用的重要研究方向。深度強(qiáng)化學(xué)習(xí)技術(shù)方法越來(lái)越廣泛的應(yīng)用于智能車輛的環(huán)境感知與決策系統(tǒng)[4]。
3.1 深度強(qiáng)化學(xué)習(xí)模型的原理? 深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)結(jié)合了深度學(xué)習(xí)算法的“感知能力”和強(qiáng)化學(xué)習(xí)算法的“決策能力”,為復(fù)雜駕駛場(chǎng)景的感知決策問(wèn)題提供解決方案。DRL的原理框架是一種是端到端感知和決策控制系統(tǒng)。其框架如圖3所示。
其學(xué)習(xí)過(guò)程可概括為:①智能體與環(huán)境交互得到觀測(cè)信息,并利用深度學(xué)習(xí)識(shí)別觀測(cè)信息的特征;②基于預(yù)期回報(bào)評(píng)判動(dòng)作價(jià)值,并根據(jù)相應(yīng)策略將當(dāng)前狀態(tài)映射到相應(yīng)動(dòng)作;③隨動(dòng)作變化而導(dǎo)致智能體與環(huán)境交互得到的觀測(cè)信息發(fā)生變化,進(jìn)入三者的循環(huán)最終得出目標(biāo)的最優(yōu)策略。
3.2 深度強(qiáng)化學(xué)習(xí)算法? 基于深度學(xué)習(xí)的方法通常需要大量人工標(biāo)記的數(shù)據(jù)來(lái)訓(xùn)練模型,再以此深度網(wǎng)絡(luò)實(shí)現(xiàn)自動(dòng)駕駛決策,對(duì)于車輛這個(gè)動(dòng)態(tài)對(duì)象來(lái)說(shuō)這是不現(xiàn)實(shí)的。而基于強(qiáng)化學(xué)習(xí)的方法則具有一定的自主決策能力,符合車輛行駛的動(dòng)態(tài)特性。但強(qiáng)化學(xué)習(xí)方法是將所有的狀態(tài)-動(dòng)作映射的評(píng)價(jià)值儲(chǔ)存為一個(gè)列表,這對(duì)于車輛的復(fù)雜工況很難實(shí)現(xiàn),因此基于強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛決策算法沒(méi)有廣泛應(yīng)用。
研究者嘗試將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合形成了圖3所示的深度強(qiáng)化學(xué)習(xí)模型。其代表性算法是由Mnih等提出的DQN(Deep Q-Network)算法[5]。此算法針對(duì)離散動(dòng)作空間,并不適用于車輛自動(dòng)駕駛控制系統(tǒng)。2016年,Google DeepMind將DQN算法改進(jìn)為深度確定性策略梯度(Deep Dterministic Policy Gradient,DDPG)算法,可實(shí)現(xiàn)連續(xù)動(dòng)作空間的控制決策。此算法更加符合人類決策方式。由王丙琛[6]等,在DDPG的基礎(chǔ)上提出了結(jié)合專家經(jīng)驗(yàn)的決策控制算法(Deep Dterministic Policy Gradient with Expert,DDPGwE)。與DDPG算法相比,DDPGwE算法縮短了訓(xùn)練時(shí)間,提高模型的穩(wěn)定性和泛化性。
3.3 基于深度強(qiáng)化學(xué)習(xí)模型的應(yīng)用? 英偉達(dá)公司[7]研發(fā)的駕駛行為決策系統(tǒng)使用的是端到端神經(jīng)網(wǎng)絡(luò)進(jìn)行,其模型訓(xùn)練框圖4所示。
國(guó)內(nèi)百度公司的端到端系統(tǒng)使用長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Long short term memory network,LSTM)算法實(shí)現(xiàn)車輛縱向決策與控制,使用卷積神經(jīng)網(wǎng)絡(luò)深度強(qiáng)化學(xué)習(xí)模型實(shí)現(xiàn)車輛的橫向決策與控制,同時(shí)實(shí)現(xiàn)了對(duì)車輛橫縱方向上的駕駛行為決策與車輛控制。
通過(guò)對(duì)已經(jīng)應(yīng)用深度強(qiáng)化學(xué)習(xí)模型的案例的研究發(fā)現(xiàn),此模型具有解決復(fù)雜環(huán)境車輛決策與控制的潛力。但是,隨著車輛環(huán)境信息復(fù)雜程度的加大決策控制模塊需要處理和分析的數(shù)據(jù)量也會(huì)大大增加,對(duì)控制算法及模型的時(shí)效性提出更高的要求。
4? 結(jié)論
文章就目前應(yīng)用較多的基于有限狀態(tài)機(jī)模型的自動(dòng)駕駛決策方法和基于深度強(qiáng)化學(xué)習(xí)算法的決策方法進(jìn)行了分析。從應(yīng)用上講,基于有限狀態(tài)機(jī)模型的決策模型更適用于封閉場(chǎng)景的駕駛決策,但應(yīng)對(duì)實(shí)際場(chǎng)景,還要在有限狀態(tài)機(jī)模型的基礎(chǔ)上結(jié)合相應(yīng)的前沿控制算法解決決策控制問(wèn)題?;谏疃葟?qiáng)化學(xué)習(xí)的決策方法的應(yīng)用場(chǎng)景則更廣泛,是未來(lái)決策控制的發(fā)展方向。從可靠性上講,目前的自動(dòng)駕駛技術(shù)都處于實(shí)驗(yàn)或應(yīng)用測(cè)試階段,自動(dòng)駕駛技術(shù)的可靠性都需要較長(zhǎng)時(shí)間的檢驗(yàn)及驗(yàn)證。
參考文獻(xiàn):
[1]Montemerlo M, Bhat S, Bhat S, et al. Junior: The Stanford entry in the urban challenge[J]. Journal of Field Robotics, 2009, 25(9):569-597.
[2]陳佳佳.城市環(huán)境下無(wú)人駕駛車輛決策系統(tǒng)研究[D].合肥: 中國(guó)科學(xué)技術(shù)大學(xué),2014.
[3]杜明博.基于人類駕駛行為的無(wú)人駕駛車輛行為決策與運(yùn)動(dòng)規(guī)劃方法研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2016:1-18.
[4]Pan X, You Y, Wang Z, et al. Virtual to real reinforcement learning for autonomous driving.[C]. British Machine Vision Conference, 2017.
[5]Chung J. Playing Atari with Deep Reinforcement Learning[J]. Computer ence, 2013.
[6]王丙琛,司懷偉,譚國(guó)真.基于深度強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛車控制算法研究[J/OL].鄭州大學(xué)學(xué)報(bào)(工學(xué)版),2020:1-6.
[7]Bojarski M, Testa D D, Dworakowski D, et al. End to End Learning for Self-Driving Cars[J]. arXiv: Computer Vision and Pattern Recognition, 2016.
摘要:為了研究自動(dòng)駕駛車輛行為決策方法的原理及發(fā)展,文章通過(guò)分析目前駕駛行為決策方法的研究成果,對(duì)行為決策方法進(jìn)行綜述。主要分析基于有限狀態(tài)機(jī)模型和深度強(qiáng)化學(xué)習(xí)模型的行為決策方法的原理及優(yōu)劣,分析相應(yīng)決策方法的適用場(chǎng)景??偨Y(jié)實(shí)現(xiàn)高級(jí)別自動(dòng)駕駛行為決策的技術(shù)難點(diǎn),并對(duì)相應(yīng)的解決方案進(jìn)行分析。
關(guān)鍵詞:自動(dòng)駕駛;行為決策;深度強(qiáng)化學(xué)習(xí);有限狀態(tài)機(jī)