亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

自動駕駛車輛行為決策方法研究

2021-09-10 12:59:47張智飛

內(nèi)燃機(jī)與配件 2021年4期

張智飛

0? 引言

車輛實(shí)現(xiàn)自動駕駛，對于緩解城市擁堵、提高行駛安全性以及降低運(yùn)輸成本等方面具有公認(rèn)的作用。如何實(shí)現(xiàn)車輛的自動駕駛是目前汽車行業(yè)非常重要的發(fā)展和研究方向。

1? 自動駕駛車輛行為決策問題分類及難點(diǎn)

1.1 車輛決策問題分類? 車輛的決策以橫縱向駕駛行為可分為：①駕駛行為推理問題，如停車、避讓和車道保持等;②速度決策問題，如加速、減速或保持速度等。也可根據(jù)車輛駕駛行為將問題分為車輛控制行為、基本行車行為、基本交通行為、高級行車行為、高級交通行為。

1.2 決策難點(diǎn)分析? 實(shí)現(xiàn)自動駕駛關(guān)鍵在于車輛的行為決策是否合理可行。如何綜合車輛運(yùn)行環(huán)境及車輛信息，結(jié)合行駛目的做出具有安全性、可靠性以及合理性的駕駛行為是決策控制的難點(diǎn)亦是實(shí)現(xiàn)自動駕駛的難點(diǎn)。

應(yīng)對環(huán)境多變性、檢測不準(zhǔn)確性、交通復(fù)雜性、交規(guī)約束性等諸多車輛行駛不利因素，如何降低或消除其產(chǎn)生的不利影響，是行為決策模塊的研究重點(diǎn)。此前已有研究人員提出了許多應(yīng)對不同環(huán)境的決策方法，可分為基于規(guī)則的行為決策方法和基于統(tǒng)計的行為決策方法。但其中仍有許多亟待解決的問題。本文分別對兩種方法中應(yīng)用較廣的模型及基于有限狀態(tài)機(jī)模型和深度強(qiáng)化學(xué)習(xí)模型的自動駕駛決策方法進(jìn)行探討，對其適用性、可靠性及實(shí)現(xiàn)原理進(jìn)行對比分析。提出行為決策方法的發(fā)展趨勢，為自動駕駛車輛行為決策方法的研究提供參考。

2? 基于有限狀態(tài)機(jī)的行為決策模型

有限狀態(tài)機(jī)模型作為經(jīng)典的智能車輛駕駛行為決策方法，因其結(jié)構(gòu)簡單、控制邏輯清晰，多應(yīng)用于園區(qū)、港口等封閉場景。在這些封閉場景中道路具有固定的路線和節(jié)點(diǎn)，因此可預(yù)先設(shè)計行駛規(guī)則。這種預(yù)先設(shè)計行駛規(guī)則的方法將特定場景的車輛決策描述為離散事件，在不同場景通過不同事件觸發(fā)相應(yīng)的駕駛行為。這種基于事件響應(yīng)的模型稱為有限狀態(tài)機(jī)決策模型。

2.1 有限狀態(tài)機(jī)模型的原理? 有限狀態(tài)機(jī)（FSM，F(xiàn)inite-State Machine）是對特定目標(biāo)在有限個狀態(tài)中由特定事件觸發(fā)使?fàn)顟B(tài)相互轉(zhuǎn)移并執(zhí)行相應(yīng)動作的數(shù)學(xué)模型。已經(jīng)被廣泛應(yīng)用在特定場景無人駕駛車輛、機(jī)器人系統(tǒng)等領(lǐng)域。有限狀態(tài)機(jī)主要由四部分組成：事件（Event）、轉(zhuǎn)換（Transition）、狀態(tài)（State）及動作（Action）。

式中：∑是輸入集，也稱事件集，是狀態(tài)集能接受的所有可能輸入;Λ是輸出集，也稱動作集，是FSM的響應(yīng)動作集合;S是狀態(tài)集，包含對象特定場景下的所有狀態(tài);s0是初始狀態(tài)，表示FSM的初始條件或默認(rèn)狀態(tài);f是終止?fàn)顟B(tài)，是FSM狀態(tài)集的子集，可以是空集;δ是轉(zhuǎn)換邏輯，是FSM的狀態(tài)轉(zhuǎn)移條件。

使用此模型時應(yīng)滿足：①以上所有集合為有限集。②任意時刻均有對應(yīng)狀態(tài)，任意狀態(tài)均有對應(yīng)動作。③忽略狀態(tài)轉(zhuǎn)移時間。

2.2 有限狀態(tài)機(jī)模型在車輛決策中的應(yīng)用? Junior車隊[1]在2007年的DAPRA比賽中使用并聯(lián)結(jié)構(gòu)有限狀態(tài)機(jī)模型實(shí)現(xiàn)了包括初始狀態(tài)、車道跟隨等13種行駛狀態(tài)的相互切換，圖1中顯示了11種情況省略了避障（ESCAPE）和交通堵塞（TRAFFIC JAM）兩種情況。

BOSS車隊[2]采用了如圖2所示的有限狀態(tài)機(jī)層次式混聯(lián)結(jié)構(gòu)模型，此結(jié)構(gòu)根據(jù)車輛自身的行為和駕駛場景分為兩層，各層對應(yīng)不同的狀態(tài)，一定程度上解決了有限狀態(tài)機(jī)模型在駕駛狀態(tài)增多時，結(jié)構(gòu)凌亂難以維護(hù)的缺點(diǎn)。

中國科學(xué)技術(shù)大學(xué)研發(fā)的智能先鋒Ⅱ[3]智能車采用分為行為決策和駕駛動作執(zhí)行（運(yùn)動規(guī)劃、控制）的兩層有限狀態(tài)機(jī)決策模型。

綜上所述，基于有限狀態(tài)機(jī)模型及其拓展模型的決策系統(tǒng)其結(jié)構(gòu)相對簡單、框架清晰應(yīng)用較為廣泛。但是當(dāng)智能車輛行駛環(huán)境比較復(fù)雜時，其狀態(tài)集和輸入集大量增加，結(jié)構(gòu)變得復(fù)雜且場景劃分比較困難。因此此方法適用于簡單場景時具有較高可靠性。

3? 基于深度強(qiáng)化學(xué)習(xí)的行為決策模型

人工智能自誕生以來，經(jīng)過六十多年的發(fā)展，已經(jīng)成為一門具有日臻完善的理論基礎(chǔ)、日益廣泛的應(yīng)用領(lǐng)域的交叉學(xué)科。近年來，對深度強(qiáng)化學(xué)習(xí)算法的進(jìn)一步認(rèn)識和挖掘，是人工智能實(shí)現(xiàn)應(yīng)用的重要研究方向。深度強(qiáng)化學(xué)習(xí)技術(shù)方法越來越廣泛的應(yīng)用于智能車輛的環(huán)境感知與決策系統(tǒng)[4]。

3.1 深度強(qiáng)化學(xué)習(xí)模型的原理? 深度強(qiáng)化學(xué)習(xí)（Deep Reinforcement Learning，DRL）結(jié)合了深度學(xué)習(xí)算法的“感知能力”和強(qiáng)化學(xué)習(xí)算法的“決策能力”，為復(fù)雜駕駛場景的感知決策問題提供解決方案。DRL的原理框架是一種是端到端感知和決策控制系統(tǒng)。其框架如圖3所示。

其學(xué)習(xí)過程可概括為：①智能體與環(huán)境交互得到觀測信息，并利用深度學(xué)習(xí)識別觀測信息的特征;②基于預(yù)期回報評判動作價值，并根據(jù)相應(yīng)策略將當(dāng)前狀態(tài)映射到相應(yīng)動作;③隨動作變化而導(dǎo)致智能體與環(huán)境交互得到的觀測信息發(fā)生變化，進(jìn)入三者的循環(huán)最終得出目標(biāo)的最優(yōu)策略。

3.2 深度強(qiáng)化學(xué)習(xí)算法? 基于深度學(xué)習(xí)的方法通常需要大量人工標(biāo)記的數(shù)據(jù)來訓(xùn)練模型，再以此深度網(wǎng)絡(luò)實(shí)現(xiàn)自動駕駛決策，對于車輛這個動態(tài)對象來說這是不現(xiàn)實(shí)的。而基于強(qiáng)化學(xué)習(xí)的方法則具有一定的自主決策能力，符合車輛行駛的動態(tài)特性。但強(qiáng)化學(xué)習(xí)方法是將所有的狀態(tài)-動作映射的評價值儲存為一個列表，這對于車輛的復(fù)雜工況很難實(shí)現(xiàn)，因此基于強(qiáng)化學(xué)習(xí)的自動駕駛決策算法沒有廣泛應(yīng)用。

研究者嘗試將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合形成了圖3所示的深度強(qiáng)化學(xué)習(xí)模型。其代表性算法是由Mnih等提出的DQN（Deep Q-Network）算法[5]。此算法針對離散動作空間，并不適用于車輛自動駕駛控制系統(tǒng)。2016年，Google DeepMind將DQN算法改進(jìn)為深度確定性策略梯度（Deep Dterministic Policy Gradient，DDPG）算法，可實(shí)現(xiàn)連續(xù)動作空間的控制決策。此算法更加符合人類決策方式。由王丙琛[6]等，在DDPG的基礎(chǔ)上提出了結(jié)合專家經(jīng)驗的決策控制算法（Deep Dterministic Policy Gradient with Expert，DDPGwE）。與DDPG算法相比，DDPGwE算法縮短了訓(xùn)練時間，提高模型的穩(wěn)定性和泛化性。

3.3 基于深度強(qiáng)化學(xué)習(xí)模型的應(yīng)用? 英偉達(dá)公司[7]研發(fā)的駕駛行為決策系統(tǒng)使用的是端到端神經(jīng)網(wǎng)絡(luò)進(jìn)行，其模型訓(xùn)練框圖4所示。

國內(nèi)百度公司的端到端系統(tǒng)使用長短時記憶神經(jīng)網(wǎng)絡(luò)（Long short term memory network，LSTM）算法實(shí)現(xiàn)車輛縱向決策與控制，使用卷積神經(jīng)網(wǎng)絡(luò)深度強(qiáng)化學(xué)習(xí)模型實(shí)現(xiàn)車輛的橫向決策與控制，同時實(shí)現(xiàn)了對車輛橫縱方向上的駕駛行為決策與車輛控制。

通過對已經(jīng)應(yīng)用深度強(qiáng)化學(xué)習(xí)模型的案例的研究發(fā)現(xiàn)，此模型具有解決復(fù)雜環(huán)境車輛決策與控制的潛力。但是，隨著車輛環(huán)境信息復(fù)雜程度的加大決策控制模塊需要處理和分析的數(shù)據(jù)量也會大大增加，對控制算法及模型的時效性提出更高的要求。

4? 結(jié)論

文章就目前應(yīng)用較多的基于有限狀態(tài)機(jī)模型的自動駕駛決策方法和基于深度強(qiáng)化學(xué)習(xí)算法的決策方法進(jìn)行了分析。從應(yīng)用上講，基于有限狀態(tài)機(jī)模型的決策模型更適用于封閉場景的駕駛決策，但應(yīng)對實(shí)際場景，還要在有限狀態(tài)機(jī)模型的基礎(chǔ)上結(jié)合相應(yīng)的前沿控制算法解決決策控制問題。基于深度強(qiáng)化學(xué)習(xí)的決策方法的應(yīng)用場景則更廣泛，是未來決策控制的發(fā)展方向。從可靠性上講，目前的自動駕駛技術(shù)都處于實(shí)驗或應(yīng)用測試階段，自動駕駛技術(shù)的可靠性都需要較長時間的檢驗及驗證。

參考文獻(xiàn)：

[1]Montemerlo M， Bhat S， Bhat S， et al. Junior： The Stanford entry in the urban challenge[J]. Journal of Field Robotics， 2009， 25（9）：569-597.

[2]陳佳佳.城市環(huán)境下無人駕駛車輛決策系統(tǒng)研究[D].合肥：中國科學(xué)技術(shù)大學(xué)，2014.

[3]杜明博.基于人類駕駛行為的無人駕駛車輛行為決策與運(yùn)動規(guī)劃方法研究[D].合肥：中國科學(xué)技術(shù)大學(xué)，2016：1-18.

[4]Pan X， You Y， Wang Z， et al. Virtual to real reinforcement learning for autonomous driving.[C]. British Machine Vision Conference， 2017.

[5]Chung J. Playing Atari with Deep Reinforcement Learning[J]. Computer ence， 2013.

[6]王丙琛，司懷偉，譚國真.基于深度強(qiáng)化學(xué)習(xí)的自動駕駛車控制算法研究[J/OL].鄭州大學(xué)學(xué)報（工學(xué)版），2020：1-6.

[7]Bojarski M， Testa D D， Dworakowski D， et al. End to End Learning for Self-Driving Cars[J]. arXiv： Computer Vision and Pattern Recognition， 2016.

摘要：為了研究自動駕駛車輛行為決策方法的原理及發(fā)展，文章通過分析目前駕駛行為決策方法的研究成果，對行為決策方法進(jìn)行綜述。主要分析基于有限狀態(tài)機(jī)模型和深度強(qiáng)化學(xué)習(xí)模型的行為決策方法的原理及優(yōu)劣，分析相應(yīng)決策方法的適用場景?？偨Y(jié)實(shí)現(xiàn)高級別自動駕駛行為決策的技術(shù)難點(diǎn)，并對相應(yīng)的解決方案進(jìn)行分析。

關(guān)鍵詞：自動駕駛;行為決策;深度強(qiáng)化學(xué)習(xí);有限狀態(tài)機(jī)

內(nèi)燃機(jī)與配件2021年4期

內(nèi)燃機(jī)與配件的其它文章: 基于信息化手段的汽車專業(yè)微課設(shè)計研究; 需求性學(xué)習(xí)在汽車故障診斷一體化教學(xué)中的應(yīng)用; 機(jī)械原理課程實(shí)驗教學(xué)研究; 機(jī)械制造專業(yè)虛擬仿真教學(xué)環(huán)境建設(shè)與應(yīng)用研究; 汽修專業(yè)課改踐行“教學(xué)做合一”助推行業(yè)發(fā)展; 智能制造背景下高職機(jī)械制造類專業(yè)課程體系的思考