亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自動駕駛車輛行為決策方法研究

        2021-09-10 12:59:47張智飛
        內(nèi)燃機(jī)與配件 2021年4期

        張智飛

        0? 引言

        車輛實(shí)現(xiàn)自動駕駛,對于緩解城市擁堵、提高行駛安全性以及降低運(yùn)輸成本等方面具有公認(rèn)的作用。如何實(shí)現(xiàn)車輛的自動駕駛是目前汽車行業(yè)非常重要的發(fā)展和研究方向。

        1? 自動駕駛車輛行為決策問題分類及難點(diǎn)

        1.1 車輛決策問題分類? 車輛的決策以橫縱向駕駛行為可分為:①駕駛行為推理問題,如停車、避讓和車道保持等;②速度決策問題,如加速、減速或保持速度等。也可根據(jù)車輛駕駛行為將問題分為車輛控制行為、基本行車行為、基本交通行為、高級行車行為、高級交通行為。

        1.2 決策難點(diǎn)分析? 實(shí)現(xiàn)自動駕駛關(guān)鍵在于車輛的行為決策是否合理可行。如何綜合車輛運(yùn)行環(huán)境及車輛信息,結(jié)合行駛目的做出具有安全性、可靠性以及合理性的駕駛行為是決策控制的難點(diǎn)亦是實(shí)現(xiàn)自動駕駛的難點(diǎn)。

        應(yīng)對環(huán)境多變性、檢測不準(zhǔn)確性、交通復(fù)雜性、交規(guī)約束性等諸多車輛行駛不利因素,如何降低或消除其產(chǎn)生的不利影響,是行為決策模塊的研究重點(diǎn)。此前已有研究人員提出了許多應(yīng)對不同環(huán)境的決策方法,可分為基于規(guī)則的行為決策方法和基于統(tǒng)計的行為決策方法。但其中仍有許多亟待解決的問題。本文分別對兩種方法中應(yīng)用較廣的模型及基于有限狀態(tài)機(jī)模型和深度強(qiáng)化學(xué)習(xí)模型的自動駕駛決策方法進(jìn)行探討,對其適用性、可靠性及實(shí)現(xiàn)原理進(jìn)行對比分析。提出行為決策方法的發(fā)展趨勢,為自動駕駛車輛行為決策方法的研究提供參考。

        2? 基于有限狀態(tài)機(jī)的行為決策模型

        有限狀態(tài)機(jī)模型作為經(jīng)典的智能車輛駕駛行為決策方法,因其結(jié)構(gòu)簡單、控制邏輯清晰,多應(yīng)用于園區(qū)、港口等封閉場景。在這些封閉場景中道路具有固定的路線和節(jié)點(diǎn),因此可預(yù)先設(shè)計行駛規(guī)則。這種預(yù)先設(shè)計行駛規(guī)則的方法將特定場景的車輛決策描述為離散事件,在不同場景通過不同事件觸發(fā)相應(yīng)的駕駛行為。這種基于事件響應(yīng)的模型稱為有限狀態(tài)機(jī)決策模型。

        2.1 有限狀態(tài)機(jī)模型的原理? 有限狀態(tài)機(jī)(FSM,F(xiàn)inite-State Machine)是對特定目標(biāo)在有限個狀態(tài)中由特定事件觸發(fā)使?fàn)顟B(tài)相互轉(zhuǎn)移并執(zhí)行相應(yīng)動作的數(shù)學(xué)模型。已經(jīng)被廣泛應(yīng)用在特定場景無人駕駛車輛、機(jī)器人系統(tǒng)等領(lǐng)域。有限狀態(tài)機(jī)主要由四部分組成:事件(Event)、轉(zhuǎn)換(Transition)、狀態(tài)(State)及動作(Action)。

        式中:∑是輸入集,也稱事件集,是狀態(tài)集能接受的所有可能輸入;Λ是輸出集,也稱動作集,是FSM的響應(yīng)動作集合;S是狀態(tài)集,包含對象特定場景下的所有狀態(tài);s0是初始狀態(tài),表示FSM的初始條件或默認(rèn)狀態(tài);f是終止?fàn)顟B(tài),是FSM狀態(tài)集的子集,可以是空集;δ是轉(zhuǎn)換邏輯,是FSM的狀態(tài)轉(zhuǎn)移條件。

        使用此模型時應(yīng)滿足:①以上所有集合為有限集。②任意時刻均有對應(yīng)狀態(tài),任意狀態(tài)均有對應(yīng)動作。③忽略狀態(tài)轉(zhuǎn)移時間。

        2.2 有限狀態(tài)機(jī)模型在車輛決策中的應(yīng)用? Junior車隊[1]在2007年的DAPRA比賽中使用并聯(lián)結(jié)構(gòu)有限狀態(tài)機(jī)模型實(shí)現(xiàn)了包括初始狀態(tài)、車道跟隨等13種行駛狀態(tài)的相互切換,圖1中顯示了11種情況省略了避障(ESCAPE)和交通堵塞(TRAFFIC JAM)兩種情況。

        BOSS車隊[2]采用了如圖2所示的有限狀態(tài)機(jī)層次式混聯(lián)結(jié)構(gòu)模型,此結(jié)構(gòu)根據(jù)車輛自身的行為和駕駛場景分為兩層,各層對應(yīng)不同的狀態(tài),一定程度上解決了有限狀態(tài)機(jī)模型在駕駛狀態(tài)增多時,結(jié)構(gòu)凌亂難以維護(hù)的缺點(diǎn)。

        中國科學(xué)技術(shù)大學(xué)研發(fā)的智能先鋒Ⅱ[3]智能車采用分為行為決策和駕駛動作執(zhí)行(運(yùn)動規(guī)劃、控制)的兩層有限狀態(tài)機(jī)決策模型。

        綜上所述,基于有限狀態(tài)機(jī)模型及其拓展模型的決策系統(tǒng)其結(jié)構(gòu)相對簡單、框架清晰應(yīng)用較為廣泛。但是當(dāng)智能車輛行駛環(huán)境比較復(fù)雜時,其狀態(tài)集和輸入集大量增加,結(jié)構(gòu)變得復(fù)雜且場景劃分比較困難。因此此方法適用于簡單場景時具有較高可靠性。

        3? 基于深度強(qiáng)化學(xué)習(xí)的行為決策模型

        人工智能自誕生以來,經(jīng)過六十多年的發(fā)展,已經(jīng)成為一門具有日臻完善的理論基礎(chǔ)、日益廣泛的應(yīng)用領(lǐng)域的交叉學(xué)科。近年來,對深度強(qiáng)化學(xué)習(xí)算法的進(jìn)一步認(rèn)識和挖掘,是人工智能實(shí)現(xiàn)應(yīng)用的重要研究方向。深度強(qiáng)化學(xué)習(xí)技術(shù)方法越來越廣泛的應(yīng)用于智能車輛的環(huán)境感知與決策系統(tǒng)[4]。

        3.1 深度強(qiáng)化學(xué)習(xí)模型的原理? 深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)結(jié)合了深度學(xué)習(xí)算法的“感知能力”和強(qiáng)化學(xué)習(xí)算法的“決策能力”,為復(fù)雜駕駛場景的感知決策問題提供解決方案。DRL的原理框架是一種是端到端感知和決策控制系統(tǒng)。其框架如圖3所示。

        其學(xué)習(xí)過程可概括為:①智能體與環(huán)境交互得到觀測信息,并利用深度學(xué)習(xí)識別觀測信息的特征;②基于預(yù)期回報評判動作價值,并根據(jù)相應(yīng)策略將當(dāng)前狀態(tài)映射到相應(yīng)動作;③隨動作變化而導(dǎo)致智能體與環(huán)境交互得到的觀測信息發(fā)生變化,進(jìn)入三者的循環(huán)最終得出目標(biāo)的最優(yōu)策略。

        3.2 深度強(qiáng)化學(xué)習(xí)算法? 基于深度學(xué)習(xí)的方法通常需要大量人工標(biāo)記的數(shù)據(jù)來訓(xùn)練模型,再以此深度網(wǎng)絡(luò)實(shí)現(xiàn)自動駕駛決策,對于車輛這個動態(tài)對象來說這是不現(xiàn)實(shí)的。而基于強(qiáng)化學(xué)習(xí)的方法則具有一定的自主決策能力,符合車輛行駛的動態(tài)特性。但強(qiáng)化學(xué)習(xí)方法是將所有的狀態(tài)-動作映射的評價值儲存為一個列表,這對于車輛的復(fù)雜工況很難實(shí)現(xiàn),因此基于強(qiáng)化學(xué)習(xí)的自動駕駛決策算法沒有廣泛應(yīng)用。

        研究者嘗試將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合形成了圖3所示的深度強(qiáng)化學(xué)習(xí)模型。其代表性算法是由Mnih等提出的DQN(Deep Q-Network)算法[5]。此算法針對離散動作空間,并不適用于車輛自動駕駛控制系統(tǒng)。2016年,Google DeepMind將DQN算法改進(jìn)為深度確定性策略梯度(Deep Dterministic Policy Gradient,DDPG)算法,可實(shí)現(xiàn)連續(xù)動作空間的控制決策。此算法更加符合人類決策方式。由王丙琛[6]等,在DDPG的基礎(chǔ)上提出了結(jié)合專家經(jīng)驗的決策控制算法(Deep Dterministic Policy Gradient with Expert,DDPGwE)。與DDPG算法相比,DDPGwE算法縮短了訓(xùn)練時間,提高模型的穩(wěn)定性和泛化性。

        3.3 基于深度強(qiáng)化學(xué)習(xí)模型的應(yīng)用? 英偉達(dá)公司[7]研發(fā)的駕駛行為決策系統(tǒng)使用的是端到端神經(jīng)網(wǎng)絡(luò)進(jìn)行,其模型訓(xùn)練框圖4所示。

        國內(nèi)百度公司的端到端系統(tǒng)使用長短時記憶神經(jīng)網(wǎng)絡(luò)(Long short term memory network,LSTM)算法實(shí)現(xiàn)車輛縱向決策與控制,使用卷積神經(jīng)網(wǎng)絡(luò)深度強(qiáng)化學(xué)習(xí)模型實(shí)現(xiàn)車輛的橫向決策與控制,同時實(shí)現(xiàn)了對車輛橫縱方向上的駕駛行為決策與車輛控制。

        通過對已經(jīng)應(yīng)用深度強(qiáng)化學(xué)習(xí)模型的案例的研究發(fā)現(xiàn),此模型具有解決復(fù)雜環(huán)境車輛決策與控制的潛力。但是,隨著車輛環(huán)境信息復(fù)雜程度的加大決策控制模塊需要處理和分析的數(shù)據(jù)量也會大大增加,對控制算法及模型的時效性提出更高的要求。

        4? 結(jié)論

        文章就目前應(yīng)用較多的基于有限狀態(tài)機(jī)模型的自動駕駛決策方法和基于深度強(qiáng)化學(xué)習(xí)算法的決策方法進(jìn)行了分析。從應(yīng)用上講,基于有限狀態(tài)機(jī)模型的決策模型更適用于封閉場景的駕駛決策,但應(yīng)對實(shí)際場景,還要在有限狀態(tài)機(jī)模型的基礎(chǔ)上結(jié)合相應(yīng)的前沿控制算法解決決策控制問題。基于深度強(qiáng)化學(xué)習(xí)的決策方法的應(yīng)用場景則更廣泛,是未來決策控制的發(fā)展方向。從可靠性上講,目前的自動駕駛技術(shù)都處于實(shí)驗或應(yīng)用測試階段,自動駕駛技術(shù)的可靠性都需要較長時間的檢驗及驗證。

        參考文獻(xiàn):

        [1]Montemerlo M, Bhat S, Bhat S, et al. Junior: The Stanford entry in the urban challenge[J]. Journal of Field Robotics, 2009, 25(9):569-597.

        [2]陳佳佳.城市環(huán)境下無人駕駛車輛決策系統(tǒng)研究[D].合肥: 中國科學(xué)技術(shù)大學(xué),2014.

        [3]杜明博.基于人類駕駛行為的無人駕駛車輛行為決策與運(yùn)動規(guī)劃方法研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2016:1-18.

        [4]Pan X, You Y, Wang Z, et al. Virtual to real reinforcement learning for autonomous driving.[C]. British Machine Vision Conference, 2017.

        [5]Chung J. Playing Atari with Deep Reinforcement Learning[J]. Computer ence, 2013.

        [6]王丙琛,司懷偉,譚國真.基于深度強(qiáng)化學(xué)習(xí)的自動駕駛車控制算法研究[J/OL].鄭州大學(xué)學(xué)報(工學(xué)版),2020:1-6.

        [7]Bojarski M, Testa D D, Dworakowski D, et al. End to End Learning for Self-Driving Cars[J]. arXiv: Computer Vision and Pattern Recognition, 2016.

        摘要:為了研究自動駕駛車輛行為決策方法的原理及發(fā)展,文章通過分析目前駕駛行為決策方法的研究成果,對行為決策方法進(jìn)行綜述。主要分析基于有限狀態(tài)機(jī)模型和深度強(qiáng)化學(xué)習(xí)模型的行為決策方法的原理及優(yōu)劣,分析相應(yīng)決策方法的適用場景??偨Y(jié)實(shí)現(xiàn)高級別自動駕駛行為決策的技術(shù)難點(diǎn),并對相應(yīng)的解決方案進(jìn)行分析。

        關(guān)鍵詞:自動駕駛;行為決策;深度強(qiáng)化學(xué)習(xí);有限狀態(tài)機(jī)

        国产综合在线观看| 久久亚洲精精品中文字幕早川悠里 | 国产精品成人va| 国产男女做爰猛烈视频网站| 人妻蜜桃日产一本久道综合在线| 内射夜晚在线观看| 丰满人妻被中出中文字幕 | 偷拍激情视频一区二区| 不卡一本av天堂专区| av永久天堂一区二区三区| 久久九九精品国产不卡一区| 成人自慰女黄网站免费大全| 成人午夜福利视频| 亚洲av日韩av不卡在线观看| 国产成人香蕉久久久久| 亚洲综合久久精品少妇av| 男女18视频免费网站| 日韩中文字幕免费视频| 欧美日韩另类视频| 男女男在线精品免费观看| 手机免费在线观看av网址| 久久精品噜噜噜成人| 国产精品天堂avav在线| 成人av一区二区亚洲精| 国产成人无码a区在线观看导航 | 日韩欧美第一区二区三区| 日本av一区二区三区四区| 国产欧美日韩一区二区加勒比| 好男人日本社区www| 日韩av中出在线免费播放网站| 国产一区二区三区口爆在线| 久久青青草原精品国产app| 国产一区免费观看| 在线播放偷拍一区二区| 99国产精品久久久久久久成人热 | 99亚洲精品久久久99| 国产成人自拍小视频在线| 一本之道久久一区二区三区| 亚洲av无码一区二区三区人妖| 国产情侣一区在线| 新视觉亚洲三区二区一区理伦|