亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自動(dòng)駕駛車輛行為決策方法研究

        2021-09-10 12:59:47張智飛
        內(nèi)燃機(jī)與配件 2021年4期
        關(guān)鍵詞:深度強(qiáng)化學(xué)習(xí)自動(dòng)駕駛

        張智飛

        0? 引言

        車輛實(shí)現(xiàn)自動(dòng)駕駛,對(duì)于緩解城市擁堵、提高行駛安全性以及降低運(yùn)輸成本等方面具有公認(rèn)的作用。如何實(shí)現(xiàn)車輛的自動(dòng)駕駛是目前汽車行業(yè)非常重要的發(fā)展和研究方向。

        1? 自動(dòng)駕駛車輛行為決策問(wèn)題分類及難點(diǎn)

        1.1 車輛決策問(wèn)題分類? 車輛的決策以橫縱向駕駛行為可分為:①駕駛行為推理問(wèn)題,如停車、避讓和車道保持等;②速度決策問(wèn)題,如加速、減速或保持速度等。也可根據(jù)車輛駕駛行為將問(wèn)題分為車輛控制行為、基本行車行為、基本交通行為、高級(jí)行車行為、高級(jí)交通行為。

        1.2 決策難點(diǎn)分析? 實(shí)現(xiàn)自動(dòng)駕駛關(guān)鍵在于車輛的行為決策是否合理可行。如何綜合車輛運(yùn)行環(huán)境及車輛信息,結(jié)合行駛目的做出具有安全性、可靠性以及合理性的駕駛行為是決策控制的難點(diǎn)亦是實(shí)現(xiàn)自動(dòng)駕駛的難點(diǎn)。

        應(yīng)對(duì)環(huán)境多變性、檢測(cè)不準(zhǔn)確性、交通復(fù)雜性、交規(guī)約束性等諸多車輛行駛不利因素,如何降低或消除其產(chǎn)生的不利影響,是行為決策模塊的研究重點(diǎn)。此前已有研究人員提出了許多應(yīng)對(duì)不同環(huán)境的決策方法,可分為基于規(guī)則的行為決策方法和基于統(tǒng)計(jì)的行為決策方法。但其中仍有許多亟待解決的問(wèn)題。本文分別對(duì)兩種方法中應(yīng)用較廣的模型及基于有限狀態(tài)機(jī)模型和深度強(qiáng)化學(xué)習(xí)模型的自動(dòng)駕駛決策方法進(jìn)行探討,對(duì)其適用性、可靠性及實(shí)現(xiàn)原理進(jìn)行對(duì)比分析。提出行為決策方法的發(fā)展趨勢(shì),為自動(dòng)駕駛車輛行為決策方法的研究提供參考。

        2? 基于有限狀態(tài)機(jī)的行為決策模型

        有限狀態(tài)機(jī)模型作為經(jīng)典的智能車輛駕駛行為決策方法,因其結(jié)構(gòu)簡(jiǎn)單、控制邏輯清晰,多應(yīng)用于園區(qū)、港口等封閉場(chǎng)景。在這些封閉場(chǎng)景中道路具有固定的路線和節(jié)點(diǎn),因此可預(yù)先設(shè)計(jì)行駛規(guī)則。這種預(yù)先設(shè)計(jì)行駛規(guī)則的方法將特定場(chǎng)景的車輛決策描述為離散事件,在不同場(chǎng)景通過(guò)不同事件觸發(fā)相應(yīng)的駕駛行為。這種基于事件響應(yīng)的模型稱為有限狀態(tài)機(jī)決策模型。

        2.1 有限狀態(tài)機(jī)模型的原理? 有限狀態(tài)機(jī)(FSM,F(xiàn)inite-State Machine)是對(duì)特定目標(biāo)在有限個(gè)狀態(tài)中由特定事件觸發(fā)使?fàn)顟B(tài)相互轉(zhuǎn)移并執(zhí)行相應(yīng)動(dòng)作的數(shù)學(xué)模型。已經(jīng)被廣泛應(yīng)用在特定場(chǎng)景無(wú)人駕駛車輛、機(jī)器人系統(tǒng)等領(lǐng)域。有限狀態(tài)機(jī)主要由四部分組成:事件(Event)、轉(zhuǎn)換(Transition)、狀態(tài)(State)及動(dòng)作(Action)。

        式中:∑是輸入集,也稱事件集,是狀態(tài)集能接受的所有可能輸入;Λ是輸出集,也稱動(dòng)作集,是FSM的響應(yīng)動(dòng)作集合;S是狀態(tài)集,包含對(duì)象特定場(chǎng)景下的所有狀態(tài);s0是初始狀態(tài),表示FSM的初始條件或默認(rèn)狀態(tài);f是終止?fàn)顟B(tài),是FSM狀態(tài)集的子集,可以是空集;δ是轉(zhuǎn)換邏輯,是FSM的狀態(tài)轉(zhuǎn)移條件。

        使用此模型時(shí)應(yīng)滿足:①以上所有集合為有限集。②任意時(shí)刻均有對(duì)應(yīng)狀態(tài),任意狀態(tài)均有對(duì)應(yīng)動(dòng)作。③忽略狀態(tài)轉(zhuǎn)移時(shí)間。

        2.2 有限狀態(tài)機(jī)模型在車輛決策中的應(yīng)用? Junior車隊(duì)[1]在2007年的DAPRA比賽中使用并聯(lián)結(jié)構(gòu)有限狀態(tài)機(jī)模型實(shí)現(xiàn)了包括初始狀態(tài)、車道跟隨等13種行駛狀態(tài)的相互切換,圖1中顯示了11種情況省略了避障(ESCAPE)和交通堵塞(TRAFFIC JAM)兩種情況。

        BOSS車隊(duì)[2]采用了如圖2所示的有限狀態(tài)機(jī)層次式混聯(lián)結(jié)構(gòu)模型,此結(jié)構(gòu)根據(jù)車輛自身的行為和駕駛場(chǎng)景分為兩層,各層對(duì)應(yīng)不同的狀態(tài),一定程度上解決了有限狀態(tài)機(jī)模型在駕駛狀態(tài)增多時(shí),結(jié)構(gòu)凌亂難以維護(hù)的缺點(diǎn)。

        中國(guó)科學(xué)技術(shù)大學(xué)研發(fā)的智能先鋒Ⅱ[3]智能車采用分為行為決策和駕駛動(dòng)作執(zhí)行(運(yùn)動(dòng)規(guī)劃、控制)的兩層有限狀態(tài)機(jī)決策模型。

        綜上所述,基于有限狀態(tài)機(jī)模型及其拓展模型的決策系統(tǒng)其結(jié)構(gòu)相對(duì)簡(jiǎn)單、框架清晰應(yīng)用較為廣泛。但是當(dāng)智能車輛行駛環(huán)境比較復(fù)雜時(shí),其狀態(tài)集和輸入集大量增加,結(jié)構(gòu)變得復(fù)雜且場(chǎng)景劃分比較困難。因此此方法適用于簡(jiǎn)單場(chǎng)景時(shí)具有較高可靠性。

        3? 基于深度強(qiáng)化學(xué)習(xí)的行為決策模型

        人工智能自誕生以來(lái),經(jīng)過(guò)六十多年的發(fā)展,已經(jīng)成為一門具有日臻完善的理論基礎(chǔ)、日益廣泛的應(yīng)用領(lǐng)域的交叉學(xué)科。近年來(lái),對(duì)深度強(qiáng)化學(xué)習(xí)算法的進(jìn)一步認(rèn)識(shí)和挖掘,是人工智能實(shí)現(xiàn)應(yīng)用的重要研究方向。深度強(qiáng)化學(xué)習(xí)技術(shù)方法越來(lái)越廣泛的應(yīng)用于智能車輛的環(huán)境感知與決策系統(tǒng)[4]。

        3.1 深度強(qiáng)化學(xué)習(xí)模型的原理? 深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)結(jié)合了深度學(xué)習(xí)算法的“感知能力”和強(qiáng)化學(xué)習(xí)算法的“決策能力”,為復(fù)雜駕駛場(chǎng)景的感知決策問(wèn)題提供解決方案。DRL的原理框架是一種是端到端感知和決策控制系統(tǒng)。其框架如圖3所示。

        其學(xué)習(xí)過(guò)程可概括為:①智能體與環(huán)境交互得到觀測(cè)信息,并利用深度學(xué)習(xí)識(shí)別觀測(cè)信息的特征;②基于預(yù)期回報(bào)評(píng)判動(dòng)作價(jià)值,并根據(jù)相應(yīng)策略將當(dāng)前狀態(tài)映射到相應(yīng)動(dòng)作;③隨動(dòng)作變化而導(dǎo)致智能體與環(huán)境交互得到的觀測(cè)信息發(fā)生變化,進(jìn)入三者的循環(huán)最終得出目標(biāo)的最優(yōu)策略。

        3.2 深度強(qiáng)化學(xué)習(xí)算法? 基于深度學(xué)習(xí)的方法通常需要大量人工標(biāo)記的數(shù)據(jù)來(lái)訓(xùn)練模型,再以此深度網(wǎng)絡(luò)實(shí)現(xiàn)自動(dòng)駕駛決策,對(duì)于車輛這個(gè)動(dòng)態(tài)對(duì)象來(lái)說(shuō)這是不現(xiàn)實(shí)的。而基于強(qiáng)化學(xué)習(xí)的方法則具有一定的自主決策能力,符合車輛行駛的動(dòng)態(tài)特性。但強(qiáng)化學(xué)習(xí)方法是將所有的狀態(tài)-動(dòng)作映射的評(píng)價(jià)值儲(chǔ)存為一個(gè)列表,這對(duì)于車輛的復(fù)雜工況很難實(shí)現(xiàn),因此基于強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛決策算法沒(méi)有廣泛應(yīng)用。

        研究者嘗試將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合形成了圖3所示的深度強(qiáng)化學(xué)習(xí)模型。其代表性算法是由Mnih等提出的DQN(Deep Q-Network)算法[5]。此算法針對(duì)離散動(dòng)作空間,并不適用于車輛自動(dòng)駕駛控制系統(tǒng)。2016年,Google DeepMind將DQN算法改進(jìn)為深度確定性策略梯度(Deep Dterministic Policy Gradient,DDPG)算法,可實(shí)現(xiàn)連續(xù)動(dòng)作空間的控制決策。此算法更加符合人類決策方式。由王丙琛[6]等,在DDPG的基礎(chǔ)上提出了結(jié)合專家經(jīng)驗(yàn)的決策控制算法(Deep Dterministic Policy Gradient with Expert,DDPGwE)。與DDPG算法相比,DDPGwE算法縮短了訓(xùn)練時(shí)間,提高模型的穩(wěn)定性和泛化性。

        3.3 基于深度強(qiáng)化學(xué)習(xí)模型的應(yīng)用? 英偉達(dá)公司[7]研發(fā)的駕駛行為決策系統(tǒng)使用的是端到端神經(jīng)網(wǎng)絡(luò)進(jìn)行,其模型訓(xùn)練框圖4所示。

        國(guó)內(nèi)百度公司的端到端系統(tǒng)使用長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Long short term memory network,LSTM)算法實(shí)現(xiàn)車輛縱向決策與控制,使用卷積神經(jīng)網(wǎng)絡(luò)深度強(qiáng)化學(xué)習(xí)模型實(shí)現(xiàn)車輛的橫向決策與控制,同時(shí)實(shí)現(xiàn)了對(duì)車輛橫縱方向上的駕駛行為決策與車輛控制。

        通過(guò)對(duì)已經(jīng)應(yīng)用深度強(qiáng)化學(xué)習(xí)模型的案例的研究發(fā)現(xiàn),此模型具有解決復(fù)雜環(huán)境車輛決策與控制的潛力。但是,隨著車輛環(huán)境信息復(fù)雜程度的加大決策控制模塊需要處理和分析的數(shù)據(jù)量也會(huì)大大增加,對(duì)控制算法及模型的時(shí)效性提出更高的要求。

        4? 結(jié)論

        文章就目前應(yīng)用較多的基于有限狀態(tài)機(jī)模型的自動(dòng)駕駛決策方法和基于深度強(qiáng)化學(xué)習(xí)算法的決策方法進(jìn)行了分析。從應(yīng)用上講,基于有限狀態(tài)機(jī)模型的決策模型更適用于封閉場(chǎng)景的駕駛決策,但應(yīng)對(duì)實(shí)際場(chǎng)景,還要在有限狀態(tài)機(jī)模型的基礎(chǔ)上結(jié)合相應(yīng)的前沿控制算法解決決策控制問(wèn)題?;谏疃葟?qiáng)化學(xué)習(xí)的決策方法的應(yīng)用場(chǎng)景則更廣泛,是未來(lái)決策控制的發(fā)展方向。從可靠性上講,目前的自動(dòng)駕駛技術(shù)都處于實(shí)驗(yàn)或應(yīng)用測(cè)試階段,自動(dòng)駕駛技術(shù)的可靠性都需要較長(zhǎng)時(shí)間的檢驗(yàn)及驗(yàn)證。

        參考文獻(xiàn):

        [1]Montemerlo M, Bhat S, Bhat S, et al. Junior: The Stanford entry in the urban challenge[J]. Journal of Field Robotics, 2009, 25(9):569-597.

        [2]陳佳佳.城市環(huán)境下無(wú)人駕駛車輛決策系統(tǒng)研究[D].合肥: 中國(guó)科學(xué)技術(shù)大學(xué),2014.

        [3]杜明博.基于人類駕駛行為的無(wú)人駕駛車輛行為決策與運(yùn)動(dòng)規(guī)劃方法研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2016:1-18.

        [4]Pan X, You Y, Wang Z, et al. Virtual to real reinforcement learning for autonomous driving.[C]. British Machine Vision Conference, 2017.

        [5]Chung J. Playing Atari with Deep Reinforcement Learning[J]. Computer ence, 2013.

        [6]王丙琛,司懷偉,譚國(guó)真.基于深度強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛車控制算法研究[J/OL].鄭州大學(xué)學(xué)報(bào)(工學(xué)版),2020:1-6.

        [7]Bojarski M, Testa D D, Dworakowski D, et al. End to End Learning for Self-Driving Cars[J]. arXiv: Computer Vision and Pattern Recognition, 2016.

        摘要:為了研究自動(dòng)駕駛車輛行為決策方法的原理及發(fā)展,文章通過(guò)分析目前駕駛行為決策方法的研究成果,對(duì)行為決策方法進(jìn)行綜述。主要分析基于有限狀態(tài)機(jī)模型和深度強(qiáng)化學(xué)習(xí)模型的行為決策方法的原理及優(yōu)劣,分析相應(yīng)決策方法的適用場(chǎng)景??偨Y(jié)實(shí)現(xiàn)高級(jí)別自動(dòng)駕駛行為決策的技術(shù)難點(diǎn),并對(duì)相應(yīng)的解決方案進(jìn)行分析。

        關(guān)鍵詞:自動(dòng)駕駛;行為決策;深度強(qiáng)化學(xué)習(xí);有限狀態(tài)機(jī)

        猜你喜歡
        深度強(qiáng)化學(xué)習(xí)自動(dòng)駕駛
        基于策略梯度算法的工作量證明中挖礦困境研究
        基于深度強(qiáng)化學(xué)習(xí)的圖像修復(fù)算法設(shè)計(jì)
        關(guān)于人工智能阿法元綜述
        商情(2019年14期)2019-06-15 10:20:13
        深度強(qiáng)化學(xué)習(xí)研究進(jìn)展
        關(guān)于人工智能阿法元綜述
        西部論叢(2019年9期)2019-03-20 05:18:04
        基于深度強(qiáng)化學(xué)習(xí)的陸軍分隊(duì)?wèi)?zhàn)術(shù)決策問(wèn)題研究
        “自動(dòng)駕駛”熱潮背后的擔(dān)心和疑慮
        汽車周刊(2017年5期)2017-06-06 14:02:49
        汽車自動(dòng)駕駛的發(fā)展
        基于自動(dòng)駕駛下的車道規(guī)劃對(duì)交通擁堵的改善
        LTE—V車路通信技術(shù)淺析與探討
        亚洲精品久久国产高清情趣图文| 免费国产一区二区视频| 大尺度无遮挡激烈床震网站| 成片免费观看视频大全| 国产91福利在线精品剧情尤物| 97国产精品麻豆性色| 91精品国产乱码久久中文| 婷婷色香五月综合激激情| 性夜夜春夜夜爽aa片a| 久久国产av在线观看| 国产一区二区黄色网页| 亚洲国产av无码专区亚洲av| 99视频一区| 日本久久一级二级三级| 凌辱人妻中文字幕一区| 精品国模一区二区三区| av无码天堂一区二区三区| 五月综合丁香婷婷久久| 国产老熟妇精品观看| 日韩精品中文字幕无码一区| 亚洲AV成人无码天堂| 国产精品自产拍在线18禁| 国产福利视频在线观看| 国产乱淫视频| 久久人妻精品中文字幕一区二区| 美女露出粉嫩小奶头在视频18禁| 好男人日本社区www| 天天澡天天揉揉AV无码人妻斩| 成av人大片免费看的网站| 亚洲国产精品无码专区| 欧美国产小视频| 大又黄又粗又爽少妇毛片| 国产香港明星裸体xxxx视频| 欧美日韩精品一区二区在线观看 | 亚洲日产无码中文字幕| 懂色av一区二区三区网久久| 亚洲 欧美 日韩 国产综合 在线| 大地资源中文第三页| 国产一区二区av男人| 成人免费播放视频777777| 日日碰狠狠躁久久躁96avv|