亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        類腦學(xué)習(xí)型自動(dòng)駕駛決控系統(tǒng)的關(guān)鍵技術(shù) *

        2023-10-12 02:15:00李升波占國(guó)建蔣宇軒蘭志前張宇航鄒文俊李克強(qiáng)
        汽車工程 2023年9期
        關(guān)鍵詞:策略

        李升波,占國(guó)建,蔣宇軒,蘭志前,張宇航,鄒文俊,陳 晨,成 波,李克強(qiáng)

        (清華大學(xué)車輛與運(yùn)載學(xué)院,汽車安全與節(jié)能國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100084)

        前言

        智能化是汽車新四化變革的重要方向之一,自動(dòng)駕駛技術(shù)因?yàn)榫哂刑嵘煌ò踩?、增?qiáng)道路通暢、減少燃油消耗的巨大潛力,受到學(xué)界和業(yè)界的廣泛關(guān)注[1]。麥肯錫報(bào)告顯示[2]:自動(dòng)駕駛的全面普及可將交通事故發(fā)生率降低至原來(lái)的十分之一。據(jù)蘭德公司預(yù)測(cè)[3]:自動(dòng)駕駛汽車可提升30%的交通效率,減少67%的碳排放量,潛在的經(jīng)濟(jì)與社會(huì)效益顯著。因此,自動(dòng)駕駛系統(tǒng)的應(yīng)用與普及有望全面改變?nèi)祟惖某鲂蟹绞脚c社會(huì)結(jié)構(gòu)[4]。

        從概念上說(shuō),自動(dòng)駕駛汽車是指搭載先進(jìn)車載傳感器、控制器、執(zhí)行器等裝置,具備復(fù)雜環(huán)境感知、自主決策、運(yùn)動(dòng)控制等功能,可實(shí)現(xiàn)“安全、高效、舒適、節(jié)能”行駛,最終替代人類駕駛員并實(shí)現(xiàn)自主駕駛的新一代汽車[5]。我國(guó)2021 年制定了《汽車駕駛自動(dòng)化分級(jí)》標(biāo)準(zhǔn)(GB/T 40429—2021),該標(biāo)準(zhǔn)根據(jù)自動(dòng)化程度將智能汽車分為6 級(jí):應(yīng)急輔助(0 級(jí))、部分駕駛輔助(1 級(jí))、組合駕駛輔助(2 級(jí))、有條件自動(dòng)駕駛(3 級(jí))、高度自動(dòng)駕駛(4 級(jí))和完全自動(dòng)駕駛(5 級(jí))。第1 級(jí)的LKS(lane keeping system)、ACC(adaptive cruise control)等系統(tǒng)屬于部分駕駛員輔助級(jí)別,已實(shí)現(xiàn)大規(guī)模應(yīng)用。目前諸多汽車企業(yè)已推進(jìn)至第2 級(jí)系統(tǒng)的量產(chǎn)階段,例如特斯拉AutoPilot、通用Super Cruise、蔚來(lái)NIO Pilot 等。這類組合駕駛輔助系統(tǒng)具備稀疏交通場(chǎng)景的車道保持、跟車巡航、主動(dòng)換道等功能。為進(jìn)一步將功能擴(kuò)展至密集交通場(chǎng)景,如城市道路工況,部分企業(yè)已開(kāi)始瞄準(zhǔn)第3 級(jí)或第4 級(jí)自動(dòng)駕駛系統(tǒng),積極布局關(guān)鍵技術(shù)的研發(fā)。谷歌的高級(jí)別自動(dòng)駕駛項(xiàng)目開(kāi)始于2009 年,已經(jīng)在美國(guó)10 個(gè)州超過(guò)25 個(gè)城市進(jìn)行路測(cè),截止到2021年,行駛里程超過(guò)2 000萬(wàn)英里。百度于2017年發(fā)布了全球首個(gè)開(kāi)放自動(dòng)駕駛系統(tǒng)Apollo,截止到2021年,路測(cè)里程超過(guò)1 600萬(wàn)km。

        然而,面向城市交通場(chǎng)景的高級(jí)別自動(dòng)駕駛系統(tǒng)仍然面臨一系列高難度的技術(shù)挑戰(zhàn)。首先,道路的拓?fù)浣Y(jié)構(gòu)高度復(fù)雜,不同于高速公路場(chǎng)景的標(biāo)準(zhǔn)多車道結(jié)構(gòu),城市交通路網(wǎng)中涵蓋立交橋、交叉路口、環(huán)島、進(jìn)出匝道等各式各樣的道路類型;其次,周圍交通參與者混雜多樣,不同于封閉園區(qū)場(chǎng)景僅需考慮固定路線的駕駛?cè)蝿?wù),道路場(chǎng)景的開(kāi)放性使得自車需要考慮交通參與者,與周圍的乘用車、公交車、貨車、行人、騎行人等競(jìng)爭(zhēng)道路資源;最后,交通參與者行為意圖高度隨機(jī)化,典型的異常行為包括騎線行駛、右側(cè)超車、鬼探頭等,導(dǎo)致大量難以預(yù)測(cè)的未知因素,對(duì)行車安全產(chǎn)生嚴(yán)重威脅。總體而言,道路結(jié)構(gòu)的高度復(fù)雜性、交通流的高度動(dòng)態(tài)性,交通參與者的高度隨機(jī)性,使得城市道路場(chǎng)景的復(fù)雜程度和安全風(fēng)險(xiǎn)急速提升。另外,車載控制器的計(jì)算資源十分有限,能耗/成本限制與高計(jì)算負(fù)擔(dān)之間存在強(qiáng)烈的沖突,這使得自動(dòng)駕駛系統(tǒng)的算法設(shè)計(jì)受到車載計(jì)算資源的強(qiáng)制約束,不能像巨型服務(wù)器一樣運(yùn)行復(fù)雜的功能層算法。

        環(huán)境感知、自主決策和運(yùn)動(dòng)控制是自動(dòng)駕駛汽車的3 大核心功能[1]。環(huán)境感知是指通過(guò)GPS、慣性導(dǎo)航裝置等對(duì)自車進(jìn)行定位與姿態(tài)估計(jì),利用攝像頭、毫米波雷達(dá)、激光雷達(dá)、超聲波雷達(dá)等主要車載傳感器及V2X 通信系統(tǒng)感知周圍交通路況和動(dòng)靜態(tài)障礙物等信息。自主決策是指對(duì)于周圍交通參與者進(jìn)行意圖識(shí)別和軌跡預(yù)測(cè),進(jìn)而根據(jù)全局行車目標(biāo)、自車狀態(tài)、感知信息和預(yù)測(cè)結(jié)果,決定駕駛行為模式并規(guī)劃期望參考軌跡。運(yùn)動(dòng)控制是結(jié)合車輛的運(yùn)動(dòng)學(xué)或者動(dòng)力學(xué)特性,將決策結(jié)果轉(zhuǎn)化為油門、制動(dòng)和轉(zhuǎn)向盤等底層執(zhí)行機(jī)構(gòu)的控制指令。由于自主決策與運(yùn)動(dòng)控制均可以建模為動(dòng)態(tài)過(guò)程的最優(yōu)化問(wèn)題,且后者的輸入高度依賴于前者的輸出,因此這兩個(gè)模塊的設(shè)計(jì)具有較強(qiáng)的耦合性,二者可以集成為一個(gè)功能模塊進(jìn)行開(kāi)發(fā),即“決控系統(tǒng)”。一般來(lái)說(shuō),決控系統(tǒng)相當(dāng)于自動(dòng)駕駛汽車的大腦部分,決控水平的高低體現(xiàn)了自動(dòng)駕駛汽車的智能性。

        從發(fā)展歷史看,自動(dòng)駕駛汽車的研發(fā)歷史可追溯至20世紀(jì)60年代,如斯坦福大學(xué)的Cart號(hào)。21世紀(jì)初,自動(dòng)駕駛的研發(fā)熱潮迅速升溫,尤其是受美國(guó)DARPA 挑戰(zhàn)賽鼓勵(lì),一批高科技公司涌入這一領(lǐng)域,極大增強(qiáng)了自動(dòng)駕駛的工程化能力。作為行駛智能性的核心,決控系統(tǒng)一直是自動(dòng)駕駛團(tuán)隊(duì)最為關(guān)注領(lǐng)域之一。到目前為止,這一領(lǐng)域的技術(shù)方案已發(fā)展了3 代,即專家規(guī)則型、監(jiān)督學(xué)習(xí)型和類腦學(xué)習(xí)型。早期的決控功能均圍繞專家規(guī)則進(jìn)行設(shè)計(jì)。例如:2007 年卡耐基梅隆大學(xué)的Boss 號(hào)[6]獲得了DARPA 城市挑戰(zhàn)賽的冠軍,它的決控系統(tǒng)預(yù)先對(duì)于車道保持、車道變更、U 型掉頭等場(chǎng)景設(shè)計(jì)了專門的行為規(guī)則,在線進(jìn)行最佳的行為選擇,然后規(guī)劃一條局部的參考軌跡,最后解算底層控制指令;同一年斯坦福大學(xué)的Junior號(hào)[7]獲得了亞軍,它的決控系統(tǒng)包含一個(gè)具有13 個(gè)狀態(tài)的有限狀態(tài)機(jī),用于直行、停車等待、駛過(guò)交叉口、掉頭等駕駛行為的選擇,使用了前向預(yù)瞄方法進(jìn)行期望參考軌跡的跟蹤。這些設(shè)計(jì)都是典型的專家規(guī)則型方案,而監(jiān)督學(xué)習(xí)型方案的出現(xiàn)則依賴于深度學(xué)習(xí)技術(shù)的興起。2016 年英偉達(dá)公司[8]采集了72 h 的自然駕駛數(shù)據(jù),建立了從攝像頭圖像輸入到轉(zhuǎn)向盤轉(zhuǎn)角輸出的標(biāo)簽數(shù)據(jù)集,以卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建模型進(jìn)行監(jiān)督學(xué)習(xí),實(shí)現(xiàn)了車道保持功能。2017年蘇黎世聯(lián)邦理工大學(xué)[9]收集了真實(shí)換道工況下與周車的間距和相對(duì)速度數(shù)據(jù)集,使用支持向量機(jī)訓(xùn)練換道決策分類器。專家規(guī)則型和監(jiān)督學(xué)習(xí)型這兩種技術(shù)方案都采用被動(dòng)式的設(shè)計(jì)思路,其中前者依靠人工設(shè)計(jì)的經(jīng)驗(yàn)規(guī)則,后者模仿人工標(biāo)注的示范動(dòng)作。雖然可以較快實(shí)現(xiàn)車道保持等初級(jí)功能,但對(duì)于復(fù)雜場(chǎng)景的高級(jí)別自動(dòng)駕駛?cè)蝿?wù)仍然表現(xiàn)不佳,智能性的進(jìn)一步提升存在瓶頸,難以達(dá)到人類駕駛員的水平。

        自動(dòng)駕駛的最終目標(biāo)是替代人類執(zhí)行駕駛動(dòng)作,為了進(jìn)一步提升智能性水平,從人腦學(xué)習(xí)機(jī)制中尋求啟發(fā)是具有潛力的發(fā)展方向。對(duì)于生物學(xué)習(xí)機(jī)制的研究可追溯至19 世紀(jì)末,巴甫洛夫以狗為研究對(duì)象,提出條件反射機(jī)制,表明生物具有從獎(jiǎng)勵(lì)中“學(xué)習(xí)”的能力[10]。桑代克進(jìn)一步研究了行為學(xué)習(xí)機(jī)制,關(guān)在籠中的貓經(jīng)過(guò)多次重復(fù)嘗試可以熟練掌握逃離迷籠獲取食物的技能,表明生物的行為學(xué)習(xí)基于“探索試錯(cuò)”原理[11]。20 世紀(jì)末,劍橋大學(xué)提出了獎(jiǎng)賞預(yù)測(cè)誤差假說(shuō)用于解釋人腦的學(xué)習(xí)機(jī)制,指出人腦中的多巴胺激素正是外界輸入激勵(lì)所產(chǎn)生的獎(jiǎng)勵(lì)信號(hào),可以刺激人腦中的神經(jīng)元活動(dòng)從而調(diào)整行為模式[12]。對(duì)于駕駛車輛這一具體任務(wù),人類駕駛員并不是簡(jiǎn)單牢記專家規(guī)則,也不是以大量駕駛過(guò)程為示范進(jìn)行直接模仿,而是主動(dòng)式地通過(guò)駕駛動(dòng)作在交通環(huán)境中進(jìn)行探索交互,根據(jù)接收的反饋信號(hào)(例如偏離車道程度、與目的地的距離等)調(diào)整自身的行為策略,逐步熟練掌握駕駛技能。

        類腦決控的發(fā)展動(dòng)機(jī)正是從人腦學(xué)習(xí)機(jī)制尋求啟發(fā),其定義如下:類腦學(xué)習(xí)型自動(dòng)駕駛決控系統(tǒng)以深度神經(jīng)網(wǎng)絡(luò)為策略載體,以強(qiáng)化學(xué)習(xí)為訓(xùn)練手段,利用車端與云端協(xié)同收集的環(huán)境交互數(shù)據(jù)更新自動(dòng)駕駛策略,通過(guò)數(shù)據(jù)閉環(huán)持續(xù)進(jìn)化的方式不斷提升智能性水平。2016 年谷歌[13]使用深度確定性策略梯度算法,利用仿真平臺(tái)實(shí)現(xiàn)了以攝像頭圖像為輸入,以轉(zhuǎn)向盤、加速度等連續(xù)控制量為輸出的車道保持功能。從2018 年開(kāi)始,清華大學(xué)提出并推動(dòng)了集成式?jīng)Q控架構(gòu)的設(shè)計(jì)與應(yīng)用[14],將自動(dòng)駕駛的決控任務(wù)統(tǒng)合為一個(gè)最優(yōu)控制問(wèn)題,通過(guò)Actor-Critic 強(qiáng)化學(xué)習(xí)算法進(jìn)行求解,首次實(shí)現(xiàn)了紅綠燈通行、無(wú)保護(hù)左轉(zhuǎn)等交叉路口駕駛?cè)蝿?wù)的實(shí)車驗(yàn)證[15-16]。總體而言,類腦決控技術(shù)不依賴于標(biāo)簽化的駕駛數(shù)據(jù),通過(guò)與環(huán)境的交互探索實(shí)現(xiàn)策略的自我更新和自我進(jìn)化,這是高級(jí)別自動(dòng)駕駛系統(tǒng)的下一代發(fā)展方向。

        本文將聚焦于類腦學(xué)習(xí)型自動(dòng)駕駛決控方案以及關(guān)鍵技術(shù)的探討,涉及界定策略設(shè)計(jì)的系統(tǒng)框架、支持交互訓(xùn)練的仿真平臺(tái)、決定策略輸入的狀態(tài)表征、定義策略目標(biāo)的評(píng)價(jià)指標(biāo)和驅(qū)動(dòng)策略更新的訓(xùn)練算法等5 個(gè)層面。首先梳理了自動(dòng)駕駛決控的兩類模塊化架構(gòu)以及3 種典型技術(shù)方案;概述了當(dāng)前主流的自動(dòng)駕駛仿真平臺(tái);分析了類腦決控的3 類環(huán)境狀態(tài)表征方法;同時(shí)介紹了自動(dòng)駕駛汽車的五維度評(píng)價(jià)指標(biāo);然后詳述了用于自動(dòng)駕駛的典型強(qiáng)化學(xué)習(xí)訓(xùn)練算法及應(yīng)用現(xiàn)狀;最后總結(jié)了類腦自動(dòng)駕駛的問(wèn)題挑戰(zhàn)和發(fā)展趨勢(shì)。

        1 自動(dòng)駕駛決控架構(gòu)與技術(shù)方案

        從設(shè)計(jì)思想看,自動(dòng)駕駛決控系統(tǒng)分為模塊化和黑箱化兩個(gè)大類。前者將系統(tǒng)分解為一系列功能獨(dú)立的模塊,每一個(gè)模塊單獨(dú)設(shè)計(jì),組合到一起實(shí)現(xiàn)自動(dòng)駕駛的決策與控制功能;后者又稱為端到端決控系統(tǒng),它將決控系統(tǒng)視作一個(gè)黑箱,訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)得到感知結(jié)果到控制命令的直接映射。從目前的行業(yè)應(yīng)用看,模塊化設(shè)計(jì)更適合團(tuán)隊(duì)分工合作,具有更好的工程落地能力,它的開(kāi)發(fā)通常分為兩個(gè)階段:首先是確定體系架構(gòu),將決控任務(wù)劃分為若干個(gè)具有獨(dú)立性的功能模塊,同時(shí)定義模塊之間的信息傳遞關(guān)系;其次是確定技術(shù)方案,即核心模塊所采用的算法及實(shí)現(xiàn)方式。

        對(duì)于模塊化設(shè)計(jì)而言,合理的體系架構(gòu)是開(kāi)發(fā)一個(gè)高可靠、易擴(kuò)展決控系統(tǒng)的關(guān)鍵,有利于減少算法復(fù)雜度,降低工程實(shí)現(xiàn)的難度。模塊化系統(tǒng)的典型架構(gòu)包括兩類:分層式?jīng)Q控(hierarchical decision& control ,HDC)和集成式?jīng)Q控(integrated decision &control ,IDC)。前者將自動(dòng)駕駛的自主決策與運(yùn)動(dòng)控制嚴(yán)格分為兩層單獨(dú)設(shè)計(jì),二者之間通過(guò)期望的行駛軌跡進(jìn)行銜接;后者將自動(dòng)駕駛決控任務(wù)整合為一個(gè)統(tǒng)一的約束型最優(yōu)控制問(wèn)題,僅包含一個(gè)性能指標(biāo)、一個(gè)動(dòng)力學(xué)系統(tǒng),并求解一個(gè)最優(yōu)策略。進(jìn)入深度學(xué)習(xí)時(shí)代,部分學(xué)者試圖采用黑箱化思想進(jìn)行決控系統(tǒng)設(shè)計(jì),即采用端到端架構(gòu)(end-to-end,E2E),利用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)從感知結(jié)果到控制命令的直接映射。端到端架構(gòu)雖然更加類似人類駕駛員的大腦工作機(jī)制,但目前受車載控制器算力的限制,神經(jīng)網(wǎng)絡(luò)的規(guī)模不大、智能性不佳,尚處于實(shí)驗(yàn)室研究階段,難以工程落地應(yīng)用。

        與體系架構(gòu)不同,技術(shù)方案是指自動(dòng)駕駛決控系統(tǒng)核心功能模塊的實(shí)現(xiàn)手段。常見(jiàn)的方案包括專家規(guī)則型、監(jiān)督學(xué)習(xí)型和類腦學(xué)習(xí)型。專家規(guī)則方案以駕駛行為選擇為核心模塊,通過(guò)專家經(jīng)驗(yàn)預(yù)先設(shè)計(jì)一定的規(guī)則條件,選擇最合理的駕駛行為模式。監(jiān)督學(xué)習(xí)方案,通常以深度神經(jīng)網(wǎng)絡(luò)為載體,通過(guò)專家駕駛數(shù)據(jù)構(gòu)建關(guān)鍵模塊的輸入輸出模型。類腦學(xué)習(xí)方案則以神經(jīng)網(wǎng)絡(luò)為載體,利用強(qiáng)化學(xué)習(xí)算法進(jìn)行訓(xùn)練,通過(guò)自主探索環(huán)境進(jìn)行策略的自我進(jìn)化。表1 總結(jié)了典型設(shè)計(jì)思想之下的架構(gòu)類型與技術(shù)方案。

        表1 自動(dòng)駕駛決控系統(tǒng)總結(jié)

        1.1 兩類典型的模塊化架構(gòu)

        (1)分層式?jīng)Q控(HDC)架構(gòu)

        分層式?jīng)Q控架構(gòu)的廣泛使用可追溯至美國(guó)的DARPA 挑戰(zhàn)賽,包括卡耐基梅隆大學(xué)的Boss 號(hào)[6]和斯坦福的Junior號(hào)[7],這也是目前工業(yè)界常見(jiàn)的系統(tǒng)開(kāi)發(fā)架構(gòu)。HDC 架構(gòu)將自動(dòng)駕駛的自主決策與運(yùn)動(dòng)控制嚴(yán)格分為兩層,二者之間通過(guò)期望的行駛軌跡進(jìn)行銜接,因此期望行駛軌跡既是決策層的輸出,又是控制層的輸入。為了便于工程化開(kāi)發(fā),一般進(jìn)一步分解為周車行為預(yù)測(cè)、駕駛行為選擇、動(dòng)態(tài)軌跡規(guī)劃、橫向運(yùn)動(dòng)控制和縱向運(yùn)動(dòng)控制5 個(gè)功能模塊,如圖1所示。

        圖1 分層式?jīng)Q控(HDC)架構(gòu)

        各模塊的基本功能如下:(1)周車行為預(yù)測(cè)模塊對(duì)周圍車輛、行人、騎行人等進(jìn)行意圖或軌跡預(yù)測(cè),供之后的駕駛行為選擇和動(dòng)態(tài)軌跡規(guī)劃模塊使用;(2)駕駛行為選擇模塊根據(jù)包括安全、能耗、時(shí)效、合規(guī)、舒適等行車性能指標(biāo),選擇最合理的當(dāng)前行為模式,這一模塊是自動(dòng)駕駛智能性的核心,它的設(shè)計(jì)通常需要提前定義駕駛行為的集合,如車道保持、跟車、換道、超車、掉頭等;(3)動(dòng)態(tài)軌跡規(guī)劃模塊結(jié)合行為選擇、預(yù)測(cè)軌跡以及路網(wǎng)約束,計(jì)算一條考慮行車性能且滿足車輛動(dòng)力學(xué)、行車安全性等約束的時(shí)空曲線作為參考軌跡,即期望行駛軌跡;(4)橫向運(yùn)動(dòng)控制模塊根據(jù)決策層給出的期望行駛軌跡,解算轉(zhuǎn)向盤轉(zhuǎn)角等橫向控制指令;(5)縱向運(yùn)動(dòng)控制模塊根據(jù)決策層給出的期望行駛軌跡,解算油門踏板角度、制動(dòng)踏板角度等縱向控制指令。另外,部分HDC 框架將縱向運(yùn)動(dòng)控制和橫向運(yùn)動(dòng)控制進(jìn)行組合,稱為縱橫向聯(lián)合控制。還有一些框架將控制層分解為路徑跟蹤和速度跟蹤兩個(gè)模塊,分別設(shè)計(jì)控制器進(jìn)行實(shí)現(xiàn)。

        HDC 架構(gòu)的優(yōu)勢(shì)十分明確,它具有問(wèn)題可拆解、任務(wù)可拆分的優(yōu)點(diǎn),便于工程化開(kāi)發(fā)時(shí)的團(tuán)隊(duì)分工和組織協(xié)調(diào)。但是,其模塊間的信號(hào)傳遞不可避免地存在信息丟失的風(fēng)險(xiǎn),而且各模塊具備各自獨(dú)立的優(yōu)化目標(biāo),目標(biāo)之間存在一定矛盾和沖突,不利于提升決控系統(tǒng)的整體智能性。同時(shí),因?yàn)镠DC 架構(gòu)的模塊分解比較平均化,缺乏一個(gè)主導(dǎo)性模塊,不利于深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等智能化算法的引入,過(guò)于依賴工程師的設(shè)計(jì)經(jīng)驗(yàn),難以獲得理想的駕駛智能性。

        (2)集成式?jīng)Q控(IDC)架構(gòu)

        為了更好地提升駕駛過(guò)程的智能性,清華大學(xué)于2018 年提出了用于高級(jí)別自動(dòng)駕駛汽車的集成式?jīng)Q控(IDC)架構(gòu)[14]。與HDC 架構(gòu)不同,IDC 架構(gòu)將自動(dòng)駕駛決控任務(wù)進(jìn)行了重塑,整合為一個(gè)統(tǒng)一的約束型最優(yōu)控制問(wèn)題(optimal control problem,OCP),僅包含一個(gè)性能指標(biāo)、一個(gè)動(dòng)力學(xué)系統(tǒng),最終僅求解一個(gè)最優(yōu)的決控策略。這一主導(dǎo)性模塊的存在使得IDC 架構(gòu)更適合引入以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的學(xué)習(xí)型算法,便于實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的閉環(huán)訓(xùn)練流程(即車端采集數(shù)據(jù)、云端集中訓(xùn)練、策略遠(yuǎn)程升級(jí)),增強(qiáng)了對(duì)稀有交通場(chǎng)景的自我適應(yīng)能力,有助于獲得更高智能性的自動(dòng)駕駛功能。

        與HDC 架構(gòu)不同,IDC 架構(gòu)包括靜態(tài)路徑規(guī)劃和動(dòng)態(tài)優(yōu)選跟蹤兩個(gè)功能模塊,如圖2 所示。前者是輔助性的,后者是主導(dǎo)性的。靜態(tài)路徑規(guī)劃模塊僅根據(jù)靜態(tài)道路環(huán)境信息(如道路幾何結(jié)構(gòu)、路側(cè)及地面指示標(biāo)識(shí)等,但不包括紅綠燈控制、交通參與者等信息),輸出一套可被跟蹤的備選路徑集合。特別值得注意:這是一套備選路徑的集合,而不是單條最優(yōu)的參考軌跡,具體跟蹤哪一條備選路徑將由動(dòng)態(tài)跟蹤優(yōu)選模塊進(jìn)行確定。動(dòng)態(tài)優(yōu)選跟蹤模塊作為主導(dǎo)模塊,則構(gòu)造為一個(gè)跟蹤備選路徑集合的約束型最優(yōu)跟蹤控制,通過(guò)強(qiáng)化學(xué)習(xí)求解為評(píng)價(jià)函數(shù)和策略函數(shù)兩個(gè)模型。這兩個(gè)模型通常都采用神經(jīng)網(wǎng)絡(luò)進(jìn)行表示。訓(xùn)練之后的評(píng)價(jià)函數(shù)可評(píng)價(jià)不同備選路徑的代價(jià)值,實(shí)現(xiàn)對(duì)靜態(tài)參考路徑的優(yōu)化選擇,達(dá)到類似于“自主決策”的功能。訓(xùn)練之后的策略函數(shù)則可根據(jù)優(yōu)選得到的參考路徑,輸出油門、制動(dòng)、轉(zhuǎn)向盤等控制指令,實(shí)現(xiàn)類似于“運(yùn)動(dòng)控制”功能。

        圖2 集成式?jīng)Q控(IDC)架構(gòu)

        簡(jiǎn)單而言,IDC 架構(gòu)雖然也存在路徑規(guī)劃模塊,但它的規(guī)劃算法是十分簡(jiǎn)單的,通過(guò)與地圖綁定的道路幾何結(jié)構(gòu)、路面及路側(cè)標(biāo)識(shí)等信息進(jìn)行制定,而不使用動(dòng)態(tài)時(shí)變的紅綠燈信號(hào)、交通參與者等信息,這是稱之為“靜態(tài)”的原因。這一做法的目的是為自動(dòng)駕駛功能的實(shí)施提供一定的先驗(yàn)知識(shí),降低后續(xù)最優(yōu)控制問(wèn)題的求解難度。決控過(guò)程的主體功能都集成于動(dòng)態(tài)優(yōu)選跟蹤模塊,通過(guò)求解統(tǒng)一的約束型最優(yōu)控制問(wèn)題,整合了自主決策與運(yùn)動(dòng)控制兩項(xiàng)獨(dú)立的功能,避免了模塊之間性能指標(biāo)沖突的難題。

        IDC 架構(gòu)的優(yōu)點(diǎn)在于:(1)靜態(tài)路徑規(guī)劃僅使用道路的靜態(tài)信息,在線計(jì)算效率高,甚至可將預(yù)先制定的路徑集合存入自動(dòng)駕駛地圖,應(yīng)用時(shí)直接讀取所需路徑信息,極大提高在線應(yīng)用的實(shí)時(shí)性,同時(shí)“靜態(tài)化”的處理手段特別適用于結(jié)構(gòu)化道路(如高速公路、城市道路等),且應(yīng)用場(chǎng)景類型十分廣泛(如交叉路口、環(huán)島、多車道、進(jìn)出匝道等);(2)動(dòng)態(tài)優(yōu)選跟蹤本質(zhì)是一個(gè)約束型最優(yōu)跟蹤控制問(wèn)題,通過(guò)最優(yōu)控制命令的求解體現(xiàn)了“自車跟蹤參考路徑”與“周車約束自車行為”的博弈過(guò)程,理論上具有較好的可解釋性,對(duì)于最優(yōu)控制問(wèn)題,典型的求解方法如模型預(yù)測(cè)控制、近似動(dòng)態(tài)規(guī)劃、強(qiáng)化學(xué)習(xí)均可采用,尤其是后兩者是可以先離線訓(xùn)練策略,再在線應(yīng)用策略,這也極大降低了在線計(jì)算的負(fù)擔(dān)。IDC 架構(gòu)的挑戰(zhàn)在于主導(dǎo)模塊的集成度過(guò)高,性能指標(biāo)與訓(xùn)練算法的設(shè)計(jì)十分復(fù)雜,對(duì)工程人員的理論功底和算法能力提出了更高的要求。受框架結(jié)構(gòu)集成度高的影響,各設(shè)計(jì)要素之間強(qiáng)耦合,性能呈現(xiàn)典型的木桶原理特性,因此即使個(gè)別要素的設(shè)計(jì)不合理,會(huì)導(dǎo)致自動(dòng)駕駛性能急劇下降,所以對(duì)于缺乏經(jīng)驗(yàn)的設(shè)計(jì)者,很多時(shí)候IDC 呈現(xiàn)的自動(dòng)駕駛水平反而不如HDC架構(gòu)。

        1.2 3種決控系統(tǒng)的技術(shù)方案

        (1)專家規(guī)則型

        專家規(guī)則型方案是圍繞駕駛行為選擇為核心的一套經(jīng)驗(yàn)性設(shè)計(jì)技術(shù),一般只用于分層式架構(gòu)。典型特征是利用專家經(jīng)驗(yàn)設(shè)計(jì)自車的行為選擇模塊,結(jié)合規(guī)劃算法進(jìn)行動(dòng)態(tài)路徑規(guī)劃,利用誤差反饋設(shè)計(jì)參考軌跡的跟蹤控制器。一般來(lái)說(shuō),首先對(duì)場(chǎng)景進(jìn)行分類,例如多車道、交叉路口、環(huán)島、進(jìn)出匝道等,然后根據(jù)專家經(jīng)驗(yàn)對(duì)每一種場(chǎng)景定義專門的行為狀態(tài)以及狀態(tài)之間的轉(zhuǎn)移條件。典型的設(shè)計(jì)形式是有限狀態(tài)機(jī),其節(jié)點(diǎn)是行為狀態(tài)(例如車道保持、換道、超車等),邊是狀態(tài)轉(zhuǎn)移的條件,如圖3 所示。自動(dòng)駕駛汽車在行駛時(shí)根據(jù)道路環(huán)境以及自車狀態(tài),按照預(yù)定規(guī)則確定當(dāng)前最佳的駕駛行為。

        圖3 專家規(guī)則型方案

        該方案的難點(diǎn)在于如何劃分行為狀態(tài)并確定狀態(tài)之間的轉(zhuǎn)移條件。對(duì)于高速公路等稀疏交通場(chǎng)景,通過(guò)少量行為狀態(tài)便可以覆蓋大部分行車工況然而對(duì)于城市道路等密集交通場(chǎng)景,行駛工況的復(fù)雜程度與安全風(fēng)險(xiǎn)大幅提升,僅依靠工程師的經(jīng)驗(yàn)與規(guī)則難以窮盡所有可能性,因此開(kāi)發(fā)迭代過(guò)程往往需要向狀態(tài)機(jī)不斷增加補(bǔ)丁,導(dǎo)致維護(hù)難度爆炸式增長(zhǎng)。總體而言,該方案的優(yōu)點(diǎn)在于直接使用道路交通規(guī)則與人類駕駛經(jīng)驗(yàn)等先驗(yàn)知識(shí),駕駛行為選擇的可解釋性好,但由于高度依賴人工設(shè)計(jì),難以覆蓋所有工況,嚴(yán)重缺乏特殊場(chǎng)景的適應(yīng)性。特別是在高密度、高動(dòng)態(tài)、高隨機(jī)的城市道路交通環(huán)境下,其智能化水平遠(yuǎn)不及人類駕駛員,安全風(fēng)險(xiǎn)居高不下,還不能滿足高級(jí)別自動(dòng)駕駛的智能性要求。

        (2)監(jiān)督學(xué)習(xí)型

        監(jiān)督學(xué)習(xí)型方案一般以某一類型的深度神經(jīng)網(wǎng)絡(luò)為模型載體,如全連接神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)或Transformer 網(wǎng)絡(luò)等,利用大量的自然駕駛數(shù)據(jù)構(gòu)建訓(xùn)練數(shù)據(jù)集,通過(guò)監(jiān)督學(xué)習(xí)擬合決控過(guò)程的核心模型。圖4 展示了一個(gè)端到端自動(dòng)駕駛決控系統(tǒng)的案例,其中專家駕駛數(shù)據(jù)由駕駛狀態(tài)(樣本)和對(duì)應(yīng)的駕駛操作(標(biāo)簽)組成,駕駛狀態(tài)包括攝像頭、毫米波雷達(dá)、激光雷達(dá)等傳感器感知到的道路環(huán)境信息,駕駛操作包括轉(zhuǎn)向盤轉(zhuǎn)角、縱向加速度等控制命令。監(jiān)督學(xué)習(xí)的基本原理是同等樣本輸入條件之下,通過(guò)最小化模型輸出與標(biāo)簽的誤差,對(duì)模型參數(shù)進(jìn)行迭代更新。該方案既可用于HDC 架構(gòu),又可用于IDC 架構(gòu)。對(duì)于HDC 架構(gòu)而言,它用于解決各功能模塊的設(shè)計(jì),例如:對(duì)于周車行為預(yù)測(cè)模塊,可預(yù)先采集大量真實(shí)車輛軌跡段,以軌跡段的前一部分為樣本,剩余部分為標(biāo)簽構(gòu)建訓(xùn)練數(shù)據(jù)集進(jìn)行監(jiān)督學(xué)習(xí);對(duì)于運(yùn)動(dòng)控制模塊,可預(yù)先收集大量規(guī)劃好的期望行駛軌跡作為樣本,通過(guò)某一類型的高性能運(yùn)動(dòng)控制器輸出最優(yōu)控制指令作為標(biāo)簽構(gòu)建數(shù)據(jù)集進(jìn)行監(jiān)督學(xué)習(xí)。

        圖4 監(jiān)督學(xué)習(xí)型方案

        該方案不需要人工經(jīng)驗(yàn)設(shè)計(jì)特定的規(guī)則,本質(zhì)是通過(guò)離線數(shù)據(jù)集模仿專家駕駛員的行為。得益于深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的擬合能力,這一方法在訓(xùn)練數(shù)據(jù)集的樣本空間內(nèi),可以取得不錯(cuò)的模仿效果,但無(wú)法超越專家駕駛員的性能表現(xiàn)。此外,隨著自動(dòng)駕駛性能要求的提升,所需駕駛數(shù)據(jù)量及駕駛場(chǎng)景豐富度迅速增長(zhǎng),據(jù)蘭德公司預(yù)測(cè),該方案要達(dá)到人類駕駛水平,所需標(biāo)簽數(shù)據(jù)量高達(dá)160 億km[16]。同時(shí),該方案還面臨著樣本分布不均衡、罕見(jiàn)工況數(shù)據(jù)難以獲取等挑戰(zhàn),場(chǎng)景泛化能力不足,安全保障能力有限。

        (3)類腦學(xué)習(xí)型

        類腦學(xué)習(xí)型方案是一種模仿人腦試錯(cuò)學(xué)習(xí)的技術(shù)方案,基本原理是通過(guò)重復(fù)正向獎(jiǎng)勵(lì)的行為,避免負(fù)向懲罰的行為,以最大化累積獎(jiǎng)勵(lì)回報(bào)從而實(shí)現(xiàn)自動(dòng)駕駛策略的自我進(jìn)化與更新。具體而言,該方案以深度神經(jīng)網(wǎng)絡(luò)為策略載體,以強(qiáng)化學(xué)習(xí)為訓(xùn)練手段,通過(guò)與交通環(huán)境的交互探索實(shí)現(xiàn)策略的自我進(jìn)化,最終獲得從環(huán)境狀態(tài)到執(zhí)行動(dòng)作的最優(yōu)映射,即最優(yōu)駕駛策略。如圖5 所示,該方案包括反饋控制與策略更新兩個(gè)閉環(huán)。反饋控制環(huán)中,自車觀測(cè)反饋的環(huán)境狀態(tài),經(jīng)策略函數(shù)輸出控制動(dòng)作,與環(huán)境進(jìn)行交互;策略更新環(huán)中,自車根據(jù)當(dāng)前執(zhí)行動(dòng)作與環(huán)境狀態(tài)計(jì)算獎(jiǎng)勵(lì)信號(hào),利用強(qiáng)化學(xué)習(xí)算法驅(qū)動(dòng)策略參數(shù)更新。通過(guò)這兩個(gè)閉環(huán)的循環(huán)迭代,最終收斂到最優(yōu)的自動(dòng)駕駛策略。

        圖5 類腦學(xué)習(xí)型方案

        該方案與監(jiān)督學(xué)習(xí)的主要區(qū)別在于:(1)類腦學(xué)習(xí)擺脫了對(duì)標(biāo)簽數(shù)據(jù)集的依賴,可通過(guò)在仿真平臺(tái)或真實(shí)物理環(huán)境中的自我探索求解最優(yōu)策略;(2)類腦學(xué)習(xí)并不是擬合給定的示范動(dòng)作,而是在以獲得更多的獎(jiǎng)勵(lì)回報(bào)為目標(biāo)求解最優(yōu)策略,因而具有超越人類駕駛員的潛力;(3)類腦學(xué)習(xí)不局限于標(biāo)簽數(shù)據(jù)集中的樣本(狀態(tài))與標(biāo)簽(動(dòng)作)空間范圍,能夠在交通環(huán)境中收集任意狀態(tài)-動(dòng)作對(duì)的樣本進(jìn)行策略求解??傮w而言,該方案可實(shí)現(xiàn)一定程度的自主探索與自我學(xué)習(xí),適合未知場(chǎng)景條件求解最優(yōu)駕駛策略,但同時(shí)面臨著策略訓(xùn)練效率低下、易對(duì)訓(xùn)練環(huán)境過(guò)擬合、在線探索環(huán)境安全性差等挑戰(zhàn)。

        2 自動(dòng)駕駛仿真軟件

        自動(dòng)駕駛系統(tǒng)的實(shí)車道路測(cè)試面臨著安全風(fēng)險(xiǎn)高、成本高、效率低、重復(fù)性差等諸多方面的挑戰(zhàn),而利用自動(dòng)駕駛仿真軟件,研發(fā)人員能以極低的成本進(jìn)行場(chǎng)景的靈活配置與復(fù)現(xiàn)重演,快速實(shí)現(xiàn)原型開(kāi)發(fā)與性能評(píng)估。此外,對(duì)于類腦決控系統(tǒng)的訓(xùn)練過(guò)程,真實(shí)道路環(huán)境的數(shù)據(jù)采集依賴于探索試錯(cuò)機(jī)制,這往往意味著極低的采樣效率與極高的安全風(fēng)險(xiǎn),因此利用自動(dòng)駕駛仿真平臺(tái)進(jìn)行訓(xùn)練與測(cè)試是開(kāi)發(fā)高級(jí)別自動(dòng)駕駛系統(tǒng)的必由之路。到目前為止,常見(jiàn)的自動(dòng)駕駛仿真軟件包括TORCS、CARLA、Prescan、Apollo、TADSim、Cognata、DriverGym、AirSim、MetaDrive、LasVSim 等。自動(dòng)駕駛仿真軟件如此之多,那么如何評(píng)價(jià)一款自動(dòng)駕駛仿真軟件的優(yōu)劣呢?從自動(dòng)駕駛工程化的角度看,關(guān)鍵點(diǎn)不在于駕駛場(chǎng)景3D渲染的美觀程度,而在于各核心模塊可否準(zhǔn)確反映真實(shí)物理對(duì)象的主要特性,也就是自動(dòng)駕駛關(guān)聯(lián)要素的保真度,尤其是道路地圖建模、交通參與者行為、環(huán)境傳感器特性與車輛動(dòng)力學(xué)特性、自動(dòng)駕駛性能評(píng)估等。

        一般來(lái)說(shuō),典型自動(dòng)駕駛仿真軟件至少包括道路場(chǎng)景模擬、交通參與者模擬、網(wǎng)聯(lián)通信模擬、環(huán)境傳感器模擬、車輛動(dòng)力學(xué)模擬、駕駛性能評(píng)估,以及自動(dòng)駕駛系統(tǒng)本身感知、定位、預(yù)測(cè)、決策與控制等算法模塊。不同仿真平臺(tái)的功能特點(diǎn)可從4 個(gè)方面進(jìn)行對(duì)比評(píng)析:(1)界面渲染類型,即3D物理引擎渲染或2D俯視平面渲染;(2)地圖自定義能力,即是否完備支持手動(dòng)編輯、真實(shí)數(shù)據(jù)導(dǎo)入、隨機(jī)生成場(chǎng)景等方式;(3)典型仿真要素的模擬準(zhǔn)確度,包括車輛動(dòng)力學(xué)、環(huán)境傳感器、微觀交通流等典型要素是否能夠提供完備的高保真模型;(4)仿真計(jì)算效率,這對(duì)大規(guī)模仿真測(cè)試以及交互式訓(xùn)練至關(guān)重要。表2 總結(jié)了主流自動(dòng)駕駛仿真軟件的功能特點(diǎn)和維護(hù)機(jī)構(gòu)(注:○越多,表示該項(xiàng)性能越好)。

        表2 自動(dòng)駕駛仿真平臺(tái)

        3 類腦決控的狀態(tài)表征方法

        監(jiān)督學(xué)習(xí)和類腦學(xué)習(xí)兩種技術(shù)方案均以深度神經(jīng)網(wǎng)絡(luò)作為策略載體,它的輸入要求是一個(gè)長(zhǎng)度固定的一維向量[32-33]。然而自車感知到的環(huán)境狀態(tài)信息并不能直接滿足這一要求,例如行駛過(guò)程周圍交通參與者的數(shù)量總是動(dòng)態(tài)變化的,且周車或行人之間不存在明確的空間順序關(guān)系,導(dǎo)致不能拼接為定維向量,難以滿足策略網(wǎng)絡(luò)的輸入要求。因此,通過(guò)狀態(tài)表征(state representation)將環(huán)境狀態(tài)信息表達(dá)為定維表征向量是使用神經(jīng)網(wǎng)絡(luò)策略的必然要求[34]。

        對(duì)于類腦學(xué)習(xí)而言,自動(dòng)駕駛決控任務(wù)屬于典型的馬爾科夫過(guò)程,即每一時(shí)刻的最優(yōu)動(dòng)作僅通過(guò)當(dāng)前的環(huán)境狀態(tài)得到,因此對(duì)應(yīng)時(shí)刻的表征向量需要充分包含決控所需信息。表征向量的選取直接影響策略訓(xùn)練難度和訓(xùn)練效率,如何在有限的表征向量維度下有效抽取影響自動(dòng)駕駛的關(guān)鍵特征,是狀態(tài)表征的研究重點(diǎn)[33]。從原理上說(shuō),狀態(tài)表征的本質(zhì)是將復(fù)雜多元的環(huán)境感知信息壓縮為一維向量,主要手段包括兩個(gè)大類,即語(yǔ)義級(jí)別的“目標(biāo)識(shí)別”和元素級(jí)別的“特征提取”。根據(jù)這兩種技術(shù)手段的應(yīng)用方式,自動(dòng)駕駛決控策略的狀態(tài)表征方法分為目標(biāo)式(object-based)、特征式(feature-based)和組合式(combined design)3個(gè)子類,如圖6所示。

        圖6 類腦決控的3種狀態(tài)表征方法

        3.1 目標(biāo)式狀態(tài)表征

        目標(biāo)式狀態(tài)表征首先需要指定待識(shí)別目標(biāo)類別,并分別設(shè)計(jì)不同類別目標(biāo)的狀態(tài);然后從感知信息中進(jìn)行目標(biāo)識(shí)別;最后將各識(shí)別目標(biāo)的狀態(tài)直接拼接為表征向量[35]。交通環(huán)境中的待識(shí)別目標(biāo)主要包括自車、道路環(huán)境和周圍交通參與者3類。

        3.1.1 自車

        自動(dòng)駕駛汽車可近似為僅在平面運(yùn)動(dòng),有橫向平動(dòng)、縱向平動(dòng)和橫擺轉(zhuǎn)動(dòng)3 個(gè)運(yùn)動(dòng)自由度,每個(gè)自由度的運(yùn)動(dòng)狀態(tài)可由一個(gè)位置量和一個(gè)速度量表示。因此,自車狀態(tài)包括6 項(xiàng):橫向位置、縱向位置、橫擺角度、橫向速度、縱向速度和橫擺角速度[36]。

        自車狀態(tài)的表征按照坐標(biāo)系可分為3 種:(1)大地坐標(biāo)系,將6 項(xiàng)狀態(tài)量直接作為表征,但是由于包含絕對(duì)位置,只適用于固定場(chǎng)景[23];(2)Frenet 坐標(biāo)系,將各狀態(tài)量投影至沿車道方向和垂直車道方向作為表征,便于直觀表達(dá)與車道中心線的相對(duì)位置關(guān)系,一般適用于多車道場(chǎng)景,但難以應(yīng)用于交叉路口等復(fù)雜開(kāi)放場(chǎng)景[37-38];(3)自車坐標(biāo)系,以自車為中心,只需平面,3 自由度的速度量作為表征。由于不需要輸入位置信息,因此可與場(chǎng)景解耦,但道路環(huán)境、周圍交通參與者等其他目標(biāo)需表達(dá)為與自車的相對(duì)信息[39]。

        3.1.2 道路環(huán)境

        道路環(huán)境信息主要包括道路連通關(guān)系、道路邊緣和交通信號(hào)燈。

        道路連通關(guān)系指示行駛路徑。一般表征為參考軌跡點(diǎn)序列,主要有兩種方式[40]:(1)等時(shí)間距,相鄰兩點(diǎn)間距為參考速度與時(shí)間步長(zhǎng)的乘積,每個(gè)軌跡點(diǎn)的信息包括橫縱向坐標(biāo);(2)等空間距,相鄰兩點(diǎn)間距固定,但每個(gè)軌跡點(diǎn)的信息還應(yīng)包括在該位置的參考速度。

        道路邊緣指示可行駛區(qū)域的邊界。表征方式主要有:(1)最小間距式,即車輛質(zhì)心與道路邊緣的最短距離,僅需要計(jì)算一個(gè)變量,表征維數(shù)低[25];(2)固定方位式,即在自車坐標(biāo)系下,計(jì)算車輛質(zhì)心沿N個(gè)固定方向與道路邊緣的距離。由于同時(shí)包含距離與方位信息,還額外表達(dá)了自車與可行駛區(qū)域的空間位置關(guān)系[41]。

        交通信號(hào)燈指示通行規(guī)則,包括信號(hào)燈顏色和剩余時(shí)間。信號(hào)燈顏色一般獨(dú)熱(one hot)編碼為三維向量,對(duì)應(yīng)紅黃綠3 種信號(hào)燈;再拼接剩余時(shí)間作為交通信號(hào)燈表征。前方無(wú)信號(hào)燈時(shí),一般設(shè)為具有最大剩余時(shí)間的綠燈信號(hào)[23]。

        3.1.3 周圍交通參與者

        周圍交通參與者(周車)集合主要有以下特點(diǎn)[34]:(1)類型混雜,典型的城市道路環(huán)境中存在機(jī)動(dòng)車、行人和騎行人等不同類型的交通參與者,其形狀尺寸、活動(dòng)范圍、運(yùn)動(dòng)能力、行為模式及風(fēng)險(xiǎn)特征差異巨大;(2)數(shù)目時(shí)變,由于道路結(jié)構(gòu)、車流密度、感知遮擋等因素,自車感知到的周車數(shù)量總是動(dòng)態(tài)變化。

        對(duì)于類型混雜、數(shù)目時(shí)變的周車集合,現(xiàn)有研究一般采用固定排序方案[34],即首先固定最大周車數(shù)量N,假定每輛周車的狀態(tài)為m維,通過(guò)規(guī)則排序得到一個(gè)N×m維向量作為表征。排序規(guī)則的設(shè)計(jì)依據(jù)主要包括相對(duì)距離、相對(duì)方位和沖突關(guān)系等。這種方案簡(jiǎn)潔易操作,但是最大周車數(shù)量N難以選?。寒?dāng)實(shí)際周車數(shù)目大于N時(shí),須將距離較遠(yuǎn)者剔除,導(dǎo)致信息遺漏,影響策略求解最優(yōu)性;當(dāng)實(shí)際周車數(shù)目小于N時(shí),須在離自車較遠(yuǎn)處添加虛擬周車,導(dǎo)致信息冗余,增大策略求解難度。

        總體而言,目標(biāo)式狀態(tài)表征的優(yōu)勢(shì)在于:(1)可解釋性強(qiáng),作為表征的目標(biāo)狀態(tài)一般具有明確的物理意義;(2)可遷移性好,無(wú)論是仿真環(huán)境還是實(shí)車平臺(tái),無(wú)論傳感器如何搭配組合,只要能夠提供識(shí)別目標(biāo)的狀態(tài)信息,便可對(duì)所學(xué)駕駛策略進(jìn)行部署。劣勢(shì)在于:(1)部分目標(biāo)狀態(tài)需要在線規(guī)劃計(jì)算;(2)如何選取待識(shí)別目標(biāo)、定義目標(biāo)狀態(tài)以及對(duì)目標(biāo)進(jìn)行排序嚴(yán)重依賴人工設(shè)計(jì),存在擴(kuò)展性難題。

        3.2 特征式狀態(tài)表征

        特征式狀態(tài)表征不進(jìn)行目標(biāo)識(shí)別,僅預(yù)先指定特征的維數(shù),通過(guò)一個(gè)特征提取模塊直接從感知信息(如攝像頭圖像、激光雷達(dá)點(diǎn)云等)中提取表征向量。目前,特征提取模塊一般以深度神經(jīng)網(wǎng)絡(luò)為載體,訓(xùn)練方法主要可分為在線進(jìn)化和自監(jiān)督兩種模式。

        在線進(jìn)化模式是指特征提取模塊與策略函數(shù)同時(shí)進(jìn)行訓(xùn)練,均以最大化環(huán)境反饋的獎(jiǎng)勵(lì)信號(hào)為目標(biāo),以強(qiáng)化學(xué)習(xí)為訓(xùn)練手段,實(shí)現(xiàn)自我進(jìn)化,如圖7所示。特征提取模塊的典型網(wǎng)絡(luò)結(jié)構(gòu)包括多層感知機(jī)MLP[42]、卷積神經(jīng)網(wǎng)絡(luò)CNN[42]、點(diǎn)網(wǎng)絡(luò)PointNet[43]和循環(huán)神經(jīng)網(wǎng)絡(luò)RNN[44]等。

        圖7 在線進(jìn)化模式

        自監(jiān)督模式是指特征提取模塊的訓(xùn)練與策略訓(xùn)練相解耦,采用自監(jiān)督的方式預(yù)先訓(xùn)練?!熬幋a器-解碼器”是典型的自監(jiān)督訓(xùn)練架構(gòu),它通過(guò)比較輸入的環(huán)境狀態(tài)與編解碼之后輸出的重建狀態(tài)之間的誤差,以自監(jiān)督學(xué)習(xí)的方式訓(xùn)練一個(gè)編碼器和一個(gè)解碼器,其中編碼器即為特征提取模塊,如圖8 所示。該架構(gòu)的典型網(wǎng)絡(luò)結(jié)構(gòu)包括生成對(duì)抗網(wǎng)絡(luò)GAN[45]、自 動(dòng) 編 碼 器AE[46]、變 分 自 動(dòng) 編 碼 器VAE[47]和Transformer[48]等。

        圖8 自監(jiān)督模式

        在線進(jìn)化模式可同時(shí)訓(xùn)練特征提取網(wǎng)絡(luò)和策略網(wǎng)絡(luò),結(jié)構(gòu)清晰,但劣勢(shì)在于容易對(duì)訓(xùn)練環(huán)境過(guò)擬合;自監(jiān)督模式可利用來(lái)自多個(gè)環(huán)境的樣本預(yù)先訓(xùn)練特征提取器,抑制對(duì)特定環(huán)境的過(guò)擬合,但劣勢(shì)在于需要大量樣本來(lái)構(gòu)建訓(xùn)練數(shù)據(jù)集。

        總體而言,特征式狀態(tài)表征的優(yōu)勢(shì)在于信息損失少,直接從原始觀測(cè)輸入到表征輸出。劣勢(shì)在于:(1)可解釋性差,特征提取過(guò)程是一個(gè)黑箱;(2)訓(xùn)練難度大,原始觀測(cè)信息的維數(shù)較高,特征提取困難;(3)可遷移性差,仿真訓(xùn)練平臺(tái)的傳感器模型與真實(shí)道路的實(shí)際傳感器通常存在較大差異,此外,傳感器的安裝位置、角度、型號(hào)不同也將造成觀測(cè)空間的差異,導(dǎo)致所訓(xùn)策略難以向真實(shí)世界遷移。

        3.3 組合式狀態(tài)表征

        為了擺脫對(duì)周車排序規(guī)則的依賴,同時(shí)加速特征提取,組合式狀態(tài)表征融合了前兩種方法的優(yōu)勢(shì),即在目標(biāo)識(shí)別的基礎(chǔ)上,通過(guò)編碼聚合函數(shù)對(duì)目標(biāo)集合進(jìn)一步提取特征,得到關(guān)于集合內(nèi)元素排列不變的定維表征[49]。編碼聚合過(guò)程可數(shù)學(xué)化描述為xset=Agg(X),其中X 為識(shí)別的目標(biāo)集合,xi為目標(biāo)集合中第i個(gè)目標(biāo)的狀態(tài),xset為對(duì)該集合編碼聚合后得到的表征向量,Agg(·)為編碼聚合函數(shù)[50],由編碼網(wǎng)絡(luò)和聚合算子組成。

        典型的編碼網(wǎng)絡(luò)結(jié)構(gòu)包括多層感知機(jī)MLP 和卷積神經(jīng)網(wǎng)絡(luò)CNN 等,既可以采用自進(jìn)化模式,也可以采用自監(jiān)督模式進(jìn)行訓(xùn)練;典型的聚合算子包括求極大(max)、求平均(mean)、求和(sum)、注意力(attention)等[50]。Duan 等[34]首先將求和式編碼聚合網(wǎng)絡(luò)用于周車集合的狀態(tài)表征。如圖9 所示,首先使用MLP的編碼網(wǎng)絡(luò)分別處理所有周車的狀態(tài)xi得到單車編碼vi,然后通過(guò)求和(sum)算子聚合。Guan等[15]設(shè)計(jì)了基于注意力(attention)機(jī)制[51]的編碼聚合網(wǎng)絡(luò),可在特征提取過(guò)程中動(dòng)態(tài)甄別不同周車的重要性,如圖10所示。

        圖9 求和式編碼聚合[34]

        圖10 注意力式編碼聚合[51]

        總體而言,組合式狀態(tài)表征方法的優(yōu)勢(shì)在于:(1)相比于目標(biāo)式,不依賴于人工設(shè)計(jì)周車排序規(guī)則,通過(guò)編碼聚合函數(shù)實(shí)現(xiàn)可變數(shù)目周車集合的排列不變表征;(2)相比于特征式,可遷移性好,可以復(fù)用成熟的目標(biāo)識(shí)別模塊,只要求提供待識(shí)別目標(biāo)的狀態(tài)信息,便可編碼聚合得表征向量。劣勢(shì)主要在于從環(huán)境狀態(tài)輸入到表征輸出之間同時(shí)包含目標(biāo)識(shí)別和特征提取兩個(gè)過(guò)程,可能導(dǎo)致較大的信息損失。

        4 自動(dòng)駕駛性能評(píng)價(jià)指標(biāo)

        自動(dòng)駕駛性能評(píng)價(jià)是系統(tǒng)功能測(cè)試以及策略訓(xùn)練改進(jìn)的基礎(chǔ),關(guān)鍵在于建立準(zhǔn)確可靠的評(píng)價(jià)指標(biāo)體系。通常評(píng)價(jià)維度至少包括安全性(driving safety)、舒 適 性(driving comfort)、通 暢 性(travel efficiency)、經(jīng) 濟(jì) 性(energy efficiency)和 合 規(guī) 性(regulatory compliance)等,各個(gè)維度又包括評(píng)價(jià)當(dāng)前時(shí)刻的瞬時(shí)指標(biāo)和評(píng)價(jià)單次駕駛?cè)蝿?wù)或單位駕駛里程的統(tǒng)計(jì)指標(biāo)。統(tǒng)計(jì)指標(biāo)一般為瞬時(shí)指標(biāo)的均值或累積值。對(duì)于類腦學(xué)習(xí)系統(tǒng)而言,驅(qū)動(dòng)策略更新的唯一信息來(lái)源于環(huán)境反饋的獎(jiǎng)勵(lì)信號(hào),因此策略性能取決于以評(píng)價(jià)指標(biāo)為基礎(chǔ)的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)。

        4.1 安全性

        保障道路安全是自動(dòng)駕駛技術(shù)發(fā)展的重要挑戰(zhàn)[52]。早期的安全性評(píng)價(jià)模型主要考慮與碰撞工況相關(guān)的物理性特征[53],例如車間距離、碰撞時(shí)間(TTC)、沖突時(shí)間差(PET)、避免碰撞的減速度(DRAC)等,然而這些指標(biāo)與具體的碰撞事件緊密綁定,難以至一般性的無(wú)沖突場(chǎng)景。另一些安全指標(biāo)基于運(yùn)動(dòng)場(chǎng)的概念進(jìn)行設(shè)計(jì),如駕駛員風(fēng)險(xiǎn)場(chǎng)(driver’s risk field)[54]等,可用于一般性的無(wú)沖突場(chǎng)景,但一方面該類模型的參數(shù)較多,標(biāo)定困難,另一方面缺少客觀的真實(shí)風(fēng)險(xiǎn)標(biāo)準(zhǔn),難以對(duì)模型的準(zhǔn)確性進(jìn)行定量評(píng)估。為了實(shí)現(xiàn)安全風(fēng)險(xiǎn)的量化建模,清華大學(xué)于2021 年提出了潛在碰撞損傷風(fēng)險(xiǎn)(PODAR)模型,核心思想是以碰撞損傷度(包括人損和車損)作為行車安全性的客觀標(biāo)準(zhǔn),將當(dāng)前的運(yùn)動(dòng)狀態(tài)折算為未來(lái)某一時(shí)刻的碰撞損傷度[55]。PODAR 模型首先假定預(yù)測(cè)時(shí)域之內(nèi)碰撞將會(huì)發(fā)生,考慮碰撞雙方的質(zhì)量、相對(duì)速度和相對(duì)方向等因素計(jì)算碰撞損傷值,這是被動(dòng)安全領(lǐng)域十分成熟的模型;然后從空間和時(shí)間兩個(gè)維度對(duì)未來(lái)時(shí)刻的碰撞損傷值進(jìn)行折減,得到當(dāng)前時(shí)刻的潛在碰撞損傷,用于衡量駕駛過(guò)程的安全性。

        4.2 合規(guī)性

        合規(guī)性是指自動(dòng)駕駛行為是否符合交通法規(guī)。需要說(shuō)明的是,不少行車風(fēng)險(xiǎn)模型將安全性與合規(guī)性兩者混為一談,實(shí)際上合規(guī)性與安全性并不等價(jià),行車合規(guī)不代表安全,但行車安全也不一定合規(guī)。一個(gè)典型例子是如果當(dāng)車輛在紅燈前停止,且后方車輛高速逼近時(shí),繼續(xù)保持紅燈等待狀態(tài)雖合規(guī),但可能導(dǎo)致后車追尾碰撞,損害了安全性;而提前加速起步雖闖紅燈違規(guī),但可能避免后車碰撞,提升了安全性。因此,將安全性和合規(guī)性進(jìn)行解耦,分解為兩個(gè)不同的評(píng)價(jià)維度,有利于解決自動(dòng)駕駛的行車風(fēng)險(xiǎn)評(píng)估難題。一般來(lái)說(shuō),不同違規(guī)行為的嚴(yán)重程度可根據(jù)交通法規(guī)衡量,例如我國(guó)交通法明確規(guī)定:高速公路不按規(guī)定車道行駛扣3 分,城市路口場(chǎng)景中闖紅燈扣6分等,這是合規(guī)性建模的基本原則。

        4.3 舒適性

        車輛行駛的過(guò)程中,乘客的舒適性主要與車輛縱橫向運(yùn)動(dòng)的沖擊特性相關(guān)。具體而言,人體乘坐舒適性可由縱向、橫向兩個(gè)維度的加速度值進(jìn)行衡量,例如加權(quán)均方根值。一般來(lái)說(shuō),加速度的均方根值越大,舒適程度越低,反之更好。

        4.4 通暢性

        通暢性是指車輛經(jīng)過(guò)一段道路的通行效率。一般可由自車速度與周圍交通流平均速度(無(wú)車時(shí)可采用道路限速)的比值進(jìn)行衡量。該比值越大,說(shuō)明自車行駛的通暢性越好。

        4.5 經(jīng)濟(jì)性

        經(jīng)濟(jì)性是指車輛行駛過(guò)程的能量消耗水平。對(duì)于同樣的駕駛?cè)蝿?wù),能量消耗越少則經(jīng)濟(jì)性越好[56]。根據(jù)動(dòng)力能源形式,例如燃油汽車或電動(dòng)汽車,可由燃油消耗率和電能消耗率等指標(biāo)進(jìn)行衡量。

        5 類腦決控的強(qiáng)化學(xué)習(xí)訓(xùn)練算法

        類腦決控系統(tǒng)以強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)為訓(xùn)練手段,通過(guò)與交通環(huán)境的不斷交互實(shí)現(xiàn)策略的更新優(yōu)化。強(qiáng)化學(xué)習(xí)的設(shè)計(jì)思想源于生物的試錯(cuò)學(xué)習(xí)機(jī)制,即生物如何在環(huán)境給予的獎(jiǎng)勵(lì)或懲罰的刺激下,逐步形成對(duì)刺激的預(yù)期,產(chǎn)生能獲得最大利益的習(xí)慣性行為模式。現(xiàn)代意義的強(qiáng)化學(xué)習(xí)屬于人工智能和自動(dòng)控制的交叉領(lǐng)域:從前者視角看,它是指智能體如何通過(guò)與環(huán)境交互試錯(cuò),利用反饋的獎(jiǎng)懲信號(hào)來(lái)改進(jìn)自身策略的學(xué)習(xí)機(jī)制;從后者視角看,它是指用于最優(yōu)控制問(wèn)題的全狀態(tài)空間求解器,獲得從環(huán)境狀態(tài)到執(zhí)行動(dòng)作的最優(yōu)映射,即最優(yōu)策略[57]。目前,車云協(xié)同訓(xùn)練是將強(qiáng)化學(xué)習(xí)應(yīng)用于高級(jí)別自動(dòng)駕駛?cè)蝿?wù)的一個(gè)常見(jiàn)開(kāi)發(fā)模式。它的基本原理如圖11 所示,核心是訓(xùn)練以深度神經(jīng)網(wǎng)絡(luò)為載體的策略函數(shù),其中訓(xùn)練數(shù)據(jù)的來(lái)源同時(shí)包括云端的海量存儲(chǔ)和車端的數(shù)據(jù)上傳。同時(shí)借助云端的高性能算力,實(shí)現(xiàn)高性能強(qiáng)化學(xué)習(xí)算法的離線應(yīng)用,訓(xùn)練之后的神經(jīng)網(wǎng)絡(luò)通過(guò)OTA(on the air)模式遠(yuǎn)程下載至車端,升級(jí)自動(dòng)駕駛功能??傮w而言,車云協(xié)同訓(xùn)練的數(shù)據(jù)流動(dòng)形成了反饋控制環(huán)和策略更新環(huán)兩個(gè)閉環(huán)。前者是指自動(dòng)駕駛系統(tǒng)根據(jù)傳感器的實(shí)時(shí)感知數(shù)據(jù),得到執(zhí)行器動(dòng)作,控制車輛持續(xù)行駛,形成反饋控制閉環(huán)。后者是指車端收集當(dāng)前策略對(duì)應(yīng)的環(huán)境感知與控制命令數(shù)據(jù),上傳至云端用于策略訓(xùn)練與OTA 升級(jí),接著對(duì)更新后的策略繼續(xù)收集行駛數(shù)據(jù)上傳云端訓(xùn)練升級(jí),形成策略參數(shù)更新閉環(huán)。

        圖11 車云協(xié)同訓(xùn)練架構(gòu)

        5.1 強(qiáng)化學(xué)習(xí)的基本原理

        強(qiáng)化學(xué)習(xí)一般將待求解問(wèn)題構(gòu)造為馬爾可夫決策過(guò)程(Markov decision process, MDP),求解過(guò)程主要包含4 個(gè)基本元素[57]:狀態(tài)動(dòng)作對(duì)(st,at)、策略π、獎(jiǎng)勵(lì)信號(hào)rt和環(huán)境模型f。每個(gè)時(shí)間步t,智能體根據(jù)狀態(tài)st與策略π決定動(dòng)作at,然后環(huán)境會(huì)給出下一時(shí)刻狀態(tài)st+1與獎(jiǎng)勵(lì)信號(hào)rt(st,at)。強(qiáng)化學(xué)習(xí)的目標(biāo)是學(xué)習(xí)到能夠最大化期望累積回報(bào)的策略:

        式中:d0(s)為t= 0 時(shí)的狀態(tài)分布;γ∈[0,1]為折扣系數(shù)。目前,廣泛使用的強(qiáng)化學(xué)習(xí)算法多屬于Actor-Critic 架構(gòu)。為了評(píng)估當(dāng)前狀態(tài)的優(yōu)劣,通常引入狀態(tài)價(jià)值函數(shù)V(s)或動(dòng)作價(jià)值函數(shù)Q(s,a),估計(jì)未來(lái)的期望累積回報(bào),因此稱為評(píng)估器(Critic)。策略函數(shù)用于輸出動(dòng)作使得環(huán)境向更高價(jià)值的狀態(tài)轉(zhuǎn)移,因此也稱為執(zhí)行器(Actor)。值得一提的是,IDC 架構(gòu)的評(píng)價(jià)函數(shù)和策略函數(shù)恰好可以對(duì)應(yīng)于Critic 和Actor 的功能定位,這是IDC 架構(gòu)設(shè)計(jì)的巧妙之處,也是它與強(qiáng)化學(xué)習(xí)算法特別匹配的原因[15]。

        5.2 強(qiáng)化學(xué)習(xí)的算法進(jìn)展

        強(qiáng)化學(xué)習(xí)算法的發(fā)展歷史悠久,但引起工業(yè)界的廣泛關(guān)注始于深度化版本的開(kāi)發(fā)。2015 年Mnih等人提出了DQN(deep Q network)算法[58],首次在Atari 游戲中超越了人類的表現(xiàn),自此至今,DDPG(deep deterministic policy gradients)[13]、TD3(twin delayed deep deterministic policy gradient)[59]、PPO(proximal policy optimization)[60]、RMPC(recurrent model predictive control)[21]、SAC(soft actor critic)[61]、DSAC(distributional soft actor critic)[62]、MPG(mixed policy gradient)[63]等性能優(yōu)異的深度強(qiáng)化學(xué)習(xí)算法層出不窮,令人眼花繚亂。

        強(qiáng)化學(xué)習(xí)的算法種類如此繁多,急需合理的分類方式進(jìn)行梳理,以便更為深入地理解原理。常見(jiàn)的分類方式包括:根據(jù)模型和數(shù)據(jù)的利用方式[64],分為模型驅(qū)動(dòng)型(model-driven 或model-based)、數(shù)據(jù)驅(qū)動(dòng)型(data-driven 或model-free)以及融合使用模型與數(shù)據(jù)的混合驅(qū)動(dòng)型(mixed-driven);根據(jù)采樣策略與目標(biāo)策略是否相同[57],分為在軌型(on-policy)和離軌型(off-policy)。然而,這些分類方式都是根據(jù)訓(xùn)練過(guò)程的表象差異進(jìn)行區(qū)分,不利于設(shè)計(jì)者深入了解算法的本質(zhì)差別,進(jìn)行更為合理的算法設(shè)計(jì)和選擇。目前,更為基礎(chǔ)的分類是根據(jù)最優(yōu)策略的求解方式進(jìn)行劃分,將強(qiáng)化學(xué)習(xí)分為如下間接法和直接法兩類[65]。

        (1)間接法的基本原理是求解貝爾曼方程,即最優(yōu)解的充分必要條件,將貝爾曼方程的解作為最優(yōu)策略。按照迭代方式進(jìn)一步可分為策略迭代(policy iteration,PI)和值迭代(value iteration,VI):前者的本質(zhì)是使用Newton-Raphson 迭代法求解貝爾曼方程[57],通過(guò)交替策略評(píng)估和策略改進(jìn)兩個(gè)環(huán)節(jié),不斷改進(jìn)當(dāng)前策略以逐步逼近最優(yōu)策略;后者則根據(jù)不動(dòng)點(diǎn)迭代直接更新值函數(shù),直至收斂到最優(yōu)值,而最優(yōu)策略即為最優(yōu)值函數(shù)的貪心搜索。

        (2)直接法將強(qiáng)化學(xué)習(xí)視為一種對(duì)目標(biāo)函數(shù)求極值的迭代優(yōu)化方法,典型求解方法可分為零階梯度法、1 階梯度法、2 階梯度法等。以遺傳算法為代表的零階梯度法,可適用于非光滑問(wèn)題,但收斂速度較慢,求解效率不佳。1 階、2 階等策略梯度方法均沿著梯度下降方向迭代逼近最優(yōu)策略,適用于凸性較好的問(wèn)題。理論上說(shuō),階次越高收斂速度越快,但是2 階導(dǎo)數(shù)的計(jì)算成本太大,反而會(huì)惡化訓(xùn)練速度,因此目前仍是1階策略梯度法最為常用。

        值得一提的是,Actor-Critic 作為一類廣泛使用的強(qiáng)化學(xué)習(xí)架構(gòu),既可來(lái)源于間接法,又可來(lái)源于直接法[65]。從間接法角度看,Critic 和Actor 的更新分別對(duì)應(yīng)了策略評(píng)估和策略改進(jìn)兩個(gè)環(huán)節(jié)的參數(shù)化近似,如圖12 所示;從直接法角度看,Actor-Critic 可被視為一類帶值估計(jì)的策略梯度(policy gradient)方法,其中Critic 是利用值估計(jì)機(jī)制構(gòu)造目標(biāo)函數(shù),Actor 計(jì)算目標(biāo)函數(shù)對(duì)策略參數(shù)的梯度并執(zhí)行策略更新,如圖13所示。

        圖12 間接法導(dǎo)出的Actor-Critic架構(gòu)[57]

        圖13 直接法導(dǎo)出的Actor-Critic架構(gòu)[57]

        間接法和直接法分類的優(yōu)勢(shì)在于它區(qū)分了最優(yōu)策略求解方式的本質(zhì)原理,同時(shí)又均可衍生出Actor-Critic 架構(gòu),證明了兩類方法在理論層面具有最優(yōu)性等價(jià)關(guān)系,這對(duì)強(qiáng)化學(xué)習(xí)的原理理解具有重要意義。根據(jù)這一分類方式的理解:從直接法角度可致力于更綜合的目標(biāo)函數(shù)設(shè)計(jì);從間接法角度可發(fā)掘更多最優(yōu)解的等價(jià)或必要條件構(gòu)造迭代方程,這為強(qiáng)化學(xué)習(xí)領(lǐng)域的新型算法設(shè)計(jì)提供了全新的視角。

        5.3 類腦決控技術(shù)應(yīng)用現(xiàn)狀

        隨著車載控制器的算力增長(zhǎng)以及對(duì)自動(dòng)駕駛困難性的認(rèn)識(shí)加深,類腦自動(dòng)駕駛技術(shù)正得到越來(lái)越多的關(guān)注。到目前為止,這一技術(shù)已經(jīng)能夠解決多車道、交叉路口、環(huán)島、進(jìn)出匝道等諸多工況的決策與控制功能,正逐步邁向真實(shí)交通場(chǎng)景的工程應(yīng)用和測(cè)試驗(yàn)證。典型的自動(dòng)駕駛案例如表3所示。

        表3 類腦決控典型案例

        早期的類腦自動(dòng)駕駛主要采用端到端架構(gòu),直接利用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)從感知結(jié)果到控制命令的映射。例如:2016 年Lillicrap 等提出了DDPG 算法,利用TORCS 仿真平臺(tái)實(shí)現(xiàn)了封閉道路的車道保持功能[13];2019 年Chen 等針對(duì)城市道路中的環(huán)島場(chǎng)景,使用TD3 和SAC 等算法,使用CARLA 仿真平臺(tái)實(shí)現(xiàn)了密集交通流工況的安全高效通行[27];2022 年Li 等設(shè)計(jì)了MetaDrive 仿真平臺(tái),可以自動(dòng)生成隨機(jī)拓?fù)浣Y(jié)構(gòu)的道路場(chǎng)景,使用PPO 和SAC 算法在大規(guī)模場(chǎng)景庫(kù)中進(jìn)行訓(xùn)練,提升了策略泛化能力[29];2022 年Duan 等將DSAC 算法應(yīng)用于高速多車道場(chǎng)景,通過(guò)引入值分布有效抑制了值函數(shù)的過(guò)估計(jì)難題,超越了SAC 的性能表現(xiàn),并進(jìn)行了實(shí)車試驗(yàn)驗(yàn)證[30]。

        類腦學(xué)習(xí)與HDC 架構(gòu)的結(jié)合主要用于典型功能模塊的開(kāi)發(fā),如駕駛行為選擇、車輛運(yùn)動(dòng)控制等。2018年Hoel等設(shè)計(jì)了車道保持、左換道、右換道3種車輛行為狀態(tài),使用DQN 算法實(shí)現(xiàn)了高速多車道場(chǎng)景的換道決策[18]。2020 年Yurtsever 等以轉(zhuǎn)向盤轉(zhuǎn)角和縱向加速度構(gòu)造離散的動(dòng)作空間,使用DQN 算法在CARLA 仿真平臺(tái)實(shí)現(xiàn)了對(duì)于給定軌跡的跟蹤控制[19]。2022 年Liu 等針對(duì)連續(xù)動(dòng)作空間的預(yù)測(cè)型車輛橫縱向運(yùn)動(dòng)控制任務(wù),設(shè)計(jì)了循環(huán)模型預(yù)測(cè)控制算法,可根據(jù)計(jì)算資源等約束條件動(dòng)態(tài)調(diào)整預(yù)測(cè)時(shí)域的長(zhǎng)度,離線訓(xùn)練得到的控制策略與經(jīng)典的在線規(guī)劃型MPC控制器的軌跡跟蹤性能相當(dāng)[21]。

        與HDC 架構(gòu)相比,IDC 架構(gòu)更適合與類腦學(xué)習(xí)算法結(jié)合。作為主導(dǎo)模塊,動(dòng)態(tài)跟蹤優(yōu)選模塊集成了選擇最優(yōu)路徑和輸出控制命令的任務(wù),通過(guò)求解統(tǒng)一的約束型OCP 整合決策與控制功能。2022 年Guan 等依托IDC 架構(gòu)設(shè)計(jì)了一種混合策略梯度算法,在交叉口場(chǎng)景完成了直行、右轉(zhuǎn)和無(wú)保護(hù)左轉(zhuǎn)等駕駛?cè)蝿?wù)[14]。2022年Gu等采用IDC 架構(gòu),同時(shí)引入模型提升SAC 算法的訓(xùn)練效率,在高速公路場(chǎng)景實(shí)現(xiàn)了安全、高效、經(jīng)濟(jì)的駕駛表現(xiàn)[24]。2022年Ren等進(jìn)一步考慮機(jī)動(dòng)車、行人與騎行人混雜的交通流,將信號(hào)燈、限速、與不同交通參與者的安全距離等規(guī)則與經(jīng)驗(yàn)作為先驗(yàn)知識(shí)融入IDC 架構(gòu),實(shí)現(xiàn)了信控交叉路口場(chǎng)景混雜交通流中的安全通行[23]。

        6 總結(jié)與展望

        針對(duì)高級(jí)別自動(dòng)駕駛汽車的決策與控制功能設(shè)計(jì),類腦學(xué)習(xí)提供了一種自主探索、試錯(cuò)迭代的策略求解機(jī)制,可在全狀態(tài)空間上近似求解從環(huán)境狀態(tài)到執(zhí)行動(dòng)作的最優(yōu)映射,即最優(yōu)策略。本文聚焦于類腦學(xué)習(xí)型自動(dòng)駕駛決控系統(tǒng)開(kāi)發(fā),從系統(tǒng)框架、仿真軟件、狀態(tài)表征、評(píng)價(jià)指標(biāo)和訓(xùn)練算法5個(gè)方面系統(tǒng)性探討了它的關(guān)鍵技術(shù)及發(fā)展趨勢(shì)。簡(jiǎn)要總結(jié)如下。

        (1)面向落地應(yīng)用的自動(dòng)駕駛決策控制架構(gòu)分為分層式(HDC)和集成式(IDC)兩類。HDC 架構(gòu)的模塊解耦更細(xì),便于工程化開(kāi)發(fā)時(shí)的任務(wù)分工和組織協(xié)調(diào),但不可避免地存在模塊之間信息丟失的風(fēng)險(xiǎn),且各模塊具有自己的優(yōu)化目標(biāo),不利于提升整體智能性。IDC 架構(gòu)將自動(dòng)駕駛決控任務(wù)進(jìn)行了重塑,將二者整合為一個(gè)統(tǒng)一的約束型最優(yōu)控制問(wèn)題,僅包含一個(gè)性能指標(biāo)、一個(gè)動(dòng)力學(xué)系統(tǒng),求解一個(gè)決控策略。這一主導(dǎo)性模塊的存在使得IDC 架構(gòu)更加適合類腦學(xué)習(xí)算法的應(yīng)用,通過(guò)車云協(xié)同訓(xùn)練增強(qiáng)對(duì)稀有場(chǎng)景的適應(yīng)性,以獲得更高的駕駛智能性。特別值得指出的是,IDC 架構(gòu)的策略函數(shù)和評(píng)價(jià)函數(shù)恰好對(duì)應(yīng)于強(qiáng)化學(xué)習(xí)的Actor-Critic 訓(xùn)練架構(gòu),二者具有良好的適配度。

        (2)從動(dòng)態(tài)環(huán)境的狀態(tài)信息提取定維表征向量是應(yīng)用類腦學(xué)習(xí)技術(shù)的必然要求,也是提升策略訓(xùn)練效率與性能表現(xiàn)的關(guān)鍵之處。狀態(tài)表征方法可分為目標(biāo)式、特征式和組合式。目標(biāo)式表征因物理意義明確、易遷移等優(yōu)勢(shì)被廣泛采用,但依賴于人工設(shè)計(jì)目標(biāo)識(shí)別模塊以及目標(biāo)集合中各元素的排列順序;特征式表征直接從感知信息中提取表征,結(jié)構(gòu)簡(jiǎn)單清晰,但仍面臨訓(xùn)練效率低、可解釋性差、難以向真實(shí)場(chǎng)景遷移等困境;組合式設(shè)計(jì)對(duì)于識(shí)別后的目標(biāo)進(jìn)行編碼聚合得到表征,既可擺脫對(duì)目標(biāo)排序規(guī)則的依賴,又可保障訓(xùn)練效率。狀態(tài)表征的下一步發(fā)展趨勢(shì)主要在于更好地融合先驗(yàn)知識(shí)和深度學(xué)習(xí)的特征提取能力,實(shí)現(xiàn)狀態(tài)表征的高效提取,以及結(jié)合對(duì)抗學(xué)習(xí)、因果挖掘等手段提升泛化能力。

        (3)強(qiáng)化學(xué)習(xí)是類腦學(xué)習(xí)系統(tǒng)的核心算法,驅(qū)動(dòng)策略更新的信息來(lái)源于環(huán)境反饋的獎(jiǎng)勵(lì)信號(hào),因此策略性能取決于以評(píng)價(jià)指標(biāo)為基礎(chǔ)的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)。其發(fā)展趨勢(shì)是圍繞安全、合規(guī)、舒適、通暢和經(jīng)濟(jì)的五維度視角開(kāi)展指標(biāo)設(shè)計(jì),重點(diǎn)建立客觀性的量化評(píng)價(jià)模型,使用統(tǒng)一尺度評(píng)測(cè)各類行駛工況的駕駛性能表現(xiàn)。類腦決控系統(tǒng)以深度神經(jīng)網(wǎng)絡(luò)為策略載體,以強(qiáng)化學(xué)習(xí)為訓(xùn)練手段,目前已經(jīng)能夠?qū)崿F(xiàn)多車道、交叉路口、環(huán)島、進(jìn)出匝道等諸多工況的自動(dòng)駕駛功能,正逐步邁向真實(shí)場(chǎng)景的實(shí)車測(cè)試驗(yàn)證。下一步發(fā)展趨勢(shì)主要在于如何提升策略訓(xùn)練效率與穩(wěn)定性、融合模型與數(shù)據(jù)驅(qū)動(dòng)策略更新。

        (4)當(dāng)前類腦學(xué)習(xí)型決控系統(tǒng)的實(shí)車應(yīng)用仍面臨安全性和泛化性等方面的諸多挑戰(zhàn)。安全性是現(xiàn)階段制約類腦決控實(shí)車應(yīng)用的主要原因,典型的強(qiáng)化學(xué)習(xí)方法面對(duì)安全約束,均難以實(shí)現(xiàn)零約束違反。安全強(qiáng)化學(xué)習(xí)方法顯式考慮安全約束,在保證約束滿足的前提下最大化期望累積回報(bào),能夠從理論上保證策略的安全性,是目前值得攻關(guān)的重點(diǎn)子領(lǐng)域。對(duì)泛化性能的要求體現(xiàn)在面對(duì)不同場(chǎng)景以及擾動(dòng)時(shí),類腦學(xué)習(xí)策略應(yīng)當(dāng)能夠保持合理的決控智能水平,而當(dāng)前算法表現(xiàn)通常不夠理想。采用對(duì)抗學(xué)習(xí)等技術(shù)并進(jìn)行大規(guī)模多場(chǎng)景訓(xùn)練,有望增強(qiáng)類腦學(xué)習(xí)的泛化性能,實(shí)現(xiàn)更可靠的自動(dòng)駕駛決控??傮w而言,下一步發(fā)展趨勢(shì)在于如何減少狀態(tài)約束違反、保障在線安全探索以及增強(qiáng)環(huán)境泛化能力,同時(shí)通過(guò)車云協(xié)同閉環(huán)訓(xùn)練實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的閉環(huán)進(jìn)化,逐步增強(qiáng)自動(dòng)駕駛汽車的智能性,破解稀有交通場(chǎng)景的行車安全困局。

        猜你喜歡
        策略
        基于“選—練—評(píng)”一體化的二輪復(fù)習(xí)策略
        幾何創(chuàng)新題的處理策略
        求初相φ的常見(jiàn)策略
        例談未知角三角函數(shù)值的求解策略
        我說(shuō)你做講策略
        “我說(shuō)你做”講策略
        數(shù)據(jù)分析中的避錯(cuò)策略
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        “唱反調(diào)”的策略
        幸福(2017年18期)2018-01-03 06:34:53
        價(jià)格調(diào)整 講策略求互動(dòng)
        国产精品亚洲一区二区在线观看| 亚洲性日韩一区二区三区| 日本伦理精品一区二区三区| 国内成+人 亚洲+欧美+综合在线 | 成人亚洲一区二区三区在线| 亚洲有码转帖| 中文字幕亚洲无线码a| 国产一区三区二区视频在线观看 | 风韵丰满熟妇啪啪区老熟熟女| 男女下面进入的视频| 在线观看亚洲精品国产| 亚洲一区免费视频看看| 丁香婷婷激情综合俺也去| 人妻无码久久一区二区三区免费| 综合久久久久6亚洲综合| 一区视频免费观看播放| 亚洲熟妇久久精品| 国产成人亚洲不卡在线观看 | 亚洲国产精品嫩草影院久久| 国产大学生自拍三级视频| 国产自拍精品一区在线观看| 色屁屁www影院免费观看入口| 1精品啪国产在线观看免费牛牛| 麻豆成年人视频在线观看| 国产精品久久久久久| 欧美最猛黑人xxxxx猛交| 国产一区二区三区亚洲天堂| 国产精品国产av一区二区三区| 99久久精品国产一区二区三区| 国产91色在线|亚洲| 亚洲成人av在线播放不卡 | 男女搞事在线观看视频| 欧美成人在线视频| 国产亚洲精品成人无码精品网站| 国产免费一区二区三区三| 无码专区亚洲综合另类| 婷婷开心深爱五月天播播| 99久久免费中文字幕精品| 国产欧美综合一区二区三区| 成av人片一区二区三区久久| 欧美日韩一二三区高在线|