亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于場(chǎng)景動(dòng)力學(xué)和強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛邊緣測(cè)試場(chǎng)景生成方法*

        2022-08-04 07:19:34李江坤鄧偉文任秉韜王文奇
        汽車(chē)工程 2022年7期
        關(guān)鍵詞:主車(chē)測(cè)系統(tǒng)邊緣

        李江坤,鄧偉文,任秉韜,王文奇,丁 娟

        (1. 北京航空航天大學(xué)交通科學(xué)與工程學(xué)院,北京 100191;2. 浙江天行健智能科技有限公司,嘉興 314000)

        前言

        汽車(chē)智能化是汽車(chē)行業(yè)未來(lái)發(fā)展的重要方向,因其在緩解交通擁堵、提升道路安全方面的巨大優(yōu)勢(shì)已引起政府、行業(yè)和科研機(jī)構(gòu)的廣泛關(guān)注。由于真實(shí)世界場(chǎng)景具有無(wú)限豐富、難以預(yù)測(cè)、強(qiáng)不確定性的特征,使基于人工智能的智能駕駛技術(shù)在實(shí)際場(chǎng)景應(yīng)用中不斷呈現(xiàn)脆弱性,導(dǎo)致Waymo、Tesla、Uber 和蔚來(lái)等智能駕駛汽車(chē)事故頻發(fā)。因此如何解決小概率、高風(fēng)險(xiǎn)邊緣測(cè)試場(chǎng)景的長(zhǎng)尾問(wèn)題成為自動(dòng)駕駛測(cè)試驗(yàn)證的關(guān)鍵技術(shù)挑戰(zhàn)。

        智能駕駛系統(tǒng)由感知模塊、決策規(guī)劃模塊和執(zhí)行功能模塊組成。任何功能模塊失效都有可能導(dǎo)致車(chē)輛發(fā)生安全事故。道路測(cè)試是目前主要的測(cè)試手段。在安全員的監(jiān)管下,智能駕駛系統(tǒng)在法律規(guī)定的開(kāi)放道路上進(jìn)行實(shí)車(chē)測(cè)試。真實(shí)的道路場(chǎng)景兼顧了以上方面,能夠?qū)崿F(xiàn)軟硬件一體化測(cè)試,但是也面臨著測(cè)試不充分的問(wèn)題,主要體現(xiàn)在兩個(gè)方面:(1)當(dāng)車(chē)輛面臨危險(xiǎn)時(shí),安全員會(huì)第一時(shí)間接管車(chē)輛來(lái)保證絕對(duì)安全,導(dǎo)致無(wú)法測(cè)試系統(tǒng)在極端工況下的性能表現(xiàn);(2)小概率邊緣場(chǎng)景的稀疏樣本問(wèn)題。

        邊緣場(chǎng)景是邏輯場(chǎng)景參數(shù)空間中介于碰撞危險(xiǎn)和安全邊界附近區(qū)域的場(chǎng)景集合,具有小概率、高風(fēng)險(xiǎn)的特點(diǎn),能夠加速測(cè)試自動(dòng)駕駛系統(tǒng)的能力邊界。以真實(shí)世界中頻繁發(fā)生的典型切入場(chǎng)景為例,高危險(xiǎn)、緊急突發(fā)的交通車(chē)切入干擾行為具有小概率發(fā)生特征,依托于現(xiàn)有示范區(qū)和開(kāi)放道路的測(cè)試效率低。因此基于仿真的邊緣場(chǎng)景自動(dòng)生成技術(shù)成為了自動(dòng)駕駛系統(tǒng)安全驗(yàn)證的關(guān)鍵。

        數(shù)字孿生仿真測(cè)試技術(shù)是一種融合實(shí)際場(chǎng)地與虛擬場(chǎng)景的高效測(cè)試手段,它不僅能解決邊緣場(chǎng)景測(cè)試不充分的問(wèn)題,還能提升測(cè)試效率實(shí)現(xiàn)加速測(cè)試。數(shù)字孿生的仿真測(cè)試打破了時(shí)空約束,可在仿真平臺(tái)中不受時(shí)間、場(chǎng)地的限制生成具有挑戰(zhàn)性的邊緣場(chǎng)景。建模過(guò)程中,首先連續(xù)場(chǎng)景被離散為有限個(gè)條件動(dòng)作組合,然后基于“條件-動(dòng)作”結(jié)構(gòu)對(duì)場(chǎng) 景 建 模。例 如Zhao 等使 用TTC(time to collision)作為切入場(chǎng)景中前車(chē)切入動(dòng)作的觸發(fā)條件,當(dāng)兩車(chē)之間的TTC 滿(mǎn)足閾值時(shí)前車(chē)按照固定的速度和換道路徑開(kāi)始換道。OpenScenario 標(biāo)準(zhǔn)中對(duì)場(chǎng)景的條件和動(dòng)作設(shè)計(jì)給出了詳細(xì)描述。該方法的優(yōu)勢(shì)在于將高度抽象的測(cè)試環(huán)境建模為能夠用數(shù)學(xué)公式描述的參數(shù)化場(chǎng)景。其中邊緣場(chǎng)景建模問(wèn)題可轉(zhuǎn)化為相應(yīng)優(yōu)化求解問(wèn)題,通過(guò)優(yōu)化搜索“條件-動(dòng)作”參數(shù)空間來(lái)不斷縮小測(cè)試過(guò)程中實(shí)際風(fēng)險(xiǎn)與預(yù)期風(fēng)險(xiǎn)之間的偏差。常用的優(yōu)化方法有貝葉斯優(yōu)化、模擬退火、粒子群優(yōu)化算法和強(qiáng)化學(xué)習(xí)。然而,這類(lèi)場(chǎng)景建模方法存在動(dòng)態(tài)交互不足的問(wèn)題,換道過(guò)程中交通車(chē)按照預(yù)定的速度行駛無(wú)法及時(shí)響應(yīng)被測(cè)系統(tǒng)的速度變化,與真實(shí)世界的復(fù)雜的交互博弈差別較大。

        考慮到真實(shí)場(chǎng)景中的各種外界輸入直接或間接地影響內(nèi)部狀態(tài)隨時(shí)間的變化規(guī)律,包括被測(cè)車(chē)狀態(tài)、交通流中車(chē)輛間的相互作用等,文中從場(chǎng)景動(dòng)力學(xué)角度研究場(chǎng)景中作用于參與物的力和參與物狀態(tài)關(guān)系變化規(guī)律的映射關(guān)系,力求準(zhǔn)確描述交通流中車(chē)輛的交互與動(dòng)態(tài)博弈行為。因此,本研究采用動(dòng)力學(xué)方程建立邏輯場(chǎng)景模型,并提出一種面向自動(dòng)駕駛加速測(cè)試的邊緣場(chǎng)景強(qiáng)化生成方法。場(chǎng)景動(dòng)力學(xué)系統(tǒng)描述狀態(tài)隨時(shí)間的動(dòng)態(tài)變化,能夠及時(shí)響應(yīng)被測(cè)系統(tǒng)的狀態(tài)變化,減少無(wú)效場(chǎng)景的生成。并引入強(qiáng)化學(xué)習(xí)理論來(lái)解決邊緣場(chǎng)景的優(yōu)化生成問(wèn)題。最后通過(guò)仿真驗(yàn)證所提出方法的有效性。該方法已應(yīng)用于團(tuán)隊(duì)自研的商業(yè)仿真軟件PanoSim,表明具有一定的工程應(yīng)用價(jià)值。

        1 生成方法框架

        將場(chǎng)景動(dòng)力學(xué)建模和強(qiáng)化學(xué)習(xí)方法相結(jié)合,提出一種基于場(chǎng)景動(dòng)力學(xué)的邊緣場(chǎng)景強(qiáng)化生成方法。如圖1 所示,整個(gè)方法分為場(chǎng)景動(dòng)力學(xué)建模和邊緣場(chǎng)景控制器建模兩大部分。

        圖1 基于場(chǎng)景動(dòng)力學(xué)的邊緣場(chǎng)景強(qiáng)化生成框架

        場(chǎng)景動(dòng)力學(xué)建模:隨時(shí)間動(dòng)態(tài)變化的場(chǎng)景被建模為由微分方程表達(dá)的場(chǎng)景動(dòng)力學(xué)系統(tǒng)?=(,,)。由于場(chǎng)景中的被測(cè)系統(tǒng)未知,無(wú)法基于形式化推導(dǎo)建立準(zhǔn)確的場(chǎng)景數(shù)學(xué)表達(dá)模型,因此將場(chǎng)景動(dòng)力學(xué)系統(tǒng)建模為一個(gè)黑箱函數(shù)。本研究?jī)H關(guān)注場(chǎng)景輸入對(duì)被測(cè)系統(tǒng)的影響,即與場(chǎng)景評(píng)價(jià)目標(biāo)的差值。常見(jiàn)的場(chǎng)景評(píng)價(jià)指標(biāo)有場(chǎng)景危險(xiǎn)度、場(chǎng)景復(fù)雜度和場(chǎng)景無(wú)序度等。

        最后基于強(qiáng)化學(xué)習(xí)算法構(gòu)建邊緣場(chǎng)景控制器,目標(biāo)是找到一組能夠刺激被測(cè)系統(tǒng)產(chǎn)生緊急制動(dòng)行為的邊緣場(chǎng)景。強(qiáng)化學(xué)習(xí)部分著重介紹基于DDPG算法設(shè)計(jì)邊緣場(chǎng)景控制器的應(yīng)用示例,主要包含DDPG算法、獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)和網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)3個(gè)模塊。

        2 場(chǎng)景動(dòng)力學(xué)建模

        2.1 場(chǎng)景動(dòng)力學(xué)系統(tǒng)描述

        真實(shí)世界場(chǎng)景是一個(gè)隨時(shí)間變化的復(fù)雜動(dòng)態(tài)系統(tǒng),具有不可預(yù)測(cè)、不可窮盡的特征。場(chǎng)景中的道路網(wǎng)絡(luò)和交通規(guī)則是靜態(tài)結(jié)構(gòu),不會(huì)隨時(shí)間變化,可以通過(guò)組合的方式生成。相反,場(chǎng)景交通是一個(gè)隨時(shí)間變化的動(dòng)態(tài)系統(tǒng),交通參與者的運(yùn)動(dòng)組合具有無(wú)窮多種,基于離散事件組合生成方法無(wú)法窮盡所有的參數(shù)組合,且伴隨大量無(wú)效組合場(chǎng)景生成。因此,本研究受到微觀(guān)交通流建模方法的啟發(fā),從微觀(guān)建模的角度,在考慮場(chǎng)景靜態(tài)結(jié)構(gòu)的影響下,基于交通參與者個(gè)體的運(yùn)動(dòng)建模方法建立場(chǎng)景動(dòng)力學(xué)模型。

        場(chǎng)景的狀態(tài)方程可描述為如下的時(shí)變非線(xiàn)性系統(tǒng):

        式中:(·)為系統(tǒng)微分函數(shù),描述系統(tǒng)狀態(tài)的動(dòng)態(tài)行為變化規(guī)律,綜合反映了靜態(tài)場(chǎng)地、交通設(shè)施、天氣條件和其他交通參與者對(duì)交通參與者個(gè)體行為變化的影響;為場(chǎng)景靜態(tài)參數(shù),包含道路結(jié)構(gòu)、氣象條件和交通設(shè)施等;為系統(tǒng)狀態(tài)變量,是完整描述系統(tǒng)運(yùn)動(dòng)狀態(tài)的數(shù)量最小的一組變量。狀態(tài)變量可以是交通參與者的位置、速度和加速度等物理量。狀態(tài)變量的選取較為自由,可以根據(jù)建模需求選定。例如,被測(cè)系統(tǒng)對(duì)交通車(chē)的擾動(dòng)能夠驅(qū)使系統(tǒng)狀態(tài)發(fā)生轉(zhuǎn)變,因此兩車(chē)的相對(duì)運(yùn)動(dòng)狀態(tài)(相對(duì)距離、相對(duì)速度)可以作為系統(tǒng)的狀態(tài)量;為系統(tǒng)輸入量,是驅(qū)動(dòng)場(chǎng)景系統(tǒng)動(dòng)態(tài)變化的主要驅(qū)動(dòng)力,例如高速公路直道跟馳場(chǎng)景中,交通車(chē)的縱向驅(qū)動(dòng)力是場(chǎng)景動(dòng)態(tài)變化的主要驅(qū)動(dòng)力;為系統(tǒng)輸出量。場(chǎng)景評(píng)價(jià)量化信息是重要的系統(tǒng)輸出量,用于指導(dǎo)場(chǎng)景的優(yōu)化搜索方向。例如,場(chǎng)景復(fù)雜度、場(chǎng)景無(wú)序度、場(chǎng)景危險(xiǎn)度等量化指標(biāo)。TTC、THW(time headway)和緊急制動(dòng)強(qiáng)度等是常用的場(chǎng)景危險(xiǎn)度的量化指標(biāo)。

        2.2 場(chǎng)景動(dòng)力學(xué)建模過(guò)程

        圖2 為典型的切入場(chǎng)景。場(chǎng)景可以分為3 個(gè)階段“直行-換道-直行”。場(chǎng)景初始時(shí)刻交通車(chē)位于被測(cè)系統(tǒng)后方,首先交通車(chē)直行超越被測(cè)系統(tǒng),然后當(dāng)滿(mǎn)足切入條件時(shí)執(zhí)行換道切入動(dòng)作,最后完成換道繼續(xù)直行。交通車(chē)的換道切入動(dòng)作侵占了被測(cè)系統(tǒng)的行駛空間,極易引發(fā)追尾碰撞事故,是典型的邊緣場(chǎng)景。本文中以圖2為例介紹場(chǎng)景動(dòng)力學(xué)模型的建立過(guò)程。

        圖2 基于固定切入點(diǎn)的場(chǎng)景參數(shù)化模型

        場(chǎng)景靜態(tài)參數(shù)描述了場(chǎng)景的空間結(jié)構(gòu)、天氣條件、交通規(guī)則,它不隨時(shí)間變化,可以作為場(chǎng)景的初始預(yù)定義參數(shù)。如圖2 所示,本文暫未考慮天氣條件和交通設(shè)施的影響,假設(shè)車(chē)輛沿著固定路徑行駛,因此場(chǎng)景靜態(tài)參數(shù)被簡(jiǎn)化為一個(gè)固定的路徑。

        基于固定切入點(diǎn)的優(yōu)勢(shì)在于換道過(guò)程中的曲線(xiàn)軌跡固定不變,可以通過(guò)調(diào)節(jié)第一段直行路徑的長(zhǎng)度和兩車(chē)的速度來(lái)模擬各種工況下的切入行為,從而將交通車(chē)的橫縱向運(yùn)動(dòng)控制簡(jiǎn)化為簡(jiǎn)單的循跡運(yùn)動(dòng)控制。

        狀態(tài)變量主要從位置信息和速度信息兩大類(lèi)中選取。具體選取結(jié)果為

        式中:為交通車(chē)到切入點(diǎn)的距離,m;為交通車(chē)的車(chē)頭速度,m/s;為兩車(chē)的縱向相對(duì)距離,交通車(chē)相對(duì)被測(cè)系統(tǒng)位置在前為負(fù),在后為正,m;為被測(cè)系統(tǒng)的車(chē)頭速度,m/s。因此是一個(gè)5 維的狀態(tài)變量。

        因?yàn)榻煌ㄜ?chē)沿固定路徑行駛,因此系統(tǒng)的輸入量是交通車(chē)的縱向驅(qū)動(dòng)力,即

        車(chē)輛行駛過(guò)程中,除道路結(jié)構(gòu)和交通設(shè)施的影響,車(chē)輛的速度波動(dòng)多來(lái)自于周?chē)煌ㄜ?chē)的干擾。車(chē)輛制動(dòng)加速度能客觀(guān)反映場(chǎng)景的危險(xiǎn)程度。場(chǎng)景越危險(xiǎn),系統(tǒng)反應(yīng)時(shí)間越短,緊急制動(dòng)加速度越大。因此本研究選取被測(cè)系統(tǒng)緊急制動(dòng)加速度作為場(chǎng)景邊緣屬性量化指標(biāo),即系統(tǒng)的輸出量為

        式中為比例系數(shù)。

        綜上所述,典型切入場(chǎng)景的狀態(tài)方程為

        式中:為系統(tǒng)的狀態(tài)矩陣,反映了系統(tǒng)內(nèi)部各狀態(tài)變量之間的耦合關(guān)系;為輸入矩陣,反映輸入量是如何影響各狀態(tài)變量;為輸出矩陣,表明狀態(tài)變量到輸出的轉(zhuǎn)換關(guān)系。因被測(cè)系統(tǒng)的控制策略未知,是場(chǎng)景中的不可控元素,故難以給出明確的、矩陣。目前在場(chǎng)景生成過(guò)程中,研究人員多沿襲先進(jìn)駕駛員輔助系統(tǒng)(ADAS)邏輯場(chǎng)景的構(gòu)建方法,通過(guò)預(yù)定義主車(chē)的行為或軌跡來(lái)近似建模。然而高級(jí)別的智能駕駛系統(tǒng)行為變化復(fù)雜,難以建立明確的系統(tǒng)數(shù)學(xué)模型,且過(guò)度簡(jiǎn)化會(huì)丟失系統(tǒng)關(guān)鍵的動(dòng)態(tài)特性,最后當(dāng)被測(cè)主車(chē)與預(yù)期行為不一致時(shí)也會(huì)造成測(cè)試失效。

        基于以上分析,本研究忽略場(chǎng)景元素之間復(fù)雜的耦合關(guān)系,僅關(guān)注場(chǎng)景輸入和輸出的映射關(guān)系,將場(chǎng)景動(dòng)力學(xué)系統(tǒng)描述為一個(gè)黑盒函數(shù),即

        式中F為場(chǎng)景黑盒函數(shù)。

        考慮到神經(jīng)網(wǎng)絡(luò)強(qiáng)大的黑盒建模能力,本研究基于強(qiáng)化學(xué)習(xí)方法構(gòu)建邊緣場(chǎng)景控制器,借助神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)輸入到輸出的映射關(guān)系建模。生成的邊緣場(chǎng)景模型結(jié)構(gòu)為神經(jīng)網(wǎng)絡(luò),整個(gè)訓(xùn)練過(guò)程中滿(mǎn)足需求的網(wǎng)絡(luò)權(quán)重會(huì)被保存到邊緣場(chǎng)景庫(kù)中。

        表1 中詳細(xì)地示出3 種典型工況場(chǎng)景的狀態(tài)變量選取方法。其中,跟馳場(chǎng)景中狀態(tài)變量的選取主要考慮兩車(chē)的速度、相對(duì)距離和加速度信息;不規(guī)則切入場(chǎng)景中除要考慮速度和距離信息外,還須關(guān)注交通車(chē)到?jīng)_突點(diǎn)的距離和兩車(chē)通過(guò)沖突點(diǎn)的時(shí)間差?;在復(fù)雜的多車(chē)換道場(chǎng)景中,還須考慮主車(chē)的航向角和橫向剩余換道距離。表1 中的3種場(chǎng)景簡(jiǎn)化了交通車(chē)運(yùn)動(dòng)僅考慮車(chē)輛的縱向運(yùn)動(dòng),因此系統(tǒng)輸入量為縱向驅(qū)動(dòng)力,與車(chē)輛的加速度成正比。在多車(chē)換道場(chǎng)景中,兩輛交通車(chē)協(xié)同運(yùn)行,系統(tǒng)輸入量是兩車(chē)縱向驅(qū)動(dòng)力的2維向量。

        表1 典型工況場(chǎng)景變量選取過(guò)程

        3 基于DDPG 算法的邊緣場(chǎng)景控制器構(gòu)建

        3.1 基于馬爾可夫決策過(guò)程的問(wèn)題建立

        真實(shí)測(cè)試場(chǎng)景中,車(chē)輛下一個(gè)狀態(tài)決策不僅與當(dāng)前狀態(tài)有關(guān),還和歷史狀態(tài)有關(guān)。為簡(jiǎn)化模型,本研究假設(shè)交通車(chē)與被測(cè)系統(tǒng)的動(dòng)態(tài)交互過(guò)程滿(mǎn)足馬爾科夫?qū)傩裕瑢⑦吘増?chǎng)景控制器建模問(wèn)題構(gòu)造為馬爾可夫決策過(guò)程(Markov decision process,MDP),即下一個(gè)狀態(tài)僅與當(dāng)前的狀態(tài)和動(dòng)作有關(guān),表示為

        式中:為強(qiáng)化學(xué)習(xí)模型的觀(guān)測(cè)狀態(tài),場(chǎng)景動(dòng)力學(xué)模型的觀(guān)測(cè)量()和輸入()都是強(qiáng)化學(xué)習(xí)模型的狀態(tài)空間,=[(),()];為強(qiáng)化學(xué)習(xí)模型的動(dòng)作空間,輸出下一時(shí)刻交通車(chē)的動(dòng)作;(,)為描述環(huán)境狀態(tài)轉(zhuǎn)換的概率模型,表示在狀態(tài)下對(duì)智能體采取動(dòng)作轉(zhuǎn)到下一個(gè)狀態(tài)的概率;(|)為個(gè)體策略,在狀態(tài)時(shí)采取動(dòng)作的概率,場(chǎng)景模型函數(shù)=(|);(,)為環(huán)境獎(jiǎng)勵(lì),表示交通車(chē)從狀態(tài)轉(zhuǎn)換到狀態(tài)后收到的即時(shí)獎(jiǎng)勵(lì)。

        基于強(qiáng)化學(xué)習(xí)的策略=(|)求解原理如圖3 所示。策略是具有可調(diào)參數(shù)的函數(shù)逼近器,例如深度神經(jīng)網(wǎng)絡(luò)。學(xué)習(xí)算法基于狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)不斷更新策略參數(shù)。

        圖3 強(qiáng)化學(xué)習(xí)方法原理

        3.2 深度確定性策略梯度算法

        本研究受到谷歌DeepMind 團(tuán)隊(duì)研究的啟發(fā),將深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法應(yīng)用到交通車(chē)的連續(xù)動(dòng)作控制中。DDPG 是一種基于Actor-Critic 網(wǎng)絡(luò)框架的無(wú)模型、離線(xiàn)策略強(qiáng)化學(xué)習(xí)方法,能夠很好處理連續(xù)動(dòng)作空間的輸出問(wèn)題,在自動(dòng)駕駛控制領(lǐng)域應(yīng)用廣泛。

        DDPG 算法主要由基于策略的Actor 網(wǎng)絡(luò)和基于價(jià)值Critic 網(wǎng)絡(luò)兩部分組成,Actor 網(wǎng)絡(luò)根據(jù)環(huán)境狀態(tài)觀(guān)測(cè)信息產(chǎn)生連續(xù)動(dòng)作,Critic 網(wǎng)絡(luò)是對(duì)Actor網(wǎng)絡(luò)輸出動(dòng)作的評(píng)價(jià),主要根據(jù)環(huán)境狀態(tài)信息、獎(jiǎng)勵(lì)等參數(shù)更新網(wǎng)絡(luò)。為解決訓(xùn)練-樣本強(qiáng)相關(guān)性的問(wèn)題,Actor、Critic網(wǎng)絡(luò)均采用off-policy方式訓(xùn)練,即有兩個(gè)網(wǎng)絡(luò)結(jié)構(gòu)完全一致的在線(xiàn)網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)。

        DDPG算法整體框架如圖4所示,智能體從環(huán)境中獲取當(dāng)前的狀態(tài),然后由在線(xiàn)策略網(wǎng)絡(luò)計(jì)算得到智能體對(duì)應(yīng)動(dòng)作,接著對(duì)環(huán)境實(shí)施動(dòng)作得到獎(jiǎng)勵(lì)和新的狀態(tài)′,并將上述要素組成新的四元組{,,,}存入經(jīng)驗(yàn)回放池,并構(gòu)建如式(8)所示的均方差損失函數(shù),通過(guò)神經(jīng)網(wǎng)絡(luò)梯度反向傳播更新在線(xiàn)網(wǎng)絡(luò)的參數(shù)。

        圖4 深度確定性策略梯度算法框架

        在線(xiàn)網(wǎng)絡(luò)用于更新在線(xiàn)策略網(wǎng)絡(luò)參數(shù),其梯度表達(dá)式為

        DDPG 目標(biāo)網(wǎng)絡(luò)的參數(shù)更新采用一種軟更新的方法,即每次參數(shù)值更新較小幅度,即

        式中為更新系數(shù),取值一般較小,如0.1或0.01。

        3.3 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)

        考慮到環(huán)境狀態(tài)的輸入變量空間規(guī)模較小,研究中首先選用簡(jiǎn)單、高效的4 層全連接網(wǎng)絡(luò),從狀態(tài)中充分挖掘場(chǎng)景信息背后隱藏的運(yùn)動(dòng)規(guī)律,在滿(mǎn)足任務(wù)需求的前提下還能提高訓(xùn)練速度,Actor 網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示。為提高模型的收斂速度,在全連接層之間采用ReLU 激活函數(shù),最后通過(guò)縮放層對(duì)輸出進(jìn)行線(xiàn)性縮放和偏置,此處采用tanh 激活函數(shù)為加速度提供有界輸出。

        圖5 Actor網(wǎng)絡(luò)結(jié)構(gòu)

        Critic 網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示。環(huán)境狀態(tài)通過(guò)2層的全連接層處理后與經(jīng)過(guò)1 層全連接層處理的動(dòng)作取和,然后在經(jīng)過(guò)2 層的全連接層處理得到值。全連接層之間都采用ReLU激活函數(shù)。

        圖6 Critic網(wǎng)絡(luò)結(jié)構(gòu)

        3.4 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

        獎(jiǎng)勵(lì)函數(shù)是強(qiáng)化學(xué)習(xí)的重要組成元素,其設(shè)計(jì)直接影響智能體學(xué)習(xí)、進(jìn)化的方向,是強(qiáng)化學(xué)習(xí)算法訓(xùn)練成功的關(guān)鍵。為使生成的邊緣場(chǎng)景兼顧危險(xiǎn)性和合理性,本文中從對(duì)抗獎(jiǎng)勵(lì)和不合理碰撞獎(jiǎng)勵(lì)兩方面來(lái)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。對(duì)抗性獎(jiǎng)勵(lì)是為提高交通車(chē)對(duì)邊緣場(chǎng)景的探索能力,不合理碰撞獎(jiǎng)勵(lì)是為約束交通車(chē)動(dòng)作的合規(guī)性,提高生成場(chǎng)景的合理性。

        除因道路結(jié)構(gòu)限制導(dǎo)致的車(chē)輛減速行為外,智能駕駛系統(tǒng)行駛過(guò)程中的大幅制動(dòng)多源于其他交通參與者的影響。例如行駛過(guò)程中前車(chē)緊急制動(dòng),或鄰車(chē)近距離切入都會(huì)導(dǎo)致車(chē)輛采取緊急制動(dòng)避障行為。制動(dòng)強(qiáng)度越大說(shuō)明交通車(chē)的影響越大,場(chǎng)景越具有挑戰(zhàn)性。因此被測(cè)系統(tǒng)緊急制動(dòng)過(guò)程中的制動(dòng)加速度可以量化智能體的對(duì)抗性獎(jiǎng)勵(lì)。對(duì)抗性獎(jiǎng)勵(lì)可表示為

        當(dāng)智能體在一個(gè)周期內(nèi)未觸發(fā)被測(cè)系統(tǒng)緊急制動(dòng)行為時(shí)被認(rèn)為探索失敗,須返回一個(gè)負(fù)獎(jiǎng)勵(lì)。探索失敗獎(jiǎng)勵(lì)的表達(dá)見(jiàn)式(12):

        式中為常數(shù),通過(guò)仿真調(diào)參選取具體值。

        雖然本文鼓勵(lì)碰撞事故發(fā)生,但是更關(guān)心被測(cè)系統(tǒng)導(dǎo)致的碰撞事故,因此要減小由交通車(chē)不合理行為導(dǎo)致的碰撞事故。例如交通車(chē)切入過(guò)程中的追尾事故、被測(cè)系統(tǒng)正常行駛過(guò)程中被追尾或交通車(chē)近距離切入導(dǎo)致智能駕駛系統(tǒng)來(lái)不及反應(yīng)去規(guī)避碰撞事故。這些都是不合理碰撞場(chǎng)景,應(yīng)該通過(guò)獎(jiǎng)勵(lì)函數(shù)引導(dǎo)智能體的探索方向,減少此類(lèi)場(chǎng)景的產(chǎn)生。不合理碰撞獎(jiǎng)勵(lì)的表示見(jiàn)式(13):

        式中為常數(shù),通過(guò)仿真調(diào)參選取具體值。

        最終獎(jiǎng)勵(lì)函數(shù)為

        式中、、為各項(xiàng)獎(jiǎng)勵(lì)的權(quán)重系數(shù),通過(guò)仿真調(diào)參獲取最終值。

        4 驗(yàn)證與分析

        本研究設(shè)計(jì)了兩個(gè)典型場(chǎng)景示例,以驗(yàn)證所提出的方法。

        4.1 智能駕駛策略(被測(cè)系統(tǒng))

        被測(cè)系統(tǒng)基于智能駕駛員模型實(shí)現(xiàn)沿路行駛。當(dāng)相鄰交通車(chē)的車(chē)身在地面上的投影落入自車(chē)前面車(chē)道便被視為前車(chē)。智能駕駛員模型(intelligent driving model,IDM)是典型的跟馳模型。該模型描述了在駕駛員追求期望車(chē)速的心理作用下車(chē)輛的速度和加速度變化規(guī)律,同時(shí)前車(chē)對(duì)車(chē)輛的運(yùn)動(dòng)變化構(gòu)成障礙。智能駕駛模型公式為

        4.2 DDPG模型基本參數(shù)設(shè)定

        DDPG 的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練參數(shù)如表2 和表3 所示。訓(xùn)練過(guò)程中每次訓(xùn)練的周期為30 s,采樣步長(zhǎng)為0.1 s,最大訓(xùn)練次數(shù)為5 000 次。對(duì)于每一次訓(xùn)練,當(dāng)車(chē)輛發(fā)生碰撞,或訓(xùn)練時(shí)間超過(guò)30 s,或最大行駛距離超過(guò)80 m 時(shí),結(jié)束此次訓(xùn)練,并開(kāi)始新一次的訓(xùn)練。

        表2 DDPG網(wǎng)絡(luò)結(jié)構(gòu)

        表3 DDPG網(wǎng)絡(luò)訓(xùn)練參數(shù)

        強(qiáng)化學(xué)習(xí)模型的狀態(tài)空間和動(dòng)作空間須分別根據(jù)場(chǎng)景動(dòng)力學(xué)模型的狀態(tài)變量和輸入變量具體設(shè)計(jì)。

        4.3 典型切入場(chǎng)景示例

        4.3.1 實(shí)驗(yàn)參數(shù)

        狀態(tài)空間=[,,,,],動(dòng)作空間=,獎(jiǎng)勵(lì)函數(shù)式(12)~式(14)中的參數(shù)取值為= 1,= 1,= 10,= 20,= 20。

        4.3.2 分析與討論

        針對(duì)離散獎(jiǎng)勵(lì),獎(jiǎng)勵(lì)平滑處理以后(平均窗口長(zhǎng)度為300),整個(gè)訓(xùn)練過(guò)程的獎(jiǎng)勵(lì)變化曲線(xiàn)如圖7 所示。經(jīng)過(guò)1 500次的訓(xùn)練獎(jiǎng)勵(lì)值逐漸穩(wěn)定,說(shuō)明強(qiáng)化學(xué)習(xí)模型收斂。

        圖7 每個(gè)Episode平均累積獎(jiǎng)勵(lì)變化曲線(xiàn)

        訓(xùn)練過(guò)程中緊急制動(dòng)次數(shù)的變化如圖8 所示,訓(xùn)練次數(shù)按照500 間隔被分為10 組。可以看出,當(dāng)訓(xùn)練在1 500次附近后,智能駕駛系統(tǒng)的緊急制動(dòng)次數(shù)穩(wěn)定在400左右,即測(cè)試成功率為400/500 = 80%,這與基于平均累計(jì)獎(jiǎng)勵(lì)變化曲線(xiàn)的分析結(jié)論一致。

        圖8 系統(tǒng)緊急制動(dòng)次數(shù)變化

        與強(qiáng)化學(xué)習(xí)在優(yōu)化求解領(lǐng)域的應(yīng)用不同,本研究的目標(biāo)不是找到一個(gè)最危險(xiǎn)的邊緣場(chǎng)景,而是希望找到盡可能多的邊緣場(chǎng)景。由強(qiáng)化學(xué)習(xí)最優(yōu)求解的特性可知,繼續(xù)訓(xùn)練得到的都是同質(zhì)化的場(chǎng)景,無(wú)法提升場(chǎng)景的多樣性。因此,當(dāng)強(qiáng)化學(xué)習(xí)訓(xùn)練收斂時(shí),可以通過(guò)增加模型探索能力,來(lái)提高生成場(chǎng)景的多樣性。未來(lái)研究中,將考慮引入動(dòng)態(tài)探索系數(shù)來(lái)提高場(chǎng)景多樣性。

        通過(guò)一個(gè)具體的測(cè)試場(chǎng)景來(lái)說(shuō)明該方法在動(dòng)態(tài)交互博弈方面的優(yōu)勢(shì)。訓(xùn)練過(guò)程中,兩車(chē)的速度-相對(duì)位置變化如圖9 所示。首先基于兩車(chē)的相對(duì)距離可將兩車(chē)的位置關(guān)系分為交通車(chē)相對(duì)位置在后和相對(duì)位置在前兩種。

        圖9 速度-相對(duì)距離變化曲線(xiàn)

        交通車(chē)相對(duì)位置在后時(shí),速度呈現(xiàn)出一種波動(dòng)增加的趨勢(shì),這增加了智能駕駛系統(tǒng)對(duì)周?chē)煌ㄜ?chē)速度、未來(lái)運(yùn)動(dòng)趨勢(shì)預(yù)測(cè)的難度。交通車(chē)相對(duì)位置在前時(shí),交通車(chē)運(yùn)動(dòng)狀態(tài)是先減速直行后加速切入,交通車(chē)先減速縮小兩車(chē)的相對(duì)距離,然后在加速切入縮短主車(chē)車(chē)道的時(shí)間,從而提高被測(cè)系統(tǒng)的緊急制動(dòng)可能性。由此表明強(qiáng)化生成的交通車(chē)能夠通過(guò)對(duì)抗性博弈訓(xùn)練更高效地找到被測(cè)系統(tǒng)決策規(guī)劃的安全漏洞。

        經(jīng)過(guò)仿真統(tǒng)計(jì),測(cè)試過(guò)程中智能駕駛系統(tǒng)的制動(dòng)加速度分布區(qū)間為[ - 5.5,- 3.5]m s,然后按照0.25 m/s的間隔得到8 組加速度,加速度出現(xiàn)頻次占比分布如圖10所示。由圖可見(jiàn),加速度的分布較均勻,最大占比和最小占比的極差為5.941 個(gè)百分點(diǎn),這說(shuō)明本文提出的方法能夠有效覆蓋各種測(cè)試工況。

        圖10 智能駕駛系統(tǒng)緊急制動(dòng)加速度分布圖

        4.4 不規(guī)則切入場(chǎng)景示例

        4.4.1 場(chǎng)景描述

        場(chǎng)景中交通車(chē)的運(yùn)動(dòng)軌跡由多段曲線(xiàn)組合而成,為更加貼近真實(shí)駕駛場(chǎng)景,本研究將交通車(chē)的切入干擾運(yùn)動(dòng)過(guò)程抽象為試探切入-安全駛離-最終切入3 個(gè)階段,如圖11 所示。相鄰車(chē)輛換道切入時(shí)會(huì)存在試探行為,在試探切入過(guò)程中交通車(chē)如發(fā)現(xiàn)存在安全風(fēng)險(xiǎn),會(huì)終止試探行為,并安全駛離目標(biāo)車(chē)道,然后等待合適的時(shí)機(jī)再繼續(xù)最終切入。

        圖11 不規(guī)則切入場(chǎng)景

        4.4.2 實(shí)驗(yàn)參數(shù)

        表1 示出場(chǎng)景的狀態(tài)變量和輸入變量選取方法 。因此強(qiáng)化學(xué)習(xí)狀態(tài)空間=[,,[,,],[Δ,Δ,Δ]],動(dòng)作空間=。獎(jiǎng)勵(lì)函數(shù)式(12)~式(14)中的參數(shù)取值為= 1,=1,= 10,= 20,= 20。

        4.4.3 分析與討論

        交通車(chē)與主車(chē)的博弈對(duì)抗過(guò)程如圖12 所示。圖中藍(lán)色曲線(xiàn)為交通車(chē)的運(yùn)動(dòng)路徑,兩車(chē)的速度、相對(duì)距離、主車(chē)的加速度信息以散點(diǎn)的形式呈現(xiàn)。

        由圖12(a)可見(jiàn),主車(chē)整個(gè)運(yùn)動(dòng)經(jīng)歷了加速-減速-加速-減速4 個(gè)過(guò)程。首次切入過(guò)程中,由圖12(d)可見(jiàn):兩車(chē)的相對(duì)距離小于5 m,主車(chē)減速避讓?zhuān)唤煌ㄜ?chē)駛離階段主車(chē)又加速行駛;在主車(chē)加速過(guò)程中,交通車(chē)的切入導(dǎo)致主車(chē)產(chǎn)生了緊急制動(dòng)行為。圖12(b)也全面展示了主車(chē)的加速度變化。

        圖12 交通車(chē)-主車(chē)博弈對(duì)抗過(guò)程

        在交通車(chē)駛離時(shí),主車(chē)激進(jìn)加速能保證行駛效率但會(huì)帶來(lái)安全隱患,主車(chē)過(guò)于保守能確保安全,但行駛效率低。該場(chǎng)景很好地考驗(yàn)了主車(chē)的綜合決策能力,為效率最優(yōu)和安全最優(yōu)之間的權(quán)衡決策提供了有效測(cè)試手段。不規(guī)則切入場(chǎng)景相比于固有勻速切入場(chǎng)景,能增強(qiáng)對(duì)車(chē)輛間交互能力的測(cè)試,貼合實(shí)際測(cè)試要求,其中交通車(chē)的速度過(guò)快或過(guò)慢都無(wú)法保證3 個(gè)階段在整體測(cè)試過(guò)程起作用。這表明本研究設(shè)計(jì)的基于DDPG 構(gòu)建的邊緣場(chǎng)景控制器為解決生成效率低和交互測(cè)試?yán)щy提供了一種有效途徑。

        4.5 基于PanoSim仿真平臺(tái)的測(cè)試應(yīng)用

        本研究提出的方法已在國(guó)產(chǎn)商業(yè)仿真軟件PanoSim 進(jìn)行驗(yàn)證。PanoSim 是由作者團(tuán)隊(duì)自主開(kāi)發(fā)的一款面向汽車(chē)自動(dòng)駕駛技術(shù)與產(chǎn)品研發(fā)的一體化仿真與測(cè)試平臺(tái),它集成了高精度車(chē)輛動(dòng)力學(xué)模型、高逼真汽車(chē)行駛環(huán)境與交通模型、車(chē)載環(huán)境傳感器模型和豐富的測(cè)試場(chǎng)景。作為國(guó)內(nèi)自主仿真平臺(tái)在第四屆世界智能駕駛挑戰(zhàn)賽(WIDC)中得到應(yīng)用。

        本文中選取PanoSim 軟件內(nèi)置的智能駕駛員模型作為測(cè)試對(duì)象,將生成的邊緣場(chǎng)景模型導(dǎo)入PanoSim軟件中驅(qū)動(dòng)交通車(chē)運(yùn)動(dòng),仿真結(jié)果顯示它能有效觸發(fā)被測(cè)對(duì)象的緊急避撞策略,實(shí)現(xiàn)危險(xiǎn)工況的自動(dòng)化生成和測(cè)試。圖13 展示了一個(gè)完整的測(cè)試過(guò)程,仿真初始時(shí)刻主車(chē)(灰色的SUV)和交通車(chē)(白色的轎車(chē))分別位于兩條車(chē)道上,交通車(chē)在主車(chē)的后方,然后交通車(chē)加速超過(guò)主車(chē),在超過(guò)主車(chē)一定距離后實(shí)施換道切入動(dòng)作,從而觸發(fā)主車(chē)的緊急制動(dòng)策略,完成測(cè)試。

        圖13 基于PanoSim的仿真測(cè)試過(guò)程

        測(cè)試過(guò)程中,主車(chē)的加速度變化曲線(xiàn)如圖14所示。在第15 s時(shí),主車(chē)開(kāi)始緊急制動(dòng),最大制動(dòng)減速度達(dá)到8.29 m/s,說(shuō)明該方法能有效生成極具挑戰(zhàn)性的邊緣場(chǎng)景,有助于發(fā)現(xiàn)系統(tǒng)的安全漏洞,提高測(cè)試效率。

        圖14 被測(cè)系統(tǒng)加速度變化

        仿真場(chǎng)景生成方法具有可重復(fù)性的優(yōu)勢(shì)。訓(xùn)練過(guò)程中所有緊急制動(dòng)場(chǎng)景對(duì)應(yīng)的網(wǎng)絡(luò)權(quán)重都被保存到邊緣場(chǎng)景庫(kù)中。測(cè)試階段僅須調(diào)用對(duì)應(yīng)的網(wǎng)絡(luò)權(quán)重即可復(fù)現(xiàn)測(cè)試場(chǎng)景。例如,當(dāng)智能系統(tǒng)算法工程師對(duì)算法進(jìn)行迭代升級(jí)后,通過(guò)調(diào)用邊緣場(chǎng)景庫(kù)中的網(wǎng)絡(luò)權(quán)重即可實(shí)現(xiàn)測(cè)試場(chǎng)景復(fù)現(xiàn),且場(chǎng)景中的交通車(chē)具備動(dòng)態(tài)交互能力,通過(guò)測(cè)試能發(fā)現(xiàn)新升級(jí)的算法是否具備應(yīng)對(duì)該邊緣場(chǎng)景的能力,從而提高測(cè)試效率。此外,強(qiáng)化學(xué)習(xí)只有在訓(xùn)練過(guò)程中需要大量計(jì)算資源,當(dāng)訓(xùn)練生成了目標(biāo)網(wǎng)絡(luò)策略后,調(diào)用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)無(wú)需耗費(fèi)大量的計(jì)算資源,能滿(mǎn)足車(chē)輛極限工況測(cè)試的實(shí)時(shí)性要求。

        5 結(jié)論與展望

        為解決自動(dòng)駕駛仿真測(cè)試中邊緣場(chǎng)景小概率、高風(fēng)險(xiǎn)的長(zhǎng)尾問(wèn)題,本文中提出一種基于場(chǎng)景動(dòng)力學(xué)的邊緣場(chǎng)景強(qiáng)化生成方法,提升快速測(cè)試能力。該方法首先為場(chǎng)景建立了由微分方程表達(dá)的動(dòng)力學(xué)系統(tǒng)模型,描述測(cè)試環(huán)境系統(tǒng)的狀態(tài)變化;然后將神經(jīng)網(wǎng)絡(luò)作為通用函數(shù)逼近器,基于強(qiáng)化學(xué)習(xí)構(gòu)造邊緣場(chǎng)景黑盒控制器。仿真測(cè)試結(jié)果表明,該方法能有效地提升邊緣場(chǎng)景的動(dòng)態(tài)博弈行為模擬、場(chǎng)景覆蓋率和可重復(fù)測(cè)試能力。當(dāng)前研究還存在邊緣特征提取不全、場(chǎng)景建模考慮因素不全面的問(wèn)題,未來(lái)將深入研究復(fù)雜場(chǎng)景的動(dòng)力學(xué)建模和屬性量化問(wèn)題。

        猜你喜歡
        主車(chē)測(cè)系統(tǒng)邊緣
        歐曼牽引車(chē)制動(dòng)系統(tǒng)異常的故障處理
        主車(chē)與掛車(chē)分別設(shè)立第三者責(zé)任保險(xiǎn)的賠償額如何確定
        山東青年(2017年7期)2018-01-11 16:09:15
        一張圖看懂邊緣計(jì)算
        防洪非工程措施設(shè)計(jì)實(shí)例——嘉興市水文巡測(cè)系統(tǒng)項(xiàng)目設(shè)計(jì)
        電快速瞬變脈沖群對(duì)核測(cè)系統(tǒng)的影響及對(duì)策
        基于廣域量測(cè)系統(tǒng)的電力系統(tǒng)綜合負(fù)荷辨識(shí)模型的研究
        三維標(biāo)測(cè)系統(tǒng)指導(dǎo)下射頻消融治療房顫的護(hù)理觀(guān)察
        在邊緣尋找自我
        雕塑(1999年2期)1999-06-28 05:01:42
        走在邊緣
        雕塑(1996年2期)1996-07-13 03:19:02
        邊緣藝術(shù)
        雕塑(1996年4期)1996-07-12 07:45:16
        亚洲国产人在线播放首页| 少妇被粗大进猛进出处故事| 日本一道综合久久aⅴ免费| 无码人妻精品一区二区三区不卡| 免费成人福利视频| av资源在线播放网站| 老熟女老女人国产老太| 欧美成人在线视频| 国产成人久久精品二区三区牛| 亚洲国产精品亚洲高清| 成人大片免费视频播放一级 | 少妇被粗大的猛烈进出免费视频| 欧美性猛交xxxx乱大交蜜桃| 亚洲无码美韩综合| 亚洲av香蕉一区二区三区av| 7m精品福利视频导航| 男人天堂网在线视频| 91精品国产乱码久久久| 亚洲乱码中文字幕在线播放 | 亚洲男同志gay 片可播放| 日本一区二区三区啪啪| 一区二区三区午夜视频在线| 成人做受视频试看60秒| 久久综合成人网| 日本成年少妇人妻中文字幕| 无码人妻久久一区二区三区免费丨| 国产呦系列呦交| 亚洲中文久久久久无码| 国产免费成人自拍视频| 日韩精品无码一本二本三本色| 久久久久亚洲av无码尤物| 亚洲老女人区一区二视频| 青青草成人在线免费视频| 国产精一品亚洲二区在线播放| 精品视频专区| 在线观看的a站免费完整版| 九色综合九色综合色鬼| 天天爽夜夜爽人人爽曰喷水| 日本一区二区高清视频在线| 内射中出日韩无国产剧情| 亚洲成a人v欧美综合天堂麻豆|