亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于駕駛行為生成機(jī)制的智能汽車類人行為決策*

        2022-12-27 08:24:40宋東鑒韓嘉懿劉彥辰
        汽車工程 2022年12期
        關(guān)鍵詞:類人車道預(yù)期

        宋東鑒,朱 冰,趙 健,韓嘉懿,劉彥辰

        (吉林大學(xué),汽車仿真與控制國(guó)家重點(diǎn)實(shí)驗(yàn)室,長(zhǎng)春 130022)

        前言

        隨著汽車智能化技術(shù)的不斷發(fā)展,如何使智能汽車決策規(guī)劃系統(tǒng)像人類駕駛員一樣駕駛車輛已成為一項(xiàng)重要的研究?jī)?nèi)容[1-2]。類人決策規(guī)劃能夠有效提高智能汽車的社會(huì)認(rèn)同度以及用戶信任度和接受度,降低由人機(jī)差異造成的事故風(fēng)險(xiǎn),對(duì)提高交通系統(tǒng)尤其是智能汽車與人工駕駛汽車并存的混合交通系統(tǒng)的安全性、協(xié)調(diào)性以及通行效率具有重要意義[3]。

        智能汽車的決策規(guī)劃又可進(jìn)一步劃分為行為決策和運(yùn)動(dòng)規(guī)劃,行為決策層基于環(huán)境信息輸出離散化的行為指令,例如車道保持(lane keeping,LK)、換道(lane changing,LC)以及加減速等;而運(yùn)動(dòng)規(guī)劃層負(fù)責(zé)在行為決策層的指導(dǎo)下給出行為指令對(duì)應(yīng)的具體運(yùn)動(dòng)軌跡。傳統(tǒng)的非數(shù)據(jù)驅(qū)動(dòng)行為決策方法包括有限狀態(tài)機(jī)(finite state machine,F(xiàn)SM)[4]、博弈論[5]、貝葉斯網(wǎng)絡(luò)決策[6]、模糊推理[7]等。該類方法依靠人工構(gòu)建規(guī)則、機(jī)理抽象或注入專家經(jīng)驗(yàn)等手段構(gòu)建具有良好可解釋性的經(jīng)驗(yàn)或半經(jīng)驗(yàn)策略,場(chǎng)景遍歷廣度高,但是對(duì)復(fù)雜場(chǎng)景理解深度不足,且先驗(yàn)知識(shí)難以有效覆蓋駕駛行為生成機(jī)制中蘊(yùn)含的隱式語(yǔ)義信息,在實(shí)現(xiàn)類人行為決策上存在原理性瓶頸。

        而數(shù)據(jù)驅(qū)動(dòng)方法以駕駛?cè)藬?shù)據(jù)為范本,基于學(xué)習(xí)型算法學(xué)習(xí)駕駛?cè)颂匦耘c行為模式,在實(shí)現(xiàn)類人駕駛上具有天然優(yōu)勢(shì)。按照其實(shí)現(xiàn)層級(jí)的不同,數(shù)據(jù)驅(qū)動(dòng)的決策規(guī)劃可分為如下兩類。

        第1類是結(jié)果驅(qū)動(dòng)型。其本質(zhì)上屬于結(jié)果導(dǎo)向而非問題導(dǎo)向,根本任務(wù)是基于駕駛?cè)藬?shù)據(jù),通過直接模仿學(xué)習(xí)[8-9]或自學(xué)習(xí)[10-12]等方法建立起從客觀世界到駕駛?cè)诵袨橹g的黑盒映射模型,在結(jié)果級(jí)實(shí)現(xiàn)對(duì)駕駛?cè)诵袨榈膹?fù)現(xiàn)。但結(jié)果驅(qū)動(dòng)型存在“知其然,不知其所以然”的問題,策略可解釋性和泛化性等仍待提升。

        第2類是特征驅(qū)動(dòng)型。這是一種問題導(dǎo)向的策略,通常假定駕駛?cè)耸强陀^世界中,具有某種理智思考范式和一定隨機(jī)不確定性的主觀多目標(biāo)協(xié)同優(yōu)化者,其核心思想是從專家示教中推斷類人的優(yōu)化目標(biāo)或獎(jiǎng)勵(lì)函數(shù),在特征級(jí)實(shí)現(xiàn)可解釋的類人駕駛,往往能夠達(dá)到“知其然,且知其所以然”的效果。Xu等[13]面向換道行為構(gòu)建獎(jiǎng)勵(lì)函數(shù),使用有限內(nèi)存下的BFGS算法優(yōu)化獎(jiǎng)勵(lì)函數(shù)權(quán)重,實(shí)現(xiàn)了匹配駕駛?cè)颂匦缘臎Q策規(guī)劃。Silver等[14]利用最大邊際規(guī)劃框架學(xué)習(xí)到考慮駕駛?cè)瞬煌L(fēng)格的成本函數(shù),有效解決了行駛環(huán)境和駕駛偏好的耦合問題。逆強(qiáng)化學(xué)習(xí)(inverse reinforcement learning,IRL)近年來被廣泛應(yīng)用于特征驅(qū)動(dòng)的類人決策規(guī)劃,并被證明相比于其他多目標(biāo)優(yōu)化算法,IRL更善于從示教數(shù)據(jù)中恢復(fù)類人獎(jiǎng)勵(lì)函數(shù)[15-16]。Wu等[17]使用最大熵逆強(qiáng)化學(xué)習(xí)(maximum entropy inverse reinforcement learning,ME-IRL),通過時(shí)空解耦與彈性采樣提高了ME-IRL的采樣效率,實(shí)現(xiàn)了入環(huán)島場(chǎng)景下的類人決策規(guī)劃。Huang等[18]進(jìn)一步將車間交互引入ME-IRL,建立了高速公路駕駛?cè)四P?。Sun等[19]基于循環(huán)神經(jīng)網(wǎng)絡(luò)估計(jì)動(dòng)作獎(jiǎng)勵(lì)值,在IRL架構(gòu)下實(shí)現(xiàn)了類人換道。

        目前基于IRL的類人駕駛尚存有待探索的問題:在策略構(gòu)建過程中缺少對(duì)駕駛行為機(jī)制的深入分析,獎(jiǎng)勵(lì)函數(shù)的構(gòu)造缺少對(duì)駕駛?cè)苏J(rèn)知特性的匹配,限制了策略向機(jī)理層下探的可能;在IRL中,高維度的采樣空間能夠細(xì)化策略的動(dòng)作輸出,但過高的維度會(huì)影響策略的泛化能力且可能引發(fā)維數(shù)災(zāi)難[20];通過離散化處理能夠降低采樣空間維度,但過高的離散化程度則會(huì)導(dǎo)致采樣空間難以覆蓋駕駛?cè)说恼鎸?shí)駕駛行為,導(dǎo)致策略類人性不足。為解決上述問題,本文在ME-IRL基礎(chǔ)上,提出了一種基于駕駛行為生成機(jī)制的類人行為決策策略(human-like behavior decision-making strategy,HBDS)。

        本文的主要貢獻(xiàn)可概括為:(1)分析了駕駛行為生成機(jī)制,構(gòu)建了類人行為決策策略架構(gòu),并設(shè)計(jì)了能夠表征駕駛?cè)苏J(rèn)知特性的獎(jiǎng)勵(lì)函數(shù);(2)利用MEIRL和玻爾茲曼理性噪聲模型(Boltzman noisilyrational model,BNM)建立了類人獎(jiǎng)勵(lì)與類人行為之間的量化關(guān)系,從機(jī)理層面實(shí)現(xiàn)了特征驅(qū)動(dòng)的類人行為決策;(3)構(gòu)建離散化的預(yù)期軌跡空間,基于統(tǒng)計(jì)學(xué)規(guī)律和安全約束進(jìn)行空間壓縮和剪枝,提升了策略的采樣效率,并通過引入交通車軌跡預(yù)測(cè)增加策略與環(huán)境交互的真實(shí)性,提升了類人獎(jiǎng)勵(lì)函數(shù)權(quán)重提取的準(zhǔn)確性。

        1 策略架構(gòu)與問題建模

        1.1 駕駛行為生成機(jī)制分析與行為決策策略框架

        駕駛?cè)藞?zhí)行何種駕駛行為本質(zhì)上是由其認(rèn)知特性和行為特征決定的,如圖1所示。本文將駕駛行為生成機(jī)制中蘊(yùn)含的語(yǔ)義信息表達(dá)為:在來自人-車-環(huán)境耦合系統(tǒng)的復(fù)雜不確定性約束下,駕駛?cè)烁鶕?jù)自身認(rèn)知特性,從提高通行效率、降低跟馳負(fù)荷等驅(qū)動(dòng)誘因出發(fā)生成行為動(dòng)機(jī),并評(píng)估該行為的舒適性損失、需承受的風(fēng)險(xiǎn)以及對(duì)其他交通參與者的影響等可行性指標(biāo),進(jìn)而擇取并執(zhí)行匹配自身認(rèn)知特性和行為特征的駕駛行為。

        圖1 基于駕駛行為生成機(jī)制的智能汽車類人行為決策抽象步驟

        進(jìn)一步地,可將駕駛行為生成機(jī)制解析為如下過程:(1)駕駛?cè)私邮杖?車-環(huán)境耦合系統(tǒng)的多源信息,感知當(dāng)前交通態(tài)勢(shì);(2)在交通態(tài)勢(shì)刺激下生成行為動(dòng)機(jī),并在腦海中生成行為動(dòng)機(jī)對(duì)應(yīng)的預(yù)期行駛區(qū)域,這些區(qū)域通常包含左換道(lane changing to left,LCL)、車道保持(lane keeping,LK)、右換道(lane changing to right,LCR)以及加速、勻速、減速等駕駛行為;(3)基于交通態(tài)勢(shì)評(píng)估預(yù)期行駛區(qū)域的行車風(fēng)險(xiǎn)和決策行為可行性;(4)遵從“趨利避害”的基本原則完成行為決策。駕駛?cè)苏J(rèn)知特性和行為特征的差異將體現(xiàn)在行為動(dòng)機(jī)生成和行為可行性評(píng)估上,不同駕駛?cè)嗽谙嗤h(huán)境下可能產(chǎn)生不同的個(gè)性化行為決策。

        基于對(duì)駕駛行為生成機(jī)制的語(yǔ)義表達(dá)和解析,本文中構(gòu)建了如圖1下半部分所示的智能汽車類人行為決策策略框架:(1)將駕駛?cè)藢?duì)交通態(tài)勢(shì)的感知表達(dá)為對(duì)與自車(ego vehicle,EV)存在交互依賴關(guān)系的相關(guān)交通車的軌跡預(yù)測(cè),以獲取相關(guān)交通車在決策時(shí)域內(nèi)的運(yùn)動(dòng)狀態(tài);(2)將駕駛?cè)嗽谀X海中生成的抽象預(yù)期行駛區(qū)域建模為由有限條預(yù)期軌跡組成的具象預(yù)期軌跡空間;(3)通過構(gòu)建類人獎(jiǎng)勵(lì)函數(shù)來描述駕駛?cè)说男袨閯?dòng)機(jī)生成和行為可行性評(píng)估過程,HBDS從預(yù)期軌跡空間中采樣,計(jì)算每條預(yù)期軌跡的累積獎(jiǎng)勵(lì),其中獎(jiǎng)勵(lì)函數(shù)子項(xiàng)包含動(dòng)機(jī)類和評(píng)估類兩種;(4)利用BNM為各條預(yù)期軌跡分配與其累積獎(jiǎng)勵(lì)相關(guān)的被選概率,從而表征駕駛?cè)嗽谶M(jìn)行駕駛行為決策時(shí)的隨機(jī)性。HBDS需基于ME-IRL進(jìn)行離線訓(xùn)練,ME-IRL能夠從自然駕駛數(shù)據(jù)中學(xué)習(xí)類人獎(jiǎng)勵(lì)函數(shù)權(quán)重矩陣,從而匹配駕駛?cè)苏J(rèn)知特性和行為特征,進(jìn)而實(shí)現(xiàn)基于駕駛行為生成機(jī)制的智能汽車類人行為決策。

        1.2 智能汽車行為決策問題建模

        將智能汽車行為決策建模為1階馬爾可夫決策過程MDP(S,A,P,R)。其中S為狀態(tài)空間,A為動(dòng)作采樣空間,P為狀態(tài)轉(zhuǎn)移概率,R為累積獎(jiǎng)勵(lì)。時(shí)間步t的狀態(tài)st∈S由EV狀態(tài)以及周圍交通車狀態(tài)組成,包含可基于現(xiàn)有傳感技術(shù)獲得的EV和周圍交通車的位置、速度、加速度等基本運(yùn)動(dòng)學(xué)信息。如圖2所示,通常認(rèn)為EV的當(dāng)前車道前車(currentlane front vehicle,CFV),當(dāng)前車道后車(currentlane rear vehicle,CRV),左車道前車(left-lane front vehicle,LFV),左車道后車(left-lane rear vehicle,LRV),右車道前車(right-lane front vehicle,RFV),右車道后車(right-lane rear vehicle,RRV)會(huì)對(duì)EV的行為決策產(chǎn)生影響,因此對(duì)于該MDP,時(shí)間步t的狀態(tài)st可寫作:

        圖2 影響EV行為決策的周圍交通車

        EV動(dòng)作at所從屬的動(dòng)作空間A實(shí)際上即為預(yù)期軌跡空間,可理解為某條預(yù)期軌跡執(zhí)行過程中須施加給車輛的縱側(cè)向控制量。因此,一條長(zhǎng)度為V的離散化軌跡可寫成V組狀態(tài)-動(dòng)作對(duì)的形式:

        預(yù)期軌跡空間中的任意軌跡ξi均可寫成式(2)的形式。而在該行為決策M(jìn)DP中,除初始狀態(tài)s1為已知外,其他時(shí)間步的狀態(tài)均須根據(jù)預(yù)期軌跡ξi進(jìn)行運(yùn)動(dòng)學(xué)推導(dǎo)或預(yù)測(cè)。對(duì)于ξi執(zhí)行過程中的時(shí)間步t,EV狀態(tài)可根據(jù)預(yù)期軌跡直接獲取,而周圍交通車的狀態(tài)則須基于交通車運(yùn)動(dòng)軌跡預(yù)測(cè)獲得。將給定st的獎(jiǎng)勵(lì)函數(shù)r(st)定義為線性結(jié)構(gòu):

        式中:F(st)=[f1(st),f2(st),...,fL(st)]為狀態(tài)st下的獎(jiǎng)勵(lì)函數(shù)子項(xiàng)向量;ω=[ω1,ω2,...,ωL]T為與獎(jiǎng)勵(lì)函數(shù)子項(xiàng)匹配的權(quán)重矩陣。則軌跡ξi的累積獎(jiǎng)勵(lì)R(ξi,ω)可寫作:

        式中F(ξi)為整條軌跡的獎(jiǎng)勵(lì)函數(shù)子項(xiàng)向量。本文將在第3節(jié)中詳述獎(jiǎng)勵(lì)函數(shù)子項(xiàng)的構(gòu)造以及如何基于ME-IRL學(xué)習(xí)類人的權(quán)重矩陣ω。

        得到ω后,便可獲得預(yù)期軌跡空間中任意軌跡的累積獎(jiǎng)勵(lì)R(ξi,ω),而要想實(shí)現(xiàn)行為決策,還須建立預(yù)期軌跡被選概率與其累積獎(jiǎng)勵(lì)之間的映射關(guān)系。根據(jù)最大熵原理,可假定預(yù)期軌跡被選概率隨其累積獎(jiǎng)勵(lì)的增加呈指數(shù)型增長(zhǎng),本文中基于BNM構(gòu)建行為決策概率與累積獎(jiǎng)勵(lì)的映射關(guān)系[21],在給定權(quán)重矩陣ω時(shí),預(yù)期軌跡ξi被選擇的概率為

        式中:N為預(yù)期軌跡空間中所包含的軌跡數(shù)量?;谑剑?)可得預(yù)期軌跡中每條軌跡被選擇的概率,遵循理智駕駛?cè)恕摆吚芎Α钡脑瓌t,參考貪婪算法思想,HBDS會(huì)在每個(gè)狀態(tài)下選擇累積獎(jiǎng)勵(lì)最大的預(yù)期軌跡所對(duì)應(yīng)的駕駛行為作為此時(shí)智能汽車的行為決策結(jié)果。

        2 預(yù)期軌跡空間生成

        2.1 預(yù)期軌跡空間生成

        預(yù)期軌跡空間作為行為決策M(jìn)DP的動(dòng)作采樣空間,應(yīng)涵蓋駕駛?cè)嗽诔R?guī)交通場(chǎng)景中的各種駕駛行為。本文使用多項(xiàng)式擬合和智能駕駛員模型(intelligent driver model,IDM)[22]生成包含LCL、LK、LCR這3類駕駛行為的預(yù)期軌跡簇,并對(duì)預(yù)期軌跡空間進(jìn)行壓縮和剪枝以提升采樣效率。

        2.1.1 換道預(yù)期軌跡簇生成

        通常駕駛?cè)嗽谀X海中預(yù)規(guī)劃換道軌跡時(shí),會(huì)考慮期望車速、換道耗時(shí)等因素,為體現(xiàn)這些因素對(duì)換道軌跡的影響,使用多項(xiàng)式擬合換道預(yù)期軌跡。在全局坐標(biāo)系xoy下,分別使用四次多項(xiàng)式和五次多項(xiàng)式擬合換道過程中EV縱向和側(cè)向位置隨時(shí)間的變化,即

        給定換道起始和終止時(shí)刻的邊界條件即可求得式(7)中的系數(shù)。設(shè)換道起始時(shí)刻和終止時(shí)刻的邊界條件分別為和其中,換道初始時(shí)刻的邊界條件可由駕駛?cè)耸窘虜?shù)據(jù)中EV的初始運(yùn)動(dòng)狀態(tài)直接獲得。對(duì)于終止時(shí)刻的邊界條件,通常假定換道結(jié)束后車輛已能在目標(biāo)車道進(jìn)行穩(wěn)定的車道保持,故取,取yend為目標(biāo)車道中心線的側(cè)向位置。那么影響多項(xiàng)式換道軌跡擬合的變量即為換道持續(xù)時(shí)間TLC和換道終點(diǎn)車速,使用不同的TLC和的取值組合即可生成包含不同形狀軌跡的換道軌跡簇。

        2.1.2 車道保持預(yù)期軌跡簇生成

        若不考慮車道保持過程中EV的側(cè)向運(yùn)動(dòng),則車道保持預(yù)期軌跡的生成實(shí)際上就是EV縱向加速度的擬合。引入IDM描述車道保持過程中EV的縱向加速度axe(t):

        式中:vxe(t)為EV車速;vˉxe為期望速度;dCFVdes(t)為期望跟車距離。而最小安全車距dsafe,期望跟車時(shí)距t0,最大加速度amax和最大減速度amin均為可標(biāo)定的常數(shù)項(xiàng)。EV的車道保持預(yù)期軌跡形狀由期望縱向速度vˉxe和車道保持持續(xù)時(shí)間TLK決定,且為保證車道保持和換道預(yù)期軌跡累積獎(jiǎng)勵(lì)計(jì)算時(shí)的公平性,車道保持預(yù)期軌跡和換道預(yù)期軌跡共享相同的變量取值空間,即

        2.2 預(yù)期軌跡空間壓縮與剪枝

        2.2.1 基于統(tǒng)計(jì)學(xué)規(guī)律的預(yù)期軌跡空間壓縮

        預(yù)期軌跡空間包含的軌跡數(shù)量由換道持續(xù)時(shí)間TLC和換道終點(diǎn)縱向速度張成的二維空間決定,為提升HBDS對(duì)預(yù)期軌跡的采樣效率以及預(yù)期軌跡空間構(gòu)造的合理性,對(duì)NGSIM(next generation simulation)數(shù)據(jù)集中乘用車在不同換道初始速度下的TLC以及γ進(jìn)行統(tǒng)計(jì)分析。其中,γ為相比于的變化率,即

        如圖3所示,使用正態(tài)分布分別擬合TLC和γ的概率密度,μ1、μ2和σ1、σ2分別為TLC和γ正態(tài)分布的均值和方差,其取值如表1所示。

        圖3 不同初始速度下TLC與γ概率密度分布

        表1 正態(tài)分布參數(shù)表

        由圖3(a)可知,TLC的基本變化規(guī)律是換道初始速度越大,換道持續(xù)時(shí)間越短,不同換道初始速度下的TLC分布具有一定差異但并不明顯,因此可將不同初始速度的TLC分布進(jìn)行合并。相比之下,在圖3(b)中,γ的概率密度分布對(duì)換道初始速度變化非常敏感,初始速度越大,換道終點(diǎn)速度變化越小且分布越集中,而當(dāng)初始速度低于6 m/s時(shí),換道終點(diǎn)速度普遍具有較大提升,說明駕駛?cè)送ㄟ^執(zhí)行換道行為實(shí)現(xiàn)了較大幅度的提速。如表2所示,基于概率密度分布,本文為不同換道初始速度下的TLC和γ劃定取值區(qū)間,并給出取值粒度。因此根據(jù)駕駛?cè)耸窘虜?shù)據(jù)的初始狀態(tài),可以為預(yù)期軌跡空間匹配不同的邊界與大小,提升策略采樣效率的同時(shí)使預(yù)期軌跡更接近駕駛?cè)塑壽E。

        表2 TLC和γ取值區(qū)間與粒度

        2.2.2 基于安全約束的預(yù)期軌跡空間剪枝

        在上述預(yù)期軌跡空間基礎(chǔ)上,對(duì)不符合安全性和動(dòng)力學(xué)約束的預(yù)期軌跡進(jìn)行剪枝。首先對(duì)所生成軌跡進(jìn)行基于幾何輪廓的碰撞檢測(cè),去除掉所有發(fā)生碰撞的軌跡;其次,評(píng)估所規(guī)劃軌跡的縱、側(cè)向動(dòng)力學(xué)穩(wěn)定性,給定縱向加速度極限[-0.8μg,0.8μg]以及側(cè)向加速度極限[-0.3μg,0.3μg],去除所有超出上述極限,可能引發(fā)車輛失穩(wěn)的軌跡。圖4給出了按照NGSIM數(shù)據(jù)集中某次駕駛?cè)藫Q道的初始狀態(tài)所生成的預(yù)期軌跡空間。假定路面附著狀態(tài)良好,取路面附著系數(shù)μ為0.8。

        圖4 壓縮與剪枝后的預(yù)期軌跡空間

        3 面向行為決策的交通車軌跡預(yù)測(cè)

        預(yù)期軌跡累積獎(jiǎng)勵(lì)R(ξi,ω)的計(jì)算需要已知周圍交通車的運(yùn)動(dòng)狀態(tài),若ξi的執(zhí)行不會(huì)對(duì)交通車運(yùn)動(dòng)狀態(tài)產(chǎn)生影響,則其運(yùn)動(dòng)狀態(tài)可直接從自然駕駛數(shù)據(jù)中獲取,否則須預(yù)測(cè)ξi執(zhí)行過程中交通車如何運(yùn)動(dòng)。為此本文構(gòu)建了可同時(shí)預(yù)測(cè)周圍6臺(tái)交通車未來軌跡的預(yù)測(cè)模型,模型結(jié)構(gòu)如圖5所示。在當(dāng)前時(shí)刻t,模型的輸入序列X和輸出序列Y分別為

        圖5 交通車軌跡預(yù)測(cè)模型結(jié)構(gòu)

        式中:H和F分別為歷史時(shí)窗和預(yù)測(cè)時(shí)窗長(zhǎng)度,取H為6 s,而為匹配不同的預(yù)期軌跡長(zhǎng)度,根據(jù)表2,F(xiàn)取為3~8 s。xe、ye和vxe、vye分別為全局坐標(biāo)系下EV的縱側(cè)向位置和縱側(cè)向速度,xje和yje分別為交通車j相對(duì)EV的縱側(cè)位置,vxj和vyj分別為交通車j的縱側(cè)向絕對(duì)速度。

        如圖5所示,交通車軌跡預(yù)測(cè)模型使用了具有注意力(attention)機(jī)制的編碼器(encoder)-解碼器(decoder)結(jié)構(gòu)。在每個(gè)編碼時(shí)間步th,encoder的每個(gè)LSTM cell接收來自前一編碼時(shí)間步的隱狀態(tài)和當(dāng)前編碼時(shí)間步的輸入,輸出當(dāng)前編碼時(shí)間步的隱狀態(tài),直至將整個(gè)輸入序列X編碼為語(yǔ)義向量(context vector)。與encoder結(jié)構(gòu)基本相同的decoder接收語(yǔ)義向量,并在每個(gè)解碼時(shí)間步tf輸出6臺(tái)交通車的軌跡預(yù)測(cè)值,直至完成整個(gè)預(yù)測(cè)時(shí)間窗F上的交通車軌跡預(yù)測(cè)。

        此外,在每個(gè)解碼時(shí)間步tf,attention機(jī)制通過計(jì)算decoder在上個(gè)解碼時(shí)間步的隱狀態(tài)和encoder隱狀態(tài)序列之間的相關(guān)性,為不同編碼時(shí)間步的encoder隱狀態(tài)分配權(quán)重,進(jìn)而通過加權(quán)求和得到語(yǔ)義向量。attention機(jī)制的引入使軌跡預(yù)測(cè)模型能充分提取輸入序列X中的時(shí)空依賴特征,提升軌跡預(yù)測(cè)精度。模型基于NGSIM數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,表3給出不同F(xiàn)下,測(cè)試集上的軌跡預(yù)測(cè)均方根誤差RMSE。

        表3 不同預(yù)測(cè)時(shí)窗長(zhǎng)度下的RMSE

        從表3可知,交通車軌跡預(yù)測(cè)誤差隨時(shí)間的累積效應(yīng)較明顯,尤其是F=7~8 s時(shí),RMSE值較大。但考慮到HBDS中交通車的軌跡預(yù)測(cè)是為表征駕駛?cè)藢?duì)交通態(tài)勢(shì)的認(rèn)知,最終目標(biāo)是進(jìn)行行為決策,而非規(guī)劃EV的具體運(yùn)動(dòng)軌跡,因此對(duì)預(yù)測(cè)精度要求并不高,表3中的精度已可滿足本文的研究需要。

        4 基于ME-IRL的類人權(quán)重矩陣離線學(xué)習(xí)

        如第1節(jié)所述,HBDS實(shí)現(xiàn)類人行為決策的關(guān)鍵在于構(gòu)建匹配駕駛?cè)苏J(rèn)知特性的類人獎(jiǎng)勵(lì)函數(shù),本節(jié)將詳述獎(jiǎng)勵(lì)函數(shù)子項(xiàng)的構(gòu)造以及ME-IRL如何學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)類人權(quán)重矩陣。

        4.1 獎(jiǎng)勵(lì)函數(shù)構(gòu)造

        獎(jiǎng)勵(lì)函數(shù)是溝通客觀環(huán)境與駕駛?cè)酥饔^認(rèn)知的關(guān)鍵?;趯?duì)駕駛行為生成機(jī)制的解析,將獎(jiǎng)勵(lì)函數(shù)劃分為兩大類:一是動(dòng)機(jī)型獎(jiǎng)勵(lì),對(duì)應(yīng)于駕駛行為動(dòng)機(jī)生成過程,是駕駛?cè)硕虝河^察交通環(huán)境后即可明確的獎(jiǎng)勵(lì),本質(zhì)上屬于駕駛行為的驅(qū)動(dòng)誘因;二是評(píng)估型獎(jiǎng)勵(lì),對(duì)應(yīng)于駕駛行為可行性評(píng)估過程,需要駕駛?cè)藢?duì)交通態(tài)勢(shì)和駕駛行為的執(zhí)行過程進(jìn)行綜合分析,本質(zhì)上屬于駕駛行為的限制條件。對(duì)于任意軌跡ξ,各獎(jiǎng)勵(lì)函數(shù)子項(xiàng)如下。

        (1)通行效率 代表駕駛?cè)藢?duì)盡可能高效快速行車的期望,可用EV與跟馳對(duì)象的車速差表征。通行效率屬于動(dòng)機(jī)型獎(jiǎng)勵(lì),是刺激駕駛行為產(chǎn)生的驅(qū)動(dòng)誘因,定義為

        式中:ΔvCFV(t1)和ΔvTFV(t1)分別為初始狀態(tài)下EV與CFV和 目 標(biāo) 車 道 前 車(target-lane front vehicle,TFV)的速度差。如果不存在CFV或TFV,則fEff(ξ)可近似為當(dāng)前車道限速值與自車速度的差值。

        (2)跟馳負(fù)荷 代表駕駛?cè)烁Y前車過程中的駕駛負(fù)荷,Balal等[7]指出,相比于速度或跟車時(shí)距等參數(shù),駕駛?cè)嗽诟Y過程中往往對(duì)車距的敏感性更高,跟馳負(fù)荷也很大程度上由車距決定。跟馳負(fù)荷屬于動(dòng)機(jī)型獎(jiǎng)勵(lì),是刺激駕駛行為產(chǎn)生的驅(qū)動(dòng)誘因,例如當(dāng)駕駛?cè)擞^察到旁車道前車與EV具有更大的縱向車距可供EV加速或進(jìn)行更加輕松的跟馳時(shí),駕駛?cè)送鶗?huì)換至旁車道。跟馳負(fù)荷定義為

        式中dCFV(t1)和dTFV(t1)分別為初始狀態(tài)下EV與CFV和TFV的縱向車距。如果不存在CFV或TFV,則fLoad(ξ)取為d0,d0為駕駛?cè)嗽谡D芤姸认碌钠骄梢暰嚯x,高速公路場(chǎng)景下通常取d0=150 m[23]。

        (3)舒適性 屬于評(píng)估型獎(jiǎng)勵(lì)。駕駛?cè)嗽诋a(chǎn)生行為動(dòng)機(jī)后會(huì)評(píng)估該駕駛行為執(zhí)行過程中的舒適性損失。車輛的變速運(yùn)動(dòng)會(huì)影響駕乘舒適性,因此通過預(yù)期軌跡的縱向加速度axe和側(cè)向加速度aye來描述舒適性:

        (4)行車風(fēng)險(xiǎn) 屬于評(píng)估型獎(jiǎng)勵(lì)。安全是一切駕駛行為順利執(zhí)行的先決條件,因此行車風(fēng)險(xiǎn)是駕駛?cè)嗽u(píng)估某駕駛行為即某預(yù)期軌跡是否可行的關(guān)鍵因素。駕駛?cè)嗽谠u(píng)估風(fēng)險(xiǎn)時(shí),會(huì)綜合考量周圍相關(guān)交通車的位置、車速、運(yùn)動(dòng)趨勢(shì)以及與EV之間的交互關(guān)系,故駕駛?cè)藢?duì)行車風(fēng)險(xiǎn)的認(rèn)知是連續(xù)且動(dòng)態(tài),僅使用跟車時(shí)距、碰撞時(shí)間等離散化指標(biāo)難以對(duì)其進(jìn)行準(zhǔn)確描述。

        為此,通過構(gòu)建各向異性行車風(fēng)險(xiǎn)場(chǎng)來描述周圍交通車施加給EV的風(fēng)險(xiǎn)。對(duì)于軌跡ξ中的任意時(shí)間步t,EV周圍某交通車j在EV處產(chǎn)生的風(fēng)險(xiǎn)場(chǎng)場(chǎng)強(qiáng)Eje(t)定義為

        式中:(t)為在交通車j的Frenet坐標(biāo)系下,EV與交通車j之間的車距矢量;kd為車距放縮因子;(t)和(t)分別為交通車j沿其前進(jìn)方向的加速度和法向加速度;μR為風(fēng)險(xiǎn)場(chǎng)的場(chǎng)強(qiáng)峰值,場(chǎng)強(qiáng)峰值出現(xiàn)在交通車j的質(zhì)心位置(t)和(t)分別為d(t)與交通車j前進(jìn)方向和法向的夾角;pX′和pY′為加速度系數(shù)。Mj(t)為交通車j的等效質(zhì)量,即

        式中:mj和vj(t)分別為交通車j的真實(shí)質(zhì)量與車速矢量;bm和km為常數(shù)項(xiàng)。通過引入固連在交通車j上的Frenet坐標(biāo)系,同時(shí)實(shí)現(xiàn)了場(chǎng)強(qiáng)Eje沿交通車j前進(jìn)方向和法向的非對(duì)稱分布,并考慮了加速度大小和方向?qū)?chǎng)強(qiáng)分布的影響,形成了風(fēng)險(xiǎn)場(chǎng)的各向異性。

        圖6給出本文所建立的行車風(fēng)險(xiǎn)場(chǎng)場(chǎng)強(qiáng)分布,可以看到該風(fēng)險(xiǎn)場(chǎng)模型能有效表征交通車在周圍環(huán)境中產(chǎn)生的風(fēng)險(xiǎn)分布,且能通過場(chǎng)強(qiáng)形狀的變化反映交通車加減速以及換道對(duì)風(fēng)險(xiǎn)分布的影響:加速行駛的車輛在其車頭前方產(chǎn)生的場(chǎng)強(qiáng)大于后方;減速行駛的車輛在其車尾產(chǎn)生的場(chǎng)強(qiáng)大于前方;左換道和右換道車輛則在其法向加速度方向上呈現(xiàn)出更大場(chǎng)強(qiáng),基本符合駕駛?cè)藢?duì)風(fēng)險(xiǎn)的認(rèn)知特性。

        圖6 不同運(yùn)動(dòng)狀態(tài)的交通車風(fēng)險(xiǎn)場(chǎng)場(chǎng)強(qiáng)分布

        駕駛?cè)藢?duì)風(fēng)險(xiǎn)的認(rèn)知除具有連續(xù)性外,還具有截?cái)嘈?,即如果交通車施加給EV的場(chǎng)強(qiáng)值低于某一閾值,駕駛?cè)藭?huì)認(rèn)為該交通車不會(huì)對(duì)EV產(chǎn)生安全威脅,據(jù)此駕駛?cè)藢?duì)行車風(fēng)險(xiǎn)的認(rèn)知可描述為

        當(dāng)EV執(zhí)行LK時(shí),由于車道線對(duì)場(chǎng)強(qiáng)的截止效應(yīng),EV受到的風(fēng)險(xiǎn)主要來自于CFV和CRV;當(dāng)EV執(zhí)行LC時(shí),駕駛?cè)藙t主要關(guān)注來自目標(biāo)車道前車TFV和 目 標(biāo) 車 道 后 車(target-lane rear vehicle,TRV)。式(17)中,Ethr是駕駛?cè)瞬粫?huì)對(duì)風(fēng)險(xiǎn)做出響應(yīng)的臨界場(chǎng)強(qiáng),τrc為風(fēng)險(xiǎn)超過閾值的持續(xù)時(shí)間。故如圖7所示,fRisk(ξ)實(shí)際上表征的是ξ執(zhí)行過程中,駕駛?cè)烁兄降膶?duì)行車安全有威脅的風(fēng)險(xiǎn)在時(shí)間上的積分。

        圖7 fRisk(ξ)的構(gòu)造原理

        (5)行車侵略度 屬于評(píng)估型獎(jiǎng)勵(lì)。理智型駕駛?cè)擞绕涫禽^為禮貌友好的駕駛?cè)嗽谛袨闆Q策時(shí)通常會(huì)考慮EV的行為對(duì)周圍交通車產(chǎn)生的影響,本文定義行車侵略度對(duì)其進(jìn)行描述。交通車因EV的行為而產(chǎn)生的額外駕駛響應(yīng)是EV對(duì)該交通車侵略度的顯式體現(xiàn),例如TRV因?yàn)镋V的cut in行為而減速避讓,這種駕駛響應(yīng)來源于EV施加給交通車的風(fēng)險(xiǎn),本質(zhì)上屬于一種風(fēng)險(xiǎn)響應(yīng)。故參考對(duì)EV行車風(fēng)險(xiǎn)的建模,行車侵略度可定義為

        式中Eje(t)為EV施加給交通車j的場(chǎng)強(qiáng),其計(jì)算公式與Eje(t)相同。

        將式(12)~式(14)、式(17)~式(18)代入式(4)即可得軌跡ξ的累積獎(jiǎng)勵(lì)R(ξ,ω)。上述獎(jiǎng)勵(lì)函數(shù)子項(xiàng)能夠同時(shí)描述駕駛行為生成機(jī)制中的動(dòng)機(jī)生成和行為評(píng)估,并考慮車間交互,在獎(jiǎng)勵(lì)函數(shù)構(gòu)造上實(shí)現(xiàn)了對(duì)駕駛?cè)苏J(rèn)知特性的匹配。

        4.2 最大熵逆向強(qiáng)化學(xué)習(xí)

        設(shè)ΞD為從自然駕駛數(shù)據(jù)中提取的駕駛?cè)诵袨闆Q策示教軌跡數(shù)據(jù)集,ΞD中包含M條示教軌跡,ΞD=[ξ?1,ξ?2,...,ξ?M]。則ME-IRL的目標(biāo)即是通過求解權(quán)重矩陣ω,使示教軌跡獲得的累積獎(jiǎng)勵(lì)最大。由式(6)可知,累積獎(jiǎng)勵(lì)最大意味著軌跡被選擇的概率最大,也就意味著HBDS能夠以最大的概率做出類人的行為決策。示教軌跡中關(guān)于權(quán)重矩陣ω的對(duì)數(shù)似然函數(shù)為

        則ME-IRL對(duì)最優(yōu)ω*的求解可描述為

        將式(6)代入式(19)可將L(ω)進(jìn)一步寫作:

        式中E(F(ξj))為整個(gè)預(yù)期軌跡空間獎(jiǎng)勵(lì)函數(shù)的期望值,因此?ωL(ω)可視為駕駛?cè)耸窘誊壽E獎(jiǎng)勵(lì)與預(yù)期軌跡簇期望獎(jiǎng)勵(lì)的差值。基于式(22)使用梯度上升算法即可實(shí)現(xiàn)對(duì)ω的迭代優(yōu)化,從而基于ME-IRL學(xué)習(xí)到對(duì)于HBDS而言最優(yōu)的權(quán)重矩陣ω*。

        5 策略驗(yàn)證與結(jié)果分析

        5.1 駕駛?cè)耸窘虜?shù)據(jù)提取與處理

        使用NGSIM數(shù)據(jù)集進(jìn)行HBDS的訓(xùn)練和測(cè)試。NGSIM[24]由美國(guó)聯(lián)邦公路局采集,包含在公路I-80和US-101上于不同時(shí)間段采集的數(shù)據(jù),數(shù)據(jù)采集時(shí)長(zhǎng)共90 min,采樣周期為0.1 s,包含這期間出現(xiàn)在兩條道路上所有車輛的基本信息。NGSIM中每輛車的平均持續(xù)行駛時(shí)間為40~70 s,基本符合提取駕駛?cè)苏J(rèn)知特性和行為特征對(duì)數(shù)據(jù)長(zhǎng)度的需要。本文中對(duì)NGSIM數(shù)據(jù)集的處理過程如下。

        (1)提取同時(shí)包含LK和LC行為的車輛。

        (2)上下匝道不屬于本文研究?jī)?nèi)容,且駕駛?cè)嗽谠训绤^(qū)域的認(rèn)知特性和行為特征相比常規(guī)路段會(huì)發(fā)生變化,會(huì)對(duì)駕駛行為的學(xué)習(xí)產(chǎn)生影響,因此本文去除涉及匯入及駛出匝道區(qū)域和存在明顯誤差的數(shù)據(jù)。

        (3)使用Savitzky-Golay濾波器對(duì)原始數(shù)據(jù)中的車輛位置進(jìn)行濾波處理,并基于濾波后的位置數(shù)據(jù)求取速度和加速度信息。

        (4)按照駕駛行為將每輛車的數(shù)據(jù)劃分為換道數(shù)據(jù)和車道保持?jǐn)?shù)據(jù):

        ①對(duì)于LK數(shù)據(jù),提取持續(xù)時(shí)間5 s的LK行為,并要求其在LK開始前3 s和結(jié)束后3 s范圍內(nèi)無LC行為,采用滑動(dòng)時(shí)窗提取LK數(shù)據(jù);

        ②對(duì)于LC數(shù)據(jù),按照文獻(xiàn)[25]中方法提取LC起始點(diǎn)和終止點(diǎn),在換道起始點(diǎn)處向前擴(kuò)展3 s的LK數(shù)據(jù),將其與換道起始點(diǎn)和終止點(diǎn)之間的數(shù)據(jù)一起組合為完整的換道行為數(shù)據(jù)。

        NGSIM中的每輛車平均可提取出30~50組數(shù)據(jù),每輛車均按照80%和20%的比例劃分訓(xùn)練集和測(cè)試集。

        (5)駕駛?cè)塑壽E數(shù)據(jù)規(guī)則化處理。在自然駕駛數(shù)據(jù)中,由于駕駛?cè)说牟僮麟S機(jī)性以及數(shù)據(jù)采集誤差,駕駛?cè)塑壽E往往難以與多項(xiàng)式和IDM生成的預(yù)期軌跡相匹配,這會(huì)造成策略訓(xùn)練過程中難以收斂。因此本文根據(jù)駕駛?cè)塑壽E實(shí)際的初始狀態(tài)、終止?fàn)顟B(tài)及持續(xù)時(shí)間,對(duì)駕駛?cè)塑壽E進(jìn)行基于多項(xiàng)式的規(guī)則化處理。圖8為駕駛?cè)塑壽E經(jīng)規(guī)則化處理后的效果。

        圖8 駕駛?cè)塑壽E規(guī)則化處理

        5.2 策略驗(yàn)證

        5.2.1 行為決策結(jié)果

        考慮到不同駕駛?cè)苏J(rèn)知特性和行為特征差異造成的駕駛行為生成機(jī)制異質(zhì)性,使用每位駕駛?cè)说臄?shù)據(jù)分別訓(xùn)練個(gè)性化的HBDS。當(dāng)HBDS在測(cè)試集上運(yùn)行時(shí),它會(huì)基于學(xué)習(xí)到的類人獎(jiǎng)勵(lì)函數(shù)權(quán)重計(jì)算每個(gè)初始狀態(tài)下每條預(yù)期軌跡的累積獎(jiǎng)勵(lì),并依據(jù)式(6)所示的BNM得出每條預(yù)期軌跡的被選概率。由于在生成預(yù)期軌跡時(shí),LCL、LK、LCR 3類駕駛行為包含的軌跡數(shù)量相等,因此所包含軌跡的被選概率之和最高的那一類行為即為此時(shí)行為決策結(jié)果。

        (1)為驗(yàn)證本文引入各向異性行車風(fēng)險(xiǎn)場(chǎng)的有效性,建立了對(duì)比策略HBDS-TTC。該對(duì)比策略使用車間的碰撞時(shí)間(time to collision,TTC)代替式(17)和式(18)中的各向異性行車風(fēng)險(xiǎn)場(chǎng)場(chǎng)強(qiáng)。除行車風(fēng)險(xiǎn)獎(jiǎng)勵(lì)函數(shù)和行車侵略度獎(jiǎng)勵(lì)函數(shù)外,HBDSTTC的其他獎(jiǎng)勵(lì)函數(shù)子項(xiàng)以及策略架構(gòu)、訓(xùn)練和測(cè)試數(shù)據(jù)等均與HBDS保持一致。表4給出了HBDSTTC和HBDS在訓(xùn)練集和測(cè)試集上的表現(xiàn)對(duì)比。由于本文旨在實(shí)現(xiàn)類人行為決策,因此正確的行為決策定義為:在自然駕駛數(shù)據(jù)中駕駛?cè)藢?shí)際的行為切換點(diǎn)前后3 s的時(shí)間范圍內(nèi),策略能夠輸出與駕駛?cè)讼嗤男袨闆Q策。為進(jìn)一步衡量策略在類人決策上的表現(xiàn),定義行為決策時(shí)間誤差,即策略輸出正確行為決策的時(shí)間點(diǎn)與駕駛?cè)藢?shí)際行為切換點(diǎn)之間時(shí)間差的絕對(duì)值,該值越小表明策略的類人性越強(qiáng)。

        表4 有無各向異性行車風(fēng)險(xiǎn)場(chǎng)策略表現(xiàn)對(duì)比

        由表4可知,HBDS-TTC的類人性低于HBDS,說明所建立的各向異性行車風(fēng)險(xiǎn)場(chǎng)能夠更好地表征駕駛?cè)藢?duì)風(fēng)險(xiǎn)的認(rèn)知,從而得到更加合理行車風(fēng)險(xiǎn)獎(jiǎng)勵(lì)函數(shù)和行車侵略度獎(jiǎng)勵(lì)函數(shù)。

        (2)為驗(yàn)證基于統(tǒng)計(jì)學(xué)規(guī)律的預(yù)期軌跡空間壓縮和基于安全約束的預(yù)期軌跡空間剪枝的有效性,設(shè)置3組對(duì)比試驗(yàn),并在表5中給出了各組試驗(yàn)中獎(jiǎng)勵(lì)函數(shù)收斂即策略收斂所需的平均回合數(shù)對(duì)比。由表5可知,基于統(tǒng)計(jì)學(xué)規(guī)律的預(yù)期軌跡空間壓縮能有效提升策略采樣效率,顯著降低策略收斂所需回合數(shù),相比之下基于安全約束的預(yù)期軌跡空間剪枝對(duì)采樣效率的提升幅度較小,其主要作用在于提升數(shù)據(jù)驅(qū)動(dòng)的HBDS安全性。

        表5 策略收斂回合數(shù)對(duì)比

        (3)本文在HBDS的離線訓(xùn)練過程中引入了交通車軌跡預(yù)測(cè),即預(yù)測(cè)自車按照某一預(yù)期軌跡行駛過程中周圍交通車將如何運(yùn)動(dòng),從而建立更加真實(shí)的策略訓(xùn)練環(huán)境。為驗(yàn)證引入交通車軌跡預(yù)測(cè)的有效性,建立無交通車軌跡預(yù)測(cè)的對(duì)比策略(HBDSwithout prediction,HBDS-WP)。在HBDS-WP的訓(xùn)練過程中,所有交通車均按照數(shù)據(jù)集中的原始軌跡行駛,而不會(huì)根據(jù)自車的不同行為做出交互響應(yīng)。對(duì)比結(jié)果如表6所示。

        表6 有無交通車軌跡預(yù)測(cè)策略表現(xiàn)對(duì)比

        由表6可知,沒有交通車軌跡預(yù)測(cè)的HBDS-WP無法考慮自車不同行為對(duì)周圍交通車的交互影響,使策略提取的類人獎(jiǎng)勵(lì)函數(shù)權(quán)重精度較差,從而導(dǎo)致策略類人性下降,證明了本文在HBDS中引入交通車軌跡預(yù)測(cè)的有效性。

        (4)為證明HBDS相比于現(xiàn)有類人行為決策策略的性能提升,本文額外建立了2組策略與HBDS進(jìn)行對(duì)比驗(yàn)證:①基于NGSIM數(shù)據(jù)集標(biāo)定文獻(xiàn)[4]中FSM的狀態(tài)轉(zhuǎn)移條件,構(gòu)建行為決策策略;②采用與HBDS相同的MDP,以LCL、LK、LCR為動(dòng)作,基于深度Q網(wǎng)絡(luò)(deep Q network,DQN)構(gòu)建行為決策策略。DQN使用與HBDS完全相同的獎(jiǎng)勵(lì)函數(shù)子項(xiàng),但各獎(jiǎng)勵(lì)函數(shù)子項(xiàng)權(quán)重未經(jīng)ME-IRL標(biāo)定,各子項(xiàng)權(quán)重均取1。表7給出HBDS和2組對(duì)比模型在包含500位駕駛?cè)藬?shù)據(jù)的訓(xùn)練集和測(cè)試集上的平均表現(xiàn)。

        表7 HBDS與其他策略表現(xiàn)對(duì)比

        從表7可知,HBDS具有最高的行為決策準(zhǔn)確率和最小的行為決策時(shí)間誤差。雖然經(jīng)過自然駕駛數(shù)據(jù)集的標(biāo)定,但完全基于先驗(yàn)知識(shí)和手寫規(guī)則的FSM在類人決策上的表現(xiàn)仍不理想,且相比訓(xùn)練集,F(xiàn)SM在測(cè)試集上表現(xiàn)降低較為明顯;使用與HBDS相同MDP的DQN行為決策準(zhǔn)確率高于FSM,且測(cè)試集相對(duì)訓(xùn)練集的掉點(diǎn)幅度較小,也側(cè)面證明了本文所設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)的合理性。但由于缺少對(duì)類人獎(jiǎng)勵(lì)函數(shù)權(quán)重的離線學(xué)習(xí),使用均一化權(quán)重的DQN表現(xiàn)弱于HBDS,證明了本文將駕駛行為機(jī)制引入HBDS,從自然駕駛數(shù)據(jù)中挖掘類人獎(jiǎng)勵(lì)函數(shù)權(quán)重的有效性。

        5.2.2 軌跡分析

        HBDS除能夠輸出累積獎(jiǎng)勵(lì)最高即最類人的行為決策(LCL/LK/LCR)外,還能輸出該類行為對(duì)應(yīng)的軌跡空間中與人類駕駛員最接近的軌跡。圖9給出兩個(gè)案例中HBDS概率最高的軌跡與規(guī)則化后的駕駛?cè)塑壽E對(duì)比,可以看到軌跡匹配度較高。

        圖9 HBDS概率最高軌跡與規(guī)則化處理的真實(shí)軌跡對(duì)比

        由于HBDS的預(yù)期軌跡空間是基于軌跡持續(xù)時(shí)間和軌跡終點(diǎn)速度張開的,因此HBDS在行為決策的同時(shí)還能給出這兩個(gè)決定軌跡具體形狀的重要參數(shù),對(duì)后續(xù)的運(yùn)動(dòng)軌跡規(guī)劃具有重要意義。表8給出在測(cè)試集上,與駕駛?cè)苏鎸?shí)軌跡相比,HBDS輸出的換道軌跡持續(xù)時(shí)間、軌跡終點(diǎn)速度以及軌跡縱向跨度的平均絕對(duì)誤差MAE。可以看到在相同初始狀態(tài)下,HBDS能給出與駕駛?cè)耸纸咏膿Q道持續(xù)時(shí)間、軌跡終點(diǎn)速度和縱向跨度。而如果進(jìn)一步細(xì)化表2中的取值粒度,HBDS的類人性可進(jìn)一步提升,但這會(huì)降低采樣效率。因此HBDS在實(shí)際應(yīng)用時(shí),應(yīng)綜合考量算力消耗和駕駛類人性來選定預(yù)期軌跡空間的取值粒度。

        表8 概率最高軌跡與真實(shí)軌跡關(guān)鍵指標(biāo)MAE

        6 結(jié)論

        面向類人駕駛這一汽車智能化技術(shù)領(lǐng)域的重要研究?jī)?nèi)容,對(duì)駕駛行為生成機(jī)制進(jìn)行系統(tǒng)分析和抽象描述,提出了一種基于駕駛行為生成機(jī)制的類人行為決策策略HBDS。HBDS具有匹配駕駛行為生成機(jī)制的策略架構(gòu)以及匹配駕駛?cè)苏J(rèn)知特性的獎(jiǎng)勵(lì)函數(shù),并通過統(tǒng)計(jì)學(xué)規(guī)律與安全約束對(duì)離散化的策略采樣空間進(jìn)行壓縮和剪枝,避免了高維連續(xù)空間的維數(shù)災(zāi)難以及預(yù)期軌跡與駕駛?cè)藢?shí)際軌跡相差較大的問題。交通車軌跡預(yù)測(cè)的引入進(jìn)一步保證了HBDS的離線訓(xùn)練效果和在線使用性能表現(xiàn)。HBDS通過ME-IRL學(xué)習(xí)類人的獎(jiǎng)勵(lì)函數(shù)權(quán)重,基于BNM建立行為概率與其累積獎(jiǎng)勵(lì)的映射關(guān)系。在自然駕駛數(shù)據(jù)集上的驗(yàn)證結(jié)果表明,HBDS能夠較好地匹配駕駛?cè)说膫€(gè)性化認(rèn)知特性和行為特征,并實(shí)現(xiàn)類人行為決策。作為一種特征驅(qū)動(dòng)的類人行為決策策略,HBDS為智能汽車類人駕駛向機(jī)理層下探和策略白盒化提供了新思路。但目前HBDS中未考慮獎(jiǎng)勵(lì)函數(shù)的動(dòng)態(tài)時(shí)變,且高速公路的應(yīng)用場(chǎng)景相對(duì)簡(jiǎn)單。在后續(xù)研究中,將在環(huán)島和十字路口等更為復(fù)雜的工況下,進(jìn)一步探索駕駛?cè)苏J(rèn)知特性和行為特征隨交通環(huán)境、自身狀態(tài)等因素的變化,構(gòu)建時(shí)變型獎(jiǎng)勵(lì)函數(shù)及其自適應(yīng)匹配體系,并與類人運(yùn)動(dòng)規(guī)劃結(jié)合形成完整的特征驅(qū)動(dòng)下智能汽車決策規(guī)劃策略。

        猜你喜歡
        類人車道預(yù)期
        北斗+手機(jī)實(shí)現(xiàn)車道級(jí)導(dǎo)航應(yīng)用
        避免跟車闖紅燈的地面車道線
        淺談MTC車道改造
        5類人跟泡腳“八字不合”
        口頭禪暴露性格
        分析師一致預(yù)期
        分析師一致預(yù)期
        分析師一致預(yù)期
        低速ETC/MTC混合式收費(fèi)車道的設(shè)計(jì)與實(shí)現(xiàn)
        析師一致預(yù)期
        疯狂添女人下部视频免费| 亚洲国产一区二区精品| 国产丝袜美腿在线播放| 老师开裆丝袜喷水视频| av潮喷大喷水系列无码| 国产成人亚洲综合无码DVD| 男女搞黄在线观看视频| 亚洲av无一区二区三区久久蜜桃| 国内精品人妻无码久久久影院| 麻豆av传媒蜜桃天美传媒| 丝袜人妻无码中文字幕综合网| 男女动态91白浆视频| 99无码熟妇丰满人妻啪啪| 国产自国产在线观看免费观看| 欧美激情精品久久999| 国产尤物自拍视频在线观看| 亚洲人成电影网站色| 夜夜爽一区二区三区精品| 色窝综合网| 国产自拍精品在线免费观看| 国产精品99精品无码视亚 | 小雪好紧好滑好湿好爽视频| 一区二区传媒有限公司| 午夜亚洲国产精品福利| 亚洲男同免费视频网站| 久久综合九色综合久99| 国产欧美VA欧美VA香蕉在| 亚洲中文字幕人妻诱惑| 变态另类手机版av天堂看网| 男女爽爽无遮挡午夜视频| 毛片无码高潮喷白浆视频| 成人免费毛片立即播放| 欧美激情综合色综合啪啪五月| 亚洲不卡中文字幕无码| 亚洲专区在线观看第三页| 蜜桃视频网站在线观看一区 | 五月天精品视频在线观看| 日韩不卡无码三区| 亚洲不卡高清av网站| 精品国产乱码久久久久久影片| 婷婷综合缴情亚洲狠狠|