亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自動(dòng)駕駛車輛在無信號(hào)交叉口右轉(zhuǎn)駕駛決策技術(shù)研究

        2023-01-01 00:00:00王曙燕萬頃田

        摘要:利用深度強(qiáng)化學(xué)習(xí)(deepreinforcementlearning,DRL)技術(shù)實(shí)現(xiàn)自動(dòng)駕駛決策已成為國內(nèi)外研究熱點(diǎn),現(xiàn)有研究中的車輛交通流缺乏隨機(jī)性與真實(shí)性,同時(shí)自動(dòng)駕駛車輛在環(huán)境中的有效探索具有局限性。因此利用TD3算法進(jìn)行自動(dòng)駕駛車輛在無信號(hào)交叉口下的右轉(zhuǎn)駕駛決策研究,首先在Carla仿真平臺(tái)中開發(fā)無信號(hào)交叉口的訓(xùn)練與測(cè)試場(chǎng)景,并添加交通流管理功能,提高系統(tǒng)訓(xùn)練和測(cè)試隨機(jī)性。其次,為了提高自動(dòng)駕駛車輛的探索性,對(duì)TD3算法中的Actor網(wǎng)絡(luò)進(jìn)行改進(jìn),為目標(biāo)動(dòng)作添加OU噪聲。最后使用通行成功率和平均通行時(shí)間評(píng)估指標(biāo)評(píng)價(jià)自動(dòng)駕駛行為決策。結(jié)果表明,在不同交通流場(chǎng)景下,改進(jìn)后的TD3算法通行成功率與基于DDPG算法控制的車輛相比平均提升6.2%,與基于規(guī)則的AEB模型相比平均提升23%。改進(jìn)后的TD3算法不僅能夠探索更多可能,而且其通行決策表現(xiàn)更加突出。

        關(guān)鍵詞:深度強(qiáng)化學(xué)習(xí);自動(dòng)駕駛;無信號(hào)交叉口;駕駛決策;獎(jiǎng)勵(lì)函數(shù)

        中圖分類號(hào):V323.19文獻(xiàn)標(biāo)志碼:A

        文章編號(hào):1001-3695(2023)05-028-1468-05

        0引言

        隨著現(xiàn)代技術(shù)的進(jìn)步,學(xué)者對(duì)自動(dòng)駕駛領(lǐng)域的研究也逐步深入,進(jìn)而有望改變?nèi)藗儸F(xiàn)有的生活方式,例如減少交通事故、避免交通擁堵和提高能源效率等[1]。由于交通環(huán)境復(fù)雜,自動(dòng)駕駛車輛(autonomousvehicle,AV)如何高效實(shí)現(xiàn)決策是目前自動(dòng)駕駛研究最具挑戰(zhàn)的問題之一。尤其在無信號(hào)燈的交叉路口,受限于人類駕駛意圖的不明確性和車輛之間通信的問題,導(dǎo)致在實(shí)現(xiàn)決策和控制模塊時(shí)難度增大。早期的自動(dòng)駕駛決策是基于規(guī)則的方法,如決策樹模型、有限狀態(tài)機(jī)法[2]等,基于規(guī)則的決策方法具有邏輯清晰、針對(duì)性強(qiáng)等優(yōu)點(diǎn),但僅適用于事先設(shè)定的場(chǎng)景,面對(duì)較復(fù)雜的交通場(chǎng)景時(shí),狀態(tài)劃分變得煩瑣且狀態(tài)轉(zhuǎn)移條件也更為復(fù)雜。隨著深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)在圖像處理、路徑規(guī)劃等研究方向取得的優(yōu)異成果,研究者將兩者結(jié)合衍生出深度強(qiáng)化學(xué)習(xí)方法并應(yīng)用于自動(dòng)駕駛領(lǐng)域,通過自動(dòng)駕駛車輛與環(huán)境的交互反復(fù)試錯(cuò)來學(xué)習(xí)最優(yōu)策略,同時(shí)反復(fù)更新策略提高性能。

        近年來,深度強(qiáng)化學(xué)習(xí)已成為自動(dòng)駕駛決策與控制的一項(xiàng)關(guān)鍵技術(shù)。Kamran等人[3]和Isele等人[4]在交叉路口使用基于深度Q網(wǎng)絡(luò)(DQN)的導(dǎo)航策略避免與其他車輛碰撞,提升了通行成功率。由于DQN只適用于離散動(dòng)作空間,但實(shí)現(xiàn)自動(dòng)駕駛的預(yù)期效果是輸出連續(xù)高維的方向盤轉(zhuǎn)向角和加速度值等。隨著對(duì)深度強(qiáng)化學(xué)習(xí)的進(jìn)一步研究,DeepMind[5]團(tuán)隊(duì)首次提出了深度確定性策略梯度(DDPG)算法,解決了高維連續(xù)動(dòng)作空間問題,DDPG算法中包含Actor和Critic兩個(gè)網(wǎng)絡(luò),Actor網(wǎng)絡(luò)用來生成使獎(jiǎng)勵(lì)值最大的動(dòng)作,Critic網(wǎng)絡(luò)用來評(píng)估該狀態(tài)下選取動(dòng)作的好壞。DDPG算法及其改進(jìn)算法廣泛應(yīng)用于自動(dòng)駕駛領(lǐng)域。張斌等人[6]在TORCS平臺(tái)上通過將傳感器獲得的感知信息輸入到模型中,直接輸出加速、剎車等駕駛動(dòng)作實(shí)現(xiàn)基于DDPG算法的端到端駕駛決策模型[7]。Hubmann等人[8]在不確定其他車輛駕駛行為的情況下,將預(yù)測(cè)駕駛行為可能性添加到優(yōu)化策略中,并針對(duì)不同的道路布局和車輛數(shù)量在線解決問題。Cai等人[9]提出一種基于Carla[10]模擬器提供的真實(shí)世界的道路地圖作為自動(dòng)駕駛基準(zhǔn)。由于DDPG算法存在過估計(jì)值等問題,TD3算法應(yīng)運(yùn)而生,裴曉飛等人[11]基于TD3算法構(gòu)建自動(dòng)駕駛汽車換道決策模型,實(shí)現(xiàn)在復(fù)雜交通環(huán)境下安全、流暢的換道行為。Zhang等人[12]通過Dual-cneteredCritic、平滑Group目標(biāo)網(wǎng)絡(luò)和延遲策略降低了神經(jīng)網(wǎng)絡(luò)逼近的過估計(jì)的方差,提高了算法的有效性和泛化能力。Qian等人[13]提出一種基于規(guī)劃特征的決策方法,利用拓?fù)渎窂降奶攸c(diǎn)解決決策層與路徑規(guī)劃層的一致性。

        交叉路口是城市道路交通中最常見的場(chǎng)景之一,也是自動(dòng)駕駛車輛決策和控制的難點(diǎn)。早期在DARPA城市挑站賽(DUC)中,獲勝者Boss使用基于規(guī)則的行為生成機(jī)制預(yù)定義駕駛規(guī)則[14],使Boss能夠檢查車輛的加速能力和空間距離,判斷匯入目標(biāo)車道或通過十字路口是否安全。在DUC中排名第二的Junior[15]同樣是基于手動(dòng)定義的規(guī)則,由于實(shí)現(xiàn)簡單、可追溯等優(yōu)點(diǎn),該框架被廣泛應(yīng)用于許多自動(dòng)駕駛平臺(tái)。智能駕駛員模型(IDM)[16]由于其參數(shù)數(shù)量少以及能用統(tǒng)一的模型描述交通流的不同狀態(tài)等特點(diǎn)常用于實(shí)現(xiàn)自動(dòng)駕駛跟馳模型。Zhou等人[17]提出一種基于協(xié)作IDM的自動(dòng)駕駛控制器達(dá)到AV在高速入口匝道合并車輛的目的。然而,上述研究皆假設(shè)速度恒定,未考慮周圍車輛對(duì)AV行為的影響,且基于規(guī)則的自動(dòng)駕駛決策存在局限性。Wei等人[18]通過模擬人類駕駛行為提出構(gòu)建自動(dòng)駕駛模型的綜合方法,將其應(yīng)用于高速公路自動(dòng)駕駛中得到最佳速度曲線。Song等人[19]提出一種感知其他車輛駕駛意圖的決策算法,為車輛可能通行的路線劃分碰撞區(qū)域,預(yù)測(cè)未知車輛通行意圖。以上研究只針對(duì)于社會(huì)車輛數(shù)量少且固定的情況,未考慮到交通流控制問題。Wang等人[20]提出一種交叉口通行權(quán)機(jī)制,將自動(dòng)駕駛車輛執(zhí)行左轉(zhuǎn)、直行和右轉(zhuǎn)操作進(jìn)行通行權(quán)優(yōu)先級(jí)設(shè)置??紤]了周圍社會(huì)車輛發(fā)生碰撞的情況,但由于設(shè)置優(yōu)先級(jí)使得交通環(huán)境失去隨機(jī)性。在深度強(qiáng)化學(xué)習(xí)算法中,獎(jiǎng)勵(lì)機(jī)制影響算法收斂度和最終訓(xùn)練結(jié)果。Knox等人[21]針對(duì)自動(dòng)駕駛的獎(jiǎng)勵(lì)設(shè)計(jì)問題,開發(fā)了八個(gè)簡單的健全性檢查來識(shí)別獎(jiǎng)勵(lì)函數(shù)中的缺陷。健全性檢查適用于過去自動(dòng)駕駛強(qiáng)化學(xué)習(xí)工作的獎(jiǎng)勵(lì)功能,揭示了自動(dòng)駕駛獎(jiǎng)勵(lì)設(shè)計(jì)中幾乎普遍存在的缺陷。

        總的來說,在無信號(hào)交叉路口對(duì)于場(chǎng)景和獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)仍然存在可完善的部分。為進(jìn)一步還原現(xiàn)實(shí)世界中無信號(hào)交叉口下的復(fù)雜交通情景,本文的主要工作如下:a)在Carla平臺(tái)中為交叉路口場(chǎng)景開發(fā)強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境,添加社會(huì)車輛交通流管理功能,提高訓(xùn)練和測(cè)試過程中交通流的隨機(jī)性;b)針對(duì)高斯噪聲時(shí)序不相關(guān),在慣性系統(tǒng)中原地振蕩易被平均的問題,利用更適用于時(shí)間離散化粒度較小的OU噪聲達(dá)到探索更多可能的效果,提高了算法的探索能力和穩(wěn)定性;c)針對(duì)獎(jiǎng)勵(lì)函數(shù)過于單一導(dǎo)致強(qiáng)化訓(xùn)練陷入局部最優(yōu),通過事件定義獎(jiǎng)勵(lì)函數(shù)有效提高訓(xùn)練質(zhì)量,并定義了一種通行成功率指標(biāo),該指標(biāo)能夠有效評(píng)價(jià)自動(dòng)駕駛車輛在強(qiáng)化學(xué)習(xí)后行為決策的性能。

        1系統(tǒng)模型

        1.1系統(tǒng)框架

        系統(tǒng)模型框架如圖1所示。本文將除自動(dòng)駕駛車輛之外的其他車輛稱之為社會(huì)車輛(socialvehicle,SV)。首先AV在交叉路口場(chǎng)景中與SV交互,環(huán)境根據(jù)當(dāng)前狀態(tài)和選取的動(dòng)作通過獎(jiǎng)勵(lì)函數(shù)返回即時(shí)獎(jiǎng)勵(lì),實(shí)現(xiàn)駕駛決策的目標(biāo)是最大化累積獎(jiǎng)勵(lì)值。本文利用TD3算法進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。TD3算法基于Actor-Critic(AC)框架,適用于高維連續(xù)動(dòng)作空間,相比于同AC框架的DDPG算法,TD3算法作出以下幾個(gè)方面的改進(jìn):

        a)TD3算法使用兩個(gè)評(píng)估動(dòng)作值函數(shù)的神經(jīng)網(wǎng)絡(luò)(圖1中兩個(gè)Critic網(wǎng)絡(luò))及與之相對(duì)應(yīng)的目標(biāo)神經(jīng)網(wǎng)絡(luò)(圖1中兩個(gè)Target網(wǎng)絡(luò)),兩個(gè)神經(jīng)網(wǎng)絡(luò)獨(dú)立評(píng)估輸入的狀態(tài)—?jiǎng)幼鲗?duì),取兩個(gè)估計(jì)值中的較小值用于計(jì)算TDerror避免過估計(jì)問題。

        b)相較于Critic動(dòng)作值函數(shù)參數(shù)的單步更新,Actor網(wǎng)絡(luò)參數(shù)的更新頻率更低,更新頻率通常為2,該方法可以降低近似動(dòng)作值函數(shù)的方差。

        c)通過在計(jì)算目標(biāo)動(dòng)作值函數(shù)的目標(biāo)動(dòng)作上添加服從正態(tài)分布的噪聲以提高算法的魯棒性。

        高斯噪聲具有獨(dú)立且時(shí)序不相關(guān)的特點(diǎn),前后兩個(gè)動(dòng)作之間只是通過狀態(tài)使其獨(dú)立,但在高維連續(xù)動(dòng)作空間中,理想的探索應(yīng)是自相關(guān)的且下一步的噪聲受上一步噪聲的影響(即具有馬爾可夫性),而OU噪聲能夠圍繞均值正向或反向探索一段距離,有利于在一個(gè)方向上的探索,因此對(duì)Actor網(wǎng)絡(luò)進(jìn)行改進(jìn),為其產(chǎn)生的action添加OU噪聲以提高探索效率和算法穩(wěn)定性。神經(jīng)網(wǎng)絡(luò)整體的結(jié)構(gòu)設(shè)計(jì)相同。如圖2所示,以Actor網(wǎng)絡(luò)為例,將SV的狀態(tài)向量輸入到64×64的編碼器中,并將編碼器的輸出向量與AV的狀態(tài)向量作為全連接層FC的輸入,通過計(jì)算得到加速或減速動(dòng)作。

        1.2場(chǎng)景設(shè)計(jì)

        使用Carla模擬器中的Town03地圖布置場(chǎng)景,如圖3所示。其中橙色車輛為自動(dòng)駕駛決策車輛,藍(lán)色車輛為社會(huì)車輛。紅線為十字路口邊界,自動(dòng)駕駛車輛能否成功通行無信號(hào)交叉口以其車身全部超過此線為一次任務(wù)完成,紫線表示社會(huì)車輛交通流路線,綠線表示自動(dòng)駕駛車輛根據(jù)車道標(biāo)識(shí)產(chǎn)生的全部路線,所有車輛都遵循固定的路線。本文主要討論自動(dòng)駕駛車輛在無信號(hào)交叉口右轉(zhuǎn)通行的情況。

        1.2.1訓(xùn)練場(chǎng)景

        在訓(xùn)練場(chǎng)景中,社會(huì)車輛的行為模型遵循兩個(gè)原則:a)將其加速至目標(biāo)速度后保持不變;b)社會(huì)車輛采用自動(dòng)緊急制動(dòng)(AEB)系統(tǒng)對(duì)潛在沖突作出反映。AEB系統(tǒng)會(huì)檢測(cè)前方一定范圍內(nèi)的障礙物,一旦檢測(cè)到就會(huì)進(jìn)行緊急制動(dòng)直到碰撞檢測(cè)解除,隨后再加速至目標(biāo)速度。Carla中SV的行為模型可由內(nèi)置的Autopilot功能實(shí)現(xiàn)。Autopilot是一個(gè)基于規(guī)則的自動(dòng)駕駛框架,包括導(dǎo)航、規(guī)劃和控制模塊,該功能通過隨機(jī)規(guī)劃路線控制SV通行交叉口,由布爾開關(guān)控制是否開啟該功能以避免與其他車輛發(fā)生碰撞。本實(shí)驗(yàn)中關(guān)閉所有SV的Autopilot功能實(shí)現(xiàn)相對(duì)更隨機(jī)的交通流。采用一組可調(diào)的動(dòng)力學(xué)參數(shù)(交通流中每輛車的目標(biāo)速度v和相鄰車輛之間的間隔距離d)進(jìn)行實(shí)例化。在訓(xùn)練過程中同一交通流中每輛車所對(duì)應(yīng)的目標(biāo)速度和間隔距離是不同的,提出了一種基于Ornstein-Uhlenbeck(OU)過程的動(dòng)力學(xué)參數(shù)生成方法,OU過程為整個(gè)交通流生成一系列動(dòng)力學(xué)參數(shù),并將參數(shù)依次賦予交通流中每一輛社會(huì)車輛。OU過程的隨機(jī)微分方程為

        1.2.2測(cè)試場(chǎng)景

        測(cè)試場(chǎng)景與訓(xùn)練場(chǎng)景相同,但不同之處在于確定性測(cè)試中同一交通流相鄰社會(huì)車輛之間的間隔距離是固定的,如圖4所示,目標(biāo)速度值v在[10,40]km/h均勻采樣,間隔距離d在[15,50]m內(nèi)均勻采樣,步長均為2。除確定性測(cè)試外,另外提出用于評(píng)估AV駕駛決策的隨機(jī)性測(cè)試,在隨機(jī)性測(cè)試中,社會(huì)車輛的速度和間隔距離隨機(jī),且關(guān)閉了防碰撞功能,提供了更隨機(jī)的交通流。

        1.3右轉(zhuǎn)駕駛決策

        1.3.1定義狀態(tài)空間

        在無信號(hào)交叉口場(chǎng)景下,研究難點(diǎn)在于自動(dòng)駕駛車輛與社會(huì)車輛之間的交互。本實(shí)驗(yàn)使用AV和SV在Carla地圖中顯示位置變化的坐標(biāo)值表示狀態(tài)。其中,自動(dòng)駕駛車輛狀態(tài)向量定義Se=[ve,l],ve表示AV車輛的速度,l為一個(gè)三維的one-hot向量用于表示自動(dòng)駕駛車輛的當(dāng)前位置。SV的狀態(tài)向量定義為SV=[vi,x,vi,y,xi,yi,cos(θi),sin(θi)],vi,x,vi,y表示社會(huì)車輛i在x和y二維方向上的速度,xi,yi表示社會(huì)車輛i的卡笛爾坐標(biāo),θ表示自動(dòng)駕駛車輛坐標(biāo)系下的航向角。整體狀態(tài)空間由AV和周圍5輛社會(huì)車輛組成,將這6個(gè)狀態(tài)向量連接到一個(gè)33維向量中并將其作為強(qiáng)化學(xué)習(xí)的輸入狀態(tài)向量。

        1.3.2定義動(dòng)作空間

        在強(qiáng)化學(xué)習(xí)中將自動(dòng)駕駛車輛的加速度作為控制動(dòng)作,動(dòng)作空間定義為二維連續(xù)向量a=[a0,a1],其中a0和a1分別表示正向加速度(即加速運(yùn)動(dòng))和反向加速度(即減速運(yùn)動(dòng)),通過用a′=a0-a1向量進(jìn)行速度跟蹤,并將其控制在[0,9]m/s內(nèi)作為自動(dòng)駕駛車輛的目標(biāo)速度,動(dòng)作噪聲表達(dá)式為

        1.3.3獎(jiǎng)勵(lì)函數(shù)

        獎(jiǎng)勵(lì)函數(shù)影響到深度強(qiáng)化學(xué)習(xí)是否能夠收斂并取得預(yù)期效果,合適的獎(jiǎng)勵(lì)有利于AV學(xué)習(xí)到良好的行為策略。根據(jù)文獻(xiàn)[21]將獎(jiǎng)勵(lì)函數(shù)設(shè)置為Rfinal=Rt+Re,其中Rt表示每一個(gè)時(shí)間步長的獎(jiǎng)勵(lì),Re表示一個(gè)回合結(jié)束后的最終獎(jiǎng)勵(lì)。訓(xùn)練過程中各個(gè)事件的獎(jiǎng)勵(lì)定義為

        2仿真與分析

        本章首先定義了評(píng)估自動(dòng)駕駛性能的指標(biāo),隨后介紹了實(shí)驗(yàn)的相關(guān)超參數(shù)設(shè)置,最后在設(shè)定場(chǎng)景下進(jìn)行深度強(qiáng)化學(xué)習(xí)訓(xùn)練并對(duì)其訓(xùn)練后的行為策略進(jìn)行測(cè)試,記錄相關(guān)指標(biāo)的平均值。

        2.1評(píng)估指標(biāo)

        自動(dòng)駕駛車輛在仿真環(huán)境中進(jìn)行有限回合次數(shù)的訓(xùn)練,訓(xùn)練效果的好壞需要通過一些指標(biāo)來描述,許多指標(biāo)可用于衡量自動(dòng)駕駛車輛的行為,安全性和通行時(shí)間是最常見的性能指標(biāo)。本實(shí)驗(yàn)將通行成功率和平均通行時(shí)間作為衡量自動(dòng)駕駛車輛在該算法框架下的性能評(píng)估指標(biāo)。其中通行成功率定義為

        2.2超參數(shù)設(shè)置

        本文利用PyCharm作為開發(fā)工具,使用TensorFlow進(jìn)行深度學(xué)習(xí),總訓(xùn)練回合數(shù)目為10000,其中帶有OU噪聲的回合數(shù)為2000。訓(xùn)練過程中主要超參數(shù)如表1所示。

        2.3結(jié)果與分析

        本實(shí)驗(yàn)在訓(xùn)練AV時(shí),通過對(duì)圖4中兩種不同情景進(jìn)行右轉(zhuǎn)—直行交通流、右轉(zhuǎn)—左轉(zhuǎn)交通流與兩個(gè)交通流同時(shí)參與的三組訓(xùn)練,并在確定性測(cè)試和隨機(jī)測(cè)試中,利用基于規(guī)則的自動(dòng)緊急制動(dòng)(AEB)模型和同為AC框架的DDPG算法與改進(jìn)后的TD3算法進(jìn)行比較。

        2.3.1訓(xùn)練結(jié)果

        無信號(hào)交叉口下右轉(zhuǎn)任務(wù)的強(qiáng)化學(xué)習(xí)曲線如圖5所示。從圖中可以看到,右轉(zhuǎn)任務(wù)在2000回合內(nèi)快速收斂,5000回合內(nèi)收斂至穩(wěn)定狀態(tài),自動(dòng)駕駛車輛在面對(duì)單一交通流的情況下能夠保持較高的穩(wěn)定性,但面對(duì)兩個(gè)交通流同時(shí)參與訓(xùn)練的情況時(shí)有輕微波動(dòng),造成輕微波動(dòng)的原因在于兩個(gè)不同方向的交通流混合訓(xùn)練,相較于單一交通流來說情況更為復(fù)雜,對(duì)于AV學(xué)習(xí)也有一定的難度。

        以右轉(zhuǎn)—直行交通流為例,使用高斯噪聲的TD3算法與改進(jìn)后的TD3算法在5000回合內(nèi)目標(biāo)動(dòng)作探索曲線如圖6所示?;贠U噪聲的動(dòng)作能夠朝某個(gè)方向探索更多可能,基于高斯噪聲的動(dòng)作獨(dú)立不相關(guān),雖然也能夠探索更多可能但造成前后速度不連貫,不符合實(shí)際車輛在時(shí)序上的連貫性。

        2.3.2測(cè)試結(jié)果

        a)確定性測(cè)試。在確定性測(cè)試中,將TD3算法與基于規(guī)則AEB模型和DDPG算法分別對(duì)訓(xùn)練的三組場(chǎng)景進(jìn)行比較。AEB模型的核心是碰撞時(shí)間TTC。TTC定義為

        DDPG算法能夠解決連續(xù)高維動(dòng)作空間問題,借鑒了DQN的經(jīng)驗(yàn)回放機(jī)制打破訓(xùn)練數(shù)據(jù)的相關(guān)性,在每次更新replaybuffer時(shí),Actor和Critic網(wǎng)絡(luò)會(huì)隨機(jī)抽取一部分樣本進(jìn)行優(yōu)化,減少訓(xùn)練過程中的不穩(wěn)定性。由于同一個(gè)網(wǎng)絡(luò)參數(shù)頻繁地進(jìn)行梯度更新以及被用于計(jì)算網(wǎng)絡(luò)梯度導(dǎo)致學(xué)習(xí)過程不穩(wěn)定,DDPG算法通過創(chuàng)建兩個(gè)目標(biāo)網(wǎng)絡(luò),通過softupdate的方式對(duì)目標(biāo)網(wǎng)絡(luò)參數(shù)更新,從而很大程度上提高了訓(xùn)練的穩(wěn)定性。而TD3算法在DDPG算法穩(wěn)定的基礎(chǔ)上,解決了過估計(jì)值等問題,本研究中通過增加噪聲使得TD3算法在目標(biāo)動(dòng)作上能夠探索更多可能。基于DDPG算法實(shí)現(xiàn)的AV與TD3算法的狀態(tài)空間、動(dòng)作空間與獎(jiǎng)勵(lì)函數(shù)相同。實(shí)驗(yàn)結(jié)果如表2所示,改進(jìn)后的TD3算法通行成功率明顯高于AEB模型,相較于DDPG算法有所提升,且基于TD3算法訓(xùn)練的模型通行成功率均接近90%,平均通行時(shí)間低于AEB模型和DDPG算法下的決策。

        b)隨機(jī)測(cè)試。在隨機(jī)測(cè)試中,交通流的動(dòng)力學(xué)參數(shù)是從一個(gè)區(qū)間中均勻采樣的,避免交通流過于密集。因此,與確定性測(cè)試相比,AV在每項(xiàng)任務(wù)上的成功率更高。隨機(jī)測(cè)試結(jié)果如表3所示,基于TD3算法的AV在成功率和平均時(shí)間方面均優(yōu)于AEB模型和DDPG算法,改進(jìn)后TD3算法整體成功率在90%以上?;谝?guī)則的方法由于其輸入有限,無法在交叉口檢測(cè)與SV交通流的潛在碰撞,從而導(dǎo)致通行成功率低的現(xiàn)象。基于TD3算法訓(xùn)練的自動(dòng)駕駛車輛具有良好的適應(yīng)新環(huán)境的能力。

        3結(jié)束語

        本文研究自動(dòng)駕駛車輛在無信號(hào)交叉口右轉(zhuǎn)通行的駕駛決策。首先在Carla平臺(tái)搭建仿真環(huán)境并構(gòu)建社會(huì)車輛行為模型,有效提高車流隨機(jī)性;之后將獎(jiǎng)勵(lì)通過事件定義,有效提高策略收斂速度;最后對(duì)駕駛策略進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果表明,在隨機(jī)車流的情況下,使用改進(jìn)后的TD3算法訓(xùn)練得到的駕駛策略,在通行成功率、平均通行時(shí)間方面相較于基于規(guī)則的AEB模型和基于DDPG算法的策略都有顯著優(yōu)勢(shì)。在自動(dòng)駕駛領(lǐng)域中換道操作同樣重要,因此在下一步工作中實(shí)現(xiàn)換道決策,綜合考慮原車道與目標(biāo)車道的狀態(tài),通過對(duì)車輛進(jìn)行橫向控制和縱向控制實(shí)現(xiàn)換道動(dòng)作。

        參考文獻(xiàn):

        [1]HoelCJ,Driggs-CampbellK,WolffK,etal.Combiningplanninganddeepreinforcementlearningintacticaldecisionmakingforautonomousdriving[J].IEEETransonIntelligentVehicles,2019,5(2):294-305.

        [2]段續(xù)庭,周宇康,田大新,等.深度學(xué)習(xí)在自動(dòng)駕駛領(lǐng)域應(yīng)用綜述[J].無人系統(tǒng)技術(shù),2021,4(6):1-27.(DuanXuting,ZhouYukang,TianDaxin,etal.Areviewofdeeplearningapplicationsinautonomousdriving[J].UnmannedSystemsTechnology,2021,4(6):1-27.

        [3]KamranD,LopezCF,LauerM,etal.Risk-awarehigh-leveldecisionsforautomateddrivingatoccludedintersectionswithreinforcementlearning[C]//ProcofIEEEIntelligentVehiclesSymposium.Piscata-way,NJ:IEEEPress,2020:1205-1212.

        [4]IseleD,RahimiR,CosgunA,etal.Navigatingoccludedintersectionswithautonomousvehiclesusingdeepreinforcementlearning[C]//ProcofIEEEInternationalConferenceonRoboticsandAutomation.Piscataway,NJ:IEEEPress,2018:2034-2039.

        [5]SilverD,LeverG,HeessN,etal.Deterministicpolicygradientalgorithms[C]//Procofthe31stInternationalConferenceonMachineLearning.2014:387-395.

        [6]張斌,何明,陳希亮,等.改進(jìn)DDPG算法在自動(dòng)駕駛中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(10):264-270.(ZhangBin,HeMing,ChenXiliang,etal.ApplicationofimprovedDDPGalgorithminautomaticdriving[J].ComputerEngineeringandApplications,2019,55(10):264-270).

        [7]歐陽卓,周思源,呂勇,等.基于深度強(qiáng)化學(xué)習(xí)的無信號(hào)燈交叉路口車輛控制[J].計(jì)算機(jī)科學(xué),2022,49(3):46-51.(OuyangZhuo,ZhouSiyuan,LyuYong,etal.Vehiclecontrolatno-signalintersectionbasedondeepreinforcementlearning[J].ComputerScience,2022,49(3):46-51).

        [8]HubmannC,BeckerM,AlthoffD,etal.Decisionmakingforautonomousdrivingconsideringinteractionanduncertainpredictionofsurroundingvehicles[C]//ProcofIEEEIntelligentVehiclesSympo-sium.Piscataway,NJ:IEEEPress,2017:1671-1678.

        [9]CaiPanpan,LeeY,LuoYuanfu,etal.Summit:asimulatorforurbandrivinginmassivemixedtraffic[C]//ProcofIEEEInternationalConferenceonRoboticsandAutomation.Piscataway,NJ:IEEEPress,2020:4023-4029.

        [10]DosovitskiyA,RosG,CodevillaF,etal.Carla:anopenurbandrivingsimulator[C]//Procofthe1stConferenceonRobotLearning.2017:1-16.

        [11]裴曉飛,莫爍杰,陳禎福,等.基于TD3算法的人機(jī)混駕交通環(huán)境自動(dòng)駕駛汽車換道研究[J].中國公路學(xué)報(bào),2021,34(11):246-254.(PeiXiaofei,MoShuojie,ChenZhenfu,etal.LanechangeofhumanmachinehybriddrivingautonomousvehicleintrafficenvironmentbasedonTD3algorithm[J].ChinaJournalofHighwayandTransport,2021,34(11):246-254.

        [12]ZhangFengjiao,LiJie,LiZhi.ATD3-basedmulti-agentdeepreinforcementlearningmethodinmixedcooperation-competitionenvironment[J].Neurocomputing,2020,411:206-215.

        [13]QianLilin,XuXin,ZengYujun,etal.Deep,consistentbehavioraldecisionmakingwithplanningfeaturesforautonomousvehicles[J].Electronics,2019,8(12):1492.

        [14]BuehlerM,IagnemmaK,SinghS.Autonomousdrivinginurbanenvironments:bossandtheurbanchallenge[J].JournalofFieldRobo-tics,2008,25(8):425-466.

        [15]MontemerloM,BeckerJ,BhatS,etal.Junior:theStanfordentryintheurbanchallenge[M]//TheDARPAUrbanChallenge:AutonomousVehiclesinCityTraffic,GeorgeAirForceBase.Berlin:Springer,2009:91-123.

        [16]TreiberM,KestingA,ThiemannC.Trafficflowdynamics:data,modelsandsimulation[M].Berlin:Springer,2013.

        [17]ZhouMofan,QuXiaobo,JinSheng.Ontheimpactofcooperativeautonomousvehiclesinimprovingfreewaymerging:amodifiedintelligentdrivermodel-basedapproach[J].IEEETransonIntelligentTransportationSystems,2017,18(6):1422-1428.

        [18]WeiJunqing,DolanJM,LitkouhiB.Apredictionandcostfunction-basedalgorithmforrobustautonomousfreewaydriving[C]//ProcofIEEEIntelligentVehiclesSymposium.Piscataway,NJ:IEEEPress,2010:512-517.

        [19]SongWeilong,XiongGuangming,ChenHuiyan.Intention-awareautonomousdrivingdecision-makinginanuncontrolledintersection[J].MathematicalProblemsinEngineering,2016,2016:articleID1025349.

        [20]WangFeng,ShiDongjie,LiuTeng,etal.Decision-makingatunsigna-lizedintersectionforautonomousvehicles:left-turnmaneuverwithdeepreinforcementlearning[EB/OL].(2022-12-21).http://doi.org/10.48550/arxiv.2008.06595.

        [21]KnoxWB,AllieviA,BanzhafH,etal.Reward(mis)designforautonomousdriving[EB/OL].(2022-03-11).http://doi.org/10.48550/arxiv.2104.13906.

        亚洲av无码av男人的天堂| 国产理论亚洲天堂av| 国产专区国产精品国产三级| 人妻丰满av无码中文字幕| 亚洲美免无码中文字幕在线| 亚洲AV无码久久精品国产老人 | 国产福利一区二区三区在线观看 | 少妇人妻在线视频| 国产精品不卡无码AV在线播放| 亚洲综合中文日韩字幕| 亚洲欧美v国产一区二区| 国产欧美日韩精品a在线观看| 青青草视频华人绿色在线| 国产日本精品一区二区免费| 丰满人妻被两个按摩师| 国产精品jizz在线观看老狼| 国产高清在线91福利| 日本国产视频| 丝袜美腿久久亚洲一区| 丁香婷婷激情视频在线播放| 国产探花在线精品一区二区| 中文字幕经典一区| 中文字幕色婷婷在线视频| 九九九免费观看视频| 在线精品无码字幕无码av| 激情97综合亚洲色婷婷五| 免费观看视频在线播放| 国产一区二区三区av免费| 国产农村乱辈无码| 亚洲成av人片天堂网九九| 国产黄色一级到三级视频| 欧美性高清另类videosex| 日日躁夜夜躁狠狠躁超碰97| 无码久久精品蜜桃| 亚洲色图专区在线视频| 少妇aaa级久久久无码精品片| 曰韩精品无码一区二区三区| 亚洲国产精品天堂久久久| 日本一区二区三区视频免费在线| 免费大黄网站| 国产精品亚洲A∨天堂|