亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于融合離散動(dòng)作的雙延遲深度確定性策略梯度算法的自動(dòng)駕駛端到端行為決策方法*

        2022-03-20 14:42:30王一權(quán)劉佳琦段玉林張榮輝
        交通信息與安全 2022年1期
        關(guān)鍵詞:決策車輛動(dòng)作

        楊 璐 王一權(quán) 劉佳琦 段玉林 張榮輝

        (1.天津理工大學(xué)天津市先進(jìn)機(jī)電系統(tǒng)設(shè)計(jì)與智能控制重點(diǎn)實(shí)驗(yàn)室 天津 300384;2.天津理工大學(xué)機(jī)電工程國家級(jí)實(shí)驗(yàn)教學(xué)示范中心 天津 300384;3.中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)資源與農(nóng)業(yè)區(qū)劃研究所 北京 100081;4.中山大學(xué)廣東省智能交通系統(tǒng)重點(diǎn)實(shí)驗(yàn)室 廣州 510275)

        0 引 言

        在復(fù)雜多變的環(huán)境中學(xué)習(xí)最優(yōu)駕駛策略是自動(dòng)駕駛領(lǐng)域一直面臨的挑戰(zhàn),傳統(tǒng)的決策方法主要基于規(guī)則[1-3],通過有限狀態(tài)機(jī)、決策樹等方法對(duì)狀態(tài)、規(guī)則進(jìn)行劃分,進(jìn)而進(jìn)行計(jì)算、決策。然而基于規(guī)則的方法無法覆蓋所有可能出現(xiàn)的場景,難以適應(yīng)復(fù)雜的環(huán)境。隨著機(jī)器學(xué)習(xí)在自動(dòng)駕駛領(lǐng)域的應(yīng)用,決策模型利用神經(jīng)網(wǎng)絡(luò)處理駕駛相關(guān)環(huán)境信息,輸出車輛控制信號(hào),實(shí)現(xiàn)端到端的決策控制,成為了研究熱點(diǎn)。

        目前端到端的自動(dòng)駕駛決策方法主要基于模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)?;谀7聦W(xué)習(xí)的方法旨在模仿專家(人類駕駛員)進(jìn)行學(xué)習(xí),實(shí)現(xiàn)對(duì)專家行為的再現(xiàn)[4]。英偉達(dá)最初基于深度神經(jīng)網(wǎng)絡(luò),在端到端自動(dòng)駕駛系統(tǒng)中取得了成功,然而在新的環(huán)境中表現(xiàn)不佳。為此,巴明月[5]在輸入中增加語義分割深度圖像,并在動(dòng)作輸出前加入高級(jí)控制命令提高模型的魯棒性。Toromanoff等[6]對(duì)數(shù)據(jù)進(jìn)行增強(qiáng),僅使用1個(gè)魚眼相機(jī)實(shí)現(xiàn)了端到端自動(dòng)駕駛橫向控制。Chen等[7]在專家數(shù)據(jù)中加入了隨機(jī)噪聲,提高了模型的泛化能力。然而,基于模仿學(xué)習(xí)的決策方法仍存在局限:①訓(xùn)練時(shí)需要大量的專家數(shù)據(jù)以保證其泛化性,導(dǎo)致算法難以訓(xùn)練;②專家數(shù)據(jù)全為成功的正樣本,在面對(duì)失敗的情況時(shí)難以做出正確的決策。因此,只適用于道路上車道保持或橫向輔助控制等簡單的駕駛?cè)蝿?wù),面對(duì)復(fù)雜多變的城市交通環(huán)境,難以做出最優(yōu)決策。

        基于強(qiáng)化學(xué)習(xí)的方法讓智能體通過“試錯(cuò)”的方式在環(huán)境中進(jìn)行,根據(jù)動(dòng)作的回報(bào)對(duì)策略進(jìn)行改善學(xué)習(xí),無需標(biāo)注樣本。深度強(qiáng)化學(xué)習(xí)結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的優(yōu)點(diǎn)[8],適合解決連續(xù)控制問題,因此被許多學(xué)者應(yīng)用在端到端自動(dòng)駕駛決策中。Perot等[9]在WRC平臺(tái)上,使用異步優(yōu)勢動(dòng)作評(píng)價(jià)算法(Asynchronous advantage actor-critic,A3C)[10]同時(shí)在3條不同的賽道上訓(xùn)練車輛,證明了其泛化能力。Kendall等[11]基于單目圖像學(xué)習(xí)車道保持任務(wù),首次將深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)[12]應(yīng)用在現(xiàn)實(shí)車輛。閆浩等[13]采用REINFORCE算法設(shè)計(jì)車輛便道控制方法,并提出對(duì)經(jīng)驗(yàn)池預(yù)處理解決樣本數(shù)值和方差過大的問題。羅鵬等[14]根據(jù)專家知識(shí)和的強(qiáng)化學(xué)習(xí)算法決策的差別確定獎(jiǎng)懲函數(shù),引導(dǎo)值函數(shù)訓(xùn)練。Chen等[15]將感知信息轉(zhuǎn)換為鳥瞰圖作為狀態(tài)輸入,提高了深度強(qiáng)化學(xué)習(xí)決策的可解釋性。Zhu等[16]對(duì)基于深度強(qiáng)化學(xué)習(xí)的跟車模型進(jìn)行優(yōu)化,在安全性和舒適性優(yōu)于人類駕駛員。宋曉琳等[17]利用模仿學(xué)習(xí)輸出高層指令,根據(jù)高層指令使用DDPG算法輸出底層決策,縮減了所需求解問題的規(guī)模。

        出于安全考慮,在實(shí)際中訓(xùn)練強(qiáng)化學(xué)習(xí)的方法很少,大多數(shù)基于強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛工作都是在模擬中進(jìn)行的。Carla仿真平臺(tái)是開源的城市模擬器,擁有開放的數(shù)字資源,包括城市布局、車輛、交通信號(hào)燈等,并提供了A3C算法的強(qiáng)化學(xué)習(xí)基準(zhǔn)和模仿學(xué)習(xí)基準(zhǔn)[18]。目前多數(shù)研究都基于Carla仿真,并通過在Carla自動(dòng)駕駛挑戰(zhàn)賽[19]中證明算法的有效性。

        基于深度強(qiáng)化學(xué)習(xí)的端到端決策方法在自動(dòng)駕駛領(lǐng)域已經(jīng)取得了一定的成績,但目前的研究工作存在不足:①深度強(qiáng)化學(xué)習(xí)算法在訓(xùn)練時(shí)需要進(jìn)行大量探索,使智能體在訓(xùn)練前期容易獲得過多的低回報(bào)經(jīng)驗(yàn),導(dǎo)致算法學(xué)習(xí)效率低,盡管通過對(duì)輸入圖像進(jìn)行處理或使用其他感知數(shù)據(jù)的方式可以改善模型的輸出,但在算法探索效率上并沒有得到優(yōu)化;②目前已有研究提出利用專家演示數(shù)據(jù)對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,然后使用強(qiáng)化學(xué)習(xí)訓(xùn)練的方法來優(yōu)化模型[20-22],但只有Actor網(wǎng)絡(luò)是使用演示數(shù)據(jù)預(yù)先訓(xùn)練的,Critic網(wǎng)絡(luò)仍然是隨機(jī)初始化的,當(dāng)智能體開始與環(huán)境交互時(shí),由于不正確的價(jià)值函數(shù)估計(jì),決策性能將下降;③自動(dòng)駕駛為連續(xù)控制任務(wù),需要?jiǎng)幼髯兓交?,輸出離散空間動(dòng)作的深度Q網(wǎng)絡(luò)(DQN)[23]的表現(xiàn)不如輸出連續(xù)動(dòng)作的DDPG、PPO、A3C等網(wǎng)絡(luò),然而在直線行駛?cè)蝿?wù)中,輸出連續(xù)動(dòng)作的Actor網(wǎng)絡(luò)卻由于訓(xùn)練過程中過多的低回報(bào)經(jīng)驗(yàn),導(dǎo)致算法學(xué)習(xí)效率低下,模型收斂后車輛會(huì)在直線車道上大幅度左右擺動(dòng)的情況,存在舒適性、安全性問題。

        針對(duì)目前基于強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛研究中存在的問題,對(duì)無模型強(qiáng)化學(xué)習(xí)算法智能體探索進(jìn)行研究,提出1種融合不同動(dòng)作空間網(wǎng)絡(luò)輸出的端到端自動(dòng)駕駛行為決策方法融合離散動(dòng)作的雙延遲深度確定性策略梯度算法(Twin Delayed Deep Deterministic Policy Gradient with Discrete,TD3WD),基于不同動(dòng)作空間網(wǎng)絡(luò)輸出融合,結(jié)合2種網(wǎng)絡(luò)的優(yōu)點(diǎn),提高模型的學(xué)習(xí)效率;基于模型訓(xùn)練存在的算力問題,通過預(yù)訓(xùn)練網(wǎng)絡(luò)提取圖片特征的方式降低訓(xùn)練過程計(jì)算成本;在Calra仿真平臺(tái)中對(duì)決策系統(tǒng)進(jìn)行設(shè)計(jì),通過實(shí)驗(yàn)驗(yàn)證本研究的可行性。

        1 融合離散動(dòng)作的雙延遲深度確定性策略梯度算法

        1.1 問題描述

        在強(qiáng)化學(xué)習(xí)中,問題被定義為1個(gè)馬爾可夫決策過程(Markov decision process,MDP),由1個(gè)元組表示。智能體根據(jù)當(dāng)前狀態(tài)st∈S,通過策略π:s→a選擇動(dòng)作a t∈A。在交互環(huán)境中完成動(dòng)作執(zhí)行后,由轉(zhuǎn)移函數(shù)st+1=P(st+1|s t,at)獲取下1個(gè)狀態(tài),通過獎(jiǎng)懲函數(shù)r(s,a)獲取獎(jiǎng)勵(lì)值rt。深度強(qiáng)化學(xué)習(xí)的目標(biāo)是通過學(xué)習(xí)得到最優(yōu)策略π*,使期望累計(jì)獎(jiǎng)勵(lì)最大,期望累計(jì)獎(jiǎng)勵(lì)用狀態(tài)值函數(shù)Vπ來表示。

        式中:Gt為累計(jì)獎(jiǎng)勵(lì);γ∈( 0,1)為折扣因子,表示對(duì)未來狀態(tài)的影響程度。

        同樣,將在策略π下采取動(dòng)作的動(dòng)作值函數(shù)用Qπ來表示。

        最優(yōu)策略π*滿足

        強(qiáng)化學(xué)習(xí)算法分為基于模型和無模型2種,無模型的算法不需要智能體完整了解所在環(huán)境的模型,更容易實(shí)現(xiàn)和調(diào)整。在本文研究中,采用無模型強(qiáng)化學(xué)習(xí)算法雙延遲深度確定性策略梯度算法(twin delayed deep deterministic policy gradient,TD3),將車輛前方攝像頭圖像作為輸入,轉(zhuǎn)向盤轉(zhuǎn)角、油門開度、剎車開度作為輸出,實(shí)現(xiàn)端到端自動(dòng)駕駛決策。

        1.2 考慮融合動(dòng)作的TD3算法

        TD3算法基于Actor-Critic結(jié)構(gòu),使用2個(gè)Critic網(wǎng)絡(luò)評(píng)估動(dòng)作值,避免單個(gè)網(wǎng)絡(luò)的過估計(jì),屬于無模型算法。無模型算法存在探索效率問題,需要大量的樣本去學(xué)習(xí),容易使經(jīng)驗(yàn)回放池在訓(xùn)練前期存儲(chǔ)大量負(fù)面經(jīng)驗(yàn),導(dǎo)致算法學(xué)習(xí)效率低,模型性能差。為了提高探索效率,使智能體向更好的方向探索,提出了TD3WD,系統(tǒng)模型見圖1。

        圖1 TD3WD系統(tǒng)模型Fig.1 TD3WDsystem model

        TD3WD包含1組Actor(Actor和Target Actor)網(wǎng)絡(luò)和2組Critic(Critic和Target Critic)網(wǎng)絡(luò),附加網(wǎng)絡(luò)本質(zhì)為1組深度Q網(wǎng)絡(luò)(Eval Q和Target Q),Actor網(wǎng)絡(luò)負(fù)責(zé)輸出連續(xù)動(dòng)作,2個(gè)Critic網(wǎng)絡(luò)負(fù)責(zé)對(duì)動(dòng)作進(jìn)行評(píng)價(jià),Eval Q網(wǎng)絡(luò)負(fù)責(zé)輸出離散動(dòng)作,所有Target網(wǎng)絡(luò)負(fù)責(zé)輸出各部分的目標(biāo)值。與輸出連續(xù)動(dòng)作的Actor網(wǎng)絡(luò)相比,Eval Q網(wǎng)絡(luò)可執(zhí)行動(dòng)作數(shù)量有限,數(shù)值變化量較大,在彎道場景下的轉(zhuǎn)向盤動(dòng)作變化沒有連續(xù)網(wǎng)絡(luò)平滑;而在直線行駛場景下離散空間動(dòng)作可以使輸出轉(zhuǎn)向盤轉(zhuǎn)角為0,連續(xù)網(wǎng)絡(luò)則由于訓(xùn)練前期探索效率低,車輛會(huì)在直線車道上左右擺動(dòng)。因此,利用Eval Q網(wǎng)絡(luò)輔助Actor網(wǎng)絡(luò)探索,提高探索效率,見圖2。

        圖2 輔助探索Fig.2 Uxiliary exploration

        圖中:α為動(dòng)作比重系數(shù),表示Actor網(wǎng)絡(luò)輸出對(duì)最終輸出動(dòng)作所占比重;aCt為Actor網(wǎng)絡(luò)輸出動(dòng)作;a Dt為Eval Q網(wǎng)絡(luò)輸出動(dòng)作;at為加權(quán)融合后動(dòng)作。利用at代替aCt作為智能體輸出與環(huán)境進(jìn)行交互,加強(qiáng)模型對(duì)環(huán)境的探索。在收集交互經(jīng)驗(yàn)時(shí),將融合前后的動(dòng)作均保存在經(jīng)驗(yàn)回放池中,當(dāng)選取經(jīng)驗(yàn)進(jìn)行訓(xùn)練時(shí),使用at訓(xùn)練原TD3各網(wǎng)絡(luò),同時(shí)附加Q網(wǎng)絡(luò)使用a Dt訓(xùn)練。隨訓(xùn)練迭代次數(shù)增加,Eval Q網(wǎng)絡(luò)輸出所占比重減小到0,訓(xùn)練結(jié)束時(shí),動(dòng)作完全由Actor網(wǎng)絡(luò)輸出。和使用專家經(jīng)驗(yàn)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練的方法相比,本文算法所有經(jīng)驗(yàn)均通過智能體與環(huán)境交互所得,避免了值函數(shù)的不正確估計(jì)。

        在TD3中,2個(gè)Critic網(wǎng)絡(luò)用于輸出當(dāng)前狀態(tài)動(dòng)作的Q值,更新時(shí)使用梯度下降的方法最小化損失函數(shù)L1。

        式中:N為訓(xùn)練選取樣本批量大小;為Critic網(wǎng)絡(luò)參數(shù);yi為Target Critic網(wǎng)絡(luò)估計(jì)的目標(biāo)動(dòng)作值,取2個(gè)網(wǎng)絡(luò)輸出的較小值;γ1為折扣因子;a'為Target Actor網(wǎng)絡(luò)輸出的目標(biāo)動(dòng)作,TD3算法在Target Actor輸出增加基于正態(tài)分布的隨機(jī)噪聲以提高智能體探索能力,本文將Target Q網(wǎng)絡(luò)輸出作為噪聲與Target Actor輸出進(jìn)行加權(quán)融合,鼓勵(lì)智能體探索,權(quán)重同樣使用探索中的比重系數(shù)α;為Target Critic網(wǎng)絡(luò)參數(shù)。

        Actor網(wǎng)絡(luò)根據(jù)當(dāng)前狀態(tài)輸出動(dòng)作,為了加強(qiáng)智能體的探索能力,在更新網(wǎng)絡(luò)時(shí),同Target Actor網(wǎng)絡(luò)輸出,將Eval Q網(wǎng)絡(luò)輸出作為噪聲與Actor輸出進(jìn)行加權(quán)融合。Actor更新時(shí)使用確定性策略梯度。

        式中:θμ為Actor網(wǎng)絡(luò)參數(shù);θQ1為Critic1網(wǎng)絡(luò)參數(shù)。Actor網(wǎng)絡(luò)采取延遲更新的方式,每更新2次Critic網(wǎng)絡(luò)時(shí)更新1次。

        Actor部分和Critic部分各自對(duì)應(yīng)的Target網(wǎng)絡(luò),分別輸出目標(biāo)動(dòng)作和目標(biāo)Q值。TD3算法采用軟更新的方法對(duì)Target網(wǎng)絡(luò)進(jìn)行更新。

        式中:τ為更新系數(shù),使主網(wǎng)絡(luò)與Target網(wǎng)絡(luò)存在一定差異。同Actor網(wǎng)絡(luò)更新,Target網(wǎng)絡(luò)也采取延遲更新的方式。

        Eval Q網(wǎng)絡(luò)利用損失函數(shù)L2更新。

        式中:θ為Eval Q網(wǎng)絡(luò)參數(shù);γ2為折扣因子;為Target Q網(wǎng)絡(luò)參數(shù)。Target Q網(wǎng)絡(luò)更新如采取硬更新方式,每迭代一定次數(shù),Target Q網(wǎng)絡(luò)參數(shù)對(duì)Eval Q網(wǎng)絡(luò)參數(shù)進(jìn)行1次復(fù)制,保證網(wǎng)絡(luò)存在一定差異。

        2基于TD3WD的端到端決策模型

        2.1 狀態(tài)空間設(shè)計(jì)

        狀態(tài)空間包含自動(dòng)駕駛汽車決策所需信息,包括前方道路環(huán)境信息和車輛自身狀態(tài)信息,車輛狀態(tài)空間定義為

        使用英特爾公司研發(fā)的Carla仿真平臺(tái),通過在模擬自動(dòng)駕駛車輛設(shè)置前向RGB攝像頭,獲取前方道路實(shí)時(shí)圖像,輸入圖像像素為800×400。如圖3所示,將原始圖像進(jìn)行尺寸處理,并將其輸入到經(jīng)過預(yù)訓(xùn)練的網(wǎng)絡(luò)[24],該網(wǎng)絡(luò)為Carla官方提供的端到端決策網(wǎng)絡(luò),利用專家數(shù)據(jù)進(jìn)行端到端模仿學(xué)習(xí),可用于提取前方道路圖像特征信息,代替原始圖像輸入。將得到的特征編碼向量β與車輛速度v(m/s)以及上一時(shí)刻動(dòng)作信息(轉(zhuǎn)向盤轉(zhuǎn)角ω、油門開度t、剎車開度b)進(jìn)行信息融合,將所有信息進(jìn)行拼接,得到的新向量為狀態(tài)s t,作為全連接層網(wǎng)絡(luò)輸入。

        圖3 狀態(tài)信息處理Fig.3 State information processing

        2.2 動(dòng)作空間設(shè)計(jì)

        車輛動(dòng)作空間由轉(zhuǎn)向盤轉(zhuǎn)角ω、油門開度t、剎車開度b組成,動(dòng)作空間由連續(xù)空間aCt和離散空間a Dt組成。連續(xù)空間定義為

        連續(xù)空間中對(duì)動(dòng)作進(jìn)行歸一化,將轉(zhuǎn)向盤轉(zhuǎn)角歸一化到[-1,1],油門和剎車歸一化到[0,1]。

        由于輔助網(wǎng)絡(luò)輸出離散動(dòng)作,且每次只能選取1個(gè)動(dòng)作,因此將離散動(dòng)作值選取{0.3,0.6,1.0}這3個(gè)級(jí)別,離散空間定義為

        在直行加速和減速動(dòng)作中各有3個(gè)級(jí)別,考慮在轉(zhuǎn)彎過程中盡量避免速度發(fā)生較大變化,因此在設(shè)計(jì)左轉(zhuǎn)和右轉(zhuǎn)的離散空間動(dòng)作中,所有的油門開度均設(shè)置為0.6,使車輛能夠在轉(zhuǎn)彎過程中盡量勻速行駛,并通過不同轉(zhuǎn)向盤數(shù)值來表示轉(zhuǎn)彎幅度的大小,因此共有12組離散動(dòng)作組合。

        最終輸出動(dòng)作為

        為了使車輛在安全的速度范圍內(nèi)行駛,當(dāng)速度超過8.5 m/s的時(shí)候,設(shè)置最大油門開度為0.5。

        2.3 獎(jiǎng)懲函數(shù)設(shè)計(jì)

        為了衡量自動(dòng)駕駛車輛所作動(dòng)作的好壞,并引導(dǎo)車輛學(xué)習(xí),在設(shè)計(jì)獎(jiǎng)懲函數(shù)時(shí)考慮4個(gè)因素:車速、轉(zhuǎn)向盤轉(zhuǎn)角、壓線、碰撞。獎(jiǎng)懲函數(shù)需要鼓勵(lì)車輛沿車道向前行駛,當(dāng)車輛超出車道時(shí)給予懲罰,同時(shí)還要使動(dòng)作輸出變化盡量平滑,設(shè)計(jì)獎(jiǎng)懲函數(shù)為

        獎(jiǎng)懲函數(shù)包括速度獎(jiǎng)勵(lì)和安全懲罰。

        1)速度獎(jiǎng)勵(lì)。在車輛探索過程中,要獎(jiǎng)勵(lì)車輛向前行駛,同時(shí)懲罰車輛產(chǎn)生較大轉(zhuǎn)向角和較大轉(zhuǎn)角變化率的行為。

        式中:v為車輛速度,m/s;ωt,ωt-1分別為當(dāng)前時(shí)刻與上一時(shí)刻的轉(zhuǎn)向盤轉(zhuǎn)角。

        2)安全懲罰。在車輛探索過程中,要懲罰車輛超出車道線和馬路邊線以及發(fā)生碰撞的行為。

        式中:l ol,l or分別為車輛超出車道線和馬路邊線的面積比;rc為車輛碰撞時(shí)的懲罰,當(dāng)發(fā)生碰撞時(shí)rc取-100。

        2.4 終止條件設(shè)計(jì)

        深度強(qiáng)化學(xué)習(xí)在探索中進(jìn)行訓(xùn)練,在訓(xùn)練前期容易長時(shí)間停留在低回報(bào)區(qū)域,使記憶池存儲(chǔ)大量負(fù)面記憶,影響訓(xùn)練速度,因此需要設(shè)置終止條件。設(shè)計(jì)了以下終止條件。

        1)車輛停止。當(dāng)車輛在連續(xù)20步內(nèi)不移動(dòng)時(shí),停止當(dāng)前仿真,設(shè)置回報(bào)為-2,開始下一輪訓(xùn)練。

        2)超出車道。設(shè)定道路侵占比的閾值為0.2,即當(dāng)車輛超出車道線或馬路邊線的面積比大于該閾值時(shí),停止當(dāng)前仿真,開始下一輪訓(xùn)練。

        3)發(fā)生碰撞。當(dāng)車輛發(fā)生碰撞時(shí),停止當(dāng)前仿真,開始下一輪訓(xùn)練。

        2.5 網(wǎng)絡(luò)結(jié)構(gòu)與超參數(shù)設(shè)計(jì)

        TD3WD各子網(wǎng)絡(luò)結(jié)構(gòu)見表1,所有的Target網(wǎng)絡(luò)與其對(duì)應(yīng)網(wǎng)絡(luò)的結(jié)構(gòu)完全相同。由于輸入狀態(tài)為向量,因此所有子網(wǎng)絡(luò)結(jié)構(gòu)均由全連接層構(gòu)成。

        表1 TD3WD網(wǎng)絡(luò)結(jié)構(gòu)Tab.1 TD3WD network structure

        網(wǎng)絡(luò)訓(xùn)練超參數(shù)設(shè)置見表2。通過與仿真環(huán)境進(jìn)行在線交互來訓(xùn)練TD3WD各模塊,每當(dāng)交互達(dá)到1 000步或達(dá)到終止條件時(shí)終止當(dāng)前訓(xùn)練輪次,重新隨機(jī)初始化仿真環(huán)境后開始新的訓(xùn)練輪次,直到完成設(shè)定輪次訓(xùn)練。

        表2 超參數(shù)設(shè)置Tab.2 Hyper parameter setting

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)環(huán)境設(shè)置

        使用Carla軟件作為仿真平臺(tái),搭建自動(dòng)駕駛的模擬環(huán)境。通過Carla官方文件提供的程序接口可以獲取車輛實(shí)時(shí)速度、轉(zhuǎn)向、加速度、坐標(biāo)等數(shù)據(jù),以及紅綠燈、交通標(biāo)志等交通信號(hào)信息;還可以通過自主添加RGB相機(jī)、激光雷達(dá)、景深傳感器等傳感器來獲取環(huán)境信息;利用控制器可以對(duì)車輛進(jìn)行加速、剎車、轉(zhuǎn)向盤、換擋、手剎操作。Carla可以滿足算法訓(xùn)練的需求。

        選用穩(wěn)定版本的Carla 0.8.2,選取的模擬環(huán)境為2個(gè)小鎮(zhèn)地圖,道路為雙車道,擁有丁字路口和交叉路口。使用地圖Town 1進(jìn)行訓(xùn)練,地圖見圖4。

        圖4 訓(xùn)練地圖Town1Fig.4 Training map Town1

        在該場景中,不同的路段環(huán)境差別較大,為避免樣本分布不均勻,使車輛能夠適應(yīng)在環(huán)境中不同路段行駛,每一輪訓(xùn)練開始時(shí)隨機(jī)選擇初始地點(diǎn),并隨機(jī)選擇天氣條件,以提高模型泛化能力,見圖5。為了使實(shí)驗(yàn)條件更加接近真實(shí)環(huán)境,在仿真中增加紅燈停車的情況,在紅燈條件下強(qiáng)制設(shè)置車輛減速停止,轉(zhuǎn)向盤仍由決策網(wǎng)絡(luò)輸出控制,增加車輛靜止啟動(dòng)的經(jīng)驗(yàn)。

        圖5 隨機(jī)初始環(huán)境Fig.5 Random initial environment

        3.2 訓(xùn)練結(jié)果分析

        為了證明本文算法的學(xué)習(xí)能力,除TD3WD、TD3、DDPG算法外,將本文思想加入到DDPG中作為對(duì)比算法(delayed deep deterministic policy gradient with discrete DDPGWD),對(duì)4種算法分別進(jìn)行訓(xùn)練,在相同的實(shí)驗(yàn)條件下在地圖Town 1中分別訓(xùn)練了3 000個(gè)輪次,并對(duì)下述3個(gè)指標(biāo)進(jìn)行了統(tǒng)計(jì):①輪次平均獎(jiǎng)勵(lì),將輪次的累計(jì)獎(jiǎng)勵(lì)每10輪取1次平均值,通過累計(jì)收益評(píng)價(jià)任務(wù)學(xué)習(xí)情況;②輪次平均行駛距離,將輪次的行駛距離每10輪取1次平均值,利用行駛距離評(píng)價(jià)任務(wù)實(shí)際的完成效率;③單步平均獎(jiǎng)勵(lì),記錄每個(gè)輪次實(shí)際交互的步數(shù),求取單步平均所得獎(jiǎng)勵(lì),通過單步獎(jiǎng)勵(lì)進(jìn)一步評(píng)價(jià)模型的好壞。

        4種算法的訓(xùn)練結(jié)果見圖6~8,各曲線均在上升后趨于平緩,表明算法經(jīng)過學(xué)習(xí)后達(dá)到收斂。從圖中可以看出,TD3算法由于使用了2個(gè)Critic網(wǎng)絡(luò),避免了高估偏差,收斂后各項(xiàng)數(shù)值均在DDPG之上,性能超過了DDPG。TD3算法在2 500輪次左右完成了收斂,TD3WD算法在1 750輪次左右完成收斂,相較DDPG算法收斂速度提升了30%,學(xué)習(xí)速度更快,收斂后表現(xiàn)更好,累計(jì)獎(jiǎng)勵(lì)、行駛距離和單步獎(jiǎng)勵(lì)均超過了其他算法,可以輸出更高回報(bào)的動(dòng)作,學(xué)習(xí)效率更高;根據(jù)動(dòng)作比重α設(shè)置,TD3WD在第2 000輪時(shí)完成訓(xùn)練,在2 000輪之后,各圖曲線并未隨訓(xùn)練繼續(xù)而受影響,所提出算法訓(xùn)練是成功的。將融合動(dòng)作的思想加入DDPG后,改進(jìn)后的DDPGWD算法同樣超越了DDPG和TD3算法,證明了本文算法思想的正確性。

        圖6 輪次平均獎(jiǎng)勵(lì)Fig.6 Episode average reward

        圖7 輪次平均行駛距離Fig.7 Episode average driving distance

        圖8 單步平均獎(jiǎng)勵(lì)Fig.8 Single step average reward

        3.3 測試結(jié)果分析

        將4種算法訓(xùn)練后的模型在地圖Town 1中,針對(duì)直線行駛、彎道轉(zhuǎn)彎、穿過交叉路口、丁字路口轉(zhuǎn)彎4個(gè)任務(wù)進(jìn)行測試,并根據(jù)任務(wù)的完成情況設(shè)置壓線率、轉(zhuǎn)角變化、碰撞3個(gè)評(píng)價(jià)指標(biāo),在相同的天氣條件下,每個(gè)任務(wù)測試10個(gè)輪次,測試結(jié)果見表3。為了證明模型的泛化能力,在Town 1中選擇訓(xùn)練過程中沒有用到的天氣條件,以及在Town 2新環(huán)境下,再進(jìn)行2組測試,結(jié)果見表4~5。

        表3 Town 1測試結(jié)果Tab.3 Town 1 test results

        表4 Town 1測試結(jié)果(新天氣)Tab.4 Town 1 test results(New weather)

        從表中結(jié)果可以看出,TD3WD可以很好的完成各任務(wù),各項(xiàng)指標(biāo)綜合超過了對(duì)比算法,與原TD3相比,平均壓線率降低了74.4%,平均轉(zhuǎn)向盤轉(zhuǎn)角變化降低了56.4%,性能更加穩(wěn)定,輸出變化更加平滑。加入本文思想的DDPGWD同樣獲得了很好的結(jié)果,各項(xiàng)指標(biāo)均得到了較高的提升。DDPG與TD3則由于轉(zhuǎn)角變化較大,不能滿足舒適性的需求。此外,在新的天氣條件和新環(huán)境下,DDPG的表現(xiàn)較差,甚至不能完成任務(wù),發(fā)生多次碰撞,而TD3WD則表現(xiàn)出更好的泛化能力,仍然可以更好地完成各項(xiàng)任務(wù)。

        表5 Town 2測試結(jié)果Tab.5 Town 2 test results

        通過仿真實(shí)驗(yàn)結(jié)果可以看出,本文所提算法可以提高模型的學(xué)習(xí)效率,使網(wǎng)絡(luò)可以輸出更高回報(bào)的動(dòng)作,使車輛的舒適度、安全性得到了提高,證明了本文算法思想的正確性。

        4 結(jié)束語

        本文基于無模型深度強(qiáng)化學(xué)習(xí)算法,對(duì)自動(dòng)駕駛端到端行為決策技術(shù)展開研究。

        1)利用融合不同動(dòng)作空間網(wǎng)絡(luò)輸出的方式,鼓勵(lì)智能體對(duì)環(huán)境的探索,提高了模型的學(xué)習(xí)效率。

        2)在改進(jìn)算法的基礎(chǔ)上使用模仿學(xué)習(xí)預(yù)訓(xùn)練的網(wǎng)絡(luò)提取圖像特征,降低強(qiáng)化學(xué)習(xí)算法訓(xùn)練過程中的計(jì)算成本。

        3)通過仿真實(shí)驗(yàn)分析,結(jié)果表明該方法提高了模型的決策能力,輸出變化更加平滑。

        下一步研究將對(duì)基于融合導(dǎo)航信息的強(qiáng)化學(xué)習(xí)決策方法開展,并將環(huán)境擴(kuò)展為多車道場景,研究復(fù)雜駕駛場景下的決策任務(wù)。此外,將動(dòng)態(tài)規(guī)劃加入到?jīng)Q策中,以提高決策方法的實(shí)用性。

        猜你喜歡
        決策車輛動(dòng)作
        為可持續(xù)決策提供依據(jù)
        決策為什么失誤了
        車輛
        動(dòng)作描寫要具體
        畫動(dòng)作
        動(dòng)作描寫不可少
        冬天路滑 遠(yuǎn)離車輛
        車輛出沒,請(qǐng)注意
        提高車輛響應(yīng)的轉(zhuǎn)向輔助控制系統(tǒng)
        汽車文摘(2015年11期)2015-12-02 03:02:53
        非同一般的吃飯動(dòng)作
        视频女同久久久一区二区| 欧美成人小视频| 小13箩利洗澡无码免费视频| 国产精品自产拍av在线| 婷婷精品国产亚洲av麻豆不片 | 欧美巨大巨粗黑人性aaaaaa| 国产精品一区二区久久乐下载| 久久婷婷夜色精品国产| 国产一区二区三区av天堂| 国产成人无码免费视频在线| 久久这里只有精品9| av在线手机中文字幕| 日本一区二区视频免费在线看| 97精品一区二区视频在线观看| 日韩在线观看你懂的| 色视频日本一区二区三区| 情爱偷拍视频一区二区| 亚洲第一无码xxxxxx| 乱人伦中文字幕在线不卡网站| 白色月光免费观看完整版| 国产爆乳美女娇喘呻吟| 亚洲色大成网站www永久一区| 国产粉嫩高清| 亚洲一区二区三区精品视频| 亚洲国产精品一区二区www| 欧美理论在线| 久久精品国产白丝爆白浆| 国产精品亚洲а∨无码播放| 日本边添边摸边做边爱的网站| 国产精品日本天堂| av手机免费在线观看高潮| 亚洲国产天堂久久综合网| 欧美在线播放一区二区| 国产精品久久一区二区蜜桃| 国产亚州精品女人久久久久久 | 欧美xxxxx在线观看| 久久亚洲精品无码va大香大香| 人妻爽综合网| 免费一区二区高清不卡av| 国产精品免费观看久久| 国产精品系列亚洲第一|