亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)CLPER-DDPG的車輛縱向速度規(guī)劃

        2024-01-01 00:00:00柳鵬趙克剛梁志豪葉杰

        摘 要:為了解決車輛縱向速度規(guī)劃任務(wù)中規(guī)劃器不易收斂以及在多場景之間切換時(shí)穩(wěn)定性差的問題,基于多層感知機(jī)設(shè)計(jì)了車輛縱向速度規(guī)劃器,構(gòu)建了結(jié)合優(yōu)先經(jīng)驗(yàn)回放機(jī)制和課程學(xué)習(xí)機(jī)制的深度確定性策略梯度算法。該文設(shè)計(jì)了仿真場景進(jìn)行模型的訓(xùn)練和測試,并對深度確定性策略梯度(DDPG)、結(jié)合優(yōu)先經(jīng)驗(yàn)回放機(jī)制的深度確定性策略梯度(PER-DDPG)、結(jié)合優(yōu)先經(jīng)驗(yàn)回放機(jī)制和課程學(xué)習(xí)機(jī)制的深度確定性策略梯度(CLPER-DDPG)3種算法進(jìn)行對比實(shí)驗(yàn),并在園區(qū)內(nèi)的真實(shí)道路上進(jìn)行實(shí)車實(shí)驗(yàn)。結(jié)果表明:相比于DDPG算法,CLPER-DDPG算法使規(guī)劃器的收斂速度提高了56.45%,距離差均值降低了16.61%,速度差均值降低了15.25%,沖擊度均值降低了18.96%。此外,當(dāng)實(shí)驗(yàn)場景的環(huán)境氣候和傳感器硬件等參數(shù)發(fā)生改變時(shí),模型能保證在安全的情況下完成縱向速度規(guī)劃任務(wù)。

        關(guān)鍵詞:自動駕駛;縱向速度規(guī)劃;深度確定性策略梯度(DDPG)算法;課程學(xué)習(xí)機(jī)制;優(yōu)先經(jīng)驗(yàn)回放機(jī)制

        Vehicle longitudinal speed planning based on deep reinforcement learning CLPER-DDPG

        Abstract: To solve the problems of planner convergence difficulty in vehicle longitudinal speed planning and stability issues during scenario transitions, a planner was designed using a multilayer perceptron, incorporating the Deep Deterministic Policy Gradient (DDPG) algorithm with Prioritized Experience Replay (PER) and Curriculum Learning (CL). The simulation scenarios were designed for model training and testing, as well as comparative experiments among the three algorithms of DDPG, DDPG with Prioritized Experience Replay (PER-DDPG), and DDPG with both Prioritized Experience Replay and Curriculum Learning (CLPER-DDPG). Real-vehicle experiments were also carried out on actual roads within the Park. The results show that the CLPER-DDPG algorithm, comparing with the DDPG algorithm, the convergence speed of the planner is improved by 56.45%, the mean distance error is reduced by 16.61%, the mean speed error is decreased by 15.25%, and the mean jerk is lowered by 18.96%. Furthermore, when the parameters of environmental conditions and sensor hardware in the experimental scenarios are changed, the model could ensure that the longitudinal speed planning task will be completed safely.

        Key words: autonomous driving; longitudinal velocity planning; deep deterministic policy gradient (DDPG) algorithm; curriculum learning mechanism; prioritized experience replay mechanism

        合理的車輛縱向速度規(guī)劃有助于提高車輛控制的精確性、車輛行駛的高效性和駕乘體驗(yàn)的舒適性,是輔助駕駛系統(tǒng)的重要組成部分。車輛縱向控制一般是指控制器采用特定控制方法來調(diào)整車輛的縱向運(yùn)動狀態(tài),通過間接或直接的手段對車輛縱向速度進(jìn)行控制[1],其可分為上層車輛縱向速度規(guī)劃和下層車輛底盤控制。本文研究的對象是車輛縱向速度規(guī)劃,與底盤相關(guān)的車速跟隨和控制算法并不在本文的研究范圍之內(nèi)。

        傳統(tǒng)縱向速度規(guī)劃算法的設(shè)計(jì)往往與場景特征和動力學(xué)約束相關(guān),能夠在保證安全性的同時(shí),提供舒適的駕乘體驗(yàn),但在面對愈發(fā)復(fù)雜和多元化的道路交通,以及非結(jié)構(gòu)化的場景時(shí),通用的規(guī)劃算法難以達(dá)到最優(yōu)的規(guī)控效果。為了解決這一問題,有諸多文獻(xiàn)提供了解決方法:一方面,可對不同場景分別設(shè)計(jì)縱向速度規(guī)劃算法,蘆勇等[2]分別針對定速巡航和跟車巡航設(shè)計(jì)了可在量產(chǎn)車上進(jìn)行大規(guī)模部署的算法,李旭等[3]針對定速巡航和切入場景的切換提出了一種變權(quán)重的縱向速度規(guī)劃策略,張德兆等 針對靠近目標(biāo)車輛和超越目標(biāo)車輛時(shí)的2種模式設(shè)計(jì)了基于零期望加速度曲線的切換策略;另一方面,為了在不同情況下均能滿足最優(yōu)性, ZHOU Yang等[5]設(shè)計(jì)了一種基于固定時(shí)差的隨機(jī)最優(yōu)策略,相比于確定性反饋的策略,其在環(huán)境干擾較為嚴(yán)重的情況下具有更穩(wěn)定的表現(xiàn)效果。從類人的角度出發(fā),可能會更好地解決上述問題,CHU Hongqing等[6]設(shè)計(jì)了可根據(jù)不同駕駛風(fēng)格進(jìn)行自動調(diào)整的自適應(yīng)巡航策略;韓天園等[7]結(jié)合駕駛負(fù)荷分配模型和彎道智能駕駛?cè)四P?,提出了一種由類人決策層與協(xié)同控制層組成的雙層彎道自適應(yīng)巡航控制策略。此外,針對非結(jié)構(gòu)化道路, 李涵等[8]以車輛平穩(wěn)性為基本原則,提出了一種基于分段勻加速模型的全局速度規(guī)劃方法。

        上述文獻(xiàn)有效解決了傳統(tǒng)縱向速度規(guī)劃算法在復(fù)雜道路交通場景中遇到的部分問題,但在不同場景之間進(jìn)行切換時(shí),規(guī)劃效果容易受到傳感器檢測精度、人為設(shè)定切換條件、切換時(shí)策略平穩(wěn)性等方面的影響。在面對更加復(fù)雜的城市擁堵道路和車速較高的高速道路,快速響應(yīng)且連續(xù)切換的縱向速度規(guī)劃策略會更加適合。機(jī)器學(xué)習(xí),尤其是深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí),被廣泛應(yīng)用于車輛自動駕駛的感知、預(yù)測、規(guī)劃、決策與控制等各子任務(wù)上 [9-10]。目前,有部分研究將機(jī)器學(xué)習(xí)應(yīng)用于解決車輛縱向速度規(guī)劃問題。LI Guoqiang 等 [11]針對跟馳場景提出了一種基于強(qiáng)化學(xué)習(xí)的最優(yōu)控制策略,允許在沒有前瞻速度信息的情況下對不同駕駛狀態(tài)進(jìn)行連續(xù)的在線學(xué)習(xí);朱冰等 [12] 利用 Gauss 過程算法構(gòu)建了前車縱向速度變化隨機(jī)過程模型,并提出了一種能夠考慮前車運(yùn)動隨機(jī)性的跟馳策略。

        在深度強(qiáng)化學(xué)習(xí)中,深度確定性策略梯度(de ep deterministic policy gradient,DDPG)算法被廣泛應(yīng)用,但在解決縱向速度規(guī)劃問題時(shí)存在以下問題:設(shè)備性能、環(huán)境氣候等客觀因素的噪聲均會直接影響模型訓(xùn)練過程的收斂性和穩(wěn)定性;當(dāng)多場景混合形成了復(fù)雜工況時(shí),場景之間邊界可能不明顯,難以人為區(qū)分場景進(jìn)行訓(xùn)練和優(yōu)化。為了解決以上問題,本文結(jié)合優(yōu)先經(jīng)驗(yàn)回放機(jī)制[13-14]和課程學(xué)習(xí)機(jī)制[15-16],針對車輛縱向速度規(guī)劃場景進(jìn)行改進(jìn),構(gòu)建了結(jié)合優(yōu)先經(jīng)驗(yàn)回放機(jī)制和課程學(xué)習(xí)機(jī)制的深度確定性策略梯度(DDPG with both prioritized experience replay and curriculum learning, CLPER-DDPG)策略算法,提高車輛縱向速度規(guī)劃(簡稱規(guī)劃器,下同)的收斂速度;在仿真平臺上設(shè)計(jì)多場景連續(xù)變化的訓(xùn)練與測試場景,并進(jìn)行實(shí)車實(shí)驗(yàn),證明了算法的有效性和該規(guī)劃器的穩(wěn)定性;通過改變仿真場景中的傳感器參數(shù)和天氣環(huán)境,驗(yàn)證了該規(guī)劃器的魯棒性。

        1"" 相關(guān)工作

        1.1"" 深度強(qiáng)化學(xué)習(xí)算法

        強(qiáng)化學(xué)習(xí)算法是從生物適應(yīng)生存環(huán)境過程受到的啟發(fā),智能體以不斷試錯(cuò)的方式與周圍環(huán)境進(jìn)行交互,獲取對狀態(tài)空間 s 的探知,生成離散或連續(xù)的動作 a,得到對應(yīng)的獎(jiǎng)勵(lì)值,并通過最大化累計(jì)獎(jiǎng)勵(lì)的方式對策略 π 進(jìn)行優(yōu)化。值函數(shù) [17] 常被用于直觀地評估智能體所生成動作的價(jià)值,在狀態(tài)空間 s下采取動作 a 獲得的累計(jì)獎(jiǎng)勵(lì)期望越高,那么對應(yīng)動作的價(jià)值越大。在 t 時(shí)刻時(shí),基于策略 π,可用如式 (1) 和式(2) 所示的狀態(tài)價(jià)值函數(shù) V s) 和狀態(tài)動作值函數(shù) Q sa) 進(jìn)行價(jià)值

        評估,其中 Rt 為當(dāng)前時(shí)刻的累計(jì)獎(jiǎng)勵(lì)。

        Vπs) = E[Rt | s0 = s]," ""(1)

        Qπs, a) = E[Rt | s0 = s, a0 = a]." ""(2)

        在大多數(shù)情況下,動作 a 與狀態(tài) s 之間存在較為明顯的線性或非線性關(guān)系。在解決實(shí)際工程問題時(shí),可將優(yōu)化后的策略 π 離散化,并以表格的方式進(jìn)行存儲和使用。對于連續(xù)性較強(qiáng)的規(guī)控系統(tǒng),可使用神經(jīng)網(wǎng)絡(luò)代替策略 π 或值函數(shù),π 以提高智能體對高維連續(xù)狀態(tài)空間的探知能力。DeepMind 團(tuán)隊(duì) [18] 提出了深度 Q 網(wǎng)絡(luò) (deep Q-network,DQN),創(chuàng)新性地將卷積神經(jīng)網(wǎng)絡(luò)與 Q-Learning 結(jié)合起來,并在游戲測試中達(dá)到了類人的水平。

        1.2"" 深度確定性策略梯度算法

        DeepMind 團(tuán)隊(duì) [19] 在 DQN 算法上進(jìn)行改進(jìn),通過深度神經(jīng)網(wǎng)絡(luò)對狀態(tài)動作值函數(shù)和確定性的策略進(jìn)行逼近,提出了 DDPG 算法。該算法不僅能夠有效解決高維度連續(xù)動作空間的問題,還可以很好地解決值函數(shù)的收斂問題。DDPG 算法使用 Actor-Critic 算法架構(gòu),深度神經(jīng)網(wǎng)絡(luò)由 Actor 網(wǎng)絡(luò)、Critic 網(wǎng)絡(luò)、Target- Actor 網(wǎng)絡(luò)和 Target-Critic 網(wǎng)絡(luò)組成。另外,算法內(nèi)部加入 OU 噪聲(Ornstein-Uhlenbeck,Nt) 增加模型對環(huán)境的探索能力,并使用經(jīng)驗(yàn)回放池通過離線策略的方法進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。

        Actor 網(wǎng)絡(luò)使用參數(shù) θ μ 表征當(dāng)前的確定性策略,通過如式(3) 所示的方法進(jìn)行參數(shù)優(yōu)化;Critic 網(wǎng)絡(luò)使用 θ Q 表征對當(dāng)前 Q 值的估計(jì),通過最小化式 (4) 所示的損失函數(shù)的方式進(jìn)行參數(shù)優(yōu)化。

        絡(luò)訓(xùn)練的穩(wěn)定性。其中,η 為軟更新系數(shù)。

        1.3"" 優(yōu)先經(jīng)驗(yàn)回放機(jī)制

        優(yōu)先經(jīng)驗(yàn)回放機(jī)制以每一個(gè)樣本的時(shí)間差分 (temporal difference,TD) 絕對值 |δ| 作為評價(jià)樣本價(jià)值的指標(biāo),如式 (7) 所示。對于第 i 份樣本,|δ| 值越大,該樣本具有的價(jià)值越高,其優(yōu)先級越高。在采樣時(shí)基于|δi| 計(jì)算采樣概率 Pi,如式 (8) 所示。其中,α 為超參數(shù),用于控制采樣時(shí)對優(yōu)先樣本的關(guān)注度,α = 0 時(shí)為均勻策略采樣,α = 1 時(shí)為貪婪策略采樣。

        為了消除優(yōu)先經(jīng)驗(yàn)回放機(jī)制對樣本分布帶來的影響,本文在式(4)中引入了重要性采樣權(quán)重ω,可改為如式(9)所示。

        其中:D為經(jīng)驗(yàn)回放池的大??;β為超參數(shù),決定了優(yōu)先經(jīng)驗(yàn)回放機(jī)制對收斂結(jié)果的影響程度,β = 1時(shí)優(yōu)先經(jīng)驗(yàn)回放機(jī)制對收斂結(jié)果無影響。

        1.4"" 課程學(xué)習(xí)機(jī)制

        在本文中,訓(xùn)練及驗(yàn)證需要在仿真環(huán)境中進(jìn)行,通過仿真的激光雷達(dá)傳感器獲取主車周圍的點(diǎn)云數(shù)據(jù),并通過點(diǎn)云數(shù)據(jù)獲得目標(biāo)車的距離和車速等相關(guān)信息。在這些數(shù)據(jù)的產(chǎn)生、處理和傳輸?shù)姆绞胶土鞒讨?,存在噪聲、波動以及異常?shù)據(jù),使算法的收斂速度變慢,智能體學(xué)習(xí)到有用知識的難度增大,需要耗費(fèi)更多的時(shí)間來完成訓(xùn)練。

        課程學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一種訓(xùn)練策略,其模仿人類由簡至繁的學(xué)習(xí)過程,主張應(yīng)該讓模型先從簡單的數(shù)據(jù)樣本開始學(xué)習(xí),然后逐漸進(jìn)階地學(xué)習(xí)更為復(fù)雜的數(shù)據(jù)樣本和知識,提高訓(xùn)練速度。

        2"" 細(xì)節(jié)設(shè)計(jì)

        2.1"" 狀態(tài)空間設(shè)計(jì)

        綜合已有的部分文獻(xiàn) [2-4] 以及日常駕駛中常見的情況,本文將車輛縱向速度規(guī)劃場景作如下區(qū)分:跟馳場景、定速巡航場景、切入 / 切出場景和啟停場景。各場景內(nèi)均考慮當(dāng)前受控車輛為主車輛,主車輛所在道路的正前方第1 臺車輛為目標(biāo)車輛。本文只進(jìn)行車輛縱向速度規(guī)劃,動作空間 A 可直接定義為主車輛的目標(biāo)車速 vtar,并基于固定車間時(shí)距 τ 的安全距離模型(constant time headway,CTH)和目標(biāo)車輛橫向切入百分比 p 對狀態(tài)空間 s 進(jìn)行如式 (10)—(12) 建模。

        其中:vego為主車輛車速;voth為目標(biāo)車輛車速;drea目標(biāo)車輛與主車輛之間的距離;τ為車間時(shí)距;d0表示最小安全距離;WaW分別為目標(biāo)車車身在主車輛所在車道前進(jìn)方向的橫向?qū)挾群湍繕?biāo)車輛總橫向?qū)挾?。本文設(shè)定τ為3 s,d0為10 m。

        綜上,狀態(tài)空間 s 由主車與目標(biāo)車之間的距離差 Δd、速度差Δv 和車身百分比 p 組成。需要注意的是,對于定速巡航場景,本文將這 3 個(gè)狀態(tài)量都設(shè)定為 0進(jìn)行表征。

        本文將通過仿真器API所獲取的主車輛和目標(biāo)車輛的位置和速度數(shù)據(jù),稱為理想數(shù)據(jù);將通過仿真?zhèn)鞲衅鳙@取的點(diǎn)云數(shù)據(jù)和組合慣性導(dǎo)航數(shù)據(jù),并以此為基礎(chǔ)所計(jì)算主車輛和目標(biāo)車輛的位置和速度數(shù)據(jù),稱為仿真數(shù)據(jù)。本文發(fā)現(xiàn),在仿真數(shù)據(jù)和理想數(shù)據(jù)之間,voth存在較大的偏差,drea偏差相對較小,vego偏差最小。按照偏差大小進(jìn)行過渡與排序,可設(shè)計(jì)如表1所示的進(jìn)階式學(xué)習(xí)策略,總計(jì)有4個(gè)訓(xùn)練階段。

        2.2"" 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)

        在本文使用的算法框架中,Critic 網(wǎng)絡(luò)與 Target- Critic 網(wǎng)絡(luò)結(jié)構(gòu)相同,Actor 網(wǎng)絡(luò)與 Target-Actor 網(wǎng)絡(luò)結(jié)構(gòu)相同。Actor 網(wǎng)絡(luò)即為規(guī)劃器。

        Critic 網(wǎng)絡(luò)和 Actor 網(wǎng)絡(luò)的模型結(jié)構(gòu)分別如圖 1 所示。本文以全連接層(fully connected layers,F(xiàn)C)作為基本結(jié)構(gòu)設(shè)計(jì)各網(wǎng)絡(luò)架構(gòu),各層網(wǎng)絡(luò)基本采用線性整流函數(shù)(recti?ed linear unit,ReLU) 作為激活函數(shù),而 Actor 網(wǎng)絡(luò)輸出層采用雙曲正切函數(shù)(hyperbolic tangent function,Tanh) 作為激活函數(shù),將其值域映射至(-1, 1)的范圍內(nèi),代表了主車輛的目標(biāo)車速在整個(gè)場景中縱向車速限制區(qū)間或期望定速巡航速度區(qū)間的程度。 需要注意的是,v'tar 即為 Critic 網(wǎng)絡(luò)對 vtar 的估計(jì)值。

        2.3"" 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

        設(shè)計(jì)優(yōu)秀的獎(jiǎng)勵(lì)函數(shù)可以提升網(wǎng)算法的訓(xùn)練效率。本文所設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)包含了基礎(chǔ)獎(jiǎng)勵(lì)和細(xì)化獎(jiǎng)勵(lì)。細(xì)化獎(jiǎng)勵(lì)由相近數(shù)量級的過程獎(jiǎng)勵(lì)、安全獎(jiǎng)勵(lì)和完成獎(jiǎng)勵(lì)組成,如圖 2 所示。

        基礎(chǔ)獎(jiǎng)勵(lì)rbsvego、期望巡航車速vcru、縱向加速度a和權(quán)重系數(shù) [ζ1, ζ2, ζ3ζ4] 組成,如式(13)所示。在跟馳場景中,p = 1,rba、Δd和Δv決定;在定速巡航場景中,p = 0,ra、vv 決定;在切入/切出場景中,p在區(qū)間(0, 1)內(nèi)變化,rb的側(cè)重點(diǎn)在跟馳場景和定速巡航場景之間隨著目標(biāo)車輛切入/切出程度而進(jìn)行轉(zhuǎn)變?;诖耍?em>rb可引導(dǎo)模型的側(cè)重點(diǎn)在不同場景下自由切換。

        過程獎(jiǎng)勵(lì) r 是與Δd 相關(guān)的分段函數(shù),主要用以評估當(dāng)前跟車距離的合理性。當(dāng)Δd 超過 50 m 時(shí),說明主車輛已遠(yuǎn)遠(yuǎn)落后目標(biāo)車輛,目標(biāo)車輛對主車輛的影響幾乎為零;因此,rp 取最小并終止訓(xùn)練過程。過程獎(jiǎng)勵(lì)函數(shù)如式 (14) 所示。

        完成獎(jiǎng)勵(lì) ra 是與當(dāng)前回合所經(jīng)歷的時(shí)間步驟 k 相關(guān)的線性函數(shù),目的是引導(dǎo)模型盡量完整地完成車輛的縱向速度規(guī)劃任務(wù)。需要注意的是,當(dāng)主車輛完整地走完一個(gè)訓(xùn)練回合,ra = 0 ;當(dāng)發(fā)生碰撞事故或者Δd超過 50 m 導(dǎo)致訓(xùn)練過程終止時(shí),ra 如式 (15) 所示。

        r = -2×10 (1 200 -"k)." ""(15)

        安全獎(jiǎng)勵(lì) rs 與是否發(fā)生碰撞相關(guān)。若兩車不發(fā)生碰撞,r = 0 ;當(dāng)兩車發(fā)生碰撞事故使得訓(xùn)練過程終止時(shí),rs 如式 (16) 所示。

        r = -2×10 ." ""(16)

        在訓(xùn)練過程中,各場景內(nèi)環(huán)境隨機(jī)因素較多,過大的獎(jiǎng)勵(lì)數(shù)值可能會使得網(wǎng)絡(luò)參數(shù)變化劇烈,導(dǎo)致收斂變慢甚至發(fā)散。本文對總獎(jiǎng)勵(lì)函數(shù)設(shè)置縮聚因子 χ,使得梯度的數(shù)量級減小,訓(xùn)練過程中更加穩(wěn)定。綜上所述,總獎(jiǎng)勵(lì)函數(shù) r 如式 (17) 所示。

        rs = χrb + rp + ra + rs)." ""(17)

        2.4"" 超參數(shù)設(shè)計(jì)

        本文所涉及的超參數(shù)如表 2 所示。

        2.5"" CLPER-DDPG 策略算法設(shè)計(jì)

        綜上,為引入優(yōu)先經(jīng)驗(yàn)回放機(jī)制并結(jié)合課程學(xué)習(xí)機(jī)制的DDPG深度強(qiáng)化學(xué)習(xí)策略算法(CLPER-DDPG)。其偽代碼如表3所示。

        3"" 仿真實(shí)驗(yàn)

        本文使用自動駕駛仿真軟件LGSV L Simulator和自動駕駛框架Autoware.AI進(jìn)行聯(lián)合仿真。LGSVL Simulator部署于Windows 10 系統(tǒng)的計(jì)算機(jī),其搭載了 Intel Core i7-8700K和NVIDIA RTX 2080 Ti; Autoware. AI與深度強(qiáng)化學(xué)習(xí)模塊部署于 Ubuntu 18.04 系統(tǒng)的計(jì)算機(jī),其搭載了Intel Core i9-9900KF和NVIDIA RTX 2060。2臺服務(wù)器之間通過TCP/IP 協(xié)議進(jìn)行通信。

        3.1"" 仿真訓(xùn)練場景設(shè)計(jì)

        本文所設(shè)計(jì)的仿真訓(xùn)練時(shí)序場景為如圖 3 所示的單向三車道,每條車道寬 3.75 m,總共包含 4 個(gè)階段,主車輛和目標(biāo)車輛的初始速度分別為 25 、10 m / s。 Step1 為切入階段,目標(biāo)車輛保持 10 m / s 的車速,采用五次多項(xiàng)式曲線進(jìn)行換道;Step2 為跟馳階段;Step3 為切出階段,目標(biāo)車輛保持 20 m / s 的車速,采用五次多項(xiàng)式曲線進(jìn)行換道;Step4 為定速巡航階段。

        3.2"" 不同學(xué)習(xí)策略對比

        針對圖3 所示的仿真訓(xùn)練場景,本文將DDPG 算法、 PER-DDPG 算法和本文構(gòu)建的 CLPER-DDPG 算法所獲取的累計(jì)獎(jiǎng)勵(lì)值進(jìn)行對比,如圖 4 所示。

        從圖4可以看出,PER和CL對 DDPG算法有明顯的改進(jìn)。DDPG算法收斂效果一般,在第49回合之前累計(jì)獎(jiǎng)勵(lì)曲線變化不明顯,在第62回合時(shí)能夠收斂到較高的獎(jiǎng)勵(lì)值,但隨著訓(xùn)練回合次數(shù)的增加,累計(jì)獎(jiǎng)勵(lì)波動較大,并有減小的趨勢。PER-DDPG算法累計(jì)獎(jiǎng)勵(lì)收斂效果較好,在第52回合時(shí)能夠收斂到較高獎(jiǎng)勵(lì)值,收斂速度比DDPG算法提高了16.13%,PER的引入改善了經(jīng)驗(yàn)回放時(shí)對高價(jià)值數(shù)據(jù)的利用效果。CLPER- DDPG算法累計(jì)獎(jiǎng)勵(lì)收斂效果最好,在第27回合時(shí)能夠收斂到較高的獎(jiǎng)勵(lì)值,收斂速度比PER-DDPG算法提高了48.08%,比DDPG算法提高了56.45%,并能夠穩(wěn)定地維持較高的獎(jiǎng)勵(lì)值。DDPG、PER-DDPG、CLPER- DDPG 這3種算法所能達(dá)到的最高累計(jì)獎(jiǎng)勵(lì)值分別為-5.41×106、-6.04×106和-1.87×106,單獨(dú)的PER對DDPG算法的最大累計(jì)獎(jiǎng)勵(lì)值提升不明顯,但可有效抑制訓(xùn)練過程中累計(jì)獎(jiǎng)勵(lì)的波動,而結(jié)合CL可以有效提高算法的學(xué)習(xí)效果。因此,CLPER-DDPG算法在訓(xùn)練時(shí)具有收斂快、收斂后累計(jì)獎(jiǎng)勵(lì)穩(wěn)定、波動小以及所能達(dá)到的最高累計(jì)獎(jiǎng)勵(lì)高的特點(diǎn)。

        3.3"" 仿真測試場景設(shè)計(jì)

        為了驗(yàn)證所訓(xùn)練的規(guī)劃器在各種縱向速度規(guī)劃場景下的穩(wěn)定性和在不同場景之間切換的有效性,本文設(shè)計(jì)了如圖5所示的仿真測試時(shí)序場景,其各場景的出現(xiàn)順序和持續(xù)時(shí)間與圖3所示的仿真訓(xùn)練時(shí)序場景不同。該場景總共包含5個(gè)階段,主車輛和目標(biāo)車輛的初始速度分別為25、10 m/ s。Step1為跟馳階段;Step2為切出階段,目標(biāo)車輛保持20 m/ s的車速,采用五次多項(xiàng)式曲線進(jìn)行換道;Step3為切入階段,目標(biāo)車輛保持20 m/s的車速,采用五次多項(xiàng)式曲線進(jìn)行換道;Step4為跟馳階段,目標(biāo)車輛保持20 m/ s的車速勻速行駛;最后,目標(biāo)車輛勻減速至0 m/s。

        在此基礎(chǔ)上,本文設(shè)計(jì)了如表 4 所示的對照組。相比于仿真測試時(shí)原本的各狀態(tài)參數(shù)( 原始組 ),激光雷達(dá)組只改變了激光雷達(dá)的硬件參數(shù),模擬不同型號激光雷達(dá)之間的差異性,天氣環(huán)境組只改變了光照、降雨、風(fēng)速等參數(shù),模擬不同時(shí)間和環(huán)境之間的差異性。

        3.4"" 實(shí)驗(yàn)結(jié)果分析

        在不同仿真環(huán)境下,速度差 Δv 和距離差Δd 曲線如圖 6 所示。本文發(fā)現(xiàn),在定速巡航階段中,天氣環(huán)境所引起的地面附著系數(shù)變化會影響主車輛的行車距離,進(jìn)而影響目標(biāo)車輛切入時(shí)的初始 Δd,主要體現(xiàn)在時(shí)序區(qū)間 [500, 520] s 內(nèi)。從圖 6 中的原始組對應(yīng)的曲線可知,仿真測試場景下主車輛與目標(biāo)車輛之間能保持較為穩(wěn)定的速度跟隨和距離保持,在切入場景中能及時(shí)調(diào)整安全的跟車距離。

        不同對照組與原始參數(shù)組在 Δv 和Δd 上的平均偏差,如表 5 所示。為了便于分析,本文在對 Δd 的平均偏差進(jìn)行分析時(shí),屏蔽了[402, 518] s 范圍( 定速巡航場景)的數(shù)據(jù)。相比較于激光雷達(dá)組,天氣環(huán)境組中二者的偏差值相對較大,Δd 平均偏差增長了42.65%,Δv平均偏差增長了2.97%。本文認(rèn)為,產(chǎn)生這個(gè)現(xiàn)象的原因在于天氣環(huán)境組中地面附著系數(shù)產(chǎn)生了較大的變化,與底盤相關(guān)的車速跟隨和控制算法受到了較大影響,進(jìn)而導(dǎo)致Δv 和Δd 的平均偏差增大。在不同的對照組內(nèi),縱向速度規(guī)劃效果存在明顯的偏差,但均能夠順利完成縱向速度規(guī)劃任務(wù),規(guī)劃器具有一定的魯棒性。

        對于相同的仿真訓(xùn)練場景和模型結(jié)構(gòu),DDPG 和 CLPER-DDPG 這 2 種不同算法所訓(xùn)練的規(guī)劃器在相同仿真測試場景中的表現(xiàn)如表6 所示。相比于DDPG 算法, CLPER-DDPG 算法獲得了更好的結(jié)果,Δd 均值降低了16.61%,Δv 均值降低了15.25%,沖擊度均值可控制在 5.36 m / s3 以內(nèi),降低了18.96%。

        4"" 實(shí)車實(shí)驗(yàn)

        本文以廣汽傳祺 GE3 純電動汽車作為實(shí)車實(shí)驗(yàn)車輛( 主車輛 ),并有另一實(shí)驗(yàn)人員按照一定規(guī)律駕駛汽車作為目標(biāo)車輛,該 2 輛車與仿真實(shí)驗(yàn)中的車輛車型相近,均為 SUV 型,具有相似的車輛動力學(xué)特性。主車輛搭載了128 線程車載激光雷達(dá)傳感器、GNSS 組合慣性定位導(dǎo)航系統(tǒng)等硬件設(shè)備。實(shí)驗(yàn)場地為廣東省廣州市天河區(qū)華南理工大學(xué)五山校區(qū)的一條直線道路,長度約 400 m。受限于實(shí)驗(yàn)場地的大小和安全性,本文對各個(gè)場景只設(shè)計(jì)了單獨(dú)的實(shí)驗(yàn)。實(shí)驗(yàn)車輛和實(shí)驗(yàn)場地如圖 7 所示。

        本文對跟馳、定速巡航、切入/切出和啟停4個(gè)場景分別進(jìn)行了實(shí)車實(shí)驗(yàn),由于篇幅有限,此處只對切入/切出場景的結(jié)果進(jìn)行展示和分析。

        在切入場景中,主車輛首先以 20 km / h 的期望巡航車速行駛一段時(shí)間,隨后目標(biāo)車輛以 10 km / h 左右的車速從左側(cè)車道平順地切入至主車輛的前方,并在主車輛所在的車道內(nèi)保持直線行駛。其兩車之間的Δv和Δd 如圖 8 所示。

        從圖8中可知,目標(biāo)車輛在10.3~17.7 s的時(shí)間內(nèi)進(jìn)行了切入,并在切入之后保持了6.6 s左右的直線行駛。實(shí)驗(yàn)結(jié)果數(shù)據(jù)表明,主車輛并未因?yàn)槟繕?biāo)車輛的切入發(fā)生劇烈的速度波動,而是利用最小安全距離d0作為緩沖,緩慢降低其車速,縮小與目標(biāo)車輛之間的速度差距,并合理控制安全的跟車距離。當(dāng)目標(biāo)車輛開始切入時(shí),其車身百分比隨時(shí)間增加,縱向速度規(guī)劃策略將關(guān)注的重心從定速巡航逐步轉(zhuǎn)移至切入場景,并在3.5 s之后逐步轉(zhuǎn)移至跟馳場景,保持較好的速度跟隨,最大速度差為 2.996 km / h。

        在切出場景中,目標(biāo)車輛以 10 km / h 左右的車速在主車輛前方道路上直線行駛一段距離,隨后保持該車速平順地切出至左邊車道,并不再切入。兩車之間的 Δv 和Δd 如圖 9 所示。

        從圖 9 中可知,目標(biāo)車輛先保持 18.7 s 的直線行駛,并在 18.7~21.2 s 的時(shí)間內(nèi)進(jìn)行了切出。實(shí)驗(yàn)結(jié)果數(shù)據(jù)表明:主車輛在初始階段快速進(jìn)行速度調(diào)整,并保持良好的跟馳狀態(tài);在目標(biāo)車輛切出前,主車輛穩(wěn)定地跟隨目標(biāo)車輛進(jìn)行行駛,其 Δv 和Δd 得到有效控制;此外,目標(biāo)車輛的車速波動對主車輛的車速規(guī)劃影響被有效控制,兩車最大速度差為1.20 km / h;當(dāng)目標(biāo)車輛切出時(shí),主車輛車速規(guī)劃主動降低,保持安全的跟車距離;隨著目標(biāo)車輛車身百分比 p 的減小,算法將關(guān)注的重心逐步放到定速巡航場景中。

        5"" 結(jié)""" 論

        本文結(jié)合課程學(xué)習(xí)機(jī)制和優(yōu)先經(jīng)驗(yàn)回放機(jī)制的優(yōu)點(diǎn),設(shè)計(jì)結(jié)合了優(yōu)先經(jīng)驗(yàn)回放機(jī)制和課程學(xué)習(xí)機(jī)制的深度確定性策略梯度(CLPER-DDPG)深度強(qiáng)化學(xué)習(xí)策略算法,在仿真環(huán)境中對車輛縱向控制速度規(guī)劃器進(jìn)行訓(xùn)練,并在實(shí)車環(huán)境中進(jìn)行驗(yàn)證,為深度強(qiáng)化學(xué)習(xí)在車輛縱向控制算法中的應(yīng)用提供了一種解決方案,并得到如下結(jié)論:

        本文對訓(xùn)練數(shù)據(jù)的波動情況進(jìn)行分析,制定了進(jìn)階式學(xué)習(xí)計(jì)劃,使訓(xùn)練過程中的數(shù)據(jù)從理想數(shù)據(jù)向仿真數(shù)據(jù)進(jìn)行平穩(wěn)過渡,并使用優(yōu)先經(jīng)驗(yàn)回放機(jī)制提高訓(xùn)練過程對高價(jià)值樣本的利用率。試驗(yàn)結(jié)果表明,相比于深度確定性策略梯度(DDPG),CLPER-DDPG算法可將訓(xùn)練時(shí)長縮短 56.45%。

        相比于DDPG算法,CLPER-DDPG算法所訓(xùn)練的規(guī)劃器具有更好的表現(xiàn)效果,能更好地實(shí)現(xiàn)對目標(biāo)車輛的距離跟隨和速度跟隨,距離差(Δd)均值為2.06 m,降低了16.61%,速度差(Δv)均值為1.067 m / s,降低了15.25%,沖擊度均值可控制在5.36 m / s3以內(nèi),降低了18.96%。

        當(dāng)激光雷達(dá)硬件或天氣環(huán)境發(fā)生改變時(shí),主車輛對目標(biāo)車輛的狀態(tài)檢測與估計(jì)存在波動,進(jìn)而影響規(guī)劃器效果。相比于激光雷達(dá)硬件參數(shù),天氣環(huán)境發(fā)生增長了42.65%,Δv 平均偏差增長了2.97%,但均能夠順利完成縱向速度規(guī)劃任務(wù),規(guī)劃器具有一定的魯棒性。在未來的研究中,可基于本文所有構(gòu)建的車輛縱向速度規(guī)劃器,同時(shí)考慮主車輛附近多個(gè)目標(biāo)車輛的運(yùn)動狀態(tài),結(jié)合主車輛的動力學(xué)特性,使用更先進(jìn)的深度強(qiáng)化學(xué)習(xí)算法,在復(fù)雜道路交通場景內(nèi)構(gòu)建車輛縱向控制器,直接實(shí)現(xiàn)對主車輛的速度跟隨與車輛控制。此外,可從全局多車方面考慮不同車輛的縱向速度規(guī)劃之間的協(xié)同,并設(shè)定碰撞邊界,提高多車場景的車輛通行效率和安全性。

        免费人成在线观看视频播放 | 在线中文字幕有码中文| 一本大道在线一久道一区二区| 操老熟妇老女人一区二区| 激情亚洲一区国产精品久久| 欧洲美女黑人粗性暴交| 亚洲免费观看| 男人的天堂av一二三区| 亚洲精品久久视频网站| 亚洲欧美乱日韩乱国产| 久久国产精品无码一区二区三区| 99久久精品久久久| 亚洲男同免费视频网站| 亚洲av无码一区二区三区网址| 激情 人妻 制服 丝袜| 456亚洲人成在线播放网站| 国产精品女丝袜白丝袜美腿| 亚洲av无码一区东京热久久| 无码人妻丰满熟妇片毛片| 无码人妻精品一区二区三区下载| 久久精品国产亚洲av沈先生| 午夜无码一区二区三区在线观看| 少妇高潮潮喷到猛进猛出小说| 精品少妇爆乳无码aⅴ区| 国产肉丝袜在线观看| 秋霞日韩一区二区三区在线观看| 久久亚洲国产高清av一级| 国产免费又色又爽粗视频| 国产做a爱片久久毛片a片| 久久国产精99精产国高潮| 五十路在线中文字幕在线中文字幕| 欧美白人战黑吊| 亚洲乱码av中文一区二区| 中文字幕亚洲人妻系列| 亚洲一区二区三区免费的视频| 国产成人精品久久亚洲高清不卡| 国产精品无码不卡一区二区三区| jk制服黑色丝袜喷水视频国产| 三级国产高清在线观看| 美女脱了内裤张开腿让男人桶网站| 亚州综合激情另类久久久|