亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于規(guī)則約束的深度強(qiáng)化學(xué)習(xí)智能車(chē)輛高速路場(chǎng)景下行駛決策*

        2023-09-26 03:45:44王新凱王樹(shù)鳳王世皓
        汽車(chē)技術(shù) 2023年9期
        關(guān)鍵詞:車(chē)速車(chē)道約束

        王新凱 王樹(shù)鳳 王世皓

        (1.山東科技大學(xué),青島 266590;2.山東五征集團(tuán)有限公司,日照 262306)

        主題詞:深度強(qiáng)化學(xué)習(xí) 行駛決策 智能車(chē)輛 規(guī)則約束 改進(jìn)DQN算法

        1 前言

        行駛決策是智能駕駛的核心技術(shù),也是目前的研究熱點(diǎn)之一。行駛決策算法主要分為基于規(guī)則的算法和基于機(jī)器學(xué)習(xí)的算法[1-2]。

        基于規(guī)則的行駛決策算法模型主要有有限狀態(tài)機(jī)[3]、模糊邏輯模型[4]等,規(guī)則類(lèi)算法的可解釋性好,但無(wú)法處理較為復(fù)雜和隨機(jī)的動(dòng)態(tài)道路場(chǎng)景,每添加一條規(guī)則,都需要考慮與規(guī)則庫(kù)中的其他規(guī)則是否存在沖突。

        基于機(jī)器學(xué)習(xí)的換道決策算法模型主要有決策樹(shù)模型[5]、深度學(xué)習(xí)模型[6]、強(qiáng)化學(xué)習(xí)模型[7-9]等。隨著深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的迅速發(fā)展,基于機(jī)器學(xué)習(xí)的算法在行駛決策算法中所占比重不斷增加。

        文獻(xiàn)[5]使用隨機(jī)森林和決策樹(shù)對(duì)數(shù)據(jù)集進(jìn)行分析,并輸出決策結(jié)果,但算法對(duì)數(shù)據(jù)集的依賴(lài)性強(qiáng),數(shù)據(jù)中的噪聲會(huì)直接影響算法的準(zhǔn)確性。文獻(xiàn)[6]設(shè)計(jì)了基于長(zhǎng)短時(shí)記憶(Long Short-Term Memory,LSTM)神經(jīng)網(wǎng)絡(luò)的端到端決策算法,但算法缺少探索能力且存在“黑箱”問(wèn)題,可解釋性差。強(qiáng)化學(xué)習(xí)克服了決策樹(shù)模型和深度學(xué)習(xí)模型依賴(lài)人工標(biāo)注數(shù)據(jù)的問(wèn)題,通過(guò)與環(huán)境的交互學(xué)習(xí)最優(yōu)策略,為復(fù)雜交通環(huán)境下的決策提供了新的解決思路。文獻(xiàn)[7]使用DQN 完成高速公路場(chǎng)景下的端到端自動(dòng)駕駛決策,并在部分路段達(dá)到了人類(lèi)駕駛員水準(zhǔn)。文獻(xiàn)[8]使用深度確定策略梯度(Deep Deterministic Policy Gradient,DDPG)算法建立了連續(xù)型動(dòng)作輸出的端到端駕駛決策,在開(kāi)放式賽車(chē)模擬器(The Open Racing Car Simulator,TORCS)平臺(tái)上進(jìn)行驗(yàn)證。文獻(xiàn)[9]使用NGSIM(Next Generation Simulation)數(shù)據(jù)集搭建高速路場(chǎng)景,并采用競(jìng)爭(zhēng)網(wǎng)絡(luò)(Dueling Network)、優(yōu)先經(jīng)驗(yàn)回放等方式對(duì)DQN 網(wǎng)絡(luò)進(jìn)行了改進(jìn)。但DQN 算法存在隨機(jī)性強(qiáng)、收斂速度慢等不可避免的缺陷。

        為更好地解決強(qiáng)化學(xué)習(xí)算法下智能車(chē)輛訓(xùn)練過(guò)程中的動(dòng)作選擇隨機(jī)性強(qiáng)、訓(xùn)練效率低等問(wèn)題,本文提出一種基于規(guī)則約束的DQN 智能車(chē)輛行駛決策模型。DQN 算法輸出智能車(chē)輛的行駛決策,基于最小安全距離與可變車(chē)頭時(shí)距的動(dòng)作檢測(cè)模塊實(shí)現(xiàn)對(duì)DQN動(dòng)作的硬約束,將規(guī)則引入獎(jiǎng)勵(lì)函數(shù)實(shí)現(xiàn)對(duì)智能車(chē)輛的軟約束,同時(shí)結(jié)合對(duì)算法結(jié)構(gòu)的改進(jìn),實(shí)現(xiàn)智能車(chē)輛安全高效的駕駛行為。

        2 強(qiáng)化學(xué)習(xí)原理

        2.1 DQN算法

        DQN 是在Q-Learning 算法的基礎(chǔ)上演變而來(lái),利用深度卷積神經(jīng)網(wǎng)絡(luò)代替Q-Learning的表格解決“維度災(zāi)難”問(wèn)題,實(shí)現(xiàn)了連續(xù)狀態(tài)空間下強(qiáng)化學(xué)習(xí)的應(yīng)用。

        首先,DQN算法基于ε-貪心(ε-greedy)的探索策略與環(huán)境進(jìn)行交互。Q 估計(jì)網(wǎng)絡(luò)對(duì)Q值(從某個(gè)動(dòng)作出發(fā),到最終狀態(tài)時(shí)獲得獎(jiǎng)勵(lì)總和的獎(jiǎng)勵(lì)期望)進(jìn)行估計(jì),并選擇Q值最大的動(dòng)作輸出,在更新一定次數(shù)后,再將評(píng)估網(wǎng)絡(luò)參數(shù)的權(quán)重復(fù)制給Q目標(biāo)網(wǎng)絡(luò),Q目標(biāo)網(wǎng)絡(luò)負(fù)責(zé)目標(biāo)值yt的計(jì)算。通過(guò)最小化損失函數(shù)L(θ)來(lái)更新Q估計(jì)網(wǎng)絡(luò)。算法的整體框架如圖1所示。

        圖1 DQN整體框架

        DQN目標(biāo)值的計(jì)算公式為:

        式中,yt為t時(shí)刻目標(biāo)值;rt+1為(t+1)時(shí)刻獲得的瞬時(shí)獎(jiǎng)勵(lì);γ為折扣系數(shù),可調(diào)節(jié)未來(lái)獎(jiǎng)勵(lì)對(duì)當(dāng)前動(dòng)作的影響;Q(st+1,at+1,θ-)為Q目標(biāo)網(wǎng)絡(luò)對(duì)狀態(tài)st+1所有下一步動(dòng)作at+1的Q值估計(jì);θ-為Q目標(biāo)網(wǎng)絡(luò)的參數(shù)。

        DQN的損失函數(shù)為:

        式中,Q(st,at,θ)為Q估計(jì)網(wǎng)絡(luò)對(duì)狀態(tài)st和動(dòng)作at的Q值估計(jì);θ為Q估計(jì)網(wǎng)絡(luò)的參數(shù);E為求期望操作。

        2.2 DQN算法的改進(jìn)

        DQN 算法在實(shí)際應(yīng)用中存在著過(guò)估計(jì)、更新效率低、Q值估計(jì)不準(zhǔn)確等問(wèn)題,針對(duì)以上問(wèn)題,本文分別采用雙重深度Q 網(wǎng)絡(luò)(Double DQN)、競(jìng)爭(zhēng)深度Q 網(wǎng)絡(luò)(Dueling DQN)、N 步深度Q 網(wǎng)絡(luò)(N-Step DQN)對(duì)原始的DQN 算法進(jìn)行改進(jìn)。將結(jié)合競(jìng)爭(zhēng)網(wǎng)絡(luò)和雙重網(wǎng)絡(luò)(Double Network)的DQN 變體稱(chēng)為D3QN,將引入NStep學(xué)習(xí)的D3QN稱(chēng)為ND3QN。

        2.2.1 雙重深度Q網(wǎng)絡(luò)

        DQN 算法對(duì)Q值的估計(jì)和最大Q值動(dòng)作的選擇均在Q 估計(jì)網(wǎng)絡(luò)中完成,存在過(guò)度估計(jì)的問(wèn)題,使得估計(jì)值大于真實(shí)值,可能導(dǎo)致次優(yōu)動(dòng)作的Q值大于最優(yōu)動(dòng)作的Q值,算法收斂到局部最優(yōu)。

        Double DQN[10]針對(duì)DQN 過(guò)度估計(jì)的問(wèn)題,將動(dòng)作的選擇和評(píng)估過(guò)程進(jìn)行了解耦。Q估計(jì)網(wǎng)絡(luò)選擇動(dòng)作,Q目標(biāo)網(wǎng)絡(luò)擬合當(dāng)前動(dòng)作的Q值。

        Double DQN目標(biāo)值的計(jì)算公式為:

        2.2.2 競(jìng)爭(zhēng)深度Q網(wǎng)絡(luò)

        DQN算法不同動(dòng)作對(duì)應(yīng)的Q值需要單獨(dú)學(xué)習(xí),無(wú)法更新相同狀態(tài)下的其他動(dòng)作。同時(shí)在Highway-env環(huán)境的某些狀態(tài)下,Q值的大小與當(dāng)前狀態(tài)有著直接的聯(lián)系。

        Dueling DQN[11]對(duì)網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行了改進(jìn),將其分為2個(gè)部分,將信息先分流到2個(gè)支路中:一路代表狀態(tài)值函數(shù)V(s),表示環(huán)境狀態(tài)本身具有的價(jià)值;另一路代表當(dāng)前狀態(tài)下的動(dòng)作優(yōu)勢(shì)函數(shù)A(s,a),表示選擇某個(gè)動(dòng)作額外帶來(lái)的價(jià)值。最后將這2 個(gè)支路聚合得到Q值。同時(shí),Dueling DQN 中限制同一狀態(tài)下動(dòng)作優(yōu)勢(shì)函數(shù)A(a)的平均值為0,這意味著當(dāng)前狀態(tài)的某個(gè)動(dòng)作對(duì)應(yīng)的Q值更新時(shí),其他動(dòng)作的Q值也會(huì)進(jìn)行更新,將大幅提高算法的訓(xùn)練效率。

        競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)目標(biāo)值的計(jì)算公式為:

        式中,β為狀態(tài)值函數(shù)獨(dú)有部分的網(wǎng)絡(luò)參數(shù);α為動(dòng)作優(yōu)勢(shì)函數(shù)獨(dú)有部分的網(wǎng)絡(luò)參數(shù);為所有可能采取的動(dòng)作;A為動(dòng)作空間的維數(shù)。

        2.2.3 N步深度Q網(wǎng)絡(luò)原始DQN 采用了單步時(shí)序差分方法,需要后一步的單個(gè)即時(shí)收益和狀態(tài)對(duì)當(dāng)前狀態(tài)進(jìn)行更新。蒙特卡洛方法(Monte Carlo Method)則必須采樣到終止?fàn)顟B(tài)才能更新對(duì)應(yīng)狀態(tài)價(jià)值,只有走完完整的仿真步長(zhǎng)才能更新Q值。N-step DQN[12]則是這2 種方法的折中,向后采樣的時(shí)間步長(zhǎng)n靈活可變,在訓(xùn)練前期對(duì)目標(biāo)價(jià)值可以估計(jì)得更準(zhǔn)確,從而加快訓(xùn)練速度。

        步長(zhǎng)n截?cái)嗪竽繕?biāo)值的計(jì)算公式為:

        3 基于規(guī)則約束的DQN

        為了減少智能車(chē)輛訓(xùn)練過(guò)程中無(wú)意義的碰撞,將規(guī)則引入深度強(qiáng)化學(xué)習(xí)算法,在保證智能車(chē)輛合理探索區(qū)間的前提下,減少訓(xùn)練過(guò)程中的危險(xiǎn)動(dòng)作。將引入的規(guī)則分為與換道相關(guān)的硬約束和與車(chē)道保持相關(guān)的軟約束,分別通過(guò)動(dòng)作檢測(cè)模塊與獎(jiǎng)勵(lì)函數(shù)實(shí)現(xiàn)。

        3.1 基于規(guī)則約束的DQN整體構(gòu)架

        基于規(guī)則約束的DQN整體構(gòu)架如圖2所示,所用仿真環(huán)境是Highway-env平臺(tái)中的高速路場(chǎng)景。

        圖2 基于規(guī)則約束的DQN整體構(gòu)架

        與DQN 普通構(gòu)架相比,基于規(guī)則約束的DQN 構(gòu)架主要增加了動(dòng)作檢測(cè)模型,并將規(guī)則分為硬約束和軟約束分別加入動(dòng)作檢測(cè)模型和獎(jiǎng)勵(lì)函數(shù)中。

        在行駛過(guò)程中,智能車(chē)輛首先獲取自身和周?chē)?chē)輛的參數(shù)信息作為當(dāng)前時(shí)刻的狀態(tài)值,同時(shí)將動(dòng)作值、獎(jiǎng)勵(lì)值、下一時(shí)刻的狀態(tài)值作為一個(gè)元組存儲(chǔ)到經(jīng)驗(yàn)池,從中抽取樣本,并將狀態(tài)值分別輸入到Q 估計(jì)網(wǎng)絡(luò)和Q 目標(biāo)網(wǎng)絡(luò)中。算法輸出動(dòng)作at,動(dòng)作檢測(cè)模塊獲得輸出動(dòng)作at和環(huán)境反饋的狀態(tài)空間信息st后,對(duì)屬于規(guī)則庫(kù)中的危險(xiǎn)動(dòng)作進(jìn)行剔除并重新輸出動(dòng)作決策。深度強(qiáng)化學(xué)習(xí)通過(guò)動(dòng)作與環(huán)境的交互獲得即時(shí)獎(jiǎng)勵(lì)并對(duì)損失函數(shù)進(jìn)行計(jì)算,進(jìn)而更新網(wǎng)絡(luò)參數(shù),直到算法完成迭代。

        3.2 動(dòng)作檢測(cè)模塊

        基于規(guī)則庫(kù)建立的規(guī)則算法可以實(shí)現(xiàn)智能車(chē)輛的自動(dòng)駕駛,但是其設(shè)計(jì)和驗(yàn)證難度隨著場(chǎng)景復(fù)雜度的提高不斷增加。在遵守交通法規(guī)和符合日常駕駛習(xí)慣的基礎(chǔ)上,可通過(guò)一系列簡(jiǎn)單的規(guī)則建立動(dòng)作檢測(cè)模塊,以改善DQN 駕駛決策的性能,提升智能車(chē)輛在高速路場(chǎng)景下的行駛安全性和通行效率。

        動(dòng)作檢測(cè)模塊主要由換道最小安全距離(Minimum Safety Distance,MSD)理論[13]和可變車(chē)頭時(shí)距(Variable Time Headway,VTH)模型[14]建立。換道最小安全距離即保證換道安全而兩車(chē)之間必須保持的最小行車(chē)間距。最小安全間距策略具有計(jì)算速度快、結(jié)構(gòu)簡(jiǎn)單的優(yōu)點(diǎn)。可變車(chē)頭時(shí)距模型可以根據(jù)自車(chē)車(chē)速、相對(duì)車(chē)速等因素對(duì)跟車(chē)間距進(jìn)行調(diào)整,可實(shí)現(xiàn)對(duì)可行性、安全性、靈活性的綜合考慮。

        換道最小安全距離模型應(yīng)用場(chǎng)景如圖3所示,其中Lo為當(dāng)前車(chē)道的前車(chē),Ld為相鄰車(chē)道的前車(chē),F(xiàn)o為相鄰車(chē)道的后車(chē),M 為換道車(chē)輛,而車(chē)輛M 的車(chē)速大于當(dāng)前車(chē)道后車(chē)的車(chē)速,所以忽略當(dāng)前車(chē)道后車(chē)。

        圖3 基于最小安全距離的換道場(chǎng)景

        換道最小安全距離為:

        式中,W為車(chē)輛寬度;Gmin為換道結(jié)束后兩車(chē)的車(chē)頭間距;φ為換道中換道車(chē)輛與車(chē)道線所成的夾角;Di為換道過(guò)程中車(chē)輛i的縱向位移。

        可變車(chē)頭時(shí)距安全距離為:

        式中,v為智能車(chē)輛自車(chē)速度;d0為最小車(chē)間距,指自車(chē)停車(chē)時(shí)車(chē)輛前端與前車(chē)末端的間距;Th為可變車(chē)頭時(shí)距參數(shù)。

        可變車(chē)頭時(shí)距參數(shù)Th的計(jì)算公式為:

        式中,Th_max、Th_min分別為可變車(chē)頭時(shí)距參數(shù)設(shè)置的最大、最小值;kr為相對(duì)車(chē)速的系數(shù);vr為自車(chē)與前車(chē)的相對(duì)車(chē)速;t0為自車(chē)與前車(chē)的車(chē)頭時(shí)距。

        動(dòng)作檢測(cè)模塊對(duì)當(dāng)前狀態(tài)空間信息st進(jìn)行處理得到前車(chē)車(chē)距與換道空間信息,根據(jù)最小安全距離和可變車(chē)頭時(shí)距對(duì)DQN 算法輸出的動(dòng)作at進(jìn)行檢測(cè),禁止導(dǎo)致碰撞的危險(xiǎn)動(dòng)作,并輸出當(dāng)前環(huán)境下的最優(yōu)或次優(yōu)動(dòng)作,所遵循的規(guī)則如表1所示。

        表1 主要來(lái)源于對(duì)日常駕駛習(xí)慣的總結(jié)及動(dòng)作檢測(cè)模塊所需要完成任務(wù)的理解。在高速路場(chǎng)景中,智能車(chē)輛主要面臨換道與跟馳這2種決策任務(wù),因此分別在動(dòng)作檢測(cè)中引入換道最小安全距離和可變車(chē)頭時(shí)距這2 種對(duì)應(yīng)規(guī)則模型,對(duì)智能車(chē)輛輸出的動(dòng)作進(jìn)行篩選。同時(shí),車(chē)輛駕駛可以解耦為縱向和側(cè)向2 個(gè)方向,可變車(chē)頭時(shí)距的約束范圍為縱向,換道最小安全距離的約束范圍為縱向和橫向??v向約束上采用與前車(chē)的車(chē)距作為指標(biāo),而在與前車(chē)接近的過(guò)程中,智能車(chē)首先受到可變車(chē)頭時(shí)距模型作用,然后受到換道最小安全距離模型影響。側(cè)向約束只受換道最小安全距離模型的影響。

        表1 中的前2 條主要對(duì)智能車(chē)輛的無(wú)意義換道(即智能車(chē)輛執(zhí)行換道指令必然導(dǎo)致碰撞)進(jìn)行約束,避免由換道引發(fā)的碰撞。第3條、第4條主要對(duì)智能車(chē)輛的跟隨與換道決策進(jìn)行判斷,當(dāng)前車(chē)已經(jīng)小于跟隨距離但還存在換道空間時(shí),車(chē)輛繼續(xù)直行保持車(chē)速或加速的行為是明顯錯(cuò)誤的,需要換道。第5條只是對(duì)智能車(chē)輛在訓(xùn)練過(guò)程的隨機(jī)行為進(jìn)行屏蔽,即使碰撞不可避免,但加速行為依然是明顯錯(cuò)誤的。需要說(shuō)明的是,規(guī)則表并不是為了完全避免碰撞,而是通過(guò)簡(jiǎn)單明了的規(guī)則約束來(lái)減少智能車(chē)輛在訓(xùn)練中的無(wú)效輸出與探索。

        3.3 獎(jiǎng)勵(lì)函數(shù)的設(shè)置

        深度強(qiáng)化學(xué)習(xí)通過(guò)智能車(chē)輛與環(huán)境的不斷交互產(chǎn)生數(shù)據(jù),通過(guò)迭代學(xué)習(xí)到相應(yīng)環(huán)境下的最佳策略。獎(jiǎng)勵(lì)函數(shù)的設(shè)置對(duì)深度強(qiáng)化學(xué)習(xí)有至關(guān)重要的影響,智能車(chē)輛通過(guò)累計(jì)獎(jiǎng)勵(lì)(Reward)達(dá)到最大來(lái)判斷當(dāng)前的策略是否為最佳策略。仿真平臺(tái)中的高速路場(chǎng)景中默認(rèn)獎(jiǎng)勵(lì)函數(shù)考慮的因素較少,不利于算法的訓(xùn)練。

        3.3.1 原獎(jiǎng)勵(lì)函數(shù)分析

        原環(huán)境中獎(jiǎng)勵(lì)函數(shù)主要由以下2個(gè)部分組成:

        a.車(chē)速獎(jiǎng)勵(lì)。鼓勵(lì)智能車(chē)輛以較高車(chē)速行駛,車(chē)速獎(jiǎng)勵(lì)函數(shù)為:

        式中,vmin為智能車(chē)輛的最小速度;vmax為車(chē)道限制的最大速度。

        b.碰撞懲罰。對(duì)智能車(chē)輛與其他車(chē)輛發(fā)生碰撞的情況進(jìn)行懲罰,其數(shù)值為:

        原環(huán)境中獎(jiǎng)勵(lì)函數(shù)公式為:

        式中,wv、wc為各項(xiàng)權(quán)重系數(shù),原獎(jiǎng)勵(lì)函數(shù)的各權(quán)重設(shè)置為0.4、1;Normal為歸一化函數(shù),將獎(jiǎng)勵(lì)函數(shù)輸出范圍線性變換至[0,1]。

        在實(shí)際應(yīng)用中發(fā)現(xiàn),該獎(jiǎng)勵(lì)函數(shù)在探索中對(duì)碰撞不敏感,輸出減速動(dòng)作的頻率低,更傾向于追求高車(chē)速而導(dǎo)致碰撞發(fā)生。因?yàn)楠?jiǎng)勵(lì)歸一化的原因,智能車(chē)輛以最低速度行駛在車(chē)道上就將得到較高的單步獎(jiǎng)勵(lì),在個(gè)別情況下智能車(chē)輛將學(xué)到以最低車(chē)速堅(jiān)持到整個(gè)回合結(jié)束的極端保守行為決策。

        3.3.2 修改后的獎(jiǎng)勵(lì)函數(shù)分析

        針對(duì)原獎(jiǎng)勵(lì)函數(shù)存在的問(wèn)題,將相對(duì)車(chē)速與相對(duì)距離等因素加入獎(jiǎng)勵(lì)函數(shù),提高碰撞時(shí)的扣分值,并取消獎(jiǎng)勵(lì)的歸一化操作,提高智能車(chē)輛對(duì)前車(chē)車(chē)距的敏感性,加快智能車(chē)輛訓(xùn)練進(jìn)程:

        a.車(chē)距懲罰。通過(guò)VTH、MSD、相對(duì)車(chē)速對(duì)智能車(chē)輛與前車(chē)的車(chē)距給出反饋,其獎(jiǎng)勵(lì)函數(shù)為:

        其中,Df為車(chē)距系數(shù):

        式中,vf為前車(chē)車(chē)速;d為智能車(chē)輛與前車(chē)的車(chē)距。

        b.車(chē)道獎(jiǎng)勵(lì)。鼓勵(lì)智能車(chē)輛行駛在與前車(chē)碰撞時(shí)間(Time to Collision,TTC)最大的車(chē)道上,當(dāng)所在車(chē)道為智能車(chē)輛與前車(chē)的TTC 最大的車(chē)道時(shí),其獎(jiǎng)勵(lì)函數(shù)為:

        c.換道懲罰。車(chē)輛行駛過(guò)程中應(yīng)避免頻繁變速換道,以保證乘員乘坐舒適性,換道懲罰項(xiàng)為:

        綜上,修改后的綜合獎(jiǎng)勵(lì)函數(shù)為:

        式中,wv、wc、wT、wlc、wd為各項(xiàng)權(quán)重系數(shù)。

        4 仿真分析

        4.1 仿真參數(shù)與環(huán)境設(shè)置

        為了驗(yàn)證基于規(guī)則約束的DQN 算法的有效性,選取Highway-env 中的高速路場(chǎng)景搭建仿真環(huán)境,將基于規(guī)則約束的DQN 算法應(yīng)用于智能車(chē)輛駕駛行為決策,驗(yàn)證算法在典型交通場(chǎng)景中的有效性和收斂速度,并與原始DQN算法進(jìn)行對(duì)比。

        仿真環(huán)境如下:CPU 為Inter Core i5-10400,內(nèi)存為16 GB,GPU為NVIDIA GTX 2080,深度強(qiáng)化學(xué)習(xí)編譯框架為Pytorch。根據(jù)車(chē)輛決策的適用場(chǎng)景和需求,設(shè)置Highway-env 的環(huán)境為單向4 車(chē)道場(chǎng)景,各車(chē)道從左到右的編號(hào)分別為0、1、2、3,場(chǎng)景中的其他車(chē)輛的數(shù)量為30 輛,其他車(chē)輛由最小化變道引起的總制動(dòng)(Minimizing Overall Braking Induced By Lane Change,MOBIL)和智能駕駛員模型(Intelligent Driver Model,IDM)進(jìn)行橫、縱向控制,高速路環(huán)境的各參數(shù)如表2所示。

        表2 高速路環(huán)境的各參數(shù)

        智能車(chē)輛在高速環(huán)境中的動(dòng)作有5種,分別為左轉(zhuǎn)向、保持、右轉(zhuǎn)向、加速、減速,對(duì)應(yīng)動(dòng)作空間為[a0,a1,a2,a3,a4]。

        DQN算法各超參數(shù)設(shè)置如表3所示。

        表3 DQN算法超參數(shù)設(shè)置

        4.2 獎(jiǎng)勵(lì)函數(shù)分析設(shè)置

        在原獎(jiǎng)勵(lì)函數(shù)的基礎(chǔ)上,修改后的新獎(jiǎng)勵(lì)函數(shù)經(jīng)多次仿真驗(yàn)證后,各權(quán)重取值為0.4、5.0、1.0、1.0、1.0。統(tǒng)一用DQN 算法在不同獎(jiǎng)勵(lì)函數(shù)下訓(xùn)練12 000 回合,結(jié)果如表4所示。

        表4 不同獎(jiǎng)勵(lì)函數(shù)測(cè)試結(jié)果

        從表4中可以看出:DQN在采用原獎(jiǎng)勵(lì)函數(shù)時(shí)的表現(xiàn)不佳,即使通過(guò)12 000回合訓(xùn)練,成功率僅為3.53%;修改獎(jiǎng)勵(lì)函數(shù)后,再次訓(xùn)練DQN 的成功率達(dá)到了33.16%,碰撞次數(shù)下降了30.71%,在新獎(jiǎng)勵(lì)函數(shù)車(chē)距懲罰的影響下,智能車(chē)輛跟馳行為所占的時(shí)間增加,車(chē)速有所下降。以上結(jié)果表明,獎(jiǎng)勵(lì)函數(shù)的設(shè)置對(duì)深度強(qiáng)化學(xué)習(xí)表現(xiàn)有著直接的影響,修改后的獎(jiǎng)勵(lì)函數(shù)大幅提高了智能車(chē)輛與前車(chē)保持車(chē)距的能力。

        4.3 對(duì)仿真結(jié)果的對(duì)比分析

        將測(cè)試中所有深度強(qiáng)化學(xué)習(xí)算法訓(xùn)練到完全收斂并達(dá)到最佳水平,所花時(shí)間很長(zhǎng),以原獎(jiǎng)勵(lì)函數(shù)下的DQN為例,算法在訓(xùn)練27 400回合后,成功率曲線依然有緩慢上升的趨勢(shì),時(shí)間成本較高。因此受時(shí)間成本影響,在仿真分析時(shí),統(tǒng)一訓(xùn)練12 000回合。同時(shí),深度強(qiáng)化學(xué)習(xí)輸出數(shù)據(jù)具有波動(dòng)性,為使輸出結(jié)果更加直觀,對(duì)深度強(qiáng)化學(xué)習(xí)輸出的速度、位移、回報(bào)值等數(shù)據(jù)均使用Python內(nèi)置庫(kù)中的Savitzky-Golay濾波器進(jìn)行平滑處理。Savitzky-Golay 濾波器能夠在不改變信號(hào)趨勢(shì)的情況下進(jìn)行數(shù)據(jù)的平滑處理。

        4.3.1 原獎(jiǎng)勵(lì)函數(shù)下不同算法對(duì)比分析

        原獎(jiǎng)勵(lì)函數(shù)下,不同算法的成功率、單回合平均車(chē)速、單回合平均行駛距離、單回合累計(jì)回報(bào)值,如圖4~圖7所示。

        圖4 不同算法在原獎(jiǎng)勵(lì)函數(shù)下的成功率

        圖6 不同算法在原獎(jiǎng)勵(lì)函數(shù)下的單回合平均行駛距離

        圖7 不同算法在原獎(jiǎng)勵(lì)函數(shù)下的單回合累計(jì)回報(bào)值

        不同算法在環(huán)境原獎(jiǎng)勵(lì)函數(shù)下的各項(xiàng)測(cè)試結(jié)果如表5所示。

        表5 不同算法在原獎(jiǎng)勵(lì)函數(shù)下測(cè)試結(jié)果

        由表5 可以看出,即使未改動(dòng)獎(jiǎng)勵(lì)函數(shù),得益于網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn),D3QN 算法也表現(xiàn)出更高的學(xué)習(xí)效率,成功率達(dá)到了11.91%。ND3QN算法在引入多步學(xué)習(xí)能力后,通過(guò)對(duì)Q值的更精準(zhǔn)估計(jì),在前2 000 回合的表現(xiàn)即超過(guò)了D3QN 算法12 000 回合訓(xùn)練的效果,但在4 000 回合后成功率出現(xiàn)了一定下降,雖然在總成功率上超過(guò)了D3QN 算法,但在最后1 000 回合成功率低于D3QN算法。

        深度強(qiáng)化學(xué)習(xí)的目標(biāo)是獲得最大累計(jì)獎(jiǎng)勵(lì),進(jìn)一步結(jié)合各對(duì)比圖可以看出,ND3QN 算法的平均車(chē)速在4 000 回合附近出現(xiàn)了大幅提高,但單回合的累計(jì)回報(bào)值下降并不劇烈,之后隨著平均車(chē)速的小幅提升,回報(bào)值出現(xiàn)波動(dòng)。綜上,可以得出ND3QN 算法成功率出現(xiàn)下滑的原因是,算法采用累計(jì)回報(bào)值作為學(xué)習(xí)目標(biāo)而不是成功率,ND3QN算法優(yōu)先穩(wěn)定車(chē)速,通過(guò)增大平均行駛距離來(lái)提升累計(jì)回報(bào)值,平均行駛距離達(dá)到穩(wěn)定后,提高平均車(chē)速來(lái)增加自己的單步獎(jiǎng)勵(lì)。提高車(chē)速后,原低速狀態(tài)下的車(chē)間距在高車(chē)速下將不再安全,ND3QN算法的碰撞次數(shù)增加,成功率出現(xiàn)下滑。ND3QN 算法訓(xùn)練過(guò)程成功率的下滑也再次從側(cè)面證明了原獎(jiǎng)勵(lì)函數(shù)的不合理之處。

        4.3.2 動(dòng)作檢測(cè)模塊與新獎(jiǎng)勵(lì)函數(shù)影響分析

        在使用原始DQN 算法的情況下,分別引入動(dòng)作檢測(cè)模塊與新獎(jiǎng)勵(lì)函數(shù),將引入動(dòng)作檢測(cè)模塊的DQN 算法稱(chēng)為動(dòng)作檢測(cè)深度Q 學(xué)習(xí)(Action Detection Module DQN,ADQN),新獎(jiǎng)勵(lì)函數(shù)下的DQN函數(shù)記為R+DQN,完全引入規(guī)則約束的DQN算法記為規(guī)則約束深度Q學(xué)習(xí)(Rule Constrained DQN,RCDQN)。引入不同修改項(xiàng)后算法的成功率、單回合平均車(chē)速等信息如圖8 和表6所示。

        表6 DQN算法引入動(dòng)作檢測(cè)模塊與新獎(jiǎng)勵(lì)函數(shù)測(cè)試結(jié)果

        圖8 DQN算法添加不同修改項(xiàng)后的成功率

        由圖8 可知:動(dòng)作檢測(cè)模塊在訓(xùn)練的初期(即平均車(chē)速處于低速區(qū)段時(shí))能夠減少智能車(chē)輛的碰撞;訓(xùn)練1 000回合后,引入新獎(jiǎng)勵(lì)函數(shù)的DQN算法的成功率超過(guò)了ADQN,與前車(chē)保持車(chē)距的能力則成為了智能車(chē)輛成功的關(guān)鍵;將動(dòng)作檢測(cè)模塊和修改后的獎(jiǎng)勵(lì)函數(shù)結(jié)合后,智能車(chē)輛在訓(xùn)練中成功率得到了大幅提升,成功率達(dá)到了72.32%。

        4.3.3 引入規(guī)則約束框架后各算法對(duì)比分析

        在統(tǒng)一使用動(dòng)作檢測(cè)與新獎(jiǎng)勵(lì)函數(shù)的規(guī)則約束框架(Rule Constrained)情況下,分別對(duì)DQN、D3QN、ND3QN 算法表現(xiàn)進(jìn)行分析,規(guī)則約束框架下各算法的成功率、單回合平均車(chē)速等信息如圖9和表7所示。

        圖9 規(guī)則約束框架下各算法成功率

        結(jié)合圖9 和表7 可得,引入規(guī)則約束框架的各算法的平均車(chē)速隨著算法改進(jìn)程度的提高而依次降低,成功率隨著算法改進(jìn)程度的提高而增大,RCND3QN 算法總成功率達(dá)到了90.51%,比RCDQN 算法提高出了18.19百分點(diǎn),表明在算法的改進(jìn)將進(jìn)一步提高智能車(chē)輛性能的上限,而規(guī)則約束框架的引入提高了智能車(chē)輛性能的下限。

        4.3.4 智能車(chē)輛行駛過(guò)程分析

        以RCND3QN算法為例,對(duì)算法在10 000回合時(shí)的部分關(guān)鍵幀進(jìn)行分析,關(guān)鍵幀如圖10所示。

        圖10 規(guī)則約束框架下ND3QN算法行為決策

        由圖10可知:初始時(shí)刻,智能車(chē)輛車(chē)速為25 m/s,由所在第4 車(chē)道轉(zhuǎn)向空曠的第3 車(chē)道;第1 次換道結(jié)束時(shí)刻,智能車(chē)輛在第3 車(chē)道由25 m/s 加速至27.5 m/s;第2次換道時(shí)刻,智能車(chē)輛預(yù)見(jiàn)到在第3 車(chē)道的障礙車(chē)后,由第3車(chē)道轉(zhuǎn)至第2車(chē)道;第3次換道時(shí)刻,智能車(chē)輛減速至25 m/s并由所在第2車(chē)道轉(zhuǎn)向空曠的第1車(chē)道;第4次換道時(shí)刻,智能車(chē)輛在行駛中逐漸左轉(zhuǎn)進(jìn)入第2 車(chē)道;跟馳時(shí)刻,智能車(chē)輛減速至22.5 m/s 與前車(chē)保持車(chē)距,等待時(shí)機(jī);第5次換道時(shí)刻,智能車(chē)輛判斷第3車(chē)道的車(chē)間距滿(mǎn)足換道條件,準(zhǔn)備由第3車(chē)道轉(zhuǎn)向第4車(chē)道;換道結(jié)束加速時(shí)刻,智能車(chē)輛轉(zhuǎn)移至第4 車(chē)道,開(kāi)始重新加速,由22.5 m/s加速至30 m/s。

        5 結(jié)束語(yǔ)

        針對(duì)智能車(chē)輛決策問(wèn)題,本文在保證智能車(chē)輛合理探索區(qū)間的前提下,使用規(guī)則對(duì)DQN 算法的輸出進(jìn)行約束,并對(duì)算法結(jié)構(gòu)進(jìn)行了改進(jìn),仿真結(jié)果表明:

        a.在引入Dueling-DQN、Double DQN、N-step DQN對(duì)算法進(jìn)行改進(jìn)后,更改結(jié)構(gòu)后算法的表現(xiàn)優(yōu)于原始DQN。

        b.算法分別通過(guò)動(dòng)作檢測(cè)模塊與修改獎(jiǎng)勵(lì)函數(shù)來(lái)實(shí)現(xiàn)規(guī)則約束,僅引入單一改進(jìn)項(xiàng)時(shí)修改獎(jiǎng)勵(lì)函數(shù)的提升大于動(dòng)作檢測(cè)模塊,但引入完整規(guī)則約束框架后智能車(chē)輛在訓(xùn)練中成功率遠(yuǎn)超兩者單獨(dú)作用的線性相加之和。

        c.算法的改進(jìn)將進(jìn)一步提高智能車(chē)輛決策性能的上限,而規(guī)則約束框架的引入提高了智能車(chē)輛決策性能的下限。

        同時(shí)研究也存在以下不足:

        a.規(guī)則框架中的硬約束對(duì)DQN 算法干預(yù)比較粗糙,僅僅是初步的引入,沒(méi)有將規(guī)則與算法進(jìn)行深入融合。

        b.受限于時(shí)間成本,算法參數(shù)并沒(méi)有調(diào)整至最佳,僅根據(jù)經(jīng)驗(yàn)進(jìn)行了粗略的調(diào)整,算法成功率與實(shí)際應(yīng)用的要求差距較大,仍有繼續(xù)上升的空間。

        猜你喜歡
        車(chē)速車(chē)道約束
        北斗+手機(jī)實(shí)現(xiàn)車(chē)道級(jí)導(dǎo)航應(yīng)用
        “碳中和”約束下的路徑選擇
        避免跟車(chē)闖紅燈的地面車(chē)道線
        淺談MTC車(chē)道改造
        約束離散KP方程族的完全Virasoro對(duì)稱(chēng)
        2012款奔馳R300車(chē)修改最高車(chē)速限制
        低速ETC/MTC混合式收費(fèi)車(chē)道的設(shè)計(jì)與實(shí)現(xiàn)
        適當(dāng)放手能讓孩子更好地自我約束
        人生十六七(2015年6期)2015-02-28 13:08:38
        北京現(xiàn)代途勝車(chē)車(chē)速表不工作
        兩車(chē)直角碰撞車(chē)速計(jì)算方法及應(yīng)用
        日本久久久精品免费免费理论| 久久这里有精品国产电影网| 男女男在线精品免费观看| 亚洲天堂亚洲天堂亚洲色图| 亚洲性久久久影院| 久久国产精品二国产精品| 国产成人无码av在线播放dvd| 粗大挺进尤物人妻一区二区 | 成人黄色网址| 久久精品国产精品青草色艺| 亚洲人成网站www| 国产精品亚洲一区二区三区16| 国产精品9999久久久久仙踪林| 国产麻无矿码直接观看| 好爽~又到高潮了毛片视频| 久久精品国产亚洲av麻豆床戏| 久久久99精品成人片| 久久久久久久岛国免费观看| 亚洲欧洲日韩免费无码h| 日韩亚洲国产中文字幕| 在线无码中文字幕一区| 野花在线无码视频在线播放 | 波多野结衣一区二区三区免费视频| 亚洲精品国产成人久久av盗摄| 国产精品久久久久一区二区三区 | 日本丰满熟妇videossex一| 精品无码国产污污污免费网站 | 国产后入内射在线观看| 中文字幕人乱码中文字幕乱码在线 | 国产精品麻豆成人AV电影艾秋| 蜜桃在线观看免费高清| 隔壁的日本人妻bd高清中字| 日本一卡二卡3卡四卡免费观影2022| 欧美成年黄网站色视频| 欧美国产亚洲精品成人a v| 亚洲粉嫩av一区二区黑人| 日本熟女精品一区二区三区| 无码人妻久久一区二区三区免费 | 人妻少妇精品视频无码专区| 精品欧美久久99久久久另类专区| 亚洲中文乱码在线观看|