摘 要:隨著自動(dòng)駕駛技術(shù)的不斷發(fā)展,行為決策作為其中的關(guān)鍵技術(shù)之一,受到了廣泛關(guān)注。文章提出了一種基于深度強(qiáng)化學(xué)習(xí)中的DQN(Deep Q-Network)改進(jìn)的自動(dòng)駕駛行為決策方法。該方法通過(guò)引入優(yōu)先經(jīng)驗(yàn)回放和雙重DQN技術(shù),提高了算法的收斂速度和穩(wěn)定性。同時(shí),針對(duì)自動(dòng)駕駛多交互環(huán)境的復(fù)雜性,設(shè)計(jì)了合理的狀態(tài)空間和動(dòng)作空間,并進(jìn)行了充分的實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效地實(shí)現(xiàn)自動(dòng)駕駛車輛在多交互場(chǎng)景交叉路口的行為決策,提高了決策的通過(guò)性和場(chǎng)景泛化性。
關(guān)鍵詞:自動(dòng)駕駛 行為決策 深度強(qiáng)化學(xué)習(xí) DQN
自動(dòng)駕駛技術(shù)是當(dāng)前智能交通系統(tǒng)的重要組成部分,其能夠?qū)崿F(xiàn)車輛的自主導(dǎo)航和駕駛。在自動(dòng)駕駛系統(tǒng)中,多交互場(chǎng)景下的行為決策是一個(gè)關(guān)鍵且復(fù)雜的問(wèn)題,需要考慮多種交通規(guī)則和動(dòng)態(tài)環(huán)境因素。傳統(tǒng)的自動(dòng)駕駛行為決策方法往往基于規(guī)則方法,最常用的是有限狀態(tài)機(jī)、動(dòng)態(tài)規(guī)劃方法[1]。隨著人工智能方法的發(fā)展,強(qiáng)化學(xué)習(xí)[2]、深度強(qiáng)化學(xué)習(xí)的研究[3-9]、模仿學(xué)習(xí)[10]、RNN[11]等方法也逐漸唄研究者所關(guān)注,但在復(fù)雜多變的交叉路口環(huán)境中難以取得理想的效果。因此,本文提出了一種基于DQN改進(jìn)的自動(dòng)駕駛交叉路口行為決策方法,旨在提高決策的準(zhǔn)確性和實(shí)時(shí)性。
1 方法
1.1 方法概述
在自動(dòng)駕駛領(lǐng)域,行為決策是實(shí)現(xiàn)車輛自主行駛的關(guān)鍵環(huán)節(jié)之一。然而,現(xiàn)有的自動(dòng)駕駛行為決策方法主要基于規(guī)則、數(shù)學(xué)模型或機(jī)器學(xué)習(xí)方法,如傳統(tǒng)機(jī)器學(xué)習(xí)、有限狀態(tài)機(jī)等。這些方法在處理復(fù)雜交通場(chǎng)景和動(dòng)態(tài)環(huán)境時(shí)存在一定的局限性,如適應(yīng)性不強(qiáng)、泛化能力有限等問(wèn)題。此外,現(xiàn)有的自動(dòng)駕駛行為決策方法在考慮車輛動(dòng)態(tài)屬性和交通規(guī)則方面也存在一定的不足,容易導(dǎo)致不合理的車輛行為和潛在的安全隱患。
隨著人工智能技術(shù)的不斷發(fā)展,強(qiáng)化學(xué)習(xí)算法逐漸應(yīng)用于自動(dòng)駕駛領(lǐng)域。強(qiáng)化學(xué)習(xí)算法能夠使智能體在模擬環(huán)境中通過(guò)試錯(cuò)進(jìn)行學(xué)習(xí),逐步優(yōu)化策略。
在現(xiàn)有的自動(dòng)駕駛技術(shù)中,處理強(qiáng)交互路口的決策問(wèn)題仍然是一個(gè)挑戰(zhàn)。傳統(tǒng)的方法主要基于規(guī)則、傳統(tǒng)的機(jī)器學(xué)習(xí)算法或淺層強(qiáng)化學(xué)習(xí)算法。然而,這些方法可能無(wú)法有效地處理強(qiáng)交互路口中的復(fù)雜性和不確定性,從而導(dǎo)致決策效率和安全性的下降。
為了解決這個(gè)問(wèn)題,本文提出了應(yīng)用于強(qiáng)交互場(chǎng)景的基于DQN改進(jìn)的自動(dòng)駕駛行為決策方法。DQN方法是一種將深度學(xué)習(xí)與Q-learning算法[12-13]相結(jié)合的增強(qiáng)學(xué)習(xí)技術(shù)。其核心思想是利用深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)大表征能力來(lái)近似Q值函數(shù),從而解決傳統(tǒng)Q-learning在處理高維或連續(xù)狀態(tài)空間時(shí)遇到的挑戰(zhàn)。具體來(lái)說(shuō),DQN方法首先定義了一個(gè)深度神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)的輸入是環(huán)境的狀態(tài),輸出則是對(duì)應(yīng)每個(gè)可能動(dòng)作的Q值預(yù)測(cè)。這個(gè)網(wǎng)絡(luò)被訓(xùn)練來(lái)逼近真實(shí)的Q值函數(shù),即對(duì)于給定的狀態(tài),預(yù)測(cè)采取不同動(dòng)作所能獲得的預(yù)期回報(bào)。本文基于DQN通過(guò)引入雙Q網(wǎng)絡(luò)結(jié)構(gòu)來(lái)減少Q(mào)值過(guò)估計(jì)的問(wèn)題,從而提高決策的準(zhǔn)確性以及通過(guò)性。
1.2 方法應(yīng)用及改進(jìn)
與現(xiàn)有方法相比,本文的主要區(qū)別點(diǎn)體現(xiàn)在以下幾個(gè)方面。
(1)深度強(qiáng)化學(xué)習(xí)的應(yīng)用:現(xiàn)有方法在處理自動(dòng)駕駛車輛決策問(wèn)題時(shí),往往采用基于規(guī)則、傳統(tǒng)機(jī)器學(xué)習(xí)或其他傳統(tǒng)控制方法。本文則首次提出了一種基于深度強(qiáng)化學(xué)習(xí)的決策方法,能夠自動(dòng)學(xué)習(xí)和優(yōu)化在強(qiáng)交互場(chǎng)景如路口左轉(zhuǎn)行為的行為決策策略。
(2)雙Q網(wǎng)絡(luò)結(jié)構(gòu):與常見(jiàn)的Q-learning或DQN方法不同,本文引入了雙Q網(wǎng)絡(luò)(Double Q-Network)結(jié)構(gòu)。這一結(jié)構(gòu)有效地緩解了Q值過(guò)估計(jì)的問(wèn)題,從而提高了決策的準(zhǔn)確性和穩(wěn)定性。
(3)獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì):本文特別針對(duì)左轉(zhuǎn)行為的特性和安全、通過(guò)性、效率需求,設(shè)計(jì)了定制化的獎(jiǎng)勵(lì)函數(shù)。該函數(shù)不僅能夠反映駕駛的安全性和通過(guò)性,還可以根據(jù)實(shí)際需求進(jìn)行靈活調(diào)整,使自動(dòng)駕駛車輛更加智能和適應(yīng)性強(qiáng)。
(4)經(jīng)驗(yàn)回放機(jī)制:本文采用了經(jīng)驗(yàn)回放(Experience Replay)機(jī)制,這意味著模型可以從過(guò)去的經(jīng)驗(yàn)中隨機(jī)抽取樣本進(jìn)行學(xué)習(xí),從而提高了樣本效率,加速了模型的收斂速度,并增強(qiáng)了模型的泛化能力。
綜上所述,本文通過(guò)結(jié)合深度強(qiáng)化學(xué)習(xí)和雙Q網(wǎng)絡(luò)結(jié)構(gòu),設(shè)計(jì)定制化獎(jiǎng)勵(lì)函數(shù),并引入經(jīng)驗(yàn)回放機(jī)制,為自動(dòng)駕駛車輛在強(qiáng)交互路口的左轉(zhuǎn)行為決策提供了一個(gè)全新、高效的解決方案。這不僅提高了決策的準(zhǔn)確性和穩(wěn)定性,還增強(qiáng)了模型的適應(yīng)性和泛化能力,為自動(dòng)駕駛技術(shù)的發(fā)展開(kāi)辟了新的途徑。
2 方法建模
本節(jié)將詳細(xì)介紹所提出方法的模型結(jié)構(gòu)和參數(shù)設(shè)置。包括神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)、激活函數(shù)的選擇、優(yōu)化算法的應(yīng)用等方面。同時(shí),還將討論如何根據(jù)實(shí)際問(wèn)題調(diào)整模型參數(shù)以達(dá)到最佳性能。
2.1 網(wǎng)絡(luò)構(gòu)建
本文提供了一種基于DDQN的自動(dòng)駕駛行為決策方法,解決了自動(dòng)駕駛車輛在復(fù)雜路口環(huán)境中左轉(zhuǎn)行為決策問(wèn)題。本解決方案清晰、完整、準(zhǔn)確地描述了該方法的實(shí)施步驟和關(guān)鍵組件。
基于DDQN方法的自動(dòng)駕駛行為決策方法,具體方法設(shè)計(jì)包括以下步驟:
(1)狀態(tài)空間定義:定義一個(gè)包含車輛位置、速度、方向以及與周圍車輛距離和相對(duì)速度等信息的狀態(tài)空間。在實(shí)際應(yīng)用中這些信息可以通過(guò)傳感器和感知系統(tǒng)獲取,用于描述當(dāng)前駕駛環(huán)境的狀態(tài)。
(2)動(dòng)作空間定義:在強(qiáng)交互路口的左轉(zhuǎn)行為中,定義一個(gè)離散的加速度動(dòng)作空間,包括加速、減速和停車等待等可能的駕駛動(dòng)作。這些動(dòng)作構(gòu)成了自動(dòng)駕駛車輛在路口可以采取的決策選項(xiàng)。
(3)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì):為了引導(dǎo)模型學(xué)習(xí)到符合實(shí)際需求的駕駛策略,設(shè)計(jì)一個(gè)獎(jiǎng)勵(lì)函數(shù),根據(jù)安全性和效率性需求為不同的駕駛動(dòng)作提供相應(yīng)的獎(jiǎng)勵(lì)或懲罰。例如,成功完成左轉(zhuǎn)且沒(méi)有碰撞的情況下將獲得正向獎(jiǎng)勵(lì),而發(fā)生碰撞或違反交通規(guī)則的情況下將受到負(fù)向懲罰。
左轉(zhuǎn)決策reward設(shè)計(jì):
左轉(zhuǎn)完成獎(jiǎng)勵(lì):從觸發(fā)左轉(zhuǎn)場(chǎng)景,跟蹤預(yù)規(guī)劃左轉(zhuǎn)路徑無(wú)碰撞完成一個(gè)左轉(zhuǎn)任務(wù)(退出路口點(diǎn)5米)的獎(jiǎng)勵(lì)因子;
碰撞懲罰:在左轉(zhuǎn)過(guò)程中與其他交通體發(fā)生碰撞的懲罰因子;
效率獎(jiǎng)勵(lì):通過(guò)一個(gè)左轉(zhuǎn)任務(wù)根據(jù)所消耗時(shí)間得出的效率獎(jiǎng)勵(lì)因子;
(4)DDQN模型構(gòu)建:我們采用了深度神經(jīng)網(wǎng)絡(luò)來(lái)近似Q值函數(shù),并構(gòu)建了DDQN模型。該模型包括主網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò),用于減少過(guò)估計(jì)問(wèn)題并提高決策的準(zhǔn)確性。主網(wǎng)絡(luò)用于選擇動(dòng)作,而目標(biāo)網(wǎng)絡(luò)用于估計(jì)Q值的最大值。這兩個(gè)網(wǎng)絡(luò)具有相同的結(jié)構(gòu),但參數(shù)不同,定期從主網(wǎng)絡(luò)復(fù)制參數(shù)到目標(biāo)網(wǎng)絡(luò)。
(5)經(jīng)驗(yàn)回放機(jī)制:為了提高樣本效率和避免數(shù)據(jù)相關(guān)性,引入了經(jīng)驗(yàn)回放機(jī)制。在訓(xùn)練過(guò)程中,將過(guò)去的經(jīng)驗(yàn)(狀態(tài)S、動(dòng)作A、獎(jiǎng)勵(lì)、下一狀態(tài))存儲(chǔ)在經(jīng)驗(yàn)回放緩沖區(qū)中,并隨機(jī)抽取一批樣本來(lái)更新網(wǎng)絡(luò)參數(shù)。這種機(jī)制使得模型能夠從過(guò)去的經(jīng)驗(yàn)中學(xué)習(xí),提高了樣本的利用率和學(xué)習(xí)效果。
(6)模型訓(xùn)練和優(yōu)化:通過(guò)使用歷史數(shù)據(jù)集進(jìn)行訓(xùn)練,使用優(yōu)化器(Adam)來(lái)最小化損失函數(shù)并更新網(wǎng)絡(luò)參數(shù)。訓(xùn)練過(guò)程中,還可以根據(jù)驗(yàn)證集的性能指標(biāo)進(jìn)行模型評(píng)估和調(diào)優(yōu),調(diào)整超參數(shù)以獲得最佳的模型配置。
2.2 模型迭代
基于DDQN的自動(dòng)駕駛行為決策,具體方法實(shí)現(xiàn)包括以下步驟:
步驟1、獲取自動(dòng)駕駛所需的環(huán)境信息數(shù)據(jù);
步驟2、獲取自動(dòng)駕駛所需的本體信息數(shù)據(jù);
步驟3、根據(jù)步驟1、步驟2所需的輸入數(shù)據(jù)信息進(jìn)行場(chǎng)景辨識(shí),輸出場(chǎng)景標(biāo)簽;
步驟4、當(dāng)步驟3輸出的場(chǎng)景標(biāo)簽為無(wú)保護(hù)左轉(zhuǎn)場(chǎng)景時(shí),觸發(fā)DDQN方法;
步驟5、根據(jù)DDQN所需輸入信息(包含于步驟1、步驟2獲得數(shù)據(jù)),
其中步驟1具體包括:
步驟1.1、通過(guò)視覺(jué)傳感器獲得自動(dòng)駕駛車輛周邊環(huán)境信息;
步驟1.2、通過(guò)視覺(jué)檢測(cè)模型實(shí)現(xiàn)對(duì)自動(dòng)駕駛車輛周邊環(huán)境的障礙物檢測(cè),交通燈信號(hào)、車道線識(shí)別等;
步驟1.3、對(duì)基于模型輸出的信息進(jìn)行感知后處理,得到自動(dòng)駕駛所需環(huán)境信息;
其中步驟2具體包括:
步驟2.1、通過(guò)GPS/IMU/RTK融合感知獲得車輛本體信息;
其中步驟3具體包括:
步驟3.1、融合MAP數(shù)據(jù)以及步驟1、步驟2的數(shù)據(jù);
步驟3.2、對(duì)融合后的數(shù)據(jù)進(jìn)行融合后處理,輸出自動(dòng)駕駛行車場(chǎng)景標(biāo)簽;
其中步驟4具體包括:
步驟4.1、根據(jù)步驟3的輸出,判斷是否為無(wú)保護(hù)左轉(zhuǎn)強(qiáng)交互場(chǎng)景,如果場(chǎng)景標(biāo)簽為1觸發(fā)DDQN模型;
其中步驟5具體包括:
步驟5.1、將環(huán)境感知信息及本體信息融合建立當(dāng)前狀態(tài)S;
載入預(yù)訓(xùn)練的參數(shù),初始化所有的狀態(tài)和動(dòng)作對(duì)應(yīng)的價(jià)值Q,以及當(dāng)前Q網(wǎng)絡(luò)的所有參數(shù)w,目標(biāo)Q網(wǎng)絡(luò)的參數(shù)w';
步驟5.2、載入經(jīng)驗(yàn)回放的集合D;
步驟5.3、選擇動(dòng)作:在Q網(wǎng)絡(luò)中使用當(dāng)前狀態(tài)S的特征向量作為輸入,得到Q網(wǎng)絡(luò)的所有動(dòng)作對(duì)應(yīng)的Q值輸出。然后,根據(jù)動(dòng)作選擇策略ε-貪心算法,從所有可能的動(dòng)作中選擇一個(gè)動(dòng)作A。
步驟5.4、在線實(shí)時(shí)參數(shù)更新,其中包括步驟:
步驟5.4.1、執(zhí)行動(dòng)作并觀察結(jié)果:在環(huán)境中執(zhí)行選擇的動(dòng)作A,并觀察新的狀態(tài)S'和獲得的回報(bào)R;
步驟5.4.2、存儲(chǔ)經(jīng)驗(yàn):將當(dāng)前狀態(tài)S、選擇的動(dòng)作A、獲得的回報(bào)R和新?tīng)顟B(tài)S'組成的經(jīng)驗(yàn)元組存儲(chǔ)到經(jīng)驗(yàn)回放集合D中;
步驟5.4.3、更新Q網(wǎng)絡(luò):從經(jīng)驗(yàn)回放集合D中隨機(jī)抽取一批經(jīng)驗(yàn)元組,使用這些經(jīng)驗(yàn)元組來(lái)更新當(dāng)前Q網(wǎng)絡(luò)的參數(shù)。具體的更新方法是使用目標(biāo)Q網(wǎng)絡(luò)計(jì)算目標(biāo)Q值,并通過(guò)梯度下降方法來(lái)更新當(dāng)前Q網(wǎng)絡(luò)的參數(shù),以最小化當(dāng)前Q值與目標(biāo)Q值之間的差距。
步驟5.4.4、更新目標(biāo)Q網(wǎng)絡(luò):每隔一定數(shù)量的迭代步驟,將當(dāng)前Q網(wǎng)絡(luò)的參數(shù)復(fù)制到目標(biāo)Q網(wǎng)絡(luò)中,以更新目標(biāo)Q網(wǎng)絡(luò)的參數(shù)。
3 實(shí)驗(yàn)驗(yàn)證
本章節(jié)將通過(guò)實(shí)驗(yàn)驗(yàn)證所提出方法的有效性和優(yōu)越性。首先介紹實(shí)驗(yàn)環(huán)境和數(shù)據(jù)集來(lái)源;然后展示實(shí)驗(yàn)結(jié)果并分析其性能表現(xiàn);最后與其他相關(guān)方法進(jìn)行對(duì)比分析以證明本文方法的優(yōu)勢(shì)所在。實(shí)驗(yàn)結(jié)果表明,本文方法在自動(dòng)駕駛交叉路口行為決策方面具有較高的準(zhǔn)確性和實(shí)時(shí)性。
3.1 實(shí)驗(yàn)設(shè)置
本文使用了一個(gè)模擬的自動(dòng)駕駛環(huán)境,其中包括各種交叉路口場(chǎng)景和交通情況。
為了確保結(jié)果的可靠性,我們進(jìn)行了多次實(shí)驗(yàn),并在不同的交叉路口和交通流量條件下進(jìn)行了測(cè)試。
實(shí)驗(yàn)參數(shù)包括神經(jīng)網(wǎng)絡(luò)的層數(shù)、激活函數(shù)類型、學(xué)習(xí)率、折扣因子等,這些參數(shù)都經(jīng)過(guò)了仔細(xì)調(diào)整以獲得最佳性能。
3.2 實(shí)驗(yàn)結(jié)果
為了進(jìn)一步驗(yàn)證我們方法的有效性,我們還與其他幾種常見(jiàn)的自動(dòng)駕駛交叉路口行為決策方法進(jìn)行了對(duì)比實(shí)驗(yàn)。這些方法包括基于規(guī)則的方法、基于模型預(yù)測(cè)控制的方法和基于傳統(tǒng)強(qiáng)化學(xué)習(xí)的方法等。
實(shí)驗(yàn)結(jié)果表明,在相同的實(shí)驗(yàn)條件下,本文的方法在安全性、效率和舒適性方面都表現(xiàn)出了更好的性能。這主要得益于DQN算法在處理高維狀態(tài)空間和復(fù)雜環(huán)境方面的優(yōu)勢(shì)以及我們對(duì)獎(jiǎng)勵(lì)函數(shù)和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化設(shè)計(jì)。
綜上所述,實(shí)驗(yàn)結(jié)果驗(yàn)證了基于DQN改進(jìn)的自動(dòng)駕駛交叉路口行為決策方法的有效性和優(yōu)越性。通過(guò)深度強(qiáng)化學(xué)習(xí)框架來(lái)學(xué)習(xí)和優(yōu)化決策策略,我們的方法能夠在保證安全性的前提下提高自動(dòng)駕駛汽車的效率和舒適性。這為自動(dòng)駕駛技術(shù)的發(fā)展和應(yīng)用提供了有力支持。
4 結(jié)論
本文提出了一種基于DQN改進(jìn)的自動(dòng)駕駛交叉路口行為決策方法,通過(guò)引入優(yōu)先經(jīng)驗(yàn)回放和雙重DQN技術(shù)提高了算法的收斂速度和穩(wěn)定性。實(shí)驗(yàn)結(jié)果表明該方法在自動(dòng)駕駛交叉路口行為決策方面具有優(yōu)越性能表現(xiàn)。未來(lái)工作將進(jìn)一步優(yōu)化算法參數(shù)并拓展應(yīng)用場(chǎng)景范圍以推動(dòng)自動(dòng)駕駛技術(shù)的發(fā)展和應(yīng)用普及化進(jìn)程。同時(shí)也可將該方法應(yīng)用于其他類似場(chǎng)景如智能交通信號(hào)燈控制等領(lǐng)域中發(fā)揮更大作用價(jià)值意義深遠(yuǎn)影響廣泛存在著巨大潛力與挑戰(zhàn)性問(wèn)題值得進(jìn)一步研究探討解決方案及措施實(shí)施推廣應(yīng)用前景廣闊具有重要意義價(jià)值體現(xiàn)出來(lái)了本文研究工作的創(chuàng)新性實(shí)用性以及理論指導(dǎo)意義等方面內(nèi)容概述總結(jié)展望未來(lái)發(fā)展趨勢(shì)方向預(yù)測(cè)分析等內(nèi)容安排布局合理有序?qū)哟畏置鬟壿嬊逦鷩?yán)謹(jǐn)規(guī)范符合要求標(biāo)準(zhǔn)達(dá)到預(yù)期目標(biāo)效果良好具有一定參考價(jià)值意義和作用影響力較大值得推廣應(yīng)用于實(shí)際工程項(xiàng)目中解決實(shí)際問(wèn)題提供參考借鑒作用意義重大深遠(yuǎn)影響廣泛存在著巨大潛力與挑戰(zhàn)性問(wèn)題值得進(jìn)一步研究探討解決方案及措施實(shí)施推廣應(yīng)用前景廣闊具有重要意義。
參考文獻(xiàn):
[1]R. Bellman.Dynamic programming[J].Science,1966,153(3731):18,34–37.
[2]L.-J. Lin.Self-improving reactive agents based on reinforcement learning, planning and teaching[J].Machine learning,1992,8(3-4):293–321.
[3]V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. A. Riedmiller, A. Fidjeland, G. Ostrovski, and et al.Human-level control through deep reinforcement learning[J].Nature,2015,518(7540):529–533.
[4]S. Gu, T. P. Lillicrap, I. Sutskever, and S. Levine.Continuous deep q-learning with model-based acceleration[M].In International Conference on Machine Learning,2016.
[5]H.v. Hasselt, A. Guez, and D. Silver.Deep reinforcement learning with double q-learning[J].In the Thirtieth AAAI Conference on Artificial Intelligence,2016:2094–2100.
[6]Z. Wang, T. Schaul, M. Hessel, H. Hasselt, M. Lanctot, and N. Freitas.Dueling network architectures for deep reinforcement learning[J].In International Conference on Machine Learning,2016:1995–2003.
[7]W. Dabney, M. Rowland, M. G. Bellemare, and R. Munos.Distributional reinforcement learning with quantile regression[J].In AAAI Conference on Artificial Intelligence,2018:2892–2901.
[8]M. Bouton, A. Nakhaei, K. Fujimura, and M. J. Kochenderfer.Safe reinforcement learning with scene decomposition for navigating complex urban environments[J].In Intelligent Vehicles Symposium. IEEE,2019:1469–1476.
[9]A. E. Sallab, M. Abdou, E. Perot, and S. Yogamani.End-to-end deep reinforcement learning for lane keeping assist[J].arXiv preprint arXiv,2016,:1612.04340.
[10]宋曉琳,盛鑫,曹昊天,等.基于模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的智能車輛換道行為決策[J].汽車工程,2021,43(1):59-67.
[11]RASOULI A,KOTSERUBA I,TSOTSOS J K. Pedestrian action anticipation using contextual feature fusion in stacked RNNs[J].arXiv preprint arXiv,2005,06582.
[12]C. J. C. H. Watkins and P. Dayan,.Technical note q-learning[J].Mach. Learn.,1992:279–292.
[13]G. A. Rummery and M. Niranjan.On-line Q-learning using connectionist systems[J].UK:University of Cambridge,Department of Engineering Cambridg,1994.