摘 要:針對(duì)在自動(dòng)駕駛復(fù)雜環(huán)境下多智能體強(qiáng)化學(xué)習(xí)算法決策缺乏人類表現(xiàn)出的智能性和獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)難度大的問題,提出基于BC-MAAC算法的高速入口匝道合并類人決策方案。將行為克隆思想與多智能體注意力動(dòng)作—評(píng)價(jià)算法相融合,提出BC-MAAC算法,并且從Highway-env平臺(tái)收集的多智能體專家數(shù)據(jù)中推導(dǎo)出專家策略,利用推導(dǎo)的專家策略與智能體當(dāng)前策略的KL散度來塑造獎(jiǎng)勵(lì)函數(shù),指導(dǎo)智能體訓(xùn)練過程。同時(shí),應(yīng)用動(dòng)作屏蔽機(jī)制,在每一步過濾掉不安全或無效的動(dòng)作,提高學(xué)習(xí)效率。兩種不同交通密度場(chǎng)景的仿真結(jié)果表明所提算法整體性能優(yōu)于基線算法,提升了車輛的通行效率和安全性。簡(jiǎn)單模式中,所提算法的成功率達(dá)到100%,平均速度和平均獎(jiǎng)勵(lì)分別至少提升0.73%和11.14%;困難模式中,所提算法的成功率達(dá)到93.40%,平均速度和平均獎(jiǎng)勵(lì)分別至少提升3.96%和12.23%??梢夿C-MAAC算法通過專家獎(jiǎng)勵(lì)函數(shù)指導(dǎo)網(wǎng)聯(lián)自動(dòng)駕駛車輛,能夠通過合作更類人的完成高速入口匝道合并任務(wù)。
關(guān)鍵詞:網(wǎng)聯(lián)自動(dòng)駕駛車輛;智能決策;高速入口匝道合并;行為克??;多智能體強(qiáng)化學(xué)習(xí)
中圖分類號(hào):TP181"" 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2025)01-017-0117-08
doi: 10.19734/j.issn.1001-3695.2024.06.0204
Highway on-ramp merging human-like decision based on BC-MAAC algorithm
Abstract:To address the lack of human-like intelligence and the difficulty in designing reward functions in multi-agent reinforcement learning algorithms for autonomous driving in complex environments, this paper advanced a human-like decision-making scheme for highway on-ramp merging based on the BC-MAAC algorithm. Combined behavior cloning IDEA with the multi-actor-attention-critic algorithm, it proposed the BC-MAAC algorithm. Derives expert policies from multi-agent expert data collected on the Highway-env platform, and used the KL divergence between the derived expert policies and the current policies of agents to shape the reward function, so as to guide the training process of the agents. At the same time, the algorithm applied an action masking mechanism to filter out unsafe or ineffective actions at each step to improve learning efficiency. Simulation results under two different traffic density scenarios show that the proposed algorithm outperforms the baseline algorithm overall, improving vehicle efficiency and safety. In the easy mode, the proposed algorithm achieves 100% success rate, improves the average speed and the average reward by at least 0.73% and 11.14%, respectively. In the hard mode, the proposed algorithm achieves 93.40% success rate, improves the average speed and the average reward by at least 3.96% and 12.23%, respectively. It is obvious that the BC-MAAC algorithm guides connected autonomous vehicles to complete the highway on-ramp merging task more human-like through cooperation by using the expert reward function.
Key words:connected autonomous vehicle; intelligent decision-making; highway on-ramp merging; behavior cloning; multi-agent reinforcement learning
0 引言
隨著自動(dòng)駕駛技術(shù)如火如荼的發(fā)展,智能網(wǎng)聯(lián)技術(shù)得到了廣泛的應(yīng)用[1]。在網(wǎng)聯(lián)自動(dòng)駕駛車輛(connected autonomous vehicles, CAV)和人類駕駛車輛(human driving vehicles, HDV)并存的混合交通流中,高速入口匝道合并是最具挑戰(zhàn)性的場(chǎng)景之一。面對(duì)周圍環(huán)境的不可預(yù)見性,CAV需理解其周圍環(huán)境并作出合適的駕駛決策,從而確保安全順暢地合并到主路中而不妨礙整體交通效率。因此,高速公路匝道入口安全高效的決策至關(guān)重要。
目前,CAV在高速匝道合并任務(wù)中主要借助兩種方法來解決,即數(shù)學(xué)模型[2~5]和深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)[6~8]。其中,數(shù)學(xué)模型方法有基于規(guī)則的方法和基于優(yōu)化的方法?;谝?guī)則的匝道合并方法核心在于根據(jù)交通法規(guī)和駕駛經(jīng)驗(yàn)制定一系列規(guī)則,并將其轉(zhuǎn)換為具體的控制策略,以確保CAV能夠有效完成匝道合并操作。文獻(xiàn)[2]對(duì)基于規(guī)則方法在高速入口匝道合并中的應(yīng)用進(jìn)行了總結(jié),盡管這些方法在計(jì)算效率上表現(xiàn)優(yōu)異,但在優(yōu)化合并序列方面仍有改進(jìn)空間。文獻(xiàn)[3]針對(duì)高速公路匝道上兩車道車輛的縱向協(xié)調(diào)問題,開發(fā)了一種基于規(guī)則的調(diào)整算法,旨在實(shí)現(xiàn)主路與匝道車輛之間接近最優(yōu)的合并順序,確保交通流的高效和安全。文獻(xiàn)[4]提出了一種創(chuàng)新的分層模型,旨在優(yōu)化CAV在匝道合并過程中的協(xié)同控制。然而,目前的最優(yōu)協(xié)同歸并控制方法通常限定入匝道車輛采用固定的合并點(diǎn),從而限制了合并操作的靈活性。文獻(xiàn)[5]提出了一種CAV分層協(xié)同合并控制模型,支持靈活選擇合并位置,從而在提高合并效率的同時(shí)降低風(fēng)險(xiǎn)。文獻(xiàn)[6]針對(duì)智能網(wǎng)聯(lián)環(huán)境下CAV的匝道匯入問題,通過深度Q網(wǎng)絡(luò)算法構(gòu)建了一種基于DRL的匝道匯入模型,使得自車可以根據(jù)周圍環(huán)境車輛行駛速度的不同自動(dòng)調(diào)節(jié)自身的駕駛策略。文獻(xiàn)[7]成功地將深度確定性策略梯度算法應(yīng)用于高速入口匝道合并的橫向決策與縱向決策中,取得了顯著成效。強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)訓(xùn)練的控制器安全性難以得到保證,因此文獻(xiàn)[8]提出了RL與模型預(yù)測(cè)控制相結(jié)合的方法,用于實(shí)現(xiàn)更為安全且高效的車輛控制。該方法融合了決策能力與預(yù)測(cè)控制能力,以在復(fù)雜環(huán)境中實(shí)現(xiàn)安全、高效的車輛控制。然而,在現(xiàn)實(shí)交通場(chǎng)景中,需要更多的CAV協(xié)同學(xué)習(xí)控制策略,因此多智能體強(qiáng)化學(xué)習(xí)(multi-agent reinforcement learning, MARL)算法備受研究人員青睞。
MARL算法因其可擴(kuò)展性和魯棒性已被廣泛用于CAV協(xié)同決策的相關(guān)任務(wù)中[9~19]。具體來說,文獻(xiàn)[9]提出基于多智能體近端策略優(yōu)化(proximal policy optimization, PPO)和端到端原則的交叉道路通行優(yōu)化方法,以最小化總體擁堵、排放和延誤為目標(biāo),研究混合交通下的交叉路口車流量?jī)?yōu)化問題,即如何協(xié)調(diào)不同類型車輛CAV和HDV在復(fù)雜路況中的行為選擇。文獻(xiàn)[10]提出雙層變道行為規(guī)劃策略,其中上層是基于MARL的變道決策模型,下層是基于協(xié)商的路權(quán)分配模型。實(shí)驗(yàn)驗(yàn)證該組合方法能實(shí)現(xiàn)安全、高效、和諧的變道,提升車輛協(xié)作性和整體交通效率。文獻(xiàn)[11]將MARL方法應(yīng)用到高速公路變道任務(wù),結(jié)果表明,采用MARL算法訓(xùn)練CAV作出聯(lián)合決策,從而可以緩解高速公路的瓶頸擁堵。文獻(xiàn)[12]針對(duì)高速公路合流場(chǎng)景的問題,提出了一種MARL框架。該框架通過接收其他車輛的狀態(tài)信息作為輸入數(shù)據(jù),進(jìn)而生成各CAV的加速指令,以實(shí)現(xiàn)無碰撞地完成匝道合并任務(wù)。文獻(xiàn)[13]提出利用參數(shù)共享和局部獎(jiǎng)勵(lì)來促進(jìn)智能體間合作的MARL算法來解決匝道合并問題,同時(shí)實(shí)現(xiàn)極大的可擴(kuò)展性。文獻(xiàn)[14]為了更安全且高效地執(zhí)行匝道合并任務(wù),引入新型的基于優(yōu)先級(jí)的安全監(jiān)督器,使算法在安全性方面得到了顯著提升。文獻(xiàn)[15]為提升匝道合并通行效率,確保CAV有序通過,提出集成DRL算法中智能體間通信協(xié)議與軟動(dòng)作-評(píng)價(jià)算法的方法,并通過實(shí)驗(yàn)驗(yàn)證了其有效性。文獻(xiàn)[16]針對(duì)高速入口匝道合并區(qū)交通特性,基于分布式MARL框架提出集中式訓(xùn)練分布式執(zhí)行的改進(jìn)框架,建立基于兩種框架的優(yōu)勢(shì)動(dòng)作評(píng)論家和PPO兩種控制算法。通過實(shí)驗(yàn)證明,所建立算法整體性能優(yōu)于原算法。為了提升CAV在高速匝道合并中的決策成功率,文獻(xiàn)[17]提出基于PPO算法的獨(dú)立學(xué)習(xí)與參數(shù)共享策略的方法。實(shí)驗(yàn)結(jié)果證明該方法在高速入口匝道合流任務(wù)中顯著提高了CAV的決策成功率。文獻(xiàn)[18]采用分布式智能體深度確定性策略梯度,設(shè)計(jì)了CAV協(xié)同匯入控制,考慮安全及加速度約束,構(gòu)建匝道并線與車輛模型,顯著降低了能耗與行駛時(shí)間。文獻(xiàn)[19]利用圖神經(jīng)網(wǎng)絡(luò)與RL,在雙匝道高速上構(gòu)建交互駕駛環(huán)境,實(shí)驗(yàn)驗(yàn)證圖神經(jīng)網(wǎng)絡(luò)能精確模擬車輛內(nèi)部交互,增強(qiáng)MARL決策效能。
許多研究人員采用模仿學(xué)習(xí)的思想在DRL任務(wù)中融入人類專家數(shù)據(jù)[20~26],從而驅(qū)使智能體更加類人化。文獻(xiàn)[20]將行為克?。╞ehavior cloning, BC)思想應(yīng)用到自動(dòng)駕駛領(lǐng)域。文獻(xiàn)[21]提出結(jié)合模仿學(xué)習(xí)和DRL的智能車輛變道決策方法。宏觀決策模塊和細(xì)化子模塊分別采用模仿學(xué)習(xí)和深度確定策略梯度算法,以實(shí)現(xiàn)更加準(zhǔn)確、高效的車輛變道行為。文獻(xiàn)[22]在分析多位駕駛員的駕駛表現(xiàn)后,提取各自獨(dú)特的駕駛風(fēng)格特征,進(jìn)而利用逆強(qiáng)化學(xué)習(xí)算法根據(jù)這些不同的駕駛風(fēng)格,為CAV定制多種變道策略。文獻(xiàn)[23]使用通道—空間注意力機(jī)制改進(jìn)BC,并使用模仿專家策略指導(dǎo)DRL算法的學(xué)習(xí)過程,并在無信號(hào)燈路口左轉(zhuǎn)決策中進(jìn)行驗(yàn)證。結(jié)果表明,基于專家先驗(yàn)的DRL算法比傳統(tǒng)的DRL算法更具優(yōu)勢(shì)。文獻(xiàn)[24]在CAV的縱向控制上,結(jié)合了專家演示和DRL方法,以實(shí)現(xiàn)更高效的駕駛控制策略。文獻(xiàn)[25]開發(fā)專家實(shí)時(shí)指導(dǎo)的DRL方法,通過干預(yù)和糾正智能體的不合理行為,使得算法快速收斂并提升性能。文獻(xiàn)[26]提出在DRL策略更新過程中加入模仿學(xué)習(xí),從人類專家數(shù)據(jù)和智能體探索中學(xué)習(xí),最小化智能體行為與專家行為之間的差距,以提升算法性能。
在上述成果啟發(fā)下,本文融合多智能體注意力動(dòng)作—評(píng)價(jià)(multi actor-attention-critic, MAAC)算法[27]和BC思想,提出BC-MAAC算法,使得CAV通過合作更安全高效地完成匝道合并任務(wù)。其主要貢獻(xiàn)如下:
a)為了建模專家在高速入口匝道合并協(xié)同決策任務(wù)中起到協(xié)調(diào)作用,采用新穎的專家示范范式,在同一時(shí)刻為多個(gè)CAV部署專家示范動(dòng)作,收集專家數(shù)據(jù)。
b)提出基于BC-MAAC算法的高速入口匝道合并類人決策方案。融合專家指導(dǎo)思想、注意力、參數(shù)共享以及動(dòng)作掩碼等機(jī)制,收集高效且合作的專家數(shù)據(jù),并將KL散度描述的專家指導(dǎo)獎(jiǎng)勵(lì)引入到訓(xùn)練過程中,啟發(fā)智能體策略最大化自身獎(jiǎng)勵(lì)值并向?qū)<也呗钥拷瑥亩苊膺^度優(yōu)化自身獎(jiǎng)勵(lì)而作出過激行為。
c)基于Highway-env平臺(tái)構(gòu)建混合交通流高速入口匝道合并場(chǎng)景,并設(shè)置兩種不同交通密度,證明所提算法能夠保證CAV作出更類人的合作行為,從而更安全高效地完成高速入口匝道合并任務(wù)。
1 多智能體強(qiáng)化學(xué)習(xí)基礎(chǔ)知識(shí)
MARL算法按照訓(xùn)練過程和執(zhí)行過程可分為三種框架,分別為分布式訓(xùn)練分布式執(zhí)行、集中式訓(xùn)練集中式執(zhí)行和集中式訓(xùn)練分布式執(zhí)行(centralized training decentralized execution, CTDE)。本文采用CTDE框架,如圖1所示。在訓(xùn)練階段集中訓(xùn)練一個(gè)評(píng)價(jià)網(wǎng)絡(luò),這些網(wǎng)絡(luò)能夠接收所有智能體的觀測(cè)—?jiǎng)幼餍畔?,而?dòng)作網(wǎng)絡(luò)則保持獨(dú)立性,僅依賴每個(gè)智能體的局部觀測(cè)來輸出其動(dòng)作。
2 基于BC-MAAC算法高速入口匝道合并類人決策方案
本文提出基于BC-MAAC算法高速入口匝道合并類人決策方案,如圖2所示。在多智能體專家演示階段,由人類專家基于Highway-env平臺(tái)對(duì)每個(gè)CAV進(jìn)行單獨(dú)控制,并將專家執(zhí)行的動(dòng)作和每個(gè)CAV的觀測(cè)以觀測(cè)-動(dòng)作對(duì)的形式進(jìn)行存儲(chǔ),收集專家數(shù)據(jù)。采用BC方法從上述收集到的人類專家數(shù)據(jù)中推導(dǎo)出專家策略。然后將專家策略與CAV當(dāng)前策略之間的KL散度用于構(gòu)建BC-MAAC算法獎(jiǎng)勵(lì)函數(shù)的專家指導(dǎo)部分,從而指導(dǎo)CAV的學(xué)習(xí)過程。同時(shí),采用動(dòng)作屏蔽機(jī)制篩選出不安全或無效的動(dòng)作,從而提高學(xué)習(xí)效率。
3 具體實(shí)現(xiàn)
3.1 BC-MAAC算法
人類駕駛員在駕駛過程中往往會(huì)通過合作安全高效地完成駕駛?cè)蝿?wù),同時(shí)在駕駛車輛時(shí)往往更關(guān)心可能會(huì)影響自車運(yùn)動(dòng)的周車信息而并非全部車輛信息。因此融合BC思想和具備注意力機(jī)制的MAAC算法,本文提出BC-MAAC算法完成高速入口匝道合并類人決策。在CTDE框架的基礎(chǔ)上沿用MAAC算法的基礎(chǔ)架構(gòu),通過注意力機(jī)制,模型可以自動(dòng)學(xué)習(xí)并關(guān)注輸入數(shù)據(jù)中的關(guān)鍵特征,并且通過這些特征的加權(quán)處理,模型可以更好地理解周圍的場(chǎng)景并作出準(zhǔn)確的決策,以提高整體的安全性能。同時(shí)為了避免CAV過度優(yōu)化自身獎(jiǎng)勵(lì),作出過激行為而影響駕駛安全,將多智能體專家演示收集到的專家數(shù)據(jù),采用BC推導(dǎo)專家策略,指導(dǎo)BC-MAAC算法訓(xùn)練過程。具體實(shí)現(xiàn)方法是用智能體當(dāng)前策略與專家策略的KL散度作為額外的獎(jiǎng)勵(lì)值來引導(dǎo)智能體策略向?qū)<也呗钥拷?。BC-MAAC算法框圖如圖3所示。
其中:fi為兩層感知機(jī),gi為單層感知機(jī)。在訓(xùn)練開始時(shí),將車輛i的當(dāng)前觀測(cè)oi與動(dòng)作ai輸入gi便得到車輛i的編碼信息。同時(shí),基于其他車輛的編碼信息采用多頭自注意力機(jī)制獲取其他車輛對(duì)車輛i影響的總貢獻(xiàn)xi,如式(2)所示。
其中:αij是車輛j對(duì)車輛i的注意力權(quán)重,通過比較車輛i與車輛j的嵌入向量gi與gj之間的相似性αij∝exp(eTjWTkWqei)得到。Wq將ei映射成查詢值,而Wk則將ej映射成健值,另外需要將αij放縮到合適的值以防止梯度消失。vj是車輛j觀測(cè)動(dòng)作對(duì)的嵌入,即首先用gj對(duì)觀測(cè)動(dòng)作對(duì)進(jìn)行嵌入編碼,然后利用線性矩陣V進(jìn)行線性變換,最后進(jìn)行非線性映射h。
由于不同車輛的評(píng)價(jià)網(wǎng)絡(luò)之間參數(shù)共享,所以BC-MAAC算法提出用聯(lián)合的損失函數(shù)來訓(xùn)練各個(gè)車輛的評(píng)價(jià)網(wǎng)絡(luò),即
其中:α是平衡最大熵和獎(jiǎng)勵(lì)的參數(shù)。由于通過多智能體專家演示的數(shù)據(jù)BC得出的專家策略,在面對(duì)樣本數(shù)據(jù)之外的情況
其中:αKL為KL散度參數(shù);DKL表示專家策略與智能體策略之間的差異值。各個(gè)車輛的動(dòng)作網(wǎng)絡(luò)通過式(7)進(jìn)行更新:
其中:b(o,a\i)[27]是BC-MAAC算法用于解決信用分配的反事實(shí)基線;a\i表示去除第i個(gè)車輛的聯(lián)合動(dòng)作。
分別通過梯度上升法和梯度下降法更新第i個(gè)車輛的動(dòng)作網(wǎng)絡(luò)與評(píng)價(jià)網(wǎng)絡(luò)的參數(shù)θi與ψi,更新公式如式(8)(9)所示。
3.2 多智能體專家數(shù)據(jù)收集
本文基于Highway-env仿真平臺(tái),針對(duì)高速入口匝道合并的駕駛?cè)蝿?wù),把收集到的人類專家的示范動(dòng)作與車輛的觀測(cè)存儲(chǔ)為專家數(shù)據(jù)。具體來說,人類專家以第一人稱視角觀察駕駛環(huán)境,在每個(gè)時(shí)間步,通過鍵盤數(shù)字鍵0、1、2、3和4操縱五種離散的行動(dòng),分別為每輛CAV提供決策行為,從而指揮高速入口匝道路段CAV通過合作完成合并任務(wù),避免CAV出現(xiàn)自私行為而影響駕駛安全。數(shù)字鍵0、1、2、3和4分別對(duì)應(yīng)橫向上的左變道和右變道兩個(gè)離散動(dòng)作、巡航操作以及縱向上的加速和減速兩個(gè)離散動(dòng)作。
3.3 行為克隆
BC算法的目的是尋找使智能體獲得的累計(jì)獎(jiǎng)勵(lì)值最大的策略。本文采用帶標(biāo)簽的專家演示數(shù)據(jù)進(jìn)行行為克隆來近似專家策略。給定N條軌跡DE:τiN組成的專家演示數(shù)據(jù)集,數(shù)據(jù)集中的若干觀測(cè)—?jiǎng)幼鲗?duì)分別對(duì)應(yīng)于監(jiān)督學(xué)習(xí)中的輸入值與標(biāo)簽。其中觀測(cè)動(dòng)作對(duì)表示如下:
τ={oi,1,ai,1,oi,2,ai,2,…,oi,N,ai,N}(12)
其中:θBC為策略網(wǎng)絡(luò)參數(shù)。策略網(wǎng)絡(luò)通常采取最小化專家策略網(wǎng)絡(luò)的輸出與專家動(dòng)作之間的均方誤差方式來進(jìn)行訓(xùn)練,專家策略網(wǎng)絡(luò)損失函數(shù)如式(14)所示。
3.4 安全機(jī)制
當(dāng)CAV通過MARL訓(xùn)練時(shí),動(dòng)作網(wǎng)絡(luò)輸出的動(dòng)作得分會(huì)進(jìn)入softmax層,生成各個(gè)動(dòng)作的概率,這個(gè)概率用于采樣動(dòng)作,即ai=πθi(oi)。πθi(oi)表示在給定觀測(cè)oi和參數(shù)θi下,選擇動(dòng)作ai的概率分布,而softmax函數(shù)則產(chǎn)生所有動(dòng)作的概率值,并使得所有可能動(dòng)作的概率值之和為1。
然而,這種采樣方式可能導(dǎo)致一些無效動(dòng)作通過動(dòng)作網(wǎng)絡(luò)被采樣,使車輛作出不安全動(dòng)作,同時(shí)無效的動(dòng)作信息也會(huì)阻礙動(dòng)作網(wǎng)絡(luò)更新。為了解決這一問題,本文考慮使用動(dòng)作掩碼機(jī)制來屏蔽無效的動(dòng)作。具體來說,本文利用動(dòng)作掩碼判定動(dòng)作有效性,其中“0”代表無效動(dòng)作,而“1”則代表有效動(dòng)作,被判定為無效動(dòng)作其對(duì)應(yīng)對(duì)數(shù)值將被-1E8替換,通過softmax層后,其對(duì)應(yīng)的概率接近0,從而避免其在訓(xùn)練過程中被選中,確保智能體僅從有效動(dòng)作中采樣。在本文研究中,當(dāng)CAV在到達(dá)匝道的合并部分之前嘗試改變車道進(jìn)行合并時(shí),以及當(dāng)CAV其速度已經(jīng)達(dá)到預(yù)定的最大或最小速度時(shí)嘗試加速或減速時(shí),規(guī)定這兩種動(dòng)作無效。安全機(jī)制示意圖如圖4所示。
3.5 算法流程
算法1 BC-MAAC算法
4 智能網(wǎng)聯(lián)車輛的部分可觀測(cè)馬爾可夫決策過程
本文將混合交通下的高速入口匝道合并任務(wù)建模為部分可觀測(cè)馬爾可夫決策過程,其中每個(gè)CAV只觀察周圍環(huán)境重點(diǎn)需要關(guān)注的部分車輛,用五元組{S,A,P,R,O}來描述該過程。
4.1 狀態(tài)空間
在典型的匝道合流場(chǎng)景中,需要考慮主車的行駛狀態(tài)以及與周圍車輛的相互運(yùn)動(dòng)關(guān)系。狀態(tài)空間設(shè)置應(yīng)有利于主車及時(shí)獲取周圍車輛的運(yùn)動(dòng)狀態(tài),從而確定最優(yōu)駕駛行為,避免與周圍車輛發(fā)生碰撞,以提高決策成功率。因此,本文將CAV的狀態(tài)定義為維數(shù)NNi×W的矩陣。其中NNi為觀測(cè)到的車輛數(shù)量,W為用于表示車輛狀態(tài)的特征數(shù)量。本文將采用自主車輛附近五輛車觀測(cè)組成系統(tǒng)狀態(tài)空間O=(O1,O2,O3,O4,O5),每輛交通車輛均包含五個(gè)狀態(tài)特性,即Oi=[pei,xi,yi,vxi,vyi]。其中:pei為一個(gè)二元變量,表示第i個(gè)車輛是否在自主車輛附近可觀察到;xi為被觀察的第i個(gè)車輛相對(duì)于自主車輛的縱向位置;yi為被觀察的第i個(gè)車輛相對(duì)于自主車輛的橫向位置;vxi為被觀察的第i個(gè)車輛相對(duì)于自主車輛的縱向速度;vyi為被觀察的第i個(gè)車輛相對(duì)于自主車輛的橫向速度。
4.2 動(dòng)作空間
CAV的離散動(dòng)作空間設(shè)計(jì)為Ai=(a0,a1,a2,a3,a4),其中a0,a1,a2,a3,a4分別代表左轉(zhuǎn)彎、右轉(zhuǎn)彎、巡航、加速和減速。系統(tǒng)的整體動(dòng)作空間A=A1×A2×…×AN為各CAV的聯(lián)合動(dòng)作。車輛收到動(dòng)作決策指令,底層控制器就會(huì)產(chǎn)生相應(yīng)的轉(zhuǎn)向和油門控制信號(hào)來操縱CAV。
4.3 獎(jiǎng)勵(lì)函數(shù)
當(dāng)CAV采取行動(dòng)時(shí),其對(duì)環(huán)境的影響會(huì)以獎(jiǎng)勵(lì)的形式反饋回來,用于衡量當(dāng)前狀態(tài)下的行動(dòng)效果。根據(jù)式(5)(6)所示,本文綜合考慮了安全、高效、車頭時(shí)距和合并成本來設(shè)計(jì)了傳統(tǒng)MARL獎(jiǎng)勵(lì)函數(shù)r-i和專家先驗(yàn)知識(shí)的獎(jiǎng)勵(lì)函數(shù)ri,KL。傳統(tǒng)MARL獎(jiǎng)勵(lì)函數(shù)中的wc、ws、wh和wm分別是獎(jiǎng)勵(lì)各部分系數(shù),其中ri,c是碰撞獎(jiǎng)勵(lì),ri,s是高速獎(jiǎng)勵(lì),ri,h是車道時(shí)間評(píng)估獎(jiǎng)勵(lì),ri,m是合并成本獎(jiǎng)勵(lì)。由于安全是最重要的標(biāo)準(zhǔn),所以本文考慮使wc權(quán)重大于其他權(quán)重,以優(yōu)先考慮安全。第i個(gè)CAV在時(shí)間步長(zhǎng)t的獎(jiǎng)勵(lì)定義為ri,t:
ri,t=wcri,c+wsri,s+whri,h+wmri,m+ri,KL(15)
a)碰撞評(píng)估獎(jiǎng)勵(lì)函數(shù)為[14]
b)高速評(píng)估獎(jiǎng)勵(lì)函數(shù)為[14]
其中:vt為車輛當(dāng)前速度,vmin=20 m/s,vmax=30 m/s。
c)車頭時(shí)距評(píng)估獎(jiǎng)勵(lì)為[14]
其中:dh是車頭時(shí)距;th是一個(gè)預(yù)定義的車頭時(shí)距閾值,取1.2 s/Veh。當(dāng)車頭時(shí)距大于th時(shí),CAV才會(huì)得到獎(jiǎng)勵(lì)。
d)合并成本獎(jiǎng)勵(lì)為[28]
其中:x為CAV在坡道上行駛的距離,L為坡道長(zhǎng)度。隨著CAV靠近合并末端,懲罰增加。
5 仿真驗(yàn)證
5.1 實(shí)驗(yàn)設(shè)置
本文使用Highway-env仿真平臺(tái)對(duì)本文算法進(jìn)行驗(yàn)證,該平臺(tái)是用于自動(dòng)駕駛研究的仿真平臺(tái)。本文實(shí)驗(yàn)場(chǎng)景為高速入口匝道合并,在設(shè)置的場(chǎng)景中,自主車輛的目標(biāo)是通過完成變道合并、跟車和超車,即找到一種既安全(無碰撞)又高效(高速)的駕駛策略。
實(shí)驗(yàn)環(huán)境設(shè)置如圖5所示,本文將公路長(zhǎng)度設(shè)置為520 m,忽略道路以外的車輛,其中合并車道入口L1為320 m,合并車道長(zhǎng)度為L(zhǎng)2為100 m,合并后主路車道長(zhǎng)度L3為100 m。從0 m到220 m,在直通車道和匝道車道上每隔40 m均勻設(shè)置一個(gè)車輛刷出點(diǎn)。
為了盡可能模擬真實(shí)環(huán)境,根據(jù)車輛密度的不同分為了兩種實(shí)驗(yàn)?zāi)J剑汉?jiǎn)單模式分別有2輛CAV和1~3輛HDV;困難模式分別有 3~5 輛 CAV和3~5輛HDV。在每個(gè)訓(xùn)練回合中,不同數(shù)量的HDV和CAV會(huì)隨機(jī)出現(xiàn)在刷出點(diǎn),并在每個(gè)初始刷出點(diǎn)添加隨機(jī)位置噪聲(均勻分布在[-1.5 m, 1.5 m])。車輛控制采樣頻率為1 Hz,即CAV每1秒采取一次動(dòng)作。同時(shí),采用IDM和MOBIL分別對(duì)高速公路環(huán)境車輛的縱向加速和橫向變道決策進(jìn)行了研究。CAV的高層決策由BC-MAAC算法作出,并由底層PID控制器跟蹤。 BC-MAAC其余參數(shù)設(shè)置如表1所示。
5.2 實(shí)驗(yàn)結(jié)果分析
本文將BC-MAAC與MAAC[27]、MAA2C[29]、MAPPO[30]和MAACKTR算法(ACKTR[31]算法擴(kuò)展到多智能體環(huán)境)進(jìn)行比較。MAAC算法是一種多智能體強(qiáng)化學(xué)習(xí)算法,它借鑒了動(dòng)作—評(píng)價(jià)網(wǎng)絡(luò)架構(gòu)的思想,并采用了CTDE框架來提高訓(xùn)練穩(wěn)定性和效率,同時(shí)引入了注意力機(jī)制,選擇性地關(guān)注來自其他智能體的信息來學(xué)習(xí)每個(gè)智能體的評(píng)價(jià)網(wǎng)絡(luò)。MAA2C算法采用了A2C算法的框架將其擴(kuò)展到多智能體環(huán)境,從而適應(yīng)多智能體系統(tǒng)的復(fù)雜性與交互性。MAACKTR利用獨(dú)立學(xué)習(xí)和參數(shù)共享技術(shù),將單智能體算法ACKTR擴(kuò)展到多智能體環(huán)境。MAPPO是PPO算法的多智能體擴(kuò)展版本,它通過引入廣義優(yōu)勢(shì)估計(jì)以及值裁剪等策略,對(duì)MARL的框架進(jìn)行了改進(jìn)。根據(jù)式(15),CAV在每個(gè)回合內(nèi)所累積的獎(jiǎng)勵(lì)是由安全性、效率、車頭時(shí)距、合并成本和MARL智能體策略與專家策略之間的KL散度共同決定的。為了最大化累積獎(jiǎng)勵(lì),需要對(duì)這些因素進(jìn)行考慮。在訓(xùn)練過程中,累積獎(jiǎng)勵(lì)的增加可以被視為策略的優(yōu)化和改進(jìn),而累積獎(jiǎng)勵(lì)的收斂則表明策略已達(dá)到了局部最優(yōu)狀態(tài)。
5.2.1 懲罰系數(shù)對(duì)于決策的影響
在正式訓(xùn)練前,本文首先分析碰撞系數(shù)對(duì)策略安全性和通行效率的影響。具體來說,在簡(jiǎn)單模式下,首先利用BC-MAAC算法,在不同的碰撞懲罰系數(shù)下進(jìn)行模型訓(xùn)練。接著保存這些經(jīng)過訓(xùn)練的模型,并對(duì)它們進(jìn)行60回合的測(cè)試。在訓(xùn)練和測(cè)試過程中,保持獎(jiǎng)勵(lì)函數(shù)中其他參數(shù)不變,分析不同碰撞懲罰系數(shù)對(duì)策略的影響。本文選擇訓(xùn)練過程中每回合平均獎(jiǎng)勵(lì)與平均速度作為評(píng)價(jià)指標(biāo),測(cè)試過程中選擇成功率與平均速度作為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果如圖6、7和表2所示。
仿真結(jié)果表示,不同碰撞懲罰系數(shù)下,BC-MAAC算法均能有效控制CAV實(shí)現(xiàn)較優(yōu)的駕駛策略。然后,隨著碰撞懲罰系數(shù)的增加,盡管CAV的安全性會(huì)有所提升,但CAV平均速度會(huì)有所降低。這是因?yàn)楫?dāng)過分強(qiáng)調(diào)安全性時(shí),CAV會(huì)傾向于采取更保守的駕駛策略,從而犧牲了部分駕駛效率。因此,在后續(xù)的實(shí)驗(yàn)中,本文將把碰撞系數(shù)wc設(shè)定為20,這一數(shù)值在確保安全性的同時(shí),也充分考慮到了交通效率,實(shí)現(xiàn)了兩者的良好平衡。
5.2.2 訓(xùn)練結(jié)果分析
在訓(xùn)練階段,本文將BC-MAAC算法與基線算法控制的CAV分別在兩種不同交通密度下對(duì)平均獎(jiǎng)勵(lì)和平均速度進(jìn)行了探討。圖8和9分別為簡(jiǎn)單模式與困難模式下BC-MAAC算法與基線算法控制的CAV獎(jiǎng)勵(lì)隨訓(xùn)練回合變化曲線,圖10和11分別為簡(jiǎn)單模式與困難模式下BC-MAAC算法與基線算法控制的CAV平均速度隨訓(xùn)練回合變化的曲線。
如圖8和9所示,隨著車輛密度增大,車輛訓(xùn)練環(huán)境變得更復(fù)雜,因此,在困難模式下,各個(gè)算法控制的CAV的平均獎(jiǎng)勵(lì)均有所降低。由圖可知,BC-MAAC算法控制的CAV在兩種不同交通密度下的平均獎(jiǎng)勵(lì)始終優(yōu)于基線算法,說明了通過專家策略指導(dǎo)訓(xùn)練的MAAC算法控制的CAV獲得了更優(yōu)的駕駛策略,能夠通過合作,更熟練更類人地完成高速入口匝道合并任務(wù)。在兩種不同交通密度條件下,MAAC與MAA2C算法控制下的CAV均隨著訓(xùn)練回合的增多,實(shí)現(xiàn)了平均獎(jiǎng)勵(lì)的穩(wěn)步提升,最終達(dá)到了較優(yōu)的駕駛策略。由于MAAC算法引入了注意力機(jī)制,使其能夠更深入地理解匝道合并場(chǎng)景中的復(fù)雜交互,從而提高了決策的準(zhǔn)確性。因此,相較于MAA2C算法,MAAC算法控制下的CAV在兩種交通密度下均展現(xiàn)出了更高的平均獎(jiǎng)勵(lì)。MAPPO算法控制下的CAV在兩種交通密度下的平均獎(jiǎng)勵(lì)波動(dòng)較大,這反映出該算法在尋找最優(yōu)駕駛策略時(shí)容易陷入局部最優(yōu)解,從而未能獲得穩(wěn)定的優(yōu)秀表現(xiàn)。MAACKTR算法控制下的CAV在簡(jiǎn)單模式下,隨著訓(xùn)練回合的增加,平均獎(jiǎng)勵(lì)逐漸提高,展現(xiàn)出了較優(yōu)的駕駛策略。然而,在困難模式下,該算法的表現(xiàn)并不理想,未能有效地應(yīng)對(duì)復(fù)雜場(chǎng)景中的挑戰(zhàn),因此未能獲得優(yōu)秀的駕駛策略。
如圖10和11所示,隨著車輛密度的增加,車輛訓(xùn)練環(huán)境變得更為復(fù)雜,因此,在困難模式下,為確保匝道合并任務(wù)的安全完成,各算法控制下的CAV的平均速度均有所下降。由圖可知,BC-MAAC算法控制下的CAV在兩種交通密度條件下,其平均速度始終優(yōu)于基線算法,這證明了通過專家策略指導(dǎo)訓(xùn)練的MAAC算法控制的CAV在匝道合并區(qū)域具有更高的通行效率。MAAC與MAA2C算法控制的CAV在兩種交通密度下均展現(xiàn)出較優(yōu)的駕駛策略,并維持了相對(duì)較高的平均速度。特別是MAAC算法,由于引入了注意力機(jī)制,使得每個(gè)CAV能夠更精準(zhǔn)地關(guān)注其他車輛的行為,從而作出更為高效和合理的決策。因此,相較于MAA2C算法,MAAC算法控制下的CAV在兩種交通密度下均展現(xiàn)出了更高的平均速度。MAPPO算法控制的CAV在兩種交通密度下的平均速度表現(xiàn)出較大的波動(dòng),始終未能趨于平穩(wěn),這反映了該算法在應(yīng)對(duì)復(fù)雜交通環(huán)境時(shí)可能存在的穩(wěn)定性問題。MAACKTR算法控制的CAV雖然在簡(jiǎn)單模式下的平均速度變化穩(wěn)定且逐步提升,最終趨于平穩(wěn)收斂,但在困難模式下表現(xiàn)不佳,平均速度未呈現(xiàn)上升趨勢(shì),這證明了該算法在應(yīng)對(duì)更復(fù)雜交通環(huán)境時(shí)可能存在的局限性。
5.2.3 測(cè)試結(jié)果分析
訓(xùn)練結(jié)束后,保存通過BC-MAAC算法與基線算法訓(xùn)練的模型,并在兩個(gè)交通密度下使用三個(gè)隨機(jī)種子進(jìn)行60回合測(cè)試,測(cè)試指標(biāo)成功率、平均速度、平均速度標(biāo)準(zhǔn)差、平均獎(jiǎng)勵(lì)和平均獎(jiǎng)勵(lì)標(biāo)準(zhǔn)差如表3所示。由表可見,在兩種交通密度測(cè)試下,BC-MAAC算法控制下的CAV展現(xiàn)出了優(yōu)越的性能,具有最高的成功率、平均速度和平均獎(jiǎng)勵(lì)。其中在簡(jiǎn)單模式下表現(xiàn)優(yōu)異實(shí)現(xiàn)了零碰撞,在困難模式也有較高成功率,達(dá)到了0.934。這一結(jié)果表明,通過專家策略指導(dǎo)訓(xùn)練的CAV能夠高效合作地完成合高速入口匝道合并任務(wù),有效減少了因自私行為可能導(dǎo)致的駕駛安全隱患。此外,模型在測(cè)試的回合中具有最低的平均獎(jiǎng)勵(lì)標(biāo)準(zhǔn)差和較低的平均速度標(biāo)準(zhǔn)差,同時(shí)本文選取95%置信區(qū)間進(jìn)行區(qū)間估計(jì),簡(jiǎn)單模式下BC-MAAC算法的平均獎(jiǎng)勵(lì)置信區(qū)間為[12.2897,13.6503]、平均速度置信區(qū)間為[27.0329,27.8471],困難模式下BC-MAAC算法的平均獎(jiǎng)勵(lì)置信區(qū)間為[4.1841,6.0959]、平均速度置信區(qū)間為[24.7676,25.6324],相較于其他基線算法,BC-MAAC算法有著較小的置信區(qū)間。這一結(jié)果表明,通過BC-MAAC算法訓(xùn)練的模型在不同測(cè)試場(chǎng)景下仍能保持優(yōu)異且穩(wěn)定的性能。MAAC與MAA2C算法控制下的CAV在兩種交通密度的測(cè)試環(huán)境中均展現(xiàn)出良好的性能,具備較高的成功率、平均速度和平均獎(jiǎng)勵(lì)。由于MAAC算法引入了注意力機(jī)制,使其在處理多車交互和決策時(shí)更加合理,所以在成功率、平均速度和平均獎(jiǎng)勵(lì)方面相較于MAA2C算法表現(xiàn)出更為優(yōu)越的性能。MAPPO算法控制下的CAV在兩種交通密度下的表現(xiàn)則不盡人意。由于其頻繁的速度變化,導(dǎo)致該算法在應(yīng)對(duì)復(fù)雜交通環(huán)境時(shí)存在較大的不確定性,進(jìn)而影響了其成功率的穩(wěn)定性。MAACKTR算法控制下的CAV在兩種交通密度下的表現(xiàn)均較為不佳,未能很好地完成匝道合并任務(wù),這可能是由于該算法在應(yīng)對(duì)復(fù)雜交通環(huán)境時(shí)存在某些局限。
6 結(jié)束語
本文研究了CAV和HDV混合交通流中的高速公路匝道合并決策問題,構(gòu)建了基于BC-MAAC算法的新型決策方案,包括注意力機(jī)制、參數(shù)共享、動(dòng)作掩蔽和專家指導(dǎo)思想,使CAV能夠通過合作表現(xiàn)出更類人的駕駛行為,從而確保安全、高效地完成高速匝道合并任務(wù)。BC思想用于從通過多智能體專家演示收集的數(shù)據(jù)中推導(dǎo)出專家策略,從而指導(dǎo)智能體的訓(xùn)練過程。實(shí)驗(yàn)結(jié)果表明,通過BC-MAAC算法訓(xùn)練的CAV性能優(yōu)異且穩(wěn)定,同時(shí)在成功率和流量效率方面優(yōu)于其他基線算法。在未來的研究中,將繼續(xù)研究混合交通流下的高速入口匝道合并場(chǎng)景,預(yù)計(jì)會(huì)將預(yù)測(cè)與決策結(jié)合,進(jìn)一步提升通過算法訓(xùn)練的模型的魯棒性和安全性。
參考文獻(xiàn):
[1]李克強(qiáng), 戴一凡, 李升波, 等. 智能網(wǎng)聯(lián)汽車技術(shù)的發(fā)展現(xiàn)狀及趨勢(shì) [J]. 汽車安全與節(jié)能學(xué)報(bào), 2017, 8 (1): 1-14. (Li Keqiang, Dai Yifan, Li Shengbo, et al.Development status and trends of intelligent connected vehicles technology [J]. Journal of Automotive Safety and Energy Conservation, 2017, 8 (1): 1-14.)
[2]Rios-Torres J,Malikopoulos A A. A survey on the coordination of connected and automated vehicles at intersections and merging at highway on-ramps [J]. IEEE Trans on Intelligent Transportation Systems, 2017, 18 (5): 1066-1077.
[3]Ding Jishiyu, Li Li, Peng Hui, et al.A rule-based cooperative merging strategy for connected and automated vehicles [J]. IEEE Trans on Intelligent Transportation Systems, 2019, 21 (8): 3436-3446.
[4]Chen Na, Arem B V,Alkim T, et al.A hierarchical model-based optimization control approach for cooperative merging by connected automated vehicles [J]. IEEE Trans on Intelligent Transportation Systems, 2021, 22 (12): 7712-7725.
[5]Tang Zhixian, Zhu Hong, Zhang Xin, et al.A novel hierarchical cooperative merging control model of connected and automated vehicles featuring flexible merging positions in system optimization [J]. Transportation Research Part C: Emerging Technologies, 2022, 138: 103650.
[6]喬良, 鮑泓, 玄祖興, 等. 基于強(qiáng)化學(xué)習(xí)的無人駕駛匝道匯入模型 [J]. 計(jì)算機(jī)工程, 2018, 44 (7): 20-24. (Qiao Liang, Bao Hong, Xuan Zuxing, et al.Reinforcement learning-based model for autonomous vehicle on-ramp merging [J]. Computer Engineering, 2018, 44 (7): 20-24.)
[7]Lin Yuan, McPhee J, Azad N L. Anti-jerk on-ramp merging using deep reinforcement learning [C]// Proc of IEEE Intelligent Vehicles Symposium.Piscataway,NJ: IEEE Press, 2020: 7-14.
[8]Kimura H, Takahashi M, Nishiwaki K,et al.Decision-making based on reinforcement learning and model predictive control considering space generation for highway on-ramp merging [J]. IFAC-Papers On Line, 2022, 55 (27): 241-246.
[9]申元霞, 謝悅, 張學(xué)鋒, 等. 基于多智能體強(qiáng)化學(xué)習(xí)的交叉道路車輛協(xié)同控制 [J/OL]. 西華大學(xué)學(xué)報(bào):自然科學(xué)版.(2023-10-24)." https://link. cnki. net/urlid/51. 1686. N. 20231024. 1056. 002.(Shen Yuanxia, Xie Yue, Zhang Xuefeng, et al.Cooperative vehicle control at intersection based on multi-agent reinforcement learning [J/OL]. Journal of Xihua University :Natural Science Edition. (2023-10-24).https://link. cnki. net/urlid/51. 1686. N. 20231024. 1056. 002.)
[10]Zhang Jiawei, Chang Cheng, Zeng Xiaolin,et al.Multi-agent DRL-based lane change with right-of-way collaboration awareness [J]. IEEE Trans on Intelligent Transportation Systems, 2023, 24 (1): 854-869.
[11]Ha P Y J, Chen Sikai, Dong Jiqian, et al.Leveraging the capabilities of connected and autonomous vehicles and multi-agent reinforcement learning to mitigate highway bottleneck congestion [EB/OL]. (2020-10-12). https://arxiv.org/abs/2010. 05436.
[12]Schester L, Ortiz L E. Automated driving highway traffic merging using deep multi-agent reinforcement learning in continuous state-action spaces [C]// Proc of IEEE Intelligent Vehicles Symposium. Piscataway,NJ: IEEE Press, 2021: 280-287.
[13]Zhou Wei, Chen Dong, Yan Jun,et al.Multi-agent reinforcement learning for cooperative lane changing of connected and autonomous vehicles in mixed traffic [J]. Autonomous Intelligent Systems, 2022, 2 (1): 5-16.
[14]Chen Dong,Hajidavalloo R M, Li Zhaojian, et al.Deep multi-agent reinforcement learning for highway on-ramp merging in mixed traffic [J]. IEEE Trans on Intelligent Transportation Systems, 2023, 24 (11): 11623-11638.
[15]Li Meng, Li Zhibin, Wang Shunchao, et al.Enhancing cooperation of vehicle merging control in heavy traffic using communication based soft actor-critic algorithm [J]. IEEE Trans on Intelligent Transportation Systems, 2023, 24 (6): 6491-6506.
[16]李春, 吳志周, 許宏鑫, 等. 基于多智能體強(qiáng)化學(xué)習(xí)自動(dòng)合流控制方法研究 [J]. 計(jì)算機(jī)工程與應(yīng)用,2024,60(23):349-356. (Li Chun, Wu Zhizhou, Xu Hongxin, et al.Research on automatic merging control method based on multi-agent reinforcement learning [J]. Computer Engineering and Applications,2024,60(23):349-356.
[17]Zhang Xinfeng, Wu Lin, Liu Huan, et al.High-speed ramp merging behavior decision for autonomous vehicles based on multi-agent reinforcement learning [J]. IEEE Internet of Things Journal, 2023, 10 (24): 22664-22672.
[18]Zhou Shanxing, Zhuang Weichao, Yin Guodong, et al.Cooperative on ramp merging control of connected and automated vehicles: distri-buted multi-agent deep reinforcement learning approach [C]// Proc of the 25th International Conference on Intelligent Transportation Systems. Piscataway,NJ: IEEE Press, 2022: 402-408.
[19]Liu Qi, Li Zirui, Li Xueyuan, et al.Graph convolution-based deep reinforcement learning for multi-agent decision-making in interactive traffic scenarios [C]// Proc of the 25th International Conference on Intelligent Transportation Systems. Piscataway,NJ: IEEE Press, 2022: 4074-4081.
[20]Bojarski M, Testa D D, Dworakowski D, et al.End to end learning for self-driving cars [EB/OL]. (2016-04-26).https://arxiv.org/abs/1604. 07316.
[21]宋曉琳, 盛鑫, 曹昊天, 等. 基于模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的智能車輛換道行為決 [J]. 汽車工程, 2021, 43 (1): 59-67. (Song Xiaolin, Sheng Xin, Cao Haotian, et al.Intelligent vehicle lane changing behavior decision based on imitation learning and reinforcement lear-ning [J]. Automotive Engineering, 2021, 43 (1): 59-67.)
[22]Liu Jundi, Boyle L N, Banerjee A G. An inverse reinforcement lear-ning approach for customizing automated lane change systems [J]. IEEE Trans on Vehicular Technology, 2022, 71(9): 9261-9271.
[23]傅明建, 郭福強(qiáng). 基于深度強(qiáng)化學(xué)習(xí)的無信號(hào)燈路口決策研究 [J]. 計(jì)算機(jī)工程, 2024, 50 (5): 91-99. (Fu Mingjian, Guo Fuqiang. Decision research on signal-free intersection based on deep reinforcement learning [J]. Computer Engineering, 2024, 50 (5): 91-99.)
[24]Liu Haochen, Huang Zhiyu, Wu Jingda, et al.Improved deep reinforce-ment learning with expert demonstrations for urban autonomous driving [C]// Proc of IEEE Intelligent Vehicles Symposium. Pisca-taway,NJ: IEEE Press, 2022: 921-928.
[25]Wu Jingda, Hang Zhiyu, Hu Zhongxu, et al.Toward human-in-the-loop AI: enhancing deep reinforcement learning via real-time human guidance for autonomous driving [J]. Engineering, 2023, 21: 75-91.
[26]Huang Zhiyu, Wu Jingda, Lyu Chen. Efficient deep reinforcement learning with imitative expert priors for autonomous driving [J]. IEEE Trans on Neural Networks and Learning Systems, 2023, 34 (10): 7391-7403.
[27]Iqbal S, Sha F. Actor-attention-critic for multi-agent reinforcement learning [C]// Proc of International Conference on Machine Lear-ning. 2019: 2961-2970.
[28]Bouton M,Nakhaei A, Fujimura K, et al.Cooperation-aware reinforcement learning for merging in dense traffic [C]// Proc of IEEE Intelligent Transportation Systems Conference. Piscataway,NJ: IEEE Press, 2019: 3441-3447.
[29]Lin Kaixiang, Zhao Renyu, Xu Zhe, et al. Efficient large-scale fleet management via multi-agent deep reinforcement learning [C]// Proc of the 24th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining. New York:ACM Press, 2018: 1774-1783.
[30]Yu Chao, Velu A, Vinitsky E,et al.The surprising effectiveness of PPO in cooperative multi-agent games [C]//Advances in Neural Information Processing Systems. 2022: 24611-24624.
[31]Wu Yuhuai, Mansimov M, Liao Shun, et al.Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation [EB/OL]. (2017-08-17). https://arxiv.org/abs/1708. 05144.