馮 耀,景首才,3*,惠 飛,趙祥模,劉建蓓
(1.長安大學(xué) 信息工程學(xué)院,陜西 710064,中國;2.交通運輸部交通安全與應(yīng)急保障技術(shù)行業(yè)研發(fā)中心,陜西 710075,中國;3.中交第一公路勘察設(shè)計研究院有限公司,陜西 710075,中國)
智能網(wǎng)聯(lián)車輛搭載先進的感知設(shè)備,融合無線通信技術(shù),實現(xiàn)車與車、車與路的信息共享,利用合理的決策規(guī)劃與控制方法,可以提高車輛的安全性,減少擁堵和提升駕乘舒適性,因此相關(guān)的自動駕駛運動決策規(guī)劃方法成為近年來的研究熱點[1-2]。換道是車輛行駛過程中的一項基本任務(wù),對車輛的安全行駛起著非常重要的作用,同時也是智能網(wǎng)聯(lián)車輛的關(guān)鍵技術(shù)之一[3]。隨著車輛智能化水平的提高,兼顧安全與交通效能的車輛變道決策規(guī)劃逐漸成為智能網(wǎng)聯(lián)車輛變道研究的熱點之一[4]。
現(xiàn)有的智能網(wǎng)聯(lián)車輛的換道軌跡規(guī)劃方法主要包括3 類:基于采樣和搜索的算法、基于幾何曲線函數(shù)的算法、基于優(yōu)化的控制算法?;诓蓸雍退阉鞯某R姺椒ㄓ锌焖贁U展隨機樹法(rapid-exploration random tree,RRT)[5]、Dijkstra 算法[6]、A*算法[7]等。張衛(wèi)波等[8]提出的改進RRT 算法,解決了RRT 算法采樣效率低下的問題,提高了路徑規(guī)劃的效果。這類方法適用范圍較大,但其采樣過程復(fù)雜且計算量大,在規(guī)劃期間未能考慮汽車的動力學(xué)等約束。
基于幾何曲線函數(shù)的軌跡規(guī)劃方法主要有多項式曲線[9]、螺旋線[10]、B 樣條曲線[11]、Bezier 曲線[12]等。陳成等[12]將曲率約束、速度約束和加速度約束考慮進四階Bezier 曲線,生成了滿足實時性和有效果性的軌跡?;趲缀吻€函數(shù)的方法進行軌跡規(guī)劃,其優(yōu)點是方便構(gòu)建和插入新的路徑點集,使得到的參考軌跡更加平滑連續(xù),但是其路徑的優(yōu)化性并不能得到保證。
基于優(yōu)化的控制算法是將軌跡規(guī)劃作為一個優(yōu)化問題,將車輛的期望狀態(tài)作為優(yōu)化目標(biāo),從而得到最優(yōu)軌跡。徐揚等[13]將行車環(huán)境勢場作為模型預(yù)測控制的優(yōu)化目標(biāo),生成最優(yōu)參考軌跡,實現(xiàn)對無人車的縱橫向控制。江浩斌等[14]結(jié)合實際駕駛?cè)俗兊罃?shù)據(jù),研究了基于自適應(yīng)偽普法的變道切入點選擇優(yōu)化方法?;趦?yōu)化的控制算法考慮了車輛的運動學(xué)和動力學(xué)約束,可實現(xiàn)多優(yōu)化目標(biāo)問題的求解,但面對精度要求較高的模型時其計算時效較低。
換道軌跡規(guī)劃是一個考慮時間的序貫決策問題,完成換道過程中的每一步都是決策的結(jié)果,共同構(gòu)成該換道問題的解,從而實現(xiàn)軌跡規(guī)劃,相較于上述傳統(tǒng)的換道決策軌跡規(guī)劃方法,在解決具有復(fù)雜時序交互特點的車輛換道軌跡規(guī)劃問題時,深度強化學(xué)習(xí)方法更具有優(yōu)勢[15]。
目前,強化學(xué)習(xí)已經(jīng)被廣泛應(yīng)用到車輛自動駕駛領(lǐng)域[16]。文獻[17-18]采用改進深度Q 網(wǎng)絡(luò)(deep Q-network,DQN 算法實現(xiàn)了自動駕駛車輛的換道決策。PENG Baiyu 等[19]使用深度雙Q 網(wǎng)絡(luò)(dueling double deep Q-network,DDDQN)網(wǎng)絡(luò),將圖像和主車速度作為狀態(tài)輸入實現(xiàn)了端到端的自動駕駛。CHEN Jianyu[20]引入了潛在序貫環(huán)境模型,與強化學(xué)習(xí)相結(jié)合,在復(fù)雜的城市駕駛場景中取得了較好的效果。LI Guofa 等[21]建立了駕駛風(fēng)險評估的安全指標(biāo),利用深度強化學(xué)習(xí)尋找期望風(fēng)險最小的策略,生成魯棒的安全駕駛策略。當(dāng)前的深度強化學(xué)習(xí)算法中,DQN 類的算法其輸出為離散的動作,無法應(yīng)用到車輛速度、加速度等連續(xù)變量的控制中;谷歌DeepMind 團隊提出的DDPG 算法[22]實現(xiàn)了連續(xù)動作空間的應(yīng)用,但存在Q 值高估的情況,在不斷的迭代過程中會使誤差擴大,從而使得學(xué)到的策略失效。
綜上所述,基于傳統(tǒng)軌跡規(guī)劃算法的劣勢以及現(xiàn)有強化學(xué)習(xí)算法在軌跡規(guī)劃方面的不足,本文使用雙延遲深度確定性策略梯度算法(twin delayed deep deterministic policy gradient,TD3)[23],采用裁剪雙Q 學(xué)習(xí)、目標(biāo)策略噪聲處理和延遲策略網(wǎng)絡(luò)更新3 個技巧,減緩DDPG 算法Q 值高估的程度,提高算法效率。針對考慮安全與能效的智能網(wǎng)聯(lián)車輛換道時空軌跡規(guī)劃問題,設(shè)計分層式換道決策規(guī)劃架構(gòu),解耦智能網(wǎng)聯(lián)車輛的縱橫向運動學(xué)約束,建立縱橫向離散化的車輛運動學(xué)模型;為了保障換道過程中的安全性,構(gòu)建考慮安全性與高效性的換道決策博弈論模型;以降低燃油消耗和提高駕駛效率為目標(biāo),研究基于深度強化學(xué)習(xí)(TD3 網(wǎng)絡(luò))的智能網(wǎng)聯(lián)車輛換道軌跡規(guī)劃方法;最后以3 個典型換道場景為仿真用例,驗證了算法的有效性。
智能網(wǎng)聯(lián)車輛的換道軌跡規(guī)劃,是在已知全局路徑的基礎(chǔ)上,結(jié)合實時車輛狀態(tài)和動態(tài)道路交通環(huán)境信息,根據(jù)局部實際場景規(guī)劃出一條包含空間位置-車速映射關(guān)系的時間序列點集或關(guān)系式[24]。換道過程中的決策與規(guī)劃只與車輛當(dāng)前狀態(tài)有關(guān),與車輛之前的歷史狀態(tài)沒有關(guān)系[25],針對這一特征,本文設(shè)計了分層式智能網(wǎng)聯(lián)車輛換道決策規(guī)劃架構(gòu),如圖1所示。
圖1 分層式智能網(wǎng)聯(lián)車輛換道決策規(guī)劃架構(gòu)
按照信息的傳遞將車輛換道分為環(huán)境感知、行為決策層和軌跡規(guī)劃3 層。環(huán)境感知層中智能網(wǎng)聯(lián)車輛搭載了車載攝像頭、激光雷達、毫米波雷達等傳感器實現(xiàn)對環(huán)境信息的感知,并且能夠以LTE-V2X 的通信方式在低延時、無丟包的情況下獲取周圍車輛的速度、加速度、位置等信息;行為決策層車輛利用純策略博弈換道決策模型,在保障安全的條件下,確定車輛行駛行為;軌跡規(guī)劃層利用基于深度強化學(xué)習(xí)的換道軌跡優(yōu)化算法,構(gòu)建考慮換道油耗和舒適性的智能網(wǎng)聯(lián)車輛縱橫向換道軌跡。
軌跡規(guī)劃是面向車輛上層控制的運動狀態(tài)規(guī)劃,為車輛下層跟蹤控制器提供優(yōu)化參考軌跡。因此,本文利用車輛點運動模型描述車輛狀態(tài)[26],對車輛運動學(xué)模型進行縱橫向解耦,并以Δt為采樣時間進行離散化,得到車輛縱橫運動方程及約束條件如下:
其中:vxt、vyt分別表示t時刻車輛的縱向速度和橫向速度,xt和yt分別表示t刻車輛的縱、橫坐標(biāo)。縱、橫向加速度axt、ayt,由每個時間步Δt中車輛與算法交互得到,vx,max和vy,max分別是縱橫向速度的最大值,xmax和ymax分別是縱橫向位置的最大值,tf為換道的完成時間。通過運動學(xué)公式得到下一時刻車輛的位置和速度,直到車輛到達換道目標(biāo)位置或駛離車道時終止?fàn)顟B(tài)結(jié)束。
車輛換道前需根據(jù)當(dāng)前行駛狀態(tài)及周圍車輛狀態(tài)在確保安全的條件下決策換道行為。換道決策是換道車輛與周圍車輛策略博弈的一個過程,通過博弈得到使雙方的收益達到最大[27],因此本文建立了基于博弈論的智能網(wǎng)聯(lián)車輛換道決策模型。
博弈的基本要素有博弈參與者、參與者的策略集和每種策略對應(yīng)的收益函數(shù)。本文建立了基于完全信息靜態(tài)純策略博弈的換道決策模型,完全信息博弈表示所有博弈參與者的物理狀態(tài)、策略空間和收益函數(shù)對于其他參與者都是透明的,純策略指的是構(gòu)成的策略不考慮博弈參與者的行為概率。
車輛換道示意圖如圖2 所示,其中M 車為換道車輛;Ao車和Bo車分別為原始車道前車和跟隨車輛;Ad車和Bd車分別為目標(biāo)車道前車和跟隨車輛;Li,i={Ad,Bd,Ao,Bo},表示換道車輛與周圍車輛的車頭間距。
圖2 車輛換道示意圖
換道時博弈的參與者為換道車輛M,目標(biāo)車道跟隨車輛Bd和目標(biāo)道前車Ad,換道車輛M 的策略集為Φ1={m1,m2},包括2 種純策略,其中m1表示換道,m2表示不換道;目標(biāo)車道車輛Bd,Ad的策略集為Φ2={di1,di2},其中di1表示車輛允許換道,di2表示拒絕換道。
以確保換道的安全性和提高換道的效率為目的,建立體現(xiàn)安全和駕駛效率的收益函數(shù),以最小安全距離作為安全性的評估指標(biāo),利用當(dāng)前策略完成換道所需時間與原始狀態(tài)下所需時間對比評判該策略的時效收益,使得車輛在博弈時考慮這2 個因素最終得到換道行為決策。換道車輛和目標(biāo)車道車輛的收益函數(shù)定義如下:
其中,Rsafe、Rtime,表示決策車輛考慮安全性和時效性所獲得的收益,其計算公式如(8) -(12);αs、αt分別為安全性收益和時效性收益的權(quán)重系數(shù),αs+αt=1,代表進行換道決策時不同駕駛因素的重要程度。
其中Lhead為當(dāng)前時刻兩車的車頭間距,Lmin為當(dāng)前狀態(tài)下所需的最小安全距離(以換道車輛M 和目標(biāo)車道前車Ad為例),當(dāng)兩車勻速運動時,可寫成公式(10);vMx和vLdx分別表示換道車輛和目標(biāo)車道前車的縱向速度,aMx和aLdx為換道車輛和目標(biāo)車道前車的縱向加速度。t0表示保持原狀態(tài)下達到目的地所需的時間,xtarg為換道目的點的縱向坐標(biāo);tf表示當(dāng)前策略下到達換道終點所需要的時間,可由軌跡規(guī)劃部分得出。
根據(jù)搭建好的博弈模型求取最優(yōu)換道決策,即達到Nash 均衡的狀態(tài)[28]。Nash 均衡是一組對于所有的博弈參與者均是最佳的策略集合,任何參與者在不選擇該策略的情況下,都不會有更佳收益。在換道博弈中,Nash 均衡可以理解為每一輛車在當(dāng)前交通環(huán)境下所選擇的最優(yōu)駕駛策略,所有車都不會舍棄最優(yōu)策略去選擇其他策略。
如在一次博弈下,有n個換道參與者,車輛的單個策略可表示為ci,其策略集和收益分別表示為Ci和Ri,則該博弈可表示為
本文采用收益矩陣來求解換道博弈模型的最優(yōu)策略,通過式(7)分別求出換道車輛M 與目標(biāo)車道車輛Ad和Bd進行博弈時的博弈收益,換道車輛的收益用RM表示,目標(biāo)車道車輛的收益用RD表示,如RM(di1,m1)表示換道車輛選擇“換道”策略,目標(biāo)車道車輛選擇“允許換道”策略而得到的收益,列出博弈收益矩陣,如表1 所示。
表1 博弈收益矩陣
表1 中,換道車輛與目標(biāo)車道前車和跟隨車分別進行博弈,得到4 種博弈結(jié)果為:換道車輛進行換道,目標(biāo)車道車輛允許換道;換道車輛進行換道,目標(biāo)車道車輛拒絕換道;換道車輛不換道,目標(biāo)車道車輛允許換道;換道車輛不換道,目標(biāo)車道車輛拒絕換道。只有換道車輛選擇“換道”策略,且目標(biāo)車道前后車都做出“允許換道”的策略時,才能成功執(zhí)行換道。
計算出每種策略下?lián)Q道車輛和目標(biāo)車道車輛考慮安全性和時效性的收益值,得到博弈收益矩陣,如果博弈矩陣中存在某一純策略(din,mn)使得下式(15)成立,則稱(din,mn)為當(dāng)前博弈的純策略Nash 均衡。即為當(dāng)前環(huán)境下車輛做出的最優(yōu)換道決策,根據(jù)此決策確定所需求解的換道軌跡規(guī)劃子問題,如左換道、右換道、車道保持(不換道)。
強化學(xué)習(xí)是一種典型的經(jīng)驗驅(qū)動、自主學(xué)習(xí)的方法,用來解決序貫決策的問題,換道問題可以用Markov 決策過程(Markov decision process,MDP)進行建模,其主要元素為S,A,P,R,γ,智能體的狀態(tài)集用S 表示;決策所產(chǎn)生的動作構(gòu)成動作集A;P表示當(dāng)前狀態(tài)轉(zhuǎn)移到下一狀態(tài)的概率;R 為獎勵集;γ為獎勵折扣因子,其值越大,在進行策略選擇時越具有全局性,反之則只考慮當(dāng)前收益。強化學(xué)習(xí)的最優(yōu)策略π*滿足如下條件[29],即:
本文使用TD3 網(wǎng)絡(luò)框架作為智能網(wǎng)聯(lián)車輛換道軌跡規(guī)劃的架構(gòu),TD3 算法沿用Actor-Critic 類算法的網(wǎng)絡(luò)框架,使用Actor 網(wǎng)絡(luò)進行策略的選擇,Critic網(wǎng)絡(luò)對狀態(tài)-動作(state-action)對進行評估,能夠處理連續(xù)狀態(tài)空間和動作空間的問題,將車輛的當(dāng)前狀態(tài)作為Actor 網(wǎng)絡(luò)的輸入,輸出為車輛執(zhí)行的動作at,Critic 網(wǎng)絡(luò)以車輛當(dāng)前狀態(tài)st和動作at作為輸入,輸出為累計獎勵的期望Qπ(st,at) (以下用Q值描述)。
表示成遞歸的Bellman 方程形式為
Critic 網(wǎng)絡(luò)通過最小化損失函數(shù)Loss 進行更新:
Actor 網(wǎng)絡(luò)通過策略梯度進行更新:
TD3 算法在DDPG 基礎(chǔ)上,使用兩個策略評估Critic 網(wǎng)絡(luò)計算Q值,如式(20),在進行Critic 網(wǎng)絡(luò)的梯度更新時,選取二者的較小值,以減緩過估計問題;對目標(biāo)動作的計算添加基于正態(tài)分布的噪聲,使得Q值函數(shù)更新更加平滑;延遲更新策略網(wǎng)絡(luò)使得Q值的評估更穩(wěn)定?;赥D3 的智能網(wǎng)聯(lián)車輛換道軌跡規(guī)劃架構(gòu)如圖3 所示。
圖3 基于TD3 的智能網(wǎng)聯(lián)車輛換道軌跡規(guī)劃架構(gòu)
智能網(wǎng)聯(lián)車輛換道問題的交互過程如下:假設(shè)車輛在t時刻的狀態(tài)為st,Actor 網(wǎng)絡(luò)輸入st,輸出當(dāng)前時刻的動作選擇at,與環(huán)境進行交互得到車輛下一狀態(tài)st+1和采取本次動作的獎勵rt,將每一步采集的樣本(st,at,rt,st+1)進行存儲,車輛通過與環(huán)境不斷交互-探索產(chǎn)生大量的數(shù)據(jù),TD3 算法則從這些數(shù)據(jù)中采樣進行訓(xùn)練,在考慮油耗和舒適性的情況下不斷優(yōu)化策略選擇網(wǎng)絡(luò)和策略評估網(wǎng)絡(luò),得到整個換道過程中的車輛加、減速決策序列和車輛狀態(tài)序列。
針對基于TD3 算法的智能網(wǎng)聯(lián)車輛換道問題的軌跡規(guī)劃模型,設(shè)計其狀態(tài)、動作和獎勵函數(shù)。
3.2.1 狀態(tài)空間
狀態(tài)空間中包含智能網(wǎng)聯(lián)車輛換道所需要的全部信息,每個時刻都需要獲取當(dāng)前車輛的縱坐標(biāo)xt,橫坐標(biāo)yt,縱向速度vxt,橫向速度vyt。每一時刻的狀態(tài)用一個四元組表示,st=[xt,vxt;yt,vyt]。
3.2.2 動作空間
動作空間主要定義智能網(wǎng)聯(lián)車輛所采取的動作,結(jié)合車輛運動學(xué)縱橫向解耦狀態(tài)方程(1-4),用縱橫向加速度作為智能網(wǎng)聯(lián)車輛的動作,考慮駕駛的舒適性[30],縱向加速度axt的取值范圍設(shè)定為[-2,2] m/s2;考慮車的橫向安全約束和橫向舒適性,橫向加速度ayt的取值范圍為[-0.2,0.2] m/s2。每一時刻的動作用一個二元組表示,at=[axt,ayt]。
3.2.3 獎勵函數(shù)
強化學(xué)習(xí)中,獎勵函數(shù)對于引導(dǎo)智能體采取獲得更高收益的動作,從而得到期望策略具有重要作用。因此,設(shè)計合理的獎勵函數(shù)是智能網(wǎng)聯(lián)車輛能否完成換道任務(wù)的關(guān)鍵。
本算法期望智能網(wǎng)聯(lián)車輛以最快的換道效率和最小的燃油消耗從當(dāng)前車道換到目標(biāo)車道,并能夠與前車以相同的速度保持安全車距行駛。
1) 沿目標(biāo)車道中心線獎勵設(shè)置Ry
其中:yt和ytarg分別表示車輛當(dāng)前位置的橫向坐標(biāo)和目標(biāo)位置的橫向坐標(biāo),此項是為了讓車輛在換道過程中盡量靠近車道中心線行駛。
2) 目標(biāo)速度獎勵設(shè)置Rv
其中:axt為表示當(dāng)前時刻的縱向加速度,vxt和vtarg分別表示當(dāng)前時刻的縱向速度和換道目標(biāo)速度,此項目的是使換道車輛能夠按照期望速度行駛,提高換道效率。
3) 油耗獎勵設(shè)置Re
油耗計算使用了K.Ahn 等[31]建立的VT-Micro微觀油耗排放模型,
其中,MOEe為瞬時燃油消耗,包括線性、二次和三次速度和加速度項的組合,表示在速度的k次冪和加速度的q次冪下MOEe的模型系數(shù),此項用瞬時燃油消耗作為懲罰項,使車輛學(xué)習(xí)到節(jié)能的換道方式。
4) 終止獎勵設(shè)置Rd
智能網(wǎng)聯(lián)車輛處于終止?fàn)顟B(tài)時,本回合實驗結(jié)束,終止?fàn)顟B(tài)包括駛離車道范圍、達到最大仿真步數(shù)但未完成換道、在誤差范圍內(nèi)到達換道終點這3 種情況。當(dāng)智能網(wǎng)聯(lián)車輛出現(xiàn)駛離車道或者未完成換道任務(wù)時,給予較大的懲罰;而當(dāng)智能網(wǎng)聯(lián)車輛在誤差允許的范圍內(nèi)完成換道任務(wù)時,則給予較大的獎勵:
其中,C1、C2取較大的正數(shù)。
綜合上述4 個影響智能網(wǎng)聯(lián)車輛換道因素來驅(qū)動車輛以高效、舒適和節(jié)能的方式完成換道任務(wù)。最終的聯(lián)合獎勵函數(shù)Rt設(shè)計為
其中,wy,wv,we,wd分別為不同收益的權(quán)重系數(shù),表示其重要程度。
完成換道問題的建模后,確定換道車輛的換道起點和換道終點位置,設(shè)置訓(xùn)練回合數(shù)和超參數(shù),通過以下步驟對TD3 網(wǎng)絡(luò)進行訓(xùn)練,如表2 所示,使其能夠在考慮油耗、舒適性的情況下完成換道任務(wù)。
表2 TD3 算法流程
本文所用的硬件設(shè)備為:Window10 64位操作系統(tǒng),顯卡Nvidia Quadro P600,處理器為Intel 至強Bronze 3104,內(nèi)存為16GB;軟件設(shè)備為:編程語言python3.8,深度學(xué)習(xí)框架Pytorch1.8,用gym 庫創(chuàng)建仿真實驗場景,運行環(huán)境為pycharm2020。
為了驗證換道軌跡規(guī)劃的有效性,實驗使用python 作為仿真環(huán)境,模仿了gym 庫中的仿真環(huán)境設(shè)計規(guī)則,設(shè)計了一個長120 m,寬3.5 m 的單向雙車道,并做出如下假設(shè):
1)只考慮直道上相鄰車道的換道行為;
2)車輛做出的決策和規(guī)劃都是依據(jù)當(dāng)前時刻的狀態(tài)進行的,車輛狀態(tài)發(fā)生變化時重新進行決策和規(guī)劃。
換道車輛的初始速度為指定速度范圍內(nèi)的隨機值,初始位置為指定的換道起點,周圍車輛的行駛速度為當(dāng)前時刻的速度值,換道終點為滿足最小安全換道距離的指定位置。車輛駛出車道或達到最大步數(shù)時結(jié)束本回合。
實驗中TD3 網(wǎng)絡(luò)的結(jié)構(gòu)如表3 所示,訓(xùn)練超參數(shù)設(shè)置如表4 所示。
表3 TD3 網(wǎng)絡(luò)結(jié)構(gòu)
表4 主要超參數(shù)說明
4.3.1 左換道軌跡規(guī)劃
在這個場景中,假設(shè)換道車輛的初始位置在右車道中心線起點(1.75,0) m 處,初始速度在43.2~72 km/h中隨機初始化,周圍車輛的行駛速度為57.6 km/h,換道車輛與原始車道前車的車頭間距為50 m,與目標(biāo)車道前后車的車頭間距均為60 m,目標(biāo)位置為左車道中心線(-1.75,100) m 處,博弈收益中的權(quán)重系數(shù)αs、αt分別取0.6 和0.4,得到左換道時的博弈收益矩陣如表5 所示。
表5 左換道博弈收益矩陣
由表5 可知,此時博弈的最優(yōu)策略為:換道車輛進行左換道,目標(biāo)車道車輛允許換道(換道車輛與目標(biāo)車道車輛前后車的車頭間距是一樣的,得到的博弈收益矩陣是相同的)。訓(xùn)練結(jié)果及換道車輛以初始速度12 m/s 進行左換道的測試結(jié)果如圖4 所示。
圖4 左換道訓(xùn)練結(jié)果
4.3.2 車道保持軌跡規(guī)劃
在這個場景中,假設(shè)換道車輛的初始位置在右車道中心線起點(1.75,0) m 處,初始速度為54~90 km/h中隨機初始化,周圍車輛的行駛速度為72 km/h,換道車輛與原始車道前車的車頭間距為30 m,與目標(biāo)車道前后車的車頭間距均為20 m,目標(biāo)位置為右車道中心線 (1.75,100) m 處,博弈收益中的權(quán)重系數(shù)αs,αt分別取0.6 和0.4,得到車道保持時的博弈收益矩陣如表6 所示。
表6 車道保持博弈收益矩陣
由表6 可知,此時博弈的最優(yōu)策略為:換道車輛不換道,周圍車輛拒絕換道,因此換道車輛需要減速進行車道保持,訓(xùn)練結(jié)果及車輛以初始速度為25 m/s進行車道保持的測試結(jié)果如圖5 所示。
圖5 車道保持訓(xùn)練結(jié)果
4.3.3 右換道軌跡規(guī)劃
在這個場景中,假設(shè)換道車輛的初始位置在左車道中心線起點(-1.75,0) m 處,初始速度為 54~90 km/h中隨機初始化,周圍車輛行駛速度為72 km/h,換道車輛與原始車道前車的車頭間距為50 m,與目標(biāo)車道前后車的車頭間距均為60 m,目標(biāo)位置為右車道中心線(1.75,120) m 處,博弈收益中的權(quán)重系數(shù)αs,αt分別取0.6 和0.4,得到右換道時的博弈收益矩陣如表7所示。
表7 右換道博弈收益矩陣
由表7 可知,此時博弈的最優(yōu)策略為換道車輛進行右換道,周圍車輛允許換道。訓(xùn)練結(jié)果及換道車輛以初始速度16 m/s 進行右換道的測試結(jié)果如圖6 所示。
圖6 右換道訓(xùn)練結(jié)果
從左換道、右換道的實驗結(jié)果看出: 車輛智能體在前150 個回合中處于試錯階段,車輛智能體不知道如何進行換道,總是由于異常結(jié)束而導(dǎo)致回合提前結(jié)束;大概從150 回合后,收集到足夠的歷史數(shù)據(jù)后,開始逐步學(xué)習(xí)提升,每回合所得的累積收益開始增大,說明車輛智能體學(xué)習(xí)到的策略在不斷變好,由剛開始的無法完成換道任務(wù)到能夠逐步完成換道,并不斷增加(為了便于看出智能體學(xué)習(xí)到的策略在進行優(yōu)化,使用滑動平均曲線將收益進行平滑,收益曲線波動是由于不同初始速度完成換道所得到的收益不同),最終逐漸穩(wěn)定在一個范圍內(nèi),表明車輛的策略的優(yōu)化過程,此時車輛智能體能夠到達設(shè)定的換道終點,且換道車輛的速度與環(huán)境車的速度相等,能夠安全完成換道任務(wù)。用訓(xùn)練好的模型進行測試,得到的換道軌跡如圖4c、6c 所示,速度控制曲線如圖4d、6d 所示。
在換道過程中考慮油耗問題,以油耗的大小作為對智能體的懲罰: 油耗越大,懲罰越大,希望車輛智能體能夠以節(jié)能的方式完成換道任務(wù)。車輛在左、右換道任務(wù)中訓(xùn)練前后完成換道任務(wù)的平均油耗對比如表8所示。
從表8 可見,未經(jīng)過TD3 算法學(xué)習(xí)前,左換道過程中每步的平均油耗為30 mL/ s,右換道過程中每步的平均油耗為32 mL/ s;經(jīng)過算法提升后的左換道過程中的單步平均油耗為11 mL/ s,右換道過程中的單步平均油耗為18 mL/ s;左、右換道過程中的平均油耗分別減少了63%和44%,達到了節(jié)能駕駛的目的。
表8 平均油耗對比
實驗2 中由于當(dāng)前車輛不滿足安全換道條件,此時車輛需要進行車道保持,并減速行駛,最終與周圍車輛的速度相同,如圖5c 所示,車輛的初始速度為25 m/s,到達目標(biāo)位置的速度為20 m/s;測試得到的車道保持軌跡如圖5b 所示。
使用DDPG 算法和TD3 算法進行左換道和右換道實驗時每回合所用的訓(xùn)練時間對比如圖7 中所示。
圖7 DDPG 與TD3 訓(xùn)練時間對比
總的訓(xùn)練時間、每回合的平均訓(xùn)練時間以及具體場景的單步軌跡規(guī)劃所需時間對比如表9 所示。
從表9 中看出,使用TD3 算法在左換道和右換道實驗中所用的訓(xùn)練時間均少于DDPG,在左換道實驗中,TD3 總的訓(xùn)練速度和每回合的平均訓(xùn)練速度較DDPG提升了約12%。在右換道實驗中,TD3 總的訓(xùn)練速度和每回合的平均訓(xùn)練速度較DDPG 提升了約9%。綜上,與DDPG 算法相比,本文所用算法的平均訓(xùn)練速度提升了約10.5%;而且采用訓(xùn)練好的模型完成左、右換道場景完整的軌跡規(guī)劃所需時間均在1.3 s 內(nèi),單步規(guī)劃所需時間在10 ms 內(nèi),可滿足實時要求。因為所需時間與處理器性能有關(guān),若采用高性能處理器所需時間會更短。
表9 訓(xùn)練時間對比
本文提出了基于深度強化學(xué)習(xí)的智能網(wǎng)聯(lián)車輛換道軌跡規(guī)劃方法,在考慮安全性、舒適性、燃油經(jīng)濟性和效率的情況下實現(xiàn)對智能網(wǎng)聯(lián)車輛的換道軌跡規(guī)劃。使用基于完全信息的靜態(tài)純策略博弈模型做出換道決策,保證了決策的安全性和時效性,并確定需要求解的軌跡規(guī)劃子問題;將換道軌跡規(guī)劃問題解耦為縱橫向控制問題,使用TD3 算法進行求解,在獎勵設(shè)計部分,使用瞬時燃油消耗、與期望速度的差值和加速度作為獎懲項,引導(dǎo)車輛以節(jié)能、高效、舒適的方式得到換道軌跡。
通過設(shè)計左換道、車道保持和右換道的仿真實驗,表明了算法在燃油經(jīng)濟性和實時性方面的優(yōu)勢。與DDPG 算法作比較,本文所提方法在左換道和右換道實驗中的平均訓(xùn)練效率提升了約10.5%,平均油耗分別減少了63%和44%,且用該模型進行換道的軌跡規(guī)劃,單步軌跡的規(guī)劃時間在10 ms 內(nèi),能夠?qū)崟r規(guī)劃車輛的行駛軌跡。