張 明 恒,呂 新 飛,萬 星,吳 增 文
(1.大連理工大學 工業(yè)裝備結構分析國家重點實驗室, 遼寧 大連 116024; 2.大連理工大學 汽車工程學院, 遼寧 大連 116024 )
近年來,隨著汽車保有量的逐漸增加,交通安全、道路通行效率問題日益嚴峻,而自動駕駛被認為是解決上述問題的有效途徑之一.從安全性方面來看,由于駕駛人反應不及時、處置不當而造成的交通事故頻發(fā)[1],自動駕駛在為人們提供舒適乘車體驗的同時,也有助于減少交通事故.從穩(wěn)定性的角度來看,以車輛在行駛過程中的換道行為為例,人類駕駛員在換道過程中有較強的頓挫感,自動駕駛技術則可以顯著提升車輛在換道過程中的穩(wěn)定性與舒適性[2].基于信息處理過程,自動駕駛可分為環(huán)境感知、決策規(guī)劃、運動控制3個階段[3].其中,決策規(guī)劃是實現(xiàn)自動駕駛的關鍵技術之一.
目前,主要有3種自動駕駛決策規(guī)劃系統(tǒng)解決方案:基于規(guī)則的決策規(guī)劃系統(tǒng)[4-5]、基于深度學習的“端到端”決策規(guī)劃系統(tǒng)[6-7]和基于深度強化學習的決策規(guī)劃系統(tǒng)[8].現(xiàn)有的自動駕駛決策規(guī)劃系統(tǒng)很大一部分是基于規(guī)則的,雖然可以滿足常規(guī)駕駛情況,但由于我國道路通行條件復雜,不能枚舉出所有可能遇到的事件,無法應對一系列未經(jīng)考慮的突發(fā)情況[9],因此,依靠基于規(guī)則的決策規(guī)劃系統(tǒng)進行自動駕駛決策具有較高的安全隱患.基于深度學習的“端到端”決策規(guī)劃系統(tǒng)雖然取得了一定的成就[10],但深度學習網(wǎng)絡需要大量標注好的樣本進行網(wǎng)絡訓練,其訓練結果的優(yōu)劣很大程度上取決于訓練樣本的選取,而且人工進行大量訓練樣本的標注是不現(xiàn)實的[11],這些缺陷表明深度學習在自動駕駛決策控制領域的應用存在一定的局限性.基于深度強化學習的自適應控制方法由于可以進行自我學習和自我強化,在場景多變的自動駕駛任務中具有很好的泛化性,逐漸被應用在自動駕駛領域中[12].
對于深度強化學習,可靠性、學習效率和模型泛化能力是決策系統(tǒng)的基本要求.Gao等[13]基于強化學習算法提出了一種車輛決策模型,該模型在簡單交通場景下表現(xiàn)出較好性能;為解決復雜場景下的駕駛決策問題,Zong等[14]基于DDPG(deep deterministic policy gradient)算法構建了駕駛決策模型,該模型可以應對復雜場景,但學習效率較低;為解決模型的計算效率問題,Anderson等[15]借鑒深度學習預訓練技巧提出了一種強化學習預訓練方法,該方法有效提高了強化學習訓練效率,但還存在著試錯成本高和安全性低等問題.
DDPG算法在連續(xù)動作的控制上表現(xiàn)優(yōu)異,可以很好地解決自動駕駛汽車的連續(xù)控制問題,目前有關深度強化學習在自動駕駛決策控制領域的研究,大都以DDPG作為基礎算法.黃志清等[16]通過TORCS(the open racing car simulator)平臺的不同賽道對DDPG算法進行訓練,并將訓練結果與DQN(deep Q-learning network)算法進行對比,結果表明DDPG算法在控制精度以及泛化性方面具有更好的效果;張斌等[17]基于DDPG算法提出了一種FEC-DDPG算法,該算法在消除非法駕駛策略的輸出上表現(xiàn)出了較大的優(yōu)越性,但無法在復雜路況下對車輛進行較好的控制;Zou等[18]提出了一種DDPG-IL算法,通過引入雙經(jīng)驗池來分別存儲專家數(shù)據(jù)和普通數(shù)據(jù),同時使用隨機采樣的方式打亂了兩個經(jīng)驗池數(shù)據(jù)的相關性,使算法具有更快的收斂速度和更好的性能.相關研究表明,以DDPG算法作為基礎算法進行自動駕駛控制決策系統(tǒng)的研究可以取得較理想的結果.
基于此,本文基于深度強化學習理論提出一種用于車輛自動駕駛決策的WGAIL-DDPG(λ)(Wasserstein generative adversarial nets-deep deterministic policy gradient(λ))模型.其中,針對強化學習模型構建關鍵過程,基于車輛行駛性能要求對獎勵函數(shù)進行具體設計;通過模仿學習策略的引入,提升模型的計算效率;通過增益調(diào)度器的設計,保證從模仿學習到強化學習的平穩(wěn)過渡.
本文提出的WGAIL-DDPG(λ)自動駕駛決策模型框架如圖1所示.DDPG算法通過其Actor 網(wǎng)絡生成的駕駛策略加入隨機噪聲后作為判別器的一個輸入,判別器為經(jīng)過專家數(shù)據(jù)訓練完成的GAN網(wǎng)絡的判別器,其以專家數(shù)據(jù)作為監(jiān)督信號對DDPG算法生成的駕駛策略進行評分,評分與所設計的獎勵函數(shù)共同指導DDPG算法進行更新.
圖1 WGAIL-DDPG(λ)自動駕駛決策模型框架Fig.1 Automatic driving decision model framework of WGAIL-DDPG(λ)
DDPG算法框架如圖2所示.DDPG算法屬于Actor-Critic算法,由演員Actor和評論家Critic兩部分構成.由于單個子網(wǎng)絡的學習過程不穩(wěn)定,DDPG借鑒了DQN中延時更新Target Net的經(jīng)驗,將Actor和Critic分別又細分為兩個子網(wǎng)絡:Online Net與Target Net.兩者具有相同的網(wǎng)絡結構,但具有不同的網(wǎng)絡參數(shù),Online Net使用最新的網(wǎng)絡參數(shù),每隔一定步數(shù)對Target Net的網(wǎng)絡參數(shù)更新一次.Online Net與Target Net網(wǎng)絡參數(shù)的不同切斷了兩者之間的相關性,使網(wǎng)絡的學習過程更加穩(wěn)定.
圖2 DDPG算法框架Fig.2 The framework of DDPG algorithm
增益調(diào)度器的引入將模型分為模仿學習、模仿-強化學習過渡、強化學習3個階段.階段一是模仿學習階段,見圖1中增益調(diào)度器的黃色背景部分,其主要任務是讓智能體在專家策略指導下具備初級駕駛決策功能,解決強化學習前期試錯次數(shù)過多問題;階段二是模仿學習向強化學習的平穩(wěn)過渡,即圖1中的綠色背景部分,其主要任務是防止模型在第三階段的探索過程中偏離初級駕駛策略的分布;階段三是強化學習階段,即圖1中的藍色背景部分,其主要任務是讓智能體通過與環(huán)境的交互,具備更高級的自動駕駛決策功能.
上述模型設計的關鍵環(huán)節(jié)在于兩方面:獎勵函數(shù)設計和模仿-強化學習的過渡.其中,獎勵函數(shù)用以評估強化學習過程優(yōu)劣,對模型訓練結果具有關鍵影響;實現(xiàn)模仿學習向強化學習的平穩(wěn)過渡是保證在“自學”階段數(shù)據(jù)分布不偏離專家數(shù)據(jù)分布的重要條件.基于此,本文從車輛使用安全性、穩(wěn)定性兩方面出發(fā)對獎勵函數(shù)進行了具體設計,通過所設計的增益調(diào)度器保證模仿學習向強化學習的平穩(wěn)過渡.
對于實際車輛駕駛過程,影響駕駛人決策的主要外環(huán)境信息包括車輛因素、環(huán)境因素、道路因素[19].圖3為典型車輛行駛外環(huán)境信息示意圖,其中b為車輛中心與道路中線的距離,d反映本車與其他車輛的相對距離,W為當前車道寬度,vx為車輛縱向速度,vy為車輛橫向速度,vz為車輛垂向速度,θ為車輛行駛方向與道路中心線的夾角.
圖3 車輛行駛外環(huán)境信息示意圖Fig.3 Schematic diagram of external environment information of the running vehicle
鑒于實際行車數(shù)據(jù)獲取難度及本文研究目的,本研究基于TORCS平臺進行相關數(shù)據(jù)的獲取和模型驗證工作.基于車輛行駛性能分析結果,本文所構建的基礎數(shù)據(jù)庫由反映車輛安全性、穩(wěn)定性的兩類數(shù)據(jù)組成,如圖4所示.
(a) TORCS平臺
強化學習過程是智能體在與環(huán)境交互過程中獲得最大獎勵的過程[20].滿足行駛安全性是智能汽車發(fā)展的首要要求,在滿足安全性的基礎上再考慮穩(wěn)定性等其他要求.因此,從車輛自動駕駛決策系統(tǒng)的功能屬性本質(zhì)要求分析,其一方面應滿足車輛行駛的安全性要求,另一方面應盡可能滿足行駛過程中的穩(wěn)定性以提升通行效率及乘坐舒適性.本文基于汽車行駛性能要求,從穩(wěn)定性、安全性兩方面對獎勵函數(shù)進行具體設計.車輛在行駛過程中,從穩(wěn)定性的方面考慮,希望使橫向速度vy、車輛中心與道路中線的距離b盡可能小,以得到較大的沿道路中線的速度vxcosθ,同時,希望垂直于道路平面的速度vz盡可能?。畯陌踩苑矫婵紤],希望智能體與其他車輛保持安全距離.同時,為盡可能地使仿真平臺模擬現(xiàn)實環(huán)境,本文同時設計了復雜交通場景下的獎勵函數(shù).
其中,基于單車工況的DDPG模型和WGAIL-DDPG(λ)模型獎勵函數(shù)分別為
(1)
(2)
其中權重系數(shù)向量Cs=(c1c2c3c4)T,vs=(vxcosθ-|vy| -|vz| -|b|)T,λ為用于調(diào)整判別器長期監(jiān)督信號在強化學習獎勵中占有的權重的超參數(shù),Si是來自生成對抗模仿學習模塊中判別器網(wǎng)絡的評分.
復雜交通場景中存在其他車輛時,相應模型的獎勵函數(shù)分別為
(3)
(4)
其中權重系數(shù)向量Cm=(c1c2c3c4c5)T,vm=(vxcosθ-|vy| -|vz| -|b| -vxd)T,fdmg為車輛碰撞時仿真平臺返回的受損程度.
增益調(diào)度器設計的基本目標是實現(xiàn)從模仿學習階段向強化學習階段的平穩(wěn)過渡.借鑒人類學習過程,在模仿學習階段,判別器打分對生成器動作優(yōu)化起主要作用;在強化學習階段,獎勵函數(shù)對智能體動作優(yōu)化起主要作用.因此,λ應具有隨模型訓練進程逐漸平滑衰減的特性,以保證模型的穩(wěn)定性,且模型中對應的強化學習部分的權重與λ應滿足和為1這一特性.
線性衰減曲線隨著訓練次數(shù)n的逐漸增加呈線性下降,且衰減程度恒定.若衰減程度過大,可能會出現(xiàn)過渡不平穩(wěn)的情形,在模型訓練中表現(xiàn)為強化學習階段的決策分布偏離專家數(shù)據(jù)的決策分布;若衰減程度過小,則過渡階段的訓練次數(shù)會有所增加,與本文提出的通過引入模仿學習提升強化學習效率的策略相悖.指數(shù)衰減型曲線在保證快速衰減的同時具有一定的平滑性,初始階段衰減程度隨訓練次數(shù)n的增加逐漸增加,快速向強化學習階段過渡;結束階段,衰減程度隨n的增加逐漸減小,趨于穩(wěn)定,滿足增益調(diào)度器的設計要求.
基于此,本文所設計的增益調(diào)度器模型為
(5)
式中:N0為增益調(diào)度器幅值,α為指數(shù)衰減常數(shù).
為驗證增益調(diào)度器設計的有效性,當α=0.5時,增益調(diào)度器特性變化曲線如圖5所示.
圖5 增益調(diào)度器特性曲線Fig.5 Gain regulator characteristic curve
可見,在模型訓練起始階段[n0,n1),λ=1,表明判別器打分對生成器動作優(yōu)化起主要作用,而獎勵函數(shù)不起作用;隨訓練次數(shù)逐漸增加,獎勵函數(shù)權重逐漸增大,而判別器監(jiān)督作用逐漸降低,從而實現(xiàn)了從模仿學習到強化學習的平穩(wěn)過渡.
從模仿學習到強化學習的過渡過程中,不同的λ所對應的算法如表1所示.
表1 λ-算法類型對應關系Tab.1 Correspondence relationship of λ-algorithm type
可見,本文所設計的WGAIL-DDPG(λ)算法兼具了模仿學習和強化學習的優(yōu)點,在[n0,n1]階段,智能體在專家數(shù)據(jù)的指引下能盡快地學會基本駕駛策略,大大降低了探索空間;在[n2,n3]階段,智能體在與環(huán)境交互的過程中不斷探索更高級的駕駛策略.另外,上述設計的增益調(diào)度器實現(xiàn)了從模仿學習到強化學習的平穩(wěn)過渡.
基于本文研究目的,以下分別針對模型性能、適應性和學習效率進行相關測試和分析.
在設計獎勵函數(shù)時,本文重點考慮了自動駕駛車輛的穩(wěn)定性、安全性,因此本文對上述性能進行了測試.
2.1.1 穩(wěn)定性 穩(wěn)定性是表征汽車操縱特性的基礎性能之一,本文利用歸一化之后的智能體偏離道路中線的距離2b/W評價自動駕駛控制系統(tǒng)的平穩(wěn)性.2b/W越接近0,說明控制系統(tǒng)的循跡穩(wěn)定性越好;反之,說明車輛偏離道路或左右擺動趨勢越明顯,穩(wěn)定性越差.由圖6的測試結果可以看出,歸一化后車輛偏離道路中線的距離一直在-0.3~0.3波動,表明訓練1 300次本文算法可以控制智能體很好地完成車道保持任務.
圖6 穩(wěn)定性Fig.6 Stability
2.1.2 安全性 本文基于智能體與周邊距離最近車輛的相對距離d這一指標來評價自動決策系統(tǒng)決策方案的安全性.d越小,說明車輛發(fā)生碰撞的風險越大.
從測試結果圖7可以看出,在剛起步,即n=0時,安全距離d<2.5 m,究其原因在于,智能體與其他車輛從同一起點出發(fā);在n=1 000時,d急劇減小,通過觀看測試過程發(fā)現(xiàn),干擾車輛突然超車,智能體為避免與其發(fā)生碰撞做出正確決策并逐漸減速,保證與干擾車輛保持安全車距.除上述兩處外,智能體與周邊其他車輛的距離基本保持在10 m以上,表明所設計的決策模型在多車工況下可以保證車輛具有較高的安全性.
適應性是表征算法對新樣本、新工況的適應能力.為了驗證所提出WGAIL-DDPG(λ)模型的適應性,本研究選取訓練4 000次時的模型(多車獎勵函數(shù),CG Speedway-1)、較復雜的Alpine賽道和較簡易的CG Track3賽道進行了相應測試,賽道特征對比如圖8所示.
圖7 安全性Fig.7 Safety
圖8 訓練賽道與測試賽道對比Fig.8 Comparison between training track and test track
其中,直線形賽道用于驗證所提出模型的車道保持能力,簡易彎道用于驗證車輛過彎時的循跡穩(wěn)定性,復雜彎道用于驗證車輛的過彎能力和安全性能.針對不同賽道的自動駕駛系統(tǒng)決策難度水平順序為Alpine>CG Speedway-1>CG Track3,發(fā)現(xiàn)CG Track3在前5圈均未發(fā)生碰撞,Alpine僅在第2圈發(fā)生碰撞.
由此可見,訓練4 000次的WGAIL-DDPG(λ)模型在較簡單的CG Track3賽道上可以很好地完成安全、平穩(wěn)的駕駛任務.在較復雜的Alpine賽道,盡管存在許多模型未訓練過的復雜彎道,智能體也能很好地完成安全、平穩(wěn)的駕駛任務,僅在第2圈的U形彎處發(fā)生一次輕微碰撞.經(jīng)過分析,主要原因在于模型的訓練賽道沒有和該測試賽道同等難度的U形彎,智能體在處理未知彎道時,安全距離d過小導致碰撞發(fā)生,可通過進一步增加訓練賽道線形進行模型的性能提升.
學習效率是表征深度強化學習模型訓練過程有效性的重要參數(shù)之一,本文通過累計回報R與訓練次數(shù)之間的關系進一步分析所提出模型的學習效率.為此,這里選擇CG Track3作為訓練賽道,通過在智能體周圍設置多個干擾車輛增加訓練難度,以獲得多車環(huán)境下的自動駕駛決策系統(tǒng)學習效率輸出結果.
為說明問題,這里分別對DDPG和本文提出的WGAIL-DDPG(λ)模型進行了測試,測試結果如圖9所示.其中,為保證實驗準確性,取2次實驗的平均值作為最終的累計回報;為保證一致性,兩種模型均采用多車情況下的獎勵函數(shù)進行訓練.
圖9 模型學習效率對比分析Fig.9 Comparative analysis of model learning efficiency
圖9所示兩種強化學習模型的學習效率對比結果如下.
(1)Phase-1階段,n∈[1,100]
從累計回報曲線的斜率可以看出,在模型訓練初期,WGAIL-DDPG(λ)模型的學習效率明顯高于DDPG模型.原因在于WGAIL-DDPG(λ)模型中的模仿學習模塊在該階段可以保證智能體快速掌握專家示教策略,這也進一步驗證了模仿學習策略引入的有效性.
進一步分析表明:在n=40左右,WGAIL-DDPG(λ)模型累計回報快速達到9 000左右,這表明智能體此時已經(jīng)掌握了諸如車道跟馳之類的較簡單駕駛策略,而對應的DDPG模型仍處于試錯階段.
由此可見,本文通過引入模仿學習策略可以避免智能體在訓練初期的盲目試錯,從而大幅度提升強化學習的模型訓練效率.
(2)Phase-2階段,n∈(100,550]
在模型訓練后期,WGAIL-DDPG(λ)模型獲得的累計回報仍明顯高于DDPG模型.究其原因在于,智能體在學會初級駕駛策略的基礎上,通過增益調(diào)度器實現(xiàn)模仿學習向強化學習的平穩(wěn)過渡,智能體可以探索更高級的駕駛策略.
進一步分析表明:在訓練的第140次左右,基于WGAIL-DDPG(λ)模型的智能體累計回報基本穩(wěn)定在19 000之上,通過觀察智能體行為可以看出,該累計回報對應智能體的表現(xiàn)為有初步的躲避車輛行為,并能在車道內(nèi)穩(wěn)定駕駛.而基于DDPG模型的智能體在訓練480次左右才能實現(xiàn)上述目標.前者比后者學習速度提升了約3.4倍.
由此可見,本文通過設計增益調(diào)度器可以實現(xiàn)模仿學習向強化學習的平穩(wěn)過渡,使智能體在學會基本駕駛策略的基礎上進一步探索高級策略.
(1)基于車輛碰撞安全性、穩(wěn)定性所設計的獎勵函數(shù)可以有效保證DDPG決策模型的可靠輸出.
(2)模仿學習策略的引入可以大大降低強化學習模型初期探索過程中的盲目試錯,相較于DDPG模型,WGAIL策略的引入可以有效提升學習效率達3.4倍以上.
(3)所設計的增益調(diào)度器保證了從模仿學習到強化學習的平穩(wěn)過渡.
同時,鑒于相關實車實驗開展難度,本文僅從仿真角度對提出的模型、方法進行了有效性驗證.未來將基于車載實際要求,融合更多的車輛運動特性對本文所提出的相關模型方法進行進一步細化和拓展.