亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于強化學習的城市場景多目標生態(tài)駕駛策略*

        2023-11-09 03:56:04吳曉東劉永剛
        汽車工程 2023年10期
        關鍵詞:交通燈車速車輛

        李 捷,吳曉東,許 敏,劉永剛

        (1.上海交通大學機械與動力工程學院,上海 200240;2.重慶大學,機械傳動國家重點實驗室,重慶 400044)

        前言

        為提高電動汽車(electric vehicle,EV)的經(jīng)濟性,除開發(fā)更先進的高效“三電”系統(tǒng),改善車輛行駛行為以提高車輛經(jīng)濟性的生態(tài)駕駛技術也受到了廣泛關注。傳統(tǒng)的生態(tài)駕駛策略是指駕駛員經(jīng)過科學培訓習得的通過控制車輛行駛速度降低油耗的駕駛技能[1]。隨著智能網(wǎng)聯(lián)汽車(connected and automated vehicle,CAV)技術的發(fā)展,車輛可以通過V2X(vehicle-to-everything)通信接收周圍交通和道路地形信息[2]。CAV 不僅可以降低能源消耗,還可以給乘客提供良好的乘坐體驗(如保障駕駛安全,提高舒適性和通行效率)。因此,開發(fā)多目標生態(tài)駕駛策略來優(yōu)化CAV的行駛行為是目前的研究熱點[3-4]。

        已有的生態(tài)駕駛策略主要分為基于規(guī)則、基于優(yōu)化和基于學習的3 類。典型的基于規(guī)則的生態(tài)駕駛策略是“脈沖-滑翔”策略[5-6]。理想情況下,該策略控制車輛勻加速至給定速度,然后保持勻速運行,最后勻減速運動至目的地,從而達到節(jié)省燃料消耗的目的。然而,在真實駕駛場景中,由于紅綠燈路口的隔斷以及其他車輛不確定行為的干擾(例如換道、超車、急停等),自車難以按照理想車速軌跡行駛。盡管該策略具有較好的實時性,但過度簡化了交通環(huán)境,沒有考慮交通環(huán)境中的復雜影響因素,難以在城市場景中實際應用。

        基于優(yōu)化的生態(tài)駕駛策略通常將生態(tài)駕駛問題建模為最優(yōu)控制問題,然后通過動態(tài)規(guī)劃[7]、非線性規(guī)劃[8]、模型預測控制[9-10](model predictive control,MPC)等方法求解。然而,基于優(yōu)化的生態(tài)駕駛策略需要建立一個能反映復雜的車輛動力系統(tǒng)與多變的城市交通環(huán)境特性的非線性模型。而該模型也必然包含多個狀態(tài)變量。雖然通過對車輛動力系統(tǒng)與交通環(huán)境進行精確建模能保證算法的優(yōu)化效果,但是求解含有復雜非線性模型的最優(yōu)控制問題需要消耗大量的計算資源,難以在算力有限的車載控制器(vehicle control unit,VCU)中實時應用。

        深度強化學習(deep reinforcement learning,DRL)算法是一種基于數(shù)據(jù)驅動的機器學習方法,它不需要建立復雜的動力學控制模型,而是僅通過智能體(agent)與環(huán)境的交互來學習和優(yōu)化控制策略。訓練好的DRL 智能體可以通過深度神經(jīng)網(wǎng)絡(deep neural network,DNN)接收系統(tǒng)狀態(tài)信息,并快速計算出對應的控制動作[11]。相比于基于模型的優(yōu)化控制方法,避免了對復雜動力學控制模型的依賴,可以有效降低控制策略的計算量,實現(xiàn)實時控制[12]。然而,DRL 算法在基于學習的生態(tài)駕駛策略上的應用仍存在著多種挑戰(zhàn)。與傳統(tǒng)RL算法相比,DRL算法依靠DNN 來近似最優(yōu)值函數(shù)[13],避免了算法在多個狀態(tài)變量的復雜場景中陷入“維數(shù)災難”。但是,由于函數(shù)近似誤差的存在,DRL 算法也不可避免地引入了控制不穩(wěn)定性[14]。因此,僅依賴于DRL 算法的生態(tài)駕駛策略難以在實際應用中充分保障車速規(guī)劃的安全性。此外,復雜交通場景下多目標生態(tài)駕駛問題的獎勵函數(shù)設計是一個棘手的問題,直接關系到DRL 算法訓練能否收斂。獎勵函數(shù)應能恰當?shù)囟x生態(tài)駕駛問題的優(yōu)化目標,并準確地反映交通燈、前車、道路限速等交通影響因素。為了降低算法訓練收斂的難度,目前基于DRL 的生態(tài)駕駛策略的研究大都考慮單一的交通影響因素,與實際交通場景存在較大差異。

        例如,Liu等[15]提出基于深度確定性策略梯度法的生態(tài)駕駛策略,可以快速求解多個信號燈路口之間的最優(yōu)車速軌跡。然而該DRL 控制器沒有考慮安全跟車約束,只適用于單車行駛的理想狀況。Bai等[16]提出了一種結合安全決策規(guī)則與DRL 的混合生態(tài)駕駛策略框架,以改善復雜交通路口的車輛能源效率。然而該混合框架只通過決策管理器選擇傳統(tǒng)規(guī)則策略或DRL 策略控制車輛,并未把安全約束融入DRL 算法的設計中。張健等[17]提出一種基于離線DRL 的車輛交叉口生態(tài)駕駛控制策略,實現(xiàn)了能耗經(jīng)濟性的提高。然而該方案忽略了DRL 算法控制不穩(wěn)定所帶來的安全問題而且也未考慮跟車場景。

        為了克服當前研究的不足,本文提出了一種新型基于DRL 的實時多目標生態(tài)駕駛策略,以有效應對復雜交通場景下的駕駛挑戰(zhàn)。本研究的貢獻如下:針對DRL 算法控制穩(wěn)定性不足的問題,設計了面向實際應用的基于DRL 的生態(tài)駕駛策略的框架,通過安全速度建議模塊實現(xiàn)了對車速規(guī)劃的安全性保障;而為了使DRL 算法考慮多個交通影響因素并促進該多目標生態(tài)駕駛策略訓練收斂,提出了一種融合安全約束與塑形函數(shù)的多目標復合獎勵函數(shù)設計方案。最后,通過硬件在環(huán)(hardware-in-loop,HIL)實驗驗證了所提控制算法在真實的VCU 中實時應用的有效性。

        1 問題描述

        1.1 智能網(wǎng)聯(lián)汽車動力系統(tǒng)結構

        本文的研究對象為一款基于純電動平臺的CAV。電機、主減速器和差速器依次組裝在該車的動力系統(tǒng)中。電機輸出轉矩與車輛加速度之間的關系可以表示為

        式中:Ftra、τm、ifd、ηfd、ηdif與rwheel分別為車輪驅動力、電機轉矩、主減速比、主減速器效率、差速器效率與車輪半徑;aego、m、g、fr、α、CD、A、ρ、vego和Iequi分別為車輛加速度、車輛質(zhì)量、重力加速度、滾動阻力系數(shù)、道路坡度、空氣阻力系數(shù)、迎風面積、空氣密度、自車車速與旋轉部件在車輪處的等效轉動慣量。針對純電動CAV 而言,控制策略通過控制電機輸出的驅動轉矩來調(diào)節(jié)車輛加速度,從而控制車輛實現(xiàn)目標車速。合理規(guī)劃車輛的行駛速度可以改善車輛的乘坐體驗。

        1.2 智能網(wǎng)聯(lián)場景下的生態(tài)駕駛問題

        如圖1 所示,當車輛在城市交通場景中行駛時,必須考慮前方紅綠燈路口、道路坡度、道路限速、前方車輛等多種交通要素的約束。

        圖1 智能網(wǎng)聯(lián)場景示意圖

        在智能網(wǎng)聯(lián)場景中,由于CAV 可以通過車載傳感器與V2X 通信獲取實時交通環(huán)境信息(例如:前車距離/車速信息、紅綠燈時間/相位信息、道路限速信息等)。因此,在智能網(wǎng)聯(lián)場景下,多目標生態(tài)駕駛問題可以表述為:利用獲取的交通環(huán)境信息,合理規(guī)劃CAV 的目標車速,并在滿足安全約束(遵守交通規(guī)則,避免碰撞)的前提下,實現(xiàn)電力消耗、乘坐舒適性和出行效率的協(xié)同優(yōu)化。

        式中:α1、α2與α3為各指標的權重系數(shù);N、Pbat和ΔT分別為行程長度、電池功率和單位控制步長;Nred_light、Ncollision與vlimit分別為闖紅燈次數(shù)、碰撞次數(shù)與道路限速。

        由于目前CAV 在實際道路上的滲透率較低,因此在研究場景中,假設其他車輛均為傳統(tǒng)的人工駕駛車輛。此外,為了簡化問題,本文只考慮影響自車縱向運動的相關因素,例如速度、加速度、交通信號燈和前車等,而不考慮車輛的橫向動作。

        2 基于深度強化學習的生態(tài)駕駛策略

        為了解決上述多目標生態(tài)駕駛問題,本文提出了一種基于DRL 的實時生態(tài)駕駛策略,策略框架如圖2 所示。DRL 算法根據(jù)收到的交通狀態(tài)與自車狀態(tài)信息,利用訓練好的DNN 計算車輛目標參考車速。同時,基于跟車安全模型與交通燈安全模型的安全速度建議模塊用于實時監(jiān)控并修改DRL 智能體規(guī)劃的高風險動作,以保障駕駛安全。修改后的參考速度被發(fā)送給底層動力系統(tǒng)中的車速跟蹤控制器。然后,由車速跟蹤控制器利用參考車速與實際車速的誤差計算驅動電機輸出轉矩,以控制車輛跟蹤參考車速。所提生態(tài)駕駛策略的設計與實現(xiàn)細節(jié)詳細介紹如下。

        圖2 基于深度強化學習的生態(tài)駕駛策略框架

        2.1 基于馬爾可夫決策過程的生態(tài)駕駛問題

        DRL方法通常將實際環(huán)境簡化為馬爾可夫決策過程(Markov decision process,MDP)[11]。即假設環(huán)境轉移到下一個狀態(tài)si+1的概率僅與上一個狀態(tài)si有關,與更早之前的狀態(tài)無關。在狀態(tài)si執(zhí)行動作ai后,轉移到狀態(tài)si+1的概率可以定義為

        式中:s′為下一個狀態(tài);s和a為當前i時刻的狀態(tài)與動作。DRL 的動作可以由策略π決定。當策略π是確定策略時,當前狀態(tài)si下采取動作ai后的期望累積收益可以推導為

        式中:期望累積獎勵Qπ(si,ai)也被稱為動作價值(或Q 值);γ∈[0,1]為折扣因子;T為有限MDP 的長度;rn(sn,an)為在狀態(tài)sn采取動作an后的獎勵值;E為狀態(tài)集合。對于MDP,式(5)可以轉化為如下遞歸關系:

        DRL 算法的任務是找到一個最優(yōu)的策略π*,使期望的累積獎勵Qπ(si,ai)最大化。對于本文研究的多目標生態(tài)駕駛問題而言,式(3)的目標函數(shù)也可被表述為遞歸形式:

        式中:costins(i)表示考慮電耗、舒適性與行駛效率的瞬時成本。比較式(6)與式(7)可知,當DRL 的獎勵函數(shù)等于負的瞬時成本時,生態(tài)駕駛問題的目標函數(shù)可以轉化為基于MDP的DRL算法的價值函數(shù)。

        式中:rele=-Pbat為電耗獎勵;rcon=-|aego|為舒適度獎勵;reff=-ΔT為通行效率獎勵。通過與環(huán)境交互,DRL 智能體可以迭代更新得到使累積獎勵函數(shù)Qπ(si,ai)最大化的最優(yōu)策略π。該最優(yōu)策略可以直接應用于車輛生態(tài)駕駛控制,實現(xiàn)車輛電耗、舒適性和出行效率的協(xié)同優(yōu)化。

        2.2 狀態(tài)空間與動作空間設計

        如前文所述,生態(tài)駕駛策略需要在滿足安全出行的前提下,實現(xiàn)經(jīng)濟性、舒適性和出行效率的協(xié)同優(yōu)化。因此DRL 智能體的輸入信息應充分反映車輛動力系統(tǒng)狀態(tài)和交通環(huán)境狀態(tài)。本研究中,DRL智能體的狀態(tài)輸入由如下3部分組成。

        (1)車輛狀態(tài)信息:參考車速vref、實際車速vego、電池SOC、電池內(nèi)阻Rbat、電池開路電壓Ubat。

        (2)前車信息:前車速度vpre、前車加速度apre、兩車距離dhead。

        (3)道路信息和交通燈信息:自車行駛距離dego、道路坡度α、下一個交通燈路口距離dlight、交通燈剩余時間trem、交通燈相位。

        在本文中交通燈剩余時間和交通燈相位被交通燈時間tlight所代替。它可以在降低輸入狀態(tài)維數(shù)的同時不丟失交通燈時間/相位信息。

        式中Tred為紅燈相位持續(xù)時間(注:在本文中,黃燈相位也被納入紅燈總時間中)。根據(jù)上述分析,觀測狀態(tài)向量公式如下:

        為了合理控制車輛速度變化,本文選取車輛加速度作為DRL 智能體的動作變量輸出。故DRL 智能體給出的自車參考速度可表示為

        式中aDRL為DRL算法計算的車輛加速度。車輛加速度被限制為以避免產(chǎn)生不舒適的急加速/減速動作。

        2.3 安全速度建議模塊設計

        安全速度建議模塊由跟車安全模型和紅綠燈安全模型組成。

        2.3.1 跟車安全模型

        為避免與前車發(fā)生碰撞,車速上限表示為

        式中vKrauss是基于Krauss 跟車模型[18-19]推導的最大安全跟車速度。

        式中:amax是最大加速度;Δdhead=dhead-Dmin;Dmin與τ分別為最小車頭距與駕駛員反應時間。通過引入駕駛員反應時間,使得DRL 智能體可以學習類似于人類駕駛員的反應過程,從而提高乘客的接受度。

        2.3.2 交通燈安全模型

        如果車輛無法在綠色時間內(nèi)通過交通路口,則車輛應及時停車避免闖紅燈。因此,最大安全速度可表示為

        此外,本文還根據(jù)紅綠燈剩余時間tremain與離紅綠燈距離dlight定義了一個閾值速度vtho(i)。

        當車輛處于交通燈區(qū)域且交通燈為綠色時,避免闖紅燈的安全參考速度上限可以表示為

        當車輛處于交通燈區(qū)域且交通燈相位為黃色或紅色時,避免闖紅燈的安全參考速度上限可以表示為

        根據(jù)式(12)、式(16)與式(17),基于跟車安全模型與交通燈安全模型的速度建議模塊計算的安全速度上限可以表示為

        式中δcf與δtl為調(diào)整速度建議模塊安全閾值的比例因子。

        此外,為了避免DRL 智能體規(guī)劃負參考車速的不合理情況,本文采用安全速度建議模塊進行修正。具體而言,當式(11)計算得出參考車速小于0 時,安全速度建議模塊將把輸出的安全參考車速設置為0。

        因此,經(jīng)過速度建議模塊對DRL 智能體規(guī)劃的高風險參考速度進行監(jiān)控與修改后,發(fā)送給車速跟蹤控制器的安全參考車速可以表示為

        2.4 融合安全約束與塑形函數(shù)的獎勵函數(shù)設計

        為了使DRL 智能體學習一種既能滿足安全約束又能實現(xiàn)多目標協(xié)同優(yōu)化的生態(tài)駕駛策略,本研究除了式(8)基于目標函數(shù)轉化的基礎多目標獎勵函數(shù)之外,還設計了式(20)安全約束獎勵。

        式中:α4為權重系數(shù);aref(i)為速度建議模塊修改后的加速度。

        通過添加安全約束獎勵函數(shù),將安全約束條件融入模型訓練中,可以使DRL 智能體在優(yōu)化行駛車速時,避免輸出會導致速度建議模塊介入的高風險動作。

        此外,在復雜交通場景中,多目標DRL 智能體的訓練難度較大[16]。為了克服這一問題,本文設計了一種可以提供先驗知識的塑形獎勵函數(shù),以鼓勵DRL智能體產(chǎn)生安全高效的駕駛行為。該塑形獎勵函數(shù)根據(jù)基于勢能的塑形函數(shù)設計理論[20-21]開發(fā),以確保添加塑形獎勵函數(shù)后的最優(yōu)策略不變性。

        式中:Ffollow、Flight與Feff分別為跟車塑形獎勵、交通燈塑形獎勵與通行效率塑形獎勵;γ∈[0,1]為折扣因子;Φfollow、Φlight與Φeff分別為跟車勢函數(shù)、交通燈勢函數(shù)和通行效率勢函數(shù)。如果勢函數(shù)的值較高,則表示當前環(huán)境所處狀態(tài)接近所期望的狀態(tài)。而當環(huán)境狀態(tài)偏離期望狀態(tài)時,勢函數(shù)的值會減小。本文中勢函數(shù)設計如下:

        式中vadvisor(i)為根據(jù)交通燈時間/相位信息以及到交通燈距離信息計算的綠燈通行建議速度。

        式中:n∈(0,1)為調(diào)節(jié)建議速度大小的權重;vlg_min與vlg_max為綠燈通行速度區(qū)間,計算方法如下。

        如圖3所示,根據(jù)dlight與下一個綠色相位的起止時間可以計算出車輛在此綠色相位內(nèi)勻速通過路口的速度區(qū)間[vlg_min,vlg_max]。如果在道路限速內(nèi)無法通過路口,則選擇下一個周期的綠色相位作為目標相位重新計算[vlg_min,vlg_max]。

        因此DRL智能體的總獎勵函數(shù)為

        2.5 基于TD3的參考速度規(guī)劃算法實現(xiàn)

        由于算法的狀態(tài)與動作變量都是連續(xù)變量,因此本文選擇適用于連續(xù)狀態(tài)與動作空間的雙延遲深度確定性策略梯度法(twin delayed deep deterministic policy gradient,TD3)來實現(xiàn)基于DRL的生態(tài)駕駛策略?;赥D3的生態(tài)駕駛智能體如圖4所示,包含一個Actor神經(jīng)網(wǎng)絡μ(s|θμ)和兩個Critic神經(jīng)網(wǎng)絡其中與為網(wǎng)絡各節(jié)點的權重與偏置參數(shù)。TD3算法是目前最先進的用于連續(xù)控制的DRL 算法之一,通過設計兩個Critic網(wǎng)絡減小了Critic網(wǎng)絡對動作價值函數(shù)的近似誤差[14]。

        圖4 基于TD3的生態(tài)駕駛智能體實現(xiàn)

        在每一控制步中,TD3 智能體根據(jù)式(10)觀測的狀態(tài)向量利用Actor 網(wǎng)絡計算動作ai。為了將智能體輸出的車輛加速度限制為[-3,3] m/s2,Actor 網(wǎng)絡的輸出層添加了一層雙曲正切函數(shù)層(tanh 層)。tanh 層使得Actor 網(wǎng)絡的輸出限制到[-1,1]之間,然后根據(jù)設定的實際車輛加速度范圍對其乘3 進行縮放。因此在訓練過程中TD3智能體規(guī)劃的車輛加速度可以表示為

        式中:N為訓練過程中的高斯探索噪聲。

        每一控制步的觀測狀態(tài)si、Actor 網(wǎng)絡計算的動作ai、采取動作ai后的下一步狀態(tài)si+1以及獎勵函數(shù)計算的相應獎勵值ri被組成一個數(shù)據(jù)元組(si,ai,ri,si+1)存入記憶緩沖區(qū)R中。在訓練過程中定期從R中隨機批采樣M組元組數(shù)據(jù)用于更新Actor與Critic網(wǎng)絡。

        批采樣的每個數(shù)據(jù)元組的動作價值與時序-差分(temporal difference,TD)目標為

        Critic 網(wǎng)絡參數(shù)更新可以通過最小化TD 誤差的平方實現(xiàn)[22]:

        Actor 網(wǎng)絡的參數(shù)可以根據(jù)確定性策略梯度法更新[23]。

        本文中所使用的TD3 智能體的超參數(shù)以及Actor 與Critic 網(wǎng)絡的結構如表1 所示。這些超參數(shù)和網(wǎng)絡結構是通過反復試錯調(diào)整而得到的。TD3智能體由Python 語言編程為庫函數(shù),在算法訓練時通過s-function模塊在Simulink模型中調(diào)用。

        表1 TD3智能體超參數(shù)與網(wǎng)絡結構

        2.6 車速跟蹤控制器設計

        為了控制CAV 跟蹤生態(tài)駕駛策略規(guī)劃的參考車速,本文設計了一個簡單而有效的基于比例-積分-微分(proportion integration differentiation,PID)的車速跟蹤控制器。底層車速跟蹤控制框架如圖5 所示,通過參考車速與反饋的實際車速之差計算驅動電機輸出轉矩。

        圖5 底層車速跟蹤控制框架

        式中:Kp、Ki與Kd分別為PID 控制器的比例、積分和微分增益;err為參考車速vref與車輛實際車速vego之差。

        3 算法驗證

        3.1 硬件在環(huán)實驗平臺設計

        為了分析所提出的基于DRL 的生態(tài)駕駛策略性能,本文在HIL 平臺上對算法進行了實驗驗證。如圖6 所示,該HIL 平臺主要包括車輛仿真模塊、控制器模塊與虛擬場景模塊組成。各模塊之間通過CAN總線進行數(shù)據(jù)通信。

        圖6 HIL實驗平臺原理圖

        車輛仿真模塊由Speedgoat 公司開發(fā)的實時仿真器[24]實現(xiàn)。仿真器上運行的高精度車輛動力系統(tǒng)模型由美國阿貢國家實驗室研發(fā)的車輛動力系統(tǒng)建模軟件Autonomie[25]建立。該模型通過仿真器上位機編譯后下載入實時仿真器,在HIL實驗時啟動以模擬真實的車輛。仿真車輛的參數(shù)詳見表2。此外,仿真器上位機還用于實時監(jiān)測CAN總線上的數(shù)據(jù)流。

        表2 車輛動力系統(tǒng)參數(shù)

        HIL 平臺的控制器模塊采用一款基于英飛凌車規(guī)級芯片TC275T 開發(fā)的VCU。生態(tài)駕駛策略在Simulink 中建模并編譯為.hex 文件后,通過刷寫工具刷寫到VCU中,在HIL實驗時實時控制車輛運動。

        虛擬場景模塊負責模擬真實道路的復雜交通環(huán)境并在CAN 總線中實時廣播虛擬車輛感知的交通狀態(tài)信息。本文中虛擬交通場景仿真使用開源城市交通仿真軟件(simulation of urban mobility,SUMO)[26]來實現(xiàn)。SUMO 中搭載的城市交通仿真模型根據(jù)德國TAVF(test track for automated and connected driving)計劃[27]發(fā)布的漢堡市交通數(shù)據(jù)建立。如圖7所示,被控車輛在虛擬場景中的預期行駛路線全長約7 060 m,沿途限速為50 km/h,共經(jīng)過27 個交通燈路口。

        圖7 虛擬交通場景

        3.2 算法迭代訓練結果

        為了將所提基于DRL 的生態(tài)駕駛策略用于實時控制,首先需要將TD3 智能體訓練至累積獎勵值收斂到穩(wěn)定狀態(tài)。本文中最大訓練輪次被設置為300輪,每輪訓練的車輛行駛里程被設置為3 500 m。訓練過程在一臺具有AMD 4800U 處理器的筆記本電腦上完成,總訓練時間為19.04 h。訓練過程的獎勵軌跡如圖8所示。

        圖8 所提算法總獎勵曲線

        由圖8 可見,在訓練過程的開始階段,由于網(wǎng)絡的訓練還不足,TD3 智能體傾向于充分探索整個環(huán)境,每個回合的累積獎勵雖然呈現(xiàn)上升趨勢但波動較大。隨著訓練輪次的增加,從第100 輪到150 輪,TD3 智能體逐漸意識到最優(yōu)策略的存在,總獎勵開始穩(wěn)步上升。當TD3 智能體訓練到150 輪之后,已經(jīng)達到收斂狀態(tài),累積獎勵軌跡相對穩(wěn)定。但由于Actor 網(wǎng)絡計算的動作添加了高斯探索噪聲,累積獎勵值仍在一個小范圍內(nèi)波動??偟膩碚f,隨著訓練輪次的增加,累積獎勵值呈現(xiàn)上升趨勢,表明本文設計的狀態(tài)空間、動作空間和復合獎勵函數(shù)可以使得DRL智能體學習最優(yōu)策略。

        離線訓練完成后,提取訓練過程收斂階段內(nèi)單輪訓練累積獎勵值最高的Actor 網(wǎng)絡的節(jié)點權重和偏差值。在Simulink 中構建基于訓練后Actor 網(wǎng)絡與安全速度建議模塊的生態(tài)駕駛策略模型,編譯后下載入HIL實驗平臺的VCU中進行算法性能驗證。

        3.3 算法性能對比分析

        為了全面分析本文所提基于DRL 生態(tài)駕駛策略的優(yōu)化性能,本文根據(jù)文獻[4]與文獻[28]中提到的智能駕駛員模型(intelligent driver model,IDM)設計了基于IDM的對比生態(tài)駕駛策略作為基準。由于經(jīng)典IDM 模型僅適用于跟車任務[29],為了遵守交通燈規(guī)則,設計了基于IDM 的對比策略框架,如圖9 所示。該框架與所提基于DRL 的生態(tài)駕駛策略一致,只是將DRL智能體替換為IDM模型。

        圖9 基于IDM的生態(tài)駕駛策略框架

        對比策略中IDM模型計算的參考車速為

        表3 實驗結果對比

        圖10 兩種策略車輛行駛軌跡時空圖

        圖11 虛擬交通場景中自車與前車的距離信息以及前車的車速信息

        從圖10 中可以看出,兩種策略都能滿足交通燈規(guī)則的約束,沒有發(fā)生闖紅燈行為。此外,由于HIL平臺中基于SUMO 的虛擬交通場景可以動態(tài)模擬真實車輛的變道和超車行為,因此被控車輛前方的車輛是可以隨時發(fā)生變化的。即使在這樣具有挑戰(zhàn)性的場景中,如圖11 所示,被控車輛與前車之間的距離始終大于零,表明整個行程都沒有發(fā)生碰撞事件??梢哉f明本文所設計的考慮速度建議模塊的生態(tài)駕駛策略框架能夠有效地控制車輛在復雜城市交通環(huán)境中安全行駛。此外,表3 中所提策略控制的自車在實驗過程中與前車的最小距離比對比策略高10.41%,說明所提策略更加安全可靠。

        關于乘坐舒適性,如圖12 所示,對比IDM 策略在加速度為-2、2 和0 m/s2附近的頻數(shù)高于所提策略。而所提策略加速度更集中于[-1,1] m/s2的加速度區(qū)間。這是因為式(8)所提策略的獎勵函數(shù)考慮了加速度獎勵項,因此所提策略更傾向于采取較小的加速度,以較為溫和的方式控制車輛加速/減速至目標車速。相比之下,對比IDM策略則更加激進,先通過較大的加速度調(diào)整車速,再勻速行駛。兩種策略的加速度量化的對比如表3 所示,所提策略的加速度絕對值平均數(shù)小于對比IDM 策略。因此,所提出的策略比對比IDM策略更舒適。

        圖12 兩種策略的車速軌跡與加速度分布

        在經(jīng)濟性方面,由于式(8)所提策略的獎勵函數(shù)包括電池能耗項,基于IDM 的生態(tài)駕駛策略通過訓練學到了優(yōu)化車速以提高電能使用效率。從圖13電機功率損失分布圖以及表3 的電機損失電能項可以發(fā)現(xiàn),所提策略的電機功率損失小于對比IDM 策略的電機功率損失。因此,如表3 中的電池電耗項所示,與對比IDM策略相比,所提策略的用電量降低了10.94 %,證明了所提策略具有良好的能耗經(jīng)濟性。

        圖13 兩種策略的電機機械功率與電機功率損失分布

        最后,在行駛效率方面,雖然表3 所示所提策略的總行駛時間與基于IDM的策略總行駛時間大致相同,但相較于對比IDM 策略,所提策略減少了83.38%的紅燈停車等待時間。這一點也可以從圖10 的示例段(a)、(b)、(c)和(d)中看出,所提策略相對于對比IDM 策略在交通燈路口停車次數(shù)更少,整個行程更加通暢。因此,所提策略的綜合駕駛體驗比對比IDM策略更好。

        為了充分展現(xiàn)本文所提DRL 策略的有效性和實用性,選擇了圖10 中仿真時間范圍為250-350 s的示例段(a)對所提策略展開了具體案例分析。此外,由于V2X 通信在實際應用中必然存在時延問題,進行了不同傳輸時延場景下的HIL 實驗驗證。結果表明,當時延小于500 ms 時,時延對控制算法性能的影響不大;而當時延大于500 ms 后,需要補償傳輸時滯以克服對算法安全性帶來的負面影響。

        4 結論

        本文提出了一種改善復雜城市場景下純電動CAV乘坐體驗的多目標生態(tài)駕駛策略。通過設計包含安全速度建議模塊的生態(tài)駕駛策略框架,保證了被控車輛的安全性;并通過設計融合安全約束與塑形函數(shù)的多目標復合獎勵函數(shù)實現(xiàn)了經(jīng)濟性、舒適性和出行效率的協(xié)同優(yōu)化。在基于虛擬交通場景的HIL 平臺下的實驗結果表明,所提策略可以在確保駕駛安全的前提下,實時協(xié)同優(yōu)化車輛的能耗經(jīng)濟性、舒適性和通行效率。與基于IDM對比策略相比,所提策略的電耗降低了10.9 %,證明了所提方法的有效性。為了更好地優(yōu)化CAV 的駕駛行為,未來的研究可以進一步完善該策略,并將其應用于更廣泛的交通場景中。此外,也可以探索更多的DRL 模型,以更好地提高汽車的行駛效率和安全性。

        猜你喜歡
        交通燈車速車輛
        基于單片機的交通燈控制系統(tǒng)設計
        電子測試(2018年23期)2018-12-29 11:11:34
        車輛
        小太陽畫報(2018年3期)2018-05-14 17:19:26
        2012款奔馳R300車修改最高車速限制
        一直飄紅的交通燈
        冬天路滑 遠離車輛
        車輛出沒,請注意
        基于單片機的LED模擬交通燈設計
        電子制作(2016年21期)2016-05-17 03:52:44
        提高車輛響應的轉向輔助控制系統(tǒng)
        汽車文摘(2015年11期)2015-12-02 03:02:53
        北京現(xiàn)代途勝車車速表不工作
        兩車直角碰撞車速計算方法及應用
        警察技術(2015年6期)2015-02-27 15:38:33
        久久aⅴ无码av高潮AV喷| 色费女人18毛片a级毛片视频| 国产精品一区二区三区蜜臀| 亚洲免费在线视频播放| 国产精品国产av一区二区三区| 国产成人精品日本亚洲专区61| 337人体做爰大胆视频| 中文字幕高清在线一区二区三区| 亚洲欧洲国产日产国码无码| 蜜桃av夺取一区二区三区| 手机在线看片国产人妻| 久久久www成人免费毛片| 无码丰满少妇2在线观看| 在线观看无码一区二区台湾| 国产高清一区二区三区视频| 色婷婷亚洲精品综合影院| 精品亚洲成a人在线观看 | 亚洲成熟女人毛毛耸耸多| 人妻无码中文字幕| 色欲av自慰一区二区三区| 国产亚洲欧洲AⅤ综合一区| 精品一区二区三区老熟女少妇| 国产一区二区黄色录像| 日本亚洲色大成网站www久久| 国产91对白在线观看| 少妇久久一区二区三区| 日本免费在线一区二区三区| 日韩精品久久久久久久电影蜜臀 | 国产精品久久久爽爽爽麻豆色哟哟| 日本高清色倩视频在线观看| 国产成人啪精品| 人妻av不卡一区二区三区| 亚洲第一区二区精品三区在线 | 在线观看黄片在线播放视频| 少妇激情一区二区三区99| 久久亚洲精品成人无码| 真人男女做爰无遮挡免费视频| 国产免费激情小视频在线观看| 亚洲色图视频在线免费看| 国产一区二区在线视频| 亚洲色图视频在线观看网站|