亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于TD3-PER的混合動力履帶車輛能量管理*

        2022-10-11 07:44:32張旭東杜國棟孫文景
        汽車工程 2022年9期
        關(guān)鍵詞:經(jīng)濟(jì)性策略

        張 彬,鄒 淵,張旭東,杜國棟,孫文景,孫 巍

        (北京理工大學(xué)機(jī)械與車輛學(xué)院,北京100081)

        前言

        混合動力電動履帶車輛(HETV)具有結(jié)構(gòu)簡單、可靠性高、布置靈活等優(yōu)點(diǎn)?;旌蟿恿Ψ桨讣婢吡巳加蛙嚭图冸妱榆嚨膬?yōu)點(diǎn),通過合適的能量管理策略(EMS)能使發(fā)動機(jī)工作在較經(jīng)濟(jì)的狀態(tài),提高車輛的燃油經(jīng)濟(jì)性和續(xù)航里程。對于油電混合系統(tǒng),EMS根據(jù)不同部件的狀態(tài)反饋,實(shí)現(xiàn)不同動力源的功率分配,達(dá)到提高燃油經(jīng)濟(jì)性、減少排放等目的。由于各動力源的特性差異,各動力源之間的功率分配也不同。因此,EMS是最大化混合動力系統(tǒng)燃油經(jīng)濟(jì)性、充分發(fā)揮混合動力系統(tǒng)的綜合性能的關(guān)鍵技術(shù)之一。

        EMS的主要目的是合理地分配發(fā)動機(jī)和動力電池的輸出功率,提高車輛的燃油經(jīng)濟(jì)性和續(xù)航里程。近年來出現(xiàn)的EMS主要分為基于規(guī)則的策略和基于優(yōu)化的策略兩大類。基于規(guī)則的策略具有良好的實(shí)時性和可靠性,在工程實(shí)踐中得到廣泛的應(yīng)用,但其對不同工況和車型的可移植性較差,且很難取得最優(yōu)的控制效果。目前大部分EMS的研究集中在基于優(yōu)化的策略。基于優(yōu)化的策略旨在建立系統(tǒng)目標(biāo)函數(shù)和約束條件后,通過優(yōu)化使目標(biāo)成本最小化。但基于優(yōu)化的策略計(jì)算量大,須提前知道整個工況,對不同車型、不同運(yùn)行工況的移植性差。但它可得到理論最優(yōu)或近似最優(yōu)解,常被作為參考基準(zhǔn)用于評估或改進(jìn)其他能量管理策略,如動態(tài)規(guī)劃(DP)算法等。

        混合動力系統(tǒng)是典型的非線性多場耦合的復(fù)雜系統(tǒng),需要更加精細(xì)和智能的算法來構(gòu)建EMS。強(qiáng)化學(xué)習(xí)(RL)算法在處理非線性、強(qiáng)耦合、高復(fù)雜度問題時更有優(yōu)勢,最近多用于解決能量管理問題。Liu等在混合動力履帶車輛上采用基于Q-learning和Dyna的能量管理策略,此策略對發(fā)動機(jī)燃油經(jīng)濟(jì)性有一定的提高。但RL算法存在由離散化引起的“維數(shù)災(zāi)害”,會導(dǎo)致訓(xùn)練時間的大幅增加且難以收斂。為解決此問題,Zhao等采用基于深度強(qiáng)化學(xué)習(xí)(DRL)的能量管理策略,并將基于DRL算法的策略應(yīng)用到混合動力公交車上,燃油經(jīng)濟(jì)性相對于Q學(xué)習(xí)算法提高了10%,訓(xùn)練時間也大幅縮短。雖然基于DRL的策略在狀態(tài)空間是連續(xù)的,但其控制量仍需降維和離散處理,導(dǎo)致了控制精度的降低。同時由于最大化值函數(shù)逼近,DRL算法存在動作值過優(yōu)估計(jì)的問題,這可能會導(dǎo)致不穩(wěn)定或效果不佳的現(xiàn)象。為解決過優(yōu)估計(jì)問題,Han等應(yīng)用基于雙深度強(qiáng)化學(xué)習(xí)(DDQL)的EMS到混合動力履帶車上,與DQL算法相比燃油經(jīng)濟(jì)性提高了7.1%。為解決控制量離散問題,Zhang等提出基于深度確定性策略梯度(DDPG)的EMS,仿真結(jié)果表明該策略能實(shí)現(xiàn)更細(xì)化的油門開度控制,進(jìn)一步提高燃油經(jīng)濟(jì)性。但同DQL一樣,DDPG也存在動作值過優(yōu)估計(jì)的問題,可能導(dǎo)致訓(xùn)練不穩(wěn)定。

        為解決上述算法存在的問題,進(jìn)一步提高車輛的燃油經(jīng)濟(jì)性、獲得更好的電池SOC保持效果,提出基于優(yōu)先經(jīng)驗(yàn)采樣的雙延遲深度確定性策略梯度(TD3-PER)的能量管理策略,將其應(yīng)用于串聯(lián)式混合動力履帶車輛?;陔p延遲深度確定性策略梯度(TD3)的策略能實(shí)現(xiàn)狀態(tài)空間和動作空間的連續(xù)控制,同時解決了動作值過優(yōu)估計(jì)的問題。為加快策略的收斂速度和達(dá)到更高的燃油經(jīng)濟(jì)性,采用優(yōu)先經(jīng)驗(yàn)采樣算法(PER)來加速網(wǎng)絡(luò)訓(xùn)練。

        1 車輛參數(shù)配置和系統(tǒng)建模

        1.1 車輛配置參數(shù)

        圖1為課題組自研的串聯(lián)式混合動力電動履帶車輛(SHETV)。該車輛采用模塊化和動力履帶設(shè)計(jì),將組件全布置于兩邊的履帶艙內(nèi),為中間平臺省出更多的承載空間。圖2為動力系統(tǒng)拓?fù)鋱D,主要包括發(fā)動機(jī)-發(fā)電機(jī)組、電池、功率分配單元、驅(qū)動電機(jī)總成和整車控制單元(VCU)。驅(qū)動電機(jī)的額定功率是25 kW,轉(zhuǎn)速范圍為2 000~2 500 r/min。發(fā)電機(jī)組通過AC/DC整流單元向直流母線提供電能,而電池組直接向母線提供電能。母線電壓為兩個驅(qū)動電機(jī)提供電能,用于驅(qū)動主動輪旋轉(zhuǎn)。VCU負(fù)責(zé)整車的控制策略、能量管理策略和功率匹配,是提高燃油經(jīng)濟(jì)性的核心。表1為整車及其主要部件的參數(shù)。

        表1 串聯(lián)式混合動力履帶車輛主要參數(shù)

        圖1 串聯(lián)式混合動力電動履帶車輛

        圖2 串聯(lián)式混合動力系統(tǒng)拓?fù)鋱D

        1.2 車輛動力學(xué)模型和傳動系統(tǒng)模型

        履帶車輛的動力學(xué)模型如圖3所示,圖中為橫擺角速度,為履帶車輛軌距。

        圖3 履帶車輛動力學(xué)模型

        車輛的受力主要包括滾動阻力與、驅(qū)動力與、加速阻力、空氣阻力、坡度阻力和轉(zhuǎn)向阻力矩。和分別為左、右側(cè)履帶的速度。履帶車輛的動力學(xué)方程為

        式中:為履帶車輛的需求功率;為縱向驅(qū)動力;為車輛的平均速度,=(+)/2。

        、、、和的計(jì)算公式為

        式中:為車輛加速度;為轉(zhuǎn)向半徑;為車輛受到的總滾動阻力;σ為道路坡度角;為車輛做半徑≥/2轉(zhuǎn)向時的轉(zhuǎn)向阻力系數(shù);為車輛做半徑為/2轉(zhuǎn)向時的轉(zhuǎn)向阻力系數(shù);車輛做半徑為0-/2轉(zhuǎn)向時轉(zhuǎn)向阻力系數(shù)。

        根據(jù)功率平衡關(guān)系,直流母線需求功率和動力源輸出功率滿足:

        式中:和分別為發(fā)電機(jī)功率和電池組功率;為直流母線電壓;為發(fā)電機(jī)電流;為電池電流;和分別為電池的開路電壓和內(nèi)阻;和分別為發(fā)電機(jī)等效電動勢系數(shù)和等效阻抗系數(shù);為發(fā)電機(jī)轉(zhuǎn)速。

        關(guān)于履帶車輛傳動系統(tǒng)中的發(fā)動機(jī)-發(fā)電機(jī)組模型、動力電池模型和驅(qū)動電機(jī)模型在以往的成果中已有詳細(xì)的介紹,請?jiān)斠娢墨I(xiàn)[17],在此不再贅述。

        在Simulink中搭建車輛動力學(xué)仿真模型和傳動系統(tǒng)模型,如圖4所示。將實(shí)車采集的數(shù)據(jù)作為SHETV前向模型的目標(biāo)工況進(jìn)行仿真,仿真數(shù)據(jù)和實(shí)車數(shù)據(jù)的對比結(jié)果如圖5所示。從圖5(a)可知,車輛的仿真模型可很好地跟隨實(shí)測速度。由于實(shí)測環(huán)境存在噪聲等諸多影響,發(fā)動機(jī)轉(zhuǎn)速、電池SOC、母線電壓仿真數(shù)據(jù)與實(shí)測數(shù)據(jù)有一點(diǎn)偏差,但總體變化趨勢很好地吻合。說明所建立的模型能反映實(shí)車的基本物理特性。此外,EMS的開發(fā)主要關(guān)注需求功率的分配,允許模型有一定的偏差,因此建立的仿真模型可作為后續(xù)策略開發(fā)的驗(yàn)證模型。

        圖4 車輛Simulink模型

        圖5 仿真數(shù)據(jù)與實(shí)車數(shù)據(jù)的對比曲線

        1.3 能量管理問題

        對所研究的SHETV,EMS的首要目標(biāo)是找到最優(yōu)策略*在滿足系統(tǒng)性能要求和保持電池波動不大的情況下最小化燃油消耗。因此成本函數(shù)定義為燃油消耗和電池變化的組合:

        系統(tǒng)約束條件為

        式中:和分別為發(fā)動機(jī)最低和最高轉(zhuǎn)速;為發(fā)動機(jī)最大轉(zhuǎn)矩;為發(fā)電機(jī)最大放電電流;和分別為電池最小功率和最大功率;和分別為電池最大充電和放電電流;為電子油門開度系數(shù)。

        2 基于TD3-PER算法的能量管理策略研究

        圖6為基于深度強(qiáng)化學(xué)習(xí)(DRL)的EMS理論框架。TD3算法是基于Actor-Critic框架的DRL算法,圖7為基于TD3-PER的EMS具體框架。選取車速、發(fā)電機(jī)轉(zhuǎn)速、電池荷電狀態(tài)和車輛當(dāng)前時刻的需求功率作為狀態(tài)矢量,即s=[,,,]。為提高算法訓(xùn)練時的收斂速度,對、和進(jìn)行歸一化處理。履帶車輛為EMS中的環(huán)境,智能體根據(jù)車輛的狀態(tài)s和智能體中的策略在每步選擇一個動作a作用于車輛,車輛反饋即時獎勵r和下一刻狀態(tài)s。經(jīng)驗(yàn)池(replay buffer)存儲當(dāng)前的狀態(tài)、動作、即時獎勵、下一刻狀態(tài)矢量(s,a,r,s),形成歷史經(jīng)驗(yàn)數(shù)據(jù);通過優(yōu)先經(jīng)驗(yàn)采樣方式從經(jīng)驗(yàn)池中抽取歷史數(shù)據(jù)送入智能體中的網(wǎng)絡(luò)進(jìn)行訓(xùn)練。智能體通過與環(huán)境的不斷交互來調(diào)整網(wǎng)絡(luò)權(quán)重得到最優(yōu)策略,即燃油消耗最低且具有保持能力。經(jīng)驗(yàn)池的使用有效消除了相鄰狀態(tài)間的相關(guān)性,同時優(yōu)先經(jīng)驗(yàn)采樣(PER)算法的引入加速了網(wǎng)絡(luò)的收斂并提高了訓(xùn)練的效果。

        圖6 基于深度強(qiáng)化學(xué)習(xí)算法理論框架

        圖7 基于TD3-PER的能量管理策略框架

        TD3算法包含策略網(wǎng)絡(luò)Actor和評判網(wǎng)絡(luò)Critic。其中Actor網(wǎng)絡(luò)以車輛的狀態(tài)作為輸入并根據(jù)網(wǎng)絡(luò)參數(shù)輸出控制動作,Critic網(wǎng)絡(luò)用于評判Actor網(wǎng)絡(luò)執(zhí)行動作的優(yōu)劣。TD3算法能同時處理連續(xù)動作空間和策略值函數(shù)過優(yōu)估計(jì)的問題。EMS的控制變量為發(fā)動機(jī)電子油門開度,因此TD3算法的控制動作為[0,1]的連續(xù)值。具體來說,TD3算法是在DDPG的基礎(chǔ)上,同時對Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)進(jìn)行優(yōu)化,主要包括:(1)Critic網(wǎng)絡(luò)包含Critic1和Critic2兩個獨(dú)立網(wǎng)絡(luò),通過選取兩個網(wǎng)絡(luò)中最小的值作為目標(biāo)值,解決了DDPG中對值持續(xù)過優(yōu)估計(jì)的問題,如式(6)所示;(2)算法采用兩個隨機(jī)噪聲,其中在線策略網(wǎng)絡(luò)的隨機(jī)噪聲用來保證動作的探索能力,而目標(biāo)策略網(wǎng)絡(luò)中加入隨機(jī)噪聲,則用來增加算法的穩(wěn)定性;(3)降低了在線策略網(wǎng)絡(luò)的更新頻率,使得actor的訓(xùn)練更加穩(wěn)定。

        式中:r為時刻的即時獎勵;為折扣因子;Q(sa)為根據(jù)+1時刻的狀態(tài)值s、動作值a和網(wǎng)絡(luò)參數(shù)'得到的目標(biāo)網(wǎng)絡(luò)的值。

        目標(biāo)函數(shù)為

        在線網(wǎng)絡(luò)參數(shù)的更新方式為梯度下降法。Critic網(wǎng)絡(luò)采用時序差分誤差(TD-error)的均方差來評價近似的準(zhǔn)確性。Critic網(wǎng)絡(luò)的權(quán)重參數(shù)、通過梯度下降法最小化損失函數(shù)()來更新,如式(8)和式(9)所示。在線Actor網(wǎng)絡(luò)參數(shù)的更新通過梯度上升法使值關(guān)于迭代增加:

        目標(biāo)網(wǎng)絡(luò)的權(quán)重參數(shù)更新采用滑動平均的軟更新方式,如式(11)所示,將在線網(wǎng)絡(luò)中的參數(shù)以一定的權(quán)重更新到目標(biāo)網(wǎng)絡(luò)中:

        式中:為軟更新參數(shù);為在線策略網(wǎng)絡(luò)參數(shù);'為目標(biāo)策略網(wǎng)絡(luò)參數(shù);和分別為在線網(wǎng)絡(luò)1和在線網(wǎng)絡(luò)2的網(wǎng)絡(luò)參數(shù);'和'分別為目標(biāo)網(wǎng)絡(luò)1和目標(biāo)網(wǎng)絡(luò)2的網(wǎng)絡(luò)參數(shù)。

        在傳統(tǒng)的DRL算法中,從經(jīng)驗(yàn)池中抽取片段時是以等概率隨機(jī)抽取。事實(shí)上經(jīng)驗(yàn)池中片段的難易程度和從中學(xué)習(xí)到的知識都不同。為加速網(wǎng)絡(luò)訓(xùn)練且得到更好的訓(xùn)練效果,本文中采用了優(yōu)先經(jīng)驗(yàn)采樣(PER)算法,并結(jié)合不同的經(jīng)驗(yàn)給予一定的權(quán)重,例如在交互過程中表現(xiàn)越差的片段給予更高的權(quán)重,則這些片段有更高的概率被網(wǎng)絡(luò)重新學(xué)習(xí),這樣模型的學(xué)習(xí)效率就會大大提高。相反,在交互過程中表現(xiàn)較好的片段給予較低的采樣權(quán)重。

        TD-error的值越大,片段越有價值。因此,用TD-error的絕對值來表征片段的重要性。TD-error的值σ

        式中為折扣因子。

        經(jīng)驗(yàn)片段的優(yōu)先級有兩種形式:(1)直接用TDerror的絕對值|σ|來表征,如式(13)所示,為較小的正常數(shù),用于保證在邊緣概率為0的片段也有一定的概率被采樣;(2)根據(jù)|σ|的大小對經(jīng)驗(yàn)樣本進(jìn)行排序,然后得到樣本的序列(),如式(14)所示的優(yōu)先級指標(biāo)D。第2種形式具有更好的魯棒性,本文中采用第2種形式。

        直接采用式(14)的采樣方式為貪婪抽樣,會導(dǎo)致初始TD-error較小時長時間不被抽樣和TD-error較大時被高頻重復(fù)抽樣,從而導(dǎo)致缺乏樣本多樣性。為解決此問題,采用均勻采樣和貪婪抽樣結(jié)合的方式,經(jīng)驗(yàn)池中每個樣本的采樣概率()為

        式中:D為第個樣本的優(yōu)先級指標(biāo);為超參數(shù)。當(dāng)為0時為均勻抽樣;當(dāng)為1時為貪婪抽樣;當(dāng)0<<1時為兩種采樣的結(jié)合。

        PER的另一問題是對模型的更新會引入偏差。為使模型更新無偏,引入更新權(quán)重:

        式中:為經(jīng)驗(yàn)池大小;為介于0至1之間的調(diào)節(jié)因子,較小時樣本利用率高,較大時更新偏向于無偏。

        基于TD3-PER的能量管理策略的流程和有關(guān)的偽代碼如表2所示。

        表2 TD3-PER算法計(jì)算流程

        3 仿真與驗(yàn)證

        3.1 TD3-PER算法模型訓(xùn)練

        采用SHETV實(shí)車采集的信息作為訓(xùn)練用的循環(huán)工況,其速度變化曲線和對應(yīng)的需求功率如圖8所示,工況的總時間為1 000 s,訓(xùn)練時采樣頻率為10 Hz。最大車速為39.5 km/h,車輛的需求功率范圍為-1.06~15.49 kW。需求功率的負(fù)值為混合動力驅(qū)動系統(tǒng)的制動能量再生能源。

        圖8 TD3-PER算法訓(xùn)練工況

        狀態(tài)矢量的初始向量為=[2000,0.75,0,0],將其作為TD3-PER算法的初始向量輸入網(wǎng)絡(luò)中進(jìn)行訓(xùn)練。TD3-PER算法網(wǎng)絡(luò)的超參數(shù)如表3所示。圖9為在訓(xùn)練過程中的回報(bào)函數(shù)曲線、損失函數(shù)曲線和每一回合的油耗值曲線。從圖中可以看出,隨著訓(xùn)練進(jìn)程的進(jìn)行,回報(bào)函數(shù)不斷增大且油耗值不斷減小,在訓(xùn)練的第23個回合左右,算法的回報(bào)函數(shù)曲線和損失函數(shù)曲線都趨近于0,這表明算法的訓(xùn)練已經(jīng)收斂,相應(yīng)的控制策略即將達(dá)到最優(yōu)值附近。

        表3 TD3-PER算法網(wǎng)絡(luò)超參數(shù)定義

        圖9 訓(xùn)練過程的總回報(bào)、損失函數(shù)和燃油消耗量

        3.2 控制性能對比驗(yàn)證

        為驗(yàn)證TD3-PER算法的性能,將相同的行駛工況分別作為DP、DDPG、TD3、TD3-PER 4種算法的訓(xùn)練工況,通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練后對比其性能,其中基于全局優(yōu)化算法DP的EMS作為其他3種算法的對比基準(zhǔn)。圖10為3種算法的動力電池變化曲線。從圖中可以看出,3種算法的變化趨勢具有相似性且變化都不大,這是由于TD3算法為DDPG算法的改進(jìn)算法,都能實(shí)現(xiàn)油門開度的連續(xù)控制。但是基于TD3-PER算法的波動更小,在初始值0.75附近波動。這是由于TD3算法作為DDPG的改進(jìn)算法,能實(shí)現(xiàn)值更穩(wěn)定的迭代,因此能使在初始值附近更小的波動。同時PER算法的加入使TD3算法的訓(xùn)練過程更快,控制效果更好。

        圖10 3種算法的SOC曲線對比

        圖11為基于3種算法的EMS的發(fā)動機(jī)工作點(diǎn)分布圖。3種算法的發(fā)動機(jī)工作點(diǎn)具有一定的相似性,這是由于基于3種算法的EMS在狀態(tài)空間都是連續(xù)的且都能實(shí)現(xiàn)油門開度的連續(xù)控制。但TD3算法的發(fā)動機(jī)工作點(diǎn)相對于DDPG更多地位于燃油消耗較低的高效區(qū),同時PER算法的加入使得TD3算法的燃油經(jīng)濟(jì)性進(jìn)一步提升。

        圖11 發(fā)動機(jī)工作點(diǎn)分布對比

        由于發(fā)動機(jī)工作點(diǎn)分布和的終端值不同,4種算法的仿真油耗也存在差異。為消除算法在終端狀態(tài)下的差異,采用修正方法對燃油消耗進(jìn)行補(bǔ)償。表4是經(jīng)修正后的燃油消耗量對比。在所給定的真實(shí)循環(huán)工況下,DP、DDPG、TD3和TD3-PER算法分別消耗燃油499.02、546.24、532.21和525.01 g,TD3-PER算法的燃油消耗比DDPG降低了3.89%,燃油經(jīng)濟(jì)性達(dá)到DP基準(zhǔn)的95.05%。同時,相對于離散算法DP,連續(xù)型算法的訓(xùn)練時間也大大縮短。以上仿真結(jié)果表明TD3-PER算法具有更好的優(yōu)化控制效果,驗(yàn)證了基于TD3-PER算法的能量管理策略的最優(yōu)性和有效性。

        表4 3種算法SOC修正后的燃油消耗量

        3.3 基于TD3-PER算法的EMS的適應(yīng)性驗(yàn)證

        為驗(yàn)證所提出的能量管理策略的適應(yīng)性和優(yōu)化性能,在訓(xùn)練好的TD3-PER網(wǎng)絡(luò)參數(shù)中采用實(shí)車采集的新工況進(jìn)行仿真對比。新工況信息如圖12所示,工況的最高車速為26 km/h,最大需求功率為14.56 kW,最小功率為-4.21 kW。

        圖12 算法適應(yīng)性和最優(yōu)性驗(yàn)證工況

        將新的工況輸入到DDPG、TD3、TD3-NAF算法中進(jìn)行仿真驗(yàn)證,結(jié)果如圖13和圖14所示。從圖13可見,3種算法都能實(shí)現(xiàn)較好的保持能力,但TD3-PER算法的波動性更小。從圖14可見,3種對比算法的發(fā)動機(jī)工作點(diǎn)分布類似,但相對于DDPG算法,TD3算法和TD3-PER算法使更多的發(fā)動機(jī)工作點(diǎn)分布在經(jīng)濟(jì)區(qū)。

        圖13 3種算法的SOC曲線

        圖14 發(fā)動機(jī)工作點(diǎn)分布

        采用與3.2節(jié)中同樣的方法修正油耗來消除終端值不同帶來的影響,結(jié)果如表5所示。由表可見,TD3-PER修正后的油耗為417.53 g,與TD3算法相比下降了15.7 g,與DDPG算法相比下降了34.11 g。仿真結(jié)果表明了TD3-PER算法具有更好的節(jié)油效果,同時也驗(yàn)證了基于TD3-PER算法對工況的適應(yīng)能力。

        表5 3種算法對于新工況的燃油消耗量

        4 結(jié)論

        為優(yōu)化混合動力電動履帶車輛的燃油經(jīng)濟(jì)性和動力電池性能,提出了一種基于優(yōu)先經(jīng)驗(yàn)采樣的雙延遲深度確定性策略梯度(TD3-PER)能量管理策略。TD3算法采用雙Critic網(wǎng)絡(luò)解決了DDPG算法過優(yōu)估計(jì)問題,PER算法提高了算法的收斂速度和訓(xùn)練效果。因此,TD3-PER算法解決了能量管理策略無法處理連續(xù)控制和過優(yōu)估計(jì)的問題,同時加速了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。具體結(jié)論如下:

        (1)將提出的基于TD3-PER的能量管理策略應(yīng)用于串聯(lián)式混合動力履帶車輛中,通過實(shí)車采集的工況仿真對比了TD3-PER、TD3和DDPG算法的燃油經(jīng)濟(jì)性和電池的波動。基于TD3-PER算法的EMS的燃油經(jīng)濟(jì)性比TD3提高了1.29%、比DDPG提高了3.87%,若以DP算法為基準(zhǔn),可達(dá)到95.05%。

        (2)通過實(shí)車采集的新工況驗(yàn)證了訓(xùn)練好的網(wǎng)絡(luò)數(shù)據(jù)的燃油經(jīng)濟(jì)性,TD3-PER算法修正后的油耗比TD3下降了15.7 g,比DDPG下降了34.11 g,同時驗(yàn)證了算法對于工況的適應(yīng)性。

        為了使TD3-PER算法能更好地適應(yīng)復(fù)雜越野工況,下一步工作將開展在線更新網(wǎng)絡(luò)參數(shù)的研究,進(jìn)一步提高算法對于工況的適應(yīng)性和燃油經(jīng)濟(jì)性。

        猜你喜歡
        經(jīng)濟(jì)性策略
        高層建筑結(jié)構(gòu)設(shè)計(jì)經(jīng)濟(jì)性探討與分析
        基于經(jīng)濟(jì)性和熱平衡的主動進(jìn)氣格柵策略開發(fā)(續(xù)2)
        基于經(jīng)濟(jì)性和熱平衡的主動進(jìn)氣格柵策略開發(fā)(續(xù)1)
        基于“選—練—評”一體化的二輪復(fù)習(xí)策略
        求初相φ的常見策略
        例談未知角三角函數(shù)值的求解策略
        我說你做講策略
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        600MW超臨界機(jī)組熱經(jīng)濟(jì)性定量分析
        論測量的經(jīng)濟(jì)性
        好吊妞无缓冲视频观看| 操老熟妇老女人一区二区| 国产成人一区二区三区影院| 人妻丰满熟av无码区hd| 五月天激情婷婷婷久久| 人妖精品视频在线观看| 在线看高清中文字幕一区| 精品国产三级a∨在线欧美| 男人扒开女人下面狂躁小视频| 国产精品久久无码不卡黑寡妇| 一本色道久久综合亚州精品| 在线精品国产亚洲av蜜桃| 亚洲综合久久精品无码色欲| 久久se精品一区精品二区国产| 亚洲色图少妇熟女偷拍自拍| 国产精品视频亚洲二区| 男男受被攻做哭娇喘声视频| 97日日碰日日摸日日澡| 操国产丝袜露脸在线播放| 岳丰满多毛的大隂户| 男人边吻奶边挵进去视频| 亚洲第一免费播放区| 国产激情在线观看免费视频| 强奷乱码中文字幕| 欧洲在线一区| 日本熟妇视频在线中出| 美女视频黄是免费| 日日碰狠狠躁久久躁9| 国产精品久久这里只有精品| 快射视频网站在线观看| 亚洲国产精品无码久久| 国产一区视频在线免费观看| 日本大胆人体亚裔一区二区| 韩国av一区二区三区不卡| 久久久久久久人妻无码中文字幕爆| 久久久久久久综合日本| 新久久国产色av免费看| 日产学生妹在线观看| 91天堂素人精品系列全集亚洲| 白白在线免费观看视频| 欧美激情综合色综合啪啪五月|