亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于LSTM車速預(yù)測和深度確定性策略梯度的增程式電動汽車能量管理

2024-12-31 00:00:00路來偉趙紅徐福良羅勇

汽車技術(shù) 2024年8期

關(guān)鍵詞：控制策略

【摘要】為提高增程式電動汽車的能量管理性能，首先利用長短時記憶（LSTM）神經(jīng)網(wǎng)絡(luò)進行車速預(yù)測，然后計算出預(yù)測時域內(nèi)的需求功率，并將其與當前時刻的需求功率共同輸入深度確定性策略梯度（DDPG）智能體，由智能體輸出控制量，最后通過硬件在環(huán)仿真驗證了控制策略的實時性。結(jié)果表明，采用所提出的LSTM-DDPG能量管理策略相對于DDPG能量管理策略、深度Q網(wǎng)絡(luò)（DQN）能量管理策略、功率跟隨控制策略在世界重型商用車輛瞬態(tài)循環(huán)（WTVC）工況下的等效燃油消耗量分別減少0.613 kg、0.350 kg、0.607 kg，與采用動態(tài)規(guī)劃控制策略時的等效燃油消耗量僅相差0.128 kg。

主題詞：增程式電動汽車長短時記憶神經(jīng)網(wǎng)絡(luò) 深度強化學習深度確定性策略梯度

中圖分類號：U469.7" "文獻標志碼：A" "DOI： 10.19620/j.cnki.1000-3703.20231093

DDPG Energy Management of Extended-Range Electric Vehicle Based on LSTM Speed Prediction

【Abstract】In order to improve the energy management of Range Extended Electric Vehicle （REEV）， firstly Long Short-Term Memory （LSTM） neural network was used to predicate vehicle speed， then calculates the demand power in the prediction time domain， and the demand power in the prediction time domain and the demand power at the current moment were jointly inputted to the Deep Deterministic Policy Gradient （DDPG） agent， which outputted the control quantity. Finally， the hardware-in-the-loop simulation was carried out to verify the real-time performance of the control strategy. The validation results show that using the proposed LSTM-DDPG energy management strategy reduces the equivalent fuel consumption by 0.613 kg，" " 0.350 kg， and 0.607 kg compared to the DDPG energy management strategy， the Deep Q-Network （DQN） energy management strategy， and the power-following control strategy， respectively， under the World Transient Vehicle Cycling （WTVC） conditions， which is only 0.128 kg different from that of the dynamic planning control strategy when the dynamic planning control strategy is used.

Key words： Extended-range electric vehicle， Long Short-Term Memory （LSTM） neural network， Deep Reinforcement Learning （DRL）， Deep Deterministic Policy Gradient （DDPG）

1 前言

增程式電動汽車的增程器能夠不斷為動力電池供電，可緩解用戶的里程焦慮問題。為兼顧汽車的燃油經(jīng)濟性和電池壽命，研究人員提出了多種控制策略，通過控制增程器和動力電池的功率分配優(yōu)化能量管理。

將各種神經(jīng)網(wǎng)絡(luò)算法與模型預(yù)測控制-等效燃油消耗最小化策略（Model Predictive Control Equivalent Consumption Minimization Strategy，MPC-ECMS）相結(jié)合實現(xiàn)燃油經(jīng)濟性的提高是當前增程式電動汽車能量管理領(lǐng)域的研究熱點[1-8]。Han等在研究車速預(yù)測與基于模型預(yù)測控制（Model Predictive Control，MPC）能量管理策略的基礎(chǔ)上，設(shè)計了一種考慮電機溫度的控制策略[9]。Ritter將長預(yù)測范圍集成到混合動力電動汽車能量管理的隨機MPC框架中[10]。Li等提出了一種基于駕駛員行為的分層預(yù)測能源管理策略[11]。Yu等[12]通過轉(zhuǎn)矩預(yù)測的方式確定汽車工作模式優(yōu)化控制策略。Chen等[13]結(jié)合貝葉斯正則化提出了基于雙神經(jīng)網(wǎng)絡(luò)的智能等效燃油消耗最小化策略（Equivalent Consumption Minimization Strategy，ECMS）和新的等效因數(shù)校正方法來自適應(yīng)地調(diào)節(jié)等效因數(shù)。Wei等[14]通過K-均值（K-Means）聚類算法針對不同駕駛模式進行分類能量管理。Zhao等[15]提出了一種基于兩層MPC的能量管理方法降低油耗。隨著強化學習的發(fā)展，眾多研究人員利用強化學習的方法進行能量管理，整車燃油經(jīng)濟性得到明顯提高[16-19]，如Chen[20]結(jié)合MPC和雙Q學習對混合動力汽車進行了能量分配。

現(xiàn)有研究雖然采用了多種深度學習算法，但未能充分發(fā)揮車速預(yù)測和強化學習兩者的優(yōu)勢，本文結(jié)合車速預(yù)測和MPC強化學習進行能量管理，搭建增程式電動汽車動力系統(tǒng)模型及長短時記憶（Long Short-Term Memory，LSTM）車速預(yù)測模型，構(gòu)建車速預(yù)測訓(xùn)練集，利用LSTM方法進行車速預(yù)測，同時與支持向量回歸（Support Vector Regression，SVR）方法進行對比，控制策略根據(jù)車速預(yù)測結(jié)果計算預(yù)測時域內(nèi)的需求功率，再將預(yù)測時域內(nèi)的需求功率和當前時刻的需求功率作為智能體的狀態(tài)輸入對深度確定性策略梯度（Deep Deterministic Policy Gradient，DDPG）能量管理策略智能體進行訓(xùn)練，利用Simulink仿真對比本文提出的控制策略與其他控制策略的控制效果，并進行硬件在環(huán)（Hardware-In-the-Loop，HIL）仿真，驗證控制策略的實時性。

2 動力系統(tǒng)建模

本文的研究對象為某增程式客車，由增程器和動力電池提供能量，由驅(qū)動電機驅(qū)動，其中增程器主要由發(fā)動機和發(fā)電機組成，兩者機械連接，電池通過DC/DC轉(zhuǎn)換器與增程器和驅(qū)動電機相連接，如圖1所示，整車及各主要部件參數(shù)如表1所示。

2.1 車輛縱向動力學模型

整車模型主要考慮汽車行駛阻力，根據(jù)整車動力學原理，汽車行駛時所受到的阻力之和為：

F=Gfcosα+CDAu2/21.15+Gsinα+δmdu/dt" " " " （1）

式中：G為作用于汽車的重力，f為滾動阻力系數(shù)，α為道路坡度，CD為空氣阻力系數(shù)，A為迎風面積，u為車速，d為旋轉(zhuǎn)質(zhì)量換算系數(shù)，m為整車質(zhì)量，du/dt為行駛加速度。

2.2 發(fā)動機與發(fā)電機

本文中發(fā)動機、發(fā)電機都采用準靜態(tài)模型，如圖2所示。在每一時刻，發(fā)動機準靜態(tài)模型均可根據(jù)發(fā)動機扭矩Teng與轉(zhuǎn)速neng求解，獲得發(fā)動機燃油消耗率mf：

mf=Tengnengbe" " " " " nbsp; " " " " " " " " " " " " （2）

式中：be為發(fā)動機等效燃油消耗率。

發(fā)動機與發(fā)電機通過機械方式連接，二者具有相同的轉(zhuǎn)速和轉(zhuǎn)矩，因此可以根據(jù)發(fā)動機萬有特性和發(fā)電機效率MAP圖計算增程器最佳工作曲線，增程器的最佳燃油消耗率曲線如圖3所示。增程器的輸出功率和燃油消耗率計算公式分別為[21]：

Pgen=Pengη（Teng，neng）" " " " " " " " " " " " " "（3）

feng=f（Teng，neng）" " " " " " " " " " " " " " " "（4）

式中：Pgen為發(fā)電機輸出功率；η（Teng，neng）為發(fā)電機的發(fā)電效率，可根據(jù)轉(zhuǎn)矩、轉(zhuǎn)速查表獲得；Peng為發(fā)動機輸出功率；feng為增程器燃油消耗率；f（Teng，neng）為燃油消耗率查表函數(shù)。

2.3 動力電池模型

電池通過逆變器與驅(qū)動電機和發(fā)電機相連，本文電池模型采用等效電路模型[22]，即將電池視為一個電壓源與電阻串聯(lián)，電池結(jié)構(gòu)及動力電池開路電壓UVOC與荷電狀態(tài)（State of Charge，SOC）SSOC的關(guān)系如圖4所示，其中，U為端電壓，I為電池電流，R為電池內(nèi)阻。

t時刻動力電池電流和SOC的計算公式分別為[23]：

同時，SOC與電流應(yīng)滿足以下條件：

SSOC（t）∈[SSOCmin，SSOCmax]" " " " " " " " " " " " " "（7）

I（t）∈[Imin，Imax]" " " " " " " " " " " " " " " " （8）

式中：SSOCinit為初始SOC值，t0為初始時刻，UVOC（t）為t時刻電池開路電壓，Pb（t）為t時刻電池功率，Q為電池容量，Imin、Imax分別為動力電池允許的最大電流和最小電流，SSOCmin、SSOCmax分別為SOC的設(shè)定最大值和最小值。

2.4 驅(qū)動電機模型

驅(qū)動電機同樣采用準靜態(tài)模型，驅(qū)動電機與電機轉(zhuǎn)速nm和轉(zhuǎn)矩Tm有關(guān)，電機效率ηm的查表函數(shù)為：

ηm=f（Tm，nm）" " " " " " " " " " " " " " " " " （9）

本文車輛模型中4個電機采用同一模型，單個電機的MAP圖如圖5所示。

3 車速預(yù)測

采用MPC對增程器輸出功率進行控制，結(jié)合車速預(yù)測和DDPG算法進行能量管理，使用新歐洲駕駛循環(huán)（New European Driving Cycle，NEDC）、全球統(tǒng)一輕型車輛測試循環(huán)（Worldwide Lightduty Test Cycle，WLTC）、美國城市循環(huán)（Urban Dynamometer Driving Schedule，UDDS）、高速公路燃油經(jīng)濟性試驗（Highway Fuel Economy Test，HWFET）、美國聯(lián)邦測試程序-75（Federal Test Procedure-75，F(xiàn)TP-75）、市郊循環(huán)（Extra Urban Driving Cycle，EUDC）6種工況組成訓(xùn)練集，如圖6所示。

使用LSTM神經(jīng)網(wǎng)絡(luò)對未來時域內(nèi)的車速進行預(yù)測。首先，確定神經(jīng)網(wǎng)絡(luò)超參數(shù)和車速預(yù)測的預(yù)測時域，并使用訓(xùn)練集訓(xùn)練神經(jīng)網(wǎng)絡(luò)。然后，利用神經(jīng)網(wǎng)絡(luò)對訓(xùn)練集預(yù)測時域內(nèi)每一時刻的車速進行預(yù)測，預(yù)測效果滿足精度要求后，保存車速預(yù)測模型，將車速預(yù)測部分與能量管理部分結(jié)合?？刂撇呗愿鶕?jù)預(yù)測時域內(nèi)的車速計算出預(yù)測時域內(nèi)的需求功率，并與當前時刻的需求功率共同作為狀態(tài)訓(xùn)練DDPG智能體。車速預(yù)測和DDPG能量管理流程如圖7所示。

3.1 基于LSTM的車速預(yù)測

LSTM的短期記憶比普通的循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）更長。圖8所示為LSTM網(wǎng)絡(luò)的結(jié)構(gòu)，t時刻LSTM的輸入包括當前時刻輸入xt、上一時刻LSTM輸出ht-1，以及上一時刻單元狀態(tài)Ct-1，經(jīng)計算得到當前時刻輸出ht和當前時刻單元狀態(tài)Ct。其中，ft為遺忘門輸出值，it為輸入門輸出值，ot為輸出門輸出值，σi、σf、σo分別為輸入門、遺忘門、輸出門，Wf、Wi、Wc*分別為遺忘門、輸入門、輸出門對應(yīng)的參數(shù)，Ct、Ct+1經(jīng)過激活函數(shù)雙曲正切函數(shù)tanh變?yōu)閇C*t]和[C*t+1]。

LSTM預(yù)測車速的過程如圖9所示，以歷史時域內(nèi)的車速作為輸入，采用循環(huán)預(yù)測獲得預(yù)測時域內(nèi)的車速作為輸出，其中Nh為歷史時域步長。模型在訓(xùn)練過程中不僅學習到了不同的特征，也學到了訓(xùn)練集中的噪聲，從而可能造成網(wǎng)絡(luò)在訓(xùn)練集上的性能很好，但在測試集上的測試效果不理想，出現(xiàn)過擬合的情況。因此，本文加入隨機失活（Dropout）層，使神經(jīng)網(wǎng)絡(luò)以概率p隨機丟棄隱藏層中的節(jié)點連接，從而構(gòu)建一個新的網(wǎng)絡(luò)結(jié)構(gòu)，確保泛化能力，防止過擬合。為確保神經(jīng)網(wǎng)絡(luò)具有合適的概率p，通過遺傳算法對不同的概率進行嘗試，最終取p=0.4。在遺傳算法求解過程中，如圖10所示，適應(yīng)度函數(shù)變化過程為：

P（t，erms）=αt+（1-α）erms" " " " " " " " " " （10）

式中：t、α分別為當前丟棄概率下車速預(yù)測用時及其加權(quán)系數(shù)，erms為預(yù)測車速的均方根誤差，P （）為適應(yīng)度函數(shù)。

3.2 車速預(yù)測結(jié)果及性能對比

使用MATLAB/Simulink搭建整車模型，車速預(yù)測仿真在MATLAB 2022b上進行，計算機中央處理器型號為Intel i7-12700H，頻率為2.3 GHz，配置16 GB內(nèi)存。超參數(shù)確定后，訓(xùn)練LSTM車速預(yù)測網(wǎng)絡(luò)，迭代次數(shù)為1 000次。仿真工況采用世界重型商用車輛瞬態(tài)循環(huán)（World Transient Vehicle Cycle，WTVC）工況，同時將LSTM與SVR車速預(yù)測結(jié)果進行對比，兩種車速預(yù)測方法的歷史時域為30 s，即選擇過去30 s內(nèi)的車速作為速度預(yù)測模型的輸入數(shù)據(jù)。當兩種車速預(yù)測模型的預(yù)測時域均為5 s時，LSTM車速預(yù)測的均方根誤差（Root Mean Square Error，RMSE）為3.154 3 km/h，SVR車速預(yù)測（懲罰系數(shù)c=0.76，核函數(shù)寬度g=0.6）的均方根誤差為4.248 2 km/h，訓(xùn)練過程中的均方根誤差和損失如圖11所示，在前50次迭代中損失和均方根誤差下降明顯，之后趨于穩(wěn)定，訓(xùn)練結(jié)束后，均方根誤差為0.286 88 km/h，損失為0.041 1，滿足精度要求。

圖12所示為兩種車速預(yù)測方法預(yù)測車速分布情況，可以看出同一種預(yù)測算法預(yù)測時間越短，精度越高，相較于SVR方法，LSTM方法預(yù)測結(jié)果更接近真實值，預(yù)測效果更好。雖然較小的預(yù)測時域具有較高的預(yù)測精度，但過小的預(yù)測時域不利于控制策略給出更好的規(guī)劃結(jié)果，車速預(yù)測將失去意義，因此本文車速預(yù)測部分的預(yù)測時域選定為5 s。

4 基于車速預(yù)測的深度強化學習能量管理

控制策略完成車速預(yù)測后，根據(jù)預(yù)測時域內(nèi)的車速計算出預(yù)測時域內(nèi)的需求功率輸入給智能體，智能體根據(jù)需求功率和當前時刻SOC作出決策。

強化學習通過不斷地與環(huán)境進行交互訓(xùn)練智能體。本文深度強化學習部分采用DDPG算法，環(huán)境為整車動力系統(tǒng)，車速預(yù)測時域為5 s，既有利于規(guī)劃，又能保證準確性。

4.1 深度確定性策略梯度算法

深度強化學習任務(wù)是一個馬爾可夫決策過程（Markov Decision Process，MDP），MDP中狀態(tài)集S、動作集A、狀態(tài)轉(zhuǎn)移概率矩陣P、獎勵函數(shù)R、折扣因子γ∈[0，1]構(gòu)成五元組lt;S，A，P，R，γgt;。在強化學習中，動作和狀態(tài)轉(zhuǎn)移都具有隨機性，給定狀態(tài)s時，策略π（a|s）將輸出動作a，狀態(tài)轉(zhuǎn)移的概率分布為P（s′|s），其中s′為轉(zhuǎn)移后的狀態(tài)。每一時刻環(huán)境會根據(jù)狀態(tài)變化產(chǎn)生獎勵R，為了評價當前步的動作，引入折扣回報Gt，R與Gt均為隨機變量，需以Gt的期望來評價當前動作at和狀態(tài)st的優(yōu)劣。對Gt求期望得到價值函數(shù)Qπ，對Qπ求期望得到狀態(tài)價值函數(shù)Vπ（st）[18]。

DDPG是一種演員-評論家（Actor-Critic）算法，它使用2個神經(jīng)網(wǎng)絡(luò)：演員（Actor）網(wǎng)絡(luò)用于學習策略，生成在當前狀態(tài)下的動作；評論家（Critic）網(wǎng)絡(luò)用于評估Actor網(wǎng)絡(luò)生成的動作的優(yōu)劣，以指導(dǎo)策略的更新。不同于傳統(tǒng)的Actor-Critic算法，DDPG算法的Actor網(wǎng)絡(luò)并非根據(jù)動作的概率分布隨機產(chǎn)生動作，而是直接輸出估計Q值最大的動作。

4.2 基于車速預(yù)測的DDPG能量管理

圖13所示為DDPG能量管理算法的原理，每次迭代智能體從經(jīng)驗池中抽取經(jīng)驗訓(xùn)練，本文經(jīng)驗池大小為1 000 000。DDPG使用價值網(wǎng)絡(luò)估計當前動作Q值，使用策略網(wǎng)絡(luò)輸出動作。與深度Q網(wǎng)絡(luò)（Deep Q Network，DQN）算法類似，為了避免高估或者低估，DDPG算法同樣具有目標網(wǎng)絡(luò)。在t時刻，策略網(wǎng)絡(luò)根據(jù)狀態(tài)輸出動作at，環(huán)境得到動作at后狀態(tài)由st轉(zhuǎn)移到狀態(tài)st+1，價值網(wǎng)絡(luò)根據(jù)狀態(tài)st和動作at計算價值Q（st，at，w），其中w為當前網(wǎng)絡(luò)的權(quán)重，目標策略網(wǎng)絡(luò)根據(jù)狀態(tài)st+1預(yù)測下一時刻的動作[a′t+1]，動作[a′t+1]只作為目標價值網(wǎng)絡(luò)的輸入，并不執(zhí)行，目標價值網(wǎng)絡(luò)根據(jù)st+1和[a′t+1]計算[a′t+1]的價值Q′（st+1，at+1，w-）和時序差分目標（Temporal-Difference target，TD target），公式為：

Q′（st，at）=rt+γQ′（st+1，at+1，w-）" " " " " " " " " "（11）

式中：rt為t時刻的回報，w-為目標網(wǎng)絡(luò)的權(quán)重。

時序差分誤差（Temporal-Difference target，TD error）的計算公式為：

δt=Q（st，at，w）-[rt+γQ′（st+1，at+1，w-）]" " " " " " （12）

通過梯度下降更新價值網(wǎng)絡(luò)，通過梯度上升更新策略網(wǎng)絡(luò)。每隔一段時間，網(wǎng)絡(luò)參數(shù)由當前網(wǎng)絡(luò)復(fù)制給目標網(wǎng)絡(luò)。

根據(jù)LSTM預(yù)測的車速計算出預(yù)測時域的需求功率，智能體根據(jù)狀態(tài)量訓(xùn)練出下一時刻增程器的輸出功率，范圍為0～285 kW。DDPG可以輸出連續(xù)動作控制，相比于DQN算法，DDPG無需離散化動作，而且連續(xù)的動作能夠?qū)崿F(xiàn)更好的控制效果。

在控制過程中主要考慮SOC變化和等效燃油消耗，獎勵函數(shù)為：

[rt=β（SSOC（t）-SSOC0）2+μ（αequal（SSOC（t）-SSOC0）+feins）]" "（13）

式中：β、μ為系數(shù)，SSOC0為SOC初始值，αequal為等效油電轉(zhuǎn)換因子，feins為瞬時燃油消耗量。

5 仿真結(jié)果對比

本文車速預(yù)測的歷史時域為30 s，預(yù)測時域為5 s，根據(jù)預(yù)測時域的車速變化計算未來5 s的需求功率，對比WTVC工況下不同控制策略的控制效果。

5.1 迭代訓(xùn)練過程

深度強化學習的目標是使獎勵不斷增大，評價DDPG訓(xùn)練優(yōu)劣的標準是能否使Q值不斷增大且最終穩(wěn)定收斂于某一最大值附近。本文提出的LSTM-DDPG能量管理策略中，LSTM車速預(yù)測神經(jīng)網(wǎng)絡(luò)為5層回歸預(yù)測網(wǎng)絡(luò)，DDPG中的價值網(wǎng)絡(luò)由6層狀態(tài)路徑和2層動作路徑以及5層共同路徑組成，動作網(wǎng)絡(luò)由10層反向傳播（Back Propagation，BP）神經(jīng)網(wǎng)絡(luò)組成，主要用于產(chǎn)生動作，兩個網(wǎng)絡(luò)的優(yōu)化算法均采用均方根傳播（Root Mean Square Propagation，RMSProp）算法。

圖14所示為DDPG能量管理和LSTM-DDPG能量管理訓(xùn)練過程。經(jīng)過訓(xùn)練，DDPG最后一次迭代的獎勵值為-10 847，LSTM-DDPG最后一次迭代獎勵值為-6 109.1。LSTM-DDPG將預(yù)測時域需求功率也輸送給智能體，智能體在訓(xùn)練過程中能夠更好地作出規(guī)劃，最終訓(xùn)練過程逐漸趨向穩(wěn)定。DDPG只考慮當前時刻需求功率，無法在時域上作出規(guī)劃，因此最終獎勵值較小。

5.2 仿真結(jié)果

圖15所示為不同控制策略在WTVC工況下的SOC變化情況和燃油消耗情況，各控制策略初始SOC均設(shè)置為0.3，如圖15a所示，相較于DDPG和DQN，本文提出的LSTM-DDPG控制策略SOC變化與指定值0.3很接近，整體在0.3附近變化，DDPG與DQN算法則更加偏離指定值。這表明增程器做了更多的功，這兩種算法更趨向于發(fā)電機發(fā)電，功率匹配還略有不足。雖然功率跟隨控制策略SOC變化也比較穩(wěn)定，但是如表2所示，功率跟隨控制策略的等效燃油消耗量較高。

從圖15和表2中可以看出，動態(tài)規(guī)劃（Dynamic Programming，DP）控制策略的SOC變化很穩(wěn)定，等效燃油消耗量也最小。這是因為動態(tài)規(guī)劃是一種全局算法，是理論最優(yōu)解，通常作為其他控制策略的參考標準。而相比于其他控制策略，本文提出的LSTM-DDPG控制策略等效燃油消耗量最接近于動態(tài)規(guī)劃算法等效燃油消耗量，SOC變化也比較穩(wěn)定。

圖16所示為不同控制策略下發(fā)動機與發(fā)電機工況點的分布情況。從圖16中可以看出：動態(tài)規(guī)劃算法的工作點大多接近增程器的最優(yōu)工作曲線，因為動態(tài)規(guī)劃算法獲得的結(jié)果是理論上的最佳值；本文提出的LSTM-DDPG控制策略大多數(shù)工作點也分布在最佳工作曲線附近，不在最優(yōu)曲線附近的工作點則是增程器工作狀態(tài)的遷移點。其他控制策略只是根據(jù)當前工作狀態(tài)確定增程器的輸出功率，而LSTM-DDPG算法則可以根據(jù)預(yù)測車速進行規(guī)劃，從時間域上選擇最優(yōu)控制量，盡量減少增程器在低效區(qū)工作的時間，從而減少整車燃油消耗量。相較于傳統(tǒng)的功率跟隨控制策略，基于車速預(yù)測的強化學習控制策略通過大量的訓(xùn)練使智能體對各種不同工況有更強的適應(yīng)能力。

6 硬件在環(huán)仿真驗證

為了驗證控制策略的準確性與實時性，搭建了HIL仿真平臺對多信號LSTM-MPC-DDQN控制策略進行仿真。圖17所示為HIL仿真方案，HIL平臺主要由上位機、MicroAutoBox控制器和SCALEXIO實時仿真硬件系統(tǒng)組成。

圖18所示為LSTM-DDPG控制策略硬件在環(huán)仿真與Simulink仿真的對比結(jié)果。硬件在環(huán)仿真采樣步長設(shè)置為0.01 s，從圖18中可以看出，硬件在環(huán)仿真的結(jié)果與Simulink仿真結(jié)果基本吻合，SOC變化情況與Simulink仿真結(jié)果相差0.2%，燃油消耗量與Simulink仿真結(jié)果相差0.31%。

為驗證控制策略的實時性，將LSTM-DDPG能量管理策略與功率跟隨能量管理策略、DDPG能量管理策略的實時功率輸出HIL仿真結(jié)果進行對比，如圖19所示。

表3所示為3種控制策略控制過程中HIL仿真和Simulink仿真結(jié)果誤差對比，從計算結(jié)果中可以看出，3種控制策略的誤差均不超過1%，本文提出的LSTM-DDPG能量管理策略具有較好的實時性，能夠滿足駕駛過程中的動力需求。

7 結(jié)束語

本文以增程式客車為研究對象，提出了一種LSTM-DDPG能量管理策略，將車速預(yù)測與強化學習能量管理策略相結(jié)合，利用LSTM神經(jīng)網(wǎng)絡(luò)進行車速預(yù)測，控制策略根據(jù)預(yù)測的車速計算出預(yù)測時域內(nèi)的需求功率，DDPG智能體根據(jù)當前時刻需求功率和SOC以及預(yù)測時域內(nèi)的需求功率作出決策，控制增程器輸出功率。仿真結(jié)果表明，相對于普通的強化學習能量管理策略以及功率跟隨控制策略，LSTM-DDPG控制策略的等效燃油消耗量明顯下降，非常接近動態(tài)規(guī)劃算法。同時，電池SOC也比較穩(wěn)定，避免了SOC變化過大對電池壽命的損害。硬件在環(huán)仿真結(jié)果驗證了提出的控制策略具有很好的實時性。

本文提出的基于車速預(yù)測的強化學習能量管理方法同樣適用于其他混合動力車型的能量管理。此外，后續(xù)研究中也可以嘗試將更多狀態(tài)作為強化學習智能體的輸入，如發(fā)動機工作狀態(tài)、路況等，同時改進強化學習智能體價值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)結(jié)構(gòu)，引入注意力機制，提高智能體對多狀態(tài)輸入的適應(yīng)能力。

參考文獻

[1] FAYYAZI M， ABDOOS M， PHAN D， et al. Real-Time Self-Adaptive Q-Learning Controller for Energy Management of Conventional Autonomous Vehicles[J]. Expert Systems with Applications， 2023， 222.

[2] ZHU W Q. Optimization Strategies for Real-Time Energy Management of Electric Vehicles Based on LSTM Network Learning[J]. Energy Reports， 2022， 8（S8）： 1009-1019.

[3] YANG D， WANG L， YU K J， et al. A Reinforcement" " " Learning-Based Energy Management Strategy for Fuel Cell Hybrid Vehicle Considering Real-Time Velocity Prediction[J]. Energy Conversion and Management， 2022， 274.

[4] LU L W， ZHAO H， LIU X T， et al. MPC-ECMS Energy" "Management of Extended-Range Vehicles Based on LSTM Multi-Signal Speed Prediction[J]. Electronics， 2023， 12（12）： 2642.

[5] SHEN P H， ZHAO Z G， ZHAN X W， et al. Optimal Energy Management Strategy for a Plug-in Hybrid Electric" " " " "Commercial Vehicle Based on Velocity Prediction[J]." " " " Energy， 2018， 155： 838-852.

[6] WANG W D， GUO X H， YANG C， et al. A Multi-Objective Optimization Energy Management Strategy for Power Split HEV Based on Velocity Prediction[J]. Energy， 2022， 238.

[7] XING J M， CHU L， HOU Z R， et al. Energy Management Strategy Based on a Novel Speed Prediction Method[J]." " "Sensors， 2021， 21（24）： 8273.

[8] CHEN R H， YANG C， HAN L J， et al. Power Reserve Predictive Control Strategy for Hybrid Electric Vehicle Using" " " "Recognition-Based Long Short-Term Memory Network[J]. Journal of Power Sources， 2022， 520.

[9] HAN J， SHU H， TANG X L， et al. Predictive Energy Management for Plug-in Hybrid Electric Vehicles Considering" Electric Motor Thermal Dynamics[J]. Energy Conversion and Management， 2022， 251.

[10] RITTER A， WIDMER F， DUHR P， et al. Long-Term" " " Stochastic Model Predictive Control for the Energy Management of Hybrid Electric Vehicles Using Pontryagin’s" " " " Minimum Principle and Scenario-Based Optimization[J]. Applied Energy， 2022， 322.

[11] LI M L， HE H W， FENG L， et al. Hierarchical Predictive Energy Management of Hybrid Electric Buses Based on Driver Information[J]. Journal of Cleaner Production， 2020， 269.

[12] YU X， LIN C， TIAN Y， et al. Real-Time and Hierarchical Energy Management-Control Framework for Electric" " " " Vehicles with Dual-Motor Powertrain System[J]. Energy， 2023， 272.

[13] CHEN Z H， LIU Y G， ZHANG Y J， et al. A Neural Network-Based ECMS for Optimized Energy Management of Plug-in Hybrid Electric Vehicles[J]. Energy， 2022， 243.

[14] WEI C Y， CHEN Y， LI X Y， et al. Integrating Intelligent Driving Pattern Recognition with Adaptive Energy Management Strategy for Extender Range Electric Logistics Vehicle[J]. Energy， 2022， 247.

[15] ZHAO Z C， XUN J， WAN X， et al. MPC Based Hybrid" Electric Vehicles Energy Management Strategy[J]. IFAC-PapersOnLine， 2021， 54（10）： 370-375.

[16] YANG N K， RUAN S M， HAN L J， et al. Reinforcement Learning-Based Real-Time Intelligent Energy Management for Hybrid Electric Vehicles in a Model Predictive Control Framework[J]. Energy， 2023， 270.

[17] 張昊，范欽灝，王巍，等. 基于強化學習的多燃燒模式混合動力能量管理策略[J]. 汽車工程， 2021， 43（5）： 683-691.

ZHANG H， FAN Q H， WANG W， et al. Reinforcement Learning Based Energy Management Strategy for Hybrid Electric Vehicles Using Multi-Mode Combustion[J]." " " " Automotive Engineering， 2021， 43（5）： 683-691.

[18] 唐小林，陳佳信，劉騰，等. 基于深度強化學習的混合動力汽車智能跟車控制與能量管理策略研究[J]. 機械工程學報， 2022， 57（22）： 237-246.

TANG X L， CHEN J X， LIU T， et al. Research on Deep" "Reinforcement Learning-Based Intelligent Car-Following Control and Energy Management Strategy for Hybrid" " " Electric Vehicles[J]. Journal of Mechanical Engineering， 2022， 57（22）： 237-246.

[19] 唐香蕉，高祖成，曾令全，等. 城市道路下混合動力汽車雙層能量管理策略[J]. 中國機械工程， 2022， 33（16）： 2008-2015.

TANG X J， GAO Z C， ZENG L Q， et al. Double-Layer" " Energy Management Strategy for Hybrid Vehicles under" "Urban Roads[J]. China Mechanical Engineering， 2022， 33（16）： 2008-2015.

[20] CHEN Z， GU H J， SHEN S Q， et al. Energy Management Strategy for Power-Split Plug-in Hybrid Electric Vehicle Based on MPC and Double Q-Learning[J]. Energy， 2022， 245.

[21] 席利賀，張欣，耿聰，等. 基于動態(tài)規(guī)劃算法的增程式電動汽車能量管理策略優(yōu)化[J]. 交通運輸工程學報， 2018， 18（3）： 148-156.

XI L H， ZHANG X， GENG C， et al. Optimization of Energy Management Strategy for Extended-Range Electric Vehicle Based on Dynamic Programming Algorithm[J]. Journal of Transportation Engineering， 2018， 18（3）： 148-156.

[22] 丁帥. 基于隨機動態(tài)規(guī)劃的純電動汽車能量管理控制策略研究[D]. 長沙：湖南大學， 2020.

DING S. Study on the Control Strategy of Pure Electric" " "Vehicle Energy Management Based on Stochastic Dynamic Planning[D]. Changsha： Hunan University， 2020.

[23] 林歆悠，夏玉田，魏申申. 基于增強學習算法的插電式燃料電池電動汽車能量管理控制策略[J]. 工程科學學報， 2019， 41（10）： 1332-1341.

LIN X Y， XIA Y T， WEI S S. Plug-in Fuel Cell Electric" Vehicle Energy Management Control Strategy Based on Augmented Learning Algorithm[J]. Journal of Engineering Science， 2019， 41（10）： 1332-1341.