亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度強(qiáng)化學(xué)習(xí)的PHEV能量管理策略

2024-09-15 00:00:00李洪歌趙培耕張昊陽(yáng)張珂代偉

物聯(lián)網(wǎng)技術(shù) 2024年6期

摘要：為了優(yōu)化插電式混合動(dòng)力汽車（Plug-in Hybrid Electric Vehicles， PHEV）能量管理策略，提高燃油經(jīng)濟(jì)性，提出基于深度強(qiáng)化學(xué)習(xí)的能量管理策略。通過(guò)對(duì)整車MATLAB/SimuLink建模，設(shè)計(jì)隨動(dòng)力電池SOC自適應(yīng)獎(jiǎng)勵(lì)函數(shù)，使用NEDC和FTP-75工況進(jìn)行智能體訓(xùn)練，在并聯(lián)混動(dòng)模式下，以WLTC-class3工況繼續(xù)進(jìn)行測(cè)試，相比于等效燃油消耗最小策略節(jié)省燃油8.63%，且實(shí)時(shí)性提高16.32倍，驗(yàn)證了該策略的可行性。

關(guān)鍵詞：能量管理策略；深度強(qiáng)化學(xué)習(xí)；等效燃油消耗最??；插電式混合動(dòng)力；智能體訓(xùn)練；PHEV

中圖分類號(hào)：TP39；TN05 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：2095-1302（2024）06-00-07

0 引言

隨著國(guó)家對(duì)于“碳達(dá)峰、碳中和”目標(biāo)的明確，混合動(dòng)力汽車（Hybrid Electric Vehicles， HEV）成為我國(guó)應(yīng)對(duì)節(jié)能降耗、從燃油車向純電汽車過(guò)渡的可行性方案之一。相比于普通混合動(dòng)力汽車，插電式混合動(dòng)力汽車具有外部充電接口、更大容量的動(dòng)力電池等特點(diǎn)，支持純油、純電以及并聯(lián)混動(dòng)多種工作模式，提高了對(duì)復(fù)雜工況的適應(yīng)程度，在環(huán)保與節(jié)能領(lǐng)域有重要意義。

能量管理策略實(shí)現(xiàn)不同動(dòng)力源之間的功率分配，直接影響混合動(dòng)力汽車的能耗性能，因此其一直是PHEV控制問(wèn)題的核心。該問(wèn)題是一個(gè)復(fù)雜的非線性問(wèn)題，行駛工況與控制策略在不斷的相互影響。目前，較為成熟的解決方法有基于規(guī)則和基于優(yōu)化兩種。

基于規(guī)則的控制策略是目前應(yīng)用最多的控制方法，如電量消耗-電量維持型、基于模糊規(guī)則的控制策略[1]、功率規(guī)則控制策略[2]和有限狀態(tài)機(jī)控制策略[3]等，這類策略對(duì)控制器的算力要求較低，實(shí)時(shí)性和可靠性好，但是節(jié)能效果較差，而且不能適應(yīng)駕駛環(huán)境的變化。另一類思路是基于優(yōu)化的控制策略，其利用最優(yōu)思想求解最小化成本函數(shù)，以達(dá)到節(jié)省油耗的效果。文獻(xiàn)[4]提出了具有在線優(yōu)化能力的等效燃油消耗最小策略（Equivalent Con-smption Minimization Strategy， ECMS），但是其具有嚴(yán)重依賴等效因子的缺陷。文獻(xiàn)[5]進(jìn)一步將ECMS策略與控制預(yù)測(cè)（Model Predictive Control， MPC）結(jié)合對(duì)其進(jìn)行了修正，相比基于規(guī)則的控制策略，這類算法具有良好的動(dòng)態(tài)控制能力，也能一定程度適應(yīng)外界環(huán)境的變化，然而隨著對(duì)模型的細(xì)化，其約束條件和離散程度也將增加，龐大的計(jì)算量將使得控制器難以承擔(dān)，在現(xiàn)實(shí)中失去應(yīng)用的可能。

隨著人工智能技術(shù)的不斷發(fā)展，基于深度強(qiáng)化學(xué)習(xí)的智能優(yōu)化能量管理策略應(yīng)運(yùn)而生，與上述策略不同，基于學(xué)習(xí)的策略既有較強(qiáng)的適應(yīng)性，又在深度神經(jīng)網(wǎng)絡(luò)的加持下避免了計(jì)算量的指數(shù)型增加。其是一個(gè)綜合考慮智能體動(dòng)作和回報(bào)的馬爾科夫決策過(guò)程，以找到最優(yōu)控制動(dòng)作從而達(dá)到整車最佳的燃油經(jīng)濟(jì)性為目標(biāo)。通過(guò)好的能量管理策略，動(dòng)力源之間可以互為補(bǔ)充，獲得更佳的能耗經(jīng)濟(jì)性。

1 混合動(dòng)力系統(tǒng)建模

能量管理策略需要建立在特定的混合動(dòng)力汽車動(dòng)力結(jié)構(gòu)上。本模型發(fā)動(dòng)機(jī)和主電機(jī)為并聯(lián)工作關(guān)系，發(fā)動(dòng)機(jī)和電機(jī)同時(shí)工作時(shí)通過(guò)轉(zhuǎn)矩耦合方式進(jìn)行動(dòng)力連接，具體結(jié)構(gòu)如

圖1所示。

汽車仿真參數(shù)與環(huán)境條件見(jiàn)表1所列。

1.1 汽車動(dòng)力學(xué)模型

汽車運(yùn)行環(huán)境中，會(huì)受到滾動(dòng)阻力和空氣阻力的影響，設(shè)定好行駛速度后，汽車需要的推進(jìn)力為：

（1）

式中：Fpw為動(dòng)力系統(tǒng)的推動(dòng)力；Froll為滾動(dòng)阻力；Fair為空氣阻力；Fg為重力分量；m為汽車質(zhì)量；a為汽車加速度。滾動(dòng)阻力、空氣阻力及重力分量具體數(shù)學(xué)模型如下：

Froll≈KrcKscmvg" " " " " " " " " " " " " " " " " " （2）

式中：Krc為滾動(dòng)阻力系數(shù)；Ksc為空氣阻力系數(shù)。

（3）

（4）

式中：Ca為給定高度的空氣密度校正系數(shù)；Ad為空氣質(zhì)量密度；Fa為汽車迎風(fēng)面積。

（5）

式中：α為路面傾斜角。

1.2 汽車動(dòng)力學(xué)模型

文中建立了內(nèi)燃機(jī)的輸入輸出機(jī)械特性模型來(lái)描述發(fā)動(dòng)機(jī)的工作狀態(tài)。

發(fā)動(dòng)機(jī)在工作狀態(tài)下離合器接合，提供推動(dòng)扭矩。閉節(jié)氣門扭矩如下：

（6）

發(fā)動(dòng)機(jī)加速所需扭矩：

（7）

發(fā)動(dòng)機(jī)產(chǎn)生的扭矩：

（8）

式中：Jeng為發(fā)動(dòng)機(jī)轉(zhuǎn)動(dòng)慣量；Jdemand為汽車所需扭矩；ωMeng為發(fā)動(dòng)機(jī)最大允許角速度；α1、α2、α3、α4分別代表靜摩擦力系數(shù)、粘性摩擦力系數(shù)、庫(kù)侖摩擦力系數(shù)以及制動(dòng)壓縮扭矩系數(shù)。

1.3 主電機(jī)模型

電動(dòng)機(jī)工作時(shí)，為汽車提供拖動(dòng)扭矩，可以描述如下：

（9）

式中：tmot為電動(dòng)機(jī)提供的拖動(dòng)扭矩；tspin-loss為摩擦帶來(lái)的損失扭矩；Jmot為電動(dòng)機(jī)轉(zhuǎn)動(dòng)慣量；tdemand為汽車所需扭矩。

其產(chǎn)生的功率模型如下：

（10）

（11）

（12）

式中：Pelec為電動(dòng)機(jī)所需電功率；ηmot為電動(dòng)機(jī)、逆變器和控制器的總效率。

1.4 ISG起動(dòng)發(fā)電機(jī)一體機(jī)模型

起動(dòng)發(fā)電一體機(jī)（Integrated Starter and Generator， ISG）是由一臺(tái)電機(jī)實(shí)現(xiàn)起動(dòng)和發(fā)電兩個(gè)過(guò)程。ISG能夠根據(jù)車輛運(yùn)行狀況決定其工作狀態(tài)。車輛啟動(dòng)時(shí)，動(dòng)力電池為系統(tǒng)供能，驅(qū)動(dòng)車輛行駛；汽車在減速行駛時(shí)，飛輪帶動(dòng)ISG電機(jī)發(fā)電并將電能存儲(chǔ)到動(dòng)力電池中[6-7]。

1.4.1 ISG工作在起動(dòng)狀態(tài)

當(dāng)ISG工作在起動(dòng)狀態(tài)時(shí)相當(dāng)于電動(dòng)機(jī)，其工作模式與主電動(dòng)機(jī)工作模型一致。

1.4.2 ISG工作在發(fā)電狀態(tài)

當(dāng)ISG工作在發(fā)電狀態(tài)時(shí)，為汽車提供制動(dòng)扭矩。ISG反向扭矩可描述為：

（13）

式中：Jgen為發(fā)電機(jī)轉(zhuǎn)動(dòng)慣量。

1.5 動(dòng)力電池模型

動(dòng)力電池是為混合動(dòng)力汽車提供輸出電壓、功率和能量的重要組成部分。下面從電學(xué)特性、電荷狀態(tài)計(jì)算兩個(gè)部分進(jìn)行模型建立。

1.5.1 電學(xué)特性

通常由多個(gè)單體電池通過(guò)串聯(lián)、并聯(lián)或串并聯(lián)的形式組裝，等效建立如下模型。

端電壓：

（14）

歐姆電阻器電壓：

（15）

動(dòng)態(tài)電壓微分方程：

（16）

1.5.2 電荷狀態(tài)計(jì)算

我們以通過(guò)電流積分計(jì)算電池電荷的狀態(tài)：

（17）

式中：ηbat為電池的庫(kù)倫效率；CapAhr為安-時(shí)容量[8-9]。

2 能量管理策略

2.1 控制問(wèn)題分析

文中將PHEV的能量管理抽象成數(shù)學(xué)控制模型。經(jīng)過(guò)對(duì)混合動(dòng)力整車參數(shù)和動(dòng)力總成數(shù)學(xué)建模的分析，認(rèn)為駕駛員油門踏板開(kāi)度決定當(dāng)前車速的期望值，根據(jù)當(dāng)前實(shí)際車速、阻力，結(jié)合坡度計(jì)算出車輛需求總功率。

在已知車輛需求總功率的情況下，發(fā)動(dòng)機(jī)系統(tǒng)和電機(jī)系統(tǒng)對(duì)功率的分流將直接影響到混合動(dòng)力汽車的能量消耗經(jīng)濟(jì)性。文中所設(shè)計(jì)的混合動(dòng)力汽車模型中發(fā)動(dòng)機(jī)、電機(jī)轉(zhuǎn)速與車輪無(wú)法完全解耦，從而通過(guò)機(jī)械耦合裝置將轉(zhuǎn)矩任意耦

合[10]，因此控制問(wèn)題可以從數(shù)學(xué)的角度簡(jiǎn)化為：在當(dāng)前車速下對(duì)發(fā)動(dòng)機(jī)和電機(jī)輸出轉(zhuǎn)矩進(jìn)行實(shí)時(shí)分配以實(shí)現(xiàn)燃油與耗電、發(fā)電的經(jīng)濟(jì)性。

2.2 深度強(qiáng)化學(xué)習(xí)策略

2.2.1 深度學(xué)習(xí)基本原理

強(qiáng)化學(xué)習(xí)是一種從環(huán)境中學(xué)習(xí)最佳行為策略的機(jī)器學(xué)習(xí)方法。在強(qiáng)化學(xué)習(xí)中，智能體（Agent）在與環(huán)境（Environment）交互的過(guò)程中，通過(guò)觀察環(huán)境的狀態(tài)（State）、采取行動(dòng)（Action）并獲得獎(jiǎng)勵(lì)（Reward）來(lái)學(xué)習(xí)最佳的決策策略。

馬爾科夫決策過(guò)程描述了強(qiáng)化學(xué)習(xí)中的智能體、環(huán)境和它們之間的交互，由狀態(tài)、行動(dòng)、狀態(tài)轉(zhuǎn)移概率和獎(jiǎng)勵(lì)構(gòu)成。強(qiáng)化學(xué)習(xí)示意圖如圖2所示。

St為當(dāng)前t時(shí)刻的狀態(tài)，若t+1時(shí)刻的狀態(tài)St+1僅取決于當(dāng)前t時(shí)刻的狀態(tài)，則認(rèn)為狀態(tài)St具有馬爾科夫性。若一個(gè)過(guò)程具備馬爾科夫性，則過(guò)程中任何時(shí)刻的狀態(tài)都具有馬爾科夫性。系統(tǒng)在t+1時(shí)刻的狀態(tài)完全由t時(shí)刻的狀態(tài)決定。狀態(tài)轉(zhuǎn)移概率矩陣表示的是由狀態(tài)s到狀態(tài)s'的狀態(tài)轉(zhuǎn)移概率[11]。

（18）

考慮從環(huán)境中得到反饋獎(jiǎng)勵(lì)的馬爾科夫獎(jiǎng)勵(lì)過(guò)程，根據(jù)狀態(tài)轉(zhuǎn)移概率Pss'從狀態(tài)St轉(zhuǎn)移到St+1，并得到一個(gè)獎(jiǎng)勵(lì)Rt（St， St+1），從狀態(tài)St一直到最終狀態(tài)結(jié)束。由于獎(jiǎng)勵(lì)的累計(jì)具有一定的長(zhǎng)度，因此引入折扣因子γ，所以最終的累計(jì)獎(jiǎng)勵(lì)為：

（19）

在馬爾科夫獎(jiǎng)勵(lì)過(guò)程的基礎(chǔ)上，加入行動(dòng)集合A構(gòu)成完整的馬爾科夫決策過(guò)程，用元組[S， A， P， R， γ]表示。其中概率分布：

（20）

R為獎(jiǎng)勵(lì)函數(shù)：

（21）

在強(qiáng)化學(xué)習(xí)中，智能體根據(jù)一個(gè)狀態(tài)做出一個(gè)行動(dòng)的過(guò)程稱為策略π，用來(lái)表示給定狀態(tài)s的行為概率集合：

（22）

在整個(gè)馬爾科夫決策過(guò)程中，根據(jù)一個(gè)狀態(tài)，由策略π就可以得到一個(gè)行動(dòng)，策略是行動(dòng)產(chǎn)生的依據(jù)，與狀態(tài)的變化無(wú)關(guān)[12]。

2.2.2 雙延遲深度確定性策略梯度

雙延遲深度確定性策略梯度（Twin Delayed Deep Deterministic Policy Gradient， TD3）是一種連續(xù)控制任務(wù)的深度強(qiáng)化學(xué)習(xí)算法。它是深度確定性策略梯度（Dispatch Deviation Procedure Guide， DDPG）算法的改進(jìn)版本，解決了DDPG算法存在的“高估”問(wèn)題。

TD3是一種將策略梯度和價(jià)值函數(shù)相結(jié)合的算法，即A2C框架。Actor作為策略函數(shù)，負(fù)責(zé)根據(jù)策略得到行動(dòng)，Critic為值函數(shù)，得到梯度信息來(lái)評(píng)價(jià)Actor網(wǎng)絡(luò)的表現(xiàn)，同時(shí)指導(dǎo)網(wǎng)絡(luò)更新[13-14]。TD3網(wǎng)絡(luò)架構(gòu)如圖3所示。

TD3算法應(yīng)用2個(gè)獨(dú)立的Q網(wǎng)絡(luò)來(lái)估計(jì)Q函數(shù)的值，每個(gè)Q網(wǎng)絡(luò)都有自己的參數(shù)θ1和θ2。對(duì)于給定的狀態(tài)s和a，Q的估計(jì)值為：

（23）

式中：r是由環(huán)境得到的獎(jiǎng)勵(lì)；γ是折扣因子；s'是下一個(gè)狀態(tài)；πφ'是策略函數(shù)。

算法使用策略梯度來(lái)最小化策略的損失函數(shù)：

（24）

由于TD3算法中包含了Actor網(wǎng)絡(luò)，因此可以通過(guò)在目標(biāo)動(dòng)作上添加高斯噪聲以提高算法的探索性。具體來(lái)說(shuō)，對(duì)于給定的狀態(tài)s，可計(jì)算其目標(biāo)動(dòng)作為：

（25）

式中：σ是高斯噪聲的標(biāo)準(zhǔn)差[15]。

文中將以深度強(qiáng)化學(xué)習(xí)算法作為混合動(dòng)力系統(tǒng)的能量管理控制器，強(qiáng)化學(xué)習(xí)智能體Agent通過(guò)對(duì)車速Vnow、加速度a以及電池SOC進(jìn)行環(huán)境觀測(cè)，以燃油消耗dfuel和電能消耗dsoc作為獎(jiǎng)勵(lì)函數(shù)的自變量，通過(guò)建立深度神經(jīng)網(wǎng)絡(luò)擬合學(xué)習(xí)最優(yōu)策略，輸出最優(yōu)功率分流系數(shù)α，其中：

0≤α≤1。

設(shè)置獎(jiǎng)勵(lì)函數(shù)為：

（26）

耗電量為：

（27）

由于道路坡度無(wú)法控制，故剎車引起的發(fā)電不應(yīng)影響算法獎(jiǎng)勵(lì)值，d*soc為dsoc對(duì)[-1， 0]的限幅值。

燃油消耗量為：

（28）

考慮到過(guò)度放電容易降低電池循環(huán)次數(shù)[16]以及電池SOC較大或較小時(shí)內(nèi)阻大[17-18]使得效率低下，故設(shè)置可變的電量消耗對(duì)燃油消耗的等效權(quán)重wsoc，使得電池SOC較大時(shí)用電成本低、電池SOC較小時(shí)用電成本高。

關(guān)于Actor網(wǎng)絡(luò)配置見(jiàn)表2所列。Actor網(wǎng)絡(luò)的學(xué)習(xí)率為1×10-3。

Critic輸入狀態(tài)信息與輸入動(dòng)作信息通過(guò)第一層網(wǎng)絡(luò)后，相加形成一個(gè)全連接層，再通過(guò)表3所列的剩余網(wǎng)絡(luò)層進(jìn)行信息提取，最終計(jì)算出Q值。

Critic網(wǎng)絡(luò)的學(xué)習(xí)率為5×10-4。

TD3算法中的Critic網(wǎng)絡(luò)包含輸入狀態(tài)信息網(wǎng)絡(luò)層和輸入動(dòng)作信息網(wǎng)絡(luò)層。輸入狀態(tài)信息網(wǎng)絡(luò)層是一個(gè)一層全連接神經(jīng)網(wǎng)絡(luò)，節(jié)點(diǎn)個(gè)數(shù)為256，激活函數(shù)為L(zhǎng)eakyReLU。輸入動(dòng)作信息網(wǎng)絡(luò)層無(wú)隱藏層，在輸入狀態(tài)信息網(wǎng)絡(luò)層與輸入動(dòng)作信息網(wǎng)絡(luò)層的輸出相加后，通過(guò)三層全連接網(wǎng)絡(luò)進(jìn)行計(jì)算。這三層全連接網(wǎng)絡(luò)的節(jié)點(diǎn)個(gè)數(shù)分別為256、128、64，且每層的激活函數(shù)均為L(zhǎng)eakyReLU。TD3算法的Critic網(wǎng)絡(luò)采用學(xué)習(xí)率為5×10-4的優(yōu)化算法進(jìn)行訓(xùn)練，以最大化Critic網(wǎng)絡(luò)的Q值估計(jì)，進(jìn)而提高智能體的決策效果。

TD3超參數(shù)配置見(jiàn)表4所列。

2.3 等效燃油最小策略

ECMS是基于PMP的一種瞬時(shí)優(yōu)化策略，它克服了普通優(yōu)化算法需要全時(shí)域工況的缺點(diǎn)，可以將其轉(zhuǎn)化為一個(gè)實(shí)時(shí)優(yōu)化問(wèn)題。

該算法的思想核心是分別通過(guò)發(fā)動(dòng)機(jī)與電機(jī)所有可能的轉(zhuǎn)速與扭矩，計(jì)算出發(fā)動(dòng)機(jī)實(shí)時(shí)油耗與通過(guò)等效因子折合計(jì)算出的電機(jī)等效油耗，再尋找最小值對(duì)應(yīng)的發(fā)動(dòng)機(jī)與電機(jī)的轉(zhuǎn)速與扭矩，即為最優(yōu)控制策略。

首先計(jì)算發(fā)動(dòng)機(jī)與電機(jī)的功率：

（29）

式中：Pmot、Tmot、nmot分別為電動(dòng)機(jī)的功率、扭矩與轉(zhuǎn)速；Peng、Teng、neng分別為發(fā)動(dòng)機(jī)的功率、扭矩與轉(zhuǎn)速。

發(fā)動(dòng)機(jī)的油耗通過(guò)發(fā)動(dòng)機(jī)的燃油消耗率即可計(jì)算：

（30）

式中：ηeng是發(fā)動(dòng)機(jī)燃油消耗率，其是關(guān)于Teng、neng的函數(shù)，可以通過(guò)查表得到。

電動(dòng)機(jī)等效油耗可以通過(guò)等效因子折合計(jì)算得出：

（31）

式中：ηmot是電動(dòng)機(jī)的工作效率，其是關(guān)于Tmot、nmot的函數(shù)，可以通過(guò)查表得到；s（t）是等效因子，其計(jì)算公式如下：

（32）

式中：ηeng、ηmot、ηinv、ηbatt分別為發(fā)動(dòng)機(jī)、電機(jī)、電機(jī)控制器和電池的平均效率；SOCmax、SOCmin為電池電荷量的最大、最小范圍；SOCref、SOC（t）表示期望電池電荷量與實(shí)際電池電荷量。

再利用：

（33）

即可得出等效燃油消耗量。計(jì)算不同策略下的最小等效燃油值，此刻對(duì)應(yīng)的扭矩分配即為最佳控制策略[19-20]。

3 TD3與ECMS仿真分析

在利用深度強(qiáng)化學(xué)習(xí)算法進(jìn)行智能體訓(xùn)練時(shí)，文中采用NEDC工況作為離線訓(xùn)練工況，其速度變化較為線性，模擬暢通道路；再使用美國(guó)城市測(cè)試工況FTP-75訓(xùn)練，增加車速的變化，進(jìn)一步優(yōu)化模型。NEDC工況速度曲線如圖4所示。FTP-75工況速度曲線如圖5所示。

采用TD3算法，其AveragReward-Episode訓(xùn)練圖如圖6所示。

從圖6可以看出，經(jīng)過(guò)NEDC和FTP-75兩種工況的訓(xùn)練，智能體獎(jiǎng)勵(lì)值均在50 Episode后趨于平穩(wěn)，雖然仍然有一定波動(dòng)，但這是由于設(shè)置噪聲進(jìn)行小范圍動(dòng)作探索再調(diào)整網(wǎng)絡(luò)導(dǎo)致，對(duì)策略穩(wěn)定性基本沒(méi)有影響[21]，此時(shí)停止訓(xùn)練。

根據(jù)中華人民共和國(guó)工業(yè)和信息化部發(fā)布的《乘用車燃料消耗量限值》（現(xiàn)行），混合動(dòng)力汽車的燃料消耗采用統(tǒng)一輕型車輛測(cè)試循環(huán)（WLTC）進(jìn)行測(cè)定[22]。其中WLTC工況加減速次數(shù)更加頻繁，有利于通過(guò)更多的瞬時(shí)狀態(tài)識(shí)別車輛的性能優(yōu)劣以及能量消耗情況[23-25]，故文中采用WLTC工況作為測(cè)試工況。WLTC-class3工況速度曲線如圖7所示。變速箱擋位圖如圖8所示。

3.1 能量管理策略仿真結(jié)果分析

將TD3和ECMS算法應(yīng)用于整車模型，將WLTC-class3工況應(yīng)用于能量消耗測(cè)試，整車功率、發(fā)動(dòng)機(jī)功率和電機(jī)功率分布如圖9所示，其中電機(jī)功率為負(fù)時(shí)表示飛輪拖動(dòng)電機(jī)對(duì)電池充電。

從圖9可以看出，在WLTC-class3工況較大的速度變化下，TD3控制發(fā)動(dòng)機(jī)和電動(dòng)機(jī)功率變化較大，ECMS算法控制發(fā)動(dòng)機(jī)和電機(jī)功率變化較小。TD3發(fā)動(dòng)機(jī)工作點(diǎn)如圖10所示。ECMS發(fā)動(dòng)機(jī)工作點(diǎn)如圖11所示。

在總功率相同的情況下，發(fā)動(dòng)機(jī)和電機(jī)工作越經(jīng)濟(jì)、高效將會(huì)獲得越小的能量消耗，故對(duì)比兩種算法下發(fā)動(dòng)機(jī)和電機(jī)工作點(diǎn)。對(duì)比可以看出，TD3算法下發(fā)動(dòng)機(jī)工作點(diǎn)更多處于比油耗低的高效區(qū)間且變化范圍廣闊，反映了TD3良好的探索能力。

從TD3-ECMS發(fā)動(dòng)機(jī)扭矩-電動(dòng)機(jī)扭矩曲線和TD3-ECMS發(fā)動(dòng)機(jī)工作點(diǎn)綜合來(lái)看，TD3相比于ECMS對(duì)轉(zhuǎn)速-扭矩響應(yīng)更加積極，能夠根據(jù)車速變化調(diào)整分配發(fā)動(dòng)機(jī)和電機(jī)的功率，以盡可能提高效率，增強(qiáng)燃油經(jīng)濟(jì)性。

對(duì)整車模型進(jìn)行5個(gè)連續(xù)WLTC-class3工況實(shí)驗(yàn)共計(jì)116 km/9 000 s，測(cè)試得純油油耗11.43 kg/100 km，發(fā)電2.23 kW·h/100 km，純電電耗30.13 kW·h/100 km。按照1 kW·h電能折合0.35 kg燃油，記錄見(jiàn)表5所列。

計(jì)算可知，TD3相比ECMS在本模型中節(jié)省燃油8.63%，同時(shí)運(yùn)行速度提高16.32倍，實(shí)時(shí)性更好。

4 結(jié) 語(yǔ)

本文利用MATLAB/SimuLink對(duì)PHEV進(jìn)行建模，設(shè)計(jì)了深度強(qiáng)化學(xué)習(xí)和等效燃油消耗最小兩種能量管理策略，其中在WLTC-class3工況的測(cè)試下，深度強(qiáng)化學(xué)習(xí)相對(duì)等效燃油消耗至少節(jié)省燃油8.63%，并且實(shí)時(shí)性提高16.32倍，驗(yàn)證了強(qiáng)化學(xué)習(xí)在混合動(dòng)力汽車能量管理中應(yīng)用的可行性。

注：本文通訊作者為張珂。

參考文獻(xiàn)

[1] GUO Q，ZHAOZ，SHEN P，et al. Adaptive optimal control based on driving style recognition for plug-in hybrid electric vehicle [J]. Energy，2019，186：115824.

[2] PENG C，F(xiàn)ENG F，XIAO Y，et al. Multi-working points power follower based energy management strategy for series hybrid electric vehicle [C]// Journal of Physics：Conference Series，2020，1601：022039.

[3] LI Q，SU B，PU Y，et al. A state machine control based on equivalent consumption minimization for fuel cellsupercapacitor hybrid tramwave [J]. IEEE transactions on transportation electrification，2019，5（2）：552-564.

[4]司遠(yuǎn)，錢立軍，邱利宏，等.基于等效油耗最小的四驅(qū)混合動(dòng)力汽車能量管理[J].中國(guó)機(jī)械工程，2017，28（9）：1112-1117.

[5] BOUWMAN K R，PHAM T H，WILKINS S，et al. Predictive energy management strategy including traffic flow data for hybrid electric vehicles [J]. IFAC-Papers on line，2017，50（1）：10046-10051.

[6]肖磊，韓雪峰，陳銳，等.基于起動(dòng)發(fā)電一體機(jī)的車用混合動(dòng)力總成控制策略研究[J].兵工學(xué)報(bào)，2015，36（9）：1799-1804.

[7]趙金國(guó)，閻治安.基于一種插電式混合動(dòng)力汽車的控制方法研究[J].汽車實(shí)用技術(shù)，2020，45（22）：69-72.

[8]劉偉.混合動(dòng)力汽車系統(tǒng)建模與控制[M].北京：機(jī)械工業(yè)出版社，2015.

[9]夏克剛，錢祥忠，余懿衡，等.基于BP神經(jīng)網(wǎng)絡(luò)的鋰電池SOC在線精確估算[J].電子設(shè)計(jì)工程，2019，27（5）：61-65.

[10]方瑞蓮，陳善球，范健文.基于matlab的并聯(lián)式混合動(dòng)力汽車動(dòng)力耦合淺析[J].內(nèi)燃機(jī)與配件，2018，39（23）：52-54.

[11]陳福云，花春梅.基于馬爾科夫決策過(guò)程的混動(dòng)汽車能量管理建模及控制策略[J].遼寧省交通高等?？茖W(xué)校學(xué)報(bào)，2020，22（6）：19-22.

[12]顧存昕.基于馬爾科夫的機(jī)場(chǎng)機(jī)位分配建模與強(qiáng)化學(xué)習(xí)算法[D].武漢：華中科技大學(xué)，2021.

[13]李衛(wèi).基于深度強(qiáng)化學(xué)習(xí)的燃料電池混合動(dòng)力汽車能量管理策略[D].北京：中國(guó)科學(xué)院大學(xué)（中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院），2021.

[14]張松，王坤羽，楊蓉，等.混合動(dòng)力公交車深度強(qiáng)化學(xué)習(xí)能量管理策略研究[J].內(nèi)燃機(jī)工程，2021，42（6）：10-16.

[15]胡悅.混合動(dòng)力電動(dòng)汽車控制系統(tǒng)設(shè)計(jì)與能量管理策略研究[D].北京：中國(guó)科學(xué)院大學(xué)（中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院），2018.

[16]黃彥博，馮忠楠，隨權(quán)，等.考慮實(shí)時(shí)SOC與動(dòng)態(tài)循環(huán)效率的電池?fù)p耗評(píng)估及儲(chǔ)能定容策略[J].太陽(yáng)能學(xué)報(bào)，2022，43（11）：413-423.

[17]盧艷華.車用三元鋰離子動(dòng)力電池內(nèi)阻特性分析[J].電源技術(shù)，2017，41（5）：702-704.

[18]丁亞軍.動(dòng)力電池單體及模組熱特性試驗(yàn)與仿真研究[D].揚(yáng)州：揚(yáng)州大學(xué)，2020.

[19]林歆悠，孫冬野.基于ECMS混聯(lián)式混合動(dòng)力客車工況識(shí)別控制策略[J].湖南大學(xué)學(xué)報(bào)（自然科學(xué)版），2012，39（10）：43-49.

[20]劉少華.基于改進(jìn)ECMS的插電式混合動(dòng)力客車能量管理策略研究[D].洛陽(yáng)：河南科技大學(xué)，2022.

[21]李家曦，孫友長(zhǎng)，龐玉涵，等.基于并行深度強(qiáng)化學(xué)習(xí)的混合動(dòng)力汽車能量管理策略優(yōu)化[J].重慶理工大學(xué)學(xué)報(bào)（自然科學(xué)），2020，34（9）：62-72.

[22]工業(yè)和信息化部組織.GB 19578—2021乘用車燃料消耗量限值[S]. 2021.

[23]李孟良，朱西產(chǎn)，張建偉，等.典型城市車輛行駛工況構(gòu)成的研究[J].汽車工程，2005，27（5）：54-57.

[24]劉春娜. 基于工況識(shí)別和多目標(biāo)優(yōu)化的PHEV能量管理策略研究[D].濟(jì)南：山東大學(xué)，2022.

[25]陳澤宇，方志遠(yuǎn)，楊瑞鑫，等.基于深度強(qiáng)化學(xué)習(xí)的混合動(dòng)力汽車能量管理策略[J].電工技術(shù)學(xué)報(bào)，2022，37（23）：6157-6168.

基金項(xiàng)目：國(guó)家自然科學(xué)基金（61973306）

作者簡(jiǎn)介：李洪歌（2002—），男，本科，研究方向?yàn)閺?qiáng)化學(xué)習(xí)、通信技術(shù)。

趙培耕（2002—），男，本科，研究方向?yàn)閺?qiáng)化學(xué)習(xí)。

張昊陽(yáng)（2002—），男，本科，研究方向?yàn)槿斯ぶ悄堋?/p>

張珂（1988—），男，本科，中級(jí)工程師，研究方向?yàn)辇X輪傳動(dòng)。

代偉（1984—），男，人工智能研究院副院長(zhǎng)，研究員，教授，博導(dǎo)，研究方向?yàn)槿斯ぶ悄?、工業(yè)控制。