摘要:為了提升混合動(dòng)力汽車(chē)能量管理策略對(duì)不同風(fēng)格駕駛員的適應(yīng)性,基于深度強(qiáng)化學(xué)習(xí)和等效燃油消耗最小策略(equivalent consumption minimization strategy, ECMS),提出一種考慮駕駛風(fēng)格的混合動(dòng)力汽車(chē)能量管理策略。通過(guò)實(shí)車(chē)試驗(yàn)采集駕駛員行駛數(shù)據(jù),基于采集數(shù)據(jù)進(jìn)行駕駛員駕駛風(fēng)格的聚類(lèi)分析,建立駕駛風(fēng)格識(shí)別模型;構(gòu)建基于強(qiáng)化學(xué)習(xí)和ECMS的能量管理策略,將駕駛風(fēng)格系數(shù)作為強(qiáng)化學(xué)習(xí)狀態(tài)變量,利用多種駕駛風(fēng)格的組合工況訓(xùn)練深度確定性策略梯度智能體,獲取不同工況和駕駛風(fēng)格下ECMS等效因子,采用ECMS求解最優(yōu)發(fā)動(dòng)機(jī)、電機(jī)轉(zhuǎn)矩分配以及變速箱擋位;搭建硬件在環(huán)測(cè)試平臺(tái),并基于實(shí)際采集的不同駕駛員駕駛數(shù)據(jù)構(gòu)建測(cè)試工況,驗(yàn)證所提出控制策略的有效性。研究結(jié)果表明,相較于基于規(guī)則策略、基于等效因子比例修正的自適應(yīng)ECMS以及DRL-SAC策略,提出的考慮駕駛風(fēng)格的強(qiáng)化學(xué)習(xí)能量管理策略使整車(chē)能量消耗分別降低16.35%、11.11%和7.56%,所提控制策略的有效性得到了驗(yàn)證。
關(guān)鍵詞:混合動(dòng)力汽車(chē);能量管理策略;駕駛風(fēng)格;強(qiáng)化學(xué)習(xí);等效燃油消耗最小策略
中圖分類(lèi)號(hào):U463.2"文獻(xiàn)標(biāo)志碼:A
DOI:10.7652/xjtuxb202410005"文章編號(hào):0253-987X(2024)10-0051-12
Reinforcement Learning-Based Energy Management Strategy Considering Driving Style for Hybrid Electric Vehicle
SHI Dehua1,2, YUAN Chao1, WANG Shaohua1,2, ZHOU Weiqi1, CHEN Long1
(1. Automotive Engineering Research Institute, Jiangsu University, Zhenjiang, Jiangsu 212013, China;
2. Jiangsu Province Engineering Research Center of Electric Drive System and Intelligent Control for Alternative
Vehicles, Zhenjiang, Jiangsu 212013, China)
Abstract:A considering driving style energy management strategy is proposed to enhance the adaptability of energy management strategies for different driving styles in hybrid electric vehicles. The strategy combines deep reinforcement learning with the equivalent consumption minimization strategy (ECMS). Real vehicle experiments are conducted to collect driving data, which is then subjected to clustering analysis to identify distinct driving styles. A driving style recognition model is developed based on this data. The energy management strategy is built using reinforcement learning and ECMS, with driving style coefficients serving as the reinforcement learning state variables. A deep deterministic policy gradient agent is trained using various combinations of driving styles and operating conditions to determine ECMS equivalent factors for different driving styles and conditions. The ECMS is employed to optimize the engine, motor torque allocation, and gearbox gear selection. To validate the effectiveness of the proposed control strategy, a hardware in the loop testing platform is constructed, and test scenarios are generated using real driving data from different drivers. The research findings demonstrate that the reinforcement learning-based energy management strategy considering driving style reduces overall vehicle energy consumption by 16.35%, 11.11%, and 7.56% compared with rule-based strategy, equivalent factor ratio correction-based adaptive ECMS, and DRL-SAC strategy, respectively. The effectiveness of the proposed control strategy is successfully validated.
Keywords:hybrid electric vehicle; energy management strategy; driving style; reinforcement learning; equivalent consumption minimization strategy
隨著國(guó)家“雙碳”目標(biāo)的實(shí)施,節(jié)能減排迫在眉睫,汽車(chē)產(chǎn)業(yè)電動(dòng)化轉(zhuǎn)型是實(shí)現(xiàn)“雙碳”目標(biāo)的重要途徑[1]。純電動(dòng)汽車(chē)的電池技術(shù)尚未解決里程焦慮的問(wèn)題,混合動(dòng)力汽車(chē)多動(dòng)力源協(xié)同工作兼顧了動(dòng)力性和燃油經(jīng)濟(jì)性,正在成為各大車(chē)企的研究熱點(diǎn),其中能量管理策略是保證混合動(dòng)力汽車(chē)高效運(yùn)行的關(guān)鍵[2]。
混合動(dòng)力汽車(chē)能量管理策略主要可分為基于規(guī)則和基于優(yōu)化算法的策略?xún)深?lèi)[3]。基于規(guī)則的策略根據(jù)專(zhuān)家經(jīng)驗(yàn)預(yù)先定義邏輯門(mén)限值,算法簡(jiǎn)單,實(shí)時(shí)性強(qiáng)[4]。在基于優(yōu)化算法的能量管理策略中,基于動(dòng)態(tài)規(guī)劃的全局優(yōu)化策略能夠?qū)崿F(xiàn)全局最優(yōu),但計(jì)算量大,并且需預(yù)知工況信息,難以滿足車(chē)輛的在線應(yīng)用需求[5]。等效燃油消耗最小策略(equivalent consumption minimization strategy, ECMS)通過(guò)等效因子將電池電量消耗等價(jià)為燃油消耗,通過(guò)實(shí)時(shí)尋優(yōu)確定使總等效消耗最小的控制策略[6]。不同風(fēng)格駕駛行為造成的能耗差異較大,為了提高ECMS對(duì)不同駕駛風(fēng)格的適應(yīng)性,國(guó)內(nèi)外學(xué)者提出了考慮駕駛風(fēng)格的等效因子優(yōu)化機(jī)制。Chen等基于實(shí)車(chē)傳感器采集的汽車(chē)縱向和橫向行駛數(shù)據(jù),結(jié)合調(diào)查問(wèn)卷,采用監(jiān)督式機(jī)器學(xué)習(xí)的方法研究了不同特征參數(shù)對(duì)駕駛行為建模準(zhǔn)確性的影響[7]。Zhang等基于一種新型電液混合動(dòng)力汽車(chē),將駕駛員與駕駛風(fēng)格解耦,建立了一種用于行駛工況預(yù)處理的速度子集提取算法,根據(jù)采集的實(shí)際車(chē)輛速度,提出駕駛風(fēng)格的特征參數(shù)和評(píng)估策略,基于駕駛風(fēng)格識(shí)別設(shè)計(jì)了模糊邏輯能量管理策略[8]。Tian等基于即時(shí)駕駛條件設(shè)計(jì)了一種用于駕駛風(fēng)格識(shí)別的無(wú)監(jiān)督和監(jiān)督相結(jié)合的算法,基于多維高斯分布對(duì)影響駕駛員駕駛風(fēng)格的因素進(jìn)行分析,將駕駛風(fēng)格識(shí)別引入模型預(yù)測(cè)控制中,以制定面向不同駕駛員的預(yù)測(cè)能量管理策略[9]。Guo等將行駛工況與駕駛風(fēng)格解耦,在對(duì)駕駛工況進(jìn)行分類(lèi)識(shí)別的基礎(chǔ)上,分析不同駕駛工況下油門(mén)踏板開(kāi)度及其變化率,建立模糊邏輯識(shí)別器來(lái)識(shí)別駕駛風(fēng)格,采用混合粒子群優(yōu)化-遺傳算法優(yōu)化了考慮不同駕駛風(fēng)格的ECMS等效因子,并在新歐洲駕駛循環(huán)測(cè)試工況下通過(guò)實(shí)車(chē)測(cè)試驗(yàn)證了策略的有效性[10]。
隨著大數(shù)據(jù)、人工智能技術(shù)的快速發(fā)展,基于數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)方法受到越來(lái)越多的重視,近年來(lái)被廣泛應(yīng)用于混合動(dòng)力汽車(chē)(hybrid electric vehicle,HEV)能量管理策略的研究。深度強(qiáng)化學(xué)習(xí)算法具有強(qiáng)大的自學(xué)習(xí)能力,通過(guò)訓(xùn)練智能體與環(huán)境的交互,可以獲取豐富的經(jīng)驗(yàn),并逐步優(yōu)化決策策略[11]。Lee等基于DQN算法調(diào)節(jié)ECMS等效因子,有效提升了ECMS策略的泛化能力[12]。Xu等提出了一種基于啟發(fā)式Q-learning算法的能量管理策略,通過(guò)引入專(zhuān)家經(jīng)驗(yàn),顯著提升了算法訓(xùn)練的收斂速度,并取得優(yōu)于基于規(guī)則策略的控制效果[13]。Hu等研究了網(wǎng)聯(lián)環(huán)境下基于深度強(qiáng)化學(xué)習(xí)的能量管理策略,引入交通信息和駕駛員經(jīng)驗(yàn),顯著提升了燃油經(jīng)濟(jì)性[14]。Wang等對(duì)比研究了13種主流的基于強(qiáng)化學(xué)習(xí)算法的能量管理策略,討論了不同深度強(qiáng)化學(xué)習(xí)算法的獎(jiǎng)勵(lì)性能、計(jì)算成本和學(xué)習(xí)收斂性,結(jié)果表明,連續(xù)動(dòng)作空間學(xué)習(xí)過(guò)程中的智能體比離散動(dòng)作空間中的智能體更穩(wěn)定[15]。
總體而言,國(guó)內(nèi)外學(xué)者為了提高ECMS對(duì)駕駛員駕駛行為的適應(yīng)性,通常建立不同駕駛風(fēng)格與等效因子間的聯(lián)系,這種對(duì)應(yīng)關(guān)系將等效因子描述為與駕駛風(fēng)格相關(guān)的若干離散值,難以實(shí)現(xiàn)等效因子的連續(xù)調(diào)節(jié)[16]。在基于強(qiáng)化學(xué)習(xí)的能量管理策略方面,大多研究在進(jìn)行強(qiáng)化學(xué)習(xí)智能體訓(xùn)練時(shí)僅考慮需求轉(zhuǎn)矩轉(zhuǎn)速以及電池荷電狀態(tài)(state of charge,SOC)的影響,較少考慮駕駛員駕駛風(fēng)格對(duì)能量管理策略的作用,導(dǎo)致強(qiáng)化學(xué)習(xí)能量管理策略難以實(shí)現(xiàn)不同駕駛員駕駛行為下的最優(yōu)。如何在深度強(qiáng)化學(xué)習(xí)智能體的設(shè)計(jì)與訓(xùn)練過(guò)程中考慮駕駛員行為的影響,對(duì)于提高混合動(dòng)力汽車(chē)在不同駕駛員作用下的整車(chē)燃油經(jīng)濟(jì)性具有重要意義。
針對(duì)上述問(wèn)題,本文結(jié)合深度確定性策略梯度(deep deterministic policy gradient,DDPG)強(qiáng)化學(xué)習(xí)算法與ECMS,提出考慮駕駛風(fēng)格的DDPG-ECMS策略。基于實(shí)車(chē)試驗(yàn)數(shù)據(jù)獲取不同駕駛員駕駛行為數(shù)據(jù),建立駕駛風(fēng)格識(shí)別模型,將駕駛風(fēng)格系數(shù)作為狀態(tài)變量引入DDPG智能體,以獲取不同工況和駕駛風(fēng)格下的ECMS等效因子,并由ECMS實(shí)現(xiàn)動(dòng)力總成各動(dòng)力源輸出轉(zhuǎn)矩的優(yōu)化決策,提高能量管理策略在不同駕駛員作用下的適應(yīng)性,為混合動(dòng)力汽車(chē)能量管理策略?xún)?yōu)化提供新的方案。
1"混合動(dòng)力系統(tǒng)建模
1.1"混合動(dòng)力構(gòu)型
本文研究的混合動(dòng)力系統(tǒng)構(gòu)型如圖1所示,主要由發(fā)動(dòng)機(jī)、電動(dòng)機(jī)、離合器和電控機(jī)械自動(dòng)變速器(automated mechanical transmission,AMT)組成,采用P2.5構(gòu)型。該變速器包括3個(gè)同步器和用于各種傳動(dòng)比的多個(gè)齒輪。系統(tǒng)驅(qū)動(dòng)過(guò)程運(yùn)行模式包括發(fā)動(dòng)機(jī)驅(qū)動(dòng)、純電驅(qū)動(dòng)、混合動(dòng)力驅(qū)動(dòng)。該AMT在換擋過(guò)程中利用3個(gè)同步器在機(jī)械動(dòng)力路徑和電力路徑之間無(wú)縫轉(zhuǎn)換,在方便換擋的同時(shí)確保至少一個(gè)動(dòng)力路徑的連續(xù)運(yùn)行。它能夠在擋位和扭矩變化過(guò)程中實(shí)現(xiàn)扭矩耦合,在機(jī)械擋位和電動(dòng)擋位之間交替換擋,其中包括4個(gè)純電動(dòng)擋位、6個(gè)發(fā)動(dòng)機(jī)擋位和9個(gè)混合動(dòng)力擋位。該方法有效解決了換擋時(shí)動(dòng)力中斷的問(wèn)題。系統(tǒng)關(guān)鍵部件參數(shù)如表1所示。
1.2"混合動(dòng)力系統(tǒng)建模
本文研究的配置為雙軸并聯(lián)混合動(dòng)力汽車(chē),其輸入軸扭矩?fù)p失與輸出軸累積的等效轉(zhuǎn)動(dòng)慣量和傳動(dòng)效率有關(guān)。變速箱傳動(dòng)關(guān)系如下
Tloss=Teie(1-Ke)+Tmim(1-Km)+Tinertia
ωe=ωgbie
ωm=ωgbim
(1)
Te、Tm、ωe、ωm須滿足如下關(guān)系
Treq=Te(k)ie+Tm(k)im
Te_min≤Te(k)≤Te_max
ωe_min≤ωe(k)≤ωe_max
Tm_min≤Tm(k)≤Tm_max
ωm_min≤ωm(k)≤ωm_max
(2)
式中:Treq為需求轉(zhuǎn)矩;Tloss為傳動(dòng)扭矩?fù)p失;Te為發(fā)動(dòng)機(jī)輸出扭矩;Ke為發(fā)動(dòng)機(jī)擋位的傳動(dòng)效率;Tm為電機(jī)輸出扭矩;Km為電機(jī)擋位的傳動(dòng)效率;Tinertia 為傳動(dòng)系統(tǒng)中齒輪裝置產(chǎn)生的慣性扭矩;ωe為發(fā)動(dòng)機(jī)轉(zhuǎn)速;ωm為電機(jī)轉(zhuǎn)速;ωgb為變速器輸出軸轉(zhuǎn)速;ie為發(fā)動(dòng)機(jī)速比;im為電機(jī)速比。
車(chē)輛縱向動(dòng)力學(xué)描述為
Freq=Fa+Fg+Fr+FwFa=δMaFw=0.5CdAρv2Fr=MgfrcosθFg=Mgsinθ(3)
式中:Freq為車(chē)輛所需驅(qū)動(dòng)力;Fa為加速阻力;Fw為空氣阻力;Fr為滾動(dòng)阻力;Fg為道路坡度阻力;δ為旋轉(zhuǎn)質(zhì)量換算系數(shù),本文取1.05;a為車(chē)輛縱向加速度;ρ為空氣密度;A為車(chē)輛迎風(fēng)面積;v為車(chē)速;g為重力加速度,本文取9.81m/s2;θ為道路坡度;fr為滾動(dòng)阻力系數(shù)。
在HEV能量管理策略研究中,發(fā)動(dòng)機(jī)和電機(jī)模型常表示為基于效率圖的準(zhǔn)靜態(tài)模型,發(fā)動(dòng)機(jī)燃油效率圖、電機(jī)效率圖及外特性數(shù)據(jù)可由臺(tái)架試驗(yàn)結(jié)果插值擬合而得。
電池模型可以分為內(nèi)阻模型、RC模型、Thevenin模型等。本文將電池模型簡(jiǎn)化,忽略電池溫度對(duì)內(nèi)阻的影響,建立等效內(nèi)阻模型,且電池SOC估算采用安時(shí)積分法
ξSOC=ξSOC,iniQbat-∫T0I/3600dtQbat(4)
I=Voc-Voc-4RintPbat2Rint(5)
式中:I為電流;Voc為電池開(kāi)路電壓;Rint為電池內(nèi)阻;Pbat為電池功率;ξSOC為電池荷電狀態(tài);ξSOC,ini 為電池電量初始值;Qbat為電池容量。
2"DDPG-ECMS自適應(yīng)策略
本文提出的考慮駕駛風(fēng)格的DDPG-ECMS能量管理策略架構(gòu)如圖2所示。為了建立駕駛員駕駛風(fēng)格識(shí)別模型,基于實(shí)車(chē)試驗(yàn)采集不同駕駛員駕駛行為數(shù)據(jù),提取不同特征參數(shù),在此基礎(chǔ)上進(jìn)行駕駛風(fēng)格的分類(lèi)與駕駛風(fēng)格識(shí)別模型的離線訓(xùn)練。采用DDPG智能體實(shí)現(xiàn)基于強(qiáng)化學(xué)習(xí)的能量管理策略?xún)?yōu)化,將駕駛風(fēng)格系數(shù)作為智能體狀態(tài)變量,結(jié)合工況需求轉(zhuǎn)矩、轉(zhuǎn)速以及電池SOC信息,離線訓(xùn)練得到DDPG智能體,訓(xùn)練好的DDPG智能體根據(jù)駕駛風(fēng)格識(shí)別模塊得到的駕駛風(fēng)格系數(shù)以及電池SOC等狀態(tài)信息在線獲取ECMS最優(yōu)等效因子,ECMS模塊基于不同駕駛風(fēng)格和工況下的等效因子實(shí)現(xiàn)發(fā)動(dòng)機(jī)和電機(jī)轉(zhuǎn)矩、擋位的實(shí)時(shí)在線求解。
2.1"駕駛風(fēng)格聚類(lèi)與識(shí)別
駕駛風(fēng)格按照駕駛員的駕駛激進(jìn)程度一般分為保守型、正常型和激進(jìn)型共3類(lèi)[17],即ds=1,2,3。相較于保守型駛員,激進(jìn)型駕駛員平均車(chē)速更大,更傾向于猛踩油門(mén)和剎車(chē),頻繁地急加減速,導(dǎo)致車(chē)輛的能耗更高[18]。本文基于實(shí)車(chē)試驗(yàn)采集了40名駕駛員在不同道路工況下的行駛數(shù)據(jù),駕駛員的選取考慮了性別、駕齡以及職業(yè)等因素。行駛工況包含城市道路、高架道路和郊區(qū)道路,累計(jì)行駛里程達(dá)1400km。所采集的數(shù)據(jù)來(lái)源于整車(chē)控制器局域網(wǎng)(controller area network, CAN)信號(hào),采樣頻率為100Hz,采集信號(hào)包括車(chē)速、加速度、油門(mén)踏板開(kāi)度、制動(dòng)踏板開(kāi)度。本文將油門(mén)踏板與制動(dòng)踏板合二為一,統(tǒng)一為踏板開(kāi)度,選取平均車(chē)速、車(chē)速標(biāo)準(zhǔn)差、最高車(chē)速、加速度絕對(duì)值均值、加速度絕對(duì)值標(biāo)準(zhǔn)差、加速度絕對(duì)值最大值、踏板開(kāi)度變化率絕對(duì)值均值、踏板開(kāi)度變化率絕對(duì)值標(biāo)準(zhǔn)差、踏板開(kāi)度變化率絕對(duì)值最大值為特征參數(shù)[19]。
為了獲取更多的樣本數(shù)量,達(dá)到更好的聚類(lèi)效果,需要對(duì)數(shù)據(jù)進(jìn)行短行程的劃分切片處理,以每次車(chē)輛啟動(dòng)到車(chē)輛靜止為一個(gè)短行程,行程片段劃分示意如圖3所示。
駕駛風(fēng)格聚類(lèi)識(shí)別的具體步驟如下。
(1)選取表征駕駛風(fēng)格的特征參數(shù),基于主成分分析法對(duì)特征參數(shù)進(jìn)行降維處理。根據(jù)特征值大于1以及累計(jì)貢獻(xiàn)率大于85%的準(zhǔn)則, 將所選9個(gè)特征參數(shù)降維到3個(gè)成分,主成分貢獻(xiàn)率如圖4所示。
(2)計(jì)算主成分得分。利用K-means聚類(lèi)方法[20],對(duì)劃分的896個(gè)樣本進(jìn)行聚類(lèi)分析,最終聚類(lèi)結(jié)果如圖5所示??梢钥闯?,第1、2、3類(lèi)樣本分別占比39.0%、31.8%、29.2%。各類(lèi)樣本下的特征參數(shù)平均值如表2所示。其中:第1類(lèi)樣本數(shù)據(jù)的均值和反映數(shù)據(jù)波動(dòng)的標(biāo)準(zhǔn)差都較小,定義為保守型;第3類(lèi)樣本數(shù)據(jù)的均值和標(biāo)準(zhǔn)差都較大,定義為激進(jìn)型;第2類(lèi)樣本數(shù)據(jù)的均值和標(biāo)準(zhǔn)差介于兩者之間,定義為正常型。
(3)確定駕駛風(fēng)格識(shí)別周期,本文駕駛風(fēng)格識(shí)別周期設(shè)定為60s,每60s計(jì)算特征參數(shù)值[21]。
(4)采用支持向量機(jī)進(jìn)行駕駛風(fēng)格的識(shí)別。首先載入訓(xùn)練集、測(cè)試集和相應(yīng)類(lèi)別標(biāo)簽,然后對(duì)數(shù)據(jù)進(jìn)行歸一化處理,選擇徑向基函數(shù)為核函數(shù),分別利用svmtrain函數(shù)和svmpredict函數(shù)訓(xùn)練模型。支持向量機(jī)識(shí)別結(jié)果如圖6所示??梢钥闯?,測(cè)試集識(shí)別準(zhǔn)確率達(dá)到91.04%。
2.2"等效燃油消耗最小策略
等效燃油消耗最小策略使用等效因子將電池的能耗等效為燃油消耗,通過(guò)實(shí)時(shí)求解最小化發(fā)動(dòng)機(jī)油耗和等效燃油消耗之和,實(shí)現(xiàn)最優(yōu)控制目標(biāo)[22]???cè)加拖臑?/p>
mtot=mf+mele(6)
mele=SeqλPLηbatQlhv+Seq(1-λ)ηbatPLQlhv(7)
λ=1+sgn(PL)2(8)
式中:Seq表示等效因子;λ用來(lái)判斷充放電狀態(tài);Qlhv 為發(fā)動(dòng)機(jī)燃油熱值;mtot為總的燃油消耗,包括發(fā)動(dòng)機(jī)油耗mf和等效油耗mele;PL為負(fù)載功率;ηbat為電池工作效率,表達(dá)式為
ηbat=Voc(Voc-V2oc-4PLRchg)2PLRchg,PLlt;0
2PLRdisVoc(Voc-V2oc-4PLRdis),PL≥0(9)
其中,Rchg、Rdis分別為電池充、放電狀態(tài)下的內(nèi)阻。
受到電機(jī)、電池以及發(fā)動(dòng)機(jī)物理特性的約束,系統(tǒng)優(yōu)化求解時(shí)須滿足以下條件
ξSOC_min≤ξSOC≤ξSOC_max
ωe_min≤ωe≤ωe_max
Te_min≤Te≤Te_max
ωm_min≤ωm≤ωm_max
Tm_min≤Tm≤Tm_max(10)
選擇Te、ie和im為控制變量,發(fā)動(dòng)機(jī)轉(zhuǎn)矩按照最大值進(jìn)行等距離散化。為防止發(fā)動(dòng)機(jī)和電機(jī)頻繁換擋以及發(fā)動(dòng)機(jī)的頻繁啟停,需對(duì)上述ECMS策略加入懲罰
mie=αie,ie(t)≠ie(t-1)
0,ie(t)=ie(t-1)(11)
mim=αim,im(t)≠im(t-1)
0,im(t)=im(t-1)(12)
ms=αs|Te(t)-Te(t-1)|(13)
式中:mie和mim為擋位變化的懲罰函數(shù);αie和αim為相應(yīng)的懲罰系數(shù);ms為發(fā)動(dòng)機(jī)頻繁啟停的懲罰項(xiàng);αs為發(fā)動(dòng)機(jī)轉(zhuǎn)矩波動(dòng)的懲罰系數(shù)。
因此,ECMS目標(biāo)函數(shù)為
J*(t)=mtot+mie+mim+ms(14)
2.3"考慮駕駛風(fēng)格的DDPG-ECMS策略
ECMS等效因子關(guān)系到能量管理策略的有效性,而基于SOC實(shí)際值與參考值的偏差作為反饋補(bǔ)償進(jìn)行等效因子調(diào)節(jié)存在一定的不足之處,對(duì)不同駕駛員駕駛風(fēng)格的適應(yīng)性較差[23]。等效因子受到諸多因素的影響,難以建立駕駛風(fēng)格與等效因子之間精確的數(shù)學(xué)表達(dá)式。深度強(qiáng)化學(xué)習(xí)算法在處理復(fù)雜、高維度的狀態(tài)空間和動(dòng)作空間時(shí)表現(xiàn)出色,智能體通過(guò)與環(huán)境的實(shí)時(shí)互動(dòng),根據(jù)獎(jiǎng)勵(lì)信號(hào)調(diào)整動(dòng)作輸出,學(xué)習(xí)最優(yōu)決策,這種基于數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)方式適用于建立駕駛風(fēng)格及復(fù)雜行駛工況與等效因子的非線性映射關(guān)系。
DDPG是一種用于解決連續(xù)動(dòng)作空間上的強(qiáng)化學(xué)習(xí)問(wèn)題的算法。該算法包含兩個(gè)神經(jīng)網(wǎng)絡(luò):critic網(wǎng)絡(luò)用于估計(jì)動(dòng)作價(jià)值函數(shù),actor網(wǎng)絡(luò)用于生成動(dòng)作。actor網(wǎng)絡(luò)根據(jù)當(dāng)前狀態(tài)輸出動(dòng)作,critic網(wǎng)絡(luò)使用該動(dòng)作和當(dāng)前狀態(tài)作為輸入來(lái)估計(jì)當(dāng)前狀態(tài)的價(jià)值。DDPG算法使用actor和critic網(wǎng)絡(luò)共同協(xié)作,通過(guò)最小化動(dòng)作價(jià)值函數(shù)的誤差來(lái)同時(shí)更新actor和critic網(wǎng)絡(luò)的參數(shù)。DDPG算法訓(xùn)練過(guò)程包括采樣階段和學(xué)習(xí)階段。在采樣階段,智能體與環(huán)境交互,存儲(chǔ)新獲得的經(jīng)驗(yàn)數(shù)據(jù)。在學(xué)習(xí)階段,DDPG算法從經(jīng)驗(yàn)池中采樣數(shù)據(jù)進(jìn)行學(xué)習(xí),優(yōu)化actor和critic網(wǎng)絡(luò)的參數(shù)。
本文設(shè)定DDPG智能體的狀態(tài)空間為
S0=Treq,v,ξSOC,ds(15)
DDPG智能體動(dòng)作輸出為
A0=seq(16)
獎(jiǎng)勵(lì)函數(shù)設(shè)定如下
R0=-∫TtTt-1[αξ2SOCd+βmf(t)+γ(seq(t)-eq)2]dt(17)
式中:ξSOCd為實(shí)際SOC與參考值的偏差;eq是等效因子范圍內(nèi)的中值;α、β和γ分別為各部分的權(quán)重系數(shù)。DDPG算法的優(yōu)化目標(biāo)是使SOC維持在參考范圍內(nèi),并使得燃油消耗最小。因此,獎(jiǎng)勵(lì)函數(shù)的設(shè)定同時(shí)考慮了SOC偏差、油耗和等效因子的波動(dòng)范圍。
3"仿真結(jié)果分析
3.1"對(duì)比策略
將本文提出的策略與基于規(guī)則的策略(rule)、等效因子比例修正的AECMS(P-AECMS)策略以及未考慮駕駛風(fēng)格的強(qiáng)化學(xué)習(xí)策略進(jìn)行對(duì)比分析?;谝?guī)則的策略主要包括模式切換、擋位決策以及轉(zhuǎn)矩分配共3個(gè)部分。首先,根據(jù)當(dāng)前車(chē)速、需求功率以及SOC,決策出運(yùn)行模式;然后,根據(jù)車(chē)速、踏板開(kāi)度查表決策擋位;最后,根據(jù)當(dāng)前的模式和擋位,進(jìn)行發(fā)動(dòng)機(jī)和電機(jī)的轉(zhuǎn)矩分配。
基于比例修正的P-AECMS策略的等效因子自適應(yīng)調(diào)節(jié)方式[24]如下
seq(k+1)=kp(ξSOCref-ξSOC(t))+seq(k)=
kpξSOC(t)+seq(k)(18)
式中:seq(k+1)和seq(k)分別表示下一時(shí)刻和當(dāng)前時(shí)刻的等效因子;ξSOCref為電池SOC參考值,本文設(shè)定為0.6;ξSOC(t)為當(dāng)前SOC實(shí)際值;kp為SOC參考值與實(shí)際值偏差的比例增益。
軟演員-評(píng)論家算法(SAC)為深度強(qiáng)化學(xué)習(xí)(DRL)算法,同樣用于連續(xù)動(dòng)作空間,被證明可以實(shí)現(xiàn)較好的燃油經(jīng)濟(jì)性以及電池充放電狀態(tài)的平衡[25]。因此,本文進(jìn)一步將所提出的策略與基于SAC算法的策略(DRL-SAC)進(jìn)行對(duì)比分析。與DDPG-ECMS策略不同的是,DRL-SAC算法直接以發(fā)動(dòng)機(jī)轉(zhuǎn)矩為動(dòng)作輸出,且狀態(tài)輸入不包含駕駛風(fēng)格,獎(jiǎng)勵(lì)函數(shù)的設(shè)定不再考慮等效因子的波動(dòng)。SAC智能體的狀態(tài)空間為
S1=Treq,v,ξSOC(19)
SAC智能體動(dòng)作輸出為
A1=Teng(20)
獎(jiǎng)勵(lì)函數(shù)設(shè)定如下
R1=-∫TtTt-1[αξ2SOCd+βmf(t)]dt(21)
3.2"DDPG訓(xùn)練結(jié)果
以涵蓋多種駕駛風(fēng)格的組合工況作為DDPG智能體的訓(xùn)練數(shù)據(jù),訓(xùn)練工況以及對(duì)應(yīng)的駕駛風(fēng)格如圖7和圖8所示。訓(xùn)練工況主要為基于實(shí)車(chē)試驗(yàn)采集的不同駕駛員的駕駛數(shù)據(jù)樣本組合。
DDPG智能體超參數(shù)設(shè)定如表3所示。DDPG算法的actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)均包含輸入層、3個(gè)隱藏層和1個(gè)輸出層,其中每一隱藏層的神經(jīng)元數(shù)量為100,神經(jīng)網(wǎng)絡(luò)的各層之間都采用全連接結(jié)構(gòu)。
3.3"仿真結(jié)果對(duì)比分析
為了驗(yàn)證DDPG-ECMS算法的泛化能力以及優(yōu)化效果,基于圖7所示組合工況的訓(xùn)練結(jié)果,以包含3種駕駛風(fēng)格的1800s的組合工況作為DDPG-ECMS算法的測(cè)試工況進(jìn)行仿真驗(yàn)證。
測(cè)試工況下,4種策略的仿真結(jié)果對(duì)比如圖10和11所示。
由圖10(a)可以看出,不同策略均實(shí)現(xiàn)了整車(chē)對(duì)目標(biāo)工況的準(zhǔn)確跟蹤,相對(duì)應(yīng)的駕駛風(fēng)格如圖10(b)所示。由圖10(c)和10(e)可以看出,基于規(guī)則的HEV能量管理策略,更多地以發(fā)動(dòng)機(jī)來(lái)驅(qū)動(dòng)車(chē)輛,電機(jī)轉(zhuǎn)矩作為補(bǔ)充,發(fā)動(dòng)機(jī)轉(zhuǎn)矩輸出更加頻繁。相較于P-AECMS,考慮駕駛風(fēng)格的DDPG-ECMS使發(fā)動(dòng)機(jī)更多的參與工作,但工作點(diǎn)主要集中在高效區(qū)。由圖10(d)和10(f)可以看出,本文所提出的策略可以有效抑制不同駕駛風(fēng)格下的頻繁換擋。由圖10(h)可以看出,雖然基于規(guī)則的策略將SOC維持得較好,具有最小的波動(dòng),但發(fā)動(dòng)機(jī)大多工作在非高效區(qū),沒(méi)有充分利用動(dòng)力電池對(duì)發(fā)動(dòng)機(jī)工作點(diǎn)的調(diào)節(jié)功能,燃油經(jīng)濟(jì)性最差??紤]駕駛風(fēng)格的DDPG-ECMS策略可以根據(jù)車(chē)輛狀態(tài)信息和駕駛風(fēng)格實(shí)時(shí)調(diào)節(jié)等效因子,電機(jī)輸出更多轉(zhuǎn)矩驅(qū)動(dòng)車(chē)輛行駛。雖然SOC波動(dòng)相較基于規(guī)則策略的較大,但最終SOC控制較好,實(shí)現(xiàn)了電池充放電平衡,并且有效降低了發(fā)動(dòng)機(jī)燃油消耗。由圖10(g)可以看出,由于P-AECMS策略?xún)H根據(jù)電池SOC真實(shí)值與參考值的插值比例修正等效因子,等效因子調(diào)節(jié)對(duì)電池SOC具有滯后性,因此SOC波動(dòng)較大,等效因子受到SOC較慢動(dòng)力學(xué)特征的影響,其變化程度也較緩慢。由圖10(g)可以看出,相較于P-AECMS策略,在本文提出的策略中,訓(xùn)練好的DDPG智能體根據(jù)多個(gè)狀態(tài)量信息實(shí)時(shí)獲取等效因子,使等效因子劇烈變化,以適應(yīng)各時(shí)刻不同工況和駕駛風(fēng)格的控制需求。DRL-SAC算法結(jié)果與P-AECMS接近,由于訓(xùn)練狀態(tài)并未考慮駕駛風(fēng)格,因此對(duì)不同駕駛風(fēng)格的測(cè)試工況的泛化性較差。
由于不同策略導(dǎo)致SOC最終值不同,將最終電池充電或放電電量等效為相應(yīng)的發(fā)動(dòng)機(jī)油耗,結(jié)合實(shí)際發(fā)動(dòng)機(jī)油耗進(jìn)行等效燃油經(jīng)濟(jì)性的評(píng)估[26]。不同策略下仿真結(jié)果如表4所示??梢钥闯?,所提出的DDPG-ECMS策略使整車(chē)能量消耗相較于規(guī)則策略降低了17.05%,相較于P-AECMS降低了12.17%,相較于DRL-SAC降低了8.07%。并且,本文所提出的控制策略也有效地控制了電池最終SOC,驗(yàn)證了控制策略的有效性。
為了進(jìn)一步驗(yàn)證所提出策略的泛化性,本文增加了兩組測(cè)試工況,測(cè)試工況同樣來(lái)自實(shí)車(chē)采集數(shù)據(jù)的樣本組合。測(cè)試工況如圖12所示。
補(bǔ)充測(cè)試工況下的結(jié)果對(duì)比如表5所示??梢钥闯觯涸跍y(cè)試工況2下,DDPG-ECMS策略相對(duì)于規(guī)則策略、P-AECMS策略以及DRL-SAC策略,能量消耗分別降低了20.01%、7.39%和4.45%;在測(cè)試工況3下,DDPG-ECMS策略相對(duì)于規(guī)則策略、P-AECMS策略以及DRL-SAC策略,能量消耗分別降低了19.16%、6.54%和-0.23%。雖然在測(cè)試工況3下,DRL-SAC等效油耗略低,但SOC終值下降到了0.59,不能很好地維持充放電平衡。DRL-SAC直接以發(fā)動(dòng)機(jī)轉(zhuǎn)矩作為輸出,動(dòng)作空間更大,其泛化性比調(diào)節(jié)等效因子的DDPG-ECMS略差。
4"硬件在環(huán)試驗(yàn)
為了進(jìn)一步驗(yàn)證所提出的DDPG-ECMS策略的實(shí)時(shí)性與有效性,本文基于MATLAB的Simulink Real-Time實(shí)時(shí)仿真系統(tǒng)搭建了硬件在環(huán)(hardware in the loop, HiL)試驗(yàn)平臺(tái),硬件在環(huán)試驗(yàn)原理及試驗(yàn)平臺(tái)如圖13所示。該平臺(tái)主要由PC主機(jī)、實(shí)時(shí)仿真目標(biāo)機(jī)以及嵌入式工控機(jī)共3部分組成。其中:PC主機(jī)用于模型的編譯與下載,以及輸入輸出信號(hào)的數(shù)據(jù)觀測(cè);實(shí)時(shí)仿真目標(biāo)機(jī)用于被控對(duì)象模型的實(shí)時(shí)仿真;嵌入式工控機(jī)用于運(yùn)行能量管理控制策略。通過(guò)編寫(xiě)DBC文件對(duì)控制器與被控對(duì)象的輸入輸出CAN信號(hào)進(jìn)行定義,將被控對(duì)象模型編譯并到下載到實(shí)時(shí)仿真目標(biāo)機(jī)中運(yùn)行。DDPG-ECMS策略編譯下載到控制器中運(yùn)行,控制器模型中DDPG智能體在Simulink中不能直接編譯,需根據(jù)generatePolicyFunction(agent)函數(shù)進(jìn)行策略部署,轉(zhuǎn)化為MATLAB Function的形式??刂破髋c實(shí)時(shí)仿真目標(biāo)機(jī)通過(guò)CAN通信相連,上位機(jī)與實(shí)時(shí)仿真目標(biāo)機(jī)通過(guò)TCP/IP通信相連,實(shí)時(shí)記錄控制器的輸入輸出數(shù)據(jù)。
硬件在環(huán)試驗(yàn)結(jié)果如圖14所示。可以看出,硬件在環(huán)試驗(yàn)結(jié)果與仿真結(jié)果基本一致,車(chē)速跟蹤效果較好,實(shí)時(shí)仿真系統(tǒng)下,控制器與實(shí)時(shí)仿真機(jī)通信存在延遲,故輸出轉(zhuǎn)矩和擋位有一定的波動(dòng),但總體在可接收范圍以?xún)?nèi)。試驗(yàn)表明,在0.01s的仿真步長(zhǎng)下,DDPG-ECMS算法具有良好的實(shí)時(shí)性和有效性。
不同控制策略下,硬件在環(huán)測(cè)試的最終SOC、發(fā)動(dòng)機(jī)油耗及整車(chē)等效油耗如表6所示。可以看出,相較于規(guī)則策略、P-AECMS以及DRL-SAC策略,所提出的DDPG-ECMS策略使整車(chē)能量消耗分別下降16.35%、11.11%和7.56%,并且也能實(shí)現(xiàn)較好的電池SOC控制。
5"結(jié)"論
(1)基于實(shí)車(chē)試驗(yàn)采集了40名駕駛員在不同行駛路況下的行駛數(shù)據(jù),選取了平均車(chē)速、車(chē)速標(biāo)準(zhǔn)差等9個(gè)表征駕駛風(fēng)格的特征參數(shù),基于主成分分析法、K-means聚類(lèi)以及支持向量機(jī)識(shí)別完成了駕駛風(fēng)格的聚類(lèi)與識(shí)別,駕駛員駕駛風(fēng)格識(shí)別精度達(dá)到91%。
(2)針對(duì)一款具有多個(gè)發(fā)動(dòng)機(jī)和電機(jī)擋位的并聯(lián)式混合動(dòng)力汽車(chē),建立了混合動(dòng)力系統(tǒng)模型?;趶?qiáng)化學(xué)習(xí)DDPG算法和ECMS策略構(gòu)建了考慮駕駛風(fēng)格的HEV能量管理策略。其中,DDPG智能體根據(jù)駕駛風(fēng)格和車(chē)輛狀態(tài)信息求解ECMS等效因子,ECMS用來(lái)獲取發(fā)動(dòng)機(jī)、電機(jī)轉(zhuǎn)矩分配以及變速箱檔位?;诤w多種駕駛風(fēng)格的組合工況,完成了對(duì)DDPG-ECMS算法智能體的訓(xùn)練。
(3)基于實(shí)際采集的不同駕駛員駕駛數(shù)據(jù)構(gòu)建測(cè)試工況,通過(guò)仿真分析驗(yàn)證了本文提出的控制策略性能。相較于基于規(guī)則的能量管理策略、等效因子比例修正的P-AECMS策略以及DRL-SAC策略,提出的考慮駕駛風(fēng)格的DDPG-ECMS策略在測(cè)試工況1下整車(chē)能量消耗分別降低了17.05%、12.17%和8.07%,在測(cè)試工況2下分別降低了20.01%、7.39%和4.45%,在測(cè)試工況3下分別降低了19.16%、6.54%和-0.23%。通過(guò)搭建的硬件在環(huán)試驗(yàn)平臺(tái),進(jìn)一步驗(yàn)證了所提策略在測(cè)試工況1下的實(shí)時(shí)性和有效性,DDPG-ECMS策略整車(chē)能量消耗相較于其他3種策略分別降低了16.35%、11.11%和7.56%。
參考文獻(xiàn):
[1]王躍飛, 王志, 孫睿, 等. 基于駕駛意圖多步預(yù)測(cè)的智能網(wǎng)聯(lián)HEV等效排放最小控制策略 [J]. 機(jī)械工程學(xué)報(bào), 2023, 59(18): 271-282.
WANG Yuefei, WANG Zhi, SUN Rui, et al. Equivalent emission minimization strategy of intelligent connected HEV based on multi-step prediction of driving intention [J]. Journal of Mechanical Engineering, 2023, 59(18): 271-282.
[2]黃康, 王強(qiáng), 邱明明, 等. 考慮模式切換頻率的多模式混合動(dòng)力汽車(chē)參數(shù)優(yōu)化 [J]. 西安交通大學(xué)學(xué)報(bào), 2019, 53(7): 99-107.
HUANG Kang, WANG Qiang, QIU Mingming, et al. Parameter optimization of multi-mode hybrid vehicle considering mode-switching frequency [J]. Journal of Xi’an Jiaotong University, 2019, 53(7): 99-107.
[3]YANG Chao, DU Xuelong, WANG Weida, et al. Variable optimization domain-based cooperative energy management strategy for connected plug-in hybrid electric vehicles [J]. Energy, 2024, 290: 130206.
[4]黃碩, 李亮, 楊超, 等. 基于規(guī)則修正的同軸并聯(lián)混合動(dòng)力客車(chē)瞬時(shí)優(yōu)化能量分配策略 [J]. 機(jī)械工程學(xué)報(bào), 2014, 50(20): 113-121.
HUANG Shuo, LI Liang, YANG Chao, et al. Rule correction-based instantaneous optimal energy management strategy for single-shaft parallel hybrid electric bus [J]. Journal of Mechanical Engineering, 2014, 50(20): 113-121.
[5]DU Guodong, ZOU Yuan, ZHANG Xudong, et al. Deep reinforcement learning based energy management for a hybrid electric vehicle [J]. Energy, 2020, 201: 117591.
[6]王文彬, 田韶鵬, 鄭青星, 等. 基于FA的等效燃油消耗最小控制策略?xún)?yōu)化 [J]. 江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版), 2022, 43(2): 147-153.
WANG Wenbin, TIAN Shaopeng, ZHENG Qingxing, et al. Optimization of equivalent fuel consumption minimization strategy based on firefly algorithm [J]. Journal of Jiangsu University(Natural Science Edition), 2022, 43(2): 147-153.
[7]CHEN Yao, WANG Ke, LU J J. Feature selection for driving style and skill clustering using naturalistic driving data and driving behavior questionnaire [J]. Accident Analysis amp; Prevention, 2023, 185: 107022.
[8]ZHANG Zhen, ZHANG Tiezhu, HONG Jichao, et al. Energy management strategy of a novel electric-hydraulic hybrid vehicle based on driving style recognition [J]. Sustainable Energy amp; Fuels, 2023, 7(2): 420-430.
[9]TIAN Xiang, CAI Yingfeng, SUN Xiaodong, et al. Incorporating driving style recognition into MPC for energy management of plug-in hybrid electric buses [J]. IEEE Transactions on Transportation Electrification, 2023, 9(1): 169-181.
[10]GUO Qiuyi, ZHAO Zhiguo, SHEN Peihong, et al. Adaptive optimal control based on driving style recognition for plug-in hybrid electric vehicle [J]. Energy, 2019, 186: 115824.
[11]ZHU Zhaoxuan, LIU Yuxing, CANOVA M. Energy management of hybrid electric vehicles via deep Q-networks [C]//2020 American Control Conference (ACC). Piscataway, NJ, USA: IEEE, 2020: 3077-3082.
[12]LEE W, JEOUNG H, PARK D, et al. A real-time intelligent energy management strategy for hybrid electric vehicles using reinforcement learning [J]. IEEE Access, 2021, 9: 72759-72768.
[13]XU Bin, HOU Jun, SHI Junzhe, et al. Learning time reduction using warm-start methods for a reinforcement learning-based supervisory control in hybrid electric vehicle applications [J]. IEEE Transactions on Transportation Electrification, 2021, 7(2): 626-635.
[14]HU Dong, ZHANG Yuanyuan. Deep reinforcement learning based on driver experience embedding for energy management strategies in hybrid electric vehicles [J]. Energy Technology, 2022, 10(6): 2200123.
[15]WANG Hanchen, YE Yiming, ZHANG Jiangfeng, et al. A comparative study of 13 deep reinforcement learning based energy management methods for a hybrid electric vehicle [J]. Energy, 2023, 266: 126497.
[16]HE Kun, QIN Dongchen, CHEN Jiangyi, et al. Adaptive equivalent consumption minimization strategy for fuel cell buses based on driving style recognition [J]. Sustainability, 2023, 15(10): 7781.
[17]YANG Sen, WANG Wenshuo, ZHANG Fengqi, et al. Driving-style-oriented adaptive equivalent consumption minimization strategies for HEVs [J]. IEEE Transactions on Vehicular Technology, 2018, 67(10): 9249-9261.
[18]GONG Changchao, HU Minghui, LI Shuxian, et al. Equivalent consumption minimization strategy of hybrid electric vehicle considering the impact of driving style [J]. Proceedings of the Institution of Mechanical Engineers: Part D"Journal of Automobile Engineering, 2019, 233(10): 2610-2623.
[19]王旭, 馬菲, 廖小棱, 等. 基于多分類(lèi)監(jiān)督學(xué)習(xí)的駕駛風(fēng)格特征指標(biāo)篩選 [J]. 交通信息與安全, 2022, 40(1): 162-168.
WANG Xu, MA Fei, LIAO Xiaoleng, et al. Feature selection for recognition of driving styles based on multi-classification and supervised learning [J]. Journal of Transport Information and Safety, 2022, 40(1): 162-168.
[20]李經(jīng)緯, 趙治國(guó), 沈沛鴻, 等. 駕駛風(fēng)格K-means聚類(lèi)與識(shí)別方法研究 [J]. 汽車(chē)技術(shù), 2018(12): 8-12.
LI Jingwei, ZHAO Zhiguo, SHEN Peihong, et al. Research on methods of K-means clustering and recognition for driving style [J]. Automobile Technology, 2018(12): 8-12.
[21]LIN Xinyou, LI Kuiliang, WANG Liming. A driving-style-oriented adaptive control strategy based PSO-fuzzy expert algorithm for a plug-in hybrid electric vehicle [J]. Expert Systems with Applications, 2022, 201: 117236.
[22]施德華, 容香偉, 汪少華, 等. 基于功率比的混合動(dòng)力汽車(chē)模糊自適應(yīng)等效燃油消耗最小策略研究 [J]. 西安交通大學(xué)學(xué)報(bào), 2022, 56(1): 12-21.
SHI Dehua, RONG Xiangwei, WANG Shaohua, et al. Fuzzy adaptive equivalent consumption minimization strategy for hybrid electric vehicle based on power ratio [J]. Journal of Xi’an Jiaotong University, 2022, 56(1): 12-21.
[23]TIAN Xiang, CAI Yingfeng, SUN Xiaodong, et al. An adaptive ECMS with driving style recognition for energy optimization of parallel hybrid electric buses [J]. Energy, 2019, 189: 116151.
[24]ONORI S, SERRAO L, RIZZONI G. Adaptive equivalent consumption minimization strategy for hybrid electric vehicles [C]//ASME 2010 Dynamic Systems and Control Conference. New York, USA: ASME, 2010: 499-505.
[25]WANG Zexing, HE Hongwen, PENG Jiankun, et al. A comparative study of deep reinforcement learning based energy management strategy for hybrid electric vehicle [J]. Energy Conversion and Management, 2023, 293: 117442.
[26]KONG Yan, XU Nan, LIU Qiao, et al. A data-driven energy management method for parallel PHEVs based on action dependent heuristic dynamic programming (ADHDP) model [J]. Energy, 2023, 265: 126306.
(編輯"陶晴)