亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        混合動(dòng)力汽車深度強(qiáng)化學(xué)習(xí)分層能量管理策略

        2024-05-15 15:27:08戴科峰胡明輝
        重慶大學(xué)學(xué)報(bào) 2024年1期

        戴科峰 胡明輝

        摘要:為了提高混合動(dòng)力汽車的燃油經(jīng)濟(jì)性和控制策略的穩(wěn)定性,以第三代普銳斯混聯(lián)式混合動(dòng)力汽車作為研究對(duì)象,提出了一種等效燃油消耗最小策略(equivalent fuel consumption minimization strategy,ECMS)與深度強(qiáng)化學(xué)習(xí)方法(deep feinforcement learning,DRL)結(jié)合的分層能量管理策略。仿真結(jié)果證明,該分層控制策略不僅可以讓強(qiáng)化學(xué)習(xí)中的智能體在無模型的情況下實(shí)現(xiàn)自適應(yīng)節(jié)能控制,而且能保證混合動(dòng)力汽車在所有工況下的SOC都滿足約束限制。與基于規(guī)則的能量管理策略相比,此分層控制策略可以將燃油經(jīng)濟(jì)性提高20.83%~32.66%;增加智能體對(duì)車速的預(yù)測(cè)信息,可進(jìn)一步降低5.12%的燃油消耗;與沒有分層的深度強(qiáng)化學(xué)習(xí)策略相比,此策略可將燃油經(jīng)濟(jì)性提高8.04%;與使用SOC偏移懲罰的自適應(yīng)等效燃油消耗最小策略(A-ECMS)相比,此策略下的燃油經(jīng)濟(jì)性將提高5.81%~16.18%。

        關(guān)鍵詞:混合動(dòng)力汽車;動(dòng)態(tài)規(guī)劃;強(qiáng)化學(xué)習(xí);深度神經(jīng)網(wǎng)絡(luò);等效燃油消耗

        中圖分類號(hào):U471.15????????? 文獻(xiàn)標(biāo)志碼:A?????????? 文章編號(hào):1000-582X(2024)01-041-11

        Deep reinforcement learning hierarchical energy management strategy for hybrid electric vehicles

        DAI Kefeng, HU Minghui

        (College of Mechanical and Vehicle Engineering, Chongqing University, Chongqing 400044, P. R. China)

        Abstract: To improve the fuel economy and control strategy stability of hybrid electric vehicles (HEVs), with taking the third-generation Prius hybrid electric vehicle as the research object, a hierarchical energy management strategy is created by combining an equivalent fuel consumption minimization strategy (ECMS) with a deep reinforcement learning (DRL) method. The simulation results show that the hierarchical control strategy not only enables the agent in reinforcement learning to achieve adaptive energy-saving control without a model, but also ensures that the state of charge (SOC) of the hybrid vehicle meets the constraints under all operating conditions. Compared with the rule-based energy management strategy, this layered control strategy improves the fuel economy by 20.83% to 32.66%. Additionally, increasing the prediction information of the vehicle speed by the agent further reduces the fuel consumption by about 5.12%. Compared with the deep reinforcement learning strategy alone, this combined strategy improves fuel economy by about 8.04%. Furthermore, compared with the A-ECMS strategy that uses SOC offset penalty, the fuel economy is improved by 5.81% to 16.18% under this proposed strategy.

        Keywords: hybrid vehicle; dynamic programming; reinforcement learning; deep neural networks; equivalent consumption minimization strategy

        車輛傳動(dòng)系統(tǒng)的電氣化是未來可持續(xù)發(fā)展中的重要環(huán)節(jié)。但就現(xiàn)階段而言,純電動(dòng)汽車的電池技術(shù)還未實(shí)現(xiàn)突破;混合動(dòng)力汽車(hybrid electric vehicle,HEV)的節(jié)油潛力也沒有得到充分發(fā)揮,設(shè)計(jì)良好的能量管理策略可以提高節(jié)油率。

        混合動(dòng)力汽車最優(yōu)能量管理的經(jīng)典數(shù)值計(jì)算方法有2種:一是基于系統(tǒng)模型的動(dòng)態(tài)規(guī)劃(dynamic programming,DP);二是龐特里亞金極值原理(Pontryagins minimal principle,PMP)[1]。其中,DP近似求解哈密爾頓-雅可比-貝爾曼方程以得到最優(yōu)控制問題在離散時(shí)間的最優(yōu)解。DP需要獲得完整的駕駛工況信息且計(jì)算負(fù)荷高,因此現(xiàn)階段僅用DP的離線計(jì)算來導(dǎo)出控制規(guī)則[2]。等效燃油消耗最小策略(equivalent consumption minimization strategy,ECMS)是以PMP為理論基礎(chǔ)的一種實(shí)時(shí)優(yōu)化能量管理策略。它將全時(shí)域最優(yōu)控制問題轉(zhuǎn)化為了基于等效因子的瞬時(shí)優(yōu)化問題,在確定等效因子后,便于能量管理問題的實(shí)時(shí)求解[3-7]。對(duì)于不同的駕駛工況,合適的等效因子需要通過大量的離線仿真才能獲得,難以根據(jù)實(shí)際駕駛場景進(jìn)行實(shí)時(shí)求解,因而ECMS實(shí)時(shí)效果差。

        自人工智能進(jìn)入最優(yōu)控制領(lǐng)域以來,深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)已經(jīng)成為了一種常用的控制策略,正在被廣泛地應(yīng)用于混合動(dòng)力汽車的傳動(dòng)系統(tǒng)控制[8-12]。Qi等[13]在能量管理中采用了深度q學(xué)習(xí),不僅可以解決傳統(tǒng)q學(xué)習(xí)中出現(xiàn)的“維數(shù)災(zāi)難”,而且證明了深度強(qiáng)化學(xué)習(xí)比q學(xué)習(xí)具有更好的燃油經(jīng)濟(jì)性。Zhang等[14]的研究表明,基于經(jīng)驗(yàn)回放的深度q網(wǎng)絡(luò)在經(jīng)過充分訓(xùn)練后,即使在不熟悉的駕駛循環(huán)工況中,也能得到比動(dòng)態(tài)規(guī)劃更好的燃油經(jīng)濟(jì)性。但是這些基于深度強(qiáng)化學(xué)習(xí)方法的能量管理策略會(huì)由于探索和環(huán)境擾動(dòng)等不確定性因素,導(dǎo)致最終的控制策略不穩(wěn)定,從而無法在實(shí)車上直接使用。

        ECMS策略可以將全局最優(yōu)問題轉(zhuǎn)化為瞬時(shí)優(yōu)化問題,簡化了能量管理問題的求解??紤]到在持續(xù)變化的工況中,難以獲取ECMS策略最佳等效因子的問題,綜合能量管理所需的控制策略特性,筆者提出了一種將深度強(qiáng)化學(xué)習(xí)算法和ECMS策略結(jié)合的分層控制策略。上層算法采用基于工況數(shù)據(jù)的深度強(qiáng)化學(xué)習(xí)方法來選擇最佳等效因子;下層算法基于等效燃油消耗最小的控制目標(biāo)來實(shí)現(xiàn)最優(yōu)功率分配。這種分層控制策略方法可以充分利用深度強(qiáng)化學(xué)習(xí)的探索性以及ECMS策略的魯棒性,從而提高混合動(dòng)力汽車的燃油經(jīng)濟(jì)性和能量控制策略的穩(wěn)定性。

        1 混合動(dòng)力系統(tǒng)建模

        強(qiáng)化學(xué)習(xí)的原理如圖1所示。基于強(qiáng)化學(xué)習(xí)的能量管理智能體學(xué)習(xí)過程為:1)在特定工況下,能量管理智能體生成動(dòng)作作用于混合動(dòng)力汽車的仿真模型;2)HEV環(huán)境計(jì)算狀態(tài)變化和獎(jiǎng)勵(lì)函數(shù);3)智能體在交互中改進(jìn)策略。本節(jié)將針對(duì)強(qiáng)化學(xué)習(xí)的交互仿真環(huán)境和混合動(dòng)力系統(tǒng)進(jìn)行建模。

        1.1 車輛準(zhǔn)靜態(tài)模型

        第三代Prius的傳動(dòng)系統(tǒng)結(jié)構(gòu)如圖2所示。傳動(dòng)系統(tǒng)包含3個(gè)驅(qū)動(dòng)裝置,分別是發(fā)動(dòng)機(jī)(ICE)、發(fā)電機(jī)(MG1)和驅(qū)動(dòng)電動(dòng)機(jī)(MG2);包含2個(gè)行星齒輪單元。符號(hào)S表示太陽輪,C表示行星架,R表示齒圈。發(fā)動(dòng)機(jī)將單向離合器與第一行星架相連,然后依次連接第一齒圈、減速器和差速器,從而驅(qū)動(dòng)車輛。發(fā)電機(jī)連接到第一行星排的太陽輪,調(diào)節(jié)發(fā)動(dòng)機(jī)的轉(zhuǎn)速。驅(qū)動(dòng)電動(dòng)機(jī)與第二行星排的太陽輪連接,行星架C2是固定的,驅(qū)動(dòng)電機(jī)經(jīng)過減速增扭后在齒圈處與發(fā)動(dòng)機(jī)實(shí)現(xiàn)轉(zhuǎn)矩耦合。

        根據(jù)驅(qū)動(dòng)力與外部阻力平衡的力學(xué)原則[15],車輛的動(dòng)力學(xué)模型表達(dá)式可以寫為

        {(F_w=F_a+F_r+F_g+F_f,@F_a=mv ˙=ma,@F_r=1/2 ρAC_D v^2,@F_g=mgsin(α),@F_f=μ_r mgcos(α)。)┤?? (1)

        式中:F_w為驅(qū)動(dòng)力;F_a為慣性力;F_r為空氣阻力;F_g為坡度阻力;F_f為滾動(dòng)阻力;a為加速度;ρ為空氣密度;A為迎風(fēng)面積;C_D為空氣阻力系數(shù);v為車輛相對(duì)速度;μ_r為滾動(dòng)阻尼系數(shù)。整車的主要結(jié)構(gòu)參數(shù)如表1所示。

        1.2 驅(qū)動(dòng)部件模型

        發(fā)動(dòng)機(jī)的萬有特性圖與電動(dòng)機(jī)的二維效率曲面圖分別如圖3(a)和圖3(b)所示。當(dāng)發(fā)動(dòng)機(jī)的需求功率P_e小于500 W時(shí),可以直接關(guān)閉發(fā)動(dòng)機(jī),相應(yīng)的油耗模型為

        m ˙_fuel={(G(P_e)@0)┤ (,P_e>500;@,P_e≤500。)?? (2)

        式中:m ˙_fuel表示燃油消耗率;G為插值查表的方法;P_e為發(fā)動(dòng)機(jī)功率。對(duì)于電機(jī)而言,所需電機(jī)功率P_m則為

        P_m={(T_m?ω_m/(G_m (T_m,ω_m))@T_m?ωm?G(T_m,ω_m))┤ (,P_m>0;@,Pm≤0。)????? (3)

        式中:ω_m表示電機(jī)轉(zhuǎn)速;T_m表示電機(jī)扭矩。

        1.3 電池模型

        采用一階等效電路模型來描述鎳氫電池的動(dòng)態(tài)特性,同時(shí)忽略溫度變化和電池老化的影響,電池的動(dòng)態(tài)方程可以描述為

        {(P_batt (t)=V_oc I_b (t)-r_int I_b 〖(t)〗^2,@I_b (t)=((V_oc-√(V_oc^2-4r_int P_m (t))))/(2r_int ),@x ˙_SOC=-(I_b (t))/Q_nom? 。)┤?? (4)

        式中:P_batt、I_b分別指電池的功率、電流;V_oc為開路電壓;r_int為電池內(nèi)阻;Q_nom指電池標(biāo)稱容量;x_SOC表示電池的荷電狀態(tài)。完整的電池模型參數(shù)如表2所示。

        2 深度強(qiáng)化學(xué)習(xí)分層能量管理策略

        本節(jié)闡述了將深度強(qiáng)化學(xué)習(xí)和ECMS策略相結(jié)合的分層混聯(lián)HEV能量管理方法。

        2.1 自適應(yīng)等效燃油消耗策略

        Paganelli[16]在1999年引入了等效燃油消耗最小的啟發(fā)式方法來求解能量管理問題,該方法后來受到了廣泛應(yīng)用。該啟發(fā)式方法的核心思想為:在充電和放電過程中電能的使用與燃油消耗相關(guān)聯(lián),將電能消耗轉(zhuǎn)化為油耗,總的瞬時(shí)當(dāng)量油耗為

        m ˙_(f,eqv) (t)=m ˙_f (t)+m ˙_ress (t), (5)

        式中:m ˙_(f,eqv)表示等效當(dāng)量油耗,g/s;m ˙_f (t)為實(shí)際發(fā)動(dòng)機(jī)燃油消耗量,g/s;m ˙_ress (t)電能消耗的等效油耗,g/s。

        m ˙_ress (t)=(s(t))/Q_lhv? P_batt (t)=K_eq (t)?P_batt (t),?? (6)

        式中:s(t)為虛擬燃油消耗因子;Q_lvh為汽油最低熱值,MJ/kg;P_batt為電池功率;K_eq (t)為等效因子。

        在自適應(yīng)等效燃油消耗策略中,等效因子可以在駕駛工況中作為荷電狀態(tài)的函數(shù)進(jìn)行不斷更新。這種自適應(yīng)的反饋調(diào)節(jié)可以很好地維持電池的荷電狀態(tài),但不能保證能量的最優(yōu)分配[17-18]。自適應(yīng)等效燃油消耗(adaptive-ECMS, A-ECMS)常用的等效因子懲罰函數(shù)為

        p(x_SOC)=1-[(x_SOC (t)-x_SOCref)/((x_SOCmax-x_SOCmin)/2)]^a。? (7)

        式中:x_SOCmax和x_SOCmin分別為電池荷電狀態(tài)的上限和下限。

        圖4為不同冪取值下的荷電狀態(tài)偏移懲罰函數(shù)。

        在已知等效因子的情況下,可采用式(8)直接搜索瞬時(shí)等效油耗最優(yōu)的發(fā)動(dòng)機(jī)功率點(diǎn),為

        π(P_eng^*)=min┬(π∈Π) [m ˙_(f,eqv) (t)=m ˙_f (t)+K_eq (t)?P_b],????? (8)

        式中:K_eq (t)=λ_DDPG?P(b_SOC)?F ?_C/η ?_t,λ_DDPG為需要學(xué)習(xí)得到的變量;P(b_SOC)表示在危險(xiǎn)荷電狀態(tài)下的懲罰系數(shù),它是嵌入到仿真環(huán)境當(dāng)中的;F ?_C表示平均燃油消耗,取235 g/(kW·h);η ?_t=η ?_char?η ?_dis表示平均充電與平均放電效率,即電能轉(zhuǎn)換效率,取值0.7。

        2.2 基于深度強(qiáng)化學(xué)習(xí)的等效因子獲取方法

        2.2.1 深度強(qiáng)化學(xué)習(xí)算法框架

        深度確定性策略梯度算法(deep deterministic policy gradient, DDPG)可以實(shí)現(xiàn)能量管理中連續(xù)動(dòng)作的輸出。該算法由2個(gè)獨(dú)立的深度神經(jīng)網(wǎng)絡(luò)構(gòu)成,是一種具有演員-評(píng)論家結(jié)構(gòu)的確定性策略梯度算法,用“演員”來選擇控制策略,用“評(píng)論家”來評(píng)估所采用的控制策略優(yōu)劣。

        “評(píng)論家”網(wǎng)絡(luò)是基于最優(yōu)動(dòng)作值函數(shù)Q^* (s,a)完成設(shè)計(jì)的。該動(dòng)作值函數(shù)的遞推關(guān)系為貝爾曼方程

        Q^* (s,a)=E┬(s^'~P) [r(s,a)+γ max┬(a^' ) Q^* (s^',a^')]Q^* (s,a)=E┬(s^' ), (9)

        式中:r為獎(jiǎng)勵(lì);γ為折扣因子;s^'指從環(huán)境中采樣得到的下一時(shí)刻狀態(tài)。

        若采用神經(jīng)網(wǎng)絡(luò)作為函數(shù)擬合器來逼近Q^* (s,a)函數(shù),那么就需要對(duì)參數(shù)?進(jìn)行不斷地學(xué)習(xí)和改進(jìn)。因此,可定義為貝爾曼均方誤差函數(shù):

        (L(?,D)=E┬((s,a,r,s^',d)~) [(Q_? (s,a)-(r+γ(1-d)max┬(a^' ) Q_? (s^',a^' 〖)))〗^2]=@E┬((s,a,r,s^',d)~) [(Q_? (s,a)-(r+γ(1-d)Q_(?_target ) (s^',μ(s^' 〖))))〗^2]。)??? (10)

        式(10)描述了參數(shù)化策略網(wǎng)絡(luò)對(duì)貝爾曼方程的逼近程度?!霸u(píng)論家”網(wǎng)絡(luò)更新的步驟為:先從經(jīng)驗(yàn)池中采樣,得到轉(zhuǎn)移數(shù)據(jù)對(duì)(s,a,r,s^',d);然后調(diào)用Adam優(yōu)化器對(duì)式(10)進(jìn)行優(yōu)化。

        DDPG中的“演員”通過學(xué)習(xí)一個(gè)確定性策略μ(s|θ^μ)來將“評(píng)論家”的打分進(jìn)行最大化,即最大化動(dòng)作值函數(shù)Q_? (s,a)。式(11)表示網(wǎng)絡(luò)參數(shù)的變化,并使用梯度上升方法來更新。

        Δθ=max┬θ? E┬(s~D) [Q_? (s,μ_θ (s))]。?? (11)

        2.2.2 狀態(tài)空間

        智能體與環(huán)境交互是基于狀態(tài)觀測(cè)完成的,環(huán)境為車輛仿真模型。在混合動(dòng)力汽車能量管理問題中,智能體通常采用3個(gè)參數(shù)作為狀態(tài)量[10],即:車速v_veh、加速度a_veh和電池的荷電狀態(tài)x_SOC,為進(jìn)一步降低燃油消耗,筆者增加了未來20 s的平均車速a_ave為狀態(tài)變量,狀態(tài)空間為

        S_imp=[v_veh,a_veh,x_SOC v_ave]。???? (12)

        2.2.3 動(dòng)作空間

        動(dòng)作空間at為

        a_t=λ_DDPG,? (13)

        式中,λ_DDPG∈[0,1],為分層策略中上層算法輸出的歸一化參數(shù)。

        2.2.4 獎(jiǎng)勵(lì)函數(shù)

        實(shí)時(shí)獎(jiǎng)勵(lì)函數(shù)是深度強(qiáng)化學(xué)習(xí)算法的重要組成,它會(huì)直接影響深度神經(jīng)網(wǎng)絡(luò)的參數(shù)更新。同時(shí)考慮到能量管理控制策略的目的是降低燃油消耗,提高車輛的燃油經(jīng)濟(jì)性,并且將電池荷電狀態(tài)x_SOC維持在安全范圍內(nèi),因此將實(shí)時(shí)獎(jiǎng)勵(lì)Rt定義為

        R_t=-∑_(t=0)^(T_f-1)?。??? (14)

        獎(jiǎng)勵(lì)函數(shù)由2部分組成:第一部分為m ˙_(fuel_t )瞬時(shí)燃油消耗率;第二部分是當(dāng)前時(shí)刻的電池荷電狀態(tài)與參考荷電狀態(tài)間的偏差,它代表了維持電池電量平衡的成本。C_1是荷電狀態(tài)偏移的懲罰因子,將其設(shè)置為常數(shù)。

        2.3 分層策略算法的實(shí)現(xiàn)流程

        ECMS的啟發(fā)式特性可以對(duì)能量管理的決策過程進(jìn)行簡化,從而在一維的搜索空間下進(jìn)行快速?zèng)Q策。但ECMS中的等效因子對(duì)于工況的變化較為敏感,如何確定最佳等效因子是ECMS方法中的難點(diǎn)。傳統(tǒng)的解決辦法是在標(biāo)準(zhǔn)工況下進(jìn)行多次仿真,離線計(jì)算特定工況下的最佳等效因子并在實(shí)際運(yùn)行過程中查表。這種方法不僅工作量巨大,而且在不同工況下的節(jié)油效果也相差較大。因此筆者提出了一種分層能量管理策略:上層采用無模型的強(qiáng)化學(xué)習(xí)方法——DDPG,通過學(xué)習(xí)的方法自適應(yīng)獲得最佳的等效因子;下層使用一維搜索來快速確定最佳的發(fā)動(dòng)機(jī)功率。該策略算法的完整實(shí)現(xiàn)流程如圖5所示。

        3 驗(yàn)證與討論

        為了驗(yàn)證等效燃油消耗最小策略和深度強(qiáng)化學(xué)習(xí)方法相結(jié)合的分層能量管理策略,筆者在Python中搭建了系統(tǒng)的仿真環(huán)境。設(shè)置電池的充放電區(qū)間為20%~80%,并將分層策略與全局優(yōu)化DP算法、基于規(guī)則的控制策略(rule-based,RULE)和直接控制發(fā)動(dòng)機(jī)功率的深度強(qiáng)化學(xué)習(xí)控制策略(power-DDPG,P-DDPG)分別進(jìn)行了對(duì)比試驗(yàn)。其中,分層策略(two level-DDPG,T-DDPG)可以分為三特征策略和四特征策略,分別簡寫為T3-DDPG和T4-DDPG。T4-DDPG在T3-DDPG的基礎(chǔ)上添加了未來車速信息作為第四特征量。最后采用重慶地區(qū)的實(shí)測(cè)工況作為測(cè)試集,來驗(yàn)證此分層策略對(duì)于工況的適應(yīng)性。

        3.1 算法參數(shù)設(shè)計(jì)與收斂分析

        深度強(qiáng)化學(xué)習(xí)方法DDPG包含了4個(gè)深度神經(jīng)網(wǎng)絡(luò),2個(gè)值函數(shù)網(wǎng)絡(luò)(“評(píng)論家”)和2個(gè)策略網(wǎng)絡(luò)(“演員”)。4個(gè)神經(jīng)網(wǎng)絡(luò)均包含3層全連接隱藏層,寬度分別為256、128、64。訓(xùn)練過程的超參數(shù)設(shè)置見表3所示。

        圖6為3種基于深度強(qiáng)化學(xué)習(xí)算法的智能體在NEDC工況下的訓(xùn)練過程。從圖中可以看出,相比于的P-DDPG算法,加入了ECMS底層算法的分層控制策略在不同種子設(shè)置下的表現(xiàn)更加穩(wěn)定,其中以T4-DDPG策略應(yīng)對(duì)擾動(dòng)的穩(wěn)定性表現(xiàn)最好。從油耗上看,添加了未來20 s內(nèi)平均車速信息的T4-DDPG策略所對(duì)應(yīng)的燃油消耗最低,為3.65 L·(100 km)-1。

        3.2 電池充放電荷電狀態(tài)軌跡分析

        分層控制策略中,下層算法采用的是ECMS來實(shí)現(xiàn)最優(yōu)功率的分配,所以等效因子是下層算法的重要參數(shù)。針對(duì)傳統(tǒng)的常等效因子進(jìn)行WLTC工況下的ECMS策略研究分析,得到如圖7所示的荷電狀態(tài)軌跡。從圖中不同常等效因子下對(duì)應(yīng)的荷電狀態(tài)軌跡可以看出,不論如何對(duì)常等效因子的數(shù)值進(jìn)行調(diào)整,該方法在固定工況下的表現(xiàn)都會(huì)與DP相差較大,其表現(xiàn)不能達(dá)到令人滿意的水平,因此需要采用基于學(xué)習(xí)的策略對(duì)等效因子進(jìn)行實(shí)時(shí)調(diào)整。

        圖8為NEDC工況下的T3-DDPG策略、T4-DDPG策略和A-ECMS策略的等效因子的學(xué)習(xí)情況。從圖中可以看出,A-ECMS策略下的等效因子經(jīng)過荷電狀態(tài)偏移矯正后,一直維持在一個(gè)較高的水平,導(dǎo)致用電成本較高。而無論是三參數(shù)還是四參數(shù)的智能體,在平均車速較低的工況中會(huì)給電能一個(gè)較小的等效因子,用電成本更低。所以車輛傾向于使用電能,因而在低速區(qū)使用純電模式。當(dāng)平均車速較高時(shí),智能體傾向于輸出更高的等效因子,導(dǎo)致用電的成本增加;在此時(shí)采用發(fā)動(dòng)機(jī)和電池的混合驅(qū)動(dòng)模式更佳。而隨著車速進(jìn)一步提高,電量的成本進(jìn)一步升高,與此同時(shí)發(fā)動(dòng)機(jī)的功率會(huì)變得更高。相較于T3-DDPG策略,添加了未來車速信息的T4-DDPG策略表現(xiàn)出更好的魯棒性,對(duì)于車速變化較大的場景,它能夠降低等效因子的抖震。

        圖9為分層控制策略和其他控制策略在雙NEDC工況下電池荷電狀態(tài)的變化曲線。從圖中可以看出,基于規(guī)則的控制策略隨著驅(qū)動(dòng)功率的突然增加,其荷電狀態(tài)有較為明顯的波動(dòng);而P-DDPG策略在雙NEDC工況下,發(fā)生了電池荷電狀態(tài)超出預(yù)設(shè)范圍的情況,大量的低功率路段,導(dǎo)致了智能體在工況中學(xué)習(xí)策略失敗;對(duì)于A-ECMS策略而言,由于增加了一個(gè)等效因子對(duì)荷電狀態(tài)的偏移校正系數(shù),可以將電池荷電狀態(tài)維持在預(yù)設(shè)范圍;表現(xiàn)最好的是T4-DDPG分層策略,其荷電狀態(tài)軌跡與基于DP策略的性能表現(xiàn)最為吻合。

        3.3 能量管理策略節(jié)油效果分析

        為了驗(yàn)證分層控制策略的節(jié)油效果,筆者在大量標(biāo)準(zhǔn)工況下進(jìn)行了仿真分析。圖10為不同工況下各控制策略的油耗表現(xiàn)。從圖中可以看出,T4-DDPG策略的節(jié)油效果與動(dòng)態(tài)規(guī)劃的節(jié)油效果最為接近的。與P-DDPG相比,T4-DDPG策略將燃油經(jīng)濟(jì)性提高了3.05%~8.22%;與基于規(guī)則的能量管理策略相比,T4-DDPG將燃油經(jīng)濟(jì)性提升了20.83%~32.66%;與A-ECMS相比,T4-DDPG策略將燃油經(jīng)濟(jì)性提高了5.81%~16.18%。

        為了驗(yàn)證該分層控制策略對(duì)未知工況的適應(yīng)性,筆者采用重慶地區(qū)的實(shí)測(cè)道路工況作為所提出策略的測(cè)試集。測(cè)試集中由于實(shí)測(cè)的車速信息存在噪聲,所以對(duì)其進(jìn)行滑動(dòng)平均和濾波處理。處理后的測(cè)試工況數(shù)據(jù)集如圖11所示。

        圖12為分層控制策略在實(shí)際道路工況下的表現(xiàn),紅色曲線為測(cè)試表現(xiàn),藍(lán)色曲線為訓(xùn)練表現(xiàn)。其中基于標(biāo)準(zhǔn)工況訓(xùn)練得到的T4-DDPG策略在此實(shí)測(cè)工況下的百公里油耗為4.04 L,基于標(biāo)準(zhǔn)工況訓(xùn)練得到的T4-DDPG策略在實(shí)際道路的百公里油耗為3.98 L,兩者差值很小。綜上所述,該分層控制策略對(duì)未知工況的適應(yīng)性較強(qiáng),可適用于不同的工況。

        4 結(jié)束語

        分層控制策略不僅可以解決傳統(tǒng)ECMS策略中等效因子難以確定的問題,而且還能解決深度強(qiáng)化學(xué)習(xí)方法中由于探索和干擾帶來的不穩(wěn)定性問題。在多種標(biāo)準(zhǔn)工況下的仿真結(jié)果表明,該分層控制策略中的智能體能夠?qū)W習(xí)到一個(gè)良好的控制策略,在所有工況下車輛的電池荷電狀態(tài)都能滿足約束條件。除此以外,筆者所提出的分層控制策略算法具有無模型的特性,所以能夠遷移至其他構(gòu)型的混合動(dòng)力汽車進(jìn)行能量管理策略的開發(fā)。最后,仿真結(jié)果進(jìn)一步表明了經(jīng)過大量工況訓(xùn)練后的智能體對(duì)各種不同的未知工況具有較強(qiáng)的適應(yīng)性,使得該分層控制策略具有非常重要的實(shí)際應(yīng)用價(jià)值。

        參考文獻(xiàn)

        [1]? Onori S, Serrao L, Rizzoni G. Hybrid electric vehicles: energy management strategies[M]. London: Springer London, 2016.

        [2]? Scordia J, Renaudin M D, Trigui R, et al. Global optimisation of energy management laws in hybrid vehicles using dynamic programming[J]. International Journal of Vehicle Design, 2005, 39(4): 349.

        [3]? Liu J M, Peng H E. Control optimization for a power-split hybrid vehicle[C]//2006 American Control Conference. IEEE, 2006: 6.

        [4]? Musardo C, Rizzoni G, Guezennec Y, et al. A-ECMS: an adaptive algorithm for hybrid electric vehicle energy management[J]. European Journal of Control, 2005, 11(4/5): 509-524.

        [5]? Serrao L, Onori S, Rizzoni G. ECMS as a realization of Pontryagins minimum principle for HEV control[C]//2009 American Control Conference. IEEE, 2009: 3964-3969.

        [6]? Rezaei A. An optimal energy management strategy for hybrid electric vehicles[D]. Houghton, Michigan: Michigan Technological University, 2017.

        [7]? Sun C, Sun F C, He H W. Investigating adaptive-ECMS with velocity forecast ability for hybrid electric vehicles[J]. Applied Energy, 2017, 185: 1644-1653.

        [8]? Hu X S, Liu T, Qi X W, et al. Reinforcement learning for hybrid and plug-In hybrid electric vehicle energy management: recent advances and prospects[J]. IEEE Industrial Electronics Magazine, 2019, 13(3): 16-25.

        [9]? Zhao P, Wang Y Z, Chang N, et al. A deep reinforcement learning framework for optimizing fuel economy of hybrid electric vehicles[C]//2018 23rd Asia and South Pacific Design Automation Conference (ASP-DAC). IEEE, 2018: 196-202.

        [10]? Lian R, Peng J, Wu Y, et al. Rule-interposing deep reinforcement learning based energy management strategy for power-split hybrid electric vehicle[J]. Energy, 2020, 197: 117297.

        [11]? Hu Y E, Li W M, Xu K, et al. Energy management strategy for a hybrid electric vehicle based on deep reinforcement learning[J]. Applied Sciences, 2018, 8(2): 187.

        [12]? Wang Y, Tan H C, Wu Y K, et al. Hybrid electric vehicle energy management with computer vision and deep reinforcement learning[J]. IEEE Transactions on Industrial Informatics, 2021, 17(6): 3857-3868.

        [13]? Qi X W, Luo Y D, Wu G Y, et al. Deep reinforcement learning-based vehicle energy efficiency autonomous learning system[C]//2017 IEEE Intelligent Vehicles Symposium (IV). IEEE, 2017: 1228-1233.

        [14]? Zhang Z D, Zhang D X, Qiu R C. Deep reinforcement learning for power system applications: an overview[J]. CSEE Journal of Power and Energy Systems, 2019, 6(1): 213-225.

        [15]? 余志生. 汽車?yán)碚揫M]. 5版. 北京: 機(jī)械工業(yè)出版社, 2009.

        Yu Z S. Automobile theory[M]. 5th ed. Beijing: China Machine Press, 2009.(in Chinese)

        [16]? Paganelli G. Conception et commande dune cha?ne de traction pour véhicule hybride parallèle thermique et électrique[D]. Famars: Université de Valenciennes, 1999.

        [17]? Paganelli G. A general formulation for the instantaneous control of the power split in charge-sustaining hybrid electric vehicles[C]// Proceedings of AVEC 2000, 5th Int. Symp. on Advanced Vehicle Control. 2000.

        [18]? Onori S, Serrao L, Rizzoni G. Adaptive equivalent consumption minimization strategy for hybrid electric vehicles[C]//Proceedings of ASME 2010 Dynamic Systems and Control Conference. IEEE, 2011: 499-505.

        (編輯? 詹燕平)

        久久久久国产一区二区三区| 青青草手机在线免费观看视频| 脱了老师内裤猛烈进入| 亚洲av成人中文无码专区| 97视频在线播放| 国产三级精品三级在线观看粤语| 久久av粉嫩一区二区| 欧美成妇人吹潮在线播放| 韩国19禁主播深夜福利视频| 国产午夜精品久久久久| 久久精品国产亚洲av麻豆床戏 | 日韩人妻有码中文字幕| 女同同志熟女人妻二区| 999国内精品永久免费观看| 亚洲自偷自拍另类图片小说| 国产av区亚洲av毛片| 亚洲午夜狼人综合影院| 久久久久久国产精品无码超碰动画 | 爆乳午夜福利视频精品| 国产精品一区久久综合| 亚洲日韩国产欧美一区二区三区| 久久99国产乱子伦精品免费| 亚洲24小时在线免费视频网站| 日韩一区二区三区久久精品| 天天综合网在线观看视频| 亚洲高清无码第一| 久久精品日韩免费视频| 久久人人爽人人爽人人片av高请 | 亚洲精品国产一区二区| 国产精品熟妇视频国产偷人| 久久午夜伦鲁鲁片免费| 久久久精品人妻一区二区三区妖精 | 中文无码一区二区三区在线观看| 99久久精品免费看国产情侣| 永久免费在线观看蜜桃视频| 91超精品碰国产在线观看| 老师脱了内裤让我进去| 99福利影院| 一区二区三区国产内射| 国产在线精品一区在线观看| 久久狠色噜噜狠狠狠狠97|