虞志浩 趙又群 潘陳兵,2 何鯤鵬,3 李丹陽
(1.南京航空航天大學(xué),南京 210016;2.安徽瑞氫動力科技有限公司,蕪湖 241002;3.奇瑞新能源汽車股份有限公司,蕪湖 241000)
主題詞:氫燃料電池混合動力汽車 優(yōu)先經(jīng)驗(yàn)采樣 雙延遲深度確定性策略梯度 連續(xù)控制
氫燃料具有高能量密度和零污染等優(yōu)點(diǎn),以氫能源為動力的氫燃料電池汽車受到了越來越多的關(guān)注[1]。但燃料電池存在瞬態(tài)響應(yīng)慢和無法回收制動能量等缺點(diǎn),通常需要結(jié)合其他電源來滿足車輛的行駛需求[1-4]。因此,有效的能量管理系統(tǒng)(Energy Management System,EMS)對不同電源能量的合理分配尤為重要。
目前,能量管理策略主要分為基于規(guī)則的能量管理策略和基于優(yōu)化的能量管理策略[5]。其中,基于規(guī)則的能量管理策略通常根據(jù)車輛行駛條件和車輛動力系統(tǒng)設(shè)計(jì),簡單實(shí)用[6],但一般不具有最優(yōu)性,較為依賴專家經(jīng)驗(yàn)[7]?;谪悹柭˙ellman)理論[8]的動態(tài)規(guī)劃(Dynamic Programming,DP)方法作為最具代表性的全局優(yōu)化算法,必須基于駕駛周期的先驗(yàn)信息進(jìn)行優(yōu)化求解,對不可預(yù)測和復(fù)雜駕駛條件的適應(yīng)性較差[9]。
隨著人工智能技術(shù)的快速發(fā)展,強(qiáng)化學(xué)習(xí)在混合動力汽車能量管理領(lǐng)域得到了廣泛關(guān)注,因其具有自我適應(yīng)、在線學(xué)習(xí)、試錯(cuò)和自我選擇等特點(diǎn)而逐步成為氫燃料電池混合動力汽車能量管理的一種有效方法[10-11]。Q學(xué)習(xí)算法是強(qiáng)化學(xué)習(xí)領(lǐng)域的著名算法,Reddy 等[12]采用Q 學(xué)習(xí)算法來保持鋰離子電池荷電狀態(tài)(State Of Charge,SOC)的穩(wěn)定性,提高了混合動力系統(tǒng)的效率。然而,Q學(xué)習(xí)算法在連續(xù)或多維狀態(tài)空間中會大幅增加迭代計(jì)算次數(shù)。Wu等[13]進(jìn)一步將深度Q學(xué)習(xí)算法應(yīng)用于混合動力電動汽車的能量管理策略,與Q學(xué)習(xí)算法相比,該算法在模擬時(shí)間和收斂速度方面具有更好的性能,但其控制量需要降維和離散處理,進(jìn)而使得控制精度下降。針對控制量離散的問題,Zhang 等[14]提出了一種基于深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的能量管理策略,進(jìn)一步提高了燃料經(jīng)濟(jì)性,但該策略存在動作值過優(yōu)估計(jì)的現(xiàn)象,進(jìn)而導(dǎo)致訓(xùn)練不穩(wěn)定等問題。
針對上述問題,同時(shí)為進(jìn)一步提高車輛燃料經(jīng)濟(jì)性、改善電池SOC 保持效果,本文提出基于優(yōu)先經(jīng)驗(yàn)采樣的雙延遲深度確定性策略梯度(Twin Delayed Deep Deterministic policy gradient with Prioritized Experience Replay,TD3-PER)氫燃料電池混合動力汽車能量管理策略。采用雙延遲深度確定性策略梯度(Twin Delayed Deep Deterministic policy gradient,TD3)算法防止訓(xùn)練過優(yōu)估計(jì)并更精準(zhǔn)地進(jìn)行連續(xù)控制,采用優(yōu)先經(jīng)驗(yàn)采樣(Prioritized Experience Replay,PER)算法在獲得更好優(yōu)化性能的基礎(chǔ)上加速策略的訓(xùn)練。
本文所研究的燃料電池汽車動力系統(tǒng)型式為并聯(lián)式,即燃料電池和鋰離子電池分別通過DC/DC變換器和DC/AC 變換器與功率總線相連,2種動力源均可單獨(dú)為驅(qū)動電機(jī)供電。動力傳動系統(tǒng)由燃料電池系統(tǒng)、鋰離子電池、驅(qū)動電機(jī)、DC/DC變換器、DC/AC變換器、主減速器等組成,具體結(jié)構(gòu)如圖1所示,整車主要參數(shù)如表1所示。
圖1 氫燃料電池汽車動力系統(tǒng)構(gòu)型
燃料電池系統(tǒng)在通過單向DC/DC 變換器后與總線相連,而不是直接與總線連接,避免了燃料電池系統(tǒng)電壓因負(fù)載變化受到影響,對于延長燃料電池系統(tǒng)使用壽命及提高其效率具有良好的效果。通常,為降低功率相同時(shí)的電流損耗,燃料電池系統(tǒng)的輸出電壓會低于總線電壓,所以DC/DC 變換器一般為升壓變換器。在功率波動相同時(shí),低壓側(cè)電壓波動更為平緩,因此有利于燃料電池系統(tǒng)工作效率的提高。而鋰電池由于其電壓波動允許范圍較大,故可直接將其與總線并聯(lián)。此系統(tǒng)構(gòu)型兼顧了結(jié)構(gòu)簡單與可靠性,具有很強(qiáng)的可控性,已得到廣泛應(yīng)用[14],滿足本文要求。
在工況已知時(shí),總需求功率Pr可由車輛的動力學(xué)平衡方程計(jì)算得出:
式中,M為整車總質(zhì)量;g、f、v分別為重力加速度、滾動阻力系數(shù)和車速;α=0為道路坡度;ρ為空氣密度;Af為迎風(fēng)面積;CD為空氣阻力系數(shù);δ=1 為質(zhì)量系數(shù);a為車輛加速度;Preq、Pm、Pfc、Pbatt分別為車輛的驅(qū)動功率、電機(jī)需求功率、燃料電池和鋰離子電池的輸出功率;ηmotor、ηfc分別為電機(jī)的效率和燃料電池的效率。
氫燃料電池組是燃料電池混合動力汽車的主要?jiǎng)恿υ矗ㄟ^電化學(xué)反應(yīng)將化學(xué)能轉(zhuǎn)化為電能。受一些部件的啟動特性和物理特性影響,氫燃料電池組在低功率范圍內(nèi)的效率較低,而在高功率范圍內(nèi)效率仍會降低。氫耗Cfc和燃料電池效率ηfc的計(jì)算方程為:
式中,Ncell為氫燃料電池組中電池的數(shù)量;M(H2)=2 g/mol為氫氣的摩爾質(zhì)量;F為達(dá)拉第常數(shù);Istack為燃料電池電流;λ=1.05 為氫過量比;m為氫的質(zhì)量變化量;Lhv=120 mJ/kg為氫的熱值。
能量管理策略對燃料電池組的壽命具有重要影響[15],包括催化劑損失、燃料滲透和質(zhì)子交換膜降解等方面。其中,燃料電池組降解率直接關(guān)系到電壓的衰減,Pu等[16]提出了單個(gè)燃料電池的電壓退化模型。燃料電池退化經(jīng)驗(yàn)公式為:
式中,Dfc為燃料電池退化率;t1、t2分別為高負(fù)荷、低負(fù)荷運(yùn)行時(shí)間;k1、k2、k3分別為高負(fù)荷、低負(fù)荷和負(fù)荷變化引起的退化率;Phigh、Plow分別為燃料電池組輸出功率的最大值和最小值;Pt、Pt+1分別為燃料電池組的即時(shí)輸出功率和下一時(shí)刻的輸出功率。
鋰離子電池具有能量密度高、自放電率低和壽命長等優(yōu)點(diǎn),是燃料電池混合動力汽車的理想輔助電源。鋰離子電池采用Rint內(nèi)阻等效電路模型:
式中,Pbatt(t)、Voc(t)、R0、I(t)分別為鋰離子電池的功率、開路電壓、內(nèi)阻和電流;SSOC(t)為電池的荷電狀態(tài);Q0、Q分別為鋰離子電池的初始容量和額定容量。
為了更好地反映車輛在行駛過程中的燃料消耗量,鋰離子電池當(dāng)量氫消耗量Cbatt可表示為:
式中,ηDC=0.9為DC/DC變換器效率;ΔH=240 kJ/mol為氫的低熱值;η1=0.9為鋰離子電池的放電、充電效率。
TD3 是由Scott Fujimoto 等人在DDPG 算法基礎(chǔ)上改進(jìn)得到的一種用于解決連續(xù)控制問題的在線(On-Line)異策(Off-Policy)式深度強(qiáng)化學(xué)習(xí)算法,深度強(qiáng)化學(xué)習(xí)框架如圖2所示。
圖2 深度強(qiáng)化學(xué)習(xí)框架
TD3 算法是演員-評論家(Actor-Critic,AC)框架下的一種確定性深度強(qiáng)化學(xué)習(xí)算法,其中策略網(wǎng)絡(luò)(Actor)以車輛的狀態(tài)作為輸入并根據(jù)網(wǎng)絡(luò)參數(shù)輸出控制動作,評價(jià)網(wǎng)絡(luò)(Critic)用于評價(jià)策略網(wǎng)絡(luò)所執(zhí)行動作的優(yōu)劣。TD3 算法能同時(shí)處理連續(xù)動作空間和策略值函數(shù)過優(yōu)估計(jì)的問題,圖3所示為TD3算法框架。
圖3 TD3算法框架
TD3算法中包括6個(gè)網(wǎng)絡(luò),分別是Actor網(wǎng)絡(luò)μ(·|θμ)、Critic1 網(wǎng)絡(luò)、Critic2 網(wǎng)絡(luò)、Actor 目標(biāo)網(wǎng)絡(luò)、Critic1 目標(biāo)網(wǎng)絡(luò)、Critic2 目標(biāo)網(wǎng)絡(luò)。TD3算法建立了2個(gè)獨(dú)立的Critic網(wǎng)絡(luò),在計(jì)算目標(biāo)值時(shí)取二者中的較小值,從而抑制網(wǎng)絡(luò)過估計(jì)問題:
式中,Rt為t時(shí)刻即時(shí)獎(jiǎng)勵(lì);γ為折扣因子;yt為累計(jì)獎(jiǎng)勵(lì);St+1為(t+1)時(shí)刻狀態(tài);A為加入噪聲后的目標(biāo)動作。
確定性策略存在一個(gè)問題,即會過度擬合以減小價(jià)值估計(jì)中的峰值。當(dāng)更新Critic 網(wǎng)絡(luò)時(shí),使用確定性策略的學(xué)習(xí)目標(biāo)極易受到函數(shù)逼近誤差的影響,從而導(dǎo)致目標(biāo)估計(jì)的方差偏大,估計(jì)值不準(zhǔn)確。這種誘導(dǎo)方差可以通過正則化來減小,在實(shí)際操作時(shí)為向目標(biāo)動作中添加服從截?cái)嗾龖B(tài)分布的噪聲ε:
式中,c為截?cái)嘀?;σ為?biāo)準(zhǔn)差。
將式(6)代入貝爾曼方程,計(jì)算損失函數(shù):
式中,M為Critic網(wǎng)絡(luò)更新周期;θQk為Critic網(wǎng)絡(luò)的權(quán)重參數(shù);At為t時(shí)刻動作。
目標(biāo)函數(shù)為:
式中,θμ為Actor 網(wǎng)絡(luò)的權(quán)重參數(shù);Eπ為執(zhí)行策略π得到的期望回報(bào)。
Critic 網(wǎng)絡(luò)的權(quán)重參數(shù)θQk通過梯度下降法最小化損失函數(shù)L(θQk)來更新:
式中,?為權(quán)重參數(shù)的梯度;E為期望回報(bào)。
Actor 網(wǎng)絡(luò)參數(shù)θμ的在線更新通過梯度上升法使Q值關(guān)于θμ迭代增加:
式中,N為樣本數(shù)量;π為執(zhí)行策略。
由于Actor網(wǎng)絡(luò)通過最大化累積期望回報(bào)來更新,它需要利用Critic網(wǎng)絡(luò)進(jìn)行評估。如果Critic網(wǎng)絡(luò)非常不穩(wěn)定,則Actor網(wǎng)絡(luò)也會出現(xiàn)振蕩。因此,可使Critic網(wǎng)絡(luò)的更新頻率高于Actor網(wǎng)絡(luò)的更新頻率,即等待Critic網(wǎng)絡(luò)更加穩(wěn)定后再幫助Actor網(wǎng)絡(luò)更新,通過延遲更新(Delayed Update)的方式保證Actor網(wǎng)絡(luò)的訓(xùn)練更加穩(wěn)定。
目標(biāo)網(wǎng)絡(luò)的更新采用軟更新方式,引入學(xué)習(xí)率τ,將舊的目標(biāo)網(wǎng)絡(luò)參數(shù)和新的對應(yīng)網(wǎng)絡(luò)參數(shù)進(jìn)行加權(quán)平均,然后賦值給目標(biāo)網(wǎng)絡(luò):
為使網(wǎng)絡(luò)訓(xùn)練速度更快、效果更好,本文利用PER算法,并結(jié)合訓(xùn)練經(jīng)驗(yàn)賦予一定的權(quán)重,如在交互過程中對表現(xiàn)較差的片段賦予更高權(quán)重,使這些片段被網(wǎng)絡(luò)重新學(xué)習(xí)的概率更高,從而大幅提高模型的學(xué)習(xí)效率。本文通過時(shí)序差分誤差(Temporal Difference error,TDerror)的絕對值|σ|對片段的重要性進(jìn)行表征,|σ|越大,表示該片段的重要程度越高:
式中,Q′(St+1,At+1)為根據(jù)(t+1)時(shí)刻的狀態(tài)值St+1、動作值A(chǔ)t+1和網(wǎng)絡(luò)參數(shù)θQ′得到的目標(biāo)Q網(wǎng)絡(luò)的Q值;Q(St,At)為根據(jù)t時(shí)刻的狀態(tài)值St、動作值A(chǔ)t和網(wǎng)絡(luò)參數(shù)θQ得到的目標(biāo)Q網(wǎng)絡(luò)的Q值。
將經(jīng)驗(yàn)樣本依據(jù)|σ|排序,得到樣本m的序列r(m),進(jìn)而獲得優(yōu)先級指標(biāo)Dm:
然而,直接采用上述采樣方式會造成貪婪抽樣,使得初始|σ|較小時(shí)在較長時(shí)間段內(nèi)不被抽樣,以及|σ|較大時(shí)被高頻重復(fù)抽樣等問題,繼而影響樣本多樣性。針對此問題,本文采用貪婪抽樣與均勻采樣相結(jié)合的方式,設(shè)定經(jīng)驗(yàn)池中每個(gè)樣本m的采樣概率P(m)為:
式中,Dm為第m個(gè)樣本的優(yōu)先級指標(biāo);α為超參數(shù),均勻抽樣時(shí)α=0,貪婪抽樣時(shí)α=1,2 種采樣結(jié)合時(shí)α∈(0,1);V為樣本池大小。
另一方面,使用PER 算法后,可能導(dǎo)致樣本分布改變,進(jìn)而使模型收斂到不同的值。針對此問題,本文引入重要性采樣,使每個(gè)樣本以不同概率被選取,并在提升訓(xùn)練速度的基礎(chǔ)上,保障對梯度下降的相同影響,從而解決模型收斂的問題。重要性采樣中樣本m的權(quán)重Wm為:
式中,N為經(jīng)驗(yàn)池中的樣本數(shù)量;β∈[0,1]為超參數(shù),用來表征PER算法對收斂結(jié)果的影響程度,β=1時(shí)PER算法對收斂結(jié)果無任何影響。
本文選取車速v、車輛加速度a和電池荷電狀態(tài)SSOC作為狀態(tài)變量,即St={v,a,SSOC},動作變量At為燃料電池系統(tǒng)輸出功率。文獻(xiàn)[17]揭示了輸出功率波動會極大地影響燃料電池的壽命,為了最大限度地減少氫消耗,防止鋰離子電池的過度充電和過度放電,并延長燃料電池的壽命,本文將獎(jiǎng)勵(lì)函數(shù)定義為:
式中,χ、β、ω分別為氫耗量、鋰電子電池SOC維持、燃料電池系統(tǒng)輸出功率變化的權(quán)重;SSOCref為SOC 的參考值(本文取0.65)。
氫燃料電池汽車為能量管理策略中的環(huán)境,智能體根據(jù)汽車狀態(tài)St和智能體中的策略π*在每一步為車輛選擇一個(gè)動作At,車輛反饋即時(shí)獎(jiǎng)勵(lì)Rt和下一刻狀態(tài)St+1。將(St,At,Rt,St+1)存入經(jīng)驗(yàn)池(Replay Buffer),形成歷史數(shù)據(jù),經(jīng)驗(yàn)池的使用可以有效消除相鄰狀態(tài)間的相關(guān)性。為提高網(wǎng)絡(luò)的收斂速度和訓(xùn)練效果,采用優(yōu)先經(jīng)驗(yàn)采樣的方式從經(jīng)驗(yàn)池中抽取歷史數(shù)據(jù)在智能體的網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,同時(shí),智能體在與環(huán)境的交互中不斷調(diào)整網(wǎng)絡(luò)權(quán)重得到最優(yōu)策略π*。
為了驗(yàn)證TD3-PER算法在燃料電池混合動力車輛的燃料消耗、鋰電子電池SOC維持和減少輸出功率波動方面的性能,在新歐洲駕駛循環(huán)(New European Driving Cycle,NEDC)工況下應(yīng)用TD3-PER 算法進(jìn)行仿真分析,并將其與基于DDPG 算法的能量管理策略進(jìn)行對比。TD3-PER算法的主要超參數(shù)如表2所示。
表2 TD3-PER算法主要超參數(shù)
在深度強(qiáng)化學(xué)習(xí)的迭代過程中,將獎(jiǎng)勵(lì)均值作為收斂標(biāo)準(zhǔn)和性能評價(jià)指標(biāo)。訓(xùn)練初期,智能體會不斷探索未知的環(huán)境以獲得更好的訓(xùn)練效果;隨著訓(xùn)練的進(jìn)行,智能體會更傾向于選擇獎(jiǎng)勵(lì)更高的動作,使得獎(jiǎng)勵(lì)均值逐漸收斂。2 種算法的獎(jiǎng)勵(lì)均值如圖4 所示,基于TD3-PER 算法與基于DDPG 算法的能量管理策略分別在第360步和第620步左右收斂,并且TD3-PER算法的獎(jiǎng)勵(lì)均值波動更小,訓(xùn)練效果更為穩(wěn)定??梢钥闯觯cDDPG算法相比,TD3-PER算法具有更快的收斂速度,且訓(xùn)練效果更好。因此,TD3-PER算法可以通過較少的迭代,快速優(yōu)化燃料消耗量并緩解燃料電池堆的功率波動。
圖4 TD3-PER算法和DDPG算法的獎(jiǎng)勵(lì)均值
NEDC 工況車速如圖5 所示,2 種策略燃料電池系統(tǒng)輸出功率、鋰離子電池輸出功率和鋰離子電池SOC的比較結(jié)果如圖6所示,不同策略下的燃料經(jīng)濟(jì)性與平均功率波動差異對比結(jié)果如表3所示。
表3 不同策略下的燃料經(jīng)濟(jì)性與平均功率波動對比
圖5 NEDC工況車速
圖6 TD3-PER算法和DDPG算法下燃料電池系統(tǒng)輸出功率、鋰離子電池輸出功率及鋰離子電池SOC
由表3可知,將整個(gè)循環(huán)工況氫耗總量等比例換算為百公里氫耗量后,TD3-PER策略相較于DDPG策略百公里氫耗量降低了7.56%,有效提高了燃料經(jīng)濟(jì)性。由于在設(shè)置獎(jiǎng)勵(lì)函數(shù)時(shí)將燃料電池功率變化也考慮在內(nèi),在對策略進(jìn)行優(yōu)化時(shí),TD3-PER算法能在保證動力性的同時(shí)限制燃料電池功率的劇烈變化,從圖6a中可以看出,TD3-PER策略的燃料電池系統(tǒng)功率輸出相較于DDPG策略更為平緩,同時(shí)從表3的對比結(jié)果可以看出,TD3-PER策略平均功率波動相比DDPG策略降低了6.49%,這表明基于TD3-PER算法的能量管理策略能夠有效降低動態(tài)加載工況對燃料電池使用壽命的影響,從而提高車輛耐久性。
由圖6b可知,鋰離子電池作為二次電源,在高車輛負(fù)載和需求功率瞬時(shí)變化時(shí)可快速響應(yīng),實(shí)現(xiàn)緩解功率波動并延長燃料電池組壽命的作用。本文在設(shè)置獎(jiǎng)勵(lì)函數(shù)時(shí)還考慮了鋰離子電池SOC的維持因子,以保證較為穩(wěn)定的鋰離子電池工作狀態(tài)。由圖6c 可以看出,TD3-PER策略的SOC曲線在整個(gè)工況區(qū)間內(nèi)波動相較于DDPG策略更為平緩,有效抑制了鋰離子電池過充或過放,能夠提高鋰離子電池壽命。
為了驗(yàn)證不同算法在NEDC 工況下的燃料電池壽命和鋰電池壽命,本文分別以燃料電池的累積退化與鋰電池的老化作為燃料電池壽命與鋰電池壽命的評估指標(biāo),對TD3-PER 算法和DDPG 算法下的壽命進(jìn)行了比較,結(jié)果如圖7所示。
圖7 TD3-PER算法和DDPG算法下燃料電池和鋰電池壽命
在NEDC 工況循環(huán)結(jié)束時(shí):基于TD3-PER 算法和DDPG 算法的燃料電池累計(jì)退化分別為0.002 29%和0.002 62%,基于TD3-PER 算法的燃料電池累計(jì)退化比DDPG 算法低12.6%;基于TD3-PER 算法和DDPG 算法的鋰電池老化分別為0.018 9%和0.021 5%,基于TD3-PER算法的鋰電池老化比DDPG算法低12.1%。由此可以看出,相比于DDPG 算法,TD3-PER 算法在提高燃料電池壽命及鋰電池壽命方面表現(xiàn)更好。
本文提出了一種基于TD3-PER算法的氫燃料電池混合動力汽車能量管理策略,并在NEDC工況下對基于TD3-PER算法的能量管理策略在燃料電池混合動力車輛的燃料經(jīng)濟(jì)性、鋰電子電池SOC維持和減少輸出功率波動方面的性能,得到以下結(jié)論:
a.與DDPG算法相比,TD3-PER算法能在更短的訓(xùn)練步數(shù)內(nèi)完成收斂,且訓(xùn)練效果更為穩(wěn)定,在一定程度上提高了優(yōu)化效率及效果。
b.TD3-PER 策略相較于DDPG 策略百公里氫耗量降低了7.56%,有效提高了燃料經(jīng)濟(jì)性。
c.TD3-PER策略的SOC在整個(gè)工況區(qū)間內(nèi)波動相較于DDPG策略更為平緩,有效抑制了鋰離子電池過充或過放,提高了鋰離子電池壽命。同時(shí),TD3-PER策略平均功率波動相比DDPG策略降低了6.49%,表明基于TD3-PER算法的能量管理策略能夠有效降低動態(tài)加載工況對于燃料電池使用壽命的影響,從而提高車輛耐久性。
為使TD3-PER算法更好地適應(yīng)復(fù)雜的行駛工況,下一步工作將對在線更新網(wǎng)絡(luò)參數(shù)開展研究,以進(jìn)一步提高TD3-PER算法對復(fù)雜工況的適應(yīng)性和整車燃料經(jīng)濟(jì)性。