張家金,林歆悠
(福州大學(xué)機(jī)械工程及自動(dòng)化學(xué)院,福建 福州 350108)
不當(dāng)?shù)哪芰抗芾矸峙淇赡軙?huì)加大動(dòng)力電池的使用成本,加速電池壽命衰退,從而增加插電式混合動(dòng)力汽車(chē)(plug-in hybrid electric vehicle, PHEV)生命周期成本. 因此,開(kāi)發(fā)針對(duì)PHEV的兼顧整車(chē)綜合油耗和電池壽命的能量管理系統(tǒng),對(duì)降低PHEV的全生命周期成本具有重要意義. 混合動(dòng)力汽車(chē)的能量管理策略主要分為兩類(lèi): 基于規(guī)則的能量管理策略[1]和基于優(yōu)化的能量管理策略[2-3]. 隨著機(jī)器學(xué)習(xí)的發(fā)展,強(qiáng)化學(xué)習(xí)也被越來(lái)越多地應(yīng)用于能量管理策略[4-5]. Cao等[6]針對(duì)PHEV提出基于強(qiáng)化學(xué)習(xí)的實(shí)時(shí)能量管理策略,并且通過(guò)K-L (Kullback-Leibler)散度來(lái)確定狀態(tài)轉(zhuǎn)移矩陣的更新. 為實(shí)現(xiàn)混合動(dòng)力履帶式車(chē)輛發(fā)動(dòng)機(jī)和電池的能量最優(yōu)分配,Liu等[7]使用雙層控制框架制定了一個(gè)預(yù)測(cè)的、 實(shí)時(shí)的能量管理策略,上層基于馬爾科夫鏈預(yù)測(cè)HEV的功率需求,下層基于更新的概率轉(zhuǎn)移矩陣和增強(qiáng)學(xué)習(xí)算法實(shí)現(xiàn)實(shí)時(shí)控制.
為了降低電池老化所帶來(lái)的成本,國(guó)內(nèi)外學(xué)者將電池老化模型融入到能量管理中. Suri等[8]構(gòu)建一個(gè)關(guān)于鋰離子電池的半經(jīng)驗(yàn)?zāi)P停雵?yán)重程度因子來(lái)表征電池在不同環(huán)境下的老化速率. Lin等[9]為提高燃料電池混合動(dòng)力汽車(chē)的經(jīng)濟(jì)性和燃料電池耐久性,將燃料電池開(kāi)路電壓衰退轉(zhuǎn)化成等效的氫氣消耗加入到目標(biāo)價(jià)值函數(shù)之中,制定了等效氫氣消耗最小的反饋優(yōu)化控制策略. Du等[10]針對(duì)并聯(lián)式混合動(dòng)力汽車(chē),提出一種電池老化和溫度感知的預(yù)測(cè)能量管理策略. 該方法以模型預(yù)測(cè)控制為基礎(chǔ),在預(yù)測(cè)域內(nèi)使用極小值原理進(jìn)行求解. Xie等[11]考慮電池放電深度對(duì)電池壽命的影響,提出使用極小值原理求解出不同初始電荷狀態(tài)下最優(yōu)的電池放電深度.
當(dāng)前國(guó)內(nèi)外針對(duì)PHEV的能量管理策略進(jìn)行了廣泛研究,但是仍然存在一些不足: 1) 實(shí)時(shí)優(yōu)化控制策略對(duì)工況的適應(yīng)性不強(qiáng); 2) 上述能量管理策略中忽略了溫度對(duì)高昂的電池老化成本的影響,過(guò)高的溫度將加速單體電池的不一致性,并引發(fā)熱失控的風(fēng)險(xiǎn). 與其他優(yōu)化方法相比,強(qiáng)化學(xué)習(xí)具有較好的實(shí)時(shí)性和魯棒性. 鑒于此,本研究針對(duì)一款插電式混合動(dòng)力汽車(chē),構(gòu)建考慮電池溫度和電池壽命的基于深度強(qiáng)化學(xué)習(xí)的能量管理策略.
所研究的插電式混合動(dòng)力汽車(chē)為同軸并聯(lián)式混合動(dòng)力汽車(chē). 整車(chē)的動(dòng)力總成系統(tǒng)由發(fā)動(dòng)機(jī)系統(tǒng). 主驅(qū)電機(jī)系統(tǒng)和電源等組成,發(fā)動(dòng)機(jī)和電機(jī)均可獨(dú)立驅(qū)動(dòng)車(chē)輛,亦可共同驅(qū)動(dòng)汽車(chē)運(yùn)行. 基于數(shù)學(xué)建模方法建立發(fā)動(dòng)機(jī)模型、 電機(jī)模型、 電池模型和車(chē)輛縱向動(dòng)力學(xué)模型.
由汽車(chē)功率平衡方程,可得:
(1)
式中:Tm和Te分別為電動(dòng)機(jī)和發(fā)動(dòng)機(jī)扭矩, N·m;ig和i0分別為CVT和主減速器的傳動(dòng)比;η為傳動(dòng)系傳動(dòng)效率;v為車(chē)輛行駛速度, km·h-1;r為車(chē)輪半徑,m;m為整車(chē)質(zhì)量,kg;g為重力加速度,m·s-2;f為滾動(dòng)阻力系數(shù);Cd為風(fēng)阻系數(shù);A為車(chē)輛迎風(fēng)面積,m2;δ為旋轉(zhuǎn)質(zhì)量換算系數(shù).
將LiFePO4電池應(yīng)用于PHEV上,其性能已經(jīng)被廣泛驗(yàn)證[12]. 為簡(jiǎn)化研究,假設(shè)單體電池具有高度一致性. 以等效電路作為電池模型,基于歐姆定律,電池電流可以表示為:
(2)
式中:Voc為電池輸出電壓,V;R0為電池內(nèi)阻, Ω;Pb(t)為電池輸出功率,W;nm為電動(dòng)機(jī)轉(zhuǎn)速, rad·s-1;ηm為電動(dòng)機(jī)傳動(dòng)效率.
電池電荷狀態(tài)(state of charge, SOC)方程可以表示為:
(3)
式中:Qb為電池容量, A·h.
針對(duì)所選用的圓柱形電池,利用徑向分布熱力學(xué)模型方法進(jìn)行建模[13]. 該模型假設(shè)電池的產(chǎn)熱集中于內(nèi)芯,并假設(shè)在該中心不存在熱流,而電池內(nèi)部其余部分具有的熱量集中于外殼上一點(diǎn). 該模型的數(shù)學(xué)表達(dá)式為:
(4)
電池的老化來(lái)源于復(fù)雜的機(jī)理,本研究主要考慮的是車(chē)輛工作時(shí)的電池循環(huán)老化. 根據(jù)文獻(xiàn)[8] ,電池的老化模型可以表示為:
(5)
式中:Ea為電池活化能,J·mol-1;η為補(bǔ)償系數(shù);z為冪律因子;Ic為放電倍率,h-1;Rgas為氣體常數(shù),J·(mol·K)-1;α和β為擬合常數(shù);θb為電池溫度, ℃.
當(dāng)電池容量損失達(dá)到20%時(shí),其壽命到達(dá)終點(diǎn). 因此,電池生命周期中可通過(guò)的總安時(shí)量可表示為:
(6)
式中:Inom為在標(biāo)定條件下的電池電流,A; EOL為電池到達(dá)壽命的時(shí)間, h.
設(shè)電池的標(biāo)準(zhǔn)工作條件為:Ic, nom=2.5 C,SOCnom=0.35,θb, nom=25 ℃. EOL 為電池達(dá)到其壽命終止的時(shí)間,定義為在標(biāo)稱(chēng)條件下容量損失達(dá)到20%的時(shí)間. 根據(jù)電池SOC、Ic、θb, 實(shí)際電池壽命表示為:
(7)
電池實(shí)際工況是復(fù)雜的,為了量化復(fù)雜工況對(duì)電池壽命的影響,引入嚴(yán)重因子, 即:
(8)
式中:Γ為實(shí)際的安時(shí)通過(guò)量.
考慮到電池有效壽命的損失,有效安時(shí)通過(guò)量表示為:
(9)
可見(jiàn),電池有效安時(shí)通過(guò)量的大小與電池壽命直接相關(guān),故可用于評(píng)價(jià)電池老化程度.
由上述分析,嚴(yán)重因子為電流、 溫度和SOC的函數(shù),根據(jù)式(5)~(8),可得嚴(yán)重因子關(guān)于SOC與放電倍率的函數(shù)關(guān)系,如圖1所示.
圖1 電池嚴(yán)重因子數(shù)值模型
強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,它通過(guò)智能體與環(huán)境的交互調(diào)整其策略,通過(guò)試錯(cuò)做出最優(yōu)決策,以實(shí)現(xiàn)最大的累積回報(bào)值. 環(huán)境包括行駛工況和PHEV模型,智能體由Q神經(jīng)網(wǎng)路和目標(biāo)神經(jīng)網(wǎng)絡(luò)組成. Q神經(jīng)網(wǎng)絡(luò)根據(jù)當(dāng)前的策略和環(huán)境提供的狀態(tài)變量計(jì)算得到當(dāng)前Q值,并與目標(biāo)神經(jīng)網(wǎng)絡(luò)計(jì)算得到的最大的Q值計(jì)算損失函數(shù),從而更新Q網(wǎng)絡(luò)權(quán)值,并進(jìn)一步通過(guò)貪心算法選擇控制動(dòng)作作用于仿真環(huán)境. 目標(biāo)神經(jīng)網(wǎng)絡(luò)每隔一段時(shí)間從Q神經(jīng)網(wǎng)絡(luò)拷貝權(quán)值來(lái)更新自身網(wǎng)絡(luò).
能源管理策略目標(biāo)是降低等效燃油消耗和鋰電池老化成本,避免電池過(guò)熱,可將目標(biāo)函數(shù)定義為:
(10)
傳統(tǒng)Q-Learning只能處理有限狀態(tài)動(dòng)作集,也就意味著當(dāng)遇到連續(xù)狀態(tài)空間,或者狀態(tài)空間維數(shù)過(guò)大時(shí),會(huì)產(chǎn)生“維數(shù)爆炸”的問(wèn)題. 因此,本研究采用深度神經(jīng)網(wǎng)絡(luò)代替Q-table處理連續(xù)狀態(tài)空間問(wèn)題.
強(qiáng)化學(xué)習(xí)的目標(biāo)是根據(jù)策略選擇動(dòng)作使累積的回報(bào)值最大,其中動(dòng)作的價(jià)值定義為:
(11)
式中:γ∈[0, 1]為折扣因子;rt是時(shí)刻為t時(shí)的獎(jiǎng)勵(lì).
根據(jù)時(shí)序差分算法,最優(yōu)狀態(tài)值函數(shù)的迭代方程為:
(12)
因此,最優(yōu)策略π*可表示為:
(13)
動(dòng)作值函數(shù)Q(s,a)和最優(yōu)值函數(shù)可表示為:
(14)
在Q-learning 算法中,Q值的更新規(guī)則為:
(15)
式中:α∈[0, 1]為學(xué)習(xí)率.
強(qiáng)化學(xué)習(xí)探索環(huán)境時(shí)所獲得的狀態(tài)前后之間具有關(guān)聯(lián)性,這種相關(guān)性打破了神經(jīng)網(wǎng)絡(luò)訓(xùn)練穩(wěn)定的獨(dú)立同分布條件. 通過(guò)采用經(jīng)驗(yàn)回放將經(jīng)驗(yàn)存儲(chǔ)到經(jīng)驗(yàn)池中可以解決上述問(wèn)題. 經(jīng)驗(yàn)池存放的數(shù)據(jù)為(St,At,Rt,St+1)四元組.從經(jīng)驗(yàn)池中隨機(jī)挑取M條數(shù)據(jù)作為學(xué)習(xí)樣本,基于Q網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)利用隨機(jī)梯度下降法最小化損失函數(shù),實(shí)現(xiàn)對(duì)深度Q網(wǎng)絡(luò)的訓(xùn)練進(jìn)而完成對(duì)網(wǎng)絡(luò)參數(shù)的更新.
采用電池SOC、 汽車(chē)速度v、 汽車(chē)加速度acc和發(fā)動(dòng)機(jī)功率Pe作為狀態(tài)變量,S={SOC,Pe,v, acc}. 動(dòng)作變量離散化為T(mén)e=[0:4:140]. 為了解決2.1節(jié)所描述的問(wèn)題,獎(jiǎng)勵(lì)函數(shù)設(shè)為:
(16)
(17)
式中:vn為原始的循環(huán)工況, km·h-1; wgn為生成高斯白噪聲樣本的函數(shù);n為樣本容量; power為功率譜密度,dB·W,代表工況的變化程度.
(18)
式中: smooth為平滑數(shù)據(jù)的函數(shù);m為平滑速度的窗口寬度,代表不同的駕駛風(fēng)格.
以4個(gè)連續(xù)US06工況和2個(gè)連續(xù)WLTC工況為訓(xùn)練工況,圖2顯示了DQN在2種不同工況下的收斂過(guò)程. 在前50次迭代中,智能體由于對(duì)環(huán)境未知,不斷探索每個(gè)狀態(tài)的獎(jiǎng)勵(lì)信息,因此累積獎(jiǎng)勵(lì)值是波動(dòng)的. 在迭代到200次后,平均累積獎(jiǎng)勵(lì)值趨于穩(wěn)定. 之后,盡管因智能體仍在探索新動(dòng)作,累積獎(jiǎng)勵(lì)值仍有波動(dòng),但不影響智能體的穩(wěn)定性. 在US06工況和WLTC工況的基礎(chǔ)上生成4個(gè)隨機(jī)工況,如圖3所示.
圖2 DQN在不同工況下的訓(xùn)練收斂結(jié)果
圖3 由白噪聲產(chǎn)生的隨機(jī)工況
將動(dòng)力電池初始SOC設(shè)為0.8,為了充分利用電池電能,將目標(biāo)SOC設(shè)為0.3. 在Matlab/Simulink環(huán)境下,加載工況1~4,驗(yàn)證3種策略的有效性. 以PMP和規(guī)則控制策略為對(duì)照,驗(yàn)證DQN策略在單次駕駛?cè)蝿?wù)中電池溫度和電池老化的性能表現(xiàn). PHEV在工況1、 工況3不同控制策略下電池溫度和電池有效安時(shí)量的對(duì)比如圖4、 5所示,兩種工況結(jié)果類(lèi)似.
以工況1為例進(jìn)行說(shuō)明. 圖4(a)給出3種策略下電池電芯的溫度變化曲線. 其中,CD-CS策略下電池最高溫度超過(guò)30 ℃,這使電池的溫差變化較大,增加電池的不安全性. 究其原因?yàn)樵陔娏ο碾A段,電池需提供汽車(chē)全部所需能量,導(dǎo)致電流過(guò)大. 而PMP策略的電池溫度曲線比較相似,其最高溫度分別為27.90和26.26 ℃. 圖4(b)為3種策略下電池通過(guò)的有效安時(shí)量. 其中,CD-CS策略的有效安時(shí)通過(guò)量遠(yuǎn)高于其他兩種策略,特別是在CD階段,電池有效安時(shí)通過(guò)量迅速上升. DQN和PMP策略由于考慮了電池壽命和電池溫度的影響,因此有效安時(shí)通過(guò)量較低,分別為49.21和46.27 A·h.
圖4 工況1下的3種控制策略結(jié)果圖
圖5 工況3下的3種控制策略結(jié)果圖
為了解釋上述現(xiàn)象,圖6為PHEV在工況1和工況3不同策略下電池為25 ℃時(shí)的嚴(yán)重因子分布圖. 由圖6(a)可見(jiàn),CD-CS策略電池操作點(diǎn)較多地分布在高放電倍率區(qū),導(dǎo)致其嚴(yán)重因子較大. 工況1為高速工況,在規(guī)則控制策略下,由于未考慮電池老化壽命,會(huì)出現(xiàn)電池大功率放電情況,其中電池有9.23%的工作點(diǎn)分布在放電倍率4.0 C以上的工作區(qū). 考慮電池壽命的控制策略下(PMP和RL),電池操作點(diǎn)分布較為相似,其中電池的放電倍率分布在4.0 C以上的占比分別為1.58%和1.83%. 工況3為綜合工況,因此RL和PMP策略下的電池工作點(diǎn)分布在嚴(yán)重因子1.5以下的區(qū)域. 具體見(jiàn)圖6(b).
圖6 電池工作點(diǎn)在25 ℃的嚴(yán)重因子圖分布
PHEV行駛總成本是衡量能量管理策略性能最重要的指標(biāo). 表1為4個(gè)隨機(jī)工況下不同策略PHEV運(yùn)行總成本.
表1 不同策略下總成本比較
以隨機(jī)工況1為例,說(shuō)明PHEV行駛總成本驗(yàn)證情況. 由表1可知,CD-CS策略燃油消耗最高,PMP策略燃油消耗最少. 相較于CD-CS策略,PMP策略和RL策略的燃油消耗分別降低了16.65%和15.18%. 其中,RL策略和PMP策略在工況1下發(fā)動(dòng)機(jī)操作點(diǎn)分布如圖7所示. RL策略下,雖然發(fā)動(dòng)機(jī)部分運(yùn)行點(diǎn)主要分布在低燃油消耗區(qū),但與PMP策略相比,仍有部分發(fā)動(dòng)機(jī)操作點(diǎn)分布在高燃油消耗區(qū). 工況1不同策略下的油耗和SOC比較, 如圖8所示.
圖7 工況1的不同策略發(fā)動(dòng)機(jī)工作點(diǎn)分布圖
圖8(a)為PHEV在工況1、 3種策略下SOC曲線圖. RL策略和PMP策略SOC能隨時(shí)間緩慢下降,并在里程終點(diǎn)接近目標(biāo)SOC. 圖8(b)為3種策略下油耗曲線圖. 由圖中可知,強(qiáng)化學(xué)習(xí)能量管理策略與PMP策略油耗大致相同,CD-CS策略油耗在CS階段迅速上升,最終油耗遠(yuǎn)大于其他兩種策略下的油耗.
圖8 工況1的不同策略電池SOC和油耗對(duì)比圖
由于CD-CS策略考慮電池老化影響,其老化成本遠(yuǎn)高于另外兩種策略. 從總成本角度分析,PMP策略的總成本相較于CD-CS策略降低了10.67%. RL策略總成本相較于CD-CS策略降低了10.36%, 而與PMP策略相比,總成本只提高了2.87%.
為了最小化燃油消耗和電池老化,同時(shí)考慮電池溫度,制定融合電池壽命和電池溫度的深度強(qiáng)化學(xué)習(xí)能量管理策略. 通過(guò)仿真對(duì)所制定的策略進(jìn)行驗(yàn)證,得到如下主要結(jié)論.
1) 融合了電池老化和電池溫度的能量管理策略能夠有效抑制電池溫度的提高. 在4種隨機(jī)工況仿真結(jié)果中,環(huán)境溫度為25 ℃時(shí),PMP和RL策略下電池最高溫度均不超過(guò)28 ℃. 而CD-CS策略的電池溫度變化較大,最大溫差達(dá)到5.92 ℃.
2) 在能量策略設(shè)計(jì)中考慮電池壽命可有效減少電池的有效安時(shí)通過(guò)量,從而降低等效電池老化成本. 基于深度強(qiáng)化學(xué)習(xí)的能量策略總成本相較于CD-CS策略最大可降低10.36%,并產(chǎn)生與PMP策略相近的效果.
在利用DRL對(duì)能量管理策略進(jìn)行優(yōu)化時(shí),本研究未將CVT速比融入能量管理策略中,后續(xù)考慮將CVT速比作為額外的自由度融入到能量管理策略中,以進(jìn)一步提高PHEV的燃油經(jīng)濟(jì)性.