摘" 要: 在早期預測鋰電池剩余使用壽命時,因為電池初期循環(huán)時的性能衰退并不顯著,面臨著特征選取的問題。確保選取的特征集合在數(shù)量、相關性和冗余性上的相互平衡是降低測試成本、提升預測準確度的關鍵,目前的研究很難全面平衡這些方面,故提出一種結合多目標特征選擇和機器學習的方法。從MIT數(shù)據(jù)集中提取前100周期的特征,利用Spearman相關系數(shù)法分析特征的相關性,得到相關度高的特征子集。采用多目標粒子群優(yōu)化(MOPSO)算法,根據(jù)設定的三個目標進行迭代優(yōu)化,從帕累托前沿集中選出最優(yōu)特征組合,輸入到多種機器學習模型中,極限梯度提升(XGBoost)模型顯示出最好的預測性能。實驗結果顯示,Spearman?MOPSO?XGBoost方法在僅使用4個特征條件下,預測均方根誤差(RMSE)最小,為80.65個循環(huán),平均絕對百分比誤差(MAPE)為8.68%。
關鍵詞: 電池壽命預測; 鋰離子電池; 多目標特征選擇; 機器學習; 多目標粒子群優(yōu)化算法; 特征提取
中圖分類號: TN919?34; TM912" " " " " " " " " "文獻標識碼: A" " " " " " " " " " "文章編號: 1004?373X(2024)22?0090?09
Lithium battery life early prediction based on feature selection and machine learning
Abstract: In early prediction of the remaining useful life (RUL) of lithium batteries, feature selection becomes challenging due to performance decline of the battery in the initial cycle is not significant. Ensuring the balance between the number, correlation and redundancy of the selected feature set is the key to reducing the test cost and improving the prediction accuracy. The current research is difficult to balance these aspects comprehensively, so a method combining multi?objective feature selection and machine learning is proposed. The features of the first 100 cycles were extracted from the MIT data set, the Spearman correlation coefficient method was used to analyze the correlation of the features, and the feature subset with high correlation was obtained. The multi?objective particle swarm optimization (MOPSO) algorithm is used to perform iterative optimization according to the three goals set. The optimal feature combination is selected from the Pareto front set and input into various machine learning models. The extreme gradient Boost (XGBoost) model shows the best prediction performance. The experimental results show that the Spearman?MOPSO?XGBoost method can realize the smallest root mean square error (RMSE) of 80.65 cycles and mean absolute percentage error (MAPE) of 8.68% when only four features were used.
Keywords: battery life prediction; lithium?ion battery; multi?objective feature selection; machine learning; multi?objective particle swarm optimization algorithm; feature extraction
0" 引" 言
鋰離子電池憑借其高能量密度、低自放電、無環(huán)境污染和長使用壽命等優(yōu)勢,已成為電動汽車和儲能系統(tǒng)的主流技術解決方案[1],在現(xiàn)代生活中發(fā)揮著越來越重要的作用。然而,隨著使用時間的增加,當電池容量降至其額定容量的80%以下時,電池穩(wěn)定性下降[2],可能導致充放電性能降低甚至引起災難性事故。準確預測剩余使用壽命(RUL)可以指導電池的健康管理和系統(tǒng)維護。
目前,國內外廣泛采用的鋰電池RUL預測方法主要分為兩類:基于模型的方法和基于數(shù)據(jù)驅動的方法。前者綜合考慮電池材料屬性、失效機理及容量衰減規(guī)律等因素,構建電池性能退化模型[3];后者從原始數(shù)據(jù)中提取反映退化趨勢的健康因子(電壓、電流、容量等),構建機器學習模型進行預測。基于數(shù)據(jù)驅動的方法不需要考慮復雜的電化學特性,模型具有較高的可遷移性、魯棒性與泛化性[4],在鋰電池RUL的早期預測效果表現(xiàn)很好,但對數(shù)據(jù)和特征的要求比較高。許多研究從電池循環(huán)初期數(shù)據(jù)中提取到多樣的老化特征,但部分特征是不相關的或冗余的,會導致預測準確性差或模型過擬合。文獻[5]手動選取6個特征,輸入到彈性網(wǎng)絡預測,而這需要深厚的專業(yè)經(jīng)驗知識。文獻[6]采用灰色關聯(lián)分析評估特征與壽命的相關性自動選擇特征,但沒有考慮到特征間的冗余性,導致過度擬合問題。文獻[7]利用遺傳算法選出12個特征,但僅以預測準確性作為評估指標,忽略了特征數(shù)量和特征冗余性,導致電池測試成本上升和模型泛化能力下降。在電池壽命預測的特征選擇中,實現(xiàn)特征數(shù)量、相關性和冗余性之間的平衡是一個主要挑戰(zhàn)。大多數(shù)現(xiàn)有研究只能針對這些因素中的單一方面進行優(yōu)化,難以全面考慮。本研究采用了多目標進化算法來進行特征選擇,將模型準確性、特征數(shù)量和特征冗余性設定為優(yōu)化目標。此外,還融合了過濾法策略,提前篩選出高相關性的特征子集,這不僅提升了模型的性能,也有效減少了成本。本文貢獻如下。
1) 在MIT數(shù)據(jù)集中電池的前100個循環(huán)周期內,基于電壓、容量、溫度、內阻等參數(shù),提取了反映老化趨勢的50種特征。
2) 提出基于Spearman?MOPSO的融合多目標特征選擇方法,設計多目標策略篩選出高相關性、低冗余的特征子集。
3) 對比6種機器學習模型,確定了最適合本文特征子集的模型,在僅用少量特征的情況下實現(xiàn)了更好的預測結果。
1" 數(shù)據(jù)集及方法框架
1.1" 數(shù)據(jù)集
采用麻省理工?斯坦福?豐田研究中心(MIT)的電池數(shù)據(jù)集[5],重點研究用前100個循環(huán)的退化數(shù)據(jù)進行早期電池壽命預測,在這個階段,大多數(shù)電池尚未顯示出容量下降的跡象。
數(shù)據(jù)集包含124節(jié)可用電池,標稱容量為1.1 A·h的商用磷酸鐵鋰/石墨A123 APR18650M1A電池。電池容量衰減曲線如圖1所示,電池壽命終止(EOL)設定為80%(0.88 A·h),壽命范圍從150個循環(huán)到2 300個循環(huán)不等。數(shù)據(jù)集中記錄了溫度、電流、電壓、充放電容量的周期內測量數(shù)值,以及每個周期測量的容量、內阻和充電時間。這些電池使用了72種不同的快速充電條件,包括單步或兩步快速充電協(xié)議,充電及恒流放電曲線如圖2所示。
1.2" 方法框架
鋰電池壽命早期預測框架分為三部分:建立特征庫、融合特征選擇和機器學習,如圖3所示。第一階段從電池循環(huán)初期數(shù)據(jù)中提取50個不同類型的特征,構建早期壽命預測特征庫。第二階段將過濾法與包裝法結合,采用Spearman相關系數(shù)法和MOPSO算法進行特征選擇,選取最佳特征子集。第三階段將特征子集輸入到不同的機器學習模型中,確定預測效果最好的模型。
2" 特征提取
為了提前預測電池壽命,研究僅使用前100個周期的循環(huán)數(shù)據(jù)。由于數(shù)據(jù)量有限,需要選取不同類型的特征,從不同角度反映電池的老化情況[8]。圖4為電池數(shù)據(jù)生成的曲線圖,展示了隨著循環(huán)次數(shù)增加,曲線發(fā)生的變化。對電池老化動態(tài)進行分析提取,提取出50個特征,如表1~表7所示,分為7類。
1) QV曲線。如圖4a)所示,顯示了Q(V)不同周期的曲線,Q(V)是放電容量和放電電壓的函數(shù)關系。從圖中可以看出,隨著循環(huán)次數(shù)的增加,曲線下移,覆蓋面積減少,這些差異可以反映出電池隨著循環(huán)次數(shù)的老化現(xiàn)象。選取第10次循環(huán)和第100次循環(huán)Q(V)的差值Q100(V)-Q10(V),記為ΔQ100?10(V),如表1所示,F(xiàn)1~F8為QV曲線相關特征序號。
2) ICA及DVA。如圖4b)所示,繪制了多個周期的電池IC曲線,曲線隨著循環(huán)次數(shù)的增加,峰值及其電壓和覆蓋面積都在降低。增量容量(IC)曲線是通過微分小電壓步長內放電容量的變化與電壓的變化來計算的,可以檢測由于容量損失而導致的電化學過程的細微變化。而差分電壓(DV)定義為IC的倒數(shù),通過小容量區(qū)間的電壓差獲得,DV曲線顯示了DV值與容量的關系。如表2所示,F(xiàn)9~F16為IC/DV曲線相關特征序號。
3) 容量相關。如圖4c)所示,繪制了多個電池的前100周期的容量衰退曲線。容量衰退可以直接反映電池的老化行為。用不同模型去擬合容量衰減曲線,得到擬合參數(shù),作為電池壽命預測的特征??紤]三種模型,即線性模型、時間平方根模型和基于庫侖效率的模型(CE模型),將三個模型對應的擬合參數(shù)定義為容量相關特征。線性模型為最簡單的退化模型。
[Cl=p1l+p2] (1)
時間平方根模型:通過考慮鋰電池的鋰庫存損失來模擬鋰電池的退化。
CE模型:通過考慮庫倫效率與電池衰減率之間的關系來模擬電池容量退化[9]。
[Cl=p5pl6+p7] (3)
式(1)~式(3)中:[Cl]是第[l]次循環(huán)的電池放電容量;[p1~p7]是三個模型擬合容量衰減曲線的7個參數(shù)。容量相關特征如表3所示,F(xiàn)17~F26為容量相關特征序號。
4) 溫度相關。圖4d)繪制了電池不同周期的溫度變化,隨著循環(huán)次數(shù)的增加,溫度的高低、出現(xiàn)峰值的時間和曲線的覆蓋面積都發(fā)生了變化。圖4e)繪制了電池的最高溫度、最低溫度和平均溫度隨著循環(huán)周期的變化趨勢。
在充放電老化循環(huán)中,由于內部的化學和物理反應,溫度會升高和降低,高溫會加速電池老化,因此溫度也是反映電池老化動態(tài)的重要指標。如表4所示,F(xiàn)27~F33為溫度相關特征序號。
5) 內阻相關。如圖4f)所示,繪制了不同壽命電池內阻的變化曲線圖。電池退化最重要的兩個表現(xiàn)是內阻增加和容量減少,內阻的變化與電池老化密切相關,在電池接近使用壽命時,內阻呈指數(shù)級上升。如表5所示,F(xiàn)34~F39為內阻相關特征序號。
6) 時間相關。電池充放電時間與充放電倍率、充放電深度、老化條件密切相關。老化實驗中,速率和深度始終保持恒定,充電和放電時間隨著老化周期而改變。隨著循環(huán)次數(shù)的增加,電池充放電曲線隨之發(fā)生偏移,充電和放電時間也會增加或者縮短。本文選擇充放電時間作為預測鋰電池RUL的特征,如表6所示,F(xiàn)40~F44為充放電時間相關特征序號。
7) 電壓電流曲線斜率。如圖4g)和圖4h)所示,繪制了多個周期的電壓曲線圖和電流曲線。隨著循環(huán)次數(shù)的增加,電池充放電曲線發(fā)生偏移,電池恒流和恒壓時對應的電壓和電流曲線的斜率也會隨之發(fā)生改變。如表7所示,F(xiàn)45~F50為電壓電流曲線斜率相關特征序號。
3" 特征選擇和機器學習
3.1" 特征選擇方法
特征選擇方法分為過濾法、包裝法和嵌入法[10],本文使用過濾法和包裝法結合的融合方法。
3.1.1" 過濾法
過濾法使用不同的標準或指標,根據(jù)數(shù)據(jù)的內在特征對特征變量進行排序,圖5是過濾法的流程。過濾法的優(yōu)點是運算速度快,但其缺點是無法考慮特征之間的相互關系?;贔ilter的特征選擇方法包括灰色關聯(lián)分析、Pearson相關系數(shù)等。
Spearman方法:考慮到鋰電池早期的非線性退化特性,使用非線性相關性分析方法。用Spearman相關系數(shù)來測量單調關系[11],特征選擇的過程如下:將所有特征轉換為相應的等級,并計算它們之間的排名差異;根據(jù)排名差異的大小來確定特征之間的相關性,取值范圍在-1~1。相關性的計算公式如下:
式中:[ρ(X,Y)]是相關系數(shù);[R(Xi)]和[R(Yi)]分別是X和Y中每個變量的排名;n是樣本數(shù)。
3.1.2" 包裝法
包裝法是一種比較耗時但準確率較高的特征選擇方法,由搜索算法和評估模型組成。搜索算法用來選取特征子集,輸入到評估模型里;評估模型反饋結果給算法,算法迭代,在所有特征組合中選擇出最佳子集[12]。圖6是包裝法的流程。搜索算法包括序列前向選擇(SFS)、蟻群優(yōu)化(ACO)等。
MOPSO算法:粒子群優(yōu)化算法(PSO)在特征選擇中表現(xiàn)效果較好,計算成本低,收斂速度快[13],本文基于PSO加入多目標策略,采用多目標粒子群優(yōu)化(MOPSO)算法。
MOPSO是基于PSO算法的一種多目標優(yōu)化算法,能夠同時優(yōu)化多個目標函數(shù)[14]。與PSO算法相比,MOPSO算法加入非支配排序、擁擠度計算等,通過維護帕累托最優(yōu)集合來實現(xiàn)多目標優(yōu)化,這個集合包含了所有不同的、非支配的解。MOPSO算法流程如圖7所示。
MOPSO算法中重要公式如下。
1) 速度與位置更新公式如下:
[vt+1=wvt+c1r1(Pt-xt)+c2r2(Gt-xt)] (5)
[xt+1=xt+vt] (6)
式中:[w]為慣性權重;[c1]、[c2]為加速因子;[r1]、[r2]為[(0,1)]之間的隨機數(shù);[Pt]是t時刻的個體最優(yōu)位置;[Gt]是t時刻的全局最優(yōu)位置;[vt]和[xt]分別為粒子t時刻的速度和位置。
2) Pareto支配。對于[x1]和[x2]兩個解,如果滿足以下兩個條件,則稱解[x1]帕累托支配解[x2]。
式中:[x1]、[x2]為兩個不同的解;[fi(x)]、[fj(x)]為第i個和第j個目標函數(shù)值。引入多目標策略,設置三個目標函數(shù)。目標1為最小化特征子集的數(shù)量;目標2為最大化模型的預測準確性;目標3為最小化特征子集之間的相關度。目標函數(shù)公式如下:
[num_feature=size(x_train)] (9)
[error_rate=rmse(y_valid,y_pred)] (10)
[correlation_feature=corr(x_train)] (11)
式中:[x_train]是訓練集中的輸入數(shù)據(jù);[y_valid]和[y_pred]是目標值的真實值和預測值。
3.1.3" 融合法
基于Filter的特征選擇方法需要較少的計算時間,計算速度快,可以用于高維數(shù)據(jù)集,但是未能考慮到特征之間的冗余性。基于Wrapper的特征選擇方法選擇的特征子集在預測性能方面具有更高的準確性,但是在相關性較低的特征篩選方面存在不足,且消耗更多的時間,計算成本高,不適合高維數(shù)據(jù)集。本文采用過濾式和包裝式融合的特征選擇方法。圖8是融合特征選擇方法的流程。首先使用過濾法(Spearman相關系數(shù))去除低相關性的健康因子(HI),然后使用包裝法(MOPSO+XGBoost)去除冗余的HI,從而達到降低計算需求、減少特征選擇過程中的時間消耗并提高預測準確性的目的。
3.2" 機器學習模型
本文使用6種機器學習模型,包括人工神經(jīng)網(wǎng)絡(ANN)、相關向量機(RVM)、決策樹(Decision Tree)、彈性網(wǎng)絡(Elastic Net)、隨機森林(RF)和極限梯度提升(XGBoost),選擇輸入最佳的特征進行對比。
4" 結果與討論
4.1" 評價指標
本文所用評價指標有RMSE(均方根誤差)、MAE(平均絕對誤差)、MAPE(平均絕對百分比誤差)、R2決定系數(shù)(R?squared)、計算時間Time。
4.2" 特征篩選
使用不同特征選擇方法對50個特征進行篩選。
1) 使用Spearman相關系數(shù)法對特征庫中的特征進行相關性分析,具體結果如表8所示。
表8中:加粗代表過濾特征;橫線標注的是最終選定特征;F為特征(Feature);R為相關度(Relativity)。設定過濾閾值為0.5,篩選出了14個特征作為過濾特征。
2) 使用MOPSO算法結合XGBoost模型對特征庫中50個特征進行篩選,算法不斷迭代優(yōu)化,得到16個特征,作為包裝特征。
3) 采用融合法,在過濾特征的基礎上,由MOPSO算法對14個特征進一步進行選擇,使特征冗余性減少,最終選出4個特征作為融合特征。F3:ΔQ100?10(V)的平均值;F4:ΔQ100?10(V)的方差;F28:周期10和100的放電溫度差值的最小值;F42:周期10的放電時間。
MOPSO算法特征選擇的具體過程如圖9所示。
設置10個粒子表示不同的特征集合,初始位置如圖9a)所示,x、y、z三個坐標軸代表不同的目標值,分別表示預測誤差、特征冗余和特征數(shù)量。經(jīng)過100次循環(huán),剩下兩個最優(yōu)粒子,如圖9b)所示,粒子的三個目標已經(jīng)優(yōu)化到最佳值。由此得到全特征、過濾特征、包裝特征、融合特征4類不同的特征。
4.3" 特征比較
將4類特征輸入到同一機器學習模型中,評估預測的準確性,結果如表9所示。
經(jīng)過比較分析,在過濾特征和包裝特征的對比中,包裝特征表現(xiàn)稍好,但兩者差距不大,特征數(shù)量也接近。從整體來看,全特征展現(xiàn)出最佳的預測效果,但其所需的50個特征維度較高。與全特征相比,融合特征僅采用了4個特征,且各項指標的準確性表現(xiàn)接近。
上述分析表明,使用融合多目標特征選擇方法(Spearman?MOPSO)顯著減少了特征之間的冗余性,并保持了預測的準確性水平。
4.4" 機器學習模型預測
將融合特征輸入到6種不同的機器學習模型中進行分析對比,結果如表10所示。
通過對比各模型的預測表現(xiàn),發(fā)現(xiàn)XGBoost在RMSE、MAE、MAPE和R2等指標上表現(xiàn)出色,而RVM和Elastic Net的表現(xiàn)較差,準確性低。此外,ANN和Elastic Net的計算時間較長。分析結果可知,XGBoost模型在預測準確性和效率方面表現(xiàn)出色,適合作為融合特征的最佳機器學習模型。
4.5" 方法比較
為了進一步驗證方法的有效性,在表11中選擇使用相同數(shù)據(jù)集的5篇文獻進行對比。這些文獻采用不同的特征選擇策略和模型進行預測。
文獻[5]選取6個特征輸入到彈性網(wǎng)絡中進行預測;文獻[7]利用遺傳算法選出12個特征輸入SVM進行預測;文獻[15]根據(jù)梯度提升回歸樹(GBRT)選擇排名前20的特征;文獻[16]采用遞歸特征消除(RFE)選擇了8個特征,應用于混合深度學習網(wǎng)絡;文獻[17]使用隨機森林(RF)方法篩選出4個特征,應用于GRNN網(wǎng)絡。
通過結果分析,在特征數(shù)量較少的情況下,例如文獻[5]方法、文獻[16]方法和文獻[17]方法,本文方法取得了最佳結果,其RMSE和MAPE值均最低,且顯示出了較大的差距;而與本文預測結果接近的文獻[7]方法和文獻[15]方法,分別采用了12個和20個特征作為輸入特征。
綜上所述,所提方法(Spearman?MOPSO?XGBoost)表現(xiàn)出較高的預測準確性,且僅利用少量特征就實現(xiàn)了更好的預測結果。
5" 結" 論
針對電池壽命預測中存在的特征數(shù)量多、不相關和冗余問題,提出了Spearman?MOPSO?XGBoost鋰電池壽命早期預測方法。經(jīng)過實驗證明:提取的特征能正確反映電池的老化趨勢;融合多目標特征選擇方法不僅去除了不相關的特征,還消除了冗余;與其他文獻方法相比,本文方法僅利用少量特征就可以實現(xiàn)更好的預測結果。在未來可考慮使用多個電池數(shù)據(jù)集進行驗證,以提高該方法的泛化性和效果。
參考文獻
[1] LI X, YU D, BYG V S, et al. The development of machine learning?based remaining useful life prediction for lithium?ion batteries [J]. Journal of energy chemistry, 2023, 82: 103?121.
[2] 王瀛洲,倪裕隆,鄭宇清,等.基于ALO?SVR的鋰離子電池剩余使用壽命預測[J].中國電機工程學報,2021,41(4):1445?1457.
[3] LIN X, LU W. A battery model that enables consideration of realistic anisotropic environment surrounding an active material particle and its application [J]. Journal of power sources, 2017, 357: 220?229.
[4] QU X D, SHI D P, ZHAO J Y, et al. Insights and reviews on battery lifetime prediction from research to practice [J]. Journal of energy chemistry, 2024, 94: 716?739.
[5] SEVERSON K A, ATTIA P M, JIN N, et al. Data?driven prediction of battery cycle life before capacity degradation [J]. Nature energy, 2019, 4(5): 383?391.
[6] GUO P, CHENG Z, YANG L. A data?driven remaining capacity estimation approach for lithium?ion batteries based on charging health feature extraction [J]. Journal of power sources, 2019, 412: 442?450.
[7] FEI Z, YANG F, TSUI K L, et al. Early prediction of battery lifetime via a machine learning based framework [J]. Energy, 2021, 225: 120205.
[8] HU X, CHE Y, LIN X, et al. Battery health prediction using fusion?based feature selection and machine learning [J]. IEEE transactions on transportation electrification, 2020, 7(2): 382?398.
[9] YANG F F, SONG X B, DONG G Z, et al. A coulombic efficiency?based model for prognostics and health estimation of lithium?ion batteries [J]. Energy, 2019, 171: 1173?1182.
[10] CHANDRASHEKAR G, SAHIN F. A survey on feature selection methods [J]. Computers amp; electrical engineering, 2014, 40(1): 16?28.
[11] LIU J, CHEN Z. Remaining useful life prediction of lithium?ion batteries based on health indicator and Gaussian process regression model [J]. IEEE access, 2019, 7: 39474?39484.
[12] GONG D, GAO Y, KOU Y, et al. Early prediction of cycle life for lithium?ion batteries based on evolutionary computation and machine learning [J]. Journal of energy storage, 2022, 51: 104376.
[13] LI F, ZUO W, ZHOU K, et al. State of charge estimation of lithium?ion batteries based on PSO?TCN?Attention neural network [J]. Journal of energy storage, 2024, 84: 110806.
[14] COELLO C A C, PULIDO G T, LECHUGA M S. Handling multiple objectives with particle swarm optimization [J]. IEEE transactions on evolutionary computation, 2004, 8(3): 256?279.
[15] YANG F, WANG D, XU F, et al. Lifespan prediction of lithium?ion batteries based on various extracted features and gradient boosting regression tree model [J]. Journal of power sources, 2020, 476: 228654.
[16] XU Q, WU M, KHOO E, et al. A hybrid ensemble deep learning approach for early prediction of battery remaining useful life [J]. IEEE/CAA journal of automatica sinica, 2023, 10(1): 177?187.
[17] ZHANG Y, PENG Z, GUAN Y, et al. Prognostics of battery cycle life in the early?cycle stage based on hybrid model [J]. Energy, 2021, 221: 119901.