屈克慶, 董 浩, 毛 玲, 趙晉斌, 楊建林, 李 芬
(1. 上海電力大學 電氣工程學院,上海 200090; 2. 國家電投風電產業(yè)創(chuàng)新中心,上海 200233)
鋰離子電池因高能量密度、低自放電率和循環(huán)壽命長的優(yōu)點,被廣泛應用在電動汽車和分布式儲能系統(tǒng)等多個領域中.然而,這些優(yōu)勢會隨著電池壽命的衰減而降低,電池的過度老化可能導致電池系統(tǒng)故障,甚至引發(fā)安全事故[1-3].因此,為了避免事故發(fā)生和提高電池系統(tǒng)運行的穩(wěn)定性,對鋰離子電池進行實時的健康狀態(tài)(State of Health,SOH)監(jiān)測尤為重要[4].
鋰離子電池的老化過程十分復雜,是外部和內部因素相互作用的結果.其外部因素包括環(huán)境溫度、充放電速率、放電深度等;內部因素可以概括為固體電解質界面的分解、鋰離子沉淀和鍍層等[5].目前,關于鋰離子電池SOH的估計方法主要分為直接測量法、基于模型的方法和基于數據驅動的方法[6].直接測量法通過直接計算電池容量和內阻來反映電池的健康狀態(tài),包括庫倫計數法、開路電壓法和阻抗頻譜法等[7-9];其計算復雜度較低,但在線運行時需要額外的硬件支持且抗噪能力較差[10].基于模型的方法通過電化學機理或等效電路模擬電池老化現象.一些遞歸觀測器,如卡爾曼濾波[11]、滑模觀測器[12]和粒子濾波器[13]等,被用于從充放電過程獲得電流、電壓數據來更新模型的內阻和容量參數,以此進行SOH在線估計.其中電化學模型的準確性較高,但模型過于復雜,不適合應用到電池管理系統(tǒng)中;等效電路模型的觀測器方法簡單且適用于在線系統(tǒng),但是估計精度不高,無法準確跟蹤電池的老化狀態(tài).
如今,大數據技術快速發(fā)展,大量多維、實用的電池數據被收集,為基于數據驅動的方法提供了巨大潛力.數據驅動方法的基本思想是通過建立電池外部特性與SOH的非線性映射關系,避免考慮電池內部復雜的電化學反應.常用的模型[14-17]包括極限學習機(Extreme Learning Machine,ELM)、支持向量機(Support Vector Machine,SVM)、高斯過程回歸(Gaussian Process Regression,GPR)和人工神經網絡(Artificial Neural Network, ANN)等.除選擇適合的模型外,健康因子(Health Factor, HF)提取也是實現SOH準確估計的關鍵.實際上,由于電池的電壓、電流和溫度等數據可直接從電池管理系統(tǒng)(Battery Management System, BMS)中輕易獲得,所以BMS已被廣泛用于特征提取.文獻[18]中從電池完整的充電電壓、電流和溫度曲線中提取了4個HF,經過主成分分析(Principal Component Analysis,PCA)處理后作為GPR的輸入來估計電池的SOH和剩余壽命(Remaining Useful Life,RUL),不僅精度較高且能給出估計值的不確定性表達,然而HF提取需要完整的充電數據,實際中難以獲得.文獻[19]中提出一種基于最小二乘SVM誤差補償模型,以等壓升時間為模型的輸入來動態(tài)補償經驗模型的預測結果.文獻[20]中通過分析容量增量(Incremental Capacity,IC)曲線來確定與容量高相關性的電壓片段進行HF提取,并使用計算量較小的核嶺回歸實現SOH在線估計.然而,在處理大量、多維的電池運行數據時,通過對數據進行二次特征分析來篩選出高質量數據片段更加重要.文獻[21]中通過提取不同電壓區(qū)間下的IC曲線峰值作為HF來估計SOH.文獻[22]中從差分熱伏安(Differential Thermal Voltammetry, DTV)曲線中提取峰值、峰位和谷值作為HF,使用改進的高斯回歸建立起電池的老化模型.但是,這類方法直接從IC曲線或DTV曲線中進行HF提取,在微分計算誤差和噪聲干擾的影響時,會嚴重降低SOH估計的效率和準確率.綜上可知,上述文獻所用的神經網絡和機器學習模型,其超參數一般需要人為調試或者利用智能算法尋優(yōu),導致計算成本較高且模型的泛用性能較差,而且在特征提取方面未綜合考慮電壓、電流和溫度的共同影響.
針對以上問題,選擇一種訓練時間短、泛化能力強和計算效率高的ELM作為集成學習的子模型,提出一種基于融合HF和集成學習的鋰離子電池SOH估計方法.首先,離線階段收集電池的老化數據,通過定性分析電池的dQ/dV和dT/dV(Q、V和T分別為電池的充電容量、充電電壓和充電溫度)曲線從片段電壓、電流和溫度中提取與SOH相關度最高的數據區(qū)間作為HF.然后,進行主成分分析降維處理后輸入到集成ELM(Integrated ELM,IELM)模型中得到N個SOH的估計值,經過可信度決策剔除其中不可信的輸出,將剩余估計結果的均值作為最終SOH預測值.最后,使用NASA和牛津大學電池老化數據集中的多塊電池進行實驗驗證,表明方法的準確性和可靠性.
數據來自NASA鋰離子電池老化數據集[23]中編號B0005、B0006、B0007和B0018號電池數據和牛津大學電池老化數據集[24]中的8個電池(Cell 1~Cell 8)數據.NASA數據集中使用的LG Chem 18650圓柱形電池陰極為LiNiCo0.15Al0.05O2,陽極為石墨,額定容量為2 A·h.老化實驗中對鋰離子電池使用1.5 A的恒定電流充電至截止電壓4.2 V,恒壓階段電流逐漸減少至截止電流20 mA,然后施加2 A的恒定電流放電至截止電壓,在該模式下進行重復充放電.牛津大學鋰離子電池老化數據集包含8塊Kokam的鈷酸鋰離子軟包電池,型號為SLPB533459H4,陰極為鋰鈷氧化物和鋰鎳鈷氧化物,陽極為石墨,額定容量為740 mA·h.老化試驗中反復對鋰電池進行1.48 A恒流充電,其放電過程模擬Artemis市區(qū)行駛工況,每隔100次循環(huán)測量一次容量.本文SOH定義為當前最大可用容量與額定容量的比值,兩個數據集的SOH變化曲線如圖1所示,其中M為循環(huán)次數.
圖1 NASA 數據集和牛津大學數據集鋰離子電池的SOH曲線Fig.1 SOH curves of lithium-ion batteries from NASA datasets and Oxford University datasets
實際上,電池的放電曲線隨著工況的變化而變化,難以獲取穩(wěn)定的數據,而充電工況往往是固定的,可直接利用BMS監(jiān)測并獲取穩(wěn)定的電壓、電流和溫度數據.圖2(a)和2(b)顯示出電池的充電電壓和溫度曲線由紅到黑變化,代表電池的老化狀態(tài)逐漸加重,其中t為時間.可以看出,隨著電池老化加重,充電電壓到達截止電壓的時間越短,且充電時的溫度逐漸升高,表明電壓、溫度與電池的SOH之間存在一定關聯(lián)性.
因此,可以從電池充電電壓和溫度曲線中提取健康因子來表征電池的不同老化狀態(tài).考慮到大量輸入數據會增加計算復雜度,且在電池的實際使用過程中采集的數據往往是片段的,為了降低估計模型對數據量的依賴性,通過離線分析dQ/dV和dT/dV曲線確定電壓、溫度與容量相關度都較高的數據區(qū)間,獲取高質量的健康因子.此外,為了盡可能使原有電池老化信息顯現出來,使用SG (Savitzky-Golay) 濾波法對dQ/dV和dT/dV曲線進行濾波處理,如圖2(c)和2(d)所示.dQ/dV和dT/dV曲線通過B個采樣點的有限差分獲得,具體計算公式如下:
(1)
(2)
式中:Q(k)、V(k)和T(k)為第k次采樣電池的充電容量、充電電壓和充電溫度.B值越大,越能降低噪聲對曲線的影響,但過大可能會淹沒曲線原有的峰值特性,因此經權衡將B值設定為10.
從圖2(c)中的dQ/dV曲線可以看出,曲線的峰值位于3.95~4.05 V,代表該段電壓區(qū)間與電池的容量之間存在高度關聯(lián)性.溫度與容量之間的潛在聯(lián)系可以通過dQ/dT分析,表達式如下:
(3)
由式(3)可知,溫度對容量關聯(lián)程度與dQ/dV成正比,與dT/dV成反比.因此,由圖2(c)和圖2(d)可以發(fā)現,當電壓在3.95~4.0 V時,dQ/dV恰好為峰值且dT/dV也處于0附近,使得dQ/dT最大.因此,可以針對該電壓區(qū)間[V1,V2]內的充電數據提取特征,對此數據區(qū)間內電壓對時間的積分作為HF1,溫度對時間的積分作為HF2,電流對時間的積分作為HF3,具體計算公式如下:
(4)
(5)
(6)
式中:Vcc為恒流充電電壓;t1到t2為Vcc從V1至V2所需時間;Tcc為電池恒流充電時的溫度;I為恒流充電的電流;i為電池第i次循環(huán).
通過前文對片段數據的定性分析,初步確定了與容量相關度較高的電壓、電流和溫度區(qū)間,為了定量找出具體的數據區(qū)間,采取Pearson和Spearman系數進行衡量,具體計算如下:
(7)
(8)
式中:X和Y為樣本總體;xi和yi為樣本個體.相關系數的值介于-1到+1之間,其絕對值越接近1,表示二者相關程度越高,當等于0時表示兩者之間沒有線性關系.
提取的3個健康因子與SOH變化曲線如圖3所示,可知健康因子相互之間存在趨勢和波動重疊的部分,為了降低計算復雜度,利用主成分分析法將重疊信息與多余信息分離,在保留原有信息的同時,將原來的3個健康因子重組為一個新的向量記作間接健康因子(Indirect HF,IHF),具體步驟如下.
首先設X=[HF1HF2HF3],為n×m階的矩陣,n為樣本數,m為向量數,計算協(xié)方差矩陣:
(9)
式中:X*為標準化后的X.X*的特征向量ui和特征值λi(i=1, 2, …,k)由下式計算可得:
Sui=λiui
(10)
令U=[u1u2…uk],降維后的矩陣Z可由下式所得:
Z=X*×U
(11)
各主成分的貢獻率可通過下式獲得:
(12)
選擇貢獻度最大的主成分作為IHF進行SOH估計,使模型的輸入矩陣階數由n×m變?yōu)閚×1,大大降低了模型的計算復雜度.
圖3 B0005不同的HF與SOH的變化曲線Fig.3 Variation of different health factors with SOH of B0005
ELM是Huang等[25]提出的一種單隱藏層前饋神經網絡,其主要思想是隨機分配輸入層與隱藏層的連接權重wi和偏置bi,從而提高計算的延展性.與傳統(tǒng)的機器學習,如SVM、相關向量機和GPR等相比,ELM的計算速度更快,泛化性能更好,實現更簡單.
ELM的結構由輸入層、隱藏層和輸出層組成,如圖4所示.假定給定的數據集{xi,yi|xi∈Rn,yj∈Rm,i=1, 2, …,L},yj代表輸出,xi代表輸入,L為隱藏節(jié)點數.對于單個ELM,其隱藏層輸出的數學表達式如下:
圖4 單個ELM的網絡結構Fig.4 Structure of an ELM network
hi(x)=g(wix+bi),wi∈Rn,bi∈R
(13)
式中:hi(x)為第i個節(jié)點隱藏層的輸出;g(·)為激活函數.由此可得單個ELM的輸出為
(14)
式中:βi為第i個節(jié)點隱藏層到輸出層之間的連接權重;H=[h1(x)h2(x) …h(huán)L(x)];β=[β1β2…βL]T.ELM學習過程的目標是通過矩陣求解的方法找到使誤差最小的最優(yōu)β.最優(yōu)β的計算方法為
β*=H+Y
(15)
式中:H+為H的Moore-Penrose廣義逆矩陣.如上所述,ELM的學習過程不同于傳統(tǒng)神經網絡訓練算法需要對神經網絡權重進行迭代調整.因此,其學習速度比傳統(tǒng)機器模型快數倍,僅需要設置激活函數和隱藏層數目就能實現SOH估計,不需要過多人為干涉,并且所需的計算內存也很小.
ELM因其本身學習速度快的特點,適合大規(guī)模的數據處理,然而ELM隨機給定網絡權重來進行學習的特點,使得單個ELM的輸出結果并不穩(wěn)定.為了提高準確性和可靠性,通過重復實驗來減小誤差,因此選擇具有隨機學習特性的ELM作為集成學習的子模型.
集成學習的基本框架如圖5所示,將提取的IHF分別輸入到N個ELM模型中,每個ELM單元的網絡參數和隱藏層數均隨機給定,由此可以得到N個SOH估計值.圖6顯示了B0005號電池經過200個ELM模型輸出的SOH估計誤差和分布,可以看出誤差大致呈正態(tài)分布,其中MAE為平均絕對誤差(Mean Absolute Error, MAE).雖然大多誤差分布在 -0.5%~0.5%內,但尚有部分ELM輸出誤差較大.
圖5 IELM的框架圖Fig.5 Frame diagram of IELM
圖6 B0005號電池的估計結果誤差分析Fig.6 Error analysis of estimated results of B0005 battery
因此,根據拉依達準則設計一個可信度決策的策略來剔除“不可信”的ELM輸出,僅使用“可信”的輸出計算最終的SOH估計值.為減小異常值影響,使用樣本中位數和標準差代替拉依達準則中的真實均值和方差:
(16)
(17)
(18)
采取MAE、平均絕對百分比誤差(Mean Absolute Percentage Error, MAPE)、均方根誤差(Root Mean Square Error, RMSE)評價模型性能,定義如下:
(19)
(20)
(21)
采取遍歷法對前文確定的數據區(qū)間進行鄰域搜索,在權衡數據量長度和相關性強度后,得到NASA數據集B0005、B0006、B0007和B0018電池特征提取所需數據區(qū)間為3.98~4.0 V電壓變化內的數據,牛津大學數據集中Cell 1~Cell 8號電池特征提取所需數據區(qū)間為3.8~3.85 V電壓變化內的數據.
對此區(qū)間內電壓、電流和溫度進行特征提取得到3個HF值,然后使用PCA進行降維處理得到IHF.為定量衡量本文所構建的IHF與電池SOH之間的相關性強弱,選擇Pearson系數和Spearman系數進行評價,計算結果如表1所示.結果可知,本文所構建的HF在兩個數據集中均大于0.9,且提取特征所需要的數據長度僅為20、50 mV,在實際應用中可較易獲得.
表1 IHF與各電池SOH相關性分析
實驗在CPU型號為i5-7300HQ、RAM內存為16 GB、顯卡為GTX1050Ti的計算機設備上進行.為驗證方法的準確性,每次選擇NASA或牛津大學電池老化數據集中的一塊電池作為測試集,剩余電池數據則作為訓練集.以NASA數據集為例,當B0005作為驗證集時,B0006、B0007和B0018則作為訓練集;當B0006作為驗證集時,B0005、B0007和B0018則作為訓練集,以此類推.同時考慮實際的計算成本和模型預測精度要求,當集成模型ELM為200個時,就可達到穩(wěn)定的估計輸出.各電池的SOH預測結果和誤差如圖7和8所示,圖中紅色曲線代表預測值,藍色曲線代表SOH真實值;誤差指標計算結果如表2所示.
圖7 牛津數據集SOH估計結果Fig.7 SOH estimation results from Oxford dataset
從預測曲線中可以看出,本文方法不僅能夠準確估計電池的線性老化趨勢,而且對局部的波動部分也能準確跟蹤.從誤差結果可知,NASA數據集中的預測誤差除了個別點在4%左右,大部分誤差均在2%以內;牛津大學數據集中僅有少數點誤差在3%左右,絕大部分位于1%以內.
圖8 NASA數據集SOH估計結果Fig.8 SOH estimation results from NASA dataset
實際上,當電池的SOH低于70%時,健康特征與SOH之間的關系非線性程度加劇會引起誤差增大.因此,當電池容量衰減為額定容量的70%~80%時,電池的性能將呈指數級下降,應及時更換電池,一般將該閾值稱為壽命終止閾值.實際運行中很少會獲得低于該閾值的數據,故可以接受較大的估計誤差.由表2可知,NASA數據集的SOH估計誤差指標均處于2%以內,牛津大學數據集的SOH估計誤差指標均處于1%以內,盡管每塊電池的老化條件各不相同,但本文所構建的健康特征和模型對每塊電池都能達到較好的預測結果,表明方法有較強的可靠性和準確性.
表2 各電池SOH估計結果的誤差指標Tab.2 Error index of SOH estimation results of each battery
為驗證本文特征選取方法(M1)對電池SOH估計的準確性,基于不同情況設計以下特征選取方案:M2為從電壓提取的健康特征;M3為從電壓和電流中提取的健康特征;M4為從電壓和溫度中提取的健康特征.從表3可以看出,由于同時考慮了電池電壓、電流和溫度因素,M1方法能更好地追蹤電池老化狀態(tài),所以模型的估計誤差最低.在實際情況中,若因某一傳感器故障不能使用M1進行特征提取,而使用其余特征提取的方法,其估計誤差可維持在2%以內,也能實現較好的SOH預測,對實際工況有指導意義.
表3 不同健康因子下的SOH估計誤差Tab.3 SOH estimation error at different health factors
此外,為了驗證模型的性能,選擇與當下主流的SOH估計模型進行比較,如ELM、長短期記憶(Long Short-Term Memory, LSTM)神經網絡和GPR模型,所有算法使用相同的訓練集和測試集,且測試平臺相同,估計結果和模型運行時間如表4所示.可知,IELM模型在兩個數據集上的平均RMSE最低,且計算速度比LSTM快,與GPR相當.然而,LSTM和GPR需要提前設定好模型的超參數,其參數的尋優(yōu)過程往往比較繁瑣,相比之下ELM和IELM模型因其本身特性無需進行參數設置,能夠節(jié)省大量的額外時間.但單一的ELM存在輸出不穩(wěn)定的情況,IELM模型則通過集成學習和可信度原則對原本單一模型進行了改進,使得模型在兩個數據集上的平均RMSE分別降低了0.78%和0.3%.實驗結果表明,本文方法與其他主流模型相比有較高的精度和可靠性.
表4 不同模型的估計誤差和計算速度
提出一種基于融合HF和IELM模型的鋰離子電池SOH在線估計方法.通過分析dQ/dV和dT/dV曲線,選擇電壓、溫度和容量三者相關性較高的數據區(qū)間進行特征提取,然后進行PCA處理后作為集成模型的輸入.選擇具有隨機學習特點的ELM作為集成學習的子模型,并通過一個可靠的可信度決策規(guī)則剔除偏差較大的估計結果.最后,使用NASA和牛津大學電池老化數據集共12塊電池對所提方法進行多電池實驗驗證,結果顯示本文方法能夠在較短時間內從20、50 mV電壓片段所包含充電數據區(qū)間內提取健康特征并準確估計出電池的SOH,結果表明該方法具有較高的準確性和可靠性.