陳長基, 梁樹華, 吳達雷, 于秀麗, 陳育培, 吳孟科, 顧婷婷
1. 海南電網有限責任公司,???570100;2. 北京郵電大學 自動化學院,北京 100876
變壓器是發(fā)電、輸電和配電中不可缺少的設備,而且成本很高,占據當代電網中大量的資本支出,不僅需要巨大的財政投資,而且還決定著整個電網運行的可靠性和穩(wěn)定性[1].因此,公用事業(yè)公司必須優(yōu)先考慮故障預防并維持電網的最佳運行狀態(tài),將這些資產保持在最佳和高效狀態(tài)是全球許多電力公司的首要任務.事實上,這些公用事業(yè)公司年度預算很大一部分分配給了這些資產的狀態(tài)監(jiān)測和維護.因此,狀態(tài)監(jiān)測和資產管理是所有電力供應商關注的一個關鍵問題.由于典型的電網部署了數千臺變壓器,因此狀態(tài)監(jiān)測成為了一項勞動密集型和耗時的工作[2-3].
最近的研究表明,許多變壓器達不到25~35年的預期壽命.例如,在肯尼亞年度多達10%~12%的配電變壓器過早退役.而在工業(yè)化程度較高的國家,年度配電變壓器退役率在1%~2%之間.隨著高壓和超高壓輸電技術的快速發(fā)展,電網容量不斷增加,覆蓋范圍不斷擴大,如果不能及時準確地發(fā)現電力變壓器的故障,將對電網癱瘓產生嚴重的負面影響,阻礙社會經濟的正常發(fā)展[4-5].因此,電力變壓器故障診斷及壽命預測研究對電力系統的發(fā)展具有重要意義[6].
隨著人工智能的高速發(fā)展,通過尋找數據本身內在規(guī)律并利用人工智能算法進行數據發(fā)掘的方式,為電力變壓器參數預測及故障診斷提供了新的解決思路和技術手段.機器學習與深度學習可以在預測和分類方面提供出色的性能,然而具有網絡結構的模型內部參數無法解釋,因此這些算法缺乏實際意義.近年來,可解釋人工智能(XAI)成為一個熱門領域[7].XAI的主要目的是讓用戶相信機器學習可以提供可靠的預測,并使機器學習方法更加透明.當模型預測錯誤時,解釋可以幫助跟蹤原因和現象.
解釋模型預測之所以如此重要的原因有兩個.① 可以提供有關模型可靠性的信息.當分類器預測用可解釋和透明的方式解釋時,用戶可以信任黑盒模型的結果,并且分類器在實際工業(yè)過程中的適用性是可能的.② 可以基于解釋采取適當的操作.在故障發(fā)生后,使工藝操作恢復正常尤為重要.模型結果說明可用于執(zhí)行此類還原或更正操作.
現階段有兩種常用的方法來解釋模型的預測結果.① 使用可由模型本身解釋的分類器.最常見的模型是線性回歸、廣義加性模型(GAM)和決策樹(DT)[8-10].訓練模型的結構可用于解釋這些模型預測.② 使用與模型無關的解釋技術來解釋預訓練模型.該方法具有適應性強的優(yōu)點,適用于任何黑盒模型.局部可解釋模型不可知解釋(LIME)[11]和Shapley加法解釋(SHAP)[12]是該技術常用的兩個方法.
針對各種基于高分類性能數據的故障診斷模型無法對預測結果進行解釋的現狀,本文提出一種可解釋的故障診斷預測模型框架,構建了多種分類識別模型,并對多個模型進行了比較,最后建立了更適合變壓器故障診斷預測的最優(yōu)模型.該研究框架使用SHAP提取訓練數據的全局解釋,有助于使用博弈論方法解碼訓練的AI模型行為.這種解釋也可用于提升基于機器學習系統的性能和可信度,同時本文模型對變壓器目前運行狀況的診斷,可為其剩余壽命的估算及下一步使用流程提供指導意見.
變壓器的油中溶解氣體分析(DGA)是變壓器壽命估計和故障診斷的重要依據.變壓器在正常運行及故障初期,其內部絕緣油及有機絕緣材料會隨著運行時間增加而在熱和電的作用下逐漸老化和分解,產生少量的低分子烴類、CO2、CO等氣體和水分,這些氣體絕大部分都溶解于油中,因此變壓器油中溶解氣體分析被公認為是一種探測變壓器初期故障和估計絕緣壽命的有效手段.DGA能可靠地測量變壓器運行狀態(tài),并廣泛用于日常維護與壽命預測[13-14],該步驟相當于一個調查過程,檢查從油浸式變壓器收集的油樣是否有故障氣體,而氣體濃度、比例和類型則說明變壓器的內部狀況.絕緣油不僅具有冷卻裝置和熄滅電弧等功能,更重要的是它還可以溶解由于纖維素變質或環(huán)境中的水分而產生的任何氣體.變壓器裝置早期失效的一個常見原因是絕緣油變質.據估計,變壓器中大約70%~80%的故障本質上是初期故障,因此檢測這些故障的任何操作都可能以類似的幅度減少電網上的故障表現.
DGA解釋的經典方法包括Key Gases、Duval和Nomography[15].幾十年來,DGA數據的解釋一直依賴于這些經典方法.但是,這些經典方法往往依賴人類專家的經驗、判斷和直覺,而不是技術公式.這種對人類的依賴常常導致對故障嚴重性的不確定評估,或者在極端情況下完全錯誤的識別.
以往的學者進行了多項研究,以探索電網自動故障查找的新方法.例如,學者們設計了一種基于智能模糊強化學習的變壓器故障分類器[16].結果表明與其他方法相比,該模糊強化學習技術具有較高的準確率.然而,模糊邏輯模型在接受新數據時往往表現不佳.還有些學者在多層感知器(MLP)網絡討論了使用模糊類定義的邊界[17].該模型以Duval Pentagon和Gas Ratio組合為中心,多層感知器網絡在實際DGA記錄上進行訓練,并特別標記了故障情況.文獻[18]評估了K最近鄰(KNN)算法和樸素貝葉斯方法通過DGA數據分析診斷變壓器油絕緣的特征.研究中使用了4個輸入向量,即Duval三角報告、Dornrenberg比率、Rogers比率、DGA數據映射到4個輸出類別.結果表明當考慮Duval的三角報告時,KNN算法通常比樸素貝葉斯方法表現更好,準確率更高.當數據集中存在多個故障條件時,基于比率的解釋方法可能無法做出準確推斷.為了糾正這個問題,文獻[19]除了應用自動化和標準化DGA解釋技術外,還引入了一種增強方法來克服保守DGA分析實踐的局限性.使用基因表達編程構建專家系統,結果表明該方法比目前使用在工業(yè)實踐中采用個別傳統技術的其他方法具有更高的可靠性.
隨著人工智能技術的不斷發(fā)展,神經網絡和智能方法也開始在故障診斷領域中發(fā)揮作用.何清波等[20]提出一個建議,通過安裝一個傳感器網絡來覆蓋配電網絡的主要電力電纜.該設置涉及在沿線每個維護孔中安裝一個網絡節(jié)點,此節(jié)點包括一個單獨環(huán)繞每根電纜的電流互感器.電流互感器允許同時進行連續(xù)測量和非侵入式通信,結果表明由該方法獲得的多個變量(特別是濕度和溫度)可用于模擬電纜老化.宮文峰等[21]將群體優(yōu)化技術和人工神經網絡(ANN)相結合,用于預測變壓器故障.人工神經網絡是對難以明確描述的關系進行建模的好方法,進化粒子群優(yōu)化(PSO)算法模仿了鳥類如何成群結隊或魚群聚集在一起的自然行為,ANN算法和PSO算法的實現是用MATLAB編程語言完成的.將幾種PSO算法與ANN算法相結合時的功效與實際故障診斷的實驗結果進行比較,結果表明進化PSO算法的準確率最高,達到98%.Cheng等[22]將優(yōu)化后的BP神經網絡與DGA方法相結合,在一定程度上提高了變壓器故障檢測的準確性,但是該方法仍然存在缺陷(如訓練速度慢、參數確定困難等).趙書濤等[23]對PSO算法進行了改進,然后將其與支持向量機相結合來識別故障并診斷.對影響PSO算法的不同因素進行測試和評估,以確定具有最高準確度的值,結果表明PSO結合支持向量機的方法具有最好的平均精度.然而,當故障類型多且信息缺失時,容易導致該方法精度不高.王立憲等[24]采用極限學習機進行變壓器故障診斷,表現出學習速度快、泛化性能高等優(yōu)點.但是,在診斷過程中隱藏層神經元容易出現冗余和分類精度下降等問題.
為了診斷變壓器故障及壽命預測,本文利用基于XAI的SHAP方法將預處理后的數據輸入到CatBoost模型中進行訓練,并采用DBSO算法對CatBoost模型的參數進行優(yōu)化,得到可根據特征變量來解釋變壓器故障類型的最優(yōu)模型——DBSO-CatBoost模型(圖1).
圖1 基于DBSO-CatBoost的變壓器故障診斷預測模型
基于DBSO-CatBoost的變壓器故障診斷預測模型主要包括數據預處理、DBSO優(yōu)化和故障診斷及壽命預測.數據預處理主要包括DGA數據的特征提取、數據降維和數據歸一化.DBSO優(yōu)化部分利用DBSO算法優(yōu)化CatBoost模型的多個參數,以獲得最佳參數.故障診斷及壽命預測部分是診斷和預測CatBoost模型,同時輸出變壓器故障類型,從而進行評估.
圖2 集成學習原理增強框圖
集成學習通過構建多個機器學習器,訓練它們形成多個弱學習器,并通過一些組合策略組合多個弱學習器,形成一個強學習器.圖2為集成學習原理增強框圖.
該算法是集成學習的框架算法,其基本思想是利用基本分類弱學習器,通過線性加權和迭代訓練得到強學習器.
梯度提升決策樹(GBDT)算法是一種基于提升算法的集成學習算法,結合了梯度提升算法和決策樹的優(yōu)勢.該模型為加性模型,學習算法為正向逐步算法,基函數為分類回歸樹(CART).
因為GBDT算法中的預測模型由訓練樣本的目標變量確定,存在偏置點態(tài)梯度估計導致的過擬合問題,而CatBoost算法是基于GBDT框架的改進方法,可以有效解決上述問題.
與其他GBDT算法(如XGBoost和LightGBM)相比,CatBoost在許多方面進行了優(yōu)化.① CatBoost采用“有序原則”,避免了GBDT算法迭代中固有的條件位移問題,同時可以利用整個數據集進行訓練和學習.② CatBoost將傳統梯度增強算法轉化為有序提升算法,從而解決了迭代中不可避免的梯度偏移問題,提高了泛化能力,降低了過擬合的可能性,增強了模型的魯棒性.③ CatBoost通過貪婪策略構建分類特征組合,并將上述組合作為附加特征使模型更容易捕獲高階依賴關系,更顯著地提高預測精度.此外,CatBoost選擇遺忘決策樹作為基本預測周期,從而降低過度擬合可能性,提高模型執(zhí)行速度.將數據集設置為:
D=(Ix,Jx)
(1)
(2)
相應的樣本組Ix在訓練集中有一個模型,通過訓練其他訓練集而獲得的模型沒有Ix.按照貪婪策略構建分類特征組合,選擇樹結構.采用有序提升算法計算梯度Ix,并使用梯度來訓練弱學習器.此外,最終模型通過加權開發(fā)獲得.
在默認值下,受CatBoost模型某些參數的影響會出現過度擬合或欠擬合問題,如果手動調整找到最佳值將非常耗時.為此,本文采用DBSO優(yōu)化算法對CatBoost模型參數進行優(yōu)化,提高診斷模型的性能.
DBSO算法表現出與經典頭腦風景優(yōu)化(BSO)算法相同的整體結構,應用差異突變,去除其中的高斯突變.
BSO算法采用的是高斯突變,新個體的生成方程表示為:
itd=isd+ξ×T(0,1)d
(3)
式(3)中,itd表示新的d維個體;isd表示選定的個人;T(0,1)d表示d維標準正態(tài)分布;ξ是高斯函數的系數.
(4)
式(5)中,N和n分別表示最大迭代次數和當前迭代次數.z可以調整斜率lgsig函數,R(0,1)是0~1之間的隨機值.
由于高斯變異的變異系數在后續(xù)階段趨于固定,不能很好地捕捉搜索特征,因此DBSO算法采用差分突變.
在人類的頭腦風暴中,每個人在早期的想法都會明顯不同,在創(chuàng)造新的想法時應考慮現有想法的差異.因此,DBSO算法通過差分突變確定突變步驟.
(5)
式(5)中,j表示新生成的個體;R表示0~1之間的隨機數;Bd和Ld表示搜索空間的上限和下限;ur是開近似集;rand()表示生成隨機數的函數;i表示選定的個體;ig和ih表示在全球選定的兩個不同個體.
根據式(5),與高斯突變相比其差分變異的計算量顯著減少.通過遵守群體中個體的分散度,可以自適應地調整變異,從而更有效地共享信息并提高搜索效率.因此,與BSO算法相比,DBSO算法能夠更好地平衡局部搜索和全局搜索,提高算法性能.
CatBoost是一個支持分類變量的機器學習庫,符合GBDT算法框架,它能有效地解決原GBDT中的各種數據遷移問題,同時表現出參數少、精度高、魯棒性好等優(yōu)點.
本文研究數據由中國國家電網公司西北部某電網提供,選擇B2,CB4,C2B6,C2B4,C2B2作為變壓器故障診斷的屬性,包括555組故障數據.DGA數據中任何差異較大的單個特征都無法準確地確定變壓器的故障類型,并且數據特征屬性之間存在一定的耦合關系,因此需要提取數據特征.
根據GB-T 7252-2016《變壓器油中溶解氣體分析與判斷導則》,變壓器絕緣油產氣率與變壓器故障類型相關,即變壓器故障類型與各氣體濃度之比相關.因此,變壓器故障類型特性與輸入屬性之間的比率也相關.常見的三比值法和非編碼法可以獨立地確定變壓器故障類型,因此輸入屬性交互比法產生的特征變量對變壓器故障診斷數據產生了解耦作用.
常見的三比值法和非編碼法可以分別確定變壓器的某種故障類型,而它們產生的特征維數不能完全解耦數據.為了達到更好的解耦效果,本研究選擇遍歷數據屬性比,所選數據特征變量主要由組分濃度及遍歷比組成.DGA數據具有五維屬性,因此數據屬性的交互比例表示如為:
(6)
式(6)中,T3,T4,T5,T6表示DGA數據的任何不同屬性;T1,T2表示DGA數據的任何屬性(T1≠T2).利用枚舉算法,通過遍歷4組的所有排列組合,得到新的145維特征變量,并將原來的5維特征變量添加到150維的數據特征變量中.
由于采集的DGA數據中部分數據為零,采用比例法添加特征屬性實現了零除的情況,因此會產生異常數據.
總的來講,異常數據的處理方法包括Laida準則填充和固定值填充.DGA數據過于分散,而且數據水平差異很大.使用Layida標準填充將消除大部分數據,因此這種方法不適用于DGA數據.本文采用定值填充法對異常數據進行處理.
每個150維數據特征變量對樣本的貢獻不同,一些變量的添加有時會增加模型的復雜性,同時影響模型的準確性.因此,本文使用SHAP值方法進行特征提?。?/p>
SHAP值方法構建解釋模型,核心思想是計算特征對模型輸出的邊際貢獻,然后從全局和局部層面解釋黑盒模型,所有功能都被視為“貢獻者”.對于相應的預測樣本,模型生成預測值,并且SHAP值是分配給樣本中相應特征的值.
針對150維特征變量計算各特征的SHAP值,并制作特征密度散點圖(蜂群圖).蜂群圖中的相應行表示一個要素.在大范圍內收集了相當多的樣本,一個點代表一個樣本.縱坐標數是SHAP值,橫坐標數表示樣本名稱(圖3).
圖3中的橫坐標按SHAP值平均絕對值降序排序,將中間溫度過熱類別的前10個特征作為蜂群圖.數字1,2,3,4和5分別表示B2,CB4,C2B6,C2B4,C2B2.圖3顯示C2B2的SHAP值平均絕對值最大,C2B2對樣本的分類影響最大.此外,B2,CB4,C2B6,C2B4對樣本分類也非常重要.
蜂群圖僅可視化一個類別中所有樣本的SHAP值,并不代表整個模型的可解釋性.針對本研究的多分類情況,取各分類中SHAP平均絕對值的平均值,得到SHAP的總體平均絕對值,并利用樣本特征影響直方圖.
在直方圖中,相應的列表示一個要素.橫坐標按SHAP值平均絕對值降序排序,縱坐標為特征SHAP平均絕對值與所有特征SHAP平均絕對值的和之比.折線圖表示前60個特征時,先前特征累積的SHAP平均絕對值與所有特征的SHAP平均絕對值之和(圖4).
圖4 不同樣本特征的SHAP平均絕對值
由圖4可知,C2B2的SHAP平均絕對值最大,對數據分類影響也最大.圖4中前30個累積SHAP的平均絕對值占了近90%,所以本文將這30個平均絕對值作為樣本數據的特征.相應的樣本在特征提取后有30個特征,由于總共有555個樣本,數據維度仍然太大,而數據維度太大會增加模型的復雜性,因此數據維度應該減少.
常見的降維算法是主成分分析法(PCA)、核主成分分析法(KPCA)和偏最小二乘法(PLS).
主成分分析法(PCA)將原始變量映射到新的變量空間.在新變量空間中,可以使用幾個變量來替換原始變量,并且盡可能保留原始變量的數據內容.新變量彼此正交以消除原始變量的共線性.
核主成分分析法(KPCA)通過將原始數據映射到更高維空間來實現數據的非線性映射,然后采用主成分分析法從高維減少數據的線性維數.
通過采用PCA,PLS和KPCA幾種方法縮小數據維度得出的結果顯示,KPCA法累積貢獻明顯高于其他降維算法,因此本研究采用KPCA法對數據進行降維.
DGA數據差異較大,影響模型的處理速度,因此需進行數據歸一化處理.本文采用區(qū)間值法對數據進行歸一化,使數據按比例縮放到特定區(qū)間,避免值之間的相互作用.本文選擇極值方法進行線性函數變換:
(7)
式(7)中,Ix(d)(x=1,2,…,t)表示規(guī)范化數據,映射間隔為[-1,1].Ix表示原始數據; maxIx表示數據樣本中的最大值.minIx表示數據樣本中的最小值.
最后,將降維后的歸一化數據輸入到訓練和測試模型中.
對數據樣本進行篩選,得到局部放電(PD)65例,低溫過熱(LT)(<150 ℃)361例、低溫過熱(LT)(150 ℃~300 ℃)40例、電弧放電(AD)89例.對于這些數據樣本,本文使用400組數據作為訓練集,其余數據集作為測試集.利用MATLAB(R2019a)對采集到的555組電力變壓器故障數據進行仿真實驗.
采用不同方法將本文模型與BP神經網絡模型(BPNN)、化核極限學習機模型(KELM)及基于改進遺傳算法和支持向量機的混合模型(IGA-SVM)進行比較,評估本文DBSO-CatBoost模型的穩(wěn)定性與優(yōu)越性.
為了評估本文方法在電力變壓器故障診斷中的有效性,將本文方法的分類準確性與其他3種方法進行比較.實驗計算得出的分類精度結果如圖5所示.
圖5 不同方法的分類準確性對比
由圖5可知,在所有診斷模型中本文DBSO-CatBoost模型的故障檢測和預測準確率最高,進一步表明DBSO在優(yōu)化CatBoost模型方面有明顯改進.針對4種類型的故障診斷預測結果,本文模型在低溫過熱LT(<150 ℃)上的預測準確率是97.17%(106/106),在低溫過熱(LT)(150 ℃~300 ℃)上的預測準確率是100%,在局部放電(PD)及電弧放電(AD)上的預測準確率均為100%.由實驗結果可知,本文模型的平均準確率達到99.29%.因此,與其他診斷模型相比,本文模型更適合于電力變壓器故障檢測和預測.
圖6 不同模型的均方誤差(MSE)對比
均方誤差(MSE)作為模型的另一個重要診斷指標,可以直接表示模型輸出與理想輸出之間的誤差.因此,為了探究本文模型的優(yōu)越性,將MSE與上述4種模型進行比較(圖6).
從圖6可以看出,本文DBSO-CatBoost模型測試集的MSE最?。斒褂肈BSO優(yōu)化CatBoost并將測試樣本作為CatBoost模型的輸入時,該測試集的MSE僅為0.047,性能遠遠優(yōu)于其他模型.由于存在一些噪聲數據,訓練樣本的MSE性能不是最優(yōu).但是,結合圖5可知,本文模型仍然獲得了診斷準確性,這也從側面證明了本文模型具有非常高的魯棒性.
為了探究迭代次數對本文模型診斷精度的影響,將本文模型在4種類型故障下的準確性做了計算分析,并分別計算了模型在迭代次數2,4,6,8時的故障診斷準確性,結果如表1所示.
表1 不同迭代次數下模型的故障診斷準確性
圖7 不同迭代次數的自適應曲線
由表1可知,當迭代為次數4時,模型對4種故障診斷的平均準確率最高.實驗結果證明本文DBSO-CatBoost模型適合電力變壓器的故障檢測和預測.
為了進一步了解本文模型的適應性能,將本文模型與其他3種模型進行收斂性對比.實驗結果如圖7所示.
圖7的自適應曲線表明,DBSO-CatBoost算法的收斂速度非常快,且可以快速跳出局部最優(yōu),體現了該算法的高效率.值得注意的是,該算法的初始誤差較小,表明該算法的初始值接近全局最優(yōu)值.
針對傳統方法故障診斷精度低、分類效果差及無法解釋等問題,本文提出一種可對其行為進行解釋的DBSO-CatBoost模型用于電力變壓器故障診斷與預測.① 通過特征提取、數據降維和數據歸一化對變壓器絕緣油中的溶解氣體數據進行預處理.② 建立DBSO算法優(yōu)化的CatBoost模型.③ 使用DBSO-CatBoost模型對處理后的數據進行訓練和測試.④ 利用DBSO-CatBoost模型確定變壓器的運行狀態(tài),用于診斷變壓器故障并預測壽命情況.通過仿真驗證了本文方法的魯棒性和有效性.為了提高用戶對預測結果的信任,在預處理階段使用SHAP值方法來提取完整的模型響應(全局解釋),增加了預測結果決策方法的透明度和可信度.因此,本文方法基于DBSO-CatBoost故障識別技術具有很高的可信度,對變壓器故障判斷解釋及壽命預測研究具有較好的應用價值.然而,本研究電力變壓器故障診斷主要采用DGA數據,而工程實際中還存在許多其他可測數據與電力變壓器運行狀態(tài)息息相關,如局放量、含水量、電氣試驗數據等.不同類型的故障,需要不同的方法來解釋.因此,未來的研究目標是進一步改進解釋方法或通過使用可視化方法,在更擴展的數據集中涵蓋更多類型的故障,以便提供適合各種故障的解釋,并有效地向最終用戶傳達信息.