劉可真,梁玉平,王 科,趙勇軍
(1.昆明理工大學 電力工程學院,云南 昆明 650500;2.云南電網(wǎng)有限責任公司 電力科學研究院,云南 昆明 650217;3.云南電力技術(shù)公司,云南 昆明 650000)
電力變壓器是電力系統(tǒng)的樞紐設(shè)備,在電能的傳輸、分配中發(fā)揮著重要作用。隨著我國電網(wǎng)規(guī)模的日益擴大[1],電力變壓器的運行狀態(tài)將直接影響電網(wǎng)的供電可靠性。
在運行過程中,變壓器會受到熱、電、機械的作用而產(chǎn)生少量可燃氣體。變壓器油中溶解氣體分析(dissolved gas analysis,DGA)方法的思想是,根據(jù) CH4、C2H6、C2H4、C2H2、H2等氣體的生成速率及濃度,對變壓器進行狀態(tài)分析和故障診斷[2]。
對于氣體濃度分析,早期文獻中提出的三比值、Rogers比值等相關(guān)分析法因受限于編碼及邊界條件,其故障識別能力偏低[3-5]。
近年來,機器學習算法結(jié)合DGA的故障診斷方法逐漸成熟,主要可分為支持向量機(support vector machine,SVM)、神經(jīng)網(wǎng)絡、集成學習等類型。文獻[6,7]使用SVM進行了變壓器故障診斷。文獻[8,9]分別對支持向量機的核函數(shù)、參數(shù)進行了優(yōu)化,提升了模型性能。文獻[10-12]分別使用 BP神經(jīng)網(wǎng)絡(back propagation neural network,BPNN)、人工神經(jīng)網(wǎng)絡、概率神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡對特征氣體進行分析,提高了識別準確率。文獻[11,12]分別使用了隨機森林(random forest,RF)、XGBoost進行故障診斷,取得了較高的識別精度。
上述文獻中的計算模型雖取得了較高的診斷精度,但未考慮以下問題:因變壓器實際運行時發(fā)生各類故障概率不同,所以所收集的故障樣本類別并不平衡[13],利用這樣的樣本對模型直接進行訓練將會使模型性能降低;以氣體原始序列或氣體比值序列作為特征量輸入[14,15],這種模型訓練方式未能深層挖掘提取氣體間的特征關(guān)系。
使用數(shù)據(jù)重采樣和集成學習等方法,可緩解樣本不平衡問題[16,17]。利用深度信念網(wǎng)絡(deep belief network,DBN),在逐層訓練受限玻爾茲曼機后反向微調(diào)參數(shù),可實現(xiàn)氣體序列特征信息深層提取。
基于此,本文提出了一種基于自適應綜合過采樣(adaptive synthetic sampling,ADASYN)、DBN、XGBoost的變壓器故障診斷模型——ADASYN-DBN-XGBoost故障診斷模型。
在進行故障診斷時,各類別樣本數(shù)量的不平衡會導致分類器結(jié)果偏向于比重較大的類別,進而導致模型診斷精度下降。
ADASYN通過賦予少數(shù)類樣本不同的權(quán)重、合成不同數(shù)量的樣本,來降低樣本不平衡度[18]。
ADASYN擴充數(shù)據(jù)過程如下:
(1)收集故障樣本,定義{xi,yi}。xi表示具有n個特征的故障樣本,yi表示樣本標簽。
(2)確定少數(shù)類樣本。對收集的故障類型進行編號,確定少數(shù)類樣本數(shù)量ms,多數(shù)類樣本數(shù)量ml。
(3)設(shè)置不平衡閾值dth。通過d=ms/ml計算樣本各類型間的不平衡度d。在滿足d<dth時,繼續(xù)下述步驟。
(4)計算應合成少數(shù)類新樣本數(shù)Q=β(ml-ms)。β介于0~1。在樣本擴充后,度量樣本間的不平衡性。若β為1,則表示新數(shù)據(jù)各類型樣本平衡。
(5)運用K近鄰算法對每一少數(shù)類樣本計算K個近鄰樣本,并計算K個樣本中多數(shù)類yi所占的比例,Ri=yi/K;之后采用如下公式對占比進行歸一化處理。
(7)合成新樣本。從步驟(5)生成xi的K個近鄰樣本中任意選出一個xiz,用于合成新樣本Si=xi+α(xiz-xi)。α為(0,1]間的隨機值。
DBN網(wǎng)絡是一種由若干個 RBM(restricted boltzmann machine)層構(gòu)成的多隱含層神經(jīng)網(wǎng)絡。
本文運用DBN網(wǎng)絡主要過程:首先,通過無監(jiān)督學習逐層訓練,有效挖掘故障狀態(tài)特征信息;然后,通過BP神經(jīng)網(wǎng)絡的有監(jiān)督學習,反向微調(diào)網(wǎng)絡層的各個參數(shù),優(yōu)化DBN特征提取能力[19]。
如圖1所示,DBN模型由多個受限玻爾茲曼機堆疊而成。受限玻爾茲曼機是一個由2層神經(jīng)網(wǎng)絡構(gòu)成的網(wǎng)絡內(nèi)部連接滿足 Boltzmann分布的概率生成模型。
圖1 DBN模型結(jié)構(gòu)圖Fig.1 DBN model structure diagram
DBN通過堆疊多個RBM實現(xiàn)原始數(shù)據(jù)的深層特征提取。單個RBM由單個的可見層V、隱含層h組成;2層之間神經(jīng)元全連接,但各層內(nèi)神經(jīng)元無鏈接。
RBM模型與能量密切相關(guān),其可見層、隱含層可用如下公式表示:
式中:vi、hj分別為編號i、j的可見層、隱含層神經(jīng)元;wij為i、j之間的連接權(quán)重;mi、nj分別為可見層、隱含層單元偏置;θ為wij、mi、nj的集合。
根據(jù)式(2)可得隱含層、可見層間單元聯(lián)合概率函數(shù):
式中:Z(θ)為歸一化因子。
v,h的邊緣概率函數(shù)為:所以,訓練RBM就是為了得到能較好擬合訓練樣本的RBM相關(guān)參量θ={wij、mi、nj}。
在層內(nèi)各神經(jīng)元獨立的條件下,若可見層單元狀態(tài)已定,則隱含層單元j被激活的概率為:
激活函數(shù)S(x)可表示為:
根據(jù) RBM 對稱結(jié)構(gòu),若隱含層單元狀態(tài)已定,則可見層的單元i也被激活的概率為:
對于式(7)、式(9),可使用對比散度(contrastive divergence)對重構(gòu)數(shù)據(jù)進行近似采樣:首先通過無監(jiān)督逐層訓練每個RBM單元,確保數(shù)據(jù)特征可以映射到不同的特征空間,并提取原始數(shù)據(jù)的特征信息??紤]該步驟只能使當前RBM單元的網(wǎng)絡參數(shù)達到最優(yōu),而不能使整個DBN網(wǎng)絡的狀態(tài)優(yōu)化,因此:在頂層,通過有監(jiān)督BP神經(jīng)網(wǎng)絡算法對整個網(wǎng)絡模型的權(quán)值和偏置值進行微調(diào),從而實現(xiàn)對特征信息的有效提取,有效減少對人為經(jīng)驗的依賴性和人為經(jīng)驗的不確定性。
XGBoost是一種集成學習模型[20],其特點是通過訓練多個分類CART樹,使得組合后模型的泛化能力更強。
XGBoost的核心思想是,依據(jù)特征不斷分裂添加樹,生成一個擬合上次預測誤差的新函數(shù),最終得到K棵分類樹。
對某個樣本分數(shù)進行預測的方法是:依據(jù)樣本特征,將預測目標落至每棵樹葉子節(jié)點;由于葉子節(jié)點和分數(shù)一一對應,將每個分數(shù)相加后即得到預測值。
假設(shè)有n個變壓器故障樣本,每個樣本特征集合為xi,對應標簽為yi,表達為:
為降低預測誤差,對目標函數(shù)作如下定義:
式中:Obj為目標函數(shù);yi為真實值;為預測值;l(yi,i)為損失函數(shù);Ω(fk)為正則化項,用于防止訓練時過擬合;T為樹群的葉子節(jié)點數(shù);ω為樹群的葉子權(quán)重;γ和λ為正則化系數(shù)。
為最小化目標函數(shù)值,在第t輪迭代時選取函數(shù)ft優(yōu)化目標函數(shù),此時目標函數(shù)表示為:
將式中誤差函數(shù)按泰勒展開,保留二次項簡化后,有:
式中:gi、hi分別為誤差函數(shù)的一階、二階導數(shù)。
聯(lián)合式簡化后有:
對ωj求導令其等于0,可得ωj最優(yōu)值為:
將式(16)代入式(15)中,得到最小化目標值:
式中:Obj,min為樹的結(jié)構(gòu)分數(shù)。Obj,min值越小,代表結(jié)構(gòu)越好,對應預測誤差越小。
本文以 CH4、C2H6、C2H4、C2H2、H2共 5 種氣體濃度作為故障診斷的特征量[21]。為降低不同特征氣體濃度差異對模型性能的影響、提升訓練速度及診斷精度,用公式(18)將特征氣體序列g(shù)標準化,g={g1,g2,g3,g4,g5}。標準化后數(shù)據(jù)為X={x1,x2,x3,x4,x5}。
式中:j為5種氣體編號。
根據(jù)故障表現(xiàn)的溫度及放電狀態(tài),劃分變壓器狀態(tài)及編碼,結(jié)果如表1所示。
表1 變壓器狀態(tài)及編碼Tab.1 Transformer status and coding
如圖2所示,ADASYN-DBN-XGBoost模型包括訓練階段和測試階段。將收集的5種特征氣體樣本集進行標準化處理,并劃分為訓練樣本、測試樣本;對訓練樣本少數(shù)類別進行ADASYN過采樣,擴充樣本使類別平衡;利用深度置信念網(wǎng)絡對氣體濃度序列進行特征提取并將結(jié)果輸入 XGBoost進行訓練,在診斷精度穩(wěn)定或達到設(shè)定迭代次數(shù)時終止訓練;在測試集進行故障診斷,輸出故障類別。
圖2 故障診斷技術(shù)路線圖Fig.2 Technology roadmap for fault diagnosis
收集了某電網(wǎng)公司35 kV~500 kV變壓器故障案例,共2 105例。
采用隨機分層抽樣方法,以 9:1比例劃分訓練樣本和測試樣本。訓練樣本1 894例,用以訓練模型、調(diào)整模型參數(shù);測試樣本211例,用以評估模型的性能及泛化能力。
訓練集經(jīng) ADASYN過采樣后的樣本分布如表2所示。由表2可以看出,各類型樣本數(shù)量基本平衡。
表2 變壓器故障樣本分布Tab.2 Sample distribution of transformer fault
部分故障類型的特征氣體數(shù)據(jù)如表3所示。
表3 部分特征氣體樣本數(shù)據(jù)Tab.3 Partial characteristic gas sample data
實驗運算條件:處理器為Intel(R)Core(TM)i5-9400F,內(nèi)存8.00GB,顯卡為NVIDIA GeForce GTX 1650;win10專業(yè)版64位操作系統(tǒng),Anaconda平臺,編程語言為python 3.8.5。
ADASYN-DBN-XGBoost模型相關(guān)參數(shù)設(shè)置如下:DBN隱藏層為2層,隱藏層節(jié)點個數(shù)均為50。預訓練1 000次,每次訓練樣本個數(shù)為379,學習率為0.12,學習率動量為0.5。反向微調(diào)次數(shù)1 000次,每次微調(diào)樣本數(shù)為379,學習率設(shè)為3,動量參數(shù)為0.5。XGBoost樹的深度為5,基學習器個數(shù)為50。
相關(guān)對比算法實驗參數(shù)設(shè)置:SVM模型核函數(shù)為RBF,核函數(shù)的系數(shù)0.1,目標函數(shù)的懲罰系數(shù)100;RF模型基學習器個數(shù)為50,最大深度為5;BPNN隱藏層神經(jīng)元個數(shù)為500,優(yōu)化器選擇AdaDelta,隱藏層、輸出層的激活函數(shù)分別為Softmax、Sigmoid,學習率設(shè)為 0.01,最大迭代次數(shù)設(shè)為1 000次[22]。
經(jīng)ADASYN算法平衡樣本后,DBN-XGBoost模型在訓練時的正確率和損失函數(shù)曲線如圖3所示。各模型最終診斷結(jié)果如表4、圖4所示。
圖3 訓練階段模型準確率和損失函數(shù)曲線Fig.3 Model accuracy and loss function curve in the training phase
圖4 各模型診斷結(jié)果對比Fig.4 Comparison of diagnostic results for each model
表4 變壓器故障診斷精度對比結(jié)果Tab.4 Comparison results of transformer fault diagnosis accuracy %
由圖4可知,DBN-XGBoost模型故障判別錯誤為29個,整體準確率為86.26%。相比于BPNN、SVM、RF、XGBoost模型,該模型的故障判別錯誤分別減少了 32、18、14、6個,整體準確率分別提高了 15.17%、8.64%、6.64%、2.84%:這說明集成學習XGBoost模型在不平衡樣本中擁有較好的診斷效果,也反映了使用DBN進行特征提取可提高模型性能。
本文所提ADASYN-DBN-XGBoost故障診斷模型判別錯誤個數(shù)最少為17個,整體準確率最高,為91.94%。對比DBN-XGBoost模型,該模型判別錯誤減少了12個,整體準確率提高了5.69%;對于少數(shù)類故障類型,如DT、T3,判別準確率分別提高了16.67%、8.33%。這表明了使用ADASYN平衡樣本類別的必要性。
針對變壓器故障樣本類別不平衡和診斷精度低的問題,本文提出了一種基于ADASYN-DBNXGBoost模型的變壓器故障診斷方法。通過對比不同模型,得到以下結(jié)論:
(1)運用DBN網(wǎng)絡,使得模型可以從氣體序列中提取深層特征信息,從而提高了模型的擬合及泛化能力、診斷精度。
(2)運用ADASYN算法,通過擴充樣本中少數(shù)類別以平衡樣本,使得模型可以在類別平衡的樣本集上進行訓練;這提高了模型對樣本中少數(shù)類別的診斷能力。
(3)對比 DBN-XGBoost、XGBoost、BPNN、SVM、RF等模型,本文所提基于ADASYN-DBNXGBoost模型的變壓器故障方法具有更高診斷精度。