王子鑒,秦瑜瑞,李景麗
(1.鄭州大學電氣工程學院,鄭州 450001;2.國網(wǎng)河南省電力公司鄭州供電公司,鄭州 450000)
電力變壓器是電網(wǎng)中的核心設(shè)備,在發(fā)電、輸電、配電每個環(huán)節(jié)中都有不可取代的作用,其運行狀態(tài)直接影響著電網(wǎng)供電可靠性,對變壓器運行狀態(tài)做出正確評估,具有重要意義。變壓器運行狀態(tài)可分為正常工作狀態(tài)、熱故障、電故障和機械類故障四大類。其中,大類故障又可細分,如熱故障可劃分為低溫過熱故障、中溫過熱故障、高溫過熱故障。變壓器發(fā)生故障時,可在絕緣油中檢測到大量氣體,氣體的成分、含量、產(chǎn)氣速度[1]與故障類型有密切關(guān)系。油中溶解氣體分析DGA(dissolved gas analysis)是目前應用最為廣泛的一種簡單、有效的方法。DGA依據(jù)變壓器油裂解產(chǎn)生的特征氣體,構(gòu)造用以確定故障類型的判據(jù)。近年來,基于DGA已發(fā)展形成了多種變壓器故障診斷方法,如大衛(wèi)三角法[2]、IEC三比值法[3]、改良三比值法[4]、Roger比值法[5]等,上述方法通過求取氣體之間的比值,進行“編碼-查表”的步驟后確定變壓器的故障類型,但這些方法編碼邊界過于絕對,且都是建立于現(xiàn)場工程經(jīng)驗上,易出現(xiàn)診斷結(jié)果不一致的情況。近年來隨著人工智能技術(shù)的發(fā)展,多種智能識別方法被運用在變壓器故障診斷領(lǐng)域,如神經(jīng)網(wǎng)絡[6-7],支持向量機[8-9]等。這些方法以數(shù)據(jù)驅(qū)動為基礎(chǔ),不過多依賴于工程經(jīng)驗。文獻[7]通過分析變壓器油色譜數(shù)據(jù)特點,利用Spark計算框架,提出了一種基于多深度神經(jīng)網(wǎng)絡的故障識別算法。
但對于變壓器故障診斷這一典型多分類問題,上述方法直接以小類故障為分類目標,未考慮大類故障之間、同一大類故障下的小類故障間的差異。同時,以H2、CH4、C2H2、C2H6、C2H4等全部特征氣體及比值作為故障診斷的輸入量,忽略特征量與故障類型之間的相關(guān)性。因此,應對變壓器進行分層診斷,并選取與分類目標聯(lián)系緊密的故障特征量。文獻[10]基于機器學習中的特征工程,通過卡方檢驗分析特征量與分類目標之間的相關(guān)性,進行特征選擇,在多分類問題中取得了良好效果。
文章針對變壓器主要幾種油中溶解氣體(H2、CH4、C2H2、C2H6、C2H4),采用卡方檢驗對每種氣體與分類目標的相關(guān)性進行探究,剔除與分類目標相關(guān)性較小的特征氣體。在分層故障診斷方案的基礎(chǔ)上,利用不同的機器學習分類器對精簡后的特征氣體診斷效果進行評估,確定效果最優(yōu)的特征氣體與分類器。最后,與未經(jīng)特征選擇的分類方法進行對比,驗證了文中方案的有效性。
絕緣油是由不同碳氫化合物組成的混合物,在放電和過熱故障作用下發(fā)生化學反應后,各類氣體含量產(chǎn)生變化。不同故障類型對應的氣體成分如表1所示。
表1 故障類型與油中溶解氣體Tab.1 Fault types and dissolved gases in oil
變壓器故障按大類分為熱故障和電故障,據(jù)表1可知,氣體組分和故障類型之間具有很強的相關(guān)性,故障類型不同時,氣體組分也會隨之改變。例如:放電故障時,化合物中的C-H鍵斷裂,生成H2,當放電具有較高能量,C-C鍵斷裂,形成CH4、C2H6等氣體;過熱故障時,化合物中的C=C鍵斷裂,生成C2H2等氣體。
文章依據(jù)DLT722—2000《變壓器油中溶解氣體分析和判斷導則》和樣本分布將運行狀態(tài)劃分為熱故障、放電故障、正常三大類,其中,熱故障分為中低溫過熱、高溫過熱,放電故障分為低能放電、高能放電。
由于大類故障之間、同一大類故障的小類故障之間氣體特性均有所不同,為充分利用故障特性,采取分層診斷策略對其進行分類,先對大類故障進行診斷,進而細分故障類型[11]。分層故障模型如下圖1所示。
圖1 分層故障診斷模型Fig.1 Multi-level fault diagnosis model
其中,第一層診斷用以劃分正常與故障狀態(tài);第二層診斷區(qū)分過熱故障與放電故障;第三層和第四層診斷為平行關(guān)系,分別對過熱故障和放電故障進一步劃分。模型中各層分別取名為“正常-故障(N-F)”層、“放電-發(fā)熱(D-H)”層、“放電(D)”層、“發(fā)熱(H)”層。
卡方檢驗可用于檢驗兩組量之間的相關(guān)程度,在機器學習領(lǐng)域的特征選擇中得到廣泛應用[12]。以“故障-正常”診斷層為例,如果某種特征氣體與分類目標無關(guān),則該氣體在樣本中的分布不會因為所屬目標為“故障”或“正?!倍煌?,即該氣體無論在目標為“故障”還是“正?!?,其都應為均勻分布。以氫氣為例,氫氣含量的取值C可能屬于n種不同區(qū)間{C1,C2,…,C n},目標值E有兩種不同的取值{E1,E2},數(shù)據(jù)聯(lián)合分布可如表2所示。
表2 氫氣與目標的聯(lián)合分布Tab.2 Joint distribution of H 2 and target
假設(shè)氫氣含量和故障標簽獨立,取標簽為E1的N.1個樣本,標簽為E2的N.2個樣本組成樣本集P,共N個樣本。從樣本集中隨機抽取N1.個樣本,若氫氣含量和分類目標滿足獨立假設(shè),則該N1.個樣本中滿足E=E1的期望個數(shù)m應該為
按照以上規(guī)則,則滿足C=Ci,E=Ej的期望個數(shù)為
期望樣本集與實際樣本的差異定義為
式中:N.j為表2中第j列的數(shù)值之和;N ij為表2中第i行第j列的數(shù)值。
χ2越大,則氫氣含量與分類目標的關(guān)聯(lián)度越高,在分類過程中發(fā)揮的作用更重要。同理計算其余氣體在該診斷層中的χ2,在不同診斷層中,也以此作為特征氣體選擇依據(jù)。
變壓器故障診斷數(shù)據(jù)通常由兩部分組成,分別是特征氣體構(gòu)成的特征向量集合X和目標類別Y,其中X={x1,x2,…,x n},n為樣本數(shù)量。分類器的任務是通過訓練數(shù)據(jù),建立模型,利用該模型,對于給定的測試樣本X,預測輸出Y。
線性回歸LR(linear regression)和支持向量機SVM(support vector machine),決策樹DT(decision tree),隨機森林RF(random forest)都屬于判別模型,由輸入的數(shù)據(jù)X得到預測分類目標f(X),在訓練過程中,通過實際目標Y與預測目標f(X)之間的關(guān)系進行迭代,以此確定決策函數(shù)f(X)的構(gòu)造。LR是一種線性回歸模型,通過求解損失函數(shù)的最小值,來確定最優(yōu)權(quán)重和偏置。SVM是機器學習中極具代表性的算法,通過將原始向量x映射至高維空間φ(x),使線性不可分數(shù)據(jù)變?yōu)榫€性可分,構(gòu)造距不同類別距離最大的最優(yōu)超平面進行分類[12]。分類模型為
式中:a為拉格朗日乘子;,K為核函數(shù)。SVM是針對二分類問題提出的,而變壓器故障診斷為典型多分類問題,利用“一對一”方法可將多分類問題分解為二分類問題。DT是一種樹模型結(jié)構(gòu),構(gòu)建決策樹是從根節(jié)點不斷遞歸生成子樹的過程,在每個葉子節(jié)點,通過信息熵的大小來選取最優(yōu)特征,之后經(jīng)剪枝策略以防止過擬合。RF是一種集成算法,本質(zhì)上為多個決策樹的集合。
樸素貝葉斯NB(Naive Bayesian)則屬于生成模型,生成模型的目標是求取聯(lián)合分布概率P(X,Y),并利用條件概率公式,在訓練完畢后,對于給定的輸入X,該模型可給出屬于Y的概率,以此判斷所屬類別。所采用的條件概率公式為
文章以文獻[13]中絕緣油分解產(chǎn)生的氣體含量與故障類型作為數(shù)據(jù)來源,剔除冗余樣本和異常樣本,并將低溫過熱和中溫過熱合并為中低溫過熱,建立故障庫。
樣本中運行狀態(tài)類型分布如表3所示。
表3 樣本中各運行狀態(tài)分布Tab.3 Distribution of each operating state in dataset
由于文獻[13]中的特征氣體在不同樣本中大小差距較大,采用如下公式進行歸一化處理:
式中,φ為歸一化后的氣體,下標1、2、3、4、5代表H2、CH4、C2H2、C2H6和C2H45種特征氣體;Xi為經(jīng)過縮放后的氣體i的含量,i=1,…,5。
對于每個診斷層,求取特征氣體與分類目標的χ2值,并按式(7)對其進行歸一化后如表4所示。
表4 歸一化后的關(guān)聯(lián)度Tab.4 Correlation after normalization
變壓器在正常狀態(tài)下,產(chǎn)生的能量不足以分解C2H6,該氣體含量較高,發(fā)生故障時,變壓器內(nèi)部產(chǎn)生大量能量,使C2H6分解產(chǎn)生C2H4,C2H6和C2H4兩種氣體的含量變化與“故障”和“正?!眱煞N運行狀態(tài)之間具有很強的相關(guān)性,因此,這些氣體在“正常-故障”診斷層相關(guān)程度較高;在“發(fā)熱-放電”診斷層經(jīng)卡方檢驗得到的相關(guān)程度較高的3種氣體為H2、C2H2、C2H4。通過表1可知,過熱故障時產(chǎn)生的主要氣體有C2H4,而放電故障產(chǎn)生的主要氣體為H2、C2H2,這3種氣體對于區(qū)分過熱故障和放電故障具有重要意義;過熱故障時,隨著溫度的升高,由CH4和C2H6分解產(chǎn)生的H2、C2H4逐漸增多,由該特性可知,兩種氣體是溫度升高的標志,可用于劃分中低溫故障與高溫故障;電弧放電與電火花放電均存在大量的H2和C2H2,相比電弧放電,電火花放電能量較低,次要氣體中存在C2H4和C2H6,而電火花放電則不存在兩種氣體。在上述其余各故障診斷層中,由卡方檢驗得到的相關(guān)氣體相關(guān)度大小,與特征氣體在不同故障類型中的理化性質(zhì)保持一致,驗證了卡方檢驗在分層故障診斷中的可行性。
文章為減少特征氣體的維度,降低特征氣體的冗余度,提高分類器故障診斷準確度,只選取部分特征氣體輸入分類器。根據(jù)表4中每個診斷層下每種特征氣體的χ2大小,對其重要程度進行排序。將排序靠前的特征氣體種類數(shù)定義為最優(yōu)特征數(shù)Z,Z值由5至1依次選取,通過減小最優(yōu)特征數(shù)來檢驗剔除次要氣體對故障診斷性能的影響。以“正常-故障”診斷層為例,當Z=3時,只選取χ2大小為前3位的特征氣體進行訓練,即依據(jù)表4,選取C2H6、C2H4、C2H2的數(shù)據(jù)作為樣本輸入分類器進行故障診斷。
文章采用文獻[13]中的數(shù)據(jù),去除重復和異常樣本,共選取其中517組數(shù)據(jù),作為故障庫,該故障庫中各故障類型分布如表3。以Scikit-learn 0.2為平臺,采取SVM、NB、RF、DT、LR 5種分類器,每種分類器訓練時均采用“留一法”交叉驗證[14],以綜合準確度作為指標。其中,NB、RF、DT、LR采取默認參數(shù),對于SVM,在每層診斷時采取網(wǎng)格搜索尋找最優(yōu)參數(shù)C和γ[11]。對于每種分類器,計算流程如下:
(1)將每個樣本中各類氣體含量按式(6)進行歸一化處理;
(2)對故障類型編號,作為分類目標;
(3)根據(jù)Z值選取特征氣體;
(4)輸入分類器,并采用“留一法”交叉驗證,得出在當前Z值下的準確率;
(5)改變Z值,重復步驟(3)、(4)。
各診斷層中,Z取不同值時,各算法的準確率如表5至表8所示。
表8 “放電”層算法準確率Tab.8 Accuracy of algorithm at“D”level %
以下各表中,當Z=5時,即代表在分類過程中選取了全部5種特征氣體。通過分析表5可知,在“正常-故障”診斷層中SVM、NB、LR 3種分類器,分別在Z=2、Z=4、Z=1時,出現(xiàn)了故障診斷準確率大于選取全部氣體時的準確率的情況,RF和DT選取全部氣體時的準確率僅比Z=4有微小提升。其余各診斷層與該層類似,除少數(shù)分類器在剔除相關(guān)性較弱的氣體后準確率出現(xiàn)微小下降,其余分類器都體現(xiàn)出篩選特征氣體的優(yōu)越性??梢?,剔除與分類目標相關(guān)性較小的氣體,減少特征氣體的維度,有助于避免各分類器的過擬合現(xiàn)象,故而提高分類器準確度。
表5 “正常-故障”層算法準確率Tab.5 Accuracy of algorithm at“N-F”level %
表6 “發(fā)熱-放電”層算法準確率Tab.6 Accuracy of algorithm at“H-D”level %
表7 “發(fā)熱”層算法準確率Tab.7 Accuracy of algorithm at“H”level %
根據(jù)表5至表8中個各個分類器的性能,選擇在不同診斷層具有不同核參數(shù)的SVM作為最佳分類器。分類器選擇不同數(shù)量特征氣體作為輸入時,在每個診斷層的的準確率如圖2所示。
圖2 SVM在各診斷層準確率Fig.2 Accuracy of SVM at each diagnosis level
從圖2可以看出,SVM分類器在“正常-故障”層、“發(fā)熱-放電”層、“發(fā)熱”層經(jīng)特征選擇后準確率得到提高。在“放電”層,當Z=3時,剔除2種特征氣體,準確率和采取全部5種特征氣體時的準確率差別不大。
綜合表5至表8,以及表4中氣體與分類目標的相關(guān)程度,在盡量剔除相關(guān)性較小的氣體仍能取得較高分類準確率的情況下,選取正常-故障層、發(fā)熱-放電和發(fā)熱層的Z值為2,放電層的Z值為3,并通過GridSearch方法,對分類器中參數(shù)進行確定對各診斷層所需分類器及特征氣體和準確度總結(jié)如表9所示。
表9 各診斷層分類器及特征氣體Tab.9 Classifiers and feature gases at each diagnosis level
結(jié)合圖1與表9,分層診斷最終模型如圖3所示。
圖3 基于SVM與特征選擇的診斷模型Fig.3 Diagnosis model based on SVM and feature selection
模型利用C2H6和C2H4特征氣體,通過正常-故障層診斷,將樣本分為故障和正常狀態(tài),有故障的樣本則進入發(fā)熱-放電層的SVM分類器,利用H2、C2H2進行判斷,結(jié)果為發(fā)熱故障或放電故障。若為發(fā)熱故障,則進入發(fā)熱層,利用C2H6、C2H4判斷,將故障進一步細分為中低溫過熱和高溫過熱;若為放電故障,則進入放電層,利用H2、C2H6、C2H4判斷,將故障進一步細分為高能放電和低能放電。這樣每個層次單獨判斷,都只需要實現(xiàn)簡單的二分類,減少了重疊問題,有利于提高變壓器故障診斷的正確判斷概率。
采用上文所述數(shù)據(jù)集,將全部特征氣體輸入分類器并對中低溫過熱、高溫過熱、低能放電、高能放電、正常5種運行狀態(tài)直接進行分類,同樣在Sklearn0.2中使用SVM、NB、RF、DT、LR等5種分類器,并對SVM使用網(wǎng)格尋優(yōu),采用“留一法”進行交叉驗證,所得到各分類器的綜合準確率如表10所示。
表10 未選擇特征氣體分類準確率Tab.10 Accuracy of classification without selecting feature gases
結(jié)合表10和表9可看出,采用全部5種氣體,利用單一分類器直接以每種運行狀態(tài)為分類目標進行分類,所得到的分類效果低于經(jīng)特征選擇后的分層故障診斷模型。
本文引入卡方檢驗對特征氣體進行選擇,并將其運用到分層故障診斷模型中。通過多種機器學習分類器對不同特征氣體的組合進行分析,得到不同診斷層的最優(yōu)分類器和特征氣體組合,總結(jié)出如下結(jié)論:
(1)利用卡方檢驗能有效地剔除和分類目標相關(guān)性較低的氣體,降低特征氣體的冗余度,可作為變壓器特征氣體選擇的依據(jù);
(2)采用分層故障診斷模型,在不同診斷層應用不同分類器以及不同特征氣體數(shù)量進行分析,得出在每個層應用自動調(diào)參后的SVM分類器時準確度最高。
所得到的分類效果優(yōu)于采用單一分類器對多種運行狀態(tài)直接進行分類。