李 元,李星輝,孫渭薇,李 睿,林金山,張大寧,張冠軍
(1.西安交通大學(xué)電氣工程學(xué)院,陜西西安 710049;2.國網(wǎng)陜西省電力有限公司營銷服務(wù)中心,陜西西安 710075)
油浸式電力變壓器是電網(wǎng)中的關(guān)鍵設(shè)備之一,承擔(dān)著電能傳輸、變換等關(guān)鍵任務(wù),及時(shí)精確的變壓器狀態(tài)預(yù)警和故障診斷對(duì)設(shè)備智能運(yùn)維和電網(wǎng)的運(yùn)行安全都具有重大的意義[1]。油中溶解氣體分析(Dissolved Gas Analysis,DGA)方法是目前變壓器最可靠的故障診斷方法之一[2]。在變壓器運(yùn)行中會(huì)產(chǎn)生少量特征氣體溶解于變壓器的絕緣油中,當(dāng)變壓器內(nèi)部發(fā)生故障時(shí),部分氣體濃度會(huì)急劇增加,因變壓器內(nèi)部故障產(chǎn)生的典型特征氣體有氫氣(H2)、甲烷(CH4)、乙烷(C2H4)、乙烯(C2H2)、乙炔(C2H2)等[3]。長(zhǎng)期以來,以氣體含量比值法為基礎(chǔ)的DGA 方法在油浸式電力設(shè)備的狀態(tài)監(jiān)測(cè)與預(yù)警中都發(fā)揮了重要作用,經(jīng)典比值法有三比值法(C2H2/C2H4,CH4/H2,C2H4/C2H6)[4]、Rogers四比值法(C2H2/C2H4,CH4/H2,C2H4/C2H6,C2H6/CH4)[5]和Duval 三角形法[6]等。比值法規(guī)則簡(jiǎn)單、應(yīng)用廣泛,但存在編碼缺失、編碼界限過于絕對(duì)等問題,可能導(dǎo)致狀態(tài)無法確定或診斷錯(cuò)誤,因此在實(shí)際應(yīng)用中比值法存在不少局限性[7]。
隨著人工智能技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)方法被大量運(yùn)用到變壓器故障診斷領(lǐng)域,取得了不錯(cuò)的效果。常用的機(jī)器學(xué)習(xí)方法有人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)[8-9]、支持向量機(jī)(Support Vector Machine,SVM)[10-11]、K近鄰(K-nearest Neighbor,KNN)[12]等,研究結(jié)果顯示這些方法均有效克服了傳統(tǒng)比值法的缺陷,在診斷精度和診斷效率方面均取得了一定的效果。
對(duì)于一個(gè)特定的應(yīng)用問題,各智能分類器均能取得一定效果,但單個(gè)分類器很難取得全面優(yōu)勢(shì),實(shí)際應(yīng)用的綜合表現(xiàn)欠佳。因此,有必要研究將多個(gè)不同分類算法的結(jié)果進(jìn)行有機(jī)綜合的方法,以獲得整體更優(yōu)結(jié)果[13]。變壓器不同的內(nèi)部故障在特征空間上往往有一定交疊,單一模型在分類不同故障時(shí)容易出現(xiàn)混淆,表現(xiàn)為對(duì)不同故障類型的識(shí)別準(zhǔn)確率差異較大,對(duì)某些故障類型的識(shí)別率特別低(<60%)[14],無法滿足現(xiàn)場(chǎng)應(yīng)用需求;另一方面,大部分診斷算法的內(nèi)在邏輯是從不同的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)空間角度觀測(cè)數(shù)據(jù),依據(jù)觀測(cè)狀況及算法自身的分類原理建立相應(yīng)模型,所以不同的分類模型往往對(duì)同一故障類型的識(shí)別能力存在差異[15]。
為了能夠充分融合單一分類模型的局部?jī)?yōu)勢(shì),進(jìn)一步提升診斷效果,本文提出一種基于集成學(xué)習(xí)思想的雙層級(jí)聯(lián)變壓器故障診斷模型:首先采用無編碼比值方式提取油中溶解氣體特征,增強(qiáng)不同故障類型的區(qū)分度;然后訓(xùn)練SVM、分類回歸樹(Classification and Regression Tree,CART),KNN 和樸素貝葉斯(Naive Bayes Classifier,NBC)4 種分類器作為第一級(jí)模型;第二級(jí)分類模型利用隨機(jī)森林(Random Forest,RF)對(duì)前端多分類器的組合輸出結(jié)果進(jìn)行特征提取和識(shí)別,最終確定變壓器的故障類型。
為了驗(yàn)證級(jí)聯(lián)模型的有效性,選取SVM,CART,KNN 和NBC 4 種常見的分類模型作為級(jí)聯(lián)模型的第一層并行分類器。SVM 廣泛適用于油色譜故障診斷這類樣本量小、非線性程度高、數(shù)據(jù)特征維數(shù)高的數(shù)據(jù)分類問題[10];CART 模型在進(jìn)行診斷時(shí)具有較高的診斷精度[12];NBC 的邏輯性簡(jiǎn)單且無需設(shè)置參數(shù),所以算法的表現(xiàn)也具有一定的健壯性[16];KNN 由于其自身原理比較適合于油色譜故障診斷等類域交叉或重疊較多的數(shù)據(jù)分類問題[12]。以下簡(jiǎn)述四種故障分類模型的原理。
SVM 來源于二維空間的求解最優(yōu)線性分類面的問題,其主要目的是尋找一個(gè)能夠準(zhǔn)確區(qū)分所有樣本數(shù)據(jù)的超平面。針對(duì)數(shù)據(jù)在低維空間不可分的問題,SVM 通過核函數(shù)將原始數(shù)據(jù)從低維空間映射到高維空間,對(duì)原樣本空間數(shù)據(jù)不可分轉(zhuǎn)化為特征空間中的線性可分求解分類超平面的問題。SVM在樣本量小、非線性程度高、數(shù)據(jù)特征維數(shù)高的分類問題上有良好的表現(xiàn)。油色譜是一類具高維、線性不可分特征的數(shù)據(jù),SVM 可以對(duì)油色譜表征的故障進(jìn)行有效劃分。超平面的求解過程如式(1)所示:
式中:w為分類超平面的法向量;Cp為懲罰因子;n為訓(xùn)練集樣本數(shù)量;εr為第r個(gè)樣本的松弛因子。
CART 具有計(jì)算速度快、計(jì)算量小等特點(diǎn),在處理小樣本數(shù)據(jù)時(shí)具有較優(yōu)的分類性能。CART 來源于人類的決策過程,是由節(jié)點(diǎn)和有向分支構(gòu)成的樹狀層次結(jié)構(gòu)。CART 的根節(jié)點(diǎn)是全體訓(xùn)練數(shù)據(jù)的集合。樹的每一個(gè)葉節(jié)點(diǎn)都是一個(gè)節(jié)點(diǎn)分裂問題,產(chǎn)生的葉子節(jié)點(diǎn)是帶有分類標(biāo)簽的數(shù)據(jù)集合,是樣本的所屬分類。CART 采用Gini系數(shù)作為節(jié)點(diǎn)分裂的屬性依據(jù),故障樣本集S的Gini系數(shù)計(jì)算如式(2)所示:
式中:Pk為分類結(jié)果中第k個(gè)類別出現(xiàn)的概率。
對(duì)于含有N個(gè)樣本的油色譜故障案例集合,將數(shù)據(jù)集劃分為兩部分,故障樣本集S的屬性A的第i個(gè)屬性值的Gini系數(shù)的計(jì)算如式(3)所示:
式中:S1和S2分別為S二分類后的樣本集;n1和n2分別為樣本集S1和S2的樣本數(shù)。
利用式(3),遍歷樣本集S的每一個(gè)特征的屬性值,針對(duì)油色譜數(shù)據(jù)不斷進(jìn)行最優(yōu)節(jié)點(diǎn)劃分,最小值所對(duì)應(yīng)的分類類型即為最終的診斷結(jié)果。
KNN 是一種通過不同數(shù)據(jù)特征值的距離進(jìn)行分類的方法,主要原理是:如果一個(gè)待診樣本在特征空間內(nèi)存在k個(gè)最近鄰,那么預(yù)測(cè)樣本的類別通常由k個(gè)近鄰中的多數(shù)類別決定。對(duì)于連續(xù)型數(shù)據(jù)通常采用歐氏距離作為距離度量。在樣本空間中不同樣本點(diǎn)間歐氏距離計(jì)算de,f如式(4)所示:
式中:xeh,xfh分別為第e,f個(gè)樣本點(diǎn)的第h維坐標(biāo)。
在歐式空間中,針對(duì)每一個(gè)油色譜的故障樣本點(diǎn),依據(jù)歐氏距離求解其k個(gè)最近鄰,則該樣本點(diǎn)歸屬于k個(gè)最近鄰的類別標(biāo)簽最多的一類。
NBC 是一種簡(jiǎn)單有效的貝葉斯分類器,以貝葉斯定理為基礎(chǔ),求解在待診故障樣本出現(xiàn)的條件下各個(gè)故障類別出現(xiàn)的概率,最大概率項(xiàng)即為診斷結(jié)論。對(duì)一組訓(xùn)練集數(shù)據(jù)X={a1,a2…an},設(shè)故障類別集合C={C1,C2…Cm},NBC 分類模型會(huì)將X分配給Ci,當(dāng)且僅當(dāng)滿足式(5)時(shí),X∈Ci。
式中:Ci為第i個(gè)故障類別,Cj為第j個(gè)故障類型;m為故障類型的數(shù)量。
基于NBC 的變壓器故障診斷模型是利用已經(jīng)給定的油色譜故障數(shù)據(jù)集,求解每一類故障出現(xiàn)的先驗(yàn)概率,利用式(5)對(duì)其實(shí)現(xiàn)故障分類。
事實(shí)上,每一種潛在缺陷、故障都可能引起嚴(yán)重后果,都應(yīng)該引起足夠的重視[17]。因此,一個(gè)性能優(yōu)越的故障診斷模型應(yīng)對(duì)各類故障都有較高的識(shí)別準(zhǔn)確率。為了衡量單一分類器在不同故障類型上表現(xiàn)的差異性,引入變異系數(shù)(Coefficient Variation,CV)表征模型對(duì)不同故障類型識(shí)別效果的離散程度[18]。CV 越小,說明該模型對(duì)不同故障類型的敏感性差異越小。CV 的計(jì)算公式如式(6)所示:
式中:Ri為分類器對(duì)第i個(gè)故障的識(shí)別準(zhǔn)確率;為分類器對(duì)所有故障的準(zhǔn)確識(shí)別率的平均值。
針對(duì)多個(gè)分類器,引入Pearson 相關(guān)系數(shù)來衡量不同分類模型性能的差異性。Pearson 相關(guān)系數(shù)的絕對(duì)值越小,分類模型診斷性能的差異性越大[19]。為了能充分利用多分類器的局部?jī)?yōu)勢(shì),需要尋找具有較大差異的分類器組合來提高對(duì)每種故障類型的準(zhǔn)確識(shí)別率,減小變異系數(shù)CV。Pearson 相關(guān)系數(shù)rxy由式(7)得到。
式中:R1i和R2i分別為2 個(gè)分類器對(duì)第i類故障的識(shí)別準(zhǔn)確率;和分別為2 個(gè)分類器對(duì)所有故障的準(zhǔn)確識(shí)別率的平均值。
第二級(jí)分類模型利用RF 融合前端多分類器。RF 是以決策樹為基本分類器的集成學(xué)習(xí)模型[20]。對(duì)于待診數(shù)據(jù),決策樹給出一條由根節(jié)點(diǎn)到葉節(jié)點(diǎn)的唯一路徑來確定其分類。設(shè)有l(wèi)個(gè)決策樹,N個(gè)訓(xùn)練數(shù)據(jù),對(duì)每個(gè)決策樹,有放回地從N個(gè)訓(xùn)練數(shù)據(jù)中抽取M個(gè)數(shù)據(jù)來訓(xùn)練每一個(gè)決策樹,最后由l個(gè)決策樹的分類結(jié)果投票得到最終分類結(jié)果。RF算法具有不錯(cuò)的分類精度,在充分融合第一層各分類模型優(yōu)勢(shì)的同時(shí)具有較好的泛化能力。其泛化能力主要依靠?jī)蓚€(gè)隨機(jī)過程得以保證:
(1)訓(xùn)練數(shù)據(jù)的隨機(jī)性。訓(xùn)練單個(gè)決策樹的樣本是從數(shù)據(jù)集中隨機(jī)抽取的,保證了對(duì)數(shù)據(jù)特征的廣泛提取能力。
(2)節(jié)點(diǎn)分裂特征的隨機(jī)性。構(gòu)建決策樹的特征值是隨機(jī)選取,在對(duì)決策樹每個(gè)節(jié)點(diǎn)進(jìn)行分裂時(shí),從全部屬性中等概率隨機(jī)抽取一個(gè)屬性子集,再從這個(gè)子集中選擇一個(gè)最優(yōu)屬性來分裂節(jié)點(diǎn)。
為了吸收不同分類模型的優(yōu)點(diǎn),本文提出了一種模型級(jí)聯(lián)框架,在級(jí)聯(lián)模型訓(xùn)練完成后其對(duì)待診油色譜數(shù)據(jù)的診斷流程如圖1 示。
圖1 級(jí)聯(lián)模型診斷流程Fig.1 Diagnostic process of cascade model
第一級(jí)模型中的每個(gè)基分類器獨(dú)立對(duì)油色譜數(shù)據(jù)進(jìn)行診斷,得到各基分類器的診斷結(jié)果Di(i=1,2,3,4),并對(duì)其組合得到故障類型編碼向量D={D1,D2,D3,D4};第二級(jí)模型對(duì)該向量再次進(jìn)行診斷,來得到最終的診斷結(jié)果。
圖1 所示的診斷過程建立在級(jí)聯(lián)模型充分訓(xùn)練的基礎(chǔ)上,級(jí)聯(lián)模型具體的訓(xùn)練過程如下:假設(shè)有n個(gè)訓(xùn)練樣本,診斷模型第一級(jí)中有4 個(gè)基分類器,為了保證診斷模型的泛化能力,首先將原始的訓(xùn)練集進(jìn)行K折交叉劃分得到K個(gè)子集{S1,S2…SK};對(duì)第一級(jí)中的各分類器,將每個(gè)數(shù)據(jù)子集Sp(p=1,2…K)做一次測(cè)試集,其余子集做訓(xùn)練集,得到K個(gè)診斷子集Lp(p=1,2…K),Lp為Sp中樣本診斷后得到的故障類型編碼;將K個(gè)診斷結(jié)果子集合并成一列得到一個(gè)分類器對(duì)訓(xùn)練集中所有樣本的診斷結(jié)果集合Et={L1T,L2T,L3T…LkT}T(t=1,2,3,4),該集合是一個(gè)n×1 的向量;針對(duì)每一基分類器分別進(jìn)行一次上述操作,將每一個(gè)基分類器得到的結(jié)果Et進(jìn)行組合得到一個(gè)n×4 的診斷結(jié)果集合E={E1,E2,E3,E4},將E作為第二級(jí)分類模型的輸入數(shù)據(jù)進(jìn)行訓(xùn)練;再利用m個(gè)樣本對(duì)第一級(jí)分類模型進(jìn)行訓(xùn)練,將訓(xùn)練好的第二級(jí)分類模型與第一級(jí)分類模型按圖1 所示級(jí)聯(lián)。這種方式可以抑制多個(gè)分類器診斷的不平衡性,提升整體診斷效果。
不同的編碼方式可以提取油中溶解氣體的不同數(shù)據(jù)特征,提取的油中溶解氣體特征越豐富,越有利于提高診斷精度。杜洋等[21]提出了一種無編碼比值的變壓器診斷方法,包含9 個(gè)維度特征,即CH4/H2,C2H2/C2H4,C2H4/C2H6,C2H2/(C1+C2),H2/(H2+C1+C2),C2H4/(C1+C2),CH4/(C1+C2),C2H6/(C1+C2),(CH4+C2H4)/(C1+C2),其中C1+C2為油中溶解氣體中總烴的含量。利用這9 種比值作為分類模型的輸入數(shù)據(jù),由于五種特征氣體濃度差異性較大,直接將比值作為訓(xùn)練數(shù)據(jù)輸入會(huì)對(duì)診斷效果產(chǎn)生不利影響[22],需要依據(jù)式(8)對(duì)氣體的特征比值進(jìn)行歸一化處理。
式中:cact為該故障樣本的一種氣體濃度比值;cmax為該種氣體濃度比值的最大值;為該氣體濃度比值歸一化以后的值。
根據(jù)IEC60599 標(biāo)準(zhǔn)[23],變壓器故障類型可劃分為局部放電PD、低能放電LD、高能放電HD、低溫過熱LT、中溫過熱MT、高溫過熱HT 6 種,其對(duì)應(yīng)故障類型依次編碼為1,2,…6。
為了保證模型的泛化能力,將所有數(shù)據(jù)按照4∶1 的比例劃分為訓(xùn)練集和驗(yàn)證集,再對(duì)訓(xùn)練集采取五折交叉劃分,按照2.2 節(jié)所述方法訓(xùn)練第一級(jí)和第二級(jí)模型,得到最終的診斷模型。完整的級(jí)聯(lián)模型數(shù)據(jù)預(yù)處理、參數(shù)訓(xùn)練與自優(yōu)化過程如圖2 所示。
圖2 變壓器級(jí)聯(lián)故障模型詳細(xì)運(yùn)作過程Fig.2 Diagram showing data preprocessing,parameter training and self-optimizing process of cascading fault model for transformer
本文模型建立所用的506 例DGA 故障數(shù)據(jù)均來源于電網(wǎng)公司故障變壓器的油中溶解氣體離線試驗(yàn)數(shù)據(jù),按照3.1 節(jié)所述方法進(jìn)行特征提取和歸一化處理,依據(jù)3.3 節(jié)所述方法進(jìn)行訓(xùn)練集和驗(yàn)證集劃分,樣本分布情況如表1 所示。
表1 506組故障樣本數(shù)據(jù)分布Table 1 Distribution of 506 groups of fault samples
利用2.2 節(jié)中所述方式對(duì)4 種基分類器進(jìn)行訓(xùn)練,利用得到的模型在驗(yàn)證集上進(jìn)行測(cè)試。第一級(jí)模型各分類器參數(shù)如表2 所示。利用驗(yàn)證集對(duì)訓(xùn)練得到的模型進(jìn)行測(cè)試得到的結(jié)果如表3 所示。
表2 第一級(jí)模型各分類器參數(shù)Table 2 Parameters of each classification model at the 1st layer
表3 第一級(jí)模型對(duì)不同類型故障的識(shí)別準(zhǔn)確率對(duì)比Table 3 Comparison of recognition accuracy among classification models at the 1st layer for different fault types%
由表3 可知,不同分類器對(duì)不同故障類型的識(shí)別能力差異較大。以局部放電放為例,KNN 模型和NBC 模型具有最高的準(zhǔn)確識(shí)別率,達(dá)到了81.82%,而SVM 和CART 的表現(xiàn)較差,準(zhǔn)確識(shí)別率僅為45.45%和55.45%。為了分析第一層各分類模型的差異性,根據(jù)式(7)及表4 計(jì)算第一層各分類模型間的Pearson 相關(guān)系數(shù)rxy,各模型之間相關(guān)系數(shù)的絕對(duì)值如圖3 所示。
表4 第一級(jí)分類器綜合診斷結(jié)果對(duì)比Table 4 Comparison of comprehensive diagnosis results among classification models at the 1st layer
圖3 基分類器間的Pearson系數(shù)rxyFig.3 Pearson coefficient rxy between base classifiers
一般認(rèn)為,|rxy|<0.3,兩變量基本不相關(guān),基分類器的性能相似度低,診斷結(jié)果融合效果好;0.3≤|rxy|<0.5,兩變量低度相關(guān);0.5≤|rxy|<0.8,可認(rèn)為兩變量中度相關(guān);|rxy|≥0.8 時(shí),兩變量間高度相關(guān),此時(shí)兩基分類器表現(xiàn)極度相似[23],將其融合無法起到抑制基分類器不平衡性的作用,需要更換分類器。由圖3 可知,本文第一級(jí)分類器中所選的4 種模型彼此之間的相關(guān)性均不超過0.8,因此融合之后可以充分吸收不同模型的優(yōu)勢(shì),抑制單一模型診斷的不平衡性。
一級(jí)分類器綜合診斷性能對(duì)比如表4 所示??傮w而言,CART 的綜合識(shí)別準(zhǔn)確率最高(81.2%),但其變異系數(shù)也最高,說明CART 對(duì)不同故障類型的識(shí)別差異性很大。KNN 的綜合識(shí)別準(zhǔn)確率要低于CART,但變異系數(shù)要明顯小于CART。所以,4種模型各有優(yōu)勢(shì),有必要對(duì)其充分融合利用。
將第一層分類模型的診斷結(jié)果組合輸入到第二層分類模型中,得到最終的級(jí)聯(lián)診斷模型。第二層分類模型訓(xùn)練得到的參數(shù)為子樹數(shù)目20。
利用驗(yàn)證集對(duì)級(jí)聯(lián)模型進(jìn)行測(cè)試,級(jí)聯(lián)模型與第一級(jí)中的基分類器對(duì)不同故障類型的準(zhǔn)確識(shí)別率對(duì)比如圖4 所示。
圖4 5種模型對(duì)不同變壓器故障類型的識(shí)別準(zhǔn)確度對(duì)比Fig.4 Comparison of recognition accuracy among five models for different transformer fault types
級(jí)聯(lián)模型在每一種故障類型上的效果都達(dá)到了基分類器的最優(yōu)或較優(yōu)水平,有效地抑制了基分類器的不平衡性。以PD 和HT 為例,級(jí)聯(lián)模型對(duì)PD 識(shí)別準(zhǔn)確率為81.82%,與KNN 與NBC 相當(dāng),高于SVM(45.45%)與CART(54.55%);級(jí)聯(lián)模型對(duì)HT 的識(shí)別準(zhǔn)確率(90%)略低于SVM(100%),顯著高于KNN(60%)、NBC(75%)和CART(70%)。5 種模型的綜合識(shí)別準(zhǔn)確率和變異系數(shù)對(duì)比如圖5 所示,級(jí)聯(lián)模型在兩個(gè)綜合評(píng)價(jià)指標(biāo)上均取得了最好效果,其綜合識(shí)別準(zhǔn)確率比四種單一模型分別提升了6%、24.8%、8.96%、4.99%,變異系數(shù)分別降低了0.0024、0.0789、0.0235、0.1331,驗(yàn)證了級(jí)聯(lián)模型的有效性。需要注意,本文中所述單一診斷模型和級(jí)聯(lián)診斷模型對(duì)算力的需求不高,數(shù)秒即可完成診斷,實(shí)效性滿足現(xiàn)場(chǎng)應(yīng)用需求[24]。
圖5 五種模型的綜合評(píng)價(jià)指標(biāo)對(duì)比Fig.5 Comparison of comprehensive evaluation index among five models
針對(duì)在變壓器故障診斷中,單一分類模型對(duì)不同類型故障時(shí)診斷效果的不平衡性,以及不同單一模型之間分類性能的差異性等問題,本文提出了一種雙層級(jí)聯(lián)的變壓器故障診斷模型,可充分吸收單個(gè)模型的優(yōu)勢(shì),進(jìn)一步提升對(duì)變壓器的故障診斷效果。結(jié)合案例分析得到的具體結(jié)論如下:
1)針對(duì)變壓器的6 種故障類型,級(jí)聯(lián)模型的表現(xiàn)總是處于第一級(jí)4 個(gè)分類模型的最優(yōu)或次優(yōu)水平,緩解了單一診斷模型的不平衡性。
2)在綜合準(zhǔn)確識(shí)別率以及變異系數(shù)兩個(gè)綜合評(píng)價(jià)指標(biāo)上,級(jí)聯(lián)模型的表現(xiàn)都優(yōu)于單一模型,證明了其有效性。