王 卓,鄭 祥,王仁峰,楊景杰,許智海
(大連交通大學(xué) 自動(dòng)化與電氣工程學(xué)院,遼寧 大連 116028)
牽引電機(jī)定子絕緣介質(zhì)在受到電、熱等因素的影響時(shí)會(huì)發(fā)生老化,出現(xiàn)絕緣缺陷,導(dǎo)致定子發(fā)生局部放電(partial discharge,PD)[1,2]。
近些年,針對(duì)牽引電機(jī)的PD檢測(cè)逐漸得到重視[3]。文獻(xiàn)[4]為提高PD的檢測(cè)靈敏度,通過(guò)在脈沖電壓波形下檢測(cè)到的PD起始電壓,評(píng)估牽引電機(jī)的絕緣性能。文獻(xiàn)[5]提出了一種基于可變上升時(shí)間的浪涌發(fā)生器測(cè)試方法,并將該方法用于檢測(cè)繞線定子中是否發(fā)生PD。
上述PD檢測(cè)方法的結(jié)果雖能夠反映牽引電機(jī)整體絕緣狀況,但無(wú)法據(jù)此確定具體故障原因,未能實(shí)現(xiàn)對(duì)PD類型識(shí)別。
通過(guò)牽引電機(jī)定子PD類型的識(shí)別,可以確定導(dǎo)致定子絕緣缺陷的具體原因;這對(duì)牽引電機(jī)的維護(hù)有重要意義。因此,本文針對(duì)牽引電機(jī)的PD類型識(shí)別做進(jìn)一步研究。
不同類型的定子絕緣缺陷會(huì)表現(xiàn)出不同的PD模式,不同放電模式的放電信號(hào)具有不同的特征屬性:可以通過(guò)這個(gè)特性對(duì)PD類型進(jìn)行識(shí)別。
傳統(tǒng)方法提取的PD信號(hào)特征維度過(guò)高,存在冗余特征,信號(hào)的重要特征信息不集中。文獻(xiàn)[6]提取了PD信號(hào)的27個(gè)特征參數(shù)作為分類器的輸入;但由于特征信息維度高,過(guò)多的無(wú)效信息導(dǎo)致識(shí)別結(jié)果不穩(wěn)定。
針對(duì)特征維度過(guò)高、無(wú)效信息過(guò)多的問(wèn)題,有學(xué)者提出了相應(yīng)的降維算法。文獻(xiàn)[7]在提取PD信號(hào)特征后,采用主成分分析(principal component analysis,PCA)算法對(duì)其進(jìn)行特征降維,從而得到新的特征參數(shù);這使得識(shí)別速度有了明顯的提高。但是,降維處理后的傳統(tǒng)特征對(duì)于PD的表征不明顯,且PCA降維算法可能會(huì)使部分重要信息丟失,導(dǎo)致降維后的參數(shù)對(duì)于信號(hào)的分類效果不佳。
傳統(tǒng)的PD信號(hào)識(shí)別算法有反向傳播神經(jīng)網(wǎng)絡(luò)(backpropagation neural network,BPNN)、概率神經(jīng)網(wǎng)絡(luò)(probabilistic neural network,PNN)和支持向量機(jī)(support vector machines,SVM)等[8-10]。這些算法也因識(shí)別效果不佳逐漸被替代與改進(jìn)。
文獻(xiàn)[11]采用深度信念網(wǎng)絡(luò)(deep belief networks,DBN)識(shí)別不同的典型PD類型,獲得了較高的識(shí)別準(zhǔn)確率;但DBN算法的結(jié)構(gòu)比較復(fù)雜,訓(xùn)練的時(shí)間也比較慢,參數(shù)選擇不當(dāng)會(huì)導(dǎo)致陷入局部最優(yōu),使識(shí)別效果變差。
文獻(xiàn)[12]采用遺傳算法(genetic algorithm,GA)分別優(yōu)化BPNN與PNN,并對(duì)PD信號(hào)進(jìn)行了識(shí)別。雖然識(shí)別效果優(yōu)于未改進(jìn)算法,但改進(jìn)之后的算法結(jié)構(gòu)更加復(fù)雜,需要調(diào)節(jié)的參數(shù)增加,導(dǎo)致訓(xùn)練迭代的計(jì)算時(shí)間增加且迭代過(guò)程中易陷入極小值。
分形特征由于其區(qū)分能力強(qiáng)而在信號(hào)處理領(lǐng)域被廣泛應(yīng)用。將分形特征應(yīng)用于牽引電機(jī)定子PD信號(hào)的特征提取,并與傳統(tǒng)特征結(jié)合再進(jìn)行降維,可以實(shí)現(xiàn)PD信號(hào)特點(diǎn)的更好表征,克服傳統(tǒng)方法的不足。
隨機(jī)森林算法是一個(gè)由決策樹(shù)分類器組成的集成算法,能夠較快地處理高維度數(shù)據(jù)且不易發(fā)生過(guò)度擬合,在模式識(shí)別領(lǐng)域有廣泛的應(yīng)用[13,14]。隨機(jī)森林算法在PD模式識(shí)別中的應(yīng)用較少。
基于上述分析,本文提出一種基于KPCA和隨機(jī)森林的牽引電機(jī)定子PD信號(hào)模式識(shí)別方法。將分形特征與傳統(tǒng)特征結(jié)合,以提高特征算法對(duì)PD信號(hào)的表征效果;采用KPCA算法代替常用的PCA特征降維算法,以深度挖掘特征信息,同時(shí)解決降維后易丟失重要信息的問(wèn)題;采用隨機(jī)森林算法進(jìn)行PD類型識(shí)別,發(fā)揮其處理高維度數(shù)據(jù)速度較快且不易發(fā)生過(guò)度擬合的優(yōu)勢(shì),提升識(shí)別效率。
分形理論提出,維數(shù)不一定是整數(shù),可以分?jǐn)?shù)的形式表示出,即分形維數(shù)[15,16]。
定義(F,D)為一個(gè)度量幾何空間的數(shù)學(xué)模型,設(shè)R是F的非空緊集族,令B(f,ε)為一個(gè)球心為f、半徑為正整數(shù)ε的封閉小圓球,將其視作一個(gè)小盒 子。設(shè)A?R2是一個(gè)非空集合,令N(A,ε)等于 覆蓋A的最小盒子數(shù),公式為:
式中:f1,f2,…,fM為F中的不同中心點(diǎn)。
進(jìn)一步對(duì)非空集合A進(jìn)行定義:
式中:g(x)為y對(duì)于X的映射函數(shù),是一個(gè)連續(xù)函數(shù)。
計(jì)算分形維數(shù):
針對(duì)采樣后的離散信號(hào),對(duì)公式(3)進(jìn)行簡(jiǎn)化。對(duì)接收的信號(hào)進(jìn)行離散化采樣后得s(t1),s(t2),···,s(tN+1)。對(duì)其進(jìn)行分組,N取偶數(shù),令:
式中:(dΔ)表示N組相鄰的采樣點(diǎn)之間幅度絕對(duì)值差的和。隨著采樣點(diǎn)跳變程度的變大,()dΔ的值也會(huì)越大。
簡(jiǎn)化后的分形維數(shù)計(jì)算公式如下:
由公式(5)可知,分形維數(shù)反映了各組相鄰離散采樣點(diǎn)之間幅度跳變程度的相互關(guān)系;所以,分形維數(shù)可以作為一種特征參數(shù),用以完成不同類型PD信號(hào)的識(shí)別。
KPCA算法是一種非線性數(shù)據(jù)降維算法,可以用來(lái)去掉不重要信息,具體運(yùn)算步驟如下[17,18]。
假設(shè)特征空間樣本滿足中心化,則特征空間F有協(xié)方差矩陣
引入n階核矩陣K,其第i行j列的元素為。求解矩陣的特征值和特征向量,兩邊同時(shí)乘以φ(xi),帶入。令,得
求解該式得到特征值λ1,λ2,…,λn及對(duì)應(yīng)的特征向量v1,v2,…,vn。前k個(gè)主成分所包含的信息 貢獻(xiàn)率如下
如果d維數(shù)據(jù)前k個(gè)特征值貢獻(xiàn)率明顯大于后d-k個(gè)特征值,則數(shù)據(jù)可以通過(guò)前k個(gè)特征向量來(lái)表達(dá)[19,20]。
本文采用KPCA算法進(jìn)行降維處理,選擇貢獻(xiàn)率大于90%的前幾個(gè)特征。
隨機(jī)森林(random forest,RF)算法:采用重抽樣法,從N個(gè)訓(xùn)練樣本集中隨機(jī)抽取樣本,重復(fù)N次組成一個(gè)與原訓(xùn)練樣本數(shù)目相同的新訓(xùn)練集。新訓(xùn)練集中的每個(gè)樣本被選中的概率均為1/N。這樣重復(fù)k次。將訓(xùn)練集分成k個(gè)新訓(xùn)練集,對(duì)新訓(xùn)練集進(jìn)行建模得到對(duì)應(yīng)k個(gè)互不相關(guān)的模型。以此模型為基礎(chǔ)構(gòu)成k個(gè)決策樹(shù),形成森林。通過(guò)每個(gè)模型對(duì)樣本各決策樹(shù)投票,哪一類得票多即歸為哪一類[21,22]。
RF算法可以有效解決過(guò)擬合和決策樹(shù)準(zhǔn)確性不高的問(wèn)題,其優(yōu)點(diǎn)是實(shí)現(xiàn)方式簡(jiǎn)單、分類準(zhǔn)確度高且分類速度快。算法訓(xùn)練步驟如下[23]。
步驟1:通過(guò)重抽樣方法,從原始樣本集中隨機(jī)選取k個(gè)訓(xùn)練樣本集和k個(gè)袋外數(shù)據(jù)集。袋外數(shù)據(jù)集對(duì)應(yīng)的決策樹(shù)會(huì)對(duì)樣本進(jìn)行投票得到預(yù)測(cè)結(jié)果,于是分類錯(cuò)誤樣本占總樣本的比率就是袋外誤差。可以直接使用袋外誤差對(duì)其進(jìn)行泛化性評(píng)估。
步驟2:從特征參數(shù)中隨機(jī)選取最優(yōu)特征,作為決策樹(shù)節(jié)點(diǎn)分裂的分裂屬性節(jié)點(diǎn)。
步驟3:用訓(xùn)練集和抽取的特征子集訓(xùn)練決策樹(shù)。k個(gè)訓(xùn)練樣本集分別得到k顆決策樹(shù)。
步驟4:將每顆決策樹(shù)的輸出結(jié)果線性集成,最終得到RF算法整體的輸出。最終的分類決策輸出為
式中:H(X)為組合分類模型;hi(x)為單個(gè)決策樹(shù)分類模型;Y為輸出變量;I(·)為指示函數(shù)。
為了驗(yàn)證本文方法的實(shí)用性,對(duì)牽引電機(jī)定子PD的表面放電、內(nèi)部放電、自由放電共3類特高頻故障信號(hào)進(jìn)行處理。
采樣頻率為2 GHz。每個(gè)PD信號(hào)含10 000個(gè)采樣點(diǎn)。對(duì)應(yīng)信號(hào)波形如圖1所示。
圖1 PD信號(hào)波形 Fig. 1 PD signal waveform
采用連續(xù)自適應(yīng)小波軟閾值去噪法進(jìn)行去噪處理。去噪后的信號(hào)波形如圖2所示。由圖2可以看出,PD信號(hào)已被有效分離出來(lái)。
圖2 PD信號(hào)去噪波形 Fig. 2 PD signal denoising waveform
通過(guò)集合經(jīng)驗(yàn)?zāi)B(tài)分解,將PD信號(hào)分解為各個(gè)固有模態(tài)分量(intrinsic mode function,IMF),進(jìn)而得到各個(gè)頻段的信號(hào)的特性。
自由放電去噪信號(hào)經(jīng)分解后,其波形如圖3、圖4所示。在信號(hào)分解后,進(jìn)一步對(duì)IMF進(jìn)行分形維數(shù)的計(jì)算,計(jì)算結(jié)果如圖5所示。
圖3 自由放電信號(hào)分解波形(IMF1—IMF4) Fig. 3 Free discharge signal decomposition waveform (IMF1—IMF4)
圖4 自由放電信號(hào)分解波形(IMF5—IMF8) Fig. 4 Free discharge signal decomposition waveform (IMF5—IMF8)
圖5 不同PD信號(hào)的分形維數(shù) Fig. 5 Fractal dimension of different PD signals
從圖5可以看出,不同類型的PD信號(hào)在各個(gè)IMF階次的分形維數(shù)存在著明顯不同,因此可以把PD信號(hào)在各個(gè)IMF上的分形維數(shù)作為模式識(shí)別的特征參數(shù)。
針對(duì)傳統(tǒng)PD特征對(duì)信號(hào)表征不明顯的問(wèn)題,將分形特征與傳統(tǒng)的時(shí)頻域特征結(jié)合,使特征能夠從不同角度刻畫(huà)PD信號(hào)的狀態(tài)。這些特征的名稱如表1所示。
表1 特征參數(shù)名稱 Tab. 1 Feature parameter name
表1中,序號(hào)為1—12的參數(shù)為時(shí)域特征參數(shù),13—16為頻域特征參數(shù),17—24為時(shí)頻域特征參數(shù),25—32為分形維數(shù)。
加入分形特征之后,數(shù)據(jù)特征維度會(huì)過(guò)高,這將導(dǎo)致識(shí)別速度慢;因此,有必要對(duì)特征集進(jìn)行數(shù)據(jù)挖掘降維。
由于PD信號(hào)的特征很難滿足線性關(guān)系,故采用KPCA降維——將非線性信號(hào)特征投影到高維空間,使其線性可分。
降維后的核主成分貢獻(xiàn)率越大,所含PD信息越相關(guān)。本文將貢獻(xiàn)率大于90%的前k個(gè)主特征作為分類器的輸入特征。
核主成分特征貢獻(xiàn)占比如圖6所示。從圖6中可見(jiàn),第1個(gè)核主成分的貢獻(xiàn)率占總貢獻(xiàn)率的45%左右,第2個(gè)核主成分的貢獻(xiàn)率占總貢獻(xiàn)率的15%左右,其中貢累計(jì)獻(xiàn)率超過(guò)90%的核主成分為前9個(gè);因此,本文選擇前9個(gè)核主成分作為輸入特征。
圖6 主成分貢獻(xiàn)率 Fig. 6 Principal component contribution rate
本文采用RF算法建立PD分類模型。首先,隨機(jī)選取450個(gè)樣本作為訓(xùn)練樣本進(jìn)行訓(xùn)練。訓(xùn)練結(jié)束后,用剩余的150個(gè)樣本測(cè)試PD模式識(shí)別的準(zhǔn)確性。
RF分類器性能分析如圖7所示:空間中央正方體部分為識(shí)別模糊區(qū)域,很難歸類;靠近端點(diǎn)處劃分明顯。
圖7 RF分類器性能分析 Fig. 7 RF classifier performance analysis
經(jīng)過(guò)計(jì)算,隨機(jī)森林算法對(duì)不同類型牽引電機(jī)定子PD類型的識(shí)別準(zhǔn)確率均在90%以上。
為了驗(yàn)證RF算法的優(yōu)勢(shì),選取遺傳算法優(yōu)化的反向傳播神經(jīng)網(wǎng)絡(luò)(GA-BP)、遺傳算法優(yōu)化的概率神經(jīng)網(wǎng)絡(luò)(GA-PNN)和DBN算法與RF算法進(jìn)行比較。分別輸入傳統(tǒng)特征(TR)與結(jié)合分形特征的降維特征(FR)進(jìn)行PD信號(hào)分類測(cè)試。
10次實(shí)驗(yàn)識(shí)別結(jié)果如圖8、圖9、表2所示。
表2 模式識(shí)別結(jié)果對(duì)比 Tab. 2 Pattern recognition results comparison
由圖8和圖9所示的識(shí)別準(zhǔn)確率曲線可以看出,相較于其他方法,F(xiàn)R特征和RF算法結(jié)合的牽引電機(jī)定子PD模式識(shí)別方法的識(shí)別結(jié)果更加準(zhǔn)確,其準(zhǔn)確率穩(wěn)定在90%以上。
圖8 基于分形降維特征的算法識(shí)別 Fig. 8 Algorithm recognition based on fractal dimension features
圖9 基于傳統(tǒng)的統(tǒng)計(jì)參數(shù)信號(hào)特征的算法識(shí)別 Fig. 9 Algorithm recognition based on traditional statistical parameter signal features
同時(shí),在多次測(cè)試中,隨機(jī)森林算法比其他算法的識(shí)別過(guò)程更加穩(wěn)定。
由表2可以得出:采用分形特征與傳統(tǒng)特征結(jié)合進(jìn)行KPCA降維,可以縮減PD模式識(shí)別所需時(shí)間。
本文提出了一種基于KPCA和RF的牽引電機(jī)定子PD模式識(shí)別方法:將牽引電機(jī)PD信號(hào)的分形特征與傳統(tǒng)特征結(jié)合,采用KPCA算法進(jìn)行降維處理,通過(guò)RF算法進(jìn)行PD類型識(shí)別。
(1)將傳統(tǒng)特征與分形特征融合,可以更好地表征不同類型PD信號(hào)的特點(diǎn)。
(2)與普通降維算法相比,KPCA算法不僅減少了特征參數(shù)的數(shù)目且更好地保留了PD信號(hào)的特征信息,縮減了PD模式識(shí)別的時(shí)間。
(3)相比于其他的識(shí)別算法,RF算法在識(shí)別過(guò)程中準(zhǔn)確率與識(shí)別穩(wěn)定性有顯著的提高:識(shí)別準(zhǔn)確率均在90%以上,識(shí)別時(shí)間均在0.5 s以下。
綜上所述,本文所提方法明顯優(yōu)于傳統(tǒng)特征參數(shù)和其他常用識(shí)別算法。