丁 鑫, 竺紅衛(wèi), 殷浩楠, 王一聞
(浙江大學 電氣工程學院,浙江 杭州 310000)
基于機器學習方法的直流電弧故障檢測*
丁 鑫, 竺紅衛(wèi), 殷浩楠, 王一聞
(浙江大學電氣工程學院,浙江杭州310000)
為了解決傳統分析方法在直流供電系統中電弧故障檢測的精確度不足及過程繁瑣的問題,將直流電弧故障檢測歸為二分類問題,引入機器學習方法,通過直流電弧實驗得到正常狀態(tài)和電弧狀態(tài)的數據,從時域中提取電流均值等4個特征,從頻域中提取高頻分量標準差等3個特征。利用提取到的特征對支持向量機(SVM)進行訓練,利用求解得到的模型對測試數據集進行分類,分類準確率為94.483 %。結果證明:所提方法能有效檢測直流電弧故障,提高故障檢測精度,且步驟精簡,易于推廣。
直流電?。?故障檢測; 特征提取; 機器學習; 支持向量機
直流電源廣泛應用于航天器的供電系統[1]、汽車的電氣系統[2],這些電力電子系統也是發(fā)生直流電弧故障的重災區(qū)[3],如果不能及時檢測并排除故障,直流電弧將危害電源系統和控制系統,嚴重時還會引發(fā)火災。不同于交流電弧的周期性,直流電弧的隨機性和不穩(wěn)定性使故障檢測變得困難。目前常用的分析技術有時頻分析[4]、小波包分析[5]、神經網絡[6]、馬氏距離[7]、共振電路[8]等。本文從統計學角度對故障電弧的特征進行提取,并明確了各特征量所表征的含義,給出計算公式,采用機器學習的分類方法進行故障檢測,針對特定的電路環(huán)境有較高的精確度和穩(wěn)定性,并且易于推廣。根據負載連接方式的不同,電弧故障可以分為兩類:串聯和并聯。串聯電弧較為普遍,也更難檢測。
本文以串聯電弧為主要研究對象,進行串聯電弧實驗獲取數據,以及時、頻域分析提取特征,利用訓練數據集求解模型,對測試數據集進行分類預測,驗證理論模型的有效性。
1.1 實驗系統
實驗平臺由2個子系統組成:電弧發(fā)生系統,主要包括電弧發(fā)生裝置、負載和開關等;數據采集裝置,主要用來采集電路正常狀態(tài)和電弧狀態(tài)的數據。實驗在普通室內環(huán)境中進行,圖1為系統電路。市電220 V/50 Hz進入電路,通過AC-DC轉換為直流電,電弧發(fā)生裝置、負載和數據采集裝置串聯在電路中。根據文獻[4,9~12],直流故障電弧的研究通常采用美國標準UL1699B建議的電弧發(fā)生裝置,如圖2所示。實驗過程中,保持總開關S1閉合,先將S2和S3閉合,使負載處于正常工作狀態(tài),采集數據,然后將S3斷開,使得電弧發(fā)生裝置和負載處于串聯狀態(tài),此時緩慢移動電弧發(fā)生裝置的移動電極,產生串聯電弧,采集故障數據,最后將電極緩慢移動到原來的位置,使電弧發(fā)生裝置閉合,斷開S1。
圖1 實驗系統電路
圖2 電弧發(fā)生裝置
1.2 實驗結果
采樣頻率為5 MHz,采樣數據如圖3所示。分析圖3可知,在正常工作狀態(tài)下,電流波動較小,在電弧故障狀態(tài)中,電流波動較大??梢苑謩e在正常狀態(tài)和故障狀態(tài)選取訓練數據集以及測試數據集,便于后續(xù)的分析。
圖3 原始數據波形
對于時、頻域特征的提取現有的分析方法通常采用閾值法,存在以下缺點:對于噪聲的敏感度較高;對于類弧負載的故障檢測精確度不高;閾值的確定隨機性較大。
本文對于時、頻域分析的目的是確定特征向量的分量,分量值經過歸一化處理消除由于環(huán)境因素導致的隨機性,同時又保持了相對差異。采用時間窗的方法進行特征提取,窗口長度1 ms,包含5 000個數據點,可以降低特征向量對于噪聲點的敏感度。特征向量包含多個分量,每個分量均為一個屬性,特征向量訓練后的模型檢測精度較高。
2.1 時域特征
1)電流的移動平均值,計算如下
(1)
式中fi為原始數據在時間刻度i上的值;F1t為處理后的特征數據在時間刻度t上的值;n為時間窗口的長度,即1個窗口內的數據容量,文中為5 000。移動平均的處理過程可以降低特征對于噪聲點的敏感度。
2)電流的移動最值差
移動最值差可以將發(fā)生電弧故障時的電信號突變量提取出來。設在一個窗口內,原始數據的最大值為fmax,最小值為fmin,則該特征值為
F2t=fmax-fmin
(2)
3)前、后時間窗電流值之差的均值
(3)
式中f1i為當前窗口內,原始數據在時間刻度i的值;f2j為下一個窗口內,原始數據在時間刻度j的值。該特征可以提取電弧故障狀態(tài)和正常狀態(tài)的整體電信號變化趨勢。
4)電流變化率平均值
表示電流的平均變化情況,其正常狀態(tài)和故障狀態(tài)下不同
(4)
式中 Δt為相鄰采樣點之間的時間間隔,Δt=0.2 ms。
5)上述4個時域特征提取結果如圖4所示。
圖4 時域特征提取結果
2.2 頻域特征
1)頻譜標準差
(5)
式中μ為一組數據的算術平均值;xi為頻譜中位置i上的數據值;N為頻譜中的數據容量。
2)高、低頻分量之差的平均值
特征計算式為
(6)
將前1/2頻域定義為低頻,后1/2頻域定義為高頻,高、低頻分量之差的平均值可以表征信號在頻域中的分布情況,兩者正常狀態(tài)和故障狀態(tài)下的頻域分布不同。
3)前、后窗各頻率分量相關系數
本文采用皮爾遜積差系數,特征計算式為
(7)
式中E為數學期望;X1為當前窗口內,表示頻譜數據集的隨機變量;X2為下一個窗口內,表示頻譜數據集的隨機變量;cov(X1,X2)為X1與X2的協方差;σX1,σX2為標準差。
(8)
電路分別在不同狀態(tài)下持續(xù)工作時,相鄰窗口內數據的相關系數不同。
4)上述3個頻域特征提取結果如圖5所示。
圖5 頻域特征提取結果
故障電弧檢測的最終結果僅有2種情況,本文采用支持向量機(support vector machines,SVM)作為分類器。
3.1 SVM
1)幾何間隔與函數間隔
設有分離超平面s∶w·x+b=0,訓練數據集T,定義s關于樣本點(xi,yi)的幾何間隔為
(9)
s關于T的幾何間隔定義為s關于T中所有樣本點的幾何間隔之最小值,即
(10)
定義s關于樣本點(xi,yi)的函數間隔為
(11)
s關于T的函數間隔定義為s關于T中所有樣本點的函數間隔之最小值,即
(12)
2)間隔最大化:在一定約束條件下,使s關于T的幾何間隔最大,即
(13)
(14)
對于線性不可分情況,引入懲罰參數C,同時對每個樣本點(xi,yi)設置松弛變量ξ≥0,引入拉格朗日函數
(15)
式中α為拉格朗日乘子向量;αi≥0且ηi≥0。代入原問題,得到對偶問題
(16)
w*·x+b*=0
分類決策函數為
f(x)=sign(w*·x+b*)
(17)
3)用核函數K(xi·xj)代替式(16)中的內積xi·xj,可將其推廣到非線性支持向量機。本文采用高斯核函數
式中ε>0,為核半徑。代入式(16)中,可得
(18)
3.2 訓練數據集確定
訓練數據集中樣本點的格式(y,x),其中x代表特征向量,其每一個分量x(i)代表一個特征值,y代表分類標簽,只有兩個取值:+1和-1。+1表示正常狀態(tài),-1表示電弧故障狀態(tài)。從正常狀態(tài)的數據中選取100 000組作為訓練數據集的+1樣本,從故障狀態(tài)的數據中選取110 000組作為訓練數據集的-1樣本,因此,訓練數據集為一個m×(n+1)的矩陣
(19)
式中m=2.1×105,為樣本點的個數,即數據集容量;n=7,為特征向量包含7個分量。第1列表示標簽值,后面的7列依次表示7個特征值,訓練數據集的一行,對應于特征空間中的一個向量。
3.3 訓練結果分析
對模型進行訓練,選擇懲罰參數C=10,核函數參數1/(2ε2)=0.142 9,求解得到的模型結構體成員如表1。
表1 分類模型結構體成員
參數矩陣的第一行表示SVM類型,第二行表示核函數類型,第三和第五行為多項式核函數的參數值,本文選用默認值,表示未選用多項式核函數,第四行表示高斯核函數中的參數值;樣本只有兩類,因此,分類個數為2;總支持向量表示訓練后的模型包含的支持向量個數,本文訓練后的模型包含6 370個支持向量,由分類支持向量可知,標簽為1的支持向量有942個,標簽為-1的支持向量有5 428個;-b為分類決策函數f(x)=sign(w·x+b)中的-b。
在非線性的分類問題中,核函數的作用是將輸入樣本映射到高維特征空間中,從而轉化為線性可分問題。將訓練結果在時域特征一、時域特征二、頻域特征二組成的三維空間中進行展示,如圖6所示。
圖6 三維空間中的訓練結果
4.1 測試數據集確定
測試數據集格式與訓練數據集相同,但標簽列并不參與具體的分類運算,僅為了與分類結果作對比,用以計算分類準確率,這一點與模型訓練不同。從正常狀態(tài)的數據中選取50 000個樣本,從故障狀態(tài)的數據中選取50 000個樣本,用已經得到的分類器對其進行分類。
4.2 測試結果分析
測試結果由3個參數表示:1)predicted_label:一維矩陣,僅含有1列,保存對應測試樣本的分類結果標簽;2)accuracy:保存分類準確率;3)prob_estimates/decision_values:二維矩陣,含有2列,保存對應測試樣本分屬兩類的概率。
測試結果在三維以上的高維空間,為了直觀展示測試數據集和支持向量,將其投影到由時域特征一、時域特征二、頻域特征二組成的三維空間,如圖7所示。投影到二維平面,如圖8所示。
圖7 三維空間中的測試結果
圖8 二維平面上的測試結果
圖7和圖8表明,得到的分類準確率為94.483 %,即在全部100 000個測試樣本中,共有94 483個樣本分類正確,誤分類率低于10 %。為了進一步降低誤分類率和時間成本,有以下幾個措施可供參考:1)對數據進行預處理,比如原始數據的降噪[13]、基于小波變換的預分析[14]等;2)優(yōu)化模型參數,SVM可優(yōu)化參數主要有懲罰因子C和高斯核半徑ε;3)核函數的選擇,高斯核函數具有不易過擬合、計算精度高等優(yōu)點,但存在計算復雜度高等缺點。
通過實驗對正常狀態(tài)和電弧故障狀態(tài)下的電路數據進行采樣,提取時域和頻域特征,共7個特征。選擇100 000個正例樣本和110 000個負例樣本組成訓練數據集,對SVM進行訓練,求解得到分離超平面和分類決策函數,包含942個正例支持向量和5 428個負例支持向量。分別選取50 000個正例樣本和50 000個負例樣本對分類器進行測試。結果表明:在100 000個測試數據中,正確分類的有94 483個樣本,分類準確率較高,說明本文提出的檢測方法可以較好地識別直流故障電弧。
[1] Faifer M,Ottoboni R, Rossi M,et al.A method for the detection of series arc faults in DC aircraft power networks[C]∥2013 IEEE International Instrumentation and Measurement Technology Conference(I2MTC),IEEE,2013:778-783.
[2] Schoepf T J,Naidu M.Mitigation and analysis of arc faults in automotive DC networks[C]∥2003 Proceedings of the Forty-Ninth IEEE Holm Conference on Electrical Contacts,IEEE,2003:163-171.
[3] 陳思磊,李興文,屈建宇.直流故障電弧研究綜述[J].電器與能效管理技術,2015(15):1-6.
[4] Yao X,Herrera L,Huang Y,et al.The detection of DC arc fault:Experimental study and fault recognition[C]∥2012 Twenty-Seventh Annual IEEE Applied Power Electronics Conference and Exposition(APEC),IEEE,2012:1720-1727.
[5] Yao X,Herrera L,Wang J.A series DC arc fault detection method and hardware implementation[C]∥2013 Twenty-Eighth Annual IEEE Applied Power Electronics Conference and Exposition(APEC),IEEE,2013:2444-2449.
[6] 王 莉,阮立剛.一種直流故障電弧在線檢測方法和保護裝置:中國,1039133663A[P].2014—07—09.
[7] 王 莉,楊善水,曹 璐.一種直流故障電弧檢測方法及裝置:中國,102253293A[P].2011—11—23.
[8] Rabla M,Tisserand E,Schweitzer P,et al.Arc fault analysis and localisation by cross-correlation in 270 V DC[C]∥2013 IEEE 59th Holm Conference on Electrical Contacts,Holm 2013,IEEE,2013:1-6.
[9] Gao Y,Zhang J,Lin Y,et al.An innovative photovoltaic DC arc fault detection method through multiple criteria algorithm based on a new arc initiation method[C]∥2014 IEEE 40th Photovoltaic Specialist Conference(PVSC),IEEE,2014:3188-3192.
[10] Yao X,Herrera L,Ji S,et al.Characteristic study and time-domain discrete-wavelet-transform based hybrid detection of series DC arc faults[J].IEEE Transactions on Power Electronics,2014,29(6):3103-3115.
[11] Yuan Liu,Shengchang Ji,Jin Wang,et al.Study on characteristics and detection of DC arc fault in power electronics system[C]∥2012 International Conference on Condition Monitoring and Diagnosis(CMD),IEEE,2012:1043-1046.
[12] 嚴 癑,嚴 實,楊永斌,等.Adaboost集成BP神經網絡在火電廠SO2濃度檢測中的應用[J].傳感器與微系統,2016,35(9):148-151.
[13] 韋高梧,馮祖勇.基于去噪技術的DSP語音識別系統設計[J].傳感器與微系統,2017,36(1):108-111.
[14] 馬子驥,鐘廣超,劉宏立,等.小波變換的稀疏最優(yōu)化信號趨勢項提取方法[J].傳感器與微系統,2017,36(1):27-30.
DCarcfaultdetectionbasedonmachinelearningmethod*
DING Xin, ZHU Hong-wei, YIN Hao-nan, WANG Yi-wen
(SchoolofElectricalEngineering,ZhejiangUniversity,Hangzhou310000,China)
In order to solve the problems that in direct current(DC) power supply system,accuracy of arc fault detection is insufficient and the process is tedious with the traditional analysis method.The DC arc fault detection is classified into two classification problems while the machine learning method is used.The data of normal state and arc fault state are obtained by DC arc experiment.Extract four features from time domain,including the average current and so on.At the same time, extract three characteristics from frequency domain,such as standard deviation of high frequency component,etc.By training support vector machine(SVM)using the extracted features above, classification model is obtained.The accuracy of classification of the test data set by the model is 94.483 %,the result proves that this method can be used to detect DC arc fault effectively,improve detection precision,and can be popularized easily because of simple steps.
direct current(DC) arc; fault detection; feature extraction; machine learning; support vector machine(SVM)
10.13873/J.1000—9787(2017)11—0123—05
TP 391; TM 501.2
A
1000—9787(2017)11—0123—05
2017—01—21
浙江省科技技術應用研究計劃資助項目 (2015C3115)
丁 鑫 (1991-),男,碩士研究生,主要研究方向為故障電弧的信號分析、特征提取與模式識別。