基于WMRMR的滾動軸承混合域特征選擇方法
戴豪民,許愛強,李文峰,孫偉超
(海軍航空工程學院飛行器檢測與應用研究所,山東煙臺264001)
摘要:為充分利用時域、頻域以及時頻域中的有效特征,提高滾動軸承故障診斷準確率,提出一種混合域特征集構建方法,利用原始信號分別生成時域和頻域特征集,通過經驗模式分解提取固有模態(tài)函數(shù)的排列熵和Hilbert譜的奇異值作為時頻域特征集,使得混合域特征集比單域特征更能全面準確反映軸承運行狀態(tài)。針對混合域特征集存在維數(shù)過高、特征之間冗余性嚴重的問題,采用加權最大相關最小冗余的特征選擇方法,以支持向量機分類正確率為依據(jù),選取7個有效特征向量。實驗結果表明:基于WMRMR的混合域特征選擇方法的分類準確率可達98%,能夠有效的識別軸承故障信息。
關鍵詞:混合域;經驗模式分解;Hilbert譜奇異值;排列熵;加權最大相關最小冗余
中圖分類號:TN911.7;TH165
文獻標志碼:A
DOI:10.13465/j.cnki.jvs.2015.19.009
Abstract:In order to improve the accuracy of rolling bearings fault diagnosis by making full use of effective features in time domain,frequency domain and time-frequency domain, a mixed domain feature construction approach was proposed. With it, time domain and frequency domain features were generated using the original signals, permutation entropies of intrinsic mode functions obtained with EMD and singular values of Hilbert spectrum were extracted as time-frequency domain feature sets, and mixed domain feature sets were made to more fully and accurately reflect bearing running states than the single domain features do. Aiming at mixed domain feature sets having shortcomings of too high dimensions and serious redundancy, a feature selection method based on weighted minimal redundancy maximal relevance (WMRMR) was proposed, it could select seven major feature vectors based on the classification accuracy of support vector machine. The test results showed that the classification accuracy of mixed domain feature selection can reach 98% based on WMRMR, and it can effectively identify the bearing fault information.
基金項目:國家自然科學基金(11202162);中國博士后科學基金(2014M560803)
收稿日期:2014-11-25修改稿收到日期:2015-03-31
Fault diagnosis of rolling bearings in mixed domain based on WMRMR
DAIHao-min,XUAi-qiang,LIWen-feng,SUNWei-chao(Institute of Aircraft Detection and Application,College of Naval Aeronautical and Engineering, Yantai 264001, China)
Key words:mixed domain; empirical mode decomposition (EMD); singular values of Hilbert spectrum; permutation entropy; weighted minimal redundancy maximal relevance (WMRMR)
滾動軸承發(fā)生故障時常會引起非線性、非平穩(wěn)振動,對其故障進行診斷的關鍵是如何從非線性、非平穩(wěn)信號中提取典型故障特征信息[1]。目前,針對非平穩(wěn)信號的時頻域分析方法,如小波變換[2]和經驗模式分解[3](Empirical Mode Decomposition,EMD),已經廣泛應用于旋轉機械故障診斷中。但是,作者對西儲大學軸承數(shù)據(jù)中心提供的實測數(shù)據(jù)[4]仿真發(fā)現(xiàn),時頻域特征提取方法有時并不能達到理想的診斷效果。由于單域特征難以全面、準確地刻畫出復雜機械系統(tǒng)不同類型的故障特性,本文提出一種混合域故障診斷方法,充分利用時域、頻域、時頻域典型故障特征信息,使得混合域特征集比單域特征更能全面準確反映軸承運行狀態(tài)。針對混合域特征集存在維數(shù)過高、特征之間冗余性嚴重等問題,采用加權最大相關最小冗余(Weighted Minimal Redundancy Maximal Relevance,WMRMR)的特征選擇方法,以支持向量機(Support Vector Machine,SVM)的分類正確率為依據(jù),實現(xiàn)特征的有效選擇。
1混合域特征集的構成
1.1時域和頻域特征集生成
時域指標是一種比較直觀的信號特征,可以通過觀察信號的時域統(tǒng)計特征來辨別軸承故障。本文主要引進6個常用的特征量以及文獻[5]提出的2個特征量TALAF指標和THIKAT指標,組成8維時域特征向量構成時域特征集。
時域特征所能提供的信息量是非常有限的,軸承在發(fā)生故障時,振動信號的頻域中也蘊含了大量的對診斷有用的信息,可以通過傅里葉分析方法將其提取出來。本文主要引進3個常用的特征量構成頻域特征集。
時域、頻域特征向量見表1,其具體定義可以參見文獻[5-6]。
表1 時域、頻域特征集
1.2時頻域特征集生成
軸承故障的重要信息往往包含在瞬態(tài)信號或突變信號中,而單一的時域或頻域特征只能對信號進行整體刻畫,不能同時對信號進行局域性分析?;贓MD的時頻分析方法可以從不同尺度對信號的局部特征進行描述,能夠準確的刻畫信號的時頻特性。為了較全面的描述振動信號的時頻域特征,本文從能量和復雜度兩個層面,分別選取Hilbert譜奇異值和固有模態(tài)函數(shù)(Intrinsic Mode Function,IMF)的排列熵(Permutation Entropy,PE)作為時頻域的特征向量。
1.2.1基于Hilbert譜奇異值的時頻域特征
Hilbert譜作為軸承振動信號的一種時頻域表示方法,描述了信號的幅值在整個頻率段上隨時間和頻率的變化規(guī)律,同時Hilbert譜也包含了軸承信號大量的特征信息[7]。對Hilbert譜進行奇異值分解,將得到的奇異值作為特征向量,也是一種有效的特征選擇方法[8]??紤]到軸承故障信息主要包含在前幾個較大的奇異值中,本文選取Hilbert譜中前5個奇異值構建時頻域特征向量TF1=[λ1,λ2,λ3,λ4,λ5]。
1.2.2基于IMF排列熵的時頻域特征
復雜度是刻畫非線性時間序列的一個重要指標,它反映了信號序列的混亂程度[9]。軸承正常運行時,其波形為平穩(wěn)的隨機信號。軸承出現(xiàn)故障時,由于激起系統(tǒng)的共振頻率,振動信號會變得越來越復雜,越來越不平穩(wěn)。從時域的角度上看,其波形將會產生新的振動模式或狀態(tài);從頻域的角度上看,其頻率結構發(fā)生了改變,產生新的頻率成分。復雜度正是反映了一個時間序列隨著序列長度的增加出現(xiàn)新模式的速率。因此,一個時間序列的復雜度能夠描述出系統(tǒng)狀態(tài)發(fā)生變化的情況。所以從這個意義上來說,可以用復雜度刻畫軸承振動信號隨時間變化的狀態(tài)。
排列熵作為時間序列復雜度的一種度量[10],可以用來檢測時間序列的動力學突變,能夠敏感地捕捉軸承振動信號的故障信息,所以本文提取各IMF排列熵作為特征向量,考慮到軸承故障信息主要包含在高頻帶,計算信號前5個IMF 排列熵,構建時頻域特征向量TF2=[PE1,PE2,PE3,PE4,PE5],其中排列熵的定義為:
(1)
式中,Pj為不同符號序列出現(xiàn)的概率,k=n-(m-1)τ,n,m和τ分別為原始信號的序列長度、嵌入維數(shù)和延遲時間。
2加權最大相關最小冗余算法
最大相關最小冗余算法(Minimal Redundancy Maximal Relevance,MRMR)使用互信息衡量特征的相關性與冗余度,并使用信息差和信息熵兩個代價函數(shù)來構建特征子集的搜索策略[11]。MRMR算法中最大相關和最小冗余的定義分別如式(2)和式(3)所示:
(2)
(3)
結合以上兩個測度指標,就可以得到MRMR算法的兩個評價函數(shù)來指導特征子集的選擇,即:
maxΦ1(D,R),Φ1=D-R
(4)
maxΦ2(D,R),Φ2=D/R
(5)
在式(4)中,刻畫相關性的互信息值D與刻畫冗余度的互信息值R是賦予相同的權重。但是實際應用中,一些特征既具有較大相關性又具有較大的冗余度,MRMR算法對這類特征篩選出的特征子集并不是最佳的。WMRMR通過引入權重因子μ來權衡相關性和冗余性的度量,以獲得最好的特征選擇結果,相應地MRMR評價函數(shù)可以修正為[12]:
maxΦ3(D,R),Φ3=μD-(1-μ)R
(6)
式中,μ的取值范圍是0≤μ≤1,當μ=0.5時,式(6)就退化為式(4)的標準MRMR評價函數(shù)。
3基于WMRMR的軸承信號特征提取方法
為了驗證WMRMR算法所選擇的特征子集的優(yōu)劣,本文采用支持向量機的分類準確率作為評價指標,實驗步驟如下:
步驟1選取軸承正常態(tài)、內圈故障態(tài)、外圈故障態(tài)以及滾動體故障態(tài)四類樣本,每種狀態(tài)包含50個樣本。為了方便對特征進行排序,分別對時域、頻域以及時頻域特征進行編號,其中,時域特征的有效值、峰值、峭度、峰值因數(shù)、脈沖因數(shù)、裕度因數(shù)、TALAF、THIKAT編號為1~8,頻域特征的重心頻率、均方頻率、頻率方差編號為9~11,時頻域特征IMF排列熵編號為12~16,Hilbert譜奇異值編號為17~21。
步驟2將權重因子μ以0.1為步長進行賦值,即μi=0,0.1,…1,i=1,2,…,11,采用WMRMR分別得到與權重因子μi對應的一組候選特征集Si。
按照步驟1、2即可求取不同權重因子μ對應的特征子集,將特征子集按Φ3(D,R)進行降序排列的結果見表2。
表2 特征降序排列分布
由表2可知,不同權重因子排序后的特征子集的次序是不同的,這表明權重因子能夠細致地區(qū)分特征的敏感程度。按照步驟3和4采用SVM分類器測試特征子集,并按照特征排序結果逐一添加特征,所得分類正確率的變化情況見圖1。
圖1 不同權重因子對應的分類準確率曲線 Fig.1 Classification accuracy curves corresponding to different weighting factors
從圖1可以看出,隨著特征數(shù)量的增加,分類正確率首先逐漸增大,當達到一個峰值后,將基本保持不變或下降。這表明峰值之后增加的特征沒有改善分類效果,有些反而給分類帶來了不利影響。同時,不同權重因子對應的最高分類準確率也不同,當μ=0,μ=0.1,μ=0.3時,可以達到最高分類準確率98.5%,而μ=0.3時達到最高分類準確率所需的特征個數(shù)最少,僅為7個,所以本文選取權重因子μ=0.3時對應的前7個特征向量做為最終的特征子集,對應的特征分別是λ1、有效值、重心頻率、TALAF、PE1、λ4、λ2。
為了說明本文方法的優(yōu)越性,參照文獻[13]采用核主成分分析方法對原始特征集合進行降維處理,核函數(shù)選用高斯核,核參數(shù)取100。保留原始數(shù)據(jù)95%的方差,可將原始特征集降成9維的特征子集,具體結果見圖2。將得到的200×9的訓練集矩陣輸入SVM中訓練,采用網(wǎng)格搜索法來獲得最佳的分類準確率,其中,網(wǎng)格搜索的范圍是[2-8,28]。從圖3可以看出,利用核主成分分析選擇出的特征子集,其分類準確率最高能達到96.5%。通過以上對比分析可以發(fā)現(xiàn),基于WMRMR的特征選擇方法不僅分類準確率更優(yōu),而且特征子集的維數(shù)更低。
圖2 原始特征集核主成分分析結果 Fig.2 The kernel principal component analysis’s result of original feature set
圖3 網(wǎng)格搜索分類準確率 Fig.3 Classification accuracy of grid search
4基于支持向量機的軸承故障診斷實例
為了驗證2.3小節(jié)選擇出的混合域特征子集的故障診斷效果,本文仍選取上述四類狀態(tài)樣本進行仿真,其中,每種狀態(tài)包含100個樣本,50個用于SVM訓練,50個用于測試。圖4是訓練集的網(wǎng)格搜索分類準確率,高達99.5%。表3是最終測試集的分類準確率,整體分類準確率為98%。表4是基于IMF排列熵的SVM診斷結果,從這兩個表的對比結果可以明顯看出:混合域的分類效果要明顯優(yōu)于單一的時頻域分類效果。
表3 基于混合域的SVM診斷結果
圖4 訓練集網(wǎng)格搜索分類準確率 Fig.4 Classification accuracy of training set by means of grid search
故障模式測試樣本數(shù)錯分樣本數(shù)分類準確率/%正常60296.67內圈601181.67外圈60690滾動體601280總計2403187.08
圖5 遺傳算法參數(shù)尋優(yōu)適應度曲線 Fig.5 Fitness curve of parameter optimization by genetic algorithm
圖6 粒子群算法參數(shù)尋優(yōu)適應度曲線 Fig.6 Fitness curve of parameter optimization by particle swarm optimization
為了說明特征選擇的重要性,分別采用遺傳算法和粒子群算法對SVM進行參數(shù)尋優(yōu)。從圖5和圖6可以看出,這兩種方法可以很“輕松”的使訓練集的分類準確率達到99%,這充分說明了特征向量的選擇至關重要,“優(yōu)秀”的特征向量對模式識別起到決定性作用,從另一方面也說明了本文提出的混合域的故障診斷方法能夠有效的識別軸承故障信息。
5結論
(1)混合域特征集比單域特征更能全面、準確地反映軸承運行狀態(tài)。
(2)加權最大相關最小冗余特征選擇方法能夠有效的提取敏感特征向量,與核主成分分析方法相比,不僅分類準確率更高,而且特征子集的維數(shù)更低。
(3)特征向量的有效選擇關系到故障診斷效果的好壞,本文提出的基于WMRMR的混合域特征選擇方法分類準確率可達98%,能夠有效的識別軸承故障信息。
參考文獻
[1]Randall R B, Antoni J. Rolling element bearing diagnostics A tutorial[J]. Mechanical Systems and Signal Processing, 2011, 25(2): 485-520.
[2]羅榮,田福慶,李克玉,等.卷積型小波變換實現(xiàn)及機械早期故障診斷應用[J]. 振動與沖擊, 2013, 32(7): 64-69.
LUO Rong, TIAN Fu-qing, LI Ke-yu, et al. Realization of convolution wavelet transform and its application in mechanical incipient fault diagnosis[J]. Journal of Vibration and Shock, 2013, 32(7): 64-69.
[3]張超,陳建軍,郭迅.基于EMD能量熵和支持向量機的齒輪故障診斷方法[J].振動與沖擊, 2010, 29(10): 216-220.
ZHANG Chao, CHEN Jian-jun, GUO Xun. A gear fault diagnosis method based on EMD energy entropy and SVM [J]. Journal of Vibration and Shock, 2010, 29(10): 216-220.
[4]The Case Western Reserve University Bearing Data Center Website [DB/OL]. http://csegroups.case.edu/bearingdatacenter/pages/download-data-file
[5]Sassi S, Badri B, Thomas M. TALAF and THIKAT as innovative time domain indicators for tracking ball bearings[C]//Proceedings of the 14th Seminar on Machinery Vibration, Vancouver, IEEE, 2006: 24-27.
[6]楊國安.滾動軸承故障診斷實用技術[M].北京:中國石化出版社,2012:65-70.
[7]Huang N E, Shen Z, Long S R, et al. The empirical mode decomposition and the hilbert spectrum for nonlinear and non-stationary time series analysis [J]. Proceedings of the Royal Society of London Series A: Mathematical, Physical and Engineering Sciences, 1998, 454(1971): 903-995.
[8]趙志宏,楊紹普,李韶華.基于Hilbert譜奇異值的軸承故障診斷[J].中國機械工程, 2013, 24(3): 346-350.
ZHAO Zhi-hong, YANG Shao-pu, LI Shao-hua. Bearings fault diagnosis based on singular values of Hilbert spectrum [J]. China Mechanical Engineering, 2013, 24(3): 346-350.
[9]饒國強,馮輔周,司愛威,等. 排列熵算法參數(shù)的優(yōu)化確定方法研究[J]. 振動與沖擊, 2014,33(11): 188-193.
RAO Guo-qiang, FENG Fu-zhou, SI Ai-wei, et al. Method for optimal determination of parameters in permutation entropy algorithm [J]. Journal of Vibration and Shock, 2014, 33(1): 188-193.
[10]Bandt C, Pompe B. Permutation entropy: a natural complexity measure for time series [J]. Physical Review Letters, 2002, 88(17): 1-4.
[11]Ding C, Peng H. Minimum redundancy feature selection from microarray gene expression data [J]. Journal of Bioinformatics and Computational Biology, 2005, 3(2): 185-205.
[12]李揚,顧雪平.基于改進最大相關最小冗余判據(jù)的暫態(tài)穩(wěn)定評估特征選擇[J].中國電機工程學報, 2013, 33(34): 179-186.
LI Yang, GU Xue-ping. Feature selection for transient stability assessment based on improved maximal relevance and minimal redundancy criterion [J]. Proceedings of the CSEE, 2013, 33(34): 179-186.
[13]彭濤,楊慧斌,李健寶,等.基于核主元分析的滾動軸承故障混合域特征提取方法[J]. 中南大學學報:自然科學版, 2011, 42(11): 3384-3391.
PENG Tao, YANG Hui-bin, LI Jian-bao, et al. Mixed-domain feature extraction approach to rolling bearings faults based on kernel principle component analysis[J]. Journal of Central South University:Science and Technology, 2011, 42(11): 3384-3391.
第一作者王偉男,博士生,1988年8月生
通信作者周洲女,博士,教授,博士生導師/長江學者,1966年生