喬保棟,陳果,葛科宇,曲秀秀
(南京航空航天大學 民航學院,南京 210016)
滾動軸承的運行狀態(tài)往往直接影響到整臺機器的精度、性能、可靠性及壽命等,因此,對軸承的狀態(tài)監(jiān)測與故障診斷具有重要意義[1]。軸承故障診斷有多種方法,其中振動法由于其適用性強、效果好、測試及信號處理簡單直觀而被廣泛應用。振動信號的時域參數(shù)可以實現(xiàn)對軸承的簡易診斷,即判斷軸承是否存在故障。要精確判斷軸承故障發(fā)生在哪個元件上,就需進行頻域分析。軸承故障信號具有信號微弱、調制性強以及頻帶范圍寬等特征,目前小波變換已被廣泛應用于軸承故障診斷[2-3]。Hilbert-Huang變換中的EMD具有自適應性、正交性與完備性及IMF分量的調制特性等突出特點,目前已有許多研究者將Hilbert-Huang變換應用于軸承故障診斷[4-5]。如何綜合運用時域和頻域方法,并對大量信息進行處理和綜合利用軸承故障診斷技術是需要重點研究的問題。診斷的核心問題是模式識別,包括模式獲取和模式匹配兩個過程,軸承故障診斷的主要問題是故障特征模式提取,也就是知識獲取的問題[6]。
有鑒于此,文中對數(shù)據(jù)挖掘技術在軸承故障診斷中的應用進行了探索,從大量的軸承振動信號中獲取能夠反映軸承運行狀態(tài)的時域參數(shù)和小波包絡譜特征參數(shù),建立基于Weka平臺知識獲取的故障智能診斷方法,對軸承的故障進行診斷。
一般來說,安裝在軸承座上的傳感器拾取到的軸承振動信號是一組寬帶信號,隨機性比較強。因此,可以通過軸承振動信號的時域參數(shù)所構成的特征向量來反映軸承的運行狀態(tài)。目前,對軸承振動信號進行時域處理常用的參數(shù)指標主要有均方根值、峰值、峰值因子、脈沖因子、裕度因子、波形因子和峭度等。
由文獻[8]得知,小波包絡譜能夠體現(xiàn)軸承的故障特征頻率,為識別軸承故障部位提供重要判據(jù)。因此可以借助小波包絡譜來自動獲取其頻率特征,從而為智能診斷提供征兆信息。
小波包絡譜特征提取具體計算步驟為:
(1)按統(tǒng)一的采樣頻率進行重采樣,使小波分解中尺度所代表的頻率值相同。
(2)確定分解層數(shù),通常取l=3。
(3)確定小波函數(shù)dbN,通常取N=8~10。
(4)進行小波分解,得到第3層各結點重構信號。
(5)對小波分解層的細節(jié)信號進行Hilbert變換,獲得小波包絡譜。
設包絡譜為W(f),F(xiàn)1為旋轉頻率包絡譜值;F2為外圈包絡譜值;F3為內圈包絡譜值;F4為滾動體包絡譜值;F5為保持架包絡譜值。由于根據(jù)軸承轉速和幾何尺寸計算出的故障特征頻率與實際包絡譜中的故障特征頻率總是存在差異,因此特征值需要在一定范圍尋找。設其特征頻率差異為δf,包絡頻譜間隔為Δf,令m=δf/Δf,則在l層中的細節(jié)信號各特征值為
(1)
(7)對特征量進行歸一化處理,即
(2)
Weka是新西蘭Waikato大學開發(fā)的全面的數(shù)據(jù)挖掘系統(tǒng)[9],它不僅提供了多種數(shù)據(jù)挖掘方法(分類、聚類及關聯(lián)規(guī)則等)和常用算法,還提供了適用于任意數(shù)據(jù)集的數(shù)據(jù)預處理功能,以及算法性能評估的多種方法。文中主要采用C4.5決策樹算法。
針對連續(xù)屬性,C4.5算法主要通過下列途徑來處理。設在集合T中,連續(xù)屬性A的取值為{v1,v2,…,vm},則在vi和vi+1之間的任意值都可以把訓練集分成兩個部分,即T1={t|A≤vi},T2={t|A>vi},因此總共有m-1種分割情況。對屬性A的m-1種分割的任意一種情況,作為該屬性的兩個離散取值,重新構造該屬性的離散值,再計算每種分割所對應的信息增益率。然后取最大增益率的分割作為屬性A的分支,即threshold(V)=vk,其中vk對應的信息增益率為最大。
C4.5算法是一種有指導歸納學習的算法,繼承了ID3算法的全部優(yōu)點并對其作出了改進,其特點表現(xiàn)在以下幾個方面:(1)采用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;(2)不僅能處理離散值屬性,而且能處理連續(xù)值屬性;(3)能對不完整數(shù)據(jù)集(如個別屬性值未知)進行處理;(4)降低錯誤修剪率;(5)提高計算效率等。
C4.5算法采用信息增益比來描述屬性對分類的貢獻,用以消除具有大量偏向值屬性的偏差。設樣本集T按類別屬性A的s個不同的取值,劃分為T1,…,Ts,共s個子集,則用A對T進行劃分的信息增益為
(3)
式中:I(T)表示T的信息熵。設T中有m個類,則
(4)
式中:pj表示T中包含類j的概率。
用A對T進行劃分的信息增益率為
Ratio(A,T)=Gain(A,T)/SplitInfo(A,T),
(5)
|T|)。
(6)
采用此增益率去劃分屬性得到?jīng)Q策樹,其中每個結點取具有最大信息增益率的屬性。此方法簡單高效、結論可靠,無需很強的相關知識。
具體的算法步驟如下:
(1)對訓練樣本samples各項屬性數(shù)據(jù)進行預處理;
(2)創(chuàng)建根結點root,并確定attribute_lists葉結點屬性;
(3)計算候選屬性attribute_lists中每個屬性,選取Gain-Ratio(X)最大且同時獲取的信息增益Gain(X)屬性又不低于所有屬性平均值的屬性作為測試屬性;
(4)將當前選中的屬性賦值給當前結點,將該屬性的屬性值作為該屬性的分叉結點,并且將這些分叉結點插入隊列中;
(5)從后選屬性attribute_lists中將當前使用屬性刪除;
(6)從隊列中取出一個結點,遞歸進行(3)到(5)步驟,直到候選屬性attribute_lists為空;
(7)為每個葉子結點分配類別屬性,對相同的類別屬性進行合并,將其進行約減。
基于以上決策算法得到的決策樹數(shù)據(jù)模型,在該模型中之所以選取信息增益率大而信息增益不低于平均值的屬性,是因為高信息增益率保證了高分枝屬性不會被選取,從而決策樹的樹形不會因某結點分枝太多而過于松散。
當?shù)玫搅送耆L的決策樹后,為了消除噪聲數(shù)據(jù)和孤立結點引起的分枝異常,需對決策樹進行剪枝。決策樹的剪枝是避免訓練數(shù)據(jù)過分適應問題,其修剪方法通常利用統(tǒng)計方法刪去最不可靠的分支,以提高分類識別的速度和數(shù)據(jù)準確分類的能力。
C4.5采用悲觀錯誤修剪法,在用生成決策樹的訓練數(shù)據(jù)集來檢驗誤判率時,實際上對錯誤的估計過于樂觀,因為決策樹是由訓練數(shù)據(jù)集生成的,所以,在多數(shù)情況下決策樹與訓練數(shù)據(jù)集是符合的。但把決策樹用于對訓練數(shù)據(jù)以外的數(shù)據(jù)進行分類時,錯誤率將會增加。基于以上原因,Quinlan借用二項分布對訓練數(shù)據(jù)中的誤判率加以修正,以得到更為符合實際的錯誤率。與修正前的錯誤率相比,修正后的錯誤率增大了不少,因此認為它對錯誤率的看法是“悲觀”的。
算法簡化過程為:對決策樹上所有非葉結點A進行計算分析。從樹的根結點開始,計算每個分枝結點被剪也即被葉替代后的誤判率。采用訓練數(shù)據(jù)集作為測試集,取置信區(qū)間的上限作為對誤判率的估計。給定一個顯著性水平度α(C4.5算法中默認α=0. 25),顯然錯誤的總數(shù)服從二項分布,則
(7)
式中:p為實際觀測到的誤判率,p=E/N;E為修剪后出現(xiàn)的錯誤實例樹;N為被修剪的子樹下的實例總數(shù);pe為估計的誤判率。
令z=u1-α,取置信區(qū)間的上限作為這個結點的誤判率的估計,則該結點的誤判率的計算式為
(8)
設定期望誤判率的最大值為C,若剪枝后估計的誤判率pe高于C時,則保留原來的分枝;否則剪去該分枝,用葉片代替。
決策樹具有直觀性和易理解等特點,可以直接從剪枝后生成的決策樹中提取相應的決策規(guī)則。分類規(guī)則是用IF-THEN形式表示,每條規(guī)則都是一條從根到葉結點的路徑。葉結點表示具體的結論,而葉結點以上的結點及其邊表示相應條件的條件取值。從決策樹到?jīng)Q策規(guī)則如圖1所示。
圖1 決策樹到規(guī)則轉化
這里使用的軸承故障數(shù)據(jù)由文獻[8]中的試驗臺采集得到。對軸承故障數(shù)據(jù)進行小波包絡譜特征提取和時域參數(shù)指標提取,將小波包絡譜特征值與時域參數(shù)指標值組成一組故障樣本。表1為部分數(shù)據(jù)樣本,由于樣本數(shù)相對較少,試驗中采用目前最流行的10折交叉驗證準則(10-fold cross validation)來比較和評價算法。即將初始樣本集劃分為10個近似相等的數(shù)據(jù)子集,每個數(shù)據(jù)子集中屬于各分類的樣本所占的比例與初始樣本中的比例相同,在每次試驗中用其中的9個數(shù)據(jù)子集組成訓練樣本,用剩下的一個子集作為測試集,輪轉一遍進行10次試驗。最后獲取的知識規(guī)則的決策樹及其可視化形式如圖2所示。
表1 滾動軸承部分樣本
圖2 weka平臺C4.5決策樹算法生成的決策樹及其可視化形式
(1)規(guī)則1(K≤3.620 9)→軸承正常。這表示當峭度因子較小時,軸承正常,與文獻[1]中結論一致, 峭度因子可以判斷軸承是否異常。
(2)規(guī)則2(K>3.620 9&Fe>0.716)或(K>3.620 9&Fe≤0.716&Fi≤0.396 9&Fr>0.735 8)→軸承外圈故障。這表示當峭度因子較大且外圈故障特征值較大時,軸承外圈存在故障;或者當峭度因子較大而內、外圈故障特征值較小,并且旋轉頻率特征值較大時,軸承外圈存在故障。
(3)規(guī)則3(K>3.620 9&Fe≤0.716&Fi>0.396 9 )→軸承內圈故障。這表示當峭度因子較大,外圈故障特征值較小而內圈故障特征值較大時,軸承內圈存在故障。
(4)規(guī)則4(K>3.620 9&Fe≤0.716&Fi≤0.396 9&Fr≤0.735 8)→滾動體故障。這表示當峭度因子較大,同時內、外圈故障特征值,旋轉頻率特征值均較小時,滾動體存在故障。
軸承保持架故障之所以沒有提取出規(guī)則,是因為整個152個樣本中沒有該類型的故障樣本。表2為用10折交叉驗證準則對提取出規(guī)則的驗證結果。結果表明規(guī)則具有很高的精度,從而證明了該方法的有效性。
表2 規(guī)則驗證的結果
某研究所設計制造的轉子-滾動軸承故障試驗器能有效地模擬轉子-軸承系統(tǒng)的轉子不平衡及軸承常見故障。該故障試驗器包括轉軸、轉子圓盤、軸承座、調速電動機、齒輪增速器以及綜合電子控制系統(tǒng)。轉軸兩端由待檢測軸承支承,軸承型號是6304,將加速度傳感器安裝在待檢測軸承的軸承座上。振動加速度信號通過NI USB9234數(shù)據(jù)采集卡采集得到,采樣頻率為10 kHz。軸承損傷采用線切割加工,分別在外圈和內圈滾道加工了一個寬度為0.6 mm的裂縫,用以模擬滾道損傷所產生的沖擊。
采集42組正常軸承數(shù)據(jù),提取每組振動數(shù)據(jù)的時域峰值因子、峭度因子、脈沖因子及裕度因子,同時對每組振動數(shù)據(jù)進行小波包絡譜特征提取,將以上參數(shù)組成一組特征向量,用上面得出的知識規(guī)則進行診斷,識別結果如圖3所示。從圖3a中可以看出,大多數(shù)樣本都位于峭度標準線以下,而只有兩個在標準線以上,表明峭度值可以很好地判斷軸承是否發(fā)生異常。此時,42組正常軸承的樣本數(shù)據(jù)正確識別率達92.8%,其中將正常軸承誤識別為外圈故障的比率為2.4%,將正常軸承誤識別為內圈故障的比率為4.8%。
圖3 正常軸承測試結果
采集13組軸承外圈故障數(shù)據(jù),應用上述方法,識別結果如圖4所示。由圖4可以看出軸承外圈有故障時,通常外圈故障特征值較大而內圈故障特征值較小。13組軸承外圈故障數(shù)據(jù)正確識別率達84.6%,其中將軸承外圈故障誤識別為正常軸承的比率為15.4%。
圖4 外圈故障軸承測試結果
采集11組軸承內圈故障數(shù)據(jù),同樣應用上述方法,識別結果如圖5所示。由5d可以看出,內圈故障的沖擊作用受旋轉頻率調制。內圈故障數(shù)據(jù)的正確識別率達72.7%,其中將內圈故障誤識別為外圈故障的比率為27.3%。內圈故障位置隨旋轉而不斷變化,因此內圈故障通常難于診斷。
圖5 內圈故障軸承測試結果
針對軸承故障診斷中存在故障樣本不足,故障診斷知識獲取困難的情況,提出的基于Weka平臺的C4.5決策樹的故障知識自動獲取方法應用于實際的軸承故障數(shù)據(jù),能夠較好地對故障類型進行識別,充分說明了該方法在軸承故障診斷中的有效性和準確性。而且這種方法具有較強的推廣性,可用于其他類型數(shù)據(jù)的知識獲取。