, , ,
(1.燕山大學(xué) 河北省重型機械流體動力傳輸與控制重點實驗室, 河北 秦皇島 066004;2.燕山大學(xué) 先進(jìn)鍛壓成形技術(shù)與科學(xué)教育部重點實驗室, 河北 秦皇島 066004)
旋轉(zhuǎn)機械的故障診斷[1]就是在設(shè)備不解體的情況下,研究故障的外在表現(xiàn)與故障本質(zhì)的聯(lián)系,進(jìn)而根據(jù)外在信息判別出故障的類型。在分類問題中,決定一個樣本屬于哪一類的所有信息都應(yīng)包含在描述該樣本的特征向量中[2]。為了對旋轉(zhuǎn)機械進(jìn)行故障診斷,必需提取與旋轉(zhuǎn)機械工作狀態(tài)相關(guān)的特征信息。為了使獲取的樣本含有大量的故障信息,通常從時域、頻域和時頻域選取特征指標(biāo),形成具有眾多特征參數(shù)的原始特征向量,實現(xiàn)模式到特征的轉(zhuǎn)換。然而,維數(shù)過高不僅會使計算量按指數(shù)級增長,導(dǎo)致“維數(shù)災(zāi)難”問題;而且,由于眾多特征中存在很多冗余的、與分類不相關(guān)的甚至?xí)Ψ诸惍a(chǎn)生干擾的特征,識別效率反而會下降[3]。因此,有必要對原始各特征的分類能力進(jìn)行評價,選擇出分類能力強的特征,剔除無效的和冗余的特征,以降低特征向量的維數(shù),從而簡化分類器的設(shè)計。
為此,本研究采用ReliefF加權(quán)特征選擇算法對原始特征向量進(jìn)行特征選擇,去除對分類無效的特征,保留分類能力較強的特征;再結(jié)合特征相關(guān)度算法從保留的特征中剔除冗余特征,用剩余的有效特征組成最終的降維特征向量進(jìn)行故障分類,實現(xiàn)故障特征的降維。
在幅值域上評價信號特征的指標(biāo)有兩類,第一類是有量綱特征參數(shù),主要包括:均值、峰值、均方根值、方根幅值、斜度、峭度等;第二類是無量綱特征參數(shù),主要包括:波形指標(biāo)、峰值指標(biāo)、脈沖指標(biāo)、裕度指標(biāo)、峭度指標(biāo)等。這些特征參數(shù)可直接用于設(shè)備狀態(tài)的在線監(jiān)測,也可作為其他診斷方法的特征參數(shù),用于輔助診斷。
(1)
xp=maxxi
(2)
(3)
(4)
(5)
(6)
上述參數(shù)都具有明確的物理意義,例如均值指標(biāo)代表信號的直流分量;峰值代表信號的最大幅值,常用于表征信號的強度;均方根值主要反映信號的平均功率的大??;峭度通常對信號的沖擊成分敏感,當(dāng)旋轉(zhuǎn)機械發(fā)生故障時都會由異常元件產(chǎn)生沖擊信號,這時峭度指標(biāo)會有很大變化。
上述有量綱參數(shù)不僅對設(shè)備故障敏感,而且還依賴于外部因素(如轉(zhuǎn)速、負(fù)荷狀態(tài)等)的變化,所以將它們直接用于故障診斷效果不夠理想。而無量綱參數(shù)能夠克服上述有量綱參數(shù)的缺陷,受外部因素影響較小,所以通常作為診斷的特征參量[4]。幅值域無量綱參數(shù)主要有峰值指標(biāo)Cf、脈沖指標(biāo)If、波形指標(biāo)Wf、裕度指標(biāo)Lf和峭度指標(biāo)Kf。它們的計算公式如下:
(7)
(8)
(9)
(10)
(11)
峰值指標(biāo)和脈沖指標(biāo)對沖擊信號較敏感;裕度指標(biāo)對磨損程度較敏感。峭度指標(biāo)對沖擊振動靈敏度較高,但它與故障的關(guān)系并不穩(wěn)定,故障發(fā)生的早期,它的值會顯著增大;但當(dāng)故障發(fā)展到一定程度后,它的值反而減小。
由于不同故障的振動信號其小波包分解后的子帶能量的分布不同,因此將旋轉(zhuǎn)機械振動信號進(jìn)行小波包分解并分析各子頻帶的能量分布情況,可從中提取出具有分類意義的重要信息[5]。
小波包子帶能量的計算步驟為:
(1) 對所要分析的信號進(jìn)行M層小波包分解,得到2M個子頻帶的分解系數(shù);
(2) 對各個子帶的分解系數(shù)進(jìn)行重構(gòu),即可提取原始信號中第M層從低頻到高頻共2M個子帶信號。各子帶重構(gòu)信號分別記為s1,s2,…,si,…,s2M;
(4) 將各子帶能量進(jìn)行歸一化處理,可得到子帶歸一化能量的分布:
Ti=Ei/E,i=1,2,…,2M
(12)
單詞relief是緩和、減輕的意思,用在特征選擇方面就是指把高維降到低維。Relief算法[6]是Kira等于1992年提出的,只適用于兩類分類問題。為了處理不完整數(shù)據(jù)問題,Kononerko[7]將其擴展,相繼提出了ReliefA、ReliefB、ReliefC、ReliefD算法。為了處理多類分類問題他又提出了ReliefE、ReliefF算法。Relief系列算法是一種依據(jù)權(quán)重選擇特征的方法,能夠選出那些與類別相關(guān)性強的特征,去掉無效的特征以降低原始特征向量的維數(shù)。
ReliefF 算法具體實現(xiàn)步驟如下:
輸入:訓(xùn)練樣本集D(m×n),由m個樣本構(gòu)成,每個樣本由n個特征A1,A2,…,Al,…,An表示;輸出:特征權(quán)值向量w(1×n),w(Al)表示特征Al的權(quán)值。
(1) 設(shè)置向量w初始值為零向量;循環(huán)次數(shù)為r,r≤m;樣本集D中樣本類別號為c,c為大于等于2的正整數(shù)。
(2) fori= 1 tor:
? 從樣本集D中隨機挑選出一個樣本Ri;
? 在Ri的同類中找出與Ri最近鄰的k個樣本Hj,j=1,2,…,k;
? 在Ri的每個不同類中找與Ri最近鄰的k個樣本Mj,j=1,2,…,k;
? forl= 1 ton,對于每個特征權(quán)值進(jìn)行如下更新:
(13)
式中,class(Ri)表示樣本Ri的類別號。
(3) 輸出特征權(quán)值向量w。
對于某維特征Al,若它有利于分類,則應(yīng)使同類樣本接近而使其異類樣本遠(yuǎn)離。權(quán)值更新公式(13)便遵循這一原則設(shè)計,即來自同一類別的兩樣本在特征Al上的距離 diff(Al,Ri,Hj)越小,并且來自不同類別的兩樣本在特征Al上的距離diff(Al,Ri,Mj)越大,其獲得的權(quán)值w(Al)就越大。
式中,P(c)是第c類樣本數(shù)占樣本總數(shù)的比例,即:
(14)
diff(Al,S1,S2)表示兩個樣本的歐氏距離,用來度量兩樣本的相異度,它的計算方法如下:
對于離散特征:
(15)
對于連續(xù)特征:
(16)
式中,S1,S2是兩個樣本,value(Al,S1)是樣本S1在特征Al處的值。
為了去掉對分類無效的特征,把特征按照權(quán)值的大小進(jìn)行排列,然后把權(quán)值高于設(shè)定閾值的那些特征挑選出來,摒棄其它權(quán)值較小的特征,用挑選出來的特征構(gòu)成新的特征子集,便完成特征選擇過程。
經(jīng)ReliefF算法選取的特征子集都是與類別具有較強的相關(guān)性。但由于ReliefF算法并沒有考慮特征之間的相關(guān)性,所以所選特征中難免存在冗余特征。為了從中剔除分類能力接近的冗余特征,可通過特征相關(guān)度算法來實現(xiàn)。本研究采用Pearson積矩相關(guān)系數(shù)公式[3]剔掉分類能力接近的冗余特征。
假設(shè)樣本集D中有N個樣本,x和y是兩個特征變量, N個樣本的x和y的取值分別為xi和yi, 其中i=1,2,…,N。Pearson積矩相關(guān)系數(shù)公式如下:
(17)
相關(guān)性系數(shù)的取值范圍為[-1,+1]。當(dāng)相關(guān)系數(shù)小于0時,稱為負(fù)相關(guān);大于0時,稱為正相關(guān);等于0時,稱為零相關(guān)。r(x,y)的絕對值越大,x的變動引起y的變動就越大。r(x,y)>0.8時為高度相關(guān),當(dāng)r(x,y)<0.3時為低度相關(guān),其它情況下為中度相關(guān)。
通過上述論述可知,將ReliefF算法和特征相關(guān)度計算結(jié)合,可以去除對分類無效和冗余的特征。本研究先用ReliefF算法計算出每個特征的權(quán)值,按降序排列,然后選出使故障訓(xùn)練樣本集故障診斷正確率大于95%的前幾個特征,再用相關(guān)度計算公式分別計算這幾個特征的相關(guān)性系數(shù),對于相關(guān)性系數(shù)大于0.8的兩個特征剔除其中權(quán)值較小的一個。
實驗分析所用信號為某液壓泵狀態(tài)監(jiān)測與故障診斷系統(tǒng)中采集的斜盤式軸向柱塞泵振動信號與機械故障綜合模擬實驗臺(MFS-MG)上采集的軸承振動信號。液壓泵故障振動信號采集系統(tǒng)如圖1所示,液壓泵額定轉(zhuǎn)速為1470 r/min,實驗中采樣頻率為50 kHz。軸承故障模擬實驗臺如圖2所示,電機轉(zhuǎn)速調(diào)定為1800 r/min,軸承振動信號采樣頻率為50 kHz。
由于旋轉(zhuǎn)機械的振動信號通常存在調(diào)制現(xiàn)象,并且疊加強噪聲,所以首先要對實驗采集的原始振動信號進(jìn)行解調(diào)和消噪預(yù)處理,然后提取原始故障特征向量。
振動信號進(jìn)行解調(diào)和消噪預(yù)處理的過程: 對采集的振動信號,使用小波包頻帶能量分析確定共振頻帶,并完成帶通濾波和消噪;接著采用Hilbert包絡(luò)解調(diào)法對經(jīng)帶通濾波和消噪后的信號進(jìn)行解調(diào),得到包絡(luò)信號[9]。由于感興趣的故障特征頻率及其前幾階高次諧波成分分布在0~1000 Hz的頻率范圍內(nèi),所以在信號經(jīng)過解調(diào)后, 對得到的包絡(luò)信號進(jìn)行采樣頻率為2 kHz 的重采樣,故重采樣后包絡(luò)信號的Nyquist頻率為1 kHz。
圖1 液壓泵故障振動信號采集系統(tǒng)
圖2 軸承故障模擬實驗臺
原始故障特征向量提取過程:分別提取泵和軸承正常工作及各故障狀態(tài)下包絡(luò)信號的幅值域無量綱特征參數(shù)(峰值指標(biāo)、脈沖指標(biāo)、波形指標(biāo)、裕度指標(biāo)、峭度指標(biāo),共計5個,分別用A1,A2,A3,A4,A5表示)、時頻域特征參數(shù)(對包絡(luò)信號進(jìn)行3層小波包分解得到的八個子頻帶歸一化能量,共計8個,分別用A6,A7,A8,A9,A10,A11,A12,A13表示),構(gòu)造一個 13維的特征向量。其中8個子帶對應(yīng)的頻率范圍依次為:0~125 Hz,125~250 Hz,250~375 Hz,375~500 Hz,500~625 Hz,625~750 Hz,750~875 Hz,875~1000 Hz。
依據(jù)上述信號預(yù)處理和原始特征向量提取過程,獲得用于故障診斷的樣本集[8]。
液壓泵故障樣本集由四類(正常、松靴、滑靴磨損和斜盤磨損)樣本組成,每類樣本200個,將其分為訓(xùn)練樣本(每類樣本100個)和測試樣本(每類樣本100個)。
軸承故障樣本集由四類(正常狀態(tài)、外圈故障、內(nèi)圈故障和滾動體故障)樣本組成,每類樣本200個,將其分為訓(xùn)練樣本(每類樣本100個)和測試樣本(每類樣本100個)。
對于液壓泵的訓(xùn)練樣本集,在組成樣本的13個原始特征中,事先并不知道哪些特征對分類有利,采用ReliefF加權(quán)特征選擇算法對13個原始特征進(jìn)行選擇,按權(quán)值從大到小進(jìn)行排列,評價結(jié)果如表1所示。
表1 液壓泵故障各原始特征分類能力的權(quán)值
分析計算發(fā)現(xiàn),當(dāng)只選用表1中權(quán)值最高的前三個特征A6、A3、A10表示泵的故障樣本集時,用K均值聚類算法進(jìn)行分類,對訓(xùn)練樣本集診斷正確率已達(dá)95%以上,所以選擇出前三個特征A6、A3、A10。其中,特征A3對應(yīng)波形指標(biāo),特征A6對應(yīng)小波包第1子帶歸一化能量,特征A10對應(yīng)小波包第5子帶歸一化能量。
由于ReliefF算法并沒有考慮特征之間的冗余性,為了剔除冗余特征,實現(xiàn)特征進(jìn)一步降維,需要進(jìn)行特征相關(guān)度的計算。采用式(17),通過相關(guān)系數(shù)計算得到,r(A6,A3) = 0.1045,r(A6,A10)=0.8974,表明特征A6與特征A3的相關(guān)性很小而其與A10的相關(guān)性較大,說明特征A10為冗余特征,因此去掉特征A10,最后選擇特征A3和A6組成最終的二維特征向量。
圖3為采用ReliefF加權(quán)特征選擇算法對訓(xùn)練樣本集降維后的樣本分布圖。
為了對比,對液壓泵的訓(xùn)練樣本集進(jìn)行主元分析(PCA,Principal Component Analysis)降維,分別選取貢獻(xiàn)率最高的前2個主元和前3個主元組成新的特征集,此時的樣本分布如圖4和圖5所示。
對比圖3、圖4和圖5可以說明,對于液壓泵故障訓(xùn)練樣本,ReliefF算法能夠有效地評價特征的分類能力,經(jīng)過特征選擇和降維后,同類樣本聚成一小簇,不同類樣本沒有交集,很好地區(qū)分了各類樣本。而主元分析方法降到二維和三維時,分類效果均沒有ReliefF降維算法理想。
圖3 液壓泵故障的訓(xùn)練樣本分布圖(ReliefF算法降維)
圖4 液壓泵故障的訓(xùn)練樣本分布圖(PCA法降到2維)
圖5 液壓泵故障的訓(xùn)練樣本分布圖(PCA法降到3維)
與液壓泵數(shù)據(jù)處理過程相同,對軸承的訓(xùn)練樣本集,采用ReliefF加權(quán)特征選擇算法對13個原始特征進(jìn)行選擇,評價結(jié)果如表2所示。
表2 軸承故障各原始特征分類能力的權(quán)值
經(jīng)計算分析,用表2中權(quán)值最大的前四個特征A6、A10、A11、A8表示軸承的故障訓(xùn)練樣本集時,診斷正確率可達(dá)95%以上,所以選擇出權(quán)值最大的前四個特征A6、A10、A11、A8。通過相關(guān)系數(shù)計算得到,r(A6,A10)=0.8432,r(A6,A11)=0.8584,r(A6,A8)=0.1432,表明特征A6和特征A10、A11間有冗余,而特征A6和A8間的相關(guān)性較小,因此剔除特征A10和A11,選擇特征A6、A8組成最終的二維特征向量。其中特征A6、A8分別對應(yīng)小波包第1子帶和第3子帶歸一化能量。
軸承故障特征采用ReliefF算法降維后的樣本分布圖與采用主元分析法降維后的樣本分布圖分別如圖6、圖7和圖8所示。對比三個圖可見,圖6中四類樣本區(qū)分效果很好,說明對軸承故障訓(xùn)練樣本,采用ReliefF 算法進(jìn)行降維比采用主元分析降維分類效果更佳。
為了驗證ReliefF 算法在信號特征降維方面的優(yōu)勢,數(shù)據(jù)降維方法分別采用ReliefF特征選擇算法和一種傳統(tǒng)的線性降維方法-主元分析方法[11]進(jìn)行對比。下面通過構(gòu)造分類器對降維后的測試樣本進(jìn)行聚類,聚類方法采用K均值聚類算法[10]。
圖6 軸承故障的訓(xùn)練樣本分布圖(ReliefF算法降維)
圖7 軸承故障的訓(xùn)練樣本分布圖(PCA法降到2維)
圖8 軸承故障的訓(xùn)練樣本分布圖(PCA法降到3維)
在對液壓泵故障的樣本集和軸承故障的樣本集進(jìn)行主元分析(PCA)降維時,分別選取貢獻(xiàn)率較高的前2個和前3個主元組成新的特征子集。
用K均值聚類算法對分別采用上述兩種方法降維后的測試樣本(每種狀態(tài)100個樣本)進(jìn)行聚類,故障識別結(jié)果分別如表3和表4所示。
表3 液壓泵故障的識別結(jié)果
表4 軸承故障的識別結(jié)果
從表3和表4可以看出,ReliefF加權(quán)特征選擇算法在液壓泵和軸承數(shù)據(jù)集上產(chǎn)生的特征子集與傳統(tǒng)的主元分析特征降維方法降至相同維數(shù)時相比,故障診斷正確率有了顯著提高。換句話說,在保證故障診斷正確率的前提下,ReliefF算法可以降到更低的維數(shù),有利于縮短運算時間,提高診斷效率。
而主元分析是一種特征變換方法,可以描述成這樣一個過程,對特征向量x=[x1,x2,…,xN]T施加線性變換:y=h(x),最終產(chǎn)生出新的特征向量y=[y1,y2,…,yN]T,在新的特征向量中選出累計貢獻(xiàn)率不小于85%的前k個主元組成新的特征向量y′=[y1,y2,…,yk]T,其中k 從上述描述過程可以看出,ReliefF算法特征選擇較主元分析特征變換的優(yōu)勢有以下兩點: (1) 由特征變換產(chǎn)生的新特征是原有特征的線性組合,它通常只具有數(shù)學(xué)意義,一般情況下其物理含義不夠明確。與此不同,ReliefF特征選擇是從原始特征集中直接選出特征,并不喪失原特征的物理意義; (2) 在多數(shù)情況下,因為從特征變換產(chǎn)生的特征是原始特征的線性組合,所以當(dāng)用其進(jìn)行故障診斷的時候,原始特征參數(shù)仍然要全部測量計算。而ReliefF特征選擇后,對那些被摒棄和剔除的無效和冗余特征不再需要測量計算,只需測量計算最終被選出的那些優(yōu)良特征即可,也就是在保證決策精度的前提下減少了數(shù)據(jù)處理的計算量。 本研究提出了基于ReliefF算法和相關(guān)度計算結(jié)合的故障特征降維方法。對旋轉(zhuǎn)機械振動信號首先進(jìn)行包絡(luò)解調(diào)并消噪,提取包絡(luò)信號幅值域無量綱特征和小波包分解各子帶歸一化能量特征,然后通過ReliefF 算法和特征相關(guān)度算法剔除無效特征和冗余特征,選出分類能力較強的特征作為最終的識別特征進(jìn)行故障診斷,實現(xiàn)了特征的有效降維。通過液壓泵和軸承的故障診斷實驗分析,結(jié)果表明:與傳統(tǒng)的主元分析方法相比較,本方法故障診斷正確率有較大的提高,且降維后的特征保留了其原來直觀的物理含義,具有廣泛的工程實用價值。 參考文獻(xiàn): [1]夏松波,張嘉鐘,徐世昌,等.旋轉(zhuǎn)機械故障診斷技術(shù)的現(xiàn)狀與展望[J].振動與沖擊,1997,16(2):5-9. [2]劉依戀.模式分類中特征選擇算法研究[D].哈爾濱:哈爾濱理工大學(xué),2014. [3]蘇映雪.特征選擇算法研究[D].長沙:國防科學(xué)技術(shù)大學(xué),2006. [4]姜萬錄,劉思遠(yuǎn),張齊生.液壓故障的智能信息診斷與監(jiān)測[M].北京:機械工業(yè)出版社,2013. [5]王冬云,張文志.基于小波包變換的滾動軸承故障診斷[J].中國機械工程,2012,23(3):295-298. [6]Kira K, Rendell L A. The Feature Selection Problem: Traditional Methods and a New Algorithm[C]//Proceedings of the Ninth National Conference on Artificial Intelligence, Menlo Park,1992. [7]Kononenko I. Estimation Attributes: Analysis and ex-tension of Relief[C]//The 1994 Euro-pean Conference on Machine Learning, San Francisco, USA: IEEE Press,1994. [8]王友榮.ReliefF加權(quán)特征選擇方法在旋轉(zhuǎn)機械故障診斷中的應(yīng)用研究[D].秦皇島:燕山大學(xué),2015. [9]Jiang Wanlu, Sarah K. Spurgeon, John A. Twiddle, Fernando S. Schlindwein. Wavelet Cluster Based Envelope Demodulation Approach and its Application to Fault Diagnosis[J]. 儀器儀表學(xué)報, 2007, 28(6): 973-979. [10]蔣帥.K-均值聚類算法研究[D].西安:陜西師范大學(xué),2010. [11]張煜東,霍元鎧,吳樂南,等.降維技術(shù)與方法綜述[J].四川兵工學(xué)報,2010,31(10):1-7.4 結(jié)論