范傳翰,宋禮威,劉厚林,董 亮,肖幸鑫,陳澤宇
(1.江蘇大學流體機械工程技術(shù)研究中心,江蘇 鎮(zhèn)江 212000;2.中廣核工程有限公司核電安全監(jiān)控技術(shù)與裝備國家重點實驗室,廣東 深圳 518172)
離心泵廣泛應用于國民經(jīng)濟的各個領(lǐng)域。由于離心泵工作環(huán)境復雜,運行工況調(diào)節(jié)頻繁從而導致離心泵發(fā)生故障的概率增大,造成效率降低,甚至會出現(xiàn)安全事故。轉(zhuǎn)子是離心泵中的重要組件之一,機組在長期運行過程中容易導致轉(zhuǎn)子發(fā)生故障。其中,轉(zhuǎn)子不平衡、不對中故障最為常見[1]。近年來,隨著計算機技術(shù)的進步,國內(nèi)外學者利用不同的方法為不同設(shè)備的故障診斷提供了很多參考[2]。屈梁生[3]系統(tǒng)研究了全息譜技術(shù)所衍生各項技術(shù)及在各類機械故障診斷實踐中的應用。Dong[4]等人將小波包分解(WPD)與主成分分析(PCA)和徑向基函數(shù)(RBF)神經(jīng)網(wǎng)絡(luò)相結(jié)合,完成了對離心泵汽蝕狀態(tài)進行檢測,并取得了較好的結(jié)果。董明[5]等人利用典型故障氣體的相對含量在高維空間的分布特性輸入到SVM(支持向量機)中對變壓器故障類型診斷。薛延剛[6]等人改進了SVM 模型并引入故障分類準確性判定因子對水電機組進行了智能診斷。張麗平[7]研究了PSO(粒子群)算法的基本結(jié)構(gòu)、算法特點、改進方法、實現(xiàn)模式及應用等方面并將其引入到BP 神經(jīng)網(wǎng)絡(luò)中,取得了滿意的結(jié)果。蔡振宇[8]等人將PSO-SVM(粒子群優(yōu)化支持向量機)模型應用到振動機械故障診斷實例中,其結(jié)果表明相較于傳統(tǒng)神經(jīng)網(wǎng)絡(luò),PSO-SVM具有更高的準確性。
隨機森林是通過集成學習的思想將多棵樹(決策樹)集成的一種算法,有著較高的準確率、可解釋性及能夠評估各個特征重要性等優(yōu)勢。Wang[9]等人通過提取振動信號的無量綱指數(shù)做為特征參數(shù),利用隨機森林訓練,預測精度高達100%。馬富齊[10]利用隨機森林的特性通過剔除掉冗余的特征向量,進行了對機組的故障診斷。單增海[11]等人將得到的多傳感器信息融合后,進行特征篩選,利用多粒度級聯(lián)森林模型完成了對液壓泵健康狀態(tài)評估。段智勇[12]等人利用隨機森林算法對屏蔽泵進行故障診斷,并取得了滿意的效果。徐書凡[13]將潛油螺桿泵井的參數(shù)數(shù)據(jù)輸入隨機森林模型,完成了對潛油螺桿泵采油系統(tǒng)故障診斷。
當前在針對離心泵轉(zhuǎn)子故障能夠評估其故障特征重要性特征的研究較少,并且非重要特征之間的相關(guān)性會進一步削弱故障識別的效果,從而影響故障診斷效率及準確率。本文旨在通過隨機森林對提取出的故障特征重要性進行分析、篩選,結(jié)合PSO-SVM 對離心泵轉(zhuǎn)子常見故障狀態(tài)進行識別。通過在離心泵上放置振動加速度傳感器進行原始信號采集,利用時域、頻域處理方法,提取原始信號的時、頻域特征參數(shù)矩陣,通過隨機森林得到重要性較高的特征,并將之與隨機森林分類得到的分類結(jié)果進行組合,得到新的故障特征參數(shù)矩陣,進入PSOSVM 中進行訓練、驗證。這樣既能降低非重要故障特征對離心泵轉(zhuǎn)子故障識別效果的影響,也能減少故障特征參數(shù)矩陣的維度,從而減少冗余的故障信息,降低計算的復雜程度。
隨機森林(Random Forest,簡稱RF)是Bagging 的一個擴展變體[14]。它首先基于bagging 思想,無放回的可重復的對初始數(shù)據(jù)集進行采樣,再利用這些采樣集訓練決策樹,同傳統(tǒng)決策樹選擇特征(信息增益)不同的是RF 選擇特征時隨機從特征集中抽取一部分特征子集,并從這些子集中選擇一個最優(yōu)屬性用于構(gòu)建決策樹的節(jié)點,進行下一步的分裂。由于構(gòu)建每一顆決策樹時是從數(shù)據(jù)集中進行隨機可重復進行采樣,因此還有部分數(shù)據(jù)集是沒有被采樣到的,這部分數(shù)據(jù)稱為袋外數(shù)據(jù)(oob),將這部分數(shù)據(jù)代入已建立的決策樹中,可以用于計算決策樹的預測錯誤率(袋外數(shù)據(jù)誤差,oobErr)。
由于原始信號具有信息量大、特征隱蔽和包含較多的噪聲等特點,單純直觀分析無法獲得被監(jiān)測對象的具體健康狀態(tài)信息,因此需要通過不同的信號處理方法對原始信號進行轉(zhuǎn)換和處理,從而提取出能夠反映運行設(shè)備的狀態(tài)特征信息[15]。均方根值、峰值、峰值因子、峭度、脈沖因子、裕度因子和波形因子是振動信號進行時域統(tǒng)計分析最常用的參數(shù)指標[16]。為了更多反應原始信號攜帶的特征信息。另外選取了較為常用的4個時域特征和3個頻域統(tǒng)計指標,時域特征為方差、均值、峭度因子、偏度;頻域為重心頻率、均方根頻率、標準差頻率。本文統(tǒng)計共14個時、頻域指標作為故障特征的統(tǒng)計指標,計算公式如表1。
表1 特征計算方法Tab.1 Calculation method of characteristics
表中的x(n)為信號的時域序列,n=1,2,3,…,N,N為樣本點數(shù);U(i)表示的是信號x(n)的頻譜,其中i=1,2,3,…,m,m為譜線的個數(shù);fi表示的是第i根譜線的頻率值。
對于隨機森林中某個特征重要性a的計算步驟如下:
(1)假設(shè)隨機森林中共有n顆決策樹,對于一棵樹Ti,其中i=1,2,3,…,n,用袋外數(shù)據(jù)oob(i)代入已建立的決策樹Ti中,計算該樹的袋外數(shù)據(jù)誤差,記作oobErr01(i)。
(2)然后隨機置換oob(i)中第j列的特征參數(shù),置換的方法是通過permutation 方式將oob(i)中所有樣本的第j個特征參數(shù)重新打亂分布,保持其他特征參數(shù)不變,重新計算該樹的袋外數(shù)據(jù)誤差,記作oobErr02(i)。
(3)則該特征重要性a的計算公式如下:
若加入噪聲后袋外數(shù)據(jù)準確率下降,即oobErr02(i)上升,特征重要性a增大,則該特征重要程度比較高。
本文利用隨機森林算法和PSO-SVM 進行離心泵轉(zhuǎn)子不平衡、不對中故障診斷的流程圖見圖1。
圖1 診斷流程圖Fig.1 Diagnostic flow chart
以一臺離心泵作為實驗對象,離心泵的主要參數(shù)為:額定流量10.6 m3∕h;額定轉(zhuǎn)速2 900 r∕min;額定揚程26 m;比轉(zhuǎn)速49.88。信號采集選用的振動加速度傳感器精度為±1%。
振動加速度傳感器布置在離心泵進口法蘭水平徑向。實驗過程中先調(diào)節(jié)變頻電機的轉(zhuǎn)速使其達到設(shè)定轉(zhuǎn)速,然后調(diào)節(jié)泵的出口閥門,使其達到設(shè)定的流量位置,待運行穩(wěn)定時采集數(shù)據(jù)。
轉(zhuǎn)子不平衡故障復現(xiàn)時分別用2.6、6.3、9 g 的配重塊安裝在聯(lián)軸器的螺栓上,使其產(chǎn)生質(zhì)量偏心。不同重量的配重實驗時,配重塊安裝在同一位置。為了提高該診斷模型在不同工況下的診斷率,根據(jù)泵的相似定律,每個配重實驗分別在0.7n、0.85n、1.0n轉(zhuǎn)速工況,0.7Qn、0.85Qn、1.0Qn流量工況下進行,共27組實驗。
圖2 實驗現(xiàn)場測點布置圖Fig.2 Layout of experimental points
轉(zhuǎn)子平行不對中故障復現(xiàn)時,通過移動電機的位置,使轉(zhuǎn)子產(chǎn)生不對中現(xiàn)象。不同平行不對中故障(30 絲、40 絲、50 絲)實驗時,分別在0.7n、0.85n、1.0n轉(zhuǎn)速工況,0.7Qn、0.85Qn、1.0Qn流量工況下進行,共27組實驗。
實驗所用傳感器采集設(shè)定采集頻率為25 600 Hz,采樣時間1 s。其中正常、不平衡、不對中在1.0n、1.0Qn工況下進口法蘭水平徑向的振動加速度信號時域圖形如圖3所示。
圖3 不同設(shè)備狀態(tài)下時域圖Fig.3 Time domain diagram under different device states
由于不平衡、不對中的特征頻率主要出現(xiàn)在低頻段,本文分析頻譜圖時只截取0~500 Hz作為分析頻段。
圖4為正常工況下、不平衡程度為6.3 g、不對中程度為30絲時額定轉(zhuǎn)速、流量的軸承座測點的頻域圖。不平衡工況下對比正常工況下的頻域圖,可以看到圖中一倍頻(48.33 Hz)的幅值有所增大,這符合不平衡故障發(fā)生時的特征表現(xiàn),頻譜圖中出現(xiàn)6倍頻是由于實驗泵所用葉輪為6葉片葉輪,出現(xiàn)的6倍頻為葉頻。不對中工況下對比相較于正常工況下的頻域圖,可以看到頻譜圖中二倍頻的幅值有所增大,同時一倍頻幅值有所降低,這符合轉(zhuǎn)子平行不對中故障發(fā)生時的特征表現(xiàn)。
圖4 頻域圖Fig.4 Frequency domain diagram
將實驗采集獲得的數(shù)據(jù)進行處理,按照上節(jié)特征提取方法提取故障特征參數(shù),得到一個315×14的故障特征矩陣并進行標簽標記,采用模型訓練方法主要分為以下幾個步驟進行。
(1)故障特征集再構(gòu)建,將故障特征集作為隨機森林的輸入,利用隨機森林每次會有約1∕3 的樣本沒有參與決策樹的建立,得到每個特征的重要性測度指標,將重要性前6個的故障特征及隨機森林分類器得到的分類結(jié)果作為新特征集的組成,得到新故障特征集。
(2)SVM 算法屬于有監(jiān)督學習算法,是最優(yōu)秀的分類算法之一,廣泛的應用于科學技術(shù)領(lǐng)域,因此本文選擇SVM 為故障識別的學習算法。由于支持向量機(SVM)中核函數(shù)半徑(g)、懲罰因子(c)難以選擇最優(yōu)的[17],本文選擇RBF 作為SVM 的核函數(shù),利用粒子群優(yōu)化支持向量機(PSO-SVM),尋找最優(yōu)的粒子點為SVM 的最優(yōu)核函數(shù)半徑和懲罰因子。將得到的新故障特征集等比例分組,50%作為SVM 的訓練集,用于訓練模型;50%作為SVM的測試集,用于驗證模型。
本文中,隨機森林決策樹數(shù)量設(shè)為400,最小葉節(jié)點設(shè)置為5,將原始特征矩陣輸入得到每個特征的重要性評估由大到小排序如圖5所示。
圖5 特征重要性評估Fig.5 Characteristics importance evaluation
取重要性排序前6 的特征分別為峭度、方差、均方根、重心頻率、均方根頻率、標準差頻率。同時將隨機森林分類器得到的不同故障的分類概率結(jié)果作為新的故障特征,同重要性較高的6個特征最終得到一個新的315×9特征集。
故障特征矩陣進行分組,分組情況如表2所示。
表2 故障特征分組情況Tab.2 Grouping of fault features
將分組后的原始故障特征矩陣與新故障特征矩陣的訓練集分別輸入PSO-SVM 中進行分類訓練,PSO-SVM 適應度曲線如圖6所示,從圖6中可以看出重構(gòu)后的原始特征在通過PSO算法計算最佳的適應度在經(jīng)過第4 次迭代后達到最優(yōu),此時的最優(yōu)核函數(shù)半徑g等于0.01,懲罰因子c等于12.395 9,SVM 訓練精度100%,相較于原始特征矩陣輸入SVM 中通過PSO 算法計算最佳的適應度在經(jīng)過第33次迭代后達到最優(yōu),訓練精度為85.6%,無論是迭代次數(shù)還是訓練精度都有大幅度改善。
圖6 PSO-SVM 適應度曲線Fig.6 PSO-SVM fitness curve
利用測試數(shù)據(jù)進行故障診斷,得到的結(jié)果如圖7。從圖7中可以看出利用原始故障特征集進行驗證時有大部分正常狀態(tài)下的數(shù)據(jù)被識別成了不對中或不平衡,模型對正常狀態(tài)下的故障特征數(shù)據(jù)識別表現(xiàn)不好,不能很好的區(qū)分正常與不對中故障。數(shù)據(jù)顯示重構(gòu)特征矩陣訓練的SVM 故障診斷模型對測試集的分類精度達到99.36%,相較于原始故障訓練的SVM 故障診斷模型的識別精確度86.7%,對故障的識別精度有明顯的提升,其部分診斷概率詳情見表3。
表3 進口法蘭水平徑向測點部分概率詳情Tab.4 Partial probability details of inlet flange horizontal and radial measurement points
圖7 進口法蘭水平徑向測點PSO-SVM 診斷結(jié)果Fig.7 PSO-SVM diagnosis results of horizontal and radial measurement points of inlet flange
利用隨機森林篩選出的重要特征,并將其與隨機森林的分類結(jié)果重新組合形成新的故障特征矩陣,通過將原始特征矩陣與重構(gòu)后的特征矩陣分別輸入進PSO-SVM,得到每組特征向量對應不同標簽的預測結(jié)果,主要的結(jié)論如下。
(1)重構(gòu)后的故障特征矩陣在進入PSO-SVM 中進行訓練時,表現(xiàn)出更好的適應度,在尋優(yōu)過程中僅迭代4 次,便達到最佳訓練精度,且訓練精度明顯高于原始故障矩陣的訓練精度,達到100%;
(2)進行模型精度測試時,重構(gòu)后的故障特征矩陣表現(xiàn)明顯好于原始故障特征矩陣,其測試精度達到99.36%,能夠明顯區(qū)分出正常、不對中、不平衡下的數(shù)據(jù)。