(1.山東科技大學(xué) 數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院,山東 青島 266590;2.山東科技大學(xué) 電氣與自動化工程學(xué)院,山東 青島 266590)
隨著工業(yè)復(fù)雜性的增加,大型設(shè)備日趨復(fù)雜化,旋轉(zhuǎn)機(jī)械作為現(xiàn)代工業(yè)的主要動力源之一,通常運行在較為惡劣的環(huán)境中,一旦發(fā)生故障輕則影響生產(chǎn),造成一定的經(jīng)濟(jì)損失,重則帶來嚴(yán)重的安全事故。為了保障設(shè)備的高效安全運行,有必要開展有關(guān)旋轉(zhuǎn)機(jī)械的故障診斷和監(jiān)測研究。由于其子系統(tǒng)的復(fù)雜性、工作狀態(tài)的多變性和操作不當(dāng)?shù)纫蛩氐挠绊?,?dǎo)致在旋轉(zhuǎn)機(jī)械的故障診斷中獲取到的通常是被污染的信號。因此,提高旋轉(zhuǎn)機(jī)械故障診斷的準(zhǔn)確率一直是備受關(guān)注的問題。齒輪組作為旋轉(zhuǎn)機(jī)械中不可缺少的傳動和連接部件,在傳動過程中損壞比較頻發(fā),其能否正常運行與整個旋轉(zhuǎn)機(jī)械的工作性能密切相關(guān)。因此在旋轉(zhuǎn)機(jī)械中,齒輪組的故障診斷一直備受關(guān)注。常見的齒輪組故有兩種:一種是在傳動過程中輪齒發(fā)生的故障,主要有點蝕、斷齒、磨損等;另一種是齒輪偏心、軸承不平衡等造成的故障。
傳統(tǒng)的旋轉(zhuǎn)機(jī)械齒輪組故障診斷方法有基于解析模型的方法[1]、基于專家系統(tǒng)的方法[2]、基于人工智能的方法[3-4]等。其中,基于解析模型的方法需要對復(fù)雜的機(jī)械結(jié)構(gòu)進(jìn)行數(shù)學(xué)建模及大量的推導(dǎo)計算,雖然準(zhǔn)確率較高,但對復(fù)雜機(jī)械的原理等專業(yè)知識的要求較高,因此在旋轉(zhuǎn)機(jī)械的故障診斷中普適性較弱。基于專家系統(tǒng)的方法不需要知道系統(tǒng)的精確模型,故障診斷過程便于理解,但實際診斷中需要大量的專家知識及經(jīng)驗,知識的數(shù)量和質(zhì)量對診斷結(jié)果的準(zhǔn)確性有一定的影響。在基于人工智能的故障診斷方法中,主要有基于神經(jīng)網(wǎng)絡(luò)的方法[3]、基于支持向量機(jī)的方法[4]等。其中,基于神經(jīng)網(wǎng)絡(luò)的方法在旋轉(zhuǎn)機(jī)械故障診斷中應(yīng)用較廣,其結(jié)構(gòu)的選擇、收斂速度較慢等都制約著診斷結(jié)果的準(zhǔn)確性。支持向量機(jī)采用結(jié)構(gòu)風(fēng)險最小化的原理,在訓(xùn)練數(shù)據(jù)集較小的情況下診斷效果較好。但實際工業(yè)中,通常存在大量訓(xùn)練樣本,對于大量輸入數(shù)據(jù)支持向量機(jī)的診斷性能相對較差。
機(jī)器學(xué)習(xí)算法在故障診斷領(lǐng)域越來越受到人們的重視,隨機(jī)森林(random forest,RF)作為其中的一種也在不斷發(fā)展。RF最早由Leo Breiman和Adele Culter提出,該算法是一個包含多個弱分類器的組合學(xué)習(xí)算法[5]。大量研究[6-8]表明,RF相比其他算法有著明顯的優(yōu)勢。能夠處理大規(guī)模數(shù)據(jù),并且在數(shù)據(jù)缺失的情況下也具有很好的預(yù)測精度,實現(xiàn)過程比較簡單,既能處理離散數(shù)據(jù)也能處理連續(xù)數(shù)據(jù),因此近10年來,RF算法在多個領(lǐng)域都有較好的發(fā)展。目前國內(nèi)將RF算法用于故障診斷的研究相對較少,本研究將RF算法應(yīng)用于旋轉(zhuǎn)機(jī)械齒輪組的故障診斷中,并將實驗結(jié)果與旋轉(zhuǎn)機(jī)械故障診斷中應(yīng)用較廣的支持向量機(jī)方法進(jìn)行比較。結(jié)果顯示,與支持向量機(jī)相比,RF算法模型參數(shù)較少,實現(xiàn)過程較為簡單,并且能夠處理大規(guī)模數(shù)據(jù),明顯提高了故障診斷的準(zhǔn)確率。因此,基于RF算法的故障診斷有著重要的研究價值。
將隨機(jī)森林算法應(yīng)用于旋轉(zhuǎn)機(jī)械齒輪組的故障診斷中,針對多工況、多故障同時存在的情況,用一種新的人工智能方法進(jìn)行故障診斷,取得了比傳統(tǒng)旋轉(zhuǎn)機(jī)械齒輪組故障診斷更高的分類準(zhǔn)確率。該方法不僅拓展了隨機(jī)森林算法的應(yīng)用領(lǐng)域,同時也給旋轉(zhuǎn)機(jī)械齒輪組的故障診斷提供了新思路。
RF是一種有監(jiān)督的集成學(xué)習(xí)算法,廣泛應(yīng)用于分類問題和回歸問題。該算法綜合了1996年Leo[9]提出的Bagging算法和1998年Ho[10]提出的隨機(jī)子空間方法,利用兩種隨機(jī)的思想,很好地抑制了傳統(tǒng)分類器的過擬合現(xiàn)象。其基本思想是將分類能力較弱的多個分類器進(jìn)行組合,形成分類能力較強(qiáng)的分類器群。該算法選取分類回歸樹(classification and regression tree,CART)[11]作為基分類器進(jìn)行相關(guān)問題的分類。
RF算法是一種建立在特征集合上的算法,特征的優(yōu)劣在一定程度上制約著算法的分類準(zhǔn)確率。因此,特征的選取在RF中具有重要的意義。假定RF由k個分類器h1(T),h2(T),…,hk(T)集合而成,表示為:
H={h1(T),h2(T),…,hk(T)}。
(1)
其中:T是輸入特征集,hq(T),q=1,2,…,k是基分類器,每個分類器均為利用CART算法生成的決策樹,綜合k棵決策樹的分類結(jié)果按少數(shù)服從多數(shù)原則進(jìn)行投票,投票結(jié)果即為RF的分類結(jié)果。
RF算法的實現(xiàn)包括以下幾個部分:
1)利用bootstrap重抽樣方法[12]從含有n個樣本的原始數(shù)據(jù)集中進(jìn)行k次隨機(jī)且有放回的抽樣,形成k個bootstrap子樣本集,每個子樣本集中均含有n個樣本。
2)針對每個bootstrap子樣本集,利用CART算法進(jìn)行決策樹的構(gòu)建。該算法使用“基尼指數(shù)”(Gini index)作為劃分最優(yōu)特征及最優(yōu)分裂值的指標(biāo)。假設(shè)當(dāng)前所選取的特征ti中包含C個類別,其Gini值如下所示:
(2)
式中,pj為第j個類別出現(xiàn)的概率。從式(2)可以看出,Gini值越小分類的純度越高。因此,遍歷該決策樹的所有特征,選取Gini值最小的特征作為當(dāng)前節(jié)點的分裂特征。
4)綜合k棵決策樹的分類結(jié)果[14],利用少數(shù)服從多數(shù)的原則進(jìn)行投票,投票結(jié)果即為RF的分類結(jié)果。
針對主要的兩種基于人工智能的故障診斷方法存在的不足,本研究擬采用基于RF算法進(jìn)行齒輪組的故障診斷,其故障診斷流程圖如圖1所示。
圖1 基于RF算法的故障診斷流程圖Fig.1 Flowchart of RF based fault diagnosis
基于RF算法的旋轉(zhuǎn)機(jī)械齒輪組故障診斷具體步驟為:
1)原始數(shù)據(jù)集D的獲取:選取齒輪組裂紋、缺齒、斷齒三類故障進(jìn)行數(shù)據(jù)采集,針對每類故障,分別從旋轉(zhuǎn)機(jī)械的振動傳感器、扭力傳感器測量中選取l個數(shù)據(jù),并記錄每個數(shù)據(jù)對應(yīng)的故障標(biāo)簽yi(i=1,2,…,3l):
yi∈{y1,y2,y3},i=1,2,…,3l,
(3)
D={D1∪D2},
(4)
D1={(xi,yi)},i=1,2,…,3l,
(5)
(6)
其中:y1,y2,y3分別表示裂紋、缺齒、斷齒三類故障,D1為振動傳感器測量輸出、D2為扭力傳感器測量輸出。
2)特征提?。航Y(jié)合旋轉(zhuǎn)機(jī)械故障檢測系統(tǒng)的特點和文獻(xiàn)[15]的時域特征參數(shù)表,選取表1中的時域特征作為決策樹生長過程中的分裂屬性。
表1 時域特征描述Tab.1 Description of time domain characteristics
注:xi是傳感器測量,i=1,2,…,n是樣本數(shù)
4)CART決策樹的生長和分類結(jié)果:根據(jù)1.1節(jié)CART決策樹的構(gòu)建方法選取最優(yōu)的分裂特征和最優(yōu)分裂值a進(jìn)行節(jié)點的分裂。假定選取的最優(yōu)分裂特征為ti,最優(yōu)分裂值a的選取如下:
(7)
其中:ti1、ti2為枚舉得到的最優(yōu)分裂特征ti的兩個子樣本集,N1、N2為兩個子樣本集的樣本數(shù),N為最優(yōu)分裂特征為ti時的樣本數(shù)。按照公式(7)的規(guī)則進(jìn)行CART決策樹的生長,直到m個特征全部用作分裂節(jié)點,則完成了該決策樹的生長。
5)RF的分類結(jié)果:將構(gòu)建好的k棵決策樹作為RF的基分類器群,對特征數(shù)據(jù)進(jìn)行故障類別的劃分,綜合k棵決策樹的分類結(jié)果,利用少數(shù)服從多數(shù)的原則進(jìn)行投票得到RF的分類結(jié)果,從而實現(xiàn)故障診斷。
上述基于RF算法的旋轉(zhuǎn)機(jī)械齒輪組故障診斷過程描述如表2、表3所示。
實驗平臺選取美國SpectraQuest公司的風(fēng)力渦輪動力傳動系統(tǒng)故障診斷模擬器,其結(jié)構(gòu)圖如圖2所示,其中1是單相電機(jī)、2是二級平行軸變速箱、3是行星齒輪箱變速器、4是可編程磁力制動器、5是傳感器(從左到右分別為扭力傳感器、振動傳感器)。該平臺可以在多工況、多故障同時存在的情況下對齒輪組的運行狀態(tài)進(jìn)行檢測。
提出的故障診斷方法是針對旋轉(zhuǎn)機(jī)械齒輪組的裂紋、缺齒、斷齒三類故障進(jìn)行的診斷。圖3列出了齒輪組在正常情況下及三種故障情況下的實物圖,其中:1為正常、2為缺齒、3為裂紋、4為斷齒。
表2 基于RF算法的旋轉(zhuǎn)機(jī)械齒輪組故障診斷方法(離線過程)Tab.2 RF based fault diagnosis method on rotating machinery gearbox (offline process)
表3 基于RF算法的旋轉(zhuǎn)機(jī)械齒輪組故障診斷方法(在線過程)Tab.3 RF based fault diagnosis method on rotating machinery gearbox (online process)
圖2 風(fēng)力渦輪動力傳動系統(tǒng)故障診斷模擬器Fig.2 Wind turbine drivetrain diagnosis simulator
圖3 齒輪故障類型實物圖Fig.3 The different classes of gear fault
裂紋主要發(fā)生在齒根表面。由于齒面所受作用力超出材料所能承受的最大作用力,導(dǎo)致齒輪發(fā)生裂紋,在嚙合時裂紋閉合促使縫隙中的油壓增高,加速了裂紋的擴(kuò)散,最終齒輪表面的金屬一小塊一小塊的剝落形成點蝕。斷齒是齒輪最常見的故障類型,由于齒輪的作用力主要集中在齒根處,因此斷齒常發(fā)生于齒根部位。通常有三種情況:一是由于齒輪長時間處于工作狀態(tài),在各種力的作用下,產(chǎn)生疲勞裂紋并逐漸擴(kuò)散,最終導(dǎo)致齒輪發(fā)生疲勞斷齒。二是當(dāng)齒輪處于超負(fù)荷的工作環(huán)境時,齒輪受到嚴(yán)重的沖擊,導(dǎo)致齒根處的作用力超出所能承受的最大范圍而發(fā)生斷裂。三是由于齒輪本身質(zhì)量較差或工作過程中出現(xiàn)偏載,使得齒根處受力不均勻而發(fā)生局部斷齒(缺齒),局部斷齒通常發(fā)生在輪齒端部。此外,受齒輪箱中未被清理的物質(zhì)混入齒輪間隙、潤滑效果不好等因素的影響,常常導(dǎo)致齒輪被磨損。齒輪磨損后,齒的厚度變薄,加大了整個設(shè)備的振動和噪聲,嚴(yán)重時也可能引發(fā)斷齒。
實際工作中,轉(zhuǎn)速的改變,噪聲、環(huán)境的改變,齒輪、軸承等元件的損壞都可能引起工況的改變。但實際的轉(zhuǎn)速是不可預(yù)測的,在實驗過程中轉(zhuǎn)速的變化可以通過調(diào)節(jié)電機(jī)轉(zhuǎn)動頻率和負(fù)載電壓來實現(xiàn),假設(shè)轉(zhuǎn)子轉(zhuǎn)速是勻速的,而數(shù)據(jù)是在不同轉(zhuǎn)速下采集的,在一定程度上也保證了工況的不同,具有一定的普適性。齒輪部分可選擇分布形式為直齒或斜齒等不同類型的輪齒,還可以選擇齒輪裂紋、斷齒、缺齒等多種故障類型的齒輪。
表4 實驗數(shù)據(jù)Tab.4 Experimental data
現(xiàn)將工況的處理表示如下:借助風(fēng)力渦輪動力傳動系統(tǒng)故障診斷方法模擬器,選取四種工況(轉(zhuǎn)動頻率為6、10 Hz,負(fù)載電壓為8、5 V)同時采集齒輪裂紋、缺齒、斷齒三種故障的振動傳感器和扭力傳感器輸出。其中,每個傳感器采集2 000個數(shù)據(jù),按照傳感器的不同,將得到的故障數(shù)據(jù)按列進(jìn)行整合,生成一個(2 000×3)×2的矩陣。按照同樣的整合方法將剩余三種工況的數(shù)據(jù)進(jìn)行整合,共得到四個(2 000×3)×2的矩陣。
根據(jù)表1所示的時域特征分別對四種工況下傳感器測得的數(shù)據(jù)進(jìn)行故障特征的提取。為了降低提取特征之后數(shù)據(jù)的維度,實驗中將每4個數(shù)據(jù)劃分為一組進(jìn)行特征提取。提取過程如下:分別對500×3組振動傳感器的測量輸出D1和500×3組扭力傳感器的測量輸出D2進(jìn)行多維度特征向量的提取,記為集合T。T包含如下14個變量:最大值x1(x8)、均方根x2(x9)、方根幅值x3(x10)、標(biāo)準(zhǔn)x4(x11)、峰值指標(biāo)x5(x12)、裕度指標(biāo)x6(x13)、絕對平均值x7(x14)。利用bootstrap重抽樣方法分別對每種工況下提取特征后的500×3行數(shù)據(jù)集進(jìn)行重復(fù)抽樣生成k個bootstrap子集,并對每種工況進(jìn)行訓(xùn)練集和測試集的劃分。
圖4以轉(zhuǎn)動頻率6 Hz、負(fù)載電壓8 V為例,給出了齒輪裂紋故障下的部分扭力傳感器測量提取特征之后的數(shù)據(jù)。
圖4 齒輪裂紋情況下的特征數(shù)據(jù)Fig.4 Extracted feature data under root crack fault
2.3.1 四種工況下的實驗結(jié)果
基于RF算法的旋轉(zhuǎn)機(jī)械齒輪組故障診斷實現(xiàn)過程較為簡單,整個實驗過程涉及到兩個參數(shù)的選擇,分別為最優(yōu)決策樹的棵數(shù)k和最優(yōu)特征子集m。其中,k值根據(jù)實驗過程中的袋外誤差來確定,通過優(yōu)化,選擇k=320作為RF模型中最優(yōu)決策樹的棵數(shù)。對于工況1,按照1.2節(jié)步驟(2)介紹的特征提取方法進(jìn)行時域特征的提取,將提取后的特征向量x1~x14和類別標(biāo)簽Y作為RF的輸入,實驗結(jié)果如表5所示。
表5 訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集的混淆矩陣Tab.5 Confusion matrix of training and testing data set
注:左側(cè)為訓(xùn)練數(shù)據(jù)集的混淆矩陣,右側(cè)為測試數(shù)據(jù)集的混淆矩陣
由表5的混淆矩陣可以看出,利用RF進(jìn)行分類時,y1被錯分為y2的有2個,被錯分為y3的有0個,分類錯誤率為1.2%。y2被錯分為y1的有2個,被錯分為y3的有1個,分類錯誤率為1.9%。y3的分類結(jié)果全部正確。總體來說,利用RF進(jìn)行分類,預(yù)測準(zhǔn)確率達(dá)到了98.84%。
圖5 RF特征重要性Fig.5 Contribution of the RF features
表6 工況2、3、4測試數(shù)據(jù)集的混淆矩陣Tab.6 Confusion matrix of test data set for operation conditions 2,3 and 4
為衡量每個特征在RF的所有決策樹中所做貢獻(xiàn)的平均值,采用基于Gini值的特征重要性計算方法,將特征ti在節(jié)點m處的重要性定義為節(jié)點m分枝前后Gini值的變化量,并通過計算特征ti在每棵決策樹中的重要性得到該特征在隨機(jī)森林中的重要性。由圖5可以得出,x8、x11、x12、x13四個特征在RF的構(gòu)建過程中貢獻(xiàn)率較大,為此RF中最重要的四個特征,保證了所構(gòu)建的RF的分類準(zhǔn)確率。
在其他三種工況下的故障診斷結(jié)果如表6所示,由混淆矩陣可以看出,每種工況下RF的分類準(zhǔn)確率都比較高,并且RF對y3的分類效果最好,對y1和y2的分類準(zhǔn)確率相差不大。由于RF算法在構(gòu)建過程中只涉及到兩個參數(shù)(k和m)的選擇,算法的實現(xiàn)過程較為簡單,并能根據(jù)Gini值給出變量的重要性排序,方便進(jìn)行最優(yōu)特征的選取。
2.3.2 方法對比
為了驗證RF算法能有效地提高模型的預(yù)測準(zhǔn)確率,在相同的工況下,將2.2節(jié)提取特征之后的數(shù)據(jù)用于本文提出的基于RF的故障診斷方法和傳統(tǒng)的基于支持向量機(jī)(support vector machine,SVM)的故障診斷方法[17]。
表中首先給出了四種不同的工況,每種工況所采集的數(shù)據(jù)均包含旋轉(zhuǎn)機(jī)械齒輪組裂紋、缺齒、斷齒三類故障,并且在每類故障信號中選取2 000個數(shù)據(jù)用作實驗所需的原始數(shù)據(jù)集。然后對采集到的2 000×3個故障數(shù)據(jù)按照文中表1的時域特征參數(shù)進(jìn)行時域特征的提取。最后將提取特征之后的數(shù)據(jù)用于隨機(jī)森林算法和文獻(xiàn)[17]中介紹的支持向量機(jī)方法進(jìn)行分類準(zhǔn)確率的對比。實驗對比結(jié)果如表7所示。
表7 基于RF和基于SVM的故障診斷方法的實驗對比Tab.7 Experimental comparison between RF and SVM based fault diagnosis method
由上述對比實驗可以看出,在相同的工況下,應(yīng)用RF算法進(jìn)行故障分類的分類準(zhǔn)確率明顯高于使用SVM方法的分類準(zhǔn)確率。對于不同的工況而言,RF算法的分類準(zhǔn)確率較SVM算法明顯提高。主要原因在于使用SVM算法進(jìn)行分類得到的是單一的分類器,而RF算法采用bootstrap重抽樣方法生成了多個分類器,且其訓(xùn)練集互不相同,并采用隨機(jī)子空間的方法對特征集進(jìn)行抽樣,使得每個分類器的特征子集也互不相同,最后利用組合分類器的思想將每個分類器的分類結(jié)果進(jìn)行組合,得到整個森林的分類結(jié)果。同時,在建立RF模型時只涉及到兩個參數(shù)的確定,算法的時間復(fù)雜度較低。因此,與SVM方法相比,RF算法的模型預(yù)測準(zhǔn)確率有了明顯的提高。
針對傳統(tǒng)的旋轉(zhuǎn)機(jī)械故障診斷中使用單一分類器、診斷準(zhǔn)確率不高的問題,提出了一種基于多個分類器組合而成的RF算法旋轉(zhuǎn)機(jī)械齒輪組故障診斷。該方法通過基分類器組合學(xué)習(xí),提高了森林預(yù)測準(zhǔn)確率,大大縮短了模型的預(yù)測時間。利用風(fēng)力渦輪動力傳動系統(tǒng)故障診斷模擬器,進(jìn)行了多工況、多故障的實驗驗證。結(jié)果顯示,RF算法能夠很好地對齒輪組故障進(jìn)行分類,避免復(fù)雜的尋參過程,能夠處理大規(guī)模數(shù)據(jù)集,并且通過分類器組合,提高了模型的預(yù)測準(zhǔn)確率,避免了傳統(tǒng)分類器的過擬合現(xiàn)象。同時,應(yīng)用隨機(jī)森林算法進(jìn)行旋轉(zhuǎn)機(jī)械的故障診斷過程可看作一個循環(huán)過程。針對系統(tǒng)齒輪組出現(xiàn)的新故障,或者旋轉(zhuǎn)機(jī)械其他部位出現(xiàn)的故障,首先需要明確知道該部分故障數(shù)據(jù)的類別標(biāo)簽,然后對這部分故障數(shù)據(jù)進(jìn)行時域特征提取,最后將提取數(shù)據(jù)用作隨機(jī)森林算法的輸入進(jìn)行隨機(jī)森林的重新構(gòu)建,并進(jìn)行故障類別的劃分。如再出現(xiàn)新的故障,可循環(huán)操作此過程完成故障類別的劃分。