張鈺,陳珺,王曉峰,劉飛,周文晶,王志國(guó)
1.江南大學(xué)自動(dòng)化研究所輕工過(guò)程先進(jìn)控制教育部重點(diǎn)實(shí)驗(yàn)室,江蘇無(wú)錫214122
2.西門(mén)子中國(guó)研究院,北京100000
隨機(jī)森林在滾動(dòng)軸承故障診斷中的應(yīng)用
張鈺1,陳珺1,王曉峰2,劉飛1,周文晶2,王志國(guó)1
1.江南大學(xué)自動(dòng)化研究所輕工過(guò)程先進(jìn)控制教育部重點(diǎn)實(shí)驗(yàn)室,江蘇無(wú)錫214122
2.西門(mén)子中國(guó)研究院,北京100000
CNKI網(wǎng)絡(luò)出版:2017-02-28,http://kns.cnki.net/kcms/detail/11.2127.TP.20170228.1820.006.html
據(jù)統(tǒng)計(jì),在工業(yè)生產(chǎn)中,在滾動(dòng)軸承的旋轉(zhuǎn)機(jī)械設(shè)備中,有30%的故障都是由滾動(dòng)軸承的損傷所引起的。一旦旋轉(zhuǎn)機(jī)械設(shè)備發(fā)生故障,其結(jié)果往往會(huì)造成嚴(yán)重的經(jīng)濟(jì)損失和安全事故。因此,對(duì)滾動(dòng)軸承的故障診斷有著重要的研究意義[1]。
近些年來(lái),國(guó)內(nèi)外一些學(xué)者針對(duì)滾動(dòng)軸承的故障診斷進(jìn)行了許多研究,并取得了一定的成果。研究?jī)?nèi)容主要涉及特征提取和狀態(tài)識(shí)別兩個(gè)方面。針對(duì)滾動(dòng)軸承故障的特征提取,通常利用振動(dòng)傳感器采集滾動(dòng)軸承的振動(dòng)信號(hào),然后提取時(shí)域特征、頻域特征或時(shí)頻特征作為軸承診斷的特征向量,其中使用較多的時(shí)域特征有均方根值、峭度值,而頻域和時(shí)頻特征通常需要進(jìn)行信號(hào)變換如:小波變換、快速傅里葉變換和經(jīng)驗(yàn)?zāi)B(tài)分解。最后通過(guò)狀態(tài)識(shí)別方法進(jìn)行故障診斷,其中常用的識(shí)別方法有人工神經(jīng)網(wǎng)絡(luò)(ANN)和支持向量機(jī)(SVM)。ANN具有較強(qiáng)的自學(xué)能力、適應(yīng)性和非線性逼近能力等優(yōu)點(diǎn),已經(jīng)應(yīng)用到軸承故障診斷領(lǐng)域中[2-6],但是ANN同時(shí)也存在著參數(shù)優(yōu)化難、收斂速度過(guò)慢等缺點(diǎn)。而SVM作為比較經(jīng)典的分類算法,克服了ANN收斂速度慢和過(guò)擬合的問(wèn)題,因此,在軸承故障診斷領(lǐng)域得到了非常廣泛的應(yīng)用[7-10]。當(dāng)然,其也有一定的缺陷,即存在處理大樣本數(shù)據(jù)時(shí)能力不足以及解決多分類問(wèn)題精度較低等困難。
在特征提取時(shí),數(shù)據(jù)的多樣性會(huì)導(dǎo)致數(shù)據(jù)本身對(duì)特征向量有所偏好,即同一種特征向量在不同數(shù)據(jù)下的診斷效果不是當(dāng)前數(shù)據(jù)中最優(yōu)的診斷結(jié)果。為此需要提取多種特征,但是,特征向量維數(shù)的增大,不一定有利于診斷結(jié)果的提高。隨機(jī)森林(Random Forest)作為集成學(xué)習(xí)中比較經(jīng)典的算法之一,能夠解決ANN收斂速度過(guò)慢,容易陷于過(guò)擬合等問(wèn)題,同時(shí)也能解決SVM處理大樣本數(shù)據(jù)的能力不足的缺點(diǎn)。更重要的是隨機(jī)森林能夠集成多種特征向量,有效提高診斷的正確率。隨機(jī)森林已廣泛應(yīng)用于網(wǎng)絡(luò)故障診斷、文本挖掘和圖像處理等領(lǐng)域[11-13],但是,卻少有將隨機(jī)森林應(yīng)用到軸承故障診斷領(lǐng)域中的研究報(bào)告。
首先,從軸承的振動(dòng)信號(hào)中提取時(shí)域特征作為特征向量,然后,利用特征向量作為隨機(jī)森林算法的輸入對(duì)軸承進(jìn)行故障診斷。最后,與其他的傳統(tǒng)診斷算法相比較。結(jié)果表明,隨機(jī)森林算法的診斷準(zhǔn)確率明顯高于其他診斷算法。因此,隨機(jī)森林在軸承故障診斷領(lǐng)域中有著重要的研究意義。
bootstrap自助重采樣方法是美國(guó)Standford大學(xué)教授Efron為解決小樣本試驗(yàn)評(píng)估問(wèn)題提出的一種新的增廣樣本的統(tǒng)計(jì)方法[14]。bootstrap方法基本思想是:從容量為n的原始樣本中進(jìn)行有放回的重復(fù)采樣,采樣樣本的容量也為n,每個(gè)觀測(cè)對(duì)象被抽到的概率為1/n,每次采樣構(gòu)成的子樣本稱為bootstrap樣本。采樣次數(shù)根據(jù)計(jì)算量而定。從每個(gè)重采樣的樣本中可以計(jì)算某個(gè)統(tǒng)計(jì)量的bootstrap分布,比如說(shuō)均值,多個(gè)重采樣樣本的均值構(gòu)成了原始樣本均值的bootstrap分布。其過(guò)程一般可用隨機(jī)數(shù)或者計(jì)算機(jī)輸出n個(gè)0~1之間的隨機(jī)數(shù)實(shí)現(xiàn)。即:先將樣本變量編碼為1,2,…,n;然后取分組距離1/n將區(qū)間[0,1]分成n個(gè)互斥的分隔:
出現(xiàn)的隨機(jī)數(shù),凡在0~1/n之間的去編碼“1”變量,凡在1/n~2/n之間的去編碼“2”變量,…,凡在(n-1)/n~1之間的去編碼“n”變量。
bootstrap重采樣是集成學(xué)習(xí)算法對(duì)原始樣本進(jìn)行采樣的方法,也是隨機(jī)森林算法的一個(gè)重要構(gòu)成部分。
決策樹(shù)是一種樹(shù)狀預(yù)測(cè)模型,它代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。樹(shù)的根節(jié)點(diǎn)是整個(gè)數(shù)據(jù)集的空間,樹(shù)中每個(gè)節(jié)點(diǎn)表示某個(gè)對(duì)象,而每個(gè)分叉路徑則代表某個(gè)可能的屬性值,從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑則是相應(yīng)對(duì)象的預(yù)測(cè)值。決策樹(shù)學(xué)習(xí)的目的是為了產(chǎn)生一棵泛化能力強(qiáng)的決策樹(shù)。決策樹(shù)的種類有很多,主要有ID3、C4.5和CART。如何選擇劃分屬性是決策樹(shù)中一個(gè)重要問(wèn)題。ID3和C4.5分別采用信息增益和信息增益率作為劃分屬性,信息增益準(zhǔn)則會(huì)對(duì)可取值數(shù)目較多的屬性有所偏好,雖然C4.5克服了ID3的缺點(diǎn),但是ID3和C4.5都存在生成的決策樹(shù)分支復(fù)雜、規(guī)模較大、效率較低等問(wèn)題。為了簡(jiǎn)化決策樹(shù)的規(guī)模,提高生成決策樹(shù)的效率,Breiman等人提出了CART[15]。
CART決策樹(shù)是一種結(jié)構(gòu)簡(jiǎn)單的二叉樹(shù),與ID3和C4.5決策樹(shù)相比,采用一種二分遞歸分割的技術(shù),有著更好的劃分能力,可用于分類和回歸任務(wù)。CART決策樹(shù)使用“基尼指數(shù)”來(lái)選擇劃分屬性,數(shù)據(jù)集的純度可用基尼值表示如下:
從式(1)中可以看出基尼值反映了從數(shù)據(jù)集中隨機(jī)抽取兩個(gè)樣本,其類別標(biāo)記不一致的概率。因此,數(shù)據(jù)集的純度與基尼值的大小成反比。其中屬性a的基尼指數(shù)定義為:
因此,在候選屬性集合中,選擇使得劃分后基尼指數(shù)最小的屬性作為最優(yōu)劃分屬性。由于CART具有結(jié)構(gòu)簡(jiǎn)單、良好的劃分能力等特點(diǎn),使其成為集成學(xué)習(xí)算法中最為常見(jiàn)的基學(xué)習(xí)器。
隨機(jī)森林由Breiman在2001年提出的[16],隨機(jī)森林由多個(gè)決策樹(shù)構(gòu)成,通過(guò)多個(gè)決策樹(shù)的投票原則來(lái)決定最終的結(jié)果。具體過(guò)程分為兩步:第一步是利用bootstrap方法重采樣,從容量為S的原始樣本集中隨機(jī)選擇S個(gè)樣本組成bootstrap樣本集,分別利用多個(gè)不同的bootstrap樣本集訓(xùn)練多個(gè)決策樹(shù)。第二步是在構(gòu)造決策樹(shù)時(shí),從特征屬性集中隨機(jī)選擇一個(gè)包含m個(gè)屬性的子集,然后在再利用這個(gè)子集中的屬性進(jìn)行劃分。研究表明[11],隨機(jī)森林可以有效地提高分類精度。
定義1(隨機(jī)森林)隨機(jī)森林是由多個(gè)決策樹(shù){h(x,Θk),k=1,2,…,n}組成的分類器,其中{}Θk是相互獨(dú)立且同分布的隨機(jī)向量,最終由所有決策樹(shù)綜合投票決定輸出結(jié)果。
給定k個(gè)分類器h1(x),h2(x),…,hk(x)和隨機(jī)向量Y,X,定義邊緣函數(shù):
其中,I(?)是示性函數(shù),該邊緣函數(shù)刻畫(huà)了對(duì)向量Y,X正確分類的平均得票數(shù)超過(guò)其他任何類平均得票數(shù)的程度??芍吘壴酱蠓诸惖闹眯哦染驮礁?。分類器的泛化誤差表示如下:
在隨機(jī)森林中,hk(X)=h(X,Θk)。對(duì)于隨機(jī)森林中的樹(shù)的數(shù)目較大,可以用大數(shù)定律和樹(shù)的結(jié)構(gòu)得到如下定理:
定理1隨著樹(shù)的數(shù)目增加,對(duì)所有隨機(jī)向量Θ,…,PE*趨于
文獻(xiàn)[11]已給出定理1的證明,并且表明隨機(jī)森林不會(huì)隨著樹(shù)的數(shù)量增加而出現(xiàn)過(guò)擬合,泛化誤差將收斂于某一個(gè)上界。
定義2隨機(jī)森林的邊緣函數(shù)
分類器{h(X,Θ)}的分類強(qiáng)度
假設(shè)s≥0,根據(jù)切比雪夫不等式,可得:
不等式具有以下形式:
由式(4)、(9)和(11)得到以下結(jié)論。
定理2隨機(jī)森林的泛化誤差上界的定義為:
由定理2可知,隨機(jī)森林的泛化誤差上界由每棵決策樹(shù)的分類強(qiáng)度(精度)和樹(shù)與樹(shù)之間的相關(guān)程度所決定。泛化誤差上界隨著隨機(jī)森林中樹(shù)與樹(shù)之間的相關(guān)程度增大而增大,并且泛化誤差上界也與每棵樹(shù)的分類強(qiáng)度成正比。
隨機(jī)森林利用分類與回歸樹(shù)(CART)進(jìn)行單個(gè)分類樹(shù)的生長(zhǎng),生成的分類樹(shù)與傳統(tǒng)的CART有所區(qū)別,不進(jìn)行裁剪,使樹(shù)最大化地生長(zhǎng)。隨機(jī)森林生成的具體步驟如下:
(1)隨機(jī)森林每次利用bootstrap重采樣方法從原始訓(xùn)練樣本集中抽取63.2%的樣本生成一個(gè)子樣本集,每一個(gè)子樣本對(duì)應(yīng)著一棵分類樹(shù)。同時(shí),原始樣本沒(méi)有被抽中的樣本稱為袋外數(shù)據(jù)OOB(Out-Of-Bag),OOB數(shù)據(jù)被用來(lái)評(píng)估分類器的分類正確率[17]。
(2)利用每個(gè)子樣本集,生長(zhǎng)為單棵分類樹(shù)。在樹(shù)的每個(gè)節(jié)點(diǎn)處,從M個(gè)特征向量中隨機(jī)挑選m個(gè)特征向量,根據(jù)Liaw給出的經(jīng)驗(yàn)公式[18],通常取m=int(M),即m取M的向下整數(shù)。按照節(jié)點(diǎn)不純度最小的原則從這m個(gè)特征向量中選出一個(gè)特征α作為該節(jié)點(diǎn)的分類屬性。
(3)根據(jù)特征α將節(jié)點(diǎn)分成2個(gè)分支,然后再?gòu)氖O碌奶卣髦袑ふ曳诸愋Ч詈玫奶卣?,如此遞歸構(gòu)造分類樹(shù)的分支,使分類樹(shù)充分生長(zhǎng),每個(gè)節(jié)點(diǎn)的不純度達(dá)到最小,而不進(jìn)行剪枝。直到這棵樹(shù)能準(zhǔn)確地分類訓(xùn)練集,或者所有屬性使用完。
(4)在分類階段,分類標(biāo)簽是由所有分類樹(shù)的結(jié)果綜合而成。隨機(jī)森林使用的是投票原則。即:
其中,N是森林中決策樹(shù)的數(shù)目,I(?)是示性函數(shù),nhi,c是樹(shù)hi對(duì)類C的分類結(jié)果,nhi是樹(shù)的葉子節(jié)點(diǎn)數(shù)。
如圖1所示,SQI-MFS實(shí)驗(yàn)平臺(tái)由電機(jī)、變頻器、軸承、底座支撐架組成。其中軸承型號(hào)為MB ER-16K,實(shí)驗(yàn)平臺(tái)可以模擬各類健康或故障軸承在不同轉(zhuǎn)速和不同負(fù)載下的運(yùn)行狀態(tài)。
圖1 SQI-MFS實(shí)驗(yàn)平臺(tái)
如圖2所示,從左至右、從上至下,分別為健康軸承、滾珠故障軸承、內(nèi)圈故障軸承以及外圈故障軸承的實(shí)物圖。
本實(shí)驗(yàn)采集了36種運(yùn)行狀態(tài)下的振動(dòng)數(shù)據(jù),分別為:3種負(fù)載大小(轉(zhuǎn)子負(fù)載個(gè)數(shù))(0,1,3)×3種轉(zhuǎn)速(r/m)(600,1 200,1 800)×4種軸承(健康,滾珠故障,內(nèi)圈故障以及外圈故障軸承),將數(shù)據(jù)分別按負(fù)載大?。?種)和電機(jī)轉(zhuǎn)速(3種)分成9組。其中故障軸承的故障點(diǎn)大小為19.05 mm。圖3~圖6分別是其中一組軸承的4種狀態(tài)下的振動(dòng)信號(hào)圖。
圖24 種狀態(tài)的軸承實(shí)物圖
圖3 健康軸承振動(dòng)信號(hào)圖
圖4 滾珠故障軸承振動(dòng)信號(hào)圖
圖5 內(nèi)圈故障軸承振動(dòng)信號(hào)圖
由于隨機(jī)森林算法中需要從M個(gè)特征向量中選取m個(gè)特征向量,若將M設(shè)置為1,隨機(jī)森林算法的特點(diǎn)就無(wú)法表現(xiàn)出來(lái)。另外,為了體現(xiàn)隨機(jī)森林能夠在比較簡(jiǎn)單的特征向量條件下,就能表現(xiàn)出其較好的性能。這里提取軸承振動(dòng)信號(hào)的時(shí)域特征[19]。時(shí)域特征向量有:最大值F1,均方根值F2,歪度值F3,峭度值F4,波性指標(biāo)F5,脈沖指標(biāo)F6,歪度指標(biāo)F7,峰值指標(biāo)F8,裕度指標(biāo)F9,峭度指標(biāo)F10。
圖6 外圈故障軸承振動(dòng)信號(hào)圖
將上述10種特征向量組合成為一種特征向量F=[F1,F2,…,F10],并將對(duì)應(yīng)軸承的健康、滾珠故障、內(nèi)圈故障和外圈故障四種狀態(tài)分別標(biāo)上標(biāo)簽C=[0,1,2,3],作為分類器的輸入,采用十折交叉驗(yàn)證計(jì)算診斷的正確率。其中,SVM的核函數(shù)為高斯徑向基函數(shù),BP神經(jīng)網(wǎng)絡(luò)的隱含層神經(jīng)元個(gè)數(shù)為21,根據(jù)多次試驗(yàn),發(fā)現(xiàn)kNN算法中k值取5,效果較好。此外,對(duì)于SVM和kNN算法,分別將特征向量F中每個(gè)特征向量Fi(i=1,2,…,10)作為二者的輸入,最后比較這些分類器的診斷正確率,找出其中最大的正確率作為最終的診斷結(jié)果,并且將這些正確率最大的特征向量稱為“最優(yōu)的特征向量”(BP神經(jīng)網(wǎng)絡(luò)中最優(yōu)的特征向量均為F)。
如圖7所示,是SQI-MFS所有軸承數(shù)據(jù)中OOB錯(cuò)誤率收斂最慢的一條曲線。從圖7可以看出,隨機(jī)森林中決策樹(shù)的個(gè)數(shù)在500左右時(shí),OOB錯(cuò)誤率已經(jīng)趨于平穩(wěn),為了保證所有的軸承數(shù)據(jù)正確率達(dá)到穩(wěn)定,分類器的數(shù)量取最大值500。
圖7 OOB錯(cuò)誤率與樹(shù)數(shù)量的關(guān)系(SQI-MFS數(shù)據(jù))
如表1和表2所示,是針對(duì)SQI軸承的9組數(shù)據(jù),在SVM和kNN兩種分類器下的正確率??梢钥吹綄?duì)于不同的數(shù)據(jù),在算法相同情況下,最優(yōu)的特征向量不同,其中,對(duì)于SVM分類器,9組數(shù)據(jù)中最優(yōu)次數(shù)最多的特征向量是F4(峭度值),而對(duì)于kNN分類器最優(yōu)次數(shù)最多的特征向量是F2(均方根值)。另外,對(duì)于不同的分類器,在數(shù)據(jù)相同的情況下,最優(yōu)的特征向量也不一致。同時(shí),可從表1、表2中看出,在所有最優(yōu)的特征向量中,只出現(xiàn)了單一的特征向量,組合之后的特征向量F=[F1,F2,…,F10]并沒(méi)有出現(xiàn)。說(shuō)明對(duì)于SVM和kNN分類器,輸入的特征向量過(guò)多時(shí),其分類的精度不一定得到提高。
表1 SVM對(duì)SQI軸承的診斷結(jié)果
表2 kNN對(duì)SQI軸承的診斷結(jié)果
由上述兩種算法分析結(jié)果可知,若是利用同樣的算法進(jìn)行故障診斷時(shí),最優(yōu)的特征向量不一致,僅提取一種或者兩種特征向量,其診斷結(jié)果的可信度會(huì)比較低,另外,不同的分類器對(duì)特征向量的偏好也不一樣。而隨機(jī)森林剛好可以彌補(bǔ)這兩個(gè)缺點(diǎn)。隨機(jī)森林中有多個(gè)分類器(決策樹(shù)),每個(gè)分類器的參數(shù)不一樣,并且,每個(gè)分類器的訓(xùn)練樣本集也不一樣,因此,就會(huì)產(chǎn)生多個(gè)差異化的分類器,使每個(gè)分類器的診斷結(jié)果不一致。最終,通過(guò)投票的形式產(chǎn)生最終的分類結(jié)果。這樣會(huì)有效地提高診斷的正確率。如表3所示,針對(duì)SQI軸承的9組數(shù)據(jù)進(jìn)行對(duì)比實(shí)驗(yàn),在SQI軸承診斷結(jié)果中,可以看到。除了第9組數(shù)據(jù)kNN的正確率高于BP神經(jīng)網(wǎng)絡(luò)和CART算法,其他各組數(shù)據(jù)的診斷效果,隨機(jī)森林均略好于BP神經(jīng)網(wǎng)絡(luò)和CART算法,且診斷效果明顯比SVM和kNN要好。與CART算法相比,可以看到,隨機(jī)森林由于采用了組合CART的形式,比單個(gè)CART的診斷效果要有所提高。
表3 SQI軸承的診斷對(duì)比結(jié)果
本文中,提出了基于隨機(jī)森林的軸承故障診斷方法,利用SQI實(shí)驗(yàn)平臺(tái)軸承數(shù)據(jù)進(jìn)行多種算法的對(duì)比性試驗(yàn),與傳統(tǒng)的分類器SVM和kNN相比,隨機(jī)森林的診斷正確率提高了0.05~0.17,并且,不需要根據(jù)不同的軸承數(shù)據(jù)而提取不同的特征向量進(jìn)行診斷;與人工神經(jīng)網(wǎng)絡(luò)(BP神經(jīng)網(wǎng)絡(luò))相比,隨機(jī)森林的診斷正確率可以提高0.004~0.05,而且不需要進(jìn)行繁瑣的參數(shù)尋優(yōu)過(guò)程。不同的分類器對(duì)于相同的樣本集有著不同的分類性能。隨機(jī)森林通過(guò)將簡(jiǎn)單的弱分類器(決策樹(shù))的分類結(jié)果集成起來(lái),從而達(dá)到提高精度的效果。因此,隨機(jī)森林在軸承故障診斷方面有著較好的實(shí)際推廣意義。
[1] 王澤文.基于振動(dòng)信號(hào)的滾動(dòng)軸承故障診斷與預(yù)測(cè)系統(tǒng)研究[D].江蘇徐州:中國(guó)礦業(yè)大學(xué),2014.
[2] Subrahmanyam M,Sujatha C.Using neural networks for the diagnosis of localized defects in ball bearings[J].Tribology International,1997,30(10):739-752.
[3] Li B,Chow M Y,Tipsuwan Y,et al.Neural-network-based motor rolling bearing fault diagnosis[J].IEEE Transactions on Industrial Electronics,2000,47(5):1060-1069.
[4] Zhang Y Q,Zhang P L,Wu D H,et al.Bearing fault diagnosis based on optimal generalized S transform and pulse coupled neural network[J].Journal of Vibration&Shock,2015,34(9):26-31.
[5] Sreejith B,Verma A K,Srividya A.Fault diagnosis of rolling element bearing using time-domain features and neural networks[C]//IEEE Region 10 and the Third International Conference on Industrial and Information Systems,2008:1-6.
[6] Yu Y,Yu Dejie,Cheng J.A roller bearing fault diagnosis method based on EMD energy entropy and ANN[J].Journal of Sound&Vibration,2006,294(1/2):269-277.
[7] Yang M,Chen J.Rolling element bearing fault diagnosis based on slice spectral correlation density and support vector machine[J].Journal of Vibration&Shock,2010,29(1):196-199.
[8] Ma J,Wu J D,F(xiàn)an Y G,et al.Fault diagnosis of rolling bearing based on the PSO-SVM of the mixed-feature[J].Applied Mechanics&Materials,2013,380-384:131-134.
[9] Wu Husheng,Lv Jianxin,Lai L H,et al.Fault pattern recognition of rolling bearing based on EMD-SVD model and SVM[J].Noise&Vibration Control,2011,31(2):89-93.
[10] Shi R M,Yang Z J.Application of optimized directed acyclic graph support vector machine based on complex network in fault diagnosis of rolling bearing[J].Journal of Vibration&Shock,2015,34(12):1-6.
[11] Masetic Z,Subasi A.Congestive heart failure detection using random forest classifier[J].Computer Methods&Programs in Biomedicine,2016,130:54-64.
[12] Zhang H W,Wang M W,Gan L X.Automatic text classification model based on random forest[J].Journal of Shandong University,2006,41(3):139-143.
[13] Zhuang J F,Luo J,Peng Y Q,et al.Fault diagnosis method based on modified random forests[J].Computer Integrated Manufacturing Systems,2009,15(4):777-785.
[14] Efron B.Bootstrap methods:Another look at the jacknife[M]//Breakthroughs in statistics.New York:Springer,1979:1-26.
[15] Breiman L I,F(xiàn)riedman J H,Olshen R A,et al.Classification and Regression Trees(CART)[J].Biometrics,1984,40(3):17-23.
[16] Breiman L.Random forest[J].Machine Learing,2001,45(1):5-32.
[17] Cutler A,Cutler D R,Stevens J R.Random forests[J].Machine Learning,2011,45(1):157-176.
[18] Bauer E,Kohavi R.An empirical comparison of voting classification algorithms:Bagging,boosting,and variants[J].Machine Learning,1999,36(1/2):105-139.
[19] Ali J B,Saidi L,Chebel-Morello B,et al.A new enhanced feature extraction strategy for bearing remaining useful life estimation[C]//International Conference on Sciences and Techniques of Automatic Control and Computer Engineering,2015.
ZHANG Yu,CHEN Jun,WANG Xiaofeng,et al.Application of random forest on rolling element bearings fault diagnosis.Computer Engineering and Applications,2018,54(6):100-104.
ZHANG Yu1,CHEN Jun1,WANG Xiaofeng2,LIU Fei1,ZHOU Wenjing2,WANG Zhiguo1
1.Key Laboratory of Advanced Process Control for Light Industry,Ministry of Education,Institute of Automation,Jiangnan University,Wuxi,Jiangsu 214122,China
2.Siemens China Institute,Beijing 100000,China
Due to selection difficulties for different bearing data feature,and low accuracy problems of single classifier method in the fault diagnosis of rolling bearing,this paper proposes a rolling bearing fault diagnosis algorithm with random forest based on Classification And Regression Tree(CART).Random forest is an ensemble learning method which contains a variety of classifiers.The accuracy of rolling bearing fault diagnosis is improved by“integrated”thought of random forest.First,time domain statistical indicators are extracted from the vibration signals of rolling bearings and will be used as feature vectors.Then,the random forest algorithm is utilized for the fault diagnosis of rolling bearing.Compared with the traditional algorithm(SVM,kNN and ANN)and single CART,diagnostic results proposed in this paper indicate that random forest algorithm has high diagnostic accuracy by using the bearing data of SQI-MFS experimental platform.
rolling bearing;fault diagnosis;feature extraction;random forest
針對(duì)不同軸承數(shù)據(jù)特征選擇困難和單個(gè)分類器方法在滾動(dòng)軸承故障診斷中精度較低的問(wèn)題,提出了一種基于分類回歸樹(shù)(CART)的隨機(jī)森林滾動(dòng)軸承故障診斷算法。隨機(jī)森林是包含了多種分類器的集成學(xué)習(xí)方法。通過(guò)隨機(jī)森林的“集成”思想來(lái)提高滾動(dòng)軸承故障診斷的精度。從滾動(dòng)軸承的振動(dòng)信號(hào)中提取時(shí)域統(tǒng)計(jì)指標(biāo),將其作為特征向量,利用隨機(jī)森林(Random Forest)對(duì)滾動(dòng)軸承故障進(jìn)行診斷。利用SQI-MFS實(shí)驗(yàn)平臺(tái)的軸承數(shù)據(jù),與傳統(tǒng)分類器(SVM、kNN和ANN)以及單個(gè)分類回歸樹(shù)的診斷結(jié)果相比,隨機(jī)森林算法具有比較高的診斷精度。
滾動(dòng)軸承;故障診斷;特征提??;隨機(jī)森林
2016-10-13
2016-12-01
1002-8331(2018)06-0100-05
A
TH17;TP39
10.3778/j.issn.1002-8331.1610-0127
國(guó)家自然科學(xué)基金(No.NSFC 61403167)。
張鈺(1991—),男,碩士研究生,主要研究方向?yàn)榛跀?shù)據(jù)挖掘的軸承故障診斷與壽命預(yù)測(cè),E-mail:yuzhang_jndx@163.com;陳珺(1980—),女,博士,副教授,主要研究方向?yàn)閺?fù)雜系統(tǒng)建模與分析。