沈 濤,李舜酩
(南京航空航天大學(xué) 能源與動(dòng)力學(xué)院,江蘇 南京 210016)
隨著科技和生產(chǎn)力水平的日益增長(zhǎng),大量的復(fù)雜機(jī)械被運(yùn)用到生活生產(chǎn)中去。當(dāng)發(fā)生故障的旋轉(zhuǎn)機(jī)械具有復(fù)雜結(jié)構(gòu)時(shí),極易造成無(wú)法挽回的損失。滾動(dòng)軸承作為減少軸之間摩擦損失的重要零件,對(duì)精度有著較高的要求。與此同時(shí),滾動(dòng)軸承的運(yùn)行狀況對(duì)機(jī)械設(shè)備的整體性能、穩(wěn)定性和壽命都有著巨大的影響。在不同的載荷情況下,滾動(dòng)軸承各個(gè)部位出現(xiàn)的不同故障尺寸,都會(huì)造成一定的安全隱患或故障。為了防止各種可能的故障,常見(jiàn)方法是在機(jī)械系統(tǒng)運(yùn)行時(shí)進(jìn)行實(shí)時(shí)監(jiān)測(cè)。
隨著旋轉(zhuǎn)機(jī)械的精密度和復(fù)雜程度不斷提高,診斷效率和準(zhǔn)確率等指標(biāo)也越來(lái)越難達(dá)到,傳統(tǒng)診斷方法面臨著嚴(yán)峻考驗(yàn)[1]。而且,傳統(tǒng)的信號(hào)處理和模型識(shí)別的方法需要專(zhuān)業(yè)知識(shí)和經(jīng)驗(yàn)的積累,碰到結(jié)構(gòu)更加復(fù)雜的機(jī)械,判別故障特征就會(huì)存在一定困難。基于模型的故障診斷方法,雖然不需要人工數(shù)據(jù)的統(tǒng)計(jì),但是針對(duì)一些結(jié)構(gòu)復(fù)雜的旋轉(zhuǎn)機(jī)械仍存在有一定的局限性,也相對(duì)難以提取明顯的故障特征。
深度學(xué)習(xí)技術(shù)對(duì)于海量的數(shù)據(jù)有著強(qiáng)大的學(xué)習(xí)、表示和分析能力[2]。在這個(gè)數(shù)據(jù)爆炸的年代,越來(lái)越多的行業(yè)領(lǐng)域也都利用深度學(xué)習(xí)技術(shù)處理著龐大的信息數(shù)據(jù),故障診斷領(lǐng)域也不例外[3]。大量的故障數(shù)據(jù)通過(guò)深層網(wǎng)絡(luò)的訓(xùn)練,充分學(xué)習(xí)故障的潛在特征,在故障的分類(lèi)和預(yù)測(cè)方面都有顯著優(yōu)勢(shì)。因此,大量的研究人員利用深度學(xué)習(xí)這一工具在機(jī)械設(shè)備大數(shù)據(jù)處理和故障診斷中取得了不錯(cuò)的成果,這不但為結(jié)構(gòu)復(fù)雜的機(jī)械提供了新的故障診斷方法,縮短了故障診斷的時(shí)間,而且設(shè)備的安全性得到了保證,降低設(shè)備的維護(hù)成本[4]。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)在圖像識(shí)別分類(lèi)方面首先得到了應(yīng)用,取得了顯著的成功,因此許多研究人員也將其應(yīng)用到機(jī)械的故障診斷領(lǐng)域。早期研究人員在將CNN的模型引入旋轉(zhuǎn)機(jī)械故障診斷領(lǐng)域中時(shí),通常采用原始的CNN結(jié)構(gòu),即構(gòu)造二維的訓(xùn)練網(wǎng)絡(luò)樣本,提取的也是二維數(shù)據(jù)的特征并完成診斷。ZHANG等[5]受到此種方法啟發(fā),將一維的振動(dòng)信號(hào)通過(guò)轉(zhuǎn)換成二維的圖像,提出一種以信號(hào)圖像為輸入的CNN結(jié)構(gòu),用于軸承故障的智能診斷。然而,在進(jìn)行機(jī)械的故障信號(hào)采集時(shí),往往選擇的是一維的振動(dòng)信號(hào),直接構(gòu)建一維的CNN理論上更加直接高效。對(duì)此,文獻(xiàn)[6]采用具有大尺寸卷積核的一維CNN來(lái)進(jìn)行旋轉(zhuǎn)機(jī)械的故障診斷,也取得了不錯(cuò)的效果。
然而,想要充分利用CNN來(lái)有效地提取各種復(fù)雜數(shù)據(jù)的隱藏特征,往往需要大量的數(shù)據(jù)樣本提供給模型進(jìn)行訓(xùn)練[7],才能準(zhǔn)確地得到不同狀態(tài)下的特征分布。旋轉(zhuǎn)機(jī)械發(fā)生故障時(shí)的樣本數(shù)據(jù)與正常時(shí)的數(shù)據(jù)相比較少,這使得訓(xùn)練樣本比例變小,從而使得CNN的特征提取和診斷效果變差。同時(shí)傳統(tǒng)的CNN診斷模型無(wú)法及時(shí)調(diào)整模型參數(shù),難以提取異常狀態(tài)下的故障特征信息,從而無(wú)法做出準(zhǔn)確診斷分類(lèi)[8]。
針對(duì)上述問(wèn)題,本文從故障診斷模型的結(jié)構(gòu)入手,構(gòu)建了一種基于CNN-LSTM的故障診斷混合模型。鑒于長(zhǎng)短記憶網(wǎng)絡(luò)(Long Short Term Memory networks, LSTM)可以從數(shù)據(jù)不同位置所學(xué)習(xí)樣本隱藏特征的特點(diǎn),將其與CNN結(jié)構(gòu)相結(jié)合,構(gòu)建診斷模型來(lái)彌補(bǔ)單一CNN模型的缺點(diǎn),在小樣本數(shù)據(jù)中也能充分提取振動(dòng)信號(hào)的內(nèi)在特征。采用學(xué)習(xí)率可以自適應(yīng)的優(yōu)化算法——Adam(adaptive momentum)算法,動(dòng)態(tài)調(diào)整模型參數(shù),并在卷積過(guò)程中執(zhí)行批量標(biāo)準(zhǔn)化(Batch Normalization, BN)操作,用于激活函數(shù)之前來(lái)規(guī)范不同網(wǎng)絡(luò)層的數(shù)據(jù),還采用Dropout來(lái)抑制過(guò)擬合。最后,通過(guò)與傳統(tǒng)的深度學(xué)習(xí)方法進(jìn)行對(duì)比,分析證明了批標(biāo)準(zhǔn)化的CNN-LSTM方法在診斷效率和精度方面都有較好的表現(xiàn)。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)由LECUN等[9]提出,是受動(dòng)物視覺(jué)皮層細(xì)胞感受機(jī)理啟發(fā)而建立的一種前饋神經(jīng)網(wǎng)絡(luò)[10]。設(shè)計(jì)的最初目的就是為了解決大規(guī)模圖像的分類(lèi)、識(shí)別和檢測(cè)等問(wèn)題,在圖像識(shí)別分類(lèi)領(lǐng)域的應(yīng)用也最為廣泛和成功。這全歸功于CNN強(qiáng)大的特征學(xué)習(xí)能力,并且它還具有很強(qiáng)的容錯(cuò)性和魯棒性,使構(gòu)建的網(wǎng)絡(luò)模型對(duì)平移、縮放、扭曲具有一定的不變性。
其基本結(jié)構(gòu)如圖1所示。CNN作為一種深層神經(jīng)網(wǎng)絡(luò),一般包括濾波級(jí)和分類(lèi)級(jí)兩個(gè)部分。濾波級(jí)包括卷積層和池化層,主要的作用是對(duì)輸入的數(shù)據(jù)進(jìn)行過(guò)濾消噪和降維,篩選所需要的特征;分類(lèi)級(jí)起到分類(lèi)等作用,一般由若干個(gè)全連接層組成。
其中卷積層包含若干個(gè)特征圖,一個(gè)卷積核對(duì)應(yīng)一個(gè)特征圖。卷積核通過(guò)一組權(quán)重來(lái)將上一層的輸入卷積后組成新的特征輸出,作為下一層的輸入[11]。數(shù)據(jù)經(jīng)過(guò)若干的卷積和池化操作后,最后接一個(gè)全連接層,再由Softmax或sigmoid等函數(shù)完成分類(lèi),因此可有效地用于故障的診斷與識(shí)別[12]。
許多研究人員將CNN應(yīng)用到機(jī)械的故障診斷領(lǐng)域中時(shí),采用原始的CNN結(jié)構(gòu),即構(gòu)造二維的訓(xùn)練網(wǎng)絡(luò)樣本,提取的也是二維數(shù)據(jù)的特征并完成診斷。然而,旋轉(zhuǎn)機(jī)械的故障診斷一般采集的是一維的振動(dòng)信號(hào),一維的卷積神經(jīng)網(wǎng)絡(luò)也更適合用于機(jī)械的故障診斷,還可以用于輸入一維的數(shù)據(jù)用于自然語(yǔ)言的處理[13]。
1.2.1 循環(huán)神經(jīng)網(wǎng)絡(luò)
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)由Schmidhuber提出,并經(jīng)過(guò)了許多研究人員的改良[14],該網(wǎng)絡(luò)用于處理序列數(shù)據(jù),解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)不能共享從數(shù)據(jù)不同位置所學(xué)習(xí)到的特征這一問(wèn)題,常被應(yīng)用到自然語(yǔ)言處理中。與其他神經(jīng)網(wǎng)絡(luò)相比,RNN網(wǎng)絡(luò)比以往的神經(jīng)網(wǎng)絡(luò)多出了一個(gè)循環(huán)的圈,層間的神經(jīng)元互相連接。
假定一個(gè)輸入序列x1:T=(x1,x2,…,xt,…,xT),根據(jù)如下公式實(shí)時(shí)跟新帶反饋的隱藏層活性值ht:
ht=f(ht-1,xt)。
(1)
其中h0=0。
RNN的基本結(jié)構(gòu)如圖2所示,其中“延時(shí)器”為一個(gè)虛擬單元,用來(lái)記錄神經(jīng)元的最近若干次的活性值。
研究人員們?cè)谶M(jìn)行循環(huán)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)訓(xùn)練過(guò)程中還發(fā)現(xiàn)了一些問(wèn)題,首當(dāng)其沖的是訓(xùn)練過(guò)程中發(fā)生梯度消失或梯度爆炸問(wèn)題。一般隨著網(wǎng)絡(luò)層數(shù)的增加,問(wèn)題也變得越來(lái)越嚴(yán)重。
在模型的訓(xùn)練過(guò)程中,誤差從輸出層反向傳播的迭代,在后面的每一層都要乘以該層激活函數(shù)的導(dǎo)數(shù)。如果導(dǎo)數(shù)小于1,網(wǎng)絡(luò)層數(shù)的增加使得梯度更新信息會(huì)朝著指數(shù)衰減的方式急劇減少甚至消失。模型無(wú)法從訓(xùn)練數(shù)據(jù)中獲得權(quán)值更新,損失幾乎保持不變,使得訓(xùn)練變得很困難,這就是梯度消失。如果導(dǎo)數(shù)大于1,隨著網(wǎng)絡(luò)層數(shù)的增加梯度更新將會(huì)朝著指數(shù)爆炸的方式增加,模型更新過(guò)程中的損失發(fā)生明顯變化,訓(xùn)練學(xué)習(xí)過(guò)程也變得不穩(wěn)定,這就是梯度爆炸。
其實(shí)梯度爆炸和梯度消失問(wèn)題都是因?yàn)榫W(wǎng)絡(luò)太深,網(wǎng)絡(luò)權(quán)值更新不穩(wěn)定造成的,本質(zhì)上是因?yàn)樘荻确聪騻鞑ブ械倪B乘效應(yīng)。目前,比較有效的方式是通過(guò)改進(jìn)模型或優(yōu)化方法來(lái)緩解循環(huán)網(wǎng)絡(luò)發(fā)生的梯度爆炸和梯度消失。針對(duì)這些問(wèn)題,研究者們嘗試對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn)。開(kāi)始研究人員發(fā)現(xiàn)使用非飽和的激活函數(shù),同時(shí)直接選取合適的參數(shù),就能解決此類(lèi)問(wèn)題。然而,這種方式需要給定合適的參數(shù),這就需要足夠的人工經(jīng)驗(yàn),限制了模型的廣泛應(yīng)用。
1.2.2 長(zhǎng)短記憶網(wǎng)絡(luò)(LSTM)
針對(duì)循環(huán)網(wǎng)絡(luò)的梯度消失和爆炸的問(wèn)題,已經(jīng)有了一些很好的解決方案。將門(mén)控的機(jī)制加入到循環(huán)單元中,這種帶門(mén)控機(jī)制的網(wǎng)絡(luò)被稱(chēng)為基于門(mén)控單元的循環(huán)神經(jīng)網(wǎng)絡(luò)(Gated RNN)[15]。主要是通過(guò)有選擇地添加和刪除數(shù)據(jù)信息,起到控制信息數(shù)據(jù)的流通作用。
為克服上述問(wèn)題,本文用到的具有門(mén)控單元的循環(huán)神經(jīng)網(wǎng)絡(luò)是長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)。LSTM作為RNN的一個(gè)變體主要改進(jìn)有兩個(gè)方面:
(1)LSTM網(wǎng)絡(luò)相對(duì)于RNN引入一個(gè)新的內(nèi)部狀態(tài)ct∈RD,在向外部狀態(tài)ht∈RD輸送信息的同時(shí),還起到循環(huán)信息的傳遞作用。內(nèi)部狀態(tài)ct在每次經(jīng)過(guò)時(shí)間段t時(shí),就會(huì)記錄一次到當(dāng)前時(shí)刻的歷史信息。
內(nèi)部狀態(tài)ct通過(guò)下面公式表示:
(2)
ht=ot⊙tanh(ct)。
(3)
(4)
(2)引入門(mén)控單元。門(mén)作為數(shù)字電路中的二值變量{0,1},0是不讓任何的數(shù)據(jù)通過(guò),表示閉的狀態(tài);1是沒(méi)有限制的通過(guò)信息,表示開(kāi)的狀態(tài)。在LSTM網(wǎng)絡(luò)中的門(mén)控單元在上式中也與體現(xiàn),式中的ft,it和ot分別為遺忘門(mén)、輸入門(mén)和輸出門(mén)。
LSTM網(wǎng)絡(luò)中的門(mén)控機(jī)制就是起到以一定的比例來(lái)通過(guò)信息的作用。3個(gè)門(mén)的計(jì)算方式為:
it=σ(Wixt+Uiht-1+bi),
(5)
ft=σ(Wfxt+Ufht-1+bf),
(6)
ot=σ(Woxt+Uoht-1+bo)。
(7)
其中:xt表示前時(shí)刻的輸入,ht-1表示上一時(shí)刻的外部狀態(tài);σ(·)為激活函數(shù)Logistic。
LSTM正在被應(yīng)用于各種領(lǐng)域,如情感分類(lèi)[16],觸覺(jué)識(shí)別[17]和故障診斷等。
近年來(lái)深度學(xué)習(xí)技術(shù)應(yīng)用發(fā)展迅速,研究人員對(duì)改進(jìn)各種深度模型做了較多的研究之外,也嘗試了融合多種模型和算法。模型間彼此揚(yáng)長(zhǎng)補(bǔ)短帶來(lái)的更好效果,也吸引了大量的關(guān)注。CNN和RNN的組合已經(jīng)有了一定的研究應(yīng)用,這種組合結(jié)構(gòu)在語(yǔ)音識(shí)別[18]和情緒檢測(cè)[19]等多個(gè)領(lǐng)域都取得了可喜的研究成果。
本文將深度學(xué)習(xí)模型應(yīng)用到旋轉(zhuǎn)機(jī)械的故障診斷中,針對(duì)傳統(tǒng)CNN模型需要大量訓(xùn)練樣本的缺陷,在CNN結(jié)構(gòu)中適當(dāng)加入了LSTM結(jié)構(gòu),構(gòu)建一種針對(duì)滾動(dòng)軸承故障的CNN-LSTM診斷模型。振動(dòng)數(shù)據(jù)首先通過(guò)該模型的前端卷積池化層,實(shí)現(xiàn)重要故障特征的提取,再輸入到LSTM層完成隱藏時(shí)序規(guī)律特征的挖掘,從而更全面地獲取時(shí)序上下文的數(shù)據(jù)信息,而且LSTM獨(dú)有的門(mén)控機(jī)制大大降低了梯度爆炸或消失問(wèn)題的發(fā)生。該模型不僅解決了傳統(tǒng)CNN模型在小樣本訓(xùn)練數(shù)據(jù)診斷中的劣勢(shì),使其在少量數(shù)據(jù)中就能充分提取振動(dòng)信號(hào)的內(nèi)在特征,還使得模型具備一定的長(zhǎng)距離時(shí)序數(shù)據(jù)的信息挖掘能力,可以從數(shù)據(jù)不同位置所學(xué)習(xí)樣本的隱藏特征,從而更好地實(shí)現(xiàn)故障識(shí)別與診斷。
本文提出的一種針對(duì)滾動(dòng)軸承故障診斷的CNN-LSTM網(wǎng)絡(luò)模型,基本結(jié)構(gòu)如圖4所示。
由圖4可知,該網(wǎng)絡(luò)模型包括輸入層、CNN層、LSTM層、全連接層和Softmax分類(lèi)層。其中CNN層、全連接層和Softmax層的具體參數(shù)如表1所示。
表1 CNN-LSTM模型的部分參數(shù)
故障特征的提取主要由兩部分組成:
(1)卷積特征提取層,首先構(gòu)建一個(gè)基礎(chǔ)的CNN結(jié)構(gòu)。采集到的原始振動(dòng)信號(hào)作為輸入,先經(jīng)過(guò)卷積層,激活函數(shù)選用ReLU函數(shù),并通過(guò)最大值池化進(jìn)行降維采樣,然后再通過(guò)同樣的卷積和池化操作生成若干的特征映射。
(2)將得到的特征映射沿時(shí)間軸切分,輸入至LSTM層。該層的激活函數(shù)選用Tanh函數(shù),用于循環(huán)時(shí)間步的函數(shù)選用sigmoid函數(shù)。
故障特征提取完成后,F(xiàn)latten層將數(shù)據(jù)展平輸入到全連接層進(jìn)行綜合特征的提取。最后是一個(gè)全連接輸出層,激活函數(shù)選用Softmax,可以實(shí)現(xiàn)多種滾動(dòng)軸承故障的分類(lèi)。
振動(dòng)信號(hào)通過(guò)CNN-LSTM模型的輸出和它的目標(biāo)值應(yīng)具有一定的一致性,采用交叉熵?fù)p失函數(shù)作為目標(biāo)函數(shù),用來(lái)衡量預(yù)測(cè)的神經(jīng)網(wǎng)絡(luò)的輸出概率分布和目標(biāo)類(lèi)概率分布的相似性。目標(biāo)的概率分布用p(x)表示,預(yù)測(cè)分布則用q(x)表示,p(x)和q(x)的交叉熵?fù)p失函數(shù)可定義為
(8)
為了最小化損失函數(shù),往往使用隨機(jī)梯度下降法SGD(stochastic gradient descent)就可以將淺層的神經(jīng)網(wǎng)絡(luò)收斂到一個(gè)全局最優(yōu)的點(diǎn)。然而,本文構(gòu)建的深度學(xué)習(xí)模型參數(shù)較多,如果使用SDG訓(xùn)練,選擇的參數(shù)很可能出現(xiàn)只得到局部最優(yōu)解的問(wèn)題。因此,為了使模型達(dá)到盡可能好的效果,采用一種學(xué)習(xí)率可以自適應(yīng)的優(yōu)化算法——Adam算法。它能根據(jù)訓(xùn)練數(shù)據(jù)不斷迭代地更新神經(jīng)網(wǎng)絡(luò)權(quán)值,可以避免局部最優(yōu)動(dòng)態(tài)的調(diào)整每個(gè)參數(shù)的學(xué)習(xí)率。
多次參數(shù)迭代更新后,各層的數(shù)據(jù)分布會(huì)變化的非常明顯。為便于后續(xù)處理,進(jìn)而提升模型的性能,通常會(huì)將數(shù)據(jù)集拉回到同一分布上。如果深層網(wǎng)絡(luò)想要需要達(dá)到這一要求,需不停地調(diào)整參數(shù)去適應(yīng)不同數(shù)據(jù)的分布變化,然而參數(shù)的變化會(huì)給模型訓(xùn)練帶來(lái)困難。針對(duì)此類(lèi)問(wèn)題,IOFFE等[20]在2015年ICML會(huì)議上提出批標(biāo)準(zhǔn)化(BN)。其原理是在訓(xùn)練過(guò)程中將每層神經(jīng)元輸入值的分布轉(zhuǎn)換到正態(tài)分布上去,使得訓(xùn)練數(shù)據(jù)在方差和均值不斷迭代變化的情況下也能夠保持標(biāo)準(zhǔn)化,減少內(nèi)部協(xié)方差的偏移。梯度變大從而避免產(chǎn)生梯度消失問(wèn)題,大大加快深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)收斂速度,縮短訓(xùn)練時(shí)間,增強(qiáng)泛化能力。
本文在構(gòu)建的CNN-LSTM網(wǎng)絡(luò)中添加BN操作,在兩次卷積過(guò)程中都進(jìn)行批量標(biāo)準(zhǔn)化。目的是用來(lái)規(guī)范神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中數(shù)據(jù)的分布,然后經(jīng)過(guò)ReLU激活函數(shù)得到卷積層的輸出。同時(shí)采用dropout[21]技術(shù)來(lái)防止過(guò)擬合。
本文針對(duì)訓(xùn)練過(guò)程中的樣本數(shù)據(jù)進(jìn)行增強(qiáng)處理,原始的軸承振動(dòng)信號(hào)中選取一定比例用來(lái)訓(xùn)練的樣本數(shù)據(jù)時(shí),對(duì)選取的相鄰訓(xùn)練樣本都設(shè)置一個(gè)重疊量。如圖5所示,如果有一段原始的軸承故障信號(hào),利用上述方法每次選取的訓(xùn)練樣本長(zhǎng)度為1 024,偏移量為1,則重疊的數(shù)據(jù)點(diǎn)有1 023個(gè)。假定這段信號(hào)有10 000個(gè)數(shù)據(jù)點(diǎn),因此可以制作出至多7 953個(gè)樣本數(shù)據(jù),可以很好地滿(mǎn)足深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練要求,達(dá)到提高了網(wǎng)絡(luò)泛化性的目的。
本文選用凱斯西儲(chǔ)大學(xué)(Case Western Reserve University, CWRU)的滾動(dòng)軸承數(shù)據(jù)集進(jìn)行試驗(yàn)驗(yàn)證,CWRU軸承故障診斷模型試驗(yàn)臺(tái)和所使用軸承如圖6所示。選擇數(shù)據(jù)的采樣頻率為48 kHz,軸承類(lèi)型為深溝球軸承。利用電火花對(duì)軸承的內(nèi)外圈以及滾動(dòng)體進(jìn)行加工,模擬真實(shí)的軸承故障,共分為4種健康狀況:內(nèi)圈故障、外圈故障、滾動(dòng)體故障和正常狀況。其中每種位置的故障還有3種不同的故障程度:0.007 inch、0.014 inch和0.021 inch,加起來(lái)一共10類(lèi)工況。該試驗(yàn)的樣本數(shù)據(jù)有4種不同負(fù)荷狀態(tài):0、1、2和3 hp,根據(jù)負(fù)荷狀態(tài)將樣本分為A、B、C和D四組數(shù)據(jù)集。軸承的每種健康狀態(tài)均有1 000個(gè)樣本數(shù)據(jù),每個(gè)樣本使用2 048個(gè)數(shù)據(jù)點(diǎn)進(jìn)行診斷,具體如表2所示。
表2 軸承數(shù)據(jù)集參數(shù)
數(shù)據(jù)集負(fù)荷/hp樣本個(gè)數(shù)故障位置故障直徑/inch標(biāo)簽A/B/C/D0/1/2/31 000/1 000/1 000/1 0001 000/1 000/1 000/1 0001 000/1 000/1 000/1 0001 000/1 000/1 000/1 0001 000/1 000/1 000/1 0001 000/1 000/1 000/1 0001 000/1 000/1 000/1 0001 000/1 000/1 000/1 0001 000/1 000/1 000/1 0001 000/1 000/1 000/1 000滾珠內(nèi)圈外圈正常0.00700.01410.02120.00730.01440.02150.00760.01470.021809
為了更進(jìn)一步縮短網(wǎng)絡(luò)模型的訓(xùn)練時(shí)間,更快地收斂到最優(yōu)解,對(duì)每段信號(hào)x都做線(xiàn)性歸一化處理,使結(jié)果映射到[0,1]之間,具體的函數(shù)表達(dá)式如式(9)所示:
(9)
利用所構(gòu)建的CNN-LSTM網(wǎng)絡(luò)模型對(duì)數(shù)據(jù)集A、B、C和D進(jìn)行訓(xùn)練。計(jì)算目標(biāo)函數(shù)值,然后在訓(xùn)練過(guò)程中更新模型的權(quán)值,最后利用訓(xùn)練后的模型對(duì)用來(lái)測(cè)試的輸入信號(hào)進(jìn)行診斷分類(lèi)。
進(jìn)行模型訓(xùn)練時(shí),Adam算法的學(xué)習(xí)率設(shè)為0.001。為抑制過(guò)擬合,在全連接層使用Dropout,Dropout率設(shè)為0.2。由于批標(biāo)準(zhǔn)化強(qiáng)大的泛化能力,將每一層的訓(xùn)練迭代次數(shù)設(shè)置為15次,學(xué)習(xí)率為1E-4。LSTM層的神經(jīng)元數(shù)目、訓(xùn)練樣本集的占比和批尺寸的大小還需要進(jìn)行研究選擇。
首先,對(duì)LSTM層的神經(jīng)元數(shù)目進(jìn)行探討。LSTM層的神經(jīng)元數(shù)目,即該層輸出的數(shù)據(jù)維度對(duì)CNN-LSTM模型的訓(xùn)練起到很大的影響。本文選用數(shù)據(jù)集A進(jìn)行測(cè)試,為了消除隨機(jī)性的影響,每組試驗(yàn)分別進(jìn)行20次,由于不同的神經(jīng)元數(shù)目所需要的訓(xùn)練時(shí)間差別不大,不作參考。不同神經(jīng)元數(shù)目的測(cè)試準(zhǔn)確率如圖7所示,隨著LSTM的神經(jīng)元數(shù)目增多準(zhǔn)確率也在降低,明顯看出當(dāng)LSTM層的神經(jīng)元數(shù)目只有在32時(shí),測(cè)試準(zhǔn)確率達(dá)到較高水平且誤差最小,測(cè)試準(zhǔn)確率穩(wěn)定在95%~100%之間,而其余的準(zhǔn)確率波動(dòng)過(guò)大不宜作為該層的參數(shù)。因此,為了保證更好的診斷結(jié)果和較小的誤差,LSTM層的神經(jīng)元數(shù)目設(shè)置為32。
然后,針對(duì)訓(xùn)練樣本比例進(jìn)行選擇對(duì)比。同樣,為了消除隨機(jī)性的影響,選用數(shù)據(jù)集A進(jìn)行20次測(cè)試,診斷的平均測(cè)試準(zhǔn)確率等結(jié)果如圖8所示。顯然,隨著訓(xùn)練樣本量占比的增加,診斷準(zhǔn)確率不斷提高,但花費(fèi)的時(shí)間幾乎呈線(xiàn)性增加。當(dāng)訓(xùn)練樣本百分比增加到30%時(shí),測(cè)試準(zhǔn)確率開(kāi)始趨于穩(wěn)定,之后準(zhǔn)確率幾乎保持不變,而且耗時(shí)也相對(duì)較短。因此,為了在分類(lèi)準(zhǔn)確率和花費(fèi)時(shí)間之間進(jìn)行權(quán)衡,我們?cè)诮酉聛?lái)的實(shí)驗(yàn)中使用了30%作為訓(xùn)練樣本的百分比。
最后研究了訓(xùn)練批尺寸大小的選擇。同樣的數(shù)據(jù)次數(shù)設(shè)置,不同批次大小的診斷結(jié)果如圖9所示??梢钥闯觯S著批尺寸的減小,測(cè)試準(zhǔn)確率越高,標(biāo)準(zhǔn)差也越小。與之相反的,訓(xùn)練的平均時(shí)間隨著批尺寸數(shù)的減少呈指數(shù)增長(zhǎng)。明顯當(dāng)批尺寸等于64時(shí),花費(fèi)的時(shí)間也較短,測(cè)試準(zhǔn)確率達(dá)到較高水平,所以選擇64作為批尺寸大小。
根據(jù)上文的參數(shù)設(shè)置,針對(duì)數(shù)據(jù)集A-D的20次平均測(cè)試準(zhǔn)確率如圖10所示,可以看出多種負(fù)荷下的平均測(cè)試準(zhǔn)確率均在98%上下波動(dòng),這說(shuō)明本文提出的批標(biāo)準(zhǔn)化的CNN-LSTM診斷方法可以較為準(zhǔn)確地診斷出不同載荷狀況下軸承的10種健康狀態(tài)。
為了探究批標(biāo)準(zhǔn)化操作對(duì)CNN-LSTM模型的優(yōu)化作用,將本文方法與未添加BN的CNN-LSTM模型進(jìn)行對(duì)比分析,參數(shù)設(shè)置與提出的方法相同。在相同迭代步數(shù)的前提下驗(yàn)證未加BN的CNN-LSTM模型的效果,由此得到兩種方法的平均測(cè)試準(zhǔn)確率和訓(xùn)練時(shí)間如表3所示。顯然,未加BN的CNN-LSTM模型的準(zhǔn)確率均在94%左右,其性能不如加BN后的CNN-LSTM模型,相差了四個(gè)百分點(diǎn)。
表2 CNN-LSTM方法與未加BN診斷結(jié)果對(duì)比
此外,為了進(jìn)一步反應(yīng)出CNN-LSTM模型的優(yōu)勢(shì),將測(cè)試結(jié)果與同樣批標(biāo)準(zhǔn)化的CNN模型、相同神經(jīng)元數(shù)目的LSTM模型進(jìn)行對(duì)比驗(yàn)證,各結(jié)構(gòu)參數(shù)如圖11所示。
本文計(jì)算了這幾種方法的平均測(cè)試準(zhǔn)確率和訓(xùn)練時(shí)間,如表4所示。可以看出,CNN-LSTM方法的測(cè)試準(zhǔn)確率穩(wěn)定在95%~100%之間,4個(gè)數(shù)據(jù)集的平均準(zhǔn)確率在98%處上下浮動(dòng),明顯優(yōu)于其他方法。另外,在訓(xùn)練時(shí)間上,CNN-LSTM方法的平均訓(xùn)練時(shí)間穩(wěn)定在35 s左右,而對(duì)比LSTM模型的時(shí)間均在幾分鐘以上,大大縮短了訓(xùn)練時(shí)間。
表4 CNN-LSTM方法與其他方法診斷結(jié)果的對(duì)比
為了進(jìn)一步研究模型的結(jié)構(gòu)和學(xué)習(xí)過(guò)程,采用可視化技術(shù)探索實(shí)現(xiàn)特征提取的關(guān)鍵步驟,清晰表示出深層神經(jīng)網(wǎng)絡(luò)層間的關(guān)系,分析構(gòu)建模型的性能。
選取數(shù)據(jù)集A的診斷過(guò)程進(jìn)行可視化,使用T-SNE(T-Stochastic Neighbor Embedding)算法[22]實(shí)現(xiàn)輸出各層的特征,并進(jìn)行降維可視化。如圖12所示,剛輸入模型的數(shù)據(jù)明顯雜亂無(wú)章,通過(guò)兩個(gè)卷積層進(jìn)行特征提取后,輸入數(shù)據(jù)的一部分特征被有效地分離和聚集,從而表明卷積層能夠有效地提取故障特征。然而,因?yàn)樾颖镜木壒?,有幾個(gè)特性在CNN層輸出中保持不分離,所以需要下一層LSTM層進(jìn)一步提取了樣本數(shù)據(jù)的時(shí)序特征。從圖12d可以看出,該模型對(duì)滾動(dòng)軸承的10類(lèi)故障特征提取與分類(lèi)十分明顯,表明該模型能夠有效學(xué)習(xí)不同故障的特征,實(shí)現(xiàn)診斷分類(lèi)。
本文使用了4組不同數(shù)據(jù)集進(jìn)行了診斷,它們輸入到模型后效果的可視化如圖13所示??梢钥闯?,在不同負(fù)荷下仍然具有較好的特征提取效果,最后都能實(shí)現(xiàn)較好的故障分類(lèi)。
本文針對(duì)滾動(dòng)軸承的故障診斷問(wèn)題提出一種批標(biāo)準(zhǔn)化的CNN-LSTM診斷方法。通過(guò)對(duì)CWRU軸承數(shù)據(jù)集進(jìn)行驗(yàn)證研究,體現(xiàn)了該方法的快速和準(zhǔn)確性,并得到以下結(jié)論:
(1)該方法相較于傳統(tǒng)的信號(hào)處理、神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等故障診斷方法,不僅擁有更高的準(zhǔn)確率,還有更好的診斷效率。無(wú)需對(duì)原始的振動(dòng)信號(hào)進(jìn)行復(fù)雜的預(yù)處理,即可實(shí)現(xiàn)端到端的快速智能診斷。
(2)深層網(wǎng)絡(luò)為達(dá)到最小的訓(xùn)練誤差,進(jìn)行層層特征提取和迭代,往往需要過(guò)長(zhǎng)的訓(xùn)練時(shí)間。為了提高模型的訓(xùn)練效率,在卷積層中規(guī)范不同網(wǎng)絡(luò)層的數(shù)據(jù),激活函數(shù)前執(zhí)行批標(biāo)準(zhǔn)化操作。準(zhǔn)確率也比未添加BN的CNN-LSTM診斷方法提高了近4%。
(3)該模型充分利用了CNN的特征提取能力,在此基礎(chǔ)上加入LSTM結(jié)構(gòu)加強(qiáng)了時(shí)序處理能力,能夠準(zhǔn)確識(shí)別CWRU軸承數(shù)據(jù)集的10種不同故障狀態(tài)。對(duì)比傳統(tǒng)的深度學(xué)習(xí)模型,不僅提高了診斷的精度,還縮短了訓(xùn)練的時(shí)間。
在旋轉(zhuǎn)機(jī)械實(shí)際運(yùn)行中,軸承大多數(shù)情況下都能正常運(yùn)作,但出現(xiàn)故障時(shí),從發(fā)生到結(jié)束時(shí)間很短,其實(shí)際的轉(zhuǎn)速也是隨著時(shí)間不斷變化,所以很難采集到理想足量的定轉(zhuǎn)速故障振動(dòng)數(shù)據(jù),即小樣本和時(shí)變轉(zhuǎn)速工況問(wèn)題。未來(lái),將重點(diǎn)研究如何提高在這些工況下的軸承故障診斷效率與準(zhǔn)確性。