劉芯志,彭 成,2,滿君豐,2,劉 翊
(1.湖南工業(yè)大學(xué) 計算機(jī)學(xué)院,湖南 株洲 412007;2.中南大學(xué) 自動化學(xué)院,湖南 長沙 410083; 3.工業(yè)和信息化部 國家先進(jìn)軌道交通裝備創(chuàng)新中心,湖南 株洲 412000)
滾動軸承是機(jī)械裝備中的核心器件,其健康好壞關(guān)系機(jī)械裝備甚至整條生產(chǎn)線的產(chǎn)出質(zhì)量。因此對滾動軸承的故障研究具有重要意義。在傳統(tǒng)的滾動軸承故障識別方法中,主要采用信號處理和機(jī)器學(xué)習(xí)技術(shù)[1-5]。基于特征提取和分類的故障診斷方案能夠取得不錯的效果,但是存在兩個局限性:①傳統(tǒng)的故障檢測算法需要有信號處理相關(guān)的知識背景,且需要人工構(gòu)建特征并進(jìn)行挑選,無法自適應(yīng)提取故障特征;②通用性較差,面對不同的工況場景時可能會需要不同的特征提取方法。隨著深度學(xué)習(xí)技術(shù)的興起,以長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)與卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)為代表的網(wǎng)絡(luò)結(jié)構(gòu)在故障診斷領(lǐng)域應(yīng)用逐步增多[6-12],但是也存在以下一些問題:①網(wǎng)絡(luò)層數(shù)過深,且LSTM無法并行計算導(dǎo)致參數(shù)過多、模型訓(xùn)練時間長;②原始數(shù)據(jù)信號過于理想化,而真實環(huán)境往往伴隨著更多噪聲。針對以上問題,本文提出改進(jìn)殘差結(jié)構(gòu)的輕量級(spatial channel attention residual network,SCARN)模型。SCARN模型采用分組學(xué)習(xí)、藍(lán)圖可分離卷積、設(shè)計輕量級空間通道注意力模塊的方式達(dá)到在保證較高故障診斷準(zhǔn)確率的情況下盡可能減少模型參數(shù),同時對深度殘差收縮網(wǎng)絡(luò)進(jìn)行改進(jìn),設(shè)計了空間信息增強(qiáng)模塊代替原始的全局平均池化層,增強(qiáng)了在復(fù)雜噪聲場景下的魯棒性。
分組學(xué)習(xí)結(jié)構(gòu)能夠讓模型分配到更多的GPU資源上,提高運(yùn)算效率,同時能夠在組內(nèi)空間建模,通過空間注意力、通道注意力表達(dá)學(xué)習(xí)到不同的子特征。分組學(xué)習(xí)結(jié)構(gòu)如圖1所示。
圖1 分組學(xué)習(xí)結(jié)構(gòu)
分組學(xué)習(xí)將輸入的數(shù)據(jù)按照通道數(shù)c進(jìn)行劃分,每g個通道為一組,每組通道分別學(xué)習(xí)空間注意力特征、通道注意力特征,使模型能夠?qū)⒅攸c(diǎn)放在信息量大的局部區(qū)域以及通道中,最后將各個組進(jìn)行整合。
各個組整合后,將進(jìn)行通道混合操作,其目的是為了讓各個組學(xué)習(xí)的子特征在不同組間進(jìn)行傳遞,使得下次再進(jìn)行分組時,注意力機(jī)制能夠關(guān)注到更多信息,模型輸出大小和輸入相同,因此分組學(xué)習(xí)與通道混合結(jié)構(gòu)可以靈活嵌入到其它的深度學(xué)習(xí)網(wǎng)絡(luò)中。
注意力機(jī)制通過模仿人類對事物重點(diǎn)觀察的特點(diǎn),廣泛應(yīng)用于各種任務(wù)中,例如機(jī)器翻譯領(lǐng)域[13,14]和計算機(jī)視覺領(lǐng)域[15,16]。為了加強(qiáng)模型特征表達(dá)能力,構(gòu)建輕量級網(wǎng)絡(luò),目前比較常用的注意力機(jī)制是SENet(squeeze-and-excitation networds)[17]。SENet是通道注意力機(jī)制的典型代表,對信息量大的通道進(jìn)行增強(qiáng),抑制對分類結(jié)果幫助不大的通道,SENet幾乎可以嵌入到任何CNN網(wǎng)絡(luò)中,以少量的參數(shù)和計算量獲得較大的性能提升,但是SENet只關(guān)注了模型的通道信息,忽略了模型的空間信息。因此越來越多的深度學(xué)習(xí)網(wǎng)絡(luò)模型將空間注意力模塊和通道注意力模塊相互整合提高任務(wù)指標(biāo),其中以CBAM(convolutional block attention module)[18]結(jié)構(gòu)為代表。
但是空間注意力模塊使用卷積層僅能捕獲空間的局部信息,缺少對長距離信息的關(guān)注[19],由此本文構(gòu)建了一種將兩個方向的長距離空間信息融入通道的注意力模塊,如圖2所示。
圖2 空間通道注意力模塊
圖2中的卷積操作卷積核大小均為1×1,以此達(dá)到在引入幾乎可忽略不計參數(shù)量的情況下,將長距離依賴的空間信息嵌入到通道中的目的,r表示衰減因子,與SENet中的r含義相同。
SENet中的全局池化層對空間信息的編碼過于簡單,會忽略掉過多有用信息,因此本文中的空間通道注意力模塊首先將輸入信息分別沿X方向以及Y方向進(jìn)行空間編碼,利于獲取空間信息的長距離依賴,如式(1)、式(2)所示
(1)
(2)
f=Sigmoid(BN(Conv2d([zh,zw])))
(3)
其中,f為經(jīng)過Sigmoid函數(shù)后生成的空間信息圖,zh、zw為高度h、 寬度w的輸出張量,Conv2d為二維卷積函數(shù),BN為批歸一化函數(shù)。接著將f分割成兩個單獨(dú)的張量fh、fw, 并進(jìn)行卷積操作將通道數(shù)恢復(fù)到原始數(shù)量,如式(4)、式(5)所示
gh=Sigmoid(Conv2d(fh))
(4)
gw=Sigmoid(Conv2d(fw))
(5)
其中,gh、gw為恢復(fù)通道數(shù)后的張量,最后將兩個方向的張量進(jìn)行擴(kuò)張,作為輸入信息各個像素的注意力權(quán)重,如式(6)所示
(6)
其中,c為通道數(shù),i、j為空間特征面的像素坐標(biāo)。
常規(guī)卷積層中不同卷積核存在很多相似,這些相似的卷積核類似于從一個標(biāo)準(zhǔn)卷積核通過不同的線性變換得到[20],由此可以將常規(guī)卷積層進(jìn)行分離,藍(lán)圖可分離卷積層如圖3所示。
圖3 藍(lán)圖可分離卷積層
輸入會先經(jīng)過點(diǎn)卷積操作將特征面的每個通道特征進(jìn)行加權(quán)并進(jìn)行正交約束,防止參數(shù)間高度關(guān)聯(lián),隨后將輸出作為第二個點(diǎn)卷積操作的輸入,進(jìn)一步將通道信息融合,最后通過深度卷積操作將空間信息融合。藍(lán)圖可分離卷積相比于常規(guī)卷積層在保持高效信息融合的同時減少大量參數(shù)。
隨著網(wǎng)絡(luò)模型的加深,容易發(fā)生“梯度消失”和“梯度爆炸”的現(xiàn)象,ResNet[21]的出現(xiàn)緩解了這一現(xiàn)象。但是在大型機(jī)械設(shè)備的故障診斷場景中,采集到的信號包含有不同程度的噪聲,常規(guī)的深度學(xué)習(xí)模型無法剔除或抑制噪聲信號,因此將信號降噪中常見的軟闕值方法引入殘差結(jié)構(gòu)中[22]。
軟闕值會將信號進(jìn)行收縮,如式(7)所示
(7)
其中,x是信號的輸入,y是信號的輸出,α是當(dāng)前信號的闕值,闕值需要滿足兩個條件:第一、闕值是正數(shù);第二、闕值不能太大。如果闕值過大,那么介于闕值之間的輸出信號就會全部為0,導(dǎo)致?lián)p失有用信息。軟闕值導(dǎo)數(shù)公式如式(8)所示
(8)
可以看出,軟闕值的導(dǎo)數(shù)不是1就是0,這和ReLU函數(shù)導(dǎo)數(shù)性質(zhì)很相似,也能在一定程度上防止“梯度消失”和“梯度爆炸”現(xiàn)象。
每個信號的0附近并不全是噪聲,直接使用軟闕值會將有利用價值的信息也去除掉。卷積網(wǎng)絡(luò)能夠?qū)⑻卣饔蜻M(jìn)行轉(zhuǎn)換,將噪聲聚集在0附近,這時再使用軟闕值效果會更好。
在深度殘差收縮結(jié)構(gòu)中,全局平均池化層會忽略大量有效的局部或長距離依賴空間信息,在信息丟失的情況下,再使用全連接層將各個通道的空間信息組合不能進(jìn)一步提升軟闕值的效果。因此需要加大對深度殘差收縮模型空間信息的獲取,改進(jìn)后的深度殘差收縮模型如圖4所示。
圖4 改進(jìn)的深度殘差收縮模塊
其中,F(xiàn)C表示全連接網(wǎng)絡(luò),al是殘差結(jié)構(gòu)的輸入,al+1、al+2分別是經(jīng)過第一個、第二個藍(lán)圖可分離卷積層的輸出,α表示闕值矩陣,經(jīng)過絕對值A(chǔ)bs操作后保證了α為正數(shù),Sigmoid函數(shù)使闕值矩陣α的輸出不會太大。
模塊的輸入先經(jīng)過兩個藍(lán)圖可分離卷積層,絕對值化后的1×1卷積層將特征面每個神經(jīng)元的通道信息結(jié)合,再利用Softmax函數(shù)對特征面的每個神經(jīng)元計算注意力權(quán)重,最后每個特征面神經(jīng)元和對應(yīng)的注意力權(quán)重相乘再累加,以實現(xiàn)和全局平均池化層一樣的效果,但改進(jìn)后的模塊融合了更多的空間信息。
改進(jìn)殘差結(jié)構(gòu)的輕量級故障診斷方法流程如圖5所示,具體步驟如下:
(1)預(yù)處理。預(yù)處理首先要判斷是否要將數(shù)據(jù)加入高斯白噪聲,采用降低信噪比的方式對數(shù)據(jù)進(jìn)行處理,公式如式(9)所示
SNR(dB)=lg(Psingal/Pnoise)
(9)
其中,Psingal表示信號的有效功率,Pnoise表示噪聲功率,SNR表示信噪比。
圖5 改進(jìn)殘差結(jié)構(gòu)的輕量級故障診斷方法流程
隨后將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化能夠提升網(wǎng)絡(luò)模型的收斂速度以及網(wǎng)絡(luò)模型的精度。在時序任務(wù)中,要特別注意數(shù)據(jù)穿越問題,即對訓(xùn)練集的預(yù)處理不能包含驗證集的信息,否則會導(dǎo)致驗證集訓(xùn)練結(jié)果高,但測試集表現(xiàn)很差。因此標(biāo)準(zhǔn)化應(yīng)放在數(shù)據(jù)集劃分之后、模型訓(xùn)練之前。假設(shè)xmn表示第m個樣本的第n個特征值,μ表示所有樣本第n個特征的平均值,σ表示所有樣本第n個特征的方差,標(biāo)準(zhǔn)化處理公式如式(10)所示
(10)
最后將一維信號數(shù)據(jù)矩陣化。
(2)劃分?jǐn)?shù)據(jù)集。將滾動軸承原始時域振動數(shù)據(jù)采用分層抽樣的方式劃分為訓(xùn)練集與測試集。為了能夠?qū)y試結(jié)果進(jìn)行對比,劃分?jǐn)?shù)據(jù)集時需要固定隨機(jī)種子以及劃分比例。
(3)交叉驗證。為了評估模型的預(yù)測效果,減少過擬合風(fēng)險,交叉驗證是非常常見的方式。在模型中,每一折交叉驗證會根據(jù)評估指標(biāo)得到最優(yōu)的模型參數(shù)并保存,最后用于測試集預(yù)測。
(4)模型構(gòu)建。將原始時域振動信號經(jīng)過預(yù)處理后輸入SCARN模型中訓(xùn)練。
(5)測試集驗證。將測試集放入每一折的最優(yōu)模型,得到預(yù)測結(jié)果。使用準(zhǔn)確率(Accuracy)、F1值(F1 Score)、精確率(Precision)、召回率(Recall)作為評價指標(biāo)。
本文實驗環(huán)境為:Windows 10(64)位,PyCharm(2020.1.2),Keras(2.2.0)。
為了盡量使軸承采集數(shù)據(jù)貼近大型機(jī)械設(shè)備真實運(yùn)行環(huán)境,檢測SCARN模型的抗噪性能,將采集到的數(shù)據(jù)增加不同幅值的高斯白噪聲,外圈故障數(shù)據(jù)原始信號以及增加高斯白噪聲后的噪聲信號時域圖如圖6所示。
圖6 不同信噪比狀態(tài)(原始、-1 dB、 -2 dB、-3 dB)時域圖
從圖6中可以看出,外圈故障原始時序圖故障特征比較明顯,但是在信噪比逐漸降低后,特征信息減弱了。時域信號有代表性的3個特征指標(biāo):方差、偏度、峰度,在不同噪聲下的特征值見表1。
將信號進(jìn)行希爾伯特變換,得到不同信噪比狀態(tài)下的
表1 不同信噪比下的時域信號指標(biāo)
解析函數(shù),最后求解各自的包絡(luò)譜,觀察信號頻域的幅值變化,如圖7所示。
圖7 不同信噪比下的包絡(luò)譜
從表1、圖7中可以發(fā)現(xiàn)傳統(tǒng)的信號處理特征指標(biāo)在受到不能程度噪聲干擾后,特征信息會發(fā)生顯著變化,因此傳統(tǒng)故障診斷方法在噪聲情景下的診斷率比較低,這時需要引入專家經(jīng)驗,但成本會大幅提高。
本文利用Keras深度學(xué)習(xí)框架搭建融入注意力機(jī)制和殘差結(jié)構(gòu)的SCARN模型。模型損失函數(shù)采用交叉熵?fù)p失函數(shù),優(yōu)化器采用Adam,初始化學(xué)習(xí)率為0.001,當(dāng)驗證集F1值6輪不再上升時,學(xué)習(xí)率變?yōu)樵瓉韺W(xué)習(xí)率的十分之一,當(dāng)驗證集F1值10輪不再提升時,模型停止迭代標(biāo)準(zhǔn),此時保存最優(yōu)模型參數(shù)。模型訓(xùn)練100輪,批次大小為64。
模型在前期的損失有小幅上升,訓(xùn)練集準(zhǔn)確率迭代到5輪的時候就接近100%,訓(xùn)練集損失在17輪左右接近0,總體來說是朝好的方向優(yōu)化。
深度學(xué)習(xí)算法端到端訓(xùn)練的特點(diǎn)使得在不需要人工干預(yù)的前提下就能自動學(xué)習(xí)到不錯的特征,然而自動學(xué)習(xí)特征的過程一直被視為黑箱子操作[23]。為了進(jìn)一步揭示SCARN模型內(nèi)部對信號數(shù)據(jù)的特征提取過程,利用流形學(xué)習(xí)中的t-SNE[24]技術(shù)對高維空間進(jìn)行降維??梢暬瘜嶒瀸CARN模型分為3部分:模型輸入、第一層改進(jìn)深度殘差收縮模塊的輸出、模型輸出。引入-3 dB信噪比狀態(tài)下的模型可視化結(jié)果如圖8所示。
圖8 -3 dB信噪比狀態(tài)下的模型可視化結(jié)果
從圖8中可以看出,輸入信號各個類別的邊界不明顯,存在多種類別聚集混合的現(xiàn)象。在經(jīng)過第一層改進(jìn)深度殘差收縮模塊后,樣本的邊界變大了,有些類別出現(xiàn)較明顯的聚集現(xiàn)象,例如“0”。經(jīng)過空間通道注意力模塊結(jié)合分組學(xué)習(xí)與通道混合操作后,能夠?qū)⑸⒘蟹植嫉臄?shù)據(jù)聚集在一起,使模型更關(guān)注有效的特征,抑制不重要的信息。但仍存在少量樣本類別混合。
SCARN模型在沒引入額外噪聲的不同負(fù)載數(shù)據(jù)集下的表現(xiàn)見表2。
從表2中可以看出,在不添加高斯白噪聲的情況下,SCARN模型在不同負(fù)載數(shù)據(jù)集的表現(xiàn)均不錯,最差的準(zhǔn)確率也能達(dá)到0.998。這種表現(xiàn)主要是由于兩方面原因:第一、實驗采集的信號數(shù)據(jù)比較干凈,各種故障類型的信號特征比較明顯;第二、SCARN模型能夠準(zhǔn)確的提取出信號中需要著重關(guān)注的特征。
為了驗證SCARN模型具有良好的抗噪聲能,將數(shù)據(jù)集A增加不同幅值的高斯白噪聲,模型評價指標(biāo)結(jié)果見表3。
從表3中可以看出,SCARN模型具有良好的抗噪性能,在加入信噪比為-3的高斯白噪聲后,模型仍能達(dá)到0.94的準(zhǔn)確率。-3 dB信噪比下的混淆矩陣如圖9所示。
從混淆矩陣中可以看出,在加入高斯白噪聲后,大部分預(yù)測結(jié)果與真實結(jié)果的故障直徑和故障類型存在1種錯誤,兩者都預(yù)測錯誤的情況很少。
本文將改進(jìn)殘差結(jié)構(gòu)的輕量級SCARN模型分別與深度殘差收縮模型、CBAM+深度殘差收縮模型、CNN-LSTM模型[11]、1DCNN模型[12]、ResNet模型以及基于EMD-SVM模型[25]進(jìn)行對比,采用準(zhǔn)確率、F1值、精確率、召回率作為評價指標(biāo),在數(shù)據(jù)集A中加入不同幅值的高斯白噪聲后,各模型方法評價指標(biāo)結(jié)果如圖10所示,深度學(xué)習(xí)模型參數(shù)見表4。
從圖10中可以看出,以上7種方法在沒有添加高斯白噪聲的情況下均能達(dá)到96%以上的準(zhǔn)確率,隨著信噪比的減少,SCARN模型相比其它模型的抗噪性能更強(qiáng),最差也能達(dá)到94%的準(zhǔn)確率。
CNN-LSTM模型的表現(xiàn)僅次于SCARN模型,但是從表4中可以看出CNN-LSTM模型的參數(shù)是SCARN模型的
表2 不同負(fù)載數(shù)據(jù)集下SCARN模型評價指標(biāo)結(jié)果
表3 加入高斯白噪聲后SCARN模型評價指標(biāo)結(jié)果
圖9 -3 dB信噪比混淆矩陣
圖10 不同信噪比下各模型評價指標(biāo)
表4 深度學(xué)習(xí)模型參數(shù)
19倍,這意味著訓(xùn)練的時間會更長,硬件資源的消耗更多,且LSTM計算效率不高,無法進(jìn)行并行計算。1DCNN模型雖然參數(shù)是最少的,沒有噪聲信號的情況下能夠達(dá)到較高的準(zhǔn)確率,但是其模型過于簡單,真實場景中往往充斥著更復(fù)雜的噪聲信號導(dǎo)致模型準(zhǔn)確率下降。
將不同幅值的高斯白噪聲信號傳入深度殘差收縮模型中,準(zhǔn)確率有所下降,特別是信噪比越小時,下降得更加明顯。深度殘差收縮模型在加入CBAM后,準(zhǔn)確率有上升,說明注意力機(jī)制能夠使模型能更加專注在有效特征的提取上,抑制噪聲。對比SCARN模型,SCARN模型準(zhǔn)確率下降比較平穩(wěn),說明抗噪性能較好,且參數(shù)數(shù)量也少于前兩種模型。
ResNet模型能夠有效避免“梯度爆炸”或“梯度消失”現(xiàn)象,在原始信號下也能達(dá)到較高的準(zhǔn)確率,但是引入噪聲信號后,模型表現(xiàn)大幅下降,可能的原因是單一的殘差結(jié)構(gòu)對噪聲信號特征和原始信號特征沒進(jìn)行特別處理,導(dǎo)致殘差卷積后仍包含大量噪聲。
EMD+SVM模型的故障識別準(zhǔn)確率最低。在加入噪聲信號后,從表1、圖7可以看出信號的時域特征指標(biāo)以及頻域均會出現(xiàn)不小變化,噪聲影響了對原始信號特征的提取,采用簡單的分析方法難以獲得較好的結(jié)果,且需要引入專家經(jīng)驗,加大了模型搭建成本。
針對現(xiàn)有模型存在的網(wǎng)絡(luò)層數(shù)過深、模型較復(fù)雜,實驗數(shù)據(jù)環(huán)境過于理想化的問題,提出改進(jìn)殘差結(jié)構(gòu)的輕量級SCARN模型并應(yīng)用于大型機(jī)械設(shè)備故障診斷。本文主要工作:①通過分組學(xué)習(xí)與通道混合操作增強(qiáng)了信息的交互;②考慮到卷積核的相似性,使用藍(lán)圖可分離卷積代替常規(guī)卷積層,在保持高效的同時減少了大量參數(shù);③設(shè)計了新的空間通道注意力模塊,在SENet模型基礎(chǔ)上將兩個方向長距離依賴的空間信息融入通道中,提高特征表達(dá)能力;④改進(jìn)深度殘差收縮模塊,設(shè)計空間信息增強(qiáng)模塊代替原有的全局平均池化層,提高模型噪聲環(huán)境下的魯棒性。實驗結(jié)果表明,SCARN模型能夠在參數(shù)量盡可能少的同時,提取到信號數(shù)據(jù)的有效特征,且具有良好的抗噪性能。在下一步工作中,會針對同一機(jī)械多種故障源以及多數(shù)據(jù)源進(jìn)行實驗,對模型的優(yōu)化也是需要重點(diǎn)考慮的問題。