摘要:針對實際工況中齒輪箱振動信號復雜多變,導致傳統(tǒng)基于卷積神經(jīng)網(wǎng)絡(ConvolutionalNeural Networks, CNN)的齒輪箱故障診斷方法存在診斷精度不高、訓練收斂性能差等問題,首先,提出一種改進的注意力機制和一種基于注意力機制的軟閾值激活函數(shù),在此基礎上,構(gòu)建基于改進注意力機制的CNN 故障診斷模型;然后,通過齒輪箱開源數(shù)據(jù)集的實驗數(shù)據(jù),驗證改進的注意力機制和基于注意力機制的軟閾值激活函數(shù)能否有效提升模型的診斷精度和訓練收斂性能;最后,將構(gòu)建的模型應用于實際工況齒輪箱的故障診斷。結(jié)果表明,構(gòu)建的模型滿足某企業(yè)齒輪箱出廠檢測的需求,在診斷精度和訓練收斂性等方面具有優(yōu)勢。
關鍵詞:故障診斷;卷積神經(jīng)網(wǎng)絡;注意力機制;軟閾值激活函數(shù);齒輪箱
中圖分類號:TH132 文獻標志碼:A
齒輪箱是通過齒輪的嚙合傳遞動力,改變輸出軸的轉(zhuǎn)速和轉(zhuǎn)矩,從而實現(xiàn)機械傳動的裝置。由于復雜的環(huán)境工況,在速度和載荷的多重作用下,齒輪箱易發(fā)生故障而導致設備劇烈振動或失效[1]。因此,開展齒輪箱故障診斷的研究具有重要意義。針對齒輪箱振動信號復雜多變的特點,傳統(tǒng)的基于信號處理的方法提取故障特征較為困難?;跀?shù)據(jù)驅(qū)動的方法憑借其不需要依賴工程經(jīng)驗和普適性好的特點,在近些年得到大量研究者的關注。其中,卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks, CNN) 由于其能夠提取非線性特征的強大能力,成為齒輪箱故障診斷的主流手段[2]。
然而,基于CNN 的齒輪箱故障診斷方法還存在一定的局限性。一方面通過卷積得到的齒輪箱信號特征存在大量冗余信息,阻礙了診斷模型在分類精度和訓練收斂性能方面的進一步提升[3]。因此,如何在復雜特征中提取到相關性更大的信息,成為了進一步提高CNN 診斷模型性能的研究重點。為了解決該問題, 注意力機制被引入齒輪箱故障診斷。Liu 等[4] 提出了一種堆疊殘差多注意力網(wǎng)絡作為振動信號特征提取的手段,實現(xiàn)了對齒輪箱的診斷;孔子遷等[5] 結(jié)合了時頻域分析與注意力機制,對齒輪箱進行了精準診斷。但是上述注意力機制沒有針對一維振動信號進行特別設計,其中常規(guī)的池化操作存在特征信息丟失現(xiàn)象[6]。另一方面,齒輪箱振動信號是一種非線性信號[7],CNN 的非線性表達能力依賴于激活函數(shù),而常用的線性整流函數(shù)(Rectified LinearUnit,ReLU) 作為一種強制稀疏處理,負域中的零信號會阻礙反向傳播[8-9]。楊文哲等[10] 在一維CNN 中引入了高斯誤差線性單元激活函數(shù)(Gaussian ErrorLinear Units,GELU),實現(xiàn)了對齒輪箱的精確診斷,但是GELU 激活函數(shù)計算量大,參數(shù)調(diào)整困難;李俊卿等[11] 利用可訓練的ReLU 激活函數(shù)(Trainable ReLU,TReLU) 改進GoogLeNe,實現(xiàn)了強噪聲下的齒輪箱故障診斷,但是TReLU 線性修正的特點影響了網(wǎng)絡的非線性表達能力。
本文提出一種基于CBAM(Convolutional BlockAttention Module)改進的(Strengthened-ConvolutionalBlock Attention Module,S-CBAM)注意力模塊,能夠更全面關注齒輪箱振動信號中的關鍵特征;同時,結(jié)合注意力機制和軟閾值函數(shù)構(gòu)造一種輕量級的軟閾值函數(shù)網(wǎng)絡(Soft Thresholding Network,ST-Net) 來作為CNN中的非線性映射函數(shù),更有效地提升齒輪箱故障診斷模型的非線性表達能力。在此基礎上構(gòu)建基于改進注意力機制的CNN(CNN based on ImprovedAttention Mechanism,IAMCNN) 診斷模型,并用開源數(shù)據(jù)驗證模型的有效性,最后應用于實際工況的診斷。
1 理論基礎
1.1 一維卷積神經(jīng)網(wǎng)絡
一維卷積神經(jīng)網(wǎng)絡(1D Convolutional NeuralNetwork,1D-CNN) 是卷積神經(jīng)網(wǎng)絡的一種變體,它具有處理一維時序信號的強大能力[12],其核心操作卷積層通過滑動一個固定大小的卷積核在一維數(shù)據(jù)上進行卷積以提取特征,如圖1所示。
1.2 CBAM 注意力模塊
CBAM 模塊[13] 是一種同時考慮了通道注意力和空間注意力的注意力模塊,卷積層輸出的特征先后經(jīng)過通道注意力模塊(Channel Attention Module,CAM)和空間注意力模塊(Spatial Attention Module, SAM),計算加權(quán)之后得到一組新的特征。
如圖2 所示,輸入的特征圖在進入通道注意力模塊后分別進行全局平均池化(Global AveragePooling,GAP) 和全局最大池化(Global Max Pooling,GMP) 得到兩組通道描述符,然后將它們分別送入一個參數(shù)共享的兩層感知器(Multilayer Perceptron,MLP),將網(wǎng)絡的輸出逐元素相加之后通過Sigmoid函數(shù)激活,可得到一組(0,1)之間的通道注意力權(quán)重。
空間注意力模塊利用最大池化和平均池化對特征在通道維度上進行壓縮,將兩個池化的結(jié)果拼接之后得到一個通道數(shù)為2 的特征圖,然后將其送入一個卷積層壓縮至一個通道,最后通過Sigmoid 函數(shù)激活得到空間注意力權(quán)重,其原理如圖3 所示。
1.3 軟閾值函數(shù)
軟閾值函數(shù)是一種信號處理領域常用的函數(shù),被廣泛應用于求解稀疏表示和壓縮感知領域優(yōu)化問題的算法中[14]。針對某一個正數(shù)閾值T,軟閾值函數(shù)會將絕對值小于閾值的輸入x 置零,并將絕對值大于該閾值的輸入x 也向著零收縮,其處理過程如式(1)所示。
從計算公式可以看出,軟閾值函數(shù)的導數(shù)恒為0 或1,與ReLU 函數(shù)相似,可以有效解決神經(jīng)網(wǎng)絡算法訓練時梯度彌散等問題。同時,軟閾值函數(shù)具有更好的抗噪性能,且可以減少信號的信息丟失[15]。
2 IAMCNN 模型構(gòu)建
以CNN 模型為基礎,設置3 個一維卷積層和3 個全連接層,并引入池化層與批歸一化層,以提高網(wǎng)絡收斂速度和防止過擬合,構(gòu)建基于CBAM 改進的S-CBAM 注意力模塊;同時,結(jié)合注意力機制和軟閾值函數(shù)構(gòu)造一種輕量級的軟閾值函數(shù)網(wǎng)絡來作為CNN 中的非線性映射函數(shù)。在此基礎上構(gòu)建基于改進注意力機制的CNN 診斷模型。
2.1 改進注意力模塊構(gòu)建
為了減少齒輪箱振動信號在通道注意力中因GMP 和GAP 而產(chǎn)生的信息丟失,本文提出基于頻域特征的池化方法,可針對性地提高CBAM 注意力機制對齒輪箱振動信號的特征提取能力。
圖4 和圖5 所示分別為健康狀態(tài)和故障狀態(tài)下齒輪箱振動信號及功率譜圖,可以看出,齒輪箱故障信號特征不但體現(xiàn)在時域上,也會表現(xiàn)在功率譜的分布上。
本文選擇重心頻率S1 和頻率標準差S2 來構(gòu)建頻域特征池化方法,通過這兩個頻域特征,可以表征齒輪箱振動信號的功率譜分布情況[16-17]。S1 和S2 的計算公式分別如式(2)和式(3)所示:
其中,P(k) 為對應的功率譜值,fk 為對應點的頻率幅值大小。
通過頻域特征池化改進的通道注意力模塊結(jié)構(gòu)如圖6 所示,通過全局最大池化(GMP)和全局平均池化(GAP)得到齒輪箱信號特征在時域上的通道描述符,通過全局重心頻率池化(GF)和全局頻率標準差池化(FSD)得到齒輪箱信號特征在頻域上的通道描述符,故改進后的通道注意力模塊可以同時兼顧齒輪箱振動信號的時域和頻域特征信息。
2.2 ST-Net 激活函數(shù)構(gòu)建
對于軟閾值函數(shù)來說,閾值的選擇是關鍵,本文采用一種結(jié)合SE 注意力機制[18] 的特殊網(wǎng)絡自主學習閾值?;谧⒁饬C制的軟閾值函數(shù)能夠靈活地調(diào)整齒輪箱信號特征中需要刪除的信息,在實現(xiàn)ReLU 激活函數(shù)功能的基礎上能夠保留更為豐富的數(shù)據(jù)特征。ST-Net 的網(wǎng)絡結(jié)構(gòu)如圖7 所示,Abs 為取絕對值操作,輸入的齒輪箱信號特征取絕對值后經(jīng)注意力網(wǎng)絡處理,得到一組自適應的閾值,對輸入的齒輪箱信號特征進行軟閾值化后得到輸出特征。
針對齒輪箱振動信號,ST-Net 網(wǎng)絡具有較好的刪除冗余特征的能力。如圖8 所示為齒輪箱故障信號經(jīng)ST-Net 網(wǎng)絡處理前后的對比圖,原始的齒輪箱振動信號含有較多冗余信息,信號故障特征不明顯;經(jīng)ST-Net 網(wǎng)絡處理后的信號刪除了冗余信息,并突出了該信號的故障特征,有效提高了齒輪箱振動信號的可分性。
2.3 IAMCNN 診斷模型搭建
將上述S-CBAM 注意力模塊和ST-Net 激活函數(shù)引入網(wǎng)絡模型,搭建IAMCNN 齒輪箱故障診斷模型,模型結(jié)構(gòu)如圖9 所示,在每個卷積塊中添加STNet激活函數(shù),并將S-CBAM 注意力模塊插入到第3 個卷積塊之后,通過分析驗證,這種結(jié)構(gòu)可以有效增強卷積層特征提取能力。
3 實驗驗證
3.1 開源數(shù)據(jù)集故障診斷分析
3.1.1 實驗數(shù)據(jù)與樣本處理
為驗證所構(gòu)建模型的有效性,首先采用東南大學齒輪箱數(shù)據(jù)集進行實驗驗證。該數(shù)據(jù)集通過在傳動系統(tǒng)動態(tài)模擬(DDS)系統(tǒng)上模擬實際工況得到,如圖10 為DDS 實驗平臺。
該實驗采集了平行齒輪箱和行星齒輪箱x、y、z 方向的振動信號,以及電機z 方向振動信號和扭矩信號,齒輪箱轉(zhuǎn)速為1 200 r/min,采樣頻率為5 120 Hz,模擬了包括健康、斷齒、缺齒、齒根裂紋和齒輪表面磨損在內(nèi)的5 種不同運行狀態(tài)[19]。本文利用數(shù)據(jù)集中8 個通道信號作為模型輸入,其中包含5 000 個樣本,每個樣本有1 024 個數(shù)據(jù)點,可保證每個樣本包含齒輪箱旋轉(zhuǎn)4 周的故障特征信息。將所有樣本按4∶1 的比例劃分為訓練集和測試集。
3.1.2 消融實驗及結(jié)果分析
為驗證本文所構(gòu)建模塊的有效性, 對模型進行消融實驗, 對比說明SCBAM注意力模塊和ST-Net 激活函數(shù)對CNN 模型的改進效果。模型訓練利用TensorFlow 框架,批處理樣本數(shù)為256,迭代次數(shù)為100,選擇交叉熵作為損失函數(shù),Adam 作為優(yōu)化器,學習率設為0.001。對比4 種診斷模型的訓練和診斷效果,4 個齒輪箱故障診斷模型設置分別如下:
(1)同時采用S-CBAM 注意力模塊和ST-Net 激活函數(shù)對CNN 模型進行改進,記為IAMCNN;
(2)僅采用S-CBAM 注意力模塊對CNN 模型進行改進,記為S-CBAM;
(3)僅采用ST-Net 激活函數(shù)對CNN 模型進行改進,記為ST-Net;
(4)基于傳統(tǒng)CNN 的齒輪箱故障診斷模型,選擇ReLU 函數(shù)作為激活函數(shù),記為CNN。
如圖11 所示為模型訓練時模型在測試集上的精度曲線,可以看出,S-CBAM 注意力模塊和ST-Net激活函數(shù)對CNN 模型的訓練效果具有較好的改進作用。改進后的IAMCNN模型能將訓練損失降到較低水平,且提高了訓練收斂速度;IAMCNN 模型在迭代訓練20 次后測試精度已經(jīng)趨于收斂,其診斷精度和模型的穩(wěn)定性方面都有很大提升。
如圖12 所示為不同模型在測試集上診斷結(jié)果的混淆矩陣,可以看出,傳統(tǒng)的CNN 模型對斷齒故障(標簽1)診斷精度較低,只有83%;單獨經(jīng)過SCBAM注意力模塊或ST-Net 改進的CNN 網(wǎng)絡對5 種狀態(tài)的診斷精度都能達到90% 以上;而同時結(jié)合S-CBAM注意力模塊和ST-Net 的IAMCNN 模型對4 種故障狀態(tài)的診斷精度都能達到100%,只有對健康狀態(tài)識別精度為96%,存在部分誤判現(xiàn)象,總體精度達到99.20%,能夠達到較好的診斷效果。
為更加直觀地對比不同模型的特征提取能力,在不同模型迭代訓練20 次時的對特征提取情況進行可視化。如圖13 所示為不同模型的t-SNE 可視化情況,可以看出,原始的CNN 模型在迭代訓練20 次時還存在大量特征混雜的情況,無法對數(shù)據(jù)進行有效分類。單獨經(jīng)過S-CBAM 注意力模塊和ST-Net 改進的CNN 網(wǎng)絡分類能力有所加強,存在小部分的混雜現(xiàn)象。如圖13(b)和13(c)所示,結(jié)合S-CBAM 注意力模塊的診斷模型有效增大了幾種標簽的類間間距,但是其類內(nèi)間距依然較大,結(jié)合ST-Net 改進的診斷模型縮小了不同標簽的類內(nèi)間距,但其類間間距較小,不利于分類。如圖13(d)所示,同時結(jié)合S-CBAM注意力模塊和ST-Net 的IAMCNN 模型具有強大的特征提取能力,針對不同標簽的數(shù)據(jù)同時具有較大的類間間距和較小的類內(nèi)間距,已經(jīng)可以對數(shù)據(jù)進行較好地分類。
3.1.3 對比實驗及結(jié)果分析
為驗證本文所提出的模型在單通道信號輸入下的魯棒性,選擇數(shù)據(jù)集中故障特征相對微弱的電機振動信號作為輸入,并設置對比實驗以驗證本文所提模型的優(yōu)越性。
實驗設置了3 種不同結(jié)構(gòu)的CNN 模型作為對比以說明本文提出的改進注意力機制的優(yōu)越性,其中CNN 為原始三層卷積神經(jīng)網(wǎng)絡模型, SE-Net-CNN 和CBAM-CNN 分別為采用了SE 通道注意力機制和CBAM 注意力機制的卷積神經(jīng)網(wǎng)絡模型。另外還設置長短期記憶( Long Short Term Memory, LSTM)神經(jīng)網(wǎng)絡、BP(Back Propagation, BP) 神經(jīng)網(wǎng)絡和深度殘差網(wǎng)絡(Deep residual network, ResNet) 3 種主流診斷模型作為實驗對比對象以說明本文所提模型的優(yōu)越性。測試集精度值取10 次實驗平均值,每次實驗模型迭代訓練100 次。
圖14 所示為不同模型在訓練時測試精度曲線,表1 所示為不同模型在測試集上平均精度的對比結(jié)果。由以上結(jié)果可以看出,本文提出的模型在故障特征較為微弱的電機振動單一通道信號輸入時仍具有較好的診斷性能,其診斷精度高于其余幾種常見診斷模型。
3.2 IAMCNN 診斷模型的工程應用
3.2.1 實驗數(shù)據(jù)與樣本處理
基于某企業(yè)齒輪箱出廠質(zhì)量檢測的需求,搭建行星齒輪箱實驗平臺采集數(shù)據(jù)對模型進行驗證,實驗平臺如圖15 所示。實驗設置8 種不同運行狀態(tài),包括1 種健康狀態(tài)和太陽輪齒面碰傷、行星輪齒面碰傷、內(nèi)齒圈齒面碰傷、太陽輪精度低、行星輪精度低、內(nèi)齒圈精度低、行星架中心距超差7 種故障狀態(tài)。齒輪箱轉(zhuǎn)速為940 r/min,振動加速度傳感器測點布置在齒輪箱第一級行星齒輪的軸承支座上,振動信號的采樣頻率為12 800 Hz,將1 s 內(nèi)采集到的振動信號,即12 800 個數(shù)據(jù)點作為一個樣本,保證每個樣本包含齒輪箱旋轉(zhuǎn)15 周的故障特征信息,每種運行狀態(tài)采集500 個樣本作為本文實驗數(shù)據(jù)集,并按4∶1 的比例將4 000 個樣本劃分為訓練集與測試集。
3.2.2 結(jié)果分析
IAMCNN 模型在實測行星齒輪箱數(shù)據(jù)集上的表現(xiàn)如圖16~18 所示。由圖16 可以看出模型在經(jīng)過50 次迭代訓練后,在測試集上精度已經(jīng)穩(wěn)定在99.25% 左右,且不存在過擬合現(xiàn)象。如圖17所示,從模型在測試集上輸出的混淆矩陣可以看出,行星輪齒面碰傷(標簽2)與內(nèi)齒圈精度低(標簽6)兩種故障狀態(tài)存在一定程度的誤診斷現(xiàn)象,其原因在于這兩種故障特征信息較為相似,在如圖18 所示的t-SNE 可視化結(jié)果中可以看出這兩種故障狀態(tài)的類間間距較小,容易出現(xiàn)分類出錯的情況。模型對其余狀態(tài)診斷率都達到了100%,本文提出的方法在實測行星齒輪箱數(shù)據(jù)集上也具有較好的分類效果,可以證明本文所提模型在實際工程應用中具有良好的診斷效果。
為了進一步驗證本文所提出方法的優(yōu)越性,對比分析了不同齒輪箱故障診斷模型的應用效果。同時,為了比較模型的收斂性能,取不同模型在訓練時測試精度達到90% 所需要的時間為其收斂時間,以表征不同模型的訓練收斂性能。如表2 所示為不同齒輪箱故障診斷模型的測試集診斷精度和收斂時間,可以看出,本文提出的齒輪箱故障診斷模型IAMCNN在實測齒輪箱數(shù)據(jù)集上診斷精度為99.25%,收斂時間為69.51s,對比其余診斷模型具有最高的診斷精度,以及較好的訓練收斂性能。其中,CNN 模型雖然具有更短的收斂時間,但其最高診斷精度比IAMCNN低5.73%。綜合來看,IAMCNN 模型針對齒輪箱故障診斷具有最好的性能。
4 結(jié) 論
(1)S-CBAM 注意力模塊和ST-Net 能有效提升卷積神經(jīng)網(wǎng)絡的診斷精度和收斂性能,IAMCNN 診斷模型在東南大學齒輪箱開源數(shù)據(jù)集上診斷精度達到了99.20%,且在20 次迭代訓練后模型在測試集上的精度已經(jīng)收斂,其性能優(yōu)于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡;
(2)IAMCNN 齒輪箱故障診斷模型具有較好的魯棒性,在故障特征微弱的單一通道輸入時測試集精度為97.59%,高于其余幾種常見診斷模型;
(3)IAMCNN 齒輪箱故障診斷模型具有良好的實際工程應用效果。在實測行星齒輪箱數(shù)據(jù)集上診斷精度達到了99.25%,高于其余幾種常用診斷模型;同時,模型診斷精度達到90% 的時間為69.51s,收斂時間較短,綜合診斷精度和收斂性能,IAMCNN 模型具有最好的診斷性能,并滿足某企業(yè)齒輪箱出廠檢測的需求。
參考文獻:
[ 1 ]唐云, 魏昂昂", 童彤等. 面向風電機組行星齒輪箱故障診斷的振動監(jiān)測技術(shù)研究綜述[J]. 風能, 2022(8): 92-95.
[ 2 ]GONDAL I, AMAR M, WILSON C. Vibration spectrumimaging: A novel bearing fault classification approach[J].IEEE Transactions on Industrial Electronics, 2014, 62(9):494-502.
[ 3 ]ZHANG Q, JIANG Z, LU Q, et al. Split to be slim: Anoverlooked redundancy in vanilla convolution[EB/OL].(2020-06-22) [2023-12-07]. https://arXiv.org/abs/ 2006.12085.
[ 4 ]LIU S, HUANG J, MA J, et al. SRMANet: Toward aninterpretable neural network with multi-attention mechanismfor gearbox fault diagnosis[J]. Applied Sciences, 2022,12(16): 8388.
[ 5 ]孔子遷, 鄧蕾, 湯寶平等. 基于時頻融合和注意力機制的深度學習行星齒輪箱故障診斷方法[J]. 儀器儀表學報,2019, 40(6): 221-227.
[ 6 ]駱睿, 朱華生, 藍宏等. 基于改進CBAM 注意力機制的害蟲分類算法[J]. 南昌工程學院學報, 2023, 42(4): 92-99.
[ 7 ]謝孟龍. 變工況齒輪箱振動信號處理與故障診斷方法研究[D]. 石家莊: 河北科技大學, 2013.
[ 8 ]NAIR V, HINTON G E. Rectified linear units improverestricted Boltzmann machines[C]//International Conferenceon Machine Learning(ICML). Madison, WI, USA:Omnipress, 2010: 807–814.
[ 9 ]李一波, 郭培宜, 張森悅. 深度卷積神經(jīng)網(wǎng)絡中激活函數(shù)的研究[J]. 計算機技術(shù)與發(fā)展, 2021, 31(9): 61-66.
[10]楊文哲, 郝如江, 郭梓良等. 基于一維ConvNeXt 網(wǎng)絡的齒輪箱故障診斷[J]. 國防交通工程與技術(shù), 2023, 21(4):28-31, 61.
[11]李俊卿, 劉若堯, 何玉靈. 基于NGO-VMD 和改進GoogLeNet 的齒輪箱故障診斷方法[J]. 機床與液壓,52(12): 193-201.
[12]林偉, 洪容容. 基于多尺度一維卷積神經(jīng)網(wǎng)絡的入侵檢測模型[J]. 中國電子科學研究院學報, 2023, 18(7): 656-662,670.
[13]WOO S, PARK J, LEE J Y, et al. CBAM: Convolutionalblock attention module[C]//Computer vision: ECCV 201815th European Conference. Munich, Germany: Spring verlag,2018: 3-19.
[14]DONOHO D L. De-noising by soft-thresholding[J]. IEEETransactions on Information Theory, 2002, 41(3): 613-627.
[15]ZHAO M, ZHONG S, FU X, et al. Deep residual shrinkagenetworks for fault diagnosis[J]. IEEE Transactions on IndustrialInformatics, 2020, 16(7): 4681-4690.
[16]雷亞國, 林京, 何正嘉. 基于多傳感器信息融合的行星齒輪箱故障診斷[C]//2010 年全國振動工程及應用學術(shù)會議暨第十二屆全國設備故障診斷學術(shù)會議. 沈陽: [s.n.],2010.
[17] 吳文臻, 程繼明, 李標. 礦用帶式輸送機托輥音頻故障診斷方法[J]. 工礦自動化, 2022, 48(9): 25-32.
[18]HU J, SHEN L, SUN G. Squeeze-and-excitationnetworks[C]//2018 IEEE/CVF Conference on ComputerVision and Pattern Recognition. Salt Lake City, UT, USA:IEEE, 2018: 7132-7141.
[19]SHAO S, MCALEER S, YAN R, et al. Highly accurate machinefault diagnosis using deep transfer learning[J]. IEEETransactions on Industrial Informatics, 2019, 15(4): 2446-2455.
(責任編輯:王曉麗)