韓爭(zhēng)杰, 牛榮軍, 馬子魁, 崔永存, 鄧四二
(1. 河南科技大學(xué) 機(jī)電工程學(xué)院,河南 洛陽(yáng) 471003;2. 舍弗勒(上海)貿(mào)易有限公司(研發(fā)中心),上海 201804)
機(jī)械故障是風(fēng)力電設(shè)備、航空發(fā)動(dòng)機(jī)、高檔數(shù)控機(jī)床等大型機(jī)械裝備安全可靠運(yùn)行的“潛在殺手”[1]。故障診斷是用于保障設(shè)備安全、平穩(wěn)運(yùn)行的重要技術(shù)手段,在故障診斷技術(shù)的發(fā)展的早期階段,相關(guān)研究和工程技術(shù)人員大多通過(guò)對(duì)設(shè)備生命周期中出現(xiàn)故障時(shí)的具體物理參數(shù)或損傷進(jìn)行相應(yīng)的記錄和分析,從而依靠不斷累積的經(jīng)驗(yàn)知識(shí)對(duì)設(shè)備故障進(jìn)行診斷[2]。近年來(lái),隨著計(jì)算機(jī)科學(xué)發(fā)展的進(jìn)步,軸承故障診斷已由傳統(tǒng)方法向智能化方向轉(zhuǎn)變[3],尤其是深度學(xué)習(xí)方面,基于數(shù)據(jù)驅(qū)動(dòng)的智能機(jī)械故障診斷方法取得了較大發(fā)展[4]。
傳統(tǒng)的故障特征提取方法主要基于時(shí)域,頻域和時(shí)頻域,而時(shí)頻域分析既包含時(shí)域信息也包含頻域信息,在軸承故障診斷中得到廣泛應(yīng)用。時(shí)頻分析方法中小波變換(wavelet transform,WT),短時(shí)傅里葉變換(short time Fourier transform,STFT)、希爾伯特黃變換(Hilbert-Huang transform,HHT)及其他改進(jìn)算法[5-6]等通常將原始時(shí)域振動(dòng)信號(hào)轉(zhuǎn)換到時(shí)頻域上,并提取出信號(hào)的統(tǒng)計(jì)特征[7],將這些構(gòu)造出的特征作為故障分類算法的輸入。傳統(tǒng)的故障分類算法[8-10],屬于淺層機(jī)器學(xué)習(xí)的方法,要與特征提取方法結(jié)合,使用人工特征提取方法,針對(duì)具體的任務(wù),帶來(lái)了人為因素的干擾,很難應(yīng)用于所有情況的特征,具有較低的泛化性。
而深度學(xué)習(xí)是讓計(jì)算機(jī)自動(dòng)學(xué)習(xí)特征的方法,能夠直接從原始的信號(hào)中學(xué)習(xí)到重要的特征,目前主要的深度學(xué)習(xí)的方法有卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN),循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),自編碼網(wǎng)絡(luò)(auto encoder, AE)[11-12]。隨著深度學(xué)習(xí)在故障診斷中的應(yīng)用,也隨之暴露了一些缺點(diǎn),比如說(shuō)隨著訓(xùn)練層數(shù)和參數(shù)的增加,從頭開(kāi)始訓(xùn)練一個(gè)大型的深度學(xué)習(xí)模型要有足夠的樣本、算力和時(shí)間[13],而故障診斷想獲取大量數(shù)據(jù)比較困難。
針對(duì)深度學(xué)習(xí)上述不足,在機(jī)械故障診斷領(lǐng)域中引入了遷移學(xué)習(xí)的方法。在單源域遷移學(xué)習(xí)中,基于預(yù)訓(xùn)練的不同的網(wǎng)絡(luò)模型,實(shí)現(xiàn)模型的遷移,并利用該數(shù)據(jù)微調(diào)預(yù)訓(xùn)練模型,實(shí)現(xiàn)了較高的故障診斷準(zhǔn)確率和訓(xùn)練效率[14-15]。對(duì)于多源域遷移學(xué)習(xí),Zhu等[16]通過(guò)搭建多源域適應(yīng)網(wǎng)絡(luò),實(shí)現(xiàn)目標(biāo)域數(shù)據(jù)的識(shí)別。Li等[17]提出一種適用于任何基于梯度學(xué)習(xí)規(guī)則訓(xùn)練模型的方法,在數(shù)字和動(dòng)作識(shí)別試驗(yàn)中取得了較好的試驗(yàn)結(jié)果。無(wú)論是單源域還是多源域遷移學(xué)習(xí),當(dāng)在同一工況內(nèi)進(jìn)行模型遷移訓(xùn)練效果一般較好,但當(dāng)遷移到不同工況時(shí),尤其是不同工況內(nèi)無(wú)訓(xùn)練樣本時(shí),其訓(xùn)練效果將會(huì)變得很不理想。
針對(duì)遷移學(xué)習(xí)不同工況訓(xùn)練中存在的不足,提出了一種基于注意力機(jī)制改進(jìn)殘差神經(jīng)網(wǎng)絡(luò)的軸承故障診斷方法,本算法的創(chuàng)新點(diǎn)在于:
(1) 通過(guò)遷移學(xué)習(xí)方法,利用殘差神經(jīng)網(wǎng)絡(luò)在二維時(shí)頻域圖像上實(shí)現(xiàn)不同工況下樣本的直接遷移,是在一定工況訓(xùn)練好模型,直接遷移到其他工況進(jìn)行測(cè)試,相比較傳統(tǒng)將不同工況的數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集的樣本遷移,本文提出的網(wǎng)絡(luò)具有更強(qiáng)的泛化性。
(2) 在注意力機(jī)制的基礎(chǔ)上,提出了注意力模塊中的擠壓與激勵(lì)網(wǎng)絡(luò)(squeeze and excitation networks, SENet)和卷積模塊的注意力模塊(convolutional block attention module, CBAM)對(duì)殘差神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,都達(dá)到了優(yōu)化殘差神經(jīng)網(wǎng)絡(luò)的目的。SENet模塊是只關(guān)注通道的注意力機(jī)制,CBAM模塊是即關(guān)注通道,也關(guān)注空間的注意力機(jī)制,兩種模塊可以嵌入到現(xiàn)在任何流行的網(wǎng)絡(luò)。
小波變換包括連續(xù)小波變換(continue wavelet transform,CWT)和離散小波變換(discrete wavelet transform,DWT),本文主要對(duì)軸承的振動(dòng)信號(hào)分析,采用CWT進(jìn)行時(shí)頻域分析。假設(shè)Z(t)是輸入的原時(shí)域信號(hào),連續(xù)小波變換可以表示為
(1)
式中:a為伸縮因子;τ為時(shí)間平移因子;ψ(·)為小波基函數(shù),是滿足一定條件的基本小波函數(shù)。
卷積神經(jīng)網(wǎng)路(convolutional neural network,CNN)是一類強(qiáng)大的處理圖像數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),傳統(tǒng)的CNN模型主要由卷積層、池化層、全連接層和Softmax分類器構(gòu)成。傳統(tǒng)的CNN結(jié)構(gòu)圖如圖1所示。
圖1 傳統(tǒng)的CNN結(jié)構(gòu)圖Fig.1 Traditional CNN structure diagram
卷積運(yùn)算的的數(shù)學(xué)表達(dá)式為
(2)
池化層分為最大池化層和平均池化層,運(yùn)算符由一個(gè)固定形狀的窗口組成,以輸入步幅的大小在所有區(qū)域上滑動(dòng),其計(jì)算的方式如圖2所示。
圖2 池化層計(jì)算方式Fig.2 Calculation method of aggregation layer
CNN的最后一層為一個(gè)全連接層,用于執(zhí)行分類或回歸任務(wù),其數(shù)學(xué)定義為
(3)
對(duì)于分類任務(wù)通常使用Softmax激活函數(shù),其定義如下
(4)
在CNN的訓(xùn)練中,通常使用交叉熵函數(shù),來(lái)評(píng)估真實(shí)標(biāo)簽與預(yù)測(cè)概率之間誤差,定義如下
(5)
式中:1{·}為指示函數(shù),當(dāng)大括號(hào)內(nèi)的判斷為真時(shí),取值為1,否則為0;假設(shè)訓(xùn)練集的樣本總數(shù)為N,則交叉熵?fù)p失函數(shù)定義如下
(6)
隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的不斷加深,網(wǎng)絡(luò)就會(huì)變得難以訓(xùn)練,并且網(wǎng)絡(luò)的訓(xùn)練精度達(dá)到飽和,出現(xiàn)網(wǎng)絡(luò)退化的現(xiàn)象。因此,He等[18]提出了殘差網(wǎng)絡(luò)(residual network,ResNet)結(jié)構(gòu)來(lái)解決該問(wèn)題,ResNet采用快捷連接方式實(shí)現(xiàn)了網(wǎng)絡(luò)層恒等映射的多個(gè)殘差模塊堆疊構(gòu)成。
殘差模塊沒(méi)有去擬合多個(gè)網(wǎng)絡(luò)層堆疊的直接映射,而是擬合殘差映射。讓我們聚焦于神經(jīng)網(wǎng)絡(luò)局部:如圖3所示,假設(shè)我們的原始輸入為X,而希望學(xué)出的理想映射為F(X)(作為圖3下方激活函數(shù)的輸入)。圖3左圖正常塊直接擬合出該映射F(X),而右圖部分則需要擬合出殘差映射F(X)-X。殘差映射在現(xiàn)實(shí)中往往更容易優(yōu)化。在殘差塊中,輸入可通過(guò)跨層數(shù)據(jù)線路更快地向前傳播。能有效降低映射的學(xué)習(xí)難度,加快模型的收斂速度。
圖3 正常塊和殘差塊Fig.3 Normal block and residual block
在ResNet模型中殘差塊結(jié)構(gòu)形式如圖4所示,降采樣層用來(lái)保持特征圖的尺寸和通道數(shù)一致。
圖4 標(biāo)準(zhǔn)殘差塊和帶降采樣層的殘差塊Fig.4 Standard residual block and residual block with falling sampling layer
注意力機(jī)制的產(chǎn)生來(lái)源于人類的視覺(jué)注意力。人類特有的視覺(jué)信息處理系統(tǒng)能夠讓人們僅依靠有限的注意力資源從待處理信息中得到關(guān)注焦點(diǎn),注意力機(jī)制的核心邏輯就是從關(guān)注全部到關(guān)注重點(diǎn)。本文對(duì)ResNet模型優(yōu)化,使用了注意力模塊中的SENet和CBAM。
SENet由Hu等[19]在2017年的ImageNet競(jìng)賽中提出,SENet的結(jié)構(gòu)如圖5所示。
圖5 SENet的結(jié)構(gòu)圖Fig.5 Structure diagram of SENet
圖5是提出的SENet模塊的示意圖。與傳統(tǒng)的CNN不一樣的是通過(guò)Squeeze和Excitation 2個(gè)操作來(lái)重標(biāo)定前面得到的特征。首先是Squeeze操作,順著空間維度來(lái)進(jìn)行特征壓縮,將每個(gè)二維的特征通道變成一個(gè)實(shí)數(shù),使得靠近輸入的層也可以獲得全局的感受視野,具體算法公式為
(7)
式中,xi為輸入為尺寸h×w的第i個(gè)特征圖。
其次是Excitation操作,主要由2個(gè)全連接層和2個(gè)激活函數(shù)組成,算法公式為
yi=Fex[Fsq(xi),ω]=σ{ω2δ[ω1Fsq(xi)]}
(8)
式中:σ為ReLU激活函數(shù);δ為Sigmoid激活函數(shù);ω1為第一個(gè)全連接層;ω2為第二個(gè)全連接層;Fsq(xi)為Excitation操作后的輸出值。
CBAM[20]是由通道注意力模塊(channel attention module,CAM)和空間注意力模塊(spatial attention module,SAM)構(gòu)成的,CBAM的結(jié)構(gòu)如圖6所示。
圖6 CBAM的結(jié)構(gòu)圖Fig.6 Structure diagram of CBAM
CAM與SENet相比,只是多了一個(gè)并行的Max Pooling層,CAM的結(jié)構(gòu)如圖7所示。
圖7 CAM的結(jié)構(gòu)圖Fig.7 Structure diagram of CAM
將輸入的特征圖F∈Rc×h×w分別經(jīng)過(guò)基于h和w的全局最大池化和全局平均池化,得到2個(gè)c×1×1的特征圖,接著,再將它們分別送入全連接層運(yùn)算后相加,生成一維通道注意力Mc∈Rc×1×1。然后與輸入特征圖F相乘,調(diào)整后獲得F1其過(guò)程公式為
F1=Mc(F)?F
(9)
式中:Mc(F)為F經(jīng)過(guò)通道注意力的輸出權(quán)值; ?為特征圖加權(quán)乘法運(yùn)算符號(hào)。
SAM的結(jié)構(gòu)如圖8所示。
圖8 SAM的結(jié)構(gòu)圖Fig.8 Structure of SAM
將通道注意力模塊輸出的特征圖F1作為本模塊的輸入特征圖。首先做一個(gè)基于通道的全局最大池化和全局平均池化,得到2個(gè)1×h×w的特征圖,將這2個(gè)特征圖基于通道做拼接操作。然后進(jìn)行卷積操作得到二維空間注意力Ms∈R1×h×w,最后與F1按元素相乘。其過(guò)程公式為
F2=Ms(F1)?F1
(10)
式中,Ms(F1)為F1經(jīng)過(guò)空間注意力的輸出權(quán)值。
本文提出的基于注意力機(jī)制對(duì)殘差神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,能夠從時(shí)頻圖中自動(dòng)提取出軸承的故障特征信息。本算法的框架如圖9所示,ResNet模型詳細(xì)參數(shù)如表1所示,具體分為時(shí)頻圖像生成、訓(xùn)練模型和優(yōu)化模型3個(gè)步驟。
表1 ResNet模型詳細(xì)參數(shù)Tab.1 ResNet model detailed parameters
(1) 時(shí)頻圖像生成:將原始時(shí)域信號(hào)每2 048個(gè)數(shù)據(jù)點(diǎn)組成一個(gè)樣本,為了保證每個(gè)數(shù)據(jù)點(diǎn)都能采集到,每2個(gè)樣本點(diǎn)會(huì)有重疊的548個(gè)數(shù)據(jù)點(diǎn),滑動(dòng)窗口的步長(zhǎng)為1 500,然后將這些樣本點(diǎn)經(jīng)過(guò)連續(xù)小波變化生成時(shí)頻域的圖像。
(2) 訓(xùn)練模型:本文的預(yù)訓(xùn)練模型是在ImageNet圖像數(shù)據(jù)集上訓(xùn)練的ResNet18模型上改進(jìn)的。如果直接遷移ResNet18模型,收斂速度很慢,迭代到139次才開(kāi)始收斂,而且迭代時(shí)波動(dòng)性比較大。本文提出的ResNet模型在保留原始ResNet18模型的大部分架構(gòu),將殘差層中的帶采樣殘差塊BatchNorm層去掉,只用conv1×1的卷積層,殘差塊引用2個(gè)卷積層和2個(gè)BatchNorm層,迭代到第10次就開(kāi)始收斂,而且兩者最后收斂的準(zhǔn)確率一致,大大加快了模型的運(yùn)算速度。兩種模型的迭代對(duì)比如圖10所示。
圖10 訓(xùn)練速度對(duì)比圖Fig.10 Comparison of training speed
(3) 優(yōu)化模型:本文采用基于注意力機(jī)制的方法對(duì)ResNet進(jìn)行優(yōu)化,分別將注意力機(jī)制里的SENet模型和CBAM添加到ResNet模型里的4個(gè)殘差層中,得到SE-ResNet模型和CBAM-ResNet模型。
為驗(yàn)證本文提出基于注意力機(jī)制優(yōu)化殘差神經(jīng)網(wǎng)絡(luò)故障診斷算法的有效性,仿真試驗(yàn)使用的深度學(xué)習(xí)框架為pytorch,編程語(yǔ)言為Python,在AMD Ryzen 5 4600H,8 G內(nèi)存,GTX1650,Windows 10操作系統(tǒng)下,每次訓(xùn)練的批量大小設(shè)置為7個(gè)樣本,采用SGD優(yōu)化方法,反向傳播更新深度學(xué)習(xí)模型的參數(shù),學(xué)習(xí)率設(shè)置為0.001,使用經(jīng)典的交叉熵?fù)p失函數(shù)。
本文使用凱斯西儲(chǔ)大學(xué)(Case Western Reserve University,CWRU)的滾動(dòng)軸承數(shù)據(jù)集,試驗(yàn)平臺(tái)如圖11所示。
圖11 CWRU試驗(yàn)平臺(tái)Fig.11 CWRU test platform
CWRU數(shù)據(jù)集中使用的是由SKF公司生產(chǎn),型號(hào)為6205和6203的滾動(dòng)軸承來(lái)開(kāi)展故障診斷試驗(yàn)。本次試驗(yàn)采用了12 kHz采樣頻率的驅(qū)動(dòng)端軸承的故障數(shù)據(jù),并采集了4種不同工況時(shí)(0,735 W, 1 470 W, 2 205 W)的滾動(dòng)軸承振動(dòng)信號(hào)。在每種工況下,對(duì)滾動(dòng)體、內(nèi)滾道和外滾道分別引入直徑為0.177 8 mm,0.355 6 mm,0.533 4 mm的單點(diǎn)故障的滾動(dòng)軸承進(jìn)行了試驗(yàn),加上正常滾動(dòng)軸承的試驗(yàn)數(shù)據(jù),每個(gè)工況都有10種不同的故障類型,如表2所示。
表2 CWRU軸承故障分類及標(biāo)簽值Tab.2 CWRU bearing fault classification and label value
將原始時(shí)域信號(hào)每2 048個(gè)數(shù)據(jù)點(diǎn)組成一個(gè)樣本,每2個(gè)樣本點(diǎn)會(huì)有重疊的548個(gè)數(shù)據(jù)點(diǎn),滑動(dòng)窗口的步長(zhǎng)為1 500,訓(xùn)練集、驗(yàn)證集和測(cè)試集的具體設(shè)置如表3所示。
表3 試驗(yàn)數(shù)據(jù)說(shuō)明Tab.3 Experimental data description
對(duì)每個(gè)狀態(tài)的故障經(jīng)過(guò)CWT處理轉(zhuǎn)換成二維時(shí)頻域圖像,其中工況0部分的轉(zhuǎn)換如圖12所示。
圖12 圖像數(shù)據(jù)集Fig.12 Image data set
為驗(yàn)證殘差神經(jīng)網(wǎng)絡(luò)的有效性,采用不同深度學(xué)習(xí)常用模型對(duì)CWT變換后的二維時(shí)頻域圖像進(jìn)行故障診斷分析,本文采用3種常用的深度學(xué)習(xí)模型(LeNet、CNN和BiLSTM)作為預(yù)訓(xùn)練模型的對(duì)比試驗(yàn)。
LeNet模型有2個(gè)卷積層。在傳統(tǒng)LeNet模型的基礎(chǔ)上把平均池化層改成了最大池化層,激活函數(shù)采用relu,后面把原先的3個(gè)全連接層換成了2個(gè)全連接層。采用的CNN模型有4個(gè)卷積層,模型中加入了批量規(guī)范化,可持續(xù)加速深層網(wǎng)絡(luò)的收斂速度。BiLSTM相比較于傳統(tǒng)單位LSTM添加了反向傳遞信息的隱藏層,可以進(jìn)行雙向傳遞,以便于更好的處理信息。
模型訓(xùn)練在0工況下,將該工況下的滾動(dòng)軸承數(shù)據(jù)集樣本按照60%,20%,20%的比例隨機(jī)分配到訓(xùn)練集、驗(yàn)證集與測(cè)試集中。
圖13(a)和圖13(c)是在0工況條件下,4種算法在迭代50輪之后的訓(xùn)練集和驗(yàn)證集的損失,LeNet、CNN和ResNet訓(xùn)練損失出現(xiàn)了明顯的下降,其中ResNet模型下降速度最快,而且訓(xùn)練損失最小,達(dá)到0.012 4,驗(yàn)證集損失達(dá)到0.001 9。圖13(b)和圖13(d)反映4種算法的訓(xùn)練集和驗(yàn)證集的準(zhǔn)確率,CNN和ResNet模型上升趨勢(shì)明顯,而且收斂較快,特別是ResNet模型在迭代到第10輪時(shí)就出現(xiàn)了收斂,最后穩(wěn)定在一個(gè)定值,訓(xùn)練集穩(wěn)定在100%,驗(yàn)證集穩(wěn)定在96.59%。
圖13 0工況下不同模型訓(xùn)練Fig.13 Training of different models under 0 condition
表4給出了在0工況下測(cè)試集的準(zhǔn)確率和測(cè)試時(shí)間,ResNet模型在測(cè)試集的準(zhǔn)確率最高,但是測(cè)試時(shí)間相對(duì)較高,是因?yàn)镽esNet模型里面有4個(gè)殘差層,相對(duì)于其他深度學(xué)習(xí)模型復(fù)雜度較高,隨之測(cè)試時(shí)間也比較長(zhǎng)。
表4 0工況下不同模型測(cè)試集準(zhǔn)確度Tab.4 Accuracy of test sets of different models under working 0 condition
利用在CWRU數(shù)據(jù)集提供的4種不同的工況,首先在0工況下訓(xùn)練模型,直接遷移到735 W, 1 470 W, 2 205 W工況中,把全部的數(shù)據(jù)當(dāng)成測(cè)試數(shù)據(jù),其測(cè)試結(jié)果如圖14所示。ResNet模型雖然相較于有訓(xùn)練集的測(cè)試準(zhǔn)確率有所下降,但整體來(lái)說(shuō)下降不多,下降最大幅度為3%,但是對(duì)于其他模型來(lái)說(shuō)下降很明顯,尤其是CNN模型,在0工況下有訓(xùn)練集的測(cè)試準(zhǔn)確率為96.60%,但是在無(wú)訓(xùn)練集時(shí)向其他3種工況直接遷移的測(cè)試準(zhǔn)確率僅在55%~67%,下降最大幅度達(dá)到41%,由此可以看出CNN模型泛化性很差,相對(duì)于其他模型來(lái)說(shuō)ResNet模型表現(xiàn)較好。
圖14 不同工況間的模型遷移對(duì)比圖Fig.14 Model migration comparison between different working conditions
由3.3節(jié)可知,雖然ResNet模型相較于其他深度學(xué)習(xí)模型表現(xiàn)出了較強(qiáng)的泛化性,但整體還是有所下降,所以本小節(jié)在基于注意力機(jī)制對(duì)ResNet模型進(jìn)行優(yōu)化,來(lái)提高ResNet模型的泛化性。主要采用注意力模塊中的SENet和CBAM,構(gòu)建SE-ResNet模型和CBAM-ResNet模型。
通過(guò)t-SNE分布領(lǐng)域嵌入算法可以提取出的故障特征,降維至二維平面,并以散點(diǎn)圖的形式呈現(xiàn)。將未經(jīng)過(guò)時(shí)頻域處理的原始數(shù)據(jù)和經(jīng)過(guò)ResNet模型變換后的數(shù)據(jù)進(jìn)行可視化,降維可視化結(jié)果如圖15所示。從圖15中可以看出,ResNet模型具有出色的特征提取能力。
圖15 t-SNE可視化結(jié)果Fig.15 t-SNE visualization results
為了便于直觀地觀察優(yōu)化后的SE-ResNet模型和CBAM-ResNet模型的準(zhǔn)確率,本文還使用了混淆矩陣,通過(guò)混淆矩陣更加清晰的顯示測(cè)試集對(duì)滾動(dòng)軸承狀態(tài)的識(shí)別狀況,不同工況間的模型遷移結(jié)果如圖16、圖17和圖18所示。
圖16 0→735 W混淆矩陣圖Fig.16 0→735 W confusion matrix diagram
圖17 0→1 470 W混淆矩陣圖Fig.17 0→1 470 W confusion matrix
圖18 0→2 205 W混淆矩陣圖Fig.18 0→2 205 W confusion matrix
由混淆矩陣圖可以看出,在由工況0向其他3種工況遷移過(guò)程中,SE-ResNet模型和CBAM-ResNet模型出現(xiàn)標(biāo)簽識(shí)別錯(cuò)誤的次數(shù)很低。在測(cè)試速度(如圖19所示),本文提出的兩種模型的測(cè)試速度在9~10 s,相比較于ResNet模型相差不大,說(shuō)明兩種模型雖然加深了網(wǎng)絡(luò),但是整體沒(méi)有影響模型的運(yùn)算速度。在測(cè)試精度上(如圖20所示),SE-ResNet模型和CBAM-ResNet模型在向其他3種工況遷移的準(zhǔn)確率都高于ResNet模型遷移的準(zhǔn)確率,SE-ResNet模型和CBAM-ResNet模型測(cè)試準(zhǔn)確率分別高達(dá)99.71%和98.86%,都高于ResNet模型在同工況有訓(xùn)練集97.28%的準(zhǔn)確率,表現(xiàn)出比ResNet模型更高的準(zhǔn)確率和泛化性,起到了模型優(yōu)化的目的。
圖19 模型測(cè)試時(shí)間對(duì)比圖Fig.19 Model test time comparison diagram
圖20 模型優(yōu)化效果對(duì)比圖Fig.20 Comparison diagram of model optimization effect
針對(duì)滾動(dòng)軸承在不同工況環(huán)境中故障診斷訓(xùn)練時(shí)間長(zhǎng)、準(zhǔn)確率低和泛化性能能弱的問(wèn)題,提出了一種基于注意力機(jī)制改進(jìn)殘差神經(jīng)網(wǎng)絡(luò)的軸承故障診斷方法。得出的結(jié)論如下:
(1) 提出的ResNet比ResNet18模型具有更快的收斂速度。與其他3種常用的深度學(xué)習(xí)模型(LeNet,CNN和BiLSTM)相比無(wú)論是在同工況還是不同工況之間的模型遷移,ResNet模型的測(cè)試精度遠(yuǎn)遠(yuǎn)高于其他幾種深度學(xué)習(xí)模型。
(2) 對(duì)于模型的優(yōu)化,SE-ResNet模型和CBAM-ResNet模型雖然加深了網(wǎng)絡(luò),但測(cè)試速度相比較于ResNet模型變化不大。在測(cè)試的準(zhǔn)確率上,SE-ResNet模型在不同工況遷移的準(zhǔn)確率達(dá)到97.86%~99.71%,CBAM-ResNet模型在不同工況遷移的準(zhǔn)確率僅為97.14%~98.86%,高于ResNet模型在不同工況遷移的準(zhǔn)確率,而且大部分測(cè)試高于同工況有訓(xùn)練集的準(zhǔn)確率,表現(xiàn)出比ResNet模型更強(qiáng)的準(zhǔn)確率和泛化性,起到了模型優(yōu)化的目的。
(3) 基于注意力機(jī)制改進(jìn)殘差神經(jīng)網(wǎng)絡(luò)的算法實(shí)現(xiàn)了不同工況間的直接遷移,注意力機(jī)制的本身特點(diǎn)就是注意到有用的信息,拋棄無(wú)用的信息,雖然加深了網(wǎng)絡(luò),但不會(huì)減慢模型的運(yùn)算速度,而且在測(cè)試的準(zhǔn)確率上高于其他常用的深度學(xué)習(xí)算法不同工況的直接遷移和同工況有訓(xùn)練集的準(zhǔn)確率。