宋旭東,朱大杰,楊杰,叢郁洋
(大連交通大學 計算機與通信工程學院,遼寧 大連 116028)
目前研究人員已經(jīng)開始使用深度學習方法進行機械設備故障診斷[1].深度學習解決了傳統(tǒng)故障診斷方法存在的問題,它能直接從源域數(shù)據(jù)中提取有價值的特征,不需要再過度依賴專家對故障數(shù)據(jù)處理的經(jīng)驗.但是,利用常規(guī)的深度學習進行故障診斷需要滿足一些前提條件,首先就是要對源數(shù)據(jù)做一個比較復雜的數(shù)據(jù)預處理,其次就是訓練網(wǎng)絡模型需要大量的故障數(shù)據(jù).但是在變負載工況條件下,故障數(shù)據(jù)獲取困難,導致故障診斷模型準確率不高、存在過擬合以及泛化能力較弱等問題.近幾年,基于遷移學習的故障診斷受到了學術(shù)界的青睞,它可以將之前學習到的知識運用到當前任務當中,以此來實現(xiàn)對目標數(shù)據(jù)的分類.遷移學習可以不要求源域數(shù)據(jù)與目標域數(shù)據(jù)是獨立同分布的,它可以減少在新任務中對所要處理的數(shù)據(jù)進行重新打標簽所帶來的時間以及其他經(jīng)濟成本.趙宇凱等將VGG16卷積神經(jīng)網(wǎng)絡和遷移學習相結(jié)合,保留了網(wǎng)絡的低層權(quán)重,并用目標域數(shù)據(jù)對高層權(quán)重進行微調(diào),提出了一種新的故障診斷方法[2];吳定會等將一維卷積神經(jīng)網(wǎng)絡和雙向門限單元進行結(jié)合,提出了一種新的遷移學習方法[3];Wang等提出了一種基于ResNet的遷移學習方法[4];Han等將數(shù)據(jù)增強運用于卷積神經(jīng)網(wǎng)絡,提出一種新的遷移學習方法[5];胡明武提出了一種基于K近鄰算法的變負載軸承故障診斷模型[6];劉布宇運用卷積神經(jīng)網(wǎng)絡進行變負載下軸承故障診斷[7].現(xiàn)有的基于深度學習的遷移學習方法雖然能夠?qū)崿F(xiàn)變工況下的軸承故障診斷,但是過擬合現(xiàn)象仍未得到很好解決,從而導致模型的泛化能力不高.
本文通過L2正則化遷移學習抑制模型過擬合,引入長短期記憶網(wǎng)絡(Long Short-Term Memory, LSTM)進行故障診斷模型訓練,最后利用少量目標域數(shù)據(jù)進行模型參數(shù)微調(diào),最終構(gòu)建基于L2正則化遷移學習的變負載工況下故障診斷模型.
正則化遷移學習是用來提高模型準確率,抑制過擬合,增強模型泛化能力,實現(xiàn)模型遷移的一種機器學習方法[8].L2正則化策略通過向目標函數(shù)添加如下正則項:
(1)
其中,w為權(quán)重參數(shù).通過式(1)可知,L2正則化為各個權(quán)重參數(shù)的平方和.
相對其他正則化方法,L2正則化不會忽略特征,L2正則化通過對權(quán)重收縮來抑制權(quán)重過大,能獲取帶有更小參數(shù)的更簡單的模型,所以本文選擇L2正則化.
現(xiàn)有深度學習方法主要包括:循環(huán)神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡和深度置信網(wǎng)絡.循環(huán)神經(jīng)網(wǎng)絡有著更為精細的信息傳遞機制,LSTM作為循環(huán)神經(jīng)網(wǎng)絡最為典型的一種網(wǎng)絡結(jié)構(gòu),能夠有效地解決大量數(shù)據(jù)長時間的依賴問題和數(shù)據(jù)序列過長導致的梯度爆炸問題,因此本文選擇LSTM網(wǎng)絡.
長短期記憶網(wǎng)絡結(jié)構(gòu)如圖1所示.
圖1 長短期記憶網(wǎng)絡結(jié)構(gòu)圖
長短期記憶網(wǎng)絡前向計算方法如下:
通過引入L2正則化來達到變負載工況條件下的故障模型參數(shù)遷移,并通過采用長短期記憶網(wǎng)絡進行故障診斷模型訓練.
變工況條件下的故障診斷方法如圖2所示,給出了基于L2正則化遷移學習和長短期記憶網(wǎng)絡的變負載工況條件下的故障診斷流程,具體包括三個階段:①模型預訓練,對應流程圖左側(cè)進行的訓練;②模型參數(shù)遷移;③目標域模型訓練,對應流程圖右側(cè)進行的訓練.
圖2 變負載工況下故障診斷流程
引入L2正則化項后的故障診斷模型的目標函數(shù)可定義如下:
(8)
基于L2正則化遷移學習能夠較好地抑制過擬合,具有較高的泛化能力,可通過研究正則化后目標函數(shù)的梯度觀察L2正則化的表現(xiàn).
目標函數(shù)對應的梯度為:
(9)
權(quán)重更新公式如下:
(10)
化簡之后為:
(11)
模型預訓練階段可通過在源域中加入少量目標域的數(shù)據(jù),對模型進行長短期記憶網(wǎng)絡預訓練,之后將訓練好的模型參數(shù)遷移到目標域中,目標域模型訓練階段可利用少量目標域數(shù)據(jù),利用長短期記憶網(wǎng)絡對模型參數(shù)進行微調(diào),最終構(gòu)建具有一定泛化能力的故障診斷模型,模型診斷結(jié)果通過Softmax進行故障分類,Softmax公式如下:
(12)
式中,yk代表第K個神經(jīng)元的輸出,共有n個神經(jīng)元,zi代表第i個神經(jīng)元的輸入信號.
本文采用美國凱斯西儲大學(CWRU)的滾動軸承數(shù)據(jù)集進行實驗,實驗平臺主要由一個1.5 kW的電動機、一個扭矩傳感器/譯碼器、一個功率測試計以及電子控制器等設備組成.CWRU將加工過的故障軸承重新裝入測試電機中,分別在0、1、2和3 HP(HP是負載的單位,即馬力)的電機負載工況工作條件下記錄振動加速度信號數(shù)據(jù).
本文所用的源域數(shù)據(jù)和目標域數(shù)據(jù)均為CWRU的滾動軸承數(shù)據(jù)集,故障數(shù)據(jù)集是在采樣頻率為12 kHz的驅(qū)動端處產(chǎn)生,源域數(shù)據(jù)和目標域數(shù)據(jù)來自不同的負載,源域數(shù)據(jù)為1 HP的數(shù)據(jù)樣本集,目標域數(shù)據(jù)為2 HP的數(shù)據(jù)樣本集,故障的位置分為外圈故障、內(nèi)圈故障以及滾動體故障,故障的直徑為0.177 8、0.355 6以及0.533 4 mm.在預訓練階段,總的訓練樣本個數(shù)為7 000,其中源域數(shù)據(jù)樣本個數(shù)為6 000, 目 標 域 樣 本 個 數(shù) 為
1 000.每個樣本數(shù)據(jù)點為864.
本文實驗是基于Python語言,采用以TensorFlow為后端的Keras庫實現(xiàn),計算機硬件基本配置為i7-8750H處理器,8 GB內(nèi)存,Windows系統(tǒng).
對比引入L2正則化遷移學習前后的長短期記憶網(wǎng)絡故障診斷模型,觀察模型實驗結(jié)果,實驗結(jié)果如圖3所示.
(a) 未加入L2正則化遷移學習
從圖中可以看出,加入L2正則化遷移學習后的長短期記憶網(wǎng)絡故障診斷模型和不加入正則化的診斷模型相比訓練數(shù)據(jù)的識別精度和測試數(shù)據(jù)
的識別精度差距縮小了,而且通過增加訓練次數(shù),加入正則化后的模型在測試數(shù)據(jù)上的準確率也要高于未加入正則化的模型.通過以上實驗說明加入L2正則化后過擬合受到了抑制,模型的泛化能力得到了提升.
將本文所用的L2正則化方法與其他抑制過擬合方法進行對比,實驗結(jié)果如表1所示.
表1 不同抑制過擬合方法實驗對比結(jié)果
通過表1 可知,本文運用L2正則化進行遷移學習軸承故障診斷的準確率和損失率要好于其他兩種抑制過擬合的方法.
表1評價指標中的準確率是分類正確的樣本數(shù)量與整組樣本數(shù)量的比值,公式如下所示:
(13)
式中,n是分類正確的樣本數(shù)量,N是整組樣本數(shù)量.
損失率評價指標采用小批量交叉熵誤差損失函數(shù),公式如下所示:
(14)
式中,M是小批量數(shù)據(jù)的個數(shù),pmi是正確解標簽,代表的是監(jiān)督數(shù)據(jù),表示第m個數(shù)據(jù)中的第i個元素的值,ymi是神經(jīng)網(wǎng)絡的輸出.
將加入L2正則化的長短期記憶網(wǎng)絡故障診斷模型(L2正則化LSTM)與常規(guī)深度學習模型,包括長短期記憶網(wǎng)絡(LSTM)、門控循環(huán)單元(GRU)以及雙向長短期記憶網(wǎng)絡(Bi-LSTM)進行遷移學習模型故障診斷準確率的對比,源域數(shù)據(jù)為1 HP,目標域數(shù)據(jù)為2 HP,實驗結(jié)果如表2所示.
表2 不同模型的遷移學習準確率對比結(jié)果
對于加入L2正則化的LSTM,模型的泛化能力得到了提高,過擬合得到了抑制,進而提高了模型準確率,而其他3個模型泛化能力不高且易發(fā)生過擬合,在變負載工況條件下,訓練數(shù)據(jù)的識別精度和測試數(shù)據(jù)的識別精度差距會放大,所以準確率不如本文所提出的方法高.
同時,將本文所提出的診斷方法與文獻[6]中的深度遷移學習的變工況下滾動軸承故障診斷方法進行對比,文獻[6]中的12種變工況的診斷方法中準確率最高為92.9%,低于本文所提出方法的準確率;文獻[7]中運用卷積神經(jīng)網(wǎng)絡進行變工況下的軸承故障診斷,遷移之后的準確率為81%左右,要遠遠低于本文所提出的方法,進一步驗證了本文方法的有效性.
另外,針對不同數(shù)量的目標域樣本進行模型對比實驗,利用本文所提出的加入L2正則化遷移學習的長短期記憶網(wǎng)絡故障診斷模型與前面提到的三種常規(guī)深度學習故障診斷模型進行實驗對比,觀察不同目標樣本數(shù)下的準確率,實驗結(jié)果如圖4所示.
圖4 不同目標樣本數(shù)下的實驗對比
由圖4可知,在不同目標樣本數(shù)下利用上述四種網(wǎng)絡模型進行遷移學習軸承故障診斷的準確率整體呈上升趨勢,并且本文所提出的加入L2正則化遷移學習的長短期記憶網(wǎng)絡故障診斷模型的準確率要明顯高于其他三種,進一步驗證了本文所提方法的有效性.
本文通過引入L2正則化來抑制模型過擬合、提升模型的泛化能力,進而實現(xiàn)模型參數(shù)遷移目的.針對變負載工況條件下的故障診斷應用需求,提出的一種基于L2正則化遷移學習的故障診斷方法,通過模型實驗驗證了所提出的方法對變負載工況條件下的故障診斷具有較高的準確性,具有較好的抑制過擬合和模型泛化能力.提出的方法能夠很好地應用于機械設備故障數(shù)據(jù)量少、故障數(shù)據(jù)難以獲取等實際應用場景,提出的方法具有一定實際意義和應用價值.