鄔春明,朱海潮 ,馬 欣 ,郭曉利
(東北電力大學 a.現(xiàn)代電力系統(tǒng)仿真控制與綠色電能新技術(shù)教育部重點實驗室,b.電氣工程學院,吉林 吉林 132012)
滾動軸承作為現(xiàn)代工業(yè)中廣泛使用的關鍵基本機械部件,由于工作條件復雜多變,容易出現(xiàn)各種形式的缺陷,影響機械設備的效率,產(chǎn)生經(jīng)濟損失,甚至威脅人身安全.因此,軸承故障診斷在工業(yè)領域具有重要意義[1].
傳統(tǒng)的軸承故障診斷方法主要采用小波變換、傅里葉變換等信號處理方法手動提取特征,然后使用SVM、隨機森林等機器學習方法進行故障識別,診斷結(jié)果依賴很強的專業(yè)背景和先驗知識.深度學習的發(fā)展,使得神經(jīng)網(wǎng)絡能夠自動提取特征,對專業(yè)知識依賴程度降低.在軸承故障診斷領域,包括自動編碼器、遞歸神經(jīng)網(wǎng)絡及卷積神經(jīng)網(wǎng)絡(Convolution Neural Network,CNN)等在內(nèi)的幾種深層網(wǎng)絡被廣泛應用,并取得了矚目的成果[2].然而,目前大多數(shù)基于深度學習的故障診斷算法都有個前提,即訓練和測試數(shù)據(jù)必須具有相同的概率分布,這要求設備必須恒工況運轉(zhuǎn),但在實際工業(yè)生產(chǎn)中,設備的運行工況復雜多變,很難保證這一前提,因此傳統(tǒng)深度學習方法對變工況軸承故障診斷力有未逮.
為解決上述問題,無監(jiān)督領域自適應[3]受到了廣泛關注,其通過學習源域和目標域的域不變特征,使得目標域在無標簽情況下,將從源域?qū)W到的分類器用到目標域,對目標域樣本進行分類.在軸承故障診斷領域,現(xiàn)有的域自適應方法大致可分為兩類.第一類是匹配統(tǒng)計矩的方法,通過使用不同分布測度的損失函數(shù),來減少域間差異,主要包括最大均值差異(Maximum Mean Discrepancy,MMD)[4],相關對 齊(Correlation Alignment,CORAL)[5]等.例 如,Lu 等[6]提出了一種領域自適應診斷方法,通過最小化最大均值差異來對齊兩個域,并使用權(quán)重正則化項來增強域不變特征.An 等[7]提出了一個基于MMD 的多層多核變量的診斷網(wǎng)絡,該方法用核函數(shù)法來代替高維特征的最大均值差異,使得來自不同域的特征在再生核希爾伯特空間中彼此接近,在保證診斷結(jié)果的穩(wěn)定性同時提高了診斷精度.第二類是基于對抗學習的方法,它由特征生成器、類別分類器和領域鑒別器組成.特征生成器用來學習領域無關的特征,將兩個領域的數(shù)據(jù)從原始的特征空間映射到一個共同的特征空間中.領域鑒別器用來判斷輸入的特征是來自哪個領域的,當鑒別器很難分辨時,說明特征提取器學到的特征具備了領域無關的特性.分類器負責將領域無關的特征映射到類別空 間,完成分 類任務.Wang 等[8]將領域 對抗網(wǎng) 絡(Domain-Adversarial Training of Neural Networks,DANN)引入跨域故障診斷,證明了在實際故障診斷環(huán)境中的適用性.Guo 等[9]結(jié)合MMD 與對抗性學習,并提出了一種深度卷積遷移網(wǎng)絡,用于軸承故障診斷.
盡管領域自適應方法在軸承故障診斷領域取得了一定的成就,但還存在一定局限性:域?qū)顾惴▋H僅只是全局對齊源域和目標域特征,沒有考慮特定的類別信息,特征和類別的聯(lián)合分布在數(shù)據(jù)域中沒有很好地對齊.因此,即使特征生成器經(jīng)過良好訓練,能夠?qū)W得源域和目標域樣本的領域不變特征,但因為分類器是在源域樣本上訓練的,不能很好地推廣到目標域樣本上.為解決上述問題,本文作者提出了一種兩級混淆域?qū)褂蜃赃m應網(wǎng)絡(Confusion Adversarial Domain Adaptation Network,CADAN)來進行跨域故障診斷,通過對抗性訓練,使特征和類別的聯(lián)合分布在數(shù)據(jù)域之間保持一致.CADAN 的診斷模型由一個源域任務分類器、一個目標域任務分類器、一個附加在它們之上的輔助分類器和一個特征提取器四個部分組成.通過附加的輔助分類器進行領域鑒別,構(gòu)建了類別級和領域級的兩級混淆損失,從而增強面向類別級的領域不變特征學習.通過在兩個軸承平臺上進行了大量的故障診斷實驗,對所提出的方法進行了評估,并與現(xiàn)有的診斷方法進行了比較.實驗結(jié)果表明,在變工況故障診斷任務中,CADAN 的性能遠遠優(yōu)于其他5 種方法.
本文主要研究基于無監(jiān)督域自適應的軸承故障診斷問題,其中標記數(shù)據(jù)只存在于源域,目標域中沒有標記數(shù)據(jù).假設源域為,其有ns個標簽樣本,目標域為,其有nt個無標簽樣本,這里x和y分別代表數(shù)據(jù)樣本和所對應的標簽.另外,對于源域和目標域,當數(shù)據(jù)來自不同的分布時,標簽空間是相同的,假設類別數(shù)都為K.本文的目標是建立一個生成網(wǎng)絡f=F(x)和分類器y=G(f),提取領域不變性和類別區(qū)分性特征,以最小化目標域分類風險ε(f)=其中E表示數(shù)學期望.
Ben[10]提出可以通過限制源域分類誤差和減小源域與目標域分布之間的距離來降低目標域分類誤差.而對抗學習能通過對抗訓練,減小不同域分布之間距離[11].在對抗域自適應方法中,對抗性損失函數(shù)有各種不同的可能選擇,文獻[12]中給出了一個總結(jié),這里只介紹與所研究內(nèi)容最相關的域混淆損失.
對抗域適應網(wǎng)絡通常包含特征提取器F,標簽分類器G和域鑒別器D.因為源域數(shù)據(jù)是帶標簽的,通過以下?lián)p失函數(shù),最小化源域分類誤差為
式中:Lcls是交叉熵損;I是指示函數(shù).
源域和目標域分布不同,如果直接將上式訓練的模型用在目標域,可能會導致在目標域中識別時性能降低.但可以直接訓練一個域鑒別器D,在特征提取器提取到不同域樣本的特征后,識別樣本是來自源域還是目標域,訓練損失函數(shù)如下
在給定D之后,通過施加域混淆損失,即計算域預測與域標簽的均勻分布之間的交叉熵,訓練特征提取器F以最大程度地“混淆”兩個域
綜上所述,基于混淆損失的領域?qū)咕W(wǎng)絡的優(yōu)化目標如下
如圖1 所示,CADAN 網(wǎng)絡框架包括特征發(fā)生器F(紅色)、源任務分類器Gs(黃色)、目標任務分類器Gt(綠色)、輔助分類器Gst(藍色)以及相應的損失函數(shù),具體訓練目標損失函數(shù)見第2.2節(jié).為了有效地提取特征,減少復雜的信號預處理算法設計,采用一維卷積網(wǎng)絡作為特征提取器,直接對原始機械信號進行處理.網(wǎng)絡的具體結(jié)構(gòu)如表1 所示,16-11×1 表示當前卷積層有16 個11×1 大小的卷積核;Pad 為零填充運算;BN 為批量歸一化;ReLU 表示所使用的激活函數(shù).在CADAN 中,不同域中的類別數(shù)目相同,因此Gs和Gt最后一層全連接層神經(jīng)元個數(shù)相同,假設其為K.給網(wǎng)絡一個輸入x,有as(x)=Gs(F(x)),at(x)=Gt(F(x)),其分別表示分類器Gs和Gt最后一層全連接層的輸出 .ps(x)=softmax(as(x)),pt(x)=softmax(at(x))為經(jīng)過softmax 操作后的輸出.對于輔助分類器Gst,其設計思路如下,給定輸入x,分類器Gs和Gt最后一層全連接層會輸出向量as(x)∈RK和at(x)∈RK,將其拼接成向量[as(x);at(x)]∈R2K,然后使用softmax 函數(shù),得到概率向量pst(x)∈[0,1]2K,即Gst(F(x))=pst(x).為了方便后續(xù)損失函數(shù)書寫,用(x)k∈{1,…,K}表示ps(x)的第k個元素,其中Gs(F(x))=ps(x),同理有需要 說明的是,在CADAN 設計中沒有顯式的域判別器.域判別和域混淆都是通過對分類器Gst施加適當?shù)膿p失來實現(xiàn)的.
表1 CADAN 網(wǎng)絡具體結(jié)構(gòu)Tab.1 Structure of the proposed model
圖1 CADAN 網(wǎng)絡框架Fig.1 The architecture of CADAN
2.2.1 分類器學習
本文采用帶標簽的源域樣本上的標準交叉熵損失來訓練分類器Gs,損失函數(shù)可以定義為
對于目標域分類器Gt,因為目標樣本沒有被標記,不能直接使用它們來訓練.想法是利用帶標簽的源樣本,并使用以下交叉熵損失進行訓練
初看之下,似乎Gt和Gs都是用源域數(shù)據(jù)進行監(jiān)督學習的,Gt的學習和Gs一樣.然而,通過Gst進行域鑒別訓練將會使它們區(qū)別開來.事實上,使用(6)可以在Gs和Gt之間建立神經(jīng)元級的對應關系,這為實現(xiàn)第2.2.3 節(jié)中提出的類別級域混淆提供了基礎.同時,使用式(6),通過帶標簽的源域樣本訓練Gt也為其能更準確的分類目標域樣本奠定基礎.
2.2.2 域鑒別器學習
Gs和Gt都使用帶標簽的源域樣本進行訓練,為了區(qū)分它們,利用輔助分類器Gst,并使用以下交叉熵損失來學習Gst
理想情況下,損失函數(shù)(5)、(6)和(7)的組合,不但使Gst前K個神經(jīng)元和后K個神經(jīng)元都具有很好的分類能力,而且還讓兩組神經(jīng)元有區(qū)分性.例如,對于第K 類的源域樣本xs,Gs和Gt都傾向于對其類別做出準確的預測,而對于Gst,由于使用損失函數(shù)(7)的概率將大于同理,對于第K類的目標域樣本xt,Gs和Gt也都傾向于對其所屬類別做出準確的預測,而對于的概率將大于.
2.2.3 兩級域混淆損失
在CADAN 中,采用對抗訓練的策略來學習特征提取器F,設計了域級混淆損失函數(shù)和類別級混淆損失函數(shù),最大程度地“混淆”源域和目標域,使特征和類別的聯(lián)合分布在兩個域之間對齊.
因為兩個域的全局混淆不需要標簽信息,因此本文使用未標記的目標域樣本來構(gòu)建全局混淆損失.對于一個目標域樣本,使用Gst中前K個和后K個神經(jīng)元,讓這兩組神經(jīng)元各自的預測結(jié)果之和與均勻分布[]之間的交叉熵作為損失,學習特征提取器F如下
在F上最小化式(9),使得其輸出盡可能滿足就能使得域鑒別器無法判別特征生成器生成的特征是源域樣本特征還是目標域樣本特征,從而實現(xiàn)兩個域的全局對齊.
2.2.4 總目標函數(shù)
結(jié)合損失函數(shù)(5)、(6)和(7)來更新所有分類器,類別級混淆損失(8)和域級全局混淆損失(9)來更新特征生成器F,CADAN 網(wǎng)絡的整體優(yōu)化目標如下
這些損失很容易在標準的深度學習框架中實現(xiàn),在適當?shù)卦O置學習率以便等式(10)僅更新G的參數(shù),等式(11)僅更新F的參數(shù)之后,可以通過標準反向傳播來執(zhí)行參數(shù)更新,總之,通過以上損失確保生成的特征在兩個域的相應類別對齊.
數(shù)據(jù)集一采用美國凱斯西儲大學(CWRU)的軸承數(shù)據(jù) 集[14].數(shù)據(jù)是 在1 797 r/min/0 hp、1 772 r/min/1 hp、1 750 r/min/2 hp 和1 730 r/min/3 hp 四種工況下采集的,四種工況(A0、A1、A2、A3)可以建立12個遷移場景(A0→A1、A0→A2、A0→A3,A1→A0,A1→A2、A1→A3,A2→A0,A2→A1、A2→A3,A3→A0、A3→A1、A3→A2).本文使用的數(shù)據(jù)采樣頻率為12kHz.此數(shù)據(jù)中有4 種不同健康狀況的軸承,包括正常狀況(NC)、內(nèi)圈故障(IF)、外圈故障(OF)和滾子故障(RF),每種故障類型有三種不同的嚴重程度,即7、14和21 mil(1 mil=0.177 8 mm).因此,使用該數(shù)據(jù)可以形成10 個類別,即NC、IF-07、IF-14、IF-21、OF-07、OF-14、OF-21、RF-07、RF-14、RF-21.其中每個類別有500 個樣本,每個樣本由1024 個數(shù)據(jù)點組成,訓練樣本和測試樣本劃分比例為7∶3.
數(shù)據(jù)集二是帕德伯恩大學(PU)的軸承數(shù)據(jù)集[15].本文選取了5 種故障模式用于測試和分析,故障模式包括正常(NC)、外圈臨界損傷(OR-L)、外圈損傷(OR-H)、內(nèi)圈臨界損傷(IR-L)內(nèi)圈損傷(IR-H).另外,如表2 所示,該實驗是在四種工況下進行的.可以形成12 個遷移診斷場景(B0→B1、B0→B2、B0→B3,B1→B0,B1→B2、B1→B3,B2→B0,B2→B1、B2→B3,B3→B0、B3→B1、B3→B2).在測試中,每類的軸承故障在每種工況下有1500 個樣本,每個樣本由1024 個點組成,訓練樣本和測試樣本劃分比例為7∶3.
表2 PU 數(shù)據(jù)集不同工況信息Tab.2 The information of PU working conditions
為更全面的評價,選擇了傳統(tǒng)深度學習方法CNN 和4 種深度領域自適應網(wǎng)絡MMD、CORAL、DANN、MCD[16]進行對比分析.本文方法CADAN和DANN 用Adam 算法訓練,CNN、MMD、MCD、CORAL 使用隨機梯度下降訓練.所有方法訓練迭代200 次,batch size 大小為64.
表3 顯示了12 組CWRU 軸承診斷任務的實驗結(jié)果.在五種比較方法中,領域自適應的方法優(yōu)于傳統(tǒng)深度學習方法.DANN、CORAL 和MMD 只對齊全局分布,平均識別率分別為94.06%、95.95%和96.64%.MCD 不僅考慮了全局分布的對齊,還考慮了決策邊界的模糊性,識別準確率為97.62%.CADAN 在全局對齊基礎上進行了更細粒度的類別對齊,促使特征生成器學習到更多可遷移特征,使得平均準確率達到99.04%.此外,CORAL、DANN 在不同的任務中有很大的差異,特別是A0-A1、A0-A3任務的準確率明顯低于其他任務.相比之下,CADAN 可以在各種遷移任務中獲得比較魯棒結(jié)果.總的來說,這些實驗結(jié)果表明了本文所提出方法的有效性和優(yōu)越性.
表3 CWRU 數(shù)據(jù)集測試準確率Tab.3 Accuracy on CWRU dataset %
更進一步,本文通過混淆矩陣來進行較為詳細的各個類別的分類性能分析.隨機選取任務A0-A3,計算出CADAN 和精度較高的4 種方法(MCD、CORAL、MMD、DANN)的混淆矩陣.結(jié)果如圖2所示,從中可以看出,MMD、CORAL 和DANN 在RF-21 類中存在較大的分類錯誤,特別是DANN,其準確率僅僅為23%,錯誤地將RF-21 故障識別為RF-14 或 者RF-7.此 外,DANN 在IF-14 類中準 確率為57%,將大多數(shù)IF-14 樣本識別為OF-21 樣本.與此相 反,CADAN 對RF-21 和IF-4 故障樣 本的識別準確率達到100%.以上結(jié)果表明,與僅全局域?qū)R的方法相比,CADAN 進行更細粒度的類級對齊,可以更好地分類目標域中更難區(qū)分的類別,在復雜的診斷場景中具有更準確的診斷結(jié)果.
圖2 CWRU 混淆矩陣Fig.2 Confusion matrix on CWRU
此外,本文繪制了6 種方法在任務A0-A3的測試誤差曲線,如圖3 所示,可以觀察到6 種方法都表現(xiàn)出相對滿意的收斂性能,但本文所提出的方法測試誤差明顯更低,曲線也更平滑.其他比較方法的測試誤差曲線雖然呈現(xiàn)水平收斂趨勢,但存在較大的波動和分類誤差.該圖清楚地表明,本文所提出方法在故障診斷中訓練更穩(wěn)定,結(jié)果更準確.
圖3 CWRU 數(shù)據(jù)集測試誤差曲線圖Fig.3 Test error for all methods on CWRU
最后,為了進一步展示CADAN 的性能,利用t-SNE 技術(shù)對CADAN 和精度較高的四種方法特征生成器生成的特征進行可視化.在診斷任務A0-A3下的二維可視化結(jié)果如圖4 所示,其中不同的顏色表示不同的類別.可以看出,CADAN 不僅能將兩個領域的類別對齊,而且還能很好地區(qū)分開各種不同的故障模式.相反,其他比較方法中僅僅進行了全局對齊,源特征和目標特征在對應的類別上沒有很好的對齊.可視化的特征圖直觀地證明了CADAN能夠獲得最佳的特征學習和分類能力.
圖4 CWRU 特征可視化Fig.4 Visualization of learned features on CWRU
PU 數(shù)據(jù)集分類結(jié)果如表4 所示.與未域適應的CNN 相比,CADAN 獲得了大約27%的準確率提升.與DANN、CORAL、MMD 三種只對齊全局分布,未進行類別對齊的方法相比,CADAN 診斷精度分別提高約17%、6%、7%.與對齊了全局分布,并考慮到分類器邊界模糊性的MCD 相比,CADAN 診斷精度提高了2.44%.以上所有的結(jié)果都證明了CADAN 在變工故障診斷中的有效性和優(yōu)越性.
表4 PU 數(shù)據(jù)集的測試準確率Tab.4 Accuracy on PU dataset %
本文用用t-SNE 對任務B3-B0特征生成器輸出的特征圖進行可視化,從圖5 可以清楚地觀察到,對于本文所提出的方法來說,兩個域在相應的類別上很好地對齊,因此CADAN 可以減少域之間的差異,學習更細粒度的域不變特征.相反,在其他的比較方法中,兩個領域在相應類別上沒有很好的對齊,并且在類別之間可以觀察到很多混淆.總之,這些特征圖直觀體現(xiàn)了本文所提出方法的故障識別能力.
圖5 PU 上學習特征的可視化Fig.5 Visualization of learned features on PU
1)提出了一種新的變工況軸承故障診斷方法CADAN,與傳統(tǒng)領域自適應方法只進行兩個域特征的全局對齊相比,該方法使特征和類別的聯(lián)合分布在域間保持一致,即實現(xiàn)了兩個域之間各個類別的對齊.
2)為了訓練CADAN,提出了一種新的對抗性學習目標函數(shù).在輔助分類器上實現(xiàn)域級和類級混淆損失,通過對抗訓練驅(qū)動特征生成器生成更細粒度的類別對齊特征,提高診斷準確率.
3)CWRU 和PU 兩個數(shù)據(jù)集的結(jié)果表明,與深度學習方法CNN 和4 種領域自適應方法相比,本文所提出的方法在變工況軸承故障診斷任務中準確率最高,證明了其有效性.