張永宏, 邵 凡, 趙曉平, 王麗華, 呂凱揚, 張中洋
(1.南京信息工程大學 自動化學院,南京 210044;2.南京信息工程大學 計算機與軟件學院,南京 210044;3.南京信息工程大學 江蘇省網絡監(jiān)控中心,南京 210044)
滾動軸承是旋轉機械中的重要部件,隨著現代機械儀器、設備向高速和精密方向發(fā)展,對滾動軸承的可靠性要求愈來愈高。但實際工業(yè)場景中,滾動軸承因載荷大、沖擊強等惡劣工況,極易產生故障。相較于實驗室流程操作所產生的固定故障類型,工業(yè)場景下滾動軸承的故障類型復雜多樣[1]。利用已有的狀態(tài)監(jiān)控數據,如何識別無歷史記錄的故障類型(即未見類故障)、提高未見類故障識別的準確性成為研究難點,具有顯著的工程應用價值和需求。
本文重點關注在不停機檢查的情況下,依靠現有類型固定的故障數據,完成工業(yè)場景中未見類軸承故障的識別。這種故障診斷方式在沒有目標故障類型樣本的條件下完成,擺脫了對共享故障類型的依賴,因此零樣本故障診斷更接近工程應用場景的實際情況。由于實際應用場景的制約,與一般的故障識別相比,零樣本故障識別具有以下特點:①參與測試的目標故障(未見類故障)和參與模型訓練的故障(可見類故障)在故障類型上沒有交集;②識別結果具有較好的泛化性,能夠真正擴展到實際工業(yè)場景中;③識別模型適用場景廣泛,且無需反復進行模型參數重設和模型優(yōu)化。
此外,本文還關注高效的模型設計,在減少模型參數的同時保持其性能,即模型輕量化。卷積核分解是一種常用的輕量化方法,如GhostNet[2]使用Ghost模塊替換卷積層,減少了計算成本,Xception[3]、MobileNet[4]和MBDS-CNN[5]均使用深度可分離卷積代替標準卷積以實現輕量化。模型輕量化具有以下優(yōu)勢:①模型對內存和處理器性能的要求低;②分布式訓練中的數據交換少;③適應更廣泛的嵌入式、移動端設備。
當前,數據驅動的故障診斷方法已經成功運用于機械故障診斷[6],包括自動編碼器[7-8]、卷積神經網絡[9-10]和深度置信網絡[11]等。但是,上述方法依賴于大量訓練數據以優(yōu)化模型,而實際工程場景中的帶標簽數據難以獲取。近年來,為了克服實際工程場景中故障樣本采集的困難,基于深度遷移學習的方法被廣泛應用,其基本流程是從易獲取的故障數據(源域)中學習知識,幫助識別難以采集或采集代價高昂的故障(目標域)[12-13]。雷亞國等[14]將殘差網絡與最大均值差異項、偽標記學習結合,提出了一種無需目標故障樣本標記信息的高精度遷移學習方法。Lu等[15]提出域自適應模型,完成了變工況下的滾動軸承診斷任務。此外,還有學者構建了基于生成對抗思想[16-17]和實例[18]的遷移學習模型。盡管深度遷移學習方法不需要來自目標域的帶標簽樣本,但其重點解決的是源域和目標域的域偏移問題,前提是源域與目標域具有標簽相同的故障。然而本文考慮的零樣本問題在源域和目標域沒有標簽上的交集,因此,深度遷移學習不符合零樣本的要求。
綜合上述分析,本文引入零樣本學習(zero-shot learning, ZSL)方法以解決零樣本條件下未見類故障的識別問題。ZSL方法僅將可見類樣本用作訓練數據,實現對未見類的分類。Lampert等[19]首次提出ZSL的概念,對毫無關聯(lián)的訓練集和測試集完成了對象檢測,提出了直接屬性預測(direct attribute prediction, DAP)方法,利用非線性支持向量機來學習屬性,再使用訓練好的支持向量機預測未見類樣本的屬性。此外,Lampert等[20]還提出了間接從標簽中學習屬性的間接屬性預測(indirect attribute prediction, IAP)方法。為了將可見類中學習到的投影函數更好地推廣到未見類中,Kodirov等[21]提出了語義自編碼器(semantic autoencoder, SAE),編碼器將全局視覺特征向量投影到語義空間中,通過優(yōu)化解碼器重構原始視覺特征給網絡施加約束,提升了識別精度。在故障診斷領域,GAO等[22]提出了基于壓縮堆疊自編碼器的零樣本學習方法,使用已知工況下的數據訓練模型,成功診斷出未知工作負載下的軸承故障。但該方法未能將故障信號的特征投影到高維屬性空間,本質上沒有突破類別邊界,不符合零樣本的要求。FENG等[23]針對零樣本條件下的工業(yè)故障診斷任務,定義了有別于圖像識別領域的輔助信息即故障屬性(故障的原因、位置、影響等),其試驗結果驗證了零樣本條件下故障診斷的可行性,但該方法未考慮各故障屬性之間的相關性。
針對以上不足,為了實現零樣本條件下未見類軸承故障的診斷,本文提出了MLZSL故障診斷方法。首先,對振動信號做短時傅里葉變換并劃分訓練集(可見類)和測試集(未見類);其次,構建輕量化特征提取模型RDSCNN,提取可見類和未見類各樣本的特征;然后將可見類樣本的特征用于訓練多標簽屬性學習網絡,再識別未見類樣本的屬性;最后計算屬性向量與各屬性標簽的余弦距離,完成對未見類軸承故障的診斷。試驗顯示,MLZSL方法相較于經典的零樣本方法(DAP、IAP、SAE)取得了更準確的診斷結果。
RDSCNN特征提取模型中結合了殘差學習機制和深度可分離卷積層,相關理論介紹如下。
在深度神經網絡中,理論上網絡的層數越深,其輸出的特征表示能力越強。但隨著深度的不斷增加,網絡會發(fā)生退化,準確率也隨之下降。He等[24]所提出的殘差卷積神經網絡(residual neural network, ResNet)引入殘差模塊解決了網絡退化問題,殘差學習模塊的結構如圖1所示。
圖1 殘差學習模塊結構Fig.1 Structure of residual learning module
殘差模塊在從輸入到輸出的單一映射基礎上添加了來自輸入的跳躍連接[25],將淺層的輸出加到深層的輸出上,最終輸出如下
H(x)=F(x)+x
(1)
式中:x為上一層的輸出;H(x)為殘差模塊的輸出;F(x)為對x的線性或非線性調整。若淺層輸出x已經提供足夠完備的特征,以致對特征x的任意改變都會增加損失時,F(x)將不做任何學習,整個模塊相當于恒等映射,由此改變網絡的前向和后向傳遞方式,對網絡加深起到優(yōu)化作用。
深度可分離卷積由深度卷積和逐點卷積兩個過程組成。在深度卷積過程中,每次卷積只在單個通道上進行,輸出與輸入具有相同通道數量的特征圖;在逐點卷積過程中,對深度卷積過程輸出的特征圖做1×1卷積,重復該過程n次即可增加輸出通道數至n層,其具體操作如圖2所示。
圖2 深度可分離卷積結構Fig.2 Structure of depthwise separable convolution
假設輸入圖片大小為m×m×3,欲輸出通道為n的特征圖,使用傳統(tǒng)卷積需要n個k×k×3的卷積核移動(m-k+1)2次,總體運算次數如下
3nk2(m-k+1)2
(2)
使用深度可分離卷積進行運算時,在深度卷積過
程中3個k×k×1的卷積核移動(m-k+1)2次;在逐點卷積過程中n個1×1×3的卷積核移動(m-k+1)2次。深度可分離卷積總體運算次數如下
3(k2+n)(m-k+1)2
(3)
整體而言,本文所提出的MLZSL方法包括特征提取和屬性學習兩個階段。其中,特征提取階段的核心任務是RDSCNN模型的構建和使用;屬性學習階段通過搭建多標簽屬性學習網絡,直接從樣本特征中學習故障屬性并完成未見類樣本的診斷。
深度神經網絡能夠提取海量數據中的抽象特征,為了充分發(fā)揮深度神經網絡的特征提取能力,同時加速模型收斂和避免網絡退化問題,本文提出了RDSCNN模型。模型主要由深度可分離卷積層、卷積層、最大池化層、平均池化層、全連接層以及殘差連接組成,如圖3所示。RDSCNN模型以三通道的時頻圖像作為輸入,通過卷積層和深度可分離卷積層不斷優(yōu)化特征,加入殘差連接減少特征損失,設置卷積層和池化層步長以下采樣方式減小空間維度,最終由全連接層輸出一維特征。模型采用Relu作為非線性激活函數,加快模型訓練速度。 為了防止模型出現梯度消失的問題,對每一層卷積運算的結果做批量歸一化處理,使其符合標準的正態(tài)分布,消除層與層之間的量級差異。
圖3 特征提取網絡Fig.3 Feature extraction network
RDSCNN模型在試驗中分為模型訓練和特征提取兩個階段。在模型訓練階段,首先將模型與Softmax函數組合,訓練集數據由正向傳播經過模型各層和Softmax函數運算到達類輸出層,然后將輸出結果代入交叉熵損失函數如式(4)所示。
(4)
在特征提取階段,采用已經訓練好的RDSCNN模型對整個數據集進行特征提取,在特征層得到數據的低維特征向量表示。
總體而言,RDSCNN模型具有輕量化的網絡結構,模型結合了深度可分離卷積、非線性激活函數Relu和殘差學習機制等,使得參數量大大降低、收斂速度更快、訓練時間更短,在保留特征信息的同時降低了數據維度,加速了后續(xù)的屬性學習過程。
本文提出的多標簽屬性學習網絡旨在學習樣本特征中的故障屬性,構造可見類和未見類故障特征在高維屬性空間的嵌入,最終實現故障的診斷。
本文提供了滾動軸承故障的細粒度屬性描述,其主要基于滾動軸承故障的損傷程度(7 mil、14 mil、21 mil)、工作負載(0、1 hp、2 hp)和損傷位置(滾子B、內圈IR、外圈OR),如表1所示。依據故障類別yi是否擁有各個細粒度屬性可以得到一個與之對應的9維二值屬性矢量Ai。
表1 滾動軸承故障屬性Tab.1 Rolling bearing fault attributes
每個故障特征xi對應一個9維的屬性矢量Ai,即一個實例樣本擁有多個標簽,因此,本文將屬性矢量的學習過程看作一個具有9個標簽的多標簽分類問題,其多標簽屬性空間為29。為了應對輸出空間復雜度的指數性增長,本文挖掘了標簽之間的相關性,將屬性矢量A依據屬性描述的類別作互斥屬性切分,得到三個細分屬性矢量a、b、c,與屬性描述對應,即原屬性矢量A=concat(a,b,c),將輸出空間減少為3×23,大大降低了屬性學習難度。
多標簽屬性學習網絡有監(jiān)督地為每個細分屬性矢量構造一個屬性學習器,分別記為F1,F2和F3。在測試階段,使用這些屬性學習器對每一個未見類樣本預測細分屬性矢量。三個屬性學習器的映射關系如圖4所示。
圖4 屬性學習器映射關系Fig.4 Mapping of attribute learners
以屬性學習器F1為例,從故障特征xi到細分屬性矢量ai的推理過程可表示為f:xi→ai,本文通過搭建全連接神經網絡實現該推理過程,網絡結構如圖5所示。
圖5 屬性學習器F1網絡結構Fig.5 Architecture of attribute learner F1
(5)
(6)
對得到的細分屬性矢量完成拼接,計算其與各故障屬性標簽的余弦距離如式(7)所示,最終取距離最近的故障標簽作為其預測標簽yu。
(7)
整體上,多標簽屬性學習網絡由三個屬性學習器F1、F2和F3組成,各屬性學習器分別學習一組細分屬性矢量,組合得到樣本的預測屬性標簽,最終推導得出樣本的故障類別。
基于MLZSL方法的故障診斷流程如圖6所示,主要包含故障信號預處理、特征提取和屬性學習三個階段,各階段的具體步驟如下。
圖6 MLZSL故障診斷流程Fig.6 MLZSL fault diagnosis process
故障信號預處理階段:對采集得到的故障信號數據做預處理。首先將每一類的信號序列數據切分成一定數量的樣本;然后對所有信號樣本做短時傅里葉變換,得到維數為64×64×3的時頻圖數據集;最后按照數據的類別標簽將其劃分為訓練集(可見類)和測試集(未見類)。
特征提取階段:構建RDSCNN模型對所有樣本完成特征提取。首先組合RDSCNN模型和Softmax層,將訓練集作為輸入調整模型參數;然后保存訓練好的RDSCNN模型的各層參數;最后加載保存的參數,借助模型降低輸入時頻圖數據的維度,得到可見類和未見類的故障特征向量。
屬性學習階段:使用屬性學習網絡預測樣本屬性并推導其標簽。首先,以可見類樣本特征作為輸入,訓練屬性學習網絡中的各屬性學習器;然后使用屬性學習器預測未見類樣本的細分屬性矢量,拼接得到完整屬性向量;最終計算其與各故障屬性標簽的余弦距離,完成未見類故障樣本的診斷。
試驗數據采用的是凱斯西儲大學提供的軸承故障數據集[26],試驗臺由電動機、扭矩傳感器、測力計和控制電子設備組成。本文從采樣頻率為12 kHz的驅動端數據中,依據不同的工作負載、損傷位置和損傷程度選取了共30類數據進行試驗。其中包括健康數據3類,故障數據27類,所選取數據的類別組成如表2所示。
表2 試驗數據種類Tab.2 Kinds of test data
滾動軸承故障信號的三種損傷位置分別為內圈(IR)、滾子(B)和外圈(OR),三種工作負載分別為0(1 hp=746 W)、1 hp和2 hp,三種損傷程度分別為7 mil(1 mil=0.025 4 mm)、14 mil和21 mil。表2中滾動軸承故障的具體類別,例如‘IR007_0’中‘IR’代表該故障的故障位置是內圈,‘007’表示該類故障的損傷程度為7 mil,‘_0’表示其工作負載為0。表中各類別試驗數據的采樣頻率為12 kHz,每一類數據取連續(xù)102 912點,窗口滑動截取1 024個點作為樣本,窗重疊50%,每一類數據得到200個樣本,最終共獲取6 000個樣本。
試驗前對原始數據進行短時傅里葉變換,以獲得數據中隨時間變化的頻譜信息,使用Hanmming窗作為窗函數并預設了窗函數長度為120,窗重疊度為50%,最終獲得30類數據的共6 000張時頻圖樣本。
依據零樣本的原則對數據集進行劃分,在27類故障數據中隨機選取6類故障樣本作為測試集(未見類),剩余數據類別組成訓練集(可見類)??偣策M行四次隨機選取,在四種數據集劃分方式下得到數據集A、B、C、D,表3展示了各數據集下的測試類別。在每一種數據劃分方式下,數據集中的訓練樣本數為4 800,測試樣本數為1 200。
表3 試驗數據集Tab.3 The test data sets
試驗首先由RDSCNN模型從時頻圖樣本中提取易于學習屬性的特征向量,再將特征向量輸入到多標簽屬性學習器,識別故障的屬性,最后計算與標簽屬性之間的余弦距離得到故障類別。
(1) 特征提取試驗與結果分析
根據第2.1節(jié)所述的RDSCNN模型結構搭建網絡,通過反復試驗最終確定RDSCNN模型的相關超參數如表4所示。按照輸出特征圖的大小,表4將整個網絡劃分為五個模塊,模塊一輸入大小為64×64×3的時頻圖樣本,從模塊一至模塊四,依次減小特征圖大小,最終輸出大小為1×128的特征向量。
表4 RDSCNN模型超參數設置Tab.4 Hyper-parameters of RDSCNN
RDSCNN模型在特征提取階段為使用較大感受野,模塊一中殘差連接卷積核設置為3×3。為了保留局部細節(jié),模塊二和模塊三中跳躍連接卷積核設置為1×1,模塊四中最后池化層為降低輸出維數將池化窗口設置為8×8,其余模塊主干網絡中卷積核和池化窗口均設置為3×3。整個網絡的卷積核數量遞增以充分映射特征,各卷積層中卷積核的數目與輸出的第三個維度一致,在降低特征圖大小的同時增加特征深度。
RDSCNN模型在訓練階段使用交叉熵損失函數,并采用指數衰減法自動調整學習率,設置初始學習率為0.02,衰減步長為40,衰減率為0.97,設置單批次樣本數為100個。
為了驗證RDSCNN模型相比當前主流的特征提取模型在特征提取效率和性能上的優(yōu)越性,本文將其與ResNet50、VGG16和CNN(由5層卷積層和3層全連接層組成)模型進行對比。表5顯示了RDSCNN、ResNet50、VGG16和CNN四種不同模型的總參數量、收斂穩(wěn)定所需要epoch(所有訓練樣本在模型中完成了一次正向傳遞和一次反向傳遞)的數目和訓練200個epoch所用的時長。各模型在訓練過程中準確率和損失的變化情況如圖7所示,為提高對比效果,僅截取前200個epoch進行展示。
表5 特征提取模型訓練情況對比Tab.5 Comparison of feature extraction models
(a) RDSCNN模型
(b) ResNet50模型
(c) VGG16模型
(d) CNN模型圖7 不同特征提取模型的準確率和損失變化情況Fig.7 Accuracy and loss of different feature extraction models
通過表5可以知道,RDSCNN模型的參數量僅為924 064,CNN模型的參數量為其十倍左右,而ResNet50和VGG16模型的參數量均在其十倍以上;其次,RDSCNN模型訓練200個epoch所用的時間僅為223.2 s,較其他三種模型更短;此外,RDSCNN模型在訓練125epoch時已經收斂穩(wěn)定,ResNet50模型在訓練150epoch時收斂穩(wěn)定,如圖7中虛線處所示,而VGG16和CNN模型在訓練200epoch時仍未穩(wěn)定收斂。除此之外,從圖7中還可以看出,借助卷積網絡在自適應特征學習上的優(yōu)勢,各模型的訓練準確率都很高,但是在VGG16和CNN模型的訓練過程中存在一定的過擬合,其驗證集的準確率均低于訓練集的準確率。綜上所述,相較于其他三種特征提取模型,RDSCNN模型在模型參數量、收斂速度和訓練效果等方面具有明顯優(yōu)勢。
為進一步驗證RDSCNN模型的特征提取能力,采用t-SNE降維算法將原始輸入和所提取特征按相似度投影到2維空間中進行分析。在RDSCNN、ResNet50、VGG16和CNN四種特征提取模型中,VGG16和CNN模型的訓練效果較差,ResNet50模型的訓練效果更接近RDSCNN模型,因此選擇ResNet50模型與RDSCNN模型進行特征降維對比。以數據集C為例,將測試集樣本作為RDSCNN模型和ResNet50模型的輸入,學習得到樣本的特征。對原始輸入和兩個模型輸出的樣本特征分別進行t-SNE降維可視化,可視化結果如圖8所示。
(a) 原始樣本輸入
(b) RDSCNN模型輸出
(c) ResNet50模型輸出圖8 原始輸入和不同模型的輸出特征可視化Fig.8 Visualization of original input and different models’ output characteristics
圖8(a)為原始輸入的可視化結果,可以看出原始輸入包含很多冗余信息,難以區(qū)分各類樣本。圖8(b)為RDSCNN模型輸出特征的可視化結果,經過RDSCNN模型提取特征后,6類故障樣本之間界限清晰,完全被區(qū)分開,且不同標簽的樣本在2維空間中分布很集中,沒有錯分的異類樣本。圖8(c)為ResNet50模型輸出特征的可視化結果,圖中各類樣本之間有一定的區(qū)分性,但界限不清晰,紅色虛線圈中部分還存在錯分現象。對比圖8(b)和圖8(c)可知,RDSCNN模型所提取的特征在相同標簽下聚合得更集中,可分性更好。
為驗證所提取特征的有效性,本文對所提取的特征進行了分類效果的對比。表6展示了基于同一數據集,使用RDSCNN、MLDAM[27]、CNN-RF[28]、1DRCAE方法進行分類試驗的精度??梢钥闯觯琑DSCNN模型的分類準確率為99.93%,優(yōu)于其他方法。
表6 各先進識別器的分類精度Tab.6 Classification accuracy of advanced recognizers %
總體而言,RDSCNN模型在參數量最少的情況下,模型的訓練速度更快,具有更好的特征提取能力。
(2) 多標簽屬性學習試驗與結果分析
試驗按照2.2節(jié)中的屬性設置原則,為每種滾動軸承故障定義了9維的屬性矢量Ai∈R9,以提供故障特征在屬性空間映射的對象。該屬性矢量由滾動軸承故障的細粒度屬性描述推理得到,屬性描述基于滾動軸承故障的損傷程度、工作負載和損傷位置。基于屬性之間的相關性對互斥屬性進行切分,得到三個細分屬性矢量a、b、c,三個細分屬性矢量均屬于實向量空間R3。試驗采用熱獨編碼的方式對與故障標簽yi對應的細分屬性矢量ai、bi、ci進行編碼,編碼維度為3,得到向量映射onehot(ai)、onehot(bi)、onehot(ci),則與故障標簽yi對應的屬性矢量編碼為Ai=concat(onehot(ai,bi,ci)),例如B007_1的損傷程度為7 mil、工作負載為1 hp、損傷位置為滾子,其屬性矢量編碼為‘100 010 100’。依據此原則,試驗為所有滾動軸承健康狀況定義了對應的屬性矢量。
本試驗的屬性學習網絡由三個結構參數相同的屬性學習器構成,其超參數設置如表7所示。屬性學習網絡將特征提取網絡輸出的特征映射到屬性空間,單個屬性學習器由三層全連接層組成,前兩層使用Relu作為激活函數,提高收斂效率,最后一層使用Softmax輸出分類結果,選取Adam作為優(yōu)化器,學習率設置為1×10-4。為防止屬性學習器過擬合,在前兩層中引入dropout,并分別設置keep_prob分別為0.5和0.7。
表7 屬性學習器超參數設置Tab.7 Hyper-parameters of attribute learner
在表3中的四種數據集下,使用屬性學習網絡識別訓練集(可見類)和測試集(未見類)的各個屬性,試驗結果中各屬性的平均識別準確率如圖9所示。
圖9 不同數據集劃分方式下的屬性識別準確率Fig.9 Attribute recognition accuracy under different data set partition methods
橫向對比圖9中多標簽屬性學習網絡對四種數據集的識別準確率,可知各類識別精度受數據集劃分方式的影響不大,平均準確率波動在±4%左右,具有較強的泛化性。多標簽屬性學習網絡對各屬性的識別精度均高于33.3%的隨機水平,以數據集A為例,多標簽屬性學習網絡對測試集在損傷位置、工作負載和損傷程度上的屬性識別準確率分別為79.5%、46.2%和64%,對訓練集的識別準確率分別為97.5%、97.1%和96.8%,如圖9中折線所示。因為試驗遵循零樣本設置,所有的測試集樣本均未參與訓練,且參與訓練的測試集與訓練集樣本沒有標簽上的交集,因此測試集和訓練集的識別準確率無法進行比較。試驗結果證明所提出的屬性學習網絡可以有效學習故障屬性。
由多標簽屬性學習網絡得到測試集樣本對應的屬性矢量后,通過計算各樣本屬性矢量與各類故障屬性編碼之間的余弦距離,最終確定故障類別。在四種數據集下,對比MLZSL方法與其他零樣本學習方法的識別準確率,如表8所示。
表8 軸承狀態(tài)的識別準確率Tab.8 Identification accuracy of bearing states
IAP方法將屬性層置于訓練集標簽層與測試集標簽層之間,通過遷移訓練集樣本的標簽與屬性信息來預測測試集樣本的標簽,識別效果較差,平均識別準確率最低,僅為47.7%。DAP方法引入了中間層,從訓練集樣本中學習屬性分類器,直接預測測試集樣本的屬性,但DAP沒有學習到屬性之間的關系,其平均識別準確率為53.6%,略高于IAP方法。SAE方法使用了自編碼器的結構,要求特征輸入映射到屬性層后,能夠重新映射回原來的特征,通過這一結構盡可能保留特征信息,擁有較高的準確率,平均識別準確率為61.7%。MLZSL方法通過有監(jiān)督的神經網絡學習與屬性相關的特征,多標簽屬性學習網絡從特征中預測測試集樣本的屬性,同時考慮了屬性之間的關系,其平均診斷準確率為80.3%,高于其他三種方法,如表8所示。
為了更清晰地展示MLZSL方法對測試集故障的識別效果,將其與準確率較高的SAE方法進行對比,以數據集C為例,繪制了兩種方法屬性識別結果的混淆矩陣,如圖10所示。
(a) SAE方法
(b) MLZSL方法圖10 MLZSL方法和SAE方法的屬性預測混淆矩陣Fig.10 Attribute prediction confusion matrix of MLZSL and SAE
圖10(a)和圖10(b)中,從左至右依次是損傷程度、工作負載和損傷位置的屬性識別混淆矩陣,橫坐標表示屬性的預測類別,縱坐標表示屬性的真實類別。對比SAE方法和MLZSL方法對損傷程度、工作負載和損傷位置的屬性識別混淆矩陣可知:(1)對于故障樣本的損傷程度,用SAE方法識別屬性時,三種損傷程度屬性均有大量樣本被錯分,例如圖10(a)中,損傷程度為7 mil的故障樣本僅有202個被準確識別;而采用MLZSL方法后,對損傷程度的預測準確率大大提升,例如在圖10(b)中,損傷程度為7 mil的樣本有296個被準確識別,比SAE方法增加了94個。(2)使用SAE方法識別故障樣本的工作負載屬性時,三種工作負載的預測情況很差,例如圖10(a)中,工作負載1 hp和2 hp分別只有184和168個樣本被準確識別;采用MLZSL方法后,工作負載預測準確率得到很大改善,例如圖10(b)中,工作負載1 hp和2 hp中被正確識別的樣本數分別增加了51和78個。(3)在預測樣本的損傷位置屬性時,SAE方法僅對損傷位置B的預測結果較好,其余屬性均存在不同程度的錯分,例如圖10(a)中,損傷位置IR有172個樣本被錯分為OR;而使用MLZSL方法識別損傷位置IR時,如圖10(b)所示,總共僅有77個樣本被錯分,其余屬性被準確識別的樣本也顯著增多。綜上可知,MLZSL方法在各個屬性上的誤判數目均低于SAE方法,對各屬性的識別能力更優(yōu)秀,且具有較高的診斷準確率。
綜合上述試驗驗證,MLZSL方法在零樣本條件下,能夠更準確的學習屬性并預測故障類別,且具有較好的泛化性。
本文提出的MLZSL方法由RDSCNN特征提取模型和多標簽屬性學習網絡組成。MLZSL方法實現了故障特征空間到故障屬性空間的映射,將可見類的故障屬性遷移到未見類,有效地診斷了未見類故障,試驗結果表明:
(1) 與常用的特征提取模型相比,RDSCNN模型參數量少、收斂速度快、訓練耗時短。該模型提取的特征具有更好的可分性,從所提取的特征中能夠更有效的學習與屬性相關的信息。
(2) 多標簽屬性學習網絡可以同時映射多個互斥屬性,降低了模型復雜度,同時提升了診斷的準確率,在不同的測試數據集中都能夠診斷未見類樣本,泛化性較好。
(3) 所提出的MLZSL故障診斷方法為每一類故障提供了由屬性組成的故障輔助標簽,這一屬性層介于故障特征層和故障類別層之間。所定義的屬性跨越了故障類別界限,不同類別的故障可以共享這些屬性。
MLZSL故障診斷方法能夠在零樣本條件下識別未見類故障,適用范圍更廣,其輕量化的模型結構使其診斷結果具有很高的時效性,為零樣本條件下的軸承故障診斷提供了解決方法。