石明寬 趙榮珍
蘭州理工大學機電工程學院,蘭州,730050
對旋轉機械進行故障診斷時,為獲得可信度高的診斷結果,必須盡可能多地獲取故障信息[1]。通常,機械振動信號中包含有能夠反映機械運行狀態(tài)的內在信息和本質規(guī)律,具有采集容易、辨識度高等特點,在旋轉機械的故障診斷中已被廣泛應用[2]。為提高旋轉機械故障狀態(tài)表征的準確度,通常采用多個傳感器采集多個通道的振動信號,提取出多通道、多域的故障特征[3]。同時,提取的特征中不可避免地包含有大量冗余信息和高度相關的信息,形成“維數災難”問題,這不僅加重了分類器的工作負擔,而且也很難得到滿意的診斷結果[4]。因此,對數據結構優(yōu)化的數據降維問題進行研究,將有助于推動智能決策技術向工業(yè)大數據驅動的方向發(fā)展[5]。
伴隨著大數據技術的快速發(fā)展,數據降維已成為數據科學研究領域關注的熱點問題。典型的降維算法包括局部保持投影(locality preserving projection,LPP)[6]、局部線性嵌入(locally linear embedding,LLE)[7]等流形學習算法。LPP是對傳統(tǒng)拉普拉斯特征映射(Laplacian eigenmaps,LE)算法[8]進行線性化近似后得到的結果,能夠以較小的計算損耗獲取比較好的數據聚類效果。但LPP僅考慮了樣本的局部結構,忽略了有利于分類的類別信息,無法更多地挖掘出高維數據的幾何結構信息。針對此,學者們將標簽信息加入到LPP算法中,提出了諸多改進算法,如邊緣Fisher分析(marginal fisheries analysis,MFA)[9]、鑒別局部保持投影(discriminant locality preserving projections,DLPP)[10]、局部判別投影(locally discriminating projection,LDP)[11]等算法。LDP是一種可靠的降維方法,但LDP算法在構建近鄰圖時,不是每一個樣本點都可以建立與同類樣本點和異類樣本點之間的近鄰關系,當原始數據不均衡時,一個樣本中的近鄰點可能全是同類樣本點或是異類樣本點,使得近鄰關系不平衡,從而不能實現低維空間中類內聚集和類間分散的目的,不利于故障分類;同時,在LDP算法中,由于異類近鄰點的權值函數是非嚴格單調遞減函數,不是理想的權值函數,因而故障分類有一定的誤差。針對LDP算法存在的不足,本研究提出一種基于局部平衡判別投影(locality-balanced discriminant projection,LBDP)算法的故障數據集維數約簡方法,為旋轉機械智能故障模式識別提供了有效改進方法。
設一個高維數據集有m個D維向量,即X=(xi|i=1,2,…,m;xi∈RD),分為C個類別。LBDP的目的是尋找一個投影矩陣A∈RD×d,使得X(X的對應向量)通過投影Y=ATX得到低維矩陣Y=[y1y2…ym]∈Rd×m(d 首先,利用K最近鄰準則構造近鄰圖G=(V,W),其中V表示節(jié)點集,W是一個權值矩陣,它的元素是根據數據集的局部信息和類別信息定義的: (1) 式中,‖xi-xj‖為xi和xj之間的歐氏距離(i,j=1,2,…,m);β為隨機參數;wij為權重矩陣W的元素。 其次,以式(1)中的權值函數wij為基礎建立最優(yōu)目標函數: (2) ATXDXTA=1 (3) 將式(2)轉化為求解廣義特征值問題,即 XLXTA=λXDXTA (4) λ=(λ1,λ2,…,λd) 按照特征值由小到大的順序λ1≥λ2≥…≥λd,取前d個特征值所對應的特征矢量組成線性投影矩陣A=[a1a2…ad]。 筆者所提出的LBDP算法充分利用數據的類別判別信息、局部結構信息來構建對應的類內局部結構圖Gw、類間局部結構圖Gb。通過最小化高維數據同類樣本的低維映射距離,同時最大化高維數據異類樣本的低維映射距離,有效挖掘出高維數據集的局部幾何結構信息和類別判別結構信息。 (5) 式中,Nk1(xi)、Nk1(xj)分別為xi、xj的k1個同類近鄰點組成的鄰域。 參數β為隨機參數,其取值為所有樣本之間歐氏距離均值的平方[12]。 在Gw中,類內局部相似性散度Sw定義為 (6) (7) 式中,Nk2(xi)、Nk2(xj)分別為xi、xj的k2個異類近鄰點組成的鄰域。 在Gb中,類間局部相似性散度Sb定義為 (8) 為了避免小樣本問題,同時尋找一個類間散度矩陣最大和類內散度矩陣最小的低維投影子空間,建立一個基于散度矩陣跡差的函數模型: J=AT(Sb-Sw)A (9) 為了調節(jié)不同散度的貢獻,將式(9)目標函數改寫為線性組合形式: J=AT[αSb-(1-α)Sw]A (10) 式中,α為調節(jié)參數,0<α<1。 為了降低投影后特征分量之間的信息冗余,保留原始故障特征集的幾何結構信息,加入正交化約束[1]。建立如下目標函數模型: (11) 采用拉格朗日數乘法求解目標函數式(11),可將其解轉化為 [αSb-(1-α)Sw]A=λA (12) 按照特征值由大到小的順序排列,有λ1≥λ2≥…≥λd,取前d個特征值所對應的正交性特征矢量組成線性投影矩陣A=[a1a2…ad]。 下面給出LBDP算法的主要步驟。輸入為:初始數據集X={x1,x2,…,xm},其對應向量記為X,LBDP算法的近鄰值k1、k2,低維空間維數d,調節(jié)參數α;輸出為:投影矩陣A,低維敏感特征子集Y,其對應向量記為Y。 (1)構建類內局部結構圖Gw、類間局部結構圖Gb。根據式(5)、式(7)得到類內局部相似性矩陣Sw、類間局部相似性矩陣Sb。 (2)根據式(6)、式(8)計算類內局部相似性散度Sw、類間局部相似性散度Sb。 (3)建立式(11)所示的最優(yōu)目標函數,并對其進行特征值分解。 (4)按照特征值由大到小的順序排列,有λ1≥λ2≥…λd,取前d個特征值所對應的特征向量組成線性投影矩陣A=[a1a2…ad],并將初始樣本集X通過投影矩陣A進行投影,得到映射后的低維特征矩陣Y=ATX。 基于本文方法設計的故障診斷流程如圖1所示,具體實現步驟如下: 圖1 故障診斷流程Fig.1 Procedure of fault diagnosis (1)提取轉子振動信號的11個時域特征參數(p1~p11)、13個頻域特征參數(p12~p24)和時頻域3層小波包分解頻帶能量特征(p25~p32)組合得到32維原始故障特征集,詳細特征參數如表1所示。 表1 特征參數 (2)對原始故障特征集進行預處理;將特征集分為訓練樣本集X1和測試樣本集X2兩部分,將X1輸入LBDP算法中進行訓練和學習,可得到投影矩陣A;用A對X1、X2進行特征映射得到低維敏感特征子集Y1、Y2。 (3)將得到的Y1、Y2輸入到K近鄰分類器(K-nearest neighbor,KNN)[13]中,得出測試樣本集的故障類別信息。 為了研究LBDP的可行性和有效性,本研究采用無錫市厚德自動化儀表有限公司的HZXT-DS-001型雙跨綜合故障模擬平臺(圖2)進行研究分析。實驗中共采集14個通道的信號,前12個通道為4個軸承座振動信號,測取每個軸承座兩個徑向(X,Y)和一個軸向(Z)的振動信號,由加速度傳感器測得,第13和第14通道為轉軸的徑向振動,由非接觸式的電渦流傳感器測得。在該實驗臺上模擬6種轉速為2600 r/min、采樣頻率為20 kHz的質量不平衡轉動實驗,分別記為:不平衡1、不平衡2、不平衡3、不平衡4、不平衡5、不平衡6,詳細故障狀態(tài)如表2所示。采集每種故障的數據樣本80組,其中30組作為訓練樣本,剩余50組作為測試樣本。針對每個通道的傳感器采集的振動信號分別提取32個特征參數,14個通道總共得到14×32=448個特征。根據Relief-F算法從448個特征中選取權重值大于0.05的331個特征,作為輸入特征集。 圖2 轉子振動實驗臺Fig.2 Experiment of rotor vibration 表2 轉子系統(tǒng)的故障狀態(tài) 需要設定的參數包括:降維LBDP中的近鄰值k1、k2,低維空間的維數d,調節(jié)參數α。通常將低維空間的維數d設為類別數減1,即d=6-1=5;近鄰值k1、k2一般滿足大于低維空間維數d,小于樣本的個數Ni(i=1,2,…,C),即d 圖3 不同調節(jié)參數α的故障識別率Fig.3 Fault identification rate of different adjustmentparameters α 為了驗證本文方法的有效性,選擇與局部敏感判別分析(locality sensitive discriminant analysis,LSDA)[16]、MFA、LDP、LBDP等降維算法(其中,LSDA、MFA、LDP經過主成分分析(PCA)預處理,取85%的貢獻率)進行比較。四種算法的測試樣本低維嵌入結果如圖4所示。 如圖4所示,前三個主元在三維圖的描述下,LBDP的降維可視化效果最好,不同故障狀態(tài)之間幾乎完全分離,各類數據清晰可見,相同類型聚集成團;除了LBDP,基于其他三種算法的降維結果中,不同故障特征之間都會存在一定程度的交叉混淆。 (a)LSDA (13) (14) (15) 由定義可知,類間距Sb反映了各類別之間的分散程度,類內距Sw體現了每類樣本分布的緊湊程度。低維測試集的類間距越大,類內距越小,則可分性指標ρ就越大,特征集的分類聚類效果就越好。 按式(15)計算由各算法降維得到的特征集可分性指標值,如表3所示。由表3可以看出,LDP算法的可分性指標最小,只有8.2397;LBDP算法的可分性指標高達139.6974。結合圖4和表3可知,相對于其他算法,LBDP算法具有較好的降維效果、較大的可分性指標值,表明LBDP算法具有較好的維數約簡能力,在數據降維中有一定的優(yōu)勢。 表3 各類方法降維后的可分性指標 為了量化四種降維算法的降維效果,將各個算法降維后的低維敏感特征集輸入KNN分類器中進行故障模式識別,得到的識別率結果見表4。 表4 不同維數約簡方法的識別準確率 由表4可以看出,LDP算法的平均識別準確率低,降維效果差,這是因為LDP算法的近鄰點都是同類或者是異類,使得近鄰關系不平衡,沒有充分利用樣本類別信息,從而不能實現低維空間中類內聚集和類間分散的目的,不利于故障分類;MFA、LSDA算法的識別準確率和降維效果優(yōu)于LDP算法但遜于LBDP算法,這是因為MFA、LSDA算法存在小樣本問題,利用了PCA預維數約簡處理,一定程度上損失了有用信息,導致提取的特征信息無法有效識別故障類別;LBDP算法的平均準確率及降維效果均優(yōu)于其他三種算法的原因是,LBDP算法克服了LDP算法近鄰關系不平衡的缺點和小樣本問題,充分利用了局部結構信息和判別信息,實現了類判別信息與樣本集幾何結構信息的有效結合,從而可得到最有辨識力的低維特征子集,提高了故障特征集的可分性。 為了進一步驗證LBDP算法在不同訓練樣本下的降維效果,筆者選取不同的訓練樣本數量和測試樣本數量,對降維后的低維敏感特征經KNN分類器進行故障模式識別,結果見圖5。 圖5 不同訓練樣本數對應的平均識別準確率Fig.5 The average recognition accuracy for differenttraining samples 從圖5中可以看出,整體上各降維算法的識別準確率都隨訓練樣本的增多而提高;訓練樣本相同的情況下,LBDP算法的平均識別率總是高于LSDA、MFA和LDP算法的平均識別率。 針對旋轉機械故障數據集維數過高導致的分類困難問題,本文提出了一種基于局部平衡判別投影(LBDP)的故障數據集維數約簡方法。該方法充分利用了局部結構信息和類別信息,解決了局部判別投影(LDP)算法近鄰關系不平衡的缺點,同時建立跡差形式的目標函數,有效地解決了小樣本問題。雙轉子實驗臺故障模擬實驗結果表明:與局部敏感判別分析(LSDA)、邊緣Fisher分析(MFA)等維數約簡算法相較,LBDP算法可提取出類間、類內可分性更好的低維故障特征子集,在故障模式識別時具有一定的優(yōu)勢,有效地提高了故障診斷的精度,為旋轉機械智能故障診斷提供了一種新的解決方案。2 局部平衡判別投影(LBDP)方法
3 基于LBDP的旋轉機械故障診斷
4 實驗結果分析
4.1 參數設定情況
4.2 高維數據低維可視化
4.3 故障分類效果
5 結論