劉海寧, 宋方臻,竇仁杰, 黃亦翔, 劉成良
(1. 濟南大學 機械工程學院,濟南 250022; 2.上海交通大學 機械與動力工程學院,上海 200240 )
設備狀態(tài)監(jiān)測與故障診斷在維護生產秩序,杜絕生產事故、保證產品質量等諸多方面發(fā)揮著日益明顯的作用,被認為是實現工業(yè)4.0的基礎[1]。智能故障診斷能夠模擬人類思維的推理過程,通過有效地獲取、傳遞和處理診斷信息,模擬人類專家,以靈活的診斷策略對監(jiān)測對象的運行狀態(tài)和故障做出智能判斷和決策[2],因此基于人工智能的故障診斷方法被學術與工業(yè)界廣泛研究。但是,智能故障診斷方法投入工程實際應用不可回避的一個障礙是:智能故障診斷方法[3]必須通過對大量先驗樣本數據的機器學習才能建立其一定的故障診斷能力。對機械設備故障診斷來說,為獲取有價值的先驗樣本數據,需要在采樣母體、工況、故障類型上實現最大化,否則無法建立對設備狀態(tài)變化規(guī)律及表現的一般性認知。但實際工程應用中受人力、物力及時間等客觀條件限制,先驗樣本數據的采樣空間被極大地壓縮,智能故障診斷模型的精確性也就無法保證。并且研究證明:在實驗室用模擬故障所得到的特征信息的模式樣本在模式空間中的類聚性,與實際生產中所得到的模式樣本的類聚性有著很大差別,因為從統(tǒng)計角度講他們不屬于同一個母體[4]。具體到廣泛采用的基于振動信號的設備故障來說,由于工況條件不同,以及材料成分、制造工藝、裝配誤差等因素造成的個體差異都會影響機械零部件的振動特性。從模式識別角度來講,先驗樣本數據質量欠佳使得基于先驗樣本數據訓練的故障診斷模型的泛化能力[5]無法滿足實際設備狀態(tài)監(jiān)測的需要。
先驗樣本數據少,樣本空間不完備是機械設備故障診斷必須面對的“小數據”困境。但是對于不同數據稀缺問題的解決方式是不同的:故障類型的受限問題可以通過智能診斷模型的進化或在線學習的方式來解決,如Yin等[6]基于增量支持向量數據描述與極限學習機構造了一個具有進化學習能力的故障診斷模型,在連續(xù)的設備狀態(tài)監(jiān)測中不斷更新其診斷模型的診斷能力。但是對于采樣母體和工況條件受限的問題,則需要尋求其他的理論依據。劉剛等[7]采用Bootstrap方法對估計子的置信區(qū)間進行估計,在小數據情況下采用指標的穩(wěn)定行為量來確定故障特征指標。受此啟發(fā),瞿雷等[8]采用穩(wěn)定性與敏感性聯(lián)合評估方法對特征進行評估,并利用核主成分分析方法提取剩余聯(lián)合特征中的非線性特征,實現不同齒輪故障狀態(tài)的分類。Sun等[9]結合Bootstrap與遺傳算法研究了最優(yōu)復合特征搜索方法,并將其應用在發(fā)動機的故障診斷。Cerrada等[10]利用隨機森林(Random forest)方法對小數據、多特性數據分類的魯棒特性,結合遺傳算法對振動信號高維特征進行選擇以實現對齒輪的故障診斷建模。
上述方法共同點在于通過尋找特征分布中的數值穩(wěn)定性指標來解決診斷模型泛化能力變差的問題。但是在實際的設備狀態(tài)監(jiān)測過程中,特征分布的數值穩(wěn)定性指標不易尋找,特別是當面對機械設備工況變化、母體差異時,基于小數據數據獲取的數值穩(wěn)定性指標難以應對更為復雜的設備狀態(tài)識別需要。本文結合測地流核函數(Geodesic Flow Kernel, GFK)[11]方法提出基于域自適應(Domain Adaptation)理論的故障診斷方法,旨在以特征分布結構上的相似性為判別依據進行設備狀態(tài)的識別,從而抑制工況及監(jiān)測個體差異兩類因素導致的特征分布偏移,有效提高智能診斷模型在實際設備狀態(tài)監(jiān)測應用中的泛化能力。
在域自適應的具體方法上,基于格拉斯曼流形的方法、基于深度學習的方法、基于低秩逼近的方法等[15]方法被提出并取得了較好的學習效果。其中,基于測地流核函數的方法旨在基于數據的內蘊結構性特征進行模式識別,能夠克服由于數據在數值或空間分布上的不穩(wěn)定性造成的泛化能力下降的問題,這就為解決設備故障診斷面臨的“小數據”困境提供了有效的理論工具。同時,作為一種非監(jiān)督的域自適應方法,兼具較好的計算效率,基于測地流核函數的方法對于設備狀態(tài)監(jiān)測具有較好的適應性。
理論研究與經驗證據都表明,現實世界的數據中很自然地存在著某種子空間結構,而在機器學習中,特別是在統(tǒng)計建模中,輸入數據也通常被嵌入一個低維線性子空間中,例如廣泛采用的主成分分析(Principal Component Analysis, PCA)。Hamm[16]早在2008年提出了基于子空間的機器學習范式,將子空間結構上的相似性利用格拉斯曼流形上的距離函數進行度量。格拉斯曼流形G(d,D)是RD空間內一系列d維線性子空間的集合。在格拉斯曼流形上,子空間被映射為一點,子空間結構上的相似性就可以直觀上通過映射點的距離測度進行評估。
而在域自適應問題中,源域數據與目標域數據由于數據偏移的問題,映射點可能距離較遠,但是連接兩個映射點構造測地流曲線就可以追蹤子空間在幾何與統(tǒng)計特性上的連續(xù)增量變化,如圖1所示。Gopalan等[17]通過在測地流曲線上采樣一定數量的中間子空間來匹配域遷移過程,并通過構造域無關特征以實現域自適應分類。Gong等進一步拓展了該方法,將原始特征在整個測地流上進行投影,而不只是在若干采樣點上,并通過定義核函數實現距離測度的計算和分類器應用,具體來說:
(1)
0≤θ1≤θ2≤…≤θd≤π/2
(2)
圖1 格拉斯曼流形上基于測地流核函數的域自適應原理Fig.1 An overview of the domain adaptation methodology with GFK on Grassmann manifold
該角度是子空間重合度的一種測度。由此得到,Γ(t)與∑(t)分別是以cos(tθi)和sin(tθi)為元素的對角矩陣。
假設給定原始特征向量x,將其在測地流上投影,得到生成特征向量z∞=Φ(t)Tx。其中:當t=0時,z∞=PSx,即原始特征向量投影到源域數據子空間內;當t=1時,z∞=PTx,即原始特征向量投影到了目標域數據子空間內;而當0 (3) 式中:G∈RD×D是一個半正定矩陣,計算如下 (4) 式中:Λ1~Λ3為對角矩陣,對角元素為 (5) 基于上述定義,域無關特征向量z∞的距離測度可以方便地通過測地流核函數來進行計算 (6) 在此基礎上即可應用分類器基于源域數據的機器學習實現對目標域數據的分類識別,而實際的分類則是在域無關特征空間內完成的。 針對機械設備故障診斷面臨的“小數據”困境,結合基于測地流核函數的域自適應學習方法的特點,以機械設備狀態(tài)監(jiān)測廣泛采用的振動數據為例,建立具備域自適應能力的設備故障診斷框架,如圖2所示。 圖2 基于測地流核函數的域自適應設備故障診斷框架Fig. 2 Domain adaptive machinery fault diagnostic framework based on GFK 根據域自適應學習設定,以有標簽的歷史振動數據為源域,以待識別振動數據為目標域,進行基于測地流核函數的域自適應方法應用。具體地,該框架的執(zhí)行可分為3個主要步驟: 步驟1 設備狀態(tài)子空間的構造。分別對源域和目標域振動數據進行特征提取、特征選擇,并通過主成分分析進行設備狀態(tài)子空間的構造。其中,特征選擇的目的在于從所提取特征中選取敏感特征,此處所謂敏感特征根據基于測地流核函數方法的計算特點應當以設備狀態(tài)子空間的構造為目的;主成分分析的目的在于獲取子空間的線性結構。 步驟2 進行測地流核函數的計算。聯(lián)合源域子空間與目標域子空間形成格拉斯曼流形,連接源域與目標域子空間在格拉斯曼流形上的映射點構造測地流,并分別將源域特征子空間與目標域特征子空間在測地流上投影,基于式(4)進行核函數的計算。 步驟3 應用測地流核函數進行故障診斷?;谑?6)應用測地流核函數進行目標域特征與源域特征距離測度的計算,然后應用分類器識別并輸出目標域振動數據的設備狀態(tài)。 需要指出的是,本文應用域自適應方法旨在解決同種同型零部件在采樣母體和工況條件受限情況下先驗樣本空間不完備而導致的智能故障診斷模型泛化能力變差的問題,對于更加復雜的不同型號、不同種類零部件之間的智能診斷應在遷移學習[18]理論框架下進一步加以研究。 為便于相關研究進行比證,本文采用美國西儲大學的開放軸承振動數據集[19]進行試驗驗證。試驗裝置示意,如圖3所示。左側是一個2 hp的三相感應電動機,右側是用于產生額定負載的測力計,二者通過扭矩傳感器對準配合,被測對象為安裝在電機驅動端的深溝球軸承,振動傳感器安裝在電機的驅動端上側。 圖3 軸承試驗裝置示意圖Fig.3 Schematic diagram of the bearing test stand from case western reserve university 試驗驗證所選擇的振動數據包括正常軸承振動數據,如表1所示。模擬故障軸承振動數據,如表2所示。所施加工況變化是指分別為0, 1 hp,2 hp和3 hp的載荷變化以及對應的電機轉速變化。其中所模擬的故障包括:內圈損傷、滾動體損傷以及在6點鐘方向上的外圈損傷,故障損傷尺寸分別為0.007″,0.014″,0.021″和0.028″。所測試深溝球軸承型號均為6205,其中前3種損傷尺寸所用軸承為SKF公司生產,最后一種損傷尺寸所用軸承為NTN公司生產。所有振動數據采樣頻率均為12 kHz。 表1 正常軸承振動數據集 典型的智能診斷模型的驗證對訓練樣本和測試樣本往往采取同質化方案,即訓練樣本和測試樣本包含相同的工況、母體和故障尺寸。而為了驗證小數據條件下的域自適應故障診斷方法,建立試驗驗證方案如圖4所示。 表2 軸承振動數據集 圖4 小數據條件下域自適應故障診斷方案Fig. 4 Small data scenario setting for machinery fault diagnosis based with domain adaption 上述方案設定旨在以軸承這一典型旋轉零部件構造小數據條件下的機械故障診斷。選取載荷為0、轉速為1 797 r/min正常狀態(tài)下的振動數據,以及故障尺寸為0.007″的故障振動數據作為先驗振動數據(表1與表2中后綴為“?”的數據),即源域,表1與表2中所有其他數據為待診斷數據,即目標域。在此方案設定下,變化的工況包括負載1 hp, 2 hp, 3 hp及對應的轉速變化,變化的采樣母體包括0.014″,0.021″及0.028″不同損傷程度下的不同軸承個體。相較于單純的軸承個體變化,診斷條件更為苛刻。從統(tǒng)計上來說,該方案設定是基于4種數據樣本的小數據條件來診斷44種變工況和變采樣母體的數據樣本。 為了驗證域自適應故障診斷的可行性及基于測地流核函數的域自適應故障診斷方法的有效性,在特征選擇上,選取軸承智能故障診斷廣泛采用的時域和小波域特征。其中,在時域提取振動信號時域上的10個特征參數:峰峰值、均值、標準差、均方根、波形因子、偏斜度、峭度、波峰因數、間隙因數、脈沖因數。在小波域,基于“db10”小波基函數將振動信號進行5層分解,并提取32個頻帶的小波能量特征。將表1與表2中所有振動信號進行1 024個采樣點的定長分割,分別提取時域與小波域特征,構造42維的特征向量。 在小數據條件下,訓練集或先驗數據的統(tǒng)計分布必然有別于測試集或監(jiān)測數據。為了直觀展現特征分布的偏移情況,選取內圈損傷故障模式下振動信號時域內均方根和脈沖因數特征進行二維特征分布空間的繪制,如圖5所示。其中,圖5(a)為載荷變化時下特征分布偏移變化情況:隨著載荷增大,振動信號的均方根值逐漸增大,而脈沖因數逐漸減小,但偏移量均較小;圖5(b)為故障尺寸變化時特征分布偏移情況:不同損傷尺寸條件下特征分布偏移更為明顯,且同一損傷尺寸下特征分布呈現較強類聚性。 (a)工況變化 (b)損傷尺寸變化圖5 工況與損傷尺寸變化情況下的內圈損傷特征分布偏移Fig.5 The demonstration of feature distribution deviation of inner race fault bearings under varied working conditions and fault diameters 兩種情況對于小數據條件下的故障診斷均提出了較大挑戰(zhàn)。如果說圖5(a)中的特征分布偏移問題一般可以通過特征選擇、優(yōu)化分類器參數等方法加以解決;那么圖5(b)中特征分布對于同類故障類聚性的明顯背離則顯得更為棘手。同時需要指出的是,基于小數據的先驗知識尋求整體的故障診斷準確率最大化應當是域自適應故障診斷所追求的目標。 在特征選擇上,由于測地流核函數方法的基本思想是基于子空間機器學習基礎上的結構相似性評估,因此特征選擇以優(yōu)化軸承狀態(tài)子空間的構造為目的。在上述特征提取的基礎上,本文采用改進的距離評估(Improved Distance Evaluation, IDE)[20]法對所提取特征進行選擇。其中,IDE方法一個關鍵參數是距離閾值的選擇。通過遺傳算法的參數優(yōu)化表明,距離閾值并非越大越好,因為閾值太大會壓縮子空間維度的選擇范圍。參數優(yōu)化后,選取距離閾值為0.1進行特征選擇,構建軸承狀態(tài)子空間。 在特征提取的基礎上,基于圖4中小數據條件域自適應故障診斷方案設定,應用測地流核函數方法進行4種軸承狀態(tài)的診斷。其中,測地流核函數方法應用的一個關鍵參數是子空間維度d的選擇。為了揭示該參數對診斷準確度的影響,以子空間維度d為變量進行故障診斷迭代計算,其中每次隨機抽取一種軸承狀態(tài)下50個樣本,共200個樣本,來診斷其他所有數據樣本,共迭代20次來求平均診斷準確率,結果如圖6所示。 圖6 子空間維度d對基于測地流核函數的故障診斷的影響Fig. 6 The average diagnostic accuracy with GFK under different dimensions of subspace 從圖6可知,在子空間維度d>3的情況下,基于測地流核函數的域自適應故障診斷準確率趨于穩(wěn)定。在實際驗證過程中,取d=18,此時平均故障診斷準確率為76.7%。其中,該方法對于不同工況和不同故障尺寸條件下軸承狀態(tài)的識別正確率,分別如表3與表4所示。 從表3與表4可知,基于測地流核函數的域自適應故障診斷有以下特點:①基于測地流核函數的域自適應故障診斷能夠正確區(qū)分健康軸承與損傷軸承;②在損傷尺寸為0.007″時,該方法基于負載為0的軸承振動數據能夠有效識別負載變化為1 hp, 2 hp, 3 hp時的軸承狀態(tài),同時在其他損傷尺寸條件下,對負載變化后的軸承狀態(tài)識別正確率基本穩(wěn)定;③當損傷尺寸分別變化為0.014″,0.021″, 0.028″時,該方法能夠識別大多數軸承狀態(tài),特別是對于損傷尺寸為0.028″時,識別正確率相對較高。需要注意的是,該損傷尺寸下的軸承為NTN公司的軸承,而其他損傷尺寸下的軸承為SKF公司的同型不同個體的軸承。由此可以看出,該方法能夠在一定程度上克服母體差異造成的數據偏移對故障診斷的影響。 但是需要指出的是,從表4可知,該方法對于損傷尺寸為0.021″時的內圈損傷識別正確率很低。檢視0.021″內圈損傷尺寸的小波能量特征分布,發(fā)現其與其他損傷尺寸軸承的特征分布差別較大,從而造成對其狀態(tài)識別準確率下降。這也說明在特征提取上存在進一步研究和優(yōu)化的空間。 表3 基于測地流核函數的域自適應故障診斷方法 表4 基于測地流核函數的域自適應故障診斷 基于子空間的機器學習是基于測地流核函數的域自適應故障診斷的理論基礎。與之對應的一個典型方法是支持向量機(Support Vector Machine, SVM)。基于SVM的故障診斷是在特征提取的基礎上通過構建分類超平面來對設備狀態(tài)子空間進行劃分。雖然SVM能夠實現線性或非線性的分類,但SVM對于分類超平面的學習是基于已知的源域有標簽數據,而對于待識別的目標域數據與源域數據之間的數據偏移并未進行建??紤]。 為了對比故障診斷效果,本文基于圖4驗證方案,在特征提取和基于IDE方法的特征選擇基礎上,采用libSVM軟件[21]進行軸承狀態(tài)識別,在進行參數優(yōu)化后的識別結果表明:SVM能夠對正常軸承狀態(tài)實現100%的有效識別,對3種故障軸承狀態(tài)的平均識別正確率為56.3%,具體結果如表5所示。 表5 支持向量機對3種故障軸承狀態(tài)的識別正確率 對比表5與表4的驗證結果可知:①在平均識別正確率上,基于支持向量機的故障診斷要小于基于測地流核函數的域自適應故障診斷;②對于損傷尺寸為0.014″的外圈故障狀態(tài)以及損傷尺寸為0.028″的滾動體故障狀態(tài),SVM方法的故障診斷識別正確率降為0;③在多個損傷尺寸中,隨著負載變化,SVM方法的故障診斷識別正確率變化較為明顯。 綜合來看,上述SVM方法故障診斷識別正確率的下降的原因在于基于損傷尺寸為0.007″條件下構造的軸承狀態(tài)分類超平面無法適用于數據偏移后的軸承狀態(tài)子空間。而數據偏移的原因在驗證方案設定中是負載導致的工況變化,以及損傷尺寸變化及潛在的數據采樣母體的變化,典型的數據偏移如圖5所示。通過以上對比可見,基于測地流核函數的域自適應故障診斷方法在抑制工況變化和母體差異的影響,提高故障診斷正確率上作用較為明顯。 本文從設備狀態(tài)監(jiān)測與故障診斷的實際需要出發(fā),基于測地流核函數方法提出了小數據條件下的域自適應故障診斷框架,通過將源域與目標域特征嵌入格拉斯曼流形來尋求特征分布結構上的相似性進行故障診斷?;谳S承振動數據的試驗驗證表明,基于測地流核函數的域自適應故障診斷能夠有效抑制工況、母體差異對設備狀態(tài)識別的影響。同時,作為一種非監(jiān)督的域自適應方法,基于測地流核函數的域自適應故障診斷更適合設備狀態(tài)監(jiān)測應用。另外,在域自適應故障診斷的理論框架下,仍有以下問題需要進一步深入研究: (1) 在特征提取上,需要從特征分布結構穩(wěn)定性的角度進行有效的特征提取和特征選擇方法研究,從而為測地流核函數的應用提供較好的數值基礎。 (2) 在故障分類方法上,可以進一步結合測地流核函數進行非線性分類器應用或非線性子空間的探索,更好地提高域自適應故障診斷準確率。3 基于測地流核函數的域自適應故障診斷
4 試驗驗證
4.1 軸承振動數據
4.2 驗證方案
4.3 特征提取與選擇
4.4 基于測地流核函數的域自適應故障診斷結果
4.5 對比基于支持向量機的故障診斷方法
5 結 論