倪澤行 王琇峰 徐 波 李 睿
西安交通大學機械工程學院,西安,710049
隨著傳感器和測試技術的進步,現(xiàn)代監(jiān)測與診斷系統(tǒng)在許多領域得到了迅速的發(fā)展[1]?,F(xiàn)代監(jiān)測手段是通過建立傳感器網(wǎng)絡收集狀態(tài)監(jiān)測信號以反映機械制造設備的運行狀況,但由于待監(jiān)測設備數(shù)量大、設備測點多、采樣頻率高、設備服役周期長,運行狀況監(jiān)測系統(tǒng)獲取了海量的監(jiān)測數(shù)據(jù),推動機械設備健康監(jiān)測領域進入了“大數(shù)據(jù)”時代[2]。然而,由于環(huán)境變化、傳感器故障、人為干擾、電氣故障等原因,數(shù)據(jù)的準確性和完整性被嚴重削弱,從而使監(jiān)測指標突變,造成系統(tǒng)“誤判”及維護策略制定不當[3]。因此,如何準確識別機械裝備運行過程中的劣質監(jiān)測數(shù)據(jù)對提高機械裝備健康評估準確性具有重要意義。
機械裝備全壽命監(jiān)測數(shù)據(jù)主要為設備正常狀態(tài)數(shù)據(jù)、設備退化數(shù)據(jù)、異常數(shù)據(jù)以及不能正常表征設備狀態(tài)的劣質數(shù)據(jù)[4]。設備的退化多滿足“浴盆曲線”,在設備正常階段,監(jiān)測數(shù)據(jù)的統(tǒng)計特性較為一致,多呈現(xiàn)為平穩(wěn)特性。然而,隨著設備出現(xiàn)退化,信號逐漸呈現(xiàn)為高階平穩(wěn),而劣質數(shù)據(jù)也多表現(xiàn)為非平穩(wěn)特性[5]。為了有效區(qū)分劣質數(shù)據(jù)與設備的狀態(tài)數(shù)據(jù),基于距離[6-7]、基于聚類[8-9]和基于統(tǒng)計特征[10]的異常數(shù)據(jù)檢測方法被大量研究。其中,基于統(tǒng)計特征的檢測方式因魯棒性好、計算效率高等優(yōu)點而被廣泛接受。
基于統(tǒng)計特征的檢測方法主要是通過數(shù)據(jù)的分布特點進行閾值識別。DUDAR等[11]用正態(tài)分布對金融數(shù)據(jù)的異常點進行識別。SREEVIDYA[12]總結了基于統(tǒng)計的異常檢測技術在異常數(shù)據(jù)識別方面的應用,指出數(shù)據(jù)集的分布模型能識別概率較低的異常點。STEFANIAK等[13]選擇合適的數(shù)據(jù)分布和統(tǒng)計參數(shù),進行多維數(shù)據(jù)分析,以確定有效的識別機器及其部件狀態(tài)的閾值。上述研究假設這些數(shù)據(jù)均滿足特定的分布,通常情況下,不同的監(jiān)測趨勢數(shù)據(jù)分布是不確定的,而基于非參數(shù)化方法的異常檢測無需事先假設數(shù)據(jù)的統(tǒng)計模型,而是基于數(shù)據(jù)集本身統(tǒng)計特性確定數(shù)據(jù)分布特征。JABLONSKI等[4]對比分析了正態(tài)分布、威布爾分布、極值分布及核密度估計在氣體壓縮機監(jiān)測過程中異常數(shù)據(jù)的識別能力,發(fā)現(xiàn)核密度估計在數(shù)據(jù)流異常時識別準確率最高。值得注意的是,核密度估計的精度主要取決于帶寬的選擇,不同的帶寬獲得的分布特點不同,其閾值也不同。
為了自適應選擇帶寬,李國慶等[14]采用漸進積分誤差法為擴散核函數(shù)選取自適應最優(yōu)帶寬,提高了光伏出力模型的局部適應性。CHEN等[15]提出了自適應加權局部在線密度估計,實現(xiàn)核密度帶寬的自適應選擇。牛文鐵等[16]采用四叉樹算法實現(xiàn)了自適應帶寬核密度估計。上述方法為帶寬的自適應選擇提供了不同的思路,其核心都是通過不同優(yōu)化算法得到最優(yōu)的帶寬序列。然而,這些優(yōu)化算法同樣存在先驗參數(shù)選擇問題。盡管優(yōu)化算法給出了參數(shù)選取的經驗公式,但參數(shù)不合理同樣會導致估計偏差[17]。
本文針對上述問題提出了一種基于局部均值誤差最小的自適應核密度估計方法,并應用于旋轉機械劣質監(jiān)測數(shù)據(jù)識別。該方法通過對監(jiān)測時域信號的頻域積分后的峭度指標進行統(tǒng)計分析,根據(jù)局部均值誤差最小的準則優(yōu)化帶寬,實現(xiàn)最優(yōu)帶寬選擇,從而獲得最符合數(shù)據(jù)分布的概率密度曲線。最后根據(jù)95%的置信區(qū)間進行閾值選擇,并采用工程數(shù)據(jù)驗證所提方法的有效性。
旋轉機械監(jiān)測劣質數(shù)據(jù)識別的核心是通過設置有效的閾值對不能正常表征設備退化的劣質數(shù)據(jù)進行識別。閾值設置對監(jiān)測的影響如圖1所示。若閾值設定過高,則會將異常點判定為正常,造成劣質數(shù)據(jù)識別不全;若閾值過低,則容易將正常數(shù)據(jù)標記為異常樣本,造成監(jiān)測的誤報。因此只有合理設定閾值,才能準確識別劣質數(shù)據(jù)。
圖1 閾值設置示意圖Fig.1 Schematic diagram of threshold setting
基于概率密度的劣質數(shù)據(jù)識別方法流程如圖2所示,主要步驟如下:
(1)根據(jù)現(xiàn)有的歷史監(jiān)測數(shù)據(jù),計算對劣質數(shù)據(jù)具有高敏感性的監(jiān)測指標,最大限度實現(xiàn)劣質數(shù)據(jù)識別;
(2)根據(jù)上述計算所得指標獲得相應的統(tǒng)計分布規(guī)律;
(3)選用合適的分布函數(shù)對統(tǒng)計分布規(guī)律進行擬合,以分布函數(shù)的95%置信區(qū)間對應的邊界作為劣質數(shù)據(jù)判定閾值。若該監(jiān)測指標超出閾值則認為該采集樣本數(shù)據(jù)為劣質數(shù)據(jù),反之正常。
圖2 劣質數(shù)據(jù)識別策略Fig.2 Exceptional data identification policies
核密度估計基于非參數(shù)擬合方法,在數(shù)據(jù)分布先驗知識未知的情況下實現(xiàn)參數(shù)分布的最優(yōu)擬合,構建數(shù)據(jù)分布模型。
核密度估計基于經驗密度函數(shù)提出,設X1,X2,…,Xn是數(shù)據(jù)集X中的樣本,x1,x2,…,xn是對應樣本的觀測值,則在數(shù)據(jù)對應的頻率分布直方圖中,滿足
(1)
頻率分布直方圖中,區(qū)間內的樣本數(shù)越多,對應區(qū)間的概率密度越大。
在經驗密度函數(shù)的基礎上構造以樣本觀測值x為中心、區(qū)間長度h為直徑的鄰域,用樣本觀測值落入鄰域的個數(shù)估計觀測值x對應的概率密度。設函數(shù)K(x)符合密度函數(shù)特性,即
(2)
則可以將函數(shù)K(x)稱為核函數(shù),一般情況下選擇高斯分布函數(shù)。基于核函數(shù)構建觀測值分布的核密度可表示為
(3)
根據(jù)式(3),可以利用核密度函數(shù)對歷史已知數(shù)據(jù)觀測值分布特征進行擬合,從而獲得當前數(shù)據(jù)集觀測值分布模型。值得注意的是,不同帶寬h的選擇直接影響分布的擬合效果,h過大會使估計結果過于平滑,掩蓋數(shù)據(jù)結構,h過小會產生過多的數(shù)據(jù)噪聲[18]。通常情況下,我們希望的是數(shù)據(jù)密集點處采用小帶寬,而數(shù)據(jù)分布稀疏的地方采用大帶寬。
為了識別監(jiān)測過程的異常數(shù)據(jù),本文提出了一種基于自適應核概率密度估計的劣質監(jiān)測數(shù)據(jù)識別方法。該方法通過對采集的機械信號進行指標計算,然后針對該指標進行核密度估計,最后將95%的置信度進行閾值劃分,從而進行異常指標識別。由圖3可知,具體步驟如下:
(1)根據(jù)監(jiān)測的歷史樣本數(shù)據(jù)進行異常指標計算。針對旋轉機械常見的異常數(shù)據(jù)類型,如零點漂移、局部噪聲等,通過對信號進行頻域積分處理即可將突變特征轉變?yōu)闆_擊特征,計算積分的峭度指標:
圖3 所提方法流程Fig.3 The flow of the proposed method
(4)
假設x(t)經傅里葉變換為A(ω),則
(5)
式中,Δf為頻率分辨率;H(ω)為開關函數(shù),當fd<ωΔf (2)基于自適應高斯核密度估計的積分峭度指標統(tǒng)計分析。本方法采用高斯核密度函數(shù): (6) 式中,s為監(jiān)測指標序列的元素,s=Ki。 選擇不同帶寬優(yōu)化整個觀察樣本間隔估計的擬合優(yōu)度。用可變帶寬wt估計的峰值速率由下式給出: (7) 可變帶寬wt作為在局部間隔內優(yōu)化的帶寬。在這種方法中,wt用于局部優(yōu)化的區(qū)間長度調節(jié)函數(shù)的形狀,從而獲得最優(yōu)的擬合優(yōu)度。為了選擇用于局部優(yōu)化的區(qū)間長度,在t時刻引入局部MISE準則: (8) 減去與w的選擇無關的項,引入t時刻的局部成本函數(shù): (9) 為了實現(xiàn)自適應帶寬的選擇,引入了局部MISE進行不同帶寬的選擇,其估計成本函數(shù)為 (10) p,q=1,2,…,N (11) 式中,N為監(jiān)測指標的數(shù)量,即采集的數(shù)據(jù)組數(shù)。 (12) 則考慮可變帶寬的損失函數(shù)可以描述為 (13) (3)根據(jù)步驟(2)獲得概率分布函數(shù),計算95%置信度的邊界線作為異常數(shù)據(jù)的報警閾值。 下面通過車橋耐久試驗的全壽命數(shù)據(jù)對提出的方法進行分析及驗證。 車橋疲勞試驗臺如圖4所示,試驗臺有3個驅動電機,其中一端與車橋的輸入端相連,用于動力驅動,其他兩端與車橋的輪邊相連,用于負載。為了監(jiān)測車橋傳動鏈的健康狀態(tài),通常在橋殼及軸承座處添加振動加速度傳感器,傳感器為CTC公司的AC103。參照車橋坐標系建立測試系統(tǒng)坐標系,設定如下:Z軸沿車橋輸入軸軸向并平行于試驗臺面,X軸沿車橋輸入軸徑向并平行于臺面,Y軸垂直于X、Z軸。采樣頻率為3886 Hz,每2 min采集一組數(shù)據(jù),每組采樣30 s。 圖4 車橋疲勞試驗臺Fig.4 Axle fatigue test bench 某次車橋耐久試驗的開箱結果如圖5所示,車橋輸入圓錐齒輪的齒頂處存在明顯的剝落。 圖5 圓錐齒輪剝落Fig.5 The peeling off of bevel gear 輸入端軸承座測點的振動加速度有效值監(jiān)測趨勢如圖6所示。可以發(fā)現(xiàn),早期監(jiān)測指標較為平穩(wěn),而368 min(第184組)數(shù)據(jù)出現(xiàn)拐點,指標明顯呈上升趨勢,其中在平穩(wěn)階段出現(xiàn)了明顯的異常點。觀察該指標對應的原始信號發(fā)現(xiàn),造成指標突變的主要原因是采集的數(shù)據(jù)質量缺失,主要表現(xiàn)為零點漂移及局部噪聲,如圖7所示。 圖6 監(jiān)測趨勢Fig.6 Monitoring trends (a)零點漂移 (b)局部噪聲圖7 信號時域特征Fig.7 Time-domain characteristics of signals 采用本文提出的指標分別對劣質監(jiān)測數(shù)據(jù)、正常數(shù)據(jù)及故障數(shù)據(jù)進行分析,結果如圖8所示。圖8中,頻域積分處理過的零點漂移及局部噪聲信號均表現(xiàn)為非平穩(wěn)特性,時域信號中均出現(xiàn)明顯的局部沖擊;而正常及故障狀態(tài)的振動加速度信號經過頻域積分處理后仍表現(xiàn)出較好的循環(huán)平穩(wěn)特性。經過頻域積分處理的峭度指標趨勢如圖9所示,正常數(shù)據(jù)及退化數(shù)據(jù)的峭度指標均在3左右,且較為集中。同時,存在9個數(shù)據(jù)點明顯偏離且與圖6識別的劣質數(shù)據(jù)相吻合。因此,提出的指標能夠較好地區(qū)分劣質數(shù)據(jù)與反映軸承狀態(tài)的數(shù)據(jù)。 (a)零點漂移 (b)局部噪聲 (c)正常信號 (d)故障信號圖8 頻域積分時域圖Fig.8 Time domain diagram of frequencydomain integration 圖9 頻域積分后的峭度指標趨勢圖Fig.9 Trend chart of frequency domain integralkurtosis index 為了自適應獲取劣質數(shù)據(jù),采用統(tǒng)計學方法進行閾值選取。分別采用固定帶寬核密度估計及本文提出的可自適應帶寬核密度估計對指標進行統(tǒng)計分析,其中基于固定帶寬估計的帶寬為0.5。此外,對比分析采用基于四叉樹分割算法的自適應帶寬算法[16],分割的區(qū)域參數(shù)來自文獻[16]的經驗公式。采用95%置信區(qū)間進行閾值劃分。 圖10為不同方法對數(shù)據(jù)分布的估計結果。圖10a中,統(tǒng)計的峭度指標主要集中在2左右,3種方法在[5,25]區(qū)間的高斯核密度估計分布較為接近。而在[5,25]區(qū)間中,提出的方法估計結果與頻率分布直方圖的更為接近。固定帶寬估計方法無法兼顧不同稀疏程度的分布結果。相比于提出的方法,基于四叉樹分割的自適應帶寬的核密度估計在[5, 25]區(qū)間分布更為平滑,局部特性差,主要是由于其帶寬在該區(qū)間普遍大于提出的方法。由于峭度指標不小于0,下邊界為0,根據(jù)95%的置信區(qū)間制定上邊界閾值,如表1所示。 (a)概率密度分布 (b)帶寬 (c)累積概率圖10 不同方法對數(shù)據(jù)分布的統(tǒng)計Fig.10 Data distribution estimation of different methods 表1 閾值設定(95%置信區(qū)間) 根據(jù)表1給出的閾值設定,對原始數(shù)據(jù)頻域積分峭度進行異常組識別,識別結果如圖11所示。固定帶寬及提出的方法均能有效識別劣質數(shù)據(jù),而基于四叉樹分割算法的核密度估計方法出現(xiàn)了一組漏判。值得注意的是,固定帶寬核密度估計方法確定閾值與退化數(shù)據(jù)較為接近,極易誤判。 圖11 原始數(shù)據(jù)識別結果Fig.11 Identification results of original data 圖12 軸承滾動體剝落Fig.12 Spalling of bearing rolling body 圖13 劣質數(shù)據(jù)識別結果Fig.13 Identification results of poor quality data 采用同一測試臺架,在相同測試工況下對相同型號的車橋進行振動狀態(tài)監(jiān)測。該試驗的最終結果為軸承滾動體剝落,如圖12所示。采用上述方法對監(jiān)測數(shù)據(jù)進行數(shù)據(jù)質量評估,通過峭度指標及信號時域分析,發(fā)現(xiàn)采集的658組數(shù)據(jù)中的5組存在明顯的質量問題。上述提出的閾值在劣質數(shù)據(jù)識別時的結果如圖13所示。圖13中,提出的方法準確識別了所有的劣質數(shù)據(jù)。固定帶寬的核密度估計方法識別的閾值過小,導致374組后出現(xiàn)大量的誤判問題。而基于四叉樹分割算法的自適應核密度估計方法出現(xiàn)了1組漏判,而漏判的值與閾值較為接近。結合圖10a可以發(fā)現(xiàn),基于四叉樹分割的方法在[5,25]區(qū)間估計的概率密度較為平滑,與條形圖分布有所區(qū)別,推測分割區(qū)域參數(shù)選擇不合理是導致基于四叉樹分割算法出現(xiàn)漏判的原因[17]。采用混淆矩陣[19]的指標對結果進行評估,如圖14所示,自適應核密度估計方法均有較好的估計效果,且在同型號設備劣質數(shù)據(jù)識別中具有較好的泛化能力。 圖14 統(tǒng)計分析Fig.14 The statistical analysis (1)本文提出的頻域積分峭度指標對旋轉機械劣質監(jiān)測數(shù)據(jù)具有較好的識別能力,尤其是對具有零點漂移的時序數(shù)據(jù)。 (2)提出了基于自適應帶寬核密度估計的異常監(jiān)測數(shù)據(jù)識別方法。相比于固定帶寬的核密度估計以及基于四叉樹分割算法的自適應核密度估計算法,提出的方法能夠自適應地擬合監(jiān)測指標的分布情況,采用95%置信區(qū)間能夠很好地識別異常數(shù)據(jù),且對同型號設備的異常數(shù)據(jù)識別具有較好的泛化能力。 (3)本文提出的基于統(tǒng)計分布的閾值制定方法依賴于數(shù)據(jù)分布的完備性,后續(xù)將進一步深入分析研究。3 試驗驗證
3.1 試驗條件及參數(shù)
3.2 指標提取
3.3 閾值制定
3.4 數(shù)據(jù)驗證
4 結論