黃玉婧, 徐 智, 單添敏, 曹 亮, 王景霖, 沈 勇
1.故障診斷與健康管理技術航空科技重點實驗室,上海 201601;2.航空工業(yè)上海航空測控技術研究所,上海 201601)
直升機由于其靈活機動、受空間限制較小的優(yōu)勢,近幾年來在工業(yè)、民用、國防等領域都得到了越來越廣泛的應用。尤其在國防領域,軍用直升機的工作條件往往較為惡劣,其飛行的可靠性尤為重要。其中傳動系統(tǒng)作為其核心功能系統(tǒng),不僅需要滿足小體積、大功率的要求,而且其工作環(huán)境往往存在電磁、高溫等干擾,另外也會有不可避免的工藝誤差、材料缺陷,因此直升機傳動系統(tǒng)的故障診斷是一個重要的研究方向[1-2]。滾動軸承作為直升機的核心零部件之一,是影響直升機健康運行的重要因素,因此對其進行高效準確的故障診斷具有重要意義[3-4]。
近幾年來,眾多學者對滾動軸承故障診斷開展了研究。張琛等[5]利用集合經驗模態(tài)分解進行信號的篩選和重構,并根據重構信號奇異值熵的大小來進行滾動軸承故障類型的判斷。陳海周等[6]利用最小熵解卷積,對強噪聲環(huán)境下的故障信號進行降噪,再對降噪后的Teager能量信號進行頻域特征提取。隨著機器學習的進一步推廣,越來越多的學者將機器學習算法應用到滾動軸承故障診斷上。徐可等[7]首先對經驗模態(tài)分解進行改進,提取能量特征,再利用優(yōu)化支持向量機進行故障識別。汪朝海等[8]在經驗模態(tài)分解的基礎上將分量能量和分量局部平均頻率生成復合特征,再用主成分分析法實現故障識別。Han等[9]在兩個數據集上對比了極限學習機、概率神經網絡、支持向量機和隨機森林(Random Forest,RF)這4種分類算法,證明RF在分類準確性、穩(wěn)定性和魯棒性上均表現更優(yōu)。
為了進一步提高直升機滾動軸承故障診斷的精度,解決分類算法常用的時域特征指標在直升機部件與傳遞路徑復雜、信號表現非平穩(wěn)等條件下,在特征空間內可能存在重疊,難以充分反映信號特性,從而影響分類精度的問題,將傳統(tǒng)時域指標和多尺度空間的思想相結合,構造能夠表征更豐富信息的多尺度特征,并進行有效的特征選擇處理,通過RF模型實現故障的有效分類診斷。
在滾動軸承的故障診斷中,時域特征是一類常用且有效的指標,其計算方法簡單,且能表征豐富信息。時域特征根據量綱的有無可以分成兩類。本文共提取出10個時域特征,其中有量綱指標4項,無量綱指標6項,各指標具體計算公式如下。
(1)
② 均方根(Xrms):有量綱指標,表征信號有效值。
(2)
③ 方差(Xvar):有量綱指標,表征信號動態(tài)分量。
(3)
④ 標準差(Xst):有量綱指標,表征信號離散程度。
(4)
⑤ 波形指標(Sf):無量綱指標。
(5)
⑥ 脈沖指標(If):無量綱指標,表征信號沖擊存在情況。
(6)
⑦ 裕度指標(CLf):無量綱指標,表征設備磨損程度。
(7)
⑧ 峰值指標(Cf):無量綱指標,表征峰值在波形中的極端性。
(8)
⑨ 峭度指標(Kv):無量綱指標,表征波形平緩程度。
(9)
⑩ 偏度指標(Sv):無量綱指標,表征信號分布的非對稱性。
(10)
Relief算法始于1992年,被用來處理二分類下的特征選擇問題。該算法通過特征與類別之間的關聯(lián)性為特征賦予權重,關聯(lián)性取決于特征對相近樣本的區(qū)分能力,區(qū)分能力強,關聯(lián)性大,權重也大,根據被賦予權重的大小來選擇更敏感的特征。但是Relief只能解決二分類問題,為解決多分類的問題,ReliefF算法應運而出,其主要思想是一個具有良好分類效果的特征會具有凝聚同類樣本、疏遠異類樣本的能力,該算法性能更強、更穩(wěn)定[10]。
ReliefF的具體計算流程如下[11]。
設樣本集為D,隨機從D中抽取出的樣本為R,抽取共m次。
① 將全部特征權重置0,即w(F)=0,其F=1,2,…,n,其中n為特征總數。
②Hj(j=1,2,…,k)為從R的同類別樣本集中抽取的k個最近鄰樣本,另外從R的各個不同類別樣本集中均抽取k個最近鄰樣本Mj(C)(j=1,2,…,k),其中C≠Class(R)。
③ 計算每個特征的權重。第F個特征的權重W(F)可由式(11)計算。
(11)
式中:p(C)和p(Class(R))都表示相應類別的概率;diff(F,R1,R2)為樣本R1和R2在第F個特征上的距離,代表差異度,計算方法如下。
如果特征是離散型,則有:
(12)
如果特征是連續(xù)型,則有:
(13)
式(11)中的diff(F,R,Hj)和diff(F,R,Mj(C))可依據式(12)和式(13)計算。
④ 由于樣本隨機抽取m次,循環(huán)步驟②和步驟③共m次,完成n個特征權重的迭代更新,式(11)中的下標i是指第i次循環(huán)。
⑤ 循環(huán)完成后,選擇大權重的部分特征組成優(yōu)化特征子集,用于后續(xù)的應用。
RF是一種集成式分類器,它是由很多隨機生成的決策樹集成而來。每棵決策樹是獨立弱分類器,當有未知類別樣本輸入時,每棵決策樹都會獨立進行判斷,再按“少數服從多數”原則,投票得到該樣本的類別[12]。
分類回歸樹(Classification and Regression Tree,CART)在目前的決策樹構造算法中十分典型。CART算法是一種二分遞歸分裂算法,選擇基尼(Gini)指數作為屬性度量指標。Gini指數通過考慮屬性所有可能的二元分裂,最終按照Gini指數最小時的模式進行分裂,當前樣本集將分裂為兩個子集[13]。CART算法在此規(guī)則下,由上至下不斷分裂,直到出現葉節(jié)點停止,完成決策樹的構造。
RF的具體實現流程如下[14]。
① 利用Bootstrap重采樣算法,有放回地隨機抽取樣本,生成k個子樣本集,即RF的規(guī)格為k。
③ 將測試樣本輸入到由前兩步得到的RF模型,每個分類二叉樹都會產生一個分類結果,按照“少數服從多數”的原則,根據全部k個結果投票確定最終分類結果。
傳統(tǒng)的各種時域特征指標,無論有無量綱,都是在單一尺度下進行分析。但由于直升機系統(tǒng)部件和傳遞路徑復雜,因此采集到的信號中可能包含多個信號源。并且考慮到信號的非平穩(wěn)性,單一尺度下的特征在特征空間內可能會有重疊,難以充分反映信號特性。綜合上述考慮,這里參考多尺度概念[15],考慮信號在多個尺度下的特征,以保證信號的整體完整性信息和局部細節(jié)信息[16],提出多尺度特征指標,反映信號在多尺度空間中的特性。
首先對原始時域信號進行不同尺度的粗?;幚?,得到其在不同尺度下的分布。對于時域序列x={x1,x2,…,xn},進行長度為τ的信號分割,其中第j個信號段為
(14)
具體粗?;幚磉^程如圖1所示,得到相應粗粒度序列y(τ)如下:
圖1 粗?;^程
(15)
式中:τ為尺度因子。
對不同尺度的粗粒度序列y(τ)進行各項時域特征的提取,即可得到所需多尺度特征。由于當τ=1時的多尺度序列y(1)即為原始時域序列x,此時計算得到的即是傳統(tǒng)時域特征。
為了更好做到滾動軸承健康類別的區(qū)分,達到更高分類精度,需要提取能夠表征軸承狀態(tài)的有效特征。本研究在傳統(tǒng)時域指標的基礎上,結合多尺度空間對特征空間重疊和信號跨尺度復雜性問題的優(yōu)勢,構建多尺度指標。同時為了降低多尺度指標對計算成本的壓力并剔除分類無用特征,采用ReliefF算法進行特征篩選,篩選后的特征將用于RF模型的訓練和滾動軸承故障分類。該算法流程圖如圖2所示。
圖2 算法流程圖
該算法具體流程如下。
① 對采集到的7種健康狀態(tài)的軸承數據進行各自的多尺度空降構建,其中尺度因子τ的選擇范圍在1~10之間,對得到的多尺度序列分別進行10種特征指標的提取,由此每個信號都會對應一個100維的原始高維多尺度特征集。該特征集能夠表征不同尺度下的信號特征,反映相應健康狀態(tài)信息。
② 為了對原始高維多尺度特征集進行冗余和負面特征的剔除,同時減輕計算成本,選擇ReliefF算法,根據特征對相似樣本的分類能力,對全體特征進行權重分配。對相似樣本的區(qū)分效果越好的特征將會被賦予越大的權重。選擇權重最大的一部分特征用于之后RF模型的構建和測試。
③ 隨機抽取全體信號樣本的60%作為訓練集,利用訓練集的敏感多尺度特征和標簽進行RF模型的訓練,剩余40%用于模型測試。RF綜合所有子分類器的結果進行投票,占比最大的類別被確定為最終分類結果。
為了對所提出的算法進行有效性驗證,選用凱斯西儲大學的公開滾動軸承數據進行分析[17]。圖3為試驗臺結構,左側為產生動力的驅動電機,中間為扭矩傳感器,右側為施加載荷的測力計,試驗軸承用于支撐電機轉軸,在電機的驅動端和風扇端均裝有振動加速度傳感器。
圖3 凱斯西儲大學試驗臺[17]
分析所用的軸承數據采樣頻率為48 kHz,軸承健康類型共7種包括:健康軸承,以及攜帶0.007 in和0.021 in內圈、外圈、滾動體故障的6種故障軸承。其中每種健康類型均安排電機負載為1馬力、2馬力(1馬力=0.75 kW)下的各100個樣本。為了增加分類的難度,在采集到的信號中均加入噪聲,以達到在負載變化的條件下,有效識別不同類型、不同程度軸承故障的目的。每種健康類型中隨機抽60%用作訓練集,剩余40%用作測試集。表1為樣本安排情況。
表1 樣本安排情況
將所有樣本數據均按照最大尺度τ=10進行粗?;幚?,構造多尺度序列空間。再對每個尺度下的粗粒度序列均進行10種特征的提取,即每個樣本將對應一個100維的原始高維多尺度特征。
由于每個特征的分類能力不一致,并且100維的特征會給計算成本帶來壓力,通過ReliefF算法對每個特征的分類能力進行評估,并賦予相應權重,特征分類能力越強,權重將越大。圖4為原始高維多尺度特征經過ReliefF算法得到的權重圖,其中橫坐標是全體特征的編號,第1~10個特征對應尺度因子τ=1,第11~20個特征對應尺度因子τ=2,后面同理。
圖4 原始高維多尺度特征權重分布
為了與不考慮多尺度下的10個原始時域特征做對比,在原始高維多尺度特征中選擇權重最大的前10個特征作為敏感特征,用作RF的輸入。每種健康類型中隨機抽60%用作訓練集,剩余40%用作測試集。圖5為該算法最終得到的分類結果。橫軸表示測試樣本編號,1~80、81~160、161~240、241~320、321~400、401~480、481~560依次指表1中的7種健康狀況??v軸為7種健康狀況相應類型標簽??梢钥吹剿岢龅乃惴ㄟ_到了95.18%的分類精度。
為了證明所提出的算法的優(yōu)勢,將不考慮多尺度下的10個原始時域特征作為輸入進行對比,分類結果如圖6所示,分類精度為93.39%??梢钥闯鲚斎胩卣鲾的肯嗟鹊那闆r下,多尺度特征和ReliefF的結合能夠為分類提供性能更好的特征。
圖6 原始時域特征分類結果
另外,為了說明RF算法的優(yōu)勢,在輸入同樣是前10個敏感多尺度特征的前提下,選擇K最鄰近(K-Nearest Neighbor,KNN)算法和樸素貝葉斯(Naive Bayes,NB)算法進行對比,相應分類結果如圖7所示。KNN算法對應精度為80.36%,NB算法對應精度為91.96%,均低于RF算法的精度,能夠看出RF在該方法中的優(yōu)勢。
圖7 KNN算法和NB算法分類結果對比
本文圍繞提高直升機滾動軸承故障診斷精度問題,結合傳統(tǒng)時域特征和多尺度空間的優(yōu)勢,提出多尺度特征的概念,結合ReliefF算法的特征選擇功能和RF算法集成學習優(yōu)勢,提出一種基于多尺度空間的直升機滾動軸承故障診斷方法。利用公開數據集對所提出的方法進行驗證和對比??梢钥闯?,所提出的方法針對7種健康狀況軸承可以達到95%以上的分類精度,相較于原始時域特征達到的93.39%分類精度,以及KNN算法80.36%的分類精度、NB算法91.96%的分類精度,都有明顯提升,說明其具有良好的可行性。然而所提出的算法目前僅應用于定轉速、定負載工況下的軸承數據,針對變轉速、變負載等工況還有待進一步研究。