戶文剛, 趙榮珍
(蘭州理工大學(xué)機(jī)電工程學(xué)院 蘭州,730050)
轉(zhuǎn)子故障是旋轉(zhuǎn)機(jī)械中常見的故障且危害極大,準(zhǔn)確判斷轉(zhuǎn)子系統(tǒng)的故障程度和故障類型,對避免重大事故的發(fā)生至關(guān)重要。通過采集振動信號進(jìn)行故障檢測和診斷是一種應(yīng)用較廣的方法[1-2]。為了獲得較高的診斷精度,可以從振動信號時域、頻域和時頻域等方面提取反映機(jī)械設(shè)備運行狀態(tài)的量化特征,但隨著特征數(shù)量的增多,在故障診斷過程中需處理的特征集維數(shù)過高,產(chǎn)生了“維數(shù)災(zāi)難”問題[3],這加大了分類器的訓(xùn)練時間和空間復(fù)雜度。因此,對故障特征集進(jìn)行非線性維數(shù)約簡,提取有用的低維敏感特征就顯得非常關(guān)鍵[3-6]。
根據(jù)是否使用了類別標(biāo)簽,傳統(tǒng)的降維方法被劃分成2 類:①無監(jiān)督降維,如主成分分析(principal component analysis,簡稱PCA)[7];②有監(jiān)督降維,如Fisher 判別分析(Fisher discriminant analysis,簡稱FDA)[8]。無監(jiān)督降維方法由于不能利用標(biāo)簽樣本的類別信息,導(dǎo)致最后的分類結(jié)果精度不夠準(zhǔn)確。有監(jiān)督降維方法雖然能夠利用標(biāo)簽信息指導(dǎo)降維過程,避免了無監(jiān)督降維方法在降維過程中的盲目性,但需要對每個樣本進(jìn)行標(biāo)記,當(dāng)訓(xùn)練樣本中沒有標(biāo)簽樣本或者標(biāo)簽樣本不足時,其泛化能力會急劇降低[9]。然而,在實際應(yīng)用中對數(shù)據(jù)樣本進(jìn)行標(biāo)記是費時費力的,需要一定的專家知識,而獲取大量的無標(biāo)記樣本則相對容易很多。因此,針對無監(jiān)督降維和有監(jiān)督降維各自存在的問題,研究僅需少量的標(biāo)簽樣本和大量的無標(biāo)簽樣本的半監(jiān)督降維成為降維領(lǐng)域的熱點[10-11]。半監(jiān)督學(xué)習(xí)可以同時利用少量的標(biāo)簽樣本和大量的無標(biāo)簽樣本來改善有監(jiān)督降維方法的泛化能力,提高無監(jiān)督降維方法的高效性[12]。半 監(jiān) 督 局 部Fisher 判 別 分 析(semi-supervised local Fisher discriminant analysis,簡稱SELF)[13]是半監(jiān)督降維的代表方法之一,能夠利用少量標(biāo)簽樣本和大量無簽樣本中的信息指導(dǎo)降維過程,避免了因有標(biāo)簽樣本不足引起的過學(xué)習(xí)問題。但是,SELF 本質(zhì)上仍是線性降維方法,面對復(fù)雜的非線性、不平穩(wěn)數(shù)據(jù),不能保持良好的降維效果。核方法[14]是處理非線性數(shù)據(jù)的有效方法,能較好解決線性降維方法在處理非線性問題時的不足。
筆者對核方法和半監(jiān)督局部Fisher 判別分析相結(jié)合的故障數(shù)據(jù)集降維算法進(jìn)行研究,提出了一種基于核半監(jiān)督局部Fisher 判別分析的降維方法,為解決高維和非線性機(jī)械故障數(shù)據(jù)集的維數(shù)約簡與分類問題提供一定的理論參考依據(jù)。
核方法[14]是以統(tǒng)計學(xué)理論和核技術(shù)為基礎(chǔ)的非線性數(shù)據(jù)處理技術(shù)的總稱,通過運用非線性映射將低維空間中線性不可分的數(shù)據(jù)映射到高維特征空間,進(jìn)而在特征空間中實現(xiàn)對應(yīng)的線性分類。
給定一個數(shù)據(jù)集X={xi∈RD}(i=1,2,…,n),xi和xj(i,j=1,2,…,n)為數(shù)據(jù)空間中的樣本點,數(shù)據(jù)空間到特征空間的映射函數(shù)為Φ,可直接在特征空間中實現(xiàn)向量內(nèi)積的變換(xi,xj)→K(xi,xj)=Φ(xi)TΦ(xj),從而達(dá)到優(yōu)化計算和改善算法的目的。常用的核函數(shù)主要包括:p階多項式核函數(shù)K(xi,xj)=(xi xj+1)p;高斯核函數(shù)K(xi,xj)=線性核函數(shù)K(xi,xj)=xi xj;指數(shù)核函數(shù)K(xi,xj)=
局部Fisher 判別分析(local Fisher discriminant analysis,簡稱LFDA)[15]是一種結(jié)合了原始FDA 和局部保持投影(local preserving projections,簡稱LPP)[16]的監(jiān)督降維方法,克服了原始FDA 針對多模態(tài)數(shù)據(jù)或者異常值的弱點,最大限度地提高了類間的可分性,同時保持了類內(nèi)局部結(jié)構(gòu)。LFDA 在標(biāo)簽樣本不足時,由于過度依賴少量的標(biāo)簽樣本容易陷入過學(xué)習(xí)。為了克服這一問題,Sugiyama 等[13]將LFDA 和PCA 進(jìn)行有效融合,提出了一種新的半監(jiān)督局部Fisher 判別分析算法。該方法結(jié)合PCA和LFDA 各自的優(yōu)點,綜合考慮有標(biāo)簽樣本和無標(biāo)簽樣本,使降維后的類間數(shù)據(jù)距離最大化,類內(nèi)鄰近數(shù)據(jù)間距離最小化,并盡可能地保持類內(nèi)非鄰近數(shù)據(jù)。
給定一數(shù)據(jù)集X,記為X={xi∈Rd×n)},i=(1,2,…,n',…,n),n'為有標(biāo)簽樣本的個數(shù)。其中:有類別標(biāo)簽樣本為xi(i=1,2,…,n');標(biāo)簽樣本的類別標(biāo)簽為li∈{1,2,…,c} (i=1,2,…,n')。記類別標(biāo)簽為l的類別中包含nl個樣本,則有維數(shù)約簡的目標(biāo)就是尋找一個d×r轉(zhuǎn)換矩陣T,使等 式Y(jié)=TTX成 立。其 中:Y=[y1,y2,…,yn]∈Rr×n;r(1≤r≤d)為低維空間維度。
SELF 的局部類間散度矩陣和局部類內(nèi)散度矩陣定義為
其中:S(lb)和S(lw)為LFDA 定義的局部類間和局部類內(nèi)散度矩陣,如式(3),(4)所示;S(t)為PCA 定義的全局散度矩陣,如式(5)所示;Id為標(biāo)準(zhǔn)矩陣;β∈[0,1]為權(quán)系數(shù)。
β使SELF兼具LFDA 和PCA 的特性,可通過調(diào)節(jié)β的大小來增加算法的靈活性。當(dāng)β=1 時,SELF 等價于PCA,當(dāng)β=0 時則等價于LFDA。
其中:n'li為 第li∈{1,2,…,c}(i=1,2,…,n')類 樣本數(shù);Ai,j∈[0,1]為相似矩陣。
Ai,j用于描述2 個樣本點xi和xj之間的相似性。若兩點間的相似程度越大,則Ai,j就越大,反之則Ai,j越小。Ai,j具有多種不同形式的定義,筆者采用局部尺度啟發(fā)式的定義形式計算Ai,j
其中:σi為樣本點xi的局部尺度,定義為σi=為xi的第k個最近鄰點,設(shè)置超參數(shù)k=7[17]。
SELF 的目標(biāo)函數(shù)定義為
轉(zhuǎn)換矩陣T的求解可以轉(zhuǎn)化為如式(10)所示的廣義特征向量求取
其中:λ為廣義特征值。
選取前r個最大廣義特征值對應(yīng)的廣義特征向量(α1,α2,…,αr)組成轉(zhuǎn)換矩陣T。但是,SELF 本質(zhì)上仍屬于線性化的降維方法,在解決非線性數(shù)據(jù)時比較困難,為了進(jìn)一步提高SELF 的性能,通過核方法,將SELF 的作用范圍引入到非線性領(lǐng)域。筆者選用高斯核函數(shù),將SELF 的應(yīng)用推廣到非線性領(lǐng)域。KSELF 定義的局部類間散度矩陣和局部類內(nèi)散度矩陣分別為
式(10)的廣義特征值問題等效為
根據(jù)再生核理論可知,廣義特征向量α可以表示 為a=Φ(X)φ。 在 式(13)兩 邊 同 時 左 乘Φ(X)T,得到
此時引入高斯核函數(shù)K(xi,xj)=ΦT(xi)Φ(xj),得到KSELF 的目標(biāo)函數(shù)為
其中:φ為核樣本向量
進(jìn)而得到KSELF 的轉(zhuǎn)換矩陣T,由式(15)的d個最大特征值λ1≥λ2≥…≥λd所對應(yīng)的特征向量(φ1,φ2,…,φd)組成。
輸入高維數(shù)據(jù)樣本集X={xi∈Rd}(i=1,2,…,n',…,n),包 含 類 別 標(biāo) 簽 樣 本xi(i=1,2,…,n')和低維特征空間目標(biāo)維數(shù)r。輸出投影轉(zhuǎn)換矩陣T和低維數(shù)據(jù)集Y。KSELF 算法具體實現(xiàn)步驟如下:
1)采集振動數(shù)據(jù),從時域、頻域和時頻域方面提取特征指標(biāo),構(gòu)建原始數(shù)據(jù)特征集并進(jìn)行數(shù)據(jù)歸一化處理,得到新的數(shù)據(jù)集X;
2)通過高斯核函數(shù)將X映射到高維特征空間H,得到Φ(X);
5)求解KL(b)Kφ=λKL(w)Kφ的廣義特征值和特征向量,得到前d個最大特征值對應(yīng)的特征向量(φ1,φ2,…,φd)組成投影矩陣T;
6)根據(jù)公式Y(jié)=TTΦ(X)計算高維數(shù)據(jù)集X所對應(yīng)的d維數(shù)據(jù)集Y。
實驗數(shù)據(jù)來自于如圖1 所示的雙跨度轉(zhuǎn)子故障模擬實驗臺。設(shè)置實驗臺的采樣頻率為5 kHz,轉(zhuǎn)速為2800 r/min,用12 個電渦流傳感器分別采集該轉(zhuǎn)子實驗臺軸系不對中、軸承松動、質(zhì)量不平衡、動靜碰磨和正常轉(zhuǎn)動5 種狀態(tài)的振動信號各80 組,選取其中的50 組作為訓(xùn)練樣本(其中60%為有標(biāo)簽樣本),剩余的30 組作為測試樣本。從振動信號的時域、頻域及時頻域中提取故障特征參數(shù),構(gòu)造出12個通道的特征集合。各通道故障特征參數(shù)如表1 所示,共得到12×21=252 個特征,即252 維高維數(shù)據(jù)集。
圖1 雙跨轉(zhuǎn)子實驗臺Fig.1 Double-span rotor test bench
將高維故障特征集輸入KSELF 進(jìn)行訓(xùn)練學(xué)習(xí)與維數(shù)約簡。為表現(xiàn)一般性,權(quán)系數(shù)采用折中取值,即β=0.5。根據(jù)文獻(xiàn)[17],設(shè)定KSELF 中樣本點鄰域大小k=7,為充分涵蓋原始數(shù)據(jù)集的本質(zhì)信息,設(shè)定低維子空間的維數(shù)d=4(目標(biāo)維數(shù)=故障類別數(shù)?1)。實驗從以下方面來驗證所提方法的有效性。
1)降維可視化對比。分別用PCA,KPCA,LFDA,KLFDA 和SELF 算法的降維效果和KSELF算法進(jìn)行對比驗證,得到的降維可視化結(jié)果對比如圖2 所示。文中核參數(shù)選取采用五折交叉驗證法選取最優(yōu)核參數(shù),得到KPCA,KLFDA 和KSELF 的核參數(shù)σ分別為75.6,62.5 和20.5。
表1 各通道故障特征參數(shù)Tab.1 Fault characteristic parameters of each channel
從圖2 可以看出,PCA 降維后的測試樣本分類效果不理想,這是因為PCA 是基于二階統(tǒng)計信息,其只能保持?jǐn)?shù)據(jù)最大方差方向的投影,忽略了原始特征空間的非線性特征結(jié)構(gòu)。KSELF 降維后的分類效果最好,各故障類內(nèi)間距小、類間距離明顯,這是因為其具有較強(qiáng)的非線性提取能力,并能有效地利用標(biāo)簽信息和無標(biāo)簽信息來提高故障識別率。其他4 種算法的分類效果介于二者之間。
圖2 測試樣本基于不同降維方法的降維效果Fig.2 The results of test sample based on different methods of dimension reduction
2)故障診斷的本質(zhì)是模式識別,為了直觀有效地描述上述6 種方法的降維效果,將各降維方法的識別準(zhǔn)確率如表2 所示。
從表2可以看出:①有監(jiān)督的降維方法LFDA,KLFDA,SELF 和KSELF 降維后的識別準(zhǔn)確率高于無監(jiān)督降維方法PCA 和KPCA,這是由于監(jiān)督降維方法能夠通過類別標(biāo)簽信息,尋找具有判別能力的低維特征,無監(jiān)督降維方法無法通過利用標(biāo)簽信息的指導(dǎo)作用進(jìn)行維數(shù)約簡,容易丟失大量有用的信息,使得整體的識別率較低;②半監(jiān)督降維方法SELF 和KSELF 的 識 別 率 高 于PCA 和LFDA,這是 因 為SELF 和KSELF 繼 承 了PCA 和LFDA 兩 種算法的優(yōu)勢,能綜合利用標(biāo)記樣本和無標(biāo)記樣本;③引入核方法的降維算法,利用核映射將特征集中的非線性問題轉(zhuǎn)化成線性問題,能夠有效去除空間中的噪聲與冗余信息,得到更高的識別率。
表2 各降維方法的識別準(zhǔn)確率Tab.2 Methods of dimension reduction of recognition accuracy %
3)為了驗證KSELF 方法在數(shù)據(jù)降維問題的優(yōu)越性,選用不同的訓(xùn)練樣本和測試樣本比例(測試樣本中60%為標(biāo)記樣本),將各降維方法降維后的低維 矢 量 輸 入 到K 近 鄰(K-nearest neighbor,簡 稱KNN)分類器中進(jìn)行故障辨識,得出不同訓(xùn)練樣本比例下的降維結(jié)果在KNN 中對應(yīng)的平均識別準(zhǔn)確率,如圖3 所示。
圖3 不同訓(xùn)練樣本比例對應(yīng)的平均識別準(zhǔn)確率Fig.3 The average recognition accuracy on the different number of training samples
從圖3 可以看出:6 種降維方法降維后的識別準(zhǔn)確率隨著訓(xùn)練樣本比例的增加而不斷增大;PCA 和KPCA 的識別準(zhǔn)確率在訓(xùn)練樣本數(shù)較少的情況下下降明顯,而其他監(jiān)督降維方法的識別準(zhǔn)確率整體上下降不明顯;KSELF 一直很穩(wěn)定,基本不受影響,表明提出的KSELF 算法是一種穩(wěn)定且高效的降維方法。
為了進(jìn)一步測試KSELF 方法中有標(biāo)簽樣本與無標(biāo)簽樣本的不同比例對降維效果的影響,隨機(jī)設(shè)置訓(xùn)練樣本中有標(biāo)簽樣本個數(shù)分別為10,15,20,25,30,35 和40。經(jīng)各降維算法訓(xùn)練降維后,將得到的低維測試樣本輸入KNN 分類器,得到平均識別率。不同標(biāo)記樣本數(shù)目與故障識別率的關(guān)系如圖4所示。從圖4 可以看出:①PCA 和KPCA 屬于無監(jiān)督的降維算法,不能利用有標(biāo)簽故障樣本的信息,因而未受到不同標(biāo)記樣本個數(shù)的影響;②LFDA,KLFDA,SELF 和KSELF 降維方法隨著訓(xùn)練樣本中有類別標(biāo)簽樣本個數(shù)的增加,其分類識別率也隨之增加,這是因為隨著故障標(biāo)記樣本個數(shù)的增加,可利用的先驗信息變多,過擬合現(xiàn)象隨之減少,故障識別率增加;③有監(jiān)督的降維算法LFDA 因為過度依賴標(biāo)記樣本中的信息,受標(biāo)記樣本個數(shù)的影響較大,其識別率隨著標(biāo)記樣本個數(shù)的增加變化明顯;④半監(jiān)督降維方法因能同時利用標(biāo)記樣本和無標(biāo)記樣本,在少量標(biāo)記樣本的情況下得到的識別率比較高,體現(xiàn)了半監(jiān)督降維算法相比無監(jiān)督和有監(jiān)督降維方法的優(yōu)越性。
圖4 不同標(biāo)記樣本數(shù)目與故障識別率的關(guān)系Fig.4 Relationship between the number of different labeled samples and the fault recognition rate
為了從復(fù)雜的高維和非線性故障數(shù)據(jù)集中提取有效的低維敏感特征子集,筆者從核方法和半監(jiān)督角度出發(fā),提出了一種基于核半監(jiān)督局部Fisher 判別分析的方法。該方法具有有效利用有限數(shù)量的標(biāo)記樣本和一定數(shù)量的未標(biāo)記樣本來最大化識別的能力,通過核函數(shù)將原始數(shù)據(jù)特征集中的非線性問題轉(zhuǎn)化為線性問題,可以很好地處理非線性的復(fù)雜故障數(shù)據(jù)。通過KSELF 降維,實現(xiàn)高維數(shù)據(jù)映射到低維數(shù)據(jù),其類間數(shù)據(jù)間距離最大化和類內(nèi)鄰近數(shù)據(jù)間距離最小化。通過雙跨度轉(zhuǎn)子實驗臺故障模擬實驗,驗證了KSELF 方法優(yōu)于其他算法,具有更高的故障識別精度以及更強(qiáng)的降維能力和泛化能力。該方法為復(fù)雜旋轉(zhuǎn)機(jī)械故障診斷的智能化診斷提供了一種新思路。