亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于轉(zhuǎn)子故障數(shù)據(jù)集的KSELF 降維方法?

2021-03-03 09:20:42戶文剛趙榮珍

振動、測試與診斷 2021年1期

戶文剛，趙榮珍

（蘭州理工大學(xué)機(jī)電工程學(xué)院蘭州，730050）

引言

轉(zhuǎn)子故障是旋轉(zhuǎn)機(jī)械中常見的故障且危害極大，準(zhǔn)確判斷轉(zhuǎn)子系統(tǒng)的故障程度和故障類型，對避免重大事故的發(fā)生至關(guān)重要。通過采集振動信號進(jìn)行故障檢測和診斷是一種應(yīng)用較廣的方法［1-2］。為了獲得較高的診斷精度，可以從振動信號時域、頻域和時頻域等方面提取反映機(jī)械設(shè)備運行狀態(tài)的量化特征，但隨著特征數(shù)量的增多，在故障診斷過程中需處理的特征集維數(shù)過高，產(chǎn)生了“維數(shù)災(zāi)難”問題［3］，這加大了分類器的訓(xùn)練時間和空間復(fù)雜度。因此，對故障特征集進(jìn)行非線性維數(shù)約簡，提取有用的低維敏感特征就顯得非常關(guān)鍵［3-6］。

根據(jù)是否使用了類別標(biāo)簽，傳統(tǒng)的降維方法被劃分成2 類：①無監(jiān)督降維，如主成分分析（principal component analysis，簡稱PCA）［7］；②有監(jiān)督降維，如Fisher 判別分析（Fisher discriminant analysis，簡稱FDA）［8］。無監(jiān)督降維方法由于不能利用標(biāo)簽樣本的類別信息，導(dǎo)致最后的分類結(jié)果精度不夠準(zhǔn)確。有監(jiān)督降維方法雖然能夠利用標(biāo)簽信息指導(dǎo)降維過程，避免了無監(jiān)督降維方法在降維過程中的盲目性，但需要對每個樣本進(jìn)行標(biāo)記，當(dāng)訓(xùn)練樣本中沒有標(biāo)簽樣本或者標(biāo)簽樣本不足時，其泛化能力會急劇降低［9］。然而，在實際應(yīng)用中對數(shù)據(jù)樣本進(jìn)行標(biāo)記是費時費力的，需要一定的專家知識，而獲取大量的無標(biāo)記樣本則相對容易很多。因此，針對無監(jiān)督降維和有監(jiān)督降維各自存在的問題，研究僅需少量的標(biāo)簽樣本和大量的無標(biāo)簽樣本的半監(jiān)督降維成為降維領(lǐng)域的熱點［10-11］。半監(jiān)督學(xué)習(xí)可以同時利用少量的標(biāo)簽樣本和大量的無標(biāo)簽樣本來改善有監(jiān)督降維方法的泛化能力，提高無監(jiān)督降維方法的高效性［12］。半監(jiān) 督局部Fisher 判別分析（semi-supervised local Fisher discriminant analysis，簡稱SELF）［13］是半監(jiān)督降維的代表方法之一，能夠利用少量標(biāo)簽樣本和大量無簽樣本中的信息指導(dǎo)降維過程，避免了因有標(biāo)簽樣本不足引起的過學(xué)習(xí)問題。但是，SELF 本質(zhì)上仍是線性降維方法，面對復(fù)雜的非線性、不平穩(wěn)數(shù)據(jù)，不能保持良好的降維效果。核方法［14］是處理非線性數(shù)據(jù)的有效方法，能較好解決線性降維方法在處理非線性問題時的不足。

筆者對核方法和半監(jiān)督局部Fisher 判別分析相結(jié)合的故障數(shù)據(jù)集降維算法進(jìn)行研究，提出了一種基于核半監(jiān)督局部Fisher 判別分析的降維方法，為解決高維和非線性機(jī)械故障數(shù)據(jù)集的維數(shù)約簡與分類問題提供一定的理論參考依據(jù)。

1 核方法的概念

核方法［14］是以統(tǒng)計學(xué)理論和核技術(shù)為基礎(chǔ)的非線性數(shù)據(jù)處理技術(shù)的總稱，通過運用非線性映射將低維空間中線性不可分的數(shù)據(jù)映射到高維特征空間，進(jìn)而在特征空間中實現(xiàn)對應(yīng)的線性分類。

給定一個數(shù)據(jù)集X={xi∈RD}(i=1，2，…，n)，xi和xj(i，j=1，2，…，n)為數(shù)據(jù)空間中的樣本點，數(shù)據(jù)空間到特征空間的映射函數(shù)為Φ，可直接在特征空間中實現(xiàn)向量內(nèi)積的變換(xi，xj)→K(xi，xj)=Φ(xi)TΦ(xj)，從而達(dá)到優(yōu)化計算和改善算法的目的。常用的核函數(shù)主要包括：p階多項式核函數(shù)K(xi，xj)=(xi xj+1)p；高斯核函數(shù)K(xi，xj)=線性核函數(shù)K(xi，xj)=xi xj；指數(shù)核函數(shù)K(xi，xj)=

2 核半監(jiān)督局部Fisher 判別分析

2.1 半監(jiān)督局部Fisher 判別分析

局部Fisher 判別分析（local Fisher discriminant analysis，簡稱LFDA）［15］是一種結(jié)合了原始FDA 和局部保持投影（local preserving projections，簡稱LPP）［16］的監(jiān)督降維方法，克服了原始FDA 針對多模態(tài)數(shù)據(jù)或者異常值的弱點，最大限度地提高了類間的可分性，同時保持了類內(nèi)局部結(jié)構(gòu)。LFDA 在標(biāo)簽樣本不足時，由于過度依賴少量的標(biāo)簽樣本容易陷入過學(xué)習(xí)。為了克服這一問題，Sugiyama 等［13］將LFDA 和PCA 進(jìn)行有效融合，提出了一種新的半監(jiān)督局部Fisher 判別分析算法。該方法結(jié)合PCA和LFDA 各自的優(yōu)點，綜合考慮有標(biāo)簽樣本和無標(biāo)簽樣本，使降維后的類間數(shù)據(jù)距離最大化，類內(nèi)鄰近數(shù)據(jù)間距離最小化，并盡可能地保持類內(nèi)非鄰近數(shù)據(jù)。

給定一數(shù)據(jù)集X，記為X={xi∈Rd×n)}，i=(1，2，…，n'，…，n)，n'為有標(biāo)簽樣本的個數(shù)。其中：有類別標(biāo)簽樣本為xi(i=1，2，…，n')；標(biāo)簽樣本的類別標(biāo)簽為li∈{1，2，…，c} (i=1，2，…，n')。記類別標(biāo)簽為l的類別中包含nl個樣本，則有維數(shù)約簡的目標(biāo)就是尋找一個d×r轉(zhuǎn)換矩陣T，使等式Y(jié)=TTX成立。其中：Y=[y1，y2，…，yn]∈Rr×n；r(1≤r≤d)為低維空間維度。

SELF 的局部類間散度矩陣和局部類內(nèi)散度矩陣定義為

其中：S(lb)和S(lw)為LFDA 定義的局部類間和局部類內(nèi)散度矩陣，如式（3），（4）所示；S(t)為PCA 定義的全局散度矩陣，如式（5）所示；Id為標(biāo)準(zhǔn)矩陣；β∈[0，1]為權(quán)系數(shù)。

β使SELF兼具LFDA 和PCA 的特性，可通過調(diào)節(jié)β的大小來增加算法的靈活性。當(dāng)β=1 時，SELF 等價于PCA，當(dāng)β=0 時則等價于LFDA。

其中：n'li為第li∈{1，2，…，c}(i=1，2，…，n')類樣本數(shù)；Ai，j∈[0，1]為相似矩陣。

Ai，j用于描述2 個樣本點xi和xj之間的相似性。若兩點間的相似程度越大，則Ai，j就越大，反之則Ai，j越小。Ai，j具有多種不同形式的定義，筆者采用局部尺度啟發(fā)式的定義形式計算Ai，j

其中：σi為樣本點xi的局部尺度，定義為σi=為xi的第k個最近鄰點，設(shè)置超參數(shù)k=7［17］。

SELF 的目標(biāo)函數(shù)定義為

轉(zhuǎn)換矩陣T的求解可以轉(zhuǎn)化為如式（10）所示的廣義特征向量求取

其中：λ為廣義特征值。

選取前r個最大廣義特征值對應(yīng)的廣義特征向量(α1，α2，…，αr)組成轉(zhuǎn)換矩陣T。但是，SELF 本質(zhì)上仍屬于線性化的降維方法，在解決非線性數(shù)據(jù)時比較困難，為了進(jìn)一步提高SELF 的性能，通過核方法，將SELF 的作用范圍引入到非線性領(lǐng)域。筆者選用高斯核函數(shù)，將SELF 的應(yīng)用推廣到非線性領(lǐng)域。KSELF 定義的局部類間散度矩陣和局部類內(nèi)散度矩陣分別為

式（10）的廣義特征值問題等效為

根據(jù)再生核理論可知，廣義特征向量α可以表示為a=Φ(X)φ。在式（13）兩邊同時左乘Φ(X)T，得到

此時引入高斯核函數(shù)K(xi，xj)=ΦT(xi)Φ(xj)，得到KSELF 的目標(biāo)函數(shù)為

其中：φ為核樣本向量

進(jìn)而得到KSELF 的轉(zhuǎn)換矩陣T，由式（15）的d個最大特征值λ1≥λ2≥…≥λd所對應(yīng)的特征向量(φ1，φ2，…，φd)組成。

2.2 KSELF 算法具體實現(xiàn)步驟

輸入高維數(shù)據(jù)樣本集X={xi∈Rd}(i=1，2，…，n'，…，n)，包含類別標(biāo) 簽樣本xi(i=1，2，…，n')和低維特征空間目標(biāo)維數(shù)r。輸出投影轉(zhuǎn)換矩陣T和低維數(shù)據(jù)集Y。KSELF 算法具體實現(xiàn)步驟如下：

1）采集振動數(shù)據(jù)，從時域、頻域和時頻域方面提取特征指標(biāo)，構(gòu)建原始數(shù)據(jù)特征集并進(jìn)行數(shù)據(jù)歸一化處理，得到新的數(shù)據(jù)集X；

2）通過高斯核函數(shù)將X映射到高維特征空間H，得到Φ(X)；

5）求解KL(b)Kφ=λKL(w)Kφ的廣義特征值和特征向量，得到前d個最大特征值對應(yīng)的特征向量(φ1，φ2，…，φd)組成投影矩陣T；

6）根據(jù)公式Y(jié)=TTΦ(X)計算高維數(shù)據(jù)集X所對應(yīng)的d維數(shù)據(jù)集Y。

3 實驗結(jié)果與分析

3.1 數(shù)據(jù)集

實驗數(shù)據(jù)來自于如圖1 所示的雙跨度轉(zhuǎn)子故障模擬實驗臺。設(shè)置實驗臺的采樣頻率為5 kHz，轉(zhuǎn)速為2800 r/min，用12 個電渦流傳感器分別采集該轉(zhuǎn)子實驗臺軸系不對中、軸承松動、質(zhì)量不平衡、動靜碰磨和正常轉(zhuǎn)動5 種狀態(tài)的振動信號各80 組，選取其中的50 組作為訓(xùn)練樣本（其中60%為有標(biāo)簽樣本），剩余的30 組作為測試樣本。從振動信號的時域、頻域及時頻域中提取故障特征參數(shù)，構(gòu)造出12個通道的特征集合。各通道故障特征參數(shù)如表1 所示，共得到12×21=252 個特征，即252 維高維數(shù)據(jù)集。

圖1 雙跨轉(zhuǎn)子實驗臺Fig.1 Double-span rotor test bench

3.2 實驗結(jié)果分析

將高維故障特征集輸入KSELF 進(jìn)行訓(xùn)練學(xué)習(xí)與維數(shù)約簡。為表現(xiàn)一般性，權(quán)系數(shù)采用折中取值，即β=0.5。根據(jù)文獻(xiàn)［17］，設(shè)定KSELF 中樣本點鄰域大小k=7，為充分涵蓋原始數(shù)據(jù)集的本質(zhì)信息，設(shè)定低維子空間的維數(shù)d=4（目標(biāo)維數(shù)=故障類別數(shù)?1）。實驗從以下方面來驗證所提方法的有效性。

1）降維可視化對比。分別用PCA，KPCA，LFDA，KLFDA 和SELF 算法的降維效果和KSELF算法進(jìn)行對比驗證，得到的降維可視化結(jié)果對比如圖2 所示。文中核參數(shù)選取采用五折交叉驗證法選取最優(yōu)核參數(shù)，得到KPCA，KLFDA 和KSELF 的核參數(shù)σ分別為75.6，62.5 和20.5。

表1 各通道故障特征參數(shù)Tab.1 Fault characteristic parameters of each channel

從圖2 可以看出，PCA 降維后的測試樣本分類效果不理想，這是因為PCA 是基于二階統(tǒng)計信息，其只能保持?jǐn)?shù)據(jù)最大方差方向的投影，忽略了原始特征空間的非線性特征結(jié)構(gòu)。KSELF 降維后的分類效果最好，各故障類內(nèi)間距小、類間距離明顯，這是因為其具有較強(qiáng)的非線性提取能力，并能有效地利用標(biāo)簽信息和無標(biāo)簽信息來提高故障識別率。其他4 種算法的分類效果介于二者之間。

圖2 測試樣本基于不同降維方法的降維效果Fig.2 The results of test sample based on different methods of dimension reduction

2）故障診斷的本質(zhì)是模式識別，為了直觀有效地描述上述6 種方法的降維效果，將各降維方法的識別準(zhǔn)確率如表2 所示。

從表2可以看出：①有監(jiān)督的降維方法LFDA，KLFDA，SELF 和KSELF 降維后的識別準(zhǔn)確率高于無監(jiān)督降維方法PCA 和KPCA，這是由于監(jiān)督降維方法能夠通過類別標(biāo)簽信息，尋找具有判別能力的低維特征，無監(jiān)督降維方法無法通過利用標(biāo)簽信息的指導(dǎo)作用進(jìn)行維數(shù)約簡，容易丟失大量有用的信息，使得整體的識別率較低；②半監(jiān)督降維方法SELF 和KSELF 的識別率高于PCA 和LFDA，這是因為SELF 和KSELF 繼承了PCA 和LFDA 兩種算法的優(yōu)勢，能綜合利用標(biāo)記樣本和無標(biāo)記樣本；③引入核方法的降維算法，利用核映射將特征集中的非線性問題轉(zhuǎn)化成線性問題，能夠有效去除空間中的噪聲與冗余信息，得到更高的識別率。

表2 各降維方法的識別準(zhǔn)確率Tab.2 Methods of dimension reduction of recognition accuracy %

3）為了驗證KSELF 方法在數(shù)據(jù)降維問題的優(yōu)越性，選用不同的訓(xùn)練樣本和測試樣本比例（測試樣本中60%為標(biāo)記樣本），將各降維方法降維后的低維矢量輸入到K 近鄰（K-nearest neighbor，簡稱KNN）分類器中進(jìn)行故障辨識，得出不同訓(xùn)練樣本比例下的降維結(jié)果在KNN 中對應(yīng)的平均識別準(zhǔn)確率，如圖3 所示。

圖3 不同訓(xùn)練樣本比例對應(yīng)的平均識別準(zhǔn)確率Fig.3 The average recognition accuracy on the different number of training samples

從圖3 可以看出：6 種降維方法降維后的識別準(zhǔn)確率隨著訓(xùn)練樣本比例的增加而不斷增大；PCA 和KPCA 的識別準(zhǔn)確率在訓(xùn)練樣本數(shù)較少的情況下下降明顯，而其他監(jiān)督降維方法的識別準(zhǔn)確率整體上下降不明顯；KSELF 一直很穩(wěn)定，基本不受影響，表明提出的KSELF 算法是一種穩(wěn)定且高效的降維方法。

為了進(jìn)一步測試KSELF 方法中有標(biāo)簽樣本與無標(biāo)簽樣本的不同比例對降維效果的影響，隨機(jī)設(shè)置訓(xùn)練樣本中有標(biāo)簽樣本個數(shù)分別為10，15，20，25，30，35 和40。經(jīng)各降維算法訓(xùn)練降維后，將得到的低維測試樣本輸入KNN 分類器，得到平均識別率。不同標(biāo)記樣本數(shù)目與故障識別率的關(guān)系如圖4所示。從圖4 可以看出：①PCA 和KPCA 屬于無監(jiān)督的降維算法，不能利用有標(biāo)簽故障樣本的信息，因而未受到不同標(biāo)記樣本個數(shù)的影響；②LFDA，KLFDA，SELF 和KSELF 降維方法隨著訓(xùn)練樣本中有類別標(biāo)簽樣本個數(shù)的增加，其分類識別率也隨之增加，這是因為隨著故障標(biāo)記樣本個數(shù)的增加，可利用的先驗信息變多，過擬合現(xiàn)象隨之減少，故障識別率增加；③有監(jiān)督的降維算法LFDA 因為過度依賴標(biāo)記樣本中的信息，受標(biāo)記樣本個數(shù)的影響較大，其識別率隨著標(biāo)記樣本個數(shù)的增加變化明顯；④半監(jiān)督降維方法因能同時利用標(biāo)記樣本和無標(biāo)記樣本，在少量標(biāo)記樣本的情況下得到的識別率比較高，體現(xiàn)了半監(jiān)督降維算法相比無監(jiān)督和有監(jiān)督降維方法的優(yōu)越性。

圖4 不同標(biāo)記樣本數(shù)目與故障識別率的關(guān)系Fig.4 Relationship between the number of different labeled samples and the fault recognition rate

4 結(jié)束語

為了從復(fù)雜的高維和非線性故障數(shù)據(jù)集中提取有效的低維敏感特征子集，筆者從核方法和半監(jiān)督角度出發(fā)，提出了一種基于核半監(jiān)督局部Fisher 判別分析的方法。該方法具有有效利用有限數(shù)量的標(biāo)記樣本和一定數(shù)量的未標(biāo)記樣本來最大化識別的能力，通過核函數(shù)將原始數(shù)據(jù)特征集中的非線性問題轉(zhuǎn)化為線性問題，可以很好地處理非線性的復(fù)雜故障數(shù)據(jù)。通過KSELF 降維，實現(xiàn)高維數(shù)據(jù)映射到低維數(shù)據(jù)，其類間數(shù)據(jù)間距離最大化和類內(nèi)鄰近數(shù)據(jù)間距離最小化。通過雙跨度轉(zhuǎn)子實驗臺故障模擬實驗，驗證了KSELF 方法優(yōu)于其他算法，具有更高的故障識別精度以及更強(qiáng)的降維能力和泛化能力。該方法為復(fù)雜旋轉(zhuǎn)機(jī)械故障診斷的智能化診斷提供了一種新思路。