寇勃晨,唐力偉,鄧士杰
(陸軍工程大學(xué)石家莊校區(qū)火炮工程系, 石家莊 050000)
現(xiàn)有的特征降維方法按照降維方式分為特征選擇和特征變換。特征選擇的結(jié)果不會改變物理意義,便于理解;而特征變換的結(jié)果能挖掘數(shù)據(jù)中更深層的信息[1]。經(jīng)典的特征變換降維PCA算法是通過發(fā)現(xiàn)特征空間中全局方差最大的投影方向,如閆等[2]將PCA應(yīng)用于人臉識別領(lǐng)域,并與LDA方法結(jié)合,提高了人臉識別率。但對于非線性的數(shù)據(jù),降維后仍存在不同類混疊現(xiàn)象,而且特征之間的量級不統(tǒng)一也會影響投影方向的計(jì)算,無法實(shí)現(xiàn)良好的故障診斷[3]。
流形學(xué)習(xí)是近年來熱門的非線性降維算法,能夠提取嵌入在高維空間中的低維特征[4]。典型的流形學(xué)習(xí)算法包括等距映射算法、局部線性嵌入算法以及拉普拉斯特征映射等[5]。鄰域保持嵌入NPE算法是由He等[6]提出的,可以看作是局部線性嵌入算法的改進(jìn)。NPE算法能保持鄰域結(jié)構(gòu)不變,在數(shù)據(jù)降維的同時(shí)獲得從高維空間到低維空間的投影矩陣,方便了新數(shù)據(jù)的處理[7]。NPE算法提出后被迅速應(yīng)用于人臉識別領(lǐng)域以及故障診斷領(lǐng)域,Huang H等[8]將判別稀疏NPE用于高光譜圖像分類;Chen X等[9]將最大邊緣NPE算法用于人臉識別;劉嘉敏等[10]針對歐氏距離不能真實(shí)反映高維數(shù)據(jù)空間分布,提出相關(guān)NPE算法;Miao A等[11]提出非局部結(jié)構(gòu)約束的NPE算法并應(yīng)用于故障檢測;宋濤等[12]將正交鄰域保持嵌入用于軸承故障診斷,又提出增殖正交鄰域保持嵌入[13]用于動態(tài)數(shù)據(jù)的降維。
本研究針對故障辯識問題,提出一種基于改進(jìn)重構(gòu)模型的自適應(yīng)NPE算法(Improved Model-Adaptive Neighborhood Preserving Embedding,IM-ANPE)。算法首先采用自適應(yīng)鄰域方法構(gòu)建鄰域結(jié)構(gòu),再利用樣本集的本征維數(shù)作為目標(biāo)維數(shù),在建立低維重構(gòu)模型時(shí)引入類間中心距離公式,保證降維后異類樣本中心點(diǎn)距離最大化,然后求解最優(yōu)問題得到投影矩陣以及降維后的數(shù)據(jù),最后代入概率神經(jīng)網(wǎng)絡(luò)PNN進(jìn)行故障識別。來自UCI標(biāo)準(zhǔn)數(shù)據(jù)庫和柱塞泵實(shí)測故障數(shù)據(jù)表明,IM-ANPE相比NPE能有更好降維辯識效果。
NPE算法是對LLE算法的改進(jìn),其核心思想是將高維數(shù)據(jù)集降到低維,保持?jǐn)?shù)據(jù)間的結(jié)構(gòu)不變。兩種算法都假定在局部范圍內(nèi)數(shù)據(jù)的結(jié)構(gòu)是可以線性表示的,即任意一個(gè)點(diǎn)可以通過其鄰域各點(diǎn)的線性組合得到,并在降維后這種線性關(guān)系保持不變。
NPE流形學(xué)習(xí)算法可以分以下步驟進(jìn)行:
假設(shè)存在樣本集X=[x1,x2,…,xN],xi∈RD,即每個(gè)樣本含有D個(gè)特征指標(biāo),共N個(gè)樣本。需要得到樣本在低維度的映射表示Y=[y1,y2,…,yN],yi∈Rd,d< 第1步計(jì)算樣本間的歐式距離,構(gòu)造樣本集的距離矩陣ED: (1) 第2步尋找樣本點(diǎn)的k個(gè)近鄰點(diǎn),通過對距離矩陣ED的每一列按數(shù)值從近到遠(yuǎn)升序排列,刪除第一行(因?yàn)榈谝恍斜硎緲颖镜狡浔旧淼木嚯x,無意義),然后選擇每列前k個(gè)元素作為該列對應(yīng)樣本的k-近鄰點(diǎn); 第3步計(jì)算鄰域權(quán)值矩陣W,算法假設(shè)每個(gè)樣本點(diǎn)可以被它的k個(gè)近鄰點(diǎn)線性表示,則定義誤差函數(shù): (2) 式中:Wi表示樣本xi對應(yīng)的鄰域權(quán)值向量,xij表示xi的第j個(gè)近鄰點(diǎn);wij是xi到xij之間的權(quán)值,誤差函數(shù)越小,說明權(quán)值取得越好。Wi的求解過程詳見文獻(xiàn)[14]。求解每個(gè)樣本點(diǎn)的權(quán)值向量Wi,然后根據(jù)近鄰點(diǎn)對應(yīng)位置擴(kuò)展成N×N矩陣W。 第4步在低維空間重構(gòu)樣本集Y,使樣本集擁有和高維樣本集X相同的鄰域結(jié)構(gòu),于是定義代價(jià)函數(shù)ε(Y),并使代價(jià)函數(shù)最小化: trace(Y(I-W)(I-W)TYT)= trace(YMYT) (3) 將Y=ATX代入式(3),并在限制條件YYT=NI下,采用Lanrange乘子法即可解算出投影矩陣: (4) 通過求解矩陣(XXT)-1XMXT的前d個(gè)最小特征值所對應(yīng)的特征向量,就組成投影矩陣A。然后代入公式Y(jié)=ATX中求出低維空間重構(gòu)樣本集Y。 針對原有NPE算法只利用了鄰域信息,而忽略樣本類別信息,導(dǎo)致投影前距離相近的異類樣本在降維投影后依然相近,不利于故障辯識。本文提出基于改進(jìn)重構(gòu)模型的NPE算法,通過利用訓(xùn)練樣本的標(biāo)簽信息規(guī)定投影方向,可以在該投影方向上有最大異類樣本中心距離,提高降維投影后樣本的辯識精度。 對以上maxδ(A)、maxδ(B)、maxδ(C)三個(gè)表達(dá)式進(jìn)行融合變形得到廣義的公式: (5) k=1,2,…,z-1 (6) 其中:z是樣本總類數(shù)。為避免漏算錯(cuò)算,L(1)類可被定義為yi所在類的下一類,L(2)類被定義為yi所在類的下下一類,以此類推。比如類A的L(1)類為B,L(2)類為C;類B的L(1)類為C,L(2)類為A。 仔細(xì)觀察式(5)的最后一行,發(fā)現(xiàn)和公式(3)的第二行有相同的結(jié)構(gòu),于是合并兩個(gè)公式得到最優(yōu)化問題: (7) 使用式(7)中的Q代替第四步中的矩陣M就是本文對NPE的低維重構(gòu)模型改進(jìn)(IM-NPE)。 傳統(tǒng)NPE降維方法對于鄰域大小的選擇,是基于全局參數(shù)的k近鄰或ε近鄰方法,雖然方便實(shí)現(xiàn)但是這種全局參數(shù)的方法只適用于數(shù)據(jù)點(diǎn)分布均勻的流形,具體的參數(shù)需要人為經(jīng)驗(yàn)選擇,且不能根據(jù)樣本局部的分布情況自行調(diào)整[15]。如果k值選擇過小,則鄰域不連通,如果k值選擇過大,容易造成短路現(xiàn)象;并且固定的k值會造成樣本密集地區(qū)鄰域選擇過小,稀疏地區(qū)鄰域又選擇過大,固定的ε值也會導(dǎo)致稀疏地區(qū)近鄰點(diǎn)太少。參考文獻(xiàn)[16]中的自適應(yīng)鄰域構(gòu)造方法,首先采用馬氏距離衡量樣本間的接近程度,因?yàn)轳R氏距離不受樣本特征的量綱影響,更符合數(shù)據(jù)的真實(shí)分布情況,再以平均馬氏距離為參考初選每個(gè)樣本點(diǎn)的鄰域: (8) (9) (10) (11) 降維算法中除了鄰域k值,另一個(gè)重要參數(shù)就是目標(biāo)維數(shù)d。如果目標(biāo)維數(shù)選擇過小,可能會導(dǎo)致不同類別之間產(chǎn)生重疊;如果目標(biāo)維數(shù)選擇過大,又可能會造成樣本點(diǎn)松散,失去聚類效果,且增加計(jì)算量。本文將使用文獻(xiàn)[17]中的自適應(yīng)極大似然估計(jì)法計(jì)算樣本集的本征維數(shù)作為樣本集的目標(biāo)維數(shù): (12) (13) (14) 本文基于改進(jìn)重構(gòu)模型的自適應(yīng)NPE降維法(IM-ANPE)的整個(gè)流程如圖2所示,先根據(jù)式(8)~式(11)計(jì)算局部鄰域,再根據(jù)式(12)~式(14)估計(jì)目標(biāo)維數(shù),然后使用本文的改進(jìn)重構(gòu)模型的NPE降維方法(IM-NPE)求出投影矩陣,最后得到降維后數(shù)據(jù)。 采用來自UCI標(biāo)準(zhǔn)數(shù)據(jù)庫和柱塞泵實(shí)測數(shù)據(jù)對本文算法進(jìn)行驗(yàn)證,將本文算法的降維結(jié)果作為輸入向量代入概率神經(jīng)網(wǎng)絡(luò)PNN進(jìn)行故障辯識,并與原始特征作為輸入向量和NPE降維結(jié)果作為輸入向量進(jìn)行比較。 選擇UCI數(shù)據(jù)庫的wine數(shù)據(jù)集、wpbc數(shù)據(jù)集、iris數(shù)據(jù)集進(jìn)行分析,表1給出各數(shù)據(jù)集信息。 表1 各數(shù)據(jù)集信息 首先選擇wine數(shù)據(jù)集做可視化降維演示。wine數(shù)據(jù)集包含3類178個(gè)樣本,第1類樣本59個(gè),第2類樣本71個(gè),第3類樣本48個(gè),每個(gè)樣本有13個(gè)特征和1個(gè)標(biāo)簽信息。為計(jì)算方便每種樣本抽取相同數(shù)量24個(gè),組成容量為72的樣本集。NPE降維法的近鄰參數(shù)設(shè)為10,目標(biāo)維數(shù)定為3,效果如圖3所示。 從圖3可以看出,NPE降維結(jié)果保持了樣本的鄰域結(jié)構(gòu),第2類分布較散,與第3類有一點(diǎn)重合,與第1類存在部分重合,對于分類辯識的目的來說,效果較差;IM-ANPE的降維結(jié)果較NPE降維結(jié)果,分類性能有明顯提升,三類樣本的分界線明顯。造成以上現(xiàn)象的主要原因是NPE算法能保持局部結(jié)構(gòu),但是沒有標(biāo)簽信息的參與,選擇的投影方向不適合分類辯識;本文的改進(jìn)方法,通過尋找一個(gè)投影方向,在原有保持局部同類結(jié)構(gòu)的基礎(chǔ)上保持異類之間樣本中心距離最大化,提高了區(qū)分度。 將提取樣本集的各種降維結(jié)果作為PNN概率神經(jīng)網(wǎng)絡(luò)的輸入進(jìn)行訓(xùn)練,然后用整個(gè)樣本集作為測試樣本,表2給出辯識結(jié)果。 表2 辯識結(jié)果 % 下面應(yīng)用柱塞泵實(shí)測故障信號對本文方法的降維性能進(jìn)行分析。數(shù)據(jù)采集自某實(shí)驗(yàn)室柱塞泵實(shí)驗(yàn)平臺,信號為泵體的軸向振動信號,如圖4所示。實(shí)驗(yàn)中信號狀態(tài)包括正常狀態(tài)、單柱塞磨損、雙柱塞磨損、單松靴、雙松靴以及配油盤磨損6種。柱塞泵型號為25SCY14-1B,電機(jī)采用恒轉(zhuǎn)速1 500 r/min,采樣頻率設(shè)置為20 kHz,單個(gè)數(shù)據(jù)的長度為 1 s,每種工況80組,6組共480組數(shù)據(jù)樣本。采用“db4”小波包對樣本進(jìn)行6層分解,每個(gè)樣本得到64個(gè)自頻帶分量重構(gòu)信號,求取64個(gè)分量信號的能量熵并進(jìn)行歸一化作為64維特征向量。 每種工況隨機(jī)選取40組作為訓(xùn)練樣本,剩余40組作為測試樣本。對訓(xùn)練樣本分別應(yīng)用NPE法和IM-ANPE方法進(jìn)行降維,經(jīng)過式(12)~(14)計(jì)算目標(biāo)維數(shù)為6,表3給出對實(shí)測信號采用不同降維方法的辯識結(jié)果。圖5給出兩種降維方法前3維度的數(shù)據(jù)分布。 表3 故障信號辯識結(jié)果 % 從表3中發(fā)現(xiàn),原始特征不經(jīng)過任何方法處理,直接代入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和識別,其總體故障識別率最低;經(jīng)過NPE降維處理后,總體識別率并沒有顯著提高;經(jīng)過IM-ANPE降維后總體識別率有了很大提升。從細(xì)節(jié)觀察,經(jīng)過NPE降維處理后單柱塞、單松靴、雙松靴3種故障識別率有一定提升,雙柱塞故障識別率反而降低,這是因?yàn)镹PE算法雖考慮了數(shù)據(jù)非線性結(jié)構(gòu),但是沒有規(guī)定確切的投影方向,不適用于分類辯識問題;而本文方法利用樣本標(biāo)簽信息,改進(jìn)重構(gòu)模型,使投影方向上的異類中心距離最大化,所以降維后的特征能更好反映不同類型、不同工況之間的差異,各種工況的識別率都有提升。 1) 通過使用樣本集的標(biāo)簽信息,改進(jìn)NPE算法的低維重構(gòu)模型,使樣本集降維后能在關(guān)注同類樣本結(jié)構(gòu)不變的同時(shí),保證投影方向上非同類樣本的中心點(diǎn)距離最大化,以便獲得更高辨識度的低維特征。并且使用自適應(yīng)鄰域和本征維數(shù)解決NPE算法中重要參數(shù)的選擇問題,最終形成一套適用于故障辯識的無參數(shù)流形學(xué)習(xí)降維方法——基于改進(jìn)重構(gòu)模型的自適應(yīng)鄰域保持嵌入(IM-ANPE)。 2) UCI數(shù)據(jù)庫的3組數(shù)據(jù)經(jīng)降維處理后的辯識結(jié)果以及wine樣本集的可視化分布圖表明,IM-ANPE方法的樣本分離效果較NPE方法更好。柱塞泵實(shí)測信號處理后的辯識結(jié)果以及可視化分布圖也表明,IM-ANPE算法的故障識別率最高,相比未處理特征和NPE降維后的特征,IM-ANPE算法在故障判別上更具優(yōu)勢。2 改進(jìn)重構(gòu)模型
3 鄰域k與目標(biāo)維數(shù)d的選擇
3.1 局部鄰域k
3.2 目標(biāo)維數(shù)d
4 改進(jìn)方法驗(yàn)證
4.1 UCI標(biāo)準(zhǔn)數(shù)據(jù)庫
4.2 柱塞泵故障數(shù)據(jù)
5 結(jié)論