徐搏超
中國大唐集團科學(xué)技術(shù)研究院有限公司華東電力實驗研究院,合肥,230031
汽輪機組作為發(fā)電廠的主體設(shè)備,由于結(jié)構(gòu)眾多、工況復(fù)雜,極易受到眾多因素的干擾。當(dāng)轉(zhuǎn)子發(fā)生故障后,如何快速精準(zhǔn)地確認故障是工程研究領(lǐng)域的難點。轉(zhuǎn)子多故障診斷具有重要意義。
基于二叉樹結(jié)構(gòu)[1-2]的相關(guān)向量機(relevance vector machine, RVM)系統(tǒng)通過細化分類實現(xiàn)了多故障診斷,目前已得到廣泛應(yīng)用。文獻 [3]表明,二叉樹結(jié)構(gòu)越靠近頂節(jié)點對系統(tǒng)的累積誤差影響越大。為了提高系統(tǒng)分類精度,需要進行結(jié)構(gòu)優(yōu)化,提高上層節(jié)點的分類正確率。分類器中正負類樣本的差異性決定了該節(jié)點的分類效率。為了抑制誤差累積效應(yīng),對系統(tǒng)的優(yōu)化策略依據(jù)相似度從小到大的順序進行種類分割。目前常用的可分性判據(jù)中,基于后驗概率的可分性判據(jù)[4]、基于類的概率密度函數(shù)[5]的可分性判據(jù)對樣本數(shù)量依賴性較強,不適用于轉(zhuǎn)子故障這類小樣本問題?;趲缀尉嚯x的可分性判據(jù)[6]一般用方差描述低維空間中樣本特征向量的離散程度,相關(guān)向量機通過核函數(shù)將低維向量映射到高維空間后進行分類,在高維空間中樣本方差并不能較好地克服度量集中效應(yīng)。
高維向量之間的分?jǐn)?shù)范數(shù)差值較大,故本文選用分?jǐn)?shù)范數(shù)作為高維空間距離度量方法,研究高斯無窮維空間樣本點的形式并進行改造,使其在滿足工程精度的要求下便于計算距離;同時對傳統(tǒng)的類間類內(nèi)方差比值判據(jù)進行了改進,引入分?jǐn)?shù)范數(shù)構(gòu)造了一種適用于高斯核空間的可分性指標(biāo)。
二叉樹多分類是二叉樹結(jié)構(gòu)的多個分類器組合。對于k?類分類問題,二叉樹算法僅需要構(gòu)造k?-1個子分類,大幅度縮減了計算量。對于單個分類器而言,正負兩類訓(xùn)練樣本數(shù)量越均衡,該分類器精度越高[6]。同時為了兼顧故障診斷的時間成本,本文選擇節(jié)點查詢時間復(fù)雜度較低[7]的均衡二叉樹作為系統(tǒng)結(jié)構(gòu)圖。
基于均衡二叉樹算法的多分類系統(tǒng)訓(xùn)練過程是首先將樣本數(shù)據(jù)按類別均分成兩部分,隨機標(biāo)記為正負兩類,訓(xùn)練出根節(jié)點分類器。分別對第一部分(左節(jié)點)和第二部分(右節(jié)點)中的類別再次進行均分,訓(xùn)練第二層分類器。以此類推,直至葉子節(jié)點中只包含一類樣本。系統(tǒng)完成訓(xùn)練后,輸入測試樣本,樣本依次經(jīng)過各層分類器,最終會被歸類到某一葉子節(jié)點中完成診斷。以四分類問題為例,其均衡二叉樹結(jié)構(gòu)見圖1。
圖1 均衡二叉樹結(jié)構(gòu)圖Fig.1 Balanced binary tree structure diagram
高斯核函數(shù)空間是一個無窮維空間[8],為了找出適合高維空間的距離度量準(zhǔn)則,首先需要了解數(shù)據(jù)點的分布情況。本文通過高維空間中最近鄰分析的相關(guān)定理[9],研究樣本點在高維映射空間內(nèi)的分布規(guī)律。
定理2(定理1逆定理) 假設(shè)樣本數(shù)目n?足夠大,使得
成立,如果
則對于任一ε?,有
上述定理表明,在高維空間中樣本點范數(shù)的相對方差和相對差異都趨于零。上述方法對不同點的區(qū)分性很小。歐氏空間中方差度量的差異性隨著樣本維度的增長越來越弱,這種現(xiàn)象通常稱為度量集中[10],這表明在高維空間中樣本點趨于均勻分布。
文獻 [11-12]表明e?p?范數(shù)中p?值對高維空間距離影響較大。機器學(xué)習(xí)算法在較小的p?值易于求得稀疏解。
定理3[13]設(shè)定樣本集包含n?個d?維獨立分布的樣本點,則存在常數(shù)C?k?,使得
(1)
式中,x?i?為向量x的第i?個元素。
當(dāng)p?<1時,該范數(shù)稱為分?jǐn)?shù)范數(shù)[14]。
首先給出高斯核函數(shù)[15]表達式:
K?x,y=exp(-‖x-y‖2/(2σ?2))
(2)
式(2)的麥克勞林展開式如下:
為了保證一般性,設(shè)定σ?=1。
由上述公式推導(dǎo)可知,徑向基核函數(shù)φ?(x)的定義式為
高斯核空間屬于無窮維空間,方差判據(jù)不能有效克服度量集中現(xiàn)象導(dǎo)致的樣本點稀疏分布的難題。由上述分析可知,分?jǐn)?shù)范數(shù)相較于p?>1時的范數(shù)在高維空間中度量效果更好,故選用分?jǐn)?shù)范數(shù)作為高斯核空間樣本點的可分性判據(jù)??煞中灾笜?biāo)的構(gòu)造求解過程如下:
給定兩個原始數(shù)據(jù)集合X?={x1,x2,…,xi?},Y?={y1,y2,…,yj?},其中i?=1,2,…,n?1;j?=1,2,…,n?2。兩樣本集合映射后的均值向量分別為
(3)
類間距離度量用下式求解:
(4)
式中,μ?xi?和μ?yi?分別為向量μx?和μy?中第i?維數(shù)值。
X?和Y?的類內(nèi)距離S?x?和S?y?分別為
(5)
(6)
式中,φ?m?(xi?)和φ?n?(yi?)分別為向量φ?(xi?)和φ?(yi?)中的第m?維和第n?維數(shù)值。
分類指標(biāo)的優(yōu)劣性體現(xiàn)在兼顧同類樣本的內(nèi)聚性和異類樣本的排斥性?;谏鲜鲈瓌t,構(gòu)造可分性指標(biāo):
(7)
d?xy?越大,代表不同類的高維樣本點距離越遠,同時類內(nèi)具有內(nèi)聚性,這表明兩類樣本更易區(qū)分。
在Bently轉(zhuǎn)子實驗臺上模擬汽輪機轉(zhuǎn)子正常狀態(tài)和轉(zhuǎn)子質(zhì)量不平衡、轉(zhuǎn)子不對中、動靜碰磨、油膜渦動4種常見振動故障信號。模擬設(shè)備轉(zhuǎn)速3 000 r/min,采樣頻率1 280 Hz,采樣點數(shù)為1 024。每類狀態(tài)集前10組作為訓(xùn)練樣本,后10組作為測試樣本。
汽輪機故障信號特征大部分集中在前幾階倍頻段中,因此首先使用希爾伯特振動分解(HVD)方法分解故障信號,進而選取半頻、基頻、二倍頻和高頻計算模糊熵值,最后組合這4個頻段的特征值構(gòu)建故障特征向量。通過RVM模型進行樣本學(xué)習(xí),完成模型訓(xùn)練。上述故障特征提取過程見圖2。
圖2 故障特征提取流程圖Fig.2 Flowchart of fault feature extraction
以上述5種汽輪機運行狀態(tài)為例,對二叉樹分類系統(tǒng)進行節(jié)點優(yōu)化。實驗1中比較不同節(jié)點優(yōu)化方法對系統(tǒng)最終分類精度的影響。對照方法通過求取不同故障種類樣本特征向量的方差判斷不同類別樣本的可分性,進而進行正負類選取,樣本可分性用下式度量:
(8)
其中,D?x?和D?y?表示樣本X?和Y?基于方差算出的類內(nèi)距離;D?xy?為不同類樣本的類間距。d?xy?越大,X?和Y?兩類樣本在特征向量空間中的可區(qū)分性越大。
樣本方差優(yōu)化后的系統(tǒng)圖見圖3;通過本文提出的指標(biāo)進行優(yōu)化后的系統(tǒng)圖見圖4。完成優(yōu)化后系統(tǒng)各層節(jié)點的值見表1,優(yōu)化后系統(tǒng)的分類正確率見表2。
圖3 樣本方差指標(biāo)優(yōu)化后系統(tǒng)圖Fig.3 Optimized system chart based onsample variance index
圖4 高維可分性指標(biāo)優(yōu)化后系統(tǒng)圖Fig.4 Optimized system chart based on high-dimensionalspace separability index
dxyRVM1 RVM2RVM3RVM4樣本方差0.061 90.838 60.117 92.742 3本文方法0.137 42.140 02.946 11.076 4
表2 優(yōu)化后系統(tǒng)的分類正確率
由表2可以看出,本文提出的高維空間可分性指標(biāo)相較于傳統(tǒng)的基于樣本特征向量空間的方差指標(biāo),更能準(zhǔn)確反映樣本在高斯核空間內(nèi)的可分性。本文方法優(yōu)化后的系統(tǒng)分類準(zhǔn)確性更高。
智能診斷方法[16-17]通過充分發(fā)掘數(shù)據(jù)間的內(nèi)在關(guān)聯(lián),避免了復(fù)雜的數(shù)學(xué)建模過程,成為故障診斷技術(shù)發(fā)展的新方向。本文選用粒子群算法優(yōu)化(PSO)的聚類算法對樣本進行實驗,實驗過程首先根據(jù)訓(xùn)練樣本間的距離相關(guān)性等特征將訓(xùn)練樣本聚成不同類別;再根據(jù)待測試樣本與訓(xùn)練樣本間的匹配性進行劃分。PSO算法中群體粒子50個,最大迭代次數(shù)為400次,結(jié)果見表3。
表3 聚類算法分類結(jié)果
對比智能診斷算法和均衡二叉樹系統(tǒng)的診斷性能,結(jié)果見表4。由表4可以看出,基于均衡二叉樹的多分類系統(tǒng)相較于聚類算法,分類準(zhǔn)確率更高,時間成本更低。
表4 聚類算法和本文方法的結(jié)果比較
(1)二叉樹系統(tǒng)結(jié)構(gòu)中,各節(jié)點的正負類選取會綜合影響系統(tǒng)的分類精度。因此對多分類系統(tǒng)結(jié)構(gòu)進行優(yōu)化,抑制誤差累積效應(yīng)可以有效提高系統(tǒng)分類正確率。
(2)高斯核函數(shù)將樣本特征向量映射到無窮維空間中尋求分類超平面。樣本特征向量的方差屬于低維空間中的距離度量方法,并不能有效反映高斯核空間中樣本點的距離分布規(guī)律。本文引入分?jǐn)?shù)范數(shù)的概念對高維空間中的距離進行度量。實驗表明,本文提出的高維可分性指標(biāo)相較于傳統(tǒng)的方差指標(biāo),能更有效地判斷樣本在高維空間中的可分性。
(3)基于本文提出的指標(biāo)進行優(yōu)化后的系統(tǒng),相較于智能診斷算法,在分類正確率和耗時方面也具有一定的優(yōu)勢。