葉樹璞,孫 俊
(武漢理工大學 能源與動力工程學院,湖北 武漢 430063)
信息技術的發(fā)展,促使船舶動力系統(tǒng)變得復雜,基于多信息融合的智能診斷技術已經成為現(xiàn)代船舶故障診斷領域一個新的分支。目前,國內外學者在船舶智能故障診斷領域中多采用的是BP 神經網(wǎng)絡算法。陳興權等[1]將主成分分析法(PCA)和改進的BP神經網(wǎng)絡相結合,用于形變監(jiān)測數(shù)據(jù)處理,有效提升了神經網(wǎng)絡的收斂性。本文采用K-means和BP神經網(wǎng)絡訓練診斷模型,并利用PCA對樣本進行優(yōu)化,從而建立更精確的診斷模型。
本文基于數(shù)據(jù)挖掘技術,結合K-means和BP神經網(wǎng)絡這2種算法,以MAN B&W 5L 23/30H型主機為實驗對象構建診斷模型,并利用PCA優(yōu)化模型。智能診斷流程如圖1所示。
圖1 智能診斷流程
1)隨機選取第j類聚類中心為zj,j為自然數(shù),zj∈Rn,Rn為實數(shù)。對zj進行初始化。
2)計算樣本xi與zj的歐式距離dj。
dj=‖xi-zj‖。
(1)
3)根據(jù)最小歐氏距離Dj對xi歸類,假如Dj=min{dj},則xi∈j′。
4)更新原有聚類中心第j′類聚類中心為zj′。
(2)
式中,Nj′為第j′類所含樣本數(shù)。
然后,返回公式 (1) 進行下一樣本的分類。
5)n個樣本全部分類完成時,計算各樣本到其所屬類別中心的距離平方和為J,J為畸變函數(shù)。
(3)
K-means算法要將J值調整到最小,來終止分類。如果沒有,返回步驟1)重新初始化值和聚類中心。
BP神經網(wǎng)絡的拓撲結構如圖2所示。圖2中,P1,P2,…,Pn為網(wǎng)絡訓練的輸入,wnm為輸入層、隱含層神經元間的連接權重,wmk為隱含層、輸出層神經元間的連接權重,bm為隱含層第m個神經元,θk為輸出層第k個神經元,a1,a2,…,ak為網(wǎng)絡的預測值。
圖2 BP神經網(wǎng)絡拓撲結構
圖2中,輸入信號Pn經隱含層傳遞出的結果y與經輸出層傳遞出的結果a的計算公式分別為:
(4)
(5)
式中,f1和f2分別為輸入關系和輸出關系的傳遞函數(shù)。
在動力系統(tǒng)智能故障診斷中,經常會遇到一種裝置故障表征的背后有多種故障原因的情況。多種故障之間會存在冗余,而PCA可以有效減少樣本數(shù)據(jù)的冗余和噪聲,避免過擬合問題的出現(xiàn)。算法優(yōu)化流程示意圖如圖3所示。
圖3 算法優(yōu)化流程示意圖
第1種算法,即BP神經網(wǎng)絡算法,先進行K-means聚類,其結果直接作為BP神經網(wǎng)絡的輸入量,進行模型訓練。
第2種算法,即基于K-means和BP神經網(wǎng)絡的PCA優(yōu)化算法,先用PCA對高維度征兆數(shù)據(jù)進行降維,使其變?yōu)閮蓛刹幌嚓P的主成分,再K-means聚類。
上述2種算法的最終結果都輸入BP神經網(wǎng)絡,分別對柴油機進行工況識別,對比輸出結果,判斷診斷精度是否提升。
本文以MAN B&W 5L 23/30H型柴油機為主要研究對象,收集了柴油機在89%負荷時的5種常見工況(正常、燃油霧化不良、排氣閥漏氣、進氣閥滯后開啟、活塞缸套磨損)下測得的數(shù)據(jù)。每種工況收集了5組數(shù)據(jù),每組數(shù)據(jù)設置了8個征兆參數(shù),分別為:燃油消耗率,g/(kW·h);排氣總管溫度, ℃;爆發(fā)壓力,MPa;壓縮壓力,MPa;排氣氣管壓力,MPa;進氣氣管壓力,MPa;轉速,r/min;平均有效壓力,MPa,用集合{S1,S2,S3,S4,S5,S6,S7,S8}來表示。
進行預處理的目的是為了降低噪聲,以此加快網(wǎng)絡收斂速度。先將數(shù)據(jù)標準化,然后進行K-means聚類,K值的選取通過J函數(shù)的計算來獲取。初始聚類中心選取結果見表1。
限于篇幅,僅列出每種工況經K-means算法聚類后的2個樣本結果,樣本聚類結果(部分)見表2。
表1 初始聚類中心選取結果
表2 樣本聚類結果(部分)
表2中,A、B、C、D、E分別代表工況正常、燃油霧化不良、排氣閥漏氣、進氣閥滯后開啟、活塞缸套磨損。
本系統(tǒng)利用MATLAB2016b神經網(wǎng)絡工具箱進行過擬合訓練。具體實現(xiàn)過程為:選取K-means聚類后的樣本征兆作為神經網(wǎng)絡的輸入量,反復訓練,以工況模式輸出矩陣為目標向量,即正常為[1,0,0,0,0]T、燃油霧化不良為[0,1,0,0,0]T、排氣閥漏氣[0,0,1,0,0]T、進氣閥滯后開啟[0,0,0,1,0]T、活塞缸套磨損[0,0,0,0,1]T。接著,選定BP神經網(wǎng)絡的結構數(shù)為8-9-5,即對應的輸入節(jié)點數(shù)為8,隱含層數(shù)為9,訓練迭代數(shù)為5。然后進行多組實驗,得到PCA優(yōu)化前的網(wǎng)絡訓練誤差曲線如圖4所示。
由圖4知,當訓練次數(shù)達到8次時,已滿足目標誤差的要求,此時模型訓練精度高。選取每種工況下的隨機一組數(shù)據(jù)構成訓練樣本集來檢驗訓練模型,主機分析預測結果見表3。
圖4 PCA優(yōu)化前的網(wǎng)絡訓練誤差曲線
表3 主機分析預測結果
分析表3知,正常工況下,燃油霧化不良、活塞缸套磨損,神經網(wǎng)絡的訓練精度接近期望值。而排氣閥漏氣和進氣閥滯后開啟2種工況,隸屬度分別為0.581和0.792,較其他工況,期望結果誤差過大,要求診斷精度進一步提高。
PCA降維通過使一部分非線性相關數(shù)據(jù)丟失,能有效減少信息冗余和降低數(shù)據(jù)噪聲。PCA的實質是保留主要成分和剔除非必要部分,所以通過計算主成分的累計方差貢獻率來選取主成分的個數(shù)。數(shù)據(jù)標準化后,計算得到各組數(shù)據(jù)的特征值、方差貢獻率和累計方差貢獻率,見表4。
表4 特征值、方差貢獻率和累計方差貢獻率
由表4知,前4組特征值對應的累計方差貢獻率超過0.95。一般要求累計方差貢獻率大于0.95,才能保證計算后的變量包含原始數(shù)據(jù)的絕大多數(shù)數(shù)據(jù)特征,故前4個變量能最大限度包含樣本中95%的數(shù)據(jù)特征。然后依次計算前4組特征值的主成分。
對計算后的主成分樣本進行K-means聚類,主成分新樣本K-means聚類結果見表5。K值依據(jù)類之間明顯的區(qū)別和類別的數(shù)量來確定。
表5 主成分新樣本K-means聚類結果
經過PCA優(yōu)化后的數(shù)據(jù)結果作為BP神經網(wǎng)絡的輸入,選定網(wǎng)絡結構數(shù)為5-7-4,得到PCA優(yōu)化后的網(wǎng)絡訓練誤差曲線如圖5所示。
由圖5知,當訓練次數(shù)達到7次時,已滿足目標誤差的要求。選取各工況下隨機一組數(shù)據(jù)作為訓練樣本集,來檢驗訓練模型,主機分析預測結果見表6。
圖5 PCA優(yōu)化后的網(wǎng)絡訓練誤差曲線
表6 主機分析預測結果
分析表6知,PCA優(yōu)化后的新樣本輸入神經網(wǎng)絡時,預測精度明顯提高。
分析2種算法的實驗結果,PCA在降低樣本間關聯(lián)性和復雜性和改善網(wǎng)絡神經元間的訓練誤差方面有顯著作用。2種算法對比結果見表7。
表7 2種算法對比結果
基于上述比較結果,PCA在優(yōu)化樣本網(wǎng)絡結構和維度上有顯著作用,同時還能提升模型精度,減少平均誤差和迭代數(shù),使系統(tǒng)的總體性能得到發(fā)揮。