張 琪,吳亞鋒,徐 建
(1.中國華陰兵器試驗中心 環(huán)境模擬室,陜西 華陰 714200;2.西北工業(yè)大學 動力與能源學院,西安 710072)
?
主成分分析與遺傳神經網絡在制冷系統(tǒng)故障診斷中的應用
張 琪1,吳亞鋒2,徐 建1
(1.中國華陰兵器試驗中心 環(huán)境模擬室,陜西 華陰 714200;2.西北工業(yè)大學 動力與能源學院,西安 710072)
針對低溫試驗系統(tǒng)制冷設備測點多、數據間存在強相關性等特點,將主成分分析法和遺傳神經網絡智能識別方法進行組合,引入制冷系統(tǒng)的故障診斷中;結合專家經驗和主成分分析客觀地對多傳感器信息進行了科學合理的故障特征優(yōu)選,從而確定了神經網絡的輸入空間;為了克服神經網絡易陷入局部最小的缺陷,利用遺傳算法的全局搜索能力,對神經網絡的初始權值和閾值進行了優(yōu)化;運用該方法對制冷系統(tǒng)各故障狀態(tài)進行識別,結果表明,簡潔有效的網絡結構不僅縮短了訓練時間,而且提高了網絡的穩(wěn)定性和分類精度,為監(jiān)測系統(tǒng)提供了一種有效的故障診斷方法。
故障診斷;主成分分析法;遺傳神經網絡;MATLAB
由于低溫模擬試驗系統(tǒng)設備組成復雜,任務負荷大,溫控要求高,其設備安全可靠的運行至關重要。制冷設備一旦出現故障,將造成巨大的經濟損失和社會影響。因此需要對系統(tǒng)設備實時開展故障診斷,及時監(jiān)測設備的運行狀況,識別故障早期征兆,對故障部位、故障程度和發(fā)展趨勢做出準確判斷, 以實現設備的預知性維修,即由計劃維修向狀態(tài)檢修過渡,提高機組的可靠性和可利用率。
故障診斷的本質是對工況狀態(tài)模式的識別過程。神經網絡作為模式分類器應用非常普遍,其強大的自學習機制能夠實現輸入和輸出之間的非線性映射。誤差反向傳播的前饋型網絡(BP)是神經網絡中最精華的部分,應用于實例的神經網絡約80%~90%都采用了BP網絡或它的變形。由于神經網絡具有自身容易陷入局部最小的缺陷,有必要利用遺傳算法的全局搜索能力對網絡的連接權值與閾值進行優(yōu)化,改善網絡識別的穩(wěn)定性和精度。針對實際狀態(tài)、特征信息種類多,強關聯的特點,應用主成分分析法(PCA)提取出可反映樣本絕大部分信息的少數相互獨立的綜合變量。本文結合PCA和GABP網絡的優(yōu)點,將控制系統(tǒng)測量信息作為輸入,9個典型故障類型作為輸出,仿真結果表明,該組合算法結構簡潔,識別速度快,分類精度較高。
1.1 主成分分析法的基本思想
由于模式識別方法的日益成熟,識別精確的關鍵很大程度上取決于從原始數據中提取的特征變量。為了降低計算的復雜性,避免海量數據引起的效率低下、高維特性導致的維數災難問題和非線性特性帶來的線性模型失效問題等,對原始數據進行降維是很有必要的。主成分分析正是利用降維的思想,研究原始變量相關矩陣的內部結構,找出幾個綜合指標,綜合指標是原來變量的線性組合。在故障診斷中,不同故障表現出的部分征兆可能是相同的,多種征兆的強相關性使得診斷結果準確性不能得到保證。通過對輸入故障征兆的降維,去除冗余信息,降低數據間的相關性,使得不同類特征的類間距離最大,同類特征的類內距離最小,對這一特征更敏感。其優(yōu)點在于實現了可觀的數據壓縮,降低了對通信帶寬和數字信號處理器的要求,有利于實時處理。
1.2 主成分分析法的代數和幾何意義
主成分分析是一種多元統(tǒng)計分析方法。通過把高維信息投影到低維子空間,并保留其主要過程信息。具體方法是借助一個正交變換T,將其分量相關的原隨機向量x=(x1,x2,…,xp)T,轉化成其分向量不相關的新隨機向量u=(u1,u2,…,up)T,這在代數上表現為將x的協(xié)方差陣變換成對角形陣,在幾何上變現為將遠坐標系變換成新的正交坐標系,使之指向樣本點散步最開的p個正交方向,以一個較高的精度轉換成低維度變量系統(tǒng)。根據數據變化的方差大小來確定變化方向的主次位置,按主次順序得到各個彼此獨立主成分。為了便于理解,在二維空間中進行說明。
假設有n個樣本,每個樣本包含2個觀測量x1和x2,在x1、x2所確定的二維平面中,n個樣本點的散步情況如圖1所示。
圖1 x1和x2坐標系下樣本點的分布
從圖1可知,這n個樣本點在坐標軸的任意方向上都具有很大的離散性,如果僅考慮x1和x2中的一個,則會損失很多原始數據的信息。通過同時把x1和x2軸逆時針旋轉θ角度,從而得到坐標軸y1和y2,如圖2所示。旋轉的主要目的是令n個樣本點在y1軸方向最大程度的離散,此時,y1的方差達到最大,新變量包含了原始數據的絕大部分信息(譬如方差貢獻率85%以上),在研究問題時可以不考慮y2,兩個變量縮減成一個,降維簡化了問題。
圖2 y1和y2坐標系下樣本點的分布
根據旋轉公式:
y1=x1cosθ+x2sinθ
y2=-x1sinθ+x2cosθ
我們看到新變量y1和y2是原變量x1和x2的線性組合,它的矩陣表示形式為:
其中:U′為旋轉變換矩陣,是正交矩陣,即有U′=U-1,U′U=I。
主成分分析法在實際問題的應用中,設某個控制過程有p個變量,如果系統(tǒng)狀態(tài)可以由指標中的k個主分量(k
1.3 主成分分析的數學模型
在實際問題中,常見的情況如n個樣品p個變量x1,x2,…,xp,原始數據矩陣為:
(1)
為了使采集到的不同量綱的多源數據它們具有可比性,先對原始數據進行標準化處理,使得每個變量均值為0,方差為1。常用的標準化方法是z-score標準化:
(2)
協(xié)方差CX為:
(3)
計算CX的特征值λ1, λ2,…,λp和對應的歸一化特征向量U1, U2,…Up:
(4)
式中,Uj=[u1j, u2j,…, unj]T。設特征值λ1≥λ2≥…≥λp,則yj=UjTX(j=1,2,…,p)即為輸入矩陣在特征向量下的投影,就是X的j個主分量。這樣就將x=(x1,x2,…,xp)’的p個變量轉換成p個新的綜合變量了,新變量yj可有原變量x1,x2,…,xp線性表示,即:
(5)
系數uij的確定原則為:
(1)yj與yij(i≠j;i,j=1,2,…,p)相互無關;
(2)y1為x1, x2,…xp一切線性組合中方差最大者;y2為與y1不相關的x1, x2,…xp的所有線性組合中方差最大者;yp為y1,y2,…, yp-1都不相關的x1, x2,…xp所有線性組合中方差最大者。
按以上方法確定的綜合變量y1,y2,…yp分別稱為原變量的第1, 第 2,…,第p個主成分。并且y1在總方差中所占比例是最大的,其余y2,y3,…yp的方差在總方差中所占比例依次遞減。主成分的個數選取由主成分的累積方差貢獻率決定,累計貢獻率越大,說明保留原始的數據信息越多,通常累積方差貢獻率大于80%以上即可。
累積貢獻率定義為:
(6)
當累積貢獻率大于85%時,將前L個特征向量u1, u2,…, uL構成的低維空間作為投影空間,將原始變量投影得到新的綜合變量,至此完成原數據降維處理。這種選擇幾個方差最大的成分,以達到簡化結構,抓住問題實質的目的。
2.1 BP神經網絡與遺傳算法結合的動因
人工神經網絡是數據驅動的故障診斷中普遍和靈活的機器學習工具,是現代數據分析中的熱點,可以處理“黑箱”這類非線性辨識問題。神經元的廣泛互聯與并行工作使整個網絡呈現出高度的非線性特點。網絡可以高度自適應地學習和記憶各輸入量和輸出量之間的關系,學習對象是網絡輸入層的大量樣本,通過對各層的神經元進行訓練,在以網絡輸出均方誤差最小的訓練目標下,連接權重和閾值不斷被調整到最佳值,最終將知識以權值和閾值的形式儲存于網絡中,以此進行新樣本的狀態(tài)識別。前饋型網絡(BP)利用誤差的反向傳播逐步調整到網絡的最佳狀態(tài)。
遺傳算法(GA)在工程問題中,染色體對應的是數據或數組,通常是由一維的串結構數據來表示,串上各個位置對應基因的取值。基因組成的串就是染色體,或者稱為基因型個體。一定數量的個體組成了群體。群體中個體的數目稱為群體大小,也稱為群體規(guī)模。而各個個體對環(huán)境(評價準則,如最小均方誤差)的適應程度叫做適應度。神經網絡和遺傳算法這兩種智能算法都是模擬生物結構去表達輸入輸出之間隱性關系的。雖然神經網絡具有結構簡單,可調整參數多,訓練算法多,可操作性好的特點,但其自身也存在缺陷,由于搜索求解算法是沿梯度下降的,導致網絡存在收斂速度慢的缺點,難以保證復雜網絡的全局優(yōu)化而易導致陷入局部極小值,加之無法準確獲得網絡結構、初始連接權值和閾值,而它們卻是影響網絡訓練效果的主要因素。因此,有必要采用遺傳算法對神經網絡進行優(yōu)化。
2.2 遺傳算法與神經網絡的結合過程
遺傳算法優(yōu)化BP神經網絡是為了得到最佳的網絡連接權值和閾值,其原理是把網絡的初始權值和閾值作為染色體,建立種群,利用生物遺傳特性(復制、交叉、變異)逐代進行選擇,高收斂精度與速度保證了搜索到全局范圍內的最優(yōu)解。這個最優(yōu)解就是最佳的網絡結構,比用經驗和試驗判斷更能使網絡參數合理化,它的交叉因子和變異因子在網絡陷入局部極值時能很好地跳出來,從而克服網絡陷入局部最小的缺點,提高網絡的學習精度。遺傳BP神經網絡(以下簡稱GABP)算法的流程如圖3所示。
圖3 遺傳算法優(yōu)化神經網絡算法流程
該組合算法由三部分組成:BP神經網絡結構確定、權值與閾值的遺傳優(yōu)化、網絡訓練及仿真。根據樣本的輸入和輸出參數的個數來確定BP神經網絡拓撲結構,進而得出遺傳算法待優(yōu)化參數的數目,也就能計算出種群中個體的編碼長度,染色體長度s=R×s1+s1×s2+s1+s2(R,s1,s2分別為輸入層,中間隱含層和輸出層的神經元個數),并編碼成二進制形式。交叉概率和變異概率這兩個關鍵的遺傳參數是根據適應度的大小進行選擇的。訓練網絡的第一步需要初始化參數,獲取一組隨機數,這個參數是影響網絡訓練的重要因素,但是隨機的通常不準確,為了得到最佳的權值和閾值,運用遺傳算法對訓練過程進行優(yōu)化。遺傳算法按照其染色體的復制、交叉、變異原則調整網絡的連接權值和閾值,計算出BP網絡輸出與測試目標的均方誤差E:
(7)
(Ok,Tk分別為輸出層輸出和目標值),進而得到遺傳進化的適應度,向著適應度增大(即網絡輸出誤差最小)的方向在進化代中搜尋最優(yōu)的個體,即使網絡的均方誤差最小的權值和閾值。將全部樣本按步驟讓網絡學習一遍后,訓練結束的條件是全部樣本的輸出誤差均小于設定的誤差精度,如果未達到,網絡將繼續(xù)學習,以相同的條件判定是否結束,最終得到最優(yōu)的權值與閾值輸入網絡進行識別。
3 主成分分析法與遺傳神經網絡結合在制冷系統(tǒng)故障診斷中的應用
3.1 故障樣本的獲取
低溫制冷系統(tǒng)大多故障過程屬于緩變故障,溫度、壓力、流量、轉速等多種信號具有變化緩慢、頻率較低、波形沒有劇烈起伏的特點,設備從正常運行到故障征兆出現再到故障災害發(fā)生是一個較慢的過程,這個故障征兆累計過程中大多數狀態(tài)量是連續(xù)變化的。
核心設備渦輪出現故障將是系統(tǒng)故障的頂事件,很多原因能夠引起頂事件的發(fā)生,即制冷系統(tǒng)制冷量不足或不能制冷,而且?guī)追N征兆往往同時出現,目前常用且成熟的診斷方法是基于各種故障所對應的征兆。進行診斷時,按照由專家經驗和系統(tǒng)機理制定的數據統(tǒng)計處理規(guī)則,將從設備運行中采集到的各種信號提取特征信息,從而獲得故障的相關征兆,利用此征兆進行診斷是否故障和哪類故障。
3.2 主成分分析法的制冷系統(tǒng)故障特征提取
依據制冷系統(tǒng)典型故障域特征向量,利用SPSS數據分析軟件進行主成分特征提取。具體分析結果如下。
1)提取特征值及主成分個數:
如表1所示,λ1=13.792,λ2=11.302,λ3=8.164,λ4=5.955,λ5=5.197,λ6=2.516,λ7=1.950,λ8=1.125,λ9=λ10=,…,=λ50=0,可以看出,前8個因子特征值大于1,且它們的累積方差貢獻率幾乎達到了100%,符合了達到85%以上的提取要求,可以認為這8個因子包含了大部分的信息。這與主成分碎石圖的分析結果相吻合。
表1 各成分特征值、方差貢獻率及累計方差貢獻率
2) 生成新變量:
上述確定了前8個特征值作為制冷系統(tǒng)故障體系的主要因素,而相應的主成分成份矩陣即表達了新的影響因子Y1,Y2,Y3,Y4,Y5,Y6,Y7,Y8與原始變量之間的關系,即新的故障模式樣本表2所示。
圖4 主成分分析碎石圖
根據該矩陣寫出新變量表達式:
Y1=0.389X1-0.450X2-0.450X3+0.389X4+0.389X5+0.389X6+0.853X7+0.943X8+0.376X9+0.376X10+…-0.443X49-0.450X50
Y2=-0.065X1+0.747X2+0.747X3-0.065X4-0.065X5-0.065X6-0.008X7+0.062X8+0.517X9+0.517X10-0.705…-0.705X49+0.747X50
表2 提取成分荷載矩陣成份矩陣a
.
.
.
Y8=-0.750X34+0.750X35
3.3 基于GABP神經網絡的狀態(tài)故障診斷網絡建模
網絡輸入是被測對象的故障征兆特征值,輸出是該狀態(tài)對應的故障模式。下面對制冷系統(tǒng)分別用BP網絡和PCA-GABP網絡建模進行故障識別。前者根據制冷系統(tǒng)典型故障論域特征向量選取50個征兆參數A={A1,A2,…,A50}作為BP網絡的輸入,以9類故障Ci(i=1,2,…,9)作為輸出,經驗證,這里取隱含層節(jié)點數為17,BP網絡結構50×17×9。PCA-GABP網絡的結構與GABP網絡僅區(qū)別于輸入層節(jié)點數不同。由3.2節(jié)可知,表征低溫系統(tǒng)狀態(tài)的征兆參數有8個,即網絡輸入節(jié)點數目為8,PCA-GABP網絡結構為8×13×9。遺傳算子染色體長度分別為1029和243,種群大小和遺傳代數分別設定為50和100。輸出變量是故障模式代號,用布爾值串表示。如第3種故障C3就是T=[001000000]。隱含層和輸出層神經元傳遞函數均采用S型函數,分別為S型正切函數tansig和S型對數函數logsig;網絡訓練函數取trainlm,并調用遺傳算法工具箱優(yōu)化初始值對網絡進行訓練,可提高網絡的穩(wěn)定性和訓練速度。訓練目標0.01,自學習率0.08,訓練次數5 000次。
待檢狀態(tài)樣本1:低溫試驗系統(tǒng)在降溫過程中,測控系統(tǒng)測得的制冷系統(tǒng)運行狀態(tài)為:1號渦輪轉速超高、2號渦輪轉速超高1號渦輪膨脹機出口溫度降低、2號渦輪膨脹機出口溫度降低、回冷器冷側進口溫度升高、低溫室室內壓差為0、低溫室回氣閥位增至全開等。其故障論域的特征向量可表示為:test1=[00000000001100001111001100111001000000000000000010]。
待檢狀態(tài)樣本2:低溫試驗系統(tǒng)在保溫過程運行中發(fā)現如下癥狀:水冷器進出水溫差小、水冷器出口氣體溫度高、空冷器熱側出口氣體溫度高、渦輪膨脹機進口溫度高、1號渦輪壓氣機出口溫度高、2號渦輪壓氣機出口溫度高、回冷器冷側進口溫度升高。其故障論域的特征向量可表示為:test2=[00000000000000000000001110000000000000001001001010]。
由上述主成分分析法進行特征優(yōu)選,得到降維約簡后的特征向量:P_test1=[-4.9752 -4.6545 5.6303 3.1172 1.2140 1.6260 0.0000 0.0000];P_test2=[-2.5208 2.7679 0.4479 1.1261 -1.8676 2.9149 0.0000 0.0000]。
3.4 網絡訓練與測試
PCA-GABP網絡的訓練:按照上面設計的網絡參數進行訓練,訓練過程如圖5所示。
圖5 PCA-GABP網絡訓練過程
由圖5可以看出:PCA-GABP網絡達到了較高的網絡性能要求,但在訓練過程中發(fā)現,PCA-GABP網絡的穩(wěn)定性明顯高于BP網絡,且縮短了訓練時間。
網絡測試:訓練好網絡后,分別將P_test1和P_test2作為測試輸入向量,對網絡進行仿真測試,識別結果如表3所示。
表是實例1和實例2經過兩種網絡測試結果。實例1中兩種網絡的識別結果均顯示是第9種故障,即試驗室密封不嚴密,這與實際情況相一致。實例2中均顯示是第6種故障,即水冷器冷水側壁面結垢嚴重換熱效率低,也是正確的。通過比較可以得出,這兩種網絡均能夠識別出故障,但PCA-GABP網絡的輸出隸屬度稍高,提高了網絡的識別精度。
本文提出的主成分分析法與GABP神經網絡組合的診斷方法,在保證網絡的識別精度不變的前提下,能夠消除變量間的冗余信息,簡化GABP網絡結構,縮減網絡訓練時間,是實時在線監(jiān)測的有效方法。利用這一網絡可以在很短的時間內診斷出故障,以便于操作人員及時做出應對處理。
表3 PCA-GABP和BP網絡對實例1與實例2的測試結果
[1]AbhijitSPandya,RobertBMacy. 神經網絡模式識別及其實現[M].徐 勇,荊 濤,等譯. 北京:電子工業(yè)出版社,1999.
[2] 陳建宏,劉 浪,周智勇,等. 基于主成分分析與神經網絡的采礦方法優(yōu)選[J]. 中南大學學報,2010,41(5):1967-1972.
[3] 周開利,康耀紅. 神經網絡模型及其MATLAB仿真程序設計[M]. 北京:清華大學出版社,2005.
[4] 陳 明.MATLAB神經網絡原理與實例精解[M]. 北京:清華大學出版社,2013.
[5] 徐 磊. 基于遺傳算法的多目標優(yōu)化問題的研究與應用[D]. 長沙:中南大學,2007.
[6] 史 峰,王 輝,等. 智能算法30個案例分析[M]. 北京:北京航空航天大學出版社,2011.
[7] 韓曉娟. 多源信息融合技術在火電廠熱力系統(tǒng)故障診斷中的應用研究[D]. 北京: 華北電力大學,2008.
[8] 蔣一然. 基于遺傳神經網絡的柴油機故障診斷技術研究[D]. 大連:大連海事大學,2009.
[9] 李向前. 復雜裝備故障預測與健康管理關鍵技術研究[D]. 北京:北京理工大學,2014.
Application of Principal Component Analysis and Genetic Neural Network in Fault Diagnosis of Refrigeration System
Zhang Qi1,Wu Yafeng2,Xu Jian1
(1. Department of Environment simulation, Huayin Ordinance Test Centre, Huayin 714200, China 2. School of Power and Energy, Northwestern Polytechnical University , Xi’an 710072, China)
According to the characteristics of data measured from refrigeration equipment in low temperature test system, such as a huge number of points, a strong correlation between the data, genetic neural network combined with principal component analysis (PCA) is introduced into fault diagnosis in the refrigeration system. With the knowledge of expert experience and PCA, the fault feature is extracted from multi sensor information in a scientific and reasonable way, so the input space of the neural network is fixed. The defects of neural network is easy to fall into the minimum in local space, but genetic algorithm(GA) has global search ability, aim at eliminating the defects, GA is used to optimize the initial weights and thresholds of neural network. Using the method into the fault state identification of the refrigeration system, it showed that the simple and effective network structure not only shorten the training time, but also improve the network stability and classification accuracy, so it provides an effective method of fault diagnosis for the monitoring system.
fault diagnosis; principal component analysis; genetic neural network; MATLAB
2016-02-27;
2016-04-18。
張 琪(1984-),女,陜西咸陽人,碩士研究生,工程師,主要從事故障診斷與預測方向的研究。
吳亞鋒(1966-),男,陜西渭南人,博士研究生導師,主要從事信號與信息處理方向的研究。
1671-4598(2016)09-0023-05
10.16526/j.cnki.11-4762/tp.2016.09.007
TP391.5
A