石 憲, 錢玉良
(上海電力大學 自動化工程學院, 上海 200090)
燃氣輪機作為燃氣-蒸汽聯(lián)合循環(huán)機組的核心動力裝備,工作于高溫、高壓、高轉速狀態(tài),極易發(fā)生故障。對燃氣輪機的狀態(tài)監(jiān)測及故障診斷不僅可以大幅提高機組運行的可靠性,而且還可以降低檢修成本。文獻[1]應用時域和頻域特征訓練深度信念網絡(Deep Belief Network,DBN),準確識別出多種氣閥故障,同時給出了DBN的內部結構和訓練過程。文獻[2]提出了一種振動信號與DBN結合的故障診斷方法,與支持向量機(Support Vector Machine,SVM)比較得到了較好的診斷結果,為DBN與燃氣輪機故障診斷提供了新的思路。文獻[3]提出了一種通過隨機森林算法訓練分類器對燃氣輪機進行故障診斷的方法,但隨機森林是弱分類器,在構建和決策過程中易產生過擬合,診斷準確率不高。文獻[4]提出了D-S證據(jù)理論決策層融合算法對燃氣輪機典型故障進行診斷,但D-S證據(jù)理論的證據(jù)沖突問題尚未得到完整的解決辦法,決策層無法進一步提高診斷方法的容錯性。
專家系統(tǒng)、數(shù)據(jù)挖掘等方法需要從大量的原始數(shù)據(jù)中提取出故障特征,燃氣輪機運行時極少產生故障數(shù)據(jù),數(shù)據(jù)庫的搭建面臨極大的問題[5];SVM對參數(shù)的選取是一個難題,參數(shù)選取不恰當會使分類的準確率大大下降[6];淺層神經網絡模型難以準確挖掘出故障特征向量與眾多故障模式之間復雜的映射關系,最終導致分類器診斷準確率不高[1]。對于燃氣輪機故障診斷面臨的問題,本文提出了一種基于遺傳算法(Genetic Algorithm,GA)優(yōu)化的DBN燃氣輪機故障診斷模型(GA-DBN模型)。DBN是一種深層網絡模型,具有更好處理高維、非線性數(shù)據(jù)的能力,同時能更快找出故障特征向量與故障模式之間復雜的非線性關系[7-9]。燃氣輪機自身結構的復雜性使得引起故障的原因多種多樣,若將大量特征向量直接輸入模型進行診斷,會使無關的特征向量影響診斷結果,造成診斷準確率下降,而且巨大的數(shù)據(jù)量會使模型診斷時間變長,效率變低。對于DBN的,結構參數(shù)選擇合適與否對模型性能的影響很大,一般DBN的初始結構參數(shù)為隨機生成,經過逆向微調得到調整,但會增加系統(tǒng)的運行時間。本文采用Apriori算法對原始特征向量進行處理,挖掘不同故障特征向量與故障類型間的規(guī)律,刻劃每類故障特征向量對不同故障模式的影響程度,去除無關特征向量,劃分訓練樣本和測試樣本。采用GA計算得到DBN的結構參數(shù)。
由于燃氣輪機自身結構極為復雜,部件繁多,因此引起燃氣輪機故障的原因多種多樣[10]。目前研究的大部分診斷方法僅依靠故障特征向量參數(shù)來診斷故障原因,雖然對識別故障種類有較高的準確度,但對故障產生原因及產生部位的識別效果較差。為了提高診斷精度,在建立故障診斷模型前,需要使用相關性分析準確刻劃每類故障特征向量對不同故障模式的影響程度,區(qū)分主次影響因素[11]。
Apriori算法適用于樣本數(shù)據(jù)有限、復雜且具有不確定性問題的分析與評價[12-13]。設元素Am稱為項,A={A1,A2,A3,…Am}為項的集合,Ym稱為目標項,Y={Y1,Y2,Y3,…Ym}為目標項的集合。D是項與目標項的集合,D={Am,Ym},即D是一個知識數(shù)據(jù)庫。一個關聯(lián)規(guī)則形如A→Y的映射關系式(A∈D,Y∈D且A∩Y=F)。規(guī)則A→Y的支持度定義為項A和Y同時發(fā)生的概率就稱為關聯(lián)規(guī)則的支持度,記Sup(A→Y),規(guī)則A→Y的置信度定義為A發(fā)生,則Y發(fā)生的概率就稱關聯(lián)規(guī)則的置信度,記Conf(A→Y),即
(1)
(2)
挖掘關聯(lián)規(guī)則實質上是尋找滿足最小置信度和最小支持度。燃氣輪機發(fā)生壓氣機葉片磨損記為Y,故障征兆可能是壓氣機發(fā)生較大幅度的振動,導致低壓壓氣機轉速變化量等特征量的變化,則將發(fā)生變化的特征量稱為故障征兆,記為:A1,A2,A3,…,Am,而A和Y是故障集D的子集。Apriori算法是一種基于多維的關聯(lián)規(guī)則,以最小支持度、最小置信度和分析目標作為條件,若所有規(guī)則均不滿足條件,則重新調整模型參數(shù),否則輸出關聯(lián)規(guī)則。
DBN是一種非監(jiān)督深層網絡結構特征學習模型,由多個受限玻爾茲曼機(Restricted Boltzmann Machine,RBM)堆疊而成[14]。
RBM是DBN的基本組成單元,本質是一種概率生成模型。RBM由可視層(v)和隱含層(h)組成??梢晫拥钠昧繛閏i,隱含層的偏置量為bj。v與h之間通過權值ωij連接,v與h內部單元之間不連接,屬于獨立個體,是一種層外有連接、層內無連接的網絡結構[15]。RBM的結構如圖1所示。
圖1 RBM結構示意
在一組確定的RBM中,用vi和hj分別表示可視層神經元和隱含層神經元的狀態(tài)。定義可視層神經元與隱含層神經元之間的聯(lián)合組態(tài)能量,即一個RBM所具備的能量為
(3)
式中:θ——RBM的結構參數(shù),θ={ωij,ci,bj};
ωij——可視層神經元與隱含層神經元之間的連接權重;
V——可視層神經元個數(shù);
H——隱含層神經元個數(shù)。
由于RBM中v層與h層各個神經元都是獨立的狀態(tài),所以當給定隱含層狀態(tài)時可視層神經元的激活概率為
(4)
式中:ξ(·)——激活函數(shù),一般選用sigmoid函數(shù)。
當給定可視層狀態(tài)時,隱含層神經元的激活概率為
(5)
式(4)表示由特征變量數(shù)據(jù)重構后輸入數(shù)據(jù)的逆向學習過程,式(5)表示RBM將高維空間的輸入數(shù)據(jù)轉換為低維特征變量的正向學習過程。在這一過程中,RBM中的ωij得到了更新,即
Δωij=α[Eobj(vihj)-Emodel(vihj)]
(6)
式中:a——學習率;
Eobj(vihj)——訓練集的目標;
Emodel(vihj)——訓練模型的輸出。
一個DBN由兩個或兩個以上的RBM堆疊形成。相鄰的兩個RBM中,底層RBM的輸出為高層RBM的輸入。圖2為包含3個RBM的一個DBN結構圖。RBM1的可視層和隱含層分別為DBN的輸入層和隱含層。最后一層為輸出層,即softmax層。由DBN結構可知,RBM1的隱含層即為RBM2的可視層,以此類推。
圖2 包含3個RBM的DBN結構示意
基于DBN的燃氣輪機故障分類器模型是通過兩個步驟訓練得到的:一是根據(jù)非監(jiān)督式學習機制,自輸入層經過隱含層到輸出層對每一個RBM進行獨立充分訓練,確定DBN初始結構參數(shù);二是采用有監(jiān)督式反向傳播算法(BP算法)自上而下整體對DBN的結構參數(shù)進行微調。
在第一步中,充分且獨立訓練每一個RBM的目的是得到最優(yōu)化參數(shù)θ*。它是整個DBN分類器模型建立的關鍵,即
(7)
式中:M——染色體個數(shù)。
根據(jù)文獻[7]提出的對比散度,得到ωij,ci,bj的更新準則為
(8)
(9)
(10)
在完成RBM的訓練后,采用有監(jiān)督式的BP算法對整體DBN網絡結構參數(shù)進行反向微調。微調的目的是進一步優(yōu)化結構參數(shù),減小訓練誤差,提高分類器的精度。訓練誤差的定義為
(11)
式中:Lm——訓練樣本;
Ym——分類器輸出。
DBN結構參數(shù)的選取對模型的整體性能有較大的影響。RBM中,θ(θ={ω,c,b})作為DBN結構參數(shù)對整個DBN故障分類器能否準確區(qū)分故障種類起著決定作用。由于最大似然估計方法的局限性,使θ極易陷入局部最優(yōu)值,不容易得到全局最優(yōu)值。本文提出了一種基于GA對θ優(yōu)化的DBN模型,將ωij,ci,bj進行數(shù)據(jù)重構,組成串結構數(shù)據(jù),隨機生成N個串結構數(shù)據(jù),每一個串結構數(shù)據(jù)作為一個染色體,與群體內其他染色體進行選擇、交叉、變異,以及適應度評價、保優(yōu)等操作,得到最優(yōu)染色體,即θ*。將θ*重新配置到DBN中,計算DBN的適應度,滿足終止條件后輸出分類結果。
GA模擬自然界生物的遺傳機制形成的過程搜索最優(yōu)解算法,具有原理簡單且全局搜索能力強的特點,在智能診斷領域有著極為廣泛的應用[16]。因此,本文采用GA對DBN結構參數(shù)進行優(yōu)化。優(yōu)化步驟分為以下3步。
(1) 初始化DBN結構參數(shù),將θ重構為串數(shù)據(jù),即為一條染色體。隨機生成一個初始種群,種群中包含M條染色體。
(2) 從種群中任意選擇一條染色體替代初始θ,訓練DBN,并計算適應度函數(shù)。適應度函數(shù)定義為Yt/Ytotal。其中,Yt為分類正確樣本數(shù),Ytotal為總樣本數(shù)。
(3) 利用第1代種群中適應度大于a(a為一常數(shù))的染色體,經選擇、交叉、變異和保優(yōu)4步衍生出第2代新種群。重復第2步,計算新結構參數(shù)下DBN的適應度函數(shù)。
本文設計了一種經GA對DBN網絡結構參數(shù)優(yōu)化后的燃氣輪機故障診斷模型,即GA-DBN模型。其總體流程如圖3所示。
圖3 GADBN模型的總體流程
由上述分析可知,DBN訓練過程分為非監(jiān)督式正向學習過程和監(jiān)督式逆向學習過程。在搭建DBN模型時,文獻[17]提出了一個相對通用的原則用于搭建DBN結構:網絡后一層單元數(shù)小于前一層單元數(shù),這樣設置的目的是為了在訓練過程中訓練數(shù)據(jù)可以被逐層壓縮,得到較好的準確率。本文中DBN的輸入節(jié)點為5,等于每一類故障特征向量的維度。隱含層層數(shù)選定4層,即3個RBM堆疊的DBN網絡。由于隱含層節(jié)點數(shù)的選擇上沒有相應的定理和規(guī)律,主要根據(jù)設置不同節(jié)點數(shù)計算訓練誤差,因此本文對3個RBM逐個進行最優(yōu)隱含層神經元個數(shù)的選取,以最小訓練誤差作為神經元個數(shù)的選取準則。輸出節(jié)點對應故障模式0-1矩陣維數(shù)。訓練參數(shù)主要包括正向學習的訓練學習率和迭代訓練次數(shù)。因為每個RBM的隱含層節(jié)點數(shù)不盡相同,而每個RBM學習率的選取方法與RBM隱含層神經元最優(yōu)個數(shù)的選取方法相同,因此以訓練誤差為衡量標準,選取訓練誤差最小的學習率作為單個RBM中的最優(yōu)學習率。對于迭代次數(shù),一般過大會使診斷模型產生過擬合現(xiàn)象,過小會使診斷模型產生欠擬合現(xiàn)象,所以迭代次數(shù)需要不斷調整得到。
為驗證本文所提方法的有效性,針對壓氣機葉片積垢、壓氣機頂端間隙、壓氣機葉片磨損、壓氣機葉片機械損傷、渦輪葉片熱腐蝕、渦輪葉片積垢、渦輪葉片磨損、渦輪葉片機械損傷、燃燒室故障9種故障模式及正常狀態(tài)進行診斷分析。分別用A~E表示部分故障特征向量,具體如表1所示。分別用H1~H10表示9種故障模式及正常狀態(tài),具體如表2所示。
表1 燃氣輪機故障特征符號及其向量
表2 故障模式和正常模式的符號及狀態(tài)
由于故障特征向量數(shù)據(jù)分布并不是均勻分布且故障特征向量所對應的故障模式尚未清楚,因此不可用均分的方法對不同類別的故障特征向量進行分組。選取K均值聚類算法對特征向量進行自動區(qū)間劃分,得到每類故障特征向量離散表,具體如表3所示。
表3 故障特征向量離散表
設置模型的最小支持度和最小置信度,通過Apriori算法對離散化特征向量進行分析,將模型的最小支持度和最小置信度以及故障模式作為條件,設置最小支持度為5%,最小置信度為55%。由于關聯(lián)結果較多,限于篇幅,本文取第一類故障為例,關聯(lián)結果如表4所示。
隱含層節(jié)點個數(shù)選取參數(shù)設置如表5所示。表5中,hbest和hbest_2分別為RBM1和RBM2的最優(yōu)個數(shù)。最優(yōu)學習率參數(shù)選取設置如表6所示。
表4 第一類故障(H1)的關聯(lián)結果
表5 隱含層節(jié)點個數(shù)參數(shù)選取設置
表6 最優(yōu)學習率參數(shù)選取設置
不同隱含層節(jié)點個數(shù)及學習率對應訓練誤差如圖4和圖5所示。
圖4 不同隱含層節(jié)點個數(shù)對應的訓練誤差
圖5 不同學習率對應的訓練誤差
經過迭代計算最終確定3個RBM最優(yōu)隱含層節(jié)點個數(shù)和最優(yōu)學習率,如表7所示。即DBN為5-93-43-19-10結構,將3個RBM最優(yōu)學習率作為DBN學習率送入網絡訓練,最終得到DBN模型,如圖6所示。
表7 最優(yōu)個數(shù)及學習率
DBN診斷模型的全部參數(shù)配置如表8所示 。
同時選取DBN模型、LM神經網絡模型與GA-DBN模型做對比。DBN與GA-DBN中RBM1的學習率對比如圖7所示。
標準DBN設置初始學習率為0.5,學習率最小值為0.001,當適應度小于上一代最優(yōu)適應度時,學習率減半,直到小于最小值時結束循環(huán);GA-DBN則采用最優(yōu)學習率。
圖6 DBN診斷模型網絡結構
表8 DBN全部參數(shù)配置
圖7 DBN與GADBN中RBM1的學習率比較
由圖7可以看出,標準DBN在第43次學習率達到最小值;GA-DBN經過遺傳算法尋優(yōu)的結構參數(shù)使得適應度值以較快速度減小,在第25次學習率達到最小值,所以GA-DBN有著更快、更少的迭代次數(shù)和更快的迭代速度。
圖8為3種算法故障診斷結果的比較。
圖8 故障診斷結果
此外,在230個測試數(shù)據(jù)中,GA-DBN誤診個數(shù)為3,整體準確率可以高達98.696%。在相同的測試數(shù)據(jù)中,標準DBN模型誤診個數(shù)為13,整體準確率94.348%;LM神經網絡模型誤診個數(shù)為30,整體準確率86.957%。由此可知,與傳統(tǒng)淺層智能診斷方法相比,本文提出的方法能更加穩(wěn)定地診斷出燃氣輪機的故障模式,且準確率更高。
本文通過Apriori算法篩選出滿足最小支持度和最小置信度的故障特征向量進行關聯(lián)度分析及分類,將處理好的數(shù)據(jù)作為DBN的輸入數(shù)據(jù),同時結合GA對DBN結構參數(shù)進行優(yōu)化,建立了基于DBN的非監(jiān)督式燃氣輪機故障診斷模型GA-DBN模型。與DBN模型和LM神經網絡模型相比,本文所提方法的故障準確率有明顯提升,多次實驗準確率均可達到98%以上,在3種模型中準確度最高。