傅望安, 張澤發(fā), 黃 偉
(1.華能國際電力股份有限公司玉環(huán)電廠, 浙江 臺州 317604; 2.國網湖南電力有限公司郴州供電分公司, 湖南 郴州 423000; 3.上海電力大學, 上海 200090)
蒸汽再熱技術已經廣泛應用于超臨界機組。再熱指的是從汽輪機高壓缸出口出來的蒸汽,經過再熱器進一步加熱后,使蒸汽的焓和溫度達到設計值,再返回汽輪機中的低壓缸做功的過程。再熱器的作用是提高電廠循環(huán)的熱效率,并將汽輪機末級葉片的蒸汽溫度控制在允許的范圍內。這樣既可以降低水蒸氣的濕度,又可以提高汽輪機的相對熱效率和絕對熱效率。然而,汽輪機通流部分的改造往往會降低再熱器進口蒸汽溫度,導致再熱器出口氣溫達不到設計參數(shù),就會出現(xiàn)再熱器欠溫現(xiàn)象。如果再熱器出口溫度存在明顯欠溫,將會對機組造成兩方面危害[1]:一是由于降低了平均溫差,使汽輪機效率下降,影響了電廠的經濟性[2];二是由于溫度降低,根據(jù)朗肯循環(huán),汽輪機內蒸汽的濕度會提高,濕蒸汽中的水珠將侵蝕汽輪機葉片,使葉片的背面產生麻點和缺痕,降低汽輪機的使用壽命,危害設備的安全運行。因此,如果在再熱器欠溫故障發(fā)生前就捕捉到細微的故障征兆,發(fā)出預警信號,就可以大大提高火電機組運行的安全性和經濟性,減少再熱器欠溫引起的安全事故。
故障預警是指根據(jù)安全儀表系統(tǒng)(Safety Instrumentation System,SIS)保存的設備監(jiān)測數(shù)據(jù),采用合適的預警算法,在設備故障發(fā)展初期判斷出設備存在的故障隱患,并發(fā)出預警信號,其重點在于預測。近年來,發(fā)電設備的故障預警在國內成為一個研究熱點,高校和企業(yè)均開展了這方面的研究。劉鑫沛等人[3]采用了改進過程記憶矩陣的多元狀態(tài)估計方法,并將其與聚類分析相結合,很好地實現(xiàn)了制粉系統(tǒng)早期故障預警,但在樣本量較大時,要獲得聚類結論有一定的困難;朱麟海[4]以透平出口排溫為切入點,利用支持向量機的方法建立了燃機高溫部件預警模型,但支持向量機同樣存在對大規(guī)模訓練樣本難以實施的困難;魏書榮等人[5]研究了海上風電機組的故障診斷與狀態(tài)檢測,利用溫度時序圖分析,分為正常運行、故障形成、即將發(fā)生故障3種狀態(tài)進行監(jiān)測,采用神經網絡與遺傳算法相結合的方法進行了故障診斷;黃偉等人[6]針對燃氣-蒸汽聯(lián)合循環(huán)電站中燃氣輪機燃燒室故障問題,采用相似度分析法,并結合非線性狀態(tài)估計技術進行了燃燒室故障預警研究。國外對發(fā)電設備故障診斷的研究較為成熟,如TAYARAIN-BATHAIE S S等人[7]采用神經網絡對燃氣輪機進行了故障診斷與分離;SALAHSHOOR K等人[8]采用了多數(shù)據(jù)融合的故障診斷法,并將該方法應用于工業(yè)渦輪機。本文比較了不同的機器學習算法對火電廠再熱器的故障預警效果,利用智能算法的預測功能對再熱器欠溫故障進行預警,將殘差是否超過滑動窗口法預設的預警閾值作為發(fā)出報警的判據(jù),提前發(fā)出報警信號。
再熱器欠溫故障預警系統(tǒng)的結構如圖1所示。首先,選取與再熱蒸汽欠溫故障相關的監(jiān)測參數(shù)作為自變量,以再熱器出口溫度為因變量;然后,從SIS系統(tǒng)提取數(shù)據(jù)輸入隨機森林(Random Forest,RF)、極端隨機樹(Extra-trees,ET)和梯度提升決策樹(Gradient Boost Decision Tree,GBDT)中。將再熱器正常運行狀態(tài)下提取出的數(shù)據(jù)作為訓練集,3種算法分別對訓練集中自變量與因變量之間的關系進行學習;將再熱器欠溫狀態(tài)下提取出的數(shù)據(jù)作為測試集,此時再熱器處于故障隱患狀態(tài),其再熱蒸汽出口溫度預測值必然偏離其真實值,預測值與真實值之間的差值稱為殘差。利用滑動窗口法對殘差進行處理形成預警閾值后,殘差一旦超過預警閾值立即發(fā)出報警信號,提醒運行人員處理。
圖1 故障預警系統(tǒng)結構示意
常用的傳統(tǒng)預測模型有灰色預測、回歸預測、時間序列預測3種。目前,人工智能算法更廣泛地應用于預測中,因此本文分別采用機器學習中的隨機森林、極端隨機樹、梯度提升決策樹對再熱器出口氣溫進行趨勢預測。
隨機森林由伯克利大學教授BREIMAN L和CUTLER A于2001年共同提出[9]。該方法屬于兩層算法組成的集成方法。這種集成方法以二元決策樹作為基學習器,以自舉集成(bagging)作為上層算法。隨機森林的隨機體現(xiàn)在:從訓練集中取數(shù)據(jù)時是隨機抽取的;在構建決策樹時是從整體數(shù)據(jù)集中隨機選取特征的。這兩步隨機使得隨機森林在訓練時避免了過擬合現(xiàn)象。它利用自舉取樣(bootstrap)的方法在數(shù)據(jù)集的子集上訓練出一系列模型,這些子集是從訓練數(shù)據(jù)集中隨機抽取的。隨機森林的算法流程如圖2所示。
圖2 隨機森林流程示意
具體的算法步驟如下。
步驟1 從N組原始樣本集中利用bootstrap的方法從數(shù)據(jù)集有放回式地隨機抽取M組訓練樣本,針對每一個訓練樣本分別構建基學習器(二元決策樹模型)構成的組合模型,即
{h(X,θj),j=1,2,3,…,K}
(1)
式中:X——解釋變量;
θj——獨立同分布的隨機矢量;
K——決策樹的棵數(shù)。
從故障樣本中抽取數(shù)據(jù)作為測試樣本集來驗證模型的準確性。
步驟2 設Y為被解釋變量,取組合模型的平均值作為Y的預測值,用(X,Y)構成隨機森林的訓練集。由于構成隨機森林的訓練集是從隨機向量X和Y的分布中獨立抽取的,因此數(shù)值型預測值h(X)的推廣誤差均為EX,Y(Y-h(X))2。
假設原始樣本集中有P個輸入變量,則在每棵決策樹的每個節(jié)點從P個輸入變量中隨機抽取mtry(mtry為節(jié)點值)個變量作為子集分裂,再根據(jù)分枝優(yōu)度準則選擇最佳分枝。
步驟3 每棵決策樹開始自上向下采用分類與回歸樹(Classification and Regression Tree,CART)方法遞歸分枝且不進行剪枝處理,葉節(jié)點的最小尺寸設定為5,以此作為決策樹生長的終止條件且確保模型建立的準確性。
步驟4 將生成的M棵決策樹以bagging方法組成隨機森林回歸模型,其模型的準確性采用故障數(shù)據(jù)預測的均方誤差(MSE)和平均絕對誤差(MAE)來評價。
極端隨機樹也是一種集成的機器學習算法[10]。該算法用{T(V,X,D)}表示,其中T為最終的分類器模型,D為數(shù)據(jù)樣本集,V為基分類器的數(shù)量。每個基分類器根據(jù)輸入樣本X={x1,x2,x3,…,xM}產生預測結果。極端隨機樹算法的步驟如下。
步驟1 給定原始數(shù)據(jù)樣本集D,樣本數(shù)量S,特征數(shù)量W。在極端隨機樹的分類模型中,每個基分類器使用全部的樣本進行訓練。
步驟2 根據(jù)CART決策樹算法生成基分類器。為增強隨機性,在每個節(jié)點分裂時隨機從W個特征中選取m個特征,對每個節(jié)點選擇最優(yōu)屬性進行節(jié)點分裂,分裂過程不減枝。對分裂產生的數(shù)據(jù)子集再迭代執(zhí)行步驟2,直至生成一棵決策樹。
步驟3 重復步驟1和步驟2迭代V次,生成V棵決策樹以及極端隨機樹。
步驟4 對生成的極端隨機樹使用測試樣本生成預測結果。
極端隨機樹是對隨機森林的改進。隨機森林是對數(shù)據(jù)行的隨機,而極端隨機樹是對數(shù)據(jù)行與列的隨機得到分叉值,從而進行對回歸樹的分叉。因此,同樣是集成學習算法,極端隨機樹的泛化能力高于隨機森林。此外,極端隨機樹中的每一棵回歸樹用的是全部訓練樣本,在節(jié)點分割上隨機選擇分割屬性,增強了基分類器節(jié)點分裂的隨機性。
梯度提升決策樹(以下簡稱“梯度提升法”)是由斯坦福大學的教授FRIDEMAN J在2001年提出的[11]。與隨機森林類似,梯度提升法也是一種組合算法,其基分類器是決策樹;與隨機森林不同之處在于,它的每棵樹是從先前所有樹的殘差中來學習的。
梯度提升法使用了梯度下降法,正如其他梯度下降法一樣,如果步長太大,優(yōu)化過程就會發(fā)散而不收斂。但是梯度提升法會對預測值進行一系列的精確化,沿著梯度下降的方向,每走一步,殘差都會重新計算。在開始階段,梯度提升法將初始化預測值設為空(null)或零,因此殘差等于預測值。
為了實時、連續(xù)地反映殘差的分布變化,采用滑動窗口法對殘差均值和殘差標準差進行統(tǒng)計分析,結果示意如圖3所示。其中,窗口的大小可以靈活選擇[12]。與其他的統(tǒng)計法相比,該統(tǒng)計法的優(yōu)點主要有:算法易實現(xiàn),并且可以對新加入殘差分布的變化進行統(tǒng)計分析;合理地選擇窗口大小能夠確保統(tǒng)計的準確性和實時性;在精度相同的情況下,滑動窗口法能夠給出發(fā)展性故障征兆的提示,從而提高了預警的準確性和可靠性。
圖3 滑動窗口殘差法結果示意
(2)
N個時刻構成的極限樹模型殘差序列為
(3)
對該序列取一個寬度為N的滑動窗口,N的取值主要結合經驗選擇。統(tǒng)計這個窗口內的殘差均值為
(4)
定義殘差均值的故障預警閾值為E。設在N個窗口內殘差均值絕對值的最大值為Emax,即
(5)
則定義燃燒室故障預警閾值為
E=kEmax
(6)
式中:k——預警系數(shù),一般根據(jù)運行人員經驗來確定,k<1。
均方根誤差(RMSE)是用于衡量預測值與真實值之間的偏差,均方誤差(MSE)可表現(xiàn)預測值與真實值之間的差異程度,平均絕對誤差(MAE)反映了預測值誤差的實際情況。本文采用上述指標對模型測試集的預測效果進行評價。
(7)
(8)
(9)
某電廠于2018年5月6日某時刻1#機組跳閘,再熱蒸汽溫度為487 ℃,屏式再熱器2#出口溫度為564 ℃,屏式再熱器3#出口溫度為568 ℃;隨后鍋爐開始恢復啟動,再熱蒸汽溫度456 ℃,屏式再熱器2#出口溫度為550 ℃,屏式再熱器3#出口溫度為552 ℃。與啟動前相比,此時再熱蒸汽處于欠溫狀態(tài)[13]。
如前所述,3種算法均以再熱蒸汽出口溫度為因變量,其余變量為自變量,因此選擇與再熱器出口溫度相關的若干變量作為自變量,用以預測再熱器出口的真實溫度。自變量的選取依據(jù)為再熱器熱平衡方程,具體自變量如下:蒸汽進入再熱器前的溫度x1;再熱蒸汽壓力x2;煙道內溫度x3;煙道負壓x4;鍋爐排煙溫度x5。
自變量與因變量的數(shù)據(jù)來自SIS系統(tǒng),共收集到有效數(shù)據(jù)6 787組,選取6 030組數(shù)據(jù)作為訓練集,757組故障隱患數(shù)據(jù)作為測試集,采樣間隔為1 min。
再熱器出口溫度預測值與真實值之間的殘差可以間接反映再熱器的運行狀況:殘差越大代表再熱器與正常工況下運行的偏離程度越大。鍋爐跳閘之前,3種算法的再熱器出口溫度預測殘差比較結果如圖4所示。
圖4 3種算法的再熱器出口溫度預測殘差比較
由圖4可以看出,隨機森林與梯度提升法的殘差較為接近,說明兩種算法的再熱器出口溫度預測效果接近。在0~150 min和600~700 min時間段內,3種算法的殘差均接近于零,此時再熱器運行正常;在150~600 min時間段內,三者均有大幅度的振蕩現(xiàn)象,此時再熱器出口溫度的預測值偏離了實際值,再熱器欠溫。在150 min時刻,三者殘差均有大幅度的跳躍,極端隨機樹的殘差跳躍程度大于其他兩種算法,說明極端隨機樹在預測排溫時對再熱器欠溫隱患的放大程度大于其余兩者。
記隨機森林、極端隨機樹和梯度提升法的滑動窗口殘差統(tǒng)計后的殘差均值最大值分別為E1max,E2max,E3max,選擇故障預警系數(shù)k1=k2=k3=0.9,計算出3種算法的預警閾值分別為E1=1.071,E2=0.297,E3=0.648。
圖5為3種算法的預警效果圖。故障預警閾值為上文中的計算值。圖5中的A點、B點、C點分別代表隨機森林、極端隨機樹和梯度提升法報警點,運行人員可以直觀地看到報警信息并及時處理。
圖5 3種算法的預警效果比較
3種算法的報警效果和預測誤差如表1所示。
表1 3種算法報警效果和預測誤差比較
由表1可以看出,與其他兩種算法相比,極端隨機樹的初始報警時刻最早,比隨機森林提前了79 min,比梯度提升法提前了92 min,說明極端隨機樹能夠使運行人員更早地發(fā)現(xiàn)故障隱患。此外,極端隨機樹報警點的個數(shù)為19,比其他兩種算法的預警點個數(shù)都要多,且報警時間較長。MAE值可以較好地反映預測值誤差的實際情況,極端隨機樹的MAE值最小,說明該算法對溫度的預測效果最為準確。
針對再熱器欠溫故障隱患問題,建立了基于隨機森林、極端隨機樹和梯度提升法的再熱器出口溫度預測模型,并結合滑動窗口法計算3種算法的故障預警閾值。在計算得出溫度預測值與真實值的殘差后,當殘差超過預警閾值時發(fā)出報警信號,提醒運行人員處理。實例分析結果表明,與其他兩種算法相比,極端隨機樹在預測效果、報警時間和初時報警點等方面均有較大優(yōu)勢,證明了該預警模型的有效性。