桂 寧,華菁云
(1.中南大學(xué)計算機(jī)學(xué)院,長沙 410083;2.浙江理工大學(xué)信息學(xué)院,杭州 310038)
(?通信作者電子郵箱huajingyun@hotmail.com)
火電機(jī)組系統(tǒng)相關(guān)的預(yù)測和控制已經(jīng)成為一個值得重視的研究領(lǐng)域,火電機(jī)組系統(tǒng)是典型的非線性、大滯后、高耦合和復(fù)雜的熱系統(tǒng)[1]。關(guān)鍵的生產(chǎn)過程指標(biāo)受到許多因素的影響,往往與其他過程變量之間存在著復(fù)雜的非線性關(guān)系,其中主汽溫度是火電機(jī)組最重要的參數(shù)之一[2]。主汽溫度過高會造成管道和高壓缸變形;而溫度過低會將水蒸氣帶入汽輪機(jī),打斷和腐蝕低壓缸末級的葉片,從而降低機(jī)組的效率。因此,準(zhǔn)確預(yù)測主汽溫度對于提高火電機(jī)組的運行效率、保證機(jī)組的安全運行至關(guān)重要[3]。由于火電機(jī)組是將燃料的化學(xué)能、蒸汽的熱勢能、機(jī)械能分步驟最終轉(zhuǎn)化為電能的復(fù)雜過程,各參數(shù)之間的關(guān)系以及時延現(xiàn)象非常復(fù)雜;同時,由于各機(jī)組的特性有著較為明顯的區(qū)別,機(jī)組容量越大,時延現(xiàn)象就越嚴(yán)重[4],很難得到預(yù)測對象與各參數(shù)之間準(zhǔn)確的機(jī)理模型的數(shù)學(xué)表達(dá)式[5]。即使通過現(xiàn)場實驗的方法得到當(dāng)時的數(shù)學(xué)模型,其也會隨時間的推移和機(jī)組工況的變化發(fā)生越來越大的偏差。因此,對于這種復(fù)雜系統(tǒng),必須提供系統(tǒng)性的特征及其時延特性的鑒別方法。此外,特征和時延的判定對于模型的機(jī)理分析、模型可解釋性均有著重要的意義。
傳統(tǒng)的特征選擇通常是在質(zhì)量平衡、能量平衡和動態(tài)原理的基礎(chǔ)上發(fā)展的,這些都高度依賴于專家知識,導(dǎo)致需要較長的建模周期[6-7]。近年來,數(shù)據(jù)驅(qū)動的方法被越來越多的采用,直接分析機(jī)組積累的大量歷史數(shù)據(jù)即可提取特征[8]。Buczyński 等[9]通過敏感性分析判斷篩選出對CFD(Computational Fluid Dynamics)模型產(chǎn)生實質(zhì)性影響的特征,用于預(yù)測使用固定燃料燃燒的家用中央供暖鍋爐的性能;Pisica等[10]選擇互信息來評估特征子集相關(guān)性,以確定電力系統(tǒng)的運行狀態(tài);Wang等[11]利用改進(jìn)的隨機(jī)森林的輸出作為反向傳播神經(jīng)網(wǎng)絡(luò)的輸入來加權(quán)特征的重要性,并提高NOx的預(yù)測精度。
上述的工作主要集中在尋找與建模目標(biāo)參數(shù)相關(guān)的特征,并未涉及其時延的影響。目前對于特征的時延計算問題較少,Lv 等[12]使用粒子群優(yōu)化來確定時延,并使用最小二乘支持向量機(jī)來預(yù)測循環(huán)流化床鍋爐的床溫,然而這種方法在大規(guī)模數(shù)據(jù)集建模時會存在計算復(fù)雜性的問題;Shakil 等[13]應(yīng)用動態(tài)神經(jīng)網(wǎng)絡(luò)對NOx和O2進(jìn)行軟測量;Xiong等[14]構(gòu)建了基于局部時延重構(gòu)的移動窗口時差高斯過程回歸方法來動態(tài)的計算化學(xué)工程中的反應(yīng)時延的問題,該方法主要通過動態(tài)的進(jìn)行窗口狀態(tài)匹配的方法來計算時延,特別是動態(tài)變化的時延。這些研究主要是通過建模誤差反饋的方式對時延進(jìn)行計算,存在計算量較大的問題。
本文提出利用火電機(jī)組DCS(Distributed Control System)中的歷史運行數(shù)據(jù),根據(jù)機(jī)組各特征和預(yù)測目標(biāo)的時間和空間維度上的關(guān)系進(jìn)行特征選擇和TD-CORT(Temporal Correlation Coefficient-based Time Delay)時延計算。本文算法根據(jù)各參數(shù)與預(yù)測目標(biāo)主汽溫度之間的時延計算結(jié)果,重新匹配滑動窗口以重構(gòu)準(zhǔn)確考慮時延特性的建模數(shù)據(jù)集,然后采用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)與長短期記憶(Long Short-Term Memory,LSTM)模型相結(jié)合的融合模型對火電機(jī)組30 s 后的主汽溫度進(jìn)行精確建模,實現(xiàn)了從機(jī)組的運行參數(shù)的變化到機(jī)組的物理模型的變化的辨識。該工作已部署應(yīng)用于國內(nèi)某1 000 MW 超超臨界火電機(jī)組,本模型已在前期構(gòu)建的基于容器的火電機(jī)組的邊緣計算網(wǎng)關(guān)[15]上部署,準(zhǔn)確運行了10 個月,為機(jī)組的效率提高與安全運行提供了有效的指導(dǎo)。結(jié)果表明,該預(yù)測系統(tǒng)具有較高的精度,平均絕對誤差(Mean Absolute Error,MAE)值達(dá)到0.101 6,相較于傳統(tǒng)的未考慮時延的深度神經(jīng)網(wǎng)絡(luò)的預(yù)測MAE值0.238 6,準(zhǔn)確度提升了57.42%。
常見的火電機(jī)組結(jié)構(gòu)如圖1 所示,其由多個子系統(tǒng)構(gòu)成:磨煤機(jī)、排粉風(fēng)機(jī)、送風(fēng)機(jī)、空氣預(yù)熱器、鍋爐、引風(fēng)機(jī)、除塵器等。在燃料的化學(xué)能最終轉(zhuǎn)化為電能的過程中,火電機(jī)組部分參數(shù)對建模目標(biāo)有著不同程度和不同時延的影響,影響的差異通常是由各機(jī)組的物理模型決定的。
在本文研究的某1 000 MW 超超臨界火電機(jī)組中,直接傳感器的數(shù)量高達(dá)15 824 個,其采樣頻率為3 s?;痣姍C(jī)組中的檢測設(shè)備眾多且機(jī)組產(chǎn)線多,傳感器分布非常廣,分為總線儀表、功能塊、系統(tǒng)點、中間變量以及IO 點特征。根據(jù)本文的建模任務(wù),排除總線儀表、功能塊、系統(tǒng)點3 個部分的特征,選擇更有實際建模價值的中間變量和IO 點部分的特征,其中,中間變量包括DS、AS、DMI、AMI 中的傳感器特征,IO 點部分包括DVI、DVO、AVI、AVO、PUI、SOE_DH、REALOUT、REALIN、BITOUT、BITIN 中的傳感器特征。在這些特征中,一部分是“COUNTER 計數(shù)器”特征,共計588 個,這些特征對預(yù)測重要參數(shù)是沒有實際價值的,因此直接過濾這部分特征。
圖1 火電機(jī)組結(jié)構(gòu)示意圖Fig.1 Schematic diagram of thermal power unit structure
另外,通過統(tǒng)計發(fā)現(xiàn),其中存在一部分特征為恒定值,這部分特征也被認(rèn)為是對預(yù)測重要參數(shù)是沒有價值的,共計9 711個,過濾后剩余保留的特征量為5 525個。
1.2.1 缺失值處理
由于火電機(jī)組工業(yè)生產(chǎn)過程中數(shù)據(jù)為時間序列連續(xù)性數(shù)據(jù),正常合理的樣本數(shù)據(jù)被認(rèn)為應(yīng)當(dāng)具有連續(xù)性且不會發(fā)生突變。因此,對于缺失值,采用前值填充的方式進(jìn)行數(shù)據(jù)處理。
1.2.2 異常值處理
在數(shù)據(jù)采集的過程中,因外界環(huán)境變化等非正常生產(chǎn)的影響,采樣數(shù)據(jù)存在異常值。采用3σ準(zhǔn)則對異常值進(jìn)行相關(guān)處理。計算σ值:
其中xi為x 特征在i 時刻的數(shù)值大小。若殘差3σ,則xi為異常點,考慮到火電機(jī)組流程工業(yè)大數(shù)據(jù)的時序連續(xù)性,采用前值對異常值進(jìn)行替換。
1.2.3 歸一化
在本文火電機(jī)組建模場景中,采樣數(shù)據(jù)可能會受到離群點的干擾,本文所有特征數(shù)據(jù)進(jìn)行零均值規(guī)范化(Z-Score Normalization),公式如下:
特征A 的值基于A 的平均值和標(biāo)準(zhǔn)差進(jìn)行規(guī)范化。A 的值vi被規(guī)范化為,其中,是特征A的均值,σA是特征A的標(biāo)準(zhǔn)差。這種規(guī)范化方式會將原始數(shù)據(jù)映射到均值為0、標(biāo)準(zhǔn)差為1的分布上。
火電機(jī)組數(shù)據(jù)主要具有三種特性:非線性、高耦合性以及高維性。各傳感器數(shù)據(jù)并非都與建模目標(biāo)相關(guān),因而必須進(jìn)行有效的篩選,即特征選擇。一般來說,相關(guān)性系數(shù)是特征選擇的主要方法,但是這種特征選擇方法一般面臨在特征較多的時候性能下降的問題。本文提出通過相關(guān)性系數(shù)進(jìn)行粗篩并結(jié)合梯度提升機(jī)的特征選擇方法進(jìn)行細(xì)篩,最終篩選出與建模目標(biāo)高相關(guān)的特征用于后期建模。
1.3.1 基于Spearman的相關(guān)度分析
相比于Pearson 相關(guān)系數(shù),Spearman 秩相關(guān)系數(shù)并不依賴數(shù)據(jù)必須服從正態(tài)分布這一假設(shè)。因此,對于火電機(jī)組實際運行數(shù)據(jù)而言,Spearman 秩相關(guān)系數(shù)是一種用來表征特征之間相關(guān)性的非常合適的系數(shù)。其計算公式如下:
首先,計算各特征兩兩之間的相關(guān)性系數(shù),對冗余特征進(jìn)行篩除;然后,計算各特征變量與預(yù)測目標(biāo)之間的相關(guān)性系數(shù)以篩選出高Spearman 秩相關(guān)系數(shù)的特征,也就是與預(yù)測目標(biāo)相關(guān)性較強(qiáng)的特征。
冗余特征篩除 冗余特征是指相互高度相關(guān)的特征。在機(jī)器學(xué)習(xí)中,高方差的共線性特征及低可解釋性的模型,會嚴(yán)重導(dǎo)致預(yù)測模型泛化性差,通過計算兩兩特征之間的Spearman秩相關(guān)系數(shù)可對特征進(jìn)行篩選。本文中將判定為冗余特征的相關(guān)性系數(shù)閾值設(shè)置為0.98,高于此閾值則該組特征被認(rèn)為互為冗余,只保留其一。篩選掉高于0.98 的高共線性特征后,刪除了55.0%的特征,剩余特征數(shù)量為2 484。
高相關(guān)性的特征選擇 在實際建模場景中,通過Spearman 秩相關(guān)性系數(shù)的特征選擇方法,選取與建模目標(biāo)相關(guān)性系數(shù)高于相關(guān)性系數(shù)的較大四等分點的特征作為保留特征。通過該方法,在火電機(jī)組的傳感器特征中,保留下了585個特征。
1.3.2 基于梯度提升機(jī)的特征選擇
更精確的特征選擇采用梯度提升機(jī)(Gradient Boosting Machine,GBM)來進(jìn)行。使用篩選出的特征組成數(shù)據(jù)集構(gòu)造決策樹,不出現(xiàn)在樹中的特征在此被認(rèn)為是無關(guān)特征,出現(xiàn)在決策樹中的特征會有一個相應(yīng)的重要性指標(biāo)。重要性指標(biāo)的絕對值并不那么重要,但其相對值可用于確定與預(yù)測目標(biāo)最相關(guān)的特征。借助主成分分析(Principal Component Analysis,PCA)的思路,特征選擇最終只保留累計達(dá)到某百分比的總重要性的那部分特征,并將其他低重要性特征直接刪除。
在保留的585 個特征中,通過基于梯度提升機(jī)的特征選擇方法,在該特征子集中再次進(jìn)行篩選,保留特征的累積貢獻(xiàn)度閾值選取為99%。為減小每次樹模型結(jié)果差異的影響,重要性指標(biāo)取三次梯度提升機(jī)訓(xùn)練結(jié)果的均值。對應(yīng)累計貢獻(xiàn)度0.99的特征數(shù)量為161,因此,最終保留按照特征重要性降序排列的前161個特征作為對預(yù)測目標(biāo)建模的重要特征。
上述的特征選擇本質(zhì)上是空間維度的建模特征選擇,事實上,時間維度的特征選擇同樣重要。在火電機(jī)組中,不同特征對于預(yù)測目標(biāo)還存在著不同的時延特性?;痣姍C(jī)組DCS系統(tǒng)采集的傳感器數(shù)值來自分布全機(jī)組不同位置的各個傳感器,這些傳感器記錄下的特征其中一部分的變化可能會在一定時間延遲后反映到預(yù)測目標(biāo)上,而另一部分可能會落后于預(yù)測目標(biāo)變化。為進(jìn)行空間維度的特征選擇(即保留先于預(yù)測目標(biāo)變化的特征而刪除落后于預(yù)測目標(biāo)的特征)和重構(gòu)考慮時延特性的建模數(shù)據(jù)集,提出了TD-CORT 時延計算算法,對時延進(jìn)行精確的判斷和分析以獲得更精準(zhǔn)的建模效果。
考慮到各特征和預(yù)測目標(biāo)的時序序列存在趨勢性,本文提出了基于一階時序相關(guān)性系數(shù)的TD-CORT 算法來量化時序序列之間的相似度以計算傳感器特征之間的時滯時間。一階時序相關(guān)性系數(shù)的計算公式如下:
其中:XT、YT分別為兩段T 長度的時序序列;xt、xt+1分別為XT序列在t、t+1 時刻的數(shù)值;yt、yt+1分別為YT序列在t,t+1 時刻的數(shù)值。
計算兩個時序序列XT、YT之間的CORT(XT,YT)相關(guān)性的數(shù)值,便可以合理地量化兩時序序列之間的相似度。兩個時間序列的一階時序相關(guān)性系數(shù)CORT(XT,YT)的大小在[-1,1]。當(dāng)CORT(XT,YT)=1時表示兩時序序列之間有類似的趨勢,它們會同時上升或下降,并且漲幅和跌幅相同;CORT(XT,YT)數(shù)值越接近1,表示兩時序序列之間的上升或下降趨勢越類似;CORT(XT,YT)=-1 表示兩時間序列之間上升或下降的趨勢恰好相反;CORT(XT,YT)=0 表示兩時間序列之間在單調(diào)性方面不存在相關(guān)性。
假設(shè)在前后K 個數(shù)據(jù)點范圍內(nèi)計算時延的大小。TDCORT 算法計算特征X 與預(yù)測目標(biāo)Y 之間時延大小的具體步驟如下:
步驟1 取預(yù)測目標(biāo)Y的任意H長度的連續(xù)時序序列:
步驟2 取特征X的(2K+1)個H長度的連續(xù)時序序列:
步 驟3 將這(2K+1)個序列fX1,H,fX2,H+1,fX3,H+2,…,fX2K+1,H+2K分別與YK,H+K-1計算(2K+1)次CORT 一階時序相關(guān)性系數(shù),得到一個長度為(2K+1)的特征X 與預(yù)測目標(biāo)Y的CORTX,Y序列:
步驟4 將這個長度為(2K+1)的CORTX,Y序列進(jìn)行五點平滑(構(gòu)建數(shù)據(jù)集時滑窗大小也設(shè)置為五個點),平滑后的CORTX,Y序列的最大值點對應(yīng)特征X 與預(yù)測目標(biāo)Y 之間的時延差,即為特征X與預(yù)測目標(biāo)Y之間的時延大小。
構(gòu)建建模數(shù)據(jù)集時,使用N 個特征對預(yù)測目標(biāo)(target)進(jìn)行建模,通過本文提出的TD-CORT 算法獲得的N 個特征對于預(yù)測目標(biāo)的時延大小(取絕對值,皆為非負(fù)數(shù))分別為d1,d2,…,dN,那么在構(gòu)建預(yù)測模型的輸入時,分別以時延dx(x=1,2,…,N)為中心,取滑窗大小為5 個時間點,覆蓋盡可能涵蓋30 s后預(yù)測目標(biāo)的信息。如當(dāng)預(yù)測t -1時刻后30 s的target時,構(gòu)建的輸入數(shù)據(jù)即為:
當(dāng)預(yù)測t時刻后30 s的target時,構(gòu)建的輸入的數(shù)據(jù)即為:
以此類推,這種考慮時延的重構(gòu)數(shù)據(jù)集的方法在圖2 中詳細(xì)可視化展示。
長短期記憶(LSTM)模型和深度神經(jīng)網(wǎng)絡(luò)(DNN)都是目前主流的深度學(xué)習(xí)模型:LSTM 模型是一種時間遞歸神經(jīng)網(wǎng)絡(luò),適合進(jìn)行時間擴(kuò)展,具有長期記憶功能,適合處理時間序列預(yù)測問題,這種預(yù)測模型能夠具有時間維度的特征表達(dá)能力;DNN 模型是具有很多隱藏層的神經(jīng)網(wǎng)絡(luò),是由大量處理單元互聯(lián)組成的非線性、自適應(yīng)信息處理系統(tǒng)。相比淺層神經(jīng)網(wǎng)絡(luò),深度神經(jīng)網(wǎng)絡(luò)提供了更高的抽象層次,因而能夠提高模型的預(yù)測能力。
在火電機(jī)組的實際建模場景中,不僅需要考慮各傳感器參數(shù)間空間維度上的關(guān)系,還需要考慮各傳感器在時間維度上的關(guān)系。綜合考慮,本文采用LSTM 與DNN 相結(jié)合的ensemble 融合模型,抽象出工業(yè)大數(shù)據(jù)在時間維度與空間維度兩個維度的特征,從而更好地對目標(biāo)特征進(jìn)行建模。融合模型結(jié)構(gòu)示意圖如圖3 所示,ensemble 模型融合的基本思路是通過對多個單模型融合以提升整體性能。
圖3 融合模型結(jié)構(gòu)示意圖Fig.3 Schematic diagram of fusion model structure
采用加權(quán)模型融合方法,即分別取DNN 與LSTM 預(yù)測結(jié)果的加權(quán)平均進(jìn)行模型融合,公式如下:其中:n表示單模型的個數(shù),Wi表示第i個單模型權(quán)重,predictt表示對應(yīng)單模型的預(yù)測值。本文實驗部分具體的融合模型選取LSTM 的模型權(quán)重為0.6,DNN 模型的權(quán)重為0.4,即n為2,W1為0.6,W2選取0.4。
為驗證所提出的時延計算方法與融合模型的有效性,在TensorFlow 機(jī)器學(xué)習(xí)平臺上進(jìn)行實驗。通過火電機(jī)組DCS 系統(tǒng)采集的數(shù)據(jù)對30 s后的主汽溫度進(jìn)行建模預(yù)測。本文的數(shù)據(jù)來源于某1 000 MW 超超臨界發(fā)電機(jī)組,選取從2018年5月1 日到2018 年7 月31 日三個月的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),將2018年8月1日至31日一個月的數(shù)據(jù)作為測試數(shù)據(jù)。
根據(jù)本文提出的TD-CORT 算法,計算各特征對應(yīng)主汽溫度的時延大小。在本文的火電機(jī)組工業(yè)生產(chǎn)過程中,兩個特征之間合理的時延應(yīng)落在前后3 min 范圍內(nèi)。由于本文數(shù)據(jù)的采樣時間間隔為3 s,前后3 min 范圍即前后60 個數(shù)據(jù)點范圍。采用TD-CORT 算法計算時延時,K、L 數(shù)值分別設(shè)為60、10 000。
圖4 展示了主汽溫度重要性較高的6 個參數(shù)的時延曲線圖。圖中橫軸為時延的大小,從-60到60,虛線為對應(yīng)時延下該特征的序列與具有30 s時間差的主汽溫度序列的一階時序相關(guān)性系數(shù)的大小,實線為一階時序相關(guān)性系數(shù)的大小的五點平滑后的結(jié)果。在每一個曲線圖中,五點平滑后的一階時序相關(guān)性都存在一個最大值點,該最大值點對應(yīng)的時延大小即作為該特征與主汽溫度的時延大小。
從圖4 可以看出,AM24SIG0304 特征的CORT 最大值為0.682 8,該特征與主汽溫度的時延為領(lǐng)先3 個時間點;AM24SIG0601 特征的CORT 最大值為0.393 0,該特征與主汽溫度的時延為領(lǐng)先8 個時間點;AM24SIG0307 特征的CORT最大值為0.369 5,該特征與主汽溫度的時延為領(lǐng)先33個時間點;HAH51CT255 特征的CORT 最大值為0.315 0,該特征與主汽溫度的時延為落后15個時間點;T1AMICVMTMPIN 特征的CORT 最大值為0.196 9,該特征與主汽溫度的時延為落后32個時間點;T1AIMSVMTMP 特征的CORT最大值為0.113 0,該特征與主汽溫度的時延為落后47個時間點。
圖4 主汽溫度權(quán)重較高的6個參數(shù)時延曲線展示Fig.4 Six parameter delay curves with higher main steam temperature weight
表1 記錄了與主汽溫度高相關(guān)的前6 個特征的時延大小和該時延下對應(yīng)的CORT 值,其中每個時延時間點為3 s。時延為負(fù)數(shù),則說明該特征領(lǐng)先于預(yù)測特征變化;時延為正,則說明該特征落后于預(yù)測特征變化。落后于預(yù)測目標(biāo)變化的特征,并未對預(yù)測目標(biāo)產(chǎn)生影響,因此直接刪除。最終保留所有時延為負(fù)的特征,共計57個。
由于在實際問題中,時滯不可能是一個確切的數(shù)值,事實上,時延大小會受很多因素影響在一定區(qū)間內(nèi)波動,因此得到的時延大小應(yīng)該為一個時間窗口,會覆蓋在一定波動區(qū)間的一個時延范圍,因此,在重構(gòu)考慮時延的數(shù)據(jù)集時,本文時間窗口取為5個時間點。
表1 與主汽溫度高相關(guān)的前6個特征的時延大小和該時延下對應(yīng)的CORT值Tab.1 Time delays of the first six features highly associated with main steam temperature and the corresponding CORT values
LSTM 模型采用節(jié)點數(shù)為72 的LSTM 單元,再接一個128節(jié)點的全連接層,激活函數(shù)為ReLU(Rectified Linear Unit),輸出層的輸出為1維。訓(xùn)練時,batch_size 為10 000,優(yōu)化器選取Adam,學(xué)習(xí)率為4E-4。DNN 模型采用7 層全連接網(wǎng)絡(luò)模型,其中輸入層的維度為預(yù)測目標(biāo)對應(yīng)的特征個數(shù)的5 倍(時間滑窗大小設(shè)為5)。隱藏層設(shè)置為7層,每層神經(jīng)元個數(shù)為64,隱藏層激活函數(shù)設(shè)置為Sigmoid,輸出層的輸出為1 維。訓(xùn)練時,層間的dropout 參數(shù)設(shè)置為0.2,batch_size 大小設(shè)置為10 000,優(yōu)化器選取Adam,學(xué)習(xí)率設(shè)置為2E-3。
融合模型選取LSTM 的模型權(quán)重為0.6,DNN 模型的權(quán)重為0.4,窗口大小統(tǒng)一設(shè)置為5。分別對考慮時延重構(gòu)后的數(shù)據(jù)集和未考慮時延重構(gòu)的數(shù)據(jù)集進(jìn)行融合模型建模,并與單一的DNN和LSTM模型在數(shù)據(jù)集上分別進(jìn)行對比實驗。
傳統(tǒng)的主汽溫度建模,通過專家知識對機(jī)組進(jìn)行機(jī)理分析得出主汽溫度容易受到的影響因素。例如,煙氣溫度的變化、煙氣壓力的波動、機(jī)組負(fù)荷的變化、主汽壓力的變化、燃料量的變化、給水溫度和給水流量的波動、煤水比的變化等都會引起主汽溫度的變化[2]。
機(jī)組對于火電機(jī)組主汽溫度一般采用二級減溫水結(jié)構(gòu)對末級過熱器出口溫度進(jìn)行控制,其中,一級減溫水起到粗調(diào)作用,二級減溫水起到細(xì)調(diào)作用。因此,本文將一級減溫水流量、二級減溫水流量的變化也作為影響主汽溫度的特征。
傳統(tǒng)的建模方式采用以上機(jī)理分析得到的相關(guān)特征,通過傳統(tǒng)線性回歸模型對主汽溫度進(jìn)行建模。
為衡量模型性能,本文采用平均絕對誤差(MAE)、均方根誤差(Root Mean Square Error,RMSE)、平均反切絕對百分比誤差(Mean Arctangent Absolute Percentage Error,MAAPE)[16]作為評價指標(biāo),計算公式分別如式(6)~(8)所示:
其中:y(t)為真實值,yd(t)為預(yù)測值。以上三個指標(biāo)IMAE、IRMSE、IMAAPE數(shù)值越小表明預(yù)測值越接近真實值,即模型性能越好。
五種模型在測試集上的預(yù)測結(jié)果如圖5 所示,誤差指標(biāo)的數(shù)值結(jié)果記錄于表2中。
表2 不同模型預(yù)測30 s后主汽溫度的評價指標(biāo)值Tab.2 Evaluation index values of main steam temperature after 30 s predicted by different models
觀察圖5中的預(yù)測效果及表2所示的各項模型評價指標(biāo),通過比較可以看出本文提出的基于LSTM 和DNN 的融合模型的建模效果都明顯優(yōu)于單一DNN 模型的效果。這組對比,體現(xiàn)了本文提出的LSTM 與DNN 相結(jié)合的融合模型的建模有效性。
圖5 不同模型預(yù)測30 s后主汽溫度效果對比Fig.5 Effect comparison of different models on the prediction of main steam temperature after 30 s
觀察圖5 中的預(yù)測效果及表2 中對應(yīng)的各項模型評價指標(biāo),通過比較可以看出根據(jù)本文提出的基于TD-CORT 計算的特征與預(yù)測目標(biāo)之間的時延構(gòu)建的模型能夠更好地覆蓋表征了30 s 后主汽溫度變化的信息??紤]特征時延大小,并基于以這個時延大小為中心構(gòu)建五時間點滑窗的這種構(gòu)建輸入量的方法,建立了更精準(zhǔn)的模型輸入特征數(shù)據(jù)集。不論是對于單一DNN 模型而言,還是對于DNN 與LSTM 的融合模型而言,考慮TD-CORT 時延時的建模效果都明顯優(yōu)于未考慮時延時的建模效果。實驗充分體現(xiàn)了本文提出的TD-CORT 時延計算方法的有效性,相對于傳統(tǒng)的未考慮時延的深度神經(jīng)網(wǎng)絡(luò)預(yù)測MAE 值為0.238 6,本文的預(yù)測結(jié)果MAE 值為0.101 6,相較于傳統(tǒng)機(jī)理分析的線性模型的建模準(zhǔn)確度提升了64.66%,相較于未考慮時延的神經(jīng)網(wǎng)絡(luò)的模型的預(yù)測準(zhǔn)確度提升了57.42%。
針對數(shù)據(jù)驅(qū)動的工業(yè)系統(tǒng)建模面臨的特征種類繁多、特征的時延關(guān)系復(fù)雜帶來的建模特征構(gòu)建復(fù)雜、計算量大的問題,提出了一種基于特征關(guān)系的時延計算方法,根據(jù)數(shù)據(jù)間關(guān)聯(lián)自動計算特征的時延特性。準(zhǔn)確的時延特性構(gòu)建可以在有限的建模復(fù)雜度的情況下,實現(xiàn)模型高精度的預(yù)測。在DNN和LSTM 的融合模型上進(jìn)行了測試,實驗結(jié)果證明,準(zhǔn)確的特征時延鑒別可以最多達(dá)到57.42%的精度提升。本方法也可以用在其他模型的建模之上,為其提供延遲窗口自動化鑒別。系統(tǒng)已經(jīng)在某1 000 MW 機(jī)組上實現(xiàn)了部署,在長達(dá)10 個月的持續(xù)化服務(wù)中,對多個運行參數(shù)的預(yù)測一直保持較高的預(yù)測精度,為電廠的實際操作調(diào)度提供了有效的指導(dǎo)。