石翠翠, 劉媛華
(上海理工大學 管理學院, 上海 200093)
燃氣輪機的運行是一個多變量影響的復雜系統(tǒng),運行產生的煙氣包含大量污染物, 是造成環(huán)境污染主要的來源之一[1]. 氮氧化物(NOx)是煙氣污染物中最常見的一種, 容易引發(fā)化學煙霧、溫室效應等環(huán)境問題.選擇性催化還原(SCR)是燃氣輪機運行中的一項重要技術, 由于SCR 脫硝系統(tǒng)入口NOx濃度測量具有一定的滯后特性, 而且受不同因素的影響, 燃氣輪機排放的氮氧化物濃度會有較大的波動[2]. 如果能夠提前準確預測NOx排放的入口濃度及確定關鍵特征變量, 能夠為建立精確的預測模型, 實現(xiàn)燃燒控制工藝參數優(yōu)化效率打下基礎.
基于物理分析的影響NOx排放的關鍵運行參數,往往是針對某一具體型號或工況, 適用范圍差. 近年來,基于數據驅動建模的方法因其具有良好的預測穩(wěn)定性和非線性處理能力, 在電廠中得到了廣泛應用. 呂游等[3]首先利用偏最小二乘法(PLS)對變量進行降維以及消除彼此間的相關性, 然后建立NOx排放的最小二乘支持向量機(LS-SVM)模型, 經過與其他模型對比分析,驗證了PLS 特征提取能夠降低模型的復雜性. Li 等[4]建立基于改進的粒子群算法優(yōu)化支持向量機(SVM)的NOx預測模型, 以此降低預測誤差和提高預測結果的穩(wěn)定性. 趙剛等[5]在保證燃氣輪機運行穩(wěn)定的情況下利用BP 神經網絡模型對影響燃氣輪機NOx排放的變量因素進行敏感性分析, 確定它們的影響大小及正負相關性. 倫智梅等[6]建立神經網絡回歸算法模型(RNN),在此基礎上利用平均影響值(MIV)算法定量分析各輸入變量對發(fā)動機NOx的影響大小. 朱鈺森等[7]為了解決鍋爐非線性、多工況、多耦合等特點, 提出了一種多模型方法預測NOx的排放量, 根據輸入變量對輸出變量的影響程度來評價樣本之間的差異性, 并把計算出的平均影響值(MIV)作為與多模型連接的權系數,克服了由于特征變量波動較大使得預測模型不穩(wěn)定的缺陷. 于靜等[8]為了避免由于變量數目的原因造成預測模型精度降低, 采用互信息(MI)篩選出5 個特征變量作為預測模型的輸入, 降低模型訓練的復雜性.
綜上所述, 除了預測模型的選擇之外, 特征變量的選擇也將直接影響預測模型的精確度. 由實驗確定的NOx排放規(guī)律的泛化性能較差, 不能很好地預測特定燃氣輪機的NOx排放以及影響NOx排放的特征變量.因此, 本文首先利用PLS 確定應選擇影響燃氣輪機NOx排放的特征變量個數, 克服了由于經驗和機理分析選取的主觀性, 再利用MI 選擇相關性較大的變量,確定預測模型的基礎數據集. 為了驗證PLS-MI 組合特征選擇模型的有效性, 將其與常用的特征選擇方法進行對比分析.
目前, 電站選擇降低NOx排放主要有兩種方式,分別為燃燒優(yōu)化控制和SCR 脫硝處理[9]. 但無論哪種減排方式都需要對燃氣輪機運行過程中NOx的排放量進行準確監(jiān)測. SCR 脫硝系統(tǒng)的工作原理是在催化劑的作用下, 通過還原劑氨將NOx轉化為氮氣和水,如圖1 所示. 在適當的溫度和催化劑條件下, SCR 脫硝系統(tǒng)效率主要由氨的量決定, 發(fā)生的化學反應如式(1)–式(4)[10]. 從反應原理可以看出若噴氨量不足會降低SCR系統(tǒng)的脫硝效率, 導致NOx濃度排放超標; 若噴氨量過多, 會提高SCR 系統(tǒng)的脫硝效率, 但是會造成還原劑氨的浪費和增加成本, 甚至會造成二次污染[11]. 為了減少NOx的排放, 避免氨流量過多導致資源浪費以及氨流量過少造成排放的NOx濃度超標, 必須實時測量和監(jiān)控SCR 脫硝系統(tǒng)的入口NOx排放濃度, 并對燃氣輪機的運行實施優(yōu)化控制[12].
圖1 SCR 系統(tǒng)反應示意圖
燃氣輪機難以通過機理建模的方式實現(xiàn)對NOx排放濃度的精確描述. 相比于機理建模, 數據建模不需要深入了解對象機理特性. 它主要是以大數據為驅動,統(tǒng)計學原理為基礎, 利用先進人工智能算法獲得對象的動態(tài)特性[13]. BP 神經網絡是非線性過程建模的常用數據驅動模型, 若沒有對數據集進行特征選擇, 容易帶來模型過擬合及建模時間變長等問題, 而且基于BP 神經網絡等方法建立SCR 脫硝系統(tǒng)的入口NOx濃度預測模型參數的設置過多, 準確性受噪音影響較大, 這些模型對于小樣本數據集的訓練具有泛化性差和過擬合的缺陷.
綜上所述, 準確的測量燃氣輪機NOx排放以控制氨注入量是需要解決的關鍵問題. 我國電廠主要是通過在燃氣輪機后接入了SCR 脫硝反應器系統(tǒng), 與NH3反應生成氮和水, 減少NOx排放, 但SCR 系統(tǒng)的工作溫度必須滿足一定的范圍和NH3 適量使用. 另一種可行的方式是通過調整控制相關變量來保證燃氣輪機健康運行的情況下, 對影響NOx排放的變量進行敏感性分析, 確定它們對燃氣輪機NOx排放的影響大小以及正負相關性, 這一方法沒有附加產物, 更加安全有效,具有良好的應用前景.
偏最小二乘法(partial least squares, PLS)是一種多元統(tǒng)計數據分析方法, 在成分提取中, 通過將高維空間相關變量投影到一個低維空間變量[14]. 通過信息綜合與篩選技術, 既可以從原始數據集中選擇適當數量的可以較好地概括自變量系統(tǒng)x中的信息的潛在變量,也可以消除變量間的共線問題, 盡可能準確的解釋因變量y的變化[15].
令Rdx表示第h個成分th對x的解釋能力, 自變量個數為p, 第i個自變量xi與第h個成分th的相關系數為r(xi;th), 如式(5):
用m表示利用交叉有效性提取的主要成分個數,則m個成分對x的累計解釋能力CRdx為:
令q表示因變量個數,Rdy表示第h個成分th對y的解釋能力:
則m個成分對y的累計解釋能力CRdy為:
PLS 中的變量投影重要性(variable importance in projection,VIP)通過相關自變量綜合的主成分解釋特征變量xi(i=1, 2, …,n)對自變量y的重要性, 并根據VIP值篩選影響較大的特征變量, 可以克服特征變量xi間的多重相關性, 計算簡單, 應用廣泛. 它每個變量xi的VIP值是通過PLS 加載權重的平方和( ωih)計算得到, 加權的是每個組和中解釋的平方和的數量, 重要性指標的計算公式為:
其中, ωih是軸 ωh的第i個分量.
信息熵是由美國科學家香農提出, 主要是用來度量隨機變量的不確定性程度. 其值越大, 所蘊含的信息量越大[16]. 用H(X)表示信息源X={x1, x2, …,xn}對應的信息熵, 每個信息源xi所對應的概率為p(xi), 則:
在條件Y確定的情況下, 信息源X可以用條件熵來描述:
p(xi,yj)為二維向量(X, Y)的聯(lián)合概率分布, 則聯(lián)合熵定義為:
互信息(mutual information, MI)用于分析每個可能的輸入變量與目標輸出變量之間的非線性關系, 從中選擇最相關的變量作為模型的輸入變量[17]. 對于給定目標變量Y后, 特征變量X的不確定性減少程度為:
其中,p(xi)為X的邊緣概率分布,p(yj)為Y的邊緣概率分布.
偏最小二乘法既能較好地概括自變量系統(tǒng)中的信息, 又能很好的解釋因變量的變化并排除系統(tǒng)中的噪聲干擾[18]. 互信息不僅能反應線性關系, 也能反應其非線性關系, 因此互信息在反應變量之間的相關性比相關系數更加全面[19]. 因此, 本文采用PLS 特征提取和MI 特征選擇混合算法(PLS-MI)選取燃氣輪機氮氧化物的影響變量.
燃氣輪機的運作過程是一個復雜的化學反應過程,國內外學者對基于數據的氮氧化物的特征變量均有所研究, 從不同參數條件下進行了分析, 發(fā)現(xiàn)控制燃料流量、燃料組分、環(huán)境溫度、燃燒溫度和燃氣輪機的進出口壓力差等都可以影響NOx的產生. 燃氣輪機NOx排放特性主要與燃燒室內燃燒模式及燃燒特性相關,影響因素主要有燃料流量、空氣流量、燃氣輪機負荷、燃燒室溫度等. 燃氣輪機燃燒室溫度主要由燃料流量和空氣流量決定.
為了研究影響NOx排放情況的關鍵因素, 文獻[5]中選取電廠穩(wěn)態(tài)數據的環(huán)境溫度、天然氣溫度、透平出口溫度、IGV 開度、值班火焰燃料質量流量、預混火焰燃料質量流量、燃燒室進口壓力、燃燒室壓降等8 個變量作為模型的輸入變量. 本文基于試驗過程中積累的先驗知識, 以冗余的選擇原則, 選取影響燃氣輪機NOx排放水平的19 個性能參數作為燃氣輪機的影響因素, 分別為: 環(huán)境溫度(AT)、環(huán)境壓力(AP)、環(huán)境濕度(AH)、空氣過濾器壓差(AFDP)、燃氣輪機排放壓力(GTEP)、燃氣輪機軸轉矩(GTT)、燃氣發(fā)生器轉速(GGn)、GT 壓縮機進出口空氣溫度差T、渦輪進口溫度(TIT)、渦輪后溫度(TAT)、渦輪能量產率(TEY)、高壓渦輪出口壓力(P1)、燃氣輪機廢氣壓力(Pexh)、燃氣輪機壓縮機進出口空氣壓力差(P2)、渦輪出口高壓(HP)溫度(T)、壓縮機排氣壓力(CDP)、燃料流量(mf)、渦輪注入控制(TIC)、一氧化碳(CO)等, 在此基礎上提取對燃氣輪機NOx影響較大的特征變量.
偏最小二乘法的特征變量個數是通過殘差閾值來確定. 當特征變量個數增加時, 方差解釋信息的變化小于一定的閾值就停止分解, 如圖2 的特征變量的方差解釋. 從圖2 中可以看出當特征變量個數為7 時, 因變量中約有95%的方差信息被解釋. 此時提取新的特征變量得到的方差解釋信息的變化較小, 因此剩余的殘差可被認為是噪聲干擾. 若再增加特征變量個數, 會引入噪聲并且使模型的復雜度增加, 從而降低模型的精確度.
圖2 PLS 分析因變量方差解釋與特征變量個數變化關系
為了驗證PLS 在選擇NOx特征變量個數的有效性, 選擇特征提取中最常用的主成分分析(principal component analysis, PCA)和隨機森林(random forest,RF)方法作為對比[20,21]. 利用主成分分析(PCA)對燃氣輪機氮氧化物的影響因素個數進行分析, 計算主成分因子的累計方差貢獻率, 如圖3 所示. 為了減少信息的丟失, 選擇累計方差貢獻率95%為閾值, 把方差貢獻率的累加值超過95%的因子數作為特征變量的選取數[20]. 從圖3 中可以看出, 當第5 個特征因子出現(xiàn)的時候, 其總體的累計方差貢獻率為95.06%, 超過了95%,則可以選取5 個特征變量代替原變量作為預測模型的輸入. 在隨機森林中, 為了選擇哪些特征更重要, 需要考慮的是特征的累加重要性, 通常以95%為閾值, 當其特征重要性的累加值超過該閾值時, 就選擇其特征變量個數代替原來的數據集[21]. 從圖4 可以看出, 當特征變量個數為6 時, 特征變量的累加重要性達到了95.35%, 因此應該選取6 個特征變量.
圖3 PCA 分析因變量方差解釋與特征變量個數變化關系
圖4 RF 分析特征變量重要性與特征變量個數之間的關系
綜上, 不同方法選擇的特征變量的數目不同, 利用PLS、PCA、RF 應選擇的特征變量分別是7 個、5 個和6 個. 為了更好地證明所選用模型在燃氣輪機特征變量選擇中具有較好的適用性, 把單一模型PLS、MI、RF 和組合模型RF-MI、PCA-MI、PCA-RF、PCA-PLS、PLS-MI 的預測仿真結果對比分析.
為了更好地驗證預測模型的仿真效果, 采用度量建立模型與樣本數據擬合程度的均方根誤差(RMSE)、平均絕對值百分比誤差(MAPE)、平均絕對誤差(MAE)3 個評價指標, 如式(14)–式(16).
其中,yt為第t時刻的NOx排放量;y?t為第t時刻的NOx排放量的預測值;N為預測樣本數目.RMSE是常見得衡量回歸模型性能的評價指標,RMSE指標越小, 說明模型的預測精度越高, 擬合程度越好, 特征變量對目標變量的解釋性越強.
利用Matlab R2018a 的開發(fā)環(huán)境進行仿真實驗, 求出各個特征變量的互信息值、偏最小二乘法的重要性值、隨機森林的重要性值, 如表1 所示.
從表1 中可以看出, 利用PLS 選取的7 個變量為X1、X4、X9、X11、X14、X16、X19, 利用隨機森林應該選取6 個特征變量為X1、X3、X4、X5、X10、X19, 利用主成分分析法應該選擇5 個特征變量. 單一的PLS、MI、RF 特征選擇方法選擇影響較大的變量, 并進行預測仿真分析, 組合模型是利用PLS、PCA、RF 確定出應選擇出的特征變量數目, 然后再利用MI 選擇出相關性較強冗余性小的變量, 代入BP 神經網絡的預測模型, RF-MI、PCA-MI、PCA-RF、PCA-PLS、PLSMI 的預測仿真結果如表2 所示.
表1 NOx 排放量的多模型特征變量選擇結果
表2 BP 神經網絡預測模型的仿真結果
為了防止BP 神經網絡預測模型存在偶然性問題,再利用遺傳算法(GA)優(yōu)化BP 神經網絡的GABP 模型和天牛須搜索算法(BAS)優(yōu)化BP 神經網絡的BASBP模型進行預測仿真實驗, 結果如表3 和表4 所示.
表3 GA-BP 網絡模型預測的仿真結果
研究問題時將BP 神經網絡、GABP、BASBP 網絡預測模型分別在進行特征變量處理和不同特征變量選擇方法下進行實驗并對預測結果進行了統(tǒng)計, 通過表2–表4 中的評價指標分析, 利用隨機森林和主成分分析時, 選擇的特征變量較PLS 的較小, 不具有代表性, 缺失了一部分信息. 在實際問題中, 每一類方法都有一定的局限性. 采用PLS-MI 組合的特征選擇優(yōu)于單一的PLS、MI 特征選擇, 說明PLS 和MI 在提取特征時只估計單個特征的得分, 未評估特征子集的性能, 導致提取特征變量時丟失大量有用信息, 降低模型的預測性能. 把PLS 和MI 模型組合對影響燃氣輪機氮氧化物的特征變量選取實踐中, 通過不同的仿真模型證明了PLS-MI 組合模型較單一的PLS、MI、RF 和組合的PCA-MI、RF-MI、PCA-RF、PCA-PLS 特征變量選擇方法提取的特征變量更具有代表性且能提高模型預測性能.
表4 BAS-BP 網絡模型預測的仿真結果
首先利用PLS-MI 的組合特征選擇方法選擇出燃氣輪機NOx的影響因素, 根據表1 選擇出MI 值較大的特征變量為:X1、X5、X4、X3、X16、X9、X11.
特征選擇的目的是準確預測燃氣輪機NOx的排放, 則需要對影響NOx排放的變量進行敏感性分析,確定特征變量對NOx的影響大小以及正負相關性, 如圖5 所示. 選取的7 個變量中,X1、X4、X3為環(huán)境變量不可調, 調整SCR 系統(tǒng)的入口NOx濃度應著眼于X5、X16、X9和X11的4 個獨立變量進行調整.
圖5 相關性分析
在對燃氣輪機運行的系統(tǒng)分析研究前, 需要對工藝流程中的各個變量進行評估, 選擇數據價值高的變量. 目前研究常用的方法大多都是以多元線性回歸作為基礎進行分析, 以特征與目標的相關性作為變量選擇的條件, 但是在研究中并沒有考慮多重線性的影響.
通過研究發(fā)現(xiàn), 在對燃氣輪機NOx數據分析和特征提取的過程中, 為了得到更多的有用信息, 都是盡可能多的選擇有價值的特征. 但當收集的樣本數據集變量過多時會具有高度非線性, 導致建立的預測模型會耗費大量的時間, 也易出現(xiàn)過擬合的現(xiàn)象, 特征變量選擇在建模過程中成為了一個非常重要的部分. 本文在選擇燃氣輪機NOx排放量的影響因素時, 兼得了單一模型穩(wěn)定的泛化性能與多模型較好的跟蹤能力, 克服了由于存在非線性、多工況、輸出變量波動較大而使得建模效果不穩(wěn)定的難題.