董 澤,賈 昊,姜 煒
基于特征選擇的數(shù)據(jù)驅(qū)動軟測量方法
董 澤1,2,賈 昊1,2,姜 煒1
(1.華北電力大學河北省發(fā)電過程仿真與優(yōu)化控制技術(shù)創(chuàng)新中心,河北 保定 071003;2.華北電力大學控制與計算機工程學院,北京 102206)
由于測量環(huán)境惡劣,分析儀器成本昂貴,測量延遲大,發(fā)電機組一些關(guān)鍵參數(shù)難以實現(xiàn)在線測量。本文提出一種基于皮爾森相關(guān)系數(shù)和最小角回歸算法相結(jié)合的特征選擇方法,并以此為基礎(chǔ)建立電廠煙氣含氧量軟測量模型。首先,根據(jù)機理分析確定煙氣含氧量模型的初始輸入變量,使用皮爾森相關(guān)系數(shù)對多測點數(shù)據(jù)進行數(shù)據(jù)融合;然后,使用最小角回歸算法對輸入變量進行特征選擇,引入高斯過程回歸(GPR)模型建立了煙氣含氧量的軟測量模型;最后將該模型用于某超超臨界1 000 MW機組實際穩(wěn)定工況數(shù)據(jù)進行仿真。結(jié)果表明:該模型預測結(jié)果與實測值誤差較小,模型精度較高;使用該特征選擇方法可以有效減少模型二次變量數(shù)量,降低模型輸入復雜度,提高計算效率,同時可以改善模型的泛化能力,提高軟測量的靜態(tài)準確度。
軟測量;數(shù)據(jù)融合;特征選擇;皮爾森相關(guān)系數(shù);最小角回歸;高斯過程回歸;煙氣含氧量
在現(xiàn)代工業(yè)生產(chǎn)過程中,為了實現(xiàn)節(jié)能和效益最大化,及時對生產(chǎn)過程中的重要參數(shù)進行監(jiān)測和控制具有重要意義。然而,在實際生產(chǎn)過程中,由于測量環(huán)境惡劣、分析儀器成本昂貴、測量延遲大等原因,使得這些參數(shù)大多難以在線測量。20世紀90年代以來,軟測量技術(shù)[1]快速發(fā)展,逐漸成為解決以上問題的有效途徑之一。軟測量技術(shù)是一種利用易于測量的變量來建立預測模型估計難以測量變量的方法,這可以為過程監(jiān)控、優(yōu)化和控制提供所需的重要實時信息[2-3]。目前,軟測量技術(shù)已經(jīng)在熱工領(lǐng)域取得了一些成功應用[4]。
與傳統(tǒng)的機理建模方法相比,數(shù)據(jù)驅(qū)動軟測量建模方法不需要先驗知識和運行經(jīng)驗,完全使用歷史數(shù)據(jù)建立預測模型。隨著數(shù)據(jù)驅(qū)動建模方法的快速發(fā)展,很多多變量統(tǒng)計方法和機器學習方法應用在軟測量上,如主成分回歸(PCR)[5]、偏最小二乘回歸(PLSR)[6]、人工神經(jīng)網(wǎng)絡(luò)(ANN)[7]和支持向量機(SVM)[8]等方法。
在軟測量方法應用中,通常會有很多候選輸入變量。特征選擇可以減少輸入變量的個數(shù),減少模型的復雜性,同時可以減少過度擬合,提高模型精度,進而減少模型開發(fā)時間,提高模型性能。目前常見的特征選擇方法有主成分分析法(PCA)[9]、互信息法(MI)[10]、偏最小二乘法(PLS)[11]。
在火電機組中,煙氣含氧量可以反映機組的經(jīng)濟運行情況,是確保鍋爐燃燒優(yōu)化控制的主要因素之一。目前在電廠實際生產(chǎn)過程中,主要采用氧化鋯氧量分析儀或使用軟測量方法對煙氣含氧量進行測量。氧化鋯氧量分析儀存在維護成本高、壽命短且測量結(jié)果滯后大等缺點,其測量效果并不十分理想。目前已有一些軟測量方法應用在火電廠煙氣含氧量的測量上[12-13]。本文提出一種基于皮爾森相關(guān)系數(shù)和最小角回歸算法相結(jié)合的變量篩選算法,以此確定軟測量建模過程中的輸入變量,并通過高斯過程回歸方法建立煙氣含氧量的軟測量模型。采用某火電廠歷史數(shù)據(jù)對所提方法進行測試,取得了良好的測量效果。
目前對于火電廠熱工系統(tǒng)而言,由于其具有設(shè)計參數(shù)高、容量大、生產(chǎn)過程惡劣等特點,對傳感器有很高要求。為了保證系統(tǒng)安全,往往需要多路傳感器對測點進行監(jiān)測。多測點之間往往具有很強的線性關(guān)系,如果對該測量結(jié)果不進行處理直接作為輸入變量對系統(tǒng)進行軟測量建模,不但會增加計算量,還會導致共線性問題。
使用皮爾森相關(guān)系數(shù)法對多測點數(shù)據(jù)進行相關(guān)性分析,得到各傳感器數(shù)據(jù)之間的擬合權(quán)值,將多測點數(shù)據(jù)進行融合。該方法比傳統(tǒng)的求取多個傳感器的算術(shù)平均值方法更加可靠、準確,物理意義也可以得到更好的說明。皮爾遜相關(guān)系數(shù)定義為2個變量之間的協(xié)方差和標準差之比:
式中,cov()為與的協(xié)方差,var()和var()分別為和的方差。
由式(2)得到對應的第個變量的權(quán)重
式中為對應的第個變量的權(quán)重。
最小角回歸(LARS)算法[14]是一種線性回歸方法,可用于高維數(shù)據(jù)的特征選擇。相比于使用PLS方法做特征選擇,LARS方法的可解釋性更強。該方法首先構(gòu)造一階懲罰函數(shù)確定某些變量的系數(shù)為0,將其作為無效變量并刪除,由此獲得解釋力強的模型。其優(yōu)化目標可表示為:
LARS算法在求解上述問題的基本思想是:首先將所有自變量的系數(shù)置0,找出與因變量相關(guān)性最大的自變量x。然后沿著x方向按照某個步長前進,直到可以選擇出另一個和x都與當前殘差具有相同相關(guān)性的變量x。然后沿x與x的角平分線的方向移動,直到找到另一個和(x x)都與殘差相關(guān)性相同的變量l。由此類推,直至選擇出所有所需變量。
2)令=+1,當前相關(guān)系數(shù)記為
3)分別計算
5)重復2)—4)步,直到選到所需變量個數(shù)為止。
高斯過程回歸模型是一種基于貝葉斯統(tǒng)計理論的非參數(shù)概率模型[16],其性質(zhì)完全由均值和協(xié)方差確定,即:
對于回歸問題,考慮如下模型:
式中,為輸入樣本點的總數(shù),為函數(shù)值,為均值為0方差為的白噪聲。
由此得到的先驗分布
式中,(,)==(k)為×階正定且對稱的協(xié)方差矩陣,矩陣元素k=(x,x)為x和x之間的相關(guān)性,(,*) =(*,)T為測試點x與訓練集輸入之間的×1階協(xié)方差矩陣,為維單位矩陣。
由此得出預測值f的后驗分布:
要建立一個高斯過程回歸(GPR)模型首先需要選擇模型的協(xié)方差函數(shù),求取其中的協(xié)方差矩陣。一般選用高斯核函數(shù)作為協(xié)方差函數(shù),即
本文提出的軟測量建模過程如圖1所示。首先,通過機理分析選擇相關(guān)輸入變量,得到原始輸入變量集(1,2,,x),為原始輸入變量個數(shù)。然后通過計算多測點變量之間的皮爾森相關(guān)系數(shù),確定變量權(quán)重,對多測點變量進行數(shù)據(jù)融合,得到輸入變量集(1,2,,X),為融合后輸入變量個數(shù)。使用LARS算法找到輸入變量集中各變量對應的權(quán)重系數(shù)集(1,2,,)。根據(jù)輸入變量集和權(quán)重系數(shù)集,得到GPR模型最終的輸入數(shù)據(jù)集(11,22,,X)。
圖1 Pc-lars-GPR模型
煙氣氧含量是與鍋爐效率和經(jīng)濟燃燒密切相關(guān)的主要指標,但由于惡劣的工作條件和硬件傳感器的高維護成本,很難實現(xiàn)在線精確測量。由于鍋爐爐膛漏風、煤質(zhì)變化和燃料不完全燃燒等因素對煙氣含氧量的影響較大,因此選取能夠反映負荷、燃料、風量等方面的變量作為輔助變量。根據(jù)機理分析并結(jié)合文獻[17]中使用的變量,選擇與煙氣含氧量密切相關(guān)的25個過程變量作為二次變量,分別為主蒸汽壓力1、主蒸汽溫度2、爐膛負壓3、總風量4、發(fā)電機有功功率5、給水流量6、總?cè)剂狭?、送風機A/B擋板開度89、引風機A/B擋板開度1011、送風機A/B電流1213、引風機A/B電流1415、空氣預熱器出口A1/A2/A3/ B1/B2/B3煙氣溫度1621、引風機出口A/B煙氣溫度2223、送風機入口A/B風量2425。輸出變量為鍋爐A/B兩側(cè)煙道中的煙氣含氧量12。
采用某電廠超超臨界1 000 MW二次再熱機組的實際運行數(shù)據(jù)驗證本文方法的有效性。從該電廠DCS選取機組負荷變化跨度較大(600~1 000 MW)的1個月運行數(shù)據(jù),采樣間隔設(shè)定為30 s,對其穩(wěn)定工況下的煙氣含氧量軟測量建模。篩選具有良好工況代表性的穩(wěn)態(tài)數(shù)據(jù),采用文獻[18]介紹的穩(wěn)態(tài)檢測方法,以機組負荷、主蒸汽壓力、主蒸汽溫度作為判定變量,篩選出975組穩(wěn)態(tài)數(shù)據(jù)。使用其中650組數(shù)據(jù)作為訓練樣本,另外325組數(shù)據(jù)作為測試樣本。
在訓練模型前,首先對所有數(shù)據(jù)進行清洗和預處理,剔除離群點。然后將訓練樣本歸一化到[-1,1]范圍內(nèi),在得到輸出后再進行反歸一化處理。由于對輸出1和2建立軟測量模型所用的方法相同,僅以輸出1為例,驗證本文方法。
從二次變量集可以看出存在多測點變量,分別計算變量89、1011、1213、1415、1621、2223、2425的皮爾森相關(guān)系數(shù),并用1.1節(jié)的方法對相關(guān)輸入變量進行加權(quán)處理,從而得到新的輸入數(shù)據(jù)集。以變量1621為例計算其皮爾森相關(guān)系數(shù),計算結(jié)果見表1。
表1 多測點變量相關(guān)系數(shù)
Tab.1 The correlation coefficient of multi-point variables
由表1可知變量間存在很強的線性相關(guān)性。當有測點存在故障時,其相關(guān)性系數(shù)將趨于零,則其對應的權(quán)重系數(shù)也趨于零,變量的修正值將不受故障點影響。因此,在建立煙氣含氧量模型之前對多測點數(shù)據(jù)進行數(shù)據(jù)融合,不但可以降低輸入變量,還有利于提高數(shù)據(jù)的準確性。
通過對多測點變量數(shù)值進行加權(quán)融合,得到新的輸入變量集。新變量集包含14個變量,分別為主蒸汽壓力1、主蒸汽溫度2、爐膛負壓3、總風量4、發(fā)電機有功功率5、給水流量6、總?cè)剂狭?、送風機擋板開度8、引風機擋板開度9、送風機電流10、引風機電流11、空氣預熱器出口煙氣溫度12、引風機出口煙氣溫度13、送風機入口風量14。
使用LARS算法計算數(shù)據(jù)融合得到的輸入變量集的特征系數(shù),從而得到GPR軟測量建模的輸入數(shù)據(jù)集。以預測輸出1為例,計算各輸入變量的系數(shù)。迭代次數(shù)與系數(shù)的關(guān)系及各輸入變量權(quán)重系數(shù)分別如圖2和表2所示。
圖2 迭代次數(shù)與系數(shù)的關(guān)系
表2 輸入變量權(quán)重系數(shù)
Tab.2 The weight coefficients of the input variables
由表2可知,通過使用LARS算法對輸入數(shù)據(jù)集進行分析,確定特征變量主蒸汽壓力1和引風機擋板開度9對煙氣含氧量軟測量建模的影響較小,故將這2個變量從輸入數(shù)據(jù)集中剔除。由給出的特征系數(shù),得到最終輸入數(shù)據(jù)集。
為了對比驗證建模效果,本文同時采用核偏最小二乘(KPLS)、最小二乘支持向量機(LSSVM)作為對比建模方法,同時與是否采用本文提出的特征選擇方法做對比,所有建模方法的核函數(shù)均采用高斯核函數(shù)。
本文分別使用均方根誤差RMSE、平均相對誤差MRE和決定系數(shù)2作為模型的評價指標,驗證模型性能。各指標計算公式為
圖3 訓練樣本實測值與預測值對比
圖4 測試樣本實測值與預測值對比
為了更直觀地展示Pc-lars-GPR模型的泛化能力,圖5使用點劃線對實測值與預測值做對比。由圖5可知,預測值與實測值非常接近,且處于95%置信度區(qū)間內(nèi),證明該模型具有良好的性能。此外,對3種模型以及是否采用本文提出的特征選擇方法做對比,各模型誤差對比結(jié)果如表3和圖6—圖7所示。圖6是從訓練樣本的角度對算法性能進行比較。由圖6a)可見,比較KPLS、LSSVM和GPR對訓練樣本的預測誤差,GPR模型對訓練樣本的擬合程度最好,RMSE和MRE指標最小,LSSVM模型的效果次之,KPLS模型的效果最差。與KPLS和LSSVM建模方法相比,GPR模型參數(shù)優(yōu)化相對容易,因此模型的精確性較好。KPLS方法是在PLS方法基礎(chǔ)上通過使用高斯核函數(shù)實現(xiàn)非線性建模。由于PLS本身是一種線性建模方法,盡管采用了核函數(shù),其對處理非線性問題仍存在一定誤差。如圖6b)所示,通過在建模前使用特征選擇算法對輸入變量進行篩選,3種建模方法的建模誤差都有一定程度降低。
圖7為測試樣本各模型的預測誤差,主要考察模型的泛化能力。由圖7a)可見,GPR表現(xiàn)最好,KPLS表現(xiàn)最差,說明GPR建模方法不但建模精度較好,而且模型泛化能力優(yōu)良。由圖7b)可見,采用特征選擇算法對輸入變量進行篩選,也能提高模型的泛化能力。
圖5 實測值與預測值對比
表3 各模型性能對比
Tab.3 Performance comparison of each model
1)采用皮爾森相關(guān)系數(shù)對多測點進行數(shù)據(jù)融合,得到的測量結(jié)果比多個測點的算術(shù)平均值更準確,可靠性更高。同時該方法減少了建模計算量,減輕了模型共線性問題,提高了建模精度。
2)通過采用LARS算法得到輸入變量的特征系數(shù),由此得到最終的輸入變量集。該方法可以有效減少建模所需的輸入變量個數(shù),降低輸入變量的維度,減少計算量。
3)將本文提出Pc-lars-GPR煙氣含氧量模型應用于某超超臨界1 000 MW機組的煙氣含氧量軟測量,結(jié)果表明該模型誤差較小,且其靜態(tài)準確度和泛化性能均可滿足軟測量要求。
[1] KADLEC P, GRBI? R, GABRYS B. Review of adaptation mechanisms for data-driven soft sensors[J]. Computers & Chemical Engineering, 2011, 35(1): 1-24.
[2] KHATIBISEPEHR S, HUANG B, KHARE S. Design of inferential sensors in the process industry: a review of Bayesian methods[J]. Journal of Process Control, 2013, 23(10): 1575-1596.
[3] GE Z. Mixture Bayesian regularization of PCR model and soft sensing application[J]. IEEE Transactions on Industrial Electronics, 2015, 62(7): 4336-4343.
[4] 韓璞, 喬弘, 王東風, 等. 火電廠熱工參數(shù)軟測量技術(shù)的發(fā)展和現(xiàn)狀[J]. 儀器儀表學報, 2007, 28(6): 1139-1146.
HAN Pu, QIAO Hong, WANG Dongfeng, et al. Development and current status of thermal parameter soft-sensing technique in power plant[J]. Chinese Journal of Scientific Instrument, 2007, 28(6): 1139-1146.
[5] YUAN X, GE Z, SONG Z, et al. Soft sensor modeling of nonlinear industrial processes based on weighted probabilistic projection regression[J]. IEEE Transactions on Instrumentation and Measurement, 2017, 66(4): 837-845.
[6] GALICIA H J, HE Q P, WANG J. A reduced order soft sensor approach and its application to a continuous digester[J]. Journal of Process Control, 2011, 21(4): 489-500.
[7] ROGINA A, ?I?KO I, MOHLER I, et al. Soft sensor for continuous product quality estimation (in crude distillation unit)[J]. Chemical Engineering Research and Design, 2011, 89(10): 2070-2077.
[8] 李建強, 趙凱, 牛成林, 等. 基于GA-SVM的電站鍋爐煙氣含氧量軟測量模型[J]. 熱力發(fā)電, 2017, 46(4): 63-69.
LI Jianqiang, ZHAO Kai, NIU Chenglin, et al. GA-SVM-based soft-sensor model for oxygen content in flue gas of utility boilers[J]. Thermal Power Generation, 2017, 46(4): 63-69.
[9] 金秀章, 韓超. KPCA-LSSVM在磨煤機一次風量預測中的應用[J]. 自動化儀表, 2015, 36(3): 62-67.
JIN Xiuzhang, HAN Chao. Application of KPCA-LSSVM in prediction of the primary air flow of pulverizer[J]. Process Automation Instrumentation, 2015, 36(3): 62-67.
[10] 劉吉臻, 秦天牧, 楊婷婷, 等. 基于偏互信息的變量選擇方法及其在火電廠SCR系統(tǒng)建模中的應用[J]. 中國電機工程學報, 2016, 36(9): 2438-2443.
LIU Jizhen, QIN Tianmu, YANG Tingting, et al. Variable selection method based on partial mutual information and its application in power plant SCR system modeling[J]. Proceedings of the CSEE, 2016, 36(9): 2438-2443.
[11]呂游, 劉吉臻, 楊婷婷, 等. 基于PLS特征提取和LS-SVM結(jié)合的NO排放特性建模[J]. 儀器儀表學報, 2013, 34(11): 2418-2424.
LV You, LIU Jizhen, YANG Tingting, et al. NOemission characteristic modeling based on feature extraction using PLS and LS-SVM[J]. Chinese Journal of Scientific Instrument, 2013, 34(11): 2418-2424.
[12] 李建強, 張瑩瑩, 牛成林. 基于PSO-LSSVM模型的火電廠煙氣含氧量預測[J]. 熱能動力工程, 2018, 33(7): 49-55.
LI Jianqiang, ZHANG Yingying, NIU Chenglin. Prediction of the oxygen content in flue gas of power plant based on PSO-LSSVM model[J]. Journal of Engineering for Thermal Energy and Power, 2018, 33(7): 49-55.
[13] 賀桂林, 王富強, 張秋生, 等. 基于非參數(shù)組合的電廠含氧量軟測量模型[J]. 熱力發(fā)電, 2018, 47(4): 55-62.
HE Guilin, WANG Fuqiang, ZHANG Qiusheng, et al. Soft measurement model of oxygen content based on the nonparametric combination for power plants[J]. Thermal Power Generation, 2018, 47(4): 55-62.
[14] EFRON B, HASTIE T, JOHNSTONE I, et al. Least angle regression[J]. The Annals of Statistics, 2004, 32(2): 407-499.
[15] 顏勝科, 楊輝華, 胡百超, 等. 基于最小角回歸與GA-PLS的NIR光譜變量選擇方法[J]. 光譜學與光譜分析, 2017, 37(6): 1733-1738.
YAN Shengke, YANG Huihua, HU Baichao, et al. Variable selection method of NIR spectroscopy based on least angle regression and GA-PLS[J]. Spectroscopy and Spectral Analysis, 2017, 37(6): 1733-1738.
[16] RASMUSSEN C E. Gaussian processes in machine learning[M]. Springer, Berlin, Heidelberg: Advanced Lectures on Machine Learning, 2004: 63-71.
[17]YAN W, TANG D, LIN Y. A data-driven soft sensor modeling method based on deep learning and its application[J]. IEEE Transactions on Industrial Electronics, 2017, 64(5): 4237-4245.
[18] 賈昊, 董澤, 閆來清. 基于信號分解和統(tǒng)計假設(shè)檢驗的穩(wěn)態(tài)檢測方法[J]. 儀器儀表學報, 2018, 39(10): 150-157.
JIA Hao, DONG Ze, YAN Laiqing. Steady-state detection method based on signal decomposition and statistical hypothesis test[J]. Chinese Journal of Scientific Instrument, 2018, 39(10): 150-157.
Data-driven soft sensor modeling method based on feature selection
DONG Ze1,2, JIA Hao1,2, JIANG Wei1
(1. Hebei Technology Innovation Center of Simulation & Optimized Control for Power Generation, North China Electric Power University, Baoding 071003, China; 2. School of Control and Computer Engineering, North China Electric Power University, Beijing 102206, China)
Due to poor measurement environment, expensive analytical instruments and large measurement delay, some key variables of power generating units are difficult to realize on-line measurement. To solve this problem, a feature selection method based on the Pearson correlation coefficient and the least angle regression algorithm (LARS) is presented. On this basis, a soft sensing model of oxygen content in flue gas of power plants is established. Firstly, the initial variables of oxygen content in flue gas are determined according to the mechanism study, and the Pearson correlation coefficient is used to fuse the data of multiple measurement points. Then, the least angle regression algorithm is used to select the input variables, and the soft sensor model of oxygen content in flue gas is established by introducing the Gauss process regression (GPR) model. Finally, this model is applied to simulate the actual steady condition data of an ultra supercritical 1 000 MW unit. The results show that, the predicted results have little error with the actually measured values, and the precision of the model is higher. Applying this feature selection method can effectively reduce the number of the secondary variables used in modeling, decrease the input complexity of the model and improve the calculation efficiency. Moreover, it can enhance the static accuracy and generalization ability of the flue gas oxygen content model.
soft sensing, data fusion, feature selection, Pearson correlation coefficient, least angle regression, Gauss process regression, oxygen content in flue gas
TP274.2
A
10.19666/j.rlfd.201901004
2019-01-16
河北省自然科學基金項目(E2018502111);中央高?;究蒲袠I(yè)務(wù)費專項資金資助(2018QN096)
Supported by:Natural Science Foundation of Hebei Province (E2018502111); Fundamental Research Funds for the Central Universities (2018QN096)
董澤(1970—),博士,教授,主要研究方向為大型火電機組建模理論與方法、智能控制理論及應用,dongze33@126.com。
賈昊(1988—),博士研究生,主要研究方向為大型火電機組歷史數(shù)據(jù)挖掘與建模,Jiah_paper@163.com。
董澤, 賈昊, 姜煒. 基于特征選擇的數(shù)據(jù)驅(qū)動軟測量方法[J]. 熱力發(fā)電, 2019, 48(9): 83-89. DONG Ze, JIA Hao, JIANG Wei. Data-driven soft sensor modeling method based on feature selection[J]. Thermal Power Generation, 2019, 48(9): 83-89.
(責任編輯 杜亞勤)