梁偉平,鮑鵬凱
(華北電力大學(xué) 控制與計(jì)算機(jī)工程學(xué)院,河北 保定 071003)
為了加快潔凈燃煤發(fā)電新技術(shù)的研發(fā)和推廣應(yīng)用,提高煤電發(fā)電效率及節(jié)能環(huán)保水平,在未來(lái)的很多年,煤炭在中國(guó)能源結(jié)構(gòu)中的主導(dǎo)地位不會(huì)發(fā)生根本的改變。由于未來(lái)全球能源需求預(yù)計(jì)仍將大幅增加,國(guó)際能源署煤炭產(chǎn)業(yè)咨詢委員會(huì)強(qiáng)調(diào)指出,煤炭將繼續(xù)作為21世紀(jì)的全球能源解決方案[1]。為了響應(yīng)節(jié)約資源的號(hào)召,大機(jī)組、大容量、大電網(wǎng)的電力系統(tǒng)已經(jīng)開始逐漸取代了過去的小機(jī)組、小容量的電力生產(chǎn)潮流,而直流鍋爐作為現(xiàn)代電力生產(chǎn)的主要設(shè)備,承載著節(jié)約資源和保護(hù)環(huán)境的作用,而分離器出口溫度作為反應(yīng)直流鍋爐中給水流量和水煤比的一個(gè)重要的工況指標(biāo),它直接關(guān)系著機(jī)組的安全運(yùn)行,研究它對(duì)電力生產(chǎn)過程的重要性不言而喻。
直流鍋爐中間點(diǎn)溫度一般是汽水分離器出口的飽和溫度。目前,國(guó)內(nèi)的許多學(xué)者針對(duì)它開展了一系列的研究。羅志浩[2]等人在典型直流爐中間點(diǎn)溫度控制特點(diǎn)的研究中,指出直流鍋爐的中間點(diǎn)溫度過熱度對(duì)機(jī)組過熱汽溫、水冷壁和過熱器金屬溫度都十分敏感,中間點(diǎn)溫度過熱度控制的品質(zhì)直接關(guān)系機(jī)組的穩(wěn)定安全運(yùn)行。方彥君[3]等在基于主蒸汽溫度控制系統(tǒng),建立了鍋爐水冷壁部分的物理模型,根據(jù)守恒定律,測(cè)試了其在不同運(yùn)行工況下的中間點(diǎn)溫度機(jī)理模型的性能。袁淑娟[4]等以超臨界直流鍋爐為研究對(duì)象,分析了給水量和燃料量與鍋爐中間點(diǎn)溫度的關(guān)系,建立了中間點(diǎn)溫度非線性離散模型,并進(jìn)行控制系統(tǒng)設(shè)計(jì),證明了該控制系統(tǒng)在適應(yīng)變工況運(yùn)行的同時(shí),能夠?qū)崿F(xiàn)中間點(diǎn)溫度穩(wěn)定的控制目的,能實(shí)時(shí)響應(yīng)負(fù)荷變化。鐘治琨[5]從鍋爐的分布參數(shù)和多變量密切耦合的特性角度為出發(fā)點(diǎn),建立了自我組織的模糊神經(jīng)網(wǎng)絡(luò)的方法來(lái)模擬中間點(diǎn)溫度控制系統(tǒng),并且在水煤比發(fā)生變化的情況下很好地反映了中間點(diǎn)的溫度動(dòng)態(tài)。
上述文獻(xiàn)雖有對(duì)中間點(diǎn)溫度的研究,但是他們只注重從機(jī)理方面研究中間點(diǎn)溫度與各種鍋爐工況之間的聯(lián)系,并沒有實(shí)際地去研究如何去預(yù)測(cè)中間點(diǎn)溫度的值。本文采集了某電廠DCS歷史數(shù)據(jù),建立了基于PCA降維技術(shù)的隨機(jī)森林模型,并通過仿真實(shí)驗(yàn)驗(yàn)證了模型的有效性。
所謂的數(shù)據(jù)降維是對(duì)原始的高維特征數(shù)據(jù)進(jìn)行映射,有選擇地得到一些重要的特征,實(shí)現(xiàn)數(shù)據(jù)從高維到低維的轉(zhuǎn)化。常見的降維方法有:獨(dú)立成分分析(ICA)[6]、奇異值分解(SVD)[7]、因子分析法[8]、等距特征映射(ISOMAP)[9]。
本文采用的PCA(主成分分析)是一種線性組合的算法,用少數(shù)新變量去代替原來(lái)變量,使得到降維后的新特征盡可能多地去包含原來(lái)特征的信息,去除原來(lái)特征中重復(fù)的一部分信息。
假設(shè)數(shù)據(jù)樣本集中的樣本數(shù)有m個(gè),其中單個(gè)樣本的維度是n維。
其實(shí)現(xiàn)步驟如下:
2)計(jì)算樣本的協(xié)方差矩陣:
3)求協(xié)方差矩陣C的特征值和相對(duì)應(yīng)的特征向量
根據(jù)式(6)求協(xié)方差矩陣的特征值和特征向量:
讓計(jì)算好的λ從大到小進(jìn)行排列,將得到的特征向量按λ的順序進(jìn)行排列。
4)通過3)得到特征向量組成的矩陣,利用其對(duì)原始數(shù)據(jù)進(jìn)行降維操作,得到降維后的新數(shù)據(jù)集:
5)通過4)得到的新的數(shù)據(jù)集,然后一一計(jì)算其所包含某個(gè)特征的信息貢獻(xiàn)率和累計(jì)信息貢獻(xiàn)率。
信息貢獻(xiàn)率計(jì)算公式如下:
前k個(gè)特征的累計(jì)方差貢獻(xiàn)率如下:
根據(jù)公式(9)計(jì)算得到的累計(jì)方差貢獻(xiàn)率總和,當(dāng)其貢獻(xiàn)值達(dá)到90%以上時(shí),就選擇它所包含的部分特征代替原來(lái)的幾個(gè)特征進(jìn)行分析。
隨機(jī)森林算法最早是由美國(guó)統(tǒng)計(jì)學(xué)家Leo Breiman[10]在2001年提出的,他將Bagging集成學(xué)習(xí)理論[11]與隨機(jī)子空間方法[12]相結(jié)合,提出一種機(jī)器學(xué)習(xí)算法。RF是以決策樹為基本分類器的一個(gè)集成學(xué)習(xí)模型。集成學(xué)習(xí)是將單個(gè)分類器聚集起來(lái),通過對(duì)每個(gè)基本分類器的分類結(jié)果進(jìn)行組合,來(lái)決定待分類樣本的歸屬類別[13]。其模型示意圖如圖1所示。
圖1 隨機(jī)森林模型示意圖Fig.1 Schematic diagram of random forest model
隨機(jī)森林模型構(gòu)建步驟如下:
不防設(shè)樣本的特征個(gè)數(shù)為n,其中m為n的子特征(0<m ≤ n)。
1)利用隨機(jī)森林中重采樣方法(Bootstrap),從原始數(shù)據(jù)集中進(jìn)行有放回的采樣,生成一個(gè)樣本數(shù)為T的訓(xùn)練集 :b1,b2,b3,......,bT。
2)利用第1步得到訓(xùn)練集,生成與其對(duì)應(yīng)的決策樹:T1,T2,......Tn,在其生成的對(duì)應(yīng)的決策樹的非葉子節(jié)點(diǎn)上選擇特征前,從n個(gè)特征中隨機(jī)抽取m個(gè)特征作為分裂的起始點(diǎn),并且以這m中最好的生長(zhǎng)方向?yàn)榉至训淖罴逊较颉?/p>
3)在第2步完成以后,讓得到的決策樹都自由地生長(zhǎng),生長(zhǎng)結(jié)束以后傳入樣本的測(cè)試集X,利用生長(zhǎng)好的決策樹一一進(jìn)行測(cè)試,得到相應(yīng)的類別。
4)將第3步得到的決策樹采用投票的方法,把其中輸出最多的作為其類別。
圖2 PCA-隨機(jī)森林架構(gòu)Fig.2 PCA Random forest architecture
本實(shí)驗(yàn)采用的數(shù)據(jù)來(lái)源于華北地區(qū)某電場(chǎng),數(shù)據(jù)采集是通過DCS系統(tǒng)導(dǎo)出來(lái)的實(shí)測(cè)數(shù)據(jù),測(cè)量的數(shù)據(jù)種類包括:燃料量、給水流量、三級(jí)過熱器出口煙氣溫度1、三級(jí)過熱蒸汽煙氣溫度2、主蒸汽壓力、主蒸汽溫度、中間點(diǎn)溫度。其中,這些采集到的數(shù)據(jù)都是帶雙引號(hào)的文本格式,不能直接根據(jù)需要對(duì)其進(jìn)行處理,得到正常的計(jì)算機(jī)可以識(shí)別的格式。
由于采集的數(shù)據(jù)量綱不一樣,量綱的不同會(huì)導(dǎo)致計(jì)算結(jié)果的不同,尺度大的特征在計(jì)算中往往起決定作用,而尺度小的特征在計(jì)算中往往會(huì)被忽略。因此,為了消除特征尺度的差異,所以需要對(duì)其數(shù)據(jù)做歸一化處理。其歸一化公式如式(10)所示:
對(duì)采集的數(shù)據(jù)處理完成后,如果直接選用8個(gè)影響因素建立預(yù)測(cè)模型,容易導(dǎo)致模型訓(xùn)練時(shí)出現(xiàn)過擬合。因此,需要通過PCA算法刪除樣本中冗余的部分,采用PCA進(jìn)行分析,將其分析得到的貢獻(xiàn)率利用排序工具讓其從大到小進(jìn)行排序,如圖3所示。
圖3 各主成分的貢獻(xiàn)率Fig.3 Contribution rate of principal components
從圖3和表1可以看出,前3個(gè)特征的累積方差貢獻(xiàn)率達(dá)到了95%,可以用前2個(gè)特征來(lái)代替原始數(shù)據(jù)集,用BP神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林對(duì)降維后的數(shù)據(jù)進(jìn)行訓(xùn)練和預(yù)測(cè)。
表1 各主成分貢獻(xiàn)率的值Table 1 Values of contribution rate of principal components
通過PCA降維技術(shù)選用燃料量、給水流量?jī)蓚€(gè)特征和選用數(shù)據(jù)集的前1900個(gè)數(shù)據(jù)組成原始數(shù)據(jù)集,對(duì)RF(隨機(jī)森林)和BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和預(yù)測(cè)。其中,BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練模型參數(shù)設(shè)定見表2。
表2 BP神經(jīng)網(wǎng)絡(luò)的參數(shù)設(shè)定Table 2 Parameter setting of BP neural network
從圖4、圖5和表3可知,在一定的誤差范圍內(nèi),即417<range<419.5時(shí),在100個(gè)樣本中,PCA-BP的預(yù)測(cè)個(gè)數(shù)為51個(gè),PCA-RF的個(gè)數(shù)為78個(gè),通過公式:
圖4 BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果Fig.4 Prediction results of BP neural network
圖5 PCA-RF的預(yù)測(cè)結(jié)果Fig.5 Prediction results of PCA-RF
表3 在一定的誤差下預(yù)測(cè)正確率Table 3 Prediction accuracy under certain error
基于PCA降維算法隨機(jī)森林的正確率大于基于PCA降維算法的BP神經(jīng)網(wǎng)絡(luò)的正確率,且是預(yù)測(cè)正確的樣本里其單個(gè)元素的誤差大部分都小于BP神經(jīng)網(wǎng)絡(luò)正確樣本的單個(gè)元素。同時(shí)比沒有采用PCA降維算法的隨機(jī)森林相比,運(yùn)行時(shí)間提高了0.2 s。
為了實(shí)現(xiàn)對(duì)中間點(diǎn)溫度進(jìn)行有效的預(yù)測(cè),本文提出了一種基于PCA-RF模型:
1)根據(jù)DCS系統(tǒng)采集的歷史數(shù)據(jù),結(jié)合數(shù)據(jù)的特點(diǎn)引入了PCA降維算法,剔除了數(shù)據(jù)中影響較小的部分。
2)隨機(jī)森林與其它算法相比較,有著較好的擬合能力,可以對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)。
3)通過仿真實(shí)驗(yàn)發(fā)現(xiàn),該RF模型與BP神經(jīng)網(wǎng)絡(luò)相比較擬合能力有進(jìn)一步的提高,同時(shí)該模型的預(yù)測(cè)準(zhǔn)確率比BP神經(jīng)網(wǎng)絡(luò)有很大提高,進(jìn)一步說(shuō)明該模型具有一定的應(yīng)用潛力。