陳 穎1,陳大鵬
(1.重慶電力高等??茖W(xué)校,重慶 500036;2.神華內(nèi)蒙古國(guó)華準(zhǔn)格爾發(fā)電有限責(zé)任公司,內(nèi)蒙古 呼和浩特 010300)
隨著火電機(jī)組自動(dòng)化水平的提高,主蒸汽流量信號(hào)在機(jī)組運(yùn)行的安全性與經(jīng)濟(jì)性上的影響越來(lái)越顯著。汽輪機(jī)主蒸汽流量易受到如機(jī)組負(fù)荷、主蒸汽溫度、汽機(jī)抽汽量等多種因素的影響,它一般通過(guò)標(biāo)準(zhǔn)節(jié)流裝置測(cè)得,或由調(diào)節(jié)級(jí)后壓力等參數(shù)計(jì)算求得。由于各因素之間互相影響,互相疊加,導(dǎo)致數(shù)據(jù)分析困難。
目前,測(cè)量主蒸汽流量的方法主要有直接測(cè)量法和間接測(cè)量法[1]。直接測(cè)量法通常采用標(biāo)準(zhǔn)節(jié)流裝置測(cè)量,該方法簡(jiǎn)單、便于操作,但會(huì)造成一定的節(jié)流損失??梢岳肈CS系統(tǒng)中存儲(chǔ)的海量數(shù)據(jù)挖掘出影響主蒸汽流量的主要因素,通過(guò)支持向量機(jī)中的廣義回歸網(wǎng)絡(luò)建立主蒸汽流量在線預(yù)測(cè)模型。
數(shù)據(jù)挖掘(data mining)是指從存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中挖掘其中人們事先不知道的,但又是潛在的有用信息或知識(shí)的過(guò)程。由于數(shù)據(jù)挖掘與數(shù)據(jù)庫(kù)密切相關(guān),又稱為數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(knowledge discovery in database,KDD)[2]。DCS系統(tǒng)中存儲(chǔ)了海量的實(shí)時(shí)數(shù)據(jù)及歷史數(shù)據(jù),這些數(shù)據(jù)背后隱含著某些規(guī)律,數(shù)據(jù)挖掘技術(shù)就是發(fā)現(xiàn)這些數(shù)據(jù)規(guī)律。
數(shù)據(jù)挖掘中對(duì)數(shù)據(jù)進(jìn)行處理的主要步驟:數(shù)據(jù)選取、數(shù)據(jù)預(yù)處理、確定數(shù)據(jù)挖掘的目的、確定算法、數(shù)據(jù)挖掘、知識(shí)解釋與評(píng)價(jià)。對(duì)于電廠DCS系統(tǒng)的數(shù)據(jù),可以根據(jù)專業(yè)知識(shí)預(yù)先選取所有對(duì)主蒸汽流量有影響的可能因素,在此基礎(chǔ)上利用數(shù)據(jù)挖掘技術(shù)提取特征變量、分析自變量與因變量的關(guān)聯(lián)性,從而進(jìn)一步確定主要影響因素。
廣義回歸神經(jīng)網(wǎng)絡(luò)(general regression neural network,GRNN)[3]是以Paren Window于1962年提出的估計(jì)器理論為基礎(chǔ),由Specht所創(chuàng)立,是一種監(jiān)督的前饋神經(jīng)網(wǎng)絡(luò),具有良好的非線性映射能力,建模需要樣本數(shù)量少,人為確定的參數(shù)少等優(yōu)點(diǎn),典型GRNN由4層構(gòu)成。
1)輸入層
輸入層神經(jīng)元的數(shù)目等于學(xué)習(xí)樣本中輸入向量的維數(shù),各神經(jīng)元是簡(jiǎn)單的分布單元,直接將輸入變量傳遞給模式層。
2)模式層
模式層神經(jīng)元數(shù)目等于學(xué)習(xí)樣本的數(shù)目n,各神經(jīng)元對(duì)應(yīng)不同的樣本,模式層神經(jīng)元傳遞函數(shù)為
(1)
3)求和層
求和層中使用兩種類型神經(jīng)元進(jìn)行求和。
一類的計(jì)算公式為
(2)
它對(duì)所有模式層神經(jīng)元的輸出進(jìn)行算術(shù)求和,其模式層與各神經(jīng)元的連接權(quán)值為1,傳遞函數(shù)為
(3)
另一類計(jì)算公式為
(4)
它對(duì)所有模式層的神經(jīng)元進(jìn)行加權(quán)求和,模式層中第i個(gè)神經(jīng)元與求和層中第j個(gè)神經(jīng)元之間的連接權(quán)值為第i個(gè)輸出樣本Yi中的第j個(gè)元素,傳遞函數(shù)為
(5)
4)輸出層
輸出層中的神經(jīng)元數(shù)目等于學(xué)習(xí)樣本中輸出向量的維數(shù)k,各神經(jīng)元將求和層的輸出相除,神經(jīng)元j的輸出對(duì)應(yīng)估計(jì)結(jié)果Y(X)的第j個(gè)元素,即
(6)
模型變量的合理選取對(duì)于建模過(guò)程至關(guān)重要,精簡(jiǎn)準(zhǔn)確的模型參量能有效地保證模型精度,而過(guò)多無(wú)關(guān)參量的干擾會(huì)嚴(yán)重影響模型性能。從電廠DCS系統(tǒng)中存儲(chǔ)的大量數(shù)據(jù)信息發(fā)現(xiàn),主蒸汽流量與機(jī)組負(fù)荷等因素有著密切關(guān)系,根據(jù)熱能專業(yè)知識(shí)和閱讀參考文獻(xiàn),初步確定了建立主蒸汽模型所需要的變量:主蒸汽流量、主蒸汽壓力、主蒸汽溫度、一段抽汽溫度、一段抽汽壓力、高壓缸排汽溫度、高壓缸排汽壓力、機(jī)組負(fù)荷、汽輪機(jī)一級(jí)壓力(調(diào)節(jié)級(jí)后壓力)。
自變量篩選的方法有很多種,其基本思路是:盡可能將影響效果顯著的自變量選入到模型中,將作用不顯著的自變量排除在外。通常的篩選方法有主成分分析法、偏最小二乘法、遺傳算法等。在MATLAB軟件中編制程序,利用逐步回歸法實(shí)現(xiàn)對(duì)自變量的篩選,得到如圖1所示結(jié)果。
圖1 基于逐步回歸法的自變量篩選
最終確定建立主蒸汽流量測(cè)量模型的5個(gè)輸入變量,即自變量為主蒸汽壓力、汽輪機(jī)一級(jí)壓力、一段抽汽壓力、一段抽汽溫度、高壓缸排汽溫度;輸出變量,即因變量為主蒸汽流量。
在簡(jiǎn)單的隨機(jī)抽樣下,使用絕對(duì)誤差限和估計(jì)量的標(biāo)準(zhǔn)差來(lái)確定所需的樣本量。在常用的無(wú)放回的簡(jiǎn)單隨機(jī)抽樣情況下,總體均值估計(jì)量的標(biāo)準(zhǔn)差(即抽樣平均誤差)的表達(dá)式為
(7)
式中:S是總體標(biāo)準(zhǔn)差,由于它通常是未知的,所以常用它的估計(jì)值δ來(lái)代替它;n是樣本量;N是總體單位數(shù)。
絕對(duì)誤差限為
(8)
從式(8)中解得
(9)
式中:t是對(duì)應(yīng)于置信概率的臨界值,通常取1.96,對(duì)應(yīng)置信概率95%;δ2是總體的估計(jì)方差[4]。如果所計(jì)算出的樣本量不是整數(shù),一般不采用四舍五入的辦法,而是采用取其整數(shù)部分再加1的辦法。
當(dāng)t取1.96時(shí),置信概率為95%。當(dāng)N=2 881時(shí),根據(jù)公式計(jì)算出所需要的樣本量為339。再利用在總體樣本量較小時(shí),最小樣本量的確定辦法對(duì)樣本量進(jìn)行進(jìn)一步精確,即
(10)
式中:n1是根據(jù)一定的置信度和允許誤差計(jì)算所得的樣本量[5]。計(jì)算得所需要的樣本量為308。
利用模糊C均值聚類法,將2 881個(gè)樣本分為10類,每類的樣本數(shù)量分別為211、216、290、207、303、313、457、218、296、310。總共需要抽取308組數(shù)據(jù),按比例分層抽樣各層樣本量的確定公式為
(11)
由此可以得到從第1類樣本到第10類樣本中應(yīng)抽取的樣本量分別為23、23、31、22、39、33、49、23、32、33,再利用系統(tǒng)抽樣方法抽取樣本。選擇前280個(gè)作為訓(xùn)練集,后28個(gè)作為測(cè)試集。訓(xùn)練集和測(cè)試集的負(fù)荷范圍都是50%~100%。
由于系統(tǒng)的輸入變量存在量綱上的差異,建模數(shù)據(jù)在數(shù)值大小上差別很大,如果直接使用這些數(shù)據(jù)進(jìn)行建模計(jì)算會(huì)造成較大誤差,使模型的精確度下降,因此必須對(duì)建模數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換,來(lái)提高建模結(jié)果的穩(wěn)定性。故需要對(duì)采集到的實(shí)際數(shù)據(jù)做規(guī)范化處理。常用的數(shù)據(jù)規(guī)范化方法有3種:最小-最大規(guī)范化,零-均值規(guī)范化(z-score規(guī)范化)和小數(shù)標(biāo)定規(guī)范化。采用以下公式對(duì)輸入變量規(guī)范化對(duì)輸入向量作歸一化處理:
(12)
式中:x*(i,j)是第i組第j個(gè)指標(biāo)的數(shù)據(jù);x(j)max、x(j)min為第j個(gè)指標(biāo)的最大值和最小值;x(i,j)為指標(biāo)特征值歸一化的序列。
選擇GRNN廣義回歸網(wǎng)絡(luò)建立主蒸汽流量軟件測(cè)量模型,在MATLAB R2014a下編制程序,GRNN的網(wǎng)絡(luò)分布密度參數(shù)spread取值為0.1,結(jié)果如表1所示。
表1 預(yù)測(cè)結(jié)果對(duì)比表
圖2所示的主蒸汽流量為預(yù)測(cè)值與實(shí)際值的結(jié)果對(duì)比,圖3和圖4分別是預(yù)測(cè)出的主蒸汽流量的絕對(duì)誤差圖和相對(duì)誤差圖。
圖3 主蒸汽流量的絕對(duì)誤差圖
圖4 主蒸汽流量的相對(duì)誤差圖
主蒸汽流量的準(zhǔn)確在線計(jì)算是實(shí)現(xiàn)機(jī)組性能實(shí)時(shí)計(jì)算和熱經(jīng)濟(jì)性評(píng)價(jià)的前提?;谥髡羝髁吭陔姀S熱經(jīng)濟(jì)性分析中的重要性,本文建立了預(yù)測(cè)主蒸汽流量的GRNN模型,經(jīng)過(guò)訓(xùn)練和檢驗(yàn),得到的預(yù)測(cè)結(jié)果相對(duì)誤差最大為-2.961 2%,最小僅為-0.080 0%,在可接受的范圍內(nèi),比較令人滿意。