劉曉鋒 李太斌 范偉寧 李棟梁 曹哲銘
(1.中國(guó)華能集團(tuán)有限公司 北京市 100031 2.華能四川水電有限公司 四川省成都市 610041)
(3.華能信息技術(shù)有限公司 山東省青島市 266000 4.太極計(jì)算機(jī)股份有限公司 北京市 100102)
隨著電力系統(tǒng)的增長(zhǎng)和可再生能源的普及,系統(tǒng)的復(fù)雜性和不確定性水平顯著提高。過(guò)去的大多數(shù)研究都集中在開(kāi)發(fā)精確的水力發(fā)電點(diǎn)預(yù)測(cè)方法,包括最早的也是最為簡(jiǎn)單的回歸分析,以及后來(lái)隨著計(jì)算機(jī)技術(shù)發(fā)展,逐漸提出了時(shí)間序列法、頻譜分析法以及近年的神經(jīng)網(wǎng)絡(luò)方法都被應(yīng)用于水流量和發(fā)電量的預(yù)測(cè)中。但是由于天氣系統(tǒng)的混沌性和水流量的極大波動(dòng)性,水電預(yù)測(cè)中的誤差是不可避免的,而且往往是非常嚴(yán)重的。
因此本文為了量化誤差和提高預(yù)測(cè)的可靠性,通過(guò)收集三個(gè)發(fā)電站水牛家、自一里、木座的相關(guān)數(shù)據(jù),在對(duì)數(shù)據(jù)進(jìn)行一定分析和預(yù)處理之后,采取了極限學(xué)習(xí)機(jī)和長(zhǎng)短期記憶網(wǎng)絡(luò)兩種模型對(duì)其水流量和發(fā)電量進(jìn)行了區(qū)間預(yù)測(cè),并對(duì)預(yù)測(cè)誤差進(jìn)行了一定的評(píng)估。
本文選取了水電站數(shù)據(jù)中的水牛家、自一里、木座三個(gè)水電站進(jìn)行屬性分析,通過(guò)選取三個(gè)水電站2008年-2018年水流量和發(fā)電量的完整數(shù)據(jù)集來(lái)進(jìn)行建模,其中2008年-2017年共4384 條數(shù)據(jù)為訓(xùn)練集,2018年的數(shù)據(jù)為訓(xùn)練集來(lái)對(duì)所建預(yù)測(cè)模型進(jìn)行檢驗(yàn)。通過(guò)建立時(shí)間序列預(yù)測(cè)模型,預(yù)測(cè)這三個(gè)水電站的發(fā)電量和來(lái)水量,對(duì)所收集數(shù)據(jù)進(jìn)行描述性分析,結(jié)果如表1所示。
時(shí)間序列指的是按照時(shí)間順序的一組數(shù)列,時(shí)間序列分析(Time-Series Analysis)是指將原來(lái)的數(shù)據(jù)分解為四部分來(lái)看——趨勢(shì)、周期、時(shí)期和不穩(wěn)定因素,然后綜合這些因素,提出預(yù)測(cè)。對(duì)收集到的水電站的時(shí)間序列數(shù)據(jù)進(jìn)行處理以便后續(xù)的模型分析。在對(duì)數(shù)據(jù)的時(shí)間序列進(jìn)行分析預(yù)測(cè)的時(shí)候,數(shù)據(jù)相對(duì)越平穩(wěn)越好,剔除掉異常值就是減少特殊狀況對(duì)數(shù)據(jù)的影響,從而使得最終預(yù)測(cè)結(jié)果越準(zhǔn)確。因此從數(shù)據(jù)的時(shí)間序列圖和箱型圖中觀察異常值,對(duì)異常值采取先剔除后填補(bǔ)的方式對(duì)其進(jìn)行處理,減少異常值對(duì)模型預(yù)測(cè)的影響。
本文選取了極限學(xué)習(xí)機(jī)(Extreme learning machine,ELM)和長(zhǎng)短期記憶網(wǎng)絡(luò)(Long and short-term memory network,LSTM)兩個(gè)模型對(duì)水電站的水流量和發(fā)電量進(jìn)行區(qū)間預(yù)測(cè)。
極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)或“超限學(xué)習(xí)機(jī)”是一類(lèi)基于前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network,FNN)構(gòu)建的機(jī)器學(xué)習(xí)系統(tǒng)或方法,適用于監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)問(wèn)題。
LSTM(Long Short Term Memory Network)長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),解決長(zhǎng)序列訓(xùn)練過(guò)程中的梯度消失和梯度爆炸問(wèn)題,在時(shí)間序列預(yù)測(cè)問(wèn)題上面有廣泛的應(yīng)用。
表1:水電站數(shù)據(jù)描述性統(tǒng)計(jì)
任何數(shù)據(jù)的預(yù)測(cè)都不可以避免相關(guān)誤差,因此預(yù)測(cè)目標(biāo)計(jì)算公式可以概括為:
其中ti為預(yù)測(cè)目標(biāo),xi是相關(guān)輸入變量,包括水電站歷史水流量和發(fā)電量的數(shù)據(jù),ε(xi)則表示測(cè)量噪音,因?yàn)樵胍舻拇嬖谑沟脺y(cè)量目標(biāo)偏離其真實(shí)值而趨向于其測(cè)量值,而且我們假設(shè)ε(xi)服從高斯分布,其均值為0,方差為δ2ε。因此對(duì)于預(yù)測(cè)中的誤差就分為了兩個(gè)部分:
圖1:長(zhǎng)短期記憶網(wǎng)絡(luò)模型下自一里水電站發(fā)電量預(yù)測(cè)
本模型種選取了預(yù)測(cè)區(qū)間覆蓋率(PICP)、預(yù)測(cè)區(qū)間歸一化平均寬度(PINAW)、預(yù)測(cè)區(qū)間歸一化均方根寬度(PINRW)以及基于覆蓋寬度的準(zhǔn)則(CWC)四個(gè)指標(biāo)對(duì)區(qū)間預(yù)測(cè)結(jié)果進(jìn)行評(píng)估。其中,PICP 表示概率目標(biāo)值被上下界覆蓋的概率。較大的PICP 意味著更多的目標(biāo)位于構(gòu)建的預(yù)測(cè)區(qū)間內(nèi),反之亦然。令N 表示樣本總數(shù),則理想狀態(tài)當(dāng)然是PICP 達(dá)到100%,這意味著所有值均被預(yù)測(cè)區(qū)間所覆蓋。但是在這其中容易忽視預(yù)測(cè)區(qū)間跨度的問(wèn)題,如果預(yù)測(cè)區(qū)間跨度大,則很容易達(dá)到較高的PICP 值,因此較寬的預(yù)測(cè)區(qū)間對(duì)于決策毫無(wú)用處,預(yù)測(cè)區(qū)間的寬度決定了它們的信息性。因此還需要采用PINAW 指標(biāo)將所有區(qū)間寬度歸一化。其公式為其中R 為預(yù)測(cè)目標(biāo)的范圍(最大值減去最小值)。PINAW 的格式類(lèi)似于用于點(diǎn)預(yù)報(bào)的平均絕對(duì)百分比誤差(MAPE)。它賦予每個(gè)預(yù)測(cè)區(qū)間寬度相等的權(quán)重。PINRW 則相當(dāng)于點(diǎn)預(yù)測(cè)中的均方誤差(MSE),計(jì)算公式為但是不管是PICP 還是PINAW(或PINRW)都只單獨(dú)評(píng)估預(yù)測(cè)區(qū)間的一個(gè)方面,這可能會(huì)導(dǎo)致誤導(dǎo)性的結(jié)果。在實(shí)踐中,要求同時(shí)兼PICP 和PINAW 這兩個(gè)方面,對(duì)項(xiàng)目信息系統(tǒng)的整體質(zhì)量進(jìn)行綜合評(píng)價(jià)。因此在本文中還引入了CWC 這一參考指標(biāo),其中η 和μ 是兩個(gè)控制參數(shù),μ 可根據(jù)其置信區(qū)間來(lái)設(shè)定,η 是放大PICP 和μ 之間差異的超參數(shù)。如果預(yù)分配的PICP 不滿足,則CWC 將對(duì)此項(xiàng)進(jìn)行指數(shù)懲罰。而。在評(píng)估測(cè)試預(yù)測(cè)區(qū)間時(shí),如果PICP 不小于指定的μ,則給出相等的PICP 測(cè)量值。否則,并且相應(yīng)的結(jié)果將在CWC 數(shù)值上展現(xiàn)出來(lái)。
本文采取ELM 和LSTM 兩種模型對(duì)水電站的水流量和發(fā)電量的區(qū)間預(yù)測(cè)用上述四個(gè)指標(biāo)進(jìn)行評(píng)估。
對(duì)于所有的模型預(yù)測(cè)結(jié)果,PICP 均超過(guò)75%,這說(shuō)明預(yù)測(cè)區(qū)間較高概率地覆蓋了目標(biāo)值,且無(wú)論是PINAW 或是PINRW 都低于25%,因此預(yù)測(cè)區(qū)間寬度也是在合理范疇的。但是需注意的是,無(wú)論是采用極限學(xué)習(xí)機(jī)還是長(zhǎng)短期記憶網(wǎng)絡(luò)模型,自一里水電站預(yù)測(cè)區(qū)間的PINAW 和PINRW 的值都是高于其它兩個(gè)水電站的。預(yù)測(cè)區(qū)間的寬度是與于數(shù)據(jù)集的不確定性水平有一定關(guān)聯(lián),因此自一里水電站相較于另外兩個(gè)水電站其水流量和發(fā)電量具有更高的不確定性。而從CWC 指標(biāo)來(lái)看,對(duì)于三個(gè)水電站的發(fā)電量預(yù)測(cè)區(qū)間的CWC 值均高于水流量區(qū)間預(yù)測(cè)的CWC 值,反映出水流量相較于發(fā)電量有更大的不確定性影響了對(duì)其區(qū)間的預(yù)測(cè)。但是從整體評(píng)價(jià)指標(biāo)來(lái)看,所提出的預(yù)測(cè)區(qū)間對(duì)于水電站的水流量和發(fā)電量的預(yù)測(cè)還是可取的,對(duì)于水電站未來(lái)管理是有一定參考價(jià)值。
利用極限學(xué)習(xí)機(jī)和長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)水電站的發(fā)電量和來(lái)水量進(jìn)行預(yù)測(cè)最終形成的預(yù)測(cè)區(qū)間時(shí)間序列圖如圖1所示(僅選取自一里水電站X270 進(jìn)行展示)。
由圖1 可以看出,大多數(shù)實(shí)際值位于預(yù)測(cè)區(qū)間之內(nèi),區(qū)間預(yù)測(cè)比點(diǎn)預(yù)測(cè)有更大的誤差包容性。
我國(guó)水電站數(shù)量眾多,因此為了保證水力發(fā)電的穩(wěn)定運(yùn)行,對(duì)于水電站的水流量和發(fā)電量進(jìn)行預(yù)測(cè)至關(guān)重要。本文提出了基于極限學(xué)習(xí)機(jī)和長(zhǎng)短期記憶網(wǎng)絡(luò)兩種模型對(duì)水電進(jìn)行區(qū)間估計(jì)的方法,有效解決了點(diǎn)估計(jì)種存在的預(yù)測(cè)誤差較大的問(wèn)題,從模型評(píng)估結(jié)過(guò)來(lái)看,兩種模型各有其優(yōu)勢(shì)所在,這兩種算法對(duì)于日后水電站的穩(wěn)定運(yùn)營(yíng)以及負(fù)荷預(yù)測(cè)有著廣泛的應(yīng)用前景和指導(dǎo)意義。