朱恩文, 朱安麒, 王潔丹, 劉玉嬌
(長沙理工大學數(shù)學與統(tǒng)計學院, 湖南長沙410114)
為應(yīng)對能源枯竭和環(huán)境惡化等問題,人類開發(fā)了多種清潔無污染的可再生清潔能源,其中風能發(fā)電相較于其他新能源發(fā)電方式具有建設(shè)周期短、費用低、應(yīng)用場地廣泛等突出優(yōu)勢。近年來,全球風電產(chǎn)業(yè)迅速發(fā)展,根據(jù)全球風能理事會(GWEC)發(fā)布的數(shù)據(jù)[1],2019年全球風能產(chǎn)業(yè)新增裝機容量為60.4 GW,同比增長19%,截至2020年3月,全球風能總?cè)萘恳殉^651 GW。我國幅員遼闊,海岸線長,具有豐富的風能資源,近幾年來我國新增裝機容量一直位居世界榜首,2019年我國新增裝機容量26 870 MW,累計裝機容量236 402 MW,占據(jù)全球風能總?cè)萘?9%。由此可以看出風力發(fā)電在我國有著很大的優(yōu)越性與可行性。為了滿足我國風力發(fā)電產(chǎn)業(yè)的發(fā)展需求,提高風能行業(yè)在電力市場的價值,并確保我國大規(guī)模風電并網(wǎng)更加安全高效,許多學者都期望能夠提出更加有效的風電功率預(yù)測方法。
風電場的預(yù)測主要分為風電功率的預(yù)測、風速的預(yù)測、風向的預(yù)測以及它們的混合預(yù)測。目前國內(nèi)外風速預(yù)測方法主要分為物理模型、統(tǒng)計模型[2]、空間相關(guān)性模型[3]、人工智能模型[4]、組合模型[5-6]等5種。Ambach和Schmid[2]將一個具有交互作用的多元季節(jié)性時變閾值自回歸模型(TVARX)與閾值季節(jié)自回歸條件異方差(TARCHX)模型結(jié)合在一起以聯(lián)合預(yù)測風速、風向和氣壓,并擴展了風速和風向的預(yù)測性能。Bilgili和Sahin[7]利用人工神經(jīng)網(wǎng)絡(luò)ANN方法并結(jié)合來自土耳其的4個不同站點的數(shù)據(jù),利用周邊觀測站的實測數(shù)據(jù),成功地預(yù)測了目標站點每日、每周、每月風速。季夢凡[8]先基于3種常用模型對風電功率進行單一模型預(yù)測,再根據(jù)5種基于權(quán)重的組合方法(預(yù)測誤差平方和倒數(shù)法、均方差誤差倒數(shù)法、熵值法等)構(gòu)建出5種組合模型對風電功率進行提前10 min和1 h的預(yù)測。Cai等[9]利用廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)與集成經(jīng)驗?zāi)B(tài)分解(EEMD)相結(jié)合的方法預(yù)測風電功率,首先利用EEMD技術(shù)進行分解,再通過基于交叉驗證參數(shù)的GRNN對每個固定模態(tài)函數(shù)進行預(yù)測并疊加得到最終預(yù)測,結(jié)果表明,該方法具有較高的預(yù)測精度。徐遵義等[4]基于風速影響因素,建立了基于NARX神經(jīng)網(wǎng)絡(luò)和SVR的風電功率組合預(yù)測模型。Korprasertsak和Leephakpreeda[10]對風電場發(fā)電量的短期預(yù)測的著名模型(如ARMA模型、ANN模型、GP模型)進行比較研究,并基于這些模型的預(yù)測性能進行加權(quán)多重組合預(yù)測,最終得到每個單一模型在預(yù)測中具有有限的預(yù)測能力,而多重組合模型可以產(chǎn)生具有統(tǒng)計置信度的可靠預(yù)測的結(jié)論。從上述文獻中可以看出,風電場預(yù)測研究主要側(cè)重于:1)利用物理模型、統(tǒng)計模型、人工智能模型或組合模型對風電場風速或風向進行預(yù)測;2)考慮風電場風速信息,對超短期風電功率進行直接或間接預(yù)測。但是如何綜合風速、風向及歷史功率信息建立模型并根據(jù)模型不同預(yù)測特點加以組合,從而整體提高風電輸出功率的短期預(yù)測精度,還需要進一步研究。
如圖1所示,箱形圖是用來反映數(shù)據(jù)分布特征的統(tǒng)計圖,它還可用于質(zhì)量管理,快速辨別異常值[11]。在統(tǒng)計學中,將所有數(shù)值按從小到大的順序排列并劃分為4等份,其中位于分割點的3個數(shù)值就是四分位數(shù),分別記作Q1、Q2、Q3。四分位間距是指上四分位數(shù)Q3與下四分位數(shù)Q1的差,用公式表示為rIQR=Q3-Q1。箱形圖異常值檢測法:異常值被定義為數(shù)據(jù)集內(nèi)限之外的數(shù)據(jù),即小于Q1-1.5rIQR或大于Q3+1.5rIQR的值,
圖1 箱型圖
FL,FU=Q1-1.5rIQR,Q3+1.5rIQR。
與基于正態(tài)分布的3σ原則相比,箱形圖識別異常值對數(shù)據(jù)分布沒有任何限制性要求,并且根據(jù)四分位數(shù)的具體定義可知,四分位數(shù)不會受到異常值的影響,所以箱形圖分析法更能客觀地檢測出異常值[12]。
經(jīng)驗?zāi)B(tài)分解(empirical modal decomposition, EMD)是由Huang等提出的新的信號預(yù)處理分析方法,該方法廣泛應(yīng)用于非平穩(wěn)和非線性信號處理,其本質(zhì)是將信號中不同頻率的波動或趨勢逐級分解,最終得到頻率不同的本征模態(tài)函數(shù)(intrinsic mode function),簡稱IMF[13]。EMD算法具體分解步驟如下:
① 設(shè)置原始信號為x(t),再算出所有的局部極值點,然后利用三次樣條法進行插值連接得到x(t)的上包絡(luò)E1(t)和下包絡(luò)E2(t)。
② 計算E1(t)與E2(t)的平均值,構(gòu)造出二者的均值曲線m1(t):
m1(t)=E1(t)-E2(t)。
③ 計算原始信號x(t)與均值曲線m1(t)的差值,得到h1(t):
h1(t)=x(t)-m1(t)。
④ 判斷h1(t)是否滿足IMF約束條件,若滿足,則h1(t)為第一個IMF分量,記c1(t)=h1(t);若不滿足,便將h1(t)看作一個新的信號x(t),重復(fù)步驟①~③,直到hk(t)滿足IMF約束條件,成為第一個IMF分量時停止,記c1(t)=hk(t)。Huang等定義了標準差SD來控制IMF分解停止準則,
(1)
式中:hk-1(t)、hk(t)分別為第k-1、k次篩選IMF的過程中產(chǎn)生的信號序列;SD為hk-1(t)、hk(t)之間的標準差,且通常情況下取值設(shè)定在0.2~0.3,即當SD值滿足0.2 ⑤ 將IMF分量c1(t)與原始信號x(t)分離,得到剩余分量r1(t), r1(t)=x(t)-c1(t)。 ⑥ 將剩余分量r1(t)當作一個新的原始信號x(t),重復(fù)以上步驟,直到rn(t)滿足式(1)的停止準則或者成為一個單調(diào)函數(shù)時,分解停止。 ⑦ 上述分解過程中,x(t)被分解為n個 IMF分量c1(t),c2(t),…,cn(t)和一個剩余分量rn(t),x(t)可以表示為 相較于其他非平穩(wěn)分析方法,EMD分解方法具有自適應(yīng)性、完備性、正交性三大優(yōu)勢,但是該分解方法存在模態(tài)混疊現(xiàn)象,從而使得分解所得的IMF分量缺乏物理意義,進而影響到預(yù)測精度。為了對EMD模型進行改進,Wu和Huang[14]提出集成經(jīng)驗?zāi)B(tài)分解(ensemble empirical mode decomposition, EEMD)算法。該算法的關(guān)鍵是將向原始信號中引入白噪聲序列,運用白噪聲頻譜均勻分布的特點大大減弱IMF分量的模態(tài)混疊現(xiàn)象。需多次重復(fù)該過程,并對EMD分解結(jié)果取均值就可以很好地抵消零均值白噪聲對分解結(jié)果的影響[15-16]。 EEMD算法的具體分解步驟如下: ① 參數(shù)初始化:設(shè)置EMD分解次數(shù)為m,白噪聲標準差為α(一般為原始信號0.1~0.4倍標準差); ② 在原始信號x(t)中多次加入具有零均值、標準差為α的隨機白噪聲序列,得到新的序列xi(t),并依照上述EMD算法進行分解,得到各自的IMF分量cij(t)和剩余分量ri(t),其中cij(t)表示第i次引入白噪聲后分解所得的第j個IMF分量; ③ 對m次EMD分解結(jié)果進行集成平均運算,消除白噪聲影響,得到最終EEMD分解結(jié)果為 在EEMD分解過程中,參數(shù)的設(shè)定對結(jié)果的影響較大。若白噪聲標準差過小,EMD分解結(jié)果很難得到較好的改善;若白噪聲標準差過大,分解時所提取的真實信號就會變少,產(chǎn)生一些虛假諧波分量。分解次數(shù)越大越好,但次數(shù)越大,循環(huán)所耗費的時間越多。本文EEMD算法中將白噪聲標準偏差設(shè)置為原始信號的0.1倍,EMD分解次數(shù)設(shè)定為1 000次。 BP神經(jīng)網(wǎng)絡(luò)是一種前饋神經(jīng)網(wǎng)絡(luò),其特點在于信號的前向傳播和誤差的反向傳播,它的網(wǎng)絡(luò)結(jié)構(gòu)分為一個輸入層和輸出層,以及一個或多個隱藏層。BP神經(jīng)網(wǎng)絡(luò)的訓練過程主要分為2個部分:第一部分是指信號的前向傳播,從輸入層輸入樣本數(shù)據(jù),經(jīng)過層層計算處理,然后將信號發(fā)送到輸出層;第二部分是指誤差反向傳播過程,將誤差分配給各層神經(jīng)元從而獲取各層的誤差信號,根據(jù)誤差依次調(diào)節(jié)兩層之間的權(quán)重與閾值。這2個部分就是一次學習過程,不斷重復(fù)這個過程,直到網(wǎng)絡(luò)輸出的誤差降低到設(shè)定的學習目標或訓練次數(shù)達到預(yù)設(shè)數(shù)量為止。 由于風電場風速波動較大,導(dǎo)致風電輸出功率不平穩(wěn),本文采用EEMD信號分解方法對風電場輸出功率進行平穩(wěn)化處理,并將其與BP模型進行組合預(yù)測,預(yù)測流程如圖2所示。 圖2 EEMD-BP模型預(yù)測流程 BP神經(jīng)網(wǎng)絡(luò)的連接權(quán)重通過局部改進的方向逐步調(diào)整,它會使權(quán)重向局部極小值收斂,也就是說,盡管實際與期望輸出之間還存在著較大誤差,但繼續(xù)學習下去,網(wǎng)絡(luò)誤差減少的速度會很慢或不再變化。此外,在網(wǎng)絡(luò)拓撲結(jié)構(gòu)的選擇上,BP神經(jīng)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)目前還沒有一個系統(tǒng)的理論指導(dǎo),只能根據(jù)經(jīng)驗判斷,因此怎樣在實際應(yīng)用中選擇合適的網(wǎng)絡(luò)結(jié)構(gòu)是一個難題。 遺傳算法(genetic algorithm,GA)是一種參數(shù)優(yōu)化方法,它是對自然界生物進化機制的模擬,將自然界“優(yōu)勝劣汰,適者生存”的生物進化原理引入模型的參數(shù)優(yōu)化中。通過遺傳算法進行隨機全局搜索來選取最優(yōu)的初始權(quán)值和閾值,并將其作為初始權(quán)值來訓練BP網(wǎng)絡(luò),能夠有效彌補BP神經(jīng)網(wǎng)絡(luò)局部極小化的缺點,使其能夠更好地進行樣本預(yù)測。遺傳算法參數(shù)優(yōu)化流程見圖3,具體步驟如下: 圖3 遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)流程 ① 種群初始化:將多個給定的初始權(quán)值矩陣的集合作為一個種群,集合中的每一個初始權(quán)值矩陣就是一個個體,采用二進制編碼表示。因此一個三層BP網(wǎng)絡(luò)結(jié)構(gòu)中,一個個體中染色體編碼的長度(即權(quán)值與閾值的數(shù)量)用公式表示為 N=ninput·lhide+lhide·moutput+lhide+moutput, 式中ninput、lhide、moutput分別為模型中各層神經(jīng)元的數(shù)量。 ② 計算每條染色體所對應(yīng)個體適應(yīng)度。適應(yīng)度是一個染色體個體能否被繼續(xù)保留的標準,為了達到優(yōu)化效果,需要盡可能地降低預(yù)測與期望值之間的殘差,因此,選擇預(yù)測樣本的預(yù)測與期望之間的誤差矩陣范數(shù)作為適應(yīng)度函數(shù)輸出。 ③ 選擇算子: 根據(jù)每個個體適應(yīng)度值的高低進行概率轉(zhuǎn)化,從種群中選擇2個個體作為父方和母方,因此適應(yīng)度好的個體更有可能被選中。 ④ 交叉算子: 抽取父母雙方染色體上的基因進行互換(即2個個體中的二進制編碼串上的數(shù)值進行互換),產(chǎn)生2個新的子代個體。 ⑤ 變異算子:子代染色體上的基因變異(即單個個體的二進制編碼串上的數(shù)值進行取反)。 ⑥ 重復(fù)步驟②~⑤,直到最優(yōu)種群產(chǎn)生。 本文所用數(shù)據(jù)來源于網(wǎng)站“https:∥www.kaggle.com/”,為2018年土耳其某風電場風力渦輪機的SCADA數(shù)據(jù)集。SCADA系統(tǒng)以10 min的間隔測量和保存風速、風向、發(fā)電等數(shù)據(jù)。由于極端天氣、人為檢修、數(shù)據(jù)采集與測量等因素的影響,數(shù)據(jù)集中存在著部分異常數(shù)據(jù)和缺失數(shù)據(jù)。異常數(shù)據(jù)不能真實反映風電機組的發(fā)電規(guī)律,如果不正確識別和剔除異常數(shù)據(jù),將對后續(xù)風電場功率預(yù)測建模造成極大影響,導(dǎo)致預(yù)測精度降低。 本文首先以0.5 m/s為間隔單位,將風速劃分為相等的50個風速區(qū)間,然后對每個風速區(qū)間的風電功率數(shù)據(jù)采用箱形圖分析法,剔除所有位于功率數(shù)據(jù)集內(nèi)限FL,FU之外的數(shù)據(jù)點[17]。最后根據(jù)風電相關(guān)原理篩選部分異常數(shù)據(jù)(如輸出功率為負值、零值等)。篩選出的異常數(shù)據(jù)與正常數(shù)據(jù)的對比如圖4所示,其中剔除的異常數(shù)據(jù)占據(jù)總數(shù)據(jù)集的比例為9%,不會影響數(shù)據(jù)建模。但為了保證數(shù)據(jù)集的完整性,本文進一步采取熱卡填充的方法對風電功率缺失值進行數(shù)據(jù)重構(gòu),即在整個樣本數(shù)據(jù)集中找出一個距離最接近的樣本,再用該對象的實際值填補缺失值。由于風速極大地影響了風電功率,因此本文將風速按0.05 m/s間隔劃分為500個區(qū)間,以每個區(qū)間的平均值作為該風速區(qū)間風電功率的插補值。 圖4 數(shù)據(jù)清洗前后的風速-功率散點圖對比 經(jīng)過數(shù)據(jù)清洗、重構(gòu)后,數(shù)據(jù)集的記錄單位均為小時,本文從中隨機提取包含1 000個連續(xù)數(shù)據(jù)的子序列,并對該風電功率序列進行集成經(jīng)驗?zāi)J椒纸?,將白噪聲標準偏差設(shè)置為原始信號標準偏差的0.1倍,EMD分解次數(shù)設(shè)定為1 000次,共產(chǎn)生8個IMF分量以及一個剩余分量RES,如圖5所示。從圖5中可以看出,這些分量變化相對比較平穩(wěn)。 圖5 風電功率序列EEMD分解結(jié)果 將EEMD分解后所得的IMF分量及殘差分量分別作為訓練樣本建立BP神經(jīng)網(wǎng)絡(luò)模型,模型參數(shù)如表1所示。將前一天的風電功率分量作為模型的輸入向量,未來一小時的風電功率分量作為網(wǎng)絡(luò)的輸出值,建立24輸入、1輸出的網(wǎng)絡(luò)結(jié)構(gòu),采用遺傳算法對BP模型參數(shù)進行優(yōu)化,預(yù)測各個分量未來連續(xù)24 h的預(yù)測值,對分量進行求和,得到未來24 h的風電功率值。為了比較EEMD-GA-BP模型的預(yù)測性能,本文同時利用相同數(shù)據(jù)建立了ARIMA模型、BP模型、EEMD-BP模型作對比分析。 表1 BP神經(jīng)網(wǎng)絡(luò)訓練參數(shù) 風電預(yù)測的準確性至關(guān)重要,在實際建模過程中,由于測量工具、預(yù)測方法的不完善,難免存在預(yù)測誤差。為了量化預(yù)測誤差,本文選用平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)、均方根誤差(RMSE)和歸一化均方根誤差(NRMSE)等4類指標作為模型評價準則,其計算公式為: 表2列出了上述模型的4類評價指標值,根據(jù)預(yù)測誤差大小對比,可以看出基于歷史功率建立的EEMD-GA-BP模型的MAE、MAPE 、RMSE和NRMSE值均低于另外3種方法。就均方根誤差而言,EEMD-GA-BP模型預(yù)測性能相較于ARIMA模型提升了59%,相較于BP模型提升了53%,相較于EEMD-BP模型提升27%。 表2 不同模型預(yù)測誤差對比 為了更準確地判斷模型在不同預(yù)測時間尺度上的預(yù)測效果,本文將預(yù)測時間尺度分為3、6、24 h進行多步預(yù)測。表3列出了不同預(yù)測時間尺度下,模型預(yù)測的歸一化均方誤差。從表3中可以看出,預(yù)測時間尺度較低,如3、6 h時,簡單的BP模型反而能達到較優(yōu)的預(yù)測效果,但是隨著預(yù)測步長的增加,模型的預(yù)測精確度明顯降低。而EEMD分解算法和遺傳算法從整體上降低了風電功率未來24 h的預(yù)測誤差,模型預(yù)測效果比較穩(wěn)定。 表3 不同時間尺度模型預(yù)測歸一化均方誤差(NRMSE)對比 圖6給出了4種模型未來24 h風電功率預(yù)測值對比。從圖6中可以看出,EEMD-GA-BP模型預(yù)測曲線與實際功率曲線最貼近,說明該方法整體的擬合度較好,且預(yù)測效果最為穩(wěn)定。并且與BP模型和EEMD-BP模型相比,EEMD-GA-BP模型明顯改善了未來12~24 h時間段的預(yù)測精度。 圖6 模型輸出功率預(yù)測值對比 采用箱型圖異常值檢測方法能夠很好地剔除原數(shù)據(jù)集中的分散性異常數(shù)據(jù)以及堆積型異常數(shù)據(jù)。遺傳算法與EEMD分解算法相結(jié)合的方式改進BP算法,比單一BP模型預(yù)測效果更為穩(wěn)定,解決了傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)模型存在的局部極小化問題,并且根據(jù)不同時間尺度預(yù)測結(jié)果對比,得到EEMD-GA-BP模型比傳統(tǒng)的ARIMA模型、BP模型、EEMD-BP模型預(yù)測精度更高,更為穩(wěn)定。1.3 EEMD-BP算法
1.4 遺傳算法優(yōu)化的EEMD-BP算法
2 實證分析
2.1 數(shù)據(jù)預(yù)處理
2.2 EEMD分解
2.3 預(yù)測結(jié)果及分析
3 結(jié)語