馮沛儒, 江桂芬, 徐加銀, 葉劍橋, 李生虎*
(1.國(guó)網(wǎng)安徽省電力有限公司經(jīng)濟(jì)技術(shù)研究院, 合肥 230061; 2.合肥工業(yè)大學(xué)電氣與自動(dòng)化工程學(xué)院, 合肥 230009)
近些年,隨著光伏發(fā)電滲透率不但增大,電網(wǎng)的穩(wěn)定性、可靠性和經(jīng)濟(jì)性受到較大影響[1-2]。站在電網(wǎng)角度,有必要對(duì)光伏發(fā)電進(jìn)行精準(zhǔn)預(yù)測(cè),以提高電網(wǎng)對(duì)光伏的調(diào)度能力和消納效率[3],增強(qiáng)電網(wǎng)的靈活性和穩(wěn)定性。
目前,光伏預(yù)測(cè)模型主要可分為物理預(yù)測(cè)、統(tǒng)計(jì)預(yù)測(cè)和組合預(yù)測(cè)[4]。物理預(yù)測(cè)是基于天氣預(yù)報(bào),然后根據(jù)光電轉(zhuǎn)換效率得到光伏系統(tǒng)輸出功率,如何建立詳細(xì)的光電轉(zhuǎn)換模型是預(yù)測(cè)的關(guān)鍵。文獻(xiàn)[5]對(duì)光伏物理模型進(jìn)行了總結(jié),表明物理建模需要較大的運(yùn)算時(shí)間。文獻(xiàn)[6]比較了多種光伏物理模型,通過對(duì)輻照強(qiáng)度分離和轉(zhuǎn)置建模,其預(yù)測(cè)精準(zhǔn)度有較大提升。物理預(yù)測(cè)優(yōu)點(diǎn)在于不需大量的歷史數(shù)據(jù),但是在物理模型中通常一些氣象因素測(cè)量難度大或無法測(cè)量,在實(shí)際工程中會(huì)存在模型適用性差、精度較低等問題。
統(tǒng)計(jì)預(yù)測(cè)是通過統(tǒng)計(jì)算法建立輸入和輸出映射模型,本質(zhì)上是“擬合”過程。常見預(yù)測(cè)方法有時(shí)間序列[7]、回歸分析[8]、特征工程[9]、隨機(jī)森林[10]、神經(jīng)網(wǎng)絡(luò)[11-12]等。通常這些方法將氣象因素作為整體輸入預(yù)測(cè)模型中,但氣象因素之間的時(shí)間尺度、影響大小是不同的,在預(yù)測(cè)中將其統(tǒng)一作為輸入可能會(huì)影響模型精確性[13]。
組合預(yù)測(cè)方法通過對(duì)光伏出力特征的有效分解然后對(duì)每個(gè)分量進(jìn)行預(yù)測(cè),能發(fā)掘原始數(shù)據(jù)在不同時(shí)間尺度的變化趨勢(shì)[14-15]。為此,文獻(xiàn)[16]提出由經(jīng)驗(yàn)?zāi)J椒纸?empirical mode decomposition,EMD),然后通過相關(guān)向量機(jī)模型來預(yù)測(cè)短期光伏功率,但EMD分解后會(huì)丟失原始序列的一些細(xì)節(jié),導(dǎo)致效果精度下降。文獻(xiàn)[17-18]通過采用變分模式分解,對(duì)分量分別采用回聲狀態(tài)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè),但由于該分解方法需先定義分解個(gè)數(shù),不能自適應(yīng)分解,可能使預(yù)測(cè)精度降低。文獻(xiàn)[19]將氣象因素EMD分解后降維分析得到的主成分,然后建立LSTM預(yù)測(cè)模型,但未分析各主成分和光伏之間相關(guān)性,忽略了時(shí)間尺度的影響。文獻(xiàn)[20]采用相似日處理氣象數(shù)據(jù),以達(dá)到數(shù)據(jù)降維的目的,但相似日數(shù)據(jù)量不同可能會(huì)影響預(yù)測(cè)精度。
綜上,現(xiàn)有組合預(yù)測(cè)方法未體現(xiàn)分解后光伏分量和氣象因素關(guān)系,即忽略光伏分量的時(shí)間尺度和氣象因素的時(shí)間尺度的相關(guān)性?,F(xiàn)提出基于互補(bǔ)集合經(jīng)驗(yàn)?zāi)B(tài)分解(complementary ensemble empirical mode decomposition,CEEMD)、雙向長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(bi-directional long short-term memory,BiLSTM)和隨機(jī)森林(random forest regression,RFR)的組合算法的光伏預(yù)測(cè)模型。首先,利用CEEMD將光伏分解為具有不同時(shí)間尺度的分量,以體現(xiàn)出光伏的時(shí)間特性;然后對(duì)光伏分量與空氣溫度、太陽輻射度、風(fēng)速、風(fēng)向和空氣濕度5種氣象因素進(jìn)行相關(guān)性分析,劃分強(qiáng)、弱相關(guān)分量,即在光伏中體現(xiàn)氣象因素的時(shí)間尺度;對(duì)于強(qiáng)相關(guān)分量采用RFR預(yù)測(cè),而弱相關(guān)分量采用BiLSTM預(yù)測(cè),以增加氣象因素和分量之間關(guān)聯(lián);最后,由各個(gè)分量模型預(yù)測(cè)結(jié)果進(jìn)行組合得到最后預(yù)測(cè)結(jié)果。
在短期光伏預(yù)測(cè)中,氣象因素存在一定的時(shí)間尺度,例如,溫度在幾分鐘內(nèi)不會(huì)劇烈變化,而風(fēng)速在短時(shí)間內(nèi)可能會(huì)出現(xiàn)較大變化。傳統(tǒng)方法直接分析氣象因素和光伏序列的相關(guān)性無法體現(xiàn)光伏發(fā)電中的氣象因素的時(shí)間尺度。而光伏發(fā)電量在分解后可得頻率不同的分量,其各個(gè)分量的時(shí)間尺度和氣象因素時(shí)間尺度存在相關(guān)性。考慮氣象因素和各光伏分量的相關(guān)性大小,則可體現(xiàn)出光伏分量和氣象因素的關(guān)系,對(duì)不同光伏分量篩選不同氣象因素和使用不同預(yù)測(cè)模型,可提高預(yù)測(cè)精度與效果。同時(shí)能提高對(duì)氣象數(shù)據(jù)的利用效率。
為判斷兩個(gè)變量之間密切程度,即各個(gè)分量和氣象因素之間的相關(guān)程度,定義Pearson相關(guān)系數(shù),表達(dá)式為
(1)
式(1)中:at為t時(shí)刻的氣象因素?cái)?shù)值;xt為t時(shí)刻光伏出力數(shù)值;n為采樣時(shí)間點(diǎn)個(gè)數(shù)。相關(guān)系數(shù)R的絕對(duì)值越趨近于1,表示變量之間的相關(guān)關(guān)系越強(qiáng);反之,則表示相關(guān)關(guān)系越弱。
主要考慮空氣溫度、太陽輻射度、風(fēng)速、風(fēng)向和空氣濕度5種氣象因素。圖1為預(yù)測(cè)主要研究思路。通過對(duì)光伏序列分解,得到光伏的不同時(shí)間尺度的分量,再分析各分量與氣象因素相關(guān)性,以此體現(xiàn)氣象的時(shí)間尺度對(duì)光伏分量的影響,能最大利用氣象因素?cái)?shù)據(jù),提高預(yù)測(cè)精度。
圖1 預(yù)測(cè)主要研究思路
根據(jù)分量的相關(guān)性,即弱相關(guān)分量受氣象因素的影響程度很小,利用光伏分量存在時(shí)間特性,采用BiLSTM模型預(yù)測(cè)。強(qiáng)相關(guān)分量可通過氣象因素進(jìn)行回歸預(yù)測(cè),由于神經(jīng)網(wǎng)絡(luò)存在對(duì)多變量預(yù)測(cè)時(shí)間較長(zhǎng)問題,利用RFR模型預(yù)測(cè),以提高預(yù)測(cè)速度。
為體現(xiàn)光伏序列中的時(shí)間尺度,需要對(duì)其進(jìn)行分解處理。EMD可實(shí)現(xiàn)自適應(yīng)分解,相比其他分解算法無需指定分解層數(shù)和基函數(shù)。EMD[21]分解后原始序列可表示為
(2)
式(2)中:zi(t)為第i個(gè)t時(shí)刻本征模態(tài)函數(shù)(intrinsic mode function,IMF)分量;r(t)為殘余分量;t為采樣時(shí)刻;n為IMF的數(shù)量。但EMD由于參數(shù)設(shè)置不當(dāng),易產(chǎn)生模態(tài)混疊等問題。
CEEMD在原始序列加入N對(duì)正、負(fù)的白噪聲,避免模態(tài)混疊現(xiàn)象,處理如下。
(3)
由于弱相關(guān)分量不受氣象因素影響,可通過光伏分量本身的時(shí)間特性進(jìn)行預(yù)測(cè)。而長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short term memory,LSTM)適用于有關(guān)時(shí)間序列預(yù)測(cè)問題。LSTM結(jié)構(gòu)如圖2所示。
圖2 LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
LSTM模型共有3個(gè)輸入,分別為當(dāng)前時(shí)刻狀態(tài)xt、上一時(shí)刻的短期信息ht-1和上一時(shí)刻的長(zhǎng)期信息Ct-1。LSTM門控單元狀態(tài)值計(jì)算如下。
(4)
式(4)中:σ為sigmoid函數(shù);ft、It、ot分別為t時(shí)刻遺忘門(f)狀態(tài)、輸入門(I)狀態(tài)和輸出門(o)狀態(tài);W、b分別為門控單元的權(quán)重系數(shù)和偏置系數(shù)。
得到門控單元狀態(tài)后,計(jì)算長(zhǎng)、短期信息Ct、ht狀態(tài),公式為
(5)
BiLSTM構(gòu)建前、后向LSTM雙層訓(xùn)練結(jié)構(gòu)如圖3所示,在時(shí)間維度上考慮到未來因素,其輸出結(jié)果由前、后向LSTM決定[22],即有
圖3 BiLSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
Ht=concat(ht,f,ht,b)
(6)
式(6)中:Ht為BiLSTM輸出;concat為矩陣拼接操作;ht,f、ht,b分別為前、后向LSTM的輸出。
利用RFR對(duì)共線性數(shù)據(jù)不敏感、算法收斂快的優(yōu)點(diǎn),通過氣象因素對(duì)強(qiáng)相關(guān)分量進(jìn)行預(yù)測(cè)[23]。RFR由決策樹組成。
RFR從原始樣本集中有放回地隨機(jī)抽取訓(xùn)練樣本,并訓(xùn)練得到單個(gè)弱學(xué)習(xí)器,在隨機(jī)森林回歸模型中該弱學(xué)習(xí)器為回歸樹,重復(fù)這一過程生成多棵回歸樹組成隨機(jī)森林,并由所有樹的預(yù)測(cè)值的平均值決定最終預(yù)測(cè)結(jié)果,RFR流程如圖4所示。
圖4 RFR預(yù)測(cè)流程
生成決策樹的節(jié)點(diǎn)誤差函數(shù)為
(7)
式(7)中:Fu為節(jié)點(diǎn)誤差函數(shù);M為當(dāng)前節(jié)點(diǎn)樣本個(gè)數(shù);S1、S2分別為左、右子節(jié)點(diǎn)的訓(xùn)練樣本;sa1和sa2分別為左、右子節(jié)點(diǎn)的訓(xùn)練樣本均值;s為當(dāng)前節(jié)點(diǎn)。
CEEMD-BiLSTM-RFR預(yù)測(cè)模型如圖5所示。相比傳統(tǒng)組合預(yù)測(cè)方法,主要考慮了氣象因素和光伏分量之間的相關(guān)性,分析不同時(shí)間尺度分量和空氣溫度、太陽輻射度、風(fēng)速、風(fēng)向和空氣濕度的相關(guān)性,劃分強(qiáng)、弱相關(guān)分量;根據(jù)分量特性不同所采用不同預(yù)測(cè)模型。具體步驟如下。
圖5 CEEMD-BiLSTM-RFR流程
步驟1CEEMD將光伏序列分解若干個(gè)獨(dú)立的分量,其體現(xiàn)了時(shí)間尺度。
步驟2用Pearson相關(guān)系數(shù)分析各IMF分量與氣象因素之間的關(guān)系。
步驟3篩選與氣象因素顯著相關(guān)的強(qiáng)相關(guān)光伏分量,采用RFR建立預(yù)測(cè)模型;而不顯著相關(guān)的分量,可通過BiLSTM進(jìn)行預(yù)測(cè)。
步驟4將預(yù)測(cè)后分量相加,重構(gòu)光伏序列。
將原始光伏數(shù)據(jù)和氣象因素進(jìn)行標(biāo)準(zhǔn)化處理以消除單位差異,表達(dá)式為
(8)
式(8)中:Zt為標(biāo)準(zhǔn)化后的數(shù)據(jù)。
用歸一化平均百分誤差(normalized average percentage error,MAPE)、均方根誤差(root-mean-square error,RMSE)、平均絕對(duì)誤差(mean absolute error,MAE)和判定系數(shù)(Rsquared,RS)為評(píng)價(jià)依據(jù),判斷模型預(yù)測(cè)精度,計(jì)算公式如下。
(9)
(10)
(11)
(12)
實(shí)驗(yàn)數(shù)據(jù)為安徽省蚌埠市光伏電站提供的2021年7月1—31日共31 d的出力數(shù)據(jù),時(shí)間精度為30 min,共計(jì)1 488個(gè)采樣點(diǎn),并對(duì)數(shù)據(jù)進(jìn)行脫敏處理。光伏電站環(huán)境檢測(cè)儀獲取的空氣溫度、太陽輻射度、風(fēng)速、風(fēng)向和空氣濕度5種環(huán)境序列數(shù)據(jù)。其環(huán)境監(jiān)測(cè)儀器的運(yùn)行情況良好,數(shù)據(jù)來源可靠。以2021年7月1—22日數(shù)據(jù)為訓(xùn)練集,2021年7月23—31日數(shù)據(jù)為驗(yàn)證集。
短期預(yù)測(cè)的時(shí)間尺度在0~72 h,主要用來制定調(diào)度計(jì)劃、預(yù)測(cè)電力市場(chǎng)等,對(duì)過于久遠(yuǎn)歷史數(shù)據(jù)依賴性不高。文獻(xiàn)[25-26]所述的訓(xùn)練數(shù)據(jù)集大小和本文數(shù)據(jù)集大小相似。
設(shè)置CEEMD的噪聲標(biāo)準(zhǔn)偏差為0.2,白噪聲次數(shù)為50,最大迭代次數(shù)為200。分解結(jié)果如圖6所示。
圖6 CEEMD分解結(jié)果
由圖6可知,光伏數(shù)據(jù)分解11個(gè)IMF分量和1個(gè)余項(xiàng)RES,IMF1~I(xiàn)MF4波動(dòng)頻率較高,具有很強(qiáng)的隨機(jī)性;IMF5和IMF6呈周期波動(dòng),幅值變化較為均勻,可能與氣象因素的時(shí)間尺度相吻合;IMF7~I(xiàn)MF11比較平滑,波動(dòng)較小;余項(xiàng)呈下降趨勢(shì),屬于長(zhǎng)期分量。
分別計(jì)算空氣溫度(W1)、太陽輻射度(W2)、風(fēng)速(W3)、風(fēng)向(W4)和空氣濕度(W5)和各個(gè)光伏分量的Pearson相關(guān)系數(shù),如表1所示。
表1 光伏分量與氣象因素Pearson相關(guān)系數(shù)
可以看出,光伏分量IMF5和IMF6和太陽輻射度、空氣溫度、空氣濕度呈較強(qiáng)的正相關(guān)性,可認(rèn)為IMF5和IMF6時(shí)間尺度和三種氣象因素時(shí)間尺度高度相似;IMF9受風(fēng)向、空氣濕度影響較大;IMF10的時(shí)間尺度和風(fēng)速的時(shí)間尺度存在相關(guān)性。
用隨機(jī)搜索調(diào)整回歸樹數(shù)目、內(nèi)部節(jié)點(diǎn)再劃分所需最小樣本數(shù)和葉子節(jié)點(diǎn)最少樣本數(shù)3個(gè)參數(shù),以避免RFR過擬合。BiLSTM主要由輸入層、輸出層和隱藏層決定。模型調(diào)整后參數(shù)設(shè)置如表2所示。
表2 模型參數(shù)設(shè)置
為驗(yàn)證所提算法有效性,分別建立LSTM、BiLSTM、EMD-LSTM[27]、EMD-BiLSTM、CEEMD-BiLSTM、CEEMD-RFR和本文算法共7種模型,以晴天(7月23日)和多云(7月30日)預(yù)測(cè)結(jié)果為例,計(jì)算評(píng)價(jià)指標(biāo),結(jié)果如圖7、表3、圖8、表4所示。
表4 多云(7月30日)不同算法預(yù)測(cè)結(jié)果指標(biāo)對(duì)比
圖7 晴天(7月23日)預(yù)測(cè)結(jié)果對(duì)比
圖8 多云(7月30日)預(yù)測(cè)結(jié)果對(duì)比
圖7為晴天(7月23日)7種模型預(yù)測(cè)結(jié)果比,7種模型都有較好的預(yù)測(cè)結(jié)果。由表3可知,EMD-LSTM相比EMD-BiLSTM的MAPE、RMSE和MAE指標(biāo)降低了24.62%、0.218和0.09,RS指標(biāo)提高了0.026。同時(shí),通過對(duì)比CEEMD-BiLSTM和CEEMD-RFR指標(biāo)可知,分解后采用BiLSTM比RFR預(yù)測(cè)精度要高,故所提算法中使用BiLSTM是合理且有效的。本文算法相比其他算法MAPE、RMSE和MAE指標(biāo)最低,RS指標(biāo)最接近于1,其預(yù)測(cè)精度較高。
圖8為多云(7月30日)預(yù)測(cè)結(jié)果對(duì)比,由于為多云天,光伏出力波動(dòng)較大,7種模型都存在預(yù)測(cè)誤差,但本文算法擬合效果最好。由表4可知,采用單一整體預(yù)測(cè)模型(LSTM和BiLSTM)由于未充分考慮光伏隨機(jī)波動(dòng)性帶來的影響,導(dǎo)致其預(yù)測(cè)精度較差。經(jīng)過EMD或者CEEMD引入,分解出了光伏不同時(shí)間尺度下的分量,其預(yù)測(cè)結(jié)果都有提高。其中, CEEMD-BiLSTM相比EMD-BiLSTM的MAPE、RMSE和MAE指標(biāo)降低了5.103%、0.318和0.202,RS指標(biāo)提高了0.18。本文算法由于考慮到氣象因素和分量之間的關(guān)系,相比CEEMD-BiLSTM的MAPE、RMSE和MAE指標(biāo)降低了4.524%、0.276和0.177,RS指標(biāo)提高了0.075。相比CEEMD-RFR的MAPE、RMSE和MAE指標(biāo)降低了6.979%、0.282和0.124。對(duì)7種模型誤差指標(biāo)分析,本文算法相比其余算法,由于考慮光伏分量和氣象因素的關(guān)系,對(duì)分量預(yù)測(cè)精度進(jìn)一步提高,故預(yù)測(cè)效果較好。
提出了一種基于CEEMD-BiLSTM-RFR的光伏預(yù)測(cè)方法,考慮到光伏分量和氣象因素的關(guān)系,體現(xiàn)了氣象因素的時(shí)間尺度,提高了氣象數(shù)據(jù)利用效率和預(yù)測(cè)精度。結(jié)論如下。
(1)采用CEEMD方法自適應(yīng)分解光伏序列,使光伏的時(shí)間尺度分解地更加清晰、明確。
(2)對(duì)所提模型與CEEMD-BiLSTM模型的對(duì)比分析,采用相關(guān)性劃分強(qiáng)、弱分量可提高模型的精度。特別地,在多云天氣,所提模型預(yù)測(cè)精度可提高18.26%。
(3)所提算法CEEMD-BiLSTM-RFR在預(yù)測(cè)精度方面要比一般的單一模型或沒有深度處理的組合模型更高。