邢 晨,溫 蜜,張照貝
(上海電力大學計算機科學與技術(shù)學院,上海,201303)
為加快能源轉(zhuǎn)型,構(gòu)建清潔能源電網(wǎng),大規(guī)模發(fā)展風力、光伏、潮汐等新能源勢在必行[1]。新能源是基于新時代背景下衍生的全新能源,其具有儲備豐富、可再生且低污染的優(yōu)點,這也是未來經(jīng)濟社會發(fā)展的主要趨勢。光伏發(fā)電作為較為成熟的可再生能源發(fā)電技術(shù)之一,近幾年發(fā)展得十分迅速[2]。然而光伏發(fā)電受天氣條件影響顯著,光伏發(fā)電存在間歇性工作的特點,這給制訂發(fā)電計劃和電網(wǎng)調(diào)度帶來了巨大挑戰(zhàn)。因此,如何建立準確的光伏出力預測模型,對電力系統(tǒng)運營商制定發(fā)電計劃和調(diào)度具有重要意義。
目前預測方法根據(jù)預測結(jié)果的不同可分為確定性預測和概率預測兩類。確定性預測方法主要包括長短期記憶網(wǎng)絡(luò)(LSTM)[3,4]和時間卷積網(wǎng)絡(luò)(TCN)[5,6]等深度學習模型。文獻[7]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的光伏出力預測模型,證實CNN具有良好的特征提取能力。文獻[8]建立以門控循環(huán)神經(jīng)網(wǎng)絡(luò)(GRU)為基礎(chǔ)的預測模型,驗證了GRU相對于LSTM等在結(jié)構(gòu)上更為高效和簡單的優(yōu)勢。文獻[9,10]采用Seq2seq網(wǎng)絡(luò)結(jié)構(gòu)進行預測,提高了模型的學習效率和預測水平,深度學習模型具有強大的學習能力和較高的預測精度。但是,確定性預測的預測結(jié)果為一個期望值,無法計及未來功率的波動范圍,在涉及不確定性問題難以滿足實際需求[11]。
概率預測可以更加全面的反映光伏出力相關(guān)信息,現(xiàn)如今已成為預測的主要方法[11-16]。文獻[14]提出一種結(jié)合CNN和QRGRU的概率密度預測方法,可以很好的解決概率密度預測問題;文獻[15]提出了一種基于QRLSTM的概率預測模型,驗證了概率預測模型相對于傳統(tǒng)模型預測的優(yōu)越性;文獻[16]提出了一種基于藤copula分位數(shù)回歸的光伏功率預測模型;以上文獻都證實了分位數(shù)回歸在概率預測中的優(yōu)越性,但以上方法大多是對模型的融合,未對影響光伏出力的特征進行分析和挖掘。
由以上分析可知,確定性預測方法不能反映光伏出力的不確定性,而近年來的不確定性預測方法雖然可以提供不確定性分析,但在特征挖掘方面存在不足,從而在預測精度方面往往難以滿足要求。為此,提出一種基于Seq2seq-Attention的方法對光伏出力進行概率預測。首先,采用四分位法和三次樣條插值法對數(shù)據(jù)進行預處理,增強數(shù)據(jù)的可用性;然后,分別采用K-shape, FCM和層次聚類三種聚類方法對數(shù)據(jù)進行分簇,構(gòu)建新的輸入特征,提高特征的有效性;最后,構(gòu)造QR-Seq2seq-Attention模型預測光伏出力,再利用核密度估計得到未來時刻出力的概率密度曲線,反映光伏出力的不確定性。通過澳大利亞光伏電站數(shù)據(jù)集驗證提出方法預測性能。
2.1.1 四分位法
四分位法可以進行異常值檢測。若一個數(shù)據(jù)點位于[QL,QU]之外,則這個數(shù)據(jù)即可被認為是異常值。其原理圖如圖1所示。
圖1 四分位法原理
[QL,QU]=[q1-1.5*QR,q3+1.5*QR]
(1)
在計算公式中,下四分位數(shù)q1和上四分位數(shù)q3分別是第一和第三分位數(shù)。QR為四分位數(shù)區(qū)間,即QR=q3-q1,下限是QL,上限是QU。
2.1.2 三次樣條插值
通過四分位法檢測到的異常值可以通過樣條插值進行修正。樣條插值不僅獲得了更高的多項式插值次數(shù),且由于龍格現(xiàn)象也保持了穩(wěn)定性。因此,本文中采用三次樣條插值的方法進行異常值替換。
假設(shè)有N+1個數(shù)據(jù)樣本,{(xi,yi),i=0,1,…,N},且x0≤x1≤…≤xN。構(gòu)造了一個滿足S(xi)=yi的樣條函數(shù)S(x)。樣條曲線是區(qū)間x∈[xi,xi+1]的三次多項式函數(shù)。
S(x)=ai+bix+cix2+dix3
(2)
其中ai,bi,ci,di為三次多項式系數(shù),用于保證數(shù)據(jù)平滑性。且函數(shù)S(x)必須保證S(x),S′(x),S″(x)在任何地方都是連續(xù)的。
綜上,通過上述異常值檢測方法和插值對異常值進行修正獲得連續(xù)平滑的曲線,這條曲線上的點有助于建立準確的光伏出力預測模型。
GRU模型于2014年[17]提出,其內(nèi)部結(jié)構(gòu)類似于LSTM模型,如圖2所示,其主要對LSTM的計算過程進行簡化,沒有明顯降低計算精度。GRU模型將LSTM的兩個狀態(tài)變量合并為一個隱藏狀態(tài)變量h,重新劃分了門的結(jié)構(gòu),將LSTM中的輸入門,遺忘門和輸出門替換為重置門和更新門。以上改變使得計算參數(shù)減少,其計算過程如下所示。
圖2 GRU模型原理
zt=σ(WZ[xt,ht-1]+bz)
(3)
rt=σ(Wr[xt,ht-1]+br)
(4)
(5)
(6)
近年來,通過實例[18]表明GRU作為LSTM的衍生模型,計算速度得到提升,計算復雜度降低,因此GRU模型在各個領(lǐng)域得到廣泛應用。
2.3.1 K-shape
K-shape與傳統(tǒng)的K-means聚類相似,計算過程包括一個迭代過程和一個細化過程。K-shape的原理是應用互相關(guān)信息找出集群的質(zhì)心,然后對每個簇的成員進行不斷的迭代更新。K-shape的距離度量不受時間尺度縮放和位移的影響[19],由于其存在位移不變性的優(yōu)點,因此選擇互相關(guān)最大的位置確定聚類的質(zhì)心。K-shape對時間序列形狀相似度計算如下
(7)
其中Cω(X,Y)為不同出力序列的互相關(guān)信息,R0為兩出力序列沒有相對位移時對應的互相關(guān)信息。
在細化的過程中,每個集群中更新的成員也會導致質(zhì)心的變化,此算法的目標是使新的質(zhì)心與其它時間序列數(shù)據(jù)的相似性最大化。
2.3.2 模糊C均值聚類(FCM)
FCM是K-shape的一種改進算法。其基于目標函數(shù)實現(xiàn)聚類。其基本思想是將被劃分到同一簇的成員之間的相似度最大。令出力序列為X={x1,…,xn},A={a1,…,ac}為聚類中心的集合。FCM的目標函數(shù)公式如下
(8)
2.3.3 層次聚類
層次聚類是一種用于數(shù)據(jù)的分析的流行聚類技術(shù)之一[21]。分層聚類的優(yōu)點在于其靈活且對底層數(shù)據(jù)的假設(shè)較少。層次聚類的過程中,最開始,所有的數(shù)據(jù)點都被視為一個單獨的聚類。首先,它對兩個彼此靠近的集群進行識別,然后合并這些集群成為一個大集群,不斷重復這個過程,直至將整個數(shù)據(jù)集都包含到單個集群中,根據(jù)正在合并的兩個集群之間的距離的變化,可以確定最后的聚類數(shù)量。
提出的光伏出力概率預測方法流程圖如圖3所示。預測過程分為四個階段:數(shù)據(jù)預處理,特征重構(gòu)、構(gòu)造QR-Seq2seq-Attention預測模型及核密度估計。
圖3 提出方法流程圖
其詳細步驟如下所示:
第一步,將輸入的原始數(shù)據(jù)集進行歸一化處理,采用四分位法和三次樣條法進行異常值檢測和異常值填充;
第二步,采用K-shape、FCM和層次聚類三種方法將特征集分為四類,將類別作為新的特征構(gòu)建新的數(shù)據(jù)集;
第三步,將數(shù)據(jù)集劃分為訓練集和測試集,采用Seq2seq-Attention模型及基準模型對訓練集分別進行分位數(shù)回歸預測;
最后,通過核密度估計得到概率密度預測結(jié)果,繪制相關(guān)概率密度曲線。
由于數(shù)據(jù)存在不同的量級,因此需要對數(shù)據(jù)進行歸一化處理,其計算公式為
(9)
式中x為原始數(shù)據(jù)值,xmax和xmin分別為原始數(shù)據(jù)的最大值和最小值。xn為經(jīng)過歸一化處理后的數(shù)據(jù)。
采集的光伏出力數(shù)據(jù)通常包含著客觀的誤差,這些誤差可能是由傳感器故障引起。以往的研究通常直接基于采集的數(shù)據(jù),缺乏準確性。為了增加數(shù)據(jù)的可用性,首先采用四分位法進行異常數(shù)據(jù)檢測;再采用三次樣條插值法進行異常值填充,流程如圖4所示。
圖4 數(shù)據(jù)預處理流程
其詳細步驟如下:
Step1:將光伏出力值從大到小進行排列;
Step2:分別判斷(n+1)/4、(n+1)/2、3(n+1)/4是否為整數(shù),從而確定相應的下四分位數(shù)、中位數(shù)和上四分位數(shù);
Step3:檢出在上界和下界范圍之外的異常值;
Step4:采用三次樣條函數(shù)替換異常值得到修正后的光伏出力序列。
聚類的基本原理是將數(shù)據(jù)分成簇,以創(chuàng)建具有共同特征的不同區(qū)域,這些簇具有相似的特征。因此,文中將光伏的時間序列進行聚類,分為四類,將其作為標簽重新構(gòu)建數(shù)據(jù)集。為了得到更全面的影響光伏出力的特征,文中分別使用K-shape、FCM以及層次聚類對光伏序列進行聚類。其流程如圖5所示。
圖5 聚類構(gòu)造特征圖
3.3.1 分位數(shù)回歸
假設(shè)被解釋變量Y受個因素X1,X2,…,Xk的影響,其分位數(shù)回歸模型為
QY(θ|X)=β0(θ)+β1(θ)X1+…+βk(θ)Xk=X′β(θ)
(10)
其中,X′=[X1,X2,…,Xk]是由解釋變量組成的矩陣,QY(θ|X)為在第θ個分位點下的條件分位數(shù),β(θ)為參數(shù)回歸向量,其值隨著θ的變化而變化。文中構(gòu)造的目標函數(shù)如(11)所示
(11)
損失函數(shù)為
ρθ(ε)=ε(θ-I(ε))
(12)
其中I(ε)為指示函數(shù)
(13)
通過指示函數(shù)對殘差的絕對值賦權(quán)重,從而通過調(diào)整分位點得到β(θ)的不同參數(shù)估計,從而得到不同分位數(shù)下的回歸值。
3.3.2 構(gòu)造QR-Seq2seq-Attention模型
1)注意力機制
注意力機制通過算法實現(xiàn)對生物注意力的模擬。注意力機制實際上是一種資源分配方案,可以解決信息過載問題。注意力機制可以對輸入中的特征進行加權(quán),減少非關(guān)鍵特征的權(quán)重從而突出關(guān)鍵特征的影響。為得到相應特征變量與出力的關(guān)系,其計算原理如圖6所示。
圖6 特征注意力機制的編碼模型
(14)
(15)
(16)
其中u和ω為權(quán)重系數(shù);b為偏置系數(shù)。
2)構(gòu)造QR-Seq2seq-Attention
圖7顯示了Seq2seq-Attention模型的主要架構(gòu)。由Encoder的基本單元CNN,Decoder的基本單元GRU以及注意力機制組成。
圖7 Seq2seq-Attention模型
CNN在特征提取方面具有良好的效果,可以實現(xiàn)從輸入到輸出的任意函數(shù)映射。卷積層的計算如式(17)所示
(17)
利用Seq2seq-Attention模型進行光伏出力預測的詳細步驟如下:
Step2:將CNN計算得到的隱藏狀態(tài)與光伏出力數(shù)據(jù)傳入解碼器GRU層,經(jīng)GRU計算得到解碼器對應的隱藏向量;
Step3:計算語義矩陣,通過注意力機制的計算過程(14)-(16)計算出語義矩陣X′,從而建立相關(guān)特征與光伏出力值之間的關(guān)系;
Step4:將語義矩陣X′與解碼器的隱藏向量結(jié)合起來得到光伏出力預測值。
Seq2seq-Attention模型在特征提取和短時預測上具有較好的效果,為預測不同分位數(shù)下的出力值進行不確定性分析,構(gòu)造了QR-Seq2seq-Attention模型。其結(jié)構(gòu)圖如圖8所示。
圖8 QR-Seq2seq-Attention結(jié)構(gòu)圖
為得到光伏出力完整的概率密度曲線,本文采用核密度估計獲得完整的概率密度曲線[14]。核密度估計是一種非參數(shù)估計方法。由于核函數(shù)具有強泛化能力,因此,將其應用于構(gòu)造被解釋變量分布的概率密度函數(shù)。根據(jù)條件分位數(shù)的理論,將由分位數(shù)回歸獲得的分位數(shù)函數(shù)作為核密度估計的輸入。通過下式獲得概率密度曲線
(18)
式中,n為分位數(shù)的個數(shù),h為窗口寬度,一般由經(jīng)驗法計算,K為核函數(shù),本文選擇高斯核函數(shù)。計算如下
(19)
(20)
算例實驗數(shù)據(jù)來自全球能源競賽公開的澳大利亞某光伏電站的數(shù)據(jù)集,采樣間隔為一天,按照6:4的比例將數(shù)據(jù)分成訓練集和測試集。模型的輸入包括太陽輻照度等氣象數(shù)據(jù)以及新構(gòu)造的聚類特征數(shù)據(jù),采用滑動窗口法對未來五天的光伏出力進行連續(xù)預測。
本實驗采用的平臺是Intel Core i7-10710U @ 4.70 GHz,16 GB內(nèi)存。模型開發(fā)基于Python 語言編寫,在Keras深度學習框架下實現(xiàn)。
分位數(shù)q的取值范圍為區(qū)間[0.05,0.95],間隔為0.05,共19個。
本實驗中,模型超參數(shù)設(shè)置如下:
表1 超參數(shù)設(shè)置
文中從三個層面對預測的精度進行比較,包括確定性預測的指標RMSE,R2,區(qū)間預測的指標CPα和MWPα以及概率預測的指標彈球損失(Pinball Loss)。
1)均方根誤差(RMSE)和決定系數(shù)(R2)用于描述模型的精度和擬合程度,RMSE的值越小證明精度越高,R2值越大證明模型擬合程度越高。其計算公式如下
(21)
(22)
2)覆蓋概率(CPα)和平均寬度百分比(MWPα)用于描述模型測值落在預測區(qū)間內(nèi)的概率和間隔寬度與觀察值的平均百分比。較高的CPα和較小的MWPα保證了預測間隔的有效性。其計算公式如下
(23)
(24)
3)彈球損失(Pinball Loss)用于評估概率預測的優(yōu)劣,越小證明概率預測越優(yōu)。
(25)
4.3.1 異常值檢測實驗結(jié)果
圖9顯示了異常值檢測的箱線圖,通過計算得到光伏出力值的上下界,在界限范圍外的即認為是異常值,將異常值用三次樣條插值函數(shù)代替。
圖9 異常值檢測的箱線圖
4.3.2 三種聚類方法預測結(jié)果比較
圖10為采用三種聚類方法構(gòu)造數(shù)據(jù)集進行預測與真實值的誤差比較情況。事實上,三種方法都能獲得較為準確的預測結(jié)果。這說明聚類方法能為光伏出力預測提供有效的信息。
圖10 三種聚類構(gòu)造特征的預測誤差對比
表2為采用三種不同聚類方法構(gòu)建數(shù)據(jù)集的預測誤差比較。就三種聚類方法而言,層次聚類方法構(gòu)造的數(shù)據(jù)集在確定性預測、區(qū)間預測和概率預測三個預測層位上都表現(xiàn)出了明顯的優(yōu)勢,這主要是由于層次聚類的方法很靈活,可以更好的對波動性和間歇性大的光伏特征數(shù)據(jù)進行分類,從而得到特征更為準確的數(shù)據(jù)集輸入到模型中進行預測。
表2 三種聚類方法評估指標比較
4.3.3 提出方法與基準模型預測效果對比
為了進一步驗證模型的有效性,采用了三個基準模型QR-NN、QR-LSTM、QR-GRU與提出方法進行比較。表3顯示了提出方法與三個基準模型的預測誤差的定量比較結(jié)果。圖11為使用各種方法進行光伏出力預測與真實值的比較情況。
表3 三種基準模型與提出方法評估指標比較
圖11 與基準模型的預測誤差對比
實驗結(jié)果表明,提出方法在評估指標方面效果更優(yōu),其在RMSE方面相對于QR-NN、QR-LSTM、QR-GRU降低了0.19(MW)、0.14(MW)、0.05 (MW);在R2上分別提高了77%、44%、15%;在CPα上提高了56%、5%、1%;在MWPα方面表現(xiàn)出最小的情況。這是由于提出方法在特征提取的時間序列的預測分析方面存在著明顯的優(yōu)勢。另外,分位數(shù)回歸的間隔比較寬,這表明分位數(shù)回歸獲得的預測間隔是保守的,并且可以通過擴大間隔寬度來增加覆蓋范圍。在概率預測評估方面, QR-Seq2seq-Attention模型在預測精度方面具有明顯優(yōu)勢,另外層次聚類的方法可以為預測模型提供更為全面和準確的信息。
由圖11可知,QR-NN的方法不能有效擬合功率的變化曲線,而提出方法在平穩(wěn)階段和波動階段均能較好的擬合實際值,表現(xiàn)出良好的預測性能。這證明了提出方法的有效性和可靠性。
4.3.4 KDE擬合結(jié)果
圖12顯示了4個未來任意時刻的太陽能概率密度曲線。由圖可得,所有實際值基本都分布在概率密度曲線的中間,這進一步證明了提出方法獲得的條件分位數(shù)結(jié)果進行概率分布估計的有效性。分析表明,基于Seq2seq-Attention的分位數(shù)回歸的概率預測方法可以很好地描述概率密度預測曲線。
圖12 時刻1~時刻4的KDE擬合結(jié)果
本文提出了一種基于Seq2seq-Attention的用于短期光伏出力的概率密度預測方法,與現(xiàn)有研究方法相比具有以下特點:
1)數(shù)據(jù)預處理和聚類的方法分別提高了輸入數(shù)據(jù)的質(zhì)量和構(gòu)建了重要的特征,分析了影響光伏功率序列的重要特征,提高了預測性能;
2)Seq2seq-Attention模型深度融合了CNN和GRU的特征提取和特征融合能力,對于波動性強的光伏出力序列有很好的預測結(jié)果,并能及時擬合出力變化曲線。
以澳大利亞光伏電站數(shù)據(jù)集進行仿真,實驗數(shù)據(jù)顯示提出方法在RMSE方面最高降低了0.19(MW),在CPα方面最大提高56%,在彈球損失方面最大降低0.13(MW)。結(jié)果表明,提出方法不僅得到了更加全面的特征,預測精度提高,并可為電力企業(yè)提供更加全面的信息參考。在未來的研究工作中,將聚焦于對不同預測尺度下的概率預測模型結(jié)構(gòu)進行優(yōu)化。