李 楠,劉佳佳,賴心怡,楊志遠,王澤亮,文福拴
(1.國網(wǎng)湖北荊門供電公司,湖北荊門 448000;2.浙江大學海南研究院,海南三亞 572025)
隨著全球能源結(jié)構(gòu)轉(zhuǎn)型的推進和可再生能源的快速發(fā)展,如何精確預(yù)測光伏出力成為了提高能源利用效率和電網(wǎng)穩(wěn)定性的關(guān)鍵挑戰(zhàn)[1]。然而,由于光伏發(fā)電的高度不確定性和外部環(huán)境因素的復(fù)雜性[2-3],預(yù)測的準確性和可靠性仍亟待提高。
現(xiàn)有的光伏功率預(yù)測方法主要可分為基于統(tǒng)計的方法、基于傳統(tǒng)機器學習的方法和基于深度學習的方法3 類。在統(tǒng)計模型中,自回歸整合滑動平均(Autoregressive Integrated Moving Average,ARIMA)模型[4]和多周期時間序列分解(Multiple Seasonal-Trend decomposition using Loess,MSTL)算法[5]被廣泛應(yīng)用于光伏預(yù)測任務(wù)。然而,大部分統(tǒng)計模型主要針對單變量時間序列分析,盡管可以通過某些改進來處理多變量時間序列的預(yù)測問題,但通常仍難以取得準確的預(yù)測結(jié)果。支持向量回歸(Support Vector Regression,SVR)[6-7]、極端梯度提升(Extreme Gradient Boosting,XGBoost)[8-9]和輕量級梯度提升機(Light Gradient Boosting Machine,LightGBM)[10-11]等機器學習模型適用于處理多變量時間序列問題,但往往不能有效地模擬歷史數(shù)據(jù)或歷史時間間隔與未來數(shù)據(jù)之間的潛在關(guān)聯(lián)性[12]。近年來,隨著數(shù)據(jù)量的爆炸式增長和計算能力的顯著提升,越來越多的研究聚焦于利用深度學習技術(shù)提高預(yù)測模型的算法精度和效率[13-16]。文獻[17]提出1 種基于個性化聯(lián)邦學習(Personalized Federated Learning,PFL)的長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)框架,用于整縣范圍內(nèi)的光伏出力及負荷功率預(yù)測。文獻[18]分別采用LSTM、雙向長短期記憶網(wǎng)絡(luò)(Bidirectional LSTM,BiLSTM)和時間卷積網(wǎng)絡(luò)(Temporal Convolutional Network,TCN)對光伏功率、電壓和光伏組件效率進行預(yù)測,實驗結(jié)果表明TCN 在預(yù)測準確性和效率方面均表現(xiàn)最佳。上述深度學習網(wǎng)絡(luò)在處理長時間序列預(yù)測時常常面臨計算復(fù)雜度高、模型適應(yīng)性不強和難以捕捉長期依賴關(guān)系的挑戰(zhàn)。此外,預(yù)測的準確性不僅依賴于模型本身的復(fù)雜性和精確度,對數(shù)據(jù)預(yù)處理和外生變量分析的關(guān)注不足,在一定程度上會限制預(yù)測模型的性能和適用性[19-22]。文獻[23]提出用于長序列光伏功率預(yù)測的太陽能混合器模型(Solar-Mixer),該模型包含異常檢測和修正模塊以及預(yù)測模塊,Solar-Mixer 在多變量和單變量時間序列預(yù)測中都取得了優(yōu)異的性能。文獻[24]針對光伏電站數(shù)據(jù)采集過程中出現(xiàn)的數(shù)據(jù)異?;蛉笔栴},提出1 種基于皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient,PCC)的插值方法來修復(fù)數(shù)據(jù)。
因此,與現(xiàn)有工作相比,本文提出1 種結(jié)合外生變量分析、數(shù)據(jù)質(zhì)量控制和長時間序列預(yù)測模型的綜合方法,提供1 個更為完整的超短期光伏功率多步預(yù)測方案。本研究提出1 種綜合相關(guān)性度量(Integrated Correlation Measurement,ICM)指標對外生變量進行分析和篩選,確保僅將與光伏出力高度相關(guān)的變量納入模型;使用基于K 近鄰(K-Nearest Neighbors,KNN)算法和線性插值的數(shù)據(jù)處理策略,解決數(shù)據(jù)缺失問題;采用基于多尺度信號采樣和分層插值的時間序列神經(jīng)分層插值(Neural Hierarchical Interpolation for Time Series,N-HiTS)模型[25]增強對長序列數(shù)據(jù)的處理能力,實現(xiàn)光伏功率的高精度多步預(yù)測。
本文著重探討光伏功率的超短期預(yù)測問題,光伏超短期預(yù)測一般指的是對未來0~4 h 內(nèi)光伏功率輸出的預(yù)測。準確的超短期預(yù)測能夠為電網(wǎng)運營商提供時間窗口來調(diào)整電網(wǎng)負荷和發(fā)電計劃,以應(yīng)對可再生能源的不確定性和波動性。
然而,在時間序列預(yù)測領(lǐng)域,數(shù)據(jù)的質(zhì)量和處理方式對預(yù)測結(jié)果的準確性有著不可忽視的影響。一方面,外生變量的合理利用能夠顯著提升模型的預(yù)測能力;另一方面,對異常數(shù)據(jù)的有效處理則是確保數(shù)據(jù)質(zhì)量,進而提高預(yù)測準確度的關(guān)鍵步驟。
對于光伏出力預(yù)測而言,外生變量可能直接或間接地影響光伏電站的功率輸出,將這些變量納入模型有助于提高預(yù)測準確度。同時,需要識別并排除與光伏電站功率輸出不具有統(tǒng)計顯著性關(guān)聯(lián)的外生變量,避免模型過于復(fù)雜,從而確保模型的泛化能力。靜態(tài)外生變量是指在預(yù)測期間不隨時間變化而變化的變量,如光伏板類型、地理位置;歷史外生變量是指在預(yù)測開始前已確定且不受模型內(nèi)部變量影響的變量,如氣象歷史數(shù)據(jù);未來外生變量是指預(yù)計在未來出現(xiàn)但當前尚未實現(xiàn)的變量,通?;陬A(yù)測或假設(shè)并不受模型當前或過去狀態(tài)的影響,如氣象預(yù)測數(shù)據(jù)。
光伏電站異常數(shù)據(jù)的產(chǎn)生主要來源于3 種情況:(1)冗余數(shù)據(jù):由于存儲或傳輸過程中的故障導(dǎo)致數(shù)據(jù)中出現(xiàn)重復(fù)記錄的數(shù)據(jù);(2)缺失數(shù)據(jù):由于設(shè)備故障、通訊中斷等導(dǎo)致數(shù)據(jù)的部分缺失;(3)離群數(shù)據(jù):通常由測量設(shè)備的故障或在數(shù)據(jù)傳輸及轉(zhuǎn)換過程中發(fā)生的誤碼現(xiàn)象引起,導(dǎo)致出現(xiàn)超出正常范圍的數(shù)據(jù)或數(shù)據(jù)突變。這些情況導(dǎo)致經(jīng)過異常值處理后往往會出現(xiàn)數(shù)據(jù)的缺失,數(shù)據(jù)的缺失情況主要分為某行的某(幾)列數(shù)據(jù)由于突變越限被剔除導(dǎo)致的單組數(shù)據(jù)缺失以及數(shù)據(jù)采集環(huán)節(jié)出現(xiàn)嚴重故障導(dǎo)致的整行數(shù)據(jù)缺失2 類。其中,對于僅單組缺失的數(shù)據(jù)采用基于KNN 算法的數(shù)據(jù)補齊法進行重構(gòu),對于整行缺失的數(shù)據(jù)采用基于線性插值的數(shù)據(jù)補齊法進行重構(gòu)。
統(tǒng)計學中通常通過計算相關(guān)系數(shù)對外生變量進行相關(guān)性分析,包括肯德爾相關(guān)系數(shù)(Kendall Rank Correlation Coefficient,KRCC)、斯皮爾曼秩相關(guān)系數(shù)(Spearman’s Rank Correlation Coefficient,SRCC)和PCC。相關(guān)系數(shù)的范圍通常在-1~+1 之間,系數(shù)的符號表示變量間的負相關(guān)或正相關(guān)關(guān)系。通常將相關(guān)系數(shù)絕對值閾值設(shè)置為0.6,用于確定變量間是否高度相關(guān)。
KRCC 是一種用于衡量2 組數(shù)據(jù)間序位關(guān)聯(lián)的非參數(shù)方法,用τ表示。KRCC 通過考察成對觀測值間的一致性和不一致性量化變量之間的相關(guān)性[26],因此可以在不依賴數(shù)據(jù)分布假設(shè)的前提下度量變量間的關(guān)系,即:
式中:s gn(?)為符號函數(shù);z為任意實數(shù);Xi為變量X的觀測數(shù)據(jù)序列中,索引為i的觀測數(shù)據(jù);Yj為變量Y的觀測數(shù)據(jù)序列中,索引為j的觀測數(shù)據(jù);n為樣本數(shù)目。
PCC 是衡量2 個變量線性相關(guān)程度的統(tǒng)計指標,作為一種參數(shù)方法用r表示,其計算基于變量的協(xié)方差與其各自標準差的乘積[27]。PCC 假設(shè)涉及的變量遵循正態(tài)分布并且為線性關(guān)系,因此其對極端值異常敏感,對于含有離群值的數(shù)據(jù),PCC 可能會產(chǎn)生誤導(dǎo)性的結(jié)果,PCC 的計算公式如式(3)所示:
SRCC 是一種衡量2 個變量間單調(diào)關(guān)系強度的有效非參數(shù)方法,用ρ表示。與基于數(shù)據(jù)分布假設(shè)的相關(guān)系數(shù)不同,SRCC 依賴于變量值的排名而非其實際數(shù)值,從而增強對離群值的魯棒性。因此SRCC 適用于分析定序數(shù)據(jù)或不滿足正態(tài)分布假設(shè)的數(shù)據(jù)集,在樣本量較小的情況下也能提供可靠的相關(guān)性估計[28],即:
式中:di為秩次差;分別為Xi和Yi從小到大排序后的秩次。
為比較全面地評估光伏數(shù)據(jù)與外生變量之間的相關(guān)性,這里提出用于篩選外生變量的ICM 指標。ICM 綜合KRCC,PCC 和SRCC 的優(yōu)點,通過計算歸一化權(quán)重為不同類型的相關(guān)系數(shù)提供統(tǒng)一的框架,旨在捕捉變量間的相關(guān)性。ICM 的計算流程為:
1)對每個外生變量,分別計算其與目標變量的KRCC,PCC 和SRCC。
2)對于相關(guān)系數(shù)Γ ∈{τ,r,ρ},由式(6)計算其歸一化權(quán)重WΓ:
3)將每個外生變量的各相關(guān)系數(shù)分別乘以其歸一化權(quán)重,求和得到ICM 指標MIC,即:
KNN 算法是一種基于鄰近樣本信息進行預(yù)測或分類的算法,在缺失數(shù)據(jù)的處理中被廣泛應(yīng)用[29]。在面對缺失值時,KNN 算法通過找到具有相似特征的鄰近樣本,利用這些樣本的已知值來估計缺失值。KNN 算法填補缺失值的基本步驟為:(1)選定K值,即最近鄰樣本的數(shù)量;(2)對于含有缺失值的樣本,計算其與完整數(shù)據(jù)集中每個樣本之間的距離;(3)選擇與含缺失值的樣本距離最近的K個樣本,形成鄰近樣本集合U={u1,u2,…,uK} ;(4)使用這些鄰近樣本的均值或眾數(shù)填補缺失值。
通常采用歐氏距離衡量樣本之間的距離。對于2 組d維數(shù)據(jù)p=(p1,p2,…,pd)和q=(q1,q2,…,qd),使用非缺失維度進行計算,即:
式中:o為非缺失維度的索引;O為非缺失維度的索引集合。
在數(shù)據(jù)處理中,特別是在時間序列數(shù)據(jù)的處理中,線性插值被廣泛應(yīng)用于填補缺失值。線性插值算法基于以下假設(shè):2 個已知點之間的變量變化是均勻的,因此可以用直線方程來估算兩點之間任一點的值。對于2 個數(shù)據(jù)點(g1,h1) 和(g2,h2),且g1≠g2,計算這2 點間某一點g對應(yīng)值h的方法如式(9)所示:
N-HiTS 模型是一種針對時間序列預(yù)測的深度學習架構(gòu),模型結(jié)構(gòu)如圖1 所示。本節(jié)將詳細介紹N-HiTS 模型的組成部分,作為一種創(chuàng)新的架構(gòu),其應(yīng)用多層感知機(Multilayer Perceptron,MLP)和雙殘差網(wǎng)絡(luò),通過多尺度信號采樣和分層插值方法針對不同信號采樣率的信號進行專門化的預(yù)測。
圖1 N-HiTS模型結(jié)構(gòu)Fig.1 Structure of the N-HiTS model
基本塊第一部分為多尺度信號采樣,通過最大池化層MaxPools,b的參數(shù)ps,b對輸入信號ys,b在不同尺度上進行下采樣,其目的是使得基本塊能夠關(guān)注不同信號采樣率下的輸入信號,即:
多尺度信號采樣保持了原始的感受野,但通過限制基本塊的輸入信號規(guī)模,減少內(nèi)存占用和計算量,并減少可學習參數(shù)的數(shù)量,從而減輕過擬合的影響。
大多數(shù)光伏功率預(yù)測模型將表達率設(shè)置為1,即模型為每一個預(yù)測時間點分別生成預(yù)測值,此時基準值θ的維度與預(yù)測值y的維度相同。這種方法能夠為各時間點提供特定的預(yù)測,但同時需要大量的計算資源。為解決這個問題,N-HiTS 模型通過設(shè)置表達率小于1 的方式控制模型的輸出,模型不再為每個預(yù)測時間點產(chǎn)生一個獨立的輸出參數(shù),而是生成較少的參數(shù),然后通過插值來恢復(fù)整個時間范圍內(nèi)的預(yù)測。
式中:t1和t2為具有前向預(yù)測基準值的相鄰時刻。
基本塊被分組成堆棧,通過設(shè)置每個堆棧內(nèi)基本塊的表達率和池化層參數(shù),從而獲取特定的輸入信號規(guī)模并進行插值恢復(fù)操作。本文通過將靠近原始輸入信號的堆棧內(nèi)基本塊參數(shù)設(shè)置為較小的表達率和較大的池化層參數(shù),可以使得靠近原始輸入信號的堆棧更傾向于觀察平滑的趨勢信號從而得到低細節(jié)層次的信號,遠離原始輸入信號的堆棧內(nèi)基本塊具有較大的表達率和較小的池化層參數(shù),從而捕捉信號的高細節(jié)層次。N-HiTS 模型的堆棧數(shù)量設(shè)置為3 時,各堆棧輸出如圖2 所示。
圖2 堆棧數(shù)量為3時N-HiTS模型輸出及其內(nèi)部堆棧輸出Fig.2 Output of the N-HiTS model with stack number of 3 and its internal stack outputs
采用澳大利亞沙漠知識太陽能中心(Desert Knowledge Australia Solar Center,DKASC)提供的公開數(shù)據(jù)集驗證N-HiTS 模型。該數(shù)據(jù)集涵蓋位于澳大利亞多種品牌、年齡、型號和配置的光伏電站輸出功率及對應(yīng)的溫度、相對濕度、水平總輻射、水平散射輻射、風向、日降雨量、傾角輻射、傾角散射輻射等氣象特征數(shù)據(jù)。采用位于澳大利亞愛麗絲泉的14 號光伏電站數(shù)據(jù)為本文數(shù)據(jù)集,該光伏電站由40 塊額定功率為135 W 的光伏面板組成,總額定功率為5.4 kW。選取2021 年12 月至2023 年12月期間的數(shù)據(jù)進行實驗,采樣間隔為15 min,故文中涉及的相鄰數(shù)據(jù)點間隔為15 min。假設(shè)所提供的氣象特征數(shù)據(jù)為實際中能夠準確預(yù)測的氣象數(shù)據(jù),為了提高光伏發(fā)電預(yù)測模型的準確性和可解釋性,對數(shù)據(jù)集進行外生變量相關(guān)性分析以剔除對預(yù)測貢獻有限的氣象特征。根據(jù)表1 選取與光伏電站輸出功率較相關(guān)的氣象特征作為未來外生變量:水平總輻射、水平散射輻射、傾角輻射、傾角散射輻射。
表1 氣象特征與光伏電站輸出功率的相關(guān)系數(shù)Table 1 Correlation coefficient between meteorological data and photovoltaic power output
按8∶1∶1 的比例劃分訓(xùn)練集、驗證集和測試集,進行不同步數(shù)的光伏功率預(yù)測,采用式(24)對輸出功率值和外生變量進行Min-Max 歸一化處理:
式中:x為待歸一化的數(shù)據(jù);xmin為樣本數(shù)據(jù)的最小值;xmax為樣本數(shù)據(jù)的最大值;x′為經(jīng)歸一化的數(shù)據(jù)。
光伏出力預(yù)測流程如圖3 所示,所用模型參數(shù)設(shè)置如表2 所示。
表2 模型參數(shù)Table 2 Parameters settings
圖3 光伏預(yù)測流程圖Fig.3 Flowchart of photovoltaic prediction
采用均方根誤差(Root Mean Square Error,RMSE)和平均絕對誤差(Mean Absolute Error,MAE)評估NHiTS 模型預(yù)測的性能,其量值分別為ERMS和EMA。RMSE 反映預(yù)測值與實際值之間的偏差程度,MAE 衡量預(yù)測誤差的平均水平,這些評估指標可用于量化N-HiTS 模型在光伏出力預(yù)測中的準確性,計算公式為:
式中:M為預(yù)測樣本的數(shù)量;ym為第m個預(yù)測樣本的實際功率值;為第m個預(yù)測樣本的模型預(yù)測值。
為了檢驗本文數(shù)據(jù)處理方法的性能和其在長時間尺度預(yù)測上的適用性,分別對原始光伏數(shù)據(jù)采用不同的數(shù)據(jù)處理方法后經(jīng)N-HiTS 模型進行預(yù)測步數(shù)為96 的預(yù)測。圖4 為預(yù)測步數(shù)為96 時采用不同數(shù)據(jù)處理方法的預(yù)測結(jié)果,表3 為預(yù)測步數(shù)為96 時各數(shù)據(jù)處理方法的預(yù)測誤差對比。
表3 各數(shù)據(jù)處理方法預(yù)測誤差對比Table 3 Comparison of forecast errors of different data processing methods kW
圖4 各數(shù)據(jù)處理方法的預(yù)測結(jié)果Fig.4 Prediction results of different data processing methods
由圖4 和表3 可以看出,原始光伏數(shù)據(jù)經(jīng)過本文所提數(shù)據(jù)處理方法可使得預(yù)測結(jié)果準確性更高,也說明了適當?shù)臄?shù)據(jù)處理有助于提高光伏發(fā)電功率預(yù)測的精確度。
為驗證N-HiTS 模型的性能優(yōu)勢,選取光伏預(yù)測領(lǐng)域常用的TCN、門控循環(huán)單元(Gated Recurrent Unit,GRU)和LSTM 模型和N-HiTS 模型的原始模型NBEATSx 模型[30]、N-BEATS 模型[31]作為基線模型進行對比。將N-HiTS 模型與基線模型在數(shù)據(jù)集上分別進行超短期即0~4 h 時間尺度的多步預(yù)測,在15 min 的采樣間隔下,4 h 內(nèi)至多包含16 個預(yù)測步數(shù)。本文多步預(yù)測是指模型基于歷史真實觀測值,預(yù)測未來多個時間步長的輸出,并不斷滑動窗口,使用新的實際觀測數(shù)據(jù)更新后續(xù)預(yù)測值進行評估,得到各模型預(yù)測精度如表4 所示。
表4 不同預(yù)測模型的多步預(yù)測評估指標對比Table 4 Comparison of multi-step forecast evaluation indicators of different forecast models
由表4 可知,N-HiTS 模型的MAE 在超短期預(yù)測的所有步長均低于其他模型,這說明所提模型的預(yù)測準確度較高;然而在預(yù)測步長增大時,其RMSE表現(xiàn)略差于其他深度學習模型。這是由于RMSE對大誤差更敏感,這說明所提模型在預(yù)測步長較大時可能產(chǎn)生較大的單個預(yù)測誤差,例如未能提前捕捉到突變的氣象條件,而是更多地根據(jù)歷史數(shù)據(jù)規(guī)律給出預(yù)測結(jié)果。因此,N-HiTS 模型適用于對短期內(nèi)有高準確性要求的預(yù)測場景,而在長期預(yù)測時可能需要結(jié)合其他方法來減少大誤差的影響。一般情況下預(yù)測步數(shù)與預(yù)測精度呈負相關(guān)關(guān)系,即預(yù)測步數(shù)越大,預(yù)測精度越低。對于NBEATSx 模型和N-BEATS 模型而言,所采用的基函數(shù)為季節(jié)性和趨勢性基函數(shù),預(yù)測步數(shù)較小時效果較差,由表4 可看出,當預(yù)測步數(shù)為2 時,NBEATSx 模型和N-BEATS模型的預(yù)測精度較低,而當預(yù)測步數(shù)為4 時,預(yù)測精度較高。
為進一步評估N-HiTS 模型的性能,分析NHiTS 模型在平穩(wěn)及動態(tài)變化條件下的準確性。圖5 為預(yù)測步數(shù)為16 時N-HiTS 模型和基線模型分別在不同特征日的光伏功率預(yù)測結(jié)果,橫坐標為預(yù)測點數(shù),縱坐標為光伏功率。圖5(a)為各模型在平穩(wěn)日的預(yù)測結(jié)果,圖5(b)為各模型在突變?nèi)盏念A(yù)測結(jié)果。
圖5 預(yù)測步數(shù)為16時各模型光伏功率預(yù)測結(jié)果Fig.5 Photovaltaic power prediction result of each model when prediction step is 16
從圖5 可以看出,N-HiTS 模型在光伏發(fā)電條件較為穩(wěn)定的情況下具有較高的精確度,在可能面臨多變的光伏發(fā)電條件的突變?nèi)罩校琋-HiTS 模型的預(yù)測曲線在大部分預(yù)測點上仍然能夠緊跟實際功率曲線,但在功率上升和下降的轉(zhuǎn)折點上,預(yù)測曲線與實際曲線之間出現(xiàn)了一定的偏離現(xiàn)象,在功率急劇變化的時段現(xiàn)象更為明顯。這種現(xiàn)象反映出N-HiTS 模型在多步預(yù)測時雖然在變化的環(huán)境中保持了一定的預(yù)測準確性,但在應(yīng)對快速變化的外部條件時,模型的適應(yīng)性有待提高。
為展示N-HiTS 模型在解決長序列預(yù)測問題時的優(yōu)越性,對各模型在不同回溯范圍時的效果進行評估。圖6 展示了預(yù)測步數(shù)為4 時各模型在不同回溯范圍下的評估指標量值,可以看出,在較長的回溯范圍下,盡管所有模型的誤差有所增加,但NHiTS 模型的MAE 和RMSE 指標相對較低且增長趨勢較為平緩,這表明N-HiTS 模型對于長序列預(yù)測問題具有較好的預(yù)測精度。
圖6 預(yù)測步數(shù)為4時不同回溯范圍下各模型效果對比Fig.6 Performance comparision of each model under different backtracking ranges when prediction step is 4
面對全球能源結(jié)構(gòu)轉(zhuǎn)型和可再生能源發(fā)展的迫切需求,本研究提出了一種結(jié)合外生變量分析、數(shù)據(jù)質(zhì)量控制以及基于N-HiTS 模型的光伏功率多步預(yù)測框架。在數(shù)據(jù)處理方面,提出了用于篩選外生變量的ICM 指標,通過合理運用外生變量和有效處理異常數(shù)據(jù),增強了模型對復(fù)雜環(huán)境的適應(yīng)性和魯棒性。算例結(jié)果表明,N-HiTS 模型在光伏超短期多步預(yù)測中精度較高,處理長序列數(shù)據(jù)時具有較好的預(yù)測精度,但數(shù)據(jù)變異性的捕捉能力有限,未來需要進一步優(yōu)化模型結(jié)構(gòu),提高其在數(shù)據(jù)動態(tài)性較強的長期預(yù)測任務(wù)中的預(yù)測準確性。本文所提的基于N-HiTS 模型的光伏功率預(yù)測框架有利于提高預(yù)測準確性和可靠性,對于優(yōu)化能源結(jié)構(gòu)、提高能源利用效率和電網(wǎng)穩(wěn)定性具有重要意義。