楊盛祥
摘要:集成算法被廣泛應用于光伏發(fā)電量預測等工業(yè)場景。當沒有足夠的數據和工業(yè)知識儲備時,該算法只能提供點預測,不能提供區(qū)間預測,降低了模型預測精度。為了解決該問題,文章提出了一種基于集成學習和高斯過程的光伏發(fā)電量預測算法。該算法利用集成學習進行光伏發(fā)電量的點預測,由多種算法組合而成,具有高精度特性。同時,文章所提的高斯過程算法將集成學習算法預測值作為輸入、光伏發(fā)電量作為目標值,進行模型訓練和迭代,高斯過程算法對模型進行區(qū)間預測,提高了模型的預測精度。實際的光伏場站案例驗證了文章所提方法的有效性。
關鍵詞:集成學習;高斯過程;光伏發(fā)電量預測
中圖分類號:TK8文獻標志碼:A
0 引言
近年來,我國的可再生能源(如太陽能、風能、水能、生物質能)得到了迅猛的發(fā)展。在“雙碳”背景下,光伏行業(yè)的裝機容量增長極為迅速。2019年,光伏的裝機容量超過了580 GW,而到了2022年全球光伏裝機容量達到了871 GW。光伏發(fā)電的源頭來自太陽輻射,其擁有不確定性和難以預測性。同時,在“源-網-荷-儲”一體化的新型電力系統(tǒng)下,精準的光伏發(fā)電預測可以有效地減少新能源對電網的沖擊。Sivaneasan等[1]在2017年使用神經網絡和模糊前處理工具包來進行太陽能輻射值的預測。Alzahrani等[2]提出一種深度學習模型進行光伏發(fā)電量的預測,同時,將此類方法同支撐向量回歸和前饋神經網絡進行了比較。Yagli等[3]在2019年使用了68種機器學習模式在5個溫度區(qū)中的7個測量點進行了為期2年的小時級光伏預測。Gao等[4]、Zang等[5]使用卷積-時間長短記憶模型,在不同區(qū)域進行了全球范圍的太陽輻照度預測。但上述研究均未考慮預測模型的不確定度,尤其是在不同時間段下預測不確定度的變化情況;同時,也僅涉及單一模型的應用,并未集成多種模型結果以提升預測精度。
鑒于此,本文提出了一種基于集成學習和高斯過程的光伏發(fā)電量預測模型。該模型分為2步:使用集成學習方法,集成多種單一人工智能模型,提高光伏發(fā)電量預測精度;使用高斯過程對已訓練的模型進行進一步訓練,在提高模型精度的同時,訓練出預測值的不確定度?;诠夥鼒稣镜膶嶋H數據進行驗證,將驗證結果與多種主流機器學習模型進行比較,結果表明,本文所提模型具有一定的優(yōu)越性。
1 一種基于集成學習和高斯過程的光伏發(fā)電量預測模型
1.1 數據收集與處理
數據收集與處理包含數據收集、數據分類和數據清洗。本文數據來源于中國浙江省某光伏場站,其中容量配置為彩色組件1218塊,每塊功率為400 W,總容量為487.2 kW;普通組件為5761塊,每塊功率為545 W,總容量為3139.745 kW。數據采集系統(tǒng)為10 min數據采集與監(jiān)視控制系統(tǒng)(Supervisory Control and Data Acquisition,SCADA),數據采樣周期為2023年5月到2023年6月,本光伏場站配備微型氣象數據站,該氣象數據站數據亦能通過SCADA進行采集。在數據清洗過程中,本文進行了包含NA值和缺失值的過濾。為了保證數據的真實性,本文并沒有對缺失值進行回填,結合光伏場站采集點位,微型氣象數據站采集點位和行業(yè)機理,本數據最終數據采集值為時間、溫度、濕度、氣壓、輻照度和發(fā)電量。
本文數據總量為3377個觀測值,數據集分為訓練集(1000個觀測值)和測試集(2377個觀測值),提前對整個數據集進行標準化處理,將不同特征值的數據范圍控制在同一數量級上,以此來平衡不同特征值的影響權重,如式(1)所示。
θ=(x1,x2,x3,x4)(1)
其中,θ為發(fā)電量,x1~x4分別為溫度、濕度、氣壓和輻照度。同時,為了進一步提高結果效果,將數據集進行時間序列化處理,時間步長為τ。t時刻下的數據集Ωt如式(2)所示。
1.2 集成學習模型
集成學習模型被用來進行光伏場站發(fā)電量的預測。該模型被設計為2層結構:第一層結構為支持向量機(Support Vector Machine,SVM)算法、隨機森林(Random Forest,RF)算法和K近鄰(K-Nearest Neighbor,KNN)算法組成;第二層結構為梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)算法。為了得到更好的泛化性,本文對訓練數據部分進行了5次交叉驗證(5th-fold)。集成學習模型的第一層結構的輸入為時間序列數據集Ωt,輸出為SVM算法、RF算法和KNN算法的預測值;集成學習模型的第二層結構的輸入為第一層算法的3種預測值輸入,輸出為t+1時刻發(fā)電量θt+1的預測值θt,其公式如下:
1.3 高斯過程模型
上述的集成學習算法僅能對光伏發(fā)電量進行預測,并不能對其預測的不確定度進行展示。基于上述問題,本文對其進行了如下的修正,給定的數據集為D={θ, θ},f(·)為服從于聯(lián)合高斯分布的變換函數,其統(tǒng)計值可以通過均值M(θ)與協(xié)方差K< θ, θ,>來確定, θ,為與 θ相同的樣本集輸入矩陣,高斯過程概率函數GP可以表示為:
在實際工業(yè)場景中,噪聲是不可避免的。因此,本文將上述高斯過程與噪聲進行結合,如式(5)所示。
其中,σ為高斯白噪聲,I為集合單位矩陣。因此,本文所提出的一種基于集成學習和高斯過程的光伏發(fā)電量預測流程如圖1所示。
本文使用平均絕對誤差(Mean Absolute Deviation,MAD)作為評價指標MAD=1Nθi- θi,使用多種算法進行比較,其中包含SVM算法、RF算法、KNN算法、GBDT算法和高斯回歸擬合算法。為保證多種算法在相同的條件下進行比較,本文使用Python軟件環(huán)境,單機i5-6200U CPU和8 GB RAM硬件環(huán)境進行建模,其算法建模主要使用sklearn包進行SVM算法、RF算法以及KNN算法的建模;使用lightgbm包進行GBDT算法以及使用gpytorch包進行高斯過程建模?;谏鲜鏊惴ò皩膮刀x,本文所使用的模型參數如表1所示。
2 實際案例
圖2為對應數據集發(fā)電量的概率密度函數(去除發(fā)電量為0的數據)??梢钥闯觯涸诒緮祿校畲蟀l(fā)電量為2616.29 kW,最小發(fā)電量為0,發(fā)電量中位數為31.445 kW,發(fā)電量標準差為691.6。
同時,表2為不同預測尺度(1 h、6 h、9 h)下,本文所提出的算法與傳統(tǒng)算法在測試集所進行的MAD值比較。其數值表明:在不同尺度下,統(tǒng)計指標均表現(xiàn)優(yōu)異,這證明該算法具有一定的工業(yè)應用性和推廣性。
3 結語
本文利用一種基于集成學習和高斯過程的算法對光伏發(fā)電量進行短時預測。該算法模型分為2個階段:階段1使用集成學習算法對光伏發(fā)電量進行建模和預測;階段2使用高斯過程算法對階段1的輸出進行進一步的算法精度提升和預測不確定度的量化。根據和其他方法進行比較,該方案可以對光伏發(fā)電量進行有效預測,在不同尺度下均表現(xiàn)出優(yōu)異的效果。若光伏場站的運行維護人員根據預測結果及時對光伏板狀態(tài)進行校正處理,則可顯著提高光伏場站的發(fā)電量。未來,研究團隊將繼續(xù)探討該模型在不同光伏場站數據下的遷移性,以此來提升所提模型的泛化性,為模型在工業(yè)中的應用進行驗證和推廣。
參考文獻
[1]SIVANEASAN B,YU C Y,GOH K P. Solar forecasting using ANN with fuzzy logic pre-processing[J]. Energy Procedia,2017(143):727-732.
[2]ALZAHRANI A,SHAMSI P,DAGLI C,et al. Solar irradiance forecasting using deep neural networks[J]. Procedia Computer Science,2017(114):304-313.
[3]YAGLI G M,YANG D Z,SRINIVASAN D. Automatic hourly solar forecasting using machine learning models[J]. Renewable and Sustainable Energy Reviews,2019(105):487-498.
[4]GAO B X,HUANG X Q,SHI J S,et al. Hourly forecasting of solar irradiance based on CEEMDAN and multi-strategy CNN-LSTM neural networks[J]. Renewable Energy,2020(162):1665-1683.
[5]ZANG H X,LIU L,SUN L,et al. Short-term global horizontal irradiance forecasting based on a hybrid CNN-LSTM model with spatiotemporal correlations[J]. Renewable Energy,2020(160):26-41.
(編輯 王永超編輯)
PV output prediction based on hybrid method of ensemble learning and Gaussian process
Yang? Shengxiang
(Ningbo Beilun Third Container Terminal Co., Ltd., Ningbo 315800, China)
Abstract:? Ensemble learning is widely used to time-series industrial application, such as photovoltaic (PV) output forecasting, but it suffers from low fitting accuracy and point prediction only without enough training dataset and industry knowledge. To solve this problem, a hybrid method based on ensemble learning and Gaussian process to predict PV output is proposed in this paper. Regarding with the point prediction of ensemble learning of several algorithms, the Gaussian process algorithm is utilized to provide confidence intervals, which has better generalization in prediction. By actual case from PV platform, it illustrates the application of the proposed method.
Key words: ensemble learning; Gaussian process; PV output prediction