范程岸 劉博文
摘? ?要:光伏發(fā)電具有波動(dòng)性、間歇性的特點(diǎn)。為了提高光伏發(fā)電功率預(yù)測(cè)的精度,文章將GBDT和神經(jīng)網(wǎng)絡(luò)進(jìn)行組合,建立了一種光伏發(fā)電組合預(yù)測(cè)模型。先對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,之后訓(xùn)練3個(gè)GBDT和2個(gè)神經(jīng)網(wǎng)絡(luò)算法模型,得到互有差異的5個(gè)預(yù)測(cè)值向量,用K-means對(duì)預(yù)測(cè)值向量進(jìn)行聚類,從每一類中篩選一個(gè)預(yù)測(cè)值向量輸入到第3個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而得到最后的組合預(yù)測(cè)模型。實(shí)驗(yàn)證明,基于GBDT和神經(jīng)網(wǎng)絡(luò)的光伏發(fā)電組合預(yù)測(cè),其精度比神經(jīng)網(wǎng)絡(luò)、SVM要高。
關(guān)鍵詞:梯度提升決策樹(shù);K-means;神經(jīng)網(wǎng)絡(luò);光伏發(fā)電預(yù)測(cè);組合模型
并網(wǎng)太陽(yáng)能光伏發(fā)電站不穩(wěn)定的輸出功率會(huì)對(duì)電力系統(tǒng)的穩(wěn)定性造成影響。提高光伏發(fā)電功率的預(yù)測(cè)精度有助于電力部門進(jìn)行調(diào)度計(jì)劃的制定,從而有利于電力系統(tǒng)的穩(wěn)定運(yùn)行。在過(guò)去,已經(jīng)有許多方法被應(yīng)用于光伏發(fā)電量的點(diǎn)預(yù)測(cè),比如,物理法(根據(jù)預(yù)報(bào)氣象、系統(tǒng)參數(shù)、角度、轉(zhuǎn)換效率等進(jìn)行物理建模)、神經(jīng)網(wǎng)絡(luò)模型、支持向量機(jī)模型等[1]。
本文建立一種基于梯度提升決策樹(shù)(Gradient Boosting Decision Tree,GBDT)與神經(jīng)網(wǎng)絡(luò)(Neural Networks,NN)的組合預(yù)測(cè)模型[2]。通過(guò)實(shí)驗(yàn),證明其預(yù)測(cè)精度比神經(jīng)網(wǎng)絡(luò)模型、SVM模型更高。
1? ? GBDT算法簡(jiǎn)介
GBDT算法的流程:初始化預(yù)測(cè)值開(kāi)始,然后每次添加1棵回歸樹(shù),葉子里得到預(yù)測(cè)值以及預(yù)測(cè)值與真實(shí)標(biāo)簽的殘差,下一次生成的回歸樹(shù)針對(duì)前面所有回歸樹(shù)的殘差進(jìn)行學(xué)習(xí),循環(huán)迭代,直到由T棵回歸樹(shù)組合的預(yù)測(cè)值與真實(shí)標(biāo)簽的殘差盡可能小。
2? ? 神經(jīng)網(wǎng)絡(luò)算法簡(jiǎn)介
如圖1所示,神經(jīng)網(wǎng)絡(luò)由輸入層、隱含層、輸出層組成。每一層由神經(jīng)元構(gòu)成,神經(jīng)元里包含激活函數(shù),其常用類型包括:Sigmoid,tanh,relu。激活函數(shù)的作用是為神經(jīng)網(wǎng)絡(luò)增加非線性因素,提高神經(jīng)網(wǎng)絡(luò)擬合非線性函數(shù)的能力。每一層神經(jīng)元用權(quán)重W進(jìn)行連接。為了減少輸出值殘差,利用反向傳播算法不斷更新權(quán)重W,由于神經(jīng)網(wǎng)絡(luò)的隱含層數(shù)、神經(jīng)元個(gè)數(shù)、激活函數(shù)的各種靈活組合,所以其可以進(jìn)行非線性函數(shù)的逼近。
3? ? 實(shí)驗(yàn)
3.1? 光伏數(shù)據(jù)
光伏數(shù)據(jù)的特征包含光照、溫度、濕度、風(fēng)向、光伏板轉(zhuǎn)換效率、電氣性能等因素。數(shù)據(jù)集一共9 000條記錄,其中4 000條訓(xùn)練集數(shù)據(jù)用來(lái)訓(xùn)練模型,5 000條數(shù)據(jù)用來(lái)測(cè)試模型的性能。
3.2? 訓(xùn)練模型
光伏發(fā)電預(yù)測(cè)精度用均方根誤差(rmse)來(lái)衡量,rmse的計(jì)算公式為:
)rmse越小,預(yù)測(cè)精度越高,預(yù)測(cè)模型生成過(guò)程如圖2所示。利用集成學(xué)習(xí)的思想,把數(shù)據(jù)分別輸入到3個(gè)GBDT和兩個(gè)神經(jīng)網(wǎng)絡(luò),每個(gè)GBDT和神經(jīng)網(wǎng)絡(luò)的訓(xùn)練參數(shù)各不相同,從而得到有所差異的5個(gè)預(yù)測(cè)值向量。根據(jù)奧卡姆剃刀原理進(jìn)行模型簡(jiǎn)化,利用K-means[3]算法對(duì)預(yù)測(cè)值向量進(jìn)行聚類區(qū)別,一共分成3類,分別打上0,1,2的類別標(biāo)簽。從每一類中各抽出一個(gè)預(yù)測(cè)值向量,將其當(dāng)作數(shù)據(jù)集的新特征輸入到第3個(gè)神經(jīng)網(wǎng)絡(luò)中訓(xùn)練,得到最后的預(yù)測(cè)模型。預(yù)測(cè)過(guò)程中,把測(cè)試集數(shù)據(jù)分別輸入到由K-means算法篩選出來(lái)的GBDT1,NN1,NN2,分別得到3個(gè)預(yù)測(cè)值向量,然后把這3個(gè)預(yù)測(cè)值向量輸入到NN3,得到最終的預(yù)測(cè)結(jié)果。
3.3? 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果如表1和圖3—4所示。根據(jù)表1可知,GBDT+NN+K-means組合預(yù)測(cè)的rmse比NN1小0.010 3,比NN2小0.051 6,比SVM小0.051 1,比GBDT1小0.007,說(shuō)明基于GBDT和神經(jīng)網(wǎng)絡(luò)的組合模型預(yù)測(cè),其精度高于其他單模型。另外,根據(jù)圖3—4可知,GBDT+NN+K-means模型避免了尖峰的擬合,即不易出現(xiàn)過(guò)擬合現(xiàn)象。從圖3—4中拋物線的右下側(cè)可以明顯看出,SVM,NN1預(yù)測(cè)值與真實(shí)值之間存在的間隔,而GBDT+NN+K-means模型幾乎與真實(shí)數(shù)據(jù)重合。
4? ? 結(jié)語(yǔ)
本文建立的一種基于GBDT和NN的光伏發(fā)電功率組合預(yù)測(cè)模型。先利用訓(xùn)練數(shù)據(jù)生成多個(gè)GBDT和NN單模型,然后利用K-means方法進(jìn)行分類、修剪,減小模型的冗余,最后進(jìn)行組合模型預(yù)測(cè),與傳統(tǒng)的SVM,NN相比,具有更高的精確度。本文的缺點(diǎn)是并沒(méi)有對(duì)光伏發(fā)電數(shù)據(jù)進(jìn)行深入的特征挖掘與聚類分析,僅側(cè)重于模型的組合方法。光伏發(fā)電受天氣等因素影響,如何在復(fù)雜多變的天氣里利用算法盡可能提取有用的光伏特征信息值得深入研究。
[參考文獻(xiàn)]
[1]賴昌偉,黎靜華,陳博,等.光伏發(fā)電出力預(yù)測(cè)技術(shù)研究綜述[J].電工技術(shù)學(xué)報(bào),2019(6):87-103.
[2]FRIEDMAN J.Greedy function approximation:a gradient boosting machine[J].The Annals of Statistics,2001(5):1189-1232.
[3]MACQUEEN J.Some methods for classification and analysis of multivariate observations[C].California:Proc of Berkeley Symposium on Mathematical Statistics&Probability,1965.
Abstract:Photovoltaic power generation has the characteristics of volatility and intermittentness. In order to improve the accuracy of photovoltaic power generation prediction, this paper combines GBDT and neural network to establish a photovoltaic power generation combined prediction model. First, the original data is cleaned, and then three GBDT and two neural network algorithm models are trained to obtain five predictive value vectors with different differences. The predicted value vectors are clustered by K-means, and each class is selected, a predictive value vector is input to the third neural network for training, thereby obtaining the final combined prediction model. Experiments show that the accuracy of photovoltaic power generation based on GBDT and neural network is higher than that of neural network and SVM.
Key words:gradient boosting decision tree; K-means; neural networks; forecast of photovoltaic power generation; combined model