陳海宏,易永利,黃珅,韓靜怡
(1.國(guó)網(wǎng)浙江省電力有限公司溫州供電公司,浙江 溫州 325000;2.億可能源科技(上海)有限公司,上海 200090)
目前,在“雙碳”背景下[1],我國(guó)正在全力推進(jìn)光伏發(fā)電的大規(guī)模開(kāi)發(fā)與高質(zhì)量發(fā)展,光伏發(fā)電呈現(xiàn)出良好的發(fā)展前景[2-3]。隨著集中式光伏發(fā)電開(kāi)發(fā)的有序推進(jìn),我國(guó)在大力推廣光伏產(chǎn)業(yè)的同時(shí),也在開(kāi)展光伏發(fā)電功率預(yù)測(cè)相關(guān)工作[4]。在電網(wǎng)調(diào)度過(guò)程中,如果在獲得精確的光伏發(fā)電功率預(yù)測(cè)結(jié)果的基礎(chǔ)上制定生產(chǎn)計(jì)劃,則能夠保障電力系統(tǒng)連續(xù)、可靠供電,有效降低發(fā)電成本。
但光伏發(fā)電功率數(shù)據(jù)的準(zhǔn)確性問(wèn)題加大了光伏發(fā)電功率預(yù)測(cè)的難度,增加了光伏發(fā)電功率預(yù)測(cè)的不確定性,當(dāng)光伏電站并網(wǎng)運(yùn)行時(shí),電力系統(tǒng)的穩(wěn)定性與經(jīng)濟(jì)性會(huì)受到影響[5]??煽康念A(yù)測(cè)算法模型和精細(xì)的氣象預(yù)報(bào)數(shù)據(jù)是準(zhǔn)確預(yù)測(cè)光伏發(fā)電功率的決定性因素,而多變的微氣象環(huán)境使功率預(yù)測(cè)變得更加復(fù)雜,傳統(tǒng)的預(yù)測(cè)方法在建模難度與預(yù)測(cè)精準(zhǔn)度上受到諸多限制。因此,全面了解和掌握先進(jìn)的光伏發(fā)電功率預(yù)測(cè)方法、利用人工智能算法實(shí)現(xiàn)更加精確的光伏發(fā)電功率預(yù)測(cè),是提升電力系統(tǒng)可靠性與經(jīng)濟(jì)性的有效解決方案[6]。
近年來(lái),國(guó)內(nèi)外學(xué)者通過(guò)不同算法建立模型,提出了多種光伏發(fā)電預(yù)測(cè)方法。劉家慶等[7]借助ARIMA(自回歸差分平均)方法和SVR(支持向量機(jī))算法,通過(guò)考慮功率修正建立模型從而預(yù)測(cè)光伏發(fā)電功率。李秉晨等[8]基于Kmeans 和CEEMD(完備總體經(jīng)驗(yàn)?zāi)B(tài)分解)、PE(排列熵),與LSTM(長(zhǎng)短期記憶)神經(jīng)網(wǎng)絡(luò)結(jié)合建立了用于光伏發(fā)電功率預(yù)測(cè)的模型。劉國(guó)海等[9]提出了一種結(jié)合注意力機(jī)制與GRU(門(mén)控循環(huán)單元)的Attention-GRU 短期光伏發(fā)電功率預(yù)測(cè)模型。A.I.Salamanis 等[10]提出了一個(gè)綜合的基準(zhǔn)框架,用于多步驟短期光伏發(fā)電預(yù)測(cè)的分析型、數(shù)據(jù)型和混合型模型。A.A.H.Lateko 等[11]提出了一種基于堆疊集成模型的提前一天到三天的光伏功率預(yù)測(cè)方法。C.C.Liu 等[12]根據(jù)預(yù)測(cè)過(guò)程、需求、時(shí)間和空間尺度對(duì)預(yù)測(cè)方法進(jìn)行分類,羅列出了合適的評(píng)價(jià)指標(biāo)。以上算法中,ARIMA等方法對(duì)于非線性時(shí)序的預(yù)測(cè)效果較差,而LSTM、GRU算法在模型訓(xùn)練過(guò)程中有較多超參數(shù)需要考慮,都不能對(duì)文字標(biāo)簽進(jìn)行處理。
本文提出了一種基于CatBoost 算法的短期輸出功率預(yù)測(cè)模型,該方法對(duì)于類別型特征有較好的識(shí)別能力,且降低了對(duì)超參數(shù)的要求。結(jié)合時(shí)間特征、歷史光伏功率特征和氣象因素特征對(duì)未來(lái)的光伏發(fā)電功率進(jìn)行預(yù)測(cè),同時(shí)采用SHAP(SHaplay 加法解釋)方法對(duì)所構(gòu)造的特征進(jìn)行篩選,進(jìn)一步提高了光伏發(fā)電功率預(yù)測(cè)精度。最后通過(guò)實(shí)例驗(yàn)證了所提模型在光伏發(fā)電短期預(yù)測(cè)中的優(yōu)越性和可靠性。
常用的短期預(yù)測(cè)方法大致可分為線性預(yù)測(cè)法、非線性預(yù)測(cè)法和綜合預(yù)測(cè)法[13]。
1)線性預(yù)測(cè)法通過(guò)結(jié)合歷史氣象數(shù)據(jù)與歷史輸出功率數(shù)據(jù)來(lái)預(yù)測(cè)光伏發(fā)電功率。目前大多采用ARMA(自回歸移動(dòng)平均)、ARIMA、ARIMAX(擴(kuò)展的自回歸移動(dòng)平均)3種方法。
2)受氣象因素的影響,光伏發(fā)電功率不穩(wěn)定,為提升預(yù)測(cè)的精度,可以采用非線性預(yù)測(cè)法。首先通過(guò)對(duì)外界影響因素與光伏發(fā)電功率的分析,建立非線性模型,進(jìn)而進(jìn)行光伏發(fā)電功率預(yù)測(cè)[14]。
3)綜合預(yù)測(cè)法是將非線性預(yù)測(cè)法與線性預(yù)測(cè)法相結(jié)合產(chǎn)生的預(yù)測(cè)方法。與單一預(yù)測(cè)方法相比更為復(fù)雜,但預(yù)測(cè)精度也隨之提升。
目前,為實(shí)現(xiàn)短期光伏發(fā)電的精確預(yù)測(cè),提出了時(shí)間序列法、回歸分析法、SVR、模糊預(yù)測(cè)法、人工神經(jīng)網(wǎng)絡(luò)等。諸多預(yù)測(cè)方法具有很好的預(yù)測(cè)精度,但因有過(guò)多的超參數(shù)調(diào)優(yōu),并且數(shù)據(jù)預(yù)處理過(guò)程中類別變量處理方式較為復(fù)雜,容易降低訓(xùn)練速度,影響預(yù)測(cè)效果。
另外,考慮到氣象因素與突發(fā)事件對(duì)光伏功率預(yù)測(cè)精度的影響,本文在前期有針對(duì)性地收集了光伏電站附近的數(shù)值氣象預(yù)報(bào)數(shù)據(jù)、天氣實(shí)況數(shù)據(jù)、光伏電站機(jī)組特性數(shù)據(jù)、檢修計(jì)劃數(shù)據(jù)、光伏電站出力數(shù)據(jù)等多種類型數(shù)據(jù),訓(xùn)練AI(人工智能)預(yù)測(cè)模型,預(yù)測(cè)未來(lái)光伏發(fā)電出力[2]。由于光伏發(fā)電功率具有不平穩(wěn)、非線性特征,且外圍數(shù)據(jù)中存在較多類別變量(如天氣類型等數(shù)據(jù)),因此本文嘗試采用CatBoost 算法建立光電預(yù)測(cè)模型[15]。
1.1.1 CatBoost算法
CatBoost 和XGBoost、LightGBM 是GBDT(梯度提升樹(shù))的主要算法。相比于傳統(tǒng)的GBDT,XGBoost算法得到的模型更加簡(jiǎn)單,LightGBM算法的訓(xùn)練速度更快,而CatBoost 算法的準(zhǔn)確率更高。
CatBoost 算法的機(jī)器學(xué)習(xí)參數(shù)少,支持類別變量且精度高,在處理類別數(shù)據(jù)方面具有顯著優(yōu)勢(shì),與其他算法相比,準(zhǔn)確性更好并提高了泛化能力[16]。在光伏發(fā)電功率的預(yù)測(cè)過(guò)程中,可能會(huì)出現(xiàn)梯度偏差及預(yù)測(cè)偏移,從而導(dǎo)致過(guò)擬合問(wèn)題,而CatBoost 恰好能夠有效解決該問(wèn)題。此外,CatBoost算法減少了對(duì)廣泛的超參數(shù)調(diào)整的需求,具有很高的魯棒性。與XGBoost、LightGBM 相比,CatBoost具有以下特點(diǎn):
1)插入了能夠自動(dòng)將類別型特征處理為數(shù)值型特征的新算法。
2)通過(guò)組合類別特征處理不同特征的聯(lián)系,豐富了特征維度。
3)采用排序提升處理數(shù)據(jù)集的噪聲點(diǎn),解決了預(yù)測(cè)偏移的問(wèn)題。
4)采用完全對(duì)稱樹(shù)作為基模型,避免了過(guò)擬合問(wèn)題,增加了可靠性,加快了預(yù)測(cè)進(jìn)程。
1.1.2 CatBoost特征處理
GBDT 中存在離散的特征(類別型特征),此類特征在算法輸入時(shí)需要經(jīng)過(guò)處理。最簡(jiǎn)單的處理方法是Greedy TS,但Greedy TS采用類別特征對(duì)應(yīng)標(biāo)簽的平均值來(lái)替換離散特征,當(dāng)訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集的數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)分布不一致時(shí),標(biāo)簽所替代的離散特征丟失了信息,會(huì)導(dǎo)致條件偏移。由此提出采用CatBoost 算法對(duì)Greedy TS進(jìn)行改進(jìn)[17]。
通過(guò)添加先驗(yàn)分布項(xiàng),使得數(shù)據(jù)分布免受噪聲和低頻的影響,即打亂數(shù)據(jù)集D={(xi.yi)}i=1,…,n順序,打亂后的序列是σ=(σ1,…,σn),遍歷σ1到σn,用遍歷到的前p個(gè)記錄計(jì)算類別型特征的數(shù)值,具體公式如下:
式中:p為添加的先驗(yàn)項(xiàng);a為權(quán)重系數(shù)。
1.1.3 參數(shù)優(yōu)化
在參數(shù)優(yōu)化方面有多種選擇,最常用的是Grid Search和它的一些改進(jìn)方法。
1)Grid Search
GSA(網(wǎng)格搜索算法)是一種窮舉搜索,它對(duì)輸入到搜索空間的每個(gè)超參數(shù)進(jìn)行組合。將各個(gè)參數(shù)的可能取值進(jìn)行排列組合,列出所有可能的組合“網(wǎng)格”。通過(guò)循環(huán)遍歷,嘗試每一種組合,最后選擇表現(xiàn)最好的參數(shù)組合為每個(gè)組合創(chuàng)建一個(gè)模型并進(jìn)行比較。網(wǎng)格搜索是目前比較常見(jiàn)的超參數(shù)優(yōu)化算法,其缺點(diǎn)也很明顯:確定最優(yōu)超參數(shù)是一個(gè)NP-Hard 問(wèn)題,因?yàn)樾枰幚淼氖浅瑓?shù)的組合,所以效率低下。
2)Optuna超參數(shù)優(yōu)化算法
由于Grid Search 沒(méi)有包含任何結(jié)構(gòu)化的方法來(lái)搜索最優(yōu)超參數(shù)集,因此考慮采用新算法對(duì)其進(jìn)行優(yōu)化,以提高效率。Optuna 超參數(shù)調(diào)優(yōu)算法是基于貝葉斯優(yōu)化算法中的樹(shù)形帕曾優(yōu)化器(Parzen)對(duì)模型參數(shù)進(jìn)行優(yōu)化的方法。
Optuna 可以通過(guò)不斷試錯(cuò)的方法找到最好表現(xiàn)的最優(yōu)超參數(shù)值,具有以下主要特征:可實(shí)現(xiàn)分布式并行優(yōu)化;可修剪無(wú)希望調(diào)優(yōu)的試驗(yàn);通用于多個(gè)機(jī)器學(xué)習(xí)框架。
Optuna 主要基于運(yùn)行的歷史數(shù)據(jù)來(lái)確定接下來(lái)需要測(cè)試的超參數(shù)各值的組合?;谝延袛?shù)據(jù),選擇一些超參數(shù)組合區(qū)域并在該區(qū)域中進(jìn)行超參數(shù)搜索嘗試。隨著不斷獲取新的結(jié)果,它也將更新這一區(qū)域并繼續(xù)搜索。在不斷重復(fù)搜索、評(píng)價(jià)更新的過(guò)程中獲取表現(xiàn)更好的超參數(shù)。
Optuna 可以在很復(fù)雜的空間中實(shí)現(xiàn)超參數(shù)優(yōu)化;可以通過(guò)預(yù)測(cè)終止可能性較小的參數(shù)區(qū)間,把更多的算力用于可能性更高的區(qū)域以提高搜索效率。整體而言,這是一種基于改進(jìn)貝葉斯的試錯(cuò)算法,當(dāng)向某一區(qū)域嘗試得到的效果變差即損失不再減小時(shí)停止該區(qū)域的搜索,嘗試到錯(cuò)誤即淘汰,最后選出最優(yōu)的區(qū)域[18]。
通常來(lái)說(shuō),短期光伏預(yù)測(cè)需要考慮多種因素,根據(jù)這些因素提取相應(yīng)的特征作為模型的輸入,從而提高模型的預(yù)測(cè)精度。但如果模型考慮了過(guò)多不必要的特征,反而容易陷入過(guò)擬合,降低模型的準(zhǔn)確性;并且過(guò)多的特征也會(huì)導(dǎo)致模型變得更加復(fù)雜,在訓(xùn)練和預(yù)測(cè)時(shí)增加計(jì)算耗時(shí)。因此,本文提出利用SHAP 方法對(duì)模型進(jìn)行解釋,進(jìn)而得到各個(gè)特征重要性,以便在進(jìn)行特征選擇時(shí)剔除特征變量中不重要的特征。
1.2.1 SHAP
SHAP 以博弈論思想為基礎(chǔ),用于解釋復(fù)雜算法中某一個(gè)樣本各個(gè)特征對(duì)預(yù)測(cè)結(jié)果產(chǎn)生的影響。SHAP 通過(guò)特征的歸因值來(lái)解釋其對(duì)模型預(yù)測(cè)的重要性。歸因值為正,代表該特征對(duì)模型預(yù)測(cè)體現(xiàn)正向作用;反之則為負(fù)向作用。模型的預(yù)測(cè)值由模型預(yù)測(cè)的平均值和特征的歸因值相加得到[19]。
如圖1所示,根據(jù)不同特征對(duì)光伏預(yù)測(cè)影響程度的重要性自上而下排序,紅色代表歸因值的正向作用,藍(lán)色代表歸因值的負(fù)向作用。分析可知,歷史同時(shí)刻負(fù)荷、氣象數(shù)據(jù)中的動(dòng)量通量、長(zhǎng)波輻射通量、短波輻射通量、感熱通量、云量、空氣密度、2 m相對(duì)濕度、溫度的部分統(tǒng)計(jì)量是影響光伏預(yù)測(cè)性能比較重要的變量。
圖1 基于SHAP方法的特征重要性排序Fig.1 SHAP-based ranking of features by the dominance
1.2.2 時(shí)間特征
選擇合適的時(shí)間特征可提高預(yù)測(cè)的精度。由前文分析可知,光伏發(fā)電功率數(shù)據(jù)具有日、月、季節(jié)的周期特性。因此,本文創(chuàng)建了如表1所示的時(shí)間特征[20]。
表1 時(shí)間特征Table 1 Time characteristics
1.2.3 功率特征
短期光伏預(yù)測(cè)具有明顯的周期性規(guī)律,具體體現(xiàn)在:不同日相同采樣點(diǎn)間的相似性;不同日之間整體變化規(guī)律的相似性;不同周、月、季節(jié)的相似性。
同時(shí),受溫度等氣象因素的影響,光伏具有明顯的時(shí)滯特性。因此,本文構(gòu)建了如表2所示的光伏歷史數(shù)據(jù)相關(guān)特征。
表2 歷史發(fā)電功率特征Table 2 Historical generation power characteristics
1.2.4 氣象因素特征
利用氣象因素,采用更合理的數(shù)學(xué)模型與算法,可進(jìn)一步提高光伏預(yù)測(cè)精度,減小誤差。因此,選擇的氣象數(shù)據(jù)特征見(jiàn)表3。
表3 氣象因素特征Table 3 Characteristics of meteorological factors
開(kāi)展光伏發(fā)電功率預(yù)測(cè),首先要通過(guò)對(duì)現(xiàn)有的光伏歷史數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理和相關(guān)分析,尋找其在時(shí)序上的結(jié)構(gòu)性與規(guī)律性;同時(shí)分析外圍因素(如溫度、光照等天氣因素)對(duì)光伏發(fā)電功率預(yù)測(cè)的影響,利用特征工程建立相應(yīng)模型。預(yù)測(cè)流程如圖2所示,具體步驟如下:
圖2 預(yù)測(cè)流程Fig.2 Prediction flow
1)數(shù)據(jù)預(yù)處理:數(shù)據(jù)預(yù)處理是建立光伏發(fā)電功率預(yù)測(cè)模型的首要步驟。針對(duì)光伏以及相關(guān)的外圍數(shù)據(jù),本文考慮采用基于回歸的缺失值處理、異常檢測(cè)、魯棒統(tǒng)計(jì)方法等多種方法對(duì)歷史數(shù)據(jù)進(jìn)行預(yù)處理,建立較為完整的預(yù)測(cè)訓(xùn)練數(shù)據(jù)集,用于預(yù)測(cè)模型的訓(xùn)練。
2)功率曲線聚類:功率曲線統(tǒng)計(jì)的是多個(gè)光伏電站發(fā)電功率的總和。通常的聚類方式是根據(jù)日期屬性(如月、季節(jié)等)對(duì)數(shù)據(jù)集進(jìn)行劃分,即相似日方法。本文在實(shí)際數(shù)據(jù)預(yù)處理后,通過(guò)對(duì)數(shù)據(jù)特性的分析,結(jié)合額外因素進(jìn)行更有針對(duì)性的聚類,并在此基礎(chǔ)上構(gòu)造合適的統(tǒng)計(jì)特征。
3)歷史數(shù)據(jù)分析:歷史數(shù)據(jù)分析是建立光伏發(fā)電功率預(yù)測(cè)模型的必要條件。本文考慮采用時(shí)間序列分析、相關(guān)性分析等方法對(duì)光伏歷史數(shù)據(jù)及其外圍數(shù)據(jù)進(jìn)行分析。
4)特征工程:特征工程包括特征選擇、特征轉(zhuǎn)化、特征提取等。本文結(jié)合分析結(jié)果,針對(duì)光伏發(fā)電功率以及相關(guān)數(shù)據(jù),利用SHAP 分析方法進(jìn)行特征篩選。考慮在獲得數(shù)據(jù)后進(jìn)行詳細(xì)的探索性分析,進(jìn)而建立針對(duì)本文的功率預(yù)測(cè)特征集。特征集考慮的數(shù)據(jù)包括預(yù)測(cè)區(qū)域光伏歷史數(shù)據(jù)和天氣預(yù)報(bào)等數(shù)據(jù)。
5)模型訓(xùn)練:首先將數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)、測(cè)試數(shù)據(jù),其次訓(xùn)練數(shù)據(jù)細(xì)分為訓(xùn)練集和驗(yàn)證集,測(cè)試數(shù)據(jù)作為測(cè)試集。將所選擇的特征作為輸入,當(dāng)日光伏發(fā)電功率作為輸出,利用訓(xùn)練集訓(xùn)練模型,同時(shí)利用Optuna 方法優(yōu)化調(diào)整模型參數(shù),構(gòu)建最佳模型。
6)應(yīng)用:根據(jù)選擇的多維特征和訓(xùn)練好的模型對(duì)未來(lái)光伏發(fā)電功率進(jìn)行預(yù)測(cè)。
為衡量預(yù)測(cè)模型的性能優(yōu)劣,本文采用多種評(píng)判方式對(duì)模型預(yù)測(cè)精度進(jìn)行評(píng)估,主要評(píng)價(jià)指標(biāo)如式(2)—(5)所示[15,21-22]。
式中:yi為第i時(shí)刻的實(shí)際采集數(shù)據(jù);為第i時(shí)刻的預(yù)測(cè)數(shù)據(jù);n為預(yù)測(cè)值個(gè)數(shù);SMAE、SMSE、SRMSE、SR2分別表示光伏樣本數(shù)據(jù)的MAE(平均絕對(duì)誤差)、MSE(均方誤差)、RMSE(均方根誤差)、決定系數(shù)。
本文采用某光伏電站2019-01-01 T 00:00 至2020-12-31 T 23:45 的光伏發(fā)電功率數(shù)據(jù)進(jìn)行分析。該電站額定容量為2.41 MW,系統(tǒng)采樣頻率為每15 min一次,即一天96個(gè)點(diǎn)。選擇前80%數(shù)據(jù)為訓(xùn)練數(shù)據(jù),剩余20%數(shù)據(jù)為測(cè)試數(shù)據(jù)。
首先根據(jù)該光伏電站額定容量、擴(kuò)容信息、限電信息對(duì)其歷史發(fā)電數(shù)據(jù)進(jìn)行缺失值、異常值的數(shù)據(jù)預(yù)處理,依據(jù)該電站的額定容量、檢修信息、擴(kuò)容信息進(jìn)行標(biāo)幺化處理,標(biāo)幺化基值為可用功率,得到該電站的標(biāo)幺值(即歷史光伏發(fā)電功率與可用功率之比),這樣可有效避免因訓(xùn)練集時(shí)間跨度長(zhǎng)而變電站部分檢修或擴(kuò)容導(dǎo)致歷史光伏發(fā)電功率驟減、驟升,進(jìn)而影響預(yù)測(cè)精度。
選取處理后的部分光伏數(shù)據(jù)示于圖3??梢钥闯?,光伏發(fā)電功率具有很明顯的日周期特性[23]。
圖3 光伏發(fā)電功率時(shí)序圖Fig.3 Sequence diagram of PV generation power
太陽(yáng)輻照度是影響光伏電站發(fā)電功率的主要因素,具有以年、月、日為周期變化的特性,因此會(huì)對(duì)光伏發(fā)電功率帶來(lái)相應(yīng)的周期性變化。因此,本文根據(jù)月屬性對(duì)光伏歷史發(fā)電功率數(shù)據(jù)集進(jìn)行聚合分析,聚合結(jié)果如圖4所示。
圖4 光伏數(shù)據(jù)按月屬性聚合圖Fig.4 Diagram of monthly PV data aggregation
圖4 的x軸表示采樣點(diǎn),即00:00—24:00 每15 min 采樣一次,共96 個(gè)采樣點(diǎn)。12 條曲線分別是1—12月的月均值曲線。從圖4可以看出,光伏發(fā)電功率具有明顯的日周期特性,出力大致集中在一天中的8:00—16:00,并在12:00—14:00 達(dá)到頂峰,太陽(yáng)落山后光伏出力值為0;從每條曲線非0值寬度可以看出,光伏日發(fā)電時(shí)長(zhǎng)明顯隨著日照時(shí)間長(zhǎng)短而改變,冬天最短,夏天最長(zhǎng);從每條曲線高度可以看出,光伏發(fā)電功率大小明顯隨著月份、季節(jié)變化,冬天較低,夏天較高。因此光伏發(fā)電功率具有明顯的日、月、季節(jié)周期性特征。
根據(jù)1.2 節(jié)所選擇的特征得到如圖5 所示預(yù)測(cè)模型。通過(guò)監(jiān)測(cè)歷史光伏發(fā)電功率、天氣數(shù)據(jù)、時(shí)間特征,結(jié)合當(dāng)天天氣數(shù)據(jù)、時(shí)間特征以及月度、年度光伏發(fā)電功率特征數(shù)據(jù),利用CatBoost算法預(yù)測(cè)當(dāng)日光伏發(fā)電功率。
圖5 光伏預(yù)測(cè)模型結(jié)構(gòu)Fig.5 PV prediction model structure
2.3.1 基于CatBoost算法的預(yù)測(cè)模型優(yōu)勢(shì)
圖6是2021年6月某日光伏預(yù)測(cè)曲線,其中曲線分別是原始光伏曲線和基于DTR(決策樹(shù)回歸)、KNN(K 最鄰近)、GBDT、LightGBM、CatBoost 算法的預(yù)測(cè)結(jié)果,均是利用Optuna 方法進(jìn)行超參數(shù)調(diào)優(yōu)后的結(jié)果。從圖6可以看出,所有模型的預(yù)測(cè)曲線與原始時(shí)序曲線變化趨勢(shì)均保持一致,但基于CatBoost 算法的模型預(yù)測(cè)結(jié)果更貼近真實(shí)曲線。
圖6 光伏發(fā)電功率預(yù)測(cè)曲線Fig.6 Diagram of prediction curves of PV generation power
表4為光伏預(yù)測(cè)評(píng)價(jià)指標(biāo)??梢钥闯觯疚乃岢龅幕贑atBoost 算法的光伏預(yù)測(cè)模型的SRMSE分別比DTR、KNN、GBDT、LightGBM 下降了26.66%、7.5%、22.14%、20%,說(shuō)明在不同的評(píng)價(jià)指標(biāo)下,基于CatBoost 算法的模型預(yù)測(cè)精度優(yōu)于其他模型,CatBoost 用于光伏發(fā)電功率預(yù)測(cè)具有很高的精度,適用于真實(shí)數(shù)據(jù)預(yù)測(cè)。
表4 不同算法的光伏預(yù)測(cè)誤差評(píng)價(jià)指標(biāo)對(duì)比Table 4 Comparison of PV prediction error evaluation indicators of different algorithms
2.3.2 基于CatBoost算法的模型預(yù)測(cè)性能
為了驗(yàn)證本文所構(gòu)建的特征的優(yōu)異性和有效性,選取以下5種光伏模型進(jìn)行驗(yàn)證:模型1,考慮近2 天光伏歷史數(shù)據(jù)的CatBoost 算法模型;模型2,考慮近7天光伏歷史數(shù)據(jù)的CatBoost算法模型;模型3,在模型2基礎(chǔ)上增加相關(guān)時(shí)間特性及光伏統(tǒng)計(jì)特性的CatBoost 模型;模型4,在模型3上增加天氣特征的算法CatBoost模型;模型5,對(duì)模型4中特征先根據(jù)SHAP值篩選再利用CatBoost預(yù)測(cè)的模型。
圖7為采用5種模型得到的2021年6月某日光伏預(yù)測(cè)曲線與原始光伏曲線的對(duì)比。可以看出,所有模型的預(yù)測(cè)曲線與原始時(shí)序曲線變化趨勢(shì)保持一致,但模型5的結(jié)果更貼近真實(shí)曲線。
圖7 光伏發(fā)電功率預(yù)測(cè)曲線Fig.7 Prediction curves of PV generation power
表5 列出了不同類型的光伏預(yù)測(cè)誤差評(píng)價(jià)指標(biāo),可以看出,模型5 的SRMSE比模型1—4 分別降低了38.11%、32.15%、19.86%、19.00%,說(shuō)明本文提出的模型誤差評(píng)價(jià)指標(biāo)更優(yōu),所采用的CatBoost 算法具有很好的預(yù)測(cè)性能,且提出的先根據(jù)SHAP 值特征篩選再利用CatBoost 預(yù)測(cè)的方法有效提高了預(yù)測(cè)精度,適用于真實(shí)數(shù)據(jù)預(yù)測(cè)。
表5 不同類型的光伏預(yù)測(cè)誤差評(píng)價(jià)指標(biāo)對(duì)比Table 5 Comparison of different evaluation indicators for PV prediction errors
經(jīng)對(duì)比分析,本文提出的基于CatBoost算法、融合多維特征的模型具有很好的預(yù)測(cè)性能,預(yù)測(cè)精度較高。本文提出的光伏預(yù)測(cè)模型SRMSE為157.45 MW,結(jié)合案例中光伏額定容量2.41 MW分析知,SRMSE控制在額定容量6.5%左右,而前期調(diào)研時(shí)了解到國(guó)內(nèi)外同類光伏預(yù)測(cè)項(xiàng)目的SRMSE與額定容量的比值約為10%,從而說(shuō)明本文所提光伏預(yù)測(cè)模型的優(yōu)越性。
在目前構(gòu)造以新能源為主體的新型電力系統(tǒng)的大背景下,更加準(zhǔn)確的光伏發(fā)電功率預(yù)測(cè)技術(shù)成為電網(wǎng)規(guī)劃和電力調(diào)度不可或缺的一部分,本文提出了一種基于CatBoost 算法、融合多維特征的預(yù)測(cè)模型。
1)該模型通過(guò)特征之間的聯(lián)系,使用組合類別特征,豐富了特征維度。CatBoost 還解決了梯度偏差以及預(yù)測(cè)偏移的問(wèn)題。
2)利用SHAP 方法進(jìn)行特征分析篩選,論證了結(jié)合光伏發(fā)電原理與發(fā)電功率特征分析結(jié)果的特征篩選對(duì)預(yù)測(cè)精度提升的重要性。
3)通過(guò)在同樣特征上基于不同的機(jī)器學(xué)習(xí)算法模型的預(yù)測(cè)精度的對(duì)比,證實(shí)了基于CatBoost算法的模型具有很好的預(yù)測(cè)性能。
在進(jìn)一步提升光伏功率預(yù)測(cè)精準(zhǔn)度的探索中,有兩個(gè)方向值得重點(diǎn)關(guān)注:一是考慮到光伏出力本身的波動(dòng)性與不確定性,加入實(shí)時(shí)校正模塊,使得在歷史數(shù)據(jù)中訓(xùn)練的模型可以在線自我調(diào)節(jié),更適合當(dāng)前的氣象情況;二是可嘗試多種模型的組合,使得功率預(yù)測(cè)能兼顧到各個(gè)模型在不同時(shí)間段、不同特征上的局部?jī)?yōu)勢(shì),最終得到整體最優(yōu)的模型和最精準(zhǔn)的預(yù)測(cè)結(jié)果。