劉振路,郭軍紅,李 薇?,賈宏濤,陳 卓
1) 華北電力大學環(huán)境科學與工程學院,北京 102206 2) 華北電力大學資源環(huán)境系統(tǒng)優(yōu)化教育部重點實驗室,北京 102206
太陽能作為一種清潔能源,在我國實現“雙碳”目標的道路上發(fā)揮著重要作用. 我國有著豐富的太陽能資源,年太陽輻射總量大于5×103MJ?m-2的地區(qū)大約占全國總面積的2/3,開發(fā)潛力巨大[1-2].與光伏發(fā)電相比,光熱發(fā)電由于配備了儲熱系統(tǒng),使得出力更加穩(wěn)定[3],有著可持續(xù)發(fā)電、移峰填谷的潛力,從而在太陽能發(fā)電技術中的占比逐漸增加[4],大力發(fā)展光熱發(fā)電可以加快我國西部開發(fā)進程、大幅度降低可再生能源棄電率[5],但氣象因素、地理因素等外界條件會對光熱電站的出力產生影響,使得光熱發(fā)電具有一定的不確定性和間歇性,進而導致并網時會增加電網運行的不確定性,造成不利影響. 提高光熱電站出力預測的精準程度,可以對上述風險進行有效規(guī)避.
目前,常見的太陽能出力預測手段有物理模型法,如李錦鍵[6]提出了一種結合靜態(tài)模型的光熱儲能電站出力預測方法,首先建立起太陽輻射的預測模型,之后將預測結果帶入靜態(tài)數學模型得到光熱發(fā)電預測值,并與仿真結果對比,驗證了預測模型的準確度. 但此方法對電站信息和氣象因素信息要求較高,模型泛化能力較差,所以國內外許多學者使用支持向量機、神經網絡等統(tǒng)計分析方法對太陽能出力預測進行了研究. 如張華彬等[7]將加權氣象因素作為最小二乘支持向量機的輸入,對不同的季節(jié)類型和天氣類型分別建立預測模型,經實例驗證表明模型預測精度較高;李光明等[8]使用BP 神經網絡預測模型,分別以電站實測數據和數值天氣預報數據對模型進行訓練,結果表明以實測數據訓練的模型擁有更高的精度;姜鐵騮等[9]通過對影響光熱發(fā)電準確性因素進行分析,使用一種多跳無線網絡Ad Hoc 構建了光熱短期出力預測模型,結果表明該模型精度較好并具有良好的天氣適應能力;Wang 等[10]根據太陽輻射特性及其光學和熱電發(fā)電技術,通過粒子群算法求解灰色模型參數,提出了一種基于G(1,1)優(yōu)化的光熱預測模型,并利用該預測模型得到了未來幾年的光熱發(fā)電量. 為解決梯度消失和梯度爆炸發(fā)展而來的長短期記憶(Long short-term memory,LSTM)神經網絡預測模型在太陽能出力預測方面表現出了優(yōu)異性能,宋紹劍和李博涵[11]使用LSTM神經網絡構建了一種短期出力預測模型,并將預測結果與BP 神經網絡和遞歸神經網絡預測結果進行對比,證明了LSTM 神經網絡模型的具有較高的精確度;王琛淇等[12]將隨機森林(Random forest,RF)算法與LSTM 神經網絡相結合,使用電站實測數據對組合模型性能進行驗證,結果表明,所提方法提高了預測的準確性;李嵩山等[13]使用卷積神經網絡和LSTM 網絡搭建了一種光熱功率預測模型,通過提取主要氣象因素,達到了對熱功率進行精準預測的效果;李清等[14]將注意力機制與LSTM神經網絡模型結合,以光伏功率、光伏組件溫度和環(huán)境濕度訓練模型,發(fā)現相比傳統(tǒng)預測算法該組合模型具有更好的預測準確度. 此外,對氣象數據采取一些處理手段可有效增加模型預測精度,如陳中和車松陽[15]首先使用云模型建立隸屬度函數劃分數據,之后建立云規(guī)則發(fā)生器對出力數據進行預測,實現了模型的精確化預測. 聚類分析作為一種數據處理方法,已被應用到不同類型的預測模型上[16-17],在太陽能出力預測方面,余洋等[18]構建了近鄰傳播聚類與長短期記憶神經網絡結合的預測模型,預測了不同發(fā)電類型下美國加利福尼亞州光熱發(fā)電系統(tǒng)的發(fā)電量,從而提高了光熱預測模型精度;劉興霖等[19]使用K 均值聚類算法將數據劃分為不同天氣類型,基于LSTM 神經網絡建立出力預測模型,實驗結果表明,與未經過聚類分析的預測結果相比,研究所提模型的預測結果精確度在一定程度上得到了提高.
但上述研究中,對于光熱電站出力預測模型的研究大多以太陽輻射、溫度作為輸入,未考慮在不同情景下其他氣象因素對模型預測精度的影響以及預測模型在不同情景下的適用度,從而對最終預測結果產生了一定的影響. 針對此問題,本文提出了一種基于模糊C 均值聚類(Fuzzy C-means clustering,FCM)改進的長短期記憶神經網絡預測模型,對不同聚類類型下的出力數據以及溫度、地表向下太陽輻射、總云量等多種氣象因素進行關聯度分析,確定不同類型下模型的輸入,分別構建相應的預測模型,提高了模型在不同情景下的適用性以及對光熱電站出力預測的精度.
本文選取青海省某光熱電站作為研究對象.青海省太陽能資源約占全國11%,光熱資源居全國第二,太陽能利用價值高且擁有大量可開發(fā)的戈壁、沙漠、荒漠. 選取實驗數據為該電站2021 年10 月1 日至12 月31 日的小時數據,通過三次樣條插值法對實驗數據中的異常值進行修正.之后對修正數據進行劃分,使用2021 年10 月1 日至12 月20 日的數據訓練并驗證模型,將2021 年12 月21 日至12 月31 日的數據作為測試集,用來測試模型的準確性.
研究中的氣象因素包括溫度(T,℃)、地表向下太陽輻射(SSRD,J?m-2)、風速(WS,m?s-1)、總云量(TCC)、表面壓力(SP,Pa)五大氣象因素,這些氣象資料來自ERA5 再分析資料,空間分辨率為0.25°×0.25°,是歐洲中期天氣預報中心(European centre for medium-range weather forecasts,ECMWF)對全球氣候的第五代大氣再分析產品,目前已有多項研究[20-24]證明其在我國的氣候模擬和評估中具有良好的適用性.
1.2.1 模糊C 均值聚類分析
FCM 是一種由Dunn[25]提出的聚類分析方法.相比于K-means 等硬聚類分析,FCM 引入了模糊理論,它根據樣本與聚類中心的相似程度,按照每組數據對聚類中心隸屬度組成的隸屬度矩陣來確定每組數據歸屬于某一類的概率,從而得到更加靈活的聚類結果[26].
模糊C 均值聚類通過使目標函數取得最小值從而得到聚類中心. 聚類的過程就是不斷迭代更新隸屬度矩陣U和聚類中心c,使目標函數取得最小值的過程. 具體步驟如下:
定義目標函數J:
式中:N表示樣本數;C表示聚類中心數;uij表示某一樣本對聚類中心的隸屬度;m表示模糊指數,1 步驟1:初始化隸屬度矩陣U0.U0為uij組成的初始化隸屬度矩陣,表示每個樣本歸屬于每個類的概率. 每個樣本對于每個類的隸屬度之和為1,越接近于1 表示隸屬度越高,每個樣本點歸屬于隸屬度最大的一類. 步驟2:初始化聚類中心c0. 步驟3:迭代聚類. 終止條件: 式中:μ表示迭代次數;ε表示誤差閾值. 從式(2)與式(3)中可以看出uij與ci是相互關聯的,從初始隸屬度矩陣U0和初始聚類中心c0開始迭代,不斷更新U與c,目標函數J也在隨之變化,達到終止條件后停止迭代,得到最終的U、c以及各樣本的聚類結果. 1.2.2 長短期記憶神經網絡 長短期記憶神經網絡是Hochreiter 和Schmidhuber[27]提出的一種循環(huán)神經網絡. 如圖1 所示,當前細胞的輸入包括新的輸入信息以及由上一個記憶細胞傳遞的信息,輸出包括當前細胞的狀態(tài)以及預測值. 圖1 LSTM 的cell 示意圖Fig.1 Cell diagram of LSTM 假設t時刻模型輸入變量為yt,則數據的處理過程可表示為: 式(5)~(10)中,σ為sigmoid 激活函數,tanh 為雙曲正切函數,It為t時刻輸入門,Ft為t時刻遺忘門,zt為臨時記憶細胞狀態(tài),Zt為t時刻記憶細胞狀態(tài),Zt-1為t-1 時刻記憶細胞狀態(tài),Ot為t時刻輸出門,ht為t時刻細胞輸出,ht-1為t-1 時刻細胞輸出,WI、VI、WF、VF、Wz、Vz、WO、VO分 別 為ht-1和yt在輸入門、遺忘門、輸入細胞狀態(tài)、輸出門的權重矩陣,bI、bF、bz、bO為輸入門、遺忘門、輸入細胞狀態(tài)、輸出門的偏置向量. LSTM 神經網絡模型中,每個單元包括輸入層、隱藏層和輸出層. 隱藏層決定保留多少上一時刻的記憶細胞狀態(tài),t時刻的樣本yt及上一時刻的輸出信息ht-1輸入后,經sigmoid 函數輸出信號Ft后與Zt-1相乘;在輸入層中,經過tanh 函數的yt與ht-1形成當前時刻的臨時記憶細胞狀態(tài)zt,輸入信息經過sigmoid 函數后輸出It,用來決定需要更新的信息;樣本在經過隱藏層和輸入層后通過式(8)得到當前時刻的細胞狀態(tài)Zt;輸入的yt、ht-1與Zt經過輸出門后得到當前時刻的輸出ht. 每經過一次LSTM 細胞,記憶細胞狀態(tài)就會更新一次,使得更新信息的權重不斷變化,從而避免了梯度消失和梯度膨脹的問題[28]. 1.2.3 評價指標 使用戴維森堡丁指數(Davies-bouldin index,DBI)和輪廓系數(Silhouette coefficient,SC)來評價聚類結果[18]. 其中DBI 包含了類內距離和類間距離,DBI值越小,聚類結果越好. DBI 計算公式為: 式中:n表示類別數;Si、Sj分別表示類別i和類別j中所有的點到中心的平均距離;ci、cj分別表示第i個和第j個聚類中心. SC 也是一種評價聚類結果的常用指標,SC 越大,聚類效果越好. SC 計算公式為: 式中:ai表示第i個樣本與類內其他樣本之間的平均距離;di表示第i個樣本與其他類別中距離最近的類別內樣本的平均距離;Li表示單個樣本的輪廓系數;Nk表示第k類的樣本個數. 使用均方根誤差(Root mean square error,RMSE)、平均絕對誤差(Mean absolute error,MAE)對模型預測結果進行評價. 式中:N表示樣 本 個數; α表示實測值; β表示 預測值. 本文所構建的FCM–LSTM 預測模型流程圖如圖2 所示. 首先,使用三次樣條插值法對原始數據進行預處理,之后使用FCM 算法進行聚類分析,將天氣數據劃分為不同類型,并通過計算不同類型下各因子之間的皮爾遜相關系數來確定不同類型模型的輸入,得到對應預測模型;最后使用測試集對模型進行準確性測試. 圖2 FCM–LSTM 模型流程圖Fig.2 Flowchart of the FCM–LSTM model 對2021 年10 月1 日至12 月20 日的氣象數據進行FCM 聚類分析,當聚類個數從2 增加到8 時,DBI 與SC 的變化趨勢如圖3 所示. 從圖中可以看出,聚類個數為3 時,DBI 最小,SC 最大,聚類效果最好. 因此,將樣本分為Ⅰ、Ⅱ、Ⅲ三種類型. 圖3 DBI、SC 的變化趨勢Fig.3 Trends of DBI and SC 為進一步確定不同類型下模型的輸入,通過皮爾遜相關系數計算出各類型下出力和氣象數據中各因子之間的相關性,結果如圖4 所示. 從圖中可以看出,因子間的正相關性較大時,對應色塊呈現出較深的紅色,負相關性較大時,色塊呈現出較深的藍色. 根據各類型因子間的相關性確定對應模型的輸入氣象因素,其中將溫度、地表向下太陽輻射作為類型Ⅰ的氣象輸入,類型Ⅱ的氣象輸入為溫度、地表向下太陽輻射、總云量以及表面壓力,溫度、地表向下太陽輻射、總云量為類型Ⅲ的氣象輸入. 圖4 不同類型下各因子間的相關性Fig.4 Correlation between factors under different types 通過圖4 確定各類型預測模型的輸入后,對已分類的2021 年10 月1 日至12 月20 日的出力和氣象數據進行標準化,使用標準化的分類數據分別訓練驗證三種不同的預測模型. FCM–LSTM 預測模型基于Python 3.7.4 環(huán)境,使用pandas 庫對實驗數據進行處理,使用Keras 深度學習框架搭建預測模型,使用反向傳播算法作為解法器來求解模型參數. 超參數的設置對模型的預測精度起著關鍵作用,使用網格搜索和交叉驗證(Grid Search CV),確定各類型預測模型的輸入維度(Input dimension)、批大?。˙atch_size)、迭代次數(Epochs)、優(yōu)化器(Optimizer),最終結果如表1 所示. 表1 預測模型參數信息Table 1 Parameters of the prediction models 為驗證所提預測模型的準確性,選取LSTM神經網絡模型、BP 神經網絡模型、支持向量機(Support vector machines,SVM)模型、隨機森林模型進行對比. 由圖4 可以得到四種對比模型的輸入氣象因素為溫度、地表向下太陽輻射、總云量、表面壓力. 使用與FCM–LSTM 模型相同的方法對四種對比模型進行超參數優(yōu)化,結果如表2 所示. 表2 對比模型參數信息Table 2 Parameters of the compared models 通過計算測試集各樣本與三個聚類中心間的隸屬度,根據隸屬度的不同來確定各個樣本的所屬類別,隸屬度計算結果如圖5 所示. 使用構建的FCM–LSTM 預測模型分別對三種類型下的測試數據進行預測分析,并將預測結果與對比模型的預測結果進行比較. 圖5 測試集隸屬度Fig.5 Membership degree of the test set 五種模型的預測結果如圖6 所示,整體來看,各模型均能大致預測出實際出力的趨勢,其中在波谷時段各模型的預測結果差別較小,在波峰時段BP 神經網絡模型、RF 模型和SVM 模型的預測結果偏差較大;從局部來看,FCM–LSTM 和LSTM兩種模型的擬合度更高,RF 模型可以擬合出波峰處的大致變化趨勢,但預測結果偏差較大,其他兩種模型無法預測出波峰處的細節(jié)變化. 綜上,FCM–LSTM 模型與LSTM 神經網絡模型可以在一定程度上預測出實際出力曲線的變化,其中前者更加貼合真實值,這表明使用FCM 聚類分析對數據進行分類是一種提高模型預測性能的有效方法. 圖7 表示各時刻五種模型預測結果與實際值間的絕對誤差,從圖中可以看出FCM–LSTM 模型誤差最小,誤差曲線與圖中虛線最為接近,LSTM神經網絡模型在個別時刻處的誤差較大,其他三種模型的誤差明顯大于FCM–LSTM、LSTM 兩種模型,波峰時段大部分誤差值均在5 MW 以上,其中SVM 模型預測結果誤差最大,在某些時刻處的誤差值超過了10 MW. 圖7 五種模型的預測誤差Fig.7 Prediction errors of the five models 表3 為五種模型預測結果的均方根誤差和平均絕對誤差. 從表中可以看出,FCM–LSTM 模型擬合程度最好,預測精度明顯優(yōu)于其他兩種模型.FCM–LSTM 預測模型與其他模型相比,在RMSE方面降低了30%~44%;在MAE 方面降低了30%左右. 表3 的結果與圖6、圖7 的分析相一致,進一步證明了FCM–LSTM 模型的有效性和優(yōu)越性. 表3 五種模型的評價指標Table 3 Evaluation index of the five models (1)針對短期光熱出力預測問題,本研究提出了一種FCM–LSTM 預測模型,首先使用三次樣條插值法對實驗數據進行預處理,然后使用FCM 聚類算法對數據進行聚類分析,實現了對不同類型實驗數據的劃分,之后根據各因子間的相關系數確定不同聚類類型下預測模型的輸入變量,最后構建出不同類型下的預測模型,并測試了模型的準確度. (2)采用FCM 聚類算法與相關性分析,得到不同類型下各因子間的相關系數,確定不同類型預測模型的輸入變量,充分考慮了數據間的復雜關系,提高了模型的預測精度. 通過與多種對比模型的預測結果進行比較分析,發(fā)現FCM–LSTM 模型的預測精度得到了明顯提高,證明了所提方法可以有效提高光熱出力預測精度. (3)雖然本文對光熱出力預測進行了改進,但從實驗過程來看,研究可用的樣本仍不充分,在一定程度上影響了模型的訓練結果;其次,對氣象數據進行分析時,采用的聚類分析方法的不同可能會對最終的預測精度造成影響. 因此,未來研究將通過增加樣本容量進行模型訓練,進而提高預測模型的精度和普適性;另一方面,未來將通過對比不同的聚類方法和評價指標,優(yōu)化影響因素的聚類結果,實現預測模型精確度的進一步提升.2 實驗結果
2.1 預測模型輸入確定
2.2 預測模型構建
3 討論
3.1 預測結果對比
3.2 預測誤差對比
4 結論