余 洋,陳 庚,余佳磊,李連坪,師進文,李明濤
(1.中國平煤神馬集團尼龍科技有限公司,河南 平頂山 467000;2.西安交通大學動力工程多相流國家重點實驗室國際可再生能源研究中心,陜西 西安 710049)
太陽能光熱發(fā)電技術清潔高效,易于推廣,市場潛力巨大[1]。據(jù)中國氣象科學研究院數(shù)據(jù),中國不同地區(qū)每年總太陽能輻射量最低為3 340 MJ/m2,最高為5 852 MJ/m2。豐富的資源保障了中國進行太陽能開發(fā)利用的廣闊前景。然而,光熱發(fā)電受天氣因素影響具有明顯的間歇性和波動性,這種特性在發(fā)電系統(tǒng)并網(wǎng)后,會對電網(wǎng)的穩(wěn)定性帶來沖擊。對光熱電站的并網(wǎng)電量(簡稱發(fā)電量)進行預測,有助于電網(wǎng)提前制定調(diào)度計劃,有效減輕光熱發(fā)電并網(wǎng)造成的不利影響[2-4]。
在太陽能電站發(fā)電量預測方面,當前國內(nèi)外研究多聚焦于氣象參數(shù)的變化預測及發(fā)電量與氣象參數(shù)的聯(lián)系[5-7]。Voyant 等人[8]將太陽能預測方法分為傳統(tǒng)的物理模型預測方法和機器學習預測方法。其中物理模型預測方法包括間接預測天氣的外推法[9]以及利用數(shù)值天氣預報(NWP)[10]進行分析的數(shù)值天氣預報模型法;機器學習預測方法主要有人工神經(jīng)網(wǎng)絡(ANN)、差分自回歸移動平均模型(ARIMA)等[1]時序數(shù)據(jù)連續(xù)預測方法。外推法主要是根據(jù)歷史數(shù)據(jù)尋找數(shù)據(jù)間的聯(lián)系與規(guī)律,包含太陽輻照度的預測、天氣的預測等。Yang 等人[11]利用回歸模型對光伏發(fā)電數(shù)據(jù)進行統(tǒng)計分析,獲得未來1 h 的溫度、降水概率和太陽輻照度,最后再運用模糊推理方法對發(fā)電量進行精確預測。Cao 等人[12]針對太陽總輻照度的影響因子,利用相關系數(shù)法對太陽輻照度影響進行排序得出主要影響因子,再利用折現(xiàn)系數(shù)法修正偏差,改進輻照度的預測方法。數(shù)值天氣模型法是根據(jù)數(shù)值天氣預報的情況,將其直接作為輸入?yún)?shù)再結合統(tǒng)計學對發(fā)電量進行建模和預測[13-14]。這些方法都是基于太陽能電站的特性以及不同的天氣預報變量如水平輻照度、相對濕度、云量[15]等,當天氣穩(wěn)定時,如晴天,其預測性能較高[16]。德國的Lorenz 等人[17]提出利用天氣預報的太陽輻照度預報值提前3 天對歐洲國家的光伏電站進行發(fā)電量預測,其平均絕對誤差百分比在40%以上。
機器學習預測方法主要運用時間序列模型以及早期的神經(jīng)網(wǎng)絡進行預測研究。Kasburg 等人[18]使用循環(huán)神經(jīng)網(wǎng)絡(RNN)模型,將其加入太陽能發(fā)電的預測中,改變了傳統(tǒng)的使用有源太陽能跟蹤器提高發(fā)電量的方式,該方法具有較好的非線性處理能力,能更好的預測太陽能發(fā)電。Ashraf 等人[19]利用ANN 方法對Lakshadweep 群島上的光伏并網(wǎng)系統(tǒng)進行預測,利用ANN 將太陽能光伏發(fā)電輸出與太陽輻射、組件溫度、清潔度指數(shù)等相關參數(shù)進行插值,得出3 個相關模型并加以對比,但預測準確度缺乏實際驗證,且輸入?yún)?shù)的相關性缺乏分析。此外,Diagne 等人[20]對混合模型展開了深入研究,將傳統(tǒng)的時間序列模型(如ARIMA 和自回歸AR 模型)與氣象數(shù)據(jù)結合,得出一個更加復雜但是更加精確的模型。但是該模型要求輸入數(shù)據(jù)的時間和空間的分辨率極高,并且對計算機的計算能力要求極高,限制了該方法的推廣應用。
綜上所述,當前太陽能電站發(fā)電量預測從傳統(tǒng)的物理模型方法發(fā)展到現(xiàn)在的機器學習預測方法,其預測精度在不斷提升。但在當前的研究中,通常對氣象因素的相關性分析比較寬泛,很多工作僅將太陽輻照度、溫度作為輸入量。此外,大量研究集中于不同預測模型的嘗試,而忽略了對數(shù)據(jù)內(nèi)在邏輯的挖掘,未能將模型與領域知識深度耦合,限制了其預測精度。
對此,本文以美國加利福尼亞州(簡稱加州)光熱發(fā)電系統(tǒng)并網(wǎng)電力預測問題為例,首先研究氣象參數(shù)與發(fā)電量之間的相關性,進而利用近鄰傳播(AP)聚類算法對比不同發(fā)電模式下氣象參數(shù)對發(fā)電影響差異,挖掘數(shù)據(jù)間的深層聯(lián)系。然后,基于此建立長短期記憶(LSTM)神經(jīng)網(wǎng)絡基準模型對光熱系統(tǒng)發(fā)電量進行預測,并根據(jù)聚類結果針對性地改進預測模型,以此提高特殊天氣條件下的預測精度。
本文選取美國加州境內(nèi)光熱電站并網(wǎng)電力總量數(shù)據(jù)作為研究對象。該數(shù)據(jù)為加州ISO 項目[21]公開數(shù)據(jù),數(shù)據(jù)時間分辨率為1 h,單位為MW·h。通過美國國家可再生能源實驗室(NREL)公開的光熱電站數(shù)據(jù)獲得加州的全部14 座光熱電站信息。對其運行時間進行梳理,發(fā)現(xiàn)從2014年12月1日至2017年1月31日期間既沒有新建電站投入運營,也沒有已運營電站停止發(fā)電,系統(tǒng)運行穩(wěn)定。因此將該時間段內(nèi)的發(fā)電數(shù)據(jù)作為本文研究的數(shù)據(jù)樣本。該時間段內(nèi)共有13 座電站處于發(fā)電狀態(tài),其中包含solar electric generating station(SEGS)項目的全部9 座電站,電站數(shù)據(jù)信息見表1[22]。
從表1 電站建設位置來看,SEGS 項目的9 座電站地處2 個不同區(qū)域,因此可將其總體看成2 個發(fā)電位置,加上其余4 座電站總計可分為6 個不同的發(fā)電位置。圖1 為美國加州光熱電站地理位置。
圖1 美國加州光熱電站地理位置Fig.1 Location of the CSP plants in California,USA
表1 電站數(shù)據(jù)信息Tab.1 Data information of the power plants
根據(jù)上述6 個位置,從NOAA[23]獲取附近氣象站在該時段的氣象數(shù)據(jù),包括8 大氣象參數(shù):溫度(℃)、降水量(mm/h)、降雪量(mm/h)、積雪量(kg/m2)、空氣密度(kg/m3)、地面太陽輻照度(W/m2)、大氣頂部太陽輻照度(W/m2)以及云量(pu)。天氣數(shù)據(jù)時間分辨率為1 h,與發(fā)電數(shù)據(jù)完全對應。
數(shù)據(jù)清洗過程中發(fā)現(xiàn)該電力數(shù)據(jù)集缺少2015年5月8日和2016年3月13日數(shù)據(jù),觀察上述2 天前后的發(fā)電數(shù)據(jù),均無異常。由于當前可用數(shù)據(jù)量較大,因此忽略上述2 天的缺失數(shù)據(jù)。同時,刪除上述6 個位置這2 天的所有天氣數(shù)據(jù)。
針對聚類分析,本文將電力數(shù)據(jù)分割為24 h 的日發(fā)電樣本,得到共計791 個樣本,并將其轉換為小時發(fā)電量的日百分比,以此觀察發(fā)電模式的日內(nèi)與日間變化。針對發(fā)電量預測,本文以給定回溯時間步長的歷史氣象參數(shù)和發(fā)電量作為特征構建模型輸入,然后對各輸入特征數(shù)據(jù)進行標準化,即轉換為標準正態(tài)分布,以平衡特征間的數(shù)值差異,提高模型訓練的速度與穩(wěn)定性。
AP 聚類算法通過數(shù)據(jù)點間的信息傳遞,按照給定規(guī)則經(jīng)過多次迭代來確定適合成為聚類中心的數(shù)據(jù)點,進而完成聚類[24]。與其他聚類方法相比,AP 聚類算法的運算效率較高且結果穩(wěn)定,聚類質(zhì)量高于K-means 聚類算法,且無需事先確定需要聚類的數(shù)量[25]。
AP 算法的核心為更新2 個矩陣:吸引度矩陣R,r(i,k)代表從i到k的消息,用來判定點k是否適合作為數(shù)據(jù)點i的聚類中心;歸屬度矩陣A,a(i,k)代表從k到i的消息,用來判定數(shù)據(jù)點i選擇數(shù)據(jù)點k作為其聚類中心是否合適。最終,對點i,滿足的點k即為其類中心。此外,算法還用到相似度矩陣S,s(i,k)代表點i和點k的相似度,一般采用2 點之間歐氏距離的相反數(shù),而s(i,i)稱為參考度,一般將其設為S的中位數(shù)。
算法具體實施步驟如下。
1)將吸引度矩陣R和歸屬度矩陣A都初始化為0,計算相似度矩陣S。
2)按照式(1)迭代吸引度矩陣:
3)按照式(2)迭代歸屬度矩陣:
4)引入阻尼系數(shù)λ,以增強計算的數(shù)值穩(wěn)定性:
重復迭代上述步驟2)、3)、4),直到類中心穩(wěn)定或者達到設定的迭代次數(shù)。
根據(jù)本文數(shù)據(jù)情況,選取算法的參考度為歐氏距離相似度S的中位數(shù),阻尼系數(shù)為0.5,最大迭代步數(shù)為200,且當類中心保持15 次迭代不發(fā)生改變時認為算法收斂。
RNN 包括輸入層、隱藏層及輸出層,隱藏層內(nèi)的節(jié)點相互連接,其當前時間的輸入包含來自輸入層的輸入以及上一時刻隱藏層的輸出,因此RNN 能對歷史信息進行有效記憶[26]。圖2 為典型RNN 結構。
圖2 RNN 結構Fig.2 The RNN structure
RNN 在遇到時間序列較長的數(shù)據(jù)時,由于隱藏層神經(jīng)單元之間連接緊密,會出現(xiàn)梯度消失或爆炸的情況,因此不適于較長時間序列的數(shù)據(jù)處理[27]。對此,LSTM 神經(jīng)網(wǎng)絡在RNN 的基礎上加入新的神經(jīng)單元,解決了梯度爆炸的問題[28]。LSTM 神經(jīng)網(wǎng)絡包括記憶單元、輸入門、輸出門以及遺忘門,其神經(jīng)網(wǎng)絡結構如圖3所示。
圖3 LSTM 神經(jīng)網(wǎng)絡結構Fig.3 The LSTM neural network structure
LSTM 神經(jīng)網(wǎng)絡的前向與反向傳播計算已經(jīng)非常成熟,在此不再贅述。根據(jù)本文數(shù)據(jù)情況,選取輸入特征的時間步長為1 h,并根據(jù)網(wǎng)格搜索優(yōu)化神經(jīng)網(wǎng)絡超參數(shù)。
氣象參數(shù)對光熱發(fā)電具有決定性的影響。在以往的太陽能電站發(fā)電量預測研究中,往往只針對少數(shù)參數(shù)如環(huán)境溫度、太陽輻照度進行分析,對其余天氣因素的影響分析較少[29-30]。這在很大程度上影響了光熱電站發(fā)電量預測的準確度,尤其在連續(xù)陰雨、降雪以及極端天氣的情況下。
為了研究1.1 小節(jié)6 個地理位置的氣象參數(shù)對光熱電站發(fā)電量的影響,本文計算各氣象站氣象參數(shù)與發(fā)電量、小時發(fā)電量日百分比之間的皮爾森相關系數(shù),根據(jù)計算結果篩選有效特征。6 個氣象站氣象參數(shù)與發(fā)電量(散點)和小時發(fā)電量日百分比(柱狀)的相關系數(shù)如圖4 圖所示。
圖4 6 個氣象站氣象參數(shù)與發(fā)電量(散點)和小時發(fā)電量日百分比(柱狀)的相關系數(shù)Fig.4 Correlation coefficients between the meteorological parameters of 6 meteorological stations and the power generation(scatter diagram),the daily percentage of hourly power generation(columnar diagram)
由圖4 可見,6 個氣象站的氣象參數(shù)與發(fā)電量間的相關性強于其和小時發(fā)電量日百分比之間的相關性,但各氣象參數(shù)的相關性強弱排序基本一致:地面太陽輻照度>大氣頂部太陽輻照度>溫度>空氣密度>云量>降水量≈積雪量≈降雪量。
為了更好地挖掘光熱發(fā)電的行為特征及其受氣象參數(shù)的影響差異,本文運用AP 聚類算法對小時發(fā)電量日百分比數(shù)據(jù)樣本進行聚類,得到85 個類別。聚類結果的評價指標中輪廓系數(shù)(SC)、Calinski-Harabasz 指數(shù)(CH)和戴維森堡丁指數(shù)(DB)分別為146.06、0.76 和0.26,表明聚類質(zhì)量高。進一步,根據(jù)類樣本的數(shù)量將85 個類分為代表類A 類、少數(shù)類B 類以及異常類C 類。其中:代表類A 類滿足類內(nèi)樣本數(shù)量大于總樣本數(shù)的1%,即類內(nèi)樣本數(shù)量≥8;少數(shù)類B 類的類內(nèi)樣本數(shù)量在2~7 之間;異常類C 類的類內(nèi)樣本數(shù)量僅為1。圖5 為A、B、C 類日期分布。
圖5 A、B、C 類日期分布Fig.5 The type A,B and C date distribution map
通過對比氣象參數(shù)與所有樣本和A、B、C 類樣本相關性變化(圖6)。由圖6 可見:A 類進一步強化了發(fā)電模式與強相關氣象參數(shù)(地面太陽輻照度、大氣頂部太陽輻照度、溫度和空氣密度)的相關性,結合其樣本占比83.8%(24 類),可認為A類代表了主流發(fā)電模式;B 類則明顯弱化了發(fā)電模式與氣象參數(shù)的相關性,其樣本占比11.6%(25 類),說明該部分數(shù)據(jù)更多地體現(xiàn)了氣象條件以外的其他系統(tǒng)因素,如人為操作對發(fā)電情況的影響;而C類不僅數(shù)量最少,樣本占比4.6%(36 類),也進一步減弱了氣象條件對發(fā)電的影響,可能代表了發(fā)電系統(tǒng)所經(jīng)歷的各種意外狀況。
圖6 氣象參數(shù)與A、B 和C 類樣本相關系數(shù)Fig.6 Correlation coefficient diagram of meteorological parameters and type A,B and C samples
根據(jù)聚類結果,本文選取A 類中日發(fā)電量為0的發(fā)電模式(A0)和典型晴天發(fā)電模式(A1)為例來說明不同類別發(fā)電模式下氣象參數(shù)對發(fā)電的影響差異。圖7 為影響0 發(fā)電量模式(A0)的主要氣象參數(shù)箱線圖,圖中紅色曲線為平均值。由圖7 可以看出,在A0 中,云量、降水量、降雪量和積雪量4 個與總體樣本相關性最低的氣象參數(shù)值明顯比其他發(fā)電模式下大。這與物理常識相符,但是在以往大樣本數(shù)據(jù)的分析中并沒有得到體現(xiàn),這直接影響后續(xù)預測模型對氣象參數(shù)特征的選擇,進而影響預測精度。
圖7 影響0 發(fā)電量模式(A0)的主要氣象參數(shù)箱線圖Fig.7 Box plot of main meteorological parameters affecting 0 generation model(A0)
圖8 和圖9 分別為典型晴天發(fā)電模式(A1)的樣本箱線圖以及與氣象參數(shù)的相關系數(shù)對比。由圖8和圖9 可見,典型晴天條件下,發(fā)電模式與地面太陽輻照度、大氣頂部太陽輻照度、溫度和空氣密度這4 大氣象參數(shù)間的相關性得到了進一步強化。因此,眾多研究的預測模型在晴天條件下均表現(xiàn)較好[26]。2 種發(fā)電模式下氣象參數(shù)對發(fā)電的影響差異反映了面對不同發(fā)電模式或者氣象模式時,靈活選取氣象參數(shù)特征,構建相應預測模型的重要性。
圖8 典型晴天發(fā)電模式(A1)的樣本箱線圖Fig.8 Sample box plot of typical sunny day power generation model(A1)
圖9 典型晴天發(fā)電模式(A1)樣本與氣象參數(shù)的相關系數(shù)對比Fig.9 Correlation coefficients of the samples of typical sunny day power generation model(A1)and meteorological parameters
根據(jù)上文相關性分析與聚類分析的結果,本節(jié)構建LSTM 神經(jīng)網(wǎng)絡基準模型和LSTM 神經(jīng)網(wǎng)絡增量特征模型。在基準模型中,以地面太陽輻照度、大氣頂部太陽輻照度、溫度、空氣密度和云量這5 大與發(fā)電量相關性較高的氣象參數(shù),外加歷史發(fā)電量構建LSTM神經(jīng)網(wǎng)絡時序樣本作為模型輸入特征;而增量特征模型除基準模型的輸入特征外,加入降水量、降雪量和積雪量這3 個弱相關性氣象參數(shù)作為模型輸入特征進行訓練。
本文以2014年12月1日至2016年12月31日的發(fā)電數(shù)據(jù)與氣象數(shù)據(jù)作為模型的訓練集,其中訓練集數(shù)據(jù)的后10%作為驗證集,以2017年1月1日至1月31日的數(shù)據(jù)作為測試集。本文選擇2017年1月的發(fā)電數(shù)據(jù)作為測試集的原因是該月同時含有聚類結果中的代表類A 類(23 天)、少數(shù)類B 類(5 天)和異常類C 類(3 天),其中0 發(fā)電量日期為9 天,具備發(fā)電模式的典型性和代表性,可充分檢驗預測模型效果。
輸入特征的時間步長為1 h,即根據(jù)前1 h 的發(fā)電量和氣象參數(shù)預測下1 h 的發(fā)電量。采用tanh作為模型的激活函數(shù),Adam 為模型訓練的優(yōu)化器,均方差作為損失函數(shù),訓練樣本的批量更新大小為1 898(訓練集數(shù)據(jù)量的10%),最終輸出為發(fā)電量的預測值。采用網(wǎng)格搜索優(yōu)化模型超參數(shù),確定基準模型隱藏層為2 層,單元數(shù)為200。
基準模型在上述參數(shù)設置下調(diào)參訓練過程損失函數(shù)如圖10所示,由圖10 可以看出,訓練損失和驗證損失都下降并且最終穩(wěn)定至接近重合,這說明在該參數(shù)設置下,運行1 000 次迭代的訓練效果較好。故將所有訓練數(shù)據(jù)(包括驗證集)用于模型的訓練,并在1 000 次迭代后停止,得到訓練模型。
圖10 調(diào)參訓練過程損失函數(shù)Fig.10 Loss function diagram of parameter adjustment training process
對LSTM神經(jīng)網(wǎng)絡增量特征模型進行與基準模型相似的參數(shù)調(diào)試和訓練。使用訓練得到的LSTM神經(jīng)網(wǎng)絡基準模型和LSTM神經(jīng)網(wǎng)絡增量特征模型對2017年1月1日至1月31日每小時的發(fā)電量進行預測。發(fā)電量的預測值與實際值,以及不同類別下的日絕對誤差如圖11所示。
圖11 測試集LSTM 神經(jīng)網(wǎng)絡基準模型和增量特征模型預測結果Fig.11 Prediction results of the LSTM benchmark model and the incremental feature model in test set
整個測試集內(nèi)1月份31 天的實際總發(fā)電量為41 744.0 MWh,LSTM 神經(jīng)網(wǎng)絡基準模型與LSTM神經(jīng)網(wǎng)絡增量特征模型日發(fā)電量預測結果見表2。
由圖11 和表2 可見,盡管總體預測精度只有微小改進,但在發(fā)電量為0 的日期中(A0),增加降雪量、降水量和積雪量作為模型輸入特征的LSTM 神經(jīng)網(wǎng)絡增量特征模型,其日發(fā)電量總絕對誤差由LSTM 神經(jīng)網(wǎng)絡基準模型的839.96 MW·h下降到373.32 MW·h,日發(fā)電量絕對誤差占比由22.81%下降到10.41%,均下降2 倍以上。但是對于少數(shù)類B 類,增量特征模型的表現(xiàn)較基準模型反而總體降低。這反映模型在引入增量特征后,重新分配了對不同輸入特征的擬合權重,使得模型對特定情況(如A0 類)的擬合能力有所提高,但由此也損失了對其他情況的泛化能力。由此可見,針對不同發(fā)電模式或者氣象模式,應當靈活選取氣象參數(shù)特征,構建相應預測模型,以提高預測精度。
表2 LSTM 神經(jīng)網(wǎng)絡基準模型與LSTM 神經(jīng)網(wǎng)絡增量特征模型日發(fā)電量預測結果Tab.2 Daily power generation prediction results of the LSTM benchmark model and the LSTM incremental feature model
針對美國加州光熱電站并網(wǎng)電力預測問題,本文提出了LSTM 神經(jīng)網(wǎng)絡預測模型構建方案,并實現(xiàn)91.41%的日發(fā)電量預測精度,可服務于實際電站。此外,根據(jù)聚類分析的結果,發(fā)現(xiàn)不同發(fā)電模式類別下,氣象參數(shù)對發(fā)電的影響存在顯著差異。而不同特征組合構建的預測模型,對不同氣象條件下的光熱電站發(fā)電預測能力同樣存在差異。因此,根據(jù)聚類得到的發(fā)電模式類別,構建相應的特征組合預測模型,利用集成學習方法,有望進一步提高光熱電站發(fā)電預測精度。