沈陽工程學院 寇金馳 高 陽 許傲然 劉寶良
天氣是風電等可再生能源的主要驅動器,但同時也讓預測風電功率值、運營、交易和平衡可再生能源面臨最大的不確定性風險。根據在風電預測過程中需要的各類數據的箱線圖可以分析出風速、風向、溫度、濕度、氣壓等數據的數值區(qū)間和變化范圍,可以得出風電場所在地是否處在風口位置,此處是否時常發(fā)生強對流天氣等信息。同時,在箱線圖中也會觀察到一些數據的異常值,比如在溫度的箱線圖中,有的數據顯示為-273K,達到了絕對零度,這是絕對不可能的現象,同樣的還有在高海拔地區(qū)收集到接近于0Pa的氣壓值,這些數據表明,在風電功率預測數據收集過程中存在一定數量的異常值,類似的NWP數據的異常值可能由于儀器故障或者偶發(fā)的氣旋等因素產生。考慮到NWP氣象數據、測風塔收集到的數據和風電場的實際功率數據往往質量不高,給風電功率預測帶來了極大的難度。因此分別對NWP數據、測風塔數據和實際功率數據首先進行“去重處理”,然后進行數據的完整性檢驗和處理及合理性的檢驗和處理,進而通過對比(以風速數據為例)處理后的數據與功率值的關系散點圖和處理前數據的關系散點圖得出,處理后的數據精度大大提高,為風電功率預測提供了良好的數據支持。
對原始數據根據時間進行重復數據檢驗,主要檢驗行的重復,即去重處理;保證處理后無重復行數據。
數據的時間順序應符合預期的開始、結束時間,中間應連續(xù)。檢驗和處理方案:通過配置文件讀取開始時間和結束時間,將所有時間數據按這個區(qū)間排序,設置當時間不連續(xù)時,對時間數據進行插補的時間間隔為15min,用下一時刻和上一時刻的時間相減,若超過設置的時間間隔(15min),則對時間進行插補,否則不用插補。在進行時間數據插補時,首先檢驗待插補的時間間隔是否是15min的倍數,如果是15min的倍數,則按每15min一個插值進行插補;反之,則計算時間差的余數,若余數小于3min,使用上一時刻的時間值,若余數大于等于3min,使用下一時刻的時間值。比如:時間差為0:17:0,對15取余數,余數為2,故將該條數據的時間變?yōu)?:15:0,然后再進行插補。在對時間數據進行插補后,將插補的部分和不需插補的部分進行合并,保證在時間上是連續(xù)完整的一份數據。
在保證時間數據是完整連續(xù)的前提下,對其他缺失數據的字段主要關注:溫度、10m風向、30m風向、100m風向、170m風向、地表風向、10m風速、30m風速、100m風速、170m風速、地表風速、濕度、地表氣壓針對于時間插補過的如上這些字段的數據,要進行插補。
若數據缺失,缺失數據應以前后相鄰15min的數據進行插補,具體規(guī)則為:
(1)若同時擁有前后相鄰15min的數據,取前后兩點數據的平均值進行插補。
(2)若只有前面/后面相鄰15min的數據,則用前面/后面相鄰的數據進行插補。
(3)若同時沒有前,后相鄰15min的數據,則用前一天同一時刻的數據進行插補。
對風電功率預測的NWP數據的離群值采用“四分位法”進行檢驗和處理。
四分位法:將一組數據從小到大排列并平均分成4份,其中每份數據各占總數據的25%。將Q1稱為下四分位數;Q2稱為中位數;Q3稱為上四分位數,其中:總數據中的1/4數據的值小于Q1,1/4的數據大于Q3,Q1與Q3之差為四分位數間距IQR。
由間距IQR能得出數據異常值的范圍,其中超出異常值內限[D1,Du]的數據將被剔除,內限范圍的計算式如下:
所有不在[Q1-1.5IQR,Q3+1.5IQR]區(qū)間內的值為離群值。
對NWP的溫度、風向、風速、濕度和氣壓數據分別進行離群值的檢驗和處理,如果數據為離群值,處理方法如下:
(1)小于等于Q1-1.5IQR的值,用Q1-1.5IQR的值進行替換。
(2)大于等于Q3+1.5IQR的值,用Q3+1.5IQR替換。
對于NWP的越限數據應以前后相鄰15min的數據進行插補,插補規(guī)則為:
如果前后相鄰15min的數據都有,取前后兩點的平均值,進行插補;如果有前面相鄰15min的數據,用前面相鄰的數據進行插補;如果有后面相鄰15min的數據,用后面相鄰的數據進行插補。如果(1)不滿足條件,用下面的方式處理:
用前一天同時刻的數據進行插補
用上一年同時刻的數據進行插補
對清洗后的NWP數據基于時間進行整體排序,確保每15min的數據是完整的連續(xù)值。
在對測風塔的數據進行預處理時,要先對測風塔的數據基于時間的完整排列進行數據的插補,與NWP數據的處理方式類似,只是對時間的分辨率設置為5min,首先將測風塔測出的風速和風向數據按時間進行排序,下一時刻與上一時刻進行相減,如果超過設置時間(5min),計算時間差的余數,若余數小于3min,按照上一時刻的數據進行插補,若余數大于3min,則按照下一時刻的數據進行插補。
然后對測風塔的風速及風向等數據進行缺失值的檢驗和處理,以風速數據為例:首先,計算不同高度風速值之間的斯皮爾曼相關性系數,具體計算公式如下:
繼而結合不同高度處風速數據的箱線圖對風速缺失值進行處理,由箱線圖可知,測風塔的風速數據隨著高度的升高,風速值增大,因此具體的處理方式如下:
(1)當低處的風速數據缺失時,在高處的風速數據中,查找與低處的風速數據相關系數最大的位置的風速數據乘以相關性系數,作為低處風速數據的替代值。
(2)當高處的風速數據缺失時,在低處的風速數據中,查找與高處的風速數據相關性系數最大的未知的風速數據除以相關性系數,作為高處風速數據的替代值。
對測風塔測到的風向數據的缺失值處理方法與風速數據的處理方法類似,結合不同高度處風向數據的箱線圖可知,不同高度處風向數據的變化范圍不大,因此,具體處理方式如下為:只需查找與缺失高度處的風向值相關性系數最大的高度處的風向值,將此風向數據乘以相關性系數,作為缺失風向值的替代值。
對風電場實際功率同樣用“四分位法”進行數據的異常值檢驗和處理,對實際功率限值檢驗和處理的方式是依據風電場裝機容量的限值來處理,具體方法為:小于實際功率的最小值(即0值),用0值進行替換;大于實際功率的上限值,用風電場的裝機容量值進行替換。
將東北地區(qū)該風電場一年的NWP數據、測風塔數據及實際功率數據進行預處理后,與處理前的數據進行對比,以風速數據為例,數據處理前的風速-功率散點圖如圖1所示。
圖1 數據處理前的風速-功率關系散點圖
由圖1可知,風速數據預處理前存在著大量的異常值和缺失值,為準確的風電功率預測增加了極大地難度。對風速數據處理之后,風速-功率關系的散點圖如圖2所示。
圖2 數據處理后的風速-功率關系散點圖
通過對比散點圖1和圖2,可以清晰地看出,經過數據預處理后,風速的缺失值和異常值大量的減少,風速-功率關系呈現的比較清晰。說明此時經處理過后的數據質量較好,可以為風電功率的準確預測提供很好的前期數據支持。
結論:本文為了實現風電功率的準確預測,分別對NWP數據、測風塔數據及風電場的實際功率數據進行數據預處理,通過處理前后的數據(以風速數據為例),驗證了經數據預處理后獲得的數據質量較好,可以為風電功率的精準預測提供較好的數據支持。