楊 芮, 徐 虹, 文 武
(成都信息工程大學(xué) 計算機學(xué)院, 成都 610225)
化石燃料正處在耗盡的邊緣, 世界各國都意識到開發(fā)和使用可再生的清潔能源才是持久之道[1]. 目前,可再生能源發(fā)電形式有很多, 風(fēng)電是所有方法中最成熟的一種, 將風(fēng)電大規(guī)模加入到電網(wǎng)中, 可以大大減輕社會的能源負(fù)擔(dān)[2]. 對短期風(fēng)電功率的準(zhǔn)確預(yù)測, 不但能夠節(jié)約電網(wǎng)運行的本錢, 同時使電網(wǎng)系統(tǒng)可靠性更上一層樓[3]. 風(fēng)速的短期預(yù)測, 能夠在一定程度上為電網(wǎng)調(diào)度提供參考, 是現(xiàn)代社會風(fēng)電場以及電網(wǎng)運行和維護(hù)中不可缺少的一大助力.
早期的風(fēng)速預(yù)測, 物理方法占據(jù)了半壁江山, 另一半為統(tǒng)計學(xué)方法. 物理方法需要采集大量的風(fēng)機及天氣信息, 利用數(shù)學(xué)表達(dá)式計算出風(fēng)速預(yù)測值, 由于數(shù)據(jù)量龐大, 需要使用高性能計算機進(jìn)行運算, 預(yù)測難度和經(jīng)費預(yù)算都比較大; 統(tǒng)計學(xué)方法需根據(jù)歷史信息建立模型, 預(yù)測精度受樣本量限制, 樣本量越大, 預(yù)測精度越高. 統(tǒng)計學(xué)方法擅長處理線性數(shù)據(jù), 而風(fēng)速數(shù)據(jù)是非線性的, 使用統(tǒng)計學(xué)方法預(yù)測風(fēng)速準(zhǔn)確度不夠高.
近年來, 使用機器學(xué)習(xí)(如SVM[4]、隨機森林[5]、極限學(xué)習(xí)機[6]等)、深度學(xué)習(xí)(如BP[7]、RNN[8]、LSTM[9]等)預(yù)測方法受到國內(nèi)外學(xué)者的偏愛. 文獻(xiàn)[10]在對短期風(fēng)速進(jìn)行預(yù)測時, 使用到了支持回歸向量機(SVR)方法, 具有較好的仿真效果. 文獻(xiàn)[11]使用了SVM 預(yù)測模型, 其中核函數(shù)選擇了RBF, 并通過算法對懲罰因子(C)和RBF 自帶參數(shù)(gamma)進(jìn)行尋優(yōu),預(yù)測結(jié)果較為理想. 文獻(xiàn)[12]提出一種基于正則化極限學(xué)習(xí)機的風(fēng)電場短期風(fēng)速預(yù)測新方法, 相較于標(biāo)準(zhǔn)的ELM 和BP 神經(jīng)網(wǎng)絡(luò), 該方法具有更好的預(yù)測精度.文獻(xiàn)[13]使用了BP 預(yù)測模型, 不同于一般做法, 在使用了風(fēng)速歷史數(shù)據(jù)的同時, 還收集了風(fēng)速周圍的時空信息, 將這兩種數(shù)據(jù)同時使用到風(fēng)速預(yù)測中, 取得了較好的結(jié)果. 上述機器學(xué)習(xí)、深度學(xué)習(xí)方法在對風(fēng)速數(shù)據(jù)進(jìn)行預(yù)測時, 均取得了不錯的結(jié)果, 但在實際場景的風(fēng)速預(yù)測中, 僅運用單一模型, 預(yù)測的精度很難滿足需求.
針對上述方法存在的問題, 組合預(yù)測模型目前被大量使用, 通過對不同單一預(yù)測模型的組合, 實現(xiàn)各模型之間優(yōu)勢互補, 以此提高預(yù)測精度. 文獻(xiàn)[14]為了使非平穩(wěn)風(fēng)電功率信號相對平穩(wěn)化, 使用EMD 方法對其進(jìn)行分解, 得到n個平穩(wěn)序列, 分別送入ARIMA 預(yù)測模型, 累加所有模型預(yù)測結(jié)果, 得到風(fēng)速預(yù)測值. 文獻(xiàn)[15]采用LSTM 結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò)對超短期風(fēng)力發(fā)電進(jìn)行預(yù)測. 文獻(xiàn)[16]使用EMD 方法和堆疊的長短期記憶網(wǎng)絡(luò)的組合模型, 對短時風(fēng)速進(jìn)行預(yù)測. 上述組合模型均在一定程度上提升了預(yù)測精度, 但也存在一些問題, 文獻(xiàn)[14]和文獻(xiàn)[16]采用的EMD 分解方法分解風(fēng)速信號, 容易被異常信號干擾, 導(dǎo)致模態(tài)混疊現(xiàn)象,文獻(xiàn)[15]僅采用LSTM 網(wǎng)絡(luò)預(yù)測, 在一些風(fēng)速數(shù)據(jù)預(yù)測上可能存在滯后問題.
本文提出基于EEMD-GRU 的短期風(fēng)速預(yù)測模型.首先, 對原始風(fēng)速時間數(shù)據(jù)進(jìn)行異常數(shù)據(jù)剔除操作, 使用EEMD 分解方法, 將原始數(shù)據(jù)分解成若干分量, 然后將分解得到的分量分別送入GRU 模型進(jìn)行預(yù)測, 接著將所有分量的預(yù)測結(jié)果進(jìn)行累加, 風(fēng)速預(yù)測最終結(jié)果由此得到. 對于EMD 分解方法產(chǎn)生的模態(tài)混疊現(xiàn)象, 本文使用EEMD 分解方法來解決此問題; 對于單一LSTM 預(yù)測方法可能產(chǎn)生的預(yù)測結(jié)果滯后現(xiàn)象, 使用EEMD 與GRU 相結(jié)合的組合預(yù)測方法來解決. 最后與EEMD-LSTM、EMD-LSTM、EMD-GRU 等模型對比, 進(jìn)行指標(biāo)分析與評價, 實驗證明本文的方法, 在對時間序列預(yù)測時, 準(zhǔn)確度更高, 預(yù)測能力更強.
經(jīng)驗?zāi)B(tài)分解是一種比較智能的自適應(yīng)算法(empirical mode decomposition, EMD), 在對原信號進(jìn)行拆分時, 分解得到的分量能夠自動匹配自己應(yīng)在的尺度, 若分解得到分量還可繼續(xù)拆分, 則繼續(xù)分解, 直到不可分解為止, 這時就得到了原始信號經(jīng)EMD 方法分解后的所有分量[17]. 這種分解方法能夠挖掘出信號內(nèi)部更詳細(xì)的細(xì)節(jié), 非常適用于處理不穩(wěn)定的數(shù)據(jù). EMD分解的具體步驟如下:
(1) 將原始風(fēng)速時間數(shù)據(jù)Y(t)里面包含的全部局部極大值以及極小值找出來;
(2) 對原始數(shù)據(jù)進(jìn)行插值操作, 求得上下包絡(luò)線U(t)和D(t);
(3) 求出上下包絡(luò)線的平均值M(t);
(4) 用Y(t)減去M(t), 求得類距平值H(t);
(5) 對步驟(4)得到的序列H(t)進(jìn)行檢查, 看其能否達(dá)到IMF 標(biāo)準(zhǔn), 若不達(dá)標(biāo), 則將H(t)作為新的初始序列, 從頭進(jìn)行步驟(1)–(4), 直到所得結(jié)果都達(dá)到標(biāo)準(zhǔn), 若條件達(dá)標(biāo), 則得到初始風(fēng)速時間序列分解的t時刻第n個分量Cn(t);
(6) 從原始序列中將Cn(t)去除, 得到剩余序列R(t);
(7) 將R(t)作為新的初始序列, 循環(huán)執(zhí)行上述步驟,直到得到所有不可拆分的分量;
(8) 原始風(fēng)速序列經(jīng)過EMD 分解后可表示為:
EMD 分解方法處理非平穩(wěn)數(shù)據(jù)時表現(xiàn)良好, 但也存在問題, 分解得到的有些分量會重疊在一起, 即模態(tài)混疊. Huang 等人為了解決這個缺陷, 在EMD 方法的基礎(chǔ)上不斷改進(jìn), 經(jīng)過大量試驗, 發(fā)現(xiàn)在原信號中加入噪聲, 利用噪聲自身的特點, 可以解決模態(tài)混疊問題,由此集合經(jīng)驗?zāi)B(tài)分解(ensemble empirical mode decomposition, EEMD)方法被提出[18]. EEMD 方法的改進(jìn)之處, 就是將高斯白噪聲放到了原始信號中(之所以選擇高斯白噪聲, 是因為其具有隨機性、且頻譜均勻分布的特點), 之后就是多次使用EMD 方法分解新信號[19]. EEMD 的具體步驟如下:
(1) 向風(fēng)速時間序列中添加噪聲, 噪聲為服從正態(tài)分布的白噪聲[20];
(2) 使用EMD 方法, 對新序列進(jìn)行拆分, 結(jié)果就是新序列由n個IMF 分量和1 個殘差組成;
(3) 重復(fù)步驟(1)和步驟(2), 每次執(zhí)行時, 將新的正態(tài)分布的白噪聲序列添加到信號中;
(4) 對所有IMF 分量, 做集成平均操作, 得到風(fēng)速時間序列的IMF 分量.
GRU (gated recurrent unit)是LSTM (long shortterm memory)的一種變體[21], 從結(jié)構(gòu)上看, 兩者還是有著很大的差別. 與LSTM 的三門結(jié)構(gòu)不同, GRU 只有兩個門, 分別是重置門和更新門[22]. 因為少了一個門結(jié)構(gòu), 計算時參數(shù)數(shù)量相比于LSTM 會少一些, 訓(xùn)練速度更快. GRU 整體結(jié)構(gòu)如圖1 所示.
圖1 GRU 網(wǎng)絡(luò)基本單元
GRU 的迭代公式如下:
其中, 下標(biāo)t代表t時刻、更新門由z指代, 重置門由r指代. 權(quán)重矩陣由W指代, Sigmoid 函數(shù)由符號σ指代,輸出值由h指代. *代表哈達(dá)瑪積(Hadamard product).
風(fēng)速序列通常隨著時間的變化一直震蕩, 呈不平穩(wěn)狀態(tài), 且極容易受現(xiàn)實中周圍環(huán)境影響, 傳統(tǒng)預(yù)測方法效果較差. 本文為克服僅使用單一模型預(yù)測精度不夠高的問題, 使用兩種方法相結(jié)合的組合模型對風(fēng)速進(jìn)行預(yù)測. 組合模型由EEMD 和GRU 方法構(gòu)成. 首先用孤立森林算法剔除原始風(fēng)速中的異常點, 然后使用EEMD 方法, 將其拆分成不同尺度的信號, 從而大大降低風(fēng)速信號的震動性、非平穩(wěn)性, 其次, 將分解得到的各分量信號分別送入GRU 模型進(jìn)行訓(xùn)練得到各自的預(yù)測結(jié)果, 預(yù)測風(fēng)速最后由所有分量結(jié)果累加得到. 具體預(yù)測流程如圖2 所示.
圖2 EEMD-GRU 組合模型基本結(jié)構(gòu)
具體步驟如下:
(1) 獲取原始風(fēng)速時間數(shù)據(jù), 歸一化處理, 歸一化公式如下:
其中,i為風(fēng)速序列的第i個元素; 風(fēng)速的初始值、最大值、最小值由X、max、min分別指代;X*為歸一化操作后得到的序列;
(2) 對歸一化的數(shù)據(jù), 使用孤立森林算法, 標(biāo)注出全部異常點、剔除全部異常點;
(3) 使用EEMD 方法對上述操作得到的結(jié)果進(jìn)行拆分, 得到不同尺度的IMF;
(4) 按照19:1 的占比, 將步驟(3)得到的序列劃分為訓(xùn)練集和測試集;
(5) GRU 網(wǎng)絡(luò)初始化, 將步驟(4)所得數(shù)據(jù)分別送入GRU 網(wǎng)絡(luò)進(jìn)行訓(xùn)練;
(6) 將步驟(5)得到的全部預(yù)測結(jié)果累加求和, 得到最終風(fēng)速預(yù)測結(jié)果.
為更加直觀的評估EEMD-GRU 模型在實際問題預(yù)測中的表現(xiàn), 選用了4 種評價指標(biāo)進(jìn)行評測. 分別是RMSE(均方根誤差)、R2(決定系數(shù))、MAE(平均絕對誤差)、MAPE(平均絕對百分誤差)[23]. 其中,RMSE、MAPE、MAE數(shù)值越小代表模型預(yù)測誤差越小,R2數(shù)值越接近于1, 代表模型表現(xiàn)越好. 4 項指標(biāo)計算公式如下:
本文算例為我國新疆某地風(fēng)場2017 年的風(fēng)速實地采樣數(shù)據(jù), 以15 min 對風(fēng)速數(shù)據(jù)采樣, 每小時提取4 條數(shù)據(jù). 本次實驗使用的2017 年5 月1 日至6 月2 日的數(shù)據(jù), 一共3072 條, 原始樣本數(shù)據(jù)如圖3. 首先對數(shù)據(jù)進(jìn)行歸一化操作, 縮小數(shù)據(jù)之間的量綱差距, 避免訓(xùn)練中產(chǎn)生誤差過大. 歸一化結(jié)果如圖4 所示.
圖3 原始風(fēng)速序列
圖4 歸一化結(jié)果
原始數(shù)據(jù)在采集時, 可能因為各種各樣的原因(風(fēng)機故障、操作失誤等), 導(dǎo)致樣本中存在臟數(shù)據(jù), 直接將數(shù)據(jù)送入網(wǎng)絡(luò)學(xué)習(xí), 網(wǎng)絡(luò)會將錯誤信息一起學(xué)習(xí),預(yù)測時會產(chǎn)生一定的誤差, 因此對異常數(shù)據(jù)處理顯得尤為重要. 對歸一化數(shù)據(jù), 采用孤立森林算法, 找出異常點153 個, 如圖5 所示, 將異常點去除, 結(jié)果如圖6所示.
圖5 異常點分布
圖6 去除異常點結(jié)果
異常點去除后, 樣本剩余2919, 根據(jù)19:1 的占比,將數(shù)據(jù)劃為訓(xùn)練集和測試集. 如圖7 所示, 原始的震動性極強的序列, 現(xiàn)在由9 個IMF 和1 個殘差分量所代替, 并且按照信號頻率的大小, 由高到低依次排列, 原始風(fēng)速序列波動性大、非平穩(wěn)的缺點被大大克服, 同時經(jīng)過分解操作得到的分量, 具備較強的穩(wěn)定性.
圖7 EEMD 分解結(jié)果 (橫坐標(biāo)表示采樣點個數(shù),縱坐標(biāo)表示信號幅值大小)
深度學(xué)習(xí)發(fā)展至今, 網(wǎng)絡(luò)結(jié)構(gòu)以及網(wǎng)絡(luò)參數(shù)選擇問題, 至今沒有定性的理論可參考, 學(xué)者們大多根據(jù)經(jīng)驗或在實驗過程中確定參數(shù). 過于復(fù)雜或簡單的網(wǎng)絡(luò)結(jié)構(gòu)、過大或過小的神經(jīng)元個數(shù), 會導(dǎo)致過擬合或欠擬合現(xiàn)象, 因本文數(shù)據(jù)量只有3000 條左右, 樣本量不大, 故GRU 網(wǎng)絡(luò)考慮單層或雙層結(jié)構(gòu), 隱藏層神經(jīng)元考慮30 或50. 為排除隨機性誤差, 采用10 次實驗的平均值作為模型結(jié)構(gòu)選擇的參考. 如表1 所示.
表1 GRU 網(wǎng)絡(luò)參數(shù)
網(wǎng)絡(luò)結(jié)構(gòu)確定后, 接下來探索時間步長(TIME_STEP)的合適值. TIME_STEP 用來重構(gòu)風(fēng)速序列, 形成新的輸入集合. TIME_STEP 為6, 意思是用前6 個風(fēng)速數(shù)據(jù)作為模型的輸入, 預(yù)測第7 個風(fēng)速數(shù)據(jù)的輸出. 不同大小的TIME_STEP, 對模型的預(yù)測結(jié)果會產(chǎn)生不同的影響, 因此在不同TIME_STEP 下, 進(jìn)行實驗.
從表2 可以看出, TIME_STEP=32 時, 模型的預(yù)測誤差比TIME_STEP=20 時還要高, 這說明時間步長并不是越大越好. 隨著時間步長的增加, 誤差呈波浪式變化, 當(dāng)TIME_STEP 為20 時RMSE和MAE值均為最小, 故本文時間步長設(shè)定為20.
表2 時間步長
本文選用EEMD-LSTM、EMD-GRU、EMDLSTM、LSTM、GRU、BP 網(wǎng)絡(luò)作為EEMD-GRU 模型的對比模型. 其中所有模型的網(wǎng)絡(luò)結(jié)構(gòu)與GRU 模型相同, 均為單層結(jié)構(gòu), 神經(jīng)元均設(shè)為50, Dropout 率設(shè)為0.2, epoch 為50, batch_size 為16, 預(yù)測結(jié)果如圖8、圖9 所示.
圖8 不同模型預(yù)測結(jié)果
圖9 不同模型預(yù)測結(jié)果放大圖
從圖9 可以明顯看出EEMD-GRU 模型預(yù)測的曲線能夠更好地跟隨真實數(shù)據(jù)變化, 擬合效果最好. 為了更加直觀的比較模型預(yù)測精度, 計算了所有模型在相同輸入條件下的4 種評價指標(biāo), 見表3.
表3 不同模型效果對比
從RMSE、MAPE、MAE三項指標(biāo)來看, EEMDGRU 模型相較于EEMD-LSTM 模型, 誤差分別降低了7.47%、11.99%、7.48%; 相較于EMD-GRU 模型,誤差分別降低了16.33%、16.97%、19.74%; 相較于EMD-LSTM 模型, 誤差分別降低了12.33%、11.51%、15.22%; 相較于GRU 模型, 誤差分別降低了56.66%、59.17%、56.50%; 相較于LSTM 模型, 誤差分別降低了57.76%、59.32%、57.22%; 相較于BP 模型, 誤差分別降低了59.53%、62.09%、59.38%. 從R2來看,EEMD-GRU 模型相對于其他模型R2的值更接近1, 綜合4 種指標(biāo), 足以證明EEMD-GRU 方法在預(yù)測精度上表現(xiàn)的最好.
本文針對風(fēng)速的隨機性、震動性以及僅使用LSTM預(yù)測可能出現(xiàn)的滯后性等問題, 提出了一種基于EEMDGRU 的短期風(fēng)速預(yù)測方法, 采用實地采集的數(shù)據(jù)進(jìn)行預(yù)測, 得出以下結(jié)論:
(1) 對原始風(fēng)速時間序列分解, 能夠很大程度上降低風(fēng)速數(shù)據(jù)自身的不穩(wěn)定性.
(2) EEMD-GRU 模型克服了EMD 方法在分解非平穩(wěn)數(shù)據(jù)(風(fēng)速序列)時產(chǎn)生的模態(tài)混疊問題, 提高了預(yù)測精度.
(3) EEMD-GRU 模型有效地改善了單一LSTM 模型預(yù)測出現(xiàn)的滯后性問題.
(4) 通過與EEMD-LSTM、EMD-LSTM、EMDGRU、LSTM、GRU、BP 模型進(jìn)行比較, 證明了本文提出的EEMD-GRU 組合模型在對風(fēng)速數(shù)據(jù)預(yù)測時, 預(yù)測曲線更貼合實際曲線, 預(yù)測精度更高, 預(yù)測能力更強.