徐先峰,趙 依,龔 美,陳雨露
(長安大學電子與控制工程學院,陜西 西安 710064)
隨著電力生產和市場化消費程度的不斷提高,電力負荷預測如今已經成為能源管理系統(tǒng)的重要組成部分[1]。準確的電力負荷預測結果有助于發(fā)電廠合理地調度發(fā)電量,安排發(fā)電機組的起停,提高發(fā)電設備利用率,降低發(fā)電成本。因此,精確負荷預測是實現是保證電力系統(tǒng)穩(wěn)定、經濟運行和電網科學管理的基礎,具有重要意義[2-3]。
在負荷預測方面,傳統(tǒng)的預測模型有自回歸移動平均模型(ARIMA)[4]、支持向量機(SVM)[5]、BP神經網絡[6]等。其中,ARIMA是一種時間序列分析模型,它具有所需數據量少、計算速度快等優(yōu)點, 在擬合和預測平穩(wěn)的線性關系數據的問題上具有較好的能力。但電力負荷數據具有非線性特點,因此單一的ARIMA算法在電力負荷的預測上精度有限。近年來,深度學習由于其強大的數據挖掘和建模能力,也逐漸應用于電力負荷的預測。目前使用較多的深度學習模型有長短期記憶網絡(LSTM)[7],深度信念網絡(DBN)[8],卷積神經網絡(CNN)[9]等。LSTM網絡避免了傳統(tǒng)神經網絡“梯度爆炸”的問題,具有較高的靈活性并能深度挖掘數據中潛在非線性關系,因此在負荷預測上表現出了巨大優(yōu)勢。
隨著機器學習方法在負荷預測中的廣泛應用,預測模型也逐漸由單一模型向組合模型轉變。文獻[10]將小波分解與二階灰色神經網絡相結合,提高負荷預測精度;文獻[11]提出基于小波變換和模糊自適應共振理論網絡的組合算法;文獻[12]采用CEEMDAN排列熵方法將負荷時間序列分解為不同子序列,并根據子序列不同的特性分別構建LIESN預測模型。組合模型由于能融合多種模型的優(yōu)勢,彌補單個模型的缺陷,所以往往能夠提供比單一模型更準確的預測結果。
另一方面,充分考慮外部因素的影響有助于提高負荷預測精度,然而計及外部因素影響將會提高輸入信號的維數,從而加重了預測模型的學習負擔,影響了學習效率,而特征降維方法能有效地解決該問題。文獻[13]利用主成分分析(PCA)對多維負荷原始數據進行降維預處理;文獻[14]將獨立成分分析(ICA)用于特征提取,并結合BPNN模型進行負荷預測;文獻[15]采用灰色關聯度分析(GRA)定量分析多元負荷之間以及和各氣象影響因素之間的耦合性,并結合LSTM網絡實現多元負荷短期預測。隨機森林是一種準確性高、泛化能力強、易于使用的集成算法,除了常用于解決分類、回歸等問題,也可在特征降維問題中作為特征選擇的方法[16]。文獻[17]利用基于隨機森林的平均精確率減少法(Mean decrease accuracy)進行特征排序,結合DBN實現母線負荷預測。本文擬采用基于隨機森林的平均不純度減少法(Mean Decrease Impurity, MDI)實現多維數據的特征降維。
基于上述分析,本文在使用MDI作為特征降維方法的基礎上,將綜合各模型的優(yōu)點,提出一種融合CEEMDAN、ARIMA和LSTM的組合預測算法。該算法在利用CEEMDAN對電力負荷進行分解獲取低頻以及高頻分量后,結合ARIMA挖掘低頻的平穩(wěn)性優(yōu)勢以及LSTM挖掘高頻的隨機性優(yōu)勢,對低頻、高頻分量進行分別預測,并疊加作為最終預測結果。將其與其它單一算法和組合算法進行對比,實驗證明該組合模型能達到更佳的負荷預測精度。
隨機森林是通過有放回的重復采樣(Bootstrap Sampling)方式,從原始樣本集中隨機抽取樣本作為樣本子集,再基于各樣本子集生成決策樹并組成森林集合。
在構建隨機森林的過程中,決策樹中的每處節(jié)點分裂都是基于某個最優(yōu)的特征作為分裂條件。針對分類問題,可以利用不純度來確定節(jié)點分裂的最優(yōu)條件,即確定在何處進行分類以及進行分裂的特征變量。因此,在訓練決策樹的過程中,可以通過計算每個特征減少了多少樹的不純度來作為衡量其重要程度的依據。平均不純度減少的越多,說明該特征的重要度越高,進而達到特征選擇的目的[18-19]。
基尼指數是度量樣本集合的不純度的常用計算方法?;嶂笖当硎驹诩现幸粋€隨機樣本被分錯的概率,集合D的基尼指數的定義如下[16]
(1)
式中,B為訓練樣本中樣本種類數,pb表示集合D中隨機選中的樣本屬于類別b的概率,(1-pb)表示樣本被分錯的概率。
如果樣本集合D根據特征A而被分裂為D1和D2兩個子集合,則在特征A的條件下,集合D的基尼指數為
(2)
式中,|D|表示集合D中的樣本數,|D1| 表示集合D1中的樣本數,|D2|表示集合D2中的樣本數。
若決策樹經由某特征進行分裂后平均基尼指數減少越多,即經過此種特征分裂后集合變純的程度越大,就代表該特征的分類能力和重要程度越大,反之同理,因而計算平均不純度減少可以作為一種特征重要性評估的方法。平均不純度減少的定義為
(3)
式中,K為決策樹的個數,Ginin(D)表示第n棵決策樹分裂前集合D的基尼指數,Ginin(D,A)表示第n棵決策樹經過特征A分裂后集合D的基尼指數。
具有自適應白噪聲的完整經驗模態(tài)分解(Complete ensemble empirical mode decomposition with adaptive noise, CEEMDAN)是一種智能算法,可分解復雜的時間序列。CEEMDAN不僅突破了傅立葉變換的局限性,而且不存在類似小波變換中預先選擇小波基函數的問題,具有良好的時頻分辨率和適應性[20]。針對信號X(t)的CEEMDAN算法分解步驟如下:
1)生成含噪信號集Xi(t)
Xi(t)=X(t)+ωi(t)
(4)
式中,ωi(t)(i=1,2,…,I)為滿足高斯分布的白噪聲,I為集合樣本數。
(5)
3)計算一階殘差分量
(6)
4)計算二階IMF
(7)
式中,Ej(·)表示信號的j階IMF;εj為控制白噪聲能量的參數。
5)對于k階分量,(k=2,3,…,K),K為設置的最高IMF階次,計算k階殘差
(8)
6)計算k+1階分量
(9)
7)重復步驟5、步驟6,直到殘差不可再分解或達到最高IMF階次,最終殘差滿足
(10)
信號可表示為
(11)
由于電力負荷受到溫度、濕度、電價等眾多不確定因素的影響,使負荷呈現出高度復雜的變化,直接對原始數據進行建模將導致模型出現學習不充分、迭代時間過長等缺陷。為此,本文首先針對包含歷史負荷和5種外部影響因素的6維原始電力負荷數據,采用MDI方法實現輸入數據特征的特征降維,提高學習模型的訓練效率。之后以降維后的數據集為輸入(綜合考量原有數據集的維度數目以及降至不同維度時的實驗效果,最終確定目標維度為3維),構建CEEMDAN-ARIMA-LSTM組合模型,具體構建原理如下:
CEEMDAN-ARIMA-LSTM算法以將負荷序列看成由一個低頻成分和一個高頻成分的累加和為前提,在利用CEEMDAN算法對原始電力負荷進行分解得到低頻分量和高頻分量后,剔除噪聲分量(IMF1),再分別采用ARIMA和LSTM模型對低頻(線性)成分和高頻(非線性)成分進行建模、預測,最后將ARIMA和LSTM模型的預測結果線性疊加得到最終的預測值。該組合模型的核心思想在于充分發(fā)揮ARIMA模型和LSTM模型分別在擬合線性時間序列和非線性時間序列方面的優(yōu)勢,兼顧負荷數據表現出的線性及非線性特性。具體實驗流程如圖1所示。
圖1 CEEMDAN-ARIMA-LSTM算法流程圖
本文實驗數據選用了英格蘭地區(qū)2011年的電力負荷數據,包含歷史負荷、溫度、濕度、日前發(fā)電電價、日前邊際損失電價、實時邊際損失電價六個影響因素在內的總計4392條24點實時數據樣本信息(采樣間隔為1小時)。其中訓練集為6月1日至11月27日的4320條數據樣本,測試集為11月28日至11月30日的72條數據樣本。
用于評價實驗結果的指標為平均絕對百分誤差(MAPE)和均方誤差(MSE),其公式為
(12)
(13)
針對特征降維過程,利用MDI方法作為特征篩選算法。通過直接將溫度、濕度、日前發(fā)電電價、日前邊際損失電價、實時邊際損失電價五個外部影響因素對電力負荷影響程度的大小進行排序,以篩選出與電力負荷相關性最強的兩個主要因素,并與歷史負荷形成預測模型的輸入數據集。
為了提高模型的收斂速度,避免由于負荷與各因素之間量綱的不同影響降維效果,對原始樣本數據分類別進行了歸一化處理,公式如下
(14)
式中,X*為歸一化后的值,X為樣本序列值,Xmin為樣本序列中的最小值,Xmax為樣本序列中的最大值。
利用MDI計算得出各特征變量的重要性評分如圖2所示。
圖2 特征重要性評分
由圖2可見,各個特征變量都對負荷的變化產生了一定影響,但日前發(fā)電電價、日前邊際損失單價的重要性評分最高,說明這兩個因素最能代表外部因素對負荷變化的主要影響,與電力負荷的相關性最強。
為了進一步驗證MDI特征降維算法的有效性和優(yōu)越性,本文還引入了常用的兩種特征降維方法PCA[13]、GRA[15]作為對比,并把使用不同方法特征降維后的數據和未經特征降維后的數據分別輸入LSTM和BP神經網絡進行預測,預測結果如表1所示。
如表1所示,應用MDI、GRA、PCA三種方法進行特征降維后,LSTM和BP模型的預測結果精度都有明顯提升,但MDI的提升效果最好。其中,應用MDI方法后的LSTM模型較未降維的模型,預測結果的MAPE值降低了0.34%,MSE值降低了26363.89;BP神經網絡模型較未降維的模型,MAPE值降低了0.90%,MSE值降低了186,988.82,有效驗證了MDI特征降維算法在負荷預測中提升模型學習效率的重要作用。
表1 負荷預測中特征降維效果對比
對原始數據集進行特征降維后,為了更好地對比所提組合模型與單一LSTM模型之間的預測性能,將分別設置提前1小時預測的縱向對比實驗。針對CEEMDAN-ARIMA-LSTM模型展開的具體實驗過程如下。
首先采用CEEMDAN算法將原始負荷數據進行分解,加入I=500組的白噪聲信號,標準差設置為0.2,分解后得到的子序列圖如圖3所示。
圖3 CEEMDAN算法分解結果
依據提取順序,將第一個IMF分量(圖中IMF1)視為噪聲并剔除,剩余的IMF分量均代表著原始數據中不同的非線性特征,在本實驗中視為同類模式,計算其累加和并將其視作高頻成分,殘余分量(圖中R10)視為低頻成分。重構后的信號曲線如圖4所示。
圖4 重構后的高頻與低頻信號
接下來分別利用ARIMA和LSTM模型對重構后的低頻成分和高頻成分進行擬合和預測,兩個模型的主要實驗參數設置如表2所示。
表2 各模型實驗參數設置
利用CEEMDAN-ARIMA-LSTM模型以及單一LSTM模型對2011年11月28日至2011年11月30日的電力負荷進行預測所得到的曲線如圖5所示。
圖5 CEEMDAN-ARIMA-LSTM與單一LSTM模型預測結果對比圖
從圖5可以看出,CEEMDAN-ARIMA-LSTM組合模型與單一的LSTM模型相比,預測得到的曲線更加貼合真實曲線,尤其波峰和波谷位置的改善效果最為明顯。為了對預測性能進行更加科學準確的評估,表3計算了兩個模型的性能指標。
表3 各模型預測性能指標
實驗結果表明,在利用信號處理方法將原始負荷序列進行分解后,基于高頻與低頻信號建立的組合預測模型的預測能力要明顯優(yōu)于單一的模型。其中CEEMDAN-ARIMA-LSTM模型較單一LSTM模型的MAPE值降低了0.38%,MSE值降低了29546.26。探究其原因正是在于利用多種異質的學習機搭建的組合模型,克服了單一預測模型受限于本身固有結構而存在性能上限的缺陷,實現了模型之間的優(yōu)勢互補,進而提高預測精度。
為了進一步驗證所提算法的優(yōu)越性,增加不同組合模型之間預測性能優(yōu)劣的對比,本實驗還將AutoEncode-VMD-BP組合模型作為對照。兩種組合模型預測誤差曲線如圖6所示。
圖6 組合模型預測誤差曲線圖
顯然,基于深度學習LSTM神經網絡建立的組合預測模型預測能力優(yōu)于基于淺層神經網絡BPNN建立的組合預測模型,其中CEEMDAN-ARIMA-LSTM模型在各點的預測誤差基本控制在[-400,200]之間,這也直接顯示了深度學習在挖掘數據間潛在非線性關系方面的優(yōu)秀能力,進一步驗證了本文所提算法的優(yōu)越性。
本文首先基于LSTM網絡和BP神經網絡,研究了利用基于隨機森林的平均不純度減少法對原始數據集進行有效降維后在提升電力負荷預測效果方面的影響,并在完成特征降維的基礎上,提出了基于信號分解的組合預測模型CEEMDAN-ARIMA-LSTM。實驗結果表明,在考慮多類外部影響因素的電力負荷預測過程中,采用有效的特征篩選方法剔除次要影響變量可以顯著提高模型的學習效率,改善模型的預測性能。此外,本文所提出的新的組合預測模型與單一LSTM模型以及AutoEncode-VMD-BP模型相比,MAPE值達到0.77%,具有更高的預測精度,說明融合信號處理技術與深度學習的組合預測模型能夠有效突破單一模型的預測瓶頸,具有更高的預測精度和工程應用價值。