黃 荷,陳 杰,李毅靖,鄭 鐘,吳元林
(1.國網(wǎng)福建省電力有限公司,福建 福州 350001;2.國網(wǎng)信通億力科技有限責任公司,福建 福州 350001)
在電力數(shù)據(jù)挖掘中,對電力系統(tǒng)的安全評估和電網(wǎng)的規(guī)劃及預測是最重要的研究方向[1]。精準的負荷預測,可以為電力企業(yè)制定合理的發(fā)電計劃,降低電力損耗,提高電網(wǎng)的安全,對于電力用戶來說,精準的負荷預測,能夠使用戶錯峰填谷,提高電能利用率,降低用電費用[2-3]。
隨著智能電網(wǎng)和大數(shù)據(jù)技術(shù)的飛速發(fā)展,近年來,電力數(shù)據(jù)挖掘方法引起了人們的廣泛關(guān)注。文獻[4]提出電力數(shù)據(jù)使智慧城市的重要成分,并分別從用電行為,負荷需求流向,區(qū)域成熟度等方面分析了數(shù)據(jù)挖掘?qū)χ腔鄢鞘械木薮笞饔?。文獻[5]針對電力數(shù)據(jù)挖掘?qū)﹄娋W(wǎng)規(guī)劃建設,安全評估,負荷預測,故障診斷等方向的作用,并對數(shù)據(jù)挖掘在智慧城市的發(fā)展上的推動作用進行了分析。文獻[6]為了提高電力數(shù)據(jù)挖掘的準確性,采用蟻群聚類優(yōu)化方法對粗糙數(shù)據(jù)特征進行分類,剔除干擾信息,從而獲得準確的電力數(shù)據(jù)檢測結(jié)果。文獻[7]提出了一種基于低秩的電力數(shù)據(jù)異常檢測方法,并應用拉格朗日方法優(yōu)化目標方程,能夠有效檢測出智能電網(wǎng)種的異常信息和有害信息。文獻[8]針對海洋電力數(shù)據(jù)挖掘問題,提出了一種基于節(jié)點動態(tài)性能值得處理方法,相比于傳統(tǒng)的MapReduce算法,具有更快的處理速度和更高的穩(wěn)定性。
針對電網(wǎng)大數(shù)據(jù)挖掘的方法越來越多,但是如何在具有不同特征的數(shù)據(jù)中挖掘出更高的知識,還未見有相關(guān)研究。本文針對數(shù)據(jù)特征不同的電力數(shù)據(jù)集,采用GRU-MMD方法建立準確的數(shù)據(jù)分析模型,獲得期望輸出結(jié)果。
GRU (Gated Recurrent Unit,簡稱 GRU)是在長短期循環(huán)神經(jīng)網(wǎng)絡的基礎(chǔ)上發(fā)展起來的一種神經(jīng)網(wǎng)絡[9]。GRU的學習過程如圖1所示。
圖1 GRU單元結(jié)構(gòu)
如圖1所示,GRU的實現(xiàn)過程如式(1)~式(7)所示。
(1)
(2)
(3)
(4)
(5)
(6)
(7)
在采用GRU對電力用戶進行短期負荷預測的時候,預測流程如圖2所示[10]。
圖2 基于GRU的短期負荷預測流程
將電力用戶每天的用電情況作為一個樣本P,每隔15 min采集一次電力負荷,每天96個數(shù)據(jù)。P的維度為96。P1是待負荷預測日7天前某天的用電情況。Dp,Wp,Tp指的是負荷預測當天的日期,氣象和溫度情況。Pp指的是負荷預測值。
對于傳統(tǒng)的機器學習來說,樣本的訓練數(shù)據(jù)和測試數(shù)據(jù)由同一個特征空間產(chǎn)生,當樣本數(shù)據(jù)不是處于同一個特征空間的時候,就需要耗費大量資源去采集合適的樣本數(shù)據(jù)。遷移學習為深度學習的深入發(fā)展提供了新思路,通過將先驗知識轉(zhuǎn)換到其他相關(guān)的任務上,以提高相關(guān)任務的處理效率和準確性[11-12]。遷移學習包括領(lǐng)域(Domain)和任務(Task)。
領(lǐng)域是學習的主體。領(lǐng)域包括特征空間χ和邊緣分布概率P(X),且X=(x1,x2,…,xn)∈χ。若領(lǐng)域不同,則特征空間或邊緣概率分布也不同。設領(lǐng)域D={χ,P(X)},任務T={y,P(Y|X)}。y 指的是標簽空間,P{Y|X}為條件概率,通常情況下P{Y|X}沒有具體形式。目標函數(shù)的預測函數(shù)通過樣本數(shù)據(jù)對{xi,yi}得到。
遷移學習包括源領(lǐng)域Ds(Source domain)及目標領(lǐng)域DT(Target domain)[13]。源領(lǐng)域包含的信息對模型預測具有重要價值,是遷移的對象[14]。目標域指的是待解決問題。任務同樣包含源領(lǐng)域任務TS和目標領(lǐng)域任務TT。 遷移學習就是通過推理學習源領(lǐng)域的規(guī)則,得到目標領(lǐng)域的輸出結(jié)果,解決目標問題。表示過程為:源領(lǐng)域DS和TS,當DS≠DT,TS≠TT,推理得到目標域DS≠DT的預測輸出f(·)。
圖3為遷移學習的基本示例。當遷移學習應用在圖像識別的時候,源領(lǐng)域包含了大量的圖像,目標領(lǐng)域只含有少量數(shù)據(jù),則通過訓練源領(lǐng)域的數(shù)據(jù),獲取知識后,推理出目標域的預測輸出[15]。在電力數(shù)據(jù)挖掘當中,將待挖掘的電力區(qū)域作為目標領(lǐng)域,將歷史數(shù)據(jù)或ita電網(wǎng)作為源領(lǐng)域。
圖3 遷移學習示例
MMD(maximum mean discrepancy, 簡稱MMD)最初是用于判斷兩個樣本的分布是否一樣。在將MMD與遷移學習相結(jié)合的時候,MMD將源領(lǐng)域與目標領(lǐng)域通過推理聯(lián)系在了一起。MMD在樣本空間確定函數(shù)f,獲取兩類樣本數(shù)據(jù)的平均值,計算兩類數(shù)據(jù)的均值差異。當確定的f能夠使均值差異最大化的時候,則將差異值作為這兩類數(shù)據(jù)的MMD。MMD越小,則認為兩類數(shù)據(jù)的分布相似度越高,相反,MMD越大,則表示兩類數(shù)據(jù)分布的相似度越小。綜上所述,MMD是用來衡量兩類數(shù)據(jù)分布的相似程度。MMD的實現(xiàn)過程如下所述。
設F為樣本空間連續(xù)函數(shù),存在式(1):
設X,Y分別為p和q中采集的樣本數(shù)據(jù)。X和Y的數(shù)據(jù)量分別為m,n。則MMD的經(jīng)驗估計表示為式(2):
(2)
從式(2)可以看出,只有當p,q分布相同時,MMD才等于0。當處理的數(shù)據(jù)量較大的時候,對F進行限定才能加快收斂。當F為再生核希爾伯特空間的單位球時,能夠?qū)崿F(xiàn)MMD快速收斂??稍偕讼柌乜臻g的特征,采用點積來描述f→f(x)的映射,可以表示為式(3)。
f(x)=〈f,φ(x)〉H
(3)
用up和uq替換Ep[φ(x)]和Eq[φ(x)],可得式(4)。
‖up-uq‖H
(4)
對式(4)兩邊求平方,可得式(5)。
MMD2[F,p,q]=Ep〈φ(x),φ(x′)〉H+Ep〈φ(y),φ(y′)〉H-2Ep,q〈φ(x),φ(y)〉H
(5)
采用徑向基核函數(shù)代替內(nèi)積。
(6)
則MMD的求解公式可以轉(zhuǎn)換為式(7)。
(7)
從式(7)中可以看出,MMD通過距離來判斷樣本相似程度。
在采用深度學習對電網(wǎng)進行數(shù)據(jù)挖掘的時候,引入MMD方法后的實現(xiàn)過程如圖4所示。
圖4 基于深度學習和遷移學習的電力數(shù)據(jù)流程圖
在對源領(lǐng)域和目標領(lǐng)域的數(shù)據(jù)進行數(shù)據(jù)預處理之后,取源領(lǐng)域的數(shù)據(jù)訓練神經(jīng)網(wǎng)絡的結(jié)構(gòu)。采用MMD方法求解源領(lǐng)域和目標領(lǐng)域之間的差異值,并根據(jù)差異情況調(diào)整網(wǎng)絡的結(jié)構(gòu),獲取新的結(jié)構(gòu)。當MMD值小于設定閾值a時,表示源領(lǐng)域和目標領(lǐng)域分布類似,則網(wǎng)絡的結(jié)構(gòu)不用調(diào)整。當MMD的值處于設定閾值[a,b]之間的時候,則對網(wǎng)絡的結(jié)構(gòu)進行重新調(diào)整,以提高模型的知識學習能力。若MMD的值超過b,表示源領(lǐng)域與目標領(lǐng)域的差異較大,不適合遷移學習。
基于GRU的短期負荷預測遷移學習模型如圖5所示。如果源領(lǐng)域與目標領(lǐng)域的MMD小于a的時候,采用左側(cè)網(wǎng)絡結(jié)構(gòu)獲得輸出。若源領(lǐng)域與目標領(lǐng)域的MMD處于[a,b]之間,則采用圖5右側(cè)的經(jīng)過遷移學習后的網(wǎng)絡結(jié)構(gòu)求取輸出。采用此種結(jié)構(gòu)對線路跳閘故障進行預測,降低了學習率,提高了預測精度。
圖5 短期負荷預測的遷移學習模型
為了驗證本文所提的數(shù)據(jù)挖掘?qū)W習模型的準確性,進行了算例仿真。仿真用數(shù)據(jù)來自廣東省東莞市電力局,采集時間為2016—2018年。仿真用計算機為聯(lián)想,CPU cori i5 9400,內(nèi)存8G。仿真的GRU參數(shù)設置如表1所示。
表1 GRU網(wǎng)絡參數(shù)
本文將采用目標領(lǐng)域數(shù)據(jù)訓練得到的模型作為模型1。采用源領(lǐng)域數(shù)據(jù)訓練的模型,然后采用目標領(lǐng)域數(shù)據(jù)進行微調(diào)的模型作為模型2。采用源領(lǐng)域數(shù)據(jù)訓練得到的模型,再根據(jù)目標領(lǐng)域數(shù)據(jù)對網(wǎng)絡的所有參數(shù)進行調(diào)整的模型作為模型3。源領(lǐng)域和目標領(lǐng)域的樣本分別為36 000和9 000。選用MAPE作為評價網(wǎng)絡模型準確度的標準。
案例A:當目標域和源領(lǐng)域數(shù)據(jù)健全的情況下,建立三種預測模型的MAPE與MMD的預測關(guān)系曲線如圖6所示。
圖6 案例A的MMD與MAPE的關(guān)系曲線
案例B:當目標域數(shù)據(jù)不全的時候,建立三種預測模型的MAPE與MMD的預測關(guān)系曲線如圖7所示。
圖7 案例B的MMD與MAPE的關(guān)系曲線
由于線路共有36條線路,選取前33個作為源數(shù)據(jù),剩余的作為目標數(shù)據(jù)。含遷移學習以及不含遷移學習的MAPE結(jié)果如圖8所示。與其他現(xiàn)有的負荷預測方法對比結(jié)果如表2所示,其中BP1,LSTM1,GRU為未引入遷移學習的算法,BP2,LSTM2及本文所提方法為引入遷移學習的算法。
圖8 負荷預測MAPE結(jié)果對比
表2 各種算法MAPE對比結(jié)果 %
從圖6可以看出,源領(lǐng)域和目標領(lǐng)域的MMD影響著遷移學習的結(jié)果。當MMD很小的時候,模型1高于模型2的預測精度。當MMD較大的時候,模型2的預測精度高于模型1,此時模型2能夠有效遷移模型1的知識,通過引入新的層提高網(wǎng)絡的學習能力。
從圖7可以看出,MMD較小的時候,模型1具有更好的預測能力。隨著MMD的增大,會出現(xiàn)負遷移情況。當MMD較小的時候,在網(wǎng)絡中引入新層會導致過擬合。當MMD≤0.24,采用模型1進行預測。當 MMD≥0.24,存在負遷移情況,需要更換源領(lǐng)域數(shù)據(jù)重新建立模型。
從圖8可以看出,經(jīng)過遷移學習之后,提升了負荷預測的準確定,降低了訓練耗時。相比于其他現(xiàn)有的負荷預測方法,本文所提的方法具有最高的預測精度,說明本文所提的方法更適用于電力數(shù)據(jù)挖掘。
為了提高電力數(shù)據(jù)利用率和數(shù)據(jù)挖掘的效率,本文提出了GRU-MMD的電力數(shù)據(jù)挖掘方法。對采集的電力數(shù)據(jù)進行數(shù)據(jù)預處理,然后采用MMD方法分析源領(lǐng)域和目標領(lǐng)域的數(shù)據(jù)的差異,根據(jù)差異值決定是否調(diào)整GRU網(wǎng)絡模型。經(jīng)過仿真實驗分析,驗證了本文所提的方法能夠提高數(shù)據(jù)挖掘的精度,有益于電力大數(shù)據(jù)的準確建模。