李晶晶,張永敏,田桂林,崔勝勝,嚴潔
(國網(wǎng)青海省電力公司營銷服務中心,青海西寧 810000)
數(shù)據(jù)驅動是實現(xiàn)數(shù)據(jù)監(jiān)測、分析、研究的重要手段,目前網(wǎng)絡用戶的數(shù)據(jù)量大幅度上升,數(shù)據(jù)驅動空間的負荷預測對于保證數(shù)據(jù)的安全可靠分析、降低數(shù)據(jù)分析成本、提高數(shù)據(jù)分析效率、合理規(guī)劃數(shù)據(jù)使用領域具有關鍵性作用。針對數(shù)據(jù)的數(shù)量大、種類多、隨機性強等特性,傳統(tǒng)的基于CNN 神經(jīng)網(wǎng)絡的數(shù)據(jù)驅動空間負荷預測方法采用誤差傳播算法確定數(shù)據(jù)訓練層次,不斷調整數(shù)據(jù)權值,預測數(shù)據(jù)內部空間負荷。但由于缺少對采集數(shù)據(jù)的處理步驟,且計算流程復雜,導致該模型的預測精度低、速度慢,不能滿足當前社會的應用需求[1-3]。
基于以上模型的應用弊端,該文提出了基于LSTM 神經(jīng)網(wǎng)絡的數(shù)據(jù)驅動空間負荷預測方法,在構建LSTM 神經(jīng)網(wǎng)絡預測模型的基礎上分析處理數(shù)據(jù),確定模型內部的輸出量,確定LSTM 神經(jīng)網(wǎng)絡結構,從而對數(shù)據(jù)驅動空間負荷進行精準預測。經(jīng)過對比實驗驗證,該方法可以提高預測能力,減小預測誤差。
神經(jīng)網(wǎng)絡的本質是通過模擬人腦的神經(jīng)元在相應的網(wǎng)絡架構中設置算法節(jié)點,從而利用計算機模擬人腦進行數(shù)據(jù)學習,采用不同的算法解決不同的問題。LSTM 神經(jīng)網(wǎng)絡是以循環(huán)神經(jīng)網(wǎng)絡為基礎進行優(yōu)化改進的算法,能夠更完善地解決數(shù)據(jù)訓練中的梯度消失問題[4-5]。
利用LSTM 神經(jīng)網(wǎng)絡建立數(shù)據(jù)驅動空間負荷預測模型的優(yōu)勢在于能夠在短時間內處理序列,通過預測模型確定隱藏單元,通過多個神經(jīng)元的合力分析隱藏單元之間的關系,從而確定訓練數(shù)據(jù)間隱含的映射關系,且輸入特殊的時序促使該模型具有較高的訓練速度的同時,對長周期依賴型數(shù)據(jù)也具有較好的學習能力。
針對長周期的數(shù)據(jù)驅動空間負荷數(shù)據(jù),基于LSTM 神經(jīng)網(wǎng)絡的預測模型采用循環(huán)機理,前一層神經(jīng)元輸出的時間點保持與下一層神經(jīng)元輸入的時間點相同,在預測歷史數(shù)據(jù)的同時,也能避免發(fā)生隨著時間延遲導致忘記歷史數(shù)據(jù)規(guī)律的問題[6]。各層次的神經(jīng)元以鏈式結構相連接,使各神經(jīng)元的分析數(shù)據(jù)能夠在網(wǎng)絡結構中相互傳遞,且為解決梯度下劃問題,采用特定的“門結構”保證各神經(jīng)元數(shù)據(jù)傳遞的穩(wěn)定性和完整性。即采用輸入門和輸出門控制數(shù)據(jù)的輸入和輸出,利用遺忘門記錄數(shù)據(jù)訓練規(guī)律,保證模型訓練的可持續(xù)性,基于LSTM 神經(jīng)網(wǎng)絡的預測模型結構示意圖如圖1 所示。
對基于LSTM 神經(jīng)網(wǎng)絡的數(shù)據(jù)驅動空間負荷預測方法而言,數(shù)據(jù)預處理和分析是保障數(shù)據(jù)真實性和可靠性的關鍵步驟。在數(shù)據(jù)采集過程中,由于采集設備參數(shù)錯誤或人為操作誤差,可能導致采集數(shù)據(jù)殘缺、重復等情況,一旦需要處理數(shù)據(jù)與實際數(shù)據(jù)存在一定的偏差,最終的預測結果則不具有代表性[7-8]。該文為了保證數(shù)據(jù)驅動空間負荷預測的準確性,在數(shù)據(jù)訓練前,通過數(shù)據(jù)預處理,確定內部的殘缺數(shù)據(jù),去除重復數(shù)據(jù)。
數(shù)據(jù)驅動空間數(shù)據(jù)具有周期性特征,根據(jù)數(shù)據(jù)的此項特征,該文的數(shù)據(jù)預處理操作不僅更新了數(shù)據(jù)處理的流程,而且也擴展了數(shù)據(jù)采集的范圍。在數(shù)據(jù)采集前,需要獲取數(shù)據(jù)驅動空間負荷數(shù)據(jù)100 s 前和100 s 后兩個不同時刻的神經(jīng)網(wǎng)絡數(shù)據(jù)。考慮到LSTM 神經(jīng)網(wǎng)絡模型對于尺度數(shù)據(jù)具有敏感性,因此該文會將初次采集到的數(shù)據(jù)進行歸一化處理,保證采集數(shù)據(jù)的完整性,降低數(shù)據(jù)輸入輸出量選擇的難度,以提高數(shù)據(jù)驅動空間負荷預測的準確性。具體的歸一化處理公式如式(1)所示:
式(1)中,X表示初次采集到的數(shù)據(jù)驅動空間負荷數(shù)據(jù);Xmin表示采集到網(wǎng)絡數(shù)據(jù)的最小值;Xmax表示原始單個數(shù)據(jù)的最大值;Xnorm表示歸一化處理后單個數(shù)據(jù)的中間值;h表示歸一化處理的尺度大小。
為了保證數(shù)據(jù)預處理操作的公平性和科學性,使數(shù)據(jù)計算的收斂速度保持穩(wěn)定,該文設計的數(shù)據(jù)預處理操作頻率為10分鐘處理一個數(shù)據(jù),并且將48個數(shù)據(jù)作為一個單位矩陣[9-10]。數(shù)據(jù)預處理操作的準備工作完成后,具體的數(shù)據(jù)預處理流程如下所示:
步驟一:將采集到的數(shù)據(jù)進行有效性檢驗,檢驗公式如式(2)所示:
式(2)中,p表示檢驗閾值;Xn,j表示采集數(shù)據(jù)時數(shù)據(jù)的修正數(shù)據(jù);j表示數(shù)據(jù)關聯(lián)的兩個橫向負荷點;ε表示與數(shù)據(jù)相關聯(lián)的兩個日負荷點;Xˉ表示數(shù)據(jù)整體的規(guī)范平均值。
步驟二:若數(shù)據(jù)元素的計算結果不滿足式(2),則此數(shù)據(jù)不具有計算意義,拋出并重新訓練,直至全部輸出滿足式(2)的計算結果,進行步驟三。
姐姐先把消息截屏下來,再把消息刪除,然后把消息截屏發(fā)到她的手機上并刪除消息,最后再把媽手機上的截屏給刪掉,整件事看不出一點破綻。
步驟三:將完成所有檢驗的有效數(shù)據(jù),以數(shù)據(jù)量為單位隨機分成若干組,然后進行數(shù)據(jù)量的排序。
步驟四:排序后,按照序列將所有數(shù)據(jù)變換處理為矩陣的形式,為神經(jīng)網(wǎng)絡結構的確定奠定計算基礎[11]。
數(shù)據(jù)輸入輸出量選擇的目的是提供數(shù)據(jù)神經(jīng)網(wǎng)絡訓練的對象,達到確定神經(jīng)網(wǎng)絡結構的目的。數(shù)據(jù)輸入輸出量的選擇與數(shù)據(jù)的負荷值和時間曲線有關,時間曲線表現(xiàn)出數(shù)據(jù)的可變化性,數(shù)據(jù)的負荷值表現(xiàn)出數(shù)據(jù)的可用性[12-13]。
對于LSTM 數(shù)據(jù)輸入輸出量的確定,首先兩個數(shù)據(jù)必須要滿足一定的時間間隔,對于網(wǎng)絡數(shù)據(jù)的訓練才具有意義。輸入輸出量的選擇要經(jīng)過兩個階段的選擇訓練,第一次數(shù)據(jù)的選擇通過時間序列模型進行計算,主要目的是選擇出具有時間間隔的輸入輸出變量;第二次數(shù)據(jù)的選擇通過自相關模型,借用單一維度理論思想,即僅從一個角度選擇自相關模型,以選擇出滿足負荷相關性的輸入輸出變量,LSTM 的單元結構如圖2 所示。
傳統(tǒng)的神經(jīng)網(wǎng)絡結構確定方法的原理是在基礎上嵌套多個網(wǎng)絡完成計算,為了打破此計算模型,該文設計的兩種神經(jīng)網(wǎng)絡結構都是在一個網(wǎng)絡的層次上完成計算,在保證結果準確度的基礎上,確定神經(jīng)網(wǎng)絡結構。因為數(shù)據(jù)的格式不同,為了保證LSTM 神經(jīng)網(wǎng)絡結構的精密度,該文根據(jù)神經(jīng)網(wǎng)絡結構的規(guī)范,對應不同的輸入輸出變量分別采用多模型單變量預測方法和單模型多變量預測方法完成。
主要操作流程如圖3 所示。
2)確定數(shù)據(jù)輸入輸出節(jié)點的數(shù)量,根據(jù)數(shù)據(jù)節(jié)點的數(shù)據(jù)量,確定執(zhí)行哪一種LSTM 神經(jīng)網(wǎng)絡結構預測方法,提高預測的效率和準確性。
3)按照需求調用多模型單變量預測方法或者單模型多變量預測方法,經(jīng)過計算確定出最終的LSTM神經(jīng)網(wǎng)絡結構,輸出即可。其中,多模型單變量預測方法的原理是不斷地重新擬合每個數(shù)據(jù)變量的網(wǎng)絡,將所有數(shù)據(jù)遍歷完成后,輸出LSTM 神經(jīng)網(wǎng)絡結構結果[14-16]。多模型單變量預測方法可以面向所有類型的數(shù)據(jù),此方法的優(yōu)點是所構建的計算網(wǎng)絡較小,對于參數(shù)計算的收斂速度較小,反應速度較快。單模型多變量預測方法的原理是將數(shù)據(jù)每個時刻的值作為關聯(lián)因素,確定神經(jīng)網(wǎng)絡結構,所面向的對象是具有鮮明時刻特征的網(wǎng)絡數(shù)據(jù)。此方法的優(yōu)點是確定過程簡單,容易分析。
為驗證該文研究的基于LSTM 神經(jīng)網(wǎng)絡的數(shù)據(jù)驅動空間負荷預測方法的實際預測效果,選取2019年EUNIT 負荷數(shù)據(jù)競賽中競賽數(shù)據(jù)為訓練數(shù)據(jù)樣本,共計8 784(24×366)個數(shù)據(jù)樣本,根據(jù)模型運行需求設置實驗參數(shù)和實驗環(huán)境,同時采用該文研究的預測方法和傳統(tǒng)基于CNN 神經(jīng)網(wǎng)絡的數(shù)據(jù)驅動空間負荷預測方法進行數(shù)據(jù)訓練,對比兩種預測方法的預測精度和預測效率。
實際數(shù)據(jù)訓練過程中,采用損失值表示兩種預測方法的預測精度。在某種程度上,數(shù)據(jù)訓練損失值等價于訓練誤差,在數(shù)值上表示預測值與真實值之間的預測均方差,實驗中,將設置的訓練數(shù)據(jù)樣本輸入兩種預測模型中進行3 000 次數(shù)據(jù)迭代訓練,隨著數(shù)據(jù)迭代訓練次數(shù)的增加,分析模型預測過程損失的數(shù)據(jù),實驗結果如圖4 和圖5 所示。
從對兩種預測模型的損失值分析結果中可以看出,在前500 次數(shù)據(jù)迭代訓練中,兩種模型的損失值處于快速下降狀態(tài),當數(shù)據(jù)迭代訓練達到1 000 次后,兩種模型的損失值趨于穩(wěn)定狀態(tài)。對比兩種模型的損失值差異可知,傳統(tǒng)基于CNN 神經(jīng)網(wǎng)絡的數(shù)據(jù)驅動空間負荷預測方法的損失值的穩(wěn)定值為0.4,而該文提出的基于LSTM 神經(jīng)網(wǎng)絡的數(shù)據(jù)驅動空間負荷預測方法的損失值的穩(wěn)定值為0.2,且在預測過程中,該文提出的預測方法的預測結果與訓練數(shù)據(jù)的吻合度較高,由此可以得出結論,該文提出的預測方法的預測精度更高。原因在于,該文提出的預測方法針對采集數(shù)據(jù)進行了一系列的數(shù)據(jù)預處理,除去重復數(shù)據(jù),保證訓練數(shù)據(jù)的完整性,控制神經(jīng)元的輸入輸出量,結合相應的LSTM 神經(jīng)網(wǎng)絡結構選擇合適的預測方法,提升預測精度。
經(jīng)過預測精度對比后,對比兩種預測方法的訓練速度,得到的預測速度對比結果如圖6 所示。
從圖6 可以看出,針對該次實驗設置的8 000(20×400)個數(shù)據(jù)樣本,該文提出的基于LSTM 神經(jīng)網(wǎng)絡的數(shù)據(jù)驅動空間負荷預測方法完成8 000 個數(shù)據(jù)迭代訓練的時間為1.23 s,而傳統(tǒng)基于CNN 神經(jīng)網(wǎng)絡的數(shù)據(jù)驅動空間負荷預測方法完成8 000 個數(shù)據(jù)迭代訓練的時間為3.56 s,由此可以看出,該文提出的預測方法預測效率更高。區(qū)別在于該文提出的方法引入神經(jīng)網(wǎng)絡,對數(shù)據(jù)模型能夠很好地進行關聯(lián)分析,具有較高的時間序列控制,且支持多種算法的融合計算,提升了數(shù)據(jù)處理能力,加快了預測速度。
為了解決現(xiàn)有方法針對長周期的數(shù)據(jù)驅動空間數(shù)據(jù),在計算過程中,由于時間間隔較長,易遺忘上一步驟的預測結果,往往需要進行多次計算,導致預測時間較長的問題,該文基于LSTM 神經(jīng)網(wǎng)絡提出了一種用于長周期數(shù)據(jù)驅動空間負荷預測方法,經(jīng)過對比實驗分析,利用LSTM 神經(jīng)網(wǎng)絡,分析內部驅動數(shù)據(jù),提高處理性能,有效降低訓練數(shù)據(jù)的空間維度,深入挖掘數(shù)據(jù)價值,相較于對比方法,具有更好的預測性能。