岳寶強, 楊波, 李彪, 曲小康, 魏飛
(國網(wǎng)山東省電力公司臨沂供電公司, 山東, 臨沂 276000)
由于電網(wǎng)處于動態(tài)運行狀態(tài),電網(wǎng)產(chǎn)生的電量大數(shù)據(jù)也處于實時變化的狀態(tài),因此需要對電量大數(shù)據(jù)進行實時多維感知,及時發(fā)現(xiàn)電網(wǎng)出現(xiàn)的故障以及異常情況[1]。
文獻[2]提出了基于邊緣計算的電力數(shù)據(jù)感知自適應(yīng)處理方法,設(shè)計了基于計數(shù)Bloom濾波器的邊緣節(jié)點數(shù)據(jù)自適應(yīng)感知機制,能夠自動識別電力數(shù)據(jù)類別與對應(yīng)字段,還設(shè)計了可移植的文件尾識別插件,能夠?qū)?shù)據(jù)副本管理系統(tǒng)的邊緣節(jié)點進行感知和自適應(yīng)處理,但該方法的感知敏感度較差。文獻[3]提出了基于智能感知的電力多元數(shù)據(jù)處理方法,利用電力數(shù)據(jù)智能感知設(shè)備采集基礎(chǔ)電力數(shù)據(jù),以數(shù)據(jù)集成整合的方式獲得電力多元數(shù)據(jù)集群,挖掘熱點信息數(shù)據(jù),通過聚類、遷移等方式處理電力多元數(shù)據(jù)集,但該方法的感知結(jié)果不夠準確。
為了解決以上研究成果的不足,本文提出基于數(shù)據(jù)挖掘技術(shù)和LSSVM算法的電量大數(shù)據(jù)多維感知方法。本文的創(chuàng)新點在于數(shù)據(jù)挖掘技術(shù)和LSSVM算法的融合與應(yīng)用,基于數(shù)據(jù)挖掘技術(shù)處理的數(shù)據(jù),利用LSSVM算法的高維模式識別優(yōu)勢,彌補傳統(tǒng)單維預(yù)測方法的不足,采用經(jīng)驗風險極小化準則,用核函數(shù)來求解非線性回歸問題,從而獲得準確度較高的感知結(jié)果,提升電量大數(shù)據(jù)的感知性能,進而增強電量大數(shù)據(jù)的應(yīng)用價值。
圖1為關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘過程。
圖1 多維電量數(shù)據(jù)挖掘流程圖
按照圖1在給定的數(shù)據(jù)集中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,其任務(wù)就是發(fā)現(xiàn)事物之間的相關(guān)性。關(guān)聯(lián)規(guī)則可以表示為
(1)
式(1)中,Ai和Bi分別表示不同維度的數(shù)據(jù)規(guī)則。由電量數(shù)據(jù)挖掘的內(nèi)容確定聚類量,進而構(gòu)造相似矩陣,對隸屬度矩陣和加權(quán)指數(shù)進行初始化,直至達到式(2)所表示的約束條件。
(2)
式(2)中,變量uij表示第j個電量數(shù)據(jù)屬于第i類的隸屬度。根據(jù)實時數(shù)據(jù)挖掘的結(jié)果隨機選擇聚類中心,并更新聚類中心矩陣[4-6]。當達到最大迭代次數(shù)時,停止聚類并輸出新的電量數(shù)據(jù)矩陣,最終根據(jù)結(jié)果由隸屬度矩陣確定數(shù)據(jù)對象的所屬類別,以此作為電量數(shù)據(jù)的多個維度。進行數(shù)據(jù)感知時,要求按地區(qū)和月、年進行分析,所以在創(chuàng)建多維數(shù)據(jù)集時要加上地區(qū)維和時間維,且兩維度均為共享維[7]。通過數(shù)據(jù)的分類存儲,以及數(shù)據(jù)維度的添加,得出電量數(shù)據(jù)多維模型的構(gòu)建結(jié)果。
1.2.1 填補缺失數(shù)據(jù)
由采集的原始用電數(shù)據(jù)集確定因變量和自變量,提取缺失數(shù)據(jù)位置前后5個數(shù)據(jù),并將10個數(shù)據(jù)組成一組,利用式(3)對電量數(shù)據(jù)中缺失的所有數(shù)據(jù)依次進行插值填補。
(3)
式(3)中,x和xi分別表示電量數(shù)據(jù)的均值和缺失值,yi表示非缺失電量數(shù)據(jù),Ln(x)表示缺失電量數(shù)據(jù)的插值填補結(jié)果。將挖掘的所有電量數(shù)據(jù)按照式(3)進行處理,保證挖掘數(shù)據(jù)的完整性。
1.2.2 修正錯誤數(shù)據(jù)
定義電量數(shù)據(jù)錯誤的判定條件如下:
(4)
式(4)中,變量y(t-1)、y(t)和y(t+1)分別表示在t-1、t和t+1時刻的數(shù)據(jù)挖掘結(jié)果,χ1和χ2表示設(shè)置的判定閾值。若待處理數(shù)據(jù)滿足式(4)的判定條件,則將其代入式(5)進行錯誤修正處理。
(5)
根據(jù)式(5)的處理方式,將前后正常數(shù)據(jù)的平均值賦值給錯誤數(shù)據(jù),完成對錯誤數(shù)據(jù)的修正處理。
1.2.3 數(shù)據(jù)標準化
為避免出現(xiàn)計算飽和現(xiàn)象,按照式(6)對初始數(shù)據(jù)進行歸一化處理。
y′(t)=lg(y(t))
(6)
最終得出的結(jié)果y′(t)即為標準化處理后的數(shù)據(jù)。通過對異常數(shù)據(jù)的修正與標準化處理,最終完成對多維電量大數(shù)據(jù)的預(yù)處理。
由于電量數(shù)據(jù)時間上具有周期性的特點,需要按照周期對該時間序列進行特征提取,因此通過分析電量數(shù)據(jù)在時序上的特點,分別從趨勢性指標、變動性指標及負荷特征指標等3個方面對其進行特征提取。其中,電量上升與下降趨勢特征的量化提取結(jié)果如下:
(7)
式(7)中,at和bl分別表示低于或高于標準值的電量數(shù)據(jù),l表示數(shù)據(jù)總量。變動性指標是指用戶用電模式前后的差異度,主要包括前r日和后r日電量平均值之間的差異,以及目標時間前后快速傅里葉變換的系數(shù)序列差,計算公式如下:
(8)
式(8)中,Y1和Y2分別表示前后r日的快速傅里葉變換系數(shù)序列。負載特性指標主要包括每天不同時段的用電數(shù)據(jù)的峰谷差、峰期負荷率、平期負荷率、谷期負荷率等,峰谷差反映了電網(wǎng)的調(diào)峰能力,峰期負荷率、平期負荷率和谷期負荷率分別反映了峰期負荷、平期負荷和谷期負荷的變化。以日峰谷差為例,特征指標提取結(jié)果如下:
(9)
式(9)中,Loadmax和Loadmin分別表示日電量負荷的最大值和最小值。同理可以得出其他負載特性指標的量化提取結(jié)果。
電量數(shù)據(jù)具有增長和季節(jié)性兩種趨勢,影響因素眾多且不確定。對于季節(jié)波動數(shù)據(jù),在未引入其他變量的情況下,單純依靠單一的電量數(shù)據(jù)建立預(yù)測模型進行預(yù)測,不能全面反映電網(wǎng)內(nèi)外相關(guān)因素與售電量的關(guān)系,因此本文利用LSSVM算法彌補單維預(yù)測方法的不足。LSSVM算法采用經(jīng)驗風險極小化準則,用核函數(shù)來求解非線性回歸的問題,對于給定的數(shù)據(jù)集(xi,yi)(見圖2),若能準確地由某一超平面分離,則該超平面的距離最大,稱為最優(yōu)超平面。
圖2中,L表示最優(yōu)超平面。由此,可以將原始最優(yōu)化問題量化表示為
(10)
式(10)中,ω、δ和ε分別表示多維電量數(shù)據(jù)特征的權(quán)重、偏移量和誤差,κ表示算法訓(xùn)練過程中的懲罰參數(shù),N表示提取的電量特征量。通過定義不同于標準SVM的損失函數(shù),LSSVM將不等式約束轉(zhuǎn)化為等式約束,得到了拉格朗日函數(shù)構(gòu)造的結(jié)果:
(11)
式(11)中,αi表示拉格朗日乘子。通過定義LSSVM算法的核函數(shù)得出最小二乘支持向量機的函數(shù)估計為
(12)
式(12)中,H(x,xi)表示核函數(shù),用來解決原始空間中不能線性回歸的問題。根據(jù)上述LSSVM算法的預(yù)測與迭代原理,在多維電負荷變化量的預(yù)測過程中,對相關(guān)參數(shù)進行優(yōu)化后,將所提取的多維電量特征數(shù)據(jù)和最佳參數(shù)導(dǎo)入LSSVM算法,通過訓(xùn)練得到相應(yīng)的預(yù)測模型,再輸入測試數(shù)據(jù),得到最終的電量變化預(yù)測結(jié)果為
(13)
式(13)中,Ele(t)和Ele(t+1)分別表示前后2個時刻的電量值。以式(13)的計算結(jié)果作為電量大數(shù)據(jù)的多維感知條件,與用戶的電量上限閾值進行對比,若電量感知值高于電量閾值,則判定當前存在電量越限情況,即用戶用電存在異常,否則判定該用戶處于正常用電狀態(tài),可以執(zhí)行下一時刻的數(shù)據(jù)感知。最終,將包含電量感知數(shù)據(jù)以及運行狀態(tài)的感知結(jié)果以可視化的形式輸出。
為了測試本文方法的感知性能,以國網(wǎng)山東電力數(shù)據(jù)中臺、“網(wǎng)上電網(wǎng)”PIS2.0系統(tǒng)、臨沂供電公司能源大數(shù)據(jù)中心、山東公共數(shù)據(jù)開放網(wǎng)作為數(shù)據(jù)來源設(shè)計測試實驗。截至2021年10月,供電網(wǎng)的供電總面積達到了502 km2,涉及供電居民數(shù)量約41.35萬人,2021年城市最高用電負荷為1 140 000 kW,平均月供電量為61 500 kW。
根據(jù)供電網(wǎng)電量的數(shù)據(jù)統(tǒng)計信息,以日為單位建立多維樣本數(shù)據(jù)集。在時間維度上,收集研究期間各個時刻的實際電量數(shù)據(jù),并生成波動曲線,如圖3所示。
在空間維度上,分別選擇供電區(qū)域內(nèi)的4個用電用戶的用電量數(shù)據(jù),如圖4所示。
圖4 各區(qū)域電量變化示意圖
將圖4的電量數(shù)據(jù)與圖3的時間維度數(shù)據(jù)融合,得到多維數(shù)據(jù)樣本,并平均分成4個組別,每個組別包含的電量數(shù)據(jù)量相同,以此作為驗證電量大數(shù)據(jù)多維感知是否正確的對比標準。
由于優(yōu)化設(shè)計的電量大數(shù)據(jù)多維感知方法應(yīng)用了數(shù)據(jù)挖掘技術(shù)和LSSVM算法,因此需要在開始實驗之前在實驗環(huán)境中分別設(shè)置數(shù)據(jù)挖掘和LSSVM算法的運行參數(shù)。設(shè)置樣本數(shù)據(jù)的連續(xù)挖掘時間為2 h,挖掘時間間隔為1.0 s。LSSVM算法中數(shù)據(jù)偏移量δ取值為0.5,懲罰參數(shù)κ取值為0.8,核函數(shù)選擇的是高斯徑向基核函數(shù)。此外,為了判定當前電量是否存在異常,設(shè)置用戶的電量上限閾值為1800 kW。
合理全面的擬合誤差和敏感度分析便于有效評判電量大數(shù)據(jù)多維感知方法的性能,因此選取擬合誤差作為感知性能的評價指標,其數(shù)值結(jié)果如下:
(14)
(15)
式(15)中,ΔT表示電量大數(shù)據(jù)多維感知的時間開銷。從式(15)可以看出,時間開銷與感知敏感度之間存在負相關(guān)關(guān)系,因此統(tǒng)計得出的時間開銷越大,證明對應(yīng)感知方法的敏感度越差。
將本文方法應(yīng)用到研究環(huán)境中,得出測試時段的數(shù)據(jù)感知結(jié)果,其中實驗組別1的感知輸出結(jié)果如圖5所示。
圖5 電量大數(shù)據(jù)多維感知結(jié)果
同理可以得出其他組別的電量大數(shù)據(jù)多維感知結(jié)果。為了體現(xiàn)本文方法的性能優(yōu)勢,將傳統(tǒng)的基于聚類算法的電量大數(shù)據(jù)感知方法作為實驗的對比方法,并保證在實際運行過程中2種方法的運行環(huán)境與處理樣本數(shù)據(jù)相同,以此控制實驗變量唯一。將2種感知方法的輸出結(jié)果與準備的樣本數(shù)據(jù)進行對比,得到反映感知精度的對比結(jié)果如圖6所示。
(a) 研究區(qū)域1
從圖6可知,本文方法得出的數(shù)據(jù)更接近設(shè)置的實際數(shù)據(jù)。將圖6中的數(shù)據(jù)代入式(14),可以得出對比方法與本文方法的平均擬合誤差分別為15.6 kW和7.2 kW,即本文方法的感知精度更高。這是因為本文通過填補缺失數(shù)據(jù)、修正錯誤數(shù)據(jù)和數(shù)據(jù)標準化等3個步驟對數(shù)據(jù)進行了預(yù)處理,從趨勢性、變動性及負荷等3個方面提取電量數(shù)據(jù)特征,為準確感知提供了優(yōu)秀的數(shù)據(jù)基礎(chǔ),并利用LSSVM算法預(yù)測多維電負荷變化量,根據(jù)經(jīng)驗風險極小化準則,從而獲得精度較高的感知結(jié)果。
2種方法的感知敏感度測試結(jié)果如表1所示。
表1 感知敏感度性能測試數(shù)據(jù)表
通過式(15)的計算,可以得出對比方法的敏感度指數(shù)為0.207,本文方法的敏感度指數(shù)為0.595。
為了進一步豐富供電公司電量感知方法,提高感知準確性和規(guī)范性,本文在數(shù)據(jù)挖掘和LSSVM的技術(shù)支持下,實現(xiàn)電量大數(shù)據(jù)多維感知方法的優(yōu)化,為供電網(wǎng)建設(shè)提供了有益的補充,進一步加強了電網(wǎng)企業(yè)經(jīng)營指標控制、預(yù)測研判,為供電經(jīng)營決策提供了參考。