朱 克,張 莉,王笑一,張 浩,李 瑋
(1.國家電網(wǎng)有限公司營銷部, 北京 100031;2.國家電網(wǎng)有限公司客戶服務(wù)中心,天津 300300;3.北京中電普華信息技術(shù)有限公司,北京 100031)
電力行業(yè)被視為我國國民經(jīng)濟的支柱性基礎(chǔ)能源行業(yè),其占據(jù)舉足輕重的地位[1]。傳統(tǒng)電網(wǎng)日益繁雜,存在數(shù)據(jù)量龐大且冗余等問題,智能電網(wǎng)安全運行存在較大困難[2-4]。隨著現(xiàn)代技術(shù)的發(fā)展,電力工業(yè)的發(fā)展與時代同步,國內(nèi)外專家對智能電網(wǎng)進行了研究,部署智能采集系統(tǒng)采集用戶用電行為信息?;诖髷?shù)據(jù)技術(shù),迫切需要通過多維數(shù)據(jù)統(tǒng)計、歷史數(shù)據(jù)比較、電流電壓過閾值判斷等綜合過程,實現(xiàn)對電力用戶異常用電行為的監(jiān)測[5]。
李波等[6]通過聯(lián)合竊電檢測方法,依據(jù)網(wǎng)絡(luò)特征,結(jié)合粒子群算法以及支持向量機算法對竊電實現(xiàn)縱向檢測,但其消耗成本極高且處理數(shù)據(jù)量規(guī)模有限;李晉國等[7]研究基于優(yōu)化后的非線性權(quán)重優(yōu)化粒子群優(yōu)化算法,實現(xiàn)異常用電行為檢測,在提升檢測精度的同時,誤差收斂速度較高,但其考慮因素不全面,可能導(dǎo)致突發(fā)情況頻頻發(fā)生。
為解決用戶側(cè)用電行為異常應(yīng)急處理問題,采用大數(shù)據(jù)處理技術(shù)對用電數(shù)據(jù)進行采集、聚類、處理等操作,提取龐大數(shù)據(jù)量中的特征數(shù)據(jù),從時間、空間、用戶多個維度深入剖析用電行為與各因素之間的關(guān)聯(lián)度,加強理解用戶行為[8,9],便于更好地實現(xiàn)用戶行為監(jiān)測。由此,本文提出一種基于大數(shù)據(jù)聚合的電力用戶行為實時云監(jiān)測方法,實現(xiàn)電力用戶行為的高效精準(zhǔn)監(jiān)測。
搜集、整理電力用戶行為大數(shù)據(jù),歸納總結(jié)其中核心信息,對電力企業(yè)運營戰(zhàn)略決策以及故障的實時排查、監(jiān)測電力企業(yè)平穩(wěn)運行具有重大意義。云計算優(yōu)勢在于其可控規(guī)模龐大,在云計算基礎(chǔ)上,存儲并計算超大規(guī)模數(shù)據(jù)集[10],提出一種基于云計算大數(shù)據(jù)聚合的電力用戶行為實時云監(jiān)測方法。用圖1展示基于大數(shù)據(jù)聚合的電力用戶行為實時云監(jiān)測平臺架構(gòu)形式。
圖1 電力用戶行為實時云監(jiān)測平臺架構(gòu)形式
該平臺將基礎(chǔ)設(shè)施、終端、安全設(shè)備等采集到的電力用戶行為大數(shù)據(jù)存儲至數(shù)據(jù)層的關(guān)系型數(shù)據(jù)庫中,處理層調(diào)用采集層存儲數(shù)據(jù),利用大數(shù)據(jù)處理技術(shù)對數(shù)據(jù)進行降維、清晰、標(biāo)準(zhǔn)化等操作提升數(shù)據(jù)質(zhì)量,應(yīng)用層利用處理完成的數(shù)據(jù)采用M-BIRCH算法完成用戶用電行為異常檢測,最終通過顯示層展現(xiàn)監(jiān)測結(jié)果,完成電力用戶行為實時云監(jiān)測。
1.1.1 大數(shù)據(jù)處理
電力企業(yè)采集到的數(shù)據(jù)質(zhì)量未能滿足異常值檢測規(guī)則,且伴隨空值、數(shù)據(jù)混亂、數(shù)據(jù)差異較大等多樣弊端,要進行的大數(shù)據(jù)處理步驟為一降維、二清洗、三標(biāo)準(zhǔn)化。
1.1.2 數(shù)據(jù)降維
降低數(shù)據(jù)維度,即采用較少新特征變量替代原始數(shù)據(jù)特征變量,使其內(nèi)部無關(guān)聯(lián),通過新變量得到交易時的重要信息。減小數(shù)據(jù)規(guī)模、簡化計算流程、清除全部噪聲數(shù)據(jù)三方向為數(shù)據(jù)降維目標(biāo)。通過主成分分析法完成數(shù)據(jù)降維處理[11],其步驟如下:
a.搭建數(shù)據(jù)協(xié)方差矩陣;
b.分別計算協(xié)方差矩陣的特征值以及特征變量;
c.將特征值依據(jù)其貢獻度排列;
d.選取前K個特征值當(dāng)作主要成分后把數(shù)據(jù)轉(zhuǎn)換至新數(shù)據(jù)空間內(nèi),對其開展降維處理,且該數(shù)據(jù)空間采用新特征向量搭建完成。
1.1.3 數(shù)據(jù)清洗
及時挖掘、更改數(shù)據(jù)集內(nèi)部異常數(shù)據(jù),促使數(shù)據(jù)質(zhì)量進一步提升。缺失數(shù)據(jù)、重復(fù)數(shù)據(jù)、不一致數(shù)據(jù)為數(shù)據(jù)清洗的三大類別。
a.依據(jù)數(shù)據(jù)規(guī)則對不一致數(shù)據(jù)進行偏差檢測并改正。
b.對于缺失數(shù)據(jù),可進行補齊數(shù)據(jù)、清除元組及不予處置。為最大程度保留原始數(shù)據(jù)完整性,本次采用填補缺失數(shù)據(jù)方法。圖2為缺失數(shù)據(jù)填補流程圖。
圖2 缺失數(shù)據(jù)填補流程圖
c.計算相似度并以此判定重疊與否,若重復(fù)則合并或者清除。計算距離獲取相似度,即N維空間內(nèi)的兩點間實際距離。N維空間的距離用公式(1)描述:
(1)
1.1.4 數(shù)據(jù)標(biāo)準(zhǔn)化
各類數(shù)據(jù)源不同,其單位、量綱存在差異,為促使不同來源數(shù)據(jù)進行對比分析,對其進行數(shù)據(jù)標(biāo)準(zhǔn)化處理,清除不同單位、量綱。用公式(2)描述數(shù)據(jù)標(biāo)準(zhǔn)化:
(2)
其中:樣本最大值以及最小值分別選取max、min描述。
1.2.1 BIRCH算法
BIRCH作為層次聚類算法,其聚類思想采用聚類特征以及特征樹(CF)概括描述,BIRCH定義:
對于簇{Xi}(i=1,2,3,…,N),其具有N個d維數(shù)據(jù)點,用公式(3)描述特征向量定義:
CF=(N,LS,SS)
(3)
聚類特征定理為:用CF1=(N1,LS1,SS1)及CF2=(N2,LS2,SS2)以及CF1+CF2=(N1+N2,LS1+LS2,SS1+SS2)分別描述兩個類的聚類特征以及融合獲取的新類特征。
該算法計算中心、半徑以及類間距離等皆通過聚類特征完成。
層次聚類的特征位于CF樹內(nèi),由兩個參數(shù)分支因子B以及閾值T的高度平衡樹構(gòu)成CF樹。其中,各非葉節(jié)點的最大個數(shù)取決于分支因子,位于樹內(nèi)葉子節(jié)點中的子聚類最長直徑由閾值大小決定。CF樹可將全部數(shù)據(jù)讀入內(nèi)存,也可分別讀入數(shù)據(jù)項于外存上。
1.2.2 M-BIRCH算法
M-BIRCH算法基于BIRCH聚類算法獲取的初次結(jié)果進行二次分析以求取更為精準(zhǔn)的結(jié)果[12]。
用P描述電力用戶行為異常概率,百分比、目前類中平均距離以及點與類內(nèi)部其余點的平均距離分別用davg、dnew描述,閾值用T描述。
需先對新啟的數(shù)據(jù)點進行計數(shù),再繼續(xù)處理。
當(dāng)該數(shù)據(jù)點包含在原有聚類塊時,BIRCH聚類算法依據(jù)設(shè)置好的閾值T,對聚類特征數(shù)值進行預(yù)運算以及校正處理,將處理結(jié)果融入到聚類塊內(nèi);反之,采集該數(shù)據(jù)點目前聚類塊中所有數(shù)據(jù)點的距離平均值dnew,將其與當(dāng)前聚類塊的距離平均值davg進行對比。
當(dāng)davg乘以初始擬定的百分比P的數(shù)值大于dnew,完成聚類塊中聚類特征值的校正操作后,向聚類塊中融入校正結(jié)果。反之,運算后續(xù)聚類塊,若不相符則搭建新聚類塊[13]?;贛-BIRCH算法的云監(jiān)測平臺大數(shù)據(jù)聚類算法流程如下所示:
M-BIRCH-Cluster(T,dnew,davg,P),
{首先,累積數(shù)據(jù)流于滑動窗口并采用BIRCH算法對數(shù)據(jù)量進行聚類,各聚類塊依據(jù)其輸出結(jié)果進行分割}
For(未抵達數(shù)據(jù)流末端){
選取其中某個新數(shù)據(jù)點讀入;
For(挨個計算已有聚類塊){
If(T閾值≥最大直徑){該數(shù)據(jù)點被吸入聚類塊并改正聚類特征值}
Else{數(shù)據(jù)點及當(dāng)前聚類塊內(nèi)全部數(shù)據(jù)點的距離平均值}
采集該聚類塊的距離平均值davg,
If(davg乘以初始擬定的百分比P數(shù)值大于dnew)
{該數(shù)據(jù)點被吸入聚類塊并改正聚類特征值}
Else{該數(shù)據(jù)點與下一個聚類塊同步計算}
不滿足上述條件,則搭建新聚類塊
}}
選取M-BIRCH算法提煉獲取用戶簇典型用點曲線,同時分別采用相似度度量三條曲線:用戶每日用電數(shù)據(jù)實際量曲線、用戶典型用電數(shù)據(jù)曲線以及用戶所在簇典型用電曲線三條曲線,實現(xiàn)基于大數(shù)據(jù)聚合的電力用戶行為實時云監(jiān)測方法設(shè)計[14]。
1.3.1 單一用戶典型曲線提取
用戶用電過程中的偶然情況發(fā)生頻繁,分析單一用戶典型曲線可杜絕該類情況的發(fā)生,提取的曲線需要依據(jù)不同時間點的平均用電數(shù)據(jù)繪制而成。各用戶曲線用公式(3)描述:
(3)
其中:用x1i、xtk描述第i個用戶第t時間點平均值、第t時間點第k天的用戶用點數(shù)據(jù)值,n為所選數(shù)據(jù)樣本天數(shù),N用于描述該曲線的總點數(shù)。
1.3.2 簇典型曲線提取
采用M-BIRCH算法進行聚類,分析多用戶典型用電曲線,獲取各個簇的聚類中心,并且各用戶所屬簇聚類中心為該用戶簇典型曲線。
1.3.3 相似度度量
選用歐氏距離度量用戶每日實時用電曲線數(shù)值x1i、典型用電曲線數(shù)值x2i之間的相似度,以此判斷用戶用電行為差異[15]。歐氏距離用公式(4)描述:
(4)
其中:用N描述兩種負(fù)荷曲線中總數(shù)據(jù)點數(shù)。
用戶單日用電實時曲線上數(shù)據(jù)值X以及該用戶所在簇的簇典型用電曲線上數(shù)據(jù)值Y對比趨勢上的度量為皮爾森相關(guān)系數(shù)作用,反映出用戶實際用電數(shù)據(jù)曲線以及日常習(xí)慣用電趨勢之間的差別,生成皮爾森相關(guān)系數(shù):
(5)
選取某市電力公司的2000名用戶用電行為數(shù)據(jù)樣本集,將本文方法與文獻[6]方法、文獻[7]方法進行對比驗證,前者為基于網(wǎng)絡(luò)特征與用戶行為分析的監(jiān)測方法,后者為基于NWPSO-BP神經(jīng)網(wǎng)絡(luò)的監(jiān)測方法。分別從性能分析、聚類效果、監(jiān)測準(zhǔn)確性三方面開展驗證。
采取SSQ(Sum of Square Distance)方法,對其他方法與本文方法的算法應(yīng)用過程進行同質(zhì)化處理,計算全部點與各個聚類中心之間的距離,判斷算法聚類質(zhì)量高低,當(dāng)SSQ數(shù)值越高,證明聚類質(zhì)量越低,反之則質(zhì)量越高。
將改進前后的BIRCH算法與M-BIRCH算法分別進行對比,采取同等數(shù)量、大小以及閾值子聚類對數(shù)據(jù)流進行聚類。并分別選取20000個、200000個數(shù)據(jù)點進行聚類操作,比較SSQ值與聚類質(zhì)量閾值,圖3為20000點下同等閾值的結(jié)果曲線圖。
圖3 20000點下同等閾值的結(jié)果曲線
分析圖3可知,處理20000個數(shù)據(jù)點,緊密比值為0時,改進前后兩種算法的SSQ值均處于最大值,分別為9.70、9.62;當(dāng)緊密值為1.6時兩種算法的聚類SSQ值到達最優(yōu)狀態(tài),此時SSQ值分別為9.18、9.07。實驗證明,本文方法應(yīng)用的改進后的M-BIRCH算法的聚類質(zhì)量更高。
分析圖4可知,處理200000個數(shù)據(jù)點時,無論緊密比值為何值,改進后的M-BIRCH算法聚類的SSQ值均小于改進前的BIRCH算法的SSQ值。這說明數(shù)據(jù)量越大,本文方法應(yīng)用的M-BIRCH算法的聚類優(yōu)勢越顯著,聚類數(shù)據(jù)質(zhì)量更高。
圖4 200000點下同等閾值的結(jié)果曲線
歸納上述兩組實驗結(jié)果并總結(jié)規(guī)律,緊密比值趨近1.6時,本文方法應(yīng)用的M-BIRCH算法達到最優(yōu)狀態(tài)并獲得優(yōu)秀的結(jié)果。當(dāng)數(shù)據(jù)規(guī)模擴大時該算法性能優(yōu)化性顯著提升,適用于計算大數(shù)據(jù)量的數(shù)據(jù)流聚類。
為進一步衡量本文方法聚類性能,采用本文方法對用戶用電行為數(shù)據(jù)進行聚類,并應(yīng)用肘部法則判定最優(yōu)聚類數(shù)量。用圖5描述本文方法聚類效果。
圖5 本文方法聚類效果
分析圖5可知,本文方法聚類結(jié)果與肘部法則判定聚類結(jié)果一致,說明本文方法聚類準(zhǔn)確。
提取聚類結(jié)果中各簇的簇中心,用于描述該簇的簇典型用電曲線,3類簇典型用電曲線用圖6描述。
分析圖6可知,本文方法可有效依據(jù)聚類獲取的各簇的簇中心獲取用戶的典型用電曲線,用于分析用戶不同時間段的用電行為。
圖6 3類簇典型用電曲線
選取一定規(guī)模的訓(xùn)練集開展試驗,歐氏距離及皮爾森相關(guān)系數(shù)度量閾值用a、b描述,分別取值為0.57和0.89,用表1描述用戶行為異常檢測度量閾值判斷標(biāo)準(zhǔn)。
本文采用2021年6-8月數(shù)據(jù)對用戶用電行為展開測試,在測試時發(fā)現(xiàn)MT-015用戶存在異常情況,為2021年7月19日度量結(jié)果,其度量結(jié)果為0.47以及0.64。參考表1監(jiān)測用戶用電行為異常值,圖7為描述其用戶用電曲線。
根據(jù)圖7分析可知,該用戶在出現(xiàn)用電波峰時向后平移,相比平日用電情況存在較大差異,說明該用戶的用電行為是異常的。實驗結(jié)果表明,本文方法可以有效獲取電力用戶行為異常監(jiān)測結(jié)果。
圖7 用戶用電曲線圖
采用ROC以及AUC兩項指標(biāo)驗證本文方法監(jiān)測準(zhǔn)確性,并加以分析獲得較為精準(zhǔn)的監(jiān)測結(jié)果。當(dāng)ROC曲線靠近左上角時表明監(jiān)測性能為佳,反之則存在偏差;ROC曲線下的面積用AUC描述,其代表一個概率,AUC數(shù)值越趨近于1則表明該方法監(jiān)測性能越優(yōu)秀。將三種方法進行對比驗證,用圖8描述三種方法監(jiān)測準(zhǔn)確性。
圖8 監(jiān)測準(zhǔn)確性
根據(jù)圖8分析可知,文獻[7]方法表現(xiàn)較差,其AOC曲線距離左上角偏遠(yuǎn),AUC面積為0.7145,整體效果最差;文獻[6]方法曲線較為接近左上角,但不及本文方法優(yōu)秀,其AUC面積為0.8266,略低于本文方法,監(jiān)測準(zhǔn)確性結(jié)果不佳;本文方法對電力用戶行為異常情況實現(xiàn)快速監(jiān)測,且監(jiān)測結(jié)果ROC曲線最為接近左上角,其AUC面積為三種方法中的最大值,證明本文方法監(jiān)測結(jié)果的準(zhǔn)確性更好。
本文方法采用云計算搭建方法基本架構(gòu),基于大數(shù)據(jù)技術(shù)處理數(shù)據(jù),采用優(yōu)化后的M-BIRCH聚類算法聚
類大數(shù)據(jù),并對電力用戶用電行為異常情況進行監(jiān)測。實驗結(jié)果表明,本文所提方法聚類的SSQ值始終最低、聚類質(zhì)量高、監(jiān)測效果優(yōu)秀且準(zhǔn)確性極高,能夠精準(zhǔn)監(jiān)測電力用戶異常行為,達到預(yù)期目標(biāo),為電力企業(yè)平穩(wěn)運行提供保障,可安心投入應(yīng)用。