陳永健
(仰恩大學 福建泉州 362014)
在經(jīng)濟由高速向高質(zhì)量發(fā)展的今天,居民生產(chǎn)生活及制造業(yè)用電量日益激增,穩(wěn)定的電力供應保障支撐著社會正常的經(jīng)濟秩序。但是,科技的發(fā)展也讓竊電技術(shù)更為隱蔽,竊電種類和手段層出不窮。據(jù)現(xiàn)有數(shù)據(jù)統(tǒng)計,每年全國因竊電造成的經(jīng)濟損失至少達200萬億以上[1],不僅嚴重影響了我國電量供應質(zhì)量和電量營銷管理模式,也危及了社會經(jīng)濟秩序的正常運行。目前,根據(jù)竊電原理分析,主要的竊電種類包括與計量設備有關(guān)的欠電壓欠電流法、擴差法、移相法和與計量設備無關(guān)的私自增容、改裝計量表、繞越計量表等竊電方式。與計量設備有關(guān)的竊電手段較為突出,傳統(tǒng)的基于分類算法、決策樹算法和單純式離群點檢測算法很難準確地鎖定竊電用戶。離群點數(shù)據(jù)挖掘技術(shù)原本應用于股票等金融市場,在防竊電領(lǐng)域的應用已經(jīng)成為新的研究熱點,具有廣泛的研究價值[2]。本算法的核心是利用電量波動率進行數(shù)據(jù)分析并采用距離算法的離群點挖掘技術(shù),該算法有效地解決了程超等[3]單純采用離群點算法存在的計算量復雜、準確率不高,且只適用于欠電壓、欠電流竊電法的問題。
距離離群點數(shù)據(jù)挖掘是在大量的用電量數(shù)據(jù)中剔除不符合竊電實際異常偏高的數(shù)據(jù),根據(jù)質(zhì)心的確定按一定規(guī)則自動選取數(shù)據(jù)的過程。假定有一個N個對象的數(shù)據(jù)集或知識集X,寫作X(N)。期望的對象離群點數(shù)為K,從數(shù)據(jù)集X中剔除不利數(shù)據(jù)后確定質(zhì)心N0,必能找到與質(zhì)心存在顯著不同的數(shù)據(jù)K0。算法模型歸納為兩個概念:距離離群點和距離離群點的數(shù)據(jù)挖掘方法。
定義1 在電量數(shù)據(jù)集對象X中,以質(zhì)心N0為基準參照距離,存在第K個對象使得距離D(K)與D(N0)的距離最大,X(K)為距離離群點。
如果對電量數(shù)據(jù)集中所有對象X進行歸一化數(shù)據(jù)變換,至少存在部分對象X(X∈[0,1])與對象Y的距離大于D,那么對象Y就是基于距離D的離群點。反之,必然存在有(1-X)個對象與對象Y距離小于D。
離群點數(shù)據(jù)挖掘方法應用于防竊電領(lǐng)域在現(xiàn)有文獻資料中主要有5種:基于決策樹的數(shù)據(jù)挖掘[4],對采集的數(shù)據(jù)要進行重復掃描、排序、處理,數(shù)據(jù)算法效率低;基于簇的數(shù)據(jù)挖掘[5],適用場合有限,需要定義簇平均值,對分類屬性不適合;基于距離離群點數(shù)據(jù)挖掘[6],解決經(jīng)典K均值算法未考慮孤立點問題,孤立點正是基于距離的,是在給定的數(shù)據(jù)集中自動找出與均值距離最大的點,但此算法數(shù)據(jù)計算量大;基于SVM向量機數(shù)據(jù)挖掘[7],多應用于多維數(shù)據(jù)算法,比較復雜;基于K近鄰分類數(shù)據(jù)挖掘[8],對采集樣品的容量相差較大時不適合,而且計算量很大。因此,綜合以上5種數(shù)據(jù)挖掘方法,本算法先對采集的數(shù)據(jù)進行電量波動率分析處理,轉(zhuǎn)化為一維數(shù)據(jù),再運用離群點數(shù)據(jù)挖掘算法,讓算法更加簡便高效。
對采集用戶的用電量數(shù)據(jù)一般用電量波動模型進行分析,通過電量波動率找出與用戶日用電量之間的特征關(guān)系。研究用電量數(shù)據(jù)集合之間的關(guān)系即數(shù)據(jù)波動情況,一般用方差、方均根值、標準偏差[9]等方法進行描述。其中,標準偏差在描述數(shù)據(jù)離散程度中應用最多。標準偏差法對于采集同一樣本的電量數(shù)據(jù),在不同時間下的波動情況很難做出比較。此外,當采集的樣本初值不一樣,均值不相同,這樣也無法比較它們的離散程度。因為本算法是要在不同時間或日期下對采集的電量數(shù)據(jù)進行比較,確定波動率大小,用標準偏差法顯然無法實現(xiàn)。因此,本算法提出了一種新的電量波動描述方法,即利用變異系數(shù)CV[10](Coefficient of Variation)對采集數(shù)據(jù)進行變換形成界于(0,1)區(qū)間的一維簡化數(shù)據(jù),并用它來描述電量波動的離散程度,這種方法巧妙地化解了以上難題。
(1)
通過大量數(shù)據(jù)采集與現(xiàn)場排查比對得出:CV<20%時,電量波動處于合理區(qū)間;20%≤CV≤50%時,為正常允許范圍內(nèi);50%
距離離群點數(shù)據(jù)挖掘算法原理是對采集的用戶電量數(shù)據(jù)首先按一定規(guī)則進行清洗和處理,接下來對篩選下來的數(shù)據(jù)再按電量波動模型確定離群點。最后,計算離群點兩兩之間的距離來判斷不同數(shù)據(jù)對象之間的近似程度。距離越大的,兩者相似度就低;距離越小的,兩者相似度就高。
采集用戶的日用電量數(shù)據(jù)組成數(shù)組A{y1,y2,...,yn},顯然,A是一個一維數(shù)組,判斷數(shù)組中對象之間的相似程度用距離來描述,因此,數(shù)組A所有數(shù)據(jù)間的距離用相似度矩陣來表示:
(2)
圖1 電量波動模型距離離群點的檢測流程
式(2)中,Dij表示第i和j個數(shù)據(jù)之間的距離,dij=|yi-yj|≥0,且dij=dji,dji趨近于0時,數(shù)據(jù)間的相似度高;dji偏離0越大,相似度就越低。同時,距離矩陣以對角線為基準具有對稱性。通過對稱矩陣確定距離離群點后,建立電量波動模型,計算電量波動率對離群點進行挖掘。電量波動模型距離離群點的檢測流程如圖1。
電量數(shù)據(jù)處理并不是簡單地剔除不利數(shù)據(jù)或異常數(shù)據(jù),而是要進行數(shù)據(jù)預處理和清洗,即對數(shù)據(jù)屬性不完整、異常偏高、負值等進行剔除,然后,對電量數(shù)據(jù)進行歸一化處理。
每天的實際用電功率計算方法:
Pi'=Pi-Pi-1
,
(3)
式(3)中,Pi'為某一天的實際用電功率,即正向有功功率。由于電表功率累積計算,當天的用電功率為當天的抄表數(shù)減前一天的抄表數(shù)。
可見,對于規(guī)?;瘮?shù)據(jù)直接利用正向有功功率數(shù)值,不利于算法處理,為簡化算法分析對所有采集處理的數(shù)據(jù)進行歸一化處理[12-13]。
(4)
式(4)中,G(i)歸一處理后的電量數(shù)據(jù)在0~1之間,minP(n)為數(shù)據(jù)處理后的最小數(shù),max(P(n))為數(shù)據(jù)處理后的最大數(shù)。
圖2 距離離群點算法流程圖
定義3 比例系數(shù)K用來體現(xiàn)存在不合理數(shù)據(jù)的個數(shù)對變異系數(shù)的影響程度。K取值過大會誤剔除部分有用數(shù)據(jù)影響算法的精度,K取值過小未能全部剔除不合理數(shù)據(jù)導致算法誤差大,在計算質(zhì)心時K的合理取值應為1.2,K的不同取值影響變異系數(shù)如下:
(5)
式(5)表明當CV≥0.8時,說明電量數(shù)據(jù)波動率遠遠超過允許范圍,這種情況可直接進行現(xiàn)場竊電檢查。這證明了引入電量波動率能夠更加有效地提高離群點檢測效率。
電量波動率質(zhì)心確定后,下一步就是進行距離離群點算法分析,圖2為距離離群點算法流程圖。圖2中,尋優(yōu)參數(shù)α可調(diào),即可以控制輸出結(jié)果在一定的范圍內(nèi)。假設A≤α≤B,在這個范圍內(nèi)可以設置α=A+0.01λ,λ為尋優(yōu)次數(shù),由上限值A和下限值B確定。本算法流程中,λ是自動循環(huán)尋優(yōu)的次數(shù),通過循環(huán)尋優(yōu)可獲取距離離群點的挖掘數(shù)據(jù),竊電嫌疑對象也就是最優(yōu)挖掘?qū)ο螅醋顑?yōu)的α值。
t/d 圖3 某紡織公司上半年計量有功數(shù)據(jù)
為驗證本算法在實際竊電檢測中的準確性,建立MATLAB仿真。首先對電力公司用電信息采集的數(shù)據(jù)按一定規(guī)則進行清洗處理,下面以福建晉江某紡織公司為例。該公司2018年1~6月共183 d實際用量數(shù)據(jù)如圖3所示。圖中計量功率反應了該公司上半年用電量的真實數(shù)據(jù),計量功率隨著公司每天的用電量累計增加,當公司處于正常的生產(chǎn)用電時曲線趨向于一條直線,斜率也基本上趨于固定。如果公司存在竊電行為,某一天或某一段時間計量功率必然減小,導致該時間段曲線的斜率下降。因此,僅從計量功率曲線很難準確判斷公司半年內(nèi)是否存在竊電行為,或者哪一天存在竊電行為。
為準確鎖定竊電數(shù)據(jù),判定竊電時間,下面運用本算法對采集數(shù)據(jù)進行竊電分析。首先,根據(jù)公式(3)計算每天的用量功率數(shù)據(jù)。如圖4所示,圓點帶黑色填充的數(shù)據(jù)就是利用電量波動率計算歐式距離檢測出來的離群點??梢?,離群點在距離上明顯區(qū)別于大部分點,在所有數(shù)據(jù)中只占一小部分,這與“距離離群點”的定義相符合,從歐式距離很明顯地被區(qū)分出來。
t/d 圖4 算法分析前的離群點檢測結(jié)果
t/d 圖5 算法分析后的離群點檢測結(jié)果
根據(jù)定義2的計算方法可得出該公司1~6月的電量波動率:CV1=0.028,CV2=0.192,CV3=0.186,CV4=0.557,CV5=0.179,CV6=0.185??梢?月份的波動率最小,2、3、5、6月波動率都小于20%,數(shù)據(jù)都比較平穩(wěn),只有4月份波動率超過50%。
再通過質(zhì)心計算并結(jié)合公式(5)計算可得出CVmax=0.557,K=1.2,剔除不利數(shù)據(jù)前的質(zhì)心avg1=48.955,剔除不利數(shù)據(jù)后的質(zhì)心avg2=44.886,因此,質(zhì)心avg2更能代表數(shù)據(jù)的整體水平,證明了質(zhì)心選擇的合理性。
圖4為未進行算法分析前的離群點檢測,因為并未考慮竊電行為,所以會造成用電量比正常值偏低。異常高于質(zhì)心的點在本算法中不具有現(xiàn)實意義,干擾算法分析,在分析計算前應先將這部分異常離群點剔除。圖5是進行算法分析后的離群點檢測,離群點集中于4月底,檢測結(jié)果與先前1~6月的電量波動率計算結(jié)果相吻合。從圖5可知,離群點檢測結(jié)果符合竊電原理,4月的電量波動率最大,出現(xiàn)竊電的可能性也最大。本算法檢測的竊電時間點正是出現(xiàn)在4月,證明了離群點檢測的準確性??梢?,采用電量波動模型的距離離群點檢測與其他竊電檢測方法相比具有簡便高效的優(yōu)勢。
在仿真過程中,考慮到實際用電過程中1~2 d時間數(shù)據(jù)異常并不能確定為竊電行為,可能是某些特殊原因(如停電)等造成。因此,在算法分析過程中增加了竊電報警條件判別,可以根據(jù)需要設置第3天為連續(xù)竊電報警,這樣篩選后的離群點與最終的結(jié)果一致,如圖5所示。需要指出的是,仿真過程中尋優(yōu)參數(shù)α取0.866,至少存在K=0.866×183≈158個數(shù)據(jù)與離群點之間的距離D(K)大于D(N0)(D(N0)=8.256),符合定義1所規(guī)定,說明檢測的離群點可信度比較高。
本算法的檢測結(jié)果可以為一線稽查人員提供入戶排查的理論依據(jù),根據(jù)這一結(jié)果幫助排查人員快速鎖定竊電嫌疑用戶和具體竊電時間。
如表1所示,以下是應用本算法和常見的3類防竊電算法檢測結(jié)果與實際稽查結(jié)果比較,數(shù)據(jù)結(jié)論對比證明了應用本算法進行竊電檢測達到的準確度較為理想。為便于比較,分別采集了紡織廠、機加工廠和酒店等10家公司半年內(nèi)的數(shù)據(jù)進行分析。結(jié)果表明,當算法判別度大于60%或低于50%時,算法分析結(jié)果與實際稽查結(jié)果一致;當算法判別度介于50%~60%時,僅出現(xiàn)一組數(shù)據(jù)與稽查結(jié)果不一致,判別準確度達到90%。在表1中,同樣用這10個公司上半年的用電量數(shù)據(jù)應用單純的離群點算法準確度為80%,決策樹和分類算法準確度都為70%,可見,上述3種算法的誤報率和漏報率相對偏高,證明本算法判別準確度有明顯優(yōu)勢,相比較至少提高了10%以上。實驗證明,通過電量波動率下的質(zhì)心計算方法,再增加或細化數(shù)據(jù)的采集量,比如采集一整年以上的數(shù)據(jù)或增加竊電分析對象的數(shù)量,更能精確鎖定代表大部分數(shù)據(jù)的質(zhì)心點。然后,在距離離群點算法中增加自動尋優(yōu)次數(shù)λ,更能準確鎖定離群點,這樣解決了算法判別度介于50%~60%時出現(xiàn)誤報的問題,進一步提高本算法的準確度,達到更好的竊電判別效果。
表1 不同竊電算法判別與實際稽查結(jié)果對比
本文提出一種基于距離離群點數(shù)據(jù)挖掘技術(shù)的防竊電算法模型,該模型結(jié)合電量波動率進行數(shù)據(jù)分析,是針對用戶用電量信息的新的竊電判別方法。此算法提出利用變異系數(shù)來描述電量波動率,再根據(jù)電量波動率計算質(zhì)心點,通過質(zhì)心與離群點的定義應用歐氏距離計算篩選出距離離群點,從大量數(shù)據(jù)中挖掘出竊電嫌疑對象。本算法把復雜的數(shù)據(jù)處理簡單化,分析效率高,不同于其他僅僅依靠離群點定義來篩選的離群點算法,也不同于傳統(tǒng)依靠電壓、電流、相位等參數(shù)來判別竊電的算法。盡管本算法解決了其他竊電算法計算量復雜、效率不高、判別準確度低等問題,但該算法仍然存在缺點,即篩選離群點的尋優(yōu)參數(shù)調(diào)節(jié)次數(shù)有限,對于規(guī)?;瘮?shù)據(jù)處理,尋優(yōu)參數(shù)不能達到最優(yōu),因此算法模型有待進一步改善。