李國成,陸 俊,王 赟,黃 瑞,劉謀海
(1.華北電力大學電氣與電子工程學院,北京市 102206;2.國網(wǎng)湖南省電力有限公司供電服務(wù)中心,湖南省長沙市 410004;3.智能電氣量測與應(yīng)用技術(shù)湖南省重點實驗室,湖南省長沙市 410004)
隨著智能電網(wǎng)技術(shù)的快速發(fā)展,用電信息采集系統(tǒng)和配電自動化系統(tǒng)逐漸完善,智能電表逐漸普及,數(shù)據(jù)中臺也逐漸得到建立和完善,所采集到的用戶端用電數(shù)據(jù)呈現(xiàn)出數(shù)量多、類型多、增長速度快等特征[1]。同時,部分用戶存在竊電行為,造成電力公司巨額的收入損失。隨著深度學習技術(shù)和智能算法的發(fā)展,使得分析用戶行為、挖掘數(shù)據(jù)隱含特征和用電趨勢成為可能[2]。因此,充分利用海量用戶用電數(shù)據(jù),打破數(shù)據(jù)間壁壘,通過智能算法挖掘分析出數(shù)據(jù)的內(nèi)在價值,提高竊電行為的檢測效率和準確率,對維護電力系統(tǒng)的正常運轉(zhuǎn)具有重要意義[3]。
在用戶竊電行為檢測方面已有大量研究。文獻[4]提出一種基于小波和長短期記憶混合神經(jīng)網(wǎng)絡(luò)的電力用戶竊電模式檢測模型;文獻[5]提出一種基于格蘭杰歸因分析的高損臺區(qū)竊電檢測方法;文獻[6]提出了基于向量自回歸模型檢測造成線損波動的異常用戶的方法;文獻[7]利用工商業(yè)用戶生產(chǎn)經(jīng)營指標大致固定的特點,提出生產(chǎn)經(jīng)營狀態(tài)識別的竊電二次篩查方法;文獻[8]針對傳統(tǒng)竊電檢測中單一分類方法的不足,提出一種基于Bagging 異質(zhì)集成學習的竊電檢測方法,引入改進加權(quán)投票策略優(yōu)化檢測效果,而實驗部分基于用戶竊電行為分析生成異常數(shù)據(jù)進行實驗;文獻[9]提出一種基于特征選擇和Stacking 集成學習的配電網(wǎng)網(wǎng)損預(yù)測方法,提高了配電網(wǎng)網(wǎng)損分析與評估的有效性;文獻[10]提出一種基于稀疏隨機森林模型的用電側(cè)異常行為模式檢測方法,提高了用電側(cè)大數(shù)據(jù)處理的效果和效率。
上述工作有效支撐了竊電行為檢測研究,但國內(nèi)外針對用電異常檢測的研究還有待深入,具體表現(xiàn)為:1)不平衡數(shù)據(jù)集測試結(jié)果準確率高而召回率低,不完全適用于異常用電檢測,體現(xiàn)在目前研究中主要是使用基于準確率驅(qū)動的優(yōu)化識別模型,權(quán)重較低的異常樣本容易被忽略而導致召回率低,達不到有效檢出異常樣本的效果;2)深度學習算法理論檢測效果好,但實際應(yīng)用中標簽覆蓋率低,且異常樣本數(shù)量極少,欠擬合條件下的深度模型實際檢測效果欠佳;3)目前,對竊電原理和方式的研究與數(shù)據(jù)驅(qū)動的竊電檢測關(guān)聯(lián)度不夠,導致由于信息繭房效應(yīng)而存在部分潛在竊電用戶無法檢出的問題。
另一方面,孤立森林(isolation forest,IF)算法能夠有效實現(xiàn)單一異常樣本的檢測,但是傳統(tǒng)的IF 模型采用二叉樹作為基本的孤立樹單元,在應(yīng)對模式多樣的竊電應(yīng)用場景時表現(xiàn)不佳[11]。針對竊電數(shù)據(jù)無標簽且類不平衡的竊電檢測問題,本文提出了一種基于Bagging 二次加權(quán)集成的IF 竊電檢測算法。所提算法基于孤立類間相似度最低準則,實現(xiàn)對各類竊電類型的特征孤立順序優(yōu)選并訓練對應(yīng)的IF 模型;采用Bagging 集成策略二次加權(quán)集成多個IF 學習器的效果,實現(xiàn)竊電模式不平衡分布條件下的竊電檢測。實驗表明,本文方法對樣本標簽依賴度低,可降低人工參與成本,在竊電樣本存在多樣性的條件下提高了竊電檢測效果。
IF 算法是一種適用于連續(xù)數(shù)據(jù)的無監(jiān)督異常檢測算法[12]。不同于其他異常檢測算法通過距離、密度等量化指標來刻畫樣本間的疏離程度,該算法使用一種名為孤立樹的二叉搜索樹結(jié)構(gòu)來孤立樣本。由于異常值的數(shù)量較少且大部分樣本具有疏離性,異常樣本會更早被孤立出來,即異常樣本離孤立樹的根節(jié)點更近。因此,可以利用樣本與根節(jié)點的距離來作為樣本的異常度指標。相較于局部離群因子(local outlier factor,LOF)檢測算法和K 均值等傳統(tǒng)算法,IF 算法對高維度數(shù)據(jù)具有更好的魯棒性[13]。
集成學習(ensemble learning)的思想最早可追溯到1962 年,Sebestyen 所著書中提出了層疊式多分類器集成系統(tǒng)。但直到20 世紀90 年代Hansen 等人提出了神經(jīng)網(wǎng)絡(luò)集成,并采用投票法集成輸出結(jié)果獲得比單個神經(jīng)網(wǎng)絡(luò)更好的分類性能,集成學習才真正走進人們的視野[14]。Bagging、Boosting 和Stacking 是集成學習的3 種典型范式,通過將幾種機器學習技術(shù)組合成一個預(yù)測模型的元算法,以達到減小方差、偏差或改進預(yù)測的效果。
Bagging 是由Breiman 于1996 年提出的一種訓練集成學習算法,作為并行集成學習算法的代表,其主要理論基礎(chǔ)來源于統(tǒng)計學中的自助式采樣(bootstrap sampling,BS)技術(shù)[15]。通過BS 技術(shù)可構(gòu)造出具有差異性的多個訓練樣本訓練多個差異性的弱學習器,再通過集成算法獲得強學習器。
類不平衡是指數(shù)據(jù)集中存在某一類樣本,其數(shù)量遠多于或遠少于其他類樣本的現(xiàn)象。類別不平衡會導致傳統(tǒng)的分類模型失效,這是因為傳統(tǒng)分類算法雖然構(gòu)造機理各不相同,但卻幾乎都遵循訓練誤差最小化原則,導致分類面出現(xiàn)偏倚[16]。
常規(guī)的異常檢測問題是典型的二分類問題,通常情況下異常數(shù)據(jù)樣本數(shù)量遠小于正常樣本數(shù)量。因此,還要求模型對不均衡數(shù)據(jù)集具有較高的適應(yīng)性[17]。竊電行為檢測也可歸類為二分類問題,即僅判斷用戶是否竊電,同時可以在竊電種類上進一步細分,對竊電數(shù)據(jù)的類別進行深入的分類研究。針對竊電檢測問題場景,竊電用戶僅占很小一部分,故也屬于類不平衡學習問題。
針對類不平衡問題,不能僅以準確率作為模型評價指標,還應(yīng)更關(guān)注召回率等衡量異常樣本檢出效果的指標。常用的評價指標包括準確率、召回率、混淆矩陣、受試者工作特征曲線(receiver operating characteristic curve,ROC)和F1-Score 等[18]。各 類評價指標的定義及計算可參考文獻[19]。
數(shù)據(jù)分類任務(wù)中的數(shù)據(jù)通常包括數(shù)據(jù)特征和標簽信息??梢赃x擇手動人工添加標簽,但是人工標簽是一項苛刻的任務(wù),也可能因標簽工作者的個人習慣偏見導致標簽結(jié)果不可靠。利用其他模型輔助添加標簽的方式會使得模型實用效果受限于標簽?zāi)P?。如何不依賴于?shù)據(jù)標簽就能較準確地檢測出竊電行為的無標簽學習算法是竊電異常檢測的重要研究課題[20]。
本文提出基于Bagging 二次加權(quán)集成的IF 竊電檢測算法,具體流程如圖1 所示。竊電數(shù)據(jù)檢測應(yīng)用場景存在類不平衡和標簽覆蓋率低的特點,因此,采用IF 模型作為Bagging 二次集成的基學習器。IF模型利用異常數(shù)據(jù)特征天然存在的離群性來檢測異常數(shù)據(jù),故理論上不需要數(shù)據(jù)標簽信息。此外,傳統(tǒng)IF 是孤立樹模型進行Bagging 集成的結(jié)果,能有效緩解類不平衡帶來的影響。本文在傳統(tǒng)IF 模型的基礎(chǔ)上優(yōu)化其特征孤立選取順序,并參照先驗知識進行二次Bagging 集成,提高了模型對竊電模式不平衡分布條件下的竊電檢測效果。本章將詳細闡述算法的孤立特征順序優(yōu)選和算法模型,并對模型算法的復(fù)雜度進行分析。
圖1 基于Bagging 二次加權(quán)集成的IF 竊電檢測方法流程圖Fig.1 Flow chart of IF electricity theft detection method based on Bagging secondary weighted ensemble
2.1.1 數(shù)據(jù)預(yù)處理
原始用戶的用電數(shù)據(jù)由于數(shù)據(jù)采集過程中可能出現(xiàn)電表工作異常等原因,會導致部分數(shù)據(jù)樣本缺失或樣本部分時段數(shù)據(jù)缺失的問題。為保證后續(xù)實驗結(jié)果的可靠性,需要首先對數(shù)據(jù)進行清洗,去除臟數(shù)據(jù),對部分時段缺失的數(shù)據(jù)采用拉格朗日插值法進行補全。
2.1.2 居民和商業(yè)用戶存在的竊電行為分析
對企圖竊電用戶而言,其核心出發(fā)點是通過某種手段篡改用電數(shù)據(jù)以減少所需支付的電費??紤]到目前電網(wǎng)公司采用分時電價的計費制度,其目的在于實現(xiàn)式(1)的效果[21]。
式中:T為一天中分時電價的總時段數(shù);Et為第t時段內(nèi)的單位電價為篡改之后第t時段內(nèi)的用電數(shù)據(jù);xt為第t時段內(nèi)的正常用電數(shù)據(jù)。
對于居民和商業(yè)用戶,從原理角度出發(fā)主要可分為欠壓法竊電、欠流法竊電、相移法竊電、擴差法竊電和擅自接線竊電[21]。當發(fā)生上述竊電現(xiàn)象時,會導致計量側(cè)獲取到被篡改的用電數(shù)據(jù)?;谖墨I[9,22]的研究成果,篡改數(shù)據(jù)相比于正常數(shù)據(jù)會出現(xiàn)比例縮減、削峰、下調(diào)、區(qū)間置零、隨機削減和移峰[23]等6 種數(shù)據(jù)變動模式。具體篡改方式和原理分析見附錄A。
2.1.3 典型居民用電數(shù)據(jù)的孤立特征順序優(yōu)選方法
原始采樣獲得的電力數(shù)據(jù)屬于高維度數(shù)據(jù),直接使用原始數(shù)據(jù)進行模型訓練會花費大量的運算資源且效率較低。因此,數(shù)據(jù)預(yù)處理時進行特征提取降低數(shù)據(jù)維度是必要的操作。附錄B 通過實驗驗證了數(shù)據(jù)維度對竊電檢測效果的影響。
參考文獻[24]的研究結(jié)果,選取8 個典型用電數(shù)據(jù)特征作為備選特征,包括峰時耗電量、谷電系數(shù)、平段用電百分比、日峰谷差、日峰谷差率、日負荷率、日平均負荷、日最大負荷,并依次標號為特征1~8。基于孤立類間相似度最低準則和貪心算法從備選特征中選取局部最優(yōu)的特征及其順序。其中孤立類間的相似度通過弗雷歇距離來表征。
孤立特征優(yōu)選過程通過孤立樹實現(xiàn),傳統(tǒng)孤立樹每次隨機選擇數(shù)據(jù)集的一個特征,并隨機選擇分割位置,據(jù)此將數(shù)據(jù)分為2 組。將異常度較低的一組歸為左子樹,異常度較高的一組作為右子樹。再對左子樹重復(fù)進行上述操作,直到樹高限制或左子樹只包含一個元素為止。最后,依據(jù)元素離樹根節(jié)點的距離來判定元素異常度,距離越近則異常度越高。孤立樹優(yōu)選孤立特征順序的原理如圖2 所示。
圖2 孤立樹孤立特征順序優(yōu)選原理Fig.2 Optimization principle of isolated feature sequence by isolated trees
為進行特征順序優(yōu)選,對孤立特征選擇和分割位置進行干預(yù)。針對某一預(yù)設(shè)竊電模式樣本集,首先第1 層結(jié)構(gòu)分別采用8 個特征進行分割。再通過計算左右子樹2 組曲線元素間的弗雷歇距離,選擇能使弗雷歇距離最大的特征作為最優(yōu)特征[25]。弗雷歇距離的計算公式如式(2)所示。
式中:L表示左子樹集合;R表示右子樹集合;N為左子樹包含曲線元素個數(shù);M為右子樹包含曲線元素個數(shù);函數(shù)d(·)表示求歐氏距離;α(t)和β(t)分別為左子樹和右子樹中的一個曲線元素;為方便計算對 比,將變量t約束到區(qū)間[0,1]內(nèi),有α(0)=0,α(1)=N;β(0)=0,β(1)=M。
左右子樹間弗雷歇距離越大說明分割效果越好,優(yōu)先作為前級孤立特征。將上一級的左子樹作為新的根節(jié)點重復(fù)上述過程直至選出8 個特征組合順序。
2.2.1 特定孤立特征順序的IF 構(gòu)建
原始IF 模型的生成算法包括孤立樹生成算法、森林集成算法和檢測算法,具體算法步驟的偽代碼詳見附錄C。在進行孤立樹生成時,要考慮孤立特征的優(yōu)選順序,避免訓練多數(shù)對模型意義不大的子樹,從而降低了模型復(fù)雜度。相比于常規(guī)投票法,集成策略引入了棄票機制,增強了模型魯棒性。
2.2.2 Bagging 二次加權(quán)集成的IF
第1 次集成是指孤立樹集成IF,采用經(jīng)典的Bagging 集成范式進行集成,并通過投票法獲取各待測節(jié)點歸一化的異常度指標。此處的孤立樹的特征選取順序是受限的,且各IF 所涵蓋的孤立樹的特征順序按照竊電模式進行優(yōu)選。
第2 次集成在第1 次集成的基礎(chǔ)上進行,6 個IF模型通過改進的加權(quán)投票法集成二次IF 模型。改進加權(quán)投票策略考慮IF 基學習器對特定異常類型數(shù)據(jù)的檢出效果,設(shè)置不同權(quán)重計算樣本歸屬概率。完成一個檢測周期后,通過先驗知識計算正常閾值和各類竊電異常閾值。若正常概率高于正常閾值且各類竊電異常概率均低于竊電異常閾值則判定為正常樣本,否則判定為竊電樣本。
檢出周期對于一個異常檢測模型至關(guān)重要,它決定了模型能否勝任實時檢測的工作。本文模型采用戶日用電量數(shù)據(jù)訓練模型,所以最小檢出周期是一天,這可以勝任有一定實時性要求的工作。
由于實踐過程中計算資源有限,因此需要對算法的復(fù)雜度給出評價。算法的復(fù)雜度包括時間和空間2 個維度,主要需要考量其量級和趨勢。
IF 算法通過構(gòu)建二叉孤立樹,利用異常樣本的離群性來檢測異常樣本。由于只關(guān)心離根節(jié)點更近的異常點,故所用限制樹高小于cei(llog2(n)),其中cei(l·)表示向上取整函數(shù),n表示孤立樹所包含原始數(shù)據(jù)樣本個數(shù)。采樣點數(shù)過多反而會降低模型檢測異常樣本的能力。待測樣本規(guī)模較大時,可通過增加森林內(nèi)樹的數(shù)量來實現(xiàn)樣本的覆蓋。本文所提算法采用優(yōu)選的特征順序代替隨機生成的特征順序,節(jié)省了生成隨機序列的開銷。針對不同竊電模式分別訓練m個IF 模型,時間開銷為原IF 的m倍。默認情況下,算法同一時段內(nèi)僅需采樣256 條樣本,由于樹深限制,空間復(fù)雜度很低,同時由于時間復(fù)雜度是線性的,所以時間開銷不大且比大多數(shù)非線性算法更加穩(wěn)定。
實驗使用的數(shù)據(jù)集為愛爾蘭智能電表數(shù)據(jù)集,該數(shù)據(jù)集來自愛爾蘭地區(qū)6 000 多家家庭和商業(yè)用戶。數(shù)據(jù)對象是其一段時間內(nèi)的電力負荷數(shù)據(jù)。采集采樣間隔為0.5 h,即一天的采集周期內(nèi)每條數(shù)據(jù)包含48 個數(shù)據(jù)點。原始數(shù)據(jù)沒有數(shù)據(jù)對應(yīng)用戶的相關(guān)標簽信息,因此,在數(shù)據(jù)量較大的情況下可近似認為每條數(shù)據(jù)相互獨立。由于參與此數(shù)據(jù)集采集的用戶都已獲悉并同意配合數(shù)據(jù)采集工作,因此假設(shè)所有數(shù)據(jù)均為正常數(shù)據(jù)。為檢驗所提模型的效果,從所有數(shù)據(jù)中隨機選擇50%作為異常候補樣本。
基于2.1.2 節(jié)和附錄A 的分析,參照文獻[8]的算例數(shù)據(jù)生成方法,使用6 種方式修改數(shù)據(jù)后得到6 組不同竊電方式下的竊電數(shù)據(jù)樣本。從竊電原理角度人為構(gòu)建的異常用電樣本在保證竊電原理準確的前提下,能夠緩解因數(shù)據(jù)驅(qū)動迭代訓練模型產(chǎn)生的信息繭房問題。對原始愛爾蘭數(shù)據(jù)進行預(yù)處理,使用清洗插值等算法去除其中的臟數(shù)據(jù)和缺失數(shù)據(jù)。然后,從處理后的數(shù)據(jù)集中隨機選取24 000 條數(shù)據(jù)作為備選實驗正樣本。最后,再基于6 種篡改方式各生成12 000 條異常備選數(shù)據(jù)。
本文算例在AWS 中國云計算服務(wù)器上運行,硬件配置為:2 個vCPU,7.5 GB 內(nèi) 存,NVIDIA Tesla K80 GPU,軟件環(huán)境為Ubuntu 18.04 LTS,開發(fā)框架為TensorFlow 框架,開發(fā)語言為Python 3.6。
本部分實驗對比采用優(yōu)選特征組合順序的IF模型與原始隨機順序的IF 模型對各類竊電模式的檢測效果。訓練樣本共20 000 條數(shù)據(jù)樣本,其中包含18 000 條正常樣本和2 000 條竊電樣本,隨機設(shè)置其中6 000 條含標簽。每次訓練和檢測都只包含一種竊電模式,重復(fù)進行10 次實驗取平均值作為實驗結(jié)果。
6 種竊電模式的實驗對比結(jié)果如表1 所示。以比例縮減竊電為例,優(yōu)選特征組合順序結(jié)果表示依次采用日平均負荷、日負荷率、日平均負荷、日最大負荷、谷電系數(shù)、日負荷率、日峰谷差率、平段用電百分比作為劃分孤立樹左右子樹的特征能取得更優(yōu)的檢測效果。模型評價指標為F1-Score,6 種竊電模式下采用經(jīng)過優(yōu)選的孤立特征順序訓練的IF 模型的F1-Score 相比于隨機順序模型均有所提高。實驗結(jié)果表明,特征順序優(yōu)選能夠提高IF 模型對特定竊電行為的檢測效果。
表1 特征組合順序優(yōu)選結(jié)果對比Table 1 Comparison of sequence optimization results of feature combination
基于表1 結(jié)果對各用電特征對模型的貢獻進行評分,結(jié)果如表2 所示??梢钥闯觯煌卣鲗Σ煌`電模式的檢出貢獻存在差異,這也從側(cè)面驗證了進行特征及其順序優(yōu)選的合理性和必要性。
表2 特征組合順序優(yōu)選結(jié)果的特征評分Table 2 Feature scoring of sequence optimization results of feature combination
本部分實驗測試本文模型對具有類不平衡性和標簽覆蓋率低特點的數(shù)據(jù)集的適應(yīng)性。實驗中動態(tài)調(diào)節(jié)類不平衡數(shù)據(jù)集中小樣本數(shù)據(jù)的占比來測試對類不平衡性數(shù)據(jù)的適應(yīng)性;調(diào)節(jié)訓練數(shù)據(jù)中帶標簽樣本數(shù)來測試對低標簽覆蓋率數(shù)據(jù)集的適應(yīng)性。分別測試檢測的準確率和召回率作為模型評價指標。其中,竊電數(shù)據(jù)樣本單獨采用比例縮減竊電數(shù)據(jù)進行實驗。參與對比的算法包括支持向量機(support vector machine,SVM)[26]、分類與 回歸樹(classification and regression tree,CART)[27]、K 最近鄰(K nearest neighbor,KNN)[28]、深度置信網(wǎng)絡(luò)(deep belief net,DBN)[29]、隨機森林(random forest,RF)[27]、深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)[30]、LOF 檢測方法[31]和Bagging 異質(zhì)集成方法[8]。實驗?zāi)P偷某瑓?shù)設(shè)置見附錄D。
實驗結(jié)果準確率與召回率可視化數(shù)據(jù)圖及分析詳見附錄E,以下僅從中選取5 組典型值進行對比分析。對比模型在幾個典型值下的準確率和召回率測試結(jié)果分別如表3 和表4 所示。表中,典型值表示為小樣本占比/訓練集標簽樣本數(shù)。
表3 實驗典型值準確率對比Table 3 Comparison of accuracy rate of typical experimental values
表4 實驗典型值召回率對比Table 4 Comparison of recall rate of typical experimental values
從表3 和表4 中可以看出,在類平衡且訓練充分的理想條件下,作為深度模型的DBN 發(fā)揮了其模型優(yōu)勢,檢測效果最佳。在保證類平衡的前提下減小訓練樣本標簽數(shù),由于DBN 和SVM 模型對數(shù)據(jù)標簽依賴度較高,故檢測效果變差,其準確率分別下降了2.23%和2.78%。在類不平衡度高且標簽覆蓋率低的極端條件下,本文算法的準確率和召回率分別為90.51%和90.48%,均達到最優(yōu)。RF 模型是在決策樹的基礎(chǔ)上采用集成方法進行優(yōu)化,檢測效果較CART 算法有所提升。DNN 算法作為深度網(wǎng)絡(luò),情況與DBN 算法類似。LOF 算法在異常樣本占比約為8%時表現(xiàn)良好,其準確率和召回率最高分別可達87.58%和96.71%。Bagging 異質(zhì)集成算法優(yōu)于多數(shù)參與集成的基學習模型,說明采用集成算法確實能優(yōu)化竊電檢測效果,但在不平衡數(shù)據(jù)集條件下,本文算法更優(yōu)。實驗結(jié)果說明在訓練數(shù)據(jù)不平衡度高且訓練不充分的情況下,本文算法在檢測的準確率和召回率上存在優(yōu)勢。本部分實驗受限于實驗樣本規(guī)模,樣本不平衡度對照范圍較窄。樣本極度不平衡條件下的實驗結(jié)果見附錄F。
本節(jié)測試模型在竊電模式不平衡分布條件下的竊電檢測效果。訓練集包含24 000 條數(shù)據(jù),其中6 000 條含有標簽。測試集包含3 600 條正常數(shù)據(jù)和400 條異常數(shù)據(jù),即異常數(shù)據(jù)占比為10%。實驗共分為2 組:第1 組實驗各種竊電方式占比相同;第2組進一步考慮不同竊電方式樣本可能存在的不平衡性,在保證竊電樣本總數(shù)相同的前提下改變各類竊電樣本數(shù)量。2 組實驗的參數(shù)設(shè)置情況如表5所示。
表5 不同竊電模式的不平衡分布參數(shù)Table 5 Unbalanced distribution parameters of different electricity theft modes
為簡化實驗過程,基于3.3 節(jié)的結(jié)果,排除檢測效果較差的DBN 和SVM 模型,僅與CART、KNN和未經(jīng)二次加權(quán)集成改進的IF 模型進行對比。
第1 組實驗考慮多種竊電模式并存且分布平衡的情況,如表6 和圖3 所示。其中,混淆矩陣、真正例率等評價指標的定義可參考文獻[18-19];ROC 空間通常用以對模型的綜合性能進行評價,其中精確性采用真正例率指標衡量,敏感性采用漏警率指標衡量。因此,圖3 可看作表6 的可視化結(jié)果,不同算法的性能映射到ROC 空間中,映射點離(0,1)坐標點越近說明綜合性能越好。對比表6 數(shù)據(jù)和表3、表4 中單獨含有一種竊電模式的數(shù)據(jù)可以看出,竊電方式的多樣化總體上會增加異常檢測的難度,但對不同算法影響程度不同。本文算法、CART、KNN、IF 這4 種對比算法在處理多種竊電方式共存的數(shù)據(jù)竊電檢測問題時,本文算法在漏警率上明顯占優(yōu),僅為4.25%。準確率指標本文算法和CART 相差不大,分別為92.31%和92.65%。
表6 竊電模式平衡分布條件下的竊電檢測實驗結(jié)果Table 6 Experimental results of electricity theft detection under the condition of balanced distribution of electricity theft modes
圖3 竊電模式平衡分布條件下的可視化實驗結(jié)果Fig.3 Visualized experimental results under the condition of balanced distribution of electricity theft modes
第2 組實驗結(jié)果如表7 和圖4 所示。對比表7和表6 可以看出,本文算法的漏警率下降了0.25 個百分點,而原始IF 算法的漏警率上升了2.50 個百分點,這說明基于先驗知識的二次加權(quán)集成算法在應(yīng)對竊電模式不平衡分布條件下的竊電檢測時是有效的。從圖4 可以看出,各個算法的優(yōu)劣排序與第1 組實驗相同。
表7 竊電模式不平衡分布條件下的竊電檢測實驗結(jié)果Table 7 Experimental results of electricity theft detection under the condition of unbalanced distribution of electricity theft modes
圖4 竊電模式不平衡分布條件下的可視化實驗結(jié)果Fig.4 Visualized experimental results under the condition of unbalanced distribution of electricity theft modes
本文提出一種基于Bagging 二次加權(quán)集成的IF竊電檢測算法。針對竊電方式多樣化、竊電數(shù)據(jù)類不平衡性明顯、樣本標簽覆蓋率低的特點,提出了孤立特征順序優(yōu)選的IF 模型,并采用Bagging 集成策略進行二次加權(quán)集成。不同IF 模型采用參數(shù)傳遞式的訓練方式加快了模型收斂速度,偏向性IF 模型的訓練改善了原始IF 模型難以檢測多種異常樣本的問題。利用愛爾蘭居民用電數(shù)據(jù)進行仿真實驗對比,驗證了本文算法在貼近實際檢測環(huán)境下具有更高的精確性和檢出率??紤]到大量正常用戶會表現(xiàn)出多樣的用電行為模式,如因外出而被誤判為電量置零的竊電場景,以及通過分流或分壓長期持續(xù)竊電檢測的問題,后續(xù)將進一步針對實際用電數(shù)據(jù)的特點,從多維度用電數(shù)據(jù)著手,綜合考慮用電負荷曲線信息、電壓電流和無功功率等信息,針對多種竊電行為并存的檢測問題開展深入研究。
附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。