,丁學(xué),,,
(1.國(guó)網(wǎng)浙江長(zhǎng)興縣供電有限公司,浙江 湖州 313100; 2.中國(guó)計(jì)量大學(xué) 機(jī)電工程學(xué)院,杭州 310018)
如今,竊電現(xiàn)象時(shí)常發(fā)生,導(dǎo)致用電臺(tái)區(qū)線損率一直偏高,已經(jīng)嚴(yán)重?fù)p壞了電力公司的利益,擾亂了供用電秩序,影響了國(guó)家的經(jīng)濟(jì)建設(shè)和社會(huì)穩(wěn)定[1]。近幾年,電力公司開(kāi)始高度關(guān)注竊電問(wèn)題,并進(jìn)行了不少反竊電相關(guān)的工作。國(guó)家電網(wǎng)公司在2018年度總部科技項(xiàng)目申報(bào)指南中就包含了反竊電及稽查監(jiān)控相關(guān)技術(shù)研究的項(xiàng)目,說(shuō)明現(xiàn)在反竊電問(wèn)題仍然是電力公司亟待解決的關(guān)鍵問(wèn)題,研究反竊電技術(shù)具有很好的理論意義和實(shí)際應(yīng)用價(jià)值。
現(xiàn)在智能電表的迅速普及,帶來(lái)了大量的用電數(shù)據(jù)。這些用電數(shù)據(jù)數(shù)量大,種類多且復(fù)雜,其中蘊(yùn)藏著巨大的研究?jī)r(jià)值,對(duì)于用戶竊電分析很有幫助[2]。隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)挖掘等數(shù)據(jù)處理技術(shù)也開(kāi)始應(yīng)用于用電數(shù)據(jù)處理。文獻(xiàn)[3]應(yīng)用了BP神經(jīng)網(wǎng)絡(luò)建立用戶竊電嫌疑分析模型,具有一定的竊電嫌疑分析能力。但該模型需要大量的正常數(shù)據(jù)和竊電數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),而且實(shí)際分析過(guò)程中往往由于樣本不平衡的問(wèn)題,模型分類效果不理想。文獻(xiàn)[4]提出了一種基于樹(shù)形結(jié)構(gòu)的電能表層次模型的電能表管理系統(tǒng)架構(gòu)。其采用的用電數(shù)據(jù)偏少,當(dāng)數(shù)據(jù)增多時(shí)需要對(duì)層次模型進(jìn)一步優(yōu)化。文獻(xiàn)[5]應(yīng)用One-class SVM算法進(jìn)行了用電異常檢測(cè),采用了單一電表的數(shù)據(jù),樣本數(shù)量偏少,驗(yàn)證的有效性不足,且沒(méi)有提出作為SVM的核心問(wèn)題之一的訓(xùn)練樣本選取方法。
本文將One-class SVM算法引入到疑似竊電判斷當(dāng)中,提出了一種將電量波動(dòng)特征和One-class SVM結(jié)合的竊電辨識(shí)模型。利用電量數(shù)據(jù)波動(dòng)指標(biāo)為One-class SVM選取相對(duì)優(yōu)化的訓(xùn)練樣本,訓(xùn)練得到相應(yīng)分類模型。通過(guò)該模型對(duì)用戶用電數(shù)據(jù)進(jìn)行分類,將結(jié)果進(jìn)行分析處理從而辨別出是否存在竊電行為。
目前電量數(shù)據(jù)處理多只采用平均數(shù)或方差等分析指標(biāo),但這些單獨(dú)的指標(biāo)無(wú)法滿足對(duì)不同時(shí)間段電量波動(dòng)情況進(jìn)行比較的要求。因此,在對(duì)用電數(shù)據(jù)特征進(jìn)行深入分析的過(guò)程中,總結(jié)得到了描述電量數(shù)據(jù)波動(dòng)的指標(biāo)CV(電量波動(dòng)系數(shù)),它用于分析統(tǒng)計(jì)期間用戶電量數(shù)據(jù)異常波動(dòng)的程度,模型定義為:
(1)
支持向量機(jī)(support vector machine,SVM)是一種二類分類模型。它的基本模型是定義在特征空間上的間隔最大的線性分類器,間隔最大使它有別于感知器[6]。其核心思想是建立一個(gè)超平面作為決策面,使得樣本數(shù)據(jù)當(dāng)中正例和反例的間隔達(dá)到最大化。這樣求最大間隔的問(wèn)題其實(shí)就等價(jià)于求最優(yōu)分類超平面,其中超平面是對(duì)任意維度下線性函數(shù)的統(tǒng)稱[7]。其原理如圖1所示。
圖1中,圓形和三角形代表整個(gè)訓(xùn)練樣本,圓形代表正例,三角形代表反例,虛線將兩種類別區(qū)分開(kāi),L1與L2之間的間隔為數(shù)據(jù)類間隔,中間的虛線為分離超平面。L1和L2上的圓形和三角形即為相應(yīng)的支持向量。對(duì)于上述的訓(xùn)練樣本類型可視為線性可分訓(xùn)練數(shù)據(jù)集,通過(guò)支持向量求其間隔最大化或求其等價(jià)的凸二次規(guī)劃問(wèn)題可以得到使數(shù)據(jù)類間隔最大的分類超平面。
圖1 支持向量機(jī)原理
在應(yīng)用中,支持向量機(jī)一般將數(shù)據(jù)映射到高維空間,使原本線性不可分的樣本在高維空間線性可分,通過(guò)核函數(shù)構(gòu)造最優(yōu)超平面完成分類[8]。
Sch?Lkopf等人經(jīng)過(guò)對(duì)SVM算法的研究,開(kāi)發(fā)出了One-class SVM算法[9],它的核心思想是通過(guò)SVM訓(xùn)練得到具有最大分類間隔的超平面,從而把一分類問(wèn)題轉(zhuǎn)化成一個(gè)特殊的二值分類問(wèn)題。實(shí)際在采用訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練的時(shí)候,One-class SVM只選取一類具有相似特征的數(shù)據(jù)集合進(jìn)行訓(xùn)練,得到的模型其基于的分類規(guī)則只有一類數(shù)據(jù)的特性A,然后在分類的時(shí)候模型就將測(cè)試數(shù)據(jù)集分為屬于A類和不屬于A類兩種類型,公式如下所示。
模型優(yōu)化函數(shù):
(2)
決策函數(shù):
12.隨著智能手機(jī)的功能越來(lái)越強(qiáng)大,MP3(音樂(lè)播放器)、電子詞典、掌上游戲機(jī)等電子產(chǎn)品正慢慢淡出人們的視野。這說(shuō)明:
s.t (w·φ(xi)+b)≥ρ-ζi,ζi≥0
(3)
式中,w和ρ為超平面的法向量和截距,ζi為松弛變量,v是懲罰參數(shù),φ為非線性映射,即核函數(shù)。
使用One-class SVM的關(guān)鍵之一在于選擇選擇上述模型優(yōu)化函數(shù)中的v值和合適的核函數(shù)。v是一個(gè)比例值,其范圍是0到1之間。其體現(xiàn)為所選取的訓(xùn)練集數(shù)據(jù)中規(guī)定的異類數(shù)據(jù)的比例。本文選取高斯核函數(shù),其定義為空間中任一點(diǎn)x1到某中心點(diǎn)x2之間歐氏距離的單調(diào)函數(shù)[10]。其公式如下:
(4)
結(jié)合用戶的實(shí)際用電特征來(lái)考慮,由于正常用戶數(shù)據(jù)往往遠(yuǎn)大于竊電用戶數(shù)據(jù),所以會(huì)導(dǎo)致兩類數(shù)據(jù)數(shù)量不平衡的情況。因此,解決實(shí)際分類過(guò)程中的數(shù)據(jù)類型不平衡的問(wèn)題非常重要。相比其他類型的SVM,One-class SVM能更好地處理此類問(wèn)題,這是由于上文提到的算法性質(zhì)所決定的。因此選擇One-class SVM來(lái)訓(xùn)練模型。
本文設(shè)計(jì)了一種基于One-class SVM的用戶異常數(shù)據(jù)檢測(cè)模型,其包括訓(xùn)練樣本采集、模型選取、數(shù)據(jù)預(yù)處理、參數(shù)優(yōu)化、分類器分類、決策報(bào)警等部分。其計(jì)算分析是在MATLAB環(huán)境下進(jìn)行的,流程如圖2所示。
圖2 基于One-class SVM的數(shù)據(jù)異常檢測(cè)框圖
本方案主要分為兩個(gè)步驟,首先建立SVM分類模型,通過(guò)訓(xùn)練樣本采集和數(shù)據(jù)預(yù)處理得到特征向量,并根據(jù)負(fù)荷類型選取模型進(jìn)行訓(xùn)練,尋找最優(yōu)超平面,當(dāng)求得的解滿足KKT條件時(shí),即可得到最優(yōu)超平面,從而得到One-class SVM分類模型;其次采集測(cè)試數(shù)據(jù)并進(jìn)行預(yù)處理,用得到的One-class SVM分類器對(duì)該數(shù)據(jù)進(jìn)行處理,將結(jié)果導(dǎo)入決策函數(shù)分析,如發(fā)現(xiàn)竊電行為則進(jìn)行報(bào)警。
本文提出了一種新的支持向量機(jī)的樣本選取方法,即利用上文提到的電量波動(dòng)系數(shù)作為選取樣本的指標(biāo)。
因?yàn)殡娏扛鶕?jù)功率和時(shí)間的乘積,而功率是電壓和電流的乘積,因此當(dāng)電壓恒定和時(shí)間相同的情況下,可以根據(jù)電量情況來(lái)反映電流情況。而電量波動(dòng)情況容易分析,所以可通過(guò)電量來(lái)分析電流,從而得到相應(yīng)的三相電流數(shù)據(jù)樣本。
可按工作日和節(jié)假日的負(fù)荷加以區(qū)分,對(duì)于兩種負(fù)荷類別,在進(jìn)行分類前分別選取工作日和節(jié)假日的正常負(fù)荷數(shù)據(jù)進(jìn)行訓(xùn)練,得到相應(yīng)的分類模型。一般工作日選擇5-10天的負(fù)荷數(shù)據(jù)作為訓(xùn)練樣本,節(jié)假日選擇4天以上的負(fù)荷數(shù)據(jù)作為訓(xùn)練樣本。
為了防止某些偏差過(guò)大的值對(duì)模型分類的準(zhǔn)確性產(chǎn)生不良影響,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。采用線性函數(shù)法,即:
(5)
其中:x(k)代表任意一個(gè)樣本值,min(x(n))代表樣本最小值,max(x(n))代表樣本最大值。這種歸一化處理方法一般是將y(k)轉(zhuǎn)化為介于0和1之間的數(shù)。
對(duì)于最優(yōu)參數(shù)的選擇,有兩種方法,一種是根據(jù)實(shí)際經(jīng)驗(yàn)進(jìn)行選擇,模型優(yōu)化函數(shù)中的參數(shù)v一般取0.01,0.001,0.000 1,核函數(shù)中γ一般取10。這主要是因?yàn)樵谶x擇訓(xùn)練樣本集時(shí)盡可能采用正常的用電數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集樣本,因此v的值也就是異常用電數(shù)據(jù)占訓(xùn)練樣本集的比例會(huì)很小。
還有一種方法是利用程序自身尋找最優(yōu)參數(shù)。一般采用的是網(wǎng)格參數(shù)尋優(yōu)。網(wǎng)格參數(shù)尋優(yōu)核心的思想是k折交叉驗(yàn)證。即隨機(jī)選取一部分樣數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),其他作為測(cè)試數(shù)據(jù)檢驗(yàn),經(jīng)過(guò)k次循環(huán)找到最優(yōu)參數(shù)。這種方法的好處在于其隨機(jī)性和重復(fù)性,可以有效地減小誤差。
第一種方法得到的參數(shù)訓(xùn)練出來(lái)的模型準(zhǔn)確度高,但是每次都需要人工尋找,比較繁瑣。第二種方法雖然免去了人工,但是求得的參數(shù)訓(xùn)練出來(lái)的模型準(zhǔn)確率較低,且隨著數(shù)據(jù)的增大,計(jì)算機(jī)的運(yùn)算量也會(huì)增大,使得運(yùn)行時(shí)間過(guò)長(zhǎng)。本文主要采用第一種方法。
One-class SVM作為一種分類器,是以對(duì)訓(xùn)練數(shù)據(jù)訓(xùn)練得到的模型作為分類規(guī)則。其輸入可以是多維的數(shù)據(jù),但是輸出是一維的。規(guī)定One-class SVM只輸出+1和-1兩種數(shù)據(jù)來(lái)進(jìn)行數(shù)據(jù)的分類。其輸出+1代表其所對(duì)應(yīng)的負(fù)荷數(shù)據(jù)是正常用電數(shù)據(jù),輸出-1代表其所對(duì)應(yīng)的負(fù)荷數(shù)據(jù)是異常數(shù)據(jù)。
由于模型分類的結(jié)果一定存在誤差和竊電問(wèn)題的特殊性,不能把每個(gè)時(shí)間點(diǎn)檢測(cè)出來(lái)的異常數(shù)據(jù)都當(dāng)成是竊電數(shù)據(jù),像某些時(shí)間點(diǎn)的數(shù)據(jù)異??赡苁瞧渌歉`電行為如跳閘,設(shè)備檢修等原因?qū)е碌模荒軐⑵浼{入竊電行為的范疇。
經(jīng)查證有關(guān)電力公司的資料和根據(jù)數(shù)據(jù)規(guī)律分析,采用以連續(xù)3天發(fā)現(xiàn)異常數(shù)據(jù)作為警報(bào)的觸發(fā)條件。也就是說(shuō),當(dāng)每天96個(gè)檢測(cè)時(shí)間點(diǎn),連續(xù)3天,共計(jì)288個(gè)檢測(cè)時(shí)間點(diǎn)均為異常數(shù)據(jù)時(shí),可以認(rèn)定其存在竊電行為,并報(bào)告首次檢測(cè)到異常數(shù)據(jù)的時(shí)間和竊電報(bào)警的時(shí)間。當(dāng)然,具體的判別標(biāo)準(zhǔn)也可根據(jù)實(shí)際情況而定。通過(guò)這樣設(shè)置就可以有效的防止個(gè)別異常數(shù)據(jù)對(duì)分類結(jié)果的影響,排除誤報(bào)。
為了檢驗(yàn)樣本選取方法的可行性和算法在實(shí)際竊電辨識(shí)中的準(zhǔn)確率,從用電數(shù)據(jù)采集系統(tǒng)中提取某地區(qū)針織廠的用電數(shù)據(jù),并在Matlab環(huán)境下對(duì)其進(jìn)行分析驗(yàn)證。
圖3 某針織廠每月電量波動(dòng)系數(shù)
根據(jù)公式(1)計(jì)算某地區(qū)針織廠的電量數(shù)據(jù)波動(dòng)系數(shù),如圖3所示。其中已知該用戶7、8兩個(gè)月存在竊電行為,從圖3中可以看出這兩個(gè)月份的波動(dòng)系數(shù)較其它月份大。根據(jù)電量波動(dòng)系數(shù)的不同將5月份和3月份的三相電流數(shù)據(jù)分別作為訓(xùn)練樣本進(jìn)行分析處理,其結(jié)果如圖4和圖5所示。
圖4 某針織廠5月份三相電流特征及分析結(jié)果
圖5 某針織廠3月份三相電流特征及分析結(jié)果
圖4和圖5中,上子圖中黃、綠、紅三線分別代表中A、B、C三相電流(單位為A);橫坐標(biāo)代表數(shù)據(jù)的序號(hào),對(duì)應(yīng)各個(gè)負(fù)荷數(shù)據(jù)采樣點(diǎn);雙箭頭標(biāo)注的區(qū)域?yàn)闃颖緮?shù)據(jù)選取范圍。下子圖縱坐標(biāo)代表分類的類別,1代表正常數(shù)據(jù),-1代表異常數(shù)據(jù);藍(lán)色部分代表實(shí)際的數(shù)據(jù)分類,而紅色的部分代表模型分類的結(jié)果(注:為了在圖上以示區(qū)分,將預(yù)測(cè)測(cè)試集分類的值乘以系數(shù)0.8)。
將分析結(jié)果中正確分類的個(gè)數(shù)占總測(cè)試數(shù)據(jù)個(gè)數(shù)的比值稱作分類準(zhǔn)確率,用以衡量分類結(jié)果的好壞。從圖4和圖5中可以看出,選取3月份負(fù)荷數(shù)據(jù)作為訓(xùn)練樣本得到的分類效果要明顯好于選取5月份的負(fù)荷數(shù)據(jù)作為訓(xùn)練樣本的分類效果,它們的分類準(zhǔn)確率分別為97.85%和87.90%,且前者發(fā)出竊電警報(bào)的時(shí)間與實(shí)際竊電時(shí)間相符。同時(shí),若分別以竊電發(fā)生之前的4、6月份的負(fù)荷數(shù)據(jù)作為訓(xùn)練樣本,得到的分類結(jié)果與圖3相似,分類準(zhǔn)確度分別為97.79%和97.82%。
以上分析說(shuō)明根據(jù)電量波動(dòng)系數(shù)選取樣本的方法是可行的。根據(jù)現(xiàn)有研究,選取電量波動(dòng)系數(shù)小于0.2時(shí)的負(fù)荷數(shù)據(jù)作為訓(xùn)練樣本選擇依據(jù),這個(gè)閾值可根據(jù)負(fù)荷類型情況作相應(yīng)調(diào)整。
從所分析的樣本數(shù)據(jù)中提取了同一地區(qū)6個(gè)用戶的竊電數(shù)據(jù),將使用算法檢測(cè)得到的竊電時(shí)間和電力公司實(shí)際查證的竊電時(shí)間相對(duì)比。為了減少誤報(bào),連續(xù)3天檢測(cè)到異常數(shù)據(jù)時(shí)才發(fā)出竊電警報(bào)。對(duì)算法發(fā)出竊電警報(bào)時(shí)間和實(shí)際查證的竊電時(shí)間進(jìn)行比較,如表1所示。
表1 各用戶實(shí)際竊電時(shí)間與檢測(cè)竊電時(shí)間對(duì)比
表1中表明算法警報(bào)時(shí)間與實(shí)際竊電實(shí)際基本吻合,其中存在的誤差主要原因可分為:1)一些用電數(shù)據(jù)的缺失;2)樣本數(shù)據(jù)的選取導(dǎo)致訓(xùn)練模型有偏差;3)參數(shù)還可以進(jìn)一步優(yōu)化。
本文基于竊電現(xiàn)狀和一些反竊電的研究成果,在目前用電信息采集系統(tǒng)數(shù)據(jù)處理分析不夠充分的情況下,提出了一種利用電量波動(dòng)系數(shù)來(lái)優(yōu)化選取樣本,然后利用支持向量機(jī)算法對(duì)用戶用電信息進(jìn)行處理分析的竊電辨識(shí)方法。通過(guò)數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、參數(shù)優(yōu)化、決策函數(shù)及報(bào)警等步驟,最終得到的算法結(jié)果能夠滿足要求。經(jīng)過(guò)實(shí)際的檢驗(yàn)分析可知,這種方法對(duì)于竊電問(wèn)題的分析處理效果比較理想,能基本實(shí)現(xiàn)區(qū)分正常用電數(shù)據(jù)和竊電數(shù)據(jù)的功能。該方法為防竊電工作提供了一種新的思路。
但是由于負(fù)荷類型的多樣性,以及有些竊電手法的隱蔽性,不能說(shuō)某一種竊電辨識(shí)方法可以識(shí)別所有的竊電行為,也不可避免地存在誤報(bào)的現(xiàn)象。需要在今后進(jìn)一步研究,完善本文所提算法,或者將文中的算法與其它數(shù)據(jù)挖掘算法融合,以進(jìn)一步提高竊電辨識(shí)的準(zhǔn)確性。
參考文獻(xiàn):
[1] 李 亞, 劉麗平, 李柏青,等. 基于改進(jìn)K-Means聚類和BP神經(jīng)網(wǎng)絡(luò)的臺(tái)區(qū)線損率計(jì)算方法[J]. 中國(guó)電機(jī)工程學(xué)報(bào), 2016, 36(17):4543-4551.
[2] 吳倩紅, 高 軍, 侯廣松,等. 實(shí)現(xiàn)影響因素多源異構(gòu)融合的短期負(fù)荷預(yù)測(cè)支持向量機(jī)算法[J]. 電力系統(tǒng)自動(dòng)化, 2016, 40(15):67-72.
[3] 周文婷, 顧 楠, 王 濤,等. 基于數(shù)據(jù)挖掘算法的用戶竊電嫌疑分析[J]. 河南科學(xué), 2015, 33(10):1767-1772.
[4] 謝晶晶. 基于層次模型的電能表管理與數(shù)據(jù)分析方法研究[D]. 南京:南京郵電大學(xué), 2016.
[5] 簡(jiǎn)富俊, 曹 敏, 王 磊,等. 基于SVM的AMI環(huán)境下用電異常檢測(cè)研究[J]. 電測(cè)與儀表, 2014, 51(6):64-69.
[6] 張曉宇, 付 林, 沈 炯,等. 基于在線支持向量機(jī)的鍋爐動(dòng)態(tài)建模方法研究[A]. 中國(guó)電機(jī)工程學(xué)會(huì)年會(huì)[C]. 2016.
[7] 朱雪芳. 改進(jìn)支持向量聚類算法的研究[J]. 計(jì)算機(jī)測(cè)量與控制, 2006, 14(12):1732-1735.
[8] 楊錫運(yùn), 孫寶君, 張新房,等. 基于相似數(shù)據(jù)的支持向量機(jī)短期風(fēng)速預(yù)測(cè)仿真研究[J]. 中國(guó)電機(jī)工程學(xué)報(bào), 2012, 32(4):35-41.
[9] Sch?Lkopf B, Smola A J, Williamson R C, et al. New Support Vector Algorithms[J].Neural Computation, 2000, 12(5):1207.
[10] 舒勝文, 阮江軍, 黃道春,等. 基于電場(chǎng)特征量和SVM的空氣間隙擊穿電壓預(yù)測(cè)[J]. 中國(guó)電機(jī)工程學(xué)報(bào), 2015, 35(3):742-750.