亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        使用計(jì)量數(shù)據(jù)和聚類算法檢測(cè)非技術(shù)損失

        2020-01-05 05:37:53矯真王兆軍郭紅霞郭紅梅趙曦

        矯真 王兆軍 郭紅霞 郭紅梅 趙曦

        摘? ?要:減少非技術(shù)損失(NTL)是實(shí)施智能電網(wǎng)所帶來(lái)的潛在利益的重要組成部分。提出了一種基于智能電表數(shù)據(jù)的聚類算法來(lái)檢測(cè)竊電和其他原因所導(dǎo)致的非技術(shù)性損失。通過(guò)對(duì)智能電表采集的數(shù)據(jù)進(jìn)行聚類,提取正常用電行為的數(shù)據(jù)原型。然后對(duì)待檢測(cè)數(shù)據(jù)樣本和正常數(shù)據(jù)的聚類中心之間的距離進(jìn)行計(jì)算,如果距離明顯,則將其分類為NTL數(shù)據(jù)樣本。最后對(duì)四種不同的異常用電指標(biāo)進(jìn)行空間分析,使分類結(jié)果更易于可視化。實(shí)驗(yàn)表明,基于GA聚類算法的NTL檢測(cè)方法具有優(yōu)于同類檢測(cè)方法的性能。

        關(guān)鍵詞:智能電表;聚類;非技術(shù)損失

        中圖分類號(hào):TP391? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

        Using Measurement Data and Clustering Algorithms to Detect NTL

        JIAO zhen1,WANG zhao-jun2,GUO hong-xia2,GUO hong-mei3,ZHAO xi2

        (1. Wucheng Power Supply Company,State Grid Shandong Electric Power Company,Dezhou,Shandong 253300,China;

        2. State Grid Shandong Electric Power Research Institute,Jinan,Shandong 250000,China;

        3. Jiyang Power Supply Company,State Grid Shandong Electric Power Company,Jinan,Shandong 251400,China)

        Abstract:Reducing NTL is an important part of the potential benefits of implementing a smart grid. This paper proposes a clustering algorithm based on smart meter data to detect non-technical losses caused by electricity theft and other causes.By synthesizing the data collected by the smart meter,the data prototype of the normal power usage behavior is extracted. The distance between the test data sample and the cluster center of the normal data is then calculated,and if the distance is significant,it is classified as an NTL data sample. Finally,spatial analysis of four different abnormal power consumption indicators makes the classification results easier to visualize. Experiments show that the NTL detection method based on GA clustering algorithm has better performance than similar detection methods.

        Key words:smart meter;clustering;non-technical loss

        電網(wǎng)系統(tǒng)的非技術(shù)損失NTL(Non-Technical Loss)等于供電量減去用電量和線損、變壓器等電力設(shè)備損耗之和。由于智能電表的日益普及,使得計(jì)量數(shù)據(jù)在用戶端和電力計(jì)量系統(tǒng)之間實(shí)現(xiàn)網(wǎng)絡(luò)傳輸,同時(shí)也拓寬了竊電行為的攻擊面。通過(guò)電表黑客、計(jì)量數(shù)據(jù)操縱和通信欺騙等手段所實(shí)施的錯(cuò)誤數(shù)據(jù)和不良數(shù)據(jù)注入攻擊,給采用傳統(tǒng)手段的NTL檢測(cè)帶來(lái)挑戰(zhàn)。因此基于數(shù)據(jù)挖掘技術(shù)來(lái)檢測(cè)NTL勢(shì)在必行。

        已有研究測(cè)試了多種基于數(shù)據(jù)分類和機(jī)器算法技術(shù)來(lái)檢測(cè)NTL,如狀態(tài)估計(jì)[1]、聚類[2]、神經(jīng)網(wǎng)絡(luò)[3]、支持向量機(jī)(SVM)[4]和決策樹(shù)[5]。這些研究大多聚焦與通過(guò)數(shù)據(jù)挖掘來(lái)確定存在電力盜竊行為的可能,但是沒(méi)有進(jìn)一步對(duì)導(dǎo)致NTL的來(lái)源進(jìn)行深入分析[6,7]。為此,提出了一種通過(guò)對(duì)智能電表計(jì)量數(shù)據(jù)進(jìn)行聚類分析來(lái)發(fā)現(xiàn)NTL來(lái)源的方法。首先,從采集到的電表計(jì)量數(shù)據(jù)中計(jì)算出異常用電指標(biāo)。其次,對(duì)一組正常電力用戶的計(jì)量數(shù)據(jù)進(jìn)行聚類分析,以發(fā)現(xiàn)正常用電行為的數(shù)據(jù)原型,這些數(shù)據(jù)原型代表了不同模式的正常用電行為。隨后,基于距離檢測(cè)方法將計(jì)算出的異常用電指標(biāo)與正常數(shù)據(jù)原型進(jìn)行對(duì)比。來(lái)自被分析電力用戶的數(shù)據(jù)與正常數(shù)據(jù)原型的距離越遠(yuǎn),其NTL得分越高,表明其可能為NTL數(shù)據(jù)點(diǎn)。最后通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法在NTL檢測(cè)方面的良好效果。

        1? ?威脅模型

        所提出的威脅模型能夠檢測(cè)可能的攻擊載體和與智能電網(wǎng)竊電相關(guān)的主要系統(tǒng)漏洞。攻擊載體指的是惡意影響電力系統(tǒng),使其支付的電費(fèi)低于其所使用的全部用電量。只要是導(dǎo)致智能電表發(fā)送給數(shù)據(jù)采集系統(tǒng)(SCADA)的計(jì)量數(shù)據(jù)發(fā)生變化或不正常的NTL都可以使用該模型加以識(shí)別。

        首先對(duì)智能電網(wǎng)攻擊面進(jìn)行了分析。如果竊電行為、假數(shù)據(jù)攻擊或設(shè)備故障等導(dǎo)致的NTL出現(xiàn)在NTL檢測(cè)開(kāi)始的第一天,則這種情況就被視為第一天NTL,否則就是非第一天NTL。考慮這種情況的原因是,在第一天NTL情況下,無(wú)法通過(guò)歷史計(jì)量數(shù)據(jù)分析實(shí)現(xiàn)NTL檢測(cè),只能通過(guò)類似用戶對(duì)比來(lái)發(fā)現(xiàn)該NTL行為。

        用戶端點(diǎn)所安裝的智能電表具有通信功能,能夠自動(dòng)將計(jì)量數(shù)據(jù)發(fā)送到SCADA系統(tǒng)。智能電表的大規(guī)模部署會(huì)增加智能電網(wǎng)的安全漏洞,例如增加發(fā)送錯(cuò)誤計(jì)量讀數(shù)的可能性。不同的NTL來(lái)源和攻擊載體如圖1所示。帶圓圈的點(diǎn)表示不同的可能的攻擊載體。

        通過(guò)對(duì)計(jì)量數(shù)據(jù)的分析,可以檢測(cè)到NTL。所提出的處理方法導(dǎo)致消費(fèi)模式改變或不規(guī)則的NTL類型(例如,如果消費(fèi)者將用電設(shè)備連接到饋線前端則其計(jì)量數(shù)據(jù)將減少)。不同攻擊載體所導(dǎo)致的計(jì)量數(shù)據(jù)變化或異常的情況如表1所示。

        (1)供電饋線;(2)智能電表;(3)電表通信;(4)電力用戶;(5)用戶與電力公司的關(guān)系;(6)電力公司對(duì)數(shù)據(jù)的操縱;(7)電力公司的SCADA系統(tǒng)

        通過(guò)諸如斜率分析和基于規(guī)則的系統(tǒng)等簡(jiǎn)單方法,可以檢測(cè)出導(dǎo)致計(jì)量數(shù)據(jù)持續(xù)減少的情況,如電表斷開(kāi)或使用強(qiáng)磁鐵干擾電表。如果竊電手段足夠隱蔽,如發(fā)送看似合法的虛假計(jì)量數(shù)據(jù),則使用上述數(shù)據(jù)分析手段則難以發(fā)現(xiàn)這些竊電行為。此外,如沒(méi)有從竊電發(fā)起的第一天開(kāi)始檢測(cè),則無(wú)法檢測(cè)到計(jì)量數(shù)據(jù)的減少或異常,只有與類似的電力用戶進(jìn)行比較才能有效檢測(cè)出這些竊電行為。

        對(duì)表1的NTL類型進(jìn)行總結(jié),歸納出以下8種NTL竊電類型。其中每種竊電類型都有兩個(gè)版本:第一天NTL和非第一天NTL,最終形成16種NTL類型的集合:1)隨機(jī)減少計(jì)量數(shù)據(jù)(h1和h10為零);2)在一天中的隨機(jī)時(shí)間段內(nèi)(h2和h20),計(jì)量數(shù)據(jù)降至零;3)每小時(shí)隨機(jī)減少計(jì)量數(shù)據(jù)(h3和h80);4)每小時(shí)計(jì)量數(shù)據(jù)呈現(xiàn)隨機(jī)模式,但是平均計(jì)量數(shù)據(jù)減少(h4和h40);5)每小時(shí)計(jì)量數(shù)據(jù)恒等于平均值(h5和h50);6)反轉(zhuǎn)小時(shí)計(jì)量數(shù)據(jù):將第1個(gè)小時(shí)與第24個(gè)小時(shí)的計(jì)量數(shù)據(jù)進(jìn)行切換(h6和h60);7)計(jì)量數(shù)據(jù)從高峰時(shí)間轉(zhuǎn)移到一天中的其余時(shí)間(h7和h70);8)將消耗數(shù)據(jù)轉(zhuǎn)移到具有較低電力需求的合法用戶(h8和h80)。其中h1 ~ h8是非第一天NTL,而h10 ~ h70表示第一天NTL。

        使用具有N個(gè)電力用戶的智能電表計(jì)量數(shù)據(jù)集M。mi是用戶i的電表讀數(shù)。mi的維數(shù)是n = r × nd,其中nd是天數(shù),r是每天的電表讀數(shù)。電表讀數(shù)是以小時(shí)為單位,因此每天有24個(gè)讀數(shù)。電表讀數(shù)表示為md,ti? ?,即用戶i在第d天中第t小時(shí)的用電量。用戶i在第d天的所有電表計(jì)量讀數(shù)的向量形式為mdi = (md,1i? ? ?,md,2i? ? ?,…,md,24i? ? ? )。

        為了比較用戶的相似度,使用了用戶屬性S的數(shù)據(jù)集。si是用戶i的屬性,其維數(shù)p等于屬性數(shù)。用戶屬性包括年齡、就業(yè)、家庭人數(shù)等等。

        描述第d天開(kāi)始的影響用戶i計(jì)量數(shù)據(jù)的8種竊電方式的數(shù)學(xué)模型如下所示。其中μ表示平均值函數(shù)。

        1)h1(md,ti? ? ?) = αmd,ti? ? ?,α = random(0.1,0.8);

        2)h2(md,ti? ? ?) = βh md,ti? ? ?,βt = 0,tstart < t < tend1,tstart ≥ t且t ≥ tend,

        tstart = random(0,19),δ = random(4,24),tend = tstart+δ;

        3)h3(mde,ti? ? ?) = γt md,ti? ? ,γt = random(0.1,0.8);

        4)h4(mde,ti? ? ?) = γt? μ(mdi? ),γt = random(0.1,0.8);

        5)h5(md,ti? ? ) =? ?μ(mdi? );

        6)h6(md,ti? ? ) =? ?md,24-ti? ? ? ? ? ;

        7)h7(md,ti? ? ) = md,ti? ? - λmd,ti? ? ,Pstart < t < Pendmd,ti? ? + ε/21,eles,是三個(gè)小時(shí)內(nèi)用電量峰值的開(kāi)始時(shí)間Pend = Pstart + 3,ε = ■md,pstart+ j-1i? ? ? ? ? ? ? ? ? ;

        8)h8(md,ti? ? ) = md,tr? ? ,其中r為隨機(jī)消費(fèi)者,符合μ(md,tr? ? ) < μ(md,ti? ? )。

        2? ?異常用電指標(biāo)

        當(dāng)檢測(cè)異常用電行為模式和當(dāng)前未知的NTL威脅時(shí),說(shuō)明為什么用戶會(huì)被標(biāo)記對(duì)電力公司來(lái)說(shuō)非常重要。為此提出四個(gè)異常用電行為模式指標(biāo),使所提出的檢測(cè)方法更容易被理解和解釋。

        第一個(gè)類型的指標(biāo)是用戶個(gè)體用電量的變化。第二個(gè)類型的指標(biāo)是用戶個(gè)體與其他類似用戶用電行為的比較。這兩種類型的指標(biāo)分別應(yīng)用于累積電力消耗數(shù)據(jù)或每小時(shí)的電力消耗,則形成四個(gè)異常用電指標(biāo)。

        異常用電指標(biāo)是根據(jù)用戶i在某一天d的計(jì)量數(shù)據(jù)計(jì)算出來(lái)的。如果攻擊發(fā)生在第d天,則用電行為模式的變化應(yīng)反映在與過(guò)去相比用電行為的變化上。如果攻擊在第d天之前就開(kāi)始了,那么就應(yīng)該與類似用電的用電行為相比。

        所制定的四個(gè)異常用電指標(biāo)表示如下:1)用電量變化指標(biāo)Il表示當(dāng)前用電量與過(guò)去用電量的比率;2)單位小時(shí)用電模式變化的指標(biāo)I e2,I c2;3)與具有相似特征的用戶相比的用電量差異指標(biāo)I3;4)與具有類似特征的用戶相比,單位小時(shí)用電模式差異的指標(biāo)I e4,I c4。

        用電量變化的指標(biāo)I1是最近α天的用電量與最近β天的用電量之間的比率。

        I1(i,d) = ■? ? (1)

        每小時(shí)用電模式變化的指標(biāo)I v2將一天的單位小時(shí)用電模式與前α天的平均每小時(shí)用電模式相關(guān)聯(lián)。如果ν是歐氏距離(ν = e),則絕對(duì)用電量的變化與該指標(biāo)最相關(guān)。如果ν是皮爾遜相關(guān)性(ν = c),則可以檢測(cè)到動(dòng)態(tài)變化。

        I v2(i,d) = v(mdi? ,μ(md-1-αi? ? ? ? ?,…,md-1i? ? ? ))? ? ? (2)

        I3是衡量用電量差異的指標(biāo),用于比較在用戶集合R中具有最大的相似性的用戶r(r∈R)。該指標(biāo)將最近α天的平均用電量與具有最相似特征的用戶的同一天的平均用電量進(jìn)行比較。電力用戶r和i之間的相似性是由v(sr,si)計(jì)算的,其中v是歐氏距離。

        I3((i,d) = ■? ? (3)

        與具有最大相似性的電力用戶相比,I e4和I c4是表示單位小時(shí)用電模式差異的指標(biāo)。I v4表示最近α天所有用戶平均每小時(shí)用電量。

        I v4(i,d)=v(μ(md-αi? ? ?,…,mdi? ),μ({(md-αr? ? ?,…,mdi? )}))

        (4)

        3? ?檢測(cè)方法

        提出的NTL檢測(cè)方法如圖2所示。圖2中的特征提取用于以異常用電指標(biāo)來(lái)轉(zhuǎn)換分析正常用電數(shù)據(jù)集和用戶i的用電數(shù)據(jù)樣本。將模糊聚類應(yīng)用于正常的數(shù)據(jù)集,以產(chǎn)生表示“正常用電行為”的數(shù)據(jù)原型。基于聚類的NTL檢測(cè)算法使用式(6)推斷用戶i的NTL得分。該得分是通過(guò)比較來(lái)自用戶i數(shù)據(jù)樣本和正常用電行為原型來(lái)完成的。以下詳細(xì)說(shuō)明如何基于異常用電指標(biāo),通過(guò)NTL檢測(cè)算法推斷用戶的NTL得分。

        3.1? ?NTL檢測(cè)算法

        NTL檢測(cè)是通過(guò)對(duì)過(guò)去用電計(jì)量數(shù)據(jù)結(jié)構(gòu)和分布的學(xué)習(xí)來(lái)檢測(cè)新的計(jì)量數(shù)據(jù)樣本。所使用的正常用電數(shù)據(jù)模型來(lái)自一組正常用電數(shù)據(jù),通過(guò)該模型能夠?qū)⑤斎氲臄?shù)據(jù)點(diǎn)分類為來(lái)自“正常”和“異?!薄?/p>

        本研究以NTL檢測(cè)算法為框架,將從電力用戶端點(diǎn)采集的計(jì)量數(shù)據(jù)分類為正常和異常(即NTL的來(lái)源)。NTL檢測(cè)算法采用了一種基于距離的聚類檢測(cè)方法。在基于距離的方法中使用一個(gè)或多個(gè)正常數(shù)據(jù)的原型,如果來(lái)自電力用戶計(jì)量數(shù)據(jù)遠(yuǎn)離原型,則會(huì)導(dǎo)致其NTL得分較高。

        3.2? ?基于聚類的檢測(cè)

        一般而言,不同的正常用電行為模式之間很大區(qū)別(例如,與退休夫婦相比,擁有全職工人的家庭在用電量、用電高峰等方面都會(huì)有較大不同)。因此需要使用聚類算法在電表計(jì)量數(shù)據(jù)集中提取不同的具有正常用電行為的數(shù)據(jù)原型。

        Xid是在某一天d中與用戶i相關(guān)聯(lián)的特征向量。向量Xid = (I1,I e2,I c2,I3,I e4,I c4)由上述的8個(gè)異常用電指標(biāo)組成。X∈R6是N個(gè)電力用戶的屬性數(shù)據(jù)集,由nd天的指標(biāo)組成:

        X=(x11,x12,…,x 1nd,x21,…,x 2nd,…,xN1,…,x Nnd)

        (5)

        采用模糊C聚類算法將分區(qū)X劃分為C個(gè)集群Al…Ac。分區(qū)是由分區(qū)矩陣U = {uki}所定義,其中uki表示點(diǎn)i的屬于集群k,稱之為隸屬度。每個(gè)聚類由原型或中心vk表示,維度等于數(shù)據(jù)點(diǎn),所有中心點(diǎn)的集合為V。

        聚類中心V代表正常用電數(shù)據(jù),本研究對(duì)不適合任何C聚類的數(shù)據(jù)點(diǎn)賦予較高的NTL評(píng)分。在提出的檢測(cè)方法中,對(duì)于某個(gè)數(shù)據(jù)點(diǎn)i,NTL得分 y(xid | V)等于其到聚類中心的最小距離,計(jì)算公式如式(6)所示。

        y(xij | V) = ■d(xij,vk)? ? ? ?(6)

        y(xid | V)是第j天用戶i的NTL得分?;谠摲?jǐn)?shù)使用閾值ζ進(jìn)行二分類,當(dāng)y(xid | V) < ζ時(shí),用戶不存在異常用電行為,為正常用戶;如果y(xid | V) ≥ ζ則表明用戶i 是NTL的來(lái)源。

        該檢測(cè)方法能夠從一組從未用于提取正常用電行為原型的電力用戶中對(duì)其計(jì)量樣本進(jìn)行NTL評(píng)分。聚類方法在一組正常用戶空間中提取多個(gè)正常用電行為原型,然后用于與待檢測(cè)用戶進(jìn)行比較。將電力用戶的用電行為與正常用戶進(jìn)行比較,而不是與其自己的過(guò)去用電數(shù)據(jù)進(jìn)行比較,因此能夠檢測(cè)到第一天NTL。下面介紹模糊GK聚類算法以及用于性能對(duì)比的其他聚類算法。

        1)模糊C-均值聚類算法

        模糊C-均值聚類算法(FCM)可迭代地最小化點(diǎn)與聚類中心之間的距離之和[8,9]。距離由點(diǎn)到每個(gè)集群的隸屬度加權(quán),并且模糊器參數(shù)m調(diào)整分區(qū)的“模糊性”。FCM一般使用歐氏距離作為其目標(biāo)函數(shù)[10]。

        J(U,V) = ■■(uij)m d2(xi,vk)? ? ? (7)

        λ2(xid,vk) = (xi - vk)T I(xi - vk)? ? ?(8)

        2)模糊Gustafson-Kessel聚類算法

        模糊Guastafson-Kessel(GK)聚類算法使用模糊馬哈拉諾比斯距離來(lái)代替歐氏距離[11]。

        λ2(Xid,νk) = (Xi - νk)⊥ ∑ -1k(Xi - νk)? ? ?(9)

        ∑k表示聚類的模糊協(xié)方差矩陣。這種差異性度量會(huì)導(dǎo)致橢圓形集群。不同的集群可以采取不同的形狀。與FCM算法相比,GK算法在可以在數(shù)據(jù)中找到的集群的形狀方面提供了更大的靈活性。模糊協(xié)方差矩陣使用下式計(jì)算:

        ∑k = ■? ? (10)

        3)用于性能對(duì)比的其他聚類算法

        將所提出的檢測(cè)方法與以下檢測(cè)方法進(jìn)行性能對(duì)比:使用K均值(KM)和高斯混合模型(GMM)的檢測(cè)方法、DBSCAN聚類和支持向量機(jī)(SVM)NTL檢測(cè)方法。

        KM聚類算法是FCM算法的模糊器m趨于1的一種特殊情況。GMM從訓(xùn)練數(shù)據(jù)中估計(jì)出一組分布的密度。使用期望最大化算法,通過(guò)最大似然擬合不同高斯分布的參數(shù)。SVM是一種常用的機(jī)器學(xué)習(xí)方法,主要用于數(shù)據(jù)分類[12]。

        DBSCAN是一種基于密度的聚類算法。該算法將聚類定義為密度相連的點(diǎn)的最大集合,能夠把具有足夠高密度的區(qū)域劃分為集群,并可在噪聲的空間數(shù)據(jù)庫(kù)中發(fā)現(xiàn)任意形狀的聚類?;贒BSCAN的NTL檢測(cè)方法將聚類中心 的集合替換為從正常計(jì)量數(shù)據(jù)集合中確定的核心點(diǎn)集合,于是用戶的NTL分?jǐn)?shù)與其數(shù)據(jù)到最近的正常計(jì)量數(shù)據(jù)核心點(diǎn)的距離成反比[13]。

        3.3? ?NTL分?jǐn)?shù)的應(yīng)用

        為了將檢測(cè)方法給出的NTL分?jǐn)?shù)應(yīng)用于確定NTL來(lái)源,基于評(píng)估指標(biāo)將得分較高用戶的用電數(shù)據(jù)與正常數(shù)據(jù)原型進(jìn)行分析。使用正常電力用戶聚類的計(jì)量均值和歸一化標(biāo)準(zhǔn)差作為NTL打分指標(biāo)。歸一化標(biāo)準(zhǔn)差Δ定義為:

        Δl(xij | V,δ) = ■,k = argmink d(xij,vk)

        (11)

        式11中l(wèi)表示一個(gè)異常用電指標(biāo),xij表示數(shù)據(jù)點(diǎn),vlk表示正常數(shù)據(jù)原型,δlk是標(biāo)準(zhǔn)偏差來(lái),k是最接近的聚類中心。

        4? ?實(shí)驗(yàn)結(jié)果

        4.1? ?數(shù)據(jù)集

        所使用的實(shí)驗(yàn)數(shù)據(jù)來(lái)自大約四千個(gè)家庭用戶,這些數(shù)據(jù)是在一年半(2017-2018年)內(nèi)收集的,是國(guó)網(wǎng)公司科技項(xiàng)目進(jìn)行智能電表試驗(yàn)的一部分。假設(shè)這些家庭用戶不受威脅模型中考慮的NTL來(lái)源類型的影響。采集的數(shù)據(jù)包括每30分鐘記錄一次的用電量。實(shí)驗(yàn)以小時(shí)為基本單位對(duì)用電進(jìn)行匯總,以方便使用本文所提出的檢測(cè)方法。

        實(shí)驗(yàn)在一組正常用電計(jì)量數(shù)據(jù)上訓(xùn)練所提出的檢測(cè)方法,然后在另一組數(shù)據(jù)上對(duì)其進(jìn)行測(cè)試。這些數(shù)據(jù)包括正常數(shù)據(jù)樣本和為每個(gè)正常數(shù)據(jù)樣本構(gòu)造的16個(gè)合成NTL攻擊。實(shí)驗(yàn)選擇將用于訓(xùn)練和測(cè)試的用戶分開(kāi),以減少結(jié)果的偏差。實(shí)驗(yàn)在每個(gè)季節(jié)隨機(jī)選擇5天的數(shù)據(jù),按照以下步驟構(gòu)造完整的實(shí)驗(yàn)數(shù)據(jù)集:1)每個(gè)季度隨機(jī)抽取5個(gè)工作日;2)對(duì)于所有實(shí)驗(yàn)對(duì)象用戶:生成威脅模型中由合成攻擊產(chǎn)生的16條曲線;計(jì)算正常攻擊和合成攻擊的異常用電指標(biāo)。

        對(duì)家庭用戶的年齡、社會(huì)階層、就業(yè)狀況、家庭中的成年人數(shù)量、兒童數(shù)量和家庭類型等屬性進(jìn)行調(diào)查以確定用戶之間的相似性程度。本實(shí)驗(yàn)只使用沒(méi)有任何計(jì)量數(shù)據(jù)或調(diào)查數(shù)據(jù)缺失的家庭,最終實(shí)驗(yàn)數(shù)據(jù)集由2515名家庭組成實(shí)驗(yàn)只對(duì)一半的消費(fèi)者使用正常數(shù)據(jù),對(duì)另一半使用正常和NTL攻擊的合成數(shù)據(jù),因此實(shí)驗(yàn)中的數(shù)據(jù)樣本總數(shù)為:1258×5×4+1257×17×5×4=452540。實(shí)驗(yàn)數(shù)據(jù)集包括6%的陰性樣本,這是由每個(gè)正常樣本產(chǎn)生16個(gè)合成數(shù)據(jù)的結(jié)果。訓(xùn)練數(shù)據(jù)集根據(jù)提出的無(wú)監(jiān)督分類方案的要求,呈現(xiàn)100%陰性數(shù)據(jù)樣本的平衡。

        4.2? ?參數(shù)

        表2列出了用于計(jì)算的指標(biāo)及其含義的參數(shù)。I1中的參數(shù)α的值為1,以表示在所考慮的威脅模型下可能發(fā)生的小的用電量變化。其余參數(shù)值范圍為:β(I v2,I3),α(I v2,I v4)∈[1,5,10,15],τ∈[5,10,15,20]。找到的最佳配置是兩組參數(shù)都等于10,這意味著將當(dāng)前用電量與過(guò)去兩周的用電量進(jìn)行比較,并使用十個(gè)最接近的用電量進(jìn)行比較。

        通過(guò)對(duì)訓(xùn)練集和測(cè)試集中的數(shù)據(jù)進(jìn)行隨機(jī)劃分,對(duì)所提出的方法和用于對(duì)比的不同技術(shù)進(jìn)行了性能評(píng)估。訓(xùn)練集用于聚類和推導(dǎo)支持向量機(jī)模型,該模型由一組隨機(jī)選擇的用戶(占用戶總數(shù)的50%)的正常數(shù)據(jù)樣本組成。其余用戶(50%)用于性能評(píng)估。測(cè)試集呈現(xiàn)6%的負(fù)樣本(來(lái)自正常用戶),訓(xùn)練集呈現(xiàn)100%的非監(jiān)督分類所需的負(fù)樣本。使用以下評(píng)價(jià)指標(biāo):1)真陽(yáng)性率(TPR):被識(shí)別為攻擊的樣本數(shù)除以所有攻擊樣本數(shù);2)假陽(yáng)性率(FPR):錯(cuò)誤識(shí)別為攻擊的樣本數(shù)除以良性樣本數(shù);3)ROC曲線下方的面積(AUC):該曲線表示檢測(cè)算法在TPR和FPR范圍內(nèi)的閾值。該指標(biāo)對(duì)不平衡數(shù)據(jù)具有很強(qiáng)的適應(yīng)性。

        為了確定第4節(jié)所述方法和技術(shù)的最佳參數(shù),使用AUC作為評(píng)價(jià)指標(biāo)進(jìn)行了參數(shù)搜索。參數(shù)搜索從值的集合中測(cè)試所有可能的參數(shù)組合:集群數(shù)量的取值范圍在2到36之間,模糊參數(shù)m的取值范圍為[0.5,0.6,…,1.9,2],v的取值范圍為[0.1,0.2,…,0.9,1],γ的取值范圍為[0.5,0.6,…,1.4,1.5],eps的取值范圍為[0.5,1,3,6,12,24],mins的取值范圍為[25,50,100,200,400,800]。表3列出了最終選擇的算法參數(shù)。

        4.3? ?結(jié)果與討論

        設(shè)置所有第一天和非第一天NTL、只有非第一天NTL和只有第一天NTL三種實(shí)驗(yàn)方案,對(duì)六種檢測(cè)算法進(jìn)行對(duì)比實(shí)驗(yàn)的結(jié)果如表4所示。

        對(duì)表4的數(shù)據(jù)進(jìn)行分析可知,在所有聚類算法中,GK的性能明顯優(yōu)于其他算法,而FCM和GMM的性能非常相似。對(duì)于非第一天攻擊,F(xiàn)CM的性能最好,GK和KM稍差。對(duì)于第一天攻擊,GK和GMM的性能類型??傮w上GK聚類的整體性能較好。

        在數(shù)據(jù)不平衡的情況下,僅有聚類準(zhǔn)確度一個(gè)度量指標(biāo)是不夠的。例如,如果一個(gè)數(shù)據(jù)集包含95%的陰性類數(shù)據(jù)樣本,而模型將所有樣本都?xì)w為陰性,那么準(zhǔn)確度仍然是95%。實(shí)際中用于檢測(cè)NTL的數(shù)據(jù)集是不平衡的,即NTL數(shù)據(jù)樣本只占少數(shù)。為此重新構(gòu)造一個(gè)平衡的實(shí)驗(yàn)數(shù)據(jù)集(正常數(shù)據(jù)和異常數(shù)據(jù)之比為2:1),并基于該數(shù)據(jù)集對(duì)上述集中聚類檢測(cè)方法進(jìn)行重新測(cè)試?;贏UC指標(biāo)的實(shí)驗(yàn)結(jié)果如圖3所示。

        在平衡數(shù)據(jù)集中所有算法的聚類數(shù)量統(tǒng)一為2(C=2)。由圖4可知,除了GK算法,其他算法在平衡數(shù)據(jù)集中采用兩個(gè)集群數(shù)量的測(cè)試結(jié)果都較差。這說(shuō)明GK算法在數(shù)據(jù)集和聚類數(shù)量?jī)蓚€(gè)方面都具有較好的適應(yīng)性。

        4.4? ?應(yīng)用測(cè)試

        對(duì)所提出的檢測(cè)方法進(jìn)行應(yīng)用測(cè)試。隨機(jī)選擇一個(gè)正常計(jì)量數(shù)據(jù)樣本和一個(gè)h1類型的NTL計(jì)量數(shù)據(jù)樣本。采用本檢測(cè)技術(shù)給出的分?jǐn)?shù)如圖5所示。如果樣本被歸類為NTL,則條形圖為紅色;如果樣本被歸類為正常,則條形圖為藍(lán)色。如果分類正確,沒(méi)有NTL的數(shù)據(jù)樣本應(yīng)該是淺色的,NTL數(shù)據(jù)樣本應(yīng)該是深色的。

        (a)異常用電指標(biāo)

        (b)從樣本到最近的聚類中心的指標(biāo)值

        (指標(biāo)值越小表明數(shù)據(jù)越接近聚類中心)

        正常樣本的NSTD測(cè)試結(jié)果如圖5所示。數(shù)據(jù)樣本的指標(biāo)值和平均值如圖5a所示。正常數(shù)據(jù)樣本接近大多數(shù)指標(biāo)的平均值。其中I e2和I e4的值較低,因?yàn)檫@兩個(gè)指標(biāo)值代表了用戶與過(guò)去和類似用戶的用電差距。使用四種聚類檢測(cè)方法所得出的到最近的聚類中心偏差的NSTD如圖5b所示。除了I e2和I e4之外,GK聚類算法的指標(biāo)值靠近聚類中心,這表明所使用的GK聚類技術(shù)能夠更好地捕獲正常計(jì)量數(shù)據(jù)集的形狀。

        h1類型NTL數(shù)據(jù)樣本的NSTD測(cè)試結(jié)果如圖6所示。與正常樣本的平均值相比,圖6a的I1和I3的值異常低,表明與過(guò)去和類似用戶相比,用電量值顯著減少。圖6b表明,I1是NTL數(shù)據(jù)樣本與最近中心之間距離增加的主要原因。

        (a)異常用電指標(biāo)

        (b)從樣本到最近的聚類中心的指標(biāo)值

        (指標(biāo)值越小表明數(shù)據(jù)越接近聚類中心)

        5? ?結(jié)? ?論

        提出了一種檢測(cè)智能電網(wǎng)中NTL的聚類檢測(cè)方法。該方法通過(guò)對(duì)從智能電表收集的高分辨率計(jì)量數(shù)據(jù)進(jìn)行聚類分析,得出NTL來(lái)源等的有效消息。該方法使用異常用電指標(biāo)以減少數(shù)據(jù)的維數(shù),并有助于實(shí)現(xiàn)檢測(cè)結(jié)果的可視化。實(shí)驗(yàn)中使用了兩千多個(gè)家庭的真實(shí)電表計(jì)量數(shù)據(jù),涵蓋了正常計(jì)量數(shù)據(jù)的多種可能的復(fù)雜變化。實(shí)驗(yàn)結(jié)果表明,該方法實(shí)現(xiàn)了高達(dá)0.741 AUC的性能,63.6%的真實(shí)陽(yáng)性率和24.3%的假陽(yáng)性率,優(yōu)于同類研究中提出檢測(cè)算法。下一步,將致力于把該方法應(yīng)用于大數(shù)據(jù)和高性能計(jì)算框架中,以實(shí)現(xiàn)分析電網(wǎng)不同層級(jí)的損耗。

        參考文獻(xiàn)

        [1]? ? 李植鵬,侯惠勇,蔣嗣凡,等. 基于人工神經(jīng)網(wǎng)絡(luò)的線損計(jì)算及竊電分析[J]. 南方電網(wǎng)技術(shù),2019,13(02):7-12.

        [2]? ? 李梓欣,李川,李英娜. 用電特征指標(biāo)降維與極限學(xué)習(xí)機(jī)算法的竊電檢測(cè)[J]. 計(jì)算機(jī)應(yīng)用與軟件,2018,35(12):179-186.

        [3]? ? 吳迪,王學(xué)偉,竇健,等. 基于大數(shù)據(jù)的防竊電模型與方法[J]. 北京化工大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,45(06):79-86.

        [4]? ? 李寧,尹小明,丁學(xué)峰,等. 一種融合聚類和異常點(diǎn)檢測(cè)算法的竊電辨識(shí)方法[J]. 電測(cè)與儀表,2018,55(21):19-24.

        [5]? ? 竇健,劉宣,盧繼哲,等. 基于用電信息采集大數(shù)據(jù)的防竊電方法研究[J]. 電測(cè)與儀表,2018,55(21):43-49.

        [6]? ? 曹敏,鄒京希,魏齡,等. 基于RBF神經(jīng)網(wǎng)絡(luò)的配電網(wǎng)竊電行為檢測(cè)[J]. 云南大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,40(05):872-878.

        [7]? ? 史玉良,榮以平,朱偉義. 基于用電特征分析的竊電行為識(shí)別方法[J]. 計(jì)算機(jī)研究與發(fā)展,2018,55(08):1599-1608.

        [8]? ? 王慶寧,張東輝,孫香德,等. 基于GA-BP神經(jīng)網(wǎng)絡(luò)的反竊電系統(tǒng)研究與應(yīng)用[J]. 電測(cè)與儀表,2018,55(11):35-40.

        [9]? ? 鄧明斌,徐志淼,鄧志飛,等. 基于多特征融合的竊電識(shí)別算法研究[J]. 計(jì)算機(jī)與數(shù)字工程,2017,45(12):2398-2401.

        [10]? 康寧寧,李川,曾虎,等. 采用FCM聚類與改進(jìn)SVR模型的竊電行為檢測(cè)[J]. 電子測(cè)量與儀器學(xué)報(bào),2017,31(12):2023-2029.

        [11]? 劉盛,朱翠艷. 應(yīng)用數(shù)據(jù)挖掘技術(shù)構(gòu)建反竊電管理系統(tǒng)的研究[J]. 中國(guó)電力,2017,50(10):181-184.

        [12]? 陳文瑛,陳雁,邱林,等. 應(yīng)用大數(shù)據(jù)技術(shù)的反竊電分析[J]. 電子測(cè)量與儀器學(xué)報(bào),2016,30(10):1558-1567.

        [13]? 趙磊,欒文鵬,王倩. 應(yīng)用AMI數(shù)據(jù)的低壓配電網(wǎng)精確線損分析[J]. 電網(wǎng)技術(shù),2015,39(11):3189-3194.

        深夜福利国产| 爱性久久久久久久久| 精品一区二区三区无码免费视频| 欧美亚洲国产另类在线观看| 亚洲24小时在线免费视频网站| 亚洲成人一区二区av| 亚洲爆乳无码专区www| 精品久久久噜噜噜久久久| 九九久久国产精品大片| 热综合一本伊人久久精品| 亚洲一区二区三区中国| 亚洲国产精品va在线播放| 婷婷九月丁香| 青青自拍视频成人免费观看| 国产精品一区二区三区在线蜜桃| 激情综合色综合久久综合| 99热免费精品| 最新国产成人自拍视频| 人妻少妇偷人精品免费看| 情侣黄网站免费看| 国产无码十八禁| 日本高清在线播放一区二区 | 亚洲中文字幕亚洲中文| 精品人妻伦一二三区久久| 99re热视频这里只精品| 国产欧美日韩不卡一区二区三区| 国产精品亚洲在线播放| 国产av国片精品jk制服| 亚洲的天堂av无码| baoyu网址国产最新| 中文字幕国产亚洲一区| 亚洲精品国产av天美传媒| 国内无遮码无码| 永久免费看黄网站性色| 亚洲国产aⅴ成人精品无吗| 久热香蕉视频| 男女男生精精品视频网站| 成人区人妻精品一区二区三区| 手机在线看永久av片免费| 色偷偷女人的天堂亚洲网| 成人自拍小视频在线看|