亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征選擇和改進(jìn)K-均值聚類(lèi)的異常用電行為檢測(cè)算法

        2023-12-27 13:05:02楊利辛黃曉波李凱
        關(guān)鍵詞:特征用戶(hù)檢測(cè)

        楊利辛,黃曉波,李凱

        (1.南方電網(wǎng)能源發(fā)展研究院有限公司,廣東 廣州 510000; 2.南方電網(wǎng)數(shù)字電網(wǎng)集團(tuán)有限公司, 廣東 廣州 510000;3.廣東電網(wǎng)有限責(zé)任公司,廣東 廣州 510000)

        竊電等異常用電行為是造成電力系統(tǒng)非技術(shù)性損失的主要原因,給電網(wǎng)的安全、穩(wěn)定和可靠運(yùn)行帶來(lái)嚴(yán)重威脅。傳統(tǒng)異常用電行為檢測(cè)采用人工巡檢方式,需要消耗大量的人力物力資源,已不能滿(mǎn)足實(shí)際需求[1]。近年來(lái),隨著我國(guó)智慧電網(wǎng)的建設(shè)和發(fā)展,電力公司在發(fā)電、輸電、配電和用電端安裝和部署了大量的智能電表等數(shù)據(jù)采集傳感器,這些傳感器可以按每天數(shù)十次的頻率采集和記錄電力系統(tǒng)各個(gè)環(huán)節(jié)的相關(guān)數(shù)據(jù),這些數(shù)據(jù)中隱含著不同用戶(hù)用電行為信息,也為異常用電行為檢測(cè)提供了間接的“證據(jù)”[2],如何對(duì)這些信息進(jìn)行有效挖掘利用,從而快速、準(zhǔn)確地定位異常用電行為,是電力企業(yè)亟待解決的一個(gè)難題,也是當(dāng)前研究的熱點(diǎn)[3-5]。

        目前基于數(shù)據(jù)驅(qū)動(dòng)的異常用電行為檢測(cè)方法總結(jié)起來(lái)可以分為有監(jiān)督類(lèi)方法和無(wú)監(jiān)督類(lèi)方法2類(lèi)[6],兩者的主要差異在于是否需要帶標(biāo)簽的數(shù)據(jù)集用于模型訓(xùn)練,其中有監(jiān)督類(lèi)方法以支持向量機(jī)(Support Vector Machine, SVM)、隨機(jī)森林和卷積神經(jīng)網(wǎng)絡(luò)等方法為代表,利用帶標(biāo)簽數(shù)據(jù)集完成最優(yōu)模型參數(shù)的學(xué)習(xí),進(jìn)而利用最優(yōu)模型對(duì)未知用戶(hù)用電行為進(jìn)行異常判決[7-9]。文獻(xiàn)[10]提出一種基于SVM的異常用電行為檢測(cè)模型,為了提升檢測(cè)性能,利用決策樹(shù)對(duì)SVM核函數(shù)進(jìn)行優(yōu)化,基于某臺(tái)區(qū)電力用戶(hù)真實(shí)用電數(shù)據(jù)驗(yàn)證了該方法的有效性;文獻(xiàn)[11]將隨機(jī)森林算法應(yīng)用于異常用電行為檢測(cè)領(lǐng)域,并構(gòu)建Hadoop分布式計(jì)算框架以提升算法實(shí)時(shí)性;文獻(xiàn)[12]利用卷積神經(jīng)網(wǎng)絡(luò)挖掘電力用戶(hù)用電量序列中的時(shí)間相關(guān)性信息,并建立分類(lèi)模型實(shí)現(xiàn)對(duì)正常和異常用電行為的分類(lèi)判決。上述有監(jiān)督異常用電檢測(cè)模型由于用到了帶標(biāo)簽訓(xùn)練樣本集,通常能夠獲得較高的異常檢測(cè)性能,然而根據(jù)生產(chǎn)生活經(jīng)驗(yàn)可知,海量電力用戶(hù)中異常用戶(hù)占比很低,通常難以獲得足夠多異常用電行為對(duì)應(yīng)的訓(xùn)練樣本,限制了該類(lèi)方法在實(shí)際中的應(yīng)用[13]。無(wú)監(jiān)督類(lèi)方法不需要訓(xùn)練樣本,基于相似性原理對(duì)數(shù)據(jù)進(jìn)行自動(dòng)劃分聚類(lèi),大多數(shù)正常用電數(shù)據(jù)會(huì)表現(xiàn)出一定的聚集性,而異常用電數(shù)據(jù)通常會(huì)以離群點(diǎn)的形式存在,無(wú)監(jiān)督類(lèi)方法以K-均值聚類(lèi),基于密度的帶噪聲空間聚類(lèi)(Density-Based Spatial Clustering of Application with Noise, DBSCAN)等方法為代表,文獻(xiàn)[14]采用K-均值聚類(lèi)對(duì)電力用戶(hù)用電量特征進(jìn)行聚類(lèi)分析,針對(duì)真實(shí)數(shù)據(jù)獲得了優(yōu)于85%的異常用電行為檢測(cè)查準(zhǔn)率;文獻(xiàn)[15]針對(duì)異常用電行為在線(xiàn)實(shí)時(shí)檢測(cè)需求,利用DBSCAN方法對(duì)用電趨勢(shì)特征進(jìn)行實(shí)時(shí)聚類(lèi)分析,最終獲得了優(yōu)于87.5%的檢測(cè)正確率。無(wú)監(jiān)督類(lèi)方法不需要帶標(biāo)簽訓(xùn)練數(shù)據(jù),大大降低了數(shù)據(jù)獲取難度,且具有算法簡(jiǎn)單容易實(shí)現(xiàn)等優(yōu)點(diǎn),缺點(diǎn)是聚類(lèi)性能對(duì)模型參數(shù)具有較強(qiáng)的依賴(lài)性,而參數(shù)選取往往并非易事[16,17]。

        在此基礎(chǔ)上,提出了一種基于特征選擇和改進(jìn)K-均值聚類(lèi)的無(wú)監(jiān)督異常用電行為檢測(cè)模型,首先從用電量變化,線(xiàn)路損耗和電力參數(shù)三個(gè)維度提取15維特征構(gòu)成特征向量,實(shí)現(xiàn)高維用電數(shù)據(jù)的降維表征,然后利用相關(guān)向量機(jī)(Relevance Vector Machine, RVM)進(jìn)行特征選擇自動(dòng)確定最優(yōu)特征集合,同時(shí)進(jìn)一步實(shí)現(xiàn)數(shù)據(jù)降維,最后提出一種基于信息增益的改進(jìn)K-均值聚類(lèi)算法對(duì)最優(yōu)特征集合進(jìn)行聚類(lèi)分析,實(shí)現(xiàn)異常用電檢測(cè)。相對(duì)于傳統(tǒng)K-均值,所提方法能夠自動(dòng)確定聚類(lèi)個(gè)數(shù)和初始聚類(lèi)中心,從而提升聚類(lèi)性能?;趷?ài)爾蘭智能電表公開(kāi)數(shù)據(jù)集開(kāi)展實(shí)驗(yàn),并從精準(zhǔn)率、召回率和ROC曲線(xiàn)AUC值三方面對(duì)所提方法的性能進(jìn)行定量分析。

        1 用電行為的特征表示

        1.1 特征提取

        智慧電網(wǎng)背景下,電力企業(yè)利用線(xiàn)路參數(shù)采集設(shè)備和智能電表等電能計(jì)量設(shè)備獲得輸電線(xiàn)路側(cè)和用電側(cè)的海量數(shù)據(jù),這些數(shù)據(jù)中隱含著與用電行為相關(guān)的有用信息,同時(shí)也不可避免地會(huì)存在大量噪聲、干擾等無(wú)用信息,要從海量高維數(shù)據(jù)中挖掘出有用信息,實(shí)現(xiàn)去偽存真,特征提取是關(guān)鍵[18]。特征提取是指從原始高維數(shù)據(jù)中抽象凝練出一些能夠表征異常行為的特征參數(shù),這些特征是原始數(shù)據(jù)的一種降維表征,能夠較好地描述不同用電行為之間的差異性,大大降低后續(xù)數(shù)據(jù)處理的難度。

        通過(guò)對(duì)大量正常和異常用電行為數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)正常用戶(hù)的用電量變化曲線(xiàn)存在一定周期性,并且線(xiàn)路損耗和電壓電流值較為平穩(wěn),而異常用電行為的用電量通常表現(xiàn)出逐漸下降的趨勢(shì),同時(shí)線(xiàn)路損耗值較大,電壓電流也會(huì)出現(xiàn)較大波動(dòng),因此從用電量變化趨勢(shì)、線(xiàn)路損耗和電壓電流波動(dòng)三個(gè)方面提取表1所示15維特征構(gòu)成特征向量。

        表1 特征向量組成

        1.2 基于RVM的特征選擇

        按照傳統(tǒng)的異常檢測(cè)模型,特征提取完成后需要進(jìn)行分類(lèi)器設(shè)計(jì)從而實(shí)現(xiàn)對(duì)不同用電行為的分類(lèi)判決。然而,當(dāng)前的特征提取過(guò)程與分類(lèi)器設(shè)計(jì)過(guò)程是相互獨(dú)立的,特征提取過(guò)程并沒(méi)有考慮所提特征對(duì)于分類(lèi)器而言是否最優(yōu),并且主觀提取的特征通常含有較多冗余信息,這些信息不僅對(duì)異常用電檢測(cè)沒(méi)有幫助,反而會(huì)誤導(dǎo)分類(lèi)器訓(xùn)練,因此有必要進(jìn)行特征選擇,從特征向量中確定最優(yōu)特征集合,從而提升分類(lèi)性能。RVM是在SVM基礎(chǔ)上發(fā)展起來(lái)的一種基于貝葉斯框架的概率模型,相對(duì)于SVM具有更強(qiáng)的稀疏性,能夠?qū)崿F(xiàn)特征選擇與分類(lèi)器設(shè)計(jì)的聯(lián)合優(yōu)化,因此本文選擇RVM對(duì)上述15維特征進(jìn)行進(jìn)一步分析,以獲得最優(yōu)特征集合。利用RVM進(jìn)行特征選擇的模型可以表示為:

        (1)

        其中,fm為第m個(gè)電力用戶(hù)對(duì)應(yīng)的特征向量,K(f,fm)為核函數(shù),w=[w1,w2,…,wm)]T為權(quán)向量,ε為數(shù)據(jù)中的噪聲成分,為了構(gòu)建完整的貝葉斯模型,分別對(duì)權(quán)向量和噪聲成分進(jìn)行概率模型設(shè)計(jì),合理的概率模型為高斯分布[19],即w服從均值為零,協(xié)方差矩陣為α-1I的高斯分布,ε服從均值為零,協(xié)方差矩陣為γ-1I的高斯分布。

        2 異常用電行為檢測(cè)模型

        K-均值聚類(lèi)是一種經(jīng)典的基于劃分的聚類(lèi)方法,被廣泛應(yīng)用于異常檢測(cè)領(lǐng)域。然而,傳統(tǒng)K-均值的聚類(lèi)性能與聚類(lèi)數(shù)目K和初始聚類(lèi)中心的設(shè)置密切相關(guān),目前常用的基于專(zhuān)家知識(shí)庫(kù)或先驗(yàn)信息的方法存在主觀性強(qiáng)且適應(yīng)性差的問(wèn)題。為了解決該問(wèn)題,本文提出一種基于信息增益確定最優(yōu)聚類(lèi)個(gè)數(shù)的方法,同時(shí)考慮到K-均值是以歐式距離遠(yuǎn)近作為聚類(lèi)劃分準(zhǔn)則的方法,選取空間密度最大的K個(gè)樣本作為初始聚類(lèi)中心,通過(guò)信息增益和樣本空間密度的方式自動(dòng)確定K-均值聚類(lèi)的聚類(lèi)個(gè)數(shù)和初始聚類(lèi)中心,從而提升聚類(lèi)性能。

        所提改進(jìn)K-均值聚類(lèi)涉及的相關(guān)概念為:

        定義1:特征空間的信息熵

        (2)

        定義2:聚類(lèi)后第k個(gè)子類(lèi)的信息熵

        根據(jù)式(2)給出的樣本空間信息熵定義,可以進(jìn)一步得到聚類(lèi)后第k個(gè)子類(lèi)的信息熵為:

        (3)

        其中,Ck為第k個(gè)子類(lèi)對(duì)應(yīng)的特征序號(hào)集合。

        定義3:聚類(lèi)后的信息增益

        假設(shè)聚類(lèi)后得到K個(gè)子類(lèi),則該聚類(lèi)對(duì)應(yīng)的信息增益定義為:

        定義4:樣本xn的空間密度dist(xn)

        (5)

        其中,‖·‖l2表示求變量的l2范數(shù)。

        在上述定義的基礎(chǔ)上,所提改進(jìn)K-均值聚類(lèi)的具體算法流程可以總結(jié)為:

        輸出:聚類(lèi)結(jié)果和異常檢測(cè)結(jié)果。

        算法流程:

        設(shè)置聚類(lèi)個(gè)數(shù)k=1,

        步驟2:根據(jù)式(3)計(jì)算得到聚類(lèi)個(gè)數(shù)為k情況下的信息熵Ek;

        步驟3:根據(jù)式(4)計(jì)算得到此時(shí)的信息增益Ik,并將其記錄;

        步驟4:令k=k+1,重復(fù)步驟1~步驟3,指導(dǎo)k=Kmax;

        步驟5:選擇步驟3記錄的所有信息增益的最大值對(duì)應(yīng)的k作為最優(yōu)聚類(lèi)個(gè)數(shù)K;

        步驟6:選取空間密度最大的K個(gè)特征作為初始聚類(lèi)中心;

        步驟7:將特征空間中非聚類(lèi)中心特征按照歐式距離的劃分至與其距離最近的聚類(lèi)中;

        步驟8:按式(6)計(jì)算得到新的聚類(lèi)中心

        (6)

        其中,nk為第k個(gè)子集中的特征個(gè)數(shù)。

        步驟9:根據(jù)步驟8得到新聚類(lèi)中心對(duì)特征空間進(jìn)行重新劃分,若相鄰兩次劃分得到的結(jié)果一致,則認(rèn)為算法收斂,否則重復(fù)步驟7和步驟8。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        本部分內(nèi)容中,采用愛(ài)爾蘭智能電表記錄的公開(kāi)數(shù)據(jù)集開(kāi)展驗(yàn)證實(shí)驗(yàn),對(duì)所提方法的異常檢測(cè)性能進(jìn)行驗(yàn)證,該數(shù)據(jù)集來(lái)源于愛(ài)爾蘭Commission for Energy Regulation,本意是為智能電網(wǎng)研究提供相應(yīng)的數(shù)據(jù)支撐,也是目前異常用電行為檢測(cè)領(lǐng)域應(yīng)用最廣的數(shù)據(jù)集,該數(shù)據(jù)集的使用方式和下載地址見(jiàn)[21]。該數(shù)據(jù)集包括534個(gè)電力用戶(hù)536天的用電量數(shù)據(jù),其中正常用戶(hù)數(shù)量為521,異常用戶(hù)數(shù)量為13,數(shù)據(jù)記錄頻率為30 min一次,異常用戶(hù)已被提前標(biāo)準(zhǔn),由于本文方法為無(wú)監(jiān)督方法,所以異常用戶(hù)標(biāo)簽僅用于模型評(píng)估,不在檢測(cè)過(guò)程中使用。

        采用精準(zhǔn)率(Precision),召回率(Recall)和接收機(jī)工作特性曲線(xiàn)(Receiver Operating Characteristic, ROC)對(duì)應(yīng)的AUC值三項(xiàng)指標(biāo)定量評(píng)估所提模型的異常檢測(cè)性能,其中精準(zhǔn)率和召回率的定義為:

        (7)

        其中,TP表示將異常用戶(hù)檢測(cè)為異常用戶(hù)的樣本數(shù)量,TN表示將正常用戶(hù)檢測(cè)為正常用戶(hù)的樣本數(shù)量,FP表示異常用戶(hù)檢測(cè)為正常用戶(hù)的樣本數(shù)量,FN表示將正常用戶(hù)檢測(cè)為異常用戶(hù)的樣本數(shù)量。

        ROC曲線(xiàn)是以虛警概率和檢測(cè)概率為橫縱坐標(biāo)繪制而成的一條用于評(píng)估分類(lèi)模型性能的曲線(xiàn),通常用ROC曲線(xiàn)與直線(xiàn)y=1之間區(qū)域的面積值A(chǔ)UC作為ROC曲線(xiàn)的量化指標(biāo),AUC值越大,表明分類(lèi)模型性能越好。

        3.2 實(shí)驗(yàn)結(jié)果與分析

        圖1 RVM特征選擇結(jié)果

        獲得最優(yōu)特征集合后,將其作為改進(jìn)K-均值聚類(lèi)的輸入進(jìn)行自動(dòng)聚類(lèi)分析,實(shí)驗(yàn)中設(shè)置最大聚類(lèi)個(gè)數(shù)Kmax=8,根據(jù)改進(jìn)K-均值聚類(lèi)步驟進(jìn)行聚類(lèi)分析得到的信息增益隨聚類(lèi)個(gè)數(shù)k的變化曲線(xiàn)如圖2所示,可以看出,當(dāng)k=3時(shí),信息增益最大,即最優(yōu)聚類(lèi)個(gè)數(shù)K=3。圖3(a)給出了所提方法得到的最終聚類(lèi)結(jié)果,為了對(duì)比圖3(b)給出了傳統(tǒng)K-均值聚類(lèi)得到聚類(lèi)結(jié)果,可以看出所提方法獲得的聚類(lèi)結(jié)果呈現(xiàn)出較好的聚集性,類(lèi)內(nèi)數(shù)據(jù)分布較為集中,類(lèi)間數(shù)據(jù)分布較為疏遠(yuǎn),聚類(lèi)結(jié)果較為理想,同時(shí)類(lèi)別3即所提方法獲得異常用電行為聚類(lèi),而傳統(tǒng)K-均值聚類(lèi)結(jié)果獲得的最優(yōu)聚類(lèi)數(shù)為K=4,將圖3(a)中的聚類(lèi)1又分為了3個(gè)子類(lèi),但是將圖3(a)中聚類(lèi)2和聚類(lèi)3劃分為同一個(gè)子類(lèi),該聚類(lèi)結(jié)果無(wú)法直接進(jìn)行異常用電行為檢測(cè),需要聯(lián)合其他手段才能實(shí)現(xiàn)對(duì)聚類(lèi)3中異常用電行為的定位,增加了模型的復(fù)雜度。

        圖2 信息增益隨聚類(lèi)個(gè)數(shù)變化

        (a)所提改進(jìn)K-均值聚類(lèi)

        (b)傳統(tǒng)K-均值聚類(lèi)

        圖4給出了所提方法的ROC曲線(xiàn),同時(shí)為了對(duì)比,圖4中給出了在相同條件下采用文獻(xiàn)[15]所提方法得到的異常檢測(cè)結(jié)果,可以看出在同一個(gè)坐標(biāo)系內(nèi),所提方法的ROC曲線(xiàn)位于文獻(xiàn)[15]提出方法的左上方,與直線(xiàn)y=1圍成的面積更大、性能更優(yōu)。表3給出了兩種方法的精準(zhǔn)率、召回率和AUC值三項(xiàng)指標(biāo),可以看出,本文所提方法的精準(zhǔn)率,召回率和AUC值三項(xiàng)指標(biāo)均優(yōu)于文獻(xiàn)[15]方法,精準(zhǔn)率提升3.58%,召回率提升2.77%,AUC值提升3.75%,具有更優(yōu)的異常檢測(cè)性能。

        除了上述精準(zhǔn)率、召回率和AUC值三項(xiàng)指標(biāo)外,復(fù)雜度和實(shí)時(shí)性也是評(píng)估異常檢測(cè)算法性能的一個(gè)重要方面,表3中最后一列給出了所提方法和文獻(xiàn)[15]方法完成異常檢測(cè)所需的時(shí)間對(duì)比結(jié)果,可以看出所提方法在獲得更優(yōu)異常檢測(cè)性能的同時(shí),實(shí)時(shí)性也略?xún)?yōu)于文獻(xiàn)[15]方法,究其原因在于,所提方法通過(guò)特征選擇流程實(shí)現(xiàn)了數(shù)據(jù)降維,有效降低了后續(xù)異常檢測(cè)算法的復(fù)雜度,提升了實(shí)時(shí)性。

        表3 不同方法異常檢測(cè)結(jié)果

        圖4 不同方法ROC曲線(xiàn)

        4 結(jié) 論

        K-均值聚類(lèi)算法具有算法簡(jiǎn)單、容易實(shí)現(xiàn)、不需要訓(xùn)練數(shù)據(jù)集等優(yōu)點(diǎn),被廣泛應(yīng)用于異常用電檢測(cè)領(lǐng)域。K-均值聚類(lèi)性能受最優(yōu)聚類(lèi)個(gè)數(shù)和初始聚類(lèi)中心的選擇影響較大。針對(duì)該問(wèn)題,提出了一種基于RVM特征選擇和改進(jìn)K-均值聚類(lèi)的異常用電行為檢測(cè)算法。利用RVM對(duì)提取的15維用電量變化、線(xiàn)路損耗和電力參數(shù)特征進(jìn)行自動(dòng)特征選擇,確定2維最優(yōu)特征向量,然后利用改進(jìn)的K-均值聚類(lèi)進(jìn)行聚類(lèi)實(shí)現(xiàn)異常檢測(cè),改進(jìn)后的K-均值聚類(lèi)算法利用信息增益和樣本的空間密度自動(dòng)確定最優(yōu)聚類(lèi)個(gè)數(shù)和初始聚類(lèi)中心,能夠有效提升聚類(lèi)性能。基于愛(ài)爾蘭公開(kāi)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,所提方法的精準(zhǔn)率、召回率和AUC值三項(xiàng)指標(biāo)均優(yōu)于對(duì)比方法。

        猜你喜歡
        特征用戶(hù)檢測(cè)
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        關(guān)注用戶(hù)
        關(guān)注用戶(hù)
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        關(guān)注用戶(hù)
        免费人成视频欧美| 久久亚洲精品11p| 狠狠躁夜夜躁无码中文字幕| 欧美成人高清手机在线视频| 亚洲天堂av在线免费播放| 日本一区二区三区视频网站| 久久无码专区国产精品s| 天天狠狠综合精品视频一二三区| 青青草免费在线手机视频| 免费的小黄片在线观看视频| 日本精品无码一区二区三区久久久| 国产呦精品系列在线播放| 黄片在线观看大全免费视频| 天天色天天操天天日天天射| 乱子伦一区二区三区| 中文乱码人妻系列一区二区| 日韩一区二区三区中文字幕| 精品一区二区三区人妻久久福利| 精品偷拍被偷拍在线观看| 草莓视频成人| 亚洲国产精品一区二区第一| 精品女同一区二区三区| 国语对白做受xxxxx在线| 欧美亚洲高清日韩成人| 美女被搞在线观看一区二区三区 | 免费a级毛片无码a∨中文字幕下载 | 中国男男女在线免费av| 鲁一鲁一鲁一鲁一曰综合网| 97色在线视频| 激情视频在线播放一区二区三区| 亚洲国产精品无码久久一区二区| 爱情岛永久地址www成人| 乱色视频中文字幕在线看| 国产精品综合久久久久久久免费 | 国产精品一区又黄又粗又猛又爽| 久久不见久久见www日本网| 国产在线精品一区二区| 无码专区无码专区视频网址| 亚洲一区二区三区精品视频| 99久久免费国产精品| 免费无码又爽又刺激高潮的视频网站|