亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于變分自編碼器的日線損率異常檢測(cè)研究

        2020-12-07 05:57:31張國(guó)芳劉通宇溫麗麗郭果周忠新袁培森
        關(guān)鍵詞:異常檢測(cè)

        張國(guó)芳 劉通宇 溫麗麗 郭果 周忠新 袁培森

        摘要:采用一種基于自編碼器的異常檢測(cè)算法,實(shí)現(xiàn)大規(guī)模日線損率數(shù)據(jù)的異常檢測(cè)。變分自編碼器是一種利用反向傳播算法使得輸出值近似等于輸入值的神經(jīng)網(wǎng)絡(luò),使用自編碼器將原始日線損率時(shí)間序列編碼,在重建過程中記錄每個(gè)時(shí)間點(diǎn)的重建概率,當(dāng)重建概率大于指定閾值時(shí)就判定其為異常數(shù)據(jù)。本文利用真實(shí)日線損數(shù)據(jù)進(jìn)行實(shí)驗(yàn),試驗(yàn)結(jié)果表明,基于自編碼器的日線損率異常檢測(cè)算法具有較好的檢測(cè)效果。

        關(guān)鍵詞:自編碼器:異常檢測(cè):日線損率

        中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A DOI:10.3969/j.issn。1000-5641.202091013

        0引言

        隨著電力智能化建設(shè),“智能電網(wǎng)”這一概念的不斷深入研究,我國(guó)電網(wǎng)企業(yè)的數(shù)據(jù)服務(wù)水平得到了較大提高。目前電力企業(yè)普遍建立了數(shù)據(jù)中臺(tái),構(gòu)建了統(tǒng)一的、可復(fù)用的大數(shù)據(jù)平臺(tái)對(duì)海量電能量數(shù)據(jù)進(jìn)行管理和分析,形成了將數(shù)據(jù)變成資產(chǎn)并服務(wù)于業(yè)務(wù)的良性機(jī)制。為了深化數(shù)據(jù)中臺(tái)對(duì)于電力企業(yè)智能化建設(shè)的作用,需要對(duì)不同時(shí)間、不同地點(diǎn)采集到的電能量數(shù)據(jù)進(jìn)行統(tǒng)一的標(biāo)準(zhǔn)化和異常值檢測(cè),以提高數(shù)據(jù)整體的應(yīng)用價(jià)值。

        目前,電能量數(shù)據(jù)呈現(xiàn)出規(guī)模海量、多源異構(gòu)、多時(shí)空尺度、多維度等大數(shù)據(jù)特征,數(shù)字孿生作為實(shí)現(xiàn)物理世界和信息世界智能互聯(lián)與交互融合的一種潛在的有效途徑,近年來被有關(guān)學(xué)者和電力企業(yè)高度關(guān)注。為了滿足和適應(yīng)智能化、服務(wù)化、綠色化的電能企業(yè)服務(wù)需求,數(shù)字孿生對(duì)于制造物理世界和信息世界的交互共融具有指導(dǎo)意義。電能損耗作為電力企業(yè)經(jīng)濟(jì)效益的重要指標(biāo),是電力企業(yè)數(shù)據(jù)中臺(tái)的重要業(yè)務(wù)數(shù)據(jù)。電能損耗數(shù)據(jù)又以日線損率為代表,這是數(shù)字孿生技術(shù)重要的應(yīng)用領(lǐng)域。通過對(duì)線損數(shù)據(jù)進(jìn)行連續(xù)采集和智能分析,可以預(yù)測(cè)維護(hù)工作的最佳時(shí)間點(diǎn),為維護(hù)周期的制定提供參考依據(jù),也可以提供故障點(diǎn)和故障概率的參考。綜上所述,對(duì)于日線損率的異常檢測(cè)方法的研究對(duì)于構(gòu)建電力企業(yè)數(shù)據(jù)中臺(tái)和推動(dòng)數(shù)字孿生的發(fā)展具有一定意義和指導(dǎo)作用。

        當(dāng)前,基于數(shù)據(jù)的線損異常檢測(cè)主要有以下幾種常用的方法:基于人工神經(jīng)網(wǎng)絡(luò)的異常檢測(cè)、基于聚類的異常檢測(cè)、基于無監(jiān)督學(xué)習(xí)的異常檢測(cè)?;谌斯ど窠?jīng)網(wǎng)絡(luò)的異常檢測(cè)主要包括基于BP神經(jīng)網(wǎng)絡(luò)的異常值檢測(cè),其思想是利用BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)值與線損數(shù)據(jù)進(jìn)行比較,如果差值大于閾值則認(rèn)定為異常樣本點(diǎn);基于聚類的異常檢測(cè),以基于DBSCAN聚類的異常檢測(cè)為代表,其思想是通過聚類得到聚類簇,認(rèn)定離群點(diǎn)作為異常樣本點(diǎn);基于無監(jiān)督學(xué)習(xí)的異常檢測(cè),以基于孤立森林的異常值檢測(cè)為代表其思想是構(gòu)建孤立森林的數(shù)據(jù)結(jié)構(gòu),通過這種二叉樹結(jié)構(gòu)可以快速判斷樣本點(diǎn)與周圍樣本點(diǎn)的差異程度,給定異常值評(píng)分以確定異常樣本點(diǎn)。

        自編碼器fAuto-Encoder)是一類在半監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)中使用的人工神經(jīng)網(wǎng)絡(luò),其功能是通過將輸入信息作為學(xué)習(xí)目標(biāo),對(duì)輸入信息進(jìn)行表征學(xué)習(xí)。自編碼器應(yīng)用廣泛,近年來被廣泛應(yīng)用于特征提取和圖像修復(fù)等領(lǐng)域。自編碼器按學(xué)習(xí)范式,可以被分為收縮自編碼器、正則自編碼器和變分自編碼器(variational Auto-Encoder,VAE)。其中變分自編碼器由于其對(duì)于噪聲具有魯棒性且重建誤差小等優(yōu)點(diǎn),被廣泛應(yīng)用于電能領(lǐng)域,如宋輝等人將變分自編碼器用于局部放電數(shù)據(jù)的匹配。變分自編碼器同時(shí)也可以用于異常值檢測(cè),其基本原理是使用數(shù)據(jù)集訓(xùn)練得到編碼器和解碼器的默認(rèn)參數(shù),利用訓(xùn)練得到的編解碼器計(jì)算待檢測(cè)數(shù)據(jù)集的重建誤差,如果重建誤差過大,則說明該樣本點(diǎn)包含噪聲成分顯著,有較大可能是異常樣本點(diǎn)。

        本文基于變分自編碼器的原理,針對(duì)電力領(lǐng)域日線損率的異常檢測(cè)問題,提出一種基于自編碼器的日線損率異常檢測(cè)方法,實(shí)現(xiàn)對(duì)海量日線損數(shù)據(jù)的異常檢測(cè)。首先對(duì)日線損率的異常檢測(cè)問題進(jìn)行論述,接著說明基于自編碼器的日線損率異常檢測(cè)方法的具體實(shí)現(xiàn),最后使用真實(shí)的電力集團(tuán)的線損數(shù)據(jù)進(jìn)行實(shí)驗(yàn),與基于DBSCAN的異常值檢測(cè)和基于孤立森林的異常值檢測(cè)方法進(jìn)行對(duì)比,結(jié)果表明本方法具有較好的異常值檢測(cè)效果。

        1異常數(shù)據(jù)的檢測(cè)

        1.1線損率的計(jì)算

        電力網(wǎng)在輸送和分配電能的過程中所產(chǎn)生的全部電能損耗,稱為線損。線損包括技術(shù)線損和管理線損。技術(shù)線損是指經(jīng)由輸變配售設(shè)施所產(chǎn)生的損耗,可通過理論計(jì)算來獲得;管理線損,是指在輸變配售過程中由于計(jì)量、抄表、竊電及其他管理不善造成的電能損失。線損率的計(jì)算如式(1)所示。其中,LossE為線損電量,pr為供電量,ps為售電量。供電量=電廠上網(wǎng)電量+電網(wǎng)輸入電量-電網(wǎng)輸出電量。

        日線損率數(shù)據(jù)形成時(shí)序序列,用于描述線損率隨時(shí)間變化的情況。當(dāng)時(shí)間序列數(shù)據(jù)在某一時(shí)刻發(fā)生突變時(shí),該數(shù)據(jù)點(diǎn)則有很大可能是異常值。圖1是2019年6月到2019年12月的日線損率時(shí)序曲線,可以看到在2019年10月下旬某一天日線損率數(shù)據(jù)發(fā)生突變,所以該日線損率很大概率是此時(shí)序數(shù)據(jù)中的異常值。

        1.2時(shí)間序列異常檢測(cè)

        異常檢測(cè)俐研究的是在不符合預(yù)期行為的數(shù)據(jù)中尋找模式的問題,這些不一致的模式被稱為異常。異常值檢測(cè)(Anomalies Detection)是數(shù)據(jù)挖掘中的核心問題和基礎(chǔ)問題。在電能數(shù)據(jù)的分析中,由于電能量采集設(shè)備的故障或者其他人為原因會(huì)導(dǎo)致采集到的電能量數(shù)據(jù)產(chǎn)生異常。對(duì)于采集到的日線損數(shù)據(jù),通過異常值檢測(cè)發(fā)現(xiàn)異常樣本點(diǎn),有助于發(fā)現(xiàn)異常的用電行為和設(shè)備故障情況,對(duì)提高電能利用效率和降低線路線損具有指導(dǎo)意義。

        1.3線損率異常

        線損率常用來考核電力系統(tǒng)運(yùn)行的經(jīng)濟(jì)性。本文的數(shù)據(jù)集來自某一電力企業(yè)所提供的2018年1月到2020年4月的日線損率數(shù)據(jù),通過基于自編碼器的異常檢測(cè)算法找出存在異常的線損率數(shù)據(jù)。但值得注意的是,需要區(qū)分錯(cuò)誤數(shù)據(jù)和異常數(shù)據(jù)的區(qū)別,日線損率應(yīng)當(dāng)是一個(gè)0-1的值,如果超出1則是一個(gè)錯(cuò)誤數(shù)據(jù),但并不是異常數(shù)據(jù),應(yīng)當(dāng)在預(yù)處理的過程去除這些錯(cuò)誤數(shù)據(jù)。得到預(yù)處理后的數(shù)據(jù)之后再對(duì)數(shù)據(jù)進(jìn)行異常檢測(cè)。

        2基于自編碼器的日線損率異常檢測(cè)

        自編碼器(Auto-Encoder,AE)是一種通過無監(jiān)督學(xué)習(xí)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),其訓(xùn)練目標(biāo)是接近原始數(shù)據(jù)的重建。自編碼器通常由編碼器和解碼器兩部分組成。自編碼器常用于數(shù)據(jù)壓縮,編碼器將一個(gè)數(shù)據(jù)x有損編碼為低維的隱向量五解碼器又可以將隱向量重建為數(shù)據(jù)X。

        基于自編碼器能夠?qū)崿F(xiàn)特征降維和重建的特性,自編碼器可以應(yīng)用于異常值檢測(cè)。將原始數(shù)據(jù)送人自編碼器進(jìn)行處理,能夠得到原始數(shù)據(jù)的低維嵌入,其中異常數(shù)據(jù)和正常數(shù)據(jù)預(yù)期能夠彼此分離,得到那些較低維度的嵌入之后,經(jīng)過重建被帶回到原始數(shù)據(jù)空間。通過使用低維表示重建數(shù)據(jù),期望獲得數(shù)據(jù)的真實(shí)性質(zhì),而能夠產(chǎn)生異常的特征和噪聲將會(huì)被忽略。因此對(duì)于樣本的重建誤差(原始數(shù)據(jù)點(diǎn)與重建數(shù)據(jù)的誤差)可以反映一個(gè)樣本點(diǎn)的異常程度,可以用作異常檢測(cè)的異常分?jǐn)?shù)?;谧跃幋a器的異常值檢測(cè)原理如圖2所示。

        變分自編碼器(Variational Auto-Encoder,VAE)是自編碼器的一種,其特點(diǎn)如下:

        (1)變分自編碼器的對(duì)象實(shí)際上是輸入變量的樣本均值和方差,是將輸入變量編碼成隱變量的分布,再?gòu)碾[變量分布采樣,將隱變量分布解碼成輸出變量的分布;

        (2)變分自編碼器的有2個(gè)編碼器,分別用于對(duì)輸人數(shù)據(jù)的均值和方差進(jìn)行編碼,其目的在于希望通過編碼得到的分布具有均值為0、方差為1的標(biāo)準(zhǔn)正態(tài)分布;

        (3)變分自編碼器是在自編碼器的基礎(chǔ)上對(duì)編碼器的結(jié)果加上了高斯噪聲,使得解碼器對(duì)于噪聲具有魯棒性;

        (4)由于變分自編碼器是對(duì)輸人數(shù)據(jù)的統(tǒng)計(jì)描述進(jìn)行編碼和解碼,因此編解碼得到的重建誤差是概率,稱之為重建概率。

        變分自編碼器的編碼器和解碼器的神經(jīng)網(wǎng)絡(luò)示意圖如圖3所示,變分自編碼器的原理示意圖如圖4所示。

        將變分自編碼器用于異常值檢測(cè),是根據(jù)上文所述的重建概率進(jìn)行的,將重建概率作為每一個(gè)樣本點(diǎn)的異常分?jǐn)?shù)。由于重建概率與具體的量綱無關(guān),因此使用變分自編碼器進(jìn)行異常值檢測(cè)克服了異構(gòu)數(shù)據(jù)異常值檢測(cè)的困難,具有可變性;同時(shí)異常分?jǐn)?shù)對(duì)于不同的數(shù)據(jù)集也具有可比性,實(shí)現(xiàn)了一種通用的客觀方法來評(píng)估樣本的異常性。

        基于變分自編碼器,利用自編碼器用于異常值檢測(cè)的原理,本文構(gòu)建了一種基于變分自編碼器的日線損率異常值檢測(cè),具體方法歸納如下:

        (1)對(duì)原始日線損率數(shù)據(jù)進(jìn)行預(yù)處理:a)對(duì)日線損率取絕對(duì)值;b)令數(shù)值不在0—1之間的日線損率樣本的數(shù)值變?yōu)?;

        (2)選取預(yù)處理后的正常的日線損率樣本數(shù)據(jù),送人變分自編碼器進(jìn)行訓(xùn)練,得到變分自編碼器的默認(rèn)參數(shù);

        (3)將預(yù)處理后待檢測(cè)的日線損率樣本數(shù)據(jù)送入完成訓(xùn)練的變分自編碼器,計(jì)算每一個(gè)樣本點(diǎn)的重建概率;

        (4)對(duì)于每一個(gè)樣本點(diǎn),計(jì)算得到的重建概率與設(shè)定閾值進(jìn)行比較,如果超過閾值,則輸出該樣本點(diǎn)為異常樣本點(diǎn),反之,則輸出該樣本點(diǎn)為正常樣本點(diǎn)。

        基于自編碼器的日線損率異常檢測(cè)方法的框架如圖5所示。

        2.1基于日線損率的自編碼器構(gòu)建

        根據(jù)前文變分自編碼器的原理,使用正常日線損數(shù)據(jù)對(duì)變分自編碼器進(jìn)行訓(xùn)練過程的描述見算法1。

        算法1是通過反向傳播來訓(xùn)練變分自編碼器的,算法過程說明如下:

        (1)參數(shù)Ф,θ是上述算法的輸出,分別是編碼器和解碼器的參數(shù);

        (2)算法的第4行和第5行是分別對(duì)標(biāo)準(zhǔn)正態(tài)分布總體和輸入數(shù)據(jù)的每一個(gè)樣本進(jìn)行編碼,目的是使得編碼的結(jié)果模擬和接近標(biāo)準(zhǔn)正態(tài)分布;

        (3)其中第7行的E是變分自編碼器的損失函數(shù),是一個(gè)帶正則項(xiàng)的負(fù)對(duì)數(shù)似然函數(shù),其中第一項(xiàng)是KL散度正則項(xiàng),用于衡量?jī)蓚€(gè)分布的近似程度,第二項(xiàng)的求和是重建損失,目的是讓生成數(shù)據(jù)和原始數(shù)據(jù)盡可能接近。

        2.2基于自編碼器的日線損率異常檢測(cè)

        根據(jù)2.1所述的算法,要實(shí)現(xiàn)對(duì)于日線損率的異常檢測(cè),則首先需要使用正常的數(shù)據(jù)集訓(xùn)練一個(gè)自編碼器,得到默認(rèn)參數(shù);接著用訓(xùn)練得到的自編碼器計(jì)算異常數(shù)據(jù)的重建誤差,對(duì)于一個(gè)樣本,若重建誤差大于某個(gè)閥值α,則判定為異常樣本點(diǎn),否則判定為正常樣本點(diǎn)。

        使用變分自編碼器對(duì)日線損率進(jìn)行異常值檢測(cè)的描述見算法2.

        算法2根據(jù)訓(xùn)練得到的變分自編碼器進(jìn)行編解碼,并計(jì)算得到重建概率,算法說明如下:

        (1)算法的第3行是使用編碼器對(duì)輸人數(shù)據(jù)進(jìn)行編碼,得到對(duì)于輸入數(shù)據(jù)的描述統(tǒng)計(jì)(均值和方差);

        (2)算法的第4行到第7行,是根據(jù)標(biāo)準(zhǔn)正態(tài)分布使用解碼器對(duì)輸人數(shù)據(jù)的描述統(tǒng)計(jì)進(jìn)行重建;

        (3)算法的第8行則是根據(jù)重建結(jié)果計(jì)算每一個(gè)樣本點(diǎn)的重建概率,之后的第9行到第12行則是根據(jù)閾值進(jìn)行判斷,確定樣本點(diǎn)是否為異常樣本點(diǎn)。

        3實(shí)驗(yàn)及結(jié)果分析

        3.1實(shí)驗(yàn)環(huán)境

        本文實(shí)驗(yàn)平臺(tái)為Windows 10系統(tǒng),8 GB內(nèi)存,Intel(R)Core(TM)i5-7200U,2.5 GHz。算法采用Python 3.6.9實(shí)現(xiàn)。

        3.2數(shù)據(jù)集和預(yù)處理

        數(shù)據(jù)集采用某一電力企業(yè)提供的2018年1月1日-2020年3月30日的日線損率數(shù)據(jù),共820條日線損率數(shù)據(jù)記錄,包含電能量記錄時(shí)間OCCURTIME、線損率RATE,共2個(gè)字段。

        由于原始的日線損率數(shù)據(jù)可能包含無效數(shù)據(jù),并且對(duì)于線損率的分析需要對(duì)其進(jìn)行絕對(duì)值化處理,因此首先對(duì)原始的820條日線損數(shù)據(jù)記錄的RATE字段進(jìn)行絕對(duì)值化處理;接著由于線損率絕對(duì)值化之后應(yīng)該在0-1區(qū)間內(nèi),因此RATE字段大于1的數(shù)據(jù)是無效數(shù)據(jù),將該條數(shù)據(jù)記錄的RATE值置0,以避免無效數(shù)據(jù)對(duì)自編碼器的訓(xùn)練和異常值檢測(cè)產(chǎn)生影響。

        日線損率數(shù)據(jù)是一個(gè)時(shí)序數(shù)據(jù),本文將上文所述的日線損率數(shù)據(jù)分割成更小的時(shí)間片段。比如2018年1月1日到2018年1月20日為第1個(gè)時(shí)間片段,2018年1月2日到2017年1月21日為第2個(gè)時(shí)間片段,2018年1月3日到2018年1月22日為第3個(gè)時(shí)間片段,以此類推,每20天為一個(gè)分割“窗口”,將上述時(shí)間段的日線損率數(shù)據(jù)每20天分割為800個(gè)更小的時(shí)間片段,將這些更小的時(shí)間片段作為訓(xùn)練集送人自編碼器中進(jìn)行編碼。使用此神經(jīng)網(wǎng)絡(luò)對(duì)樣本集預(yù)測(cè)得到的預(yù)測(cè)值相對(duì)于原始值存在誤差,它會(huì)使得原始數(shù)據(jù)更加平滑。

        3.3評(píng)價(jià)指標(biāo)

        異常值檢測(cè)效果主要通過準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall)以及綜合評(píng)價(jià)指標(biāo)n值(Fl-measure)這4個(gè)指標(biāo)進(jìn)行評(píng)價(jià),設(shè)準(zhǔn)確率為A,精確率為P,召回率為R2F1值為F,則:其中TP、TN、FP、FN分別表示異常點(diǎn)檢測(cè)為異常、正常點(diǎn)檢測(cè)為正常、正常點(diǎn)檢測(cè)為異常、異常點(diǎn)檢測(cè)為正常的樣本點(diǎn)個(gè)數(shù)。準(zhǔn)確率A反映了算法對(duì)異常點(diǎn)和非異常點(diǎn)識(shí)別的整體正確率,精確率P反映了算法識(shí)別得到的異常點(diǎn)是真實(shí)異常點(diǎn)的比率,召回率R反映了算法識(shí)別得到的異常點(diǎn)覆蓋了真實(shí)異常點(diǎn)的比率,綜合評(píng)價(jià)指標(biāo)n則是綜合了精確率P和召回率A得到的評(píng)價(jià)指標(biāo)。

        3.4實(shí)驗(yàn)過程和結(jié)果

        在本方法中,對(duì)異常值檢測(cè)效果的關(guān)鍵參數(shù)是THRESHOLD,由于本方法是根據(jù)每一個(gè)樣本點(diǎn)經(jīng)過自編碼器的處理得到的重建概率來進(jìn)行異常值檢測(cè)的,因此該參數(shù)對(duì)于異常值檢測(cè)的敏感度具有較大影響,需要選擇一個(gè)合適的參數(shù)值以獲得最佳的異常值檢測(cè)效果。

        使用清洗過的數(shù)據(jù)集運(yùn)行本方法進(jìn)行異常值檢測(cè),控制參數(shù)THRESHOLD的取值從0.1變化到0.3,步長(zhǎng)為0.01,對(duì)于每一種取值進(jìn)行5次實(shí)驗(yàn)并取平均,使用綜合評(píng)價(jià)指標(biāo)n值以評(píng)估異常值檢測(cè)效果。實(shí)驗(yàn)結(jié)果如圖6所示。

        通過上述實(shí)驗(yàn)可以看出,當(dāng)THRESHOLD取值為0.25時(shí)綜合評(píng)價(jià)指標(biāo)n取得極大值0.89,此時(shí)準(zhǔn)確率A=0.9963,精確率P=1.00,召回率R=0.80,有著較好的異常值檢測(cè)效果。當(dāng)THRESHOLD的取值過小時(shí),可以發(fā)現(xiàn)異常值檢測(cè)效果急劇下降,表現(xiàn)為精確率大幅降低,其原因是閾值過小導(dǎo)致對(duì)重建概率的敏感程度過高,將日線損率的正常波動(dòng)視為異常樣本點(diǎn);當(dāng)THRESHOLD的取值過大時(shí),也會(huì)導(dǎo)致異常值檢測(cè)效果下降,表現(xiàn)為召回率下降,其原因是閾值過大導(dǎo)致放寬了對(duì)正常樣本點(diǎn)重建誤差的要求,進(jìn)而導(dǎo)致忽視部分異常樣本點(diǎn),將該異常樣本點(diǎn)視為正常樣本點(diǎn)。

        綜上所述,對(duì)于日線損率的異常值檢測(cè),其重建概率的閾值即參數(shù)THRESHOLD的取值為0.25比較合適。以下實(shí)驗(yàn)均采用該值進(jìn)行,以獲得最佳異常值檢測(cè)效果。參數(shù)設(shè)置如表1所示。

        經(jīng)過數(shù)據(jù)預(yù)處理和數(shù)據(jù)清洗,原始的日線損率數(shù)據(jù)如圖7所示。

        為了訓(xùn)練自編碼器,還需要獲取同地區(qū)并采用相同方式采樣計(jì)算得到的日線損率時(shí)序數(shù)據(jù),從中選取100個(gè)時(shí)間上連續(xù)并且不包含異常樣本點(diǎn)的記錄,經(jīng)過預(yù)處理后作為訓(xùn)練集,進(jìn)行自編碼器的訓(xùn)練。訓(xùn)練完成后,對(duì)上文所述的820個(gè)樣本點(diǎn)進(jìn)行自編碼器的編碼和解碼以計(jì)算重建概率,每一個(gè)樣本點(diǎn)計(jì)算得到的重建概率如圖8所示。

        對(duì)所有樣本點(diǎn)的重建誤差進(jìn)行檢測(cè),將誤差超出閾值THRESHOLD的樣本點(diǎn)進(jìn)行標(biāo)記,認(rèn)定為異常樣本點(diǎn),異常值檢測(cè)結(jié)果如圖9所示,異常樣本在圖中使用黃色圓點(diǎn)標(biāo)注,基于自編碼器的異常檢測(cè)算法總共找到了15個(gè)異常樣本。

        從異常值檢測(cè)結(jié)果中可以看出,該方法對(duì)于日線損率的異常有較好的檢測(cè)效果:日線損數(shù)據(jù)發(fā)生突變的部分能夠進(jìn)行檢測(cè),同時(shí)也能夠容忍日線損數(shù)據(jù)的正常波動(dòng),不會(huì)將這類樣本認(rèn)定為異常樣本。

        下面將本方法和其他兩種在電能數(shù)據(jù)異常值檢測(cè)領(lǐng)域常用的方法:孤立森林算法和基于DBSCAN的異常值檢測(cè)算法進(jìn)行異常值檢測(cè)效果的對(duì)比。本方法設(shè)置的參數(shù)如表1所示,孤立森林算法的參數(shù)設(shè)置為:MaxSamples=128,Trees=100,Alpha=0.02;基于DBSCAN的異常值檢測(cè)算法參數(shù)設(shè)置為:MinSamples=5,Eps=0.05.實(shí)驗(yàn)結(jié)果如表2所示。

        實(shí)驗(yàn)結(jié)果顯示,本方法在這3種異常檢測(cè)算法中準(zhǔn)確率最高,相較于孤立森林算法和基于DBSCAN的異常值檢測(cè)算法準(zhǔn)確率分別提高了3.518%和2.049%,說明對(duì)于異常樣本點(diǎn)和正常樣本點(diǎn)具有很好的識(shí)別效果;同時(shí)本方法的精確率也最高,達(dá)到了100%,相較于孤立森林算法和基于DBSCAN的異常值檢測(cè)算法分別提高了26.31%和20.00%,說明檢測(cè)得到的異常樣本全部為真實(shí)異常樣本,因此本方法的異常檢測(cè)結(jié)果具有很高的可信度;本方法相較于孤立森林算法,參照綜合評(píng)價(jià)指標(biāo)n提高了0.7023%,異常值檢測(cè)的綜合效果略有提高;但是召回率相較于孤立森林算法較差,孤立森林算法對(duì)于日線損率的異常檢測(cè)召回率更高,本方法只能覆蓋大部分異常樣本點(diǎn),對(duì)于一些異常樣本點(diǎn)會(huì)將其認(rèn)定為正常樣本點(diǎn)。

        對(duì)于日線損率的異常值檢測(cè),本方法對(duì)于異常樣本的敏感程度適中,不會(huì)將存在正常波動(dòng)的樣本點(diǎn)識(shí)別為異常。綜上所述,本方法相較于孤立森林算法和基于DBscAN的異常值檢測(cè)算法,在準(zhǔn)確率和精確率上有更加優(yōu)秀的表現(xiàn),有著較好的異常檢測(cè)效果。

        4結(jié)論

        本文基于變分自編碼器的原理,針對(duì)電力領(lǐng)域日線損率的異常檢測(cè)問題,提出了一種基于自編碼器的日線損率異常檢測(cè)方法,實(shí)現(xiàn)對(duì)海量日線損數(shù)據(jù)的異常檢測(cè)。首先對(duì)日線損的異常檢測(cè)問題進(jìn)行論述,接著說明基于自編碼器的日線損率異常檢測(cè)方法的具體實(shí)現(xiàn),最后使用真實(shí)的電力集團(tuán)的線損數(shù)據(jù)進(jìn)行實(shí)驗(yàn),與基于DBscAN的異常值檢測(cè)方法和基于孤立森林的異常值檢測(cè)方法進(jìn)行對(duì)比,結(jié)果表明本方法具有較好的異常值檢測(cè)效果。

        猜你喜歡
        異常檢測(cè)
        一種基于隨機(jī)空間樹的數(shù)據(jù)流異常檢測(cè)算法
        基于ELK的電力信息監(jiān)控日志審計(jì)系統(tǒng)實(shí)現(xiàn)
        基于LMD模糊熵的遙測(cè)振動(dòng)信號(hào)異常檢測(cè)方法
        基于度分布的流量異常在線檢測(cè)方法研究
        無線Mesh網(wǎng)絡(luò)安全性研究
        無線Mesh網(wǎng)絡(luò)基礎(chǔ)知識(shí)
        淺談燃?xì)廨啓C(jī)排氣溫度異常檢測(cè)及診斷
        一種基于異常入侵檢測(cè)的報(bào)警融合技術(shù)
        基于計(jì)算機(jī)視覺的人群異常事故檢測(cè)系統(tǒng)
        卷宗(2016年4期)2016-05-30 11:01:28
        基于鼠標(biāo)行為的電子商務(wù)中用戶異常行為檢測(cè)
        久久久免费精品re6| 另类人妖在线观看一区二区| 国产久久久自拍视频在线观看| 精品人妻一区二区三区浪人在线| 日韩丰满少妇无码内射| 精品国产福利一区二区在线| 日本丰满少妇高潮呻吟| 亚洲女同系列在线观看| 国产综合精品一区二区三区| 久久久久久久性潮| 亚洲日韩成人无码不卡网站| av在线播放免费观看| 亚洲精品第一国产综合精品| 99久久国语露脸精品国产| 26uuu欧美日本在线播放| 亚洲精品中文字幕乱码| 在线亚洲高清揄拍自拍一品区| 狠狠色噜噜狠狠狠狠888奇禾| 久久精品国产乱子伦多人| h视频在线免费观看视频| 国产日韩av在线播放| 欧美成人精品第一区二区三区| www.尤物视频.com| 日韩人妻免费视频一专区| 国内精品人妻无码久久久影院| 国产精品自在线免费| 少妇久久高潮不断免费视频| 午夜视频在线观看视频在线播放 | 正在播放老肥熟妇露脸| 国产成人免费a在线视频| 日本女优一区二区在线免费观看| 色婷婷久久精品一区二区| 特黄特色的大片观看免费视频| 在线人妻无码一区二区| 一区二区三区黄色一级片| 伊人久久大香线蕉午夜av | 日韩精品成人一区二区在线观看| 日韩av一区二区网址| 少妇无码av无码专区线| 亚洲一区二区在线视频播放| 男人天堂亚洲一区二区|