張國芳 溫麗麗 吳蒙 劉通宇 鄭寬昀 黃福興 袁培森
摘要:在智能電網(wǎng)飛速發(fā)展的趨勢下,新型數(shù)字基礎(chǔ)設(shè)施建設(shè)成為電力企業(yè)的核心業(yè)務(wù)之一,電力企業(yè)數(shù)據(jù)的治理和智能化分析為平臺運營、數(shù)據(jù)增值變現(xiàn)等商業(yè)模式創(chuàng)新提供了條件.在電力數(shù)字化和智能化治理背景下,使用魯棒性隨機分割森林算法實現(xiàn)變壓器損耗數(shù)據(jù)的異常值智能化檢測.通過魯棒性隨機分割森林算法劃分樣本點以構(gòu)建魯棒性隨機分割森林結(jié)構(gòu)模型,通過插入和刪除樣本點對結(jié)構(gòu)復(fù)雜度的影響程度給定該樣本點的異常值評分.魯棒性隨機分割森林算法適用于實時損耗數(shù)據(jù)異常檢測,兼顧異常值檢測效果和運行效率,具有較高的可信度.對真實變壓器損耗數(shù)據(jù)集中進行異常值檢測試驗,實驗結(jié)果表明該算法高效、靈活,相較于其他方法,精確率、召回率及運行效率均有顯著提升.
關(guān)鍵詞:魯棒性隨機分割森林;異常值檢測;變壓器損耗;電力數(shù)據(jù)中臺
中圖分類號:TP391文獻標(biāo)志碼:ADOI:10.3969/j.issn.1000-5641.2021.06.014
Anomaly detection of transformer loss data based on a robust random cut forest
ZHANG Guofang1,WEN Lili1,WU Meng1,LIU Tongyu2,ZHENG Kuanyun3,HUANG Fuxing3,YUAN Peisen2
(1. State Grid Sichuan Electric Power Company,Chengdu 610094,China;2. College of Artificial Intelligence,Nanjing Agricultural University,Nanjing 210095,China;3. Nanjing Automatic Research Insititute Group Corporation (State Grid Electric Power Research Institute),Nanjing 211106. China)
Abstract:With the rapid development of smart grids,the construction of new digital infrastructure has become one of the core businesses of power companies. Power companies' governance and intelligent analytical capabilities enable opportunities for business model innovation,such as platform operation and value-added data realization. In the context of power digitization and intelligent governance,we use the robust random cut forest in this paper for transformer loss data anomaly intelligence detection. The algorithm divides sample points by random cutting to construct a random cut forest structure model by inserting and removing sample points in the structure;the anomaly score of a sample point is then given by the influence of complexity. This method is suitable for anomaly detection on real-time loss data and offers a high degree of credibility,effectiveness,and efficiency. An experiment of anomaly detection on real transformer loss data shows that the method is efficient and flexible. The accuracy,recall,and efficiency of the proposed method,moreover,is substantially better than alternatives.
Keywords:robust random cut forest;anomaly detection;transformer loss;power data platform
0引言
近年來,電網(wǎng)正在朝著信息化、數(shù)字化和智能化方向迅速發(fā)展[1].在能源互聯(lián)網(wǎng)發(fā)展背景下,電力企業(yè)數(shù)值化和智能化轉(zhuǎn)型是突破業(yè)務(wù)發(fā)展瓶頸的關(guān)鍵.需要提升電網(wǎng)系統(tǒng)數(shù)據(jù)的采集實時性、治理科學(xué)性,提升電網(wǎng)運行數(shù)據(jù)的綜合治理能力與智能化管理水平.
構(gòu)建一個統(tǒng)一的、可復(fù)用的電力企業(yè)數(shù)據(jù)中臺[2],以形成將數(shù)據(jù)變成資產(chǎn)并服務(wù)于業(yè)務(wù)的機制,這是電網(wǎng)提升智能化的重要手段[3].為了實現(xiàn)以中臺賦能為核心,進而提升電力企業(yè)數(shù)據(jù)處理和服務(wù)能力,需要對海量的電能量數(shù)據(jù)進行統(tǒng)一采集、計算、標(biāo)準(zhǔn)化以及異常值的實時監(jiān)測.
電能損耗作為電力企業(yè)經(jīng)濟效益的重要指標(biāo),其管理和分析數(shù)據(jù)是電力企業(yè)數(shù)據(jù)中臺的重要業(yè)務(wù).各地區(qū)在損耗效益和損耗率水平上也存在一定的差異[4],如何檢測這些電能數(shù)據(jù)中的異常值以降低電能損耗,是當(dāng)前國內(nèi)外研究的一個重點[5-6].其中,在整體線路損耗中,變壓器損耗是一個重要的組成部分,利用大數(shù)據(jù)和人工智能技術(shù)展開設(shè)備性能評估,對變壓器損耗電氣設(shè)備性能進行評價和分析,可以抓住元件性能老化漸進的量變過程,觀察正常運行元件的性能劣化趨勢.因此對變壓器損耗的異常值檢測是構(gòu)建電力企業(yè)數(shù)據(jù)中臺必須考慮的問題[7].
異常值檢測(anomalies detection)是數(shù)據(jù)挖掘中的核心和基礎(chǔ)問題[8-9].在電能數(shù)據(jù)的分析中,由于電能量采集設(shè)備故障或者其他人為原因,會導(dǎo)致所采集到的電能量數(shù)據(jù)產(chǎn)生異常.對于所采集到的變壓器損耗數(shù)據(jù),通過異常值檢測發(fā)現(xiàn)異常樣本點,有助于發(fā)現(xiàn)異常的用電行為和設(shè)備故障情況,對提高電能利用效率和降低線路損耗具有指導(dǎo)意義.
在電能量數(shù)據(jù)異常檢測中,常用的異常值檢測方法主要可以分為3類:基于統(tǒng)計學(xué)原理、基于聚類和基于無監(jiān)督學(xué)習(xí)[10-11].基于統(tǒng)計學(xué)原理的電能量數(shù)據(jù)異常值檢測方法實質(zhì)上是基于對樣本集的描述統(tǒng)計,以確定一個正常樣本數(shù)據(jù)范圍,對于不在這個范圍內(nèi)的樣本數(shù)據(jù)視為異常.
基于聚類的異常值檢測以基于DBSCAN聚類的異常值檢測為代表,其算法的基本原理是根據(jù)樣本數(shù)據(jù)的緊密程度進行聚類劃分,選出其中的不能被劃分到任何一個聚類簇的樣本點作為異常樣本點[12].王文紅等[13]運用該方法對電能表數(shù)據(jù)進行異常值檢測,結(jié)果表明該方法適應(yīng)性強,它可以充分考慮樣本點距離的分布情況,有著較好的異常值檢測效果.但是在電能量數(shù)據(jù)中經(jīng)常存在高維數(shù)據(jù),如果其中一個樣本的某一維度的分量出現(xiàn)了異常,在計算距離的時候這樣的異常在數(shù)值上的體現(xiàn)就會被稀釋,另外聚類算法的輸入?yún)?shù)會對聚類結(jié)果產(chǎn)生很大的影響,選擇參數(shù)是一個困難的問題.
基于無監(jiān)督學(xué)習(xí)的孤立森林算法[14]是一種適用于連續(xù)數(shù)據(jù)的異常值檢測方法,如余翔等[15]基于孤立森林算法對用電數(shù)據(jù)異常進行了研究,發(fā)現(xiàn)相較于基于聚類的算法其異常值檢測準(zhǔn)確率和效率均有所提高.孤立森林算法針對高維數(shù)據(jù)有著較好的魯棒性,對每一個樣本的異常度提供歸一量化指標(biāo),但是并沒有對電能數(shù)據(jù)的實時異常值檢測進行建模.
上述異常值檢測方法是對靜態(tài)電能量數(shù)據(jù)集的批量檢測,然而對電能量數(shù)據(jù)的異常值檢測問題提出了新的要求:既要考慮數(shù)據(jù)前后的相關(guān)性,又需要考慮如何對于實時發(fā)生的電能量數(shù)據(jù)進行異常值檢測.
魯棒性隨機分割森林(Robust Random Cut Forest,RRCF)算法是一種面向動態(tài)數(shù)據(jù)流的異常值檢測算法[16],該算法針對持續(xù)產(chǎn)生的數(shù)據(jù),考慮到樣本點數(shù)據(jù)時間這算法一維度.該算法基于孤立森林結(jié)構(gòu),優(yōu)化了隨機分割樹的生成算法,改進成為魯棒性隨機分割樹(Robust Random Cut Tree,RRCT),并提出了基于模型復(fù)雜度的異常評分.RRCF算法能通過一次遍歷樣本集獲得每個樣本點的異常評分,有著較為理想的運行速度.RRCF算法在諸多領(lǐng)域已經(jīng)有初步應(yīng)用,例如,Inoue等[17]將RRCF算法應(yīng)用于水質(zhì)異常的實時監(jiān)測,Bartos等[18]則將該算法應(yīng)用于城市交通的實時車流量監(jiān)控,Wang等[19]將該算法應(yīng)用于大型互聯(lián)網(wǎng)公司系統(tǒng)的各種關(guān)鍵性能指標(biāo)分析.上述應(yīng)用均取得了較好的效果,證實了RRCF算法在異常值檢測方面的優(yōu)勢.
本文提出了基于RRCF算法的變壓器損耗數(shù)據(jù)異常值檢測方法,構(gòu)建了對于變壓器損耗數(shù)據(jù)流的實時異常值檢測模型.本文采用了南瑞集團提供的2017—2020年變壓器損耗數(shù)據(jù),經(jīng)過預(yù)處理后利用該數(shù)據(jù)集構(gòu)建RRCF模型以計算異常評分,對變壓器損耗數(shù)據(jù)進行異常值檢測,作為評估變壓器性能的重要參考依據(jù).
1變壓器損耗數(shù)據(jù)的異常值
變壓器在運行時,繞組內(nèi)通過電流,會產(chǎn)生負(fù)載損耗,還會產(chǎn)生一些附加損耗,主要有繞組渦流損耗、環(huán)流損耗和雜散損耗.其中負(fù)載損耗的計算公式為
其中,I,I分別是原副繞組額定相電流,單位為A;r,r分別是折合為75℃時原副邊繞組的總電阻,單位為Ω.
變壓器損耗數(shù)據(jù)具有很強的時間相關(guān)性,是時間序列數(shù)據(jù)[20],需要對該變壓器損耗數(shù)據(jù)集設(shè)計一種高效的,對于實時生成的變壓器損耗數(shù)據(jù)進行異常值檢測的算法.異常樣本是某個樣本集中存在但是與其他樣本點特征存在顯著差異的樣本點,又稱離群點[21].當(dāng)在某一時刻發(fā)生突變時,該數(shù)據(jù)點有較大的可能代表異常樣本.圖1展示了某地變壓器損耗的變化情況,可以發(fā)現(xiàn)在2018年4月下旬,變壓器損耗數(shù)據(jù)發(fā)生突變,損耗數(shù)值突然降低,說明該樣本點很有可能是異常樣本點,該數(shù)值很可能是變壓器損耗數(shù)據(jù)中的異常值,需要對該樣本點做進一步的異常分析.
2基于RRCF算法的變壓器損耗異常值檢測
2.1模型架構(gòu)
對于變壓器損耗異常檢測這一問題,提出基于RRCF算法的變壓器損耗異常值檢測方法,使用基于RRCF算法的異常值檢測方法進行異常值檢測的整體流程.其流程主要涵蓋訓(xùn)練階段和評估階段,檢測模型如圖2所示.
A.訓(xùn)練階段
第1步:收集不同時間節(jié)點不同地區(qū)的變壓器運行檢測參數(shù),以此計算變壓器損耗,得到變壓器損耗原始數(shù)據(jù)集.
第2步:確定線路損耗數(shù)據(jù)的地點、時間范圍,從數(shù)據(jù)庫讀取相應(yīng)樣本數(shù)據(jù)并進行預(yù)處理,預(yù)處理的過程如下:
①檢查每個樣本信息,若樣本屬性值缺失則剔除該樣本;
②對每個樣本的變壓器損耗數(shù)據(jù)字段取絕對值;
③依據(jù)樣本損耗數(shù)據(jù)的采集時間,將樣本損耗數(shù)據(jù)整理成時間序列數(shù)據(jù),將樣本數(shù)據(jù)的采集時間作為索引方便后續(xù)算法的快速查找定位.
第3步:設(shè)定RRCF異常值檢測算法的參數(shù),對預(yù)處理后的時間序列數(shù)據(jù)進行異常值檢測,獲得每一個樣本點的異常評分.
第4步:對樣本點的異常評分進行閾值檢驗,確定針對變壓器損耗異常值的異常評分閾值,根據(jù)此閾值篩選得到異常樣本點的信息.
B.評估階段
第5步:根據(jù)第4步得到的異常評分閾值,建立對于實時變壓器損耗數(shù)據(jù)流的RRCF異常值檢測模型,該模型主要包括RRCF結(jié)構(gòu)和異常評分閾值兩個部分,均通過訓(xùn)練階段確定.
第6步:對數(shù)據(jù)流中的每一個數(shù)據(jù)依據(jù)第2步的方法進行預(yù)處理,包括去除缺失樣本和絕對值化處理.
第7步:依據(jù)RRCF模型對每一個樣本計算異常評分,并與異常評分閾值進行比較,實時輸出異常值檢測結(jié)果.
2.2基于RRCF算法的變壓器損耗異常檢測的實現(xiàn)
2.2.1RRCF算法和異常評分
RRCF算法進行異常值檢測的基本原理是維護一個時間序列數(shù)據(jù)滑動窗口生成的二叉樹結(jié)構(gòu),稱為魯棒性隨機分割樹,它的每一個葉子結(jié)點都是樣本點,非葉子結(jié)點是其左右子結(jié)點的樣本集合,根結(jié)點是原始數(shù)據(jù)集合.下面給出基于變壓器損耗的RRCT的定義.
定義1基于變壓器損耗的RRCT要么是一棵空樹,要么是一棵具有如下性質(zhì)的二叉樹:
●所有結(jié)點對應(yīng)一個變壓器損耗樣本集,根結(jié)點包含全部變壓器損耗樣本集.
●非葉子結(jié)點除了對應(yīng)一個樣本集,還需要指定分割參考維度d和分割值C.
●若左子樹不空,則左子樹根結(jié)點包含的樣本集的第d維數(shù)據(jù)均小于等于C,d和C的值由根結(jié)點決定.
●若右子樹不空,則右子樹根結(jié)點包含的樣本集的第d維數(shù)據(jù)均小于C,d和C的值由根結(jié)點決定.
●左右子樹也分別為RRCT.
RRCT的數(shù)據(jù)結(jié)構(gòu)示意圖如圖3所示,圖3還表明了RRCT中葉子結(jié)點和非葉子結(jié)點存儲信息.
對于一個包含有n個樣本的初始變壓器損耗樣本集,首先選取前k個樣本點作為初始化樣本點,以此初始化RRCT,此時RRCT是一棵包含k個葉子結(jié)點的二叉樹.通過遞歸方式生成RRCT,具體如算法1.
算法1的處理過程如下.
1)算法1的第3行指出了遞歸截止的條件,目的是保證葉子結(jié)點僅有一個樣本點而非葉子結(jié)點包含數(shù)個樣本點.
2)算法1的第7行和第8行是體現(xiàn)隨機分割形成二叉樹的步驟,對于隨機分割,一方面要選擇使用哪一個維度的樣本數(shù)值進行分割,即d值的選擇;另一方面要在選定維度后將樣本點分成兩個部分的分割值,即。值的選擇.對于d值的選擇,每一個d值被選中的概率是和當(dāng)前樣本集d維度數(shù)據(jù)的極差/成正比的,即同一緯度的樣本集數(shù)據(jù)的一個維度最大值和最小值之差越大,則該維度被選中的概率就越大;對于。值的選擇,則是服從當(dāng)前樣本集被選中維度的最小值和最大值的均勻分布.
3)算法1的第9行和第10行,將S分割成S和S兩個部分,分別成為該結(jié)點的左右子樹.算法的第11—12行,在左右子樹中繼續(xù)完成分割,進而遞歸地向下生成RRCT.
通過上述方式生成的RRCT,對于一個樣本點對應(yīng)的葉子結(jié)點,將其插入RRCT,如果它再經(jīng)過數(shù)次的隨機分割就能將該樣本與其他樣本分割開來,說明這個點與RRCT中其他樣本點有著顯著的差異,很有可能是異常點.
對于RRCT的復(fù)雜度可以用所有葉子結(jié)點深度之和來進行衡量.由于RRCF算法對于異常樣本點的定義為如果該樣本點加入RRCT會顯著增大RRCT的復(fù)雜度則認(rèn)定該樣本點為異常樣本點.下面給出異常評分的定義.
定義2設(shè)樣本點x∈S,樣本集S生成的RRCT T,x獲得的異常評分s計算方式如式(2)所示:
其中,函數(shù)f是對于樣本集S生成的T中任意一個葉子結(jié)點y的深度.由式(2)可知樣本x異常評分s的實際意義是當(dāng)樣本點x被移除時,RRCT樹T中所有葉子結(jié)點深度之和的變化值.異常評分越接近于0,樣本點是異常樣本點的可能性越小.
2.2.2樣本點的插入和刪除
RRCF異常值檢測方法最重要的部分就是對RRCT結(jié)構(gòu)的維護,使之包含恒定數(shù)量的樣本點,因此在RRCT中刪除和插入樣本點的操作是必要的.從RRCT中刪除一個樣本點的算法如下所示.
考慮到RRCT的性質(zhì),刪除的一定是一個葉子結(jié)點,因此刪除樣本點的操作可以得到簡化.其做法是找到欲刪除樣本所對應(yīng)的葉子結(jié)點,找出其兄弟結(jié)點,用兄弟結(jié)點代替其父親結(jié)點并直接刪去欲刪除的葉子結(jié)點.
在RRCT中插入一個樣本點的算法如下.
1)算法3是假設(shè)這個樣本點已經(jīng)被加入樣本集合S中,進行一次隨機分割得到新分割值根據(jù)計算新分割值的結(jié)果分別處理:
a)如果這個隨機分割值是符合原樣本集S進行的分割(這個分割值不超過原樣本集該維度數(shù)據(jù)的上下界),那么就遞歸地往該結(jié)點的左或右(取決于樣本該維度數(shù)值與原分割值的比較結(jié)果),繼續(xù)向下尋找一個合適的結(jié)點進行插入.
b)如果這個隨機分割值不符合原樣本集S進行的分割,則生成一個新結(jié)點替代該結(jié)點,原來該結(jié)點的子樹和樣本點對應(yīng)的葉子結(jié)點分別成為該新結(jié)點的左右子樹(左右子樹取決于樣本該維度數(shù)值與新分割值的比較結(jié)果).
2)算法3的第2行指出了遞歸尋找插入點的終止條件.
3)算法3的第5—9行指出了計算新分割值C′的方法,這樣做是為了維持RRCT隨機分割的特性,與算法1中獲得k值和C值的方法相對應(yīng).
4)算法的第10—17行進行的操作對應(yīng)了情況a)的處理,算法的第18—23行對應(yīng)情況b)的處理.
2.2.3變壓器損耗異常的實時檢測
基于上述異常評分的計算方法,在一個樣本點加入RRCT中,根據(jù)RRCT的結(jié)構(gòu)為該樣本點生成異常評分.考慮為變壓器損耗異常值檢測實際問題,設(shè)定一個異常評分閾值,如果新樣本點對應(yīng)的異常評分超過了這個閾值,則可以立刻反饋異常值檢測結(jié)果.
有關(guān)異常評分閾值的確定,是根據(jù)所有樣本點賦予的異常評分降序排列,取前2%的樣本作為異常樣本點,以確定正常樣本點和異常樣本點的臨界值,并將該臨界值作為異常評分的閾值.
綜合算法1—3,給出基于RRCF算法的變壓器損耗異常值檢測方法的完整描述,具體如下.
該算法的總體流程歸納如下:
1)選取前k個樣本點以初始化RRCT(第1步).
2)從第k+1個樣本點開始,以先入先出隊列的方式替換RRCT中的樣本點,在刪除最舊樣本點的同時計算其異常評分并記錄(第2—5步).
3)以異常評分s降序排列第1到n-k個樣本點(第6步).
4)輸出前2%的樣本點,認(rèn)定這些樣本點為異常樣本點(第7步).
3實驗及結(jié)果分析
3.1測試環(huán)境
實驗環(huán)境:處理器Intel Core i5-8265U 1.6 GHz,內(nèi)存8.00 GB,硬盤1 TB;操作系統(tǒng)Windows 10,Python 3.6和sklearn 1.91.
3.2數(shù)據(jù)集及預(yù)處理
數(shù)據(jù)采用南瑞集團提供的2017-09-01到2020-03-30的變壓器損耗數(shù)據(jù),原始數(shù)據(jù)的字段包括記錄時間time、線損率rate、線損值value、正向有功總電量PAP和反向有功總電量RAP.
預(yù)處理操作包括將字段value缺失的樣本點刪去,標(biāo)準(zhǔn)化time的格式并升序排列;將value和rate取絕對值,對于超出均值正負(fù)3個標(biāo)準(zhǔn)差的樣本,認(rèn)定為無效數(shù)據(jù),將這些樣本點刪去.原始數(shù)據(jù)的樣本個數(shù)為1378,預(yù)處理后樣本個數(shù)為942.
3.3評價指標(biāo)
異常值檢測效果主要通過準(zhǔn)確率(accuracy),精確率(precision),召回率(recall)以及綜合評價指標(biāo)F值(F-measure),這4個指標(biāo)進行評價[21],設(shè)準(zhǔn)確率為A,精確率為P,召回率為R和F值為F,如式(3)—(6)所示.
其中,n,n,n,n分別表示異常點檢測為異常,正常點檢測為正常,正常點檢測為異常,異常點檢測為正常的樣本點個數(shù).
3.4實驗結(jié)果
3.4.1樣本點個數(shù)k與異常評分
對于基于RRCF算法的變壓器損耗異常值檢測算法,初始化樣本點個數(shù)k是一個與檢測結(jié)果密切相關(guān)的參數(shù),因此有必要研究參數(shù)k對異常值檢測效果的影響.
首先研究參數(shù)k在不同取值下,運行算法4得到的異常評分閾值與參數(shù)k之間的關(guān)系.在實驗中,令參數(shù)k的取值范圍為50到200,步長為10,參數(shù)k的取值共16種.考慮到隨機分割森林的特性,每種參數(shù)k的取值,基于變壓器損耗時間序列數(shù)據(jù)進行10次重復(fù)實驗并取得平均值,得到的結(jié)果如圖4所示.
由圖4可知,對于一個確定的時間序列數(shù)據(jù),得到的異常評分閾值有一定上下波動,但初始化樣本點個數(shù)k近似呈現(xiàn)正相關(guān)的關(guān)系.這一點和前文異常評分的定義是一致的,也與RRCF算法隨機分割的性質(zhì)對應(yīng).參數(shù)k決定了RRCT模型的規(guī)模(包含的樣本點個數(shù)),隨著RRCT模型規(guī)模的增大,當(dāng)樣本點加入模型之后導(dǎo)致的平均葉子結(jié)點深度變化也會增大,進而導(dǎo)致異常評分的整體提高.
3.4.2樣本點個數(shù)k與F值
基于隨機分割樹的隨機分割的性質(zhì),又考慮到變壓器損耗數(shù)據(jù)中異常樣本點數(shù)量占總樣本點數(shù)量較小,精確率和召回率對評價針對該數(shù)據(jù)集的異常值檢測比較具有參考價值,因此選取綜合了精確率和召回率的評價指標(biāo)F值作為異常值檢測的評價標(biāo)準(zhǔn).對于每一個參數(shù)k進行10次重復(fù)實驗并計算綜合評價指標(biāo)F的平均值,實驗結(jié)果如圖5所示.
初始化樣本點個數(shù)k與準(zhǔn)確率、精確率召回率評價指標(biāo)關(guān)系的實驗結(jié)果如表1所示.
上述實驗表明,當(dāng)參數(shù)k取值為100時異常值檢測效果最佳.參數(shù)k的取值過小或者過大,都會使得綜合評價指標(biāo)F的值降低,這代表異常值檢測效果降低.原因如下:參數(shù)k的取值不能過小,一方面是因為參數(shù)k實際上決定了RRCT結(jié)構(gòu)的規(guī)模和隨機分割的次數(shù),如果隨機分割次數(shù)不多,對于異常樣本點其產(chǎn)生葉子結(jié)點深度的變化情況則不顯著,進而導(dǎo)致異常評分普遍降低,異常點和正常點的異常評分差異不顯著,進而難以區(qū)分異常樣本點和正常樣本點,從而導(dǎo)致整體召回率下降;另一方面是基于RRCF算法隨機分割的特性,如果RRCT結(jié)構(gòu)規(guī)模過小則對于異常點識別的穩(wěn)定性大幅下降,失去對異常值檢測的參考價值.參數(shù)k的取值同樣不能過大,由于變壓器損耗數(shù)據(jù)實際上是存在一定正常波動的,RRCT結(jié)構(gòu)如果規(guī)模太大則會導(dǎo)致隨機分割過細(xì),進而導(dǎo)致對于異常的靈敏度過高,即使正常的數(shù)據(jù)波動也會導(dǎo)致對應(yīng)樣本點的異常評分升高,將許多正常點認(rèn)定為異常,進而降低整體精確率.綜上所述,通過實驗可以認(rèn)定當(dāng)參數(shù)k取值為100時,異常值檢測效果較為理想.
運行基于RRCF算法的變壓器損耗異常值檢測算法,設(shè)置初始化樣本點個數(shù)k=100,獲得異常評分閾值為18.20,對剩余數(shù)據(jù)計算異常評分并以該閾值作為參照,以篩選異常樣本點,最終在942個樣本中檢測出19個異常樣本點,變壓器損耗數(shù)據(jù)集在某一時間段的異常值檢測結(jié)果如圖6所示.
由圖6可以看出,當(dāng)變壓器損耗發(fā)生異常突變的時候,本文所述方法可以很好地識別這樣異常的變化情況,其檢測結(jié)果與實際異常發(fā)生情況是吻合的,說明本文所述方法對變壓器損耗數(shù)據(jù)的異常值檢測具有可行性.
3.4.3實驗對比
對于初始變壓器損耗數(shù)據(jù)集,分別使用本文所述的方法,孤立森林算法以及基于DBSCAN聚類的異常值檢測算法進行異常值檢測,3種算法的對比檢測結(jié)果如表2所示.
分析結(jié)果顯示,本文方法對于變壓器損耗數(shù)據(jù)的異常值檢測,準(zhǔn)確度較高,相較于孤立森林算法和基于DBSCAN聚類的異常值檢測分別提高1.61%和4.97%.本文所述方法對異常點的識別和覆蓋效果好,召回率可以達到100%,能夠完全檢測到異常樣本點.本文所述方法對于異常樣本的敏感程度適中,精確率相較于孤立森林算法提高顯著,提高了22.26%.綜上所述,本文所述方法相較于孤立森林算法和基于DBSCAN聚類的異常值檢測算法,在變壓器損耗數(shù)據(jù)異常檢測方面具有較好的效果.
4結(jié)論
本文基于RRCF算法,實現(xiàn)了對于變壓器損耗的異常值檢測方法,提出了對于動態(tài)數(shù)據(jù)流的實時變壓器損耗數(shù)據(jù)的檢測模型.基于RRCF算法的變壓器損耗異常值檢測方法具有較好的運行效率,且對大量值動態(tài)數(shù)據(jù)流具有較好的適應(yīng)性.本文將該算法應(yīng)用于處理變壓器損耗數(shù)據(jù)的異常值檢測,實驗表明異常檢測效果好,本文所述的方法具有較好的理論和應(yīng)用價值.
[參考文獻]
[1]王忠杰,文樂,楊新民.大數(shù)據(jù)在智能化電廠中的應(yīng)用研究與展望[J].中國電力,2019,52(3):133-139.
[2]李炳森,胡全貴,陳小峰,等.電網(wǎng)企業(yè)數(shù)據(jù)中臺的研究與設(shè)計[J].電力信息化,2019,17⑺:29-34.
[3]林鴻,方學(xué)民,袁葆,等.電力物聯(lián)網(wǎng)多渠道客戶服務(wù)中臺戰(zhàn)略研究與設(shè)計[J].供用電,2019,36(6):39-45.
[4]SUNDARARAJAN A,HERNANDEZ A S,SARWAT A I. Adapting big data standards,maturity models to smart grid distributedgeneration:Critical review [J]. IET Smart Grid,2020,3(4):508-519.
[5]PASSERINI F,TONELLO A M. Smart grid monitoring using power line modems:Effect of anomalies on signal propagation [J]. IEEE Access,2019(7):27302-27312.
[6]劉樹仁,宋亞奇,朱永利,等.基于Hadoop的智能電網(wǎng)狀態(tài)監(jiān)測數(shù)據(jù)存儲研究[J].計算機科學(xué),2013,40(1):81-84.
[7]HUO Y,PRASAD G,ATANACKOVIC L,et al. Cable diagnostics with power line modems for smart grid monitoring [J]. IEEE Access,2019(7):60206-60220.
[8]WITTEN I H,F(xiàn)RANK E,HALL M A,et al. Data Mining:Practical Machine Learning Tools and Techniques [M]. 4th ed. San Francisco:Morgan Kaufmann,2016.
[9]COSTA D,PORTELA F,SANTOS M F. An overview of data mining representation techniques [C]// Proceedings of the 2019 7th International Conference on Future Internet of Things and Cloud Workshops. IEEE,2019:90-95.
[10]AKOGLU L,TONG H,KOUTRA D. Graph based anomaly detection and description:A survey [J]. Data Mining & Knowledge Discovery,2015,29(3):626-688.
[11]CHANDOLA V,BANERJEE A,KUMAR V. Anomaly detection for discrete sequences:A survey [J]. IEEE Transactions on Knowledge & Data Engineering,2012,24(5):823-839.
[12]TRAN T N,DRAB K,DASZYKOWSKI M. Revised DBSCAN algorithm to cluster data with dense adjacent clusters [J]. Chemometrics &Intelligent Laboratory Systems,2013,120:92-96.
[13]王文紅,李驚濤,陳俊彥,等.基于聚類算法對異常事件分析評價電能表整體狀態(tài)的方法:CN201310624924.4 [P]. 2014-03-12.
[14]LIU F T,TING K M,ZHOU Z. Isolation forest [C]// 2008 Eighth IEEE International Conference on Data Mining. IEEE,2008:413- 422.
[15]余翔,陳國洪,李霆,等.基于孤立森林算法的用電數(shù)據(jù)異常檢測研究[J].信息技術(shù),2018,42(12):88-92.
[16]GUHA S,MISHRA N,ROY G,et al. Robust random cut forest based anomaly detection on streams [C]// International Conference on Machine Learning. PMLR,2016:2712-2721.
[17]INOUE J,YAMAGATA Y,CHEN Y,et al. Anomaly detection for a water treatment system using unsupervised machine learning [C]// Proceedings of the 2017 IEEE International Conference on Data Mining Workshops. IEEE,2017:1058-1065.
[18]BARTOS M,MULLAPUDI A,TROUTMAN S. RRCF:Implementation of the robust random cut forest algorithm for anomaly detection on streams [J]. Journal of Open Source Software,2019,4(35):1336.
[19]WANG Y,WANG Z,XIE Z,et al. Practical and white-box anomaly detection through unsupervised and active learning [C]// 2020 29th International Conference on Computer Communications and Networks. IEEE,2020. DOI:10.1109/ICCCN49398.2020. 9209704.
[20]BOX G E P,JENKINS G M,REINSEL G C,et al. Time series analysis:Forecasting and control [J]. Journal of the Operational Research Society,2015,22(2):199-201.
[21]HABEEB R A A,NASARUDDIN F,GANI A,et al. Real-time big data processing for anomaly detection:A survey [J]. International Journal of Information Management,2019,45:289-307.
(責(zé)任編輯:陳麗貞)