王燕晉,易忠林,鄭思達(dá),劉巖,孫海濤
(國(guó)網(wǎng)冀北電力有限公司營(yíng)銷(xiāo)服務(wù)中心(計(jì)量中心),北京 100032)
隨著我國(guó)信息技術(shù)水平的不斷提升,電力系統(tǒng)建設(shè)逐漸朝著信息化方向發(fā)展,由于電力用戶(hù)數(shù)量龐大,所需采集和處理的信息量巨大,容易導(dǎo)致電力系統(tǒng)通信或電力設(shè)備出現(xiàn)異常狀況,使得信息數(shù)據(jù)異常,為電力系統(tǒng)的數(shù)據(jù)采集和處理帶來(lái)了諸多不便[1-2]。因此,對(duì)電力系統(tǒng)用戶(hù)數(shù)據(jù)異常狀況進(jìn)行識(shí)別與檢測(cè)就變得十分重要[3]。
該文針對(duì)這一問(wèn)題,采用了孤立森林算法的相關(guān)知識(shí),設(shè)計(jì)了一種新的電力用戶(hù)數(shù)據(jù)異??焖僮R(shí)別方法,并通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法的有效性。
對(duì)電力用戶(hù)數(shù)據(jù)異常信息的挖掘主要包括數(shù)據(jù)檢測(cè)、數(shù)據(jù)理解、數(shù)據(jù)評(píng)估等步驟。電力用戶(hù)數(shù)據(jù)異常信息挖掘流程如圖1 所示。
圖1 電力用戶(hù)數(shù)據(jù)異常信息挖掘流程
根據(jù)圖1 可知,數(shù)據(jù)處理服務(wù)器需要在海量的電力系統(tǒng)網(wǎng)絡(luò)數(shù)據(jù)中進(jìn)行識(shí)別檢測(cè)的首要任務(wù)是數(shù)據(jù)檢測(cè),根據(jù)數(shù)據(jù)特征利用序列數(shù)據(jù)檢測(cè)法將采集到的電力用戶(hù)信息數(shù)據(jù)進(jìn)行分類(lèi),然后根據(jù)該類(lèi)別的相關(guān)規(guī)則對(duì)數(shù)據(jù)進(jìn)行基本的檢測(cè)識(shí)別[4-5]。數(shù)據(jù)挖掘示意圖如圖2 所示。
圖2 數(shù)據(jù)挖掘示意圖
觀察圖2 可知,由于部分?jǐn)?shù)據(jù)可能會(huì)受到噪聲等因素干擾,需要對(duì)其進(jìn)行降噪處理,以保持?jǐn)?shù)據(jù)源的真實(shí)性、完整性,然后需要對(duì)數(shù)據(jù)異常問(wèn)題進(jìn)行初步檢測(cè),排除正常數(shù)據(jù),對(duì)可能存在異常的數(shù)據(jù)進(jìn)行數(shù)據(jù)理解。數(shù)據(jù)理解就是對(duì)有待處理的問(wèn)題數(shù)據(jù)進(jìn)行更深層次的分析,在計(jì)算機(jī)能力范圍內(nèi)最大程度挖掘出該數(shù)據(jù)的所有相關(guān)信息,并對(duì)該數(shù)據(jù)可能存在問(wèn)題的方面進(jìn)行理解,同時(shí)搜尋關(guān)于該問(wèn)題的相關(guān)解決方案和信息[6]。在此之后需要進(jìn)行數(shù)據(jù)評(píng)估,根據(jù)相應(yīng)的問(wèn)題等級(jí)劃分規(guī)則并根據(jù)該問(wèn)題的風(fēng)險(xiǎn)程度對(duì)異常問(wèn)題進(jìn)行風(fēng)險(xiǎn)評(píng)估,電力信息系統(tǒng)根據(jù)異常狀況的評(píng)估結(jié)果采取相應(yīng)的處理方案,以對(duì)數(shù)據(jù)異常情況進(jìn)行及時(shí)處理。
基于孤立森林算法的電力用戶(hù)數(shù)據(jù)異常檢測(cè)示意圖如圖3 所示。
圖3 基于孤立森林算法的電力用戶(hù)數(shù)據(jù)異常檢測(cè)示意圖
由于不同電力系統(tǒng)具有不同的特征,因此需要有針對(duì)性地構(gòu)建孤立森林算法模型。首先,根據(jù)電力系統(tǒng)用戶(hù)信息數(shù)據(jù)的規(guī)模設(shè)定孤立森林模型的數(shù)據(jù)集,隨機(jī)選取部分具有一定差異性的系統(tǒng)用戶(hù)數(shù)據(jù)作為孤立森林構(gòu)造樹(shù)iTree的數(shù)據(jù)樣本,并導(dǎo)入相關(guān)的電力用戶(hù)信息數(shù)據(jù)集;然后對(duì)電力用戶(hù)數(shù)據(jù)集進(jìn)行預(yù)處理,將數(shù)據(jù)按照一定規(guī)則進(jìn)行排列,選取適當(dāng)數(shù)量的數(shù)據(jù)樣本作為二叉樹(shù)的根數(shù)據(jù);在此基礎(chǔ)上將其他訓(xùn)練數(shù)據(jù)進(jìn)行分離,根據(jù)一定的特殊性和差異性將數(shù)據(jù)集分離成多個(gè)子數(shù)據(jù)集,一直分離到子數(shù)據(jù)集中只有一個(gè)數(shù)據(jù)點(diǎn)為止;然后隨機(jī)選取一個(gè)數(shù)值范圍作為數(shù)據(jù)抽取閾值,根據(jù)這一數(shù)值范圍對(duì)數(shù)據(jù)森林進(jìn)行切割,根據(jù)相應(yīng)的判別標(biāo)準(zhǔn)對(duì)劃分結(jié)果進(jìn)行判別[7-8]。
觀察圖4 可知,正常數(shù)據(jù)應(yīng)該被劃分在高密度區(qū),否則就會(huì)被劃分在低密度區(qū)域,此時(shí)則表示該數(shù)據(jù)存在異常;如果檢測(cè)結(jié)果不確定,那么需要重復(fù)該環(huán)節(jié),循環(huán)進(jìn)行數(shù)據(jù)訓(xùn)練集的分離與切割,直到所有數(shù)據(jù)異常情況檢測(cè)完畢[9]。
圖4 異常檢測(cè)
基于以上構(gòu)建的孤立森林模型,結(jié)合電力系統(tǒng)的實(shí)際數(shù)據(jù)情況進(jìn)行電力用戶(hù)異常數(shù)據(jù)識(shí)別檢測(cè)。在對(duì)電力系統(tǒng)中的電力用戶(hù)數(shù)據(jù)進(jìn)行異常檢測(cè)時(shí),首先要對(duì)數(shù)據(jù)源進(jìn)行清理,減少或排除噪聲數(shù)據(jù)及其他干擾因素對(duì)原始數(shù)據(jù)造成的影響,并對(duì)數(shù)據(jù)進(jìn)行初步降重檢測(cè),刪除重復(fù)或相似度過(guò)高的冗雜數(shù)據(jù),保證孤立森林算法的原始數(shù)據(jù)真實(shí)、完整并且具有差異性[10-11]。
基于孤立森林的異常數(shù)據(jù)識(shí)別流程如圖5 所示,主要有以下幾個(gè)操作步驟:
圖5 基于孤立森林的異常數(shù)據(jù)識(shí)別流程
1)將原始數(shù)據(jù)集D導(dǎo)入到孤立森林模型中,根據(jù)二叉樹(shù)模型中的根數(shù)據(jù)集設(shè)定情況,將電力用戶(hù)數(shù)據(jù)對(duì)應(yīng)放置在二叉樹(shù)根數(shù)據(jù)節(jié)點(diǎn)中。
2)采用孤立森林算法進(jìn)行隨機(jī)的數(shù)據(jù)分離,使數(shù)據(jù)落在相應(yīng)的二叉樹(shù)葉子節(jié)點(diǎn)上。
3)根據(jù)用戶(hù)信息數(shù)據(jù)的特殊性和差異性不斷進(jìn)行數(shù)據(jù)分離,直到子數(shù)據(jù)集只含有一個(gè)數(shù)據(jù)為止。
4)由于異常數(shù)據(jù)S往往比較稀少,與其他數(shù)據(jù)關(guān)聯(lián)性較小,因此容易較早地被分離出來(lái),而且能夠比較容易地被識(shí)別出來(lái)。
5)計(jì)算異常數(shù)據(jù)S所在的葉子節(jié)點(diǎn)數(shù)據(jù)與根節(jié)點(diǎn)的距離和層級(jí)關(guān)系,如式(1)所示。
6)通過(guò)歸一化公式計(jì)算所有二叉樹(shù)的平均高度,估計(jì)異常數(shù)據(jù)S的異常指數(shù),如式(2)所示,以進(jìn)一步提高異常數(shù)據(jù)識(shí)別的準(zhǔn)確性。
上述公式中,C(n)表示異常數(shù)據(jù)S(x,n)到根節(jié)點(diǎn)的距離,n表示異常數(shù)據(jù)在其所在的數(shù)據(jù)集D中的異常指數(shù),H表示該運(yùn)算過(guò)程中所有二叉樹(shù)的平均高度,ξ是計(jì)算二叉樹(shù)平均高度需要用到的歐拉指數(shù)[12-13]。
檢測(cè)過(guò)程如圖6 所示。
圖6 檢測(cè)過(guò)程
通過(guò)以上運(yùn)算步驟能夠較為精準(zhǔn)地識(shí)別異常數(shù)據(jù)的位置和相關(guān)信息,并且利用歸一化公式對(duì)異常數(shù)據(jù)進(jìn)行了更精準(zhǔn)的計(jì)算檢測(cè),所得結(jié)果越趨近于1,表示該數(shù)據(jù)是異常數(shù)據(jù)的可能性就越大;反之,計(jì)算結(jié)果越接近于0,那么該數(shù)據(jù)是異常數(shù)據(jù)的可能性就越小[14-16]。
為了驗(yàn)證文中基于孤立森林算法的電力用戶(hù)數(shù)據(jù)異??焖僮R(shí)別方法在實(shí)際應(yīng)用中是否具有良好的使用效果,通過(guò)設(shè)計(jì)實(shí)驗(yàn)來(lái)對(duì)其進(jìn)行性能檢驗(yàn),并選用了傳統(tǒng)的基于K-means 算法的電力用戶(hù)數(shù)據(jù)異常識(shí)別方法和基于LOF 算法的電力用戶(hù)異常數(shù)據(jù)識(shí)別方法同時(shí)進(jìn)行對(duì)比實(shí)驗(yàn)。
實(shí)驗(yàn)的基礎(chǔ)設(shè)備是具備Windows10 運(yùn)行系統(tǒng)和電力系統(tǒng)標(biāo)配內(nèi)存的計(jì)算機(jī)服務(wù)器,在該計(jì)算機(jī)設(shè)備上,構(gòu)建二叉樹(shù)棵數(shù)為100、樣本數(shù)據(jù)量為128 GB、異常數(shù)值比例設(shè)定為0.05的孤立森林iTree 模型。將原始數(shù)據(jù)導(dǎo)入到孤立森林模型中,通過(guò)字段檢測(cè)程序?qū)?shù)據(jù)集進(jìn)行初步識(shí)別,然后根據(jù)二叉樹(shù)模型進(jìn)行數(shù)據(jù)分離和異常檢驗(yàn),并進(jìn)行異常數(shù)據(jù)評(píng)估。3 種算法的誤差數(shù)據(jù)檢測(cè)精準(zhǔn)度如表1 所示。
表1 3種算法的誤差數(shù)據(jù)檢測(cè)精準(zhǔn)度
總結(jié)表1,得到檢測(cè)精準(zhǔn)度實(shí)驗(yàn)結(jié)果如圖7所示。
圖7 檢測(cè)精準(zhǔn)度實(shí)驗(yàn)結(jié)果
上述實(shí)驗(yàn)結(jié)果表明,基于孤立森林算法的電力用戶(hù)數(shù)據(jù)異??焖僮R(shí)別方法在數(shù)據(jù)異常識(shí)別中具有更好的應(yīng)用效果。根據(jù)表1 數(shù)據(jù)所示,該文采用的孤立森林算法在同一檢測(cè)數(shù)據(jù)集的情況下,檢測(cè)結(jié)果精準(zhǔn)度更高,最接近于1;而另外兩種算法的識(shí)別檢測(cè)精準(zhǔn)度都在0.89 左右,相比于iForest 算法的精準(zhǔn)度,傳統(tǒng)算法的精準(zhǔn)度水平并不是很理想。
3 種算法的識(shí)別耗時(shí)如表2 所示。
表2 3種算法的識(shí)別耗時(shí)
由表2 數(shù)據(jù)可知,iForest 算法對(duì)數(shù)據(jù)集進(jìn)行異常數(shù)據(jù)識(shí)別所用時(shí)間為1.012 s,而K-means 算法用時(shí)達(dá)到了9.876 s,LOF 算法更是用了18.678 s,三者之間的識(shí)別消耗時(shí)間差距十分明顯。對(duì)于目前的電力系統(tǒng)用戶(hù)異常數(shù)據(jù)識(shí)別來(lái)說(shuō),檢測(cè)速度越快越有利于保證電力系統(tǒng)整體安全。
綜上所述,相比于傳統(tǒng)的電力用戶(hù)數(shù)據(jù)異常識(shí)別方法,基于孤立森林算法的電力用戶(hù)數(shù)據(jù)異??焖僮R(shí)別方法在異常識(shí)別時(shí)間上具有很大優(yōu)勢(shì),而且具有較高的精準(zhǔn)度,進(jìn)而有利于提高電力系統(tǒng)用戶(hù)數(shù)據(jù)異常檢測(cè)的整體效率。
該文針對(duì)傳統(tǒng)的電力用戶(hù)數(shù)據(jù)異常識(shí)別方法存在的不足進(jìn)行了分析,并研究了基于孤立森林算法的電力用戶(hù)數(shù)據(jù)異常快速識(shí)別方法。通過(guò)構(gòu)建孤立森林算法和二叉樹(shù)模型,加強(qiáng)了信息數(shù)據(jù)挖掘、檢測(cè)、識(shí)別過(guò)程的運(yùn)算精準(zhǔn)度,完善了電力用戶(hù)數(shù)據(jù)異常識(shí)別方法。然后將該文研究方法與傳統(tǒng)的數(shù)據(jù)異常識(shí)別方法進(jìn)行了對(duì)比實(shí)驗(yàn),通過(guò)實(shí)驗(yàn)結(jié)果證明了該文研究方法在數(shù)據(jù)異常信息識(shí)別方面具有較高的精準(zhǔn)度,而且識(shí)別速度明顯比傳統(tǒng)方法快,驗(yàn)證了基于孤立森林算法的電力用戶(hù)數(shù)據(jù)異??焖僮R(shí)別方法的精準(zhǔn)性和高效性。