孟宋萍,彭 偉,田晨璐
(山東建筑大學(xué) 信息與電氣工程學(xué)院,濟(jì)南 250101)
隨著人們生產(chǎn)、生活對(duì)電能的依賴(lài)性增強(qiáng),對(duì)于其質(zhì)量與可靠性的需求也在增長(zhǎng)。而國(guó)內(nèi)的能源結(jié)構(gòu)及分布制約了我國(guó)相關(guān)行業(yè)的發(fā)展[1]。為了應(yīng)對(duì)發(fā)展中面臨的問(wèn)題,大力發(fā)展智能電網(wǎng)成為了其中的解決方案之一。
智能電網(wǎng)的發(fā)展,使得用電過(guò)程中的問(wèn)題尤其是異常用電問(wèn)題暴露出來(lái)。異常用電作為一種非法行為,一直受到相關(guān)部門(mén)的控制。但是隨著智能電網(wǎng)的發(fā)展,異常用電的技術(shù)手段越來(lái)越多,越來(lái)越不易被發(fā)現(xiàn),異常用電的檢測(cè)問(wèn)題日益嚴(yán)重。
在美國(guó),每年因異常用電損失60億美元[2],而我國(guó)每年損失大概200億元[3]。異常用電行為在帶來(lái)?yè)p失的同時(shí)也給電網(wǎng)的安全、穩(wěn)定的運(yùn)行帶來(lái)了一定難度[4]。智能電表的普及,一方面阻止了某些異常用電行為的發(fā)生[5],另一方面提供了大量的用電數(shù)據(jù)用于分析檢測(cè),一定程度上降低了異常用電造成的損失。但是目前異常用電所造成的能源浪費(fèi)在經(jīng)濟(jì)損失上仍占很大的比例,對(duì)于異常用電的檢測(cè)方法也存在一定的提升空間。
隨著智能電表的普及,大量的用電數(shù)據(jù)為數(shù)據(jù)驅(qū)動(dòng)的異常用電檢測(cè)方法提供了數(shù)據(jù)支持。數(shù)據(jù)驅(qū)動(dòng)的異常用電檢測(cè)方法主要可以分為基于聚類(lèi)、基于回歸以及基于分類(lèi)的三類(lèi)。其中,回歸和分類(lèi)屬于有監(jiān)督學(xué)習(xí)方法,聚類(lèi)屬于無(wú)監(jiān)督學(xué)習(xí)方法。
基于聚類(lèi)的異常用電檢測(cè)方法是將相似的用電數(shù)據(jù)通過(guò)特定算法劃分成一個(gè)類(lèi)別。文獻(xiàn)[6]通過(guò)最優(yōu)路徑森林聚類(lèi)方法實(shí)現(xiàn)對(duì)異常用電的檢測(cè),并且與k-均值聚類(lèi)和高斯混合模型等聚類(lèi)方法進(jìn)行了對(duì)比,驗(yàn)證了該方法的優(yōu)越性。文獻(xiàn)[7]采用了模糊C-均值聚類(lèi)來(lái)檢測(cè)用戶(hù)中的異常用電行為,并且可以根據(jù)模糊程度來(lái)判斷其異常的程度?;诰垲?lèi)的異常用電檢測(cè)方法好處是不需要帶標(biāo)簽的數(shù)據(jù)即可實(shí)現(xiàn)異常用電檢測(cè)。但是,其缺點(diǎn)是聚類(lèi)方法對(duì)參數(shù)的依賴(lài)性較高,參數(shù)選取通常比較困難。
基于回歸的異常用電檢測(cè)方法是根據(jù)歷史用電數(shù)據(jù)以及各類(lèi)用電影響因素對(duì)未來(lái)用電量進(jìn)行預(yù)測(cè),再根據(jù)預(yù)測(cè)量與實(shí)際用電量對(duì)比來(lái)確定是否存在異常用電行為。文獻(xiàn)[8]使用了差分整合移動(dòng)平均自回歸模型和神經(jīng)網(wǎng)絡(luò)對(duì)天然氣的用量進(jìn)行了預(yù)測(cè)并且判斷是否存在異常。文獻(xiàn)[9]中的作者采用基于線性回歸的方法來(lái)確定單個(gè)房屋的異常,并從房屋數(shù)據(jù)中清除此類(lèi)異常,從而提供能源消耗模式的精確評(píng)估。但是,在實(shí)際生活中,用戶(hù)的用電量與各種因素相關(guān)比如溫度,天氣狀況等,并且隨機(jī)性較強(qiáng),因此很難依靠基于回歸的方法實(shí)現(xiàn)較高精度的檢測(cè)。
基于分類(lèi)的異常用電檢測(cè)方法可以將其分為機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法。經(jīng)典的機(jī)器學(xué)習(xí)方法在異常用電檢測(cè)中發(fā)揮了重要作用。文獻(xiàn)[10-11]中,作者提出了基于K-近鄰(KNN,K-nearest neighbor)的算法來(lái)檢測(cè)異常用電。文獻(xiàn)[12-13]中,作者使用支持向量機(jī)來(lái)診斷由竊電而導(dǎo)致的異常。文獻(xiàn)[14]中,作者改進(jìn)了決策樹(shù)模型,利用異常類(lèi)和正常類(lèi)的密度來(lái)檢測(cè)消費(fèi)數(shù)據(jù)中的異常。集成方法也為異常用電檢測(cè)貢獻(xiàn)了力量。文獻(xiàn)[15]中,作者提出了梯度樹(shù)增強(qiáng)(GBT,gradient boosting tree)方法來(lái)檢測(cè)異常用電行為。文獻(xiàn)[16]中,作者提出了以隨機(jī)森林作為分類(lèi)器的模型來(lái)檢測(cè)異常用電。
隨著深度學(xué)習(xí)進(jìn)入大眾的視野,基于深度學(xué)習(xí)的方法也被成功應(yīng)用于異常用電檢測(cè)中。在文獻(xiàn)[17]中,作者設(shè)計(jì)了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的異常檢測(cè)系統(tǒng),該系統(tǒng)可以從數(shù)據(jù)中去除季節(jié)性因素,從而能更好地捕捉數(shù)據(jù)的真實(shí)分布。文獻(xiàn)[18]中,作者使用循環(huán)神經(jīng)網(wǎng)絡(luò)和K-均值的混合模型識(shí)別異常消費(fèi)。文獻(xiàn)[19-20]中,作者提出了基于自動(dòng)編碼器和長(zhǎng)短期記憶網(wǎng)絡(luò)的方法識(shí)別用電數(shù)據(jù)中的異常。文獻(xiàn)[21]中,作者提出了變分循環(huán)自編碼器來(lái)檢測(cè)異常。文獻(xiàn)[22]中,作者將隨機(jī)森林與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合來(lái)檢測(cè)竊電行為。而在文獻(xiàn)[23-24]中,作者提出了基于卷積神經(jīng)網(wǎng)絡(luò)的模型,并且將用電數(shù)據(jù)轉(zhuǎn)成二維數(shù)據(jù)來(lái)學(xué)習(xí)數(shù)據(jù)特征。
盡管異常用電檢測(cè)已經(jīng)取得了很多成果,但是仍然存在著很多問(wèn)題。其中最重要的問(wèn)題就是用電數(shù)據(jù)存在嚴(yán)重的非均衡性。因?yàn)橛秒姅?shù)據(jù)涉及到用戶(hù)的隱私,所以用戶(hù)一般不會(huì)公開(kāi)其用電數(shù)據(jù)。即便公開(kāi),可以得到的也是正常的用電數(shù)據(jù),異常數(shù)據(jù)幾乎沒(méi)有。如果數(shù)據(jù)集中正常數(shù)據(jù)的數(shù)量遠(yuǎn)遠(yuǎn)大于異常數(shù)據(jù)數(shù)量,那么在訓(xùn)練檢測(cè)模型時(shí),模型更傾向于學(xué)習(xí)正常數(shù)據(jù),不能學(xué)到異常數(shù)據(jù)的數(shù)據(jù)特征,導(dǎo)致檢測(cè)效果較差。
合成少數(shù)類(lèi)過(guò)采樣技術(shù)的廣泛應(yīng)用為解決該問(wèn)題提供了思路。合成少數(shù)類(lèi)過(guò)采樣技術(shù)通過(guò)線性插值合成新樣本,實(shí)現(xiàn)少數(shù)類(lèi)樣本和多數(shù)類(lèi)樣本數(shù)量的均衡。文獻(xiàn)[25]中,作者使用合成少數(shù)類(lèi)過(guò)采樣技術(shù)生成巖石可灌漿性分類(lèi)數(shù)據(jù)。文獻(xiàn)[26]中,作者使用合成少數(shù)類(lèi)過(guò)采樣技術(shù)擴(kuò)充冷水機(jī)組故障數(shù)據(jù)。因此,在本文,可以借助上述思想,使用邊界合成少數(shù)類(lèi)過(guò)采樣技術(shù)(BSMOTE,borderline synthetic minority oversampling technique)對(duì)異常數(shù)據(jù)進(jìn)行擴(kuò)充,得到數(shù)據(jù)平衡的數(shù)據(jù)集,然后再用于異常用電的檢測(cè)中。
另外,由于用電數(shù)據(jù)是典型的時(shí)間序列數(shù)據(jù),因此如何選擇分類(lèi)器也是一個(gè)重要問(wèn)題。門(mén)控循環(huán)單元(GRU,gated recurrent units)是循環(huán)神經(jīng)網(wǎng)絡(luò)的變體,通過(guò)其內(nèi)部的門(mén)結(jié)構(gòu)可以實(shí)現(xiàn)對(duì)時(shí)間序列數(shù)據(jù)長(zhǎng)期特性的記憶,并且可以緩解梯度消失的問(wèn)題。文獻(xiàn)[27]中,作者使用門(mén)控循環(huán)單元解決時(shí)間序列中長(zhǎng)時(shí)間依賴(lài)問(wèn)題用于手勢(shì)識(shí)別。在文獻(xiàn)[28]中,作者使用門(mén)控循環(huán)單元用于語(yǔ)音識(shí)別。受上述工作的啟發(fā),在本文,使用GRU作為用電數(shù)據(jù)的分類(lèi)器,實(shí)現(xiàn)對(duì)異常用電的檢測(cè)。
為了解決上述非均衡數(shù)據(jù)以及時(shí)間序列特性問(wèn)題,提出了基于門(mén)控循環(huán)單元和邊界合成少數(shù)類(lèi)過(guò)采樣技術(shù)的異常用電檢測(cè)方法 (GRU-BSMOTE),本文的貢獻(xiàn)及創(chuàng)新點(diǎn)如下。
1)使用BSOMTE解決數(shù)據(jù)非均衡問(wèn)題。使用BSMOTE對(duì)實(shí)現(xiàn)對(duì)少數(shù)類(lèi)異常數(shù)據(jù)的有效擴(kuò)充,使其數(shù)量與正常數(shù)據(jù)保持一致。該過(guò)程能夠有效緩解因異常數(shù)據(jù)不足導(dǎo)致的模型訓(xùn)練不佳的問(wèn)題。
2)為了更好地捕獲用電數(shù)據(jù)的時(shí)間序列特征,使用GRU對(duì)用電數(shù)據(jù)進(jìn)行分類(lèi)。GRU能夠有效學(xué)習(xí)數(shù)據(jù)的時(shí)間特征,在減少訓(xùn)練時(shí)間的情況下解決長(zhǎng)時(shí)間依賴(lài)和梯度消失的問(wèn)題。
3)為了驗(yàn)證該方法的有效性,基于非均衡數(shù)據(jù)集做了詳細(xì)的對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該方法能夠?qū)崿F(xiàn)在不同擴(kuò)充比例情況下對(duì)數(shù)據(jù)的有效擴(kuò)充,并且能以更高的準(zhǔn)確率實(shí)現(xiàn)對(duì)異常用電的檢測(cè)。
在實(shí)際應(yīng)用中,常見(jiàn)的數(shù)據(jù)非均衡問(wèn)題的解決方法有3種,分別是數(shù)據(jù)過(guò)采樣、欠采樣和模型算法的改進(jìn)。欠采樣是指少數(shù)類(lèi)樣本數(shù)量不影響模型訓(xùn)練的情況下,對(duì)多數(shù)樣本欠采樣,實(shí)現(xiàn)樣本數(shù)據(jù)的均衡。過(guò)采樣是指少數(shù)類(lèi)樣本數(shù)量不足以支持模型的訓(xùn)練時(shí),對(duì)少數(shù)類(lèi)樣本過(guò)采樣,使其與多數(shù)類(lèi)樣本數(shù)量保持一致。模型算法的改進(jìn)主要是提升模型對(duì)于少數(shù)類(lèi)樣本的學(xué)習(xí)能力?;谏鲜龇椒ňC合考慮后,在本文使用過(guò)采樣技術(shù)對(duì)異常用電數(shù)據(jù)進(jìn)行擴(kuò)充。
在各種過(guò)采樣方法中,合成少數(shù)類(lèi)過(guò)采樣技術(shù)(SMOTE,synthetic minority oversampling technique)是一種常用的方法,通過(guò)合成少數(shù)類(lèi)樣本來(lái)均衡數(shù)據(jù)集中各類(lèi)樣本的分布,提高非均衡數(shù)據(jù)集的分類(lèi)精度。合成少數(shù)類(lèi)過(guò)采樣技術(shù)的原理是在相距較近的少數(shù)類(lèi)樣本之間生成新樣本,沒(méi)有充分考慮近鄰樣本的分布特點(diǎn),存在一定的盲目性,非常容易造成數(shù)據(jù)類(lèi)別之間的重復(fù)。而位于邊界中的樣本又對(duì)于模型進(jìn)行分類(lèi)決策有著重要作用。因此,本文使用邊界合成少數(shù)類(lèi)過(guò)采樣技術(shù)對(duì)數(shù)據(jù)進(jìn)行處理,實(shí)現(xiàn)對(duì)于非均衡數(shù)據(jù)集分類(lèi)精度的提升。邊界合成少數(shù)類(lèi)過(guò)采樣技術(shù)是在少數(shù)類(lèi)樣本的邊界樣本中合成新樣本,可以有效避免上述問(wèn)題的發(fā)生,提高生成新樣本的質(zhì)量,提高模型學(xué)習(xí)各類(lèi)樣本特征的能力,其原理如圖1所示,并且詳細(xì)介紹了其步驟。
圖1 邊界合成少數(shù)類(lèi)過(guò)采樣技術(shù)原理圖
步驟1:計(jì)算少數(shù)類(lèi)樣本的每個(gè)樣本點(diǎn)pi與所有樣本的歐式距離,得到該樣本的m近鄰。
由于數(shù)據(jù)各個(gè)類(lèi)別的邊界數(shù)據(jù)對(duì)于模型的訓(xùn)練分類(lèi)效果有著重要的作用,因此,邊界合成少數(shù)類(lèi)過(guò)采樣技術(shù)在邊界樣本中合成新樣本,合成的少數(shù)類(lèi)新樣本的分布更加合理,更加有利于模型區(qū)分各類(lèi)數(shù)據(jù),實(shí)現(xiàn)分類(lèi)準(zhǔn)確率及精度的提高。
長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM,long short-term memory)作為特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),主要是為了解決長(zhǎng)時(shí)間依賴(lài)以及梯度消失等問(wèn)題。長(zhǎng)短期記憶網(wǎng)絡(luò)擁有3個(gè)由Sigmoid和點(diǎn)積操作構(gòu)成的門(mén)結(jié)構(gòu),通過(guò)3個(gè)門(mén)結(jié)構(gòu)的配合實(shí)現(xiàn)對(duì)時(shí)間序列中信息的丟棄和保留。雖然長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)于長(zhǎng)期記憶問(wèn)題非常有效,但是因?yàn)槠湟肓撕芏鄡?nèi)容,導(dǎo)致其參數(shù)變多,使得訓(xùn)練過(guò)程難度加大。
門(mén)控循環(huán)單元是將長(zhǎng)短期記憶網(wǎng)絡(luò)簡(jiǎn)化改進(jìn)后的處理時(shí)間序列數(shù)據(jù)的模型。門(mén)控循環(huán)單元同樣能解決長(zhǎng)時(shí)間依賴(lài)以及梯度消失的問(wèn)題,并且與長(zhǎng)短期記憶網(wǎng)絡(luò)不同的是,門(mén)控循環(huán)單元只有兩個(gè)門(mén)結(jié)構(gòu),在輸出時(shí)也取消了二階非線性函數(shù)。在保證學(xué)習(xí)效果的基礎(chǔ)上,門(mén)控循環(huán)單元可以有效減少訓(xùn)練時(shí)間。在本文,使用門(mén)控循環(huán)單元作為分類(lèi)器實(shí)現(xiàn)對(duì)用電數(shù)據(jù)的分類(lèi)。門(mén)控循環(huán)單元的原理如圖2所示,并且詳細(xì)介紹了其原理。
圖2 門(mén)控循環(huán)單元原理圖
如圖2所示,門(mén)控循環(huán)單元中的門(mén)結(jié)構(gòu)都是由點(diǎn)積操作和Sigmoid構(gòu)成,通過(guò)二者的配合可以實(shí)現(xiàn)對(duì)信息的丟棄和保留。門(mén)控循環(huán)單元的兩個(gè)門(mén)結(jié)構(gòu)分別是重置門(mén)和更新門(mén)。
首先,重置門(mén)rt可以表示為:
rt=Sigmoid(xtWxr+ht-1Whr+br)
(1)
其中:xt是輸入,ht-1是上一節(jié)點(diǎn)的隱藏狀態(tài),Wxr和Whr是權(quán)重矩陣,br是偏置。Sigmoid的取值是0~1,因此可以充當(dāng)門(mén)控信號(hào),決定丟棄多少信息保留多少信息。
然后,更新門(mén)zt可以寫(xiě)做:
zt=Sigmoid(xtWxz+ht-1Whz+bz)
(2)
(3)
其中:ht-1包含了過(guò)去的信息,rt是重置門(mén),⊙是按元素相乘。tanh激活函數(shù)可以將數(shù)據(jù)縮放到-1~1的范圍內(nèi)。
最后,最終的隱藏狀態(tài)ht可以表示為:
(4)
其中:zt的取值是0~1,當(dāng)zt趨于1時(shí),表示長(zhǎng)期依賴(lài)一直存在。當(dāng)zt趨于0時(shí),表示忘記隱藏信息中的不重要信息。門(mén)控循環(huán)單元的關(guān)鍵在于使用了同一個(gè)門(mén)控zt即可實(shí)現(xiàn)對(duì)信息的遺忘和選擇記憶。
總之,門(mén)控循環(huán)單元中的重置門(mén)決定了如何將當(dāng)前輸入信息與前面的記憶信息結(jié)合,更新門(mén)決定了前面的記憶有多少保存到當(dāng)前時(shí)間。通過(guò)上述操作,可以解決對(duì)時(shí)間序列數(shù)據(jù)長(zhǎng)期依賴(lài)問(wèn)題,并且可以緩解梯度消失。
異常用電檢測(cè)中的數(shù)據(jù)非均衡問(wèn)題是指數(shù)據(jù)集中異常用電數(shù)據(jù)數(shù)量遠(yuǎn)遠(yuǎn)小于正常數(shù)據(jù)。在模型訓(xùn)練時(shí),很難根據(jù)少量的異常數(shù)據(jù)學(xué)習(xí)到其特征,也就是說(shuō)模型很難對(duì)異常數(shù)據(jù)進(jìn)行檢測(cè)識(shí)別,導(dǎo)致異常用電檢測(cè)的效率低。
智能電表收集到的用戶(hù)用電數(shù)據(jù)是典型的時(shí)間序列數(shù)據(jù),選擇怎樣的模型對(duì)其進(jìn)行分類(lèi)尤為重要。循環(huán)神經(jīng)網(wǎng)絡(luò)是常用于時(shí)間序列數(shù)據(jù)分類(lèi)或者預(yù)測(cè)問(wèn)題的模型。雖然循環(huán)神經(jīng)網(wǎng)絡(luò)處理時(shí)序數(shù)據(jù)具有一定優(yōu)勢(shì),但是它卻無(wú)法解決時(shí)間序列中長(zhǎng)時(shí)間依賴(lài)關(guān)系的問(wèn)題,并且存在嚴(yán)重的梯度消失問(wèn)題。
在本文,為了緩解非均衡數(shù)據(jù)導(dǎo)致的模型訓(xùn)練不佳的問(wèn)題,使用BSMOTE對(duì)少數(shù)類(lèi)數(shù)據(jù)進(jìn)行擴(kuò)充,得到平衡的數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練。然后,為了更好的發(fā)掘時(shí)間序列數(shù)據(jù)的特性,解決時(shí)間序列中長(zhǎng)期記憶以及梯度消失的問(wèn)題,使用GRU構(gòu)建用電數(shù)據(jù)與用電行為的映射關(guān)系。該方法的整體框架如圖3所示,下面介紹了該方法的詳細(xì)步驟。
圖3 非均衡數(shù)據(jù)異常用電檢測(cè)流程圖
步驟1:對(duì)數(shù)據(jù)進(jìn)行清洗,去除其中的異常值并且對(duì)使用平均值來(lái)代替其中的缺失值。
步驟2:由于用電數(shù)據(jù)存在嚴(yán)重的非均衡問(wèn)題,即正常用電數(shù)據(jù)的數(shù)量遠(yuǎn)遠(yuǎn)大于異常用電數(shù)據(jù),使用BSMOTE對(duì)少數(shù)類(lèi)數(shù)據(jù)進(jìn)行擴(kuò)充,得到平衡數(shù)據(jù)集。
步驟3:將平衡數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。使用訓(xùn)練數(shù)據(jù)集對(duì)門(mén)控循環(huán)單元進(jìn)行訓(xùn)練、更新模型參數(shù)。測(cè)試數(shù)據(jù)集用于驗(yàn)證模型的訓(xùn)練效果。
值得注意的是,由于對(duì)異常用電檢測(cè)模型訓(xùn)練使用的是由BSMOTE與真實(shí)數(shù)據(jù)構(gòu)成的訓(xùn)練數(shù)據(jù)集,在測(cè)試時(shí),一方面需要測(cè)試模型對(duì)于異常檢測(cè)的準(zhǔn)確率,另一方面也需要測(cè)試BSMOTE合成的數(shù)據(jù)是否可以用于異常用電檢測(cè)模型的訓(xùn)練。因此,測(cè)試集數(shù)據(jù)應(yīng)該全部是由真實(shí)數(shù)據(jù)構(gòu)成,不僅可以測(cè)試模型的性能,還能夠測(cè)試合成數(shù)據(jù)是否符合真實(shí)用電數(shù)據(jù)特性。
在本文使用的數(shù)據(jù)集來(lái)自文獻(xiàn)[29],該數(shù)據(jù)集來(lái)自國(guó)外一家省級(jí)電力公司,其中包括了正常用電數(shù)據(jù)以及五類(lèi)異常用電數(shù)據(jù)。在數(shù)據(jù)集中隨機(jī)選取正常以及五類(lèi)異常數(shù)據(jù)將其繪制在圖4中。
圖4 數(shù)據(jù)展示
如圖4所示,正方形點(diǎn)所在的線代表了正常用電數(shù)據(jù),其余5個(gè)線條代表了五類(lèi)異常數(shù)據(jù)。其中,異常1表示用電量異常減少;異常2代表用戶(hù)的主線路發(fā)生故障;異常3代表用戶(hù)的支路線路發(fā)生故障;異常4代表用戶(hù)用電量異常增加;異常5代表用戶(hù)用電量在任意時(shí)間內(nèi)異常增加。
另外,為了衡量模型應(yīng)對(duì)非均衡數(shù)據(jù)的能力,使用了準(zhǔn)確率(Acc,accuracy),精確度(P,precision),召回率(R,recall),和F1分?jǐn)?shù)(F1,F(xiàn)1-score)4個(gè)指標(biāo)。
準(zhǔn)確率是預(yù)測(cè)正確的樣本數(shù)量占總樣本數(shù)量的比值,其公式如下:
(5)
其中:TP代表樣本實(shí)際是正類(lèi),模型將其預(yù)測(cè)為正類(lèi)。TN代表樣本實(shí)際是負(fù)類(lèi),模型將其預(yù)測(cè)為負(fù)類(lèi)。FP代表樣本實(shí)際是負(fù)類(lèi),但是模型卻將其預(yù)測(cè)為正類(lèi)。FN代表樣本實(shí)際是正類(lèi),但是模型將其預(yù)測(cè)為負(fù)類(lèi)。
精確度是指所有預(yù)測(cè)為正類(lèi)的樣本中,實(shí)際也為正類(lèi)的概率,計(jì)算公式為:
(6)
召回率是指實(shí)際為正類(lèi)樣本,預(yù)測(cè)結(jié)果也是正類(lèi)的概率,計(jì)算公式為:
(7)
在應(yīng)用中,精確度和召回率都希望很高,但是實(shí)際上二者是存在矛盾的,無(wú)法做到二者都最高,因此為了衡量二者的平衡,定義了F1分?jǐn)?shù)。F1分?jǐn)?shù)可以同時(shí)考慮精確度和召回率,也就是說(shuō)精確度和召回率的平衡點(diǎn)是F1分?jǐn)?shù),其計(jì)算公式為:
(8)
在本文,將門(mén)控循環(huán)單元與經(jīng)典分類(lèi)模型支持向量機(jī)(SVM,support vector machine)以及時(shí)間序列模型長(zhǎng)短期記憶網(wǎng)絡(luò)做了對(duì)比。
SVM作為典型的分類(lèi)模型在故障診斷[30]和功率預(yù)測(cè)[31]方面取得了成功應(yīng)用。SVM通過(guò)尋找最優(yōu)分類(lèi)面實(shí)現(xiàn)對(duì)數(shù)據(jù)的分類(lèi)。不僅可以對(duì)線性數(shù)據(jù)進(jìn)行分類(lèi),借助核技巧將非線性數(shù)據(jù)映射到高維空間,使得SVM也可以處理非線性數(shù)據(jù)。
為了解決循環(huán)神經(jīng)網(wǎng)絡(luò)的無(wú)法學(xué)習(xí)到長(zhǎng)期依賴(lài)以及梯度消失問(wèn)題,LSTM被提出[32]。LSTM的優(yōu)點(diǎn)是其擁有3個(gè)門(mén)結(jié)構(gòu),分別為遺忘門(mén),輸入門(mén)和輸出門(mén)。每個(gè)門(mén)結(jié)構(gòu)都是由一個(gè)Sigmoid層和點(diǎn)積操作組成。通過(guò)3個(gè)門(mén)結(jié)構(gòu)的組合可以決定信息被保留多少和被丟棄多少。
本文搭建了循環(huán)層為2的堆疊GRU用于構(gòu)建用電數(shù)據(jù)與用電行為的映射關(guān)系,其中隱藏層節(jié)點(diǎn)數(shù)為32,損失函數(shù)設(shè)置為交叉熵?fù)p失函數(shù),優(yōu)化器設(shè)置為Adam。在對(duì)比實(shí)驗(yàn)中,構(gòu)建了一個(gè)雙向LSTM模型,隱藏層節(jié)點(diǎn)數(shù)設(shè)置為72。在使用非線性多維支持向量分類(lèi)器對(duì)用電數(shù)據(jù)進(jìn)行分類(lèi)時(shí),懲罰系數(shù)設(shè)置為1,核函數(shù)設(shè)置為高斯徑向基函數(shù)(RBF,radial basis function),參數(shù)gamma設(shè)置為‘a(chǎn)uto’。
本文的所有實(shí)驗(yàn)都是在一臺(tái)標(biāo)準(zhǔn)PC機(jī)上使用Python 3.7實(shí)現(xiàn)的,CPU為Intel酷睿i7-7700HQ,運(yùn)行頻率為2.80 GHz,內(nèi)存為16.0 GB。
3.3.1 驗(yàn)證BSMOTE的有效性
為了驗(yàn)證BSMOTE生成數(shù)據(jù)是否與真實(shí)數(shù)據(jù)相似可以用于模型的訓(xùn)練,使用生成數(shù)據(jù)作為訓(xùn)練集,真實(shí)數(shù)據(jù)作為測(cè)試集做了對(duì)比實(shí)驗(yàn)。另外,為了驗(yàn)證均衡數(shù)據(jù)集有利于模型的訓(xùn)練,還將擴(kuò)充后的均衡數(shù)據(jù)集與非均衡數(shù)據(jù)集做了對(duì)比,并且考慮了不同數(shù)量真實(shí)數(shù)據(jù)的情況下即不同擴(kuò)充比例的情況下,擴(kuò)充后的均衡數(shù)據(jù)集的表現(xiàn)。擴(kuò)充比例是指訓(xùn)練數(shù)據(jù)集中生成數(shù)據(jù)與真實(shí)數(shù)據(jù)的比值。實(shí)驗(yàn)結(jié)果如表1所示。
表1 不同訓(xùn)練數(shù)據(jù)集異常用電檢測(cè)結(jié)果
從表1可以看出,當(dāng)測(cè)試數(shù)據(jù)是真實(shí)數(shù)據(jù)時(shí),異常用電的檢測(cè)結(jié)果較好。當(dāng)擴(kuò)充比例為11∶1時(shí),4個(gè)指標(biāo)均在99%以上;當(dāng)擴(kuò)充比例為5∶1時(shí),4個(gè)指標(biāo)均為98.27%;當(dāng)擴(kuò)充比例為3∶1時(shí),檢測(cè)準(zhǔn)確率為97.97%;當(dāng)擴(kuò)充比例為2∶1時(shí),4個(gè)指標(biāo)均在98%以上;當(dāng)擴(kuò)充比例為1∶1時(shí),異常用電檢測(cè)精確度為98.59%。上述數(shù)據(jù)說(shuō)明使用BSMOTE生成的數(shù)據(jù)與真實(shí)數(shù)據(jù)是非常相似的,BSMOTE在異常用電數(shù)據(jù)的擴(kuò)充上是成功的。
另外,也可以看出不論生成數(shù)據(jù)與真實(shí)數(shù)據(jù)的比值是多少,與非均衡數(shù)據(jù)集相比,均衡數(shù)據(jù)集效果優(yōu)于非均衡數(shù)據(jù)集。
詳細(xì)來(lái)講,在擴(kuò)充比例為11∶1時(shí),與非均衡數(shù)據(jù)集相比,準(zhǔn)確率提高了9.38%,精確度提高了16.85%,召回率提高了26.28%,F(xiàn)1分?jǐn)?shù)提高了21.85%。在擴(kuò)充比例為5∶1時(shí),與非均衡數(shù)據(jù)集相比,準(zhǔn)確率提高了8.56%,精確度提高了9.61%,召回率提高了12.54%,F(xiàn)1分?jǐn)?shù)提高了11.10%。在擴(kuò)充比例為3∶1時(shí),與非均衡數(shù)據(jù)集相比,準(zhǔn)確率提高了7.51%,精確度提高了7.32%,召回率提高了8.31%,F(xiàn)1分?jǐn)?shù)提高了7.83%。在擴(kuò)充比例為2∶1時(shí),與非均衡數(shù)據(jù)集相比,準(zhǔn)確率提高了6.75%,精確度提高了6.34%,召回率提高了5.91%,F(xiàn)1分?jǐn)?shù)提高了6.12%。在擴(kuò)充比例為1∶1時(shí),與非均衡數(shù)據(jù)集相比,準(zhǔn)確率提高了5.38%,精確度提高了4.72%,召回率提高了4.86%,F(xiàn)1分?jǐn)?shù)提高了4.79%。
上述數(shù)據(jù)說(shuō)明均衡的數(shù)據(jù)更有助于模型的訓(xùn)練,有助于模型容易學(xué)習(xí)到不同類(lèi)別數(shù)據(jù)的特征,提高模型的分類(lèi)精度。
3.3.2 數(shù)據(jù)生成方法對(duì)比結(jié)果
為了驗(yàn)證BSMOTE方法的有效性,在不同擴(kuò)充比例下將其與生成對(duì)抗網(wǎng)絡(luò)(GAN,generative adversarial networks)做了對(duì)比。GAN是一種采用對(duì)抗的思想來(lái)生成數(shù)據(jù)的方法,已經(jīng)在圖像生成等多個(gè)方面取得了成功應(yīng)用。GAN是由生成器和判別器構(gòu)成。生成器負(fù)責(zé)生成與原始數(shù)據(jù)相似的數(shù)據(jù),判別器負(fù)責(zé)判斷該數(shù)據(jù)是生成數(shù)據(jù)還是真實(shí)數(shù)據(jù)。通過(guò)生成器和判別器的博弈,可以得到與原始數(shù)據(jù)相似的生成數(shù)據(jù)。
在該實(shí)驗(yàn)中,均衡數(shù)據(jù)集是由BSMOTE和GAN擴(kuò)充得到的,且擴(kuò)充前原始數(shù)據(jù)保持一致。并且考慮了不同擴(kuò)充比例后即訓(xùn)練數(shù)據(jù)中生成數(shù)據(jù)與真實(shí)數(shù)據(jù)的比值不同的情況下的分類(lèi)效果,實(shí)驗(yàn)結(jié)果如表2所示。
表2 不同數(shù)據(jù)生成方法對(duì)比結(jié)果
從表2中可以看出,BSMOTE生成數(shù)據(jù)訓(xùn)練的模型檢測(cè)效果優(yōu)于GAN。當(dāng)擴(kuò)充比例為11∶1時(shí),BSMOTE與GAN相比4個(gè)指標(biāo)平均提高了6.28%;當(dāng)擴(kuò)充比例為5∶1時(shí),BSMOTE與GAN相比4個(gè)指標(biāo)平均提高了5.86%;當(dāng)擴(kuò)充比例為3∶1時(shí),BSMOTE與GAN相比4個(gè)指標(biāo)平均提高了4.32%;當(dāng)擴(kuò)充比例為2∶1時(shí),BSMOTE與GAN相比4個(gè)指標(biāo)平均提高了5.12%;當(dāng)擴(kuò)充比例為1∶1時(shí),BSMOTE與GAN相比4個(gè)指標(biāo)平均提高了5.25%。
3.3.3 驗(yàn)證GRU的有效性
為了驗(yàn)證GRU對(duì)于用電數(shù)據(jù)分類(lèi)的有效性,將其與SVM和LSTM做了對(duì)比。在該實(shí)驗(yàn)中,3個(gè)模型所使用的數(shù)據(jù)集是BSMOTE擴(kuò)充后的均衡數(shù)據(jù)集。實(shí)驗(yàn)中訓(xùn)練與測(cè)試數(shù)據(jù)集均一致,驗(yàn)證在該條件下不同方法的異常用電檢測(cè)性能。并且在該實(shí)驗(yàn)中,還考慮了不同擴(kuò)充比例時(shí)的分類(lèi)效果,實(shí)驗(yàn)結(jié)果如表3所示。
表3 不同分類(lèi)方法檢測(cè)結(jié)果
從表3中可以得出,本文提出的方法的結(jié)果優(yōu)于其他方法。當(dāng)擴(kuò)充比例為1∶11時(shí),GRU與LSTM相比4個(gè)評(píng)價(jià)指標(biāo)提高了3.40%~3.52%,與SVM相比提高了1.52%~3.46%。當(dāng)擴(kuò)充比例為1∶5時(shí),GRU與LSTM相比4個(gè)評(píng)價(jià)指標(biāo)提高了5.4%~5.52%,與SVM相比提高了3.00%~6.49%。當(dāng)擴(kuò)充比例為1∶3時(shí),GRU與LSTM相比4個(gè)評(píng)價(jià)指標(biāo)提高了4.69%~5.20%,與SVM相比提高了2.82%~6.46%。當(dāng)擴(kuò)充比例為1∶2時(shí),GRU與LSTM相比4個(gè)評(píng)價(jià)指標(biāo)提高了5.64%~5.85%,與SVM相比提高了3.00%~6.77%。當(dāng)擴(kuò)充比例為1∶1時(shí),GRU與LSTM相比4個(gè)評(píng)價(jià)指標(biāo)提高了5.60%~5.67%,與SVM相比提高了3.16%~7.54%。
本文提出了基于門(mén)控循環(huán)單元的非均衡數(shù)據(jù)驅(qū)動(dòng)的異常用電檢測(cè)方法。使用邊界合成少數(shù)類(lèi)過(guò)采樣技術(shù)解決實(shí)際應(yīng)用中異常用電數(shù)據(jù)過(guò)少導(dǎo)致的非均衡數(shù)據(jù)問(wèn)題。 邊界合成過(guò)采樣技術(shù)在數(shù)據(jù)類(lèi)別邊界生成數(shù)據(jù),能夠?qū)崿F(xiàn)對(duì)少數(shù)類(lèi)數(shù)據(jù)的有效擴(kuò)充并且能夠使得模型更容易學(xué)習(xí)不同類(lèi)別數(shù)據(jù)的特征。為了更好地捕獲用電數(shù)據(jù)的時(shí)間序列特征,采用GRU實(shí)現(xiàn)對(duì)用電數(shù)據(jù)的分類(lèi)。經(jīng)過(guò)詳細(xì)的實(shí)驗(yàn)驗(yàn)證,表明該方法能夠?qū)崿F(xiàn)不同擴(kuò)充比例情況下地?cái)?shù)據(jù)有效擴(kuò)充,并且能夠以更高的準(zhǔn)確率檢測(cè)異常用電行為。在未來(lái)的研究中,將會(huì)致力于研究如何在保證檢測(cè)準(zhǔn)確率的基礎(chǔ)上,簡(jiǎn)化模型,降低模型參數(shù),并且進(jìn)一步減少模型的訓(xùn)練時(shí)間。