廣東電網(wǎng)有限責(zé)任公司客戶服務(wù)中心 覃 浩
電費(fèi)差錯(cuò)是指電網(wǎng)公司在運(yùn)輸、分配電力過(guò)程中的異常計(jì)量信息錯(cuò)誤或者配電側(cè)用戶的竊電行為造成的電費(fèi)數(shù)據(jù)異常,這類(lèi)異常數(shù)據(jù)會(huì)給電網(wǎng)公司造成嚴(yán)重的損失甚至對(duì)國(guó)民經(jīng)濟(jì)的發(fā)展也十分不利。所以更新當(dāng)前的計(jì)量系統(tǒng)平臺(tái)并且高效的稽查出非法竊電用戶一直是國(guó)內(nèi)外學(xué)者研究的重點(diǎn)。
目前智能電表的普及使得各用戶用電信息采集完善,積累的數(shù)據(jù)也越來(lái)越多,在近年機(jī)器學(xué)習(xí)以及人工智能技術(shù)的趨勢(shì)下研究者們從數(shù)據(jù)挖掘的角度出發(fā)來(lái)進(jìn)行反竊電行為的研究,利用歷史用電數(shù)據(jù)特征建立與竊電行為的聯(lián)系?,F(xiàn)有的異常電費(fèi)檢測(cè)方法大致分為三類(lèi),即基于距離的方法、基于統(tǒng)計(jì)的方法、與基于智能學(xué)習(xí)的方法。目前,基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法,如支持向量機(jī)、隨機(jī)森林、人工神經(jīng)網(wǎng)絡(luò)等算法模型己取得較好的檢測(cè)效果,該類(lèi)方法對(duì)數(shù)據(jù)特征的識(shí)別率高符合當(dāng)前的研究思路。
針對(duì)電力大數(shù)據(jù)流的異常檢測(cè)問(wèn)題,提出一種基于流式K-means 的聚類(lèi)算法,在優(yōu)化離線階段聚類(lèi)算法的同時(shí),提高算法對(duì)用戶異常用電行為的準(zhǔn)確識(shí)別[1];將疑似竊電判斷中引入Oneclass SVM 算法,提出了一種將電量波動(dòng)特征和One-class SVM 結(jié)合的竊電識(shí)別模型[2],采用電量波動(dòng)系數(shù)作為指標(biāo)選取訓(xùn)練樣本的方法,訓(xùn)練得到相應(yīng)分類(lèi)模型,通過(guò)該模型分析篩選出竊電用戶;結(jié)合決策樹(shù)(Decision Tree,DT)和SVM 進(jìn)行異常用電行為的識(shí)別,先排除干擾用戶,再導(dǎo)入處理后的用戶用電量數(shù)據(jù)訓(xùn)練SVM分類(lèi)算法,從而識(shí)別出異常用電行為[3];選擇孤立森林算法應(yīng)用到用戶用電異常檢測(cè)問(wèn)題,該方法優(yōu)點(diǎn)在于規(guī)則簡(jiǎn)單易于訓(xùn)練并且速度很快,但是檢測(cè)精度并不高[4];在一維用電數(shù)據(jù)上對(duì)竊電行為檢測(cè)準(zhǔn)確率很低,無(wú)法獲取到用電的周期性,因此提出了一種集合廣度與深度的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)來(lái)解決上述問(wèn)題[5]。深度CNN 組件負(fù)責(zé)準(zhǔn)確識(shí)別竊電的非周期性和正常用電的周期性。同時(shí),廣義CNN 組件負(fù)責(zé)識(shí)別一維用電數(shù)據(jù)的全局特征;還有一種基于主成分分析和深度循環(huán)神經(jīng)網(wǎng)絡(luò)(PCA-RNN)的異常用電行為檢測(cè)方法[6]。利用核主成分分析對(duì)電力負(fù)荷數(shù)據(jù)進(jìn)行降維處理,提取出主要用電特征該方法具有較高的準(zhǔn)確率和魯棒性。
通過(guò)以上的研究進(jìn)行分析,同時(shí)為了挖掘出用電用戶信息的特征,本文嘗試采用將深度森林[7]分類(lèi)算法引入電費(fèi)差錯(cuò)檢測(cè)領(lǐng)域,深度森林算法是基于決策樹(shù)的深度學(xué)習(xí)算法,它的核心思想是對(duì)隨機(jī)森林進(jìn)行集成相較于其他深度學(xué)習(xí)模型,深度森林方法每一層都自主訓(xùn)練參數(shù),不需要反向傳播過(guò)程,因此對(duì)于訓(xùn)練數(shù)據(jù)的樣本數(shù)量依賴較低,本文從電費(fèi)差錯(cuò)用戶特征提取出發(fā),利用深度森林算法檢測(cè)用戶是否存在竊電行為,探究其應(yīng)用在電費(fèi)差錯(cuò)檢測(cè)領(lǐng)域的可行性并且極大地減少了訓(xùn)練時(shí)間。此外,深度森林的最基本單元由決策樹(shù)構(gòu)成,使得該模型具有較好的可解釋性。
深度森林模型于2017年提出,該模型是一個(gè)非神經(jīng)網(wǎng)絡(luò)式的深度模型,采用多粒度級(jí)聯(lián)森林(gcForest,multi-Grained Cascade Forest)方法構(gòu)建。gcForest 主要包含兩個(gè)結(jié)構(gòu)多粒度掃描窗口和級(jí)聯(lián)森林。先進(jìn)行多粒度掃描計(jì)算,采用多個(gè)不同尺度的滑動(dòng)窗口對(duì)訓(xùn)練數(shù)據(jù)特征進(jìn)行重新表示。該方法是滑動(dòng)窗口進(jìn)行掃描特征,所掃描的特征向量作為新的數(shù)據(jù)樣本;然后將掃描得到的結(jié)果用于構(gòu)建級(jí)聯(lián)森林;級(jí)聯(lián)森林由多種隨機(jī)森林組成,其作用為對(duì)輸入特征進(jìn)行表征學(xué)習(xí),每個(gè)級(jí)聯(lián)層均包括兩個(gè)隨機(jī)森林和兩個(gè)完全隨機(jī)森林,其中各隨機(jī)森林均含有若干棵決策樹(shù),因此每個(gè)隨機(jī)森林或者完全隨機(jī)森林都會(huì)輸出一個(gè)特征向量預(yù)測(cè)結(jié)果。在級(jí)聯(lián)森林中,上一個(gè)級(jí)聯(lián)層的輸出結(jié)果作為下一個(gè)級(jí)聯(lián)層的輸入,可以將特征向量的特征信息傳至下一層,每一層都可以接收到上一層的特征信息和原始特征信息,最后一層的級(jí)聯(lián)層作為結(jié)果輸出;其中完全隨機(jī)森林是在完整的特征空間中隨機(jī)選取特征來(lái)分裂,而普通隨機(jī)森林是在一個(gè)隨機(jī)特征子空間內(nèi)通過(guò)基尼系數(shù)來(lái)選取分裂節(jié)點(diǎn)。
深度森林本質(zhì)上是基于決策樹(shù)和隨機(jī)森林來(lái)構(gòu)建,可以對(duì)離散型與連續(xù)型的數(shù)據(jù)高效的訓(xùn)練,同時(shí)為了對(duì)模型的預(yù)測(cè)精度進(jìn)行提升,構(gòu)建的級(jí)聯(lián)森林與深度學(xué)習(xí)中的多層網(wǎng)絡(luò)類(lèi)似,保證了對(duì)數(shù)據(jù)學(xué)習(xí)的深度。本文將深度森林算法引入電力負(fù)荷預(yù)測(cè)領(lǐng)域,也解決了深度模型參數(shù)多、收斂速度較慢等問(wèn)題。綜上所述,深度森林算法非常適合電費(fèi)數(shù)據(jù)的特點(diǎn),能夠有效的學(xué)習(xí)電費(fèi)數(shù)據(jù)的相關(guān)特征以構(gòu)建電費(fèi)差錯(cuò)分析模型。
本文的訓(xùn)練數(shù)據(jù)樣本與測(cè)試數(shù)據(jù)樣本采用的是中國(guó)南方電網(wǎng)公司收集的2020年某月某市的用電數(shù)據(jù)樣本,數(shù)據(jù)規(guī)模為2500 (電費(fèi)差錯(cuò)數(shù)據(jù)1139條、非電費(fèi)差錯(cuò)數(shù)據(jù)1361條),總共有65個(gè)特征字段,如YHLBDM、DSJ、YDLBDM、JLDBH 等,分別表示用戶類(lèi)別代碼、地市局、用電類(lèi)別代碼、計(jì)量點(diǎn)編號(hào)等電費(fèi)數(shù)據(jù)特征。
由于本文數(shù)據(jù)集是電網(wǎng)公司收集的真實(shí)數(shù)據(jù),數(shù)據(jù)中存在著數(shù)據(jù)缺失和重復(fù)以及特征冗余等問(wèn)題,經(jīng)過(guò)對(duì)數(shù)據(jù)的探索發(fā)現(xiàn)缺失數(shù)據(jù)主要是多為單個(gè)數(shù)值缺失,為了使數(shù)據(jù)對(duì)模型的干擾影響最小,本文的數(shù)據(jù)預(yù)處理工作主要包括刪除重復(fù)值及冗余特征、缺失值填充、特征歸一化。
在原始的用電用戶數(shù)據(jù)中經(jīng)人工判斷存在大量與電費(fèi)差錯(cuò)無(wú)關(guān)的特征,如計(jì)量點(diǎn)編號(hào)、用戶編號(hào)等,直接刪除這類(lèi)無(wú)關(guān)特征字段,降低模型訓(xùn)練的特征維度至45維。再針對(duì)連續(xù)多個(gè)以上的負(fù)荷值為0的重復(fù)數(shù)據(jù),同樣直接刪除。在刪除冗余特征和重復(fù)數(shù)據(jù)后對(duì)模型的訓(xùn)練速率有所提升且對(duì)模型的訓(xùn)練效果沒(méi)有影響。
針對(duì)樣本數(shù)據(jù)中的缺失值采用以下方式進(jìn)行填充:
上式中,xt為用戶在第t天的數(shù)據(jù)量,f(xt)為填充值,NaN 表示數(shù)據(jù)未定義或不可表示的值,即利用缺失值前后兩天的數(shù)據(jù)量的平均值來(lái)進(jìn)行填充。
在完成以上對(duì)重復(fù)值缺失值的處理后,為了使得深度森林模型在分類(lèi)時(shí)具有更好的泛化能力,再對(duì)電費(fèi)數(shù)據(jù)進(jìn)行均值歸一化處理。
其中,X為待歸一化數(shù)據(jù),Xscaled為均值歸一化獲得的數(shù)據(jù),mean(X)為數(shù)據(jù)樣本的均值,std(X)為數(shù)據(jù)樣本的標(biāo)準(zhǔn)差。
基于深度森林的電費(fèi)差錯(cuò)分析實(shí)驗(yàn)中,目標(biāo)是為了區(qū)別出電費(fèi)差錯(cuò)數(shù)據(jù)與非電費(fèi)差錯(cuò)數(shù)據(jù)屬于二分類(lèi)問(wèn)題,采用準(zhǔn)確率、召回率、F1值以及AUCROC 曲線來(lái)評(píng)估實(shí)驗(yàn)性能。
本文使用混淆矩陣評(píng)估深度森林分類(lèi)模型在測(cè)試樣本上的效果,對(duì)于竊電用戶與正常用戶的分類(lèi)問(wèn)題,其混淆矩陣如下表1,這其中,TP 是指被深度森林模型正確分類(lèi)的電費(fèi)正常用戶;FN 是指被錯(cuò)誤標(biāo)記為電費(fèi)異常用戶的電費(fèi)正常用戶;FP 是指被錯(cuò)誤分類(lèi)為電費(fèi)正常用戶的電費(fèi)異常用戶;TN 是指被正確分類(lèi)的電費(fèi)異常用戶。
表1 電費(fèi)差錯(cuò)分析模型混淆矩陣
在電力客戶用電數(shù)據(jù)中,電費(fèi)差錯(cuò)與非電費(fèi)差錯(cuò)用戶數(shù)據(jù)量極度不均衡,因此采用如下評(píng)估標(biāo)準(zhǔn):
查準(zhǔn)率,代表模型預(yù)測(cè)為正常數(shù)據(jù)的樣本中真正常數(shù)據(jù)占的比例:
F1值,綜合了查準(zhǔn)率和召回率的調(diào)和平均結(jié)果:
AUC-ROC 曲線是針對(duì)各種閾值設(shè)置下的分類(lèi)問(wèn)題的性能度量。ROC 是概率曲線,AUC 表示可分離的程度或測(cè)度,表明我們多少模型能夠區(qū)分類(lèi)別。AUC 越高,模型預(yù)測(cè)的效果越好。根據(jù)學(xué)習(xí)器的預(yù)測(cè)結(jié)果對(duì)樣例進(jìn)行排序,按此順序逐個(gè)把樣本作為正例進(jìn)行預(yù)測(cè),每次計(jì)算出兩個(gè)重要量的值,分別以它們?yōu)闄M、縱坐標(biāo)作圖就得到了ROC 曲線該曲線的縱軸是“真正例率”(True Positive Rate,TPR),橫軸是“假正例率”(False Positive Rate,F(xiàn)PR),基于表1中的符號(hào),兩者分別定義為:
其中AUC 定義計(jì)算是ROC 曲線下與坐標(biāo)軸圍成的面積,該數(shù)值范圍為0至1.0之間。又因?yàn)镽OC曲線一般都處于y=x 這條直線的上方,則AUC 的取值范圍在0.5和1.0之間。AUC 越接近1.0,表明檢測(cè)方法可靠性越高。
本文將預(yù)處理后的電費(fèi)數(shù)據(jù)訓(xùn)練樣本與測(cè)試樣本以8:2劃分,訓(xùn)練樣本與測(cè)試樣本分別為2000條和500條,其中訓(xùn)練樣本中包含電費(fèi)差錯(cuò)數(shù)據(jù)911條,測(cè)試樣本中包含電費(fèi)差錯(cuò)數(shù)據(jù)228條。將訓(xùn)練樣本導(dǎo)入深度森林模型進(jìn)行訓(xùn)練,再使用測(cè)試樣本進(jìn)行預(yù)測(cè),測(cè)試結(jié)果如下表2所示:
表2 電費(fèi)差錯(cuò)分析模型測(cè)試結(jié)果
綜合以上所有實(shí)驗(yàn)結(jié)果,本模型的三項(xiàng)評(píng)估指標(biāo)均達(dá)到了0.89以上,其中準(zhǔn)確率和F1值較好的表現(xiàn)說(shuō)明該模型對(duì)本電費(fèi)差錯(cuò)分類(lèi)效果良好,在圖1中AUC-ROC 曲線中可以判斷出AUC 是0.904屬于0.85以上也證明了本算法的可行性,綜合三項(xiàng)評(píng)估指標(biāo),可以看出本文基于深度森林的電費(fèi)差錯(cuò)分析模型較好的完成了電費(fèi)差錯(cuò)分析的任務(wù)。
圖1 電費(fèi)差錯(cuò)分析模型AUC-ROC 曲線
本文提出了基于深度森林的電費(fèi)差錯(cuò)分析方法,在電網(wǎng)公司的真實(shí)數(shù)據(jù)樣本上取得了準(zhǔn)確率、F1值均大于0.89的良好效果,AUC 曲線的數(shù)值為0.904也證實(shí)了本分類(lèi)算法能夠有效挖掘用電數(shù)據(jù)特征,區(qū)分電費(fèi)差錯(cuò)用戶與非電費(fèi)差錯(cuò)用戶??傮w而言,基于深度森林的電費(fèi)差錯(cuò)分析方法能夠幫助電網(wǎng)公司更新當(dāng)前的計(jì)量系統(tǒng)平臺(tái)并且高效的稽查出非法竊電用戶,大幅度的提升電網(wǎng)工作人員在電費(fèi)差錯(cuò)方面的工作效率。