黃莉雅 倪凡 舒彧 楊耀
(貴州電網(wǎng)有限責(zé)任公司信息中心 貴州省貴陽市 550000)
利用、分析電網(wǎng)積累的大量用電數(shù)據(jù)可知用戶側(cè)的漏電、竊電等異常行為研究與監(jiān)控具有重大意義。用戶的用電信息可以存儲在智能電表,并且反映用戶日常用電信息和用電習(xí)慣。結(jié)合用電信息和線損信息,可以尋找到正常用戶與異常用戶之間的不同之處[1,2]。事實(shí)上,還是很難區(qū)分普通用戶和竊電用戶。比如,文獻(xiàn)[3]提出由于不能簡單直接地計(jì)算或測量非技術(shù)性損耗(NTL),因此需要從其它初步結(jié)果對它進(jìn)行估計(jì),即從總損耗中減去技術(shù)性損耗。文獻(xiàn)[4]提出了將無監(jiān)督學(xué)習(xí)用于非正常行為用電模式檢測,適用于電力用戶數(shù)據(jù)集不足,訓(xùn)練樣本較少的情況。然而,另一方面,在實(shí)際情形下,對異常用電的成功檢測率會隨著時(shí)間的推進(jìn)而下降。文獻(xiàn)[5]提出每當(dāng)引入新方法時(shí),檢測率最初可能很高,但是隨著欺詐者改變方法以避免檢測,其有效性會隨時(shí)間變化而減少。文獻(xiàn)[6,7]提出傳統(tǒng)的檢測方法大多通過人工的現(xiàn)場調(diào)查,或者臨時(shí)增加校驗(yàn)用的電能計(jì)量設(shè)備,這些工作大大提高了檢測的成本,無法進(jìn)行大規(guī)模的應(yīng)用,對異常用電行為的覆蓋也非常有限。文獻(xiàn)[8]提出基于稀疏隨機(jī)森林算法的異常用電行為監(jiān)測方法,此算法利用時(shí)間窗和Bootstrap重采樣,建立行為模型信息簇,然后利用監(jiān)督學(xué)習(xí)獲取隨機(jī)森林模型,最后對模型進(jìn)行稀疏化,并以此來判斷樣本是否異常。文獻(xiàn)[9,10]中,提出了基于LSTM(Long Short Term Memory Network)神經(jīng)網(wǎng)絡(luò)提取特征,對異常用電數(shù)據(jù)利用網(wǎng)絡(luò)提取出的特征數(shù)據(jù)提取。以上這些方法,都不能從根源上去識別竊漏電用戶,并且是分析歷史用電數(shù)據(jù),不能達(dá)到實(shí)時(shí)監(jiān)測異常用電用戶,而且準(zhǔn)確度不高。本文提出了構(gòu)建物聯(lián)網(wǎng)[11,12]的基于邊緣計(jì)算的異常用電監(jiān)測算法來對用電用戶進(jìn)行實(shí)時(shí)分析用電情況。
具體地,先將電量采集節(jié)點(diǎn)數(shù)據(jù)實(shí)時(shí)傳給邊緣計(jì)算節(jié)點(diǎn)[13-15]進(jìn)行是否竊漏電判斷可疑,可疑的用戶,云平臺再進(jìn)行通過建立客戶用電行為數(shù)據(jù)集,建立日用電量趨勢指標(biāo)形成功耗梯度模型,進(jìn)而準(zhǔn)確反映每個(gè)用戶的短期用電趨勢,其次再提取用電行為中的線損特征,再利用機(jī)器學(xué)習(xí)中的混合深度神經(jīng)網(wǎng)絡(luò)模型[16-18]對用電客戶的各個(gè)特征進(jìn)行分析,從而檢測、定位異常用電行為。本文的主要貢獻(xiàn)以下幾點(diǎn):
(1)用電數(shù)據(jù)的收集與整理。對不同區(qū)域用電客戶產(chǎn)生的數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換和清理,建立該區(qū)域客戶用電行為的數(shù)據(jù)集;
(2)線損特征的提取。不同用戶擁有其特有用電行為數(shù)據(jù),通過分析正常、非正常用電串損數(shù)據(jù)不同特征,建立以提取特征為相關(guān)指標(biāo)的線損分析指數(shù)化體系。
(3)功耗梯度模型的建立。具體地,它通過建立客戶用電行為數(shù)據(jù)集,建立日用電量趨勢指標(biāo)形成功耗梯度模型,進(jìn)而準(zhǔn)確反映每個(gè)用戶的短期用電趨勢,形成功耗梯度指標(biāo)。
(4)以邊緣計(jì)算網(wǎng)絡(luò)[19]與混合深度神經(jīng)網(wǎng)絡(luò)[20]為基礎(chǔ),建立神經(jīng)網(wǎng)絡(luò)模型。構(gòu)建邊緣計(jì)算網(wǎng)絡(luò)和判斷可疑指標(biāo)選取模型,并利用用電用戶的功耗梯度指標(biāo)、線損指標(biāo)和告警類指標(biāo)等構(gòu)建對用戶進(jìn)行竊漏電準(zhǔn)確檢測的模型。
本文剩余的結(jié)構(gòu)如下:第二小節(jié)描述得是竊電行為的特征提取,包括用電數(shù)據(jù)的處理,線損指標(biāo)和功耗指標(biāo)的計(jì)算;第三小節(jié)描述得是神經(jīng)網(wǎng)絡(luò)模型的建立;第四小節(jié)是對全文的一個(gè)總結(jié)。
異常用電行為的檢測可分為六大步驟:數(shù)據(jù)的抽取,對數(shù)據(jù)的探索,數(shù)據(jù)預(yù)處理,邊緣計(jì)算,訓(xùn)練模型的構(gòu)建,結(jié)果反饋等步驟。在所有客戶群體中,有些大用戶是不可能存在異常用電行為的,例如公立醫(yī)院、公立學(xué)校、政府和國有銀行等非居民用戶,因此在數(shù)據(jù)預(yù)處理時(shí),將不可能存在異常用電行為的客戶的數(shù)據(jù)樣本刪除。由于異常用電的發(fā)生不能直接由用戶用電量曲線反映,且一些噪聲被包含在告警信息中,因此探究總結(jié)異常用電行為相關(guān)的數(shù)據(jù)屬性,并提取以相關(guān)且具有代表性的特征為指標(biāo),利用專家主觀經(jīng)驗(yàn),對指標(biāo)的設(shè)置進(jìn)行調(diào)整,組成專家樣本。
為了能夠更好地建立異常用電用戶識別模型[21],不能直接對原始數(shù)據(jù)建模,而需要遵循一定的數(shù)據(jù)挖掘流程。機(jī)器學(xué)習(xí)算法得出的數(shù)據(jù)挖掘[22]效果主要的影響因素為數(shù)據(jù)集大小和特征,因此各個(gè)分析步驟間未必呈一個(gè)線性過程,而很可能相互之間形成一個(gè)迭代關(guān)系。數(shù)據(jù)庫的知識發(fā)現(xiàn)[23](knowledge discovery in database,KDD)一直是學(xué)者熱門的研究,有效的數(shù)據(jù)探索和數(shù)據(jù)預(yù)處理,可以使得建模分析的效果大為提高,能夠更快、更準(zhǔn)確地辨識和描述預(yù)期的特定模式,而不受不正常事件或者過多噪音的影響。
在所有客戶群體中,有些大用戶是不可能存在異常用電行為的,例如公立醫(yī)院、公立學(xué)校、政府和國有銀行等非居民用戶,因此可以在對數(shù)據(jù)進(jìn)行預(yù)處理操作時(shí)可以將上述樣本數(shù)據(jù)剔除。由于用戶用電量告警信息中會包含一定的噪音點(diǎn)數(shù)據(jù),有必要在對源數(shù)據(jù)清洗之后進(jìn)行數(shù)據(jù)探索,探索數(shù)據(jù)特征中與異常用電行為呈某種關(guān)系的特征或組合特征,從而構(gòu)成指標(biāo)。最后利用專家的相關(guān)經(jīng)驗(yàn)[24],對指標(biāo)的設(shè)置進(jìn)行調(diào)整,從而組成專家樣本。
竊漏電用戶識別的具體過程如圖1所示,以下為主要步驟:
圖1:竊漏電用戶實(shí)時(shí)監(jiān)測流程
(1)從電量采集系統(tǒng)和電力繳費(fèi)營銷系統(tǒng)存儲了用戶用電信息,從中挑選部分用戶用電信息;
(2)剔除絕對不會存在異常用電行為的樣本數(shù)據(jù),即公立醫(yī)院、公立學(xué)校、政府和國有銀行等非居民用戶;
(3)對數(shù)據(jù)樣本進(jìn)行概要的etl處理、預(yù)處理;
(4)同時(shí)構(gòu)建專家樣本集[24];
(5)構(gòu)建實(shí)時(shí)邊緣計(jì)算網(wǎng)絡(luò)[25]模型;
(6)實(shí)現(xiàn)構(gòu)建識別竊漏電異常用戶模型[26]并診斷功能。
異常用電數(shù)據(jù)集主要包括用電量數(shù)據(jù)、線損數(shù)據(jù)、線路預(yù)警及用戶相關(guān)信息等特征。因此,在建立竊漏電預(yù)測模型時(shí),需從源數(shù)據(jù)提取如下數(shù)據(jù):
1. a.從電量采集系統(tǒng)抽取的數(shù)據(jù);
b.用戶基本信息;
c.異常用電記錄數(shù)據(jù)。
2. a.獲取的用電原始信息;
b.實(shí)時(shí)負(fù)荷信息;
c.終端報(bào)警數(shù)據(jù)。
由于建模模型的分類預(yù)測能力在很大程度上與測試集的特征高度相關(guān),為了預(yù)測各類異常用電行為,訓(xùn)練集數(shù)據(jù)要包含各個(gè)種類的異常用電用戶以及一定數(shù)量的正常用戶。對于異常用電用戶,其非法用電行為的前后時(shí)間點(diǎn),是用電量數(shù)據(jù)和告警信號發(fā)生顯著變化的關(guān)鍵時(shí)期,因此異常用電用戶在正常用電時(shí)期的數(shù)據(jù)較為重要,需要被包含在訓(xùn)練集數(shù)據(jù)中。實(shí)驗(yàn)過程中每隔15分鐘對采集的負(fù)荷數(shù)據(jù)進(jìn)行求和,得出當(dāng)天的總用電量,公式如下。
其中,fl是第一天的耗電量,mi是從第一天起每15分鐘的總有功功率,并計(jì)算每天的能耗。
本文抽取了南方某城市5年內(nèi)的竊漏電相關(guān)數(shù)據(jù)及不同用電類別用戶共20800個(gè)用戶數(shù)據(jù),此外還提取了包含每天是否有竊漏電情況的標(biāo)識。對3年間的數(shù)據(jù)分析,從竊漏電用戶分布可以發(fā)現(xiàn)非居民類別(包含政府、醫(yī)院、學(xué)校等用戶)沒有這種異常用電行為,故不考慮非居民類別。
分析近五年所有漏電用戶分布,計(jì)算每種用電量的漏電用戶分布情況,從圖2可以發(fā)現(xiàn)非居民類別(包含政府、醫(yī)院、學(xué)校等用戶)不存在竊漏電情況,因此可以排除非居民類別的用電數(shù)據(jù)。
圖2:用電類別異常用電情況圖
在數(shù)據(jù)預(yù)處理時(shí)主要進(jìn)行如下操作。
(1)對原始數(shù)據(jù)進(jìn)行過濾,將不可能有異常用電行為發(fā)生的用戶相關(guān)數(shù)據(jù)進(jìn)行刪除。
(2)由于假期用電量相對而言會顯著偏低,可能影響到用電量發(fā)展趨勢的判斷,因此去除各個(gè)假期的數(shù)據(jù)。
雖然初始用電量能耗數(shù)據(jù)及報(bào)警數(shù)據(jù)可以反映一些異常能耗行為,但不能將其作為絕大多數(shù)異常用電行為的特征的代表。
正常用電量特征電量表現(xiàn)曲線比較緩平,波動不是很大。異常用電用戶的負(fù)荷曲線就經(jīng)常出現(xiàn)大幅度下降的行為,規(guī)律比較雜亂無章,這是異常用電特征行為。
初始收集系統(tǒng)的負(fù)荷信息及預(yù)警信息,雖然可以在一定程度上反映少量異常行為的趨勢,但要作為覆蓋大部分情況下的特征,這顯然是不夠的,必須變換創(chuàng)造新的更有效的指標(biāo)。異常用電行為評價(jià)指標(biāo)如下:
2.4.1 電量趨勢下降指標(biāo)
由數(shù)據(jù)探索部分的周期性分析可以發(fā)現(xiàn),正常用戶的用電曲線趨于穩(wěn)定,異常用戶的用電量就是大幅下降趨勢,最后趨于一個(gè)很低的值。因此考慮使用電量下降斜率作為評定衡量。
以連續(xù)5天作為計(jì)算斜率的窗口,對待評估的日期,統(tǒng)計(jì)前后5天共11天內(nèi),用電量的斜率變化[27],得到第i天的用電量趨勢,即:
異常竊電行為會導(dǎo)致這11天內(nèi)的電能消耗趨勢出現(xiàn)下滑,因此需要統(tǒng)計(jì)趨勢為下降的天數(shù),即:
則在監(jiān)測期內(nèi),電量趨勢的下降指標(biāo)可表示為:
2.4.2 線損指標(biāo)
線損率可以用來衡量供電線路的損失比例。假設(shè)第i天的線路供電量為si,線路所有的總用電量為線路的線損率公式為:
異常用電行為發(fā)生時(shí),相關(guān)線路的線損率會有顯著提升,可以以此作為表征相關(guān)用戶線損率的特征。另一方面,用戶每天的用電量并非保持在同一個(gè)水平,因此線損率會有上下波動的現(xiàn)象??梢杂?jì)算線損率的增長水平推斷是否有異常用電行為的發(fā)生。
2.4.3 告警類指標(biāo)
篩選與異常用電行為相關(guān)的告警信息,統(tǒng)計(jì)這些告警信息在特定時(shí)間段內(nèi)的發(fā)生次數(shù)。
針對所有已知是否具有竊漏電行為的異常用電用戶及正常用戶,選取用電負(fù)荷、線損數(shù)據(jù)及保護(hù)告警相關(guān)的原始數(shù)據(jù),在數(shù)據(jù)清洗之后按照異常用電行為評估指標(biāo)來進(jìn)行轉(zhuǎn)換,得到29100組樣本數(shù)據(jù),組成專家樣本庫,部分?jǐn)?shù)據(jù)如表1所示。
表1:專家數(shù)據(jù)樣本
由邊緣計(jì)算為主要技術(shù)的物聯(lián)網(wǎng)監(jiān)測系統(tǒng)如圖3所示。具體分為三個(gè)部分組成:無線傳感器監(jiān)測節(jié)點(diǎn)、路由轉(zhuǎn)換節(jié)點(diǎn)、邊緣計(jì)算節(jié)點(diǎn)(樹莓派)和云計(jì)算平臺。
圖3:邊緣計(jì)算監(jiān)測網(wǎng)絡(luò)
邊緣計(jì)算節(jié)點(diǎn)層在總體框架上處于一個(gè)中間層的位置,通過與各個(gè)無線傳感器節(jié)點(diǎn)交互而提高系統(tǒng)的實(shí)時(shí)性。
在提出的竊漏電監(jiān)測方法中,邊緣計(jì)算節(jié)點(diǎn)有著承上啟下的功能,系統(tǒng)剛開始運(yùn)行時(shí),作為中轉(zhuǎn)路由器將數(shù)據(jù)傳送到云中心平臺[28,29]。系統(tǒng)時(shí)刻監(jiān)測著采集的數(shù)據(jù),當(dāng)監(jiān)測出現(xiàn)異常,邊緣計(jì)算節(jié)點(diǎn)會把問題報(bào)告給云平臺和控制中心。邊緣計(jì)算節(jié)點(diǎn)的功能如圖4所示。
圖4:邊緣計(jì)算節(jié)點(diǎn)功能
邊緣計(jì)算網(wǎng)絡(luò)計(jì)算規(guī)則:
(1)以連續(xù)7天每天對應(yīng)時(shí)刻的采集功率作為功率斜率窗口,統(tǒng)計(jì)每天斜率變化,記錄斜率下降的天數(shù)。
(2)對待評估的時(shí)刻,計(jì)算它與之前7天對應(yīng)時(shí)刻的功率的平均值和它加之前7天的功率的平均值若比大5%,則該用戶該時(shí)刻很可能發(fā)生竊漏用電行為。
當(dāng)P(i)=1或者∑d(i)≥4,則判斷該時(shí)刻可能發(fā)生竊漏電行為,則給云計(jì)算平臺反饋,提取該用戶之前的數(shù)據(jù)進(jìn)行模型判別,調(diào)用2.2的混合深度神經(jīng)網(wǎng)絡(luò)進(jìn)行判別。
專家數(shù)據(jù)樣本準(zhǔn)備完成,總?cè)〉?9100條樣本數(shù)據(jù)。變量特征A包含三種屬性:線損類指標(biāo)、電量趨勢下降指標(biāo)以及告警類指標(biāo)。決策特征Y為異常用戶的標(biāo)識。取人工選取數(shù)據(jù)樣本,其中80%作為訓(xùn)練集,20%作為測試集。
深度神經(jīng)網(wǎng)絡(luò)模型采用訓(xùn)練樣本和TensorFlow庫構(gòu)建,且使用測試數(shù)據(jù)集進(jìn)行驗(yàn)證。依據(jù)3個(gè)變量屬性,將神經(jīng)網(wǎng)絡(luò)的輸入節(jié)點(diǎn)數(shù)數(shù)目設(shè)置為3。決策屬性為是否異常用電,屬于二分類問題[30],因此神經(jīng)網(wǎng)絡(luò)的輸出節(jié)點(diǎn)數(shù)為1,且分類模式可設(shè)為二分模式binary。隱含層節(jié)點(diǎn)數(shù)設(shè)為5和2,使用Adam方法求解,訓(xùn)練迭代次數(shù)設(shè)為1000。激活函數(shù)使用Relu(x)=max(x,0),實(shí)驗(yàn)表明模型準(zhǔn)確率因使用該激活函數(shù)能大幅提高。輸出層使用sigmoid激活函數(shù)。圖5為本文構(gòu)建的模型。
圖5:混合深度神經(jīng)網(wǎng)絡(luò)
使用python自帶的Matplotlib工具可視化預(yù)測結(jié)果。預(yù)測結(jié)果如圖6、圖7所示。
圖6:訓(xùn)練集預(yù)測結(jié)果的混淆矩陣
圖7:測試集預(yù)測結(jié)果的混淆矩陣
根據(jù)訓(xùn)練集預(yù)測結(jié)果的混淆矩陣可知,分類正確率:
分類精度:
召回率:
正常用戶被誤認(rèn)為是盜竊和泄漏用戶700/(700+18100)=3.7%,竊漏電用戶被錯誤地判為正常用戶占竊漏電用戶的400/(400+4000)=9.1%。
從上面的結(jié)果可以得出,該異常用電用戶識別模型是有效的,過擬合發(fā)生的可能性較低。
圖8是使用了邊緣計(jì)算節(jié)點(diǎn)的云平臺負(fù)責(zé)率和傳統(tǒng)模型對比,從圖8可以看出,基于邊緣計(jì)算的模型始終使用云平臺負(fù)載較少,且不隨數(shù)據(jù)增加而增加,而傳統(tǒng)模型造成云平臺負(fù)載過大。
圖8:模型對云平臺負(fù)載能力影響對比圖
本文利用北方某省用戶用電數(shù)據(jù),通過本文第二節(jié)處理方法處理成給模型的數(shù)據(jù)。分別用SVM,隨機(jī)森林,本文提出的混合深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行試驗(yàn),結(jié)果如圖9。
圖9:模型對比圖
通過以上發(fā)現(xiàn),當(dāng)數(shù)據(jù)集比較小,SVM和隨機(jī)森林模型優(yōu)于本文提出的混合深度神經(jīng)網(wǎng)絡(luò)模型,但是當(dāng)數(shù)據(jù)集大小高于某一數(shù)據(jù)集大小,混合深度神經(jīng)網(wǎng)絡(luò)模型明顯優(yōu)于SVM和隨機(jī)森林模型。
本文提出了以邊緣計(jì)算為主要技術(shù),由邊緣計(jì)算節(jié)點(diǎn)、無線傳感器監(jiān)測節(jié)點(diǎn)及云平臺等組成的異常用電檢測網(wǎng)絡(luò)模型。并且在此基礎(chǔ)上提出了基于混合深度神經(jīng)網(wǎng)絡(luò)的異常用電用戶識別模型。通過邊緣計(jì)算節(jié)點(diǎn)實(shí)時(shí)對用電數(shù)據(jù)進(jìn)行可疑性分析,大大減少了云平臺的計(jì)算負(fù)載和數(shù)據(jù)交互壓力。實(shí)驗(yàn)結(jié)果證明,基于使用邊緣計(jì)算異常用電檢測網(wǎng)絡(luò)模型及所提檢測算法檢測用電異常是有效的。