鄭貴林,謝耀
(武漢大學 電氣與自動化學院,武漢 430072)
電力系統(tǒng)中,輸配電損失指輸配電網(wǎng)中未由電力用戶支付的電量。有兩種類型的損失:技術(shù)性損失和非技術(shù)性損失[1]。技術(shù)性損失是電力傳輸?shù)墓逃袚p耗,非技術(shù)性損失包括竊電、記錄異常和欺詐等。其中因竊電造成的非技術(shù)性損失在電網(wǎng)實際運行中普遍存在[2],部分國家的非技術(shù)性損失約占用電總量的12.5%~25%[3]。例如,印度、巴西和墨西哥的非技術(shù)性損失分別占其全國用電量的26.2%、16.85%和15.83%[4]。我國的非技術(shù)性損失相對較低,占全國用電總量的6.42%[4],但我國電能需求總體龐大,且近年來用電量不斷攀升[5-6]。因此,竊電等異常用電模式檢測方法研究是降低輸配電損失、提高智能電網(wǎng)運行效率的關(guān)鍵[7]。
近年來國內(nèi)外學者對于降低非技術(shù)性損失的問題,在異常用電檢測領(lǐng)域展開了廣泛的研究。文獻[4]使用基于C-means的模糊聚類方法尋找具有相似消費特征的電力用戶,并利用模糊隸屬度矩陣和到聚類中心的歐氏距離進行模糊分類。為了解決人工分類的問題,文獻[8]提出一種基于AMI系統(tǒng)中高頻率的負荷計量數(shù)據(jù),采用One-class SVM模型建立用戶的正常行為模式分類器。文獻[9]通過將反竊電評價體系與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合構(gòu)建反竊電模型。上述檢測模型的實驗仿真結(jié)果在異常用電模式分類方面均滿足檢測要求,但在特征提取及檢測閾值選取方面缺乏理論依據(jù),且模型的檢測精度有待提高。
為更有效地從高維數(shù)據(jù)中提取數(shù)據(jù)特征從而解決特征匹配問題,文章提出一種基于小波和長短期記憶混合神經(jīng)網(wǎng)絡(luò)的異常用電檢測的模型。模型主要由三部分組成:首先,提出異常用電模擬算法用于生成異常用電數(shù)據(jù)序列;然后,通過級聯(lián)長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)結(jié)構(gòu)從電力用戶用電數(shù)據(jù)中提取序列特征;最后,通過小波神經(jīng)網(wǎng)絡(luò)(Wavelet Neural Network,WNN)處理序列特征,實現(xiàn)序列特征到輸配電系統(tǒng)中電力用戶用電模式的映射。
循環(huán)神經(jīng)網(wǎng)絡(luò)(Current Neural Network,RNN)是由輸入層、隱含層及輸出層組成的全連接神經(jīng)網(wǎng)絡(luò),圖1所示為RNN結(jié)構(gòu)展開示意圖。
圖1 RNN典型結(jié)構(gòu)
其中x為系統(tǒng)輸入;h為隱含層輸出,當前時刻(t時刻)輸出ht由隱含層輸入經(jīng)權(quán)重矩陣和激活函數(shù)作用得到;o為系統(tǒng)輸出;L是損失估計;y是訓練集中給出的真實值;U、V、W為權(quán)重矩陣,經(jīng)后續(xù)訓練得到。
在t時刻:
h(t)=φ(Ux(t)+Wh(t-1)+b)
(1)
式中φ(·)為激活函數(shù);b為偏置量。
t時刻的輸出:
o(t)=Vh(t)+c
(2)
式中c為偏置量,最終模型的預測輸出為y(t);σ為激活函數(shù):
y(t)=σ(o(t))
(3)
LSTM網(wǎng)絡(luò)模型是深層RNN的改進,通過在隱含層增加新的單元狀態(tài)進行信息的傳遞,重新設(shè)計了計算節(jié)點,實現(xiàn)對遠距離信息的有效控制,可以有效避免訓練深度網(wǎng)絡(luò)過程中的梯度值異常增長問題[10]。
LSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。完整的LSTM網(wǎng)絡(luò)包括存儲歷史信息的記憶單元、控制當前時刻輸入信息的“輸入門”、調(diào)整歷史信息輸入權(quán)重的“遺忘門”和控制當前時刻輸出信息的“輸出門”。
圖2 LSTM結(jié)構(gòu)
LSTM網(wǎng)絡(luò)模型在t時刻含有3個輸入:當前時刻網(wǎng)絡(luò)的外部輸入xt;前一時刻LSTM網(wǎng)絡(luò)隱含層輸出值ht-1;前一時刻單元狀態(tài)ct-1。LSTM網(wǎng)絡(luò)在t時刻含有2個輸出:當前時刻LSTM網(wǎng)絡(luò)輸出值ht和當前時刻單元狀態(tài)ct。
LSTM網(wǎng)絡(luò)模型通過3個控制開關(guān)實現(xiàn)對單元狀態(tài)c的有效控制:“遺忘門”實現(xiàn)對前一時刻長期狀態(tài)ct-1的控制;“輸入門”實現(xiàn)對當前時刻輸入信息的控制;“輸出門”實現(xiàn)對當前時刻長期狀態(tài)ct的控制。根據(jù)圖2,可以得到如下各門結(jié)構(gòu)的具體計算式:
當前時刻“遺忘門”:
ft=σf(Wf[ht-1,xt]+bf)
(4)
式中Wf為“遺忘門”權(quán)重矩陣;[ht-1,xt]表示將2個向量拼接;bf為“遺忘門”偏置項;σf(·)為“遺忘門”激活函數(shù)。
當前時刻“輸入門”:
it=σi(Wi[ht-1,xt]+bi)
(5)
式中Wi為“輸入門”權(quán)重矩陣;bi為“輸入門”偏置項;σi(·)為“輸入門”激活函數(shù)。
當前輸入的單元狀態(tài)c′由前一時刻LSTM網(wǎng)絡(luò)輸出ht-1及當前時刻輸入xt計算,公式為:
c′t=tanh(Wc[ht-1,xt]+bc)
(6)
式中Wc為單元狀態(tài)的權(quán)重矩陣;bc為偏置項;tanh為激活函數(shù)。
當前時刻單元狀態(tài):
ct=ft×ct-1+it×c′t
(7)
式中符號“×”表示按元素乘。此時,LSTM網(wǎng)絡(luò)將當前記憶c′t和長期記憶ct-1相結(jié)合,形成新單元狀態(tài)ct。
當前時刻“輸出門”ot受到長期記憶對當前輸出的影響,計算式為:
ot=σo(Wo[ht-1,xt]+bo)
(8)
式中Wo為“輸出門”權(quán)重矩陣;bo為“輸出門”偏置項;σo(·)為“輸出門”激活函數(shù)。
LSTM網(wǎng)絡(luò)最終輸出由“輸出門”和單元狀態(tài)共同確定,計算式為:
ht=ot×tanh(ct)
(9)
小波神經(jīng)網(wǎng)絡(luò)在數(shù)列數(shù)據(jù)分析領(lǐng)域應用廣泛[11]。對一個多輸入多輸出映射f:Rm→Rq,其網(wǎng)絡(luò)方程的實現(xiàn)可表示為:
(10)
在挖掘電力用戶用電數(shù)據(jù),識別竊電等異常用電行為時,模型需要將高緯度用戶用電數(shù)據(jù)處理為序列特征,并映射到具體的用電模式。因此,分析用電數(shù)據(jù)的內(nèi)在聯(lián)系,從而提取用電信息特征是實現(xiàn)異常用電檢測的前提,這些聯(lián)系和特征能有效地反映數(shù)據(jù)的特性。LSTM在保留了RNN模型提取深層次特征能力的同時,解決了深層網(wǎng)絡(luò)訓練過程中存在的梯度消失問題,在處理時間序列相關(guān)問題中具有明顯優(yōu)勢。WNN由于其容錯性、抗干擾性和自適應性強等優(yōu)點,被廣泛應用于模式識別和信號分類問題。據(jù)此,文章提出混合神經(jīng)網(wǎng)絡(luò)模型用于解決異常用電模式檢測中的特征提取和模式映射的問題,模型結(jié)構(gòu)如圖3所示。周用電數(shù)據(jù)經(jīng)過多層特征提取網(wǎng)絡(luò)篩選出具有高序列相關(guān)性的序列特征,然后將提取的序列特征輸入到模式映射網(wǎng)絡(luò)中,實現(xiàn)異常用電檢測。
圖3 混合神經(jīng)網(wǎng)絡(luò)模型
文中使用如圖4所示的3層LSTM網(wǎng)絡(luò)結(jié)構(gòu)進行特征提取。為了使提取的數(shù)據(jù)具有整體性,能較為完整地反映輸入數(shù)據(jù)特性,文章使用級聯(lián)LSTM逐漸壓縮特征數(shù)據(jù)的維度并維持特征間關(guān)系。
圖4 特征提取網(wǎng)絡(luò)結(jié)構(gòu)
圖4中x=[x1,x2,…,x336]表示輸入數(shù)據(jù),共336維;h(j)t表示第j層t時刻的輸出,其中j的取值為1,2,3共三層,t的取值隨j的取值變化,即第1層:t取1,2,…,336,第2層:t取1,2,…,240,第3層:t取1,2,…,144;s=[s1,s2,…,s48]表示最后一層LSTM輸出的48維特征數(shù)據(jù)。
為了實現(xiàn)用戶用電模式的識別分類,文章使用WNN網(wǎng)絡(luò)構(gòu)建模式映射網(wǎng)絡(luò),利用特征提取網(wǎng)絡(luò)提取到的序列特征數(shù)據(jù),得到最終的結(jié)果。模式映射網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。圖中,s=[s1,s2,…,s48]表示特征提取網(wǎng)絡(luò)所得到的48維特征數(shù)據(jù);lk,n表示第k層隱含層的第n個節(jié)點;y1,y2表示輸出層。
圖5 模式映射網(wǎng)絡(luò)結(jié)構(gòu)
文中使用交叉熵損失函數(shù)來計算當前模型的損失偏差程度。損失函數(shù)公式如式(11)所示。
(11)
常見的異常用電模式表現(xiàn)為通過攻擊智能電表的通信接口、損壞智能電表的硬件結(jié)構(gòu)或者攻擊通信網(wǎng)絡(luò)篡改用電數(shù)據(jù)。用電數(shù)據(jù)可能被直接篡改為0或者被按照一定比例削減,也可能保持用電數(shù)據(jù)總量一定,對用電曲線進行依峰。文章提出了如表1所示的異常用電模擬算法[13]。該算法對可能出現(xiàn)的異常用電模式給出確切的定義,共有6種模式。
在算法1中,xt代表正常用電數(shù)據(jù)在t時刻的值,x′t是異常值??紤]不同異常用電模式發(fā)生可能性,對于第1種和第5種異常用電模式,設(shè)其概率為0.1,對第2、3、4、6種異常用電模式,設(shè)其概率為0.2。
表1 異常用電模擬算法
文章提出的異常用電檢測整體模型流程圖如圖6所示。首先,根據(jù)電力用戶的不同數(shù)據(jù)集可分為家庭用電、商業(yè)用電、其他用電三個組別,每個組別均利用異常用電模擬算法生成異常用電數(shù)據(jù),訓練集和測試集按照7:3的比例劃分。然后,建立基于WNN和LSTM的混合神經(jīng)網(wǎng)絡(luò)模型,并且初始化網(wǎng)絡(luò)參數(shù),利用Adam算法進行優(yōu)化。最后將測試集數(shù)據(jù)作為訓練后模型的輸入,得到分類結(jié)果,進行效果評估。
圖6 異常用電檢測模型流程圖
文章使用CER Smart Metering Project數(shù)據(jù)集驗證所提模型[14]。該數(shù)據(jù)集由Electric Ireland 和Sustainable Energy Authority of Ireland(SEAI)于2012年發(fā)布,包含4 225個家庭用戶、485個商業(yè)用戶和1735個其他用戶,每個用戶有535天的連續(xù)用電記錄(半小時記錄一個點)。三種用戶的日用電量分別如圖7~圖9所示。
圖7 家庭用戶日用電量圖
圖8 商業(yè)用戶日用電量圖
圖9 其他用戶日用電分布圖
從圖7~圖9中可以看出,不同組別的用電模式有很大區(qū)別,考慮到不同組別發(fā)生竊電的概率,每組隨機取20%(P(I)=20%)的樣本作為算法1的輸入生成異常用電數(shù)據(jù)。
在生成異常用電數(shù)據(jù)時,首先,選取535天時間段內(nèi)共6 445個電力用戶的歷史用電數(shù)據(jù),以周為基準,將用戶個體的數(shù)據(jù)分段儲存;然后,采用算法1對儲存數(shù)據(jù)逐段執(zhí)行,將所有數(shù)據(jù)匯總并隨機打亂;最后,將打亂后的整體數(shù)據(jù)按比例劃分為訓練集和測試集用來對文章提出的異常用電檢測模型進行訓練和評估。
文章采用三個評價指標。分別為誤檢率rFPR、檢出率rDR和貝葉斯檢出率rBDR,如式(12)所示。其中貝葉斯檢出率是對誤檢率和檢出率的綜合,充分考慮了異常用電發(fā)生的概率以及異常用電檢測帶來的成本。
(12)
式中NFP為預測類別為真,真實類別為假的樣本個數(shù);NFN為預測類別為假,真實類別為真的樣本個數(shù);NTP為預測類別為真,真實類別也為真的樣本個數(shù);NTN為預測類別為假,真實類別也為假的樣本個數(shù);P(I)為異常用電行為發(fā)生的概率。
首先,考慮到文章提出模型本身的影響因素,算法整體性能對特征提取網(wǎng)絡(luò)中LSTM的層數(shù)設(shè)置非常敏感,網(wǎng)絡(luò)的層數(shù)過少對數(shù)據(jù)的抽象提取能力不足,網(wǎng)絡(luò)的層數(shù)過多會造成過擬合現(xiàn)象,同時隨著網(wǎng)絡(luò)層數(shù)的增加,模型的時間復雜度呈指數(shù)增長,因此需要選取適當?shù)腖STM網(wǎng)絡(luò)層數(shù)。分別取LSTM 的層數(shù)為1,2,3,4在相同數(shù)據(jù)集上實驗,算法的性能如圖10、圖11所示。增加LSTM的層數(shù),會使檢出率升高,但增加幅度會減小,同時誤檢率會降低,但是當LSTM層數(shù)達到4層時誤檢率略微升高。實驗結(jié)果說明,特征提取網(wǎng)絡(luò)中LSTM的層數(shù)取3層時,算法性能比較好。
圖10 特征提取網(wǎng)絡(luò)層數(shù)對算法檢出率的影響
圖11 特征提取網(wǎng)絡(luò)層數(shù)對算法誤檢率的影響
為了進行效果評估,將文章提出的基于小波和長短期記憶混合神經(jīng)網(wǎng)絡(luò)的異常用電檢測模型與傳統(tǒng)網(wǎng)絡(luò)模型進行對比實驗。
(1)支持向量機[15]:根據(jù)電力用戶長期用電情況,利用支持向量機作為分類器,完成不同用電模式的分類。
(2)分層神經(jīng)網(wǎng)絡(luò)[16]:采用分層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以經(jīng)過分類器處理后的數(shù)據(jù)為輸入特征,實現(xiàn)非法用電用戶篩選。
(3)極限學習機[17]:根據(jù)電力用戶實時用電負荷數(shù)據(jù),利用在線序列極限學習機作為異常識別模型,完成用戶異常用電行為監(jiān)測。該模型使用sigmoid激活函數(shù)和徑向基函數(shù)(RBF)。
(4)決策樹[18]:以月用電量為特征,選擇信息增益為序列篩選標準,結(jié)合決策樹模型實現(xiàn)用戶異常用電模式分類。
(5)模糊系統(tǒng)[19]:采用改進的模糊系統(tǒng),結(jié)合預選分類器,通過選取參數(shù),建立模糊規(guī)則實現(xiàn)非技術(shù)性損失檢測。
表2展示了上述模型在測試集上的表現(xiàn)。
表2 不同異常用電檢測模型的效果
從表2中可以看出,文章所提模型與傳統(tǒng)網(wǎng)絡(luò)模型相比,具有更高的檢出率、更低的誤檢率和更高的貝葉斯檢出率。其中,與分層神經(jīng)網(wǎng)絡(luò)模型相比有相近的檢出率,但是在貝葉斯檢出率方面具有較大的優(yōu)勢,這是因為文章所提模型在特征提取方面充分考慮了正常、異常樣本的特征,減小了過擬合問題。
為更有效地從高維數(shù)據(jù)中提取數(shù)據(jù)特征從而解決特征匹配問題,文章提出一種基于小波和長短期記憶混合神經(jīng)網(wǎng)絡(luò)的異常用電檢測的模型。通過CER Smart Metering Project數(shù)據(jù)集實驗,驗證了文章提出的檢測模型與傳統(tǒng)網(wǎng)絡(luò)模型具有更好的效果。在后續(xù)工作中,將研究如何加快深度學習模型的學習速度,縮減模型生成所需的時間。