荊臻,王莉,楊梅,王者龍,王曉泳
(1.國網(wǎng)山東省電力公司,濟南 250002; 2.山東省計量科學(xué)研究院,濟南 250000)
電能在輸配電過程中每年會產(chǎn)生接近10%的損耗,給電網(wǎng)企業(yè)帶來巨大經(jīng)濟損失[1-2]。電網(wǎng)系統(tǒng)中的電能損失包括技術(shù)性損失(Technical Loss,TL),即有系統(tǒng)本身導(dǎo)致的不可避免的損失,與非技術(shù)性損失(Non-Technical Loss,NTL),即人為因素造成的損失[3]。其中,引起非技術(shù)性損失的一個主要因素是使用了計量誤差較大的智能電能表,這可能是由設(shè)備自然老化或者對電表的惡意操縱(如竊電行為)引起的[4-5]。除了經(jīng)濟上的損失,智能電能表的計量誤差和故障還可能導(dǎo)致電網(wǎng)規(guī)劃和擴建的決策偏差。而在微電網(wǎng)調(diào)度等高實時性要求場景下,電表故障也是重要的安全隱患[6]。隨著智能電網(wǎng)系統(tǒng)中新成分的增加和復(fù)雜程度不斷上升,高效的智能電表故障自動檢測和定位具有較高的實際意義。
針對這些問題,基于超狀態(tài)隱馬爾可夫模型(Super-State Hidden Markov Model,SSHMM)提出一種智能電表非侵入式故障遠程檢定方案,該方法依賴于部署在用戶端的智能電能表與一個云數(shù)據(jù)中心。本文方法不僅能檢測智能電能表中的實際故障,還可以預(yù)測最有可能出現(xiàn)故障的電能表,從而為電力運營商的進一步?jīng)Q策提供參考。
對智能電能表的故障檢定已經(jīng)存在大量研究,典型的有聚類[7],決策樹[8],隨機森林[9],神經(jīng)網(wǎng)絡(luò)[10]以及這些方法的組合或集成模型等[11]。這些方法往往都蘊含著可用數(shù)據(jù)量大的隱含假設(shè),而在真實場景下,由于數(shù)據(jù)獲取困難或數(shù)據(jù)隱私安全等原因,實際上可用于模型訓(xùn)練的數(shù)據(jù)量并不總是足夠的。并且,對于故障檢定這類問題,還存在著樣本分布嚴(yán)重不均,即正樣本(故障情形)數(shù)遠低于負樣本(正常情形)數(shù)的困境[12-13]?;谶@些原因,本文設(shè)計了一種新的處理手段,將一定區(qū)域中央電能表計量(作為總耗電量)與單個智能電能表的讀數(shù)進行比較。該方法可以在具有較少的電能表計量數(shù)據(jù)的添加下檢測出電能表故障。
超狀態(tài)隱馬爾可夫模型(SSHMM)基于經(jīng)典的隱馬爾可夫模型(HMM)。HMM已在非侵入式負荷監(jiān)測,電能質(zhì)量分析等領(lǐng)域得到了較多應(yīng)用[14-15]。在HMM中,總是假設(shè)有一組不可直接觀測或測量的狀態(tài)變量,如圖1中的圖模型所示。
圖1 隱馬爾可夫模型的概率圖表示Fig.1 Probabilistic graphical representation of hidden Markov models
一般的HMM模型形式為:
λ=(X,Y,A,B,p)
(1)
式中X={x1,…,xN}是一組內(nèi)部狀態(tài)(隱狀態(tài))向量;對應(yīng)地,Y={y1,…,yN}是一組可觀測狀態(tài)向量;A∈RN×N與B∈RN×M分別為狀態(tài)轉(zhuǎn)移矩陣(描述N種內(nèi)部狀態(tài)中一種狀態(tài)轉(zhuǎn)化為其他狀態(tài)的概率)與輸出概率矩陣(描述可觀測狀態(tài)的M種不同取值出現(xiàn)的概率),向量p描述了初始時刻處于各個狀態(tài)的概率分布[16](圖中未繪出)。
在超狀態(tài)的HMM即SSHMM中,允許將若干個單一狀態(tài)組合成一個超狀態(tài),每個超狀態(tài)的定義都是明確的,且可以重新分解為構(gòu)成其的單一狀態(tài)。在故障檢定問題中,可以作這樣的定義:X為一組超狀態(tài),xi為第i個超狀態(tài),Y為一組總用電量向量,yt為t時刻的中央電能表計量值。由于每個超狀態(tài)代表單個電表計量的一個唯一組合,因此X的維數(shù)由每個用戶節(jié)點饋線的額定供電和所用電能表設(shè)備的分辨率決定。
在使用SSHMM時必須已知初始概率、輸出概率和轉(zhuǎn)移概率,這些變量可以通過設(shè)備的參數(shù)、使用時間等數(shù)據(jù)來賦予一個預(yù)設(shè)值,但更合理的做法是從實際數(shù)據(jù)中估計。首先,通過一定時間內(nèi)的用電量數(shù)據(jù)得到一個近似的用電概率質(zhì)量函數(shù)(Probability Mass Function,PMF),定義為:
(2)
(3)
搜索到最大值后,所有的概率值將進行分箱操作,每個“箱子”中標(biāo)記了該組的最大概率值。由于最大值一般是非等距分布的,因此每組概率的特征既包括概率之和,也包括了左右邊界,即:
(4)
與:
(5)
式中H(n)表示第n個最大值;L(n)和R(n)分別表示其所在組的左右邊界,注意位于最左端和最右端的組也被限制在合理范圍內(nèi)。反復(fù)按照式(3)與式(4)計算,就可以得到所有組的左右邊界位置。
假設(shè)設(shè)第m個用戶所在的“箱子”為K(m),故超狀態(tài)k可以由K(m)中的各狀態(tài)組合得到:
(6)
于是得到了用于故障檢定的SSHMM模型:
(7)
式中pt(n)是系統(tǒng)在t時刻處于超狀態(tài)n的概率;St表示t時刻實際的超狀態(tài);A為各超狀態(tài)之間的轉(zhuǎn)移概率矩陣;矩陣B描述了當(dāng)觀測到y(tǒng)t時系統(tǒng)處于St超狀態(tài)的概率。
根據(jù)1.2中的方法,基于一部分的歷史數(shù)據(jù)便可以估計出SSHMM的轉(zhuǎn)移概率矩陣等參數(shù),此時的“超狀態(tài)”實際上指大量用戶節(jié)點處部署的智能電表的工作狀態(tài)的組合。由于超狀態(tài)是可分解的,利用Viterbi自適應(yīng)算法便可以方便地推斷出單個電能表的運行狀態(tài)估計,在云數(shù)據(jù)中心中實現(xiàn)對智能電能表的非侵入式遠程故障檢定[18-19]。根據(jù)Viterbi算法,基于當(dāng)前和最后一次測量值,電能表處于超狀態(tài)i的概率為:
pt-1(i)=B(i,yt-1)pt-2(i)
(8)
實際應(yīng)用中通常采取一階馬爾可夫假設(shè),因此pt-2(i)可假定為常數(shù),記為p0,從而在t時刻,式(8)可以寫成
(9)
采用極大似然估計(Maximum Likelihood Estimation,MLE),可以取令pt(i)最大的i作為電表在t時刻的超狀態(tài)。該計算過程的時間復(fù)雜度為Ο(c·lgN),其中c為超狀態(tài)的數(shù)量。
相比傳統(tǒng)方法,SSHMM方法的一個顯著優(yōu)勢是不要求所有節(jié)點都部署智能電表,而是以非侵入的方式實現(xiàn)用電量估計。
使用了兩個公開的數(shù)據(jù)集:ECO數(shù)據(jù)集[20],包含8個月時長內(nèi)60個家庭的高分辨率智能電能表計量數(shù)據(jù),以及REFIT數(shù)據(jù)集[21],包含2年內(nèi)2 000個家庭的電能表計量數(shù)據(jù)。實驗中使用的計量包括有功功率、電流、電壓等。所考慮的智能電能表狀態(tài)在計量上表現(xiàn)為6種類型[22-23]:(1)無異常狀態(tài),計量值可視為真實用電量;(2)計量值始終為常數(shù);(3)計量值相對真實用電量以恒定的倍數(shù)α放大/縮小;(4)計量值相對真實用電量以非恒定的倍數(shù)放大/縮??;(5)計量范圍故障,即計量值被限制在某個最大值M以下;(6)計量值存在隨機噪聲,但相比真實用電量平均下降/上升了β個單位。
兩類方法:基于統(tǒng)計的方法與基于模型的方法用于比較本文模型的實際效果。統(tǒng)計方法基于離群點檢測,即將超過給定閾值的點判定為異常。閾值通常取平均值偏離k個標(biāo)準(zhǔn)差,在隨機選擇的3周數(shù)據(jù)中,ECO數(shù)據(jù)集上的k值最佳取值為1.65,REFIT數(shù)據(jù)集的最佳取值為1.30。一般來說,樣本所選擇的數(shù)據(jù)時間跨度越大,k值也相應(yīng)地變大,以適應(yīng)數(shù)據(jù)中的固有偏差。
圖2顯示了ECO數(shù)據(jù)集中隨機抽取的8名用戶在20天內(nèi)平均用電量的偏移情況,k值設(shè)置為1.30。圖中標(biāo)出了平均值與被認(rèn)為是“正?!庇脩羲菰S的用電量上下界,因此4號與5號用戶的電能表計量被算法判斷為異常,其電表存在故障的概率較大。
圖2 基于離群點檢測的故障電表識別示例Fig.2 An example of novelty discovery based smart meter fault detection
基于統(tǒng)計的方法顯然是最直接的一類方法,其缺陷也是顯而易見的,即只能檢測出使電表計量出現(xiàn)嚴(yán)重偏差的故障,如(3)類故障。而對于更為復(fù)雜的(4)類故障,電表的計量值盡管在任意時刻都存在誤差,但在總體上統(tǒng)計特征(如均值)依然保持不變,則在圖1中將不會表現(xiàn)為離群點。類似地,離群點檢測方法對于檢測(5)類、(6)類故障通常也是無效的。
基于模型的方法假設(shè)了各個用戶在長期上看用電量總是在總體上占據(jù)穩(wěn)定的份額,因此可以對于任意用戶,可以使用其他用戶同期的用電量對該用戶的用電量基于一定的模型(如線性模型)進行預(yù)測,根據(jù)預(yù)測值與真實值的偏差判斷電能表計量是否存在誤差。
評估SSHMM方法的性能需要考慮幾個因素的影響,包括:(1)訓(xùn)練數(shù)據(jù)量,用所覆蓋的天數(shù)表示;(2)計量數(shù)據(jù)的分辨率;(3)所使用的電表計量指標(biāo);(4)模型的穩(wěn)定性,表征模型在每次檢測任務(wù)前都需重新訓(xùn)練的必要性,通過模型在若干天后的數(shù)據(jù)上性能下降的程度來體現(xiàn)。
在REFIT數(shù)據(jù)集以1~5周和100天為時間步長分別訓(xùn)練SSHMM模型,并比較模型在故障檢測任務(wù)上的平均F1值,結(jié)果如表1所示。盡管從直觀上理解,訓(xùn)練集中的數(shù)據(jù)量越大,模型的性能應(yīng)該越好,但由于故障檢測問題的特殊性,當(dāng)數(shù)據(jù)量較大時,模型在優(yōu)化時會傾向于“掩蓋”異常,即學(xué)習(xí)到了訓(xùn)練集中與均值偏差較大,但被標(biāo)記為正常的樣本特征,這樣反而降低了泛化能力。綜合考慮模型泛化效果和復(fù)雜程度,本文認(rèn)為以2周作為訓(xùn)練步長是較合理的方案。
表1 隨訓(xùn)練時間步長的模型性能變化Tab.1 Variation of performances of models with time step length of training data
圖3給出了步長取14天時SSHMM方法對故障類別劃分的混淆矩陣,可以看出,模型在正常電能表與5種故障狀態(tài)的識別任務(wù)上都表現(xiàn)出相當(dāng)優(yōu)秀的效果。
圖3 SSHMM模型在故障分類任務(wù)上的混淆矩陣Fig.3 Confusion matrix of SSHMM model in fault classification task
表2顯示了分辨率對于SSHMM模型檢測效果的影響(步長取14天),通過實驗發(fā)現(xiàn),15 min為最適宜的分辨率。
表2 隨計量數(shù)據(jù)分辨率的SSHMM模型檢測性能變化Tab.2 Variation of fault classification performances of SSHMM model with temporal measurement resolution
表3給出了以14天步長、15 min分辨率一次訓(xùn)練后的模型對于一段時間后的數(shù)據(jù)的泛化效果??梢钥闯?,SSHMM方法在訓(xùn)練完成后在100天后的樣本上依然具有不錯的效果。這說明SSHMM故障電表檢測模塊可以穩(wěn)定地部署在云數(shù)據(jù)中心上,而無需頻繁地訓(xùn)練,這無疑是該方法的一大優(yōu)勢。
表3 SSHMM模型在后續(xù)數(shù)據(jù)上的檢測性能Tab.3 Performances of SSHMM model on subsequent data in fault classification task
文中介紹了一種超狀態(tài)隱馬爾可夫模型(SSHMM)的智能電能表故障遠程檢定技術(shù)。相比傳統(tǒng)方法,SSHMM方法對智能電能表安裝量需求更低,并且可以以非侵入的方式實現(xiàn)遠程的故障電表識別。實驗結(jié)果表明,SSHMM方法在檢測準(zhǔn)確率上可以滿足實際需求,且穩(wěn)定性較高,適合部署在智能電網(wǎng)云平臺上,具有一定實際意義。