丁建光,張沛超
(上海交通大學(xué) 電氣工程系 電力傳輸與功率變換控制教育部重點實驗室,上海 200240)
隨著電網(wǎng)中接納越來越多的可再生能源,電能質(zhì)量擾動PQD(Power Quality Disturbance)事件的監(jiān)視與識別成為智能電網(wǎng)的一項重要研究內(nèi)容。PQD識別屬于典型的分類問題,已有研究大多基于數(shù)據(jù)挖掘DM(Data Mining)技術(shù),并結(jié)合現(xiàn)代數(shù)字信號處理方法完成電能質(zhì)量數(shù)據(jù)的去噪、特征量提取、分類等處理。 如文獻(xiàn)[1-3]利用小波變換(WT)、dq變換、快速傅里葉變換(FFT)、Hilbert變換、數(shù)學(xué)形態(tài)學(xué)和短窗功率算法等方法進(jìn)行PQD檢測;文獻(xiàn)[4-5]研究了檢測過程中信號去噪的問題;文獻(xiàn)[6]通過小波變換和決策樹方法進(jìn)行擾動分類;文獻(xiàn)[7]分析了決策樹、貝葉斯分類、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘算法。但上述研究均基于傳統(tǒng)數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)挖掘的實時性不高,甚至僅適用于離線分析。由于電能質(zhì)量數(shù)據(jù)具有高速連續(xù)到達(dá)、潛在無限輸入等海量數(shù)據(jù)的特征,數(shù)據(jù)必須得到及時處理而不能累積。同時,未來的智能電網(wǎng)將存在大量在線決策環(huán)節(jié),而實時數(shù)據(jù)處理是在線決策的基本前提。所以有必要研究海量電能質(zhì)量數(shù)據(jù)的實時擾動識別和在線分類挖掘問題。
數(shù)據(jù)流(data stream)[8-9]技術(shù)是近年來數(shù)據(jù)庫和數(shù)據(jù)挖掘領(lǐng)域的一個研究熱點。數(shù)據(jù)流是實時、連續(xù)、有序、時變、無限長的帶時標(biāo)的元組序列,目前數(shù)據(jù)流系統(tǒng)仍處于研發(fā)的原型階段,針對電力系統(tǒng)的應(yīng)用研究則更為鮮見。文獻(xiàn)[10-11]從電網(wǎng)和配電自動化的角度,利用數(shù)據(jù)流技術(shù),提出集傳感測量、實時數(shù)據(jù)分析和在線決策于一體的統(tǒng)一解決方案。文獻(xiàn)[12]利用數(shù)據(jù)流方法分析PQD事件,但其采用固定長度的滑動數(shù)據(jù)窗SW(Sliding Window)且未研究數(shù)據(jù)流分類算法。由于PQD事件具有很大的隨機(jī)性,這種固定長度的時間窗難以滿足在線分類的需要。
由于PQD數(shù)據(jù)具有典型的數(shù)據(jù)流特征,使得PQD的實時識別和在線分類需解決幾個關(guān)鍵問題:首先是實時監(jiān)測和識別數(shù)據(jù)流的變化,并能有效區(qū)分變化和噪聲;其次,對于連續(xù)數(shù)據(jù)流不能采用阻塞方式處理,而必須采用變長滑動數(shù)據(jù)窗[13]技術(shù),根據(jù)擾動特點將無限長的數(shù)據(jù)流轉(zhuǎn)化為一系列可控的數(shù)據(jù)單元;最后,需要建立高效的數(shù)據(jù)流分類模型,即分類算法應(yīng)能利用有限的時間、空間處理無限的流數(shù)據(jù)。
本文圍繞上述3個關(guān)鍵問題展開研究。首先將WT和離散傅里葉變換(DFT)相結(jié)合,對采樣數(shù)據(jù)進(jìn)行信號去噪和擾動檢測;然后提出自適應(yīng)滑動數(shù)據(jù)窗 ASW(Adaptive Sliding Window)的構(gòu)建方法,以適應(yīng)不同長度的擾動,最大限度地保留擾動信息的能量分布特征;最后,引入具有低存儲空間需求的Hoeffding Tree算法,對PQD事件進(jìn)行分類。
常見PQD信號可分為6類[6],分別是電壓凸起、電壓凹陷、電壓間斷、諧波、脈沖暫態(tài)和振蕩暫態(tài),其數(shù)學(xué)模型見表1。表中,Am為正常情況下電壓的幅值;Af為電壓凸起、凹陷或間斷的幅度比例;μ(t)為階躍函數(shù),即當(dāng) t<0 時 μ(t)=0,當(dāng) t≥0 時 μ(t)=1;t1為擾動的起始時間,t2為擾動的結(jié)束時間;αk為k次諧波的幅值;b、c分別為振蕩的頻率和衰減速度;α為脈沖的幅值;δ(t)為t時刻的單位脈沖函數(shù)。
脈沖暫態(tài)持續(xù)時間在0.5~2 ms(即4~12個采樣點)之內(nèi)隨機(jī)確定,其余擾動類型持續(xù)時間在0.02~0.5 s范圍內(nèi)隨機(jī)確定;電壓凸起的幅值大于1.2 Am,電壓凹陷的幅值在0.2Am~0.8Am之間,電壓間斷的幅值小于0.2Am,脈沖暫態(tài)的幅值大于20Am且小于500Am,這4種擾動電壓幅值在指定范圍內(nèi)隨機(jī)產(chǎn)生;電壓諧波的各諧波幅值 α3、α5、α7在 0.05Am~0.15Am范圍,且滿足∑αk2=1,其中 k=1,3,5,7。
表1 電能質(zhì)量擾動數(shù)學(xué)模型Tab.1 Mathematical models of PQD
擾動信號可以抽象為數(shù)據(jù)流S,S可以形式化地表示為一個無限的時間序列:
其中,〈si,ti〉表示 ti時刻產(chǎn)生的 si元組,該元組可以是數(shù)值,也可以是向量,本文以變量形式表示。
滑動數(shù)據(jù)窗技術(shù)使得PQD分析可以針對最新的一個有限數(shù)據(jù)子集,而非所有可見的數(shù)據(jù)流。設(shè)當(dāng)前時刻為tn,則當(dāng)前的滑動數(shù)據(jù)窗可以表示為:
其中,K 為數(shù)據(jù)窗長度;sn-K+1、sn-K+2、…、sn為采樣值。根據(jù)K變化與否,滑動數(shù)據(jù)窗可分為定長數(shù)據(jù)窗和變長數(shù)據(jù)窗。
通過對電能質(zhì)量采樣數(shù)據(jù)進(jìn)行擾動檢測和特征提取,可以得到擾動事件的特征向量時間序列,該序列同樣可以利用數(shù)據(jù)流表示為:
其中,特征向量 vi=[a1,a2,…,aj,…,am,C]是一個分類實例,aj為實例的屬性,C為實例的類標(biāo)簽(class label)。當(dāng)C非空時,該實例是用于訓(xùn)練的樣本。
綜合以上分析,形成圖1所示的總體技術(shù)路線。
圖1 PQD在線檢測和分類Fig.1 Online detection and classification of PQD
擾動點檢測是實現(xiàn)自適應(yīng)滑動數(shù)據(jù)窗的關(guān)鍵步驟,本文提出WT和DFT相結(jié)合的擾動起止類型綜合判別算法的流程。本文選取db4小波作為基函數(shù),并進(jìn)行3層分解。
電力系統(tǒng)中的噪聲以高斯白噪聲為主,本文采用以Stein無偏風(fēng)險閾值為基礎(chǔ)的軟閾值去噪方法[5],在去噪的同時能準(zhǔn)確保留擾動特征。對滑動數(shù)據(jù)窗中的采樣數(shù)據(jù)進(jìn)行WT,通過第1層細(xì)節(jié)分量系數(shù)可以分析是否存在擾動。以電壓凸起信號為例,正常電壓幅值為1 p.u.,凸起時為1.2 p.u.,擾動發(fā)生在第640個采樣點處,持續(xù)至第1280個采樣點處,如圖2(a)所示。以db4小波進(jìn)行3層分解,得到第1層細(xì)節(jié)分量系數(shù),擾動起止點對應(yīng)分量系數(shù)明顯高于其他點,如圖 2(b)所示。
圖2 電壓凸起的擾動檢測Fig.2 Disturbance detection for voltage swell
檢測到擾動后,以擾動點為中心點,提取一個完整周期的采樣值,通過DFT計算基波有效值K1,并與正常情況下基波有效值K0作比較。若滿足<0.02K0,則判定該點由殘余噪聲引起,重新提取下一個滑動數(shù)據(jù)窗;如果擾動點不是由殘余噪聲引起,則提取擾動點下一個周期的采樣值并計算基波有效值K2,并和K0作比較。 如果滿足,則判定該擾動點為PQD的終止點,提取事件后,重新提取下一滑動數(shù)據(jù)窗;否則判定為起始點,緩存后重新提取下一滑動數(shù)據(jù)窗。
經(jīng)過上述處理可得擾動點序列:其中,Di為擾動點的起止類型,i取 0、1、2 分別表示噪聲點、擾動的起始點和終止點。如果用向上箭頭表示擾動起始點,向下箭頭表示終止點,無向豎線表示由殘余噪聲引起的擾動,則上述處理可檢測出圖3所示的2類擾動點序列。其中,圖3(a)所示序列由1個起始點和1個終止點組成,對應(yīng)電壓凸起、電壓凹陷、電壓間斷、諧波和振蕩暫態(tài)等擾動;圖3(b)所示序列僅包含1個終止點,對應(yīng)脈沖暫態(tài)擾動。圖3中還包含了一些殘余噪聲擾動點,這些擾動點既可能距起始點和終止點超過1個周期(如N1),也可能緊臨起始點和終止點(如N2)。
圖3 擾動點序列Fig.3 Sequence of disturbance points
本文提出自適應(yīng)滑動數(shù)據(jù)窗,能夠根據(jù)式(4)所形成的擾動點序列,自適應(yīng)地調(diào)整滑動數(shù)據(jù)窗的長度,算法描述如下。
設(shè)在式(4)中,Di為第1個非0擾動點;如果Di=1(起始點),則從Di開始找到第1個終止點,設(shè)為Dj,于是記本 PQD 事件的數(shù)據(jù)窗為[ti,tj];如果 Di=2(終止點),則數(shù)據(jù)窗記為[ti,ti],如此類推。 然后,將上述數(shù)據(jù)窗的起始時刻向前、終止時刻向后各延伸1個周期,形成一個自適應(yīng)滑動數(shù)據(jù)窗,所截取出的采樣點能夠完整包含一個PQD事件。如果在起始時刻之前或終止時刻之后1個周期內(nèi)存在噪聲,則以噪聲擾動點為基點,延展數(shù)據(jù)窗范圍。
基波有效值能直接反映電壓幅值偏離的大小與方向,且能有效區(qū)分殘余噪聲,但其計算數(shù)據(jù)窗較長,難以有效識別短時暫態(tài)事件。文獻(xiàn)[14]提出了小波能量特征,利用小波的多分辨率原理將信號分解到不同頻段。根據(jù)Parseval定理,信號能量可通過小波概要系數(shù) cj(k)和細(xì)節(jié)系數(shù) dj(k)進(jìn)行重構(gòu):
其中,l為小波分解層數(shù)。綜上,本文采用3層小波(l=3)分解能量和基波有效值作為特征向量:
其中,c3、d1、d2、d3分別為小波概要系數(shù)和細(xì)節(jié)系數(shù)的能量;a為基波有效值特征量;C為類標(biāo)簽。
傳統(tǒng)的決策樹、支持向量機(jī)等分類算法采用批處理算法,訓(xùn)練過程中需要一次性加載所有樣本實例,時間和空間開銷很大。針對數(shù)據(jù)流的實例數(shù)目巨大且容易發(fā)生概念漂移的特點,本文選擇Hoeffding Tree分類算法[15]。該算法能增量式地建立決策樹,每次只完成一個實例的處理,并且在處理完成后不保存實例信息,僅保存決策樹信息,這樣在保證分類準(zhǔn)確性的同時極大降低了算法的時間和空間復(fù)雜度。
該算法引入熵的概念衡量一段數(shù)據(jù)所載有的信息量,通過計算信息增益來判別何時進(jìn)行分枝。如果類標(biāo)簽C有n個不同的值,第i個值在整體樣本中對應(yīng)的概率為 pi,則熵的計算為[17]:
信息增益通過使用類分布的熵減去以某屬性進(jìn)行分枝的加權(quán)平均熵而計算獲得,即如果使用屬性aj進(jìn)行分枝,屬性aj可以將整個數(shù)據(jù)樣本劃分為S1、S2、…、Sv,每一份有一個對應(yīng)的熵。將其加權(quán)平均,可以獲得以aj劃分子集的信息增益為:
其中,權(quán)重wi為第i份樣本在整個樣本中的比重;ei為第 i份樣本的熵;pi1、pi2、…、pin分別為各標(biāo)簽值在第i份樣本中對應(yīng)的概率。在傳統(tǒng)的批處理分類方式下,很容易使用信息增益最高的屬性進(jìn)行分枝,但是在增量處理方式下,進(jìn)行分枝需要引入Hoeffding邊界 HB(Hoeffding Bound)的概念。
其中,R=log2n,n為類標(biāo)簽數(shù);δ為設(shè)定的置信因子,1-δ描述了在樹的每個節(jié)點上,正確屬性被選中的預(yù)期概率,顯然希望這個概率盡量接近1,根據(jù)文獻(xiàn)[15],可將 δ設(shè)為 10-7;m 為已處理的實例個數(shù)。
HB衡量了信息增益最高的屬性a′j和次高的屬性a″j之間信息增益的差值的最小值,如果該差值最小值超過HB,則將信息增益最高的屬性a′j確定為分類屬性。
首先生成僅有1個根節(jié)點的樹結(jié)構(gòu)T,然后依次對每個實例進(jìn)行評估,即增量式地完成學(xué)習(xí)任務(wù)。算法的流程如圖4所示。
在評估的過程中,如果存在1個葉子節(jié)點,該節(jié)點的實例數(shù)目nl是設(shè)定值nmin的整數(shù)倍,且所有節(jié)點不屬于同一個類標(biāo)簽,即滿足圖4中的判別條件1,則在該節(jié)點進(jìn)行分枝條件判別。設(shè)置參數(shù)nmin是因為單一實例對信息增益影響很小,當(dāng)某個葉子節(jié)點累計增加nmin個實例后,才考慮對該節(jié)點進(jìn)行后續(xù)的分枝條件判斷。
圖4 Hoeffding Tree算法示意圖Fig.4 Schematic diagram of Hoeffding Tree algorithm
分枝條件判別需計算每個屬性的信息增益G(aj),確定增益最高的 2 個屬性。 若 G(a′j)-G(a″j)>HB 或者HB<τ(τ是預(yù)設(shè)的HB的最小值),即滿足圖4中的判別條件2,則進(jìn)行分枝,否則繼續(xù)進(jìn)行下一個實例的評估。通過預(yù)設(shè)τ可避免隨著分配到該節(jié)點的實例越來越多,HB越來越小,進(jìn)而造成在該節(jié)點始終無法分枝。
本文采用電壓凸起、電壓凹陷、電壓間斷、諧波、脈沖暫態(tài)和振蕩暫態(tài)這6種PQD模型進(jìn)行算例分析,采樣頻率為6.4 kHz。為模擬實際情況,所有擾動事件的起始和持續(xù)時間皆隨機(jī)產(chǎn)生,模型參數(shù)設(shè)置見表1。擾動數(shù)據(jù)中添加40 dB高斯白噪聲,每種擾動采用20000個實例訓(xùn)練和10000個實例測試。
在MATLAB仿真環(huán)境下,隨機(jī)產(chǎn)生每種擾動事件各20000個,并記錄各擾動的起始時刻,然后測試PQD檢測的準(zhǔn)確度,結(jié)果見表2。
表2 PQD檢測結(jié)果Tab.2 Results of PQD detection
在數(shù)據(jù)流挖掘分類過程中,采用Hoeffding Tree分類算法,以信息增益作為分枝標(biāo)準(zhǔn),信息增益評估周期采用 200 個實例,即 nmin=200;置信因子 δ=10-7;τ=0.05。分類結(jié)果見表3。
由表3可知,以小波能量和電壓基波有效值為特征向量,通過本文的分類算法可以很好地識別PQD類型,每種擾動分類的準(zhǔn)確率均在99%以上。
表3 PQD分類測試結(jié)果Tab.3 Results of PQD classification
針對相同類型和參數(shù)的擾動,本文將Hoeffding Tree算法與典型的C4.5分類算法[6]做了對比,結(jié)果如表4所示。Hoeffding Tree算法本身在分類準(zhǔn)確率方面與C4.5相近[15],本文算法準(zhǔn)確率的提高主要是因為采用了自適應(yīng)變長滑動數(shù)據(jù)窗技術(shù)。
目前,針對電能質(zhì)量復(fù)合擾動分類的研究還不多,已有方法主要采用傳統(tǒng)單一擾動識別方法[17],區(qū)分效果較差。本文針對所提算法進(jìn)行了復(fù)合擾動的測試。按照文獻(xiàn)[1]中暫態(tài)擾動和穩(wěn)態(tài)擾動相復(fù)合的原則,并參考文獻(xiàn)[18]的復(fù)合擾動類型,設(shè)定存在各種單一擾動和“諧波+電壓凸起”、“諧波+電壓凹陷”、“諧波+電壓間斷”3種復(fù)合擾動,每種擾動采用20000個實例訓(xùn)練、10000個實例測試,本文算法對復(fù)合擾動的分類效果如表5所示。其中,識別率指正確識別出復(fù)合擾動類型或識別出其中一種單一擾動類型的比率;準(zhǔn)確率指準(zhǔn)確識別出復(fù)合擾動類型的比率;漏分指僅檢測出其中一種單一擾動;錯分指未檢測出復(fù)合擾動的任意一種。由表5可見,在復(fù)合擾動類型識別方面,本文算法仍需做進(jìn)一步改進(jìn)。
表5 復(fù)合擾動分類效果Tab.5 Effect of complex PQD classification
基于數(shù)據(jù)流挖掘的PQD在線分類算法應(yīng)具有良好的時間和空間性能,能夠高效處理實時、高速和無限的采樣數(shù)據(jù)流而不造成數(shù)據(jù)堵塞。算法仿真用計算機(jī)的CPU主頻為3.10 GHz、內(nèi)存為3.24 GB、操作系統(tǒng)為32位。分別進(jìn)行PQD檢測和特征量提取,以及分類算法訓(xùn)練和測試,算法的時間和空間性能測試結(jié)果如表6所示。
表6 算法時間和空間復(fù)雜度分析Tab.6 Analysis of temporal and spatial complexities of algorithm
連續(xù)采樣時間為2240 s,每種擾動包含1000個事件。算法用于擾動檢測和特征量提取耗時12.74 s,用于數(shù)據(jù)流分類耗時0.81 s,算法合計用時13.55 s。若以算法執(zhí)行時間與樣本持續(xù)采樣時間之比衡量算法實時性[16],則實時性指標(biāo)為 13.55 /2240=0.00605,表明算法具有良好的實時性。
目前,絕大部分研究僅關(guān)注分類準(zhǔn)確度,而未對實時性進(jìn)行研究,僅有文獻(xiàn)[12]給出了實時性測試結(jié)果,但該文沒有給出測試用計算機(jī)的具體配置。文獻(xiàn)[12]中的實時性指標(biāo)為 9.464 /160=0.059,而本文實時性指標(biāo)為0.00605。故本文算法的實時性優(yōu)于文獻(xiàn)[12]中的算法。
本文將電能質(zhì)量數(shù)據(jù)視為數(shù)據(jù)流,對基于數(shù)據(jù)流挖掘的PQD在線識別與分類的關(guān)鍵問題進(jìn)行了研究。將WT和DFT相結(jié)合,實現(xiàn)采樣數(shù)據(jù)去噪和擾動檢測,進(jìn)而提出自適應(yīng)變長滑動數(shù)據(jù)窗的構(gòu)建方法,從而將無限長的數(shù)據(jù)流轉(zhuǎn)變?yōu)橛邢揲L的可控處理單元,并最大限度地保留擾動信息的能量分布特征;以小波概要系數(shù)、細(xì)節(jié)系數(shù)能量和基波有效值構(gòu)成特征向量,并引入能夠進(jìn)行增量式學(xué)習(xí)的Hoeffding Tree算法,對PQD進(jìn)行分類。
本文的研究重點是單一擾動的在線識別與分類。針對復(fù)合擾動,本文認(rèn)為可以采用在線和離線相結(jié)合的方法,以兼顧實時性和復(fù)合擾動識別的準(zhǔn)確性,這將是下一步的研究重點。