陳亮 文福拴 童述林
(1.華南理工大學(xué)電力學(xué)院,廣東廣州510640;2.廣東省 電力調(diào)度中心,廣東廣州510600;3.浙江大學(xué) 電氣工程學(xué)院,浙江杭州310027)
來(lái)源于SCADA系統(tǒng)的電力負(fù)荷數(shù)據(jù)由于信道錯(cuò)誤、沖擊負(fù)荷以及突發(fā)事故等原因會(huì)產(chǎn)生一些異常數(shù)據(jù),這不僅影響負(fù)荷預(yù)測(cè)的精度[1-2],而且對(duì)有關(guān)的系統(tǒng)分析任務(wù)如空調(diào)負(fù)荷的測(cè)算和分析[3]也會(huì)帶來(lái)負(fù)面影響.此外,高質(zhì)量的負(fù)荷數(shù)據(jù)與準(zhǔn)確的負(fù)荷預(yù)測(cè)結(jié)果是電力系統(tǒng)規(guī)劃和運(yùn)行調(diào)度的重要根據(jù),且在未來(lái)的智能電網(wǎng)中這點(diǎn)尤為明顯[4].例如,智能電表作為智能電網(wǎng)的重要組成部分,對(duì)負(fù)荷數(shù)據(jù)質(zhì)量要求很高.另一方面,在針對(duì)未來(lái)大量電動(dòng)汽車(chē)廣泛接入電力系統(tǒng)后的智能充放電方案的實(shí)現(xiàn)中[5],也需要事先預(yù)測(cè)次日負(fù)荷,然后配合分時(shí)充放電價(jià)格機(jī)制,引導(dǎo)電動(dòng)汽車(chē)用戶在谷荷區(qū)段接入電力系統(tǒng)充電,而在峰荷區(qū)段向系統(tǒng)反向放電,從而達(dá)到縮小系統(tǒng)負(fù)荷峰谷差、提高設(shè)備利用率的效果,高質(zhì)量的負(fù)荷數(shù)據(jù)對(duì)此也具有重要作用.因此,有必要對(duì)負(fù)荷數(shù)據(jù)中存在的異常數(shù)據(jù)進(jìn)行辨識(shí)和修正.
到目前為止,電力負(fù)荷異常數(shù)據(jù)的辨識(shí)與修正方面,國(guó)內(nèi)外已經(jīng)做了相當(dāng)多的研究.文獻(xiàn)[6]中提出用學(xué)習(xí)矢量量化(LVQ)方法對(duì)異常負(fù)荷數(shù)據(jù)進(jìn)行剔除,基本思路是將負(fù)荷數(shù)據(jù)視為若干組矢量,若某個(gè)矢量中有一個(gè)分量為異常數(shù)據(jù),則將整個(gè)矢量剔除,這種做法有可能造成大量可用信息丟失,無(wú)法準(zhǔn)確定位壞數(shù)據(jù).文獻(xiàn)[7]中采用灰色理論與參數(shù)估計(jì)相結(jié)合的方法來(lái)檢測(cè)異常負(fù)荷數(shù)據(jù);由于參數(shù)估計(jì)是復(fù)雜的非線性優(yōu)化問(wèn)題,一般不能保證獲得全局最優(yōu)解.文獻(xiàn)[8]中提出對(duì)辨識(shí)出的異常負(fù)荷數(shù)據(jù)用擴(kuò)展短期負(fù)荷預(yù)測(cè)結(jié)果進(jìn)行修正,該方法對(duì)單個(gè)異常負(fù)荷數(shù)據(jù)的辨識(shí)與修正較為有效,但對(duì)連續(xù)異常負(fù)荷數(shù)據(jù)的效果不佳.文獻(xiàn)[9]中根據(jù)SCADA系統(tǒng)中的冗余數(shù)據(jù),利用連續(xù)日期相同時(shí)段負(fù)荷數(shù)據(jù)的均值和方差來(lái)進(jìn)行辨識(shí)與修正;這種方法對(duì)由于數(shù)據(jù)采集系統(tǒng)故障引起的異常數(shù)據(jù)比較有效,在處理負(fù)荷異常波動(dòng)方面的效果則不夠明顯.文獻(xiàn)[10-11]中均采用人工神經(jīng)元網(wǎng)絡(luò)來(lái)進(jìn)行異常數(shù)據(jù)識(shí)別,但這種方法需要的訓(xùn)練時(shí)間很長(zhǎng).文獻(xiàn)[12]中采用ART2人工神經(jīng)元網(wǎng)絡(luò)模型進(jìn)行異常負(fù)荷數(shù)據(jù)的識(shí)別與調(diào)整,這種方法雖然避免了前饋人工神經(jīng)元網(wǎng)絡(luò)模型容易陷入局部最優(yōu)解的問(wèn)題,但需要事先對(duì)負(fù)荷曲線進(jìn)行分類并提取特征曲線.文獻(xiàn)[13]中借鑒計(jì)算統(tǒng)計(jì)學(xué)中的等高線圖法,采用系統(tǒng)聚類方法與傳統(tǒng)的t檢驗(yàn)法相結(jié)合,對(duì)異常數(shù)據(jù)進(jìn)行辨識(shí)與修正.
到目前為止,在異常負(fù)荷數(shù)據(jù)的辨識(shí)與修正方面,研究工作大都只單獨(dú)考慮負(fù)荷的橫向連續(xù)性或縱向連續(xù)性,即在一個(gè)維度中進(jìn)行處理,具有一定的局限性.有鑒于此,文中同時(shí)考慮了負(fù)荷的橫向連續(xù)性與縱向連續(xù)性.具體地講,首先把每天96點(diǎn)負(fù)荷曲線數(shù)據(jù)按日期排列成二維數(shù)據(jù)集,然后使用密度估計(jì)方法[14],從整體上對(duì)異常數(shù)據(jù)進(jìn)行識(shí)別,最后對(duì)識(shí)別出的異常數(shù)據(jù)進(jìn)行修正.文中還采用廣東省實(shí)際電力負(fù)荷數(shù)據(jù)做了計(jì)算,仿真結(jié)果表明這種方法是有效的.
首先對(duì)數(shù)據(jù)密度[14]進(jìn)行估算,然后依據(jù)所得密度進(jìn)行異常負(fù)荷數(shù)據(jù)識(shí)別與修正.
數(shù)據(jù)密度估計(jì)方法的基本原理如下:
(1)假設(shè)有一個(gè)數(shù)據(jù)點(diǎn)總數(shù)為M的二維數(shù)據(jù)集Z(如圖1(a)中的圓點(diǎn)所示).
(2)產(chǎn)生一個(gè)稱為種子群的數(shù)據(jù)集 S(如圖1(a)中的圓圈所示),其所含的種子個(gè)數(shù)N需事先確定,且需保證各個(gè)種子與其相鄰種子之間的距離恒等,此外還需要保證種子群的范圍能夠包含數(shù)據(jù)集Z.
(3)每個(gè)數(shù)據(jù)點(diǎn) zj(j∈{1,2,…,M})均附有一個(gè)初值為0的種子吸附計(jì)數(shù)器ci,用于累計(jì)該數(shù)據(jù)點(diǎn)吸附的種子數(shù)目.
(4)對(duì)于每個(gè)種子 si(i∈{1,2,…,N})分別計(jì)算它與數(shù)據(jù)集Z的各個(gè)數(shù)據(jù)點(diǎn)之間的距離,假設(shè)距離種子si最近的數(shù)據(jù)點(diǎn)為zk.采用歐式距離確定距離種子si的最近數(shù)據(jù)點(diǎn)zk的排序(即下標(biāo)k)的過(guò)程可表示如下:
式中,i∈{1,2,…,N},j∈{1,2,…,M},arg 是argument的縮寫(xiě).式(1)的含義為取使目標(biāo)函數(shù)值最小時(shí)的j值為k.
(5)依據(jù)式(1)確定距離種子si最近的數(shù)據(jù)點(diǎn)zk,將該數(shù)據(jù)點(diǎn)所附帶的種子吸附計(jì)數(shù)器ck加1.如果存在p個(gè)數(shù)據(jù)點(diǎn)與種子si距離相等且均為最近,則等比例地分配給這些數(shù)據(jù)點(diǎn),即距離最近的每個(gè)數(shù)據(jù)點(diǎn)的種子吸附計(jì)數(shù)器均累加1/p.
(6)對(duì)于種子群S中的每個(gè)種子均按式(1)確定距其最近的數(shù)據(jù)點(diǎn),然后按上述規(guī)則更新相應(yīng)數(shù)據(jù)點(diǎn)種子吸附計(jì)數(shù)器的值,直至所有種子都計(jì)算完為止.
圖1 數(shù)據(jù)密度簡(jiǎn)化原理圖Fig.1 Simplified data density scheme
前已述及,每個(gè)數(shù)據(jù)點(diǎn)附帶一個(gè)種子吸附計(jì)數(shù)器,用來(lái)累計(jì)每個(gè)數(shù)據(jù)點(diǎn)吸附的種子數(shù)目.這樣,就有以下兩點(diǎn)結(jié)論:
(1)如果某個(gè)數(shù)據(jù)點(diǎn)的種子吸附計(jì)數(shù)器的值大,則表明該數(shù)據(jù)點(diǎn)吸附的種子多,即該數(shù)據(jù)點(diǎn)的鄰域內(nèi)與其競(jìng)爭(zhēng)分享這些種子的數(shù)據(jù)點(diǎn)不多,該數(shù)據(jù)點(diǎn)密度低;
(2)若某一數(shù)據(jù)點(diǎn)的鄰域內(nèi)存在許多數(shù)據(jù)點(diǎn),那么該數(shù)據(jù)點(diǎn)與其周?chē)臄?shù)據(jù)點(diǎn)在吸附種子時(shí)就存在較為激烈的競(jìng)爭(zhēng),每個(gè)數(shù)據(jù)點(diǎn)所吸附的種子數(shù)目就較少.
以圖1(b)為例,其中小點(diǎn)表示密度較大的數(shù)據(jù)點(diǎn),大點(diǎn)則表示密度相對(duì)較小的數(shù)據(jù)點(diǎn).
數(shù)據(jù)點(diǎn)的密度較低表示在其鄰域內(nèi)出現(xiàn)數(shù)據(jù)點(diǎn)的概率較小,這樣就可把種子吸附計(jì)數(shù)器值高于某個(gè)設(shè)定值的數(shù)據(jù)點(diǎn)歸為不良數(shù)據(jù),在文中把此設(shè)定值稱為種子吸附閾值.
該算法中需確定兩個(gè)參數(shù),即種子數(shù)目和種子吸附閾值.
1.3.1 種子數(shù)目的確定
(1)計(jì)算每個(gè)數(shù)據(jù)點(diǎn)與其它數(shù)據(jù)點(diǎn)之間的最短距離:
式中:i,j∈{1,2,…,M}且 j≠i.
(2)按下式確定所有數(shù)據(jù)點(diǎn)與其它數(shù)據(jù)點(diǎn)間最短距離的均值d,并將其作為種子點(diǎn)與其鄰近種子之間的距離:
(4)在確定了種子間距離和種子范圍之后,即可計(jì)算出種子數(shù)目.
1.3.2 種子吸附閾值的確定
種子吸附閾值可根據(jù)所得全部種子吸附值的總體分布來(lái)確定.這里采用下述方法:先把種子吸附值按從大到小的次序排列,給定某個(gè)百分位數(shù)作為種子吸附閾值.在實(shí)際應(yīng)用中,可以視具體情況靈活調(diào)整該閾值,以取得好的效果.
(3)確定種子范圍,即為了確保種子范圍能夠包括所有數(shù)據(jù)點(diǎn),假設(shè)數(shù)據(jù)集某維的取值范圍為zmin~zmax,則種子集此維的上下邊界 smax與 smin應(yīng)滿足:
對(duì)識(shí)別出來(lái)的需要修正的某時(shí)段負(fù)荷可以用其前m個(gè)同類型日相同時(shí)段的負(fù)荷加權(quán)平均值來(lái)修正[15],整個(gè)過(guò)程按照時(shí)間順序進(jìn)行,當(dāng)檢測(cè)到異常數(shù)據(jù)時(shí)立即修正.修正公式如下:
式中:Ld,t為第 d 天時(shí)段 t的負(fù)荷數(shù)據(jù);Ld-m,t為其前第d-m個(gè)同日期類型日時(shí)段t的負(fù)荷;m為權(quán)值系數(shù),用于表征 Ld-m,t對(duì) Ld,t的影響程度;β 為平滑系數(shù).
文中對(duì)負(fù)荷數(shù)據(jù)進(jìn)行預(yù)處理的步驟可描述如下.
步驟1 選擇待預(yù)測(cè)日前n天的每天96點(diǎn)負(fù)荷數(shù)據(jù)作為樣本,并形成n行96列的二維數(shù)據(jù)集Z,其數(shù)據(jù)點(diǎn)個(gè)數(shù)M=96n;
步驟2 確定種子數(shù)目N;
步驟3 生成一個(gè)恒等間距的種子群S;
步驟4 初始化數(shù)據(jù)點(diǎn)的種子吸附計(jì)數(shù)器ck=0;
步驟5 計(jì)算種子si與所有數(shù)據(jù)點(diǎn)間的距離,找到距離該種子最近的數(shù)據(jù)點(diǎn),并更新該數(shù)據(jù)點(diǎn)的種子吸附計(jì)數(shù)器ck的值;
步驟6 重復(fù)步驟5,直至完成對(duì)所有種子的計(jì)算處理;
步驟7 確定種子吸附閾值;
步驟8 用如此得到的吸附閾值進(jìn)行異常數(shù)據(jù)識(shí)別并按式(5)對(duì)其進(jìn)行修正.
上述步驟可用圖2來(lái)表示.
圖2 數(shù)據(jù)處理流程Fig.2 Flowchart of data processing
選取廣東省2009年統(tǒng)調(diào)負(fù)荷20天每日96點(diǎn)負(fù)荷數(shù)據(jù)共1920個(gè)數(shù)據(jù)點(diǎn)作為樣本,人為設(shè)置了24個(gè)數(shù)據(jù)突變點(diǎn)與缺失點(diǎn),這樣異常數(shù)據(jù)率為24/1920=1.25%.把種子吸附值按從大到小進(jìn)行排列,取第1.25百分位數(shù)(根據(jù)24/1920=1.25%設(shè)置)作為種子吸附閾值.然后,針對(duì)所識(shí)別出的異常數(shù)據(jù),采用最近5個(gè)相同日期類型的同時(shí)段負(fù)荷作為修正時(shí)的歷史參考負(fù)荷數(shù)據(jù),從中選取其溫度與需修正時(shí)段溫度最為接近的3個(gè);取平滑系數(shù)β為0.5,按“近大遠(yuǎn)小”的原則,且滿足式(5)中的約束,取1=0.5,2=0.25,3=0.25.下面從兩個(gè)方面對(duì)負(fù)荷數(shù)據(jù)預(yù)處理的效果進(jìn)行分析.
這里將前述的在兩個(gè)維度中處理的方法與文獻(xiàn)[15]中提出的在一個(gè)維度中處理的方法(改進(jìn)的數(shù)據(jù)橫向比較法)進(jìn)行比較.對(duì)于這兩種方法,均對(duì)選取的樣本數(shù)據(jù)進(jìn)行了異常數(shù)據(jù)的辨識(shí)與修正.對(duì)比結(jié)果見(jiàn)表1.可以看出,基于密度估計(jì)的方法能很好地辨識(shí)異常負(fù)荷數(shù)據(jù)點(diǎn)并給予適當(dāng)修正,其修正負(fù)荷的相對(duì)誤差在5%以內(nèi),且較改進(jìn)的數(shù)據(jù)橫向比較法要好些.
對(duì)使用密度估計(jì)的方法進(jìn)行預(yù)處理前后的負(fù)荷數(shù)據(jù)用圖形直觀顯示,如圖3所示.可以看出,采用負(fù)荷數(shù)據(jù)預(yù)處理能對(duì)異常數(shù)據(jù)進(jìn)行很好地識(shí)別和修正.
表1 兩種方法下的異常數(shù)據(jù)識(shí)別與修正效果對(duì)比1)Table 1 Comparison of identification and correction of abnormal electric load data when using two methods
1)表中異常點(diǎn)(m,n)表示選取數(shù)據(jù)樣本里第m(1≤m≤20)天的第n(1≤n≤96)個(gè)時(shí)刻,方法A和B分別表示文中所述方法與文獻(xiàn)[15]中改進(jìn)的數(shù)據(jù)橫向比較法.
圖3 預(yù)處理前后負(fù)荷數(shù)據(jù)對(duì)比Fig.3 Comparison of load data before and after preprocessing
由于負(fù)荷數(shù)據(jù)序列一般為含有增長(zhǎng)趨勢(shì)和周期變化趨勢(shì)的非平穩(wěn)序列,這里采用差分自回歸移動(dòng)平均模型[16](ARIMA),分別用預(yù)處理前后的負(fù)荷樣本數(shù)據(jù)進(jìn)行預(yù)測(cè).預(yù)測(cè)效果的評(píng)價(jià)指標(biāo)采用日預(yù)測(cè)準(zhǔn)確率,其定義如下:
式中,Ei為預(yù)測(cè)日第i個(gè)時(shí)段的相對(duì)誤差,A為預(yù)測(cè)日的日預(yù)測(cè)準(zhǔn)確率.
所采用的ARIMA模型的參數(shù)確定思想如下:(1)對(duì)原始序列進(jìn)行差分運(yùn)算,消除非平穩(wěn)序列的增長(zhǎng)趨勢(shì);(2)用周期性差分消除序列的周期變化趨勢(shì),得到平穩(wěn)序列;(3)用ARMA模型對(duì)得到的平穩(wěn)序列進(jìn)行擬合,其參數(shù)確定方法采用長(zhǎng)自回歸計(jì)算殘差法[16].
一周內(nèi)的負(fù)荷預(yù)測(cè)效果見(jiàn)表2.由表2可知,采用預(yù)處理后的數(shù)據(jù),平均日預(yù)測(cè)準(zhǔn)確率為93.47%,較未經(jīng)處理時(shí)的91.80%提高了1.67%.可見(jiàn),對(duì)負(fù)荷數(shù)據(jù)進(jìn)行預(yù)處理后,預(yù)測(cè)精度有明顯提高.
表2 預(yù)處理前后日預(yù)測(cè)準(zhǔn)確率對(duì)比Table 2 Comparison of load forecast accuracy before and after load data preprocessing
基于密度估計(jì)的異常數(shù)據(jù)識(shí)別與修正方法可以有效識(shí)別與修正連續(xù)突變或連續(xù)缺失的數(shù)據(jù)點(diǎn),且識(shí)別過(guò)程是基于原始數(shù)據(jù)整體進(jìn)行的,避免了現(xiàn)有的橫向比較法的缺點(diǎn).用廣東省電力系統(tǒng)的實(shí)際數(shù)據(jù)對(duì)所提出的方法進(jìn)行的驗(yàn)證表明,文中方法可行且有效.
即便如此,但還有一類典型異常數(shù)據(jù),即由于信道傳輸?shù)纫鸬脑肼晹?shù)據(jù),對(duì)其進(jìn)行去噪還需進(jìn)一步的研究.
[1] 康重慶,夏清,張伯明.電力系統(tǒng)負(fù)荷預(yù)測(cè)研究綜述與發(fā)展方向的探討 [J].電力系統(tǒng)自動(dòng)化,2004,28(17):1-11.Kang Chong-qing,Xia Qing,Zhang Bo-ming.Review of power system load forecasting and its development[J].Automation of Electric Power Systems,2004,28(17):1-11.
[2] 康重慶,夏清,劉梅.電力系統(tǒng)負(fù)荷預(yù)測(cè)[M].北京:中國(guó)電力出版社,2007:84-86.
[3] 童述林,文福拴.節(jié)能減排環(huán)境下廣東省年最大降溫負(fù)荷的測(cè)算與分析[J].華北電力大學(xué)學(xué)報(bào):自然科學(xué)版,2010,37(5):32-37.Tong Shu-lin,Wen Fu-shuan.Calculation and analysis of the annual maximum high-temperature related load in the energy saving and emission reduction environment in Guangdong Province[J].Journal of North China Electric Power University:Natural Science,2010,37(5):32-37.
[4] Chen Ji-yi,Li Wen-yuan,Lau Adriel,et al.Automated load curve data cleansing in power systems[J].IEEE Trans on Smart Grids,2010,1(2):213-221.
[5] Denholm P,Short W.Evaluation of utility system impacts and benefits of optimally dispatched plug-in hybrid electricvehicles [EB/OL].[2006-10-31].http://www.nrel.gov/docs/fy07osti/40293.pdf.
[6] Karayiannis N B.An axiomatic approach to soft learning vector quantization and clustering[J].IEEE Trans on Neural Networks,1999,10(5):1015-1019.
[7] 康重慶,夏清,相年德.灰色系統(tǒng)的參數(shù)估計(jì)與不良數(shù)據(jù)辨識(shí) [J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,1997,37(4):72-75.Kang Chong-qing,Xia Qing,Xiang Nian-de.Parameter estimation and bad data identification of grey systems[J].Journal of Tsinghua University:Science & Technology,1997,37(4):72-75.
[8] 莫維仁,張伯明,孫宏斌,等.?dāng)U展短期負(fù)荷預(yù)測(cè)方法的應(yīng)用[J].電網(wǎng)技術(shù),2003,27(5):6-9.Mo Wei-ren,Zhang Bo-ming,Sun Hong-bin,et al.Application of extended short-term load forecasting[J].Power System Technology,2003,27(5):6-9.
[9] 葉鋒,何樺,顧全,等.EMS中負(fù)荷預(yù)測(cè)不良數(shù)據(jù)的辨識(shí)與修正 [J].電力系統(tǒng)自動(dòng)化,2006,30(15):85-88.Ye Feng,He Hua,Gu Quan,et al.Bad data identification and correction for load forecasting in energy management system[J].Automation of Electric Power Systems,2006,30(15):85-88.
[10] 張國(guó)江,邱家駒,李繼紅.基于人工神經(jīng)網(wǎng)絡(luò)的電力負(fù)荷壞數(shù)據(jù)辨識(shí)與調(diào)整[J].中國(guó)電機(jī)工程學(xué)報(bào),2001,21(8):104-108.Zhang Guo-jiang,Qiu Jia-ju,Li Ji-hong.Outlier identification and justification based on neural network[J].Proceedings of the CSEE,2001,21(8):104-108.
[11] 張曉星,程其云,周湶,等.基于數(shù)據(jù)挖掘的電力負(fù)荷臟數(shù)據(jù)動(dòng)態(tài)智能清洗[J].電力系統(tǒng)自動(dòng)化,2005,29(8):60-64.Zhang Xiao-xing,Cheng Qi-yun,Zhou Quan,et al.Dynamic intelligent cleaning for dirty electric load data based on data mining[J].Automation of Electric Power Systems,2005,29(8):60-64.
[12] 顧民,葛良全,秦?。诟倪M(jìn)ART2網(wǎng)絡(luò)的電力負(fù)荷臟數(shù)據(jù)辨識(shí)與調(diào)整[J].電力系統(tǒng)自動(dòng)化,2007,31(16):70-74.Gu Min,Ge Liang-quan,Qin Jian.Identification and justification of dirty electric load data based on modified ART2 network [J].Automation of Electric Power Systems,2007,31(16):70-74.
[13] 陳建華,戴鐵潮,張寧,等.確定性合同分解中異常負(fù)荷數(shù)據(jù)的辨識(shí)與修正[J].電力系統(tǒng)自動(dòng)化,2009,33(6):21-24,43.Chen Jian-hua,Dai Tie-chao,Zhang Ning,et al.Load outlier identification and correction for deterministic contract decomposition [J].Automation of Electric Power Systems,2009,33(6):21-24,43.
[14] 王揚(yáng).一種新穎的基于密度的袪噪聲方法[J].自動(dòng)化學(xué)報(bào),2010,36(2):333-346.Wang Yang.A novel algorithm for outlier removal based on density.[J] Acta Automatica Sinica,2010,36(2):333-346.
[15] 李光珍,劉文穎,云會(huì)周,等.母線負(fù)荷預(yù)測(cè)中樣本數(shù)據(jù)預(yù)處理的新方法 [J].電網(wǎng)技術(shù),2010,34(2):149-154.Li Guang-zhen,Liu Wen-ying,Yun Hui-zhou,et al.A new data preprocessing method for bus load forecasting[J].Power System Technology,2010,34(2):149-154.
[16] 楊叔子,吳雅,軒建平,等.時(shí)間序列分析的工程應(yīng)用[M].武漢:華中科技大學(xué)出版社,2007:236-237.