陳 濤,徐學偉,莊雷明,胡向峰,周 超
(臨沂供電公司,山東 臨沂 276003)
電力系統(tǒng)中長期負荷預測是制定電力系統(tǒng)發(fā)展計劃的基礎,也是規(guī)劃工作的重要組成部分,其目的是為合理安排電源和電網(wǎng)的建設進度提供宏觀決策的依據(jù),使電力建設滿足國民經(jīng)濟增長和人民生活水平提高的需要[1]。電力負荷受經(jīng)濟、社會等不確定因素影響很大,進行準確地負荷預測是一項復雜的工作,而正確處理相關因素的影響是提高中長期負荷預測精度的關鍵。
線性回歸分析-結果準確、模型解釋能力強的特點,因此在電力負荷預測中得到了廣泛應用[2]。但采用單一的線性回歸模型不能很好地處理影響因素之間的多重相關性、歷史數(shù)據(jù)的模糊性等問題。文獻[3-4]采用偏最小二乘回歸分析進行負荷預測,較好地克服了影響因素之間的多重相關性的問題;在此基礎上,文獻[5]根據(jù)年度負荷以及主要影響因素的趨勢變化特點,采用灰色模型對其進行模擬,以經(jīng)驗風險最小的預測值代替原始數(shù)據(jù)進行偏最小二乘建模;文獻[6-7]從影響因素對負荷影響的不確定性出發(fā),應用模糊線性回歸法進行中長期負荷預測;文獻[8]提出一種基于帶反饋的多元線性回歸法的負荷預測模型。上述各方法均在一定程度上改善了預測效果。
粗糙集(rough sets,RS)理論是波蘭數(shù)學家Z.Pawlak于1982年提出的一種數(shù)據(jù)分析理論,是研究不精確、不一致、不完整等各種不完備信息的表達、學習、歸納等的方法,其主要思想就是在保持分類能力不變的前提下,通過知識約簡,導出問題的決策或分類規(guī)則。近年來,RS理論在電力系統(tǒng)中的應用越來越廣泛和深入[9-10]。本文采用粗糙集理論,對影響中長期負荷的各種可能因素進行約簡分析,得到影響負荷的主要因素,在此基礎上,建立多元線性回歸模型進行中長期負荷預測。
定義2 令R為一族等價關系,對于每個屬性子集P,若P∈R,定義一個二元不可分辨關系ind(P):ind(P)={(x,y)∈U×U|?a∈P,f(x,a)=f(y,a)},ind(P)是論域U上的等價關系,關系ind(P)構成U的一個劃分,用U|ind(P)表示,其中的任一元素稱為等價類。
定義3 令R為一族等價關系,R∈R如果ind(R)=ind(R)-{R},則稱R為R中不必要的;否則稱R為R中必要的。如果每一個R∈R都為R中必要的,則稱R為獨立的;否則稱R為依賴的。如果R是獨立的,P?R,則P也是獨立的。設Q?P,如果Q是獨立的,且ind(P)=ind(Q),則稱Q為P的一個約簡。P中所有必要關系組成的集合稱為P的核,記作core(P)。
定義4 在信息系統(tǒng)S中,若 P,Q?A則 Q的P-正區(qū)域posp(Q)定義為
定義5 屬性a∈C-R(R?C)對于決策屬性集 D 的重要度 SGF(a,R,D)定義為
其中,γR=|posR(D)|/|U|
首先采用粗糙集理論的屬性約簡算法對影響負荷的因素進行約簡分析,去除冗余屬性,得到影響負荷的決定性因素。然后利用所得的決定性因素建立多元線性回歸模型進行負荷預測,方法流程如圖1所示。
圖1 預測方法流程圖
運用粗糙集理論時,要求決策表中的屬性值為離散值。因此,必須對決策表中的連續(xù)屬性值進行離散化,即把連續(xù)屬性的取值范圍或取值區(qū)間劃分為若干個數(shù)目不太多的小區(qū)間,其中每個小區(qū)間對應著一個離散的符號。本文采用等距離離散化方法進行數(shù)據(jù)離散化處理[12]。
1)計算屬性的區(qū)間長度
2)確定屬性的區(qū)間范圍
對于第i個屬性的各區(qū)間的范圍為
3)計算屬性的量化值
每個屬性共有Ni個區(qū)間,對于一個屬性中的值,如果它位于第 n(n=1,2,...,Ni)個區(qū)間,則其值為n。
決策表的簡化就是簡化決策表的屬性,屬性約簡是指在保持信息系統(tǒng)的分類或決策能力不變的條件下,刪除其中的冗余屬性。求所有的約簡或相對約簡已被證明是NP完全問題,故一般采用啟發(fā)式信息找出最優(yōu)或次優(yōu)約簡。但很多算法都是不完備的,不能保證一定能得到約簡。本文采用文獻[13]提出的一種完備的屬性約簡算法對影響負荷的因素進行約簡。
1)計算C相對于D的核coreD(C);
2)RED=coreD(C)(RED為C相對于D的某個約簡);
3)計算 pocC(D),U/RED 和 posRED(D);
4)若|posC(D)|≠posRED(D),反復執(zhí)行:
在 C-RED 中找出使 SGF(a,RED,D)取最大值的屬性a;
將a加入到RED的尾部,計算新的U|RED和posRED(D)。
5)從RED的尾部開始,從后往前對每個屬性a進行判斷是否可?。?/p>
若a∈coreD(C),則從a開始往前的屬性都是不可省的,算法結束,RED就是所求結果:否則,若 |posC(D)|=|posRED-{a}(D)|,則說明 a 是可省的,從RED中把a刪除。
需要說明的是,本文只列出了屬性約簡算法的關鍵步驟,具體細節(jié)請參考文獻[13]。
多元線性回歸模型為
式中:a0,a1,...am為回歸系數(shù);ε 是隨機誤差。
在負荷預測中,將歷史數(shù)據(jù)代入式(4)可得
采用最小二乘法求未知參數(shù)a0,a1,…,am的估計量,代入式(4)得回歸方程
為進一步分析回歸模型所反映的變量之間的關系是否符合客觀實際,引入的影響因素是否有效,需要對回歸模型進行檢驗。常用的檢驗方法有;
1)R檢驗法。通過復相關系數(shù)R檢驗自變量與因變量之間的線性相關程度。若R較大,則多元回歸模型的線性近似程度較高;若R較小,則多元回歸模型的線性近似程度較低。
2)F檢驗法。通過F統(tǒng)計量檢驗自變量與因變量之間回歸效果的顯著性。若回歸效果不顯著,則該回歸模型就不能用來預測,需分析其原因另選自變量或改變預測模型的形式。
本文采用文獻[3]中的算例,該算例收集了四川省1978-1996年年用電量及其影響因素的資料,見表1。表中電量單位為“億kWh”,人口單位為“萬人”,產(chǎn)業(yè)值單位為“億元”。影響年用電量的因素有國民生產(chǎn)總值x1,第一產(chǎn)業(yè)生產(chǎn)值x2,第二產(chǎn)業(yè)生產(chǎn)值x3,第三產(chǎn)業(yè)生產(chǎn)值x4和總人口x5。用1978-1993年資料建模,1994-1996年資料進行檢驗。
表1 四川省年用電量及其影響因子的基本資料
為了減少數(shù)據(jù)尺度對分析結果的影響,從表1中生成1979-1993年各屬性的增量,作為分析負荷與影響因素之間關系的基礎數(shù)據(jù),如表2所示。
表2 用年增長率表示的負荷及影響因素數(shù)據(jù)(1979-1993)
將每個條件屬性和決策屬性均分為4個等級,利用式(3)確定離散各屬性區(qū)間,根據(jù)各屬性區(qū)間大小對數(shù)據(jù)進行離散,結果如表3所示。
表3 離散化的決策表
在進行屬性約簡時,調用文獻[14-15]利用MATLAB編寫的粗糙集數(shù)據(jù)分析工具箱(rough set data analysis,rsda)中的函數(shù) redu 實現(xiàn),該函數(shù)采用的約簡算法為文獻[12]提出的算法。函數(shù)的調用格式為 y=redu(c,d,S)。 其中,信息系統(tǒng)決策表由矩陣S表示,向量c和d分別為條件屬性C和決策屬性D的編號。
屬性約簡結果表明國民生產(chǎn)總值,第二產(chǎn)業(yè)生產(chǎn)值,第三產(chǎn)業(yè)生產(chǎn)值和總人口這4個因素是不能約簡掉的,而第一產(chǎn)業(yè)對負荷影響并不大。
利用1978—1993年的國民生產(chǎn)總值,第二產(chǎn)業(yè)生產(chǎn)值,第三產(chǎn)業(yè)生產(chǎn)值、總人口和負荷的歷史數(shù)據(jù)建立多元線性回歸模型,采用最小二乘法進行參數(shù)辨識,可得
以上結果置信度95%,且R2=0.993,說明有99.3%的影響因素可以由此模型來解釋,表明所建立的回歸模型較好??梢圆槌?,當α=0.05時,γα=0.497 3,|R|=0.996 5>0.497 3。 并且 F=387.433 1,說明回歸方程的回歸效果顯著。
利用式(7)及表1中的數(shù)據(jù)對1994—1996年的用電量進行預測,結果如表4所示。并將本文方法與文獻[3]采用的偏最小二乘回歸法的預測效果進行對比。兩種方法預測結果的平均絕對百分比誤差(MAPE)如圖2所示。由表4和圖2可以看出,本文提出的中長期負荷預測法的預測效果優(yōu)于偏最小二乘回歸法。
表4 預測結果比較
粗糙集完全從歷史數(shù)據(jù)中發(fā)掘信息,不需要除數(shù)據(jù)之外的任何先驗知識,可以有效地從影響負荷的眾多相關因素中優(yōu)選出相關度最高的因素,適用于中長期負荷預測。
圖2 預測方法的平均絕對百分比誤差比較
采用了一種高效、完備的屬性約簡算法對影響負荷的因素進行屬性約簡。
利用多元線性回歸建立預測模型,具有有模型簡單、預測結果準確、模型解釋能力強的特點。
實際電力系統(tǒng)負荷預測算例表明所提方法可以有效地提高負荷預測精度,具有一定的實用性。