張 銳,趙瑞鋒,王海柱,郭文鑫
(廣東電網(wǎng)有限責任公司電力調度控制中心,廣東 廣州 510600)
穩(wěn)定斷面作為電網(wǎng)重要組成部分,其安全穩(wěn)定與否對電力系統(tǒng)的安全運行有直接影響,需要電網(wǎng)運行人員予以重點監(jiān)視和控制。依靠穩(wěn)定斷面分析來快速識別系統(tǒng)中的重要輸電斷面,研究電力系統(tǒng)的薄弱環(huán)節(jié),對保證電網(wǎng)的安全可靠運行、防止大面積連鎖性故障的發(fā)生具有重要意義。目前,隨著電力系統(tǒng)自動化技術的發(fā)展,開展對海量存儲的斷面歷史狀態(tài)數(shù)據(jù)分析,統(tǒng)計用戶自由定制組成的設備穩(wěn)定斷面的歷史過載信息,進行穩(wěn)定斷面越限預測分析,供調度和方式進行穩(wěn)定斷面預警,具有重要的理論和實踐意義。
現(xiàn)階段,已有很多方法可用穩(wěn)定斷面越限分析,如回歸分析模型、時序分析模型、灰色模型(grey model,GM)[1-3]等,但大部分模型都有一定的局限性?;貧w分析模型對樣本容量要求較高,觀測數(shù)據(jù)過少會嚴重影響試驗結果[4-8],時序分析模型在模型適應性、時序的間距等方面仍需進一步探索[7-10],GM在發(fā)生突變時預測精度極低[9]。針對現(xiàn)有模型過于復雜及效率過低的問題,本文提出了滑動可變窗口方法,對數(shù)據(jù)進行回歸分析,簡化對電網(wǎng)穩(wěn)定斷面越限的分析預測。
本系統(tǒng)使用二次多項式回歸模型和指數(shù)回歸模型,對電網(wǎng)穩(wěn)定斷面越限進行動態(tài)預測。涉及的理論背景將在下文進行介紹。
回歸分析是一種統(tǒng)計學數(shù)據(jù)分析方法,主要目的是了解兩個或多個變量之間是否相關、相關方向與強度,同時建立數(shù)學模型以實現(xiàn)對數(shù)據(jù)的最優(yōu)擬合[11-14]。
回歸分析主要分為兩類:線性回歸分析和非線性回歸分析。線性回歸給定的樣本需要滿足線性關系的前提條件,公式如下:
y=β0+β1x1+β2x2+…+βixi+ε
(1)
即:
y=Xβ+ε
(2)
為了對β進行估計,需要借助一種合適的評判標準來尋找β的最優(yōu)估計。最小二乘法提供了一個標準,其基本原理是使樣本數(shù)據(jù)的均方誤差達到最小,成本函數(shù)為:
(3)
式中:k為樣本的個數(shù)。
其向量形式可以表示為:
β=(XTX)-1XTy
(4)
此方法需要滿足X列向量線性無關。
本文使用二次多項式回歸模型和指數(shù)回歸模型。多項式回歸是線性回歸的推廣,其公式為:
y=β0+β1x+β2x2+ε
(5)
令x1=x、x2=x2,二次多項式可以轉換為二元線性回歸,并且在參數(shù)估計上并不改變β值。
指數(shù)在數(shù)學中代表次方,即有理數(shù)乘方的一種運算形式。指數(shù)回歸的普遍公式為:
(6)
式中:α為指數(shù)回歸系數(shù);β1、β2為指數(shù)偏回歸系數(shù)。本文中只有一個自變量,僅需要用到一元指數(shù)回歸,其公式為:
y=αβx
(7)
時序數(shù)據(jù)的回歸分析,應該考慮到樣本數(shù)據(jù)的即時性。顯然,對于很多工程預測,如果采用的樣本與所需預測的目標點相隔較久,預測結果與實際值會相差比較大,這種情況在進行短期預測時極為明顯。
在時間上呈現(xiàn)出一種連續(xù)的順序的數(shù)據(jù)集,具有時序性。漸近抽樣回歸考慮了數(shù)據(jù)的時序特性,以便采集更好的樣本。漸近抽樣可以動態(tài)獲取時序樣本,如果時序樣本量過小,不能很好地反映總體情況,則逐漸增大樣本量以對其進行優(yōu)化,使最終所獲取的樣本能夠最大程度地反映總體特征。
漸近抽樣回歸是漸近抽樣在回歸中的應用,其數(shù)學描述如下。已知時序數(shù)據(jù)集為:
D={(xi,yi)|i=1,2,…,n}
(8)
式中:x為自變量;y為響應變量。
漸近抽樣擬合是先從數(shù)據(jù)集D中抽取一個時間上距離元素m最近的子集來預測,然后逐步增加樣本量,從而找到一個最優(yōu)的樣本集合以獲取對響應變量ym的最優(yōu)估計。此時的樣本量也就是最優(yōu)樣本量。
S={(Xm-iym-i)|i=k,k-1,…,1}
(9)
S*={(Xm-i,ym-i)|i=k,k-1,…,1}
(10)
為了保證電網(wǎng)斷面運行安全,需要對運行數(shù)據(jù)進行分析預測,由于電網(wǎng)斷面數(shù)據(jù)量大,傳統(tǒng)的數(shù)據(jù)分析算法難以高效準確地進行預測,本文提出了基于滑動可變窗口的動態(tài)數(shù)據(jù)擬合方法。使用二次多項式模型和指數(shù)模型動態(tài)預測短時間內電網(wǎng)斷面越限次數(shù),以更高效、準確地對電網(wǎng)斷面運行狀況進行有效判斷并采取相應措施。
基于可變滑動窗口的動態(tài)數(shù)據(jù)擬合法是一種新型的動態(tài)預測方法。滑動窗口機制中,發(fā)送方根據(jù)確認信息,可以改變窗口的尺寸,對窗口的大小進行調節(jié)以控制流量。將滑動窗口和回歸分析相結合,回歸分析模型對數(shù)據(jù)量要求較大的特點,與穩(wěn)定斷面監(jiān)測數(shù)據(jù)量大的特點相契合,非常適用于電網(wǎng)穩(wěn)定斷面越限的預測分析??勺兓瑒哟翱诜椒ňC合兩種方法的優(yōu)勢,靈活取樣,針對不同的樣本數(shù)據(jù),調整合適的樣本容量。樣本容量即為所謂的窗口,由于預測點是不斷變化的,所以可以看作是可變滑動窗口。
本算法實現(xiàn)動態(tài)選擇樣本容量,由于某個特定的樣本容量很難適應所有的預測點,所以靜態(tài)樣本容量準確性很低。穩(wěn)定斷面每天都需要監(jiān)測,獲取的數(shù)據(jù)量極大,對每個預測點都要選取合適的樣本容量才能進行準確預測。樣本容量過小或過大會導致欠擬合或過擬合,嚴重影響預測的準確性。所以,為了保證預測的準確性,根據(jù)樣本數(shù)據(jù)的不同,所選取的樣本容量也應該隨之改變。本算法針對不同的預測點,動態(tài)獲取窗口大小,在每次預測時,程序都能自動獲取合適的窗口大小及位置,對數(shù)據(jù)進行預測,并在預測結束后自動對下一個數(shù)據(jù)進行預測。在這里不需要人工干預,實現(xiàn)了算法的自動化,減少了人工操作失誤對預測準確性的影響,大大提高了預測結果的準確性。
圖1 算法流程圖Fig.1 Algorithm flowchart
2.2.1 樣本容量的動態(tài)選取
綜合二次多項式模型和指數(shù)模型這兩種候選模型,確定樣本容量下限為4。根據(jù)上文介紹,二次多項式擬合有β0、β1、β2三個系數(shù),所以樣本量至少為3。但是在樣本容量為3時,會出現(xiàn)完全擬合的情況。此時,對其他數(shù)據(jù)進行預測,很難得到預期的結果。因此,只有在樣本中非空數(shù)據(jù)的個數(shù)≥4的條件下,才能進行二次多項式模型擬合和指數(shù)模型擬合。選擇窗口下限為4,滿足了最低樣本容量要求。
通過多次迭代提高擬合的準確性,計算樣本均方誤差。在樣本均方誤差達到收斂時,確定此時的最小樣本均方誤差。此次迭代的樣本容量即為最優(yōu)樣本容量。
2.2.2 模型的動態(tài)選取
本算法涵蓋兩種模型,分別是二次多項式模型和指數(shù)模型。本文主要研究的是電網(wǎng)穩(wěn)定斷面越限次數(shù)的變化,曲線走勢與二次多項式以及指數(shù)函數(shù)曲線走勢相似,故使用二次多項式擬合和指數(shù)擬合比較合適。
導入數(shù)據(jù)后,進行多次迭代計算,每次均選取一定的樣本數(shù)據(jù)進行二次多項式擬合和指數(shù)擬合,得到樣本均方誤差。在進行一次計算時,可以得到在當前樣本容量下兩種模型擬合的樣本均方誤差,選取較小值為此時的最小均方誤差,相應的模型即為此時的最優(yōu)模型。多次計算后,得到最優(yōu)樣本容量時,對應的模型即為最終選取的最優(yōu)模型。
if(abs(e_rmse) { good_model<--"指數(shù)模型" chk_err<-- e_err_g chk_yh<-- eyh_g select_rmse<-- e_rmse; select_step<-- es_g } else if(abs(e_rmse) > abs(p2_rmse)) { good_model<--"二次多項式模型" chk_err<-- p2_err_g chk_yh<-- p2yh_g select_rmse<—— p2_rmse select_step<-- p2s_g } 2.2.3 評判標準的確定 本算法選取最小均方誤差值(root mean square error,RMSE)為評判標準,對二次多項式模型和指數(shù)模型的預測準確度進行比較,選取最優(yōu)模型。RMSE的計算公式為: (12) 絕對誤差是預測值與實測值的差的絕對值,與樣本均方誤差一樣,均能反映預測結果的好壞,但以最小絕對誤差作為最優(yōu)方法的衡量指標,容易出現(xiàn)“過擬合”現(xiàn)象。同時,選擇樣本均方誤差作為標準滿足大數(shù)定律,其假設隨機誤差項滿足“零均值”和“同方差”的正態(tài)分布假設,即ε~N(0,σ2)。所以與最小絕對誤差相比較,樣本均方誤差值更適合作為模型擬合的衡量指標。 2.2.4 收斂性 在實際生活中,之前的穩(wěn)定斷面越限數(shù)據(jù),對后續(xù)數(shù)據(jù)的影響微乎其微,所以在預測時樣本量不宜過大。為了控制樣本量的大小,本算法對迭代次數(shù)加以限制。 算法對均方誤差進行觀測,當均方誤差逐漸收斂時,停止迭代。在樣本容量遞增的過程中,如果樣本均方誤差有所減小,則繼續(xù)迭代尋找最優(yōu)均方誤差;如果樣本均方誤差在7次迭代中都沒有減小,可認為均方誤差已經收斂,不再擴大樣本量,選取最優(yōu)模型,跳出迭代。 if (p2fg.rmse < p2_rmse) { p2yh_g<--p2yh p2_err_<--p2_err p2s_g<--step p2_rmse<--p2fg.rmse p2_cnt<--0 } else p2_cnt<--p2_cnt+1 本算法根據(jù)伯努利試驗控制迭代的次數(shù)。將樣本容量增加1來求解局部最優(yōu)看成是一次伯努利試驗,每次試驗可認為是相互獨立的(每次都有可能達到最優(yōu))。每次試驗中結果能否達到最優(yōu)的概率均為0.5,如果經過連續(xù)7次試驗都不能改善樣本均方誤差,7次以后再次改善樣本均方誤差值的概率小于0.003 91。在給定顯著性水平為0.01時,7次試驗以后再次改善樣本均方誤差這一事件為小概率事件,在一次試驗中往往不會發(fā)生,此時認為在置信度為99%的情況下模型取到最優(yōu)。此評判標準的添加,有效避免了過擬合的發(fā)生,同時讓擬合的效果達到最優(yōu)。 本試驗的測試平臺及參數(shù)為:Intel酷睿i5、8G內存、Windows7,使用Matlab軟件進行結果仿真。 本試驗基于前文所介紹的預測算法,選取某穩(wěn)定斷面2015年1月至2017年6月的越限數(shù)據(jù)進行預測,利用Matlab編制可變滑動窗口預測法對所選觀測資料進行計算擬合。 擬合所得到的樣本均方誤差點圖和直方圖分別如圖2、圖3所示。直觀顯示:0.2、0.4、0.6可以作為該測點下的三個閾值標準。 圖2 樣本均方誤差點圖Fig.2 Point diagram of sample mean square error 圖3 樣本均方誤差直方圖Fig.3 Histogram of sample mean square error 樣本均方誤差累計分布如表1所示,樣本均方誤差小于0.4的所占比例達到95%。在所選擬合模型準確性的衡量指標為0.4時,如果某次擬合模型的均方誤差大于0.4,表明所確定的動態(tài)最優(yōu)模型在95%的準確率的情況下是不可信的,這時應該予以監(jiān)控。 表1 樣本均方誤差累計分布表Tab.1 Cumulative distribution of sample mean square error 為進一步探討動態(tài)最優(yōu)模型的預測能力,選取所選擇樣本緊鄰的下一次測點數(shù)據(jù)進行檢驗,得到校驗誤差如圖4所示。累計分布如表2所示。 圖4 校驗誤差Fig.4 Calibration error 表2 累計分布表Tab.2 Cumulative distribution 根據(jù)試驗結果得到的最優(yōu)模型步長的數(shù)據(jù)分布如圖5所示。樣本量在15以內所占的比例達到95.78%(如表3),擬合的結果比較理想。樣本容量大多數(shù)在15以內,超過20的僅為少數(shù),可見樣本容量不需要太大,否則只會出現(xiàn)過擬合現(xiàn)象,使預測效果變差。 圖5 步長分析Fig.5 Step length analysis 表3 樣本步長累計分布表Tab.3 Cumulative distribution of sample step size 電網(wǎng)穩(wěn)定斷面越限預測的研究,在理論和實踐上都具有重要意義。本文針對電網(wǎng)穩(wěn)定斷面越限數(shù)據(jù)特點,提出了一種基于滑動可變窗口的電網(wǎng)穩(wěn)定斷面預測方法。該方法利用二次多項式模型和指數(shù)模型,實現(xiàn)了最優(yōu)擬合模型的動態(tài)獲取,同時針對不同的模型,動態(tài)獲取兩種模型的最優(yōu)樣本,大幅減小試驗誤差。在選擇最優(yōu)樣本容量時,算法對樣本容量進行調整,有效避免了“欠擬合”和“過擬合”現(xiàn)象。試驗結果表明,該方法對電網(wǎng)穩(wěn)定斷面越限預測的準確性高。該方法也具有適用性,在應用于其他領域時,根據(jù)問題的實際情況,選擇相應的模型,也可以達到很好的預測效果。 該方法仍有一些方面需要完善。在數(shù)據(jù)量特別大的情況下,運行該方法需要耗費大量時間,系統(tǒng)計算成本較高,在以后的研究中,將改進算法的運行速度,使算法更高效、精簡。3 試驗與評估
4 結束語