侯 慧,朱韶華,俞菊芳,李顯強,魏瑞增,黃 勇
(1. 武漢理工大學自動化學院,湖北省 武漢市 430070;2. 中國能源建設集團浙江省電力設計院有限公司,浙江省 杭州市 310012;3. 廣東省電力裝備可靠性重點實驗室,廣東電網(wǎng)有限責任公司電力科學研究院,廣東省 廣州市 510080)
風災可能導致嚴重的停電事故,對該災害下配電網(wǎng)停電用戶數(shù)量進行預測分析,可有效提升電網(wǎng)防災減災工作的精準性及科學性,加強極端天氣應對能力,降低發(fā)生停電事故的風險[1]。
許多研究已從不同角度進行了極端天氣下配電網(wǎng)損毀預測方法的探索。文獻[2]以輸電線路與桿塔為研究對象,對臺風、暴雨及其次生災害對配電網(wǎng)故障的影響進行分析。文獻[3]針對單一災害評估的局限,建立了復合自然災害和群發(fā)故障下輸電線路與桿塔的故障率計算模型。文獻[4]采用應力強度干涉模型進行了臺風下的桿塔故障預警模型,但運行效率較低,不適用于配電網(wǎng)這類研究對象數(shù)量龐大的場景。文獻[5]以配電變壓器設備為研究對象,提出了極端天氣下設備故障概率計算方法。然而,現(xiàn)有研究多以配電網(wǎng)設備、桿塔或輸電線路等為研究對象,尚少有文獻對配電網(wǎng)停電用戶的情況進行探討。
隨著配電網(wǎng)停電用戶數(shù)據(jù)的增加及規(guī)范化,使用數(shù)據(jù)驅(qū)動方法進行配電網(wǎng)停電用戶預測成為可能[6]。但臺風隨機性較大,考慮不同影響因素可能導致模型預測精度有偏差,如何選擇合適特征變量成為研究重點。文獻[7]基于公開氣象與地理數(shù)據(jù),實現(xiàn)了颶風下停電范圍及停電空間分布的有效評估。文獻[2]認為有效防御臺風及暴雨引發(fā)大范圍停電,掌握輸電走廊的地形、地質(zhì)及植被等非電氣量數(shù)據(jù)、電氣設備位置及走向等相關(guān)信息也十分重要。文獻[8]提出一種計及天氣因素的配電網(wǎng)故障停電風險等級預測方法,考慮了配電網(wǎng)運行數(shù)據(jù)與負荷數(shù)據(jù),但缺少對地理因素的探討。文獻[9]基于分類回歸樹分析了土壤、地形等因素對配電網(wǎng)停電用戶的影響,但對模型預測精度提升有所欠缺??梢?,現(xiàn)有配電網(wǎng)災損預測研究對影響因素考慮不夠全面,且預測精度和準確度上還有待提升。
因此,針對少有研究涉及配電網(wǎng)停電用戶數(shù)量預測等問題,本文提出了一種基于高效數(shù)據(jù)降維的配電網(wǎng)風災停電用戶數(shù)量預測模型。充分利用較為全面的26 個特征變量(覆蓋氣象、電網(wǎng)、地理等各類因素),構(gòu)建了考慮所有特征變量即全局變量的配電網(wǎng)停電用戶數(shù)量預測模型。然后,著重分析了多種特征變量與響應變量之間的關(guān)系以及各特征變量的重要性等,利用部分依賴圖(partial dependence plots,PDP)進行了特征降維,提取降維后的8 個重要變量進行了配電網(wǎng)停電用戶數(shù)量預測模型二次建模。結(jié)果表明,特征降維后的二次建模在確保精度的情況下減少了數(shù)據(jù)收集工作量,提高了模型計算效率。
為了更好地為災后搶修復電工作提供有力依據(jù),本文以配電網(wǎng)用戶為對象,建立了配電網(wǎng)停電用戶數(shù)量預測評估框架,如圖1 所示。
圖1 配電網(wǎng)停電用戶數(shù)量預測框架Fig.1 Framework for predicting user number in power outages for distribution network
首先,進行了數(shù)據(jù)樣本空間構(gòu)建,考慮氣象、電網(wǎng)與地理因素,廣泛搜集了26 個特征變量,并分析了特征變量之間的相關(guān)性。
其次,以26 個特征變量構(gòu)建了基于隨機森林算法的配電網(wǎng)停電用戶數(shù)量預測模型,并對模型預測結(jié)果進行了分析。
最后,對所有特征變量進行了特征降維,選取其中對結(jié)果影響最大的8 個特征變量作為重要變量進行配電網(wǎng)停電用戶數(shù)量預測模型二次建模,將全局變量建模結(jié)果與特征降維后的二次建模結(jié)果以及傳統(tǒng)No-model 模型結(jié)果進行了對比分析,以說明本文所提配電網(wǎng)停電用戶數(shù)量預測模型以及特征降維方法的有效性及精確性。
風災下配電網(wǎng)停電用戶數(shù)量受多種因素共同影響。為此,首先對配電網(wǎng)停電用戶數(shù)量預測模型的數(shù)據(jù)進行描述,構(gòu)建數(shù)據(jù)樣本空間。
將研究區(qū)域進行網(wǎng)格劃分,一方面可以方便數(shù)據(jù)收集和匹配,另一方面方便進行停電情況可視化展示,為后續(xù)搶修工作提供參考。所以,本文將目標區(qū)域劃分為1 km×1 km 的網(wǎng)格,便于后續(xù)處理。網(wǎng)格劃分情況見附錄A 圖A1[10]。
如附錄A 圖A1 所示,按照網(wǎng)格進行樣本數(shù)據(jù)收集整理,每次臺風下第i 個網(wǎng)格中特征變量xi可表示為:
式中:m 為特征變量個數(shù);xij為第i 個網(wǎng)格中第j 個特征變量的特征值。其中,特征變量為影響停電用戶的變量,主要包括氣象因素、地理因素及電網(wǎng)因素。氣象因素數(shù)據(jù)一般從氣象部門獲得,以網(wǎng)格中心的數(shù)據(jù)值作為本網(wǎng)格該特征變量的特征值。地理因素數(shù)據(jù)從地理部門獲得,其中連續(xù)型變量(如海拔、坡度、經(jīng)緯度)以其網(wǎng)格中心的數(shù)據(jù)值作為本網(wǎng)格中該特征變量的特征值,而離散型變量(如地表類型、下墊面類型)則以網(wǎng)格中占比最高的值作為本網(wǎng)格中該特征變量的特征值。電網(wǎng)因素數(shù)據(jù)由電網(wǎng)公司以網(wǎng)格為單位搜集得到。
為了挖掘影響配電網(wǎng)停電用戶數(shù)量的相關(guān)因素,提高配電網(wǎng)停電用戶數(shù)量預測模型精度,在現(xiàn)有停電預測模型的基礎上將特征變量[11]擴充到26 個,其選取的預測模型特征變量見附錄A 表A1。本文以影響中國廣東省徐聞縣的3 次歷史臺風(“威馬遜(2014)”“海鷗(2014)”“彩虹(2015)”)為樣本數(shù)據(jù)進行配電網(wǎng)停電用戶數(shù)量預測模型建立及評估分析,基于1 km×1 km 的區(qū)域網(wǎng)格劃分,其中每次臺風產(chǎn)生1 641 條樣本,共26 個特征變量A 和2 個響應變量B,為此所有樣本空間大小Φ=(A,B)4923×28。
本文對風災下配電網(wǎng)停電用戶數(shù)量進行預測,為此,將配電網(wǎng)停電用戶數(shù)量Y1作為響應變量,其樣本配電網(wǎng)停電用戶數(shù)量描述性統(tǒng)計如下:最小值為0,最大值為6 121,平均值為70.51,標準差為297.12,第一四分位數(shù)、第二四分位數(shù)及第三四分位數(shù)分別為0、0、18。樣本數(shù)據(jù)中響應變量分布范圍較廣,樣本較多集中于小數(shù)據(jù)值范圍內(nèi)。
然而,每個網(wǎng)格中用戶數(shù)量不同,僅用停電用戶數(shù)量作為響應變量不能很好地反映網(wǎng)格內(nèi)停電嚴重程度。本文將配電網(wǎng)停電用戶數(shù)量規(guī)范化,將響應變量轉(zhuǎn)化為停電占比[12],其中停電占比為停電用戶數(shù)量與配電網(wǎng)用戶數(shù)量的比,預測范圍為0~1,停電占比的大小在一定程度上反映了停電的嚴重程度,停電占比較高的網(wǎng)格,在進行搶修復電時往往需要優(yōu)先考慮。
為了直觀展示各特征變量與響應變量之間的關(guān)系,將各特征變量與響應變量之間的散點圖可視化,見附錄A 圖A2。
由附錄A 圖A2 可知,各特征變量與響應變量之間并沒有顯著線性關(guān)系,說明直接用線性模型進行預測評估效果會較差。為進一步挖掘特征變量與響應變量及特征變量與特征變量之間的關(guān)系,采用皮爾遜相關(guān)系數(shù)進行相關(guān)性定量分析。假設存在2 個變量X 和Y,則對應的皮爾遜相關(guān)系數(shù)rXY[13]的計算公式如下。
式中:Cov(·)表示求協(xié)方差函數(shù);Var(·)表示求方差函數(shù)。
若|rXY|<0.4,則變量X 和Y 為弱相關(guān);若0.4 ≤|rXY|<0.7,則變量X 和Y 為顯著相關(guān);若0.7 ≤|rXY|<1,則變量X 和Y 為強相關(guān)。相關(guān)性熱力圖見附錄A 圖A3,圖中每個網(wǎng)格中的數(shù)字為橫縱坐標所示變量間的皮爾遜系數(shù),其絕對值越大,表明變量間相關(guān)性越強。
從附錄A 圖A3 可以看出,最大風速(X1)與降雨量(X3)、風速持續(xù)時間(X6、X7)及登陸區(qū)域(X11)有較強正相關(guān)性,即臺風在研究區(qū)域登陸,會伴隨較快的風速及較強的降水量,進一步加快的風速使得風速持續(xù)時間較長。
本文在研究初期對多種以監(jiān)督學習思想為中心的機器學習算法進行了對比,最終決定采用效果較優(yōu)的隨機森林算法[14]建立配電網(wǎng)停電用戶數(shù)量預測模型。隨機森林算法是一種基于樹的非參數(shù)集成數(shù)據(jù)挖掘算法,不像具有高方差及低偏差的單個回歸樹,隨機森林算法利用模型平均克服了高方差問題。該算法的優(yōu)點是可以很好地捕獲數(shù)據(jù)的非線性結(jié)構(gòu),并且對異常值和噪聲具有魯棒性,通常還具有很強的預測準確性。
風災下配電網(wǎng)停電用戶數(shù)量預測模型構(gòu)建后,有必要對模型優(yōu)劣進行評估。本文選擇回歸模型評估指標為平均絕對誤差(mean absolute error,MAE)RMAE、均方誤差(mean square error,MSE)RMSE及均方根誤差(root mean square error,RMSE)RRMSE[15]。同時,為了減少異常值對預測準確性的影響,增加了對噪聲魯棒性高的絕對中位差(median absolute deviation,MAD)RMAD和均方對數(shù)誤差(mean squared log error,MSLE)RMSLE。假設數(shù)據(jù)集為{(xi,yi),i=1,2,…,n},其中yi為第i 個網(wǎng)格的響應變量,n 為網(wǎng)格總數(shù),預測回歸函數(shù)為f (xi),則各類誤差表達式如下。
式中:median(·)表示求中位數(shù)函數(shù)。
為了盡可能挖掘各特征變量與響應變量之間的潛在聯(lián)系,本文首先基于全局變量建立配電網(wǎng)停電用戶數(shù)量預測模型。為了證明模型在不同臺風下的普適性,從3 場臺風數(shù)據(jù)中選取1 場作為模型測試樣本,其余2 場臺風作為模型訓練樣本,依次循環(huán)一遍,分別求出3 場臺風中每場臺風在另外2 場臺風作為訓練集下的預測誤差和預測準確度,驗證該預測模型在不同臺風情況下的預測結(jié)果,求取MAE、MSE、RMSE、MAD、MSLE 各指標平均值見表1。
表1 全局變量模型誤差分析Table 1 Error analysis of global variable model
如表1 所示,以停電占比為響應變量構(gòu)建停電數(shù)量預測模型,測試誤差中3 場臺風的MAE、MSE、RMSE、MAD、MSLE 都較低。為了直觀反映模型預測效果,新增模型評估指標R100、R200、R300(分別表示將預測數(shù)量與實際數(shù)量之間的偏差在±100、±200、±300 以內(nèi)的網(wǎng)格視為預測正確的情況下,預測正確網(wǎng)格占全部網(wǎng)格的比例)和R10%、R20%、R30%(分別表示預測數(shù)量與實際數(shù)量之間的偏差占實際數(shù)量的比例在±10%、±20%、±30%以內(nèi)的網(wǎng)格視為預測正確的情況下,預測正確網(wǎng)格占全部網(wǎng)格的比例),則所建停電數(shù)量預測模型的準確率分析見表2。
如表2 所示,預測數(shù)量與實際數(shù)量的誤差在±100、±200、±300 內(nèi)的準確率均高于85%,效果較好,但考慮到大多數(shù)實際網(wǎng)格內(nèi)配電網(wǎng)用戶數(shù)量較少,以誤差對模型進行評估有可能高估模型的預測效果。為此,基于浮動誤差的評估指標R10%、R20%、R30%被構(gòu)建,且都在75%以上,預測準確度較高。綜合表1 和表2 可知,本文所提基于隨機森林算法的配電網(wǎng)停電用戶數(shù)量預測模型表現(xiàn)效果較好。附錄A 圖A4(a)至(f)為3 場臺風實際情況與配電網(wǎng)停電用戶數(shù)量預測模型的預測結(jié)果,從圖中可以看出,針對停電占比較大、停電較為嚴重的網(wǎng)格,所提模型能很好地對其進行預測。
表2 全局變量模型準確率分析Table 2 Model accuracy analysis of global variables
為了評估所構(gòu)建配電網(wǎng)停電用戶數(shù)量預測模型中各特征變量的貢獻程度,基于隨機森林算法,對特征變量進行重要性評估[16],全局變量重要性分析結(jié)果如圖2 所示。
圖2 變量重要性雷達圖Fig.2 Radar chart of variable importance
由圖2 可知,經(jīng)度、緯度、最大風速、風向、降雨量、配電網(wǎng)用戶數(shù)量、線路長度及海拔等特征變量對預測模型精度貢獻較大,而登陸時間、登陸區(qū)域(是否在研究區(qū)域登陸)及風力等級等特征變量對預測模型的精度貢獻較小。為此,本文對全局變量進行特征降維,重點分析了對預測模型貢獻較大的變量,分析研究其對停電配電網(wǎng)用戶數(shù)量的影響,并使用降維后的變量進行建模,分析其與全局變量建模的精度變化情況。
經(jīng)典的PDP[17]有助于可視化響應變量和一個或多個特征之間的平均關(guān)系。當指定特征在其邊際分布上變化時,PDP 會顯示平均預測值的變化。借助PDP,可以更好地理解所訓練的監(jiān)督學習模型。
為了分析各特征變量對響應變量的影響,本文基于變量重要性分析結(jié)果,對建模最重要的9 個特征變量(經(jīng)度X18、緯度X19、配電網(wǎng)用戶數(shù)量X20、最大風速X1、降雨量X3、線路長度X26、有無配電網(wǎng)用戶X12、風向X2及海拔X13)進行分析,作PDP 見圖3。其中,有無配電網(wǎng)用戶對應特征變量用X12表示,有配電網(wǎng)用戶則X12取值為1,反之為0。
由圖3 可知,經(jīng)度X18及緯度X19對配電網(wǎng)停電用戶影響呈正相關(guān)的趨勢,即經(jīng)緯度增加,配電網(wǎng)用戶受影響的程度也增加,分析其主要原因可能為本文研究區(qū)域為沿海區(qū)域,越靠近海域范圍,其配電網(wǎng)用戶遭受臺風襲擊越強烈,影響越嚴重。而模型對于配電網(wǎng)用戶數(shù)量X20的依賴性變化不明顯,影響比較平穩(wěn);對于最大風速X1及降雨量X3,其值越大對配電網(wǎng)停電用戶事故影響越大;地理信息中海拔X13對于配電網(wǎng)停電用戶影響呈負相關(guān)趨勢,即該區(qū)域海拔越高,對配電網(wǎng)停電用戶的影響越小,和經(jīng)緯度影響趨勢較為一致;而對于線路長度X26,其影響呈正相關(guān)趨勢,即線路越長,配電網(wǎng)停電用戶的概率也會越高;對于分類變量有無配電網(wǎng)用戶X12,則呈現(xiàn)較為明顯的正相關(guān),因為只有網(wǎng)格內(nèi)存在配電網(wǎng)用戶,風災下才可能出現(xiàn)配電網(wǎng)停電用戶事故;對于風向X2,從PDP 中并不能識別較為明顯的相關(guān)關(guān)系,主要原因可能為風向數(shù)據(jù)變化迅速,模型并不能較好地抓取其表現(xiàn)特征,在變量重要性分析中,風向變量的重要性較高,因此仍有必要對其進一步分析。
圖3 變量的PDPFig.3 PDP of variables
由于經(jīng)度和緯度、風速和風向、風速和降雨量經(jīng)常同時出現(xiàn),對這些組合的兩兩變量特征依賴進行分析,具體如圖4 所示。
如圖4(a)所示,經(jīng)緯度組合即可確定一個區(qū)域,當經(jīng)度較大而緯度較小時,其對配電網(wǎng)停電用戶的影響較大,該區(qū)域位于研究區(qū)域的東南角,較為靠近臺風登陸區(qū)域。
一般情況下,大風往往會帶來降雨,加重對電力配電網(wǎng)用戶的影響,如圖4(b)所示,風速越大及降雨量越大對配電網(wǎng)停電用戶事故的影響越大。
如圖4(c)所示,風向?qū)ε潆娋W(wǎng)停電用戶的影響并無明顯的相關(guān)關(guān)系,而風速越大,配電網(wǎng)停電用戶的概率越大。所以,在后續(xù)的分析與建模中,剔除了特征變量風向,只用剩下的8 個變量進行建模分析。
圖4 兩兩變量的PDPFig.4 PDP of pairwise variables
第3 章通過全局變量進行建模,并對配電網(wǎng)停電用戶數(shù)量預測結(jié)果進行評估分析,其基于歷史數(shù)據(jù),挖掘較多特征變量以支撐停電數(shù)量預測精度,但在實際情況下,一些特征變量較難獲取,如20 m/s及30 m/s 風速持續(xù)時間等,并且較多變量對預測精度的貢獻較小。為此,本節(jié)擬基于特征降維結(jié)果進行二次建模,并對二次建模模型和考慮全局變量的預測模型的預測精度進行對比分析,以增加模型的效率及可用性。
根據(jù)4.2 節(jié)的分析結(jié)果,本節(jié)擬以對預測結(jié)果最重要的8 個特征變量:經(jīng)度X18、緯度X19、最大風速X1、降雨量X3、配電網(wǎng)用戶數(shù)量X20、線路長度X26、有無配電網(wǎng)用戶X12及海拔X13作為特征變量,進行停電數(shù)量預測模型訓練。在作為樣本的3 場臺風中,選取1 場作為模型測試樣本,其余2 場臺風作為模型訓練樣本,依次循環(huán)一遍,分別求出3 場臺風中每場臺風在另外2 場臺風作為訓練集下的預測誤差和預測準確度,訓練測試誤差結(jié)果見表3。
表3 二次建模誤差分析Table 3 Error analysis of secondary modeling
由表3 可知,使用特征降維后的二次建模模型進行預測,3 場臺風的MAE、MSE、RMSE、MAD、MSLE 等誤差較低,總體預測效果較好。更改評估指標計算模型預測準確率如表4 所示。
表4 二次建模準確率分析Table 4 Accuracy analysis of secondary modeling
由表4 可知,使用8 個變量進行配電網(wǎng)停電用戶數(shù)量預測模型訓練,其R100、R200、R300的準確率都在85%以上,R10%、R20%、R30%的準確率也較高,模型預測精度與全局變量模型精度較為接近,說明使用較少重要變量進行預測模型構(gòu)建,并不會顯著降低模型的精度,同時也使得停電數(shù)量預測評估過程更加高效(省去收集整理其余變量的時間),加速了風災下配電網(wǎng)停電用戶數(shù)量的評估,為進一步應急決策準備條件。附錄A 圖A4(g)至(i)為二次建模下3 場臺風的預測結(jié)果??梢钥闯?,二次建模對于停電較為嚴重的網(wǎng)格有著較高的準確率。
為了進一步分析基于特征降維后二級建模的優(yōu)劣,以臺風彩虹為例,使用No-model 模型(以訓練集的響應變量平均值作為測試臺風預測結(jié)果)與所訓練的特征降維前后的數(shù)據(jù)驅(qū)動模型進行對比,如表5 所示,同時為直觀展示各模型的預測效果,各模型誤差分析結(jié)果如圖5 所示。
表5 各模型對比分析Table 5 Comparative analysis of each model
圖5 各模型誤差分析Fig.5 Error analysis of each model
由表5 和圖5 可知,本文所訓練的配電網(wǎng)停電用戶數(shù)量預測模型的預測效果較好,其MAE、MSE 及RMSE、MAD、MSLE 等誤差均比No-model 模型小,其中相對于No-model 模型,基于全局變量模型的MAE 平均降低了69.5%,MSE 平均降低了79.9%,RMSE 平均降低了55.2%,MAD 平均降低了71.1%,MSLE 平均降低了73.0%。這說明了所訓練全局變量模型的有效性。而相較于全局變量模型,二次建模(僅考慮8 個變量)的MAE 平均降低了0.4%,MSE 平均降低了5.4%,RMSE 平均降低了2.8%,MAD 平均降低了4.8%,MSLE 平均降低了12.0%。結(jié)果表明,二次建模與基于全局變量模型相比誤差小,預測效果更佳。其原因主要為在進行全局變量建模時,引入了較多存在強相關(guān)關(guān)系的特征變量,如降雨量與最大風速、風速持續(xù)時間與登陸區(qū)域等,使得這些變量在模型訓練時可能會占據(jù)虛高的重要度,影響模型預測準確度。
綜上,本文提出的停電數(shù)量預測模型效果較好,其誤差均較No-model 模型降低,同時基于PDP 的特征降維方法較為有效,降維后模型預測效果稍好,而且二次建模的原始數(shù)據(jù)收集整理時間較少,提高了預測評估效率,為應急搶修資源的提前分配、減小停電損失贏得了時間,為電網(wǎng)防災減災工作提供了有效依據(jù)。
本文研究了風災下配電網(wǎng)停電用戶數(shù)量預測評估方法,提出了一種基于高效數(shù)據(jù)降維的配電網(wǎng)停電用戶數(shù)量預測數(shù)據(jù)驅(qū)動模型。
1)以較為全面的26 個特征變量構(gòu)建了配電網(wǎng)用戶數(shù)量預測模型,預測誤差較小,可以較好地對臺風下的配電網(wǎng)停電用戶數(shù)量進行預估。
2)為了使得評估過程更加便捷,本文利用PDP對變量進行了特征降維,選取最重要的8 個特征變量進行二次建模。結(jié)果發(fā)現(xiàn),模型誤差并沒有嚴重增加,反而有略微下降,提高了配電網(wǎng)停電用戶數(shù)量預測模型的計算效率。
3)與No-model 模型進行比較,發(fā)現(xiàn)所訓練的配電網(wǎng)停電用戶數(shù)量預測模型效果較好,MAE、MSE及RMSE 均顯著降低。其中,特征降維后二次建模的預測效果比全局變量模型的預測效果稍好,可在一定程度上減輕數(shù)據(jù)收集工作負擔,為電網(wǎng)防災減災提供有效依據(jù)。
本文特征變量考慮有限,未能把飄掛物、臺風路徑等因素考慮進來,這將是下一步的研究重點。
附錄見本刊網(wǎng)絡版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡全文。