虞殷樹,陳東海,朱 耿,賀 旭,白文博
(1. 國網(wǎng)浙江省電力有限公司寧波供電公司,浙江 寧波 315000;2. 寧波市電力設計院有限公司,浙江 寧波 315000)
短期電力負荷預測是調度計劃安排的重要依據(jù),對于電力系統(tǒng)的安全經濟運行具有重要意義[1-3]。在進行地區(qū)電網(wǎng)的短期負荷預測時,由于各個行業(yè)的負荷特性差異較大,需利用配電網(wǎng)臺賬信息按所屬行業(yè)對負荷進行分解和預測,以提高負荷預測的精細化程度。隨著各行業(yè)歷史負荷數(shù)據(jù)、氣象數(shù)據(jù)等多元數(shù)據(jù)的積累,利用大數(shù)據(jù)、機器學習技術對各行業(yè)的負荷特性和影響因素進行分析,有助于提高對不同行業(yè)負荷的預測準確性,進而提升短期電力負荷預測的效果[4-6]。
目前,針對短期電力負荷預測已有不少研究。文獻[7]通過集合經驗模態(tài)分解將電力負荷分解為低頻和高頻分量,再分別使用線性回歸和神經網(wǎng)絡方法對低頻和高頻分量進行預測;文獻[8]采用LSTM(長短期記憶)網(wǎng)絡和XGBoost(極端梯度增強)模型分別進行負荷預測后,使用誤差倒數(shù)法對兩者的預測結果進行組合,得到最終的預測結果;文獻[9]對用戶負荷數(shù)據(jù)進行聚類處理,得到不同負荷特性的用戶群,并針對不同用戶群進行負荷預測模型構建,最終將各個用戶群的預測負荷整合為全局預測結果;文獻[10]采用卷積神經網(wǎng)絡和循環(huán)神經網(wǎng)絡對歷史負荷序列的規(guī)律進行特征學習和提取,并引入注意力機制提升短期負荷預測的精度。上述研究僅利用歷史負荷數(shù)據(jù)進行短期負荷預測,而行業(yè)負荷不僅與歷史負荷數(shù)據(jù)有內在的相關性,也受到氣象、日類型等外部因素的顯著影響,需要對外部影響因素加以考慮,以提升負荷預測的準確性。
為此,一些研究在進行短期負荷預測時考慮了外部影響因素與負荷的關聯(lián)性。文獻[11-12]采用Pearson相關系數(shù)分析電力負荷與外部影響因素的相關性,為負荷相似日的選擇提供依據(jù),但Pearson 相關系數(shù)只適用于線性相關性的分析,無法捕捉到電力負荷與外部影響因素的非線性相關性;文獻[13-14]采用Copula函數(shù)衡量電力負荷與外部影響因素之間的非線性相關性,但是Copula函數(shù)的具體形式需要人為確定,關聯(lián)分析的準確性容易受到主觀因素的影響,同時上述研究的關聯(lián)性分析結果只用于選取一部分與負荷關聯(lián)性強的外部影響因素,無法全面地量化各個因素對電力負荷的影響;文獻[15-18]采用機器學習方法對電力負荷與外部影響因素之間的關聯(lián)性進行自動提取,但機器學習方法的可解釋性較差,且在沒有足夠大的數(shù)據(jù)量時容易受到變量隨機波動的影響而陷入過擬合。
針對上述問題,本文提出一種基于關聯(lián)分析和卷積神經網(wǎng)絡的行業(yè)短期電力負荷預測模型。通過優(yōu)化k-means 聚類算法和引入標準互信息指標,改進了外部影響因素與負荷關聯(lián)性的計算方法,并基于卷積神經網(wǎng)絡設計一種計及外部影響因素關聯(lián)性的負荷預測網(wǎng)絡,提升了地區(qū)電網(wǎng)各行業(yè)短期電力負荷預測的準確性。
基于關聯(lián)分析和卷積神經網(wǎng)絡的行業(yè)短期電力負荷預測模型整體結構如圖1所示。將歷史負荷數(shù)據(jù)、外部影響因素數(shù)據(jù)、行業(yè)負荷數(shù)據(jù)都劃分為訓練集和測試集,在訓練階段使用訓練集的數(shù)據(jù)進行關聯(lián)性結果的計算和負荷預測網(wǎng)絡的訓練,在測試階段則利用訓練后的負荷預測網(wǎng)絡進行行業(yè)負荷預測。
圖1 行業(yè)短期電力負荷預測模型整體結構Fig.1 Overall structure of the short-term power load forecasting model for industrial sectors
訓練階段主要分為優(yōu)化k-means 聚類、改進關聯(lián)分析和負荷預測網(wǎng)絡訓練3 個步驟,具體如下:
1)對k-means 聚類算法進行優(yōu)化,并采用優(yōu)化后的k-means 聚類算法對外部影響因素數(shù)據(jù)和行業(yè)負荷數(shù)據(jù)進行聚類處理,以改善后續(xù)關聯(lián)分析的準確性。
2)對關聯(lián)分析方法進行改進,以標準互信息為關聯(lián)性指標,并采用聚類后的數(shù)據(jù)代替原始數(shù)據(jù)進行標準互信息計算,定量分析各種外部影響因素與行業(yè)負荷的關聯(lián)性。
3)設計一種計及外部影響因素關聯(lián)性的負荷預測網(wǎng)絡,將關聯(lián)性結果作為網(wǎng)絡的超參數(shù),并以訓練集的歷史負荷數(shù)據(jù)和外部影響因素數(shù)據(jù)為輸入特征、行業(yè)負荷數(shù)據(jù)為輸出標簽,對負荷預測網(wǎng)絡進行訓練。
在測試階段,將測試集的歷史負荷數(shù)據(jù)和外部影響因素數(shù)據(jù)作為輸入特征,輸入訓練后的負荷預測網(wǎng)絡,即可輸出相應的行業(yè)負荷預測值。
在分析外部影響因素與行業(yè)負荷之間的關聯(lián)性前,需要對數(shù)據(jù)進行聚類處理,以提高關聯(lián)分析的準確性。對于無監(jiān)督的聚類問題,目前較為常用的是k-means 聚類方法[19],但k-means 聚類方法需要人為指定聚類的簇數(shù)k,適應性不夠且主觀性較強,聚類效果容易受到數(shù)據(jù)數(shù)量和分布情況的影響。為此,本文對k-means 聚類算法進行優(yōu)化,采用平均輪廓系數(shù)進行最佳k值的確定,避免聚類算法對于人工經驗的依賴,提高算法的適應性。優(yōu)化后的k-means聚類算法步驟如下:
1)輸入待聚類數(shù)據(jù)(例如溫度數(shù)據(jù))在一個時間段內所有的C個采樣值x(c)(c∈{1,2,…,C}),并設定k值的上限kmax為10。
2)令k=2。
3)采用k-means 聚類算法對所有采樣值進行一維聚類,聚類時以采樣值和聚類中心數(shù)值之差的絕對值作為劃分聚類簇的標準,聚類后生成k個簇。
4)聚類完成后,計算每個采樣值x(c)的輪廓系數(shù)l(c)。若采樣值x(c)為孤立點,即x(c)所在簇內只有x(c)一個采樣值,則其輪廓系數(shù)l(c)為0;否則,按照式(1)至(4)計算x(c)的輪廓系數(shù)l(c):
式中:x(j)為x(c)所在簇內的其他采樣值;x(q)為x(c)所在簇外第p個簇內的采樣值;l1(c)為簇內凝聚度;l2(p,c)為x(c)所在簇與其他第p個簇的簇間分離度;l3(c)為所有簇間分離度的最小值;n1(c)為x(c)所在簇內的采樣值數(shù)目;n2(p,c)為除x(c)所在簇外第p個簇內的采樣值數(shù)目。
5)計算出每個采樣值x(c)對應的輪廓系數(shù)l(c)后,求出此時的k值對應的平均輪廓系數(shù):
6)令k自加1,若k>kmax,則繼續(xù)執(zhí)行步驟7),否則返回步驟3)。
7)取所有的平均輪廓系數(shù)l0(k)(k∈{2,3,…,kmax})中的最大者所對應的k值,作為最佳的聚類簇數(shù),記為k0,并將步驟3)中聚類簇數(shù)為k0時的聚類結果作為最終的聚類結果。
優(yōu)化k-means聚類后共形成k0個簇,每個簇都有1個聚類中心,聚類中心的值為簇內所有采樣值的平均值。
行業(yè)負荷和外部影響因素之間的相關性往往是非線性的,例如溫度因素對居民負荷的影響,在低溫和高溫時居民負荷都會升高,而溫度適中時居民負荷較低。若采用Pearson系數(shù)、Spearman系數(shù)等常用的相關系數(shù)對相關性進行計算,由于正相關部分與負相關部分互相抵消,將得出負荷與溫度相關性接近于0的結論,不符合實際情況。
為此,本文借鑒信息論中的互信息概念[20-21],采用標準互信息對行業(yè)負荷與外部影響因素的關聯(lián)性進行分析,以充分考慮兩者的非線性相關性。對于待分析的行業(yè)負荷與外部影響因素,已知一個時間段內C個采樣時刻的影響因素值x(c)和負荷值y(c)(c∈{1,2,…,C}),所有x(c)構成序列X,所有y(c)構成序列Y,其中x(c)共有M種可能取值(M≤C),記為x1(m)(m∈{1,2,…,M}),y(c)共有N種可能取值(N≤C),記為y1(n)(n∈{1,2,…,N}),影響因素與負荷的標準互信息值J(X;Y)計算方法如下:
其中:
式中:I(X;Y)表示X與Y的互信息值;H(X)和H(Y)分別為X和Y的信息熵;P(x1(m),y1(n))表示同時滿足x(c)=x1(m)和y(c)=y1(n)的采樣時刻占所有采樣時刻的比例;P(x1(m))表示滿足x(c)=x1(m)的采樣時刻占所有采樣時刻的比例;P(y1(n))表示滿足y(c)=y1(n)的采樣時刻占所有采樣時刻的比例;J(X;Y)的取值范圍為[0,1],其值越大表明影響因素與負荷的關聯(lián)性越強。
但是,直接采用原始數(shù)據(jù)X與Y的標準互信息會使關聯(lián)性分析受到數(shù)值細微差異的影響,無法把握變量的主要變化趨勢。以表1中的兩組數(shù)據(jù)為例,每組數(shù)據(jù)均由4個采樣時刻的溫度值和負荷值構成,按照式(6)—(9)計算,第1 組數(shù)據(jù)的J(X;Y)為1(表明溫度和負荷的關聯(lián)性很強),而第2組數(shù)據(jù)的J(X;Y)為0(表明溫度和負荷的關聯(lián)性很弱),兩組數(shù)據(jù)的關聯(lián)性結果差別很大,但實際上兩組數(shù)據(jù)僅僅存在小數(shù)點后的細微差別,表明其中一組數(shù)據(jù)的關聯(lián)性結果不合理。
表1 溫度與負荷采樣數(shù)據(jù)示例Table 1 Temperature and load data samples
按照實際經驗,在溫度值x(c)出現(xiàn)較明顯的變化(從約20 ℃變化到約30 ℃)時,如果負荷值y(c)的分布基本沒有變化(50%概率約為1 000 MW,50%概率約為2 000 MW),則應當認為溫度和負荷的關聯(lián)性很弱,因此對于這兩組數(shù)據(jù)而言,第2組數(shù)據(jù)J(X;Y)=0的結果更為合理。
為了避免由于數(shù)值細微差異導致關聯(lián)性結果不合理的問題(如表1中第1組數(shù)據(jù)的情況),本文對關聯(lián)分析方法進行改進,采用經過聚類處理后的數(shù)據(jù)替換原始數(shù)據(jù),進行標準互信息的計算。記采樣值x(c)所在簇的聚類中心值為u(c),所有u(c)構成序列U,采樣值y(c)所在簇的聚類中心值為v(c),所有v(c)構成序列V。u(c)共有F種可能取值(F≤C),記為u1(f)(f∈{1,2,…,F(xiàn)}),v(c)共有G種可能取值(G≤C),記為v1(g)(g∈{1,2,…,G}),則影響因素與負荷經過聚類中心替換后標準互信息值J0(U;V)計算方法如下:
其中:
式中:I0(U;V)為u(c)與v(c)的互信息值;H0(U)和H0(V)分別為U和V的信息熵;P(u1(f),v1(g))為同時滿足u(c)=u1(f)和v(c)=v1(g)的采樣時刻占所有采樣時刻的比例;P(u1(f))為滿足u(c)=u1(f)的采樣時刻占所有采樣時刻的比例;P(v1(g))為滿足v(c)=v1(g)的采樣時刻占所有采樣時刻的比例;J0(U;V)的取值范圍為[0,1],其值越大表明影響因素與負荷的關聯(lián)性越強。
表1的兩組原始數(shù)據(jù)經過聚類處理后如表2所示,表2的兩組數(shù)據(jù)按照式(10)—(13)計算得到的J0(U;V)均為0,與實際經驗相符,說明原始數(shù)據(jù)經過聚類處理后,求得的標準互信息能更準確合理地反映行業(yè)負荷與外部影響因素的關聯(lián)性。
表2 聚類處理后溫度與負荷采樣數(shù)據(jù)示例Table 2 Temperature and load data samples after clustering
卷積神經網(wǎng)絡具有模型復雜度較低、易于并行計算的優(yōu)勢,且可通過多尺寸窗口同時提取多種時間跨度的信息,在負荷預測任務中被廣泛采用[22-23]。本文采用卷積神經網(wǎng)絡對原始數(shù)據(jù)進行特征提取,以挖掘原始數(shù)據(jù)中的關鍵信息,用于短期負荷預測。原始數(shù)據(jù)包括歷史負荷數(shù)據(jù),以及溫度、相對濕度、風速、降水量、節(jié)假日等外部影響因素數(shù)據(jù)。
對于歷史負荷數(shù)據(jù),進行歸一化后采用待預測時刻前t1個小時的采樣值作為輸入數(shù)據(jù),構成一個t1維的輸入向量,記為V,然后用多個h×1 維的卷積窗口對V進行卷積運算(h可有多種取值,對應不同的時間跨度)。假設用h×1維的卷積窗口W對V進行卷積運算,并進行最大值池化,得到特征值e:
式中:Va:a+h-1表示由輸入向量V的第a至a+h-1維的值組成的向量;b為偏置項。
最后將多個卷積窗口得到的特征值進行拼接,得到歷史負荷特征向量e0。
對于外部影響因素數(shù)據(jù),進行歸一化后采用待預測時刻前t2個小時的所有采樣值以及從待預測時刻起t3個小時的所有預報值作為輸入數(shù)據(jù),構成(t2+t3)維的輸入向量。然后,同樣采用多個卷積窗口,對輸入向量進行卷積運算。最終每個外部影響因素均生成一個特征向量,其中第r個外部影響因素(r∈{1,2,…,R},R為外部影響因素個數(shù))的特征向量為e1,r。
不同外部因素對行業(yè)負荷受的影響程度不盡相同,因此在進行各個行業(yè)的電力負荷預測時,應充分考慮行業(yè)負荷與各個外部影響因素的關聯(lián)性強弱。為此,采用第3章基于標準互信息的改進關聯(lián)分析得到的關聯(lián)性結果,作為負荷預測網(wǎng)絡的超參數(shù),融合到負荷預測網(wǎng)絡結構中,從而構建計及外部影響因素關聯(lián)性的行業(yè)短期負荷預測網(wǎng)絡,如圖2所示。
圖2 行業(yè)短期負荷預測網(wǎng)絡Fig.2 Short-term load forecasting network for industries
首先,按照4.1節(jié)的方法,基于卷積神經網(wǎng)絡對歷史負荷和外部影響因素數(shù)據(jù)進行特征提取,得到歷史負荷特征向量e0和外部影響因素特征向量e1,1到e1,R。
然后,在預測某一行業(yè)的電力負荷時,采用第3章基于標準互信息的改進關聯(lián)分析方法得到的關聯(lián)性結果,即行業(yè)負荷與各個外部影響因素之間的標準互信息值,作為權重超參數(shù)。具體做法為:將行業(yè)負荷與第r個外部影響因素(r∈{1,2,…,R},R為外部影響因素個數(shù))的標準互信息值記為J0,r,對標準互信息值進行歸一化處理,得到行業(yè)負荷與第r個外部影響因素的歸一化標準互信息值J1,r:
并以J1,r為第r個外部影響因素的特征向量e1,r的權重,將所有外部影響因素特征向量加權求和,得到融合向量e2:
最后,將歷史負荷數(shù)據(jù)的特征向量e0和融合向量e2進行拼接,得到拼接向量e3:
再使用SVR(支持向量回歸)模型對拼接向量e3進行預測,得到待預測時刻的負荷預測值。
實驗采用某地區(qū)電網(wǎng)公司2016—2020 年的電力負荷數(shù)據(jù),該地區(qū)的電力用戶按所屬行業(yè)性質可分為工業(yè)、商業(yè)、公共事業(yè)和居民用戶,通過配電變壓器和用戶的對應關系,統(tǒng)計用戶所屬行業(yè)及其用電負荷,可收集各個行業(yè)的負荷數(shù)據(jù),同時采集溫度、相對濕度、風速、降水量、是否節(jié)假日等外部影響因素數(shù)據(jù)進行實驗,數(shù)據(jù)的采樣間隔均為1 h,其中節(jié)假日因素由于只有1 或0兩種取值,因此在關聯(lián)分析前無需對其進行聚類處理。將2016—2019 年的數(shù)據(jù)作為訓練集,用于計算各行業(yè)負荷與各種外部影響因素的關聯(lián)性,并訓練行業(yè)短期負荷預測網(wǎng)絡;2020 年的數(shù)據(jù)作為測試集,用于測試本文所提方法的預測效果。
為評估行業(yè)短期負荷和地區(qū)電網(wǎng)總負荷預測的精度,采用MAPE(平均絕對百分比誤差)作為一個評價指標。同時,在評估負荷預測精度的基礎上,采用RMSE(均方根誤差)指標對預測結果圍繞實際值的波動程度進行衡量,以評估負荷預測結果的穩(wěn)定性。
設共有D個待預測時刻,每個時刻的負荷預測值為y(d)(d∈{1,2,…,D}),負荷實際值為y0(d),則MAPE指標計算方法為:
RMSE指標計算方法為:
實驗對照模型的設置,主要從是否對k-means聚類算法進行優(yōu)化、是否對關聯(lián)分析方法進行改進、是否在負荷預測網(wǎng)絡設計中計及外部影響因素關聯(lián)性這3個方面進行考慮,對應地設置3個對照模型組A、B、C,如表3 所示。對照模型組A包括A1、A2、A3 3 個對照模型,采用不經過優(yōu)化的原始k-means 聚類算法對原始數(shù)據(jù)進行聚類處理,并分別指定聚類簇數(shù)k為3、6、9;對照模型組B包括B1、B2、B3 3個對照模型,分別采用無聚類的標準互信息、Pearson 相關系數(shù)、t-Copula 相關系數(shù)進行關聯(lián)分析;對照模型組C 包括C1、C2 2 個對照模型,其中C1 模型不計及外部影響因素的作用,在負荷預測網(wǎng)絡中不生成融合向量e2,只通過歷史負荷特征向量e0進行負荷預測,C2 模型不計及外部影響因素關聯(lián)性的作用,在負荷預測網(wǎng)絡中將所有代表關聯(lián)性的權重超參數(shù)J1,r均設置為1/R,即對各個外部影響因素特征向量e1,r等權重求和。
表3 對照模型設置情況Table 3 Settings of controlled models
經過預實驗的參數(shù)尋優(yōu),將歷史負荷輸入向量維數(shù)t1設置為72,外部影響因素輸入向量相關參數(shù)t2和t3分別設置為72 和24,對每個輸入向量均采用30 個3×1 維、30 個6×1 維和30 個12×1維的卷積窗口進行卷積運算。
實驗采用基于標準互信息的改進關聯(lián)分析方法對訓練集各行業(yè)負荷與各種外部影響因素的關聯(lián)性進行分析,得到每個行業(yè)的負荷與各種外部影響因素的歸一化標準互信息,即關聯(lián)性結果,如圖3所示。
圖3 行業(yè)負荷與外部影響因素關聯(lián)性Fig.3 Correlation between industry load and external influencing factors
從圖3可以看出,該地區(qū)對各行業(yè)負荷有較大影響的外部因素主要是溫度和節(jié)假日,但不同行業(yè)的負荷與兩者關聯(lián)性的相對強弱也有所區(qū)別,工業(yè)和公共事業(yè)負荷與節(jié)假日因素的關聯(lián)性更強,而商業(yè)和居民負荷與溫度因素的關聯(lián)性更強。除此之外,相對濕度對于各個行業(yè)負荷的影響比重較為均勻,而風速對于工業(yè)負荷的影響比重明顯高于其他三類行業(yè)負荷,降水量對于公共事業(yè)負荷的影響比重則明顯低于其他三類行業(yè)負荷。
結合上述關聯(lián)性結果,采用基于關聯(lián)分析和卷積神經網(wǎng)絡的行業(yè)短期電力負荷預測模型對測試集各行業(yè)負荷進行預測,并將各行業(yè)負荷的預測值求和,得到地區(qū)電網(wǎng)總負荷的預測結果。同時,用表3中的對照模型進行同樣的實驗,并分別統(tǒng)計各個模型在測試集上的預測結果,得到相應的MAPE和RMSE指標如表4和表5所示。
表4 各行業(yè)負荷和總負荷預測MAPE值Table 4 The predicted MAPE values of industrial loads and total loads
從表4可以看出,本文模型在各個行業(yè)負荷和總負荷預測的MAPE 值均為最小,即對于各個行業(yè)負荷和總負荷的預測均有最高的準確率。由于各個行業(yè)負荷預測值求和時有部分誤差會相互抵消,因此每個模型總負荷的MAPE 值均低于單個行業(yè)的MAPE值。進一步分析可以發(fā)現(xiàn):
1)A 組的A1、A2、A3 模型雖然通過聚類處理提高了關聯(lián)分析的準確性,相比于不經過聚類處理的B1模型預測準確率有較大提升。但因為聚類簇數(shù)k需要人為指定,無法根據(jù)不同外部影響因素和行業(yè)負荷數(shù)據(jù)的特點進行自適應變化,因而影響了聚類的效果,預測誤差相比于采用優(yōu)化kmeans聚類的本文模型也更大。
2)B組模型中,B1和B2模型的MAPE值相對較高,說明直接采用未聚類的標準互信息關聯(lián)分析方法,或者Pearson相關系數(shù),均難以準確地衡量外部影響因素與行業(yè)負荷之間的非線性相關性,導致行業(yè)負荷預測的精度受到影響。相比而言,B3模型的預測精度有所提高,可以較好地衡量非線性相關性,但由于Copula 函數(shù)的相關性分析結果會受到數(shù)據(jù)本身分布特點的影響,對不同行業(yè)負荷數(shù)據(jù)的適應性不足,整體上預測誤差仍大于本文模型。
3)C 組模型中,不計及外部影響因素的C1 模型在所有模型中預測誤差最大,說明外部影響因素對于各個行業(yè)負荷的變化均有較為顯著的影響,僅利用行業(yè)歷史負荷數(shù)據(jù)無法準確捕捉未來負荷的變化規(guī)律。C2 模型的MAPE 值整體上也比較高,說明在不計及外部影響因素關聯(lián)分析結果的情況下,僅依靠機器學習模型自主學習不同外部因素對不同行業(yè)負荷的影響,仍難以較好地適應外部因素與行業(yè)負荷之間復雜多變的相關關系。
從表5可以看出,本文模型在各個行業(yè)負荷和總負荷預測的RMSE 值均為最小,說明本文模型的預測結果圍繞負荷實際值的波動程度最小,負荷預測結果具有良好的穩(wěn)定性。未考慮外部影響因素的對照模型C1在各行業(yè)負荷預測中具有最大的RMSE 值,表明對外部影響因素的分析對于跟蹤行業(yè)負荷的變化有重要意義。另外,雖然對照模型B3 與本文模型在MAPE 值上最接近,但RMSE 值與本文模型仍有較大的差距,主要是由于本文模型除了能準確地分析行業(yè)負荷與溫度、節(jié)假日的關聯(lián)性,對相對濕度、降水量等次要影響因素的關聯(lián)分析結果也較為準確,因此預測誤差的離散程度更小,預測結果有更好的穩(wěn)定性。
為了更直觀地對比本文模型與各對照模型的預測結果差異,從測試集中截取48 h 的總負荷預測結果,其中前24 h 屬于工作日,后24 h 屬于節(jié)假日,繪制實際負荷曲線與各個實驗模型的預測負荷曲線。對照模型組A、B、C與本文模型的對比結果分別如圖4—6所示。
圖4 對照模型組A與本文模型的對比結果Fig.4 Comparison results between controlled model group A and the proposed model
從圖4可以看出,A1、A2、A3模型和本文模型均采用了“聚類+標準互信息”的改進關聯(lián)分析方法,總負荷的預測曲線基本能夠較好地跟蹤實際負荷的變化趨勢,但由于A1、A2、A3 模型的聚類方法未進行優(yōu)化,進而影響了數(shù)據(jù)聚類效果和后續(xù)的關聯(lián)分析準確性,因此相比于本文模型仍有更大的預測誤差。
從圖5 可以看出,本文模型和B3 模型能較好地模擬實際負荷曲線,尤其是在負荷高峰和低谷時能比較準確地跟蹤負荷的變化,同時本文模型更少出現(xiàn)與實際負荷相差較大的預測點,因此RMSE 值相對于B3 模型有比較明顯的優(yōu)勢;B1、B2 模型對行業(yè)負荷與外部影響因素的關聯(lián)性分析不夠準確,影響了負荷預測的整體精度,特別是在負荷高峰和低谷時難以準確跟蹤負荷的變化。
圖5 對照模型組B與本文模型的對比結果Fig.5 Comparison results between controlled model group B and the proposed model
從圖6 可以看出,C1 模型未計及外部影響因素的作用,只能從歷史負荷中挖掘有限的信息進行負荷預測,無法有效捕捉到外部影響因素對各行業(yè)負荷的影響,因此預測負荷曲線與實際負荷曲線存在明顯的偏差;C2模型雖有考慮外部影響因素,但未對外部影響因素與各行業(yè)負荷的關聯(lián)性進行分析,負荷預測準確性與本文模型相比仍有較大差距。另外,為了說明本文模型在進行短期負荷預測時對不同行業(yè)的用戶分別進行負荷預測的意義,另設計一個不區(qū)分用戶所屬行業(yè)的對照模型D1。D1的總負荷預測結果不通過各行業(yè)負荷預測值求和得到,而是采用第2、3 章的方法分析總負荷與各外部影響因素的關聯(lián)性后,采用第4章的方法直接對總負荷進行預測。統(tǒng)計預測結果后得到相應的MAPE和RMSE指標如表6所示。
表6 對照模型D1與本文模型的總負荷預測結果Table 6 The predicted total loads of controlled model D1 and the proposed model
圖6 對照模型組C與本文模型的對比結果Fig.6 Comparison results between controlled model group C and the proposed model
從表6 可以看出,D1 模型的總負荷預測MAPE 值和RMSE 值均高于本文模型,說明本文模型針對每個行業(yè)分別進行關聯(lián)分析和神經網(wǎng)絡訓練后,可以更好地擬合各個行業(yè)負荷的變化規(guī)律,提高行業(yè)負荷預測的準確性,進而提升總負荷預測的效果。
本文提出了一種基于關聯(lián)分析和卷積神經網(wǎng)絡的行業(yè)短期電力負荷預測模型,通過算例分析,得到主要結論如下:
1)通過平均輪廓系數(shù)確定最佳k值,優(yōu)化了k-means聚類算法,提升了外部影響因素和行業(yè)負荷原始數(shù)據(jù)的聚類處理效果。
2)通過以標準互信息為關聯(lián)性指標,并用聚類后的數(shù)據(jù)替換原始數(shù)據(jù),改進了關聯(lián)分析方法,實現(xiàn)了外部影響因素與行業(yè)負荷關聯(lián)性的準確定量分析。
3)設計了一種計及外部影響因素關聯(lián)性的負荷預測網(wǎng)絡,將關聯(lián)性分析結果作為超參數(shù)融合到負荷預測網(wǎng)絡中,提升了對不同行業(yè)短期電力負荷預測的準確性。
目前負荷數(shù)據(jù)通過配變和用戶的對應關系,能劃分到用戶所屬的行業(yè),后續(xù)可通過配電網(wǎng)臺賬信息的完善和細化,研究對用戶屬性進行更加細分的方法,進一步提高地區(qū)電網(wǎng)短期負荷預測的準確性。