黃 薇,溫 蜜,張照貝
(1. 國網(wǎng)上海市電力公司,上海 200122;2. 上海電力大學(xué)計算機科學(xué)與技術(shù)學(xué)院,上海 201303)
智能電表快速普及使得電力企業(yè)掌握大量的用戶細粒度用電數(shù)據(jù),為分析用戶用電行為特性提供了數(shù)據(jù)基礎(chǔ),電力企業(yè)可根據(jù)用戶用電行為特性制定個性化售電政策[1]。同時智能電表數(shù)據(jù)為用戶聚合體負荷預(yù)測提供了新視角,即根據(jù)用電行為特征將用戶聚類為不同的用電群體,然后再針對每類用戶建模分析以滿足精細化電力負荷預(yù)測的需求[2]。
國內(nèi)外研究者關(guān)于用戶用電行為聚類的研究主要圍繞特征提取和聚類算法兩方面展開工作,按照輸入特征的不同可分為直接、間接聚類方法[3]。直接聚類方法是使用原始負荷數(shù)據(jù)序列進行聚類分析,主要有K-means[4]、模糊C均值聚類[5]等算法。文獻[6]使用動態(tài)K-means對用戶用電行為聚類分析,解決了K-means需要預(yù)先設(shè)定聚類簇數(shù)的缺點。直接聚類方法主要用于跨度短的時間序列,在應(yīng)用到跨度長的時間序列卻存在收斂困難、算法復(fù)雜度高等問題。而間接聚類方法可在用戶負荷序列上提取若干個用戶用電行為特征,然后依據(jù)用戶特征進行聚類分析并提取典型用電模式,有效地解決收斂困難以及算法復(fù)雜度高的問題。文獻[7]使用主成分分析(Principal Component Analysis,PCA)方法提取用戶負荷的行為特征,再使用K-means進行聚類辨識,結(jié)果表明PCA提取的特征可揭示用戶用電行為。文獻[8]提出基于互信息系數(shù)和相關(guān)系數(shù)的特征優(yōu)選策略,該方法有效降低聚類過程中的算法復(fù)雜度。文獻[9]在特征優(yōu)選策略的基礎(chǔ)上提出采用準確度和有效度確定聚類過程中的聚類簇數(shù),并驗證該方法的有效性。文獻[10]首先從統(tǒng)計學(xué)方面解釋選擇中位數(shù)與平均數(shù)作為用戶用電行為特征的合理性,再使用輪廓系數(shù)確定聚類簇數(shù)。以上文獻在聚類過程中多采用統(tǒng)計學(xué)指標作為用電特征,而對用戶用電負荷序列的動態(tài)性分析存在不足。
目前,關(guān)于用戶側(cè)負荷預(yù)測的研究主要是從用戶聚合體負荷進行建模,而以用戶用電行為聚類分析為基礎(chǔ)的負荷預(yù)測研究處于初步階段。文獻[11]首先使用K-means算法對用戶用電行為聚類分析,然后對各類用戶建立預(yù)測模型,疊加各類用戶負荷預(yù)測結(jié)果得到用戶聚合體負荷預(yù)測結(jié)果,實驗表明通過用戶用電行為聚類可提高用戶聚合體負荷預(yù)測精度。文獻[12]通過譜聚類算法對用戶負荷聚類,然后對各類用戶建立預(yù)測模型以實現(xiàn)用戶聚合體負荷預(yù)測。文獻[11,12]主要為點負荷預(yù)測研究,而概率負荷預(yù)測方法可反映負荷的不確定性信息更受歡迎[13,14]。文獻[3]采用三種概率預(yù)測方法對各類用戶負荷預(yù)測,并求和得到用戶聚合體負荷預(yù)測結(jié)果,仿真驗證了該方法可提高用戶聚合體負荷概率預(yù)測的精度。用戶負荷具有較明顯的波動性、隨機性,而分位數(shù)回歸森林算法采用并行集成預(yù)測可有效減少預(yù)測方差,可有效處理波動性較強的時間序列[15],但關(guān)于分位數(shù)回歸森林(Quantile Regression Forest,QRF)概率算法在用戶側(cè)電力負荷預(yù)測上的應(yīng)用較少。
綜上分析,本文提出一種考慮用電數(shù)據(jù)序列動態(tài)性特點的用戶用電行為聚類方法,并在用戶用電行為聚類的基礎(chǔ)上采用QRF建模以實現(xiàn)用戶聚合體負荷預(yù)測。首先在第2節(jié)計算用戶用電負荷的分位數(shù)自協(xié)方差表示用戶用電行為特征,并采用層次聚類算法對用戶用電行為特征聚類。然后在第3節(jié)使用QRF構(gòu)建各類用戶用電負荷的預(yù)測模型并將其結(jié)果疊加形成用戶聚合體負荷預(yù)測結(jié)果。最后在第4節(jié)采用倫敦智能電表數(shù)據(jù)集進行仿真驗證提出方法的有效性。
文獻[16]提出使用時間序列的分位數(shù)協(xié)方差作為聚類特征,并證明該特征能夠反映時間序列的動態(tài)性和數(shù)據(jù)之間的依賴性特點。為此。本文在分析文獻[16]的基礎(chǔ)上考慮使用分位數(shù)自協(xié)方差(Quantile autocovariance,QC)表示用戶用電行為特征,QC的詳細描述如下。
已知時間序列為{X1,…,Xn},其QC計算表達式如下所示
γ(τ,τ*)(t,t+j)=Cov(I(Xt (1) 式(1)中的γ(τ,τ*)(t,t+j)為時間序列在分位數(shù)τ∈(0,1)和τ*∈(0,1)下的自協(xié)方差,j為時間延遲。其中Cov(I(Xt Cov(I(Xt (2) 式(2)中τ和τ*為分位數(shù),ττ*為完全耦合隨機數(shù)。I(Xt (3) 式(3)中Xt為時間序列,ρτ(Xt,qτ)為彈球損失函數(shù)。 QC的參數(shù)有助于分析時間序列動態(tài)性特點,根據(jù)文獻[16]的建議,選擇參數(shù)j=1和τ∈{0.1,0.5,0.9},構(gòu)造表達用戶用電行為的9個特征如式(4)所示。 γ={γ(0.1,0.1),γ(0.1,0.5),γ(0.1,0.9),γ(0.5,0.1),γ(0.5,0.5),γ(0.5,0.9),γ(0.9,0.1),γ(0.9,0.5),γ(0.9,0.9)} (4) 層次聚類算法分為自上而下與自下而上兩種聚類方式。其中,自下而上的方式首先根據(jù)用戶QC計算用戶之間的歐式距離,將距離相近的用戶合并為一類。然后根據(jù)類與類之間的距離,將距離相近的類合并為較大的類,合并至設(shè)定聚類數(shù)目時則結(jié)束。采用層次聚類算法的原因為易于實現(xiàn),且可體現(xiàn)用戶與類別間的隸屬關(guān)系。 在用戶用電行為聚類過程中,聚類簇數(shù)設(shè)置過多使得用戶用電行為共性表達不充分,過少則掩蓋用戶用電行為的差異性。為此,采用輪廓系數(shù)確定聚類數(shù)目。輪廓系數(shù)(Silhouette Coefficient,SC)是一種評價聚類結(jié)果的方式,其在類內(nèi)聚合度和類間分離度兩個方面反映聚類效果,某個用戶的SC計算表達式如式(5)所示 (5) 式(5)中的S(i)為SC系數(shù),其取值范圍為[-1,1],S(i)=1表示類內(nèi)聚合度和類間分離度均達到最優(yōu)。a(i)為類內(nèi)聚合度,表示用戶i與類內(nèi)所有用戶的平均距離。b(i)為類間分離度,表示用戶i與相鄰最近一類內(nèi)所有用戶的平均距離,將所有用戶的輪廓系數(shù)求平均值為聚類結(jié)果的輪廓系數(shù)。 提出基于分位數(shù)自協(xié)方差和層次聚類算法的用戶用電行為聚類過程如圖1所示。 圖1 用戶用電行為聚類流程圖 用戶用電行為聚類流程詳細描述如下: Step1:數(shù)據(jù)預(yù)處理得到用戶用電負荷序列數(shù)據(jù){X1,…,Xn}; Step2:使用式(3)計算用戶用電負荷數(shù)據(jù)在不同分位數(shù)下的最佳分位數(shù)值(q0.1,q0.5,q0.9); 圖2 考慮用戶用電行為聚類的電力負荷預(yù)測過程 Step3:使用式(1)計算各個用戶用電負荷數(shù)據(jù)的分位數(shù)自協(xié)方差反映用戶用電行為特征(QC); Step4:初始化最佳輪廓系數(shù)SC=-1和最佳聚類數(shù)為kB=2,令聚類簇數(shù)k=2并設(shè)定kmax的值; Step5:執(zhí)行層次聚類并計算聚類結(jié)果的輪廓系數(shù)SCk; Step6:比較SCk>SC,若滿足則更新SC和kB,否則執(zhí)行Step7; Step7:令k=k+1并判斷k>kmax,若滿足則獲得最終聚類結(jié)果。 由于用電用戶數(shù)量多,若對單一用戶建立預(yù)測模型,不僅存在計算量大的問題,而且不能有效捕捉用戶用電行為特性等問題。為此,本文使用分位數(shù)回歸森算法對各類用戶子聚合體負荷建立概率預(yù)測模型以實現(xiàn)用戶聚合體負荷預(yù)測。 分位數(shù)回歸森林算法是將分位數(shù)回歸與隨機森林融合的算法,該算法可獲得不同分位數(shù)下的預(yù)測值,并兼有隨機森林模型參數(shù)影響小、運行速度快等優(yōu)點[17-18]。QRF是適應(yīng)性近鄰分類與回歸過程,對任意X=x,獲得原始n個觀察值的權(quán)重集合wi(x),i=1,2,…,n。QRF將所有因變量觀察值的加權(quán)和作為因變量Y條件均值E(Y|X=x)的估計。QRF定義E(1{Y≤y}|X=x)的估計為觀察值1{Y≤y}的加權(quán)平均,表達式如下所示 (6) QRF算法具體流程為: Step1:生成m棵決策樹T(θt),t=1,2,…,m。對于每棵決策樹每個葉節(jié)點,考察該節(jié)點所有觀察值; Step2:給定X=x,遍歷所有決策樹,計算每棵決策樹觀察值的權(quán)重wi(x,θt),i=1,2,…,n。通過對決策樹權(quán)重wi(x,θt),t=1,2,…,m取平均形成每個觀察值i∈{1,2,…,n}的權(quán)重wi(x); Step3:對任意y∈R,通過Step2獲得權(quán)重,再利用式(6)計算分布函數(shù)的估計。 提出的考慮用戶用電行為聚類的電力負荷預(yù)流程如圖2所示。該流程共3部分:用戶子聚合體負荷形成、構(gòu)造數(shù)據(jù)集、電力負荷概率預(yù)測。 3.2.1 用戶子聚合體負荷形成 (7) 3.2.2 構(gòu)造數(shù)據(jù)集 根據(jù)子聚合體負荷數(shù)據(jù)、時間信息等構(gòu)造數(shù)據(jù)集,數(shù)據(jù)集中包含的數(shù)據(jù)特征及編碼方式如表1所示。 表1 數(shù)據(jù)特征以及編碼方式 由于構(gòu)造數(shù)據(jù)集中的輸入特征屬于不同量級,為了減少數(shù)據(jù)量級對提出預(yù)測方法的影響,歸一化處理數(shù)據(jù)。歸一化公式如下式(8)所示 (8) 式(8)中:x為原始輸入特征,xmax與xmin為原始輸入特征的兩個極值,xn為處理后的結(jié)果。 3.2.3 電力負荷概率預(yù)測 在各類用戶構(gòu)造數(shù)據(jù)集的基礎(chǔ)上實現(xiàn)用戶聚合體電力負荷概率預(yù)測。首先,將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集、測試集;然后,使用訓(xùn)練集和驗證集確定QRF概率預(yù)測模型最佳參數(shù),并由各類用戶的QRF概率預(yù)測模型得到不同分位數(shù)條件下的預(yù)測值;最后,疊加各類用戶的分位數(shù)預(yù)測值,得到用戶聚合體各分位數(shù)下的負荷預(yù)測值,其表達式如式(9)所示 (9) 采用倫敦智能電表數(shù)據(jù)集驗證提出方法的有效性[19]。采用數(shù)據(jù)集中600戶家庭用戶、時間跨度為2013整年、采樣周期為0.5h的電力負荷數(shù)據(jù)集作為實驗數(shù)據(jù)集。數(shù)據(jù)集中的數(shù)據(jù)特征有“number”為用戶編號,“date”為負荷數(shù)據(jù)采集時間,“data”為電力負荷數(shù)據(jù)。 在用戶用電行為聚類過程中,為了確定最佳聚類數(shù)目kg,采用輪廓系數(shù)選擇聚類數(shù)目k。不同k值的輪廓系數(shù)如圖3所示。 圖3 不同聚類數(shù)目的輪廓系數(shù)圖 從圖3中可看出,聚類數(shù)目為2、3、4時,輪廓系數(shù)變化相對平穩(wěn),然而當聚類數(shù)目為5時輪廓系數(shù)下降較為明顯,故聚類數(shù)目宜選擇為4。同時在聚類數(shù)目為4時,其輪廓系數(shù)為5.11達到最大值,故將聚類數(shù)目設(shè)置為4類。聚類后各類用電行為的用戶數(shù)分別為155、372、55、18戶,其各類用電行為的負荷箱線圖如圖4所示。 圖4 各類用電行為的負荷箱線圖 從圖4中可看出,各類用戶存在用電行為存在差異性,用電行為類別1有明顯的用電爬坡期,用電高峰期持續(xù)時間較長。用電行為類別2有明顯的兩次用電高峰和低谷期特點,而用電行為類別3雖兩次用電高峰和低谷期特點,但其持續(xù)時間較短。用電行為類別4的用電行為相對平穩(wěn)。 在子聚合體負荷的基礎(chǔ)上實現(xiàn)用戶聚合體負荷提前12小時預(yù)測,數(shù)據(jù)集劃分比例為80%的數(shù)據(jù)用于模型訓(xùn)練,10%的數(shù)據(jù)用于驗證,10%數(shù)據(jù)用于測試。為了驗證提出方法的有效性,設(shè)置對比預(yù)測方法有: 1)使用分位數(shù)回歸森林算法建立用戶聚合體負荷預(yù)測方法(QRF-DF); 2)使用分位數(shù)回歸梯度提升決策樹算法建立用戶聚合體負荷預(yù)測方法(QRGBDT-DF); 3)使用分位數(shù)長短期記憶網(wǎng)絡(luò)建立用戶聚合體負荷預(yù)測方法(QRLSTM-DF); 4)使用本文提出的方法,預(yù)測模型采用分位數(shù)回歸梯度提升樹(QRGBDT-LF); 5)使用本文提出的方法,預(yù)測模型采用分位數(shù)回歸長短期記憶網(wǎng)絡(luò)(QRLSTM-LF)。 4.2.1 參數(shù)設(shè)置 提出的電力負荷預(yù)測方法中QRF的參數(shù)設(shè)置為:基學(xué)習(xí)器選擇為樹模型,基學(xué)習(xí)器的數(shù)量為200,樹深度為12,損失函數(shù)使用均方誤差。對比預(yù)測方法不是本文研究重點,其實驗參數(shù)不在贅述。提出預(yù)測方法與對比預(yù)測方法均在python編程語言、Keras深度學(xué)習(xí)框架和sklearn庫下實現(xiàn),所有實驗均在CPU為Intel Core i5-8250和內(nèi)存為8GB的計算機上運行。 4.2.2 評價指標 為評估提出預(yù)測方法的有效性,采用平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)和根均方誤差(Root Mean Square Error,RMSE)作為點負荷預(yù)測結(jié)果評價指標,其表達式如下所示 (10) (11) 采用區(qū)間覆蓋率(Predict Interval Coverage Probability,PICP)和預(yù)測區(qū)間平均寬度(Predict Interval Average Width,PIAW)評價概率預(yù)測結(jié)果的可靠性。 (12) (13) 式(12)中:N為樣本的總數(shù)目;ζn為布爾變量,如果電力負荷實際值落在預(yù)測區(qū)間的上下之間則ζn=1,否則ζn=0。式(13)中:Un為預(yù)測區(qū)間的上限;Ln為置信區(qū)間的區(qū)間下限。PICP和PIAW是一對矛盾體,其PICP值越高說明其置信區(qū)間可靠性越高,但在PICP相同時,PIAW較小時則預(yù)測效果越好。 4.2.3 結(jié)果分析 提出考慮用戶用電行為聚類的電力負荷預(yù)測方法與對比預(yù)測方法在測試集上的預(yù)測結(jié)果如表2所示。 表2 不同預(yù)測方法效果對比表 從表2可以看出,提出的預(yù)測方法QRF-LF在MAPE和RMSE指標上獲得最佳的效果,相比于QRF-DF分別提高0.23%和0.2kW,表明提出預(yù)測方法可提高用戶聚合體負荷預(yù)測效果。QRF-LF在MAPE、RMSE指標上相比于QRLSTM-LF、QRGBTD-LF分別提高0.27%、0.52kW和0.8%、0.99kW,驗證了QRF方法在用戶側(cè)負荷預(yù)測上的適用性。在PICP和PINW指標上可看出,QRF-LF方法在PINW指標上明顯高于QRF-DF方法,表明QRF-LF方法預(yù)測效果更加可靠,但是以增加PINW為代價。QRLSTM-LF方法在PINW指標上相對較小,其在PICP指標上的效果更差,表明QRLSTM在處理波動性較大的時間序列上易過擬合導(dǎo)致預(yù)測效果差的現(xiàn)象。為了詳細分析提出預(yù)測方法的點負荷預(yù)測效果,各種方法的預(yù)測結(jié)果如圖5所示。 圖5 不同預(yù)測方法的預(yù)測曲線圖 從圖5中可看出,用戶用電負荷曲線的“爬坡”和“下坡”階段相對比較平穩(wěn),各種預(yù)測方法以上兩個階段具有較好的擬合效果。在用戶用電負荷曲線的波動階段,提出預(yù)測方法相比于其它預(yù)測方可更好的跟蹤負荷曲線,表明了提出預(yù)測方法的有效性。為了說明其的概率預(yù)測可靠性,選取某天的預(yù)測區(qū)間進行分析,其預(yù)測區(qū)間如圖6所示。 圖6 不同預(yù)測方法的預(yù)測區(qū)間對比圖 在圖6中可看出,提出預(yù)測方法在“爬坡”時期的預(yù)測區(qū)間相對較窄,雖然在負荷曲線波動時期預(yù)測區(qū)間相對較寬,但實際值均在預(yù)測區(qū)間內(nèi)部,保證了概率預(yù)測結(jié)果的可靠性。QRLSTM-LF方法雖然銳度較好,但在波動期間存在多處預(yù)測區(qū)間不能覆蓋負荷實際值,不能保證預(yù)測結(jié)果可靠性。表明提出概率預(yù)測方法以較小代價提高概率預(yù)測可靠性。 本文提出了一種考慮用戶用電行為聚類的電力負荷預(yù)測方法。該方法首先采用負荷細粒度數(shù)據(jù)的分位數(shù)自協(xié)方差表征用戶用電行為特性并使用層次聚類算法進行用戶用電行為聚類,然后在聚類的基礎(chǔ)上建立電力負荷概率預(yù)測,仿真結(jié)果驗證了QRF算法在用戶側(cè)負荷預(yù)測上的適用性,并證實了基于分位數(shù)自協(xié)方差特征的聚類可提高用戶聚合體負荷預(yù)測精度和可靠性。在下一步研究工作中,將繼續(xù)關(guān)注海量用戶聚類過程中的并行處理以及各類用戶負荷的影響因素對負荷預(yù)測精度的影響。2.2 層級聚類
2.3 輪廓系數(shù)
2.4 用戶用電行為聚類過程
3 考慮用戶用電行為聚類的電力負荷預(yù)測
3.1 分位數(shù)回歸森林算法
3.2 電力負荷預(yù)測實現(xiàn)流程
4 實驗分析
4.1 用戶用電行為聚類分析
4.2 電力負荷預(yù)測結(jié)果分析
5 總結(jié)