(國網(wǎng)浙江海寧市供電有限公司,浙江 海寧 314400)
低壓配電網(wǎng)線損是國家電網(wǎng)有限公司經(jīng)濟(jì)效益考核的重要指標(biāo)。電網(wǎng)線損的計(jì)算通常由兩部分組成,一部分是理論線損;另一部分是管理線損[1-3]。其中理論線損指的是電力在輸送過程中,由電力設(shè)備造成的電力損失,也稱為技術(shù)線損;管理線損指的是在技術(shù)層面之外的電力損失,包括設(shè)備故障、采集故障、竊電等造成的電力損失。因此,對理論線損的研究能夠反映電力網(wǎng)的真實(shí)線損水平,為電力企業(yè)的線損治理工作提供理論支撐。
理論線損的計(jì)算通常需要綜合考慮負(fù)荷情況、運(yùn)行方式和拓?fù)淝闆r等數(shù)據(jù),對電網(wǎng)的數(shù)據(jù)基礎(chǔ)要求高。傳統(tǒng)的計(jì)算方法有潮流算法、積分電流法和等值電阻法[4-5],這些算法能夠精確計(jì)算電力網(wǎng)的電力損失。
然而,在實(shí)際的生產(chǎn)環(huán)境中,數(shù)據(jù)缺失較為嚴(yán)重,因此有學(xué)者提出了基于統(tǒng)計(jì)學(xué)的計(jì)算方法,如使用回歸算法、聚類算法、神經(jīng)網(wǎng)絡(luò)算法和支持向量機(jī)[6-8]等。文獻(xiàn)[9]針對10 kV 配電網(wǎng)理論線損預(yù)測提出了一種基于PSO(粒子群算法)優(yōu)化BPNN(BP 神經(jīng)網(wǎng)絡(luò))的方法,全局搜索BP 神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值來構(gòu)建PSO-BPNN 線損評估模型,進(jìn)而對測試樣本集線損進(jìn)行預(yù)測;文獻(xiàn)[10]提出一種基于FOA-SVR(系統(tǒng)聚類和果蠅優(yōu)化支持向量回歸機(jī))的配電網(wǎng)理論線損計(jì)算方法,將樣本數(shù)據(jù)聚類分成相似的群組,主要使用果蠅優(yōu)化算法,訓(xùn)練尋找最優(yōu)的計(jì)算參數(shù),以得到最優(yōu)結(jié)果。雖然上述算法能準(zhǔn)確地估計(jì)臺區(qū)的線損,但是均需要幾個月的長期數(shù)據(jù),對于長期數(shù)據(jù)缺失嚴(yán)重的部分臺區(qū)則不適用[11-13]。
本文分析了國內(nèi)外理論線損率預(yù)測目前的研究現(xiàn)狀,在此基礎(chǔ)上,運(yùn)用RF 算法對造成理論線損的特征進(jìn)行篩選,采用CPSO(混沌粒子群)算法對LSSVM(最小二乘支持向量機(jī))算法的懲罰因子C,g 進(jìn)行參數(shù)尋優(yōu),得到不確定性理論線損預(yù)測模型。通過計(jì)算求得理論線損率的置信區(qū)間概率預(yù)測。
使用RF(隨機(jī)森林)算法進(jìn)行特征選擇時,當(dāng)一個影響預(yù)測準(zhǔn)確率的重要特征加入噪聲后,RF的分類準(zhǔn)確率將顯著降低。在篩選預(yù)測模型時,應(yīng)用該方法尋找的輸入向量中,使用MDG(平均基尼指數(shù)下降)來評價變量重要性,計(jì)算公式如下:
式中:n 為樹個數(shù);err00B 為帶外數(shù)據(jù)的誤差;t為節(jié)點(diǎn)數(shù);p(k/t)為節(jié)點(diǎn)t 中目標(biāo)變量為第k 個的概率。根據(jù)式(2)計(jì)算每棵樹的GI 值,平均所有樹的結(jié)果得到MDG 值。
本文則采用MDG 作為特征重要性指標(biāo),對于模型來說該數(shù)值越大,則該特征重要性越高;反之則越低。將特征重要性進(jìn)行倒序排序,再選取排名較高的特征作為特征選擇入模。
使用LSSVM 模型最小二乘線性函數(shù)作為損失函數(shù),在特定的非線性映射空間中構(gòu)造最優(yōu)決策函數(shù),具體實(shí)現(xiàn)如下。
給定集合{(xi,yi),i=1,2,…,m},其中,xi(xi∈Rd)為第i 個訓(xùn)練樣本的輸入向量;為對應(yīng)輸出值。在高維特征中建立線性回歸函數(shù):
式中:φ(x)為非線性映射函數(shù);w為權(quán)值向量;b為偏置。
利用結(jié)構(gòu)風(fēng)險最小化原則,選擇損失函數(shù)為誤差的二次項(xiàng),LSSVM 問題可表示為:
式中:C 為懲罰因子;ei為誤差變量;ξ 為松弛變量。式(4)、式(5)引入lagrange 乘子αi,得:
隨后利用最小二乘法求解回歸系數(shù)α 和偏置b,從而得到LSSVM 預(yù)測函數(shù):
雖然最小二乘法能構(gòu)造最優(yōu)決策函數(shù),但是該算法依舊存在2 個超參數(shù)C 和g 待優(yōu)化,C 越大,經(jīng)驗(yàn)風(fēng)險越小,結(jié)構(gòu)風(fēng)險越大,容易出現(xiàn)過擬合;C 越小,模型復(fù)雜度越低,容易出現(xiàn)欠擬合;g 越大,支持向量越少;g 值越小,支持向量越多。因此,需要用CPSO 算法對這2 個參數(shù)進(jìn)行尋優(yōu)。
利用CPSO 優(yōu)化算法選擇粒子提升種群收斂速度,避免局部最優(yōu)早熟,提高全局搜索能力[14-15]。
混沌粒子產(chǎn)生在待優(yōu)化C 和g 的約束范圍內(nèi)。在訓(xùn)練集樣本中使用交叉驗(yàn)證方法訓(xùn)練LSSVM模型,訓(xùn)練集的另一部分樣本用于測試模型精度。通過測試交叉驗(yàn)證誤差得到粒子適應(yīng)度函數(shù),并使用混沌粒子群搜索參數(shù)約束范圍內(nèi)的最佳粒子,再確定LSSVM 的回歸模型。
CPSO-LSSVM 預(yù)測算法優(yōu)化步驟如下:
(1)將樣本集分為k 個互不相交的子集,每個子集的代銷大致相等。
(2)混沌初始化。利用Logistic 迭代公式得到混沌粒子,將混沌粒子zi的各個分量載波到優(yōu)化變量的取值范圍。
(3)計(jì)算各個粒子的適應(yīng)度值。
(4)從初始群體中選擇性能較好的解作為初始解,隨機(jī)產(chǎn)生初始速度。
(5)更新粒子速度,采用自適應(yīng)調(diào)整的策略,隨著迭代的進(jìn)行,線性減少w的數(shù)值。
(6)產(chǎn)生混沌擾動u1=(u11,u12,u1n),u1j=4(1-u0),j=1,2,…,n,將u1各個分量載波到混沌擾動范圍[-β,β]內(nèi),擾動量Δx=(Δx1,Δx2,Δxn),Δxj=-β+2βu1j。
(7)更新粒子位置,更新公式為:
(8)計(jì)算第i 個粒子的適應(yīng)度fi,若粒子的適應(yīng)度優(yōu)于原來的最優(yōu)位置的適應(yīng)度,設(shè)置當(dāng)前適應(yīng)度為最優(yōu)位置的適應(yīng)度pbestfi,設(shè)置當(dāng)前位置為最優(yōu)值pBestk。
(9)是否達(dá)到最大迭代次數(shù),如果是則繼續(xù)步驟(11);反之,重復(fù)步驟(8),(9)。
(10)根據(jù)各個粒子最優(yōu)位置的最優(yōu)值pBestk,從而找出全局最優(yōu)位置的適應(yīng)度pBestfk和全局最優(yōu)位置的位置gBestk。
(11)輸出全局最優(yōu)位置的適應(yīng)度和全局最優(yōu)位置gBestk。
通過上述算法步驟,則可得到最優(yōu)的LSSVM模型的2 個超參數(shù)C 和g,從而得到最優(yōu)的回歸模型。
基于RF-CPSO-LSSVM 的日線損率置信區(qū)間預(yù)測一共包括7 個流程,分別是數(shù)據(jù)清洗、數(shù)據(jù)歸一化、RF 算法特征選擇、CPSO-LSSVM 模型訓(xùn)練、日線損率預(yù)測、設(shè)置置信度及置信區(qū)間和日線損率區(qū)間估計(jì),算法流程如圖1 所示。
圖1 RF-CPSO-LSSVM 日線損率置信區(qū)間預(yù)測算法流程
3.1.1 數(shù)據(jù)清洗
數(shù)據(jù)清洗包括數(shù)據(jù)去重、異常值剔除和缺失值填充3 個步驟。數(shù)據(jù)去重是為了保證樣本的單一性,防止重復(fù)樣本造成模型干擾;異常值剔除是為了防止極端數(shù)據(jù)產(chǎn)生數(shù)據(jù)傾斜,干擾模型的魯棒性;缺失值填充是為了防止樣本的浪費(fèi),因此對缺失值進(jìn)行填充,以提升模型的泛化能力。
3.1.2 數(shù)據(jù)歸一化
由于原始數(shù)據(jù)的各維度之間的量綱不同,未經(jīng)過預(yù)處理的數(shù)據(jù)直接進(jìn)入模型會增加模型的擾動性,因此需要對數(shù)據(jù)進(jìn)行歸一化處理:
式中:i 為樣本集中第i 個樣本;j 為樣本集中第j個維度;xi,j為歸一化前的第i 個樣本的第j 維數(shù)據(jù)的數(shù)值;xmin,j為歸一化前第j 維數(shù)據(jù)的最小值;xmax,j為歸一化前第j 維數(shù)據(jù)的最大值;為歸一化后的第i 個樣本的第j 維數(shù)據(jù)的數(shù)值。
設(shè)配電網(wǎng)中有n 個節(jié)點(diǎn),q 個電源點(diǎn)(負(fù)荷等效為負(fù)電源),節(jié)點(diǎn)電壓方程為:
式中:U 為配電網(wǎng)中各節(jié)點(diǎn)的電壓;I 為各電源節(jié)點(diǎn)的電流;Z為網(wǎng)絡(luò)中節(jié)點(diǎn)的阻抗矩陣。若配電網(wǎng)支路l 的首末節(jié)點(diǎn)為i 和j,線路導(dǎo)納為yij,則支路l 的損耗功率為:
由式(11)可知,線路的損耗與網(wǎng)架的整體拓?fù)浣Y(jié)構(gòu)和每個電源點(diǎn)的功率有關(guān)。因此,綜合節(jié)點(diǎn)注入的電能Cs=(c1s,c2s,…,cqs)與拓?fù)鋮?shù)特征向量Cl=(cy1,cy2,…,cyl0)共同組成的特征向量為CB=(c1s,c2s,…,cqs,cy1,cy2,…,cyl0)。對于存在數(shù)據(jù)缺失的情況,建立采集向量A=(a1,a2,…,cn),A為0、1 離散向量,其中0 代表采集失??;1 代表采集成功。歐氏距離是常用的相似度度量指標(biāo),則第i 天和第j 天的距離計(jì)算公式為:
式中:Ai和CBi分別為第i 天的采集向量和特征向量;Aj和CBj分別為第j 天的采集向量和特征向量;Aij為第i 天和第j 天的采集向量交集;⊙運(yùn)算為2 個向量逐個元素相乘,其運(yùn)算過程為:
利用配電網(wǎng)的拓?fù)鋽?shù)據(jù)和節(jié)點(diǎn)注入電能數(shù)據(jù)共同構(gòu)成特征向量,并且考慮到采集缺失的情況,構(gòu)建了采集向量,綜合計(jì)算求取2 天特征向量的歐式距離(距離值越小,則表明這2 天配電網(wǎng)的用電行為特征越相近)。
隨后,通過RF 算法對特征的重要性進(jìn)行倒序排序,并計(jì)算特征的累計(jì)貢獻(xiàn)率:
式中:n 為特征總數(shù);Pi為前i 個特征的累計(jì)貢獻(xiàn)率;ipesttk為第k 個特征的特征重要性數(shù)值;為前i 個特征的特征重要性總和;ipesttk為n 個特征的特征重要性總和。
為了保證模型的穩(wěn)定性和魯棒性,選取累計(jì)貢獻(xiàn)率大于95%的特征入模。
設(shè)置CPSO 尋優(yōu)算法的參數(shù),包括迭代次數(shù)、種群規(guī)模、慣性權(quán)重、飛行速度上下限和混沌擾動范圍。
在評價某一參數(shù)組[C,g]的LSSVM 模型時,選用RMSE(均方根誤差)作為目標(biāo)函數(shù),該數(shù)值越小,回歸效果越好;反之,則回歸效果越差,即模型越差。RMSE 計(jì)算公式為:
式中:yi為第i 個樣本的真實(shí)標(biāo)簽;為第i 個樣本的預(yù)測標(biāo)簽。
通過算法迭代,輸出最佳參數(shù)組[CBest,gBest]所對應(yīng)的模型。
在獲得最佳模型后,對當(dāng)天所有的臺區(qū)進(jìn)行預(yù)測線損率,并設(shè)置數(shù)據(jù)置信度為μ,可以求得置信區(qū)間為[σmaxmin,σmaxmax]。置信區(qū)間的區(qū)域劃分如圖2 所示。
圖2 置信區(qū)間的區(qū)域劃分
表1 列出了3 個典型置信度下的誤差范圍。
表1 3 個典型置信度下的誤差范圍
由表1 可知,置信度越小,則誤差范圍越小,即預(yù)測區(qū)間越精確;反之,則預(yù)測區(qū)間的誤差越大,結(jié)果誤差越大。
當(dāng)前大部分臺區(qū)的拓?fù)鋽?shù)據(jù)缺失,因此無法使用傳統(tǒng)的算法進(jìn)行理論線損計(jì)算,但是負(fù)荷數(shù)據(jù)和檔案數(shù)據(jù)保存較好,如浙江省某地級市下屬臺區(qū)負(fù)荷數(shù)據(jù)的缺失率2.3%、采集成功率99%,理論線損在近一年內(nèi)皆小于7%。選取現(xiàn)場作業(yè)人員人工核查數(shù)據(jù)質(zhì)量較好且長期線損穩(wěn)定的浙江省某地級市162 個臺區(qū)進(jìn)行建模。隨機(jī)選取時間尺度為2019 年11 月1 日—2019 年12 月1 日。根據(jù)文獻(xiàn)[11]研究得出樣本的特征維度日供電量、日用電量、變壓器總?cè)萘俊⑵骄?fù)載率、平均電流不平衡度、變壓器的TA 變比和平均功率因數(shù)共7 個維度對理論線損影響較大,所以本文也采用這7 個特征維度,將2019 年11 月1 日—2019 年11 月30 日的數(shù)據(jù)作為訓(xùn)練集,2019 年12 月共計(jì)30 天的數(shù)據(jù)作為測試集。
首先,進(jìn)行數(shù)據(jù)去重,將原始樣本量從3 316條降為3 100 條;其次,對數(shù)據(jù)進(jìn)行歸一化;最后,將2019 年11 月1—30 日的數(shù)據(jù)作為訓(xùn)練集,2019 年12 月共計(jì)30 天的數(shù)據(jù)作為預(yù)測集。
4.2.1 RF 超參數(shù)設(shè)置
先設(shè)置RF 算法的超參數(shù),具體設(shè)置如表2所示。
表2 RF 算法超參數(shù)設(shè)置
表2 中,n_estimators 為樹的棵樹,設(shè)置為100;max_depth 為樹的深度,設(shè)置為5;min_sam ple_leaf 為葉子節(jié)點(diǎn)所需的最小樣本數(shù),設(shè)置為31;criterion 為評價標(biāo)準(zhǔn),設(shè)置為‘gini’。
4.2.2 累計(jì)貢獻(xiàn)率曲線
用RF 算法對特征進(jìn)行篩選,在完成特征重要性的倒序排序后,計(jì)算特征的累計(jì)貢獻(xiàn)率,并繪制累計(jì)貢獻(xiàn)率曲線,如圖3 所示。
圖3 累計(jì)貢獻(xiàn)率曲線
由圖3 可知,當(dāng)使用日供電量、變壓器總?cè)萘?、日用電量和平均?fù)載率這4 個變量時,累計(jì)貢獻(xiàn)率達(dá)到90.296 7%,因此本文選擇這4 個變量作為模型的特征。
4.3.1 CPSO 優(yōu)化算法參數(shù)設(shè)置
設(shè)置CPSO 優(yōu)化算法的主要參數(shù),各參數(shù)的具體數(shù)值如表3 所示。
表3 CPSO 優(yōu)化算法主要參數(shù)設(shè)置
4.3.2 模型效果分析
在經(jīng)過300 次迭代后,得到最優(yōu)LSSVM 模型,且懲罰因子C=3.64,懲罰因子g=0.78。
本文選取LSSVM,PSO-LSSVM 和APSOLSSVM 作為對比算法,并且評價指標(biāo)選取MSE(均方誤差)、RMSE 和MAPE(平均絕對誤差百分比)對本文算法的準(zhǔn)確性進(jìn)行驗(yàn)證,各算法的預(yù)測曲線如圖4 所示。
圖4 各算法預(yù)測曲線對比
由圖4 可知,各算法預(yù)測結(jié)果較為精確,偏差較小。各算法的MSE,RMSE 和MAPE 的結(jié)果如表4 所示。
表4 算法效果對比
由表4 可知,本文算法的MSE 為0.052 6,RMSE 為0.066 5,MAPE 為0.124 2;3 項(xiàng)指標(biāo)皆小于其他3 個算法,因此基于RF-CPSO-LSSVM的日線損率置信區(qū)間預(yù)測的改進(jìn)效果明顯。
繪制置信度在60%~99%之間的理論線損率的置信區(qū)間預(yù)測,如圖5 所示。
圖5 各置信度下的理論線損率置信區(qū)間預(yù)測
由圖5 可知,當(dāng)置信度為99%時,100 個樣本中有97 個處于置信區(qū)間內(nèi);當(dāng)置信度為95%時,則有99 個樣本處于置信區(qū)間內(nèi);當(dāng)置信度大于90%時,則全部樣本均在置信區(qū)間內(nèi)。因此,在90%的置信度下的模型能夠較好地預(yù)測次日理論線損率的置信區(qū)間。
針對當(dāng)前臺區(qū)拓?fù)鋽?shù)據(jù)不全所造成的傳統(tǒng)理論線損計(jì)算方法不適用的現(xiàn)狀,本文采用RF 算法對特征的重要性進(jìn)行排序,并計(jì)算各特征的累計(jì)貢獻(xiàn)率對特征進(jìn)行篩選;利用CPSO 算法對LSSVM 算法的懲罰因子C,g 進(jìn)行參數(shù)尋優(yōu)以獲得最佳預(yù)測模型;選取95%置信度下的理論線損置信區(qū)間作為預(yù)測結(jié)果,為理論線損率的預(yù)測提供一種新方法。