何偉民,孫一迪,姜 捷,金良勇,毛和云
(國網(wǎng)浙江江山市供電有限公司,浙江 江山 324100)
線損率是電網(wǎng)的一項(xiàng)重要評(píng)價(jià)指標(biāo),它能反映電網(wǎng)在經(jīng)濟(jì)和技術(shù)方面的運(yùn)行和管理水平[1]。線損一般分為技術(shù)性線損和非技術(shù)性線損。日線損率值是否在合理的范圍內(nèi)(即日線損率的合格率)已成為電網(wǎng)運(yùn)營商迫切關(guān)注的問題,這就需要從大量采集的樣本中直接區(qū)分正常線損率值和異常值[2]。由于日線損率能夠作為操作人員更好了解低壓變壓器區(qū)域工作狀態(tài)的依據(jù),因此,日線損率的基準(zhǔn)值的準(zhǔn)確測量對(duì)于提高線損管理水平尤為重要。
在數(shù)據(jù)挖掘分析領(lǐng)域,通常有4種方法來計(jì)算基準(zhǔn)值和檢測異常值,即經(jīng)驗(yàn)法[3]、統(tǒng)計(jì)法[4]、無監(jiān)督法[5]和監(jiān)督法[6]。文獻(xiàn)[3]利用經(jīng)驗(yàn)法指出在日線損率的基準(zhǔn)測試中,經(jīng)驗(yàn)區(qū)間通常設(shè)置為-1%~5%。文獻(xiàn)[7]揭示了由于不可避免的采集誤差,不小于-1%的值均可以接受。文獻(xiàn)[4]指出統(tǒng)計(jì)法中的區(qū)間界限能夠適應(yīng)不同的檢測樣本,但該方法很難利用線損率的影響因素。文獻(xiàn)[5]利用無監(jiān)督法中的聚類算法將異常值可以通過數(shù)據(jù)點(diǎn)與聚類中心的距離來進(jìn)行識(shí)別。監(jiān)督法利用機(jī)器學(xué)習(xí)模型求解分類問題[6]和回歸問題[8],文獻(xiàn)[9]和文獻(xiàn)[10]分別設(shè)計(jì)用于異常值檢測和基準(zhǔn)計(jì)算任務(wù),分類模型通過對(duì)標(biāo)記樣本的學(xué)習(xí)來區(qū)分正常和異常數(shù)據(jù)。然而,線損率樣本通常沒有標(biāo)記,因此它無法識(shí)別收集到的線損率值是否正常。
本文提出了一種基于魯棒神經(jīng)網(wǎng)絡(luò)(RNN)的回歸計(jì)算方法,并由去噪自動(dòng)編碼器(DAE)、多徑網(wǎng)絡(luò)結(jié)構(gòu)、丟包層、Huber損失函數(shù)、L2正則化和10個(gè)輸出組成?;鶞?zhǔn)是根據(jù)10個(gè)輸出的平均值計(jì)算得出。經(jīng)過誤差分析,該方法可以得到合理的區(qū)間來檢測原始線損率樣本的異常值。
本文提出了基于等效電阻法計(jì)算技術(shù)的理論線損公式,該方法假定線路的前端存在等效電阻,其中三相三線和三相四線系統(tǒng)的能量損失可表示為[11]:
(1)
其中:ΔAb為三相平衡負(fù)載時(shí)的理論線損,N為結(jié)構(gòu)系數(shù),在三相三線制下等于3,在三相四線制下等于3.5。K、Iav、Req和T分別為負(fù)荷曲線的形狀系數(shù)、線首處平均電流(A)、導(dǎo)體等效電阻(W)和工作時(shí)間(h)。此外,Req的計(jì)算公式為:
(2)
其中:Ni、Ai和Ri分別為第i個(gè)線段的結(jié)構(gòu)系數(shù)、計(jì)量功率和電阻。Aj為從第j個(gè)電表采集的電量。對(duì)于三相平衡負(fù)載系統(tǒng),理論線損可修正為:
ΔAub=ΔAb×Kub
(3)
其中:Kub為修正系數(shù),可定義為:
(4)
其中:當(dāng)出現(xiàn)單相重負(fù)荷和兩相輕負(fù)荷時(shí),k=2。當(dāng)出現(xiàn)兩相重負(fù)荷時(shí),k=8。δI為三相負(fù)載的不平衡度,可計(jì)算為:
(4)
其中:Imax為來自具有最大負(fù)載相的電流。因此,以上定義的理論線損是不可避免的能量損耗,即技術(shù)線損耗。然而,電網(wǎng)運(yùn)營商也擔(dān)心因竊電引起的非技術(shù)性線路損耗。由于非技術(shù)性線損情況會(huì)導(dǎo)致按日計(jì)量的線路損耗率出現(xiàn)異常值,因此有必要計(jì)算合理的時(shí)間間隔以進(jìn)行區(qū)分識(shí)別。
在實(shí)際應(yīng)用中,通常國家電網(wǎng)公司每月檢查一次低壓變壓器區(qū)域日線損率的合格性。在這種情況下,本文研究中使用了2019年7月份的線損率數(shù)據(jù)集,該數(shù)據(jù)集以每日間隔進(jìn)行采集,以此檢查當(dāng)月線損率的合格率。合格率指標(biāo)在7月份尤為重要,這是由于7月份通常是夏季的用電高峰期。該數(shù)據(jù)集選自浙江省江山市共計(jì)19 884個(gè)低壓變壓器區(qū)域,共有616 404個(gè)樣本,滿足了大數(shù)據(jù)分析的需要?;谠摂?shù)據(jù)集,選擇約80%的樣本(15 907個(gè)低壓變壓器區(qū)域)作為訓(xùn)練樣本,其余的樣本(3 977個(gè)區(qū)域)作為測試樣本。
本文的研究對(duì)象為日線損率,一些低壓變壓器區(qū)域日線損率示例,如圖1所示。
圖1 不同低壓變壓器區(qū)域日線損率示例
本文選取25%(q1),中位數(shù)(q2),75%(q3),最大值(max)、最小值(min)、均值、標(biāo)準(zhǔn)差(std),下限值(la)和上限值(ua)作為研究指標(biāo)?;诳傮w線損率數(shù)據(jù)集的數(shù)據(jù)質(zhì)量分析,如表1所示。
表1 基于總體線損率數(shù)據(jù)集的數(shù)據(jù)質(zhì)量分析
原始數(shù)據(jù)集和插值后數(shù)據(jù)集的方框圖,如圖2所示。
圖2 原始數(shù)據(jù)集和插值后數(shù)據(jù)集的方框圖
下限值(la)和上限值(ua)是基于25%的(q1)和75%的(q3)計(jì)算得出,其中超出界限范圍的值可以視為異常值:
(6)
根據(jù)曲線和數(shù)據(jù)質(zhì)量分析,日線損率的數(shù)據(jù)特征總結(jié)如下:
(1)線損率數(shù)據(jù)日變化規(guī)律性很小,但波動(dòng)性很大。從圖1可以看出,不同低壓變壓器區(qū)域的線損率曲線隨著時(shí)間的推移變化很大,歷史線損率很難用來估計(jì)進(jìn)一步的數(shù)值。因此,選取線損率的影響因素是本文研究的重點(diǎn)。
(2)數(shù)據(jù)集中異常值的偏差有時(shí)偏離正常值較大,這表明計(jì)電裝置和通信設(shè)備的可靠性較低。根據(jù)表1和圖2,對(duì)比圖中原始數(shù)據(jù)集的上下限值分別為-1.57%和5.22%,與項(xiàng)目標(biāo)準(zhǔn)(-1%和5%)相當(dāng)接近。然而,所收集的線損率的最大值和最小值分別為100%和-1.69×106%,與界限有很大的不同。在這種情況下,基準(zhǔn)線損率在實(shí)際應(yīng)用中仍然重要。
(3)數(shù)據(jù)集的質(zhì)量較差,無法直接使用。數(shù)據(jù)質(zhì)量分析的組成結(jié)果,如圖3所示。其中,正常值84.61%,異常值8.67%,缺失值6.72%,因此,存在大量的異常值和缺失值,并且分別占整個(gè)數(shù)據(jù)集的8.67%和6.72%。本研究利用樣條插值法來填補(bǔ)缺失值。從表1和圖2可以看出,插值后的數(shù)據(jù)集與原始數(shù)據(jù)集的分布相似。相反,雖然可以根據(jù)la和ua可以直接消除異常值,但分布會(huì)發(fā)生變化,并且很難計(jì)算出準(zhǔn)確的合理區(qū)間。
圖3 數(shù)據(jù)質(zhì)量分析的組成結(jié)果
考慮到可能的影響因素和記錄的信息,本文共選擇12個(gè)因素作為回歸模型的輸入,如表2所示。其中,第三因素和第4個(gè)因素是1 bit字符,其他都為數(shù)值。
表2 線損率的影響因素
根據(jù)數(shù)據(jù)質(zhì)量分析,原始數(shù)據(jù)集中含有大量的異常值,這些異常值超出合理范圍較遠(yuǎn),很難得到準(zhǔn)確的結(jié)果。因此,本文的任務(wù)是利用具有魯棒的學(xué)習(xí)模型來獲得異常值穩(wěn)定的回歸結(jié)果,如圖4所示。
圖4 傳統(tǒng)的學(xué)習(xí)模型容易受到異常值的影響
通常,學(xué)習(xí)模型需要手動(dòng)設(shè)置閾值,并根據(jù)這些閾值從數(shù)據(jù)集中刪除異常值,數(shù)據(jù)集的其余部分可用于訓(xùn)練機(jī)器學(xué)習(xí)模型,然而確定準(zhǔn)確的閾值成為研究的難點(diǎn)。此外,學(xué)習(xí)模型合理區(qū)間的計(jì)算范圍可能接近人工閾值,從而影響原始數(shù)據(jù)集的分布,并使得訓(xùn)練概率學(xué)習(xí)模型實(shí)效。在這種情況下,本文提出了基于RNN的計(jì)算方法,如圖5所示。
具體計(jì)算步驟如下。
步驟1:建立RNN。為了充分?jǐn)U展其魯棒性,本文利用DAE、多徑結(jié)構(gòu)、L2正則化、丟包層和Huber損失函數(shù)等方式進(jìn)行分析。由于RNN具有10個(gè)輸出節(jié)點(diǎn),其中每個(gè)節(jié)點(diǎn)以不同的丟包率(從0.05到0.50)連接到一個(gè)層。
步驟2:根據(jù)10種不同的輸出計(jì)算平均值,即線損率的最終基準(zhǔn)值:
(7)
步驟3:根據(jù)誤差分析獲得合理的區(qū)間。本文不僅計(jì)算了基準(zhǔn)值與實(shí)際線損率的絕對(duì)誤差,還計(jì)算了不同輸出的方差。根據(jù)區(qū)間結(jié)果,不在區(qū)間范圍內(nèi)的數(shù)據(jù)點(diǎn)認(rèn)為是異常值,具體的計(jì)算公式如下:
(8)
(9)
(10)
圖6 消除可能異常線損率值的雙尾檢驗(yàn)
本文使用RNN算法[12]進(jìn)行魯棒學(xué)習(xí),其結(jié)構(gòu)如圖7所示。其由三條主要路徑組成,這些路徑通過串聯(lián)組合在一起,并且每條主路徑上都有一個(gè)DAE。為了進(jìn)一步提高系統(tǒng)的魯棒性,將串聯(lián)后的輸出節(jié)點(diǎn)放在同一層中,這些層表示從原始輸入中提取的高階特征,并在層中采用L2正則化來限制這些節(jié)點(diǎn)的輸出值。然后,在高階特征層之后疊加10個(gè)具有不同丟包率的丟包層,并得到10個(gè)輸出。本文對(duì)10個(gè)輸出進(jìn)行分析,并計(jì)算基準(zhǔn)值和合理區(qū)間。
圖7 魯棒神經(jīng)網(wǎng)絡(luò)(RNN)的結(jié)構(gòu)
本文所提出的DAE的結(jié)構(gòu),如圖8所示。它是自動(dòng)編碼器的魯棒變體,在編碼器之前具有一個(gè)噪聲層[13],例如正常(高斯)噪聲層:
圖8 去噪自動(dòng)編碼器(DAE)的結(jié)構(gòu)
xi,n=xi+N(0,σ2)
(11)
其中:xi和xi,n分別為噪聲層的第i個(gè)輸入和第i個(gè)輸出。N(0,σ2)為正態(tài)分布,其平均值為0,方差值為σ2。在本文研究中,當(dāng)輸入標(biāo)準(zhǔn)化為[0,1]時(shí),σ設(shè)置為0.05。
此外,DAE中的編碼器層和解碼器層均由傳統(tǒng)的全連接(FC)層組成,其方程可以表示為:
(12)
在RNN中共有三條主要路徑,它們具有相似的層,其輸出在串聯(lián)操作下可以組合起來:
(13)
此外,主路徑由兩個(gè)子路徑形成,即DAE子路徑和FC層子路徑。兩個(gè)子路徑的輸出作為主路徑的輸出相加,如下所示:
(14)
丟包層作為一種特殊的層,其可以有效地防止過度擬合[14]。丟包過程可概括為兩個(gè)階段,即訓(xùn)練階段和應(yīng)用階段。對(duì)于公式(12)所示的傳統(tǒng)FC層,存在j個(gè)輸入節(jié)點(diǎn)。在訓(xùn)練階段中,輸入節(jié)點(diǎn)將以概率p(0
圖9 在訓(xùn)練階段的丟包原則
(15)
其中:p為丟包率,其設(shè)定在0.05到0.50之間(步長為0.05),以便在研究中獲得10種不同的輸出。
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程是設(shè)置損失函數(shù),利用BP梯度下降算法逐層更新參數(shù)。均方誤差(MSE):
(16)
(17)
其中:MSE和MAE也可作為L1損失和L2損失,這是由于MSE和MAE分別使用了線性項(xiàng)和二次項(xiàng)。
MSE與MAE相比,MSE具有更光滑的導(dǎo)數(shù)函數(shù),這有利于梯度下降算法的計(jì)算,而MAE的微小差異可能導(dǎo)致參數(shù)更新的巨大變化。相反,在對(duì)抗異常值時(shí),MAE表現(xiàn)出比MSE更好的性能[16]。在這種情況下,Huber損失函數(shù)的原理,如圖10所示。
本文采用Huber損失函數(shù)[17],該函數(shù)結(jié)合了MSE和MAE的優(yōu)點(diǎn):
(18)
其中:δ為需要手動(dòng)設(shè)置的超參數(shù),在本文研究中設(shè)定為10%。
在本文研究中,L2正則化旨在為具有較大激活輸出的節(jié)點(diǎn)設(shè)定懲罰項(xiàng),以此防止過度擬合,并提高神經(jīng)網(wǎng)絡(luò)的魯棒性。正則化在訓(xùn)練階段起到作用,在訓(xùn)練損失函數(shù)中加入兩個(gè)范數(shù)的懲罰項(xiàng),其表達(dá)式為:
(19)
其中:L為模型訓(xùn)練的最終損失函數(shù),λ為懲罰項(xiàng)的超參數(shù),在本文研究中設(shè)置為0.001。
本文所提出的RNN結(jié)構(gòu)和超參數(shù)如表3所示。
表3 RNN的結(jié)構(gòu)和超參數(shù)
考慮到訓(xùn)練樣本數(shù)量較多的特點(diǎn),本文建立了k近鄰(KNN)、決策樹回歸(DTR)和單隱層人工神經(jīng)網(wǎng)絡(luò)(ANN)進(jìn)行比較,在大數(shù)據(jù)集上具有較高的訓(xùn)練效率。在NVIDIA GTX 1080 GPU的計(jì)算機(jī)上,采用Python 3.5和Tensorflow 1.4對(duì)深度RNN模型進(jìn)行訓(xùn)練。RNN的所有超參數(shù)和訓(xùn)練配置以及超參數(shù)(即σ、δ和λ)通過基于整體訓(xùn)練數(shù)據(jù)集的三重交叉驗(yàn)證的網(wǎng)絡(luò)搜索進(jìn)行選擇。參數(shù)的搜索空間和最終結(jié)果,如表4所示。
表4 RNN中選定超參數(shù)的搜索空間
在本文中,從測試樣本中隨機(jī)選擇6個(gè)低壓變壓器區(qū)域作為展示示例,如圖11所示。
圖11 6個(gè)實(shí)驗(yàn)區(qū)域的基準(zhǔn)值和合理區(qū)間的結(jié)果
低壓變壓器區(qū)域的編號(hào)分別為1 100、1 302、7 015、8 125、12 610和14 072。結(jié)果表明,合理區(qū)間的界限可以根據(jù)多個(gè)輸入因素進(jìn)行自適應(yīng)調(diào)整,例如,在區(qū)域1 100和區(qū)域8 125中。距離基準(zhǔn)值較遠(yuǎn)的異常值可以有效地剔除,雖然這些異常值可以在-1%~5%之間,但是合理區(qū)間的結(jié)果要優(yōu)于1%~-5%之間的固定區(qū)間。此外,基準(zhǔn)值與實(shí)際線損率相比波動(dòng)較小,表明日線損率的估計(jì)具有較高的可靠性?;鶞?zhǔn)值能夠根據(jù)相關(guān)因素的變化自適應(yīng)地反映低壓變壓器區(qū)域的日常運(yùn)行狀況,而不是根據(jù)原始數(shù)據(jù)集計(jì)算出的平均值或中值。
基于本文所提出的RNN,可以分析線損率的通過百分比結(jié)果,如圖12所示。
圖12 基于魯棒神經(jīng)網(wǎng)絡(luò)的線損率合格率分析
對(duì)于線損率的數(shù)據(jù)點(diǎn)分析,由于所提出的方法能夠準(zhǔn)確地識(shí)別出與基準(zhǔn)值相差較大的異常值,因此異常值的數(shù)目比圖3中的異常值要多。此外,雖然所有數(shù)據(jù)點(diǎn)的缺失值和異常值的百分比都不算大,分別為6.72%和13.06%,但一個(gè)月內(nèi)沒有缺失值和異常值的區(qū)域僅占整個(gè)數(shù)據(jù)集的19.84%,這說明當(dāng)前計(jì)電設(shè)備的可靠性較低。
為了評(píng)估本文所提出方法的魯棒性和準(zhǔn)確性,首先建立KNN、DTR和ANN的超參數(shù),如表5所示。
表5 KNN、DTR和ANN的超參數(shù)
(1)魯棒性分析:為了評(píng)估所提方法的魯棒性,本文分析了基于不同測試模型的計(jì)算基準(zhǔn)值的分布,如圖13所示。
圖13 基于不同測試模型的計(jì)算基準(zhǔn)值分布
分布指標(biāo)的詳細(xì)數(shù)值,如表6所示。
表6 不同測試模型的魯棒性分析結(jié)果
結(jié)果表明,測試的ANN模型性能最差,完全無法計(jì)算出有效的基準(zhǔn)值。ANN的最大值和最小值分別為4.49×10%和-8.26×10%,因此,其很難作為基準(zhǔn)值。根據(jù)分布,KNN和DTR得到了相似的結(jié)果。它們都利用接近未知測試區(qū)域的大量訓(xùn)練樣本來確定新的基準(zhǔn)值。因此,在本文中,KNN和DTR比ANN具有更好的魯棒性,并且在大多數(shù)低壓變壓器測試區(qū)域都具有可行性。然而,這兩個(gè)模型的最小基準(zhǔn)為-8.13×104%,仍然不是合理的基準(zhǔn)值,而且RNN在4個(gè)測試模型中取得了最好的結(jié)果,其中計(jì)算的基準(zhǔn)值在合理的范圍內(nèi)。利用RNN計(jì)算得出的基準(zhǔn)值標(biāo)準(zhǔn)差僅為0.80%,這表明該方法得到的結(jié)果穩(wěn)定且可靠。
(2)精度分析:本文利用MAE、MSE和Huber損耗3個(gè)損耗指標(biāo)來比較4個(gè)測試模型。在使用雙尾檢驗(yàn)進(jìn)行損失計(jì)算之前,測試樣本中的異常值被消除,如圖6所示。不同測試模型的精度分析結(jié)果,如表7所示。
表7 不同測試模型的精度分析結(jié)果
結(jié)果表明,由于ANN的3個(gè)損失指標(biāo)遠(yuǎn)高于其他模型,因此其性能最差。當(dāng)直接對(duì)具有極端異常值的樣本進(jìn)行訓(xùn)練時(shí),ANN并不適用。雖然KNN和DTR具有相似的魯棒性,但它們的精度指標(biāo)卻有很大的不同。由于KNN計(jì)算出的異常值較少,因此KNN得到的MAE指標(biāo)最好,而KNN的MSE值大于所提出的RNN的MSE值。綜合比較這些指標(biāo),本文提出的RNN具有最高的性能,在MAE值較小的情況下獲得了最佳的MSE和Huber損耗指標(biāo)。
日線損率作為考核低壓變壓器區(qū)域性能的重要指標(biāo),其對(duì)供電企業(yè)的利潤有很大的影響。為了更好地管理線損水平,為低壓變壓器區(qū)域的建設(shè)和運(yùn)行提供指導(dǎo),本文研究開發(fā)的日線損率基準(zhǔn)值計(jì)算方法,有助于發(fā)現(xiàn)異常線損率值,也有助于運(yùn)行人員對(duì)異常運(yùn)行情況進(jìn)行檢查和確認(rèn)。從實(shí)例分析和比較結(jié)果來看,傳統(tǒng)的ANN模型不能處理異常值,無法計(jì)算出基準(zhǔn)的結(jié)果。在案例分析中證明了KNN、DTR和所提出的RNN的適用性,其中所提出的RNN優(yōu)于其他兩個(gè)模型。在所有的測試模型中,該方法具有較高的精度和魯棒性。此外,根據(jù)所提出的RNN的最終結(jié)果,在整個(gè)數(shù)據(jù)點(diǎn)中約有13%的異常值。一個(gè)月內(nèi)線損率無缺失值和異常值的區(qū)域僅占20%左右,說明了計(jì)電設(shè)備可靠性較低。因此,目前電網(wǎng)中仍需要一套可靠的線損數(shù)據(jù)監(jiān)測與管理系統(tǒng)。