黃道友, 康健, 徐超
(1.國網(wǎng)安徽省電力有限公司,安徽 合肥 230022; 2.上海交通大學(xué) 電子信息與電氣工程學(xué)院,上海 200240)
近年來,隨著各種計算機、通信、自動化技術(shù)與電網(wǎng)融合,其在推進電網(wǎng)智能化水平不斷提高的同時,給電網(wǎng)帶來了海量數(shù)據(jù)[1-3]。為了處理電網(wǎng)中的海量數(shù)據(jù),電力大數(shù)據(jù)應(yīng)運而生。但目前電力大數(shù)據(jù)在采集、傳輸過程中受到外界干擾導(dǎo)致的數(shù)據(jù)缺失和數(shù)據(jù)異常問題普遍存在,降低了后續(xù)數(shù)據(jù)分析的可靠性和科學(xué)性。
數(shù)據(jù)預(yù)處理作為解決數(shù)據(jù)缺失和數(shù)據(jù)異常問題的手段,目前已有一些對電力大數(shù)據(jù)預(yù)處理的研究。文獻[4]提出了基于Apache Spark統(tǒng)一計算引擎的配電網(wǎng)大數(shù)據(jù)預(yù)處理技術(shù),能夠有效的清洗數(shù)據(jù)。文獻[5]研究提出 MapReduce技術(shù)的電力大數(shù)據(jù)預(yù)處理屬性約簡方法,能夠高效處理數(shù)據(jù)并具有良好可拓展性。文獻[6]提出偏序約簡算法進行電力大數(shù)據(jù)預(yù)處理,解決了決策表信息丟失問題。
本文提出面向智能立項平臺的數(shù)據(jù)預(yù)處理體系。首先介紹了本文面向的數(shù)據(jù)平臺——智能立項平臺。然后介紹了數(shù)據(jù)預(yù)處理的三個環(huán)節(jié):缺失值與異常值處理、多時間尺度數(shù)據(jù)整理、數(shù)據(jù)歸一化。最后將數(shù)據(jù)預(yù)處理體系運用于實際電力運行,通過算例驗證了該體系的有效性。
本文的主要創(chuàng)新點如下。
(1) 綜合電網(wǎng)各系統(tǒng)數(shù)據(jù)與業(yè)務(wù)構(gòu)建智能立項平臺,實現(xiàn)電網(wǎng)設(shè)備項目管理的智能化、科學(xué)化和效率化。
(2) 提出智能立項平臺的數(shù)據(jù)預(yù)處理體系,有效提高數(shù)據(jù)質(zhì)量和可靠性,有利于提高電網(wǎng)公司數(shù)據(jù)挖掘的質(zhì)量。
智能立項平臺由安徽省國網(wǎng)公司建立,其接入了PMS、GIS、調(diào)度SCADA、電能量、自然災(zāi)害和生產(chǎn)實時管控等自動化系統(tǒng)數(shù)據(jù),整合了負荷分析中心、理論線損分析中心、技術(shù)降損評價中心和地理信息中心等相關(guān)中心數(shù)據(jù)。智能立項平臺不僅可以促進現(xiàn)有業(yè)務(wù)系統(tǒng)異常數(shù)據(jù)治理,實現(xiàn)現(xiàn)有業(yè)務(wù)系統(tǒng)數(shù)據(jù)的綜合應(yīng)用,而且可以發(fā)現(xiàn)電網(wǎng)薄弱環(huán)節(jié)為電網(wǎng)技改大修項目立項提供科學(xué)依據(jù),提升電網(wǎng)設(shè)備項目管理科學(xué)化、智能化管理水平。系統(tǒng)總體功能架構(gòu)如圖1所示,由基礎(chǔ)服務(wù)、數(shù)據(jù)中心和業(yè)務(wù)應(yīng)用三個層級構(gòu)成,每個層級包含了不同的功能模塊?;A(chǔ)服務(wù)提供了系統(tǒng)運行所需的基礎(chǔ)支撐框架及基礎(chǔ)組件,內(nèi)容包括報表組件、繪圖組件、控制中心、數(shù)據(jù)集成中心、服務(wù)匯總及輸出等。電網(wǎng)數(shù)據(jù)中心用來管理電網(wǎng)的核心業(yè)務(wù)數(shù)據(jù),包含電網(wǎng)模型管理、數(shù)據(jù)質(zhì)量分析以及地理信息中心、負荷分析中心。業(yè)務(wù)應(yīng)用包含理論線損分析中心、技術(shù)降損評價中心和缺陷隱患分析中心。
圖1 智能立項平臺結(jié)構(gòu)圖
智能立項平臺的數(shù)據(jù)庫系統(tǒng)主要有SCADA系統(tǒng)、PMS系統(tǒng)、營銷數(shù)據(jù)系統(tǒng),以及安徽省國網(wǎng)公司個性化定制的自然災(zāi)害在線監(jiān)測預(yù)警系統(tǒng)。以上數(shù)據(jù)庫系統(tǒng)各司其職,數(shù)據(jù)無法統(tǒng)一調(diào)度參與協(xié)同計算。但智能立項平臺可以從SCADA系統(tǒng)、PMS系統(tǒng)、營銷數(shù)據(jù)系統(tǒng)和自然災(zāi)害在線監(jiān)測預(yù)警系統(tǒng)等數(shù)據(jù)庫采集數(shù)據(jù),打通孤立系統(tǒng)的數(shù)據(jù)屏障。系統(tǒng)數(shù)據(jù)架構(gòu)如圖2所示。
圖2 智能立項平臺數(shù)據(jù)架構(gòu)
由于智能立項平臺中最有代表性也最龐大的數(shù)據(jù)為負荷數(shù)據(jù),本文以負荷數(shù)據(jù)的預(yù)處理為例展示智能立項平臺的預(yù)處理體系。原始的負荷數(shù)據(jù)來源于儀器量測數(shù)據(jù),經(jīng)過通信網(wǎng)絡(luò)傳遞后部分數(shù)據(jù)存在缺失和異常問題。因此,預(yù)處理過程中首先將數(shù)據(jù)中的異常值替換,缺失值填充。然后,為了滿足多時間尺度的數(shù)據(jù)挖掘,需要進一步進行多時間尺度數(shù)據(jù)整理工作。最后,為了便于不同負荷節(jié)點的橫向比較,需要對負荷數(shù)據(jù)進行歸一化處理。本文研究的智能立項平臺數(shù)據(jù)預(yù)處理體系,其結(jié)構(gòu)如圖3所示。
圖3 數(shù)據(jù)處理體系結(jié)構(gòu)
本文采用3倍標準差法(3-σ方法)來甄別異常負荷數(shù)據(jù)。
對于正態(tài)分布的數(shù)據(jù),在均值上下3倍標準差內(nèi)的概率高達99.7%。因此,偏離均值超過3倍標準差的數(shù)據(jù)有較大概率是異常值。
3-σ方法是統(tǒng)計學(xué)方法,需要明確劃分樣本空間??紤]到電力系統(tǒng)中含有海量的負荷數(shù)據(jù),并且海量數(shù)據(jù)主要來源于:①電力系統(tǒng)有海量的負荷節(jié)點;②每一個負荷節(jié)點都以15 min為步長統(tǒng)計長期的負荷數(shù)據(jù)。本文按照負荷節(jié)點和日期劃分樣本空間,異常值判斷的定義式如式(1)所示。
(1)
式中:μij為號節(jié)點號i在日期j天的負荷均值;σij為節(jié)點號i在日期j天的負荷標準差;πi,j,k為布爾型變量,表示i號節(jié)點在日期j天的第k個負荷是否異常;f為采用3-σ方法的異常值判別函數(shù)。
本文所研究的時間序列中,每一個時序的負荷值與相鄰時序的負荷值存在潛在的關(guān)聯(lián)性,因此不能簡單地將異常值和缺失值刪除。本文采用k最鄰近算法(k-nearest neighbors,KNN)的算法原理對異常值進行替換,對缺失值進行填充。KNN算法中用歐式距離來衡量兩個向量之間的遠近關(guān)系,針對向量xi=(xi1,xi2,…,xin)和向量xj=(xj1,xj2,…,xin),用dij來表征兩者之間的距離。dij的定義式如式(2)所示。
(2)
針對異常值和缺失值xi,將異常值和缺失值前p個和后q個正常的負荷值xi作為對應(yīng)的向量Xi=(xi-p,…,xi-1,xi+1,…,xi+q), 正常值xj所對應(yīng)的向量為Xj=(xj-p,…,xj-1,xj+1,…,xj+q),計算時間序列上所有的正常值對應(yīng)向量Xi和Xj之間的距離,選擇其中距離最近的k個正常值,以其均值作為xi的新值。xi,new,xi,new的定義式如式(3)所示。
(3)
從時間尺度來看,需要整理的數(shù)據(jù)包括年度數(shù)據(jù)、周數(shù)據(jù)、日數(shù)據(jù)和節(jié)假日數(shù)據(jù)。從數(shù)據(jù)類型來看,需要整理的數(shù)據(jù)包括負荷數(shù)據(jù)、氣象數(shù)據(jù)和時間數(shù)據(jù)。原始的負荷數(shù)據(jù)是以15 min為時間間隔采集的功率數(shù)據(jù),調(diào)整負荷的時間尺度需要考慮電量和功率數(shù)據(jù)之間的轉(zhuǎn)換。對負荷數(shù)據(jù)進行整理時用式(4)進行處理。
(4)
式中:Et1,t2為從t1到t2時刻的累積電量;Pt為t時刻的實時功率值,最終用單位時間內(nèi)的累積電量來表示新時間尺度的負荷。
多時間尺度數(shù)據(jù)整理實際是做數(shù)據(jù)集成工作,將不同數(shù)據(jù)庫中的氣象數(shù)據(jù)與處理后的負荷數(shù)據(jù)集成到新的數(shù)據(jù)庫中形成一條新的記錄。
本文采用Min-Max歸一化來實現(xiàn)數(shù)據(jù)歸一化,該方法利用了樣本空間的邊界值信息,將特征線性化地映射到特定范圍內(nèi),Min-Max歸一化的計算方程如式(5)所示。
(5)
式中:x為樣本歸一化前的值;xnew為歸一化后的值;xmin為樣本空間的最小值;xmax為樣本空間的最大值。
采用Min-Max歸一化后,各個特征對目標函數(shù)的影響權(quán)重具有一致性,避免部分特征起主導(dǎo)作用從而屏蔽其他特征的問題。Min-Max歸一化需要用到樣本空間的最大值xmax和最小值xmin,因此非常容易受最大值xmax和最小值xmin異常數(shù)據(jù)的影響。本文在進行歸一化之前先進行了異常數(shù)據(jù)的替換,因此可以有效避免這一問題。
本文選取某計量點2021年4月23日的用電量作為數(shù)據(jù)來源,由于當日用電量為-119 952.97 kWh,采用3-σ方法判定當日存在異常數(shù)據(jù)。經(jīng)過對數(shù)據(jù)庫原始數(shù)據(jù)的定位,發(fā)現(xiàn)該日4∶00—5∶45,22∶00—22∶45,共計12個實時運行數(shù)據(jù)存在異常。
使用KNN算法將當日12個時刻的異常值替換后,計算得到新的日負荷為39.830 4 kWh/d。異常值替換前后該計量點日負荷曲線如圖4所示。異常數(shù)據(jù)替換前極端異常值的存在影響了對負荷曲線其余位置的變化趨勢的觀測,異常數(shù)據(jù)替換后負荷曲線具有了明顯的變化趨勢。因此,本文設(shè)計的數(shù)據(jù)預(yù)處理體系中采用的3-σ方法可以有效甄別異常值,采用的KNN算法可以有效修正異常值。
圖4 異常數(shù)據(jù)替換前后負荷曲線
本文選取安徽省合肥市某計量點在2020-08-01 00∶00至2020-08-07 23∶45的實測負荷數(shù)據(jù)作為數(shù)據(jù)集,對其進行數(shù)據(jù)處理和歸一化。圖5(a)為原始負荷曲線,圖5(b)為數(shù)據(jù)處理并歸一化后的負荷曲線,歸一化操作將原始的負荷變?yōu)闊o量綱值。
圖5 數(shù)據(jù)處理前后負荷曲線
電力大數(shù)據(jù)正在逐步顯現(xiàn)其重要性,科學(xué)化、智能化的電網(wǎng)管理的需要也正在被提出。本文提出的智能立項平臺可以有效地提高電網(wǎng)項目管理的效率與智能程度,有效推進智能電網(wǎng)的構(gòu)建。算例結(jié)果表明,數(shù)據(jù)預(yù)處理體系則可以有效解決電網(wǎng)所接受到的數(shù)據(jù)質(zhì)量低問題,同時為后續(xù)的數(shù)據(jù)挖掘做好鋪墊。