王登峰 ,竇圣霞 ,汪海燕 ,周 睿 ,嚴紹奎
(1.國網(wǎng)寧夏電力有限公司營銷服務(wù)中心(國網(wǎng)寧夏電力有限公司計量中心),寧夏 銀川 750011;2.國網(wǎng)(寧夏)綜合能源服務(wù)有限公司,寧夏 銀川 750011)
用電信息采集系統(tǒng)的核心設(shè)備是智能電表,目前正在國內(nèi)外許多地區(qū)迅速取代傳統(tǒng)電表?;谥悄茈姳砗碗娏Υ髷?shù)據(jù)的智能電網(wǎng)一方面能夠節(jié)省能源浪費、降低用電成本、提高電網(wǎng)運行可靠性;另一方面可確保電力生產(chǎn)和消費的有效連接和利用,實現(xiàn)電網(wǎng)的自動和實時管理,更好地測量能耗、優(yōu)化可靠性水平并改善現(xiàn)有服務(wù),從而節(jié)省能源并降低能耗費用[1-5]。
智能電網(wǎng)功能的實施基于在電網(wǎng)用電戶安裝的智能電表和各種傳感器,導(dǎo)致要處理的數(shù)據(jù)量大大增加。例如智能電表以每15 min 發(fā)送一次用戶消耗的能源的讀數(shù),每個電表每天可產(chǎn)生大量讀數(shù),而不是傳統(tǒng)電表中每月一次讀數(shù)。因此除了能源管理之外,智能電網(wǎng)還需要出色的數(shù)據(jù)管理來應(yīng)對高速處理、存儲和用電數(shù)據(jù)高級分析的要求。實際上由于智能電網(wǎng)數(shù)據(jù)的性質(zhì)、分布和某些需求的實時約束,通常需要復(fù)雜的數(shù)據(jù)處理方法。而大數(shù)據(jù)技術(shù)恰好適用于此類高效數(shù)據(jù)管理工作,以幫助電網(wǎng)公司更好地了解客戶的行為,實現(xiàn)節(jié)約用電和合理安排用電需求、跟蹤停機時間和監(jiān)測電源故障等。因此電網(wǎng)單位的主要目標(biāo)是能夠管理大量數(shù)據(jù)并通過數(shù)據(jù)分析將收集的數(shù)據(jù)轉(zhuǎn)換為有效的知識,最后轉(zhuǎn)換為可實施的電力服務(wù)計劃[6-10]。
因此本文采集了100 個匿名商業(yè)建筑的5 min智能電表數(shù)據(jù)集,進行了全面的分析,探索用電的時間序列以及用電行為的預(yù)測方法,通過對比不同預(yù)測模型效果驗證了本文構(gòu)建的預(yù)測模型的合理性。研究結(jié)果可為基于電力大數(shù)據(jù)的用戶用電行為預(yù)測提供參考。
用電信息采集系統(tǒng)是由智能電表、通信網(wǎng)絡(luò)和數(shù)據(jù)管理系統(tǒng)組成的集成系統(tǒng),可實現(xiàn)公用事業(yè)和客戶之間的雙向通信[11]。該系統(tǒng)提供了許多以前無法實現(xiàn)或必須手動執(zhí)行的重要功能,例如自動和遠程測量用電量情況、連接和斷開服務(wù)、篡改和盜竊用電監(jiān)測、故障和斷電識別以及電壓監(jiān)測等[12]。
用電信息采集系統(tǒng)的體系構(gòu)架通常包括以下幾個關(guān)鍵組件:
(1)智能電表:用電信息采集系統(tǒng)的核心元素是智能電表,該電表安裝在客戶的房屋內(nèi),并提供多種功能:包括以5 min、15 min、30 min 或60 min 的間隔測量客戶的用電量;測量電壓電平;監(jiān)視電力服務(wù)的通斷狀態(tài)。智能電表將這些讀數(shù)傳達給電網(wǎng)相關(guān)單位,以進行處理、分析、回饋給客戶進行計費等。
(2)通信網(wǎng)絡(luò):可將大量由智能電表采集的不同時間間隔的電力負載數(shù)據(jù),從電表傳輸?shù)诫娋W(wǎng)公司的后臺。
(3)電表數(shù)據(jù)管理系統(tǒng)(meter data management system,MDMS),用于存儲和處理不同間隔時間的電力負荷數(shù)據(jù),并將電表數(shù)據(jù)與多個關(guān)鍵信息和控制系統(tǒng)進行集成,這些系統(tǒng)包括有頭端系統(tǒng)、計費系統(tǒng)、客戶信息系統(tǒng)(customer information systems,CIS)、地理信息系統(tǒng)(geographic information systems,GIS)、停運管理系統(tǒng)(outage management systems,OMS)和配電管理系統(tǒng)(distribution management systems,DMS)。
推動用電信息采集系統(tǒng)投資的主要新功能是能夠自動生成及時且準(zhǔn)確的賬單,而不受天氣條件或物業(yè)使用限制的影響,傳統(tǒng)上這會妨礙電表信息的收集。一旦正確配置,用電信息采集系統(tǒng)和計費系統(tǒng)將自動生成更一致、更準(zhǔn)確的賬單,并減少記錄錯誤和客戶投訴。由于可以以15 min 為增量指定數(shù)據(jù)間隔,因此公用事業(yè)公司可以根據(jù)客戶偏好而不是根據(jù)公用事業(yè)公司設(shè)置的抄表時間表自定義計費周期。
本文采用一個2019 年采集的由100 個商業(yè)化行業(yè)場所的5 min 能源使用數(shù)據(jù),數(shù)據(jù)文件的每一行包含以下值:時間戳、日期時間、電量讀取值、估計指標(biāo),異常指標(biāo)等。其中“estimated indicator”是一個布爾值,指示是否估計讀數(shù),如果讀數(shù)錯誤則“異常指示器”為空;能源數(shù)據(jù)的計量單位為kWh。如表1 所示是數(shù)據(jù)集的示例數(shù)據(jù)內(nèi)容,表2 是數(shù)據(jù)標(biāo)號及其所代表的用電戶類型:
表1 數(shù)據(jù)ID=213(學(xué)校用電)的示例數(shù)據(jù)
表2 數(shù)據(jù)站點標(biāo)號及用電戶類型
根據(jù)先前的數(shù)據(jù),可以通過時間序列得到未來物理量的變化情況,使得時間序列可用于預(yù)測經(jīng)濟、天氣、能源消耗等方面,時間序列基本上是在基于時間(年,日,小時和分鐘)的數(shù)據(jù)上進行探索分析,以對未來的能源消耗進行量化預(yù)測。本文構(gòu)建了用電量預(yù)測模型對用戶電力消費進行預(yù)測,模型主要組成部分及內(nèi)容如下所示:
(1)ARIMA 模型:基于時間序列的預(yù)測中,最常用的方法之一就是ARIMA 模型,其基本原理是自動回歸綜合移動平均值,ARIMA 可以將數(shù)據(jù)按照時間序列進行擬合,以更好地預(yù)測序列中的未來點。模型中通過三個不同的整數(shù)(p,d,q)實現(xiàn)ARIMA 模型的參數(shù)化。因此ARIMA 模型用ARIMA(p,d,q)表示,這三個參數(shù)共同反映了數(shù)據(jù)集中的周期性、趨勢性和噪聲[13]。
(a)參數(shù)p是模型的自回歸部分,可以將過去值的影響納入模型,這一過程可以類比為:如果過去三天一直溫暖,明天可能會溫暖。
(b)d是模型的集成部分,模型中通過差分(即從當(dāng)前值中減去的過去時間點的數(shù)量)應(yīng)用于時間序列,從直覺上講,這一過程可以類比為:如果最近三天的溫差很小,則明天的溫度可能相同。
(c)q是模型的移動平均線部分,通過該參數(shù)可以將模型的誤差設(shè)置為過去在先前時間點觀察到的誤差值的線性組合。
周期性ARIMA 參數(shù)較多,調(diào)整過程復(fù)雜,因此需要為周期性ARIMA 時間序列模型構(gòu)建自動識別最佳參數(shù)集。
(2)指數(shù)平滑:通過指數(shù)平滑可以平滑時間序列,隨著觀測值的增長,指數(shù)平滑法分配的權(quán)重呈指數(shù)下降趨勢[14],指數(shù)平滑法是一種通過更好的預(yù)測從數(shù)據(jù)中去除“噪聲”(隨機效應(yīng))來“平滑”數(shù)據(jù)的方法。該方法的輸入是n項時間序列值和平滑因子α,該算法的輸出是時間n+T的預(yù)測值,指數(shù)平滑預(yù)測算法主要有以下幾個步驟:
第1 步 輸入具有n項時間序列的數(shù)據(jù)和平滑因子α的順序原始數(shù)據(jù)集
第2 步 計算單指數(shù)平滑
第3 步 計算雙指數(shù)平滑
第4 步 計算平滑系數(shù)an和bn
第5 步 計算預(yù)測值Yn+T。
(3)STL 分解:STL 分解是一種用于分解時間序列的方法,其基本原理是一種非線性關(guān)系的估計方法,首先讀入數(shù)據(jù),然后對數(shù)值矩陣進行反變換,就可以獲得分解矩陣。將0<λ<1 的數(shù)據(jù)通過Box-Cox 變換獲得加法和乘法之間的分解值,其中λ=0 的值對應(yīng)于乘法分解,λ=1 的值對應(yīng)于加法分解。
本文基于隨機森林算法對時間序列數(shù)據(jù)進行分析與預(yù)測,從原始數(shù)據(jù)集中隨機抽取訓(xùn)練樣本,訓(xùn)練得到單個學(xué)習(xí)機,這些學(xué)習(xí)機就是算法中的回歸樹,重復(fù)這一過程生成多個回歸樹組成隨機森林,并由所有樹的預(yù)測值的平均值決定最終預(yù)測結(jié)果。本文按照如下步驟構(gòu)建隨機森林算法:
(1)隨機有放回地從N個原始訓(xùn)練樣本中選擇n(n<N)個樣本生成m個訓(xùn)練子集。
(2)使用訓(xùn)練子集訓(xùn)練回歸樹,在節(jié)點上所有的樣本特征中隨機選擇一部分樣本特征,依據(jù)最小均方差進行回歸樹的左右子樹劃分,遞歸建樹直到滿足終止條件。
(3)重復(fù)以上步驟,將多棵回歸樹組成隨機森林。
(4)將測試樣本輸入隨機森林回歸模型,取所有樹預(yù)測值的平均值作為最終預(yù)測結(jié)果,并與實際值對比,評價模型的擬合效果。模型步驟如圖2 所示:
圖2 隨機森林算法設(shè)計示意圖
利用本文構(gòu)建的時間序列預(yù)測模型進行智能電表大數(shù)據(jù)分析,采用apache spark 框架以及”R”語言實現(xiàn)數(shù)據(jù)可視化。各個行業(yè)頻率表如表3 所示:
表3 行業(yè)類別與子行業(yè)頻率表
如圖3 所示是所有用電戶的建筑面積SQ-M 數(shù)據(jù)直方圖,由圖可見本文數(shù)據(jù)集的建筑物,大部分建筑面積都在20 000 m2以下。
圖3 用電戶的建筑面積直方圖
對4 個行業(yè)的建筑面積創(chuàng)建密度圖,如圖4 所示,由圖可見食品銷售與存儲業(yè)的建筑物的面積相對較小,而商業(yè)地產(chǎn)建筑物的面積變化很大。
圖4 4 個行業(yè)的建筑面積密度圖
之后將建筑面積數(shù)據(jù)與實際用電量數(shù)據(jù)結(jié)合,就可以得到建筑面積與用電量的關(guān)系,如圖5 所示是子行業(yè)的平均負荷條形圖,由圖可知,平均而言用電量最大的用戶是制造業(yè)、購物中心和商業(yè)服務(wù)大樓;而用電量最低的用戶是學(xué)校。
圖5 子行業(yè)的平均用電負載條形圖
如圖6 所示是用電消耗量和SQ-M 之間的依賴關(guān)系,采用中位數(shù)負荷和簡單的線性回歸對該關(guān)系進行分析,圖6 顯示了回歸線SQ-M 與中位數(shù)負載的關(guān)系。由圖中可見負載的中位數(shù)與用電戶的建筑面積之間存在明顯的相關(guān)性。
圖6 回歸線SQ-M 與中位負載
如圖7 所示是學(xué)校用電戶的日用電、周用電和月用電消耗量,以及相應(yīng)的時間序列數(shù)據(jù),由圖中可見用電量的多少與時間有顯著的依賴關(guān)系,表明用電量隨著時間的不同可能存在周期性的變化。
圖7 一個ID 的每月消費(學(xué)校)
將時間序列匯總到較小的維度,從而將數(shù)據(jù)維度從每天288 個測量值減少到每天48 個,如圖8 所示是4 個子行業(yè)組的典型用電數(shù)據(jù)。其中ID 213數(shù)據(jù)取自中學(xué);ID 401 取自購物商場和市場;ID 832取自公司辦公室;ID 9 取自工廠用電數(shù)據(jù)。
圖8 4 個子行業(yè)組的代表
對于電網(wǎng)公司來說,創(chuàng)建消費者的每日用電信息資料或某個區(qū)域的每日用電信息非常有幫助,該資料有助于了解消費者的典型電力消費行為。為此本文采用MAD(中位數(shù)絕對偏差)創(chuàng)建了總用電的每日中位數(shù),如圖9 所示:
圖9 MAD 每日總消費中位數(shù)
從圖9 可以看出,最大的負載峰值出現(xiàn)的時間是在傍晚。同樣使用周用電量模式來執(zhí)行此操作,同樣可根據(jù)MAD 得出每周總消費的中位數(shù),如圖10 所示:
圖10 MAD 每周總消費中位數(shù)
由圖10、圖11 可以看出一周內(nèi)用電戶的電力消費行為具有5 種不同模式(以垂直線分隔):從星期一到星期五,電力消費量非常相似,但是星期一開始時的消費量較低,因此與其他消費量有所不同。周五的情況與此類似,但消費量比周四低一些。顯然,周末與工作日完全不同,而星期六和星期日也不同。如果按照MAD(中位數(shù)絕對偏差)對子行業(yè)進行每周中位數(shù)計算,將會得到不同的用電模式,對于制造業(yè)得到的結(jié)果如圖11 所示:
圖11 每周制造業(yè)中位數(shù)
由圖10~12 的分析可見,不同行業(yè)的電力消耗各自具有不同的特點,各個行業(yè)的電力消耗隨著時間變化表現(xiàn)出不同的周圍性規(guī)律,如此一來即可作為原始時間序列樣本輸入到模型中,從而為一周時間內(nèi)的不同日期創(chuàng)建預(yù)測模型。使用相似日方法針對以每天為單位的用電數(shù)據(jù)建立預(yù)測模型。
首先定義基本的預(yù)測方法函數(shù),這些函數(shù)用于產(chǎn)生預(yù)測結(jié)果。本文使用基于時間序列分解的STL+ARIMA 方法、STL+指數(shù)平滑方法以及傳統(tǒng)時間序列方法進行預(yù)測。最后基于Loess 回歸方法和STL分解對季節(jié)性時間序列進行分解,通過打包預(yù)測序列,可以將其組合以生成非常準(zhǔn)確的預(yù)測結(jié)果。本文同時使用STL+ARIMA 方法和STL+指數(shù)平滑方法進行預(yù)測并對比其預(yù)測結(jié)果,如圖12 所示:
圖12 兩種模型的預(yù)測結(jié)果
其中黑色虛線是真實用電數(shù)據(jù),原點數(shù)據(jù)是采用指數(shù)平滑的預(yù)測結(jié)果;實線是采用ARIMA 模型的預(yù)測結(jié)果。由圖中可見ARIMA 模型對于電力消費行為預(yù)測更加準(zhǔn)確。如圖13 所示是未來一周的電力消費量預(yù)測圖,表4 所示是各種預(yù)測模型的平均誤差。
圖13 未來一周的電力消費預(yù)測結(jié)果圖
表4 預(yù)測模型誤差統(tǒng)計表
由圖14 和表4 可見采用本文預(yù)測模型得到的預(yù)測結(jié)果比指數(shù)平滑模型得到的預(yù)測結(jié)果更加準(zhǔn)確。綜上所述,本文提出的基于智能電表大數(shù)據(jù)的電力消費量預(yù)測模型,不僅能夠根據(jù)用電的日、周、月數(shù)據(jù)進行對應(yīng)時間周期的電力消費行為預(yù)測,而且預(yù)測精度比指數(shù)預(yù)測模型更加精確。
智能電表數(shù)據(jù)分析是一個復(fù)雜的過程,涉及數(shù)據(jù)提取、預(yù)處理、分析和可視化。為此本文對100 個匿名商業(yè)建筑的5 min 智能電表數(shù)據(jù)集進行了全面分析,得到以下幾個主要結(jié)論:
(1)電力消耗量與用電戶的建筑面積具有明顯相關(guān)性,表明智能電表的廣泛應(yīng)用,有助于電網(wǎng)單位增強客戶用電服務(wù)、降低成本和提高能源效率。
(2)通過應(yīng)用ARIMA、指數(shù)平滑等方法對不同行業(yè)的各個子行業(yè)層面進行的分析對比,表明本文構(gòu)建的預(yù)測模型具有更高的預(yù)測精度。