熊 甜 鄭 松 徐哲壯 謝仁栩 葛永樂
(福州大學(xué)電氣工程與自動(dòng)化學(xué)院,福州 350108)
用電問題一直是電力企業(yè)面臨的難題,例如竊電問題不僅損害了供電企業(yè)的合法權(quán)益,擾亂了正常的供用電秩序,而且給安全用電帶來(lái)了威脅[1]。用電浪費(fèi)現(xiàn)象普遍存在于工作和生活中,造成巨大能源損耗的同時(shí),影響了我國(guó)經(jīng)濟(jì)可持續(xù)發(fā)展的能力。因此,在滿足用戶正常的用電需求,創(chuàng)建節(jié)約友好型社會(huì)的背景下,如何利用大數(shù)據(jù)實(shí)現(xiàn)用電量的分析和預(yù)測(cè)具有重要意義。
近年來(lái),國(guó)內(nèi)外高校紛紛開始建立校園能耗監(jiān)測(cè)平臺(tái),用以監(jiān)督校園用電情況,以此達(dá)到節(jié)能減排的目的[2]。另一方面,能耗監(jiān)測(cè)平臺(tái)也為校園用電量的預(yù)測(cè)提供了數(shù)據(jù)支撐,而用電量預(yù)測(cè)正是智能電網(wǎng)中的需求響應(yīng)和調(diào)度的重要環(huán)節(jié)[3-6]。
本文基于福州大學(xué)校園能耗監(jiān)測(cè)平臺(tái)提供的歷史用電數(shù)據(jù),通過機(jī)器學(xué)習(xí)方法[7-8]對(duì)于福州大學(xué)的用電情況進(jìn)行分析和預(yù)測(cè)。本文基于Azure機(jī)器學(xué)習(xí)平臺(tái)[9-10]快速構(gòu)建了用電數(shù)據(jù)的分析平臺(tái),并根據(jù)評(píng)估數(shù)據(jù)和實(shí)驗(yàn)計(jì)算結(jié)果,得出影響用電量的主要因素為最高最低氣溫以及工作日程安排。根據(jù)影響因素的分析結(jié)果,本文進(jìn)一步提出了基于用電突變氣溫的分段式預(yù)測(cè)方法:將用電量數(shù)據(jù)根據(jù)用電當(dāng)日最高氣溫進(jìn)行分類,進(jìn)而基于用電突變氣溫將用電量數(shù)據(jù)劃分為兩段分別進(jìn)行訓(xùn)練和預(yù)測(cè)。實(shí)際預(yù)測(cè)結(jié)果表明,基于用電突變氣溫的分段式預(yù)測(cè)方法能夠有效降低預(yù)測(cè)誤差,且其預(yù)測(cè)精度已經(jīng)能夠滿足大多數(shù)應(yīng)用的需求,能夠?yàn)閷W(xué)校相關(guān)部門以及電網(wǎng)配電部門提供有效的參考[11-12]。
下文分別從數(shù)據(jù)源、基于Azure機(jī)器學(xué)習(xí)平臺(tái)的數(shù)據(jù)分析方法、校園用電影響因素分析、校園用電預(yù)測(cè)等環(huán)節(jié)對(duì)于研究工作進(jìn)行詳細(xì)描述。
本文分析所用數(shù)據(jù)主要有以下兩個(gè)來(lái)源:
1)天氣數(shù)據(jù)。通過福建省福州市閩侯縣(福州大學(xué)校園所在地)氣象局采集 2016年 4月 1日至2017年3月31日時(shí)間段內(nèi)最高溫度和最低溫度的數(shù)據(jù)。
2)歷史用電量數(shù)據(jù)。通過福州大學(xué)校園節(jié)能監(jiān)管平臺(tái)(見圖 1)導(dǎo)出對(duì)校園內(nèi)每棟樓的能耗統(tǒng)計(jì)數(shù)據(jù)。綜合考慮不同人群和樓宇的用電特點(diǎn),本文選取了福州大學(xué)學(xué)生公寓2號(hào)樓(本科男生)、5號(hào)樓(本科女生)、36號(hào)樓(研究生)和西三教學(xué)樓的用電數(shù)據(jù)進(jìn)行分析。時(shí)間跨度為2016年4月1日至2017年3月31日,用電量數(shù)據(jù)精度為每天。
圖1 福州大學(xué)校園節(jié)能監(jiān)管平臺(tái)
本文在Azure ML機(jī)器學(xué)習(xí)平臺(tái)上分析4組數(shù)據(jù),每組數(shù)據(jù)源為一個(gè)4×365的矩陣,其中列特征量分別是日期、日最高溫度、日最低溫度、日用電量4個(gè)變量。行特征量代表樣本點(diǎn),表示當(dāng)前日期下的最高溫、最低溫和用電量的特征值。
本文采用微軟 Azure機(jī)器學(xué)習(xí)平臺(tái)(microsoft azure machine learning studio, Azure ML)對(duì)用電數(shù)據(jù)進(jìn)行分析。Azure ML是一種面向機(jī)器學(xué)習(xí)與大數(shù)據(jù)分析的云服務(wù)平臺(tái)[13](Platform-as-a- Service,PaaS),能夠有效提升采用機(jī)器學(xué)習(xí)方法進(jìn)行數(shù)據(jù)分析的效率。該平臺(tái)的優(yōu)勢(shì)[14]主要有:能夠在單個(gè)實(shí)驗(yàn)中一次性嘗試多種模型并比較結(jié)果,有助于找到最適合的解決方案。在同一個(gè)試驗(yàn)中建立多算法模型,對(duì)預(yù)測(cè)結(jié)果進(jìn)行對(duì)比分析,通過選擇合適的學(xué)習(xí)算法和海量數(shù)據(jù)的訓(xùn)練,從而達(dá)到建立預(yù)測(cè)模型的目的。
基于Azure ML的數(shù)據(jù)分析流程如圖2所示,主要由導(dǎo)入數(shù)據(jù)、數(shù)預(yù)處理、定義特征、訓(xùn)練模型和模型評(píng)價(jià)5個(gè)基本步驟組成。下文將結(jié)合本文所討論的用電量數(shù)據(jù)進(jìn)行介紹。
圖2 基于Azure ML平臺(tái)的用電量預(yù)測(cè)流程圖
在進(jìn)入Azure ML平臺(tái)并選擇新建試驗(yàn)后,可以采用兩種方式將數(shù)據(jù)導(dǎo)入到試驗(yàn)中:①手動(dòng)導(dǎo)入到試驗(yàn)中;②通過Reader模塊在線與其他數(shù)據(jù)庫(kù)匹配讀取。福州大學(xué)校園節(jié)能監(jiān)管平臺(tái)并未提供開放的數(shù)據(jù)接口,本文采用手動(dòng)導(dǎo)入數(shù)據(jù)的方式,數(shù)據(jù)格式必須為CSV格式,通過實(shí)驗(yàn)中的DATASET選項(xiàng)導(dǎo)入。
數(shù)據(jù)預(yù)處理主要分為刪除缺失值、異常值處理、數(shù)據(jù)離散化、歸一化處理等。在本文所獲取的用電量數(shù)據(jù)中,寒暑假與周末的用電量存在特殊性,同時(shí)部分歷史用電量存在缺失等問題,會(huì)給分析和預(yù)測(cè)造成影響。針對(duì)這個(gè)問題,本文采用了Azure ML的數(shù)據(jù)分割(Split Data)模塊,能夠根據(jù)設(shè)置參數(shù)自動(dòng)對(duì)數(shù)據(jù)集的成分進(jìn)行篩選,清除掉缺失值與異常值。
導(dǎo)入平臺(tái)的數(shù)據(jù)集中,包含著各種特征量,如本文研究涉及的特征量有用電量、最低溫度、最高溫度等。Azure ML通過“select-columns”(選擇數(shù)據(jù)列)模塊篩選出預(yù)測(cè)模型的特征變量,并傳遞到下一步機(jī)器學(xué)習(xí)算法中進(jìn)行訓(xùn)練與評(píng)估?!皊electcolumns”模塊可以直接對(duì)數(shù)據(jù)特征進(jìn)行選擇,不需要在每次試驗(yàn)結(jié)束后,對(duì)數(shù)據(jù)進(jìn)行重新導(dǎo)入,能夠有效地提高工作效率。
本文研究擬基于天氣數(shù)據(jù)和歷史用電量數(shù)據(jù)構(gòu)建預(yù)測(cè)模型,Azure ML針對(duì)預(yù)測(cè)數(shù)據(jù)提供了大量回歸算法,本文在Azure ML中采用不同的回歸算法模塊對(duì)校園用電數(shù)據(jù)進(jìn)行試驗(yàn),選取兩種效果最佳的算法進(jìn)行對(duì)比分析,即最小二乘法的線性回歸(linear-regression)方法[15],以及增強(qiáng)決策樹回歸(boosted decision tree regression)方法[16-18],分別對(duì)數(shù)據(jù)進(jìn)行處理。兩者在處理數(shù)據(jù)結(jié)果上的差異將在本文第4節(jié)進(jìn)行討論。
數(shù)據(jù)分割(Split Data)模塊將篩選后的數(shù)據(jù)按照默認(rèn)比值 0.75∶0.25拆分為單獨(dú)的訓(xùn)練數(shù)據(jù)集和預(yù)測(cè)數(shù)據(jù)集,分別用于模型的訓(xùn)練和測(cè)試。經(jīng)模型訓(xùn)練(Train Model)模塊擬合出的預(yù)測(cè)模型,將導(dǎo)入模型測(cè)試(Score Model)模塊中,進(jìn)而輸入測(cè)試集數(shù)據(jù)用于評(píng)估模型的性能。
Azure ML提供了模型評(píng)估(Evaluate Model)模塊,用于對(duì)預(yù)測(cè)模型進(jìn)行性能評(píng)估,平臺(tái)自帶的評(píng)估指標(biāo)包括:受試者工作特征(ROC)曲線、精度/召回曲線或提升曲線、混淆矩陣、曲線下面積(AUC)的累積值等。同時(shí)Azure ML還可以將模型測(cè)試(Score Model)模塊的測(cè)試結(jié)果導(dǎo)出,由外部程序進(jìn)行分析和處理。
本文首先以福州大學(xué) 36號(hào)研究生宿舍樓的用電數(shù)據(jù)集為分析對(duì)象,選取當(dāng)日最高氣溫、最低氣溫的天氣數(shù)據(jù)作為影響用電量的主要影響因素。另一方面,根據(jù)大學(xué)的作息特性,將用電量數(shù)據(jù)劃分為:工作日、周末、寒暑假三類。進(jìn)而在考慮不同天氣數(shù)據(jù)和不同用電量數(shù)據(jù)集的情況下,基于第 2節(jié)所述的操作步驟,在Azure ML平臺(tái)中采用增強(qiáng)決策樹回歸(boosted decision tree regression)算法分別建立預(yù)測(cè)模型,并對(duì)預(yù)測(cè)精度進(jìn)行評(píng)估,得到的影響因素評(píng)估表見表1。
每棟樓的用電量各不相同,本文的性能分析采用均方根誤差(RMSE)和平均相對(duì)誤差(MRE)兩個(gè)指標(biāo)同時(shí)對(duì)于預(yù)測(cè)結(jié)果進(jìn)行分析,即
式(1)、式(2)中,xi表示歷史用電量值,表示用電量預(yù)測(cè)值,n表示測(cè)試集的數(shù)據(jù)個(gè)數(shù)。
由表1的結(jié)果可以看出,寒暑假的用電量與平時(shí)存在較大的差異,是否考慮寒暑假的用電量對(duì)于用電預(yù)測(cè)模型具有很大影響。若不考慮寒暑假的用電量,則可以使預(yù)測(cè)的均方根誤差降低約40%。類似地,周末與工作日的用電模式也存在一定差異。與綜合考慮周末和工作日的用電量數(shù)據(jù)得到的預(yù)測(cè)模型相比,只考慮工作日用電量的預(yù)測(cè)模型可以降低10%左右的均方根誤差。
表1 用電量影響因素分析表
另一方面,最高氣溫和最低氣溫對(duì)于用電量預(yù)測(cè)都存在影響。在只考慮工作日用電量的情況下,綜合考慮最高氣溫和最低氣溫的影響具有最高的預(yù)測(cè)精度。除了36號(hào)樓之外,對(duì)于其他宿舍樓進(jìn)行了相同的分析,得到了類似的分析結(jié)論。由于篇幅限制,本文不再列出詳細(xì)數(shù)據(jù)。
根據(jù)上述分析結(jié)果,本文后續(xù)分析將只考慮工作日的用電量數(shù)據(jù),并綜合考慮最高氣溫和最低氣溫的影響。本文后續(xù)部分將進(jìn)一步探討如何提升用電量的預(yù)測(cè)精度。
基于第3節(jié)分析的結(jié)果,本文將2號(hào)樓、5號(hào)樓、36號(hào)樓和西三教學(xué)樓的全年用電量數(shù)據(jù),按照最高氣溫分組并取平均值,得到相同最高氣溫下的平均用電量,如圖3所示。
圖3 相同最高氣溫下的平均用電量
由圖3可以看到,每棟樓的用電量曲線存在一個(gè)明顯的拐點(diǎn)。這是因?yàn)榈蜏貐^(qū)與高溫區(qū)的用電量存在明顯的差異:在低溫區(qū),用電設(shè)備是計(jì)算機(jī)、照明、熱水器等日常用電設(shè)備,用電量隨著氣溫變化的趨勢(shì)不明顯;而在高溫區(qū),空調(diào)等降溫設(shè)備開始投入使用,同時(shí)用電量與氣溫存在顯著的相關(guān)性。
根據(jù)以上結(jié)果,本文提出采取分段預(yù)測(cè)的方法會(huì)得到更好的用電量預(yù)測(cè)效果。為了進(jìn)行分段預(yù)測(cè),本文首先給出用電突變氣溫的計(jì)算方法:基于歷史用電量數(shù)據(jù)計(jì)算出不同最高溫度下的用電量平均值T,隨后從低溫到高溫逐個(gè)根據(jù)以下公式計(jì)算Δ,即
式中,k表示當(dāng)前最高氣溫值;nk定義為區(qū)間參數(shù),可取為正整數(shù)。
給定突變參數(shù)閾值θ,若滿足Δ<θ,則認(rèn)定最高氣溫 k為用電突變氣溫。nk和θ 為自定義參數(shù),其不同取值將影響用電突變氣溫選擇的結(jié)果。根據(jù)圖3平均用電量曲線圖式(3)將分析數(shù)據(jù)源的nk取1~5之間的整數(shù),θ 取0~1之間的小數(shù),在Azure ML平臺(tái)上對(duì)不同的用電數(shù)據(jù)源進(jìn)行測(cè)試分析,得到nk=3,θ =0.6時(shí),數(shù)據(jù)模型的預(yù)測(cè)預(yù)測(cè)效果最佳,根據(jù)式(3)分別計(jì)算出學(xué)生公寓2號(hào)樓、5號(hào)樓、36號(hào)樓和西三教學(xué)樓的用電數(shù)據(jù)突變氣溫見表2。
表2 用電量突變氣溫
從表2可以看出,用電主體與用電環(huán)境之間均存在差異性,使得每棟樓的用電量突變氣溫也不太一樣。福州大學(xué) 2號(hào)樓為男生宿舍樓,5號(hào)樓為女生宿舍樓,36號(hào)為研究生宿舍樓,其用電突變氣溫的差異符合常識(shí)中不同性別和年齡對(duì)于溫度感受的差異。
基于第4節(jié)的分析,本文提出基于用電量突變氣溫的分段預(yù)測(cè)方法,并對(duì)其預(yù)測(cè)精度進(jìn)行分析。用電數(shù)據(jù)為福州大學(xué)2號(hào)樓、5號(hào)樓、36號(hào)樓、西三教學(xué)樓。在分段預(yù)測(cè)方法中,每棟樓的用電數(shù)據(jù)根據(jù)表2提供的用電突變氣溫劃分為“平穩(wěn)段”和“上升段”兩個(gè)部分,分段樣本點(diǎn)見表 3,采用增強(qiáng)決策樹回歸算法對(duì)兩部分?jǐn)?shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)。在相同條件下,將分段預(yù)測(cè)結(jié)果與傳統(tǒng)的整段預(yù)測(cè)結(jié)果進(jìn)行對(duì)比分析,結(jié)果見表4。
表3 分段樣本點(diǎn)
從表4可以看出,分段預(yù)測(cè)能夠有效降低用電量預(yù)測(cè)的均方根誤差與平均相對(duì)誤差。相比于整體預(yù)測(cè),分段預(yù)測(cè)能夠降低13%~27%的均方根誤差,平均相對(duì)誤差也能夠控制在 10.8%以內(nèi)。以上結(jié)果證明了分段預(yù)測(cè)方法的有效性。
本文中的數(shù)據(jù)分析主要采用的是增強(qiáng)決策樹回歸算法。為了證明該算法的有效性,本節(jié)將該算法與基于最小二乘法的線性回歸算法進(jìn)行對(duì)比。在Azure ML平臺(tái)中分別采用這兩種算法基于福州大學(xué)2號(hào)樓、5號(hào)樓、36號(hào)樓、西三教學(xué)樓的用電量數(shù)據(jù)進(jìn)行了分析和預(yù)測(cè),其預(yù)測(cè)結(jié)果的對(duì)比見表5。
表5 增強(qiáng)決策樹回歸與線性回歸算法預(yù)測(cè)結(jié)果對(duì)比
由表5可知,增強(qiáng)決策樹回歸算法得到的預(yù)測(cè)模型相比于線性回歸算法得到的預(yù)測(cè)模型,其預(yù)測(cè)結(jié)果的均方根誤差要小 9.6%~21.7%,平均相對(duì)誤差也要減少 1.3%至 4.9%。因此證明了增強(qiáng)決策樹回歸算法具有更好的預(yù)測(cè)效果。
本文基于用電數(shù)據(jù)和天氣數(shù)據(jù),通過Azure機(jī)器學(xué)習(xí)平臺(tái)對(duì)于福州大學(xué)校園的用電情況進(jìn)行了數(shù)據(jù)分析,總結(jié)出了影響用電量的兩大因素:氣溫與工作日程安排。根據(jù)分析結(jié)果,本文進(jìn)一步提出了基于用電突變氣溫的分段式預(yù)測(cè)方法,并通過測(cè)試數(shù)據(jù)證明了該方法能夠有效降低用電量預(yù)測(cè)的誤差。數(shù)據(jù)分析結(jié)果證明,該方法的預(yù)測(cè)精度已經(jīng)能夠滿足大多數(shù)應(yīng)用的需求,能夠?yàn)閷W(xué)校相關(guān)部門以及電網(wǎng)配電部門提供有效的參考。
參考文獻(xiàn)
[1] 陳晶晶, 李紅嬌, 許智. 基于隨機(jī)森林的用電行為分析[J]. 上海電力學(xué)院學(xué)報(bào), 2017(4): 331-336.
[2] 王仁祥, 王小曼. 終端用戶分布式新能源接入智能配電網(wǎng)技術(shù)研究[J]. 電氣技術(shù), 2010, 11(8): 58-62.
[3] Stroombergen A, Tait A, Patterson K, et al. The relationship between New Zealand's climate, power,and the economy to 2025[J]. New Zealand Journal of Social Sciences, 2006, 13(1): 139-160.
[4] Wang Zhiyong, Cao Yijia. Mutual information and non-fixed ANNs for daily peak load forecasting[J].Power Sys-temsConference and Expoxision, 2006(5):1523-1528.
[5] 黃海新, 鄧麗, 張路. 基于需求響應(yīng)的實(shí)時(shí)電價(jià)研究綜述[J]. 電氣技術(shù), 2015, 16(11): 1-6.
[6] 曲朝陽(yáng), 張率, 劉洪濤. 基于用電影響因素回歸的小區(qū)用電預(yù)測(cè)模型[J]. 東北電力大學(xué)學(xué)報(bào), 2015(01):73-77.
[7] 張棪, 曹健. 面向大數(shù)據(jù)分析的決策樹算法[J]. 計(jì)算機(jī)科學(xué), 2016(S1): 374-379, 383.
[8] 王桂玲, 韓燕波, 張仲妹, 等. 基于云計(jì)算的流數(shù)據(jù)集成與服務(wù)[J]. 計(jì)算機(jī)學(xué)報(bào), 2017(1): 107-125.
[9] 王永康. Azure云平臺(tái)對(duì)Twitter推文關(guān)鍵字實(shí)時(shí)大數(shù)據(jù)分析[J]. 電腦編程技巧與維護(hù), 2015(12): 68-72.
[10] Xiao Laisheng, Wang Zhengxia. Cloud computing: A new business paradigmfor E-learning[C]//International Conference on Measuring Technology and Mechatronics Automation (ICMTMA 2011) 3rd, 2011:Shanghai, China.
[11] 王穎, 趙航宇, 趙洪山. 配電網(wǎng)自動(dòng)化建設(shè)的現(xiàn)狀與若干建議[J]. 電工技術(shù), 2015(11): 82-83.
[12] 何春光, 盧志明, 姜春瑩, 等. 移動(dòng)式應(yīng)急配變的研制[J]. 電工技術(shù), 2016(2): 6-7.
[13] Brandon Butler. 2017年必須關(guān)注的10大云趨勢(shì)[J].計(jì)算機(jī)世界, 2017(4).
[14] 易植. Windows Azure 新服務(wù), 讓機(jī)器學(xué)習(xí)觸手可及[J]. 英才, 2014(9).
[15] 韓陽(yáng), 呂由, 潘宇航, 等. SVM、BP神經(jīng)網(wǎng)絡(luò)、線性回歸的比較研究[J]. 河北聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版), 2017, 39(2).
[16] Song Y, Wang H, He X. Adapting deep RankNet for personalized search[C]//ACM International Conference on Web Search and Data Mining, 2014: 83-92.
[17] 柯國(guó)霖. 梯度提升決策樹(GBDT)并行學(xué)習(xí)算法研究[D]. 廈門: 廈門大學(xué), 2016.
[18] 王天華. 基于改進(jìn)的 GBDT算法的乘客出行預(yù)測(cè)研究[D]. 大連: 大連理工大學(xué), 2016.