陳鈞 袁海林 王雙
【摘 要】本文采用數(shù)據(jù)挖掘技術(shù),基于用戶用電和電網(wǎng)負(fù)荷信息,結(jié)合天氣、經(jīng)濟(jì)、假日、社會事件等等外部因素,構(gòu)建短期市場電力負(fù)荷分析模型,預(yù)測各級供電單位1-7天用電負(fù)荷曲線,為電力行業(yè)電網(wǎng)規(guī)劃、電能調(diào)配等提供決策支持。
【關(guān)鍵詞】數(shù)據(jù)挖掘;決策樹;電力負(fù)荷預(yù)測
中圖分類號: TM715 文獻(xiàn)標(biāo)識碼: A 文章編號: 2095-2457(2018)11-0004-003
DOI:10.19694/j.cnki.issn2095-2457.2018.11.002
【Abstract】This paper adopts the big data analysis technology, based on the users' electricity and power grid load information, combined with the weather, economy, holiday, social events and other external factors, constructs the short-term power load analysis model, to predict the 1-7 day power load curve of the power supply units at all levels, which provides the decision support for the planning of the power grid and the power distribution in the power industry.
【Key words】Data mining; Decision tree; Power load prediction
0 引言
隨著我國電力事業(yè)的發(fā)展,電網(wǎng)的管理日趨現(xiàn)代化,電力系統(tǒng)負(fù)荷預(yù)測問題的研究也越來越引起人們的注意,現(xiàn)在已經(jīng)成為了現(xiàn)代電力系統(tǒng)運行研究中的重要課題之一[1]。負(fù)荷預(yù)測可以分為長期、中期、短期、超短期以及節(jié)日預(yù)測。其中短期負(fù)荷預(yù)測是電網(wǎng)規(guī)劃建設(shè)的依據(jù),是電力系統(tǒng)安全運行的前提,隨著分時電價方式的推廣和電力市場化改革的深入,電力公司力求及時、準(zhǔn)確地把握負(fù)荷變化的信息,將負(fù)荷預(yù)測的重要性和迫切性提到前所未有的高度,同時也對負(fù)荷預(yù)測的精度提出更高的要求。
本文將數(shù)據(jù)挖掘技術(shù)應(yīng)用到短期用電負(fù)荷預(yù)測中,基于用戶用電和電網(wǎng)負(fù)荷信息,結(jié)合天氣、經(jīng)濟(jì)、假日、社會事件等等外部因素,構(gòu)建短期市場電力負(fù)荷分析模型,預(yù)測各級供電單位1-7天用電負(fù)荷曲線,為電力行業(yè)電網(wǎng)規(guī)劃、電能調(diào)配等提供決策支持。
1 短期用電負(fù)荷預(yù)測算法
負(fù)荷預(yù)測方法可分為確定性負(fù)荷預(yù)測方法和不確定性負(fù)荷預(yù)測方法。其中確定性負(fù)荷預(yù)測方法是把電力負(fù)荷預(yù)測用一個或一組方程來描述,電力負(fù)荷與變量之間有明確的一一對應(yīng)關(guān)系,包括時間序列預(yù)測法、回歸分析法、經(jīng)典技術(shù)預(yù)測法、趨勢外推預(yù)測法等。而為了解決實際電力負(fù)荷發(fā)展變化規(guī)律非常復(fù)雜不能用簡單的顯式數(shù)學(xué)方程來描述期間的對應(yīng)和相關(guān)這一問題,隨著大數(shù)據(jù)分析挖掘理論和技術(shù)的發(fā)展[2],產(chǎn)生了一類基于大數(shù)據(jù)類比對應(yīng)等關(guān)系進(jìn)行推理預(yù)測的不確定性預(yù)測方法。
結(jié)合短期用電負(fù)荷預(yù)測具體需求,充分調(diào)研分析當(dāng)前負(fù)荷預(yù)測典型算法的適用場景及優(yōu)缺點,選取曲線聚類和決策樹用于預(yù)測單個用戶的用電負(fù)荷數(shù)據(jù),選取時間序列用于預(yù)測分行業(yè)的用電負(fù)荷數(shù)據(jù),最后用線性回歸修正系數(shù),形成最終結(jié)果。
1.1 典型算法
1.1.1 功能算法-曲線聚類
聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進(jìn)行分類。聚類分析所使用方法的不同,常常會得到不同的結(jié)論。聚類能夠作為一個獨立的工具獲得數(shù)據(jù)的分布狀況,觀察每一簇數(shù)據(jù)的特征,集中對特定的聚簇集合作進(jìn)一步地分析。
采用K-MEANS聚類算法,對歷史負(fù)荷數(shù)據(jù)進(jìn)行聚類分析。將歷史負(fù)荷數(shù)據(jù)作為歷史數(shù)據(jù)集,針對每天的負(fù)荷數(shù)據(jù)曲線,將形狀特征相近的兩個歸為一類,最終將所有零散分布的獨立樣本逐漸歸為趨勢相近的若干類,完成聚類。
1.1.2 功能算法-決策樹分類
決策樹學(xué)習(xí)是資料探勘中一個普通的方法。在這里,每個決策樹都表述了一種樹型結(jié)構(gòu),它由它的分支來對該類型的對象依靠屬性進(jìn)行分類。每個決策樹可以依靠對源數(shù)據(jù)庫的分割進(jìn)行數(shù)據(jù)測試。這個過程可以遞歸式的對樹進(jìn)行修剪。當(dāng)不能再進(jìn)行分割或一個單獨的類可以被應(yīng)用于某一分支時,遞歸過程就完成了。決策樹的每一個葉節(jié)點對應(yīng)著一個分類,非葉節(jié)點對應(yīng)著在某個屬性上的劃分,根據(jù)樣本在該屬性上的不同取值將其劃分成若干個子集。對于非純的葉節(jié)點,多數(shù)類的標(biāo)號給出到達(dá)這個節(jié)點的樣本所屬的類。構(gòu)造決策樹的核心問題是在每一步如何選擇適當(dāng)?shù)膶傩詫颖咀霾鸱?。對一個分類問題,從已知類標(biāo)記的訓(xùn)練樣本中學(xué)習(xí)并構(gòu)造出決策樹是一個自上而下、分而治之的過程。
采用C50算法,根據(jù)指標(biāo)列取的數(shù)據(jù),分行業(yè)帶入決策樹模型。劃分到不同的聚類結(jié)果中。根據(jù)第一部分聚類模型的中位數(shù)值,作為此用戶的用電負(fù)荷值預(yù)測結(jié)果[3-4]。
1.1.3 功能算法-時間序列
時間序列預(yù)測主要是以連續(xù)性原理作為依據(jù)的。連續(xù)性原理是指客觀事物的發(fā)展具有合乎規(guī)律的連續(xù)性,事物發(fā)展是按照它本身固有的規(guī)律進(jìn)行的。在一定條件下,只要規(guī)律賴以發(fā)生作用的條件不產(chǎn)生質(zhì)的變化,則事物的基本發(fā)展趨勢在未來就還會延續(xù)下去。時間序列預(yù)測就是利用統(tǒng)計技術(shù)與方法,從預(yù)測指標(biāo)的時間序列中找出演變模式,建立數(shù)學(xué)模型,對預(yù)測指標(biāo)的未來發(fā)展趨勢做出定量估計。
采用HoltWinters指數(shù)平滑算法,根據(jù)各大行業(yè)用電負(fù)荷數(shù)據(jù),預(yù)測未來幾天內(nèi)可能的用電負(fù)荷值[5]。
1.1.4 功能算法-回歸修正
在統(tǒng)計學(xué)中,線性回歸(Linear Regression)是利用稱為線性回歸方程的最小平方函數(shù)對一個或多個自變量和因變量之間關(guān)系進(jìn)行建模的一種回歸分析。變量的相關(guān)關(guān)系中最為簡單的是線性相關(guān)關(guān)系,設(shè)隨機(jī)變量與變量之間存在線性相關(guān)關(guān)系,則由試驗數(shù)據(jù)得到的點,將散布在某一直線周圍。這種函數(shù)是一個或多個稱為回歸系數(shù)的模型參數(shù)的線性組合。分析按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。如果在回歸分析中,只包括一個自變量和一個因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱為多元線性回歸分析。
將決策樹的單個用戶結(jié)果進(jìn)行匯總形成行業(yè)數(shù)據(jù)結(jié)合實踐序列的各個行業(yè)數(shù)據(jù)進(jìn)行回歸系數(shù)修正,并根據(jù)數(shù)據(jù)及時更新形成新的系數(shù),產(chǎn)生更準(zhǔn)確的結(jié)果。
1.1.5 特征選擇
特征選擇也叫特征子集選擇 ( FSS , Feature Subset Selection ) 。是指從已有的M個特征(Feature)中選擇N個特征使得系統(tǒng)的特定指標(biāo)最優(yōu)化,是從原始特征中選擇出一些最有效特征以降低數(shù)據(jù)集維度的過程,是提高學(xué)習(xí)算法性能的一個重要手段,也是模式識別中關(guān)鍵的數(shù)據(jù)預(yù)處理步驟。對于一個學(xué)習(xí)算法來說,好的學(xué)習(xí)樣本是訓(xùn)練模型的關(guān)鍵。
在代入變量之前,進(jìn)行特征選擇。刪除變量值都為空的變量,刪除變量值只有一個相同數(shù)值的變量,刪除變量之間完全相同的變量。最后根據(jù)決策樹的變量重要性結(jié)果將重要性低于1%對模型影響甚微的變量一并刪除。
1.2 算法選擇
1.2.1 聚類算法
聚類算法常用的算法包括系統(tǒng)聚類法、動態(tài)聚類法(k-means)。
系統(tǒng)聚類一次形成之后就不能再改變,這需要一次分得比較準(zhǔn)確,對分類的方法有很高的要求。相應(yīng)的計算量也會很大比如Q型系統(tǒng)聚類法聚類的過程是在樣本間距離矩陣的基礎(chǔ)上進(jìn)行的。當(dāng)樣本容量很大時,需要占用足夠的計算機(jī)內(nèi)存,而且在并類過程中,需要將每類樣本和其他樣本間的距離。逐一加一比較以決定應(yīng)該合并的類別,需要很長的計算時間,不適用于海量數(shù)據(jù)樣本。
動態(tài)聚類法又稱為逐步聚類法基本思想是開始先粗略地分一下類,然后按照某種最優(yōu)原則修改不合理的分類,直至類分得比較合理為止。適用于大樣本的聚類分析。所以選擇動態(tài)聚類(k-means)方法。
1.2.2 分類算法
常見的分類模型算法包括傳統(tǒng)方法和現(xiàn)代方法。其中傳統(tǒng)方法有線性判別法、距離判別法、貝葉斯分類器等;現(xiàn)代方法有決策樹、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等。
由于代入變量較多所以應(yīng)該選擇更加智能的決策樹或者神經(jīng)網(wǎng)絡(luò)算法。神經(jīng)網(wǎng)絡(luò)算法不允許有缺失值,但是決策樹能更好的處理缺失值的問題。由于數(shù)據(jù)樣本有較多缺失值,所以選擇決策樹。
1.3 過程說明
動態(tài)聚類算法后將化為一類的96個曲線值進(jìn)行比較分析,大體曲線區(qū)間以及走勢相同,說明此算法較好,如圖1所示。
R語言的決策樹算法包包含(C50、party、rpart)。根據(jù)三種算法比較,raprt運行過程最慢,耗時較長。C50最快并且準(zhǔn)確率高于party算法。并且C50算法執(zhí)行效率和內(nèi)存使用更適用大數(shù)據(jù)集。由于變量有部分缺失值較多,C50算法面對數(shù)據(jù)遺漏和輸入字段很多的問題時非常穩(wěn)健。同時C50比一些其他類型的模型易于理解,模型推出的規(guī)則有非常直觀的解釋。故最終選擇C50算法,C50算法決策樹的變量重要性如圖2所示。
2 短期用電負(fù)荷預(yù)測建模過程
2.1 主要流程
短期用電負(fù)荷預(yù)測建模主要包括以下三部分工作:
(1)基于按時間順序排列的負(fù)荷序列數(shù)據(jù)完成對未來7天用電負(fù)荷的預(yù)測;
(2)基于行業(yè)、天氣等多因素及負(fù)荷曲線數(shù)據(jù)完成對歷史負(fù)荷的曲線聚類并完成對未來用電負(fù)荷的分類預(yù)測;
(3)基于前2步模型的結(jié)果進(jìn)行回歸系數(shù)的修正,產(chǎn)生更準(zhǔn)確的預(yù)測結(jié)果,前2步模型可擴(kuò)展添加。
主要流程如圖3所示。
2.2 模型評估
代入某市電力公司2017年12月數(shù)據(jù)并且以行業(yè)最多的工業(yè)為例準(zhǔn)確率如表1所示,準(zhǔn)確率可滿足需求。
表1 模型準(zhǔn)確率統(tǒng)計
3 總結(jié)
本文將決策樹、時間序列等數(shù)據(jù)挖掘技術(shù)應(yīng)用到短期用電負(fù)荷預(yù)測中,基于用戶用電和電網(wǎng)負(fù)荷信息,結(jié)合天氣、經(jīng)濟(jì)、假日、社會事件等等外部因素,構(gòu)建了短期市場電力負(fù)荷分析模型。經(jīng)代入某市電力公司2017年12月數(shù)據(jù),短期負(fù)荷預(yù)測精度接近90%,可為電力行業(yè)電網(wǎng)規(guī)劃、電能調(diào)配決策等提供有效的數(shù)據(jù)支撐。在未來的研究中,將進(jìn)一步擴(kuò)大樣本數(shù)據(jù)量,持續(xù)完善預(yù)測算法以及回歸模型修正工作,以進(jìn)一步提高預(yù)測精度。
【參考文獻(xiàn)】
[1]鐘清,孫聞,余南華,等.主動配電網(wǎng)規(guī)劃中的負(fù)荷預(yù)測與發(fā)電預(yù)測[J].中國電機(jī)工程學(xué)報,2014,34(19):3050-3056.
[2]中國電機(jī)工程學(xué)會信息化專委會.中國電力大數(shù)據(jù)發(fā)展白皮書[S].北京:中國電力出版社,2013.
[3]栗然,劉宇,黎靜華,等.基于改進(jìn)決策樹算法的日特征負(fù)荷預(yù)測研究[J].中國電機(jī)工程學(xué)報, 2005, 25(24):36-41.
[4]李響,黎燦兵,曹一家,等.短期負(fù)荷預(yù)測的解耦決策樹新算法[J].電力系統(tǒng)及其自動化學(xué)報,2013, 25(3):13-19.
[5]張素香,劉建明,趙丙鎮(zhèn),等.基于云計算的居民用電行為分析模型研究[J].電網(wǎng)技術(shù),2013,37(6) :1542-1546.