摘 要:將數(shù)據(jù)挖掘技術(shù)應(yīng)用到電力負荷管理系統(tǒng)中,設(shè)計出電力負荷數(shù)據(jù)挖掘系統(tǒng),此系統(tǒng)包括數(shù)據(jù)預處理模塊,數(shù)據(jù)挖掘模塊和數(shù)據(jù)挖掘結(jié)果顯示模塊。根據(jù)電力系統(tǒng)數(shù)據(jù)的特點,提出采用多元線形回歸模型進行數(shù)據(jù)挖掘的方法,并成功運用了實踐中實例表明該數(shù)據(jù)挖掘系統(tǒng)能夠?qū)﹄娏ω摵芍颠M行有效的預測,提高用電生產(chǎn)管理方面信息的準確性和及時性,從而保證供電與用電的穩(wěn)定。
關(guān)鍵詞:數(shù)據(jù)挖掘;負荷數(shù)據(jù);數(shù)據(jù)預處理;多元線性回歸
中圖分類號:TP311 文獻標識碼:B
文章編號:1004-373X(2008)10-036-03
Application of Data Mining Techniques in Power Load Management System
XU Wei,QIN Jun
(Institute of Computer Science,South Central University for Nationalities,Wuhan,430074,China)
Abstract:This paper applies data mining technology into the power load management system,and designs the power load management mining system.This system includes data preprocessing module,data mining module and data mining result display module.According to the power system data characteristic,the way of using multiple linear regression model to implement data mining is put forward and realized in practice.In this examples,it is indicated that the defect can be forecasted effectively in the data mining system,the accuracy of information on electricity production management is improved,the stable supply of electricity is guaranteed.
Keywords:data mining;load data;data preprocessing;multiple linear regression
1 引 言
2002年下半年以來,我國部分地區(qū)電力供需緊張,隨著經(jīng)濟的快速發(fā)展,供需緊張狀況進一步加劇,全國各大電網(wǎng)的負荷都在迅速增加,為了加強電力需求管理,各地已實施或者正在實施全面的計算機信息管理,應(yīng)用技術(shù)、管理和宣傳、協(xié)調(diào)等手段切實做好負荷控制、電力調(diào)度和用電服務(wù)工作。當這些系統(tǒng)正式運行起來以后,勢必產(chǎn)生海量的負荷、控制等方面的數(shù)據(jù)。這些數(shù)據(jù)除極少量的部分被工作人員拿來進行管理參考外,大多數(shù)都擱置一邊或者丟棄掉了,因為人工不可能對那么巨大的數(shù)據(jù)進行認真準確的分析。這樣,在電力負荷管理系統(tǒng)中增加負荷數(shù)據(jù)挖掘系統(tǒng)這個子系統(tǒng)就顯得特別重要和必須。
數(shù)據(jù)挖掘是數(shù)據(jù)庫研究中一個很有應(yīng)用價值的新領(lǐng)域,是一門交叉性學科,融合了人工智能、數(shù)據(jù)庫技術(shù)、模式識別、機器學習、統(tǒng)計學和數(shù)據(jù)可視化等多個領(lǐng)域的理論和技術(shù)\\[1\\]。在學術(shù)界,一些學者只是把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD)過程的一個基本步驟\\[2\\];但是大多數(shù)學者認為數(shù)據(jù)挖掘和KDD是等同的。本文采用數(shù)據(jù)挖掘的廣義觀點:數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中挖掘出有用的信息,從大量的數(shù)即從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中發(fā)現(xiàn)隱含的、規(guī)律性的、人們事先未知的,但又是潛在有用的并且最終可理解的信息和知識的非平凡過程\\[3\\] 。一個典型的數(shù)據(jù)挖掘過程一般包括數(shù)據(jù)選擇、數(shù)據(jù)預處理、數(shù)據(jù)變換、數(shù)據(jù)挖掘和解釋/評價等步驟\\[4\\]。把先進的數(shù)據(jù)挖掘技術(shù)應(yīng)用到電力負荷管理系統(tǒng)中,開發(fā)出電力負荷數(shù)據(jù)挖掘系統(tǒng)能夠加深和加強系統(tǒng)對電力負荷數(shù)據(jù)的分析功能,這樣就能很好地保證用電線路的正常運行。
2 電力負荷管理系統(tǒng)
電力負荷管理系統(tǒng)包括5大部分。第1部分是系統(tǒng)權(quán)限管理,他是為系統(tǒng)的保密性而設(shè)置的,主要為各個不同級別的用戶劃分不同的菜單和數(shù)據(jù)權(quán)限。第2部分是部門資料管理,包括基礎(chǔ)數(shù)據(jù)、和部門查詢2個模塊,這部分記錄所有部門的相關(guān)資料。第3部分是設(shè)備資料管理,包括基礎(chǔ)數(shù)據(jù)、和設(shè)備查詢2個模塊,這部分記錄所有設(shè)備管理的相關(guān)資料。第4部分是運行記錄管理,包括運行記錄、設(shè)備管理兩個模塊,是有關(guān)設(shè)備運行的全部記錄資料。第5部分是電力負荷數(shù)據(jù)挖掘,包括數(shù)據(jù)預處理、數(shù)據(jù)挖掘和數(shù)據(jù)挖掘結(jié)果顯示3個模塊,完成數(shù)據(jù)挖掘為系統(tǒng)提供有效信息的功能。本文設(shè)計的電力負荷數(shù)據(jù)挖掘系統(tǒng)就是電力負荷管理系統(tǒng)的第五部分,其充分利用電力負荷數(shù)據(jù)挖掘系統(tǒng)的數(shù)據(jù)資源,應(yīng)用先進有效的數(shù)據(jù)挖掘技術(shù),達到了為系統(tǒng)提供負荷預測的目的。
3 電力負荷數(shù)據(jù)挖掘系統(tǒng)
3.1 系統(tǒng)總體框架
電力負荷數(shù)據(jù)挖掘系統(tǒng)從設(shè)備運行數(shù)據(jù)庫和設(shè)備數(shù)據(jù)庫中獲取數(shù)據(jù),根據(jù)數(shù)據(jù)挖掘算法的需要進行數(shù)據(jù)預處理,并建立數(shù)據(jù)挖掘模型,供用戶挖掘時使用。用戶只需要輸入簡單的一些參數(shù),系統(tǒng)就會自動根據(jù)已建立的模型輸出相應(yīng)的結(jié)果并對此數(shù)據(jù)分析并進行預測。
3.2 系統(tǒng)總體設(shè)計
電力負荷數(shù)據(jù)挖掘系統(tǒng)主要是通過對設(shè)備當前的和歷史的負荷數(shù)據(jù)進行分析,挖掘出其中隱含的知識和從中發(fā)現(xiàn)隱含的趨勢和規(guī)律。他主要包括數(shù)據(jù)預處理模塊、數(shù)據(jù)挖掘模塊和結(jié)果顯示模塊。
3.2.1 數(shù)據(jù)預處理模塊
數(shù)據(jù)預處理模塊的處理對象是大量的數(shù)據(jù),但往往不適合直接在這些數(shù)據(jù)上面進行挖掘,需要做數(shù)據(jù)預處理工作,包括數(shù)據(jù)的選擇、數(shù)據(jù)清理、數(shù)據(jù)集成和轉(zhuǎn)換。數(shù)據(jù)預處理將直接影響數(shù)據(jù)挖掘的效率和準確度以及最終模式的有效性。
(1) 數(shù)據(jù)選擇:數(shù)據(jù)選擇主要是分析所收集到的所有與處理事務(wù)有關(guān)的內(nèi)部信息和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘使用的數(shù)據(jù)。通過數(shù)據(jù)選擇可以使數(shù)據(jù)的規(guī)律性和潛在特性更加明顯。數(shù)據(jù)選擇包括屬性選擇和數(shù)據(jù)抽樣,即在數(shù)據(jù)源中選擇數(shù)據(jù)域和元組。例如數(shù)據(jù)庫中記錄有關(guān)設(shè)備數(shù)據(jù)是運行的全部的數(shù)據(jù),其中包括溫度、電壓、電流、功率、電能、狀態(tài)等記錄,數(shù)據(jù)選擇就要從這些數(shù)據(jù)中找出與負荷監(jiān)測相關(guān)的數(shù)據(jù)。
(2) 數(shù)據(jù)清理:數(shù)據(jù)清理主要是針對多個數(shù)據(jù)源中數(shù)據(jù)的不規(guī)范性、二義性、重復和不完整等問題,對有問題的數(shù)據(jù)進行相應(yīng)的清理操作。數(shù)據(jù)清理首先需要將數(shù)據(jù)值進行標準化,即相同含義的值應(yīng)具有統(tǒng)一的形式,其次數(shù)據(jù)清理去除噪聲或無關(guān)數(shù)據(jù),并處理數(shù)據(jù)中缺失的數(shù)據(jù)域。
(3) 數(shù)據(jù)集成和轉(zhuǎn)換:數(shù)據(jù)集成和轉(zhuǎn)換包括同構(gòu)或異構(gòu)數(shù)據(jù)庫的集成以及語義轉(zhuǎn)換。多年來,各地供電公司積累了大量的設(shè)備運行記錄信息,早期這些信息存儲在供電公司的設(shè)備檔案里,隨著數(shù)據(jù)庫技術(shù)的廣泛應(yīng)用,這些信息先后被存儲到各種數(shù)據(jù)庫中,如存儲在Oracle,Sybase,SQL Server等數(shù)據(jù)庫中。為了提高數(shù)據(jù)挖掘的效率,需要把存儲在同構(gòu)或異構(gòu)數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)換格式并導人SQL Server Enterprise Manager中。首先建立一個數(shù)據(jù)庫如BDZ-DB。然后可以借助數(shù)據(jù)轉(zhuǎn)換服務(wù)(DTS)功能,將數(shù)據(jù)導人數(shù)據(jù)庫BDZ-DB中。轉(zhuǎn)換的另一個目的是將記錄中難以理解的符號轉(zhuǎn)換成實際的語義,以便在挖掘結(jié)果的可視化描述中一目了然,如“fhsj”的含義是負荷數(shù)據(jù)。原始數(shù)據(jù)通過數(shù)據(jù)選擇、清理、集成和轉(zhuǎn)換后生成數(shù)據(jù)挖掘庫,為下一步的數(shù)據(jù)挖掘做好準備。
3.2.2 數(shù)據(jù)挖掘模塊
數(shù)據(jù)挖掘模塊的目的是生成可以據(jù)其所示的含義采取行動的知識,也就是建立一個現(xiàn)實世界的模型。在數(shù)據(jù)挖掘中,可以使用許多不同的模型,如分類模型、回歸模型、時間序列模型、聚類模型和關(guān)聯(lián)規(guī)則模型。針對同一模型,可以使用不同的算法進行數(shù)據(jù)挖掘,算法的目的就是找到適合于數(shù)據(jù)的模型\\[6\\] 。回歸模型主要是揭示事務(wù)問相關(guān)變量的數(shù)量關(guān)系。應(yīng)用回歸模型進行設(shè)備缺陷預測的關(guān)鍵是建立回歸方程?;貧w方程分為多種類型,當相關(guān)關(guān)系的統(tǒng)計規(guī)律呈線性關(guān)系時,稱其為線性回歸。在線性回歸中,自變量可以是1個,也可是多個。僅有1個自變量的稱為一元回歸;有多個白變量的,稱為多元回歸。電力負荷數(shù)據(jù)挖掘系統(tǒng)不可能考慮設(shè)備自身因素和外部因素的所有因素,所以本文選擇其中的設(shè)備時間(日期)、溫度、濕度和設(shè)備投運時間這些因素作為自變量。當然本文設(shè)計的回歸模型是開放性的,自變量數(shù)量并不局限于4個。
因為自變量有4個,因此必須采用多元線性回歸模型。設(shè)隨機變量y與一般變量x1,x2,…,xp的線性回歸模型為\\[5\\]:
y=β0+β1x1+β2x2+…+βpxp[JY](1)
其中,β0,β1,β2,…,βp是p+1個未知參數(shù),稱為回歸常數(shù);y為被解釋變量(因變量);而x1,x2,…,xp是p個可以精確測量并可控制的一般變量,為解釋變量(自變量)。對一個實際問題,如果獲得n組歷史數(shù)據(jù)(xi1,xi2,…,xip;y),i=1,2,…,n,則線性回歸模型式(1)的矩陣方程為:
[WTHX]y[WTBX]=[WTHX]Xβ[WTBX][JY](2)
其中:
[WTHX]y[WTBX]=y1y2y3y4,[WTHX]X[WTBX]=1x11x12…x1p1x21x22…x2p[]xn1xn2…xnp,[WTHX]β[WTBX]=β0β1β3
在式(2)中,矩陣X是一個n×(p+1)矩陣,稱為回歸設(shè)計矩陣或者資料矩陣。在實驗設(shè)計中的元素是預先設(shè)定并可以控制。在本項目中自變量有4個,因此n為4,x1為時間(日期),x2為溫度,x3為濕度,x4為設(shè)備投運時間。如果分析2002年~2006年4年的歷史數(shù)據(jù),針對某一種數(shù)據(jù)就可以得到6組歷史數(shù)據(jù),然后用最小二乘法計算參數(shù)估計值,從而得到經(jīng)驗回歸方程。通過這個回歸方程就可以對設(shè)備運行情況進行預測,是否需要重新配置負荷情況。
3.2.3 結(jié)果顯示模塊
結(jié)果顯示模塊是將數(shù)據(jù)挖掘后得到的知識和結(jié)果用可視化形式表示出來。在建立好相關(guān)數(shù)學模型后,把實際數(shù)據(jù)(時間、溫度、濕度和設(shè)備投運時間)作為輸入信息,通過挖掘模型的計算獲得預測結(jié)果。其過程如圖1所示。
圖1 結(jié)果顯示模塊過程
4 系統(tǒng)應(yīng)用
將本系統(tǒng)應(yīng)用于武漢供電局,對供電公司武鋼6個變電站2002年~2006年7月的歷史數(shù)據(jù)進行分析,然后對2007年7月的負荷運行情況進行預測,結(jié)果見表1,從表1中數(shù)據(jù)可以看出預測結(jié)果基本正確。根據(jù)負荷運行情況發(fā)生的結(jié)果,可以指導管理者提前做好負荷控制的工作,達到預先管理的目的。
5 結(jié) 語
本文把先進的數(shù)據(jù)挖掘技術(shù)應(yīng)用于電力負荷管理系統(tǒng)中,并且已經(jīng)實際應(yīng)用到武漢供電局,取得較好的效果。系統(tǒng)在提高供電企業(yè)現(xiàn)代化管理水平方面發(fā)揮著積極的作用,他能夠提高用電生產(chǎn)管理方面信息的準確性和及時性,進一步強化負荷控制管理過程中信息的分析,從而提高整個供電企業(yè)的科學管理水平,確保供電和用電的穩(wěn)定。
表1 2007年7月的正向負荷數(shù)據(jù)預測
參 考 文 獻
[1]王光宏,蔣平.數(shù)據(jù)挖掘綜述[J].同濟大學學報,2004,32(2):246-252.
[2]Ken Collier,Bernard Carey,Donald Sautter,et al.A Method for Evaluating and Selecting Data Mining Software [C].Proceedings of the 32nd Hawaii International Conference on System Sciences,1999:1-11.
[3]張云濤,龔玲.數(shù)據(jù)挖掘原理與技術(shù)[M].北京:電子工業(yè)出版社,2004.
[4]Margaret H.數(shù)據(jù)挖掘教程[M].Dunham,郭崇慧,田鳳占,等譯.北京:清華大學出版社,2005.
[5]何曉群,劉文卿.應(yīng)用回歸分析[M].北京:中國人民大學出版社,2001.
[6]張峰,陸榮華.電力負荷管理技術(shù)\\[M\\].北京:中國電力出版社,2005.
作者簡介
徐 巍 男,1983年出生,中南民族大學計算機科學學院碩士研究生。主要研究方向為數(shù)據(jù)庫管理和網(wǎng)絡(luò)安全。
覃 俊 女,1968年出生,中南民族大學計算機科學學院碩士導師,博士,教授。主要研究方向為信息安全。
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文。