王鴻健
(邵陽醫(yī)專 網(wǎng)絡(luò)中心,湖南 邵陽 422000)
基于信息熵的電力負(fù)荷預(yù)測算法研究
王鴻健
(邵陽醫(yī)專 網(wǎng)絡(luò)中心,湖南 邵陽 422000)
從粗集理論和信息論出發(fā),依據(jù)屬性約簡的判斷標(biāo)準(zhǔn),提出了基于信息熵的電力負(fù)荷預(yù)測最佳屬性集發(fā)現(xiàn)方法.
數(shù)據(jù)挖掘;粗集理論;信息熵;屬性集
從粗集理論和信息論[1,2,3,4]出發(fā),我們將電力負(fù)荷預(yù)測系統(tǒng)看作是一決策系統(tǒng),相關(guān)環(huán)境因素變量即為條件屬性,待預(yù)測負(fù)荷量即為決策屬性.則從所有可能相關(guān)的環(huán)境因素中去除冗余或次要的環(huán)境因素以及選擇重要的環(huán)境因素,即是屬性約簡[5,6,7]及屬性重要性的衡量問題.
方法包括兩個主要步驟:
2.1 屬性值離散化:對待挖掘電力負(fù)荷數(shù)據(jù)庫T各屬性上的取值分別進(jìn)行合理分類,并以類別標(biāo)識代替各記錄在該屬性上的取值,形成離散化后的負(fù)荷數(shù)據(jù)庫TA.
2.2 電力負(fù)荷預(yù)測最佳屬性集發(fā)現(xiàn):由離散化后的電力負(fù)荷數(shù)據(jù)庫TA,將全部相關(guān)環(huán)境因素屬性集C作為初始條件屬性集,依據(jù)粗集理論和信息論的屬性重要性的衡量標(biāo)準(zhǔn)及屬性約簡的判斷依據(jù),對C進(jìn)行逐步約簡,刪除冗余和次要的屬性,得到電力負(fù)荷預(yù)測最佳屬性集.
下面我們分別給出這兩部分的實現(xiàn)算法.
輸入:離散化后的電力負(fù)荷數(shù)據(jù)庫TA=,其中C、D分別為相關(guān)環(huán)境因素屬性集和負(fù)荷量屬性集
輸出:相關(guān)環(huán)境因素屬性集C的一個最佳屬性集B
Step1:計算TA中D相對于C的條件熵H (D|C)
Step2:計算D相對每個屬性ai∈C的條件熵H(D|{ai}),將ai按H(D|{ai})降序排列得隊列QUEUE(ai)(ai∈C)
Step3:令B=C.設(shè)置屬性重要程度閥值ε的初值
Repeat
(1)取隊列QUEUE(ai)的頭元素a1,并將a1從隊列中刪除
(2)計算屬性集D相對屬性集B在刪掉ai后的條件熵H(D|B-{ai})
(3)如果H(D|C)=H(D|B-{ai})
表明屬性ai為冗余屬性,應(yīng)當(dāng)約簡,B=B-{ai}否則
如果0<H(D|B-{ai})-H(D|C)<ε
表明屬性ai為非重要屬性,根據(jù)需要決定是否約簡.若約簡,B=B-{ai}
否則
表明屬性ai是重要屬性,不能被約簡,B不變until屬性集B不再發(fā)生變化
我們以電力預(yù)測日整點時刻的負(fù)荷值時,確定選擇哪些相關(guān)環(huán)境變量作為主要輸入變量對提出的電力負(fù)荷預(yù)測最佳屬性集發(fā)現(xiàn)算法進(jìn)行了測試.我們的實驗設(shè)計如下:
我們收集了湖南省電力局09.2.l-09.5.31的每日12點時刻的負(fù)荷值共120條記錄樣本信息(列出其中21條,表1),其中每個樣本含有6個條件屬性和1個決策屬性.這些條件屬性為C={當(dāng)天最高溫度、當(dāng)天最低溫度、當(dāng)天日期類型、前1天12點時刻的負(fù)荷值,前2天12點時刻的負(fù)荷值,前7天12點時刻的負(fù)荷值}.決策屬性為D={當(dāng)天12點時刻的負(fù)荷值}.
利用該算法求最佳屬性集的過程如下:
(1)按1.1所述方法進(jìn)行屬性值離散化.設(shè)屬性重要程度閥值ε=0
(2)計算決策屬性集D相對條件屬性集C的條件熵為H(D|C)=0
(3)計算屬性集D相對屬性集B在刪掉ai后的條件熵H(D|B-{ai}),得到結(jié)果如表2,在2中,前2天12點時刻的負(fù)荷值條件信息熵為0,說明前2天12點時刻的負(fù)荷值對預(yù)測當(dāng)天12點時刻的負(fù)荷值沒有什么幫助,可以約簡.繼續(xù)用同樣的方法對剩下的屬性進(jìn)行計算,發(fā)現(xiàn)再無法找到其他滿足條件的屬性,因此算法結(jié)束.最后得到的屬性集為{當(dāng)天最高溫度、當(dāng)天最低溫度、當(dāng)天日期類型、前1天12點時刻的負(fù)荷值,前7天12點時刻的負(fù)荷值},圖1的數(shù)學(xué)擬合曲線證明了該算法的有效性和科學(xué)性.
通過和仿真擬合曲線的對比,發(fā)現(xiàn)這種算法能夠比較準(zhǔn)確的反映真實值,預(yù)測誤差很低,不到5%,達(dá)到了理想的預(yù)測效果,證明了這種算法的科學(xué)和可行.
表1 湖南省電力局09年4月份負(fù)荷數(shù)據(jù)表
表2 各條件屬性的條件信息熵
圖1 負(fù)荷實際值與預(yù)測值的擬合曲線
a.該算法設(shè)計簡單,分類適中,利用該算法能夠比較準(zhǔn)確的預(yù)測.
b.仿真和實例證明,在分類復(fù)雜或過少的不全面的前提下,該算法能夠迅速提煉最佳屬性集,能夠比較真實的預(yù)測實際值,大大減少工作的復(fù)雜度,提高工作效率.
〔1〕Pawlak Z,Grzymala-Busse J,Slow inskiR,et al.Rough sets.Communication ofthe ACM, 1995,38(11):88-95.
〔2〕Ivo Duntsch, Gunther Gediga.Uncertainty measures of rough set prediction.Artificial Intelligence,1998.106,109-137.
〔3〕Hu X, Cercone N.Learning in relation database:A Rough set approach.International Journal of Computational Intelligence,1995,11(2):323-338.
〔4〕苗奪謙,王鈺.粗糙集理論中概念與運算的信息表示[J].軟件學(xué)報,1999,10(2):113-116.
〔5〕常犁云,王國胤,吳渝.一種Rough Set理論的屬性約簡及規(guī)則提取方法[J].軟件學(xué)報,1999,10(11):1206-1211.
〔6〕Miao Duoqian,WangJue.An informationbased algorithm forreduction ofknowledge.IEEE ICIPS’97,1997.1155-1158.
〔7〕苗奪謙,胡桂榮.知識約簡的一種啟發(fā)式算法[J].計算機(jī)研究與發(fā)展,1999,36(6):681-684.
〔8〕Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.
TM715
A
1673-260X(2010)05-0098-03