劉濤 高慧
【摘要】 為了預測未來某時刻風力發(fā)電功率的情況,論文提出了一種高斯分布模型,并以此模型為基礎(chǔ)利用高斯分布的特點對每一區(qū)域進行去噪處理,進而擬合出一條合適的預測曲線。通過對實驗數(shù)據(jù)的分析驗證了高斯分布模型的可行性。
【關(guān)鍵詞】 高斯分布 去噪
數(shù)據(jù)預處理是指在主要的處理以前對數(shù)據(jù)進行的一些處理?,F(xiàn)實世界中的數(shù)據(jù)大體上都是不完整、不一致的噪聲數(shù)據(jù),無法直接進行數(shù)據(jù)挖掘,或挖掘結(jié)果差強人意。為了提高數(shù)據(jù)挖掘的質(zhì)量產(chǎn)生了數(shù)據(jù)預處理技術(shù)。數(shù)據(jù)預處理有多種方法:數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)規(guī)約等。這些數(shù)據(jù)處理技術(shù)在數(shù)據(jù)挖掘之前使用,大大提高了數(shù)據(jù)挖掘模式的質(zhì)量,降低實際挖掘所需要的時間。
論文主要采用了一種新型的基于正態(tài)分布模型的去噪方法,在數(shù)據(jù)挖掘前進行預處理,使數(shù)據(jù)挖掘得到的效果更加令人滿意。
一、改進的數(shù)據(jù)去噪算法
目前的數(shù)據(jù)去噪算法有很多種,例如K-近臨點云去噪算法、散亂點云去噪算法、基于幾何關(guān)系的數(shù)據(jù)點云去噪算法等等,但是各種各樣的數(shù)據(jù)去噪算法都存在著一定的問題。
本文所采用的方法是基于高斯分布模型的數(shù)據(jù)去噪算法,在研究原有算法的基礎(chǔ)上加以分析,進一步優(yōu)化數(shù)據(jù)去噪算法,彌補了多種去噪算法的缺點,進而更好的進行去噪處理,得到理想的結(jié)果。
1.1算法基本思想
通過高斯分布模型對整體數(shù)據(jù)進行收縮進而求得數(shù)據(jù)分布的中心點,直到中心點小于某一誤差。每一步用正態(tài)分布去擬合,求得方差,按比例去掉方差之外的點,直至收斂。
1.2算法具體內(nèi)容
A、將原始數(shù)據(jù)在X軸上分成N等份區(qū)間,對于每一個區(qū)間內(nèi)的數(shù)據(jù)分布都看成是一個正態(tài)分布模型,然后求出正態(tài)分布的均值μ和標準差σ。由于有大量噪聲數(shù)據(jù)的影響,所以之前求出的均值μ和標準差σ并不是最準確最理想的數(shù)值,進而對剩下的數(shù)據(jù)進行迭代操作。
σ越大,數(shù)據(jù)分布越分散,σ越小,數(shù)據(jù)分布越集中在μ附近。對每個區(qū)間的數(shù)據(jù)進行有限次迭代直至σ逐漸趨向收斂。
B、對每個區(qū)間進行完如上操作之后,根據(jù)數(shù)據(jù)挖掘需求者的誤差允許范圍設(shè)置一個理想的誤差參數(shù),使得到的數(shù)據(jù)都處于理想誤差范圍之內(nèi)。
初始化理想的誤差參數(shù)為m%,對每個區(qū)間隨機取樣20個數(shù)據(jù),將這20個隨機樣本看作是一個小的正態(tài)分布模型,進行同樣的操作求出隨機樣本的均值μi和標準差σi。將隨機樣本的均值μi和標準差σi和整個區(qū)間的均值μ和標準差σ進行比較,若誤差在m%以為,則本區(qū)間去噪成功,若誤差在m%以外,則對本區(qū)間的所有數(shù)據(jù)繼續(xù)進行迭代操作,直至誤差范圍在m%以內(nèi)或者達到設(shè)定的最大迭代次數(shù)為止。
C、最后將所有區(qū)間的數(shù)據(jù)處理完之后利用matlab擬合出一條分布曲線,求出數(shù)據(jù)分布曲線的函數(shù),然后對數(shù)據(jù)進行進一步分析處理,通過求得的分布函數(shù)進行風力發(fā)電預測。
二、風力發(fā)電預測問題
本文主要針對風電預測問題進行分析,并應用實例分析去噪算法,進而對結(jié)果加以分析,從而驗證算法的可行性。
根據(jù)電力調(diào)度部門的安排,風電功率預測分為日前預測和實時預測。
實例:某風電場由N臺風電機組構(gòu)成,每臺機組的額定輸出功率固定。附件中給出了2006年6月10日至2013年8月15日時間段內(nèi)該風電場中指定的風電機組輸出功率數(shù)據(jù)記為W,另有測得實時的風速為V,表中僅列出其中一部分數(shù)據(jù),請利用Matlab程序擬合出風速與功率之間的關(guān)系。由于測得數(shù)據(jù)量較大,下面僅給出原始數(shù)據(jù)分布圖。
三、基于改進的數(shù)據(jù)去噪算法的實驗研究
風力發(fā)電原始數(shù)據(jù)分布圖如圖1所示:
首先根據(jù)改進算法的第一步對原始數(shù)據(jù)進行處理,將X軸分成N等份,然后對每個區(qū)間的數(shù)據(jù)進行預處理求得均值和方差,將誤差之外的噪聲點全部刪除,最后將得到的處理后的數(shù)據(jù)導入Matlab中進行曲線擬合,進而對發(fā)電功率進行實時預測,處理后的數(shù)據(jù)擬合曲線效果圖如圖2所示:
利用三次方的高斯公式擬合得到預測函數(shù):
f(x) =a1*exp(-((x-b1)/c1)^2) + a2*exp(-((x-b2)/c2)^2)+a3*exp(-((x-b3)/c3)^2)
a1 = 1450 b1 = 22.27 c1 = 6.832 a2 = 6.371e+005 b2 = 15.24
c2 = 7.614e-005 a3 = 1181 b3 = 12.96 c3 = 5.477
通過隨機取樣驗證了模型的可行性和合理性。
四、總結(jié)
本論文提出的正態(tài)分布模型通過簡單的區(qū)間劃分和數(shù)據(jù)迭代,對原始數(shù)據(jù)進行了預處理,去除了對數(shù)據(jù)挖掘有影響的噪聲數(shù)據(jù),進而使得數(shù)據(jù)挖掘的精確性更高,得到的數(shù)據(jù)更有價值性。實驗通過正反對比檢驗,驗證了模型的可行性及正確性。最后通過matlab擬合得到預測函數(shù),從而可以對未來某一時刻的風力發(fā)電功率進行精確預測。這一模型不僅可以用于本實驗的數(shù)據(jù),對于大多數(shù)數(shù)據(jù)分布集中且有線性規(guī)律的數(shù)據(jù)都可以應用。同時該模型更是為以后數(shù)據(jù)挖掘預處理提供了一種好的思想,會在未來更好的發(fā)展利用。
參 考 文 獻
[1] 董明曉,鄭康平.一種點云數(shù)據(jù)噪聲點的隨機濾波處理方法[J].中國圖像圖形學報,2004,9(2):246-248.
[2] 劉大峰,廖文和,戴寧,等.散亂點云去噪算法的研究與實現(xiàn)[J].東南大學學報,2007,37(6).
[3] 王麗輝,袁保宗.魯棒的模糊C均值和點云雙邊濾波去噪[J].北京交通大學學報,2008,32(2).
[4] 顧亞芳.高斯模糊圖像的盲復原[D].南京:東南大學,2005