王新生 李惠蓉
(國(guó)家風(fēng)電設(shè)備質(zhì)量監(jiān)督檢驗(yàn)中心)
近年來,全球能源問題日益嚴(yán)重,以風(fēng)電、太陽能等新能源為主的微電網(wǎng)的發(fā)展在世界各國(guó)受到重視。微電網(wǎng)是一種局部電力系統(tǒng),是智能電網(wǎng)的重要組成部分,它在運(yùn)行時(shí)會(huì)記錄大量數(shù)據(jù)。隨著技術(shù)發(fā)展,大數(shù)據(jù)時(shí)代已經(jīng)到來,這些數(shù)據(jù)是微電網(wǎng)運(yùn)行和控制的寶貴資源,對(duì)于分析發(fā)電設(shè)備狀態(tài)、預(yù)測(cè)發(fā)電功率、提供控制和優(yōu)化策略、故障診斷以及知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘具有重要的意義[1]。微電網(wǎng)系統(tǒng)數(shù)據(jù)挖掘,已經(jīng)逐漸運(yùn)用于解決各種實(shí)際生產(chǎn)應(yīng)用中所遇到的問題。
然而,由于受到各種因素的影響,經(jīng)常會(huì)出現(xiàn)數(shù)據(jù)的缺失現(xiàn)象。風(fēng)力發(fā)電系統(tǒng)是微電網(wǎng)中的一個(gè)主要構(gòu)成部分,因?yàn)轱L(fēng)速變化難以預(yù)測(cè)、設(shè)備維護(hù)困難,易發(fā)生故障以及其他原因,在進(jìn)行相關(guān)數(shù)據(jù)的采集、傳輸、存儲(chǔ)的過程中,會(huì)遇到數(shù)據(jù)缺失的問題。這將增加研究人員分析微電網(wǎng)數(shù)據(jù)的難度,降低分析結(jié)果的精度,給微電網(wǎng)的預(yù)測(cè)和優(yōu)化帶來負(fù)面影響,嚴(yán)重降低了數(shù)據(jù)的實(shí)際價(jià)值[2-3]。所以,從大量數(shù)據(jù)中挖掘微電網(wǎng)系統(tǒng)優(yōu)化運(yùn)行等策略,采用合理的方法對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ)就顯得非常重要。
傳統(tǒng)補(bǔ)缺方法有均值填補(bǔ)法、熱卡填充法、回歸插補(bǔ)法。這些方法雖然計(jì)算簡(jiǎn)單,但當(dāng)數(shù)據(jù)的缺失量增大或者數(shù)據(jù)波動(dòng)幅度明顯時(shí),填補(bǔ)的效果就會(huì)顯著降低。近年來,國(guó)內(nèi)外學(xué)者在傳統(tǒng)方法上又研究了機(jī)器學(xué)習(xí)方法和統(tǒng)計(jì)學(xué)習(xí)方法等。這些方法在填補(bǔ)的精度上有了很大的提高[4-7]。
針對(duì)微網(wǎng)中存在的數(shù)據(jù)缺失問題,綜觀已有的填補(bǔ)方法,多重填補(bǔ)方法精度相對(duì)要高。本文旨在將多重填補(bǔ)方法應(yīng)用到微網(wǎng)系統(tǒng)風(fēng)電數(shù)據(jù)的缺失填補(bǔ)中,針對(duì)風(fēng)電數(shù)據(jù)的特征,分析不同方法對(duì)填補(bǔ)精度的影響,并加以比較,找出最佳的方法。
全球能源需求日益增長(zhǎng),不可再生能源存量日益減少,并且人們對(duì)化石燃料的濫用對(duì)環(huán)境造成了嚴(yán)重影響。這就迫切要求人們開發(fā)以風(fēng)能、太陽能等為主力的新能源,在解決能源危機(jī)的同時(shí)減少對(duì)環(huán)境的污染,具有重要意義。智能電表和SCADA等傳感器在各種發(fā)電用電系統(tǒng)中,承擔(dān)著實(shí)時(shí)監(jiān)控的任務(wù)[8]。然而因?yàn)轱L(fēng)力資源存在不連續(xù)、難預(yù)測(cè)的特點(diǎn),且設(shè)備維護(hù)困難,易發(fā)生故障以及其他原因,在進(jìn)行相關(guān)數(shù)據(jù)的采集、傳輸、存儲(chǔ)的過程中,會(huì)遇到數(shù)據(jù)缺失的問題。這給數(shù)據(jù)挖掘和分析帶來了極大的負(fù)面影響[9]。
風(fēng)力發(fā)電數(shù)據(jù)缺失為隨機(jī)缺失(MAR),風(fēng)力發(fā)電需要考量的條件有風(fēng)速、風(fēng)向、地理位置等,其中風(fēng)速是風(fēng)力發(fā)電的主要影響因素。如圖1所示是某風(fēng)電場(chǎng)10天中的風(fēng)速與發(fā)電功率的變化趨勢(shì)??梢钥闯?,風(fēng)速雖然有很強(qiáng)的隨機(jī)性,但它仍然是時(shí)間序列上的一系列值,并且風(fēng)速和發(fā)電功率有著密切的關(guān)系。
圖1 風(fēng)電場(chǎng)10天內(nèi)發(fā)電功率變化趨勢(shì)
另外,數(shù)據(jù)的缺失模式分為兩種,單調(diào)缺失模式和任意缺失模式。單調(diào)缺失是指矩陣數(shù)列中,某行元素缺失yi時(shí),這一列中任意元素yp(P≥i)也是缺失的。任意缺失模式中數(shù)據(jù)缺失具有隨意性,沒有任何規(guī)律可循,即使通過行列變換也沒法看出任何規(guī)律。風(fēng)能發(fā)電系統(tǒng)數(shù)據(jù)的缺失受不可控因素的影響,缺失數(shù)據(jù)沒有規(guī)律,屬于任意缺失模式。
多重填補(bǔ)方法在1987年由Rubin最早提出,隨后,該方法一直在不斷的發(fā)展。在數(shù)據(jù)隨機(jī)缺失時(shí),用至少兩個(gè)能體現(xiàn)本身概率分布的數(shù)值,對(duì)缺失進(jìn)行填補(bǔ)。該方法并不是對(duì)每個(gè)缺失進(jìn)行逐一填補(bǔ),而是為其構(gòu)造m(m>1)個(gè)填補(bǔ)值,能夠體現(xiàn)缺失的不確定性,一共會(huì)有m個(gè)完整數(shù)據(jù)合集。分析完整數(shù)據(jù)集,對(duì)這些數(shù)據(jù)集分別進(jìn)行統(tǒng)計(jì)和分析。最后將所有結(jié)果綜合分析推理,得到目標(biāo)變量。
常用的多重填補(bǔ)方法有以下幾種:馬爾可夫蒙特卡羅(MCMC)、回歸法、預(yù)測(cè)均數(shù)匹配,logistic回歸法。結(jié)合實(shí)際數(shù)據(jù)分析結(jié)果,本文采用馬爾可夫蒙特卡羅(MCMC)算法。MCMC最早應(yīng)用于物理學(xué)中研究相互作用分子的分布。在統(tǒng)計(jì)學(xué)中,可以生成概率分布。馬爾可夫鏈由隨機(jī)變量組成,每一個(gè)值決定后一個(gè)元素的分布[11]。MCMC能夠在數(shù)據(jù)隨機(jī)缺失時(shí),用至少兩個(gè)反映本身概率分布的值進(jìn)行缺失填補(bǔ),為其構(gòu)造m(m>1)個(gè)填補(bǔ)值,產(chǎn)生m個(gè)完整數(shù)據(jù)合集。分析完整數(shù)據(jù)集,對(duì)這些數(shù)據(jù)集分別進(jìn)行統(tǒng)計(jì)和分析。最后將所有結(jié)果綜合分析推理,得到目標(biāo)變量。
MCMC基于貝葉斯理論,用探索后驗(yàn)分布法填補(bǔ),如式(1):
Schafer在1997年將其應(yīng)用于多重填補(bǔ)中。MCMC填補(bǔ)假設(shè)數(shù)據(jù)服從正態(tài)分布,用于任意缺失模式的連續(xù)型變量。該法建模靈活性高,適用性強(qiáng),能分析模型中所有參數(shù)和函數(shù)。
MCMC法進(jìn)行風(fēng)電系統(tǒng)數(shù)據(jù)填補(bǔ)步驟如下[12]:
第一步:初值計(jì)算。計(jì)算現(xiàn)有風(fēng)電觀測(cè)數(shù)據(jù)均值向量μ和協(xié)方差矩陣∑,用于估計(jì)參數(shù)的后驗(yàn)分布。
第二步:數(shù)據(jù)填補(bǔ)(I-Step)。根據(jù)風(fēng)電數(shù)據(jù)的初值計(jì)算得到的均值向量μ和協(xié)方差矩陣∑,從觀測(cè)變量Yobs的條件分布P(Ymis|Yobs,θ(t))中得到缺失值
第三步:后驗(yàn)(P-Step)。根據(jù)所得缺失值構(gòu)造完整的風(fēng)電數(shù)據(jù)集,模擬后驗(yàn)均值向量和協(xié)方差矩陣,計(jì)算新的估計(jì)值,進(jìn)行下一次填補(bǔ)。不斷重復(fù)第二步、第三步,直到結(jié)果對(duì)MI數(shù)據(jù)集有效。步驟相互迭代產(chǎn)生馬爾可夫鏈當(dāng)K足夠大時(shí),馬爾可夫鏈?zhǔn)諗康椒植糚(Ymis|Yobs,θ(t)),并且得到鄰近的、相互獨(dú)立的填補(bǔ)值[13]。MCMC填補(bǔ)的過程如圖2所示。
圖2 MCMC填補(bǔ)流程圖
實(shí)驗(yàn)數(shù)據(jù)來自某風(fēng)電場(chǎng)連續(xù)10天的風(fēng)速及出力數(shù)據(jù),采樣間隔15min,共有960組數(shù)據(jù)。由于數(shù)據(jù)一般為隨機(jī)缺失,將隨機(jī)設(shè)定數(shù)據(jù)缺失的位置,數(shù)據(jù)缺失率即為缺失點(diǎn)個(gè)數(shù)與數(shù)據(jù)段總長(zhǎng)度的比值。
本文選取歸一化均方根誤差(Normalized Root Meat Square Error,NRMSE)作為評(píng)價(jià)指標(biāo),具體公式如下:
式中,n為填補(bǔ)點(diǎn)個(gè)數(shù);Yi為填補(bǔ)值;Y為實(shí)際值。
為了驗(yàn)證MCMC對(duì)于數(shù)據(jù)填補(bǔ)的可行性,本文選取回歸填補(bǔ)法、預(yù)測(cè)均數(shù)匹配、Logistic回歸三種方法進(jìn)行對(duì)比。為了保證對(duì)比的客觀性,分別對(duì)數(shù)據(jù)處理產(chǎn)生隨機(jī)缺失,缺失率為10%,20%,30%,40%和50%。使用MCMC,F(xiàn)CS-logist,F(xiàn)CS-regpmm,F(xiàn)CS-regression對(duì)五種缺失數(shù)據(jù)填補(bǔ),根據(jù)填補(bǔ)值和原始值,計(jì)算得到NRSME,進(jìn)行評(píng)定。
四種方法對(duì)五種缺失比例數(shù)據(jù)填補(bǔ)后的NRSME如下表所示,折線圖如圖3所示。對(duì)于缺失比例為10%的數(shù)據(jù),四種方法并無明顯差距。隨著缺失比例增大,填補(bǔ)效果隨之降低,其中MCMC的效果最好。可以認(rèn)為,MCMC是最適合風(fēng)電數(shù)據(jù)填補(bǔ)的方法。
表 缺失比例不同時(shí)四種方法的歸一化均方根誤差
圖3 缺失比例不同時(shí)四種方法的均方根誤差
傳統(tǒng)風(fēng)電數(shù)據(jù)采集,在強(qiáng)調(diào)實(shí)時(shí)性和高效性的同時(shí),忽略了數(shù)據(jù)質(zhì)量這一因素,缺乏對(duì)數(shù)據(jù)的篩選和處理,這直接降低了存儲(chǔ)數(shù)據(jù)的速度和質(zhì)量,給二次開發(fā)帶來困難。因此,采用數(shù)據(jù)分析對(duì)數(shù)據(jù)進(jìn)行處理,填補(bǔ)缺值,能夠有效提高其質(zhì)量和利用價(jià)值。
實(shí)驗(yàn)結(jié)果表明,當(dāng)數(shù)據(jù)缺失比例較小時(shí),本文選取的四種方法填補(bǔ)效果相差無幾。但是當(dāng)數(shù)據(jù)缺失比例較大時(shí),MCMC算法的效果明顯優(yōu)于其他算法。
本文針對(duì)微網(wǎng)系統(tǒng)風(fēng)電數(shù)據(jù)采集過程中的數(shù)據(jù)缺失問題,采用MCMC提出了一種微網(wǎng)系統(tǒng)風(fēng)電數(shù)據(jù)的填補(bǔ)算法。MCMC算法建模靈活性高,與Bayes理論的結(jié)合,通過后驗(yàn)分布能對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ),并且通過對(duì)比實(shí)驗(yàn),證明了該方法的填補(bǔ)效率較高,是一種有效且可行的微網(wǎng)系統(tǒng)風(fēng)電數(shù)據(jù)填補(bǔ)法。