馬天東,耿天翔,鐘海亮,李 峰
(1.國網(wǎng)寧夏電力有限公司,寧夏 銀川 750001;2.國網(wǎng)寧夏有限公司電力科學(xué)研究院,寧夏 銀川 750001)
風(fēng)電場(chǎng)站出力的隨機(jī)性與間歇性對(duì)電力系統(tǒng)的影響逐漸明顯,如何精準(zhǔn)預(yù)測(cè)風(fēng)速和風(fēng)電功率,及時(shí)診斷風(fēng)電機(jī)組的故障狀態(tài)成為風(fēng)力發(fā)電領(lǐng)域的熱點(diǎn)問題[3-5]。風(fēng)電場(chǎng)站運(yùn)行大數(shù)據(jù)是風(fēng)電場(chǎng)站風(fēng)速、功率預(yù)測(cè)、狀態(tài)監(jiān)測(cè)等工作的基礎(chǔ),但由于存在監(jiān)控系統(tǒng)故障、棄風(fēng)限電等原因,會(huì)造成風(fēng)電場(chǎng)站采集的數(shù)據(jù)質(zhì)量差,對(duì)于異常數(shù)據(jù)占比較高的數(shù)據(jù)集,直接分析其規(guī)律和特征變量之間的關(guān)聯(lián)性極為不便,容易得出錯(cuò)誤結(jié)論,影響相關(guān)調(diào)度指令的正確發(fā)布。因此,識(shí)別出風(fēng)電場(chǎng)站運(yùn)行大數(shù)據(jù)中的異常值,形成可靠的數(shù)據(jù)集,是一項(xiàng)十分重要的工作。
針對(duì)于風(fēng)電機(jī)組的異常數(shù)據(jù)識(shí)別問題,國內(nèi)外很多研究團(tuán)隊(duì)都開展了相關(guān)的工作,目前主要的異常數(shù)據(jù)識(shí)別算法可分為3 類。一是基于統(tǒng)計(jì)量的識(shí)別算法,這類算法的特點(diǎn)在于使用了大數(shù)據(jù)中的特征統(tǒng)計(jì)量,如標(biāo)準(zhǔn)差、方差和四分位數(shù)等。文獻(xiàn)[6]提出了一種通過分段求取組內(nèi)最優(yōu)方差,從而識(shí)別異常數(shù)據(jù)的算法,但對(duì)于組內(nèi)方差變化均勻的數(shù)據(jù)集,該算法適用性不強(qiáng)。文獻(xiàn)[7]提出了一種基于風(fēng)速-葉尖速比散點(diǎn)的四分位異常識(shí)別算法,該算法可準(zhǔn)確識(shí)別風(fēng)電機(jī)組運(yùn)行過程中的異常數(shù)據(jù),但隨著數(shù)據(jù)量的增多,存在大量正常數(shù)據(jù)被誤識(shí)別的風(fēng)險(xiǎn)。
二是基于無監(jiān)督學(xué)習(xí)的識(shí)別算法,文獻(xiàn)[8-9]提出了基于聚類算法的異常數(shù)據(jù)識(shí)別模型,但并未給出判斷識(shí)別算法優(yōu)劣性的度量標(biāo)準(zhǔn)和準(zhǔn)則。
三是其他類型的異常識(shí)別算法,如文獻(xiàn)[10-11]提出了基于Copula 理論的置信風(fēng)功率曲線建模方法,然后利用概率功率曲線識(shí)別異常數(shù)據(jù)點(diǎn)。文獻(xiàn)[12]利用圖像識(shí)別技術(shù)識(shí)別異常數(shù)據(jù)點(diǎn)。風(fēng)電場(chǎng)站的運(yùn)行大數(shù)據(jù)相較于風(fēng)電機(jī)組的運(yùn)行大數(shù)據(jù)數(shù)量更為龐大、異常種類更多,而針對(duì)于風(fēng)電場(chǎng)站的異常數(shù)據(jù)識(shí)別問題,目前的研究工作較少。
本文針對(duì)風(fēng)電場(chǎng)站歷史運(yùn)行大數(shù)據(jù),提出了一種考慮條件概率分布特征的風(fēng)電場(chǎng)站異常數(shù)據(jù)識(shí)別算法。首先,依據(jù)風(fēng)電場(chǎng)站監(jiān)控系統(tǒng)的采集數(shù)據(jù),分析了風(fēng)電場(chǎng)站大數(shù)據(jù)的特征,其次,對(duì)傳統(tǒng)的Copula 算法模型進(jìn)行了分析和優(yōu)化,提出了考慮條件概率分布特征的異常數(shù)據(jù)識(shí)別算法模型,最后,對(duì)風(fēng)電場(chǎng)站的監(jiān)測(cè)數(shù)據(jù)進(jìn)行處理,并對(duì)比了傳統(tǒng)的Copula 算法模型和本文提出的考慮條件概率分布的算法模型,結(jié)果表明,本文提出的算法能較為準(zhǔn)確地識(shí)別出各類異常數(shù)據(jù),相關(guān)評(píng)價(jià)指標(biāo)優(yōu)于傳統(tǒng)的Copula模型,具有良好的通用性。
風(fēng)力發(fā)電的原理是將風(fēng)的動(dòng)能轉(zhuǎn)化為電能,對(duì)于一個(gè)風(fēng)電機(jī)組,其實(shí)發(fā)功率由當(dāng)前風(fēng)速?zèng)Q定,理想情況下,風(fēng)速-功率關(guān)系可表示為:
式中:P為風(fēng)電機(jī)組的輸出功率;CP為風(fēng)能利用率;ρ為空氣密度;A為風(fēng)機(jī)葉片掃過的有效面積;V為當(dāng)前時(shí)刻的風(fēng)速;νin,νout,νn分別為風(fēng)機(jī)的切入風(fēng)速、切出風(fēng)速和額定風(fēng)速。
風(fēng)電場(chǎng)站監(jiān)控系統(tǒng)實(shí)測(cè)的風(fēng)速-功率數(shù)據(jù)并不嚴(yán)格滿足式(1)的三次函數(shù)關(guān)系,本文以寧夏賀蘭山第三風(fēng)電場(chǎng)的實(shí)測(cè)風(fēng)速-功率為例,分析風(fēng)電場(chǎng)運(yùn)行大數(shù)據(jù)的特征。寧夏賀蘭山第三風(fēng)電場(chǎng)的監(jiān)控系統(tǒng)每隔15 min采集一次風(fēng)速與場(chǎng)站實(shí)際功率情況,一年可采集30000余條數(shù)據(jù),圖1為寧夏賀蘭山第三風(fēng)電場(chǎng)的實(shí)測(cè)風(fēng)速-功率數(shù)據(jù)與理想風(fēng)功率曲線的對(duì)比圖,從圖中可以看出,在理想的風(fēng)功率曲線上,一個(gè)風(fēng)速嚴(yán)格對(duì)應(yīng)當(dāng)前的實(shí)發(fā)功率,風(fēng)電場(chǎng)站實(shí)測(cè)數(shù)據(jù)與理想風(fēng)功率曲線具有類似的形狀,但數(shù)據(jù)數(shù)量大,且數(shù)據(jù)分散性、隨機(jī)性強(qiáng),在同一風(fēng)速下,不同時(shí)間的功率不相同,對(duì)應(yīng)的功率區(qū)間寬,因此,有必要研究在確定的風(fēng)速條件下功率的概率分布情況,進(jìn)而考慮不同風(fēng)速下功率的條件概率分布特征,進(jìn)行異常功率點(diǎn)的識(shí)別。
圖1 寧夏賀蘭山第三風(fēng)電場(chǎng)的實(shí)測(cè)風(fēng)速-功率數(shù)據(jù)與理想風(fēng)功率曲線的對(duì)比圖
考慮到風(fēng)電場(chǎng)站數(shù)據(jù)的分散性和隨機(jī)性,可利用概率功率曲線識(shí)別異常數(shù)據(jù),所謂概率功率曲線,是指在給定置信水平下,某一風(fēng)速條件對(duì)應(yīng)的功率區(qū)間上下邊界形成的曲線,認(rèn)為概率功率曲線以內(nèi)的數(shù)據(jù)點(diǎn)為正常點(diǎn),概率功率曲線以外的數(shù)據(jù)點(diǎn)為異常點(diǎn),然后再根據(jù)異常點(diǎn)的特征對(duì)其進(jìn)一步識(shí)別。
將傳統(tǒng)的Copula理論[13]應(yīng)用于風(fēng)電場(chǎng)站異常數(shù)據(jù)識(shí)別,可將風(fēng)速與功率看成兩個(gè)具有一定相關(guān)性的隨機(jī)變量,設(shè)V、P分別表示風(fēng)速和功率的隨機(jī)變量,F(xiàn)V(ν)、FP(p)分別為風(fēng)速和功率的邊緣概率分布函數(shù),根據(jù)Sklar定理,存在二元函數(shù)C(FV(ν),F(xiàn)P(p)),使得:
式中:F(V,P)(ν,p)為風(fēng)速和功率的二維聯(lián)合分布函數(shù);C 即為一個(gè)Copula 函數(shù)。常用的Copula 函數(shù)有3 種類型,分別為Gumbel Copula、Clayton Copula和Frank Copula,本文采用Gumbel Copula 函數(shù)擬合風(fēng)速和功率的二維聯(lián)合分布,計(jì)算公式如下:
式中:θ為Gumbel Copula函數(shù)的參數(shù),可通過極大似然估計(jì)求得。
當(dāng)風(fēng)速V=ν時(shí),功率P的條件概率分布可表示為:
取置信度為α,置信區(qū)間的不對(duì)稱系數(shù)為k,則置信區(qū)間的上下置信概率邊界可表示為:
由式(4)的逆函數(shù)可求得,當(dāng)風(fēng)速V=ν時(shí),在置信水平α下的功率邊界為:
根據(jù)上述方法可求得在置信水平α下的概率功率曲線,利用概率功率曲線可對(duì)風(fēng)電場(chǎng)站的實(shí)測(cè)風(fēng)速-功率數(shù)據(jù)進(jìn)行識(shí)別,認(rèn)為概率功率曲線以內(nèi)的數(shù)據(jù)點(diǎn)為正常點(diǎn),概率功率曲線以外的數(shù)據(jù)點(diǎn)為異常點(diǎn)。圖2為Copula算法流程框圖,圖3為利用Copula算法對(duì)寧夏賀蘭山第三風(fēng)電場(chǎng)的實(shí)測(cè)風(fēng)速-功率數(shù)據(jù)識(shí)別效果圖,從圖中可以看出識(shí)別效果欠佳,只能識(shí)別出少量的上側(cè)離群點(diǎn)和底部堆積點(diǎn),而且誤識(shí)別情況嚴(yán)重。主要原因在于,相比于風(fēng)電機(jī)組的實(shí)測(cè)數(shù)據(jù),風(fēng)電場(chǎng)站的數(shù)據(jù)量更多,相應(yīng)的異常數(shù)據(jù)比例也更高,在利用Copula函數(shù)擬合風(fēng)速-功率的二維聯(lián)合分布時(shí),異常數(shù)據(jù)的分布情況對(duì)整體數(shù)據(jù)的影響明顯,因此在求解指定風(fēng)速條件下的功率分布情況和功率置信區(qū)間的邊界時(shí)存在較大的誤差,造成識(shí)別效果較差。
圖2 Copula算法流程框圖
圖3 Copula算法識(shí)別效果圖
考慮到Copula 算法對(duì)異常數(shù)據(jù)的識(shí)別效果差,且由于風(fēng)電場(chǎng)站數(shù)據(jù)量多,導(dǎo)致在建模求解風(fēng)速、功率的邊緣概率分布時(shí)算法運(yùn)行時(shí)間長,運(yùn)行效率低,本文在此基礎(chǔ)上優(yōu)化了Copula模型,并提出了考慮條件概率分布特征的異常數(shù)據(jù)識(shí)別算法。相比于傳統(tǒng)的Copula模型,本文提出的異常數(shù)據(jù)識(shí)別模型做了兩點(diǎn)改進(jìn)。
在建模求解指定風(fēng)速條件下的功率分布情況時(shí),先將風(fēng)電場(chǎng)站的數(shù)據(jù)按風(fēng)速劃分為數(shù)個(gè)子集,在每個(gè)子集上對(duì)功率數(shù)據(jù)進(jìn)行升序排列,然后利用核密度估計(jì)的方法求解功率的概率分布情況。當(dāng)子集劃分?jǐn)?shù)量足夠多時(shí),每個(gè)子集上的風(fēng)速區(qū)間范圍足夠小,此時(shí)該風(fēng)速區(qū)間上的功率分布可準(zhǔn)確反映功率在風(fēng)速條件下的分布情況,且由于每個(gè)子集上數(shù)據(jù)量小,在利用核密度估計(jì)計(jì)算概率分布時(shí)算法運(yùn)行時(shí)間短,算法效率得到提升。圖4為分別利用Copula算法和優(yōu)化之后的算法得到的分別在風(fēng)速v= 5、8、15 m/s 時(shí)的功率分布情況,圖中功率數(shù)據(jù)已在各個(gè)風(fēng)速條件下經(jīng)過歸一化處理。在低風(fēng)速段,功率數(shù)據(jù)主要集中在低功率區(qū)間,而隨著風(fēng)速的增加,功率數(shù)據(jù)逐漸向中高功率區(qū)間聚集,從圖中可以看出,由Copula算法得到的概率分布不能準(zhǔn)確地反映功率分布情況,這是Copula算法對(duì)異常數(shù)據(jù)識(shí)別效果較差的根本原因。
圖4 三個(gè)風(fēng)速區(qū)間上的功率概率分布對(duì)比
在得到每個(gè)子集上的功率分布和置信功率邊界后,首先對(duì)邊界點(diǎn)進(jìn)行修正,主要采用函數(shù)值遞增方法和導(dǎo)數(shù)值遞增方法,理想的風(fēng)功率曲線是風(fēng)速的三次函數(shù),因此要求概率功率曲線能準(zhǔn)確反映這種特征,對(duì)于功率上邊界集合{P(i)u}和功率下邊界集合{P(i)d},利用式(7)剔除異常邊界點(diǎn):
式中:N為子集劃分個(gè)數(shù),即集合{P(i)}中元素個(gè)數(shù);上標(biāo)j等于u或d,分別為功率上邊界集合和功率下邊界集合。最后,利用三次樣條插值的方法形成概率功率曲線,利用曲線識(shí)別異常數(shù)據(jù)。圖5 為考慮條件概率分布特征的異常數(shù)據(jù)識(shí)別算法流程框圖。
圖5 考慮條件概率分布特征的異常數(shù)據(jù)識(shí)別算法流程框圖
根據(jù)本文提出的考慮條件概率分布特征的異常數(shù)據(jù)識(shí)別算法,提出相應(yīng)的異常識(shí)別判據(jù),建立風(fēng)電場(chǎng)站大數(shù)據(jù)異常識(shí)別模型,將風(fēng)電場(chǎng)站的數(shù)據(jù)劃分為4種類型。
第一類,這類數(shù)據(jù)位于上下概率功率曲線的邊界之內(nèi),顯著的特征為數(shù)據(jù)量大,數(shù)據(jù)密集,且繪制的散點(diǎn)圖能較好地反映出理想的風(fēng)功率曲線,認(rèn)為這類數(shù)據(jù)為正常數(shù)據(jù)。
第二類,這類數(shù)據(jù)位于上下概率功率曲線的邊界之外,但與概率功率曲線之間的距離不超過ε,顯著特征是數(shù)據(jù)量較少,但分布規(guī)律大致滿足理想的風(fēng)功率曲線,認(rèn)為這類數(shù)據(jù)為概率異常點(diǎn)。
第三類,這類數(shù)據(jù)位于上概率功率曲線的邊界之外,且數(shù)據(jù)量少,距離概率功率曲線遠(yuǎn),為顯著的離群點(diǎn),認(rèn)為這類數(shù)據(jù)為第一類異常點(diǎn),主要由傳感器故障、數(shù)據(jù)監(jiān)測(cè)系統(tǒng)故障等原因?qū)е隆?/p>
第四類,這類數(shù)據(jù)位于下概率功率曲線的邊界之外,距離概率功率曲線遠(yuǎn),部分?jǐn)?shù)據(jù)點(diǎn)呈現(xiàn)比較密集的橫向分布特征,認(rèn)為這類數(shù)據(jù)為第二類異常點(diǎn),主要由停機(jī)、限風(fēng)限功率等原因引起。
表1中列舉了具體的異常類型和異常識(shí)別判據(jù),圖6 為應(yīng)用本文提出的異常識(shí)別算法對(duì)寧夏賀蘭山第三風(fēng)電場(chǎng)的數(shù)據(jù)識(shí)別效果圖。
圖6 本文提出的異常識(shí)別算法識(shí)別效果圖
表1 數(shù)據(jù)異常類型和異常識(shí)別判據(jù)
表中ε表示給定的概率功率曲線容許的誤差范圍。
為了驗(yàn)證本文提出異常識(shí)別算法的有效性,本文以寧夏黃麻山第一風(fēng)電場(chǎng)2020年的實(shí)測(cè)數(shù)據(jù)和人工合成的風(fēng)電場(chǎng)站數(shù)據(jù)集為研究對(duì)象,分別應(yīng)用Copula 算法和本文提出的算法對(duì)其進(jìn)行識(shí)別,對(duì)比分析兩種算法的識(shí)別效果和相關(guān)評(píng)價(jià)指標(biāo)。
老的讓開道,催促著,獎(jiǎng)勵(lì)著,讓他們走去。路上有深淵,便用那個(gè)死填平了,讓他們走去。 [2](第1卷,P354-355)
寧夏黃麻山第一風(fēng)電場(chǎng)共有96臺(tái)并網(wǎng)風(fēng)機(jī),場(chǎng)站額定容量為98 MW,其數(shù)據(jù)監(jiān)控系統(tǒng)每15 min采集一次場(chǎng)站運(yùn)行數(shù)據(jù),經(jīng)過預(yù)處理之后,數(shù)據(jù)集中包含2萬余條風(fēng)速-功率數(shù)據(jù)。為了對(duì)比異常識(shí)別算法的有效性,選取數(shù)據(jù)保留率η,某一風(fēng)速段內(nèi)功率方差減少量ΔM作為評(píng)價(jià)指標(biāo),來衡量?jī)煞N算法的優(yōu)劣性,計(jì)算公式如下:
式中:Nre為經(jīng)過異常識(shí)別模型識(shí)別后保留的正常數(shù)據(jù)點(diǎn)數(shù)量;N為經(jīng)過預(yù)處理后的數(shù)據(jù)集中數(shù)據(jù)點(diǎn)數(shù)量;MSE為經(jīng)過預(yù)處理后的數(shù)據(jù)集在某一風(fēng)速段內(nèi)功率的方差;MSEre表示正常數(shù)據(jù)點(diǎn)在某一風(fēng)速段內(nèi)功率的方差,這里選取9 m/s<ν<10 m/s 風(fēng)速段。
最終識(shí)別效果如圖7、表2所示,從識(shí)別結(jié)果可以看出,不管是數(shù)據(jù)保留率η,風(fēng)速方差減少量ΔM,還是對(duì)異常數(shù)據(jù)的識(shí)別效果,本文提出的異常識(shí)別算法均優(yōu)于Copula算法,而且識(shí)別為正常的數(shù)據(jù)在某一風(fēng)速段內(nèi)功率的方差小,數(shù)據(jù)更加集中,說明這部分?jǐn)?shù)據(jù)作為正常點(diǎn)保留是合理的。
圖7 本文算法識(shí)別效果圖
表2 兩種算法識(shí)別效果對(duì)比
利用本文提出的異常識(shí)別算法對(duì)寧夏黃麻山第一風(fēng)電場(chǎng)的實(shí)測(cè)數(shù)據(jù)進(jìn)行識(shí)別之后,剔除異常數(shù)據(jù),保留正常數(shù)據(jù),在此基礎(chǔ)上人工添加異常數(shù)據(jù),形成新的數(shù)據(jù)集。同樣選取數(shù)據(jù)保留率η,功率方差減少量ΔM作為評(píng)價(jià)指標(biāo),考慮到人工合成數(shù)據(jù)集是有標(biāo)簽的,再引入識(shí)別率γ和誤識(shí)別率μ作為評(píng)價(jià)指標(biāo),計(jì)算公式為:
式中:Nab為人工添加的異常數(shù)據(jù)中被是識(shí)別為異常點(diǎn)的數(shù)量;Nabsum為人工添加的異常數(shù)據(jù)數(shù)量;Nf1為人工添加的異常數(shù)據(jù)中被識(shí)別為正常數(shù)據(jù)點(diǎn)的數(shù)量;Nf2為正常數(shù)據(jù)中被識(shí)別為異常數(shù)據(jù)點(diǎn)的數(shù)量。
圖8為本文算法最終識(shí)別效果和數(shù)據(jù)真實(shí)的異常情況對(duì)比圖,表3 列舉了相關(guān)評(píng)價(jià)指標(biāo),從識(shí)別結(jié)果可以看出,對(duì)于人工合成的數(shù)據(jù)集,本文提出的異常識(shí)別算法依然具有適用性,相比于Copula算法,本文算法的識(shí)別率更高,誤識(shí)別率更低,識(shí)別效果更好。
圖8 本文算法識(shí)別效果和數(shù)據(jù)真實(shí)的異常情況對(duì)比圖
表3 兩種算法識(shí)別效果對(duì)比
Copula 算法在異常識(shí)別效果和運(yùn)行效率方面表現(xiàn)較差,本文提出的算法優(yōu)化了條件概率分布的求解,并對(duì)概率功率曲線進(jìn)行了修正,對(duì)異常數(shù)據(jù)可達(dá)到理想的識(shí)別效果,并且提高了異常數(shù)據(jù)識(shí)別算法的運(yùn)行效率。
以場(chǎng)站實(shí)測(cè)數(shù)據(jù)和人工合成數(shù)據(jù)為研究對(duì)象,對(duì)Copula 算法和本文提出的算法進(jìn)行了對(duì)比分析,結(jié)果表明,本文提出的異常識(shí)別算法在數(shù)據(jù)保留率、方差減少量、識(shí)別率和誤識(shí)別率等方面均優(yōu)于Cop‐ula算法,對(duì)異常數(shù)據(jù)的識(shí)別更加準(zhǔn)確。