李宣諭
(大唐東北電力試驗(yàn)研究院有限公司,吉林 長(zhǎng)春 130102)
近年來,隨著國(guó)家能源政策調(diào)整,我國(guó)風(fēng)力發(fā)電規(guī)模逐年增長(zhǎng),已在整體能源布局中占據(jù)著重要地位。風(fēng)功率曲線作為重要性能指標(biāo),是開展風(fēng)電機(jī)組數(shù)據(jù)分析的基礎(chǔ)[1],相關(guān)分析研究工作隨著新能源發(fā)展逐年推進(jìn)。風(fēng)電企業(yè)在日常運(yùn)行過程中,受外部環(huán)境干擾、風(fēng)機(jī)運(yùn)行故障、棄風(fēng)限電等因素影響[2],風(fēng)電場(chǎng)數(shù)據(jù)采集與監(jiān)視控制(supervisory control and data acquisition,SCADA)系統(tǒng)存在大量的異常數(shù)據(jù)[3]。如果這些數(shù)據(jù)不加以處理直接應(yīng)用,較差的數(shù)據(jù)質(zhì)量會(huì)造成擬合的風(fēng)機(jī)實(shí)際功率曲線發(fā)生畸變,干擾機(jī)組運(yùn)行特性分析,影響風(fēng)電機(jī)組生產(chǎn)經(jīng)濟(jì)性與運(yùn)行狀態(tài)評(píng)估結(jié)果[4]。因此,對(duì)風(fēng)電機(jī)組功率數(shù)據(jù)進(jìn)行異常數(shù)據(jù)識(shí)別與清洗,提取高質(zhì)量數(shù)據(jù)是不可缺少的環(huán)節(jié)[5-6]。
現(xiàn)階段常用的風(fēng)電機(jī)組功率數(shù)據(jù)識(shí)別方法可分為以下幾類:(1)基于統(tǒng)計(jì)分析的異常數(shù)據(jù)識(shí)別方法,主要有3sigma法[7]、四分位法[8]、組內(nèi)最優(yōu)方差[9]、變點(diǎn)分組[10]、Thompson tau[11]、云分段最優(yōu)熵[12]和Copula理論[13]等算法;(2)基于機(jī)器學(xué)習(xí)的異常數(shù)據(jù)識(shí)別方法,主要有k-means算法[14]、基于密度的空間聚類DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法[15];(3)基于圖像的異常數(shù)據(jù)識(shí)別方法,主要有基于圖像邊緣識(shí)別的技術(shù)[16]、基于圖像分割技術(shù)[17]與基于圖像像素技術(shù)[18]三種方法。不同的異常數(shù)據(jù)識(shí)別方法在實(shí)際應(yīng)用過程中具有各自的特點(diǎn),其中,四分位法異常數(shù)據(jù)識(shí)別速度較快,對(duì)離散型數(shù)據(jù)識(shí)別效果較好,通用性強(qiáng),穩(wěn)定性好,但在異常數(shù)據(jù)占比較大時(shí),辨識(shí)效果不佳[19]。DBSCAN算法可有效實(shí)現(xiàn)分散型數(shù)據(jù)的識(shí)別,并可用于一維或多維特征空間,但對(duì)堆積型數(shù)據(jù)識(shí)別能力較差[20],圖像處理技術(shù)對(duì)異常數(shù)據(jù)識(shí)別較慢,對(duì)各類異常數(shù)據(jù)識(shí)別效果相對(duì)較好,但技術(shù)實(shí)現(xiàn)難度較高,無法區(qū)分出切出風(fēng)速附近的虛假異常數(shù)據(jù)[21]。
針對(duì)以上問題,本文提出將DBSCAN算法與四分位法進(jìn)行優(yōu)勢(shì)結(jié)合,構(gòu)建基于DBSCAN-分段四分位的組合算法,通過DBSCAN算法對(duì)風(fēng)功率樣本數(shù)據(jù)聚類分析,將異常數(shù)據(jù)簇類別與特征進(jìn)行區(qū)分,再利用四分位法把離散的堆積型異常數(shù)據(jù)剔除,完成風(fēng)速-功率數(shù)據(jù)處理。經(jīng)過代入某風(fēng)電機(jī)組實(shí)測(cè)數(shù)據(jù),比較分析組合算法、標(biāo)準(zhǔn)DBSCAN算法與四分位法對(duì)樣本數(shù)據(jù)異常識(shí)別與清洗的效果,驗(yàn)證了所提方法的可行性及在數(shù)據(jù)處理方面的優(yōu)勢(shì)。
1.1 DBSCAN算法
DBSCAN算法是一種基于空間數(shù)據(jù)密度的聚類算法[22]。該算法的優(yōu)勢(shì)是不需要預(yù)先約定分類的數(shù)量,完全依靠數(shù)據(jù)本身質(zhì)量進(jìn)行分類,可對(duì)任意形狀分布的稠密數(shù)據(jù)進(jìn)行聚類,聚類結(jié)果沒有偏倚。缺點(diǎn)是聚類結(jié)果受兩個(gè)參數(shù)初值影響較大[23],在樣本數(shù)據(jù)密度分布不均勻或聚類間距差距較大時(shí),聚類質(zhì)量較差[24]。計(jì)算流程如下:
(1)預(yù)先確定參數(shù)鄰域半徑Eps與最小數(shù)據(jù)點(diǎn)集合個(gè)數(shù)Minpts;
(2)以樣本數(shù)據(jù)中任意一個(gè)從未訪問點(diǎn)開始,以Eps為半徑距離,如果在這個(gè)鄰域半徑范圍內(nèi)分布的其它數(shù)據(jù)點(diǎn)個(gè)數(shù)大于或等于集合個(gè)數(shù)Minpts,則標(biāo)記為正常數(shù)據(jù),如小于Minpts,則標(biāo)記為異常數(shù)據(jù);
(3)返回上一步,代入新的數(shù)據(jù)點(diǎn)進(jìn)行計(jì)算,直到所有數(shù)據(jù)計(jì)算完畢;
(4)剔除異常數(shù)據(jù)集,將正常功率數(shù)據(jù)保留。
1.2 四分位算法
四分位法是一種通過度量數(shù)據(jù)分布位置進(jìn)行異常數(shù)據(jù)識(shí)別的方法。在對(duì)離群數(shù)據(jù)點(diǎn)分析處理時(shí),不需要事先假設(shè)數(shù)據(jù)服從某種分布,可有效分析數(shù)據(jù)集群體分布特征,去除數(shù)據(jù)中離群值的影響,數(shù)據(jù)處理效果較為穩(wěn)定[10]。計(jì)算方法如下:
(1)風(fēng)功率樣本數(shù)據(jù)集中,功率的個(gè)數(shù)記為n,并按功率從小到大排列。
(2)當(dāng)(n+1)/4可以整除時(shí),如式(1)所示。
(1)
式中:Q1為第0.25(n+1)位的功率數(shù)值;Q2為第0.5(n+1)位的功率數(shù)值;Q3為第0.75(n+1)位的功率數(shù)值。
(3)當(dāng)(n+1)/4不能整除,且n=4k+4,(k=1,2,3,…)時(shí),如式(2)所示。
(2)
式中:Q1為第0.25n位功率數(shù)值的0.75倍與第(0.25n+1)位功率數(shù)值的0.25倍之和;Q2為第0.5n位功率數(shù)值與第(0.5n+1)位功率數(shù)值平均值;Q3為第0.75n位功率數(shù)值的0.25倍與第(0.75n+1)位功率數(shù)值的0.75倍之和。
(4)當(dāng)(n+1)/4不能整除,且n=4k+6,(k=1,2,3,…)時(shí),如式(3)所示。
(3)
式中:Q1為第(0.25n-0.5)位功率數(shù)值的0.25倍與第(0.25n+0.5)位功率數(shù)值的0.75倍之和;Q2為第0.5n位功率數(shù)值與第(0.5n+1)位功率數(shù)值平均值;Q3為第(0.75n+0.5)位功率數(shù)值的0.75倍與第(0.75n+1.5)位功率數(shù)值的0.25倍之和。
(5)剔除異常值。
下邊緣限值Llow如式(4)所示。
Llow=Q1-1.5(Q3-Q1)
(4)
上邊緣限值Lhigh如式(5)所示。
Lhigh=Q3+1.5(Q3-Q1)
(5)
對(duì)每個(gè)風(fēng)速段區(qū)間數(shù)據(jù)進(jìn)行計(jì)算,將數(shù)據(jù)位置處于Llow~Lhigh范圍之外的數(shù)據(jù)視為異常數(shù)據(jù),將其剔除,保留下的數(shù)據(jù)則為風(fēng)功率正常數(shù)據(jù)。
1.3 DBSCAN-分段四分位法
首先采用DBSCAN算法,根據(jù)樣本數(shù)據(jù)特征劃分?jǐn)?shù)據(jù)簇類別,剔除部分異常數(shù)據(jù)簇。然后,將樣本數(shù)據(jù)以風(fēng)速分布為基準(zhǔn)等間隔劃分,分段使用四分位法,進(jìn)一步識(shí)別少部分堆積型異常數(shù)據(jù)與離群數(shù)據(jù)特征不明顯的異常點(diǎn)。計(jì)算流程如圖1所示。
圖1 DBSCAN-分段四分位算法流程圖
2.1 算法應(yīng)用流程介紹
以國(guó)內(nèi)云南某風(fēng)電場(chǎng)20號(hào)風(fēng)機(jī)實(shí)測(cè)運(yùn)行數(shù)據(jù)為例,如表1所示。選取2021年9月1日至2022年9月1日的實(shí)測(cè)數(shù)據(jù),采樣間隔10 min,共計(jì)47 837組數(shù)據(jù)作為樣本數(shù)據(jù)。分別采用DBSCAN法、四分位法和DBSCAN-分段四分位法進(jìn)行異常數(shù)據(jù)處理,對(duì)比分析異常數(shù)據(jù)清洗效果,驗(yàn)證算法性能。
表1 某風(fēng)場(chǎng)20號(hào)風(fēng)機(jī)風(fēng)速-功率數(shù)據(jù)
采用DBSCAN法對(duì)樣本數(shù)據(jù)進(jìn)行異常數(shù)據(jù)識(shí)別,其中核函數(shù)鄰域半徑Eps與最小數(shù)據(jù)點(diǎn)集合個(gè)數(shù)Minpts可通過k-distance方法確定,如表2所示。
表2 k-distance對(duì)核函數(shù)尋優(yōu)結(jié)果
將參數(shù)尋優(yōu)結(jié)果代入標(biāo)準(zhǔn)DBSCAN法,經(jīng)測(cè)試,核函數(shù)Minpts=19,Eps=0.006對(duì)異常數(shù)據(jù)識(shí)別效果最好,標(biāo)準(zhǔn)DBSCAN法對(duì)異常數(shù)據(jù)識(shí)別結(jié)果如圖2所示。其中,藍(lán)色數(shù)據(jù)點(diǎn)為正常數(shù)據(jù),紅色數(shù)據(jù)點(diǎn)為異常數(shù)據(jù)。由圖中可以看出,在機(jī)組進(jìn)入切入風(fēng)速以后,少部分零功率異常數(shù)據(jù)點(diǎn)未能辨別。其原因是由于算法自身的局限性,滿足算法規(guī)則的少量的堆積型異常數(shù)據(jù)未能有效識(shí)別。
圖2 DBSCAN法對(duì)異常數(shù)據(jù)識(shí)別結(jié)果
運(yùn)用四分位法進(jìn)行數(shù)據(jù)處理時(shí),不建議直接進(jìn)行異常數(shù)據(jù)清洗。當(dāng)部分區(qū)間數(shù)據(jù)占比較小時(shí),少部分正常數(shù)據(jù)可能被認(rèn)為異常數(shù)據(jù)刪除,導(dǎo)致清洗后的數(shù)據(jù)不完整,擬合功率曲線后初始值不是從0開始,如圖3所示。
圖3 四分位法對(duì)異常數(shù)據(jù)識(shí)別結(jié)果
本文建議以風(fēng)速為基準(zhǔn),將樣本數(shù)據(jù)等間隔劃分40組數(shù)據(jù)段或60組數(shù)據(jù)段,每段數(shù)據(jù)區(qū)間的風(fēng)速-功率數(shù)據(jù)采用四分位法進(jìn)行異常數(shù)據(jù)識(shí)別,剔除異常數(shù)據(jù)后再將各區(qū)間的正常數(shù)據(jù)重新組合,采用分段四分位法效果如圖4、圖5所示。
圖4 四分位法(劃分40組數(shù)據(jù))對(duì)異常數(shù)據(jù)識(shí)別結(jié)果
圖5 四分位法(劃分60組數(shù)據(jù))對(duì)異常數(shù)據(jù)識(shí)別結(jié)果
為了提高算法對(duì)樣本數(shù)據(jù)特征識(shí)別準(zhǔn)確性,將數(shù)據(jù)按區(qū)間劃分,分段進(jìn)行四分位法計(jì)算,克服局部堆積型數(shù)據(jù)對(duì)整體異常數(shù)據(jù)識(shí)別效果的影響。由圖4、圖5可以看出,并不是數(shù)據(jù)段劃分越多對(duì)異常數(shù)據(jù)識(shí)別效果越好,受限于算法規(guī)則,數(shù)據(jù)區(qū)間劃分越多對(duì)局部堆積型異常數(shù)據(jù)越敏感,分段四分位法也無法完全識(shí)別局部占比較高的異常數(shù)據(jù)。因此,劃分?jǐn)?shù)據(jù)段區(qū)間個(gè)數(shù)應(yīng)選擇較為適合的值。
根據(jù)本文所提方法,先通過DBSCAN法剔除大部分異常數(shù)據(jù),再通過分段四分位法(劃分40組數(shù)據(jù))將少部分堆積型異常數(shù)據(jù)剔除,結(jié)果如圖6所示。
圖6 分段四分位法對(duì)異常數(shù)據(jù)處理效果
數(shù)據(jù)處理結(jié)果如圖7所示。
圖7 DBSCAN-分段四分位算法對(duì)異常數(shù)據(jù)清洗效果
經(jīng)數(shù)據(jù)處理后,保留正常數(shù)據(jù)47 693組,異常數(shù)據(jù)剔除率為0.3%,被清洗的異常數(shù)據(jù)集中存在少量被誤刪的正常數(shù)據(jù),對(duì)原始數(shù)據(jù)的完整性和充裕度造成了一定影響,但這部分占比不高,清洗后的正常數(shù)據(jù)仍可完全表征風(fēng)功率曲線全行程特性。此外,由圖7可以看出,通過DBSCAN-分段四分位算法對(duì)樣本數(shù)據(jù)處理,已將離散、橫向分布的異常數(shù)據(jù)完全剔除,提取的風(fēng)速-功率數(shù)據(jù)質(zhì)量較好,數(shù)據(jù)清洗效果優(yōu)于標(biāo)準(zhǔn)DBSCAN法和四分位法。
2.2 算法實(shí)例應(yīng)用驗(yàn)證
采用本文所提方法對(duì)遼寧某風(fēng)電場(chǎng)8號(hào)風(fēng)機(jī)的運(yùn)行數(shù)據(jù)進(jìn)行異常數(shù)據(jù)識(shí)別分析。該風(fēng)機(jī)的機(jī)組型號(hào)為H111-2.0 MW,切入風(fēng)速3.0 m/s,切出風(fēng)速25.0 m/s,額定風(fēng)速11.5 m/s。樣本數(shù)據(jù)選取2022年7月1日至2023年6月30日運(yùn)行數(shù)據(jù),采樣間隔10 min,共計(jì)54 870組數(shù)據(jù)作為樣本數(shù)據(jù),驗(yàn)證算法實(shí)際應(yīng)用效果,數(shù)據(jù)如表3所示。
表3 遼寧某風(fēng)場(chǎng)8號(hào)風(fēng)機(jī)風(fēng)速-功率數(shù)據(jù)
繪制8號(hào)風(fēng)機(jī)實(shí)測(cè)數(shù)據(jù)的散點(diǎn)分布如圖8所示。
圖8 8號(hào)風(fēng)機(jī)實(shí)測(cè)數(shù)據(jù)散點(diǎn)分布圖
從圖8中可以看出樣本功率數(shù)據(jù)存在大量的橫向分布的堆積型異常數(shù)據(jù)以及曲線周圍的分散型異常數(shù)據(jù),這兩類異常數(shù)據(jù)主要由棄風(fēng)限電、通信設(shè)備故障、機(jī)組計(jì)劃外停機(jī)檢修等隨機(jī)因素造成。該機(jī)組理論功率曲線參數(shù)如表4所示。
表4 遼寧某風(fēng)場(chǎng)8號(hào)風(fēng)機(jī)理論功率曲線參數(shù)(空氣密度=1.225 kg/m3)
經(jīng)數(shù)據(jù)處理,剔除異常數(shù),篩選正常數(shù)據(jù)51 293組,剔除異常數(shù)據(jù)3 577組,保留正常數(shù)據(jù)占比93.481%,異常數(shù)據(jù)識(shí)別占比6.519%,風(fēng)功率數(shù)據(jù)清洗效果如圖9所示。
圖9 8號(hào)風(fēng)機(jī)功率曲線示意圖
圖9中,紅色散點(diǎn)數(shù)據(jù)為數(shù)據(jù)清洗后的正常數(shù)據(jù),藍(lán)色曲線為主機(jī)廠家提供的標(biāo)準(zhǔn)功率曲線,綠色曲線為8號(hào)風(fēng)機(jī)實(shí)際功率曲線。該效果圖可較好地用于風(fēng)機(jī)功率曲線分析,如分析風(fēng)機(jī)功率一致性等。經(jīng)核算,該場(chǎng)8號(hào)風(fēng)機(jī)功率一致性系數(shù)在合理范圍內(nèi)。
本文通過分析DBSCAN法與四分位法對(duì)異常數(shù)據(jù)的識(shí)別效果,提出基于DBSCAN-分段四分位的組合算法對(duì)風(fēng)功率異常數(shù)據(jù)進(jìn)行辨識(shí)。以某風(fēng)電場(chǎng)實(shí)測(cè)風(fēng)功率數(shù)據(jù)為基礎(chǔ),驗(yàn)證本文所提方法的有效性,結(jié)論如下。
(1)基于DBSCAN-分段四分位的組合算法,可實(shí)現(xiàn)對(duì)分散型、堆積型異常數(shù)據(jù)的有效識(shí)別,在風(fēng)功率異常數(shù)據(jù)識(shí)別與清洗方面有較好應(yīng)用。且算法原理簡(jiǎn)單,易于實(shí)現(xiàn),處理速度適中,清洗效果穩(wěn)定、可靠。
(2)基于DBSCAN-分段四分位的組合算法,將DBSCAN的自適應(yīng)性與四分位法的通用性優(yōu)勢(shì)結(jié)合,克服單一算法局限性。通過劃分?jǐn)?shù)據(jù)區(qū)間分段處理,增強(qiáng)對(duì)數(shù)據(jù)局部特征識(shí)別準(zhǔn)確性,進(jìn)一步提高算法自身的泛用性能與識(shí)別精度,在實(shí)際應(yīng)用中具有一定優(yōu)勢(shì)。
(3)通過算例1與算例2分析表明,該組合算法在數(shù)據(jù)處理時(shí),存在將15.0 m/s以上的正常數(shù)據(jù)誤刪的情況,對(duì)數(shù)據(jù)完整性有一定影響,但數(shù)據(jù)剔除率占比不高,處理后的數(shù)據(jù)仍可表征風(fēng)機(jī)功率曲線特征,不影響風(fēng)機(jī)功率曲線繪制,滿足實(shí)際項(xiàng)目的需要,該缺點(diǎn)可通過數(shù)據(jù)插值法解決。