葛濱
基于重要度分析的數(shù)據(jù)預(yù)處理方法及風機有功功率預(yù)測研究
葛濱
(河北工業(yè)大學 人工智能與數(shù)據(jù)科學學院,天津 300401)
以風力發(fā)電機的有功功率預(yù)測為研究對象,在考慮了功率損耗及環(huán)境因素的情況下選取17組參數(shù)指標作為輸入,以功率負荷等級為分類指標,采用隨機森林分類算法進行參數(shù)屬性的重要度分析,根據(jù)權(quán)重系數(shù)的閾值設(shè)定構(gòu)建功率預(yù)測的樣本數(shù)據(jù)庫?;诩蓪W習Bagging算法的思想,分別選擇支持向量機(Support Vector Machine,SVM)、極限學習機(Extreme Learning Machine,ELM)和隨機森林回歸算法為基學習器。提出了一種基于遺傳算法的動態(tài)加權(quán)的集成學習策略,構(gòu)建基于集成算法的有功功率預(yù)測模型。分別根據(jù)正常功率和限功率樣本數(shù)據(jù)庫,進行集成算法模型的實例驗證和性能分析比較。
風電;隨機森林;基學習器;集成學習算法
風能作為無污染的可再生能源,被廣泛應(yīng)用于發(fā)電領(lǐng)域。實現(xiàn)風電機組發(fā)電功率的準確預(yù)測,對提高風電機組的并網(wǎng)發(fā)電效率和促進電力系統(tǒng)平穩(wěn)安全運行都具有非常重要的現(xiàn)實意義。
中國在許多重要的風電技術(shù)上還處于探索和積累階段,但近些年在新增和累計裝機容量上已保持了高水平發(fā)展。目前中國有中國電力科學院在2008年推出的首個自主研發(fā)預(yù)測系統(tǒng)WPFS Ver1.0、國網(wǎng)南瑞研發(fā)的WPFS系統(tǒng)和由華北電力大學開發(fā)的SWPPS系統(tǒng)。雖然國內(nèi)外對風電功率預(yù)測的研究工作已較為成熟,但參考現(xiàn)有方法預(yù)測輸入仍為以風速為主的少數(shù)因素,缺乏對多維輸入因素的研究。
本文基于隨機森林算法對參數(shù)屬性進行重要度分析,選取SCADA中的重要輸入?yún)?shù),提出利用集成學習算法構(gòu)建風電功率預(yù)測模型,該模型速度快、泛化能力強、收斂速度快、準確度高,并通過實驗數(shù)據(jù)驗證了該預(yù)測方法的可 靠性。
常見的計算方法有兩種,一種是平均不純度的減少(mean decrease impurity),常用Gini、entropy、information gain測量,現(xiàn)在sklearn中用的就是這種方法;另一種是平均準確率的減少(mean decrease accuracy),常用袋外誤差率去衡量。
在式(1)中,表示有個類別;表示節(jié)點中類列所占的比例,即隨便從節(jié)點中隨機抽取兩個樣本,其類別標記不一致的概率。特征j在節(jié)點的重要性,即節(jié)點分支前后的Gini指數(shù)變化量。
式(2)中:l和r分別為分枝后兩個新節(jié)點的Gini指數(shù)。
平均準確率的減少即對每個特征加噪,看對結(jié)果的準確率的影響。影響小說明此特征不重要,反之重要。具體步驟如下:①對于隨機森林中的每一棵決策樹,使用相應(yīng)的OOB(袋外數(shù)據(jù))數(shù)據(jù)來計算它的袋外數(shù)據(jù)誤差,記為1。②隨機地對袋外數(shù)據(jù)OOB所有樣本的特征X加入噪聲干擾(即隨機的改變樣本在特征X處的值),再次計算它的袋外數(shù)據(jù)誤差,記為2。③假設(shè)隨機森林中有棵樹,那么對于特征X的重要性計算如公式(3)所示。若給某個特征隨機加入噪聲之后袋外的準確率大幅度降低,則說明這個特征對分類結(jié)果影響大,重要程度較高。
Σ(2-1)/(3)
集成學習模型的構(gòu)建通??梢苑譃閮蓚€步驟:個體模型生成與模型融合。
本文選用SVM、ELM和RF作為個體學習模型。對于SVM模型,利用SVM+GA的形式,通過GA算法對SVM懲罰參數(shù)和徑向基核函數(shù)的參數(shù)進行尋優(yōu)求解,利用得到的最優(yōu)參數(shù)完成SVM模型的訓(xùn)練。ELM和RF模型利用與SVM相同的數(shù)據(jù)完成回歸模型的訓(xùn)練,并對三種模型的訓(xùn)練結(jié)果進行分析,總結(jié)各個模型的優(yōu)缺點,為集成策略的選擇提供前提。
本文利用基于PSO動態(tài)加權(quán)融合的方式。首先從驗證集集合中選取與測試集相似的若干樣本,將其作為個體模型的輸入,根據(jù)輸出結(jié)果,評估個體模型在這些數(shù)據(jù)上的預(yù)測誤差。預(yù)測輸出值公式為:
式(4)中:out為預(yù)測值集成后輸出的向量;為參加訓(xùn)練的個體模型數(shù);i為權(quán)值;i為每給個預(yù)測結(jié)果。
將這些數(shù)據(jù)的真實功率與預(yù)測功率作為PSO算法的一個輸入,將真實功率與預(yù)測功率的均方差誤差作為PSO目標函數(shù)。目標函數(shù)為:
式(5)中:為預(yù)測個數(shù);out_i為第個數(shù)據(jù)的預(yù)測值輸出;i為實際功率值。
基于PSO算法可以很方便地找到一組各個模型間的融合加權(quán)系數(shù)。假設(shè)得到的動態(tài)加權(quán)系數(shù)為,則可以利用對各個模型的預(yù)測結(jié)果經(jīng)動態(tài)加權(quán)集成,得到最終結(jié)果。
本論文選用河北某風電集控中心在2019-03—2019-12 SCADA系統(tǒng)采集的824組歷史數(shù)據(jù),進行初步預(yù)處理后保留803組數(shù)據(jù)。利用隨機森林算法對全部樣本進行功率分類預(yù)測誤差分析,得到最終分類預(yù)測分析結(jié)果準確率為89%。此時利用隨機森林算法根據(jù)公式(3)對17種輸入?yún)?shù)進行基于平均準確率減少的重要性評估。
根據(jù)影響預(yù)測結(jié)果的重要因素風機運行狀態(tài),將全部樣本分為限功率和正常功率兩組,重復(fù)上述數(shù)據(jù)處理流程,決策樹迭代次數(shù)分別達到20次和40次時函數(shù)收斂,分類預(yù)測準確率為95%和98%。預(yù)測準確率較全部樣本分析時得到顯著提高。根據(jù)樣本參數(shù)屬性重要度數(shù)據(jù)及權(quán)重,樣本取權(quán)重大于0.05的參數(shù)作為最終輸入因素。構(gòu)建正常功率預(yù)測決策表,如表1所示。
表1 正常功率預(yù)測決策表
屬性類別實時風速風輪轉(zhuǎn)速風向與軸夾角實際扭矩空氣密度線圈電流 權(quán)系數(shù)0.270.2660.1330.120.080.05
將414個正常功率樣本數(shù)據(jù)隨機分成兩部份,選取300個作為訓(xùn)練樣本數(shù)據(jù)并完成SVM、EML和RF基礎(chǔ)學習器的訓(xùn)練,剩余114個作為檢測樣本數(shù)據(jù)完成對算法模型的驗證。首先對SVM模型進行訓(xùn)練,本文利用GA算法對SVM分類器進行最優(yōu)求解。在實驗中,設(shè)置GA算法的最大迭代次數(shù)為150,種群最大數(shù)量為40。利用尋找到的最優(yōu)參數(shù)對SVM進行訓(xùn)練,設(shè)置為3.002 8,gamma為0.138 38。通過對比誤差量,表明訓(xùn)練模型在訓(xùn)練集上實現(xiàn)了很好的訓(xùn)練。訓(xùn)練樣本平均誤差為3.51%,檢測樣本為5.95%,極差相差較大,訓(xùn)練樣本集為17.238%,檢測樣本集為13.549%,表明模型對奇異值的抗干擾能力較弱,但算法整體預(yù)測效果較好。
ELM和RF模型驗證流程同上。ELM在訓(xùn)練集上平均方法的相對誤差為0.7%,在檢測集為1.3%。極差在訓(xùn)練與檢測分別為4.2%和8.2%。通過對比可以發(fā)現(xiàn)模型在訓(xùn)練集上的結(jié)果表現(xiàn)較好,但在檢測集上較差,說明網(wǎng)絡(luò)模型泛化能力較差。使用隨機森林模型對數(shù)據(jù)進行訓(xùn)練,設(shè)置子節(jié)點數(shù)為5,最大深度為200,基尼系數(shù)設(shè)為0.938 8。訓(xùn)練集與檢測集的回歸誤差值均在100以內(nèi)。訓(xùn)練集的相對誤差在 [﹣0.1,0.1],驗證集在[﹣0.05,0.1],表明模型在訓(xùn)練集與驗證集上的表現(xiàn)相差不大。平均誤差在訓(xùn)練集和檢測集上分別為3.812%和4.256%,極差分別為16.024%和15.894%。也證明模型在訓(xùn)練接與驗證集上都能得到較好的檢測效果。通過對比SVM+GA和極限學習機模型可以發(fā)現(xiàn),隨機森林的平均相對誤差大于SVM和ELM,但是極差小于SVM和ELM,整體預(yù)測效果較弱,但是對奇異值的抗干擾能力較強。
集成學習算法模型:本文將SVM、ELM和BF進行集成使用,使得模型可以自適應(yīng)地針對多種數(shù)據(jù)作出更加準確的回歸。集成學習模型檢測集上訓(xùn)練測試結(jié)果如圖1所示,訓(xùn)練樣本的誤差在20之內(nèi),相對誤差字在0.005以內(nèi),遠小于單獨使用當個學習器的誤差。在檢測集上,誤差值也在20之內(nèi),相對誤差也0.005以內(nèi),表明集成學習算法無論是在訓(xùn)練集還是檢測集上,都具有更小的誤差。
集成學習模型在訓(xùn)練集和檢測集上的絕對誤差與相對誤差的最大值、最小值、平均值、標準差和極差如表2所示,訓(xùn)練集的平均相對誤差為0.49%,檢測集為0.194。在訓(xùn)練集上的極差為4.55%,檢測集為4.277 7%。無論是平均誤差、極差、標準方差都遠小于單獨使用三種學習器,表明了集成學習算法具有最好預(yù)測能力。在其他三種模型中,平均誤差最小的是SVM,其次為極限學習機,最差的是隨機森林,但隨機森林具有最小的極差。集成學習集合了三種模型的優(yōu)勢,既能降低平均誤差,又能避免極差大導(dǎo)致奇異值造成的干擾。
集成學習模型在正常功率的預(yù)測回歸上取得了很好的效果,同樣在限功率的回歸預(yù)測中,也取得了很大的成功,誤差和相對誤差都很小。訓(xùn)練集和檢測集的表現(xiàn)沒有很大差別,說明模型具有很好的泛化性。
集成學習模型在限功率訓(xùn)練集上平均值的相對誤差為0.1451%,檢測集為0.227%,極差訓(xùn)練集為7.81%,檢測集為6.363%??梢园l(fā)現(xiàn)模型不僅在訓(xùn)練集上取得了很好的效果,在檢測集上表現(xiàn)也比較出色,這證明了集成學習模型具有良好的魯棒性。
圖1 集成學習檢測樣本測試結(jié)果
表2 集成學習綜合輸出結(jié)果
集成學習算法 訓(xùn)練檢測 絕對誤差相對誤差/(%)絕對誤差相對誤差/(%) 最小值﹣15.371.244﹣13.181.246 最大值15.633.30719.383.031 平均值﹣0.057 630.490 50.334 40.194 7 標準方差6.1220.639 76.2860.706 6 極差314.5532.564.277
本文針對風電場SCADA歷史數(shù)據(jù)的數(shù)據(jù)特性,利用隨機森林算法對樣本數(shù)據(jù)進行分類預(yù)測,以提高分類預(yù)測準確率。同時利用平均準確率減少的重要性評估對輸入?yún)?shù)的屬性重要度進行計算,對輸入因素實現(xiàn)降維的同時得出各重要因素的權(quán)重值并給出決策表。然后利用SVM、ELM和RF組成集成模型,運用正常功率數(shù)據(jù)進行實驗對比,SVM的平均誤差最小但極差較大,RF的平均準確率較低但極差小,可避免奇異點的影響,ELM介于兩者之間。本文構(gòu)建的集成學習算法綜合了三種學習器的優(yōu)點,精度遠遠優(yōu)于單獨使用每個學習模型。最后,將模型應(yīng)用于限功率數(shù)據(jù)集進行檢測,也取得了很好的效果,也證明了本文提出的集成學習模型具有很好的泛化性和適應(yīng)性。
[1]錢政,裴巖,曹利宵,等.風電功率預(yù)測方法綜述[J].高電壓技術(shù),2016,42(4):1047-1060.
[2]薛禹勝,雷興,薛峰,等.關(guān)于風電不確定性對電力系統(tǒng)影響的評述[J].中國電機工程學報,2014,34(29):5029-5040.
[3]劉強,胡志強,周宇,等.基于CEEMD和隨機森林算法的短期風電功率預(yù)測[J].智慧電力,2019(6):71-76.
[4]LIU H,MI X,LI Y.Smart multi-step deep learning model for wind speed forecasting based on variational mode decomposition,singular spectrum analysis,LSTM network and ELM[J].Energy Conversion & Management,2018(159):54-64.
[5]李軍,閆佳佳.基于KELM-AdaBoost方法的短期風電功率預(yù)測(英文)[J].控制工程,2019(3):492-501.
[6]劉愛國,薛云濤,胡江鷺,等.基于GA優(yōu)化SVM的風電功率的超短期預(yù)測[J].電力系統(tǒng)保護與控制,2015(2):90-95.
[7]WU W Z,CHEN K J,QIAO Y,et al.Probabilistic short-term wind power forecasting based on deep neural networks[J].IEEE Probabilistic Methods Applied to Power Systems,2016(12):1-7.
[8]南曉強.風功率預(yù)測技術(shù)水平分析及改進措施研究[J].山西電力,2019,214(1):3-7.
[9]朱喬木,李弘毅,王子琪,等.基于長短期記憶網(wǎng)絡(luò)的風電場發(fā)電功率超短期預(yù)測[J].電網(wǎng)技術(shù),2017,41(12):3797-3802.
TM614
A
10.15913/j.cnki.kjycx.2020.14.003
2095-6835(2020)14-0010-03
葛濱(1993—),男,碩士研究生,研究方向為感知互聯(lián)與協(xié)同計算。
〔編輯:王霞〕