武煜昊,王永生+,徐 昊,陳 振,張 哲,關(guān)世杰
1.內(nèi)蒙古工業(yè)大學 數(shù)據(jù)科學與應(yīng)用學院,呼和浩特 010080
2.內(nèi)蒙古自治區(qū)基于大數(shù)據(jù)的軟件服務(wù)工程技術(shù)研究中心,呼和浩特 010080
隨著化石能源的日益消耗殆盡,清潔可再生能源成為各國發(fā)展的重點。風能以其存儲量大、可再生的特點得以快速發(fā)展,僅2021 年全球新增裝機容量高達97 272 MW,相較于2020年增加約13%[1]。
風能具有間歇性、高可變性及強隨機性等特點,對電網(wǎng)并網(wǎng)造成負面影響。提前進行風電功率預(yù)測是降低風電并網(wǎng)影響的方式之一,因此對于高精準度、低時延性風電功率預(yù)測技術(shù)成為目前研究中的一大重點[2]。采集過程中不可控因素的存在,使得采集到的原始風電數(shù)據(jù)中存在異常數(shù)據(jù)及缺失數(shù)據(jù)。這些異常數(shù)據(jù)對參數(shù)估計及未來預(yù)測造成不可或缺的影響。在風電技術(shù)研究中,對采集到的數(shù)據(jù)進行相應(yīng)的數(shù)據(jù)預(yù)處理操作后再進行相應(yīng)的預(yù)測(如圖1所示)。其中數(shù)據(jù)的質(zhì)量對預(yù)測結(jié)果效果產(chǎn)生極大影響,因此在進行風電功率預(yù)測前通常進行相應(yīng)的異常值檢測和缺失值插補操作。
圖1 風電輸出功率預(yù)測流程Fig.1 Flow chart of wind power output forecasting
本文對風電輸出功率預(yù)測中異常值檢測、缺失值插補和風電功率預(yù)測模型的理論方法進行梳理,并對其中重要的研究方向進行介紹。
異常值指處在特定范圍外明顯偏離該樣本數(shù)據(jù)集其余觀測數(shù)據(jù)偏離的個別數(shù)據(jù)[3]。異常數(shù)據(jù)有點異常、子序列異常和序列異常三種,這些異常值的存在會顯著影響預(yù)測模型的性能,降低預(yù)測值的可信度[4]。異常檢測則是在數(shù)據(jù)中尋找不符合預(yù)期行為的數(shù)據(jù)的過程[5],采用相關(guān)的異常檢測算法對原始風電數(shù)據(jù)中的異常數(shù)據(jù)進行準確識別[6],為預(yù)測提供更精準的數(shù)據(jù)。
本章主要從異常檢測方法和異常數(shù)據(jù)解釋技術(shù)兩個方面進行介紹,并對相應(yīng)的方法發(fā)展進行總結(jié)與展望。
目前,異常值檢測方法可分為全監(jiān)督[7]、半監(jiān)督[8]和無監(jiān)督[9]三種學習方式。在工業(yè)數(shù)據(jù)檢測領(lǐng)域數(shù)據(jù)集中,特別是在風電領(lǐng)域中,采集數(shù)據(jù)種類多,時序長,依靠人工標注數(shù)據(jù)集的監(jiān)督學習和半監(jiān)督學習可行性及適應(yīng)性較低,因此在現(xiàn)有時序數(shù)據(jù)異常值檢測領(lǐng)域(特別涉及風電原始數(shù)據(jù)異常檢測領(lǐng)域)中,大多數(shù)檢測算法采用無監(jiān)督方式的檢測技術(shù)。
根據(jù)處理技術(shù)的不同,異常檢測方法大致可分為基于概率統(tǒng)計的異常檢測方法、基于聚類的異常檢測方法、基于距離的異常檢測方法、基于密度的異常檢測方法、基于偏差的異常檢測方法和基于集成的異常檢測方法。本節(jié)主要對不同檢測方法進行分析介紹,并對該領(lǐng)域異常檢測方法未來挑戰(zhàn)進行分析。目前現(xiàn)有研究中,通常采用精準率[10]、召回率[11]及F1-score[11]等評價算法效果[12],相應(yīng)文獻中均有介紹,本文不再詳細闡述。
1.1.1 基于統(tǒng)計的異常檢測方法
基于統(tǒng)計的異常檢測方法通過對數(shù)據(jù)中變量進行描述性的統(tǒng)計,以此判斷數(shù)據(jù)是否異常。基于統(tǒng)計的異常檢測方法有兩種:使用參數(shù)的異常檢測方法和非參數(shù)的異常檢測算法[13]。
(1)簡單統(tǒng)計量分析法通過統(tǒng)計數(shù)據(jù)集中各變量(特征)特點(如最大值、最小值等)判斷該數(shù)據(jù)是否為異常。文獻[14]使用簡單統(tǒng)計量分析法將數(shù)據(jù)按照不同風向等分別進行統(tǒng)計,并根據(jù)所設(shè)置的閾值進行異常判別。該方法直觀上簡便易懂,但僅適用于數(shù)據(jù)量小且集中型的數(shù)據(jù),檢測方式粗糙難以滿足實際需求。文獻[13]中的HBOS(histogrambased outlier score)算法將數(shù)據(jù)樣本根據(jù)特征分成多個區(qū)間,計算每個數(shù)據(jù)的異常得分,樣本少的區(qū)間異常的可能性較大。與其他異常檢測算法相比,該算法運行時長較短,特別在大量數(shù)據(jù)檢測中具有明顯優(yōu)勢。整體來看,基于簡單統(tǒng)計量分析的檢測方法適用于不在有效范圍內(nèi)大量堆積的風電原始數(shù)據(jù),數(shù)據(jù)量過大或數(shù)據(jù)分散時并不適用[15]。
(2)3σ準則又稱拉依達準則。當數(shù)據(jù)為正態(tài)分布時,分布在(-∞,μ-3σ)和(μ+3σ,+∞)中的概率僅占不到0.3%,因此可以認為分布在該區(qū)間內(nèi)的數(shù)據(jù)為異常數(shù)據(jù)[16]。前期風電研究中常采用3σ進行異常值檢測[17]。3σ算法簡便、計算速度快且可以較好地識別極端數(shù)據(jù),但在一些實驗結(jié)果中顯示該算法整體檢測準確率一般,通常為30%左右。實際中風電數(shù)據(jù)原始分布并不完全服從正態(tài)分布,因此3σ準則在風電數(shù)據(jù)異常檢測中識別出的異常數(shù)據(jù)值遠小于實際存在的異常數(shù)據(jù)。
基于統(tǒng)計的異常檢測方法所存缺陷:(1)需提前確定數(shù)據(jù)分布,如正態(tài)分布等。風電數(shù)據(jù)并不完全服從正態(tài)分布,此類異常檢測方法在風電數(shù)據(jù)異常檢測領(lǐng)域適用性較差。(2)對于模型的選擇要求十分嚴格,模型選擇對最終檢測結(jié)果影響很大。這使得基于統(tǒng)計的異常檢測方法在實際應(yīng)用中存在許多困難。
1.1.2 基于聚類的異常檢測方法
基于聚類的異常檢測方法通過聚類算法對數(shù)據(jù)進行聚類,將未歸類的數(shù)據(jù)及數(shù)據(jù)少的類判定為異常[18]。目前常用的聚類方法有K-means、高斯混合模型(Gaussian mixed model,GMM)及DBSCAN(densitybased spatial clustering of applications with noise)[19]等。
K-means 算法與馬氏距離結(jié)合的方式用于檢測風機中的多元異常值[20],但K-means算法聚類類別及聚類中心值選取的不同對最終結(jié)果產(chǎn)生較大影響。針對上述問題,文獻[21]提出DPC(clustering by fast search and find of density peaks)算法,以解決傳統(tǒng)Kmeans 中需提前進行初始化聚類類別個數(shù)對結(jié)果造成影響的問題。該算法能夠快速發(fā)現(xiàn)密度峰值點,適用于大量數(shù)據(jù)的聚類分析。為解決DBSCAN中需設(shè)置關(guān)鍵參數(shù)半徑和鄰域密度閾值的問題,文獻[22]提出基于自適應(yīng)密度聚類的異常檢測算法。該算法避免了人為原因造成的誤差現(xiàn)象,更高精度地識別出風電機組數(shù)據(jù)中存留的異常數(shù)據(jù)。
整體來看,基于聚類的異常檢測方法模型雖具有較強的遷移能力,但檢測所需時耗較長。同時,此類算法大多以單點形式進行檢測,并未挖掘時間序列間的時序性信息。
1.1.3 基于距離的異常檢測方法
基于距離的異常檢測方法通過計算每個數(shù)據(jù)間的距離,當檢測數(shù)據(jù)與其他數(shù)據(jù)之間距離較大時將該數(shù)據(jù)認定為異常[23]。此類算法是目前機器學習方法中應(yīng)用最為廣泛的算法之一,其中K近鄰(K-nearestneighbors,KNN)算法最為常用。
KNN算法廣泛應(yīng)用于風電數(shù)據(jù)異常檢測中。針對KNN算法計算量大、異常值檢測時間長的問題,文獻[24]提出一種基于反向最近鄰的數(shù)據(jù)流異常檢測算法。該算法結(jié)合時序窗口,進一步提高了KNN 檢測的速度。針對流式數(shù)據(jù),文獻[12]提出一種通過時間滑動窗口構(gòu)建非歐幾里德對,以此判斷當前時刻點數(shù)據(jù)是否異常的AnomalyDetect 算法。該算法雖具有不錯的效果,但僅適用于互聯(lián)網(wǎng)運維、病人心電圖等依據(jù)歷史數(shù)據(jù)對比的異常檢測中,整體應(yīng)用受限。文獻[25]將KNN 異常檢測算法與四分位距方法、3σ方法進行對比分析,證明普通機器學習模型中,KNN 用于異常檢測的效果最優(yōu)。此外,基于KNN 的異常值檢測算法應(yīng)用于網(wǎng)絡(luò)異常檢測[26]、區(qū)塊鏈異常交易[27]等領(lǐng)域。
通過分析發(fā)現(xiàn),基于距離的異常檢測方法早期研究中占有重要位置,但該方法對參數(shù)敏感程度高,若沒有數(shù)據(jù)的先驗知識,難以獲得理想的檢測結(jié)果且該類方法無法區(qū)分數(shù)據(jù)異常的程度。
1.1.4 基于密度的異常檢測方法
基于密度的異常檢測方法作為基于距離的異常檢測方法的改進,通過數(shù)據(jù)局部的密度信息判斷數(shù)據(jù)是否異常。目前常見的方法有:LOF(local outlier factor)[28]、INFLO(influenced outlierness)[29]、LoOP(local outlier probability)[30]等。
文獻[31]采用LOF 算法實現(xiàn)原始風電數(shù)據(jù)的異常檢測任務(wù),該算法作為經(jīng)典的異常檢測方法之一,算法簡單、直觀且要求條件少,可以很好地量化各個數(shù)據(jù)點的異常程度;但數(shù)據(jù)龐大時計算時間復(fù)雜度過高,同時針對時間序列的時序性信息挖掘較差。為進一步提高LOF算法的檢測效果,文獻[32]采用基于主成分的LOF 計算風機每個區(qū)段的異常程度,但該算法中k值選取對檢測效果存在極大的影響。Zhang 等[33]也在LOF 的基礎(chǔ)上提出一種基于相關(guān)子空間的上下文異常檢測算法,通過利用局部數(shù)據(jù)屬性維度的局部稀疏度重新定義相關(guān)子空間,并根據(jù)這些子空間的屬性維度視作數(shù)據(jù)對象的上下文信息,以此檢測隱藏在子空間中的上下文敏感異常值。這些算法進一步提升了模型的檢測效果。為提高算法運算效率,Bai 等人[34]采用網(wǎng)格劃分(girdbased partition,GBP)算法將原始數(shù)據(jù)分為多個網(wǎng)格,再采用DLC(distributed LOF computing)方法進行異常值檢測。
整體來看,相較于上述其他檢查方法,基于密度的異常檢測方法在檢測效果上有進一步提升,但整體計算時長較高,同時仍保留基于距離的異常檢測算法所具有的參數(shù)選取敏感的缺陷。
1.1.5 基于偏差的異常檢測方法
基于偏差的異常檢測方法包含基于序列的異常檢測和基于預(yù)測的異常檢測兩種[18]。
(1)基于序列的異常檢測方法原理是當相鄰序列中存在明顯的偏差時,將該數(shù)據(jù)標記為異常。SCREEN(speed constraint-based stream data cleaning)模型[35]通過在兩個連續(xù)值之間建立最大和最小可能斜率判斷股票價格數(shù)據(jù)中是否存在異常。但風電原始數(shù)據(jù)中風速、風電輸出功率等具有高隨機性和波動性,在部分區(qū)間內(nèi)相鄰數(shù)據(jù)存在大幅度偏差,因此該類型的異常值檢測方法并不適用于風電數(shù)據(jù)。
(2)基于預(yù)測的異常檢測方法[19]根據(jù)預(yù)測值與實際值間誤差值來判斷數(shù)據(jù)是否異常,改善傳統(tǒng)基于距離和密度的異常檢測技術(shù)無法檢測流數(shù)據(jù)中常見周期性和季節(jié)性相關(guān)的點異常。該類型的檢測方法原理是通過預(yù)測模型對風電輸出功率數(shù)據(jù)進行擬合,并根據(jù)擬合后的曲線對異常值進行判別。但此類方法對于模型的預(yù)測效果要求極高,同時異常檢測效果與其他方法相比較低。
文獻[10]提出LSTM-AE 異常檢測模型,長短期記憶單元(long short-term memory,LSTM)作為AE的隱藏神經(jīng)元,并結(jié)合支持向量回歸(support vector regression,SVR)進行閾值的自適應(yīng)。該模型改善了單一預(yù)測異常檢測方法中擬合差、閾值設(shè)置選取不當?shù)膯栴},進一步提高自編碼器(auto-encoder,AE)模型的異常檢測效果,但是其未考慮隨機變量間的時間依賴性,且原始AE模型生成樣本具有較強的不確定性,使得模型仍有進一步優(yōu)化的空間。Munir等人[36]提出的DeepAnT 異常值檢測方法,通過卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)預(yù)測后計算與實際值間的歐氏距離,以判斷此時間戳是否異常。該模型可以在相對較小的數(shù)據(jù)集上進行訓練,具有良好的泛化能力,但當原始數(shù)據(jù)中異常值過多時,CNN會對異常數(shù)據(jù)進行建模,出現(xiàn)些許異常數(shù)據(jù)無法準確識別的現(xiàn)象。模型參數(shù)更新是提升預(yù)測效果的關(guān)鍵之一,但定期或每次到達新點時,重新訓練以適應(yīng)數(shù)據(jù)變化的方式增大模型的計算開銷和存儲成本,同時容易造成模型過時。針對這一問題,在現(xiàn)有研究中常采用在線增量學習方式,保持模型參數(shù)最新的同時降低數(shù)據(jù)存儲和維護的成本[37]。
整體來看,基于偏差的檢測方法與模型擬合效果成正相關(guān),整體效果與其他類型的檢測方法相比仍存在一定差距。
1.1.6 基于集成的異常檢測方法
隨著數(shù)據(jù)涉及領(lǐng)域的增加,整體數(shù)據(jù)維度不斷擴大?,F(xiàn)有文獻中針對多變量時序數(shù)據(jù)檢測常采用單變量檢測技術(shù)進行識別,這一方式導致變量間相互依賴關(guān)系丟失?;诩傻漠惓z測方法[38]可以較好地改善上述問題。該算法是通過結(jié)合不同異常檢測算法的優(yōu)點,提高模型的魯棒性和異常檢測的效果。降維(將原始高維數(shù)據(jù)集轉(zhuǎn)換為一維互相關(guān)函數(shù)后判斷數(shù)據(jù)是否異常[39])、AE等應(yīng)用于多元數(shù)據(jù)異常檢測中。
Sakurada 等[40]構(gòu)建了一種具有非線性降維的自編碼器,用于航天器數(shù)據(jù)的異常檢測,并與其他降維異常檢測模型進行對比。針對該模型并未考慮多變量內(nèi)部的時序性的問題,Kieu 等人[41]提出一種基于CNN 和LSTM 的AE 框架用于檢測駕駛員行為數(shù)據(jù)中的異常值,結(jié)合滑動窗口和自編碼器以實現(xiàn)更高準確度的檢測。CNN-AE 充分地對每一矩陣進行信息提取,但無法捕獲矩陣間的時序信息,而LSTM-AE克服了這一限制,進一步提高了模型的檢測效果。針對多元時序數(shù)據(jù)異常檢測效果差的問題,Su 等[42]提出基于門控循環(huán)單元(gated recurrent unit,GRU)和變分自編碼器(variational auto-encoder,VAE)的檢測方法,并采用Planar NF(planar normalizing flows)改善VAE 只能生成高斯分布數(shù)據(jù)的不足,同時結(jié)合隨機變量連接進一步挖掘隱變量間的時序性。相較于上述LSTM-AE 等簡單結(jié)合的AE 模型,該模型結(jié)合的隨機變量連接使得映射后的隨機變量保留原始數(shù)據(jù)的時序性信息,進一步提高了VAE 模型的檢測效果,但該模型并未考慮數(shù)據(jù)特征間的相關(guān)性影響。文獻[43]提出一種模糊聚類算法與概率方法相結(jié)合的風電數(shù)據(jù)過濾技術(shù),用于在線檢測有效數(shù)據(jù)。相對于傳統(tǒng)單一異常檢測方法在生成建模精度方面有效性有所提高,但參數(shù)選取對最終結(jié)果產(chǎn)生決定性影響,因此如何精準地進行參數(shù)選取顯得格外重要。針對現(xiàn)有檢測算法中子序列固定不變的問題,SLADETS和SLADE-MTS可以自動識別異常事件序列及其確切的可變長度異常子序列,防止傳統(tǒng)算法中固定子序列問題及可變子序列中異常子序列在其他維度序列下誤判為正常情況的發(fā)生[44]。
基于集成的異常檢測方法博眾家所長,相較于其他單一檢測方法具有較高的精準度和較好的魯棒性。此類方法也是目前時序數(shù)據(jù)研究中的重要方式之一。
隨著異常值檢測技術(shù)的日益復(fù)雜,異常值檢測模型和結(jié)果的解釋開始受到研究人員的關(guān)注。異常解釋有助于運維人員及時發(fā)展故障所在,及時進行修復(fù)工作。
根據(jù)風速-風電功率數(shù)據(jù)的分布特征,正常數(shù)據(jù)分布在風速-風電功率曲線附近,而異常數(shù)據(jù)常顯示為橫向數(shù)據(jù)帶的聚集分布且明顯偏離風速-風電功率曲線。異常類型主要有四類(如圖2所示),第一類至第四類異常存在的原因分別是計劃外的停機檢修和風機零件故障[22]、棄風限電[45]、傳感器故障[15]、氣象波動等[46]。
圖2 風速-風電功率分布曲線Fig.2 Wind speed-wind power distribution curve
近年來,機器學習等技術(shù)成為實際應(yīng)用中的重要工具,研究人員越來越重視機器學習模型工作機制的研究,對于異常數(shù)據(jù)的解釋性研究日益增多。時序數(shù)據(jù)中異常值的存在顯著影響后期預(yù)測效果,盡管現(xiàn)在用于時序數(shù)據(jù)異常值檢測技術(shù)眾多,但對于檢測到的異常值進行解釋及其潛在的生成機制遠未解決。文獻[47]嘗試采用聚類算法對異常數(shù)據(jù)進行分析解釋,但這一方式無法量化每一特征對異常的影響程度?;诖?,文獻[10]通過計算原始數(shù)據(jù)單個變量與性能指數(shù)間的關(guān)聯(lián)性,根據(jù)排序結(jié)果確定影響異常的特征參數(shù)。文獻[42]通過對每一時刻單變量重構(gòu)概率值求和計算當前時刻數(shù)據(jù)的異常性,并根據(jù)單變量重構(gòu)概率判斷該變量對整體的影響程度,以此給出對當前異常產(chǎn)生影響的變量排序。該方法通過神經(jīng)網(wǎng)絡(luò)重構(gòu)來解釋數(shù)據(jù)異常的可能性,可以遷移至其他多變量時序數(shù)據(jù)的異常檢測算法中。與之相似的是,文獻[48]同樣采用每個維度的重建誤差來分析和解釋異常。由于原始數(shù)據(jù)中異常數(shù)據(jù)的存在,導致這類依靠原始重建概率方式判斷異常方法中的一些正常數(shù)據(jù)得到較差的重建,以此用于解釋異常的方式存在偶然性。針對這一問題,文獻[49]通過計算窗口內(nèi)數(shù)據(jù)多次重建概率均值,并在整個窗口的數(shù)據(jù)中尋找重建誤差較大的時刻點作為異常來源。這一方式通過多次基于馬爾可夫鏈蒙特卡洛(Markov chain Monte Carlo,MCMC)的解釋過程可以減輕嚴重異常的影響,提高了整體異常檢測的效果。此外,文獻[50]認為數(shù)據(jù)來源于正常和受污染兩種方式,采用改進的SIF(single-valued metric based on the influence functional)方法計算當前數(shù)據(jù)異常的可能性。這些方法或通過尋找多變量中每一特征的影響大小來解釋異常的原因,或計算單值指標來衡量異常值對未來預(yù)測的影響大小。
現(xiàn)有異常值檢測方法對比效果如表1 所示。針對現(xiàn)有方法中存在的一些問題與不足,認為以下幾點或?qū)⒊蔀槲磥硌芯恐械闹攸c。
表1 風電機組異常檢測方法對比Table 1 Comparison of wind turbine anomaly detection methods
(1)閾值自適應(yīng):部分模型檢測方法(如基于統(tǒng)計、聚類的異常檢測方法等)需提前對異常閾值進行設(shè)置,參數(shù)選取得過高或過低均將會降低模型的準確率,因此如何準確進行閾值的自適應(yīng)選擇尤為重要。
(2)時間響應(yīng):盡管許多基于集成的異常檢測方法在效果等方面取得較為不錯的成績,但針對實際需要,其整體響應(yīng)時長仍存在降低空間。較短的時間響應(yīng)意味著及時提醒,便于運維人員進行查驗、維修。因此,短時間的異常檢測響應(yīng)是必要的。
(3)單變量檢測技術(shù)遷移問題:多變量時序數(shù)據(jù)異常檢測方法研究中多數(shù)采用單變量檢測技術(shù)對不同變量分別進行檢測,如基于統(tǒng)計、聚類、距離等檢測方法,這些方法造成特征間相互性信息丟失,可能出現(xiàn)單變量檢測正常而實際異常情況的發(fā)生。如何將單變量檢測技術(shù)遷移至多變量數(shù)據(jù)中,充分挖掘變量間相互性關(guān)系將是關(guān)注的重點之一。
(4)時序數(shù)據(jù)不規(guī)則采樣的異常檢測問題:由于不同特征數(shù)據(jù)采集時采樣頻率的不同,需要對不同特征數(shù)據(jù)進行重采樣。重采樣過程中通常會造成數(shù)據(jù)信息的缺失,這對后期數(shù)據(jù)挖掘的效果產(chǎn)生一定影響。因此,如何針對不同采樣頻率的數(shù)據(jù)進行異常檢測將是一個可觀的研究思路。
(5)異常解釋機制問題:近些年來,隨著深度學習技術(shù)的快速發(fā)展,異常檢測模型逐漸復(fù)雜化,而對于檢測結(jié)果的異常解釋機制仍未解決。異常解釋可以為運維人員提供相應(yīng)的提示,以便于更短時間內(nèi)篩選出數(shù)據(jù)異常原因。因此認為,針對檢測結(jié)果的異常性,其解釋的研究或?qū)⒊蔀槲磥硌芯恐械囊粋€重要方向。
數(shù)據(jù)采集過程中常伴隨數(shù)據(jù)缺失現(xiàn)象,小規(guī)模的數(shù)據(jù)缺失雖對后期分析挖掘影響不大,但大量數(shù)據(jù)的缺失使得數(shù)據(jù)分析挖掘變得困難,因此對缺失數(shù)據(jù)的插補及插補質(zhì)量格外重要。針對不同情況的缺失,處理方法也有所不同[51]。為有效地評估插補后數(shù)據(jù)效果,現(xiàn)有研究中通常采用平均絕對誤差(mean absolute error,MAE)、平均絕對偏差(mean absolute differences,MAD)[52]、準確率r等進行評價。
本章主要對不同處理技術(shù)的異同及適用情況進行討論,并在最后對未來研究中可能存在的挑戰(zhàn)進行分析。
常規(guī)處理方法包含直接刪除法、均值插補法、零值插補法、上一次觀測值插補法等。這一類處理方法通常操作簡單且計算復(fù)雜度低,但存在一定局限與不足。如直接刪除法將原始數(shù)據(jù)中的缺失樣本進行刪除,使得整體數(shù)據(jù)規(guī)模減小,缺失率提高,造成數(shù)據(jù)信息丟失,進而影響數(shù)據(jù)挖掘效果。這一方法適用于缺少樣本數(shù)量較小的情況,但為更好地挖掘數(shù)據(jù)中的信息,并不建議采用該方法;而均值插補法、零值插補法、上一次觀測值插補法等忽略了不同特征間的相互關(guān)聯(lián)程度,改變原始數(shù)據(jù)分布,缺乏對時間信息的利用,使得這類插補方法適用面較小。
辨別式的插值方法是將模型估計的缺失值填充至缺失位置的方式。這類方法包含回歸插補法(線性回歸、非線性回歸等)、遞推式非鄰均值補全法[53-54]、三次樣條插值法、鏈式方程多元插值(multiple imputation by chained equations,MICE)、矩陣分解(matrix factorization,MF)、多層感知機(multilayer perceptron,MLP)[55]、KNN、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)及其改進等。
基于線性回歸的插補方法容易構(gòu)造且計算量小,但實際數(shù)據(jù)中大多數(shù)并不滿足線性條件,使得基于線性回歸的插補方法并不符合實際應(yīng)用。非線性回歸插補方法相較于常規(guī)處理方法來說精度進一步提升,同時適應(yīng)性更廣,但并未考慮特征間相互性,且數(shù)據(jù)間信息挖掘并不充分,主要作為粗糙插補使用。
三次樣條插值法原理是將原始區(qū)間分為多個連續(xù)的子區(qū)間,每個子區(qū)間由一個三次多項式函數(shù)進行擬合。同時需要滿足在區(qū)間邊界節(jié)點的兩邊具有相等的一階和二階導數(shù),以便插值是兩次全局連續(xù)且可微的[56]。文獻[57]采用三次樣條插值法對風機功率曲線進行擬合,并與制造商功率曲線進行對比。這種插值方法插值節(jié)點處函數(shù)值的波動僅對該點兩邊的分段存在影響,對于其他較遠分段影響會逐漸減小,因此該方法具有較好的穩(wěn)定性。同時相比深度學習方法,三次樣條插值法等數(shù)學方法訓練量更小,建模更為簡單。相對其他數(shù)學方法而言,三次樣條插值根據(jù)空缺值附近的觀測數(shù)據(jù),使用具有良好平滑性的插值函數(shù)進行缺失值插補,使得插補后的數(shù)據(jù)具有良好的平滑性。當缺失值所處區(qū)間平滑性較差時,該方法不能準確反映真實數(shù)據(jù)[58],同時隨著區(qū)間大小的增加,模型的性能會有所下降。
MICE 方法通過多次插補降低單次插補造成的標準誤差,但僅適用于隨機缺失(missing at random,MAR),完全隨機缺失(missing completely at random,MCAR)等缺失并不適用[59]。Yu 等人[60]在MF 的基礎(chǔ)上結(jié)合時間正則化提出TRMF(temporal regularized matrix factorization)插補框架,并在電力及交通數(shù)據(jù)集上驗證了該框架的有效性。此外,基于MF的插補模型被應(yīng)用于降水數(shù)據(jù)[61]等。但整體來看,MF 方法需保證原始的共現(xiàn)矩陣是稠密的,無法使用于大量缺失情況下。同時該技術(shù)未挖掘上下文特征間的相互性,喪失部分的有效信息。
基于均值插補、回歸插補、樣條插補等傳統(tǒng)插補方法往往存在較大的偏差和誤差率,特別是當數(shù)據(jù)長時間連續(xù)缺失情況下,插補效果極差。隨著機器學習技術(shù)的快速發(fā)展,基于機器學習技術(shù)的支持向量機(support vector machines,SVM)、MLP、KNN、RNN及其改進的模型等應(yīng)用于時序數(shù)據(jù)缺失值插補中。如文獻[62]提出相關(guān)向量機插補模型,相對于常規(guī)插補方法,進一步挖掘數(shù)據(jù)特征與功率值間的關(guān)系。文獻[63]將模糊推理與神經(jīng)網(wǎng)絡(luò)進行結(jié)合,提出的ANFIS(adaptive neuro-fuzzy inference system)模型進一步提高了插補的準確率。
MLP 由多個神經(jīng)元構(gòu)成,前一層的輸出結(jié)果作為后一層神經(jīng)單元的輸入,MLP 在數(shù)據(jù)處理中具有良好的適用性,無需進行模型假設(shè),同時在估計噪聲模型時具有很大的靈活性[64]。文獻[65]對統(tǒng)計線性插值、樣條插值、線性模型和MLP插值進行對比。結(jié)果發(fā)現(xiàn),線性插值法在短期數(shù)據(jù)缺失插補中效果最優(yōu),MLP次之;在長期數(shù)據(jù)丟失情況下,線性插值、樣條插值和回歸插值效果有所下降,但MLP 的精度保持穩(wěn)定。文獻[66]采用MLP 對長時間連續(xù)缺失的空氣質(zhì)量數(shù)據(jù)進行回歸建模,實驗發(fā)現(xiàn)連續(xù)缺失時間越長,MLP 相較于回歸插補等傳統(tǒng)插補方法的插補效果越好。但MLP的隱藏節(jié)點個數(shù)選取仍是目前研究中的一大難題,同時其伴隨著學習速度慢、易陷入局部極值的缺陷。
KNN 作為機器學習中最為常見的插補算法之一,整體計算成本高,同時很少考慮兩個變量間的相互關(guān)系。針對這一問題,SPCA+GKNN[52]方法在KNN 基礎(chǔ)上考慮到多變量間的相互關(guān)系,同時自適應(yīng)K值選擇,以此提高KNN插值效果。Che等[67]中的GRU-D 模型在GRU 的基礎(chǔ)上結(jié)合mask 和time interval(時間間隔)來捕獲缺失信息,同時計算時間和空間復(fù)雜度相似于RNN,但該模型對一般數(shù)據(jù)集有諸多限制。此外,M-RNN[68]利用雙向RNN 對缺失數(shù)據(jù)進行估計。該模型將估計值當作常數(shù)進行固定,無法進行更新,同時該模型丟棄了缺失變量之間的關(guān)系。與M-RNN 相似的是,BRITS(bidirectional recurrent imputation for time series)[69]根據(jù)其歷史數(shù)據(jù)及鄰居數(shù)據(jù)的測量值估計缺失值的測量值。BRITS雖考慮時間及多特征因素,但并不能很好地應(yīng)對高缺失率的情況,無法保證準確的預(yù)測[70-71]。
基于生成式的插補算法是通過學習數(shù)據(jù)的聯(lián)合概率分布密度,再求解條件概率分布的方法。目前基于生成式的插補方法主要包含基于EM(expectation maximization)的插補算法、基于AE 的插補算法和基于生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)的插補算法等。
EM 插補算法迭代計算期望E 和最大化M 以獲得插補數(shù)據(jù)。該類算法整體計算簡單、填補精度較高,但對整體數(shù)據(jù)集依賴性較強,很少考慮兩個觀測值之間的時序關(guān)系。如文獻[72]中要求原始數(shù)據(jù)為離散數(shù)據(jù),當數(shù)據(jù)為連續(xù)數(shù)據(jù)時無法很好地適用;文獻[73]結(jié)合EM 算法和遺傳算法,在輸入變量間幾乎沒有或沒有相互依賴的情況下具有較好的表現(xiàn)效果。
近年來,深度學習已被證明能夠捕捉復(fù)雜高維數(shù)據(jù)的潛在表示,使用神經(jīng)網(wǎng)絡(luò)生成模型插補缺失數(shù)據(jù)逐漸成為主流。AE(自編碼器)等作為較為常用的生成模型,將原始數(shù)據(jù)通過Encoder 和Decoder 后重建原始數(shù)據(jù),以完成缺失值插補操作?;贏E的插補模型種類較多,且風格各異。如ELM-AE[74]在AE 的基礎(chǔ)上結(jié)合ELM(extreme learning machine)網(wǎng)絡(luò)進行插補實驗。該方法結(jié)合了ELM訓練速度快和AE重構(gòu)的特點,相較于辨別式的插補方法性能更好,但該方法需足夠的完整數(shù)據(jù)集來保證模型的訓練效果,整體應(yīng)用受限。Lai等[75]基于AE提出TFAE(trackingremoved autoencoder)框架,重新設(shè)計隱藏單元用于不完整數(shù)據(jù)插值訓練。該方法消除了網(wǎng)絡(luò)的自追蹤性,但并未考慮數(shù)據(jù)間的時序性影響,同時該算法在缺失率較大的數(shù)據(jù)集中的應(yīng)用效果更好。傳統(tǒng)AE模型通過潛在空間重構(gòu)原始數(shù)據(jù)分布,將生成的偽時間序列值填充至缺失部位。
VAE 在AE 的基礎(chǔ)上進行優(yōu)化,對AE 重構(gòu)損失中的潛在表示添加約束,增加了生成樣本的不確定性。針對現(xiàn)有數(shù)據(jù)種類繁多、類型復(fù)雜問題,Gondara等[76]提出一種基于深度去噪自編碼器的多重插補模型,可適用于不同數(shù)據(jù)下的不同缺失條件/機制中。該方法改善AE 模型需大量完整原始數(shù)據(jù)訓練的缺陷,但重構(gòu)后的數(shù)據(jù)無法確定是否保留原始數(shù)據(jù)特點間的相互性。對于家庭用電負載數(shù)據(jù)不規(guī)則問題,文獻[77]提出一種基于DLP(daily load profile)的缺失值插補框架。該框架不需要迭代地對多個缺失值進行插補或確定適當?shù)木垲惡蚄值。文獻[78]假定原始數(shù)據(jù)可以從潛在空間中生成,采用VAE 學習生成數(shù)據(jù)分布的缺失數(shù)據(jù),以此作為預(yù)測前的預(yù)處理步驟,證明VAE 的插補提高了后期的預(yù)測性能。該方法解決了自編碼器中非正則化潛在空間的問題,但同時使得潛在分布為正態(tài)分布,難以滿足風電數(shù)據(jù)等不完全滿足正態(tài)分布的數(shù)據(jù)特點。針對現(xiàn)有文獻中沒有關(guān)于如何在深度生成模型的訓練過程中合并缺失數(shù)據(jù)的明確討論,Nazabal 等[79]提出的HIVAE(heterogeneous-incomplete VAE)框架可以有效結(jié)合不完整數(shù)據(jù)和異質(zhì)的觀察結(jié)果。
此外,GAN 網(wǎng)絡(luò)作為生成模型中的一大重點模型,可以學習數(shù)據(jù)的潛在分布,并能夠從隨機的“噪聲”中生成“真實”的樣本數(shù)據(jù)。與傳統(tǒng)網(wǎng)絡(luò)插值算法訓練需要完整數(shù)據(jù)不同的是,GAN 能夠在原始數(shù)據(jù)不完整的情況下仍很好地運行,但其生成器易生成多種分布數(shù)據(jù)。為更好地訓練模型,GAIN(generative adversarial imputation nets)[80]在GAN 網(wǎng)絡(luò)的基礎(chǔ)上添加“hints”為鑒別器提供額外的信息,以確保生成器生成最接近原始數(shù)據(jù)分布的數(shù)據(jù)。該方法充分挖掘原始數(shù)據(jù)分布特點,但并未考慮數(shù)據(jù)間時序性特點,適用于非時序數(shù)據(jù)缺失插補中。
VIGAN(view imputation via generative adversarial networks)[81]結(jié)合CycleGAN 和DAE(denoising autoencoder)用于多模態(tài)數(shù)據(jù)插補,但風電等相關(guān)時序數(shù)據(jù)通常為單模態(tài)數(shù)據(jù),直接遷移的效果并不理想。而GAN網(wǎng)絡(luò)訓練不穩(wěn)定的缺陷也是目前研究中的重點之一,Che等[82]提出MaliGAN模型,用于解決GAN網(wǎng)絡(luò)訓練不穩(wěn)定、離散數(shù)據(jù)變量反向傳輸困難的問題。這幾種模型雖在一定程度上解決GAN網(wǎng)絡(luò)在時序數(shù)據(jù)插補中存在的一些問題,但仍未考慮數(shù)據(jù)間的時序性影響。針對這一問題,Luo等[83]提出一種基于GRUI(gated recurrent unit for data imputation)神經(jīng)單元的GAN網(wǎng)絡(luò)用于多元時序數(shù)據(jù)插值。同時采用Wasserstein 距離的WGAN 提高學習階段的穩(wěn)定性,擺脫模式崩潰的問題,以便于GAN 模型的優(yōu)化。文獻[84]提出基于WGAN 的插補模型,該模型生成器部分使用多頭自注意力機制(multi-head self-attention,MSA)進行AE 搭建,以學習數(shù)據(jù)的時序信息,解決RNN中無法并行運算且長時間出現(xiàn)遺忘問題。但此模型整體計算復(fù)雜度高,針對這一問題,文獻[84]結(jié)合ProbSparse自注意力機制和VAE進行插補實驗,實驗結(jié)果得知兩組模型效果相近,但VAE-PSA(VAEprobsparse)模型時間效率更優(yōu)。此外,MaskGAN[85]、SeqGAN[86]等基于GAN 改進的模型用于文本填補等領(lǐng)域。
從上述文獻中可以看出,相較于傳統(tǒng)AE 模型,GAN網(wǎng)絡(luò)插補效果更優(yōu),但其存在訓練不穩(wěn)定、不可逆且不提供密度估計的缺陷。但并不說明AE 模型效果完全差于GAN 模型,如VAE 作為AE 模型的一種改進,以概率的形式描述潛在空間觀察,取得與GAN類似的效果,同時避免了GAN網(wǎng)絡(luò)訓練不穩(wěn)定的缺陷。
基于物理特性的插補方法通過采用臨近風場/風機數(shù)據(jù)進行插補。如文獻[87]采用臨近風電場的數(shù)據(jù)進行填補,并與多點三次樣條插值方法進行對比,結(jié)果表明當臨近風電場距離較近時插補效果優(yōu)于基于統(tǒng)計學的插補方法。文獻[88]采用相鄰風電場的功率值對本風電場缺失數(shù)據(jù)進行插補。這類方法雖然簡便,但對風機、地形等信息要求嚴苛,因此在整體研究中應(yīng)用較少。
現(xiàn)有缺失值插補方法對比效果如表2 所示。針對現(xiàn)有方法中存在的一些問題與不足,以下兩點或?qū)⒊蔀槲磥硌芯恐械闹攸c方向。
表2 風電機組缺失值插補方法對比Table 2 Comparison of missing value interpolation methods for wind turbines
(1)特有領(lǐng)域模型應(yīng)用:近些年基于機器學習、深度學習插補模型層出不窮,但大多針對時序數(shù)據(jù)這一廣泛領(lǐng)域中。不同數(shù)據(jù)間具有較大的差異性,針對不同數(shù)據(jù)特點進行的多變量插補模型遷移是未來工作中應(yīng)當關(guān)注的一個問題。
(2)非固定時延問題:近年來基于VAE 和GAN的生成模型成為時序數(shù)據(jù)插補乃至圖像、文本等領(lǐng)域的熱點方法,與圖像插補、文本填充等領(lǐng)域不同的是,時序數(shù)據(jù)插補時數(shù)據(jù)間所具有非固定時延問題,即數(shù)據(jù)缺失后導致數(shù)據(jù)時延增大。如文獻[73]中研究所述,針對不同技術(shù)特點,如何完善模型不足,充分挖掘數(shù)據(jù)間時序性、數(shù)據(jù)分布及多變量相關(guān)性,提高模型插補效果和降低模型計算時長將是未來關(guān)注的另一個問題。
可靠的風電輸出功率預(yù)測可以大大降低這種不確定性,增強電力系統(tǒng)運行的穩(wěn)定性及提高經(jīng)濟可行性。根據(jù)預(yù)測時長不同可劃分為超短期預(yù)測[89]、短期預(yù)測[90]、中期預(yù)測[91]和長期預(yù)測[92]。具體時長和作用如圖3 所示。不同預(yù)測方法根據(jù)預(yù)測值形式的不同分為確定性預(yù)測和概率性預(yù)測。在不確定的市場環(huán)境中,單一依賴確定性預(yù)測結(jié)果遠遠不夠,而概率性預(yù)測通過調(diào)整模型初始化、改變模型結(jié)構(gòu)和使用多種模型結(jié)合的三種方式結(jié)合NWP(numerical weather prediction)數(shù)據(jù),給定預(yù)測結(jié)果的概率分布特征[93],進一步縮小預(yù)測誤差,但所消耗的計算資源隨之升高[94]。根據(jù)國家《風電功率預(yù)測功能規(guī)范》[95]所示,確定性預(yù)測通常采用均方根誤差(root mean square error,RMSE)、MAE、最大誤差(σ)和相關(guān)性系數(shù)(R)等進行衡量;概率性預(yù)測則采用可靠性(reliability)和銳度(sharpness)[96]等進行模型評價。本章對現(xiàn)有模型方法進行分析總結(jié),并對目前研究中存在的挑戰(zhàn)及未來可能的發(fā)展方向進行介紹。
圖3 風電功率預(yù)測分類Fig.3 Classification of wind power forecasting
物理模型是指根據(jù)數(shù)值天氣預(yù)報(numerical weather prediction,NWP)數(shù)據(jù),用物理方法計算風電場輸出功率的模型。該模型也是目前研究較為成熟、深受人們認可的一種方法[97],通過NWP 數(shù)據(jù)模擬風電場區(qū)域內(nèi)地形變化等,以預(yù)測該電場輸出功率[98-99]。特別是在中期預(yù)測時,NWP 是提高預(yù)測精準度的首要環(huán)節(jié)[100]。
物理模型對氣象、地形等數(shù)據(jù)依賴性較強、抗干擾性和可移植性差[101],同時高精度預(yù)測的計算復(fù)雜度和時間復(fù)雜度高。隨著時長增加其預(yù)測精準度下降,導致單一物理模型的短期風電功率預(yù)測并不可靠[102],因此添加高精度NWP 數(shù)據(jù)作為模型輸入,可進一步提高模型的預(yù)測準確性[103]。
統(tǒng)計方法通過已有的歷史數(shù)據(jù)和風電功率數(shù)據(jù)間的映射關(guān)系來建立預(yù)測模型[104]。統(tǒng)計模型可分為傳統(tǒng)統(tǒng)計模型、時間序列模型、其他機器學習模型及深度學習模型。
3.2.1 傳統(tǒng)統(tǒng)計模型
持續(xù)法作為最為經(jīng)典的傳統(tǒng)統(tǒng)計方法,將當前時刻的風電功率值作為未來時刻的預(yù)測值使用[105],這種方法雖然簡單,但僅限于超短期預(yù)測使用,因此該方法通常作為基準模型進行使用,而非單獨預(yù)測模型[94]。
3.2.2 時間序列模型
時間序列模型通過分析歷史數(shù)據(jù)信息來預(yù)測未來數(shù)據(jù),常用的時間序列模型有自回歸模型(autoregressive,AR)、滑動平均模型(moving average,MA)、自回歸滑動平均模型(autoregression moving average,ARMA)、自回歸差分滑動平均模型(autoregressive integrated moving average,ARIMA)等。
AR 模型是處理數(shù)據(jù)內(nèi)部關(guān)聯(lián)的模型,其認為觀測點后某一(段)時刻的值由該點前若干時刻觀測值進行描述,即觀測點xt值由前p個觀測值與一個誤差項構(gòu)成,如式(1)所示:
其中,?0,?1,…,?p為回歸系數(shù),εt為白噪聲序列。
Poggi 等[106]使用AR 模型進行風速的預(yù)測和模擬。ARMA 模型由AR 和MA 兩部分構(gòu)成,結(jié)合了AR 和MA 的優(yōu)點,相較于AR 模型更為常用。ARMA模型中xt的取值取決于過去p個觀測點值與過去q個隨機干擾項構(gòu)成,具體如式(2)所示:
其中,θ1,θ2,…,θq為干擾項系數(shù)。
文獻[107-109]采用ARMA進行風電功率數(shù)據(jù)預(yù)測,取得良好效果。文獻[110]采用基于時間序列分析的風電場風速預(yù)測模型進行風速預(yù)測。文獻[111]將校正后的ARMA 模型用于風電功率預(yù)測,結(jié)果表明該模型顯著提高了中短期風電功率預(yù)測精度。AR、ARMA模型適用于平穩(wěn)數(shù)據(jù)中,非平穩(wěn)數(shù)據(jù)的使用將造成較大的誤差。ARIMA模型在ARMA模型的基礎(chǔ)上結(jié)合差分運算,將非平穩(wěn)數(shù)據(jù)轉(zhuǎn)換為平穩(wěn)數(shù)據(jù)。因此,ARIMA 模型的應(yīng)用更為廣泛。為了提高模型的整體預(yù)測效果,研究人員還在ARIMA的基礎(chǔ)上研究出許多組合預(yù)測模型,將在3.3節(jié)進行介紹。
時間序列模型僅分析了時序數(shù)據(jù)變量的潛在關(guān)系,很難用于挖掘數(shù)據(jù)間的非線性關(guān)系。因此這類模型僅適用于靜態(tài)數(shù)據(jù)分析,這是此類模型的一個明顯缺陷。同時伴隨著時間序列數(shù)據(jù)復(fù)雜度的增加,單一時間序列分析模型對數(shù)據(jù)間特征提取效果不足以滿足預(yù)測精度需要。
3.2.3 其他機器學習模型
機器學習模型作為人工智能領(lǐng)域研究的一個分支,模型可以根據(jù)給定的數(shù)據(jù)自適應(yīng)學習做出決策并預(yù)測新的或未來一定時期的數(shù)據(jù)[112]。常見的回歸模型、SVM、隨機森林(random forest,RF)[113]、貝葉斯加性回歸樹(Bayesian additive regression trees,BART)、KNN 等機器學習算法廣泛應(yīng)用于風電輸出功率預(yù)測、風速預(yù)測及其相關(guān)領(lǐng)域。
SVM被廣泛應(yīng)用于風速[114]、風電預(yù)測[115]領(lǐng)域,針對風電數(shù)據(jù)特點,后續(xù)研究人員在SVM 模型基礎(chǔ)上進行改進,提出PSVM(piecewise support vector machine)[116]、LSSVM(least squares support vector machine)[117]等模型,這些模型進一步提升了SVM 模型的魯棒性,提高風電輸出功率預(yù)測精度。此外,基于SVM、PSVM、LSSVM等模型的組合預(yù)測模型相應(yīng)提出?;赟VM的預(yù)測模型建立在嚴格的數(shù)學基礎(chǔ)之上,具有高維計算速度快、不易陷入局部最優(yōu)解等優(yōu)點。但這類方法的效果與核函數(shù)及參數(shù)的選取緊密相關(guān),這一點對使用者經(jīng)驗具有較強的依賴性。
由于RF 具有的簡單性和多樣性特點,被廣泛應(yīng)用于風電輸出功率預(yù)測及相關(guān)領(lǐng)域。隨機森林預(yù)測原理如圖4所示。
圖4 RF預(yù)測原理Fig.4 Principles of RF prediction
Lahouar 等[118]采用RF 提前預(yù)測一小時的風電輸出功率,相較于其他經(jīng)典的機器學習方法不需要調(diào)整和優(yōu)化;Shi等[119]提出了一種基于兩階段特征選擇和決策樹重組的RF模型,取代了訓練樣本和特征變量的無監(jiān)督雙隨機抽樣過程,進一步提高了模型的預(yù)測精度、效率及魯棒性;文獻[120]將RF 算法與決策樹進行對比。此外,Wang 等[121]采用RF 算法進行風速輸入特征選取,進一步簡化風速預(yù)測模型結(jié)構(gòu)并降低模型訓練時間,從而提高了模型的準確性和泛化能力。整體來看,RF 算法適用于海量數(shù)據(jù)集分析,相較于人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)和SVM 等算法具有較高的準確率和計算速度;在某些噪聲較大的分類和回歸問題上會出現(xiàn)過擬合現(xiàn)象,同時當訓練數(shù)據(jù)少于分類類別時效果較差。
BART是一種基于貝葉斯回歸樹的方法,它是單個樹模型的平均值[122]。Chen等[123]提出GKGPR(composite kernel methods based on Gaussian process regression)模型。該模型結(jié)合高斯回歸過程和BART,改善現(xiàn)有BART 模型預(yù)測耗時問題。為更好地驗證BART 模型效果,文獻[124]對BART、GLM(generalized linear model)、GAM(generalized additive model)、RF 等模型進行對比分析。相較于其他機器學習算法,BART 方法預(yù)測精度高且不易出現(xiàn)過擬合現(xiàn)象,但預(yù)測所需時間較長,這并不利于實時預(yù)測需要。
綜上所述,基于機器學習的預(yù)測方法可以根據(jù)數(shù)據(jù)自適應(yīng)學習數(shù)據(jù)特點,相較于物理模型、傳統(tǒng)統(tǒng)計模型和時間序列模型具有較高的預(yù)測精度,但該類模型對于數(shù)據(jù)集大小具有相應(yīng)的要求,易造成過擬合現(xiàn)象。
3.2.4 深度學習模型
隨著深度學習的快速發(fā)展,人工智能技術(shù)在語音識別、計算機視覺等領(lǐng)域廣泛應(yīng)用,同時相關(guān)技術(shù)也被應(yīng)用于風電功率預(yù)測領(lǐng)域[125]?;谏疃葘W習的預(yù)測模型由最初的反向傳播網(wǎng)絡(luò)(back propagation,BP)、RNN、CNN等單一模型預(yù)測到基于RNN等模型改進的模型進行預(yù)測。隨著生成式模型的快速發(fā)展,基于AE、注意力機制(attention)[126]等模型解決了循環(huán)神經(jīng)網(wǎng)絡(luò)中遞歸計算無法并行的問題,同時減少了由于長期依賴性而導致的性能下降問題。此外,GAN網(wǎng)絡(luò)作為生成式模型中的一大代表,也被廣泛用于風電等時序數(shù)據(jù)預(yù)測領(lǐng)域。
單一的BP、RNN等模型是先前預(yù)測模型研究中的重點,如主成分分析(principal component analysis,PCA)與BP 相結(jié)合的風電功率預(yù)測模型[127]、結(jié)合滑動窗口的LSTM 預(yù)測模型[128]、CNN 進行特征提取的預(yù)測模型[129]及小波神經(jīng)網(wǎng)絡(luò)(wavelet neural network,WNN)預(yù)測模型[130]等。這些模型相較于其他機器學習模型具有較高的預(yù)測準確率,但仍存在一些問題。
人們普遍認為RNN的模型效果較差的原因是模型訓練和推理時間長以及訓練困難[131]。因此,在RNN、CNN的基礎(chǔ)上進行改進,并基于RNN、CNN等單一模型構(gòu)建深度學習框架。LSTM等RNN模型由于梯度消失問題的存在,預(yù)測過程中無法捕捉到極長時期的相關(guān)性。LSTNet[132]模型中提出RNN-skip結(jié)構(gòu)用于解決上述問題,并將該模型用于太陽能發(fā)電等時間序列數(shù)據(jù)預(yù)測中,證明該模型的有效性。文獻[133]提出一種以RNN 為基礎(chǔ)的DeepState 時間序列預(yù)測模型,相對于DeepAR 模型[134],在訓練及預(yù)測階段不需要輸入上一時刻的真實值或預(yù)測值,以解決DeepAR 模型訓練和預(yù)測不一致的問題。目前在時序數(shù)據(jù)預(yù)測領(lǐng)域中,基于RNN 模型占有極其重要位置。但在最近的一些實驗研究中發(fā)現(xiàn),一些簡單的CNN模型在不同的序列建模任務(wù)中比循環(huán)體系結(jié)構(gòu)(如LSTM)更有效,如TCN(temporal convolutional network)[135-136]、基于殘差的CNN模型[137]等。但是上述預(yù)測模型中大多數(shù)仍為單步超前預(yù)測,此類模型預(yù)測結(jié)果不足以支撐電力調(diào)度規(guī)劃和運行,此外極個別的多步風電功率預(yù)測模型仍存在忽略不同預(yù)測任務(wù)間的相關(guān)性問題。同時,現(xiàn)有預(yù)測中常采用NWP 數(shù)據(jù)作為輸入進行預(yù)測,而常規(guī)模型無法很好地對NWP數(shù)據(jù)中多元數(shù)據(jù)的長期依賴性很好地提取。AGRU(attention-based gated recurrent unit)[138]模型、MSTAN(multi-source and temporal attention network)[139]模型對上述不足進行了完善,但是導致空間復(fù)雜度等新型問題出現(xiàn)。
AE 由編碼器和解碼器兩部分構(gòu)成,其將原始數(shù)據(jù)壓縮成潛在空間特征,然后經(jīng)過解碼器進行重構(gòu)輸出。近年來基于AE 及其改進模型被廣泛應(yīng)用于風電功率預(yù)測領(lǐng)域(AE 結(jié)構(gòu)示意如圖5 所示)。如SAE-BP[140]將SAE(stacked auto-encoders)與BP 結(jié)合進行風電功率預(yù)測,使得模型相對于BP等模型更穩(wěn)定;SDAE(stacked denoising auto-encoders)[141]能夠模擬給定風場間的空間相關(guān)性和相互依賴性,提高NWP 精度以進行風電功率預(yù)測等。AE 作為無監(jiān)督模型中的一種,可以在數(shù)據(jù)提取過程中過濾噪聲。文獻[142]對現(xiàn)有基于Attention機制的預(yù)測模型進行對比分析,證明基于Attention 機制的模型在一定程度上預(yù)測效果優(yōu)于傳統(tǒng)模型。但這并不能完全說明基于Attention機制的模型一定會比LSTM等RNN模型效果好,如attention-LSTM(在注意力層上疊加一個LSTM層)模型的預(yù)測效果低于vanilla LSTM。從上述文獻中可以看出,單一結(jié)合Attention 機制與RNN等網(wǎng)絡(luò)的預(yù)測方法效果并不一定會優(yōu)于傳統(tǒng)模型,同時也會導致新的問題的出現(xiàn)?,F(xiàn)有基于Attention 模型預(yù)測效果多數(shù)優(yōu)于RNN 等傳統(tǒng)模型,降低了該類模型中CNN 特征提取時的內(nèi)存消耗,但存在權(quán)重冗余現(xiàn)象。
圖5 AE結(jié)構(gòu)示意圖Fig.5 Schematic of AE structure
近些年來,GAN受到廣泛關(guān)注,其中生成器將噪聲變量映射至多層感知機網(wǎng)絡(luò),使生成的數(shù)據(jù)盡可能接近訓練樣本的分布;辨別器再確定輸入數(shù)據(jù)是來自訓練樣本還是生成模型(GAN結(jié)構(gòu)示意圖如圖6所示)。文獻[143]分別采用GAN進行確定性和概率性風電輸出功率預(yù)測,以證明最新發(fā)展的GAN 網(wǎng)絡(luò)可用于風電輸出功率等時序數(shù)據(jù)預(yù)測中?;贕AN網(wǎng)絡(luò)的改進的RAC-GAN[144]、PG-GAN[145]應(yīng)用于風電預(yù)測領(lǐng)域,并取得良好的效果?;贕AN 網(wǎng)絡(luò)的模型為半監(jiān)督模型,不需要人工大量標注數(shù)據(jù)。即使沒有任何標簽,其也可以根據(jù)歷史數(shù)據(jù)對概率分布進行建模。但從整體來看,該類模型計算效率較低且無法描述輸入數(shù)據(jù)特征。
圖6 GAN結(jié)構(gòu)示意圖Fig.6 Schematic of GAN structure
深度學習模型相較于物理模型、傳統(tǒng)統(tǒng)計模型、時間序列模型能夠更好地挖掘數(shù)據(jù)間信息,提高整體的預(yù)測精度。深度學習預(yù)測模型中BP、RNN、CNN等模型能夠較好地提取數(shù)據(jù)內(nèi)部的時序特性或短時信息;基于RNN、CNN 等改進的LSTNet(long and short-term time-series network)等模型針對RNN等模型的局限進行改進,雖提高模型的檢測效果,但仍引進模型過于復(fù)雜等新型問題;基于AE、GAN 等模型改進的生成式預(yù)測模型進一步挖掘數(shù)據(jù)的隱特征信息。這些模型具有較強的學習能力和魯棒性,但隨著數(shù)據(jù)量的增大,特別是模型過于復(fù)雜時,對于計算資源等具有較大的要求,同時深度學習模型的可解釋性仍是目前研究界的一大難點。
由于風電功率具有高隨機性和波動性特點,單一模型的預(yù)測效果往往無法滿足實際需要[146]。近些年來,結(jié)合多個單一模型優(yōu)點的組合模型研究成為風電功率預(yù)測研究中一個熱門方向。目前,組合預(yù)測模型可大致分為四類[147],即基于多模型加權(quán)的組合預(yù)測方法、基于數(shù)據(jù)分解的組合預(yù)測方法、基于優(yōu)化技術(shù)的組合預(yù)測方法和基于誤差修正的組合預(yù)測方法。
3.3.1 基于多模型加權(quán)的組合預(yù)測方法
基于多模型加權(quán)的組合預(yù)測方法通過多個子模型分別進行預(yù)測,并將結(jié)果進行加權(quán)輸出(如圖7 所示),如LSSVM 與RBFNN(radial basis function neural network)加權(quán)組合預(yù)測方法[148],SVM與LSTM、ARIMA等模型加權(quán)組合預(yù)測方法[149],極限學習機、雙向長短期記憶網(wǎng)絡(luò)(bi-directional long short-term memory,BiLSTM)和Elman 網(wǎng)絡(luò)加權(quán)組合預(yù)測方法[150]等。這些方法將多個單一基礎(chǔ)模型進行組合,以提高模型的預(yù)測結(jié)果。為證明加權(quán)組合模型預(yù)測效果優(yōu)于單一模型,文獻[151]采用ARMA、徑向基模型、SVM模型等與組合模型進行對比,以驗證組合模型的優(yōu)異性和準確性。
圖7 基于多模型加權(quán)的組合預(yù)測方法示意圖Fig.7 Schematic diagram of combined forecasting method based on multi-model weighting
此外,模型內(nèi)部結(jié)構(gòu)優(yōu)化及多特征預(yù)測方式也可以進一步提高整體效果。文獻[152]利用非參數(shù)下限估計框架結(jié)合LSTM(長短期記憶網(wǎng)絡(luò))進行短期風電功率預(yù)測,結(jié)果顯示該模型性能優(yōu)于典型的RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))。多特征預(yù)測通過對原始數(shù)據(jù)中某些特征數(shù)據(jù)進行預(yù)測,并將該預(yù)測值作為補充數(shù)據(jù)輸入風電預(yù)測模型中,以提高風電預(yù)測模型的預(yù)測效果和魯棒性。如文獻[153]考慮NWP 數(shù)據(jù)不確定性,采用DBN(deep belief network)進行短期風速數(shù)據(jù)預(yù)測,并將風速預(yù)測值作為補充數(shù)據(jù)采用隨機森林算法進行預(yù)測,結(jié)合加權(quán)投票法(weighted voting approach)進行模型更新。
基于多模型加權(quán)的組合預(yù)測方法通過權(quán)重更新器,可自動調(diào)整每個子模型權(quán)重。其靈活性、適應(yīng)性、預(yù)測精度較高,同時其計算效率低、應(yīng)用場景較窄。
3.3.2 基于數(shù)據(jù)預(yù)處理的組合預(yù)測方法
利用數(shù)據(jù)預(yù)處理技術(shù)將原始風電數(shù)據(jù)分解成多個平穩(wěn)的子序列,并采用模型對子序列分別進行預(yù)測的組合預(yù)測方法如圖8所示。
圖8 基于數(shù)據(jù)預(yù)處理的組合預(yù)測方法示意圖Fig.8 Schematic diagram of combined forecasting method based on data preprocessing
此類方法結(jié)合信號分解思想,采用經(jīng)驗?zāi)J椒纸猓╡mpirical mode decomposition,EMD)、變分模式分解(variational modal decomposition,VMD)等數(shù)據(jù)分解技術(shù)對原始風電(或風速)數(shù)據(jù)進行分解,并采用預(yù)測模型對分解后的數(shù)據(jù)分別進行預(yù)測。如文獻[15]提出基于EMD和人工神經(jīng)網(wǎng)絡(luò)的混合方法用于風力預(yù)測。文獻[154]提出使用改進的VMD 來分解風電數(shù)據(jù),并采用LSTM進行預(yù)測。但上述文獻均未考慮風速等數(shù)據(jù)的季節(jié)性影響,基于此,文獻[155]提出LSTM-SARIMA(LSTM-seasonal autoregressive integrated moving average)超短期風電功率預(yù)測模型,在分解過程中考慮氣象和季節(jié)因素影響,大幅度提高模型的預(yù)測精度。
基于數(shù)據(jù)預(yù)處理的組合預(yù)測方法相較于其他組合預(yù)測方法結(jié)構(gòu)更為簡單、計算效率高,易遷移至點預(yù)測、多步預(yù)測、日前預(yù)測等場景,但整體預(yù)測精度有限,缺乏對預(yù)測誤差的理論分析。
3.3.3 基于優(yōu)化技術(shù)的組合預(yù)測方法
基于優(yōu)化技術(shù)的組合預(yù)測方法通過采用優(yōu)化技術(shù)優(yōu)化模型參數(shù),以此提高模型的預(yù)測效果(如圖9所示)?;谶z傳算法(genetic algorithm,GA)的WSVM-GA[156]模型、基于引力搜索算法(gravitational search algorithm,GSA)的LSSVM-GSA[157]模型等結(jié)合優(yōu)化算法選取最優(yōu)參數(shù),以提高模型預(yù)測精度。
圖9 基于優(yōu)化技術(shù)的組合預(yù)測方法示意圖Fig.9 Schematic diagram of combined forecasting method based on optimization technique
傳統(tǒng)優(yōu)化算法由于自身局限性等因素的影響,無法滿足高水準參數(shù)優(yōu)化需求,基于傳統(tǒng)優(yōu)化算法改進的優(yōu)化技術(shù)也被廣泛應(yīng)用于風電預(yù)測領(lǐng)域。如文獻[158]提出一種改進的果蠅算法優(yōu)化SVM,并用于短期預(yù)測。文獻[159]采用貧富優(yōu)化算法對離群魯棒極限學習機的參數(shù)進行優(yōu)化,提高模型的泛化能力并用于風電功率預(yù)測。文獻[160]提出一種混合改進布谷鳥搜索算法來優(yōu)化支持向量機的超參數(shù),用于短期風電功率預(yù)測。
大多數(shù)深度學習預(yù)測模型訓練受參數(shù)初始化影響,初始化策略基于在神經(jīng)網(wǎng)絡(luò)初始化時實現(xiàn)一些很好的性質(zhì),基于優(yōu)化技術(shù)的組合預(yù)測方法成為近些年研究的一大重點。相較于傳統(tǒng)優(yōu)化技術(shù)應(yīng)用受限問題,GA等智能優(yōu)化技術(shù)針對數(shù)據(jù)的不確定性也有很強的適應(yīng)能力,有些能夠得到更快的收斂率和更好的泛化誤差。但相較于傳統(tǒng)優(yōu)化技術(shù),此類理論分析不夠完善,且存在求解無法保證最優(yōu)解的問題。
3.3.4 基于誤差修正的組合預(yù)測方法
基于誤差修正的組合預(yù)測方法是利用數(shù)據(jù)后期處理技術(shù)的組合方法來減少預(yù)測方法中誤差所帶來的負面影響的組合預(yù)測算法(如圖10所示)。
圖10 基于誤差修正的組合預(yù)測方法示意圖Fig.10 Schematic diagram of combined forecasting method based on error correction
該類方法通常采用統(tǒng)計方法對誤差進行估計,以提高模型的整體預(yù)測效果。如文獻[161]采用馬爾可夫?qū)δ:窠?jīng)網(wǎng)絡(luò)(fuzzy neural networks,F(xiàn)NN)模型預(yù)測結(jié)果進行修正;文獻[162]在高斯過程中使用時空局部滑動窗口技術(shù)來檢查預(yù)測誤差,進而提高預(yù)測效果等。此外,機器學習方法也常用于誤差估計中。文獻[163]采用SVM和Elman網(wǎng)絡(luò)進行預(yù)測和誤差模型的構(gòu)建;文獻[164]采用基于RBF的LSSVM進行誤差修正。與未修正誤差的預(yù)測模型相比,修正后的預(yù)測模型預(yù)測精度明顯提高。
基于誤差修正的組合預(yù)測方法量化模型誤差大小和數(shù)據(jù)噪聲的不確定性,擁有較高預(yù)測精度,可提供預(yù)測誤差的統(tǒng)計分析。但相較于其他組合算法來看,整體計算效率較低。
在工業(yè)界和學術(shù)界的時間序列預(yù)測數(shù)據(jù)中,通常具有分層結(jié)構(gòu),其中每個上層時間序列是通過對對應(yīng)的下層時間序列求和進行計算的,即上層時序數(shù)據(jù)等于下層時序數(shù)據(jù)之和[165]。在過去幾十年中,共有三種協(xié)調(diào)方法用以確保預(yù)測的連貫性,即自下而上、自上而下和兩者結(jié)合的中間向兩邊的方式。每個方法都側(cè)重于不同的聚合級別以產(chǎn)生預(yù)測,如自下而上的方法首先對底層時間序列進行預(yù)測,并根據(jù)聚合方式來獲得高層次時間序列預(yù)測值。該方法優(yōu)點是幾乎不丟失信息,但往往會隨著時間序列級別的上升而積累預(yù)測誤差。自上而下的方法首先對頂層時間序列進行預(yù)測,并根據(jù)較低層次的歷史比例進行預(yù)測。該方法在底層節(jié)點預(yù)測存在誤差時是穩(wěn)定的,但往往無法利用較低級別時間序列的詳細信息。中間向兩邊的方法首先對中間某層時間序列進行預(yù)測,并結(jié)合自上而下和自下而上的方法完成剩余層級的預(yù)測。MA(moving average)等方法廣泛應(yīng)用于多層時序數(shù)據(jù)預(yù)測中,但其準確率低,同時當其受到時間變化或任何突然變化的影響,它們可能無法很好地執(zhí)行[166]。
上述方法通常采用基礎(chǔ)預(yù)測和根據(jù)層次結(jié)構(gòu)協(xié)調(diào)預(yù)測兩部分進行,預(yù)測效果不佳。針對這一問題,文獻[166]提出一種結(jié)構(gòu)化的正則化方法,同時進行上述兩個階段以產(chǎn)生更好的時間序列預(yù)測。該方法相較于傳統(tǒng)機器學習方法,更易于擴展至ANN 模型中。與此不同的是,文獻[167]提出一種新的支持向量回歸方法來處理多層時間序列預(yù)測,其通過兩種變體進行跨層級匯集信息,防止底層預(yù)測相對于上層序列存在很大偏差。為降低低層次預(yù)測誤差累計問題,文獻[168]使用DLSTM-AE(deep long short-term memory model in auto-encoder)對底層時間序列數(shù)據(jù)進行訓練和預(yù)測,并采用遷移學習對上層結(jié)構(gòu)時間序列數(shù)據(jù)進行同步訓練,以估計目標預(yù)測。該方法相對于MA等靜態(tài)方法考慮更多有用信息,并結(jié)合遷移學習降低模型訓練及預(yù)測所需時間,顯著提高模型的預(yù)測效率。但在現(xiàn)有的大多數(shù)方法中僅可進行點預(yù)測,而不是概率性預(yù)測。在實踐中,概率性預(yù)測能幫助運維人員更好地制定決策和風險管理。針對這一問題,文獻[169]提出一種多層次概率性預(yù)測方法,采用end-to-end模型同時進行基礎(chǔ)預(yù)測和層次協(xié)調(diào)。相對來說,該方法更適用于高斯分布數(shù)據(jù),對于非高斯分布數(shù)據(jù),作者并未進行相應(yīng)的探討和研究。整體來看,此類文獻或?qū)θN協(xié)調(diào)技術(shù)進行優(yōu)化,或提高模型預(yù)測精度以降低預(yù)測誤差,或?qū)⑶罢呓M合,提高基礎(chǔ)模型預(yù)測效果的同時,充分提取多層次時序數(shù)據(jù)間的層次關(guān)系,以提高整體效果。
自適應(yīng)為軟件系統(tǒng)配備一個反饋回路,使得系統(tǒng)可以自動執(zhí)行原本需要由操作人員執(zhí)行的任務(wù)。近些年來,機器學習成為支持自適應(yīng)的流行方法。但針對機器學習技術(shù)處理自適應(yīng)中的幾個方面,仍面臨著一些問題。
Gheibi 等[170]介紹了在自適應(yīng)系統(tǒng)中機器學習解決的問題、自適應(yīng)學習時考慮的關(guān)鍵工程及自適應(yīng)系統(tǒng)中使用機器學習所面臨的挑戰(zhàn)。自適應(yīng)系統(tǒng)中機器學習問題包含適應(yīng)問題和學習問題:適應(yīng)問題包括質(zhì)量提高、平衡質(zhì)量與資源、平衡質(zhì)量與成本、改進資源分配和防御網(wǎng)絡(luò)威脅;機器學習解決的具體問題包括更新/更改適應(yīng)規(guī)則/策略、預(yù)測/分析資源使用、保持運行時模型最新、減少大適應(yīng)空間、檢測/預(yù)測異常、收集不可用的先驗知識。
風電預(yù)測系統(tǒng)中如何保持運行時模型最新是學習問題的一大重點,而終身機器學習(lifelong machine learning)是機器學習系統(tǒng)學習未提前定義的新任務(wù)的能力[171],但目前終身機器學習存在處理時災(zāi)難性遺忘和機器學習管道機制規(guī)范不足的問題,即學習新信息時丟失以前學習到的信息和模型訓練到部署時性能顯著下降問題。Chen[172]使用所有可用數(shù)據(jù)在每個循環(huán)中重新訓練一個新模型,以及使用新到達的數(shù)據(jù)樣本重新訓練現(xiàn)有模型兩種方法來處理自適應(yīng)學習中的概念漂移。Chen等[173]利用自適應(yīng)多學習器,動態(tài)選擇最佳模型進行預(yù)測,并在云環(huán)境中進行評估。針對數(shù)據(jù)中存在的概念漂移和協(xié)變量漂移問題,Gheibi 等[174]提出一種新的自適應(yīng)方法,以更新自適應(yīng)系統(tǒng)的學習模型。
整體來看,目前自適應(yīng)系統(tǒng)內(nèi)機器學習算法研究以監(jiān)督學習方式為主,無監(jiān)督學習、對抗學習及主動學習方式研究較少。同時,學術(shù)界與工業(yè)界對于研究的認可存在差異,學術(shù)界傾向于最新的研究發(fā)現(xiàn),而工業(yè)界更側(cè)重于成熟的研究,這也或?qū)⑹悄壳盎谧赃m應(yīng)預(yù)測系統(tǒng)研究不成熟的問題之一。
現(xiàn)有預(yù)測方法對比效果如表3 所示。針對目前研究中不同方法及應(yīng)用存在的問題,大致分為以下幾點:
表3 現(xiàn)有風電功率預(yù)測方法對比Table 3 Comparison of existing wind power forecasting methods
(1)NWP數(shù)據(jù)精度提升問題:針對3.1節(jié)中,NWP數(shù)據(jù)中存有誤差,使得后期風電功率預(yù)測時存在一定程度的誤差,因此如何通過提升原始NWP 數(shù)據(jù)精度以提高風電預(yù)測模型精度將是未來研究中的一個重點及難點[175]。
(2)組合預(yù)測模型缺陷完善問題:針對3.3 節(jié)中,多個單一模型組合構(gòu)成的組合模型在一定程度上解決了單一模型自身存在的弊端,使得整體風電功率預(yù)測精度超過或等于最優(yōu)單一模型預(yù)測精度。但上述四種不同類型的組合模型具有不同的優(yōu)缺點,針對實際問題揚長補短是今后研究中著重考慮的問題之一[176-177]。
(3)風電功率爬坡事件預(yù)測問題:為解決風電功率爬坡事件并網(wǎng)時對電網(wǎng)產(chǎn)生損害情況,提前對風電輸出功率爬坡事件的預(yù)測是必要的[178]。同時,將儲能系統(tǒng)研究與風電預(yù)測相結(jié)合的方式可以減緩風電爬坡事件帶來的影響,目前雖有些許相關(guān)研究,但整體來看仍有一定進步空間[179]。
(4)模型可解釋性及子任務(wù)協(xié)同問題:目前研究中,大多數(shù)文獻將預(yù)測模型認定為黑盒問題,并未深入研究模型內(nèi)部參數(shù)與實際預(yù)測值精度間相關(guān)性;同時針對3.4節(jié)分析,多層級預(yù)測等預(yù)測子任務(wù)間協(xié)同訓練也是目前研究中亟待解決的重要問題之一[180]。
(5)模型融合問題:現(xiàn)有基于時間序列分析的深度學習框架中,許多通過些許修改以用于異常值檢測、插值等領(lǐng)域?,F(xiàn)有研究中,異常檢測、插值和預(yù)測等模型研究通常是相互獨立的,大多針對數(shù)據(jù)本身研究,這也或?qū)⒊蔀閷е峦瑫r進行異常值檢測、插值及預(yù)測的模型框架目前研究較少的主要原因。采用模型融合思想,使模型可同時進行數(shù)據(jù)清洗和預(yù)測將是未來研究的一個方向[181]。
(6)基于模型的自適應(yīng)風電預(yù)測系統(tǒng)研究問題:常規(guī)預(yù)測系統(tǒng)仍為目前風電功率預(yù)測系統(tǒng)研究中的研究重點,該類系統(tǒng)仍停留在以代碼為中心的自適應(yīng)系統(tǒng)或未添加自適應(yīng)性系統(tǒng)的情況下。如3.5 節(jié)所述,基于機器學習的自適應(yīng)系統(tǒng)在發(fā)生變化時應(yīng)當具有自動進行規(guī)劃的能力[182],使得預(yù)測系統(tǒng)具有自主規(guī)劃、及時響應(yīng)特點的研究是未來發(fā)展的一個重點方向。
風電數(shù)據(jù)存在較強的隨機性和不確定性,使得高精準度的風電功率預(yù)測模型難以構(gòu)建。針對風電數(shù)據(jù)采集過程中存在的異常及缺失數(shù)據(jù),本文對現(xiàn)有研究中的異常值檢測技術(shù)、缺失值插補技術(shù)和風電功率預(yù)測技術(shù)的研究現(xiàn)狀根據(jù)模型特點進行劃分和分析,并對未來技術(shù)進行展望。由技術(shù)角度發(fā)現(xiàn),現(xiàn)有模型朝著組合化、復(fù)雜化發(fā)展。希望本綜述對風電等時序數(shù)據(jù)的異常檢測、缺失插補及數(shù)據(jù)預(yù)測領(lǐng)域的研究提供一定的參考價值,可以為相應(yīng)模型的深入研究提供一定的幫助。