陳功貴, 陳 靖, 郭艷艷, 王 偉
(1.重慶郵電大學重慶市復雜系統(tǒng)與仿生控制重點實驗室,重慶400065;2.武漢鐵路職業(yè)技術學院機械與電子學院,武漢430205;3.國家電網重慶市綦南供電局,重慶401420)
風速的隨機性和波動性給風速預測增加了難度[1-2]。風速預測精度的提高需要對風速數據進行預處理,還要選擇一個合適的預測模型。物理和統(tǒng)計方法是目前風速預測的主要方法[3-4]。統(tǒng)計方法包括時間序列模型、支持向量機模型(SVM)和人工神經網絡模型(ANN)等[5-6]。數據分析和處理方法有小波變換、經驗模態(tài)分解等[7-8],同時也有很多研究者引入智能優(yōu)化算法對神經網絡提出了改進[9-11]。本文考慮了風速異常值對預測結果的影響,融合了基于統(tǒng)計學和距離的離群點檢測方法,同時結合小波閾值去噪降低風速的隨機性,選擇BP作為預測模型可以讓學生了解BP的結構和誤差反向傳播過程,增強學生的求知欲,有利于進行后續(xù)風速預測的研究。
3 000個風速數據均取自某風電場實測風速,采樣的時間間隔為15 min。將3 000個風速數據分為3組,分別記為X1,X2,X3,每一組900個數據用于訓練,100個數據用于預測(見圖1)。
圖1 原始風速序列X1、X2、X3
離群點檢測是指找出數據集中極大或極小值。采樣錯誤、記錄時出現筆誤等諸多因素都可能導致離群點的產生。由于風速的間歇性,風速序列本身也可能出現異常的數據。基于統(tǒng)計學的離群點檢測可以描述為:符合正態(tài)分布的值出現在分布末端的概率很小。
表1 落在標準差中心區(qū)域外的概率
表1為落在標準差中心區(qū)域外的概率。表中μ和σ分別為序列的均值和標準差,數值出現的概率隨著與均值距離的增加而降低。若數值和均值的距離過大,可以判斷該數值為離群點,即當風速數據xi>μ+aσ或xi<μ-aσ時,xi為離群點,a是離群點的容忍度,離群點檢測結果取決于a的大小?;诰嚯x的離群點檢測:數據集S中至少有p部分對象和對象o的距離大于d,則o是一個帶參數p和d的基于距離的離群點[12]。統(tǒng)計學和距離相結合的離群點檢測方法步驟如下:
(1)風速數據X = [x1,x2,…,xn],計算序列X 鄰域半徑內的距離之和DistanceX(k),k為鄰域半徑,
式中,N(i,k)是不包含xi的k最近鄰集合。
(2)利用基于統(tǒng)計學方法判斷Distancexi(k)是否為離群點。若Distancexi(k)為離群點,則Distancexi(k)對應的xi為離群點,并將xi從風速序列X中剔除。
利用統(tǒng)計學方法判斷離群點時,往往只能判斷全局離群點。為了能找到風速序列中的局部離群點,可以將DistanceX(k)分為若干組,分別計算每一組的均值和標準差,然后再利用統(tǒng)計學方法來判斷離群點,基于分組的統(tǒng)計學離群點檢測流程圖如圖2所示。
圖2 基于分組的統(tǒng)計學離群點檢測流程圖
本文將48個風速數據分為一組,即12 h的風速采樣數據為一組。將DistanceX(k)分組后可以在每個組內進行離群點檢測,由于每一組的均值和方差不同,故能合理地找出風速序列中的局部離群點。離群點檢 測結果如圖3所示。
圖3 風速序列X1、X2、X3離群點檢測結果
小波閾值去噪分為硬閾值和軟閾值法[13-14]。小波閾值去噪一般步驟:①選擇小波函數對信號進行m層分解,分解后得到小波分解系數;② 選擇硬閾值或軟閾值法對高頻系數進行閾值量化處理;③根據第m層的低頻系數和量化后的高頻系數進行重構。
選擇db小波系進行一層分解并用軟閾值法對高頻系數閾值量化處理,去噪結果如圖4所示。
圖4 風速序列X1、X2、X3閾值去噪結果
粒子群優(yōu)化算法[15-16]假設在D維目標搜索空間中有S個隨機解,隨機解的范圍取決于不同問題,對于PSO-BP,隨機解的范圍是BP神經網絡初始權值和閾值的范圍。第i個粒子的速度:
第i個粒子的個體極值:
式中:c1、c2為學習因子;r1、r2為0~1之間的均勻隨機數;ω為慣性權重。此次仿真實驗群體為40,最大迭代次數為100,c1=2.0,c2=1.0。
BP的初始權值和閾值一般為0~1之間的隨機數值。但是對于具體問題,權值和閾值的選擇需要經過多次重復試驗才能確定一個大致范圍,沒有一組初始權值和閾值可以有效地解決所有問題。BP參數的隨機性導致預測精度不穩(wěn)定,為了使BP能得到更高的預測精度,以及保證預測結果的穩(wěn)定性,通過PSO來尋找BP的最優(yōu)初始權值和閾值。
PSO-BP的流程圖如圖5所示,首先確定BP神經網絡的結構:本文采用一步預測方法,利用過去i個時刻的風速數據作為輸入來預測下一時刻風速,輸入層節(jié)點數為過去i個時刻的風速個數,隱含層節(jié)點數為2i+1,輸出節(jié)點數為1;然后將BP的預測誤差作為粒子的適應度值,然后根據式(5)迭代更新尋找最佳初始權值和閾值,當PSO尋優(yōu)結束后,BP獲取優(yōu)化后的初始權值和閾值;最后訓練BP神經網絡并進行仿真預測。
圖5 PSO-BP結構圖
風速預測結果的優(yōu)劣取決于預測值和真實值之間的差距,以及分散程度。采用單一誤差評價指標無法準確反映預測模型的整體性能,所以需要多個不同的誤差評價指標來全方位衡量模型的優(yōu)劣。以下3種評價指標可判斷預測結果的優(yōu)劣。
平均絕對誤差:
式中:yi為風速的真實值;為模型的預測值;p為預測風速的個數。
混合預測模型如圖6所示。原始風速序列經過離群點檢測后,利用小波閾值去噪方法減少風速序列的噪聲信息,然后利用PSO對BP的初始權值和閾值進行優(yōu)化,最后利用優(yōu)化后的BP網絡進行訓練和預測。此外,為了驗證本文提出的混合預測模型的預測效果,采用以下幾種模型進行對比分析(見圖7)。
圖6 混合預測模型
圖7 對比模型
基于距離的離群點檢測結果依賴于鄰域半徑k的選擇,對于每個風速序列X1、X2、X3選擇離群點的容忍度a為3。設置鄰域半徑k分別為[1,2,…,6]。利用BP神經網絡進行50次獨立重復試驗得到表3的平均誤差指標。
表3 不同鄰域半徑預測結果的誤差指標均值
由表3可知,對于風速序列X1,當鄰域半徑k=3時,MAPE、MAE、RMSE 的值均為最小,故當k=3時預測效果最好。對于風速序列X2、X3,當k分別為3和6時,能得到最好的預測效果。
在利用統(tǒng)計學方法檢測離群點時,數值是否為離群點取決于容忍度大小a的選擇。容忍度過大,不能準確地檢測出風速數據中的異常值;容忍度過小,容易將正常的風速數據錯誤地判斷為離群點。根據表3數據的分析,對于風速序列X1、X2、X3分別選擇鄰域半徑為3、3、6。利用BP神經網絡對不同的容忍度分別進行50次獨立重復試驗來分析a對預測結果的影響,50次試驗的平均誤差指標如表4所示。
a=∞表示不對風速數據進行離群點檢測。由表4 可知,對于序列X1,X2,X3,當容忍度a 分別為2.0,2.5,3.0 時,其MAPE、RMSE、MAE 均小于其他容忍度對應的值,說明預測精度更高。由于風速數據的特性,對于不同的風速數據,必須采用不同的容忍度。
表4 不同容忍度預測結果的誤差指標均值
對于X1,離群點檢測參數組合為:a =2.0,k=3;對于X2,離群點檢測參數組合為:a=2.5,k=3;對于X3,離群點檢測參數組合為:a=2.0,k=6。確定了離群點檢測合適的參數組合后,利用本文所提出的模型以及其他對比模型對風速進行一步預測。預測結果如圖8~10所示。
圖8 不同模型對于X1(a =2.0,k=3)的預測結果
圖9 不同模型對于X2(a=2.5,k=3)的預測結果
圖10 不同模型對于X3(a=2.0,k=6)時預測結果
本文所提出的預測模型和OD-PSO-BP比較,加入了小波閾值去噪減少了風速序列的噪聲信號,3個誤差指標都優(yōu)于OD-PSO-BP;而對比WTD-PSO-BP模型,改進的離群點檢測剔除了數據中的異常值,提高了預測的精度;此外,BP神經網絡的初始權值和閾值的選擇沒有理論指導,但因為初始權值和閾值由PSO尋優(yōu)得到,故本文所提出的預測模型的預測精度高于未優(yōu)化的BP預測模型;和ARIMA相比,BP神經網絡在處理非線性問題上呈現出更好的效果。表5是不同模型預測結果的誤差指標。
表5 不同模型預測結果的誤差指標
將風速序列X1、X2、X3的預測結果進行橫向對比,X1序列預測結果的平均絕對百分比誤差最大,反映了X1序列的預測結果相較于X2、X3的總體平均性能較差。而X1序列預測結果的平均絕對誤差優(yōu)于X2、X3,說明X1預測誤差值較?。籜1序列預測結果的均方根誤差也小于X2、X3,反映了X2、X3的預測值的分散程度大于X1。通過三個序列預測結果對比,說明了一個風速預測模型難以適應所有的風速序列。
本文結合了統(tǒng)計學和距離的離群點檢測方法來檢測原始風速數據中的異常值,針對不同的風速序列,通過多次重復實驗后找到合適的參數組合,合理地剔除異常值,有利于提高模型的預測精度;小波閾值去噪可以減少原始風速數據的噪聲信號,提取有用的信號;智能優(yōu)化算法可以為BP神經網絡選擇合適的初始權值和閾值,有效地改善了BP神經網絡的容易陷入局部最優(yōu)的局限性,從而提高預測模型的穩(wěn)定性;無論哪一種預測模型,對于波動性較小的風速序列,其預測效果均好于波動性較大的風速序列;仿真研究提升了學生解決復雜工程問題的程序創(chuàng)新能力,對于怎樣圍繞“大融合、大創(chuàng)新、大思考、大實踐”內涵的新工科教學質量提升做出了有益探索。也讓學生對數據挖掘、人工神經網絡等前沿知識有了進一步的理解,同時也激發(fā)了學生的學習樂趣。