王文川, 杜玉瑾,2, 和吉, 邱林
(1.華北水利水電大學 水資源學院,河南 鄭州 450046; 2.黃河水利委員會 西峰水文水資源勘測局,甘肅 慶陽 745099)
準確預測徑流對發(fā)電、防洪、供水、多能源調(diào)度、環(huán)境保護、配水系統(tǒng)優(yōu)化和改善生態(tài)環(huán)境等各種實際工程問題至關重要[1-2]。眾所周知,徑流通常受降水、蒸發(fā)和太陽輻射等多種因素影響,并表現(xiàn)出強烈的非線性、高不確定性和時空變化的綜合特征[3-5]。近年來,嚴重的氣候變化和人類活動已對徑流一致性產(chǎn)生了不可忽視的影響,在迅速變化的環(huán)境中準確地捕獲徑流的動態(tài)過程變得越來越困難。為提高水文預報精度,不同學者提出了許多預測模型,這些模型大致分為過程驅動和數(shù)據(jù)驅動兩類[6]。過程驅動模型以水文學概念為基礎,需要大量水文氣象資料,并考慮不同時空條件下水文規(guī)律的差異性,因此易存在泛化性差以及參數(shù)不確定性等問題。數(shù)據(jù)驅動模型基本不考慮系統(tǒng)水文過程的物理機制,是以最優(yōu)數(shù)學關系為目標,建立輸入和輸出之間關系的黑箱子方法,在時間序列分析與預測方面有獨特的優(yōu)勢。如陶思銘等[7]根據(jù)流域水文資料構建了唐乃亥控制流域逐日徑流長短時記憶神經(jīng)網(wǎng)絡(Long Short-term Memory Network,LSTM)預報模型。趙益平等[8]構建了R/S-BP耦合模型,并成功應用于釜溪河流域年徑流預報中。本文主要探索BP(Back Propagation)神經(jīng)網(wǎng)絡模型融合數(shù)據(jù)預處理技術在流域月徑流量預報中的適用性。
由于徑流過程具有隨機性、趨勢性等特征,故單一預測模型通常難以有效地擬合整個水文過程,有研究表明,信號分解技術可以將具有高復雜性的序列分解為一系列相對穩(wěn)定的子序列[9],降低了徑流量序列的非平穩(wěn)性,進而降低了模型預測難度。目前,典型的信號預處理方法有奇異譜分析法(Singular Spectrum Analysis,SSA)、經(jīng)驗模態(tài)分解法(Empirical Mode Decomposition,EMD)、集合經(jīng)驗模態(tài)分解(Ensemble Empirical Mode Decomposition,EEMD)、小波分解(Wavelet Decomposition,WD)等。不同學者也做了大量有益的探索,如李福興等[10]采用EMD提取徑流序列中具有物理含義的信號,結合差分整合移動自回歸模型(Autoregressive Integrated Moving Average mode,ARIMA)和廣義回歸神經(jīng)網(wǎng)絡(Generalized Regression Neural Network,GRNN)模型分別對不同時間尺度的分量進行模擬。梁浩等[11]融合大氣環(huán)流異常因子信息,在優(yōu)選BP神經(jīng)網(wǎng)絡、多元線性回歸(Multiple Linear Regression,MLR)和支持向量機(Support Vector Machine,SVM)的基礎上,分別基于EMD、EEMD和WD構建了多種混合模型。EEMD方法雖然解決了EMD所存在的問題,但若添加的白噪聲幅值不適合,會造成計算量冗余以及模型搭建時間增加等問題。自適應噪聲的完全集合經(jīng)驗模態(tài)分解(Complete Ensemble Empirical Mode Decomposition with Adaptive Noise,CEEMDAN)很好地克服了上述方法存在的問題。該分解方法已應用到序列分解上,并取得了很好的表現(xiàn),如韓宏志等[12]結合回聲狀態(tài)網(wǎng)絡(Echo State Network,ESN)、CEEMDAN與誤差修正,提出了一種基于ESN的混合風速預測方法?;诖?本文將CEEMDAN用于分解月徑流時間序列,但CEEMDAN分解得到的高頻分量,如IMF1,會增加預測難度。單一分解方法可能難以全面捕捉信號的非線性特征,如何解決IMF1非線性強、復雜性高的問題成為進一步提升水文預報精度的關注焦點。針對以上問題,頡清云等[13]提出了一種基于改進集合經(jīng)驗模態(tài)分解(Modified Ensemble Empirical Mode Decomposition,MEEMD)-局部均值分解(Local Mean Decomposition,LMD)-門控循環(huán)單元(Gated Recurrent Unit,GRU)的超短期組合風速預測模型。趙征等[14]提出了一種基于完備經(jīng)驗模態(tài)分解(Completely Ensemble Empirical Mode Decomposition,CEEMD)、變分模態(tài)分解(Variational Mode Decomposition,VMD)和最小二乘支持向量機(Least Square Support Vector Regression,LSSVR)的混合風速預測模型?!岸畏纸狻斌w現(xiàn)了對原始數(shù)據(jù)處理的“精細化”思想,降低了一次分解中復雜分量的預測難度。目前衡量數(shù)據(jù)復雜度的方法有近似熵、樣本熵等,與近似熵相比,樣本熵改進了近似熵中因對自身數(shù)據(jù)的比較而產(chǎn)生計算偏差和一致性較差的缺陷[15]。因此,本文采用樣本熵方法定量衡量CEEMDAN分解各子序列的復雜性。
基于“分解與集成”的思想[16],本文嘗試采用二次分解方法對非線性信號進行預處理,提出將CEEMDAN-VMD二次分解方法與BP神經(jīng)網(wǎng)絡結合的月徑流量混合預測模型。首先,利用CEEMDAN分解原始徑流量序列,利用樣本熵評估各子序列的復雜性;然后采用VMD二次分解復雜度最高的分量,所有子序列作為BP預測模型的輸入;最后線性疊加所有分量預測結果,得到最終預測結果。
CEEMDAN是在EMD和EEMD基礎上的改進算法,克服了EMD的模態(tài)混淆問題和EEMD的噪聲殘留問題,分解過程完整,重構誤差幾乎為零[17]。
原始信號為x(t),假設Ek(·)和IMFk分別為EMD和CEEMDAN產(chǎn)生的第k階模態(tài)分量;Vj(t)為第j次實驗加入的白噪聲序列。
1)CEEMDAN利用EMD對加入白噪聲的原始信號進行n次分解,得到的第1個模態(tài)分量為:
(1)
2)由CEEMDAN得到的第1個且唯一的余量序列為r1(t),并向第2個余量中加入噪聲分量ε1E1[vm(t)],第2個模態(tài)分量為IMF2(t):
r1(t)=x(t)-IMF1(t),
(2)
(3)
3)重復第2步,可得第i個余量及第i+1階模態(tài)分量,直到余量信號無法進行分解時,CEEMDAN終止,分解得出k階模態(tài)分量。其中R(t)為最終的殘差:
ri(t)=ri-1(t)-IMFi(t),
(4)
(5)
(6)
樣本熵(Sample Entropy,SE)是一種衡量序列復雜度的工具,其計算過程簡單,抗干擾能力強,已在多學科中被廣泛使用。本文采用樣本熵衡量CEEMDAN分解得到的各子序列的復雜度。樣本熵的值越大,序列復雜度越高,反之越小。原始信號為X=(x(1),x(2),…,x(n)),計算步驟如下:
1)將時間序列重構到m維:
(7)
2)向量X(i)和X(j)之間的距離記為d[X(i),X(j)]:
d[X(i),X(j)]=max(|X(i+l)-X(j+l)|)。
(8)
式中:l=1、2、…、m-1;1≤i≠j≤n-m+1。
(9)
(10)
5)增加維數(shù)到m+1,并重復步驟1—3,得:
(11)
6)序列樣的SE為:
(12)
VMD作為一種新的自適應數(shù)據(jù)分解方法,充分利用變分模式和非遞歸方法生成一定數(shù)量的IMF分量和一個殘差(Res)。在VMD中,假定每個模型都具有一定中心頻率的帶寬。通過確定約束變分模型的最佳方案即原先設定合理的收斂個數(shù)k,可以獲得復雜度較低的分解結果。VMD的總體框架主要包括問題的構造與求解,其分解的模式比常規(guī)方法的分解模式更穩(wěn)定。假設原始信號為f(t),約束變分問題如下:
(13)
式中:mi為分解后的i個模態(tài)分量;i為模態(tài)分量個數(shù)(i=1、2、…、n);pi為模態(tài)函數(shù)對應中心頻率集合;δ為迪克拉函數(shù);?為卷積運算;j2=-1。具體計算過程可見文獻[18]。
BP神經(jīng)網(wǎng)絡是一種誤差逆向傳播的多層前饋神經(jīng)網(wǎng)絡,模擬神經(jīng)元信號傳遞過程,輸入層用于接收信號模擬感覺神經(jīng)元,然后傳遞到隱含層最終從輸出層輸出,具有結構簡單、計算量小、分布式協(xié)作、信息共享等特點。BP模型是水文預測領域應用最廣泛的人工神經(jīng)網(wǎng)絡模型。本研究采用Levenberg-Marquardt(LM)方法、Sigmoid函數(shù)和Purelin公式分別作為BP模型的訓練函數(shù)、傳遞函數(shù)和輸出函數(shù)。BP模型的數(shù)學公式可以表示為
(14)
f(x)=tansig(x)=(ex-e-x)/(ex+e-x)。
(15)
針對徑流時間序列的非平穩(wěn)性、隨機性,本文提出了CEEMDAN-VMD-BP徑流預測模型。模型具體流程圖如圖1所示。
圖1 徑流預測流程圖
首先將原始月徑流量序列應用CEEMDAN方法分解得到9個IMF分量和1個Res分量,計算各分量的樣本熵;然后采用VMD對具有最大樣本熵值的分量進行二次分解進而削弱徑流序列的非平穩(wěn)性;再利用BP神經(jīng)網(wǎng)絡模型對各分量進行預測;最后對各分量的預測值線性疊加得到模型最終預測結果。
洪家渡水電站位于貴州西北部烏江干流上,是烏江水電基地11個梯級電站中唯一對水量具有多年調(diào)節(jié)能力的“龍頭”電站。壩址以上控制流域面積9 900 km2,多年平均徑流量48.9億m3,在烏江水量基地梯級調(diào)度中占據(jù)重要戰(zhàn)略地位。本文選取洪家渡水電站1951年1月—2005月12月實測月徑流量資料為研究對象,數(shù)據(jù)來源于文獻[19],其中1951年1月—2000年12月的數(shù)據(jù)作為率定數(shù)據(jù),以2001年1月—2005年12月的數(shù)據(jù)作為驗證數(shù)據(jù),如圖2所示。
圖2 洪家渡水電站實測月徑流時間序列
洛寧縣位于河南省洛陽市,洛河是其境內(nèi)最大的河流,發(fā)源于陜西省商洛市洛南縣龍?zhí)度?由河南省鞏義市神堤山注入黃河。河道全長447 km,流域面積18 881 km2。長水水文站位于洛寧縣中部,始建于1951年,位于洛河干流中上游,年過境水量12.53億m3。多年平均降水量656.9 mm,降水季節(jié)性波動很大,年平均蒸發(fā)量1 597.5 mm。本文以長水水文站1956年1月—2016年12月實測月徑流量資料為研究對象,其中,1956年1月—2001年12月的數(shù)據(jù)作為率定數(shù)據(jù),2002年1月—2016年12月的數(shù)據(jù)作為驗證數(shù)據(jù),如圖3所示。
圖3 長水站實測月徑流時間序列
采用CEEMDAN對實測月徑流量數(shù)據(jù)進行分解,然后計算各分量的樣本熵值。設置噪聲標準差為0.2,最大迭代次數(shù)為5 000,洪家渡水電站和長水站CEEMDAN分解結果見圖4和圖5。從圖4和圖5中可看出,從IMF1至Res序列波動性逐漸增強,然后計算各分量樣本熵值,條件閾值取序列標準差0.2倍,m為2,計算結果見表1和表2。由表1和表2可知,IMF1樣本熵值最大,表明其序列復雜度最高,因此采用VMD二次分解IMF1進而降低其復雜性。經(jīng)過反復測試,設置分解個數(shù)k=8,其余參數(shù)為默認值,VMD分解得到的各分量形式與CEEMDAN結果類似。將得到的各分量進行歸一化處理,并作為BP神經(jīng)網(wǎng)絡模型的輸入進行徑流時間序列的預測。
圖4 洪家渡水電站CEEMDAN分解結果
圖5 長水站CEEMDAN分解結果
表1 洪家渡水電站CEEMDAN各分量的樣本熵值
表2 長水站CEEMDAN分解得各分量的樣本熵值
本文采用標準的三層前饋神經(jīng)網(wǎng)絡對月徑流量進行預測,輸入和輸出層節(jié)點的數(shù)量分別等于輸入變量的數(shù)量和1。Levenberg-Marquardt(LM)方法、Sigmoid函數(shù)和Purelin函數(shù)分別用作訓練函數(shù),傳遞函數(shù)和輸出函數(shù)。通過試錯法確定隱藏節(jié)點的最佳數(shù)量確定為8,訓練次數(shù)為500。
為了準確衡量各模型的預測能力,本文選取均方根誤差(RMSE)、平均絕對百分比誤差(MAPE)、納什系數(shù)(NSE)和皮爾遜相關系數(shù)(R)來評定各種預報模型的預測精度。RMSE對測量數(shù)據(jù)中的特大或特小誤差反映非常敏感,所以能更好地反映預報數(shù)據(jù)的精密度。MAPE是用來衡量預測誤差的無偏統(tǒng)計量,由于離差被絕對值化,避免了正負相抵消的情況,因此能更好地反映預測誤差的實際情況。NSE用來衡量預測值和實際值之間的吻合程度,取值區(qū)間為(-∞,1),值越接近于1吻合程度越高。R作為水平預測共線性程度的標準,對高極值敏感程度高。RMSE、MAPE、NSE和R的計算公式如下:
(16)
(17)
(18)
(19)
利用CEEMDAN-VMD-BP方法建立了洪家渡水電站和長水水文站的月徑流量預報模型,得到兩站各60個月徑流量預測值。為驗證提出模型的有效性,將提出模型的預測結果與BP神經(jīng)網(wǎng)絡模型以及CEEMDAN-BP模型的預測結果進行對比?;诒容^的目的,所有模型采用相同的預報輸入、率定期和驗證期。實測徑流量數(shù)據(jù)作為各模型的輸入,表3和表4列出了兩站CEEMDAN分解各分量的預測誤差,表5和表6為兩站模型預測誤差,模型驗證期預測效果如圖6—9所示。
表3 洪家渡水電站各分量預測誤差
表4 長水站各分量預測誤差
表5 洪家渡水電站模型預測誤差
表6 長水站各模型預測誤差
圖6 洪家渡水電站驗證期各模型預測結果對比
圖7 長水站驗證期各模型預測結果對比
圖8 洪家渡水電站驗證期各模型預測結果對比箱線圖
圖9 長水站驗證期各模型預測結果對比箱線圖
由表3可以看出,對于洪家渡水電站,IMF1分量預測效果最差,率定期和驗證期的R分別為0.614和0.534,剩余分量率定期和驗證期R的平均值分別為0.991和0.983。表4為長水站CEEMDAN分解各分量預測誤差,驗證了長水站分量IMF1預測難度最大,率定期和驗證期R分別為0.609和0.245,剩余各分量率定期和驗證期R平均值達到了0.992和0.977。以上分析可得IMF1至Res擬合效果逐漸提高,即驗證了模型擬合效果隨著樣本熵的增大而降低,故可以嘗試通過提高IMF1的預測精度來提高整個模型的預測精度。
由表5和表6可知,一次分解模型預測效果優(yōu)于單一BP模型,CEEMDAN-VMD-BP模型的指標、評價、取值相比于一次分解CEEMDAN-BP模型均取得了更好的表現(xiàn)。對于洪家渡水電站,CEENDAN-BP相較于BP模型,在率定期,使R和NSE提升了26.03%和60.38%,使RMSE和MAPE降低了43.47%和27.71%;在驗證期,CEENDAN-BP相較于后者,使R和NSE提升了19.48%和44.83%,使RMSE和MAPE降低了39.02%和26.88%。CEENDAN-VMD-BP相較于CEEMDAN-BP模型,在率定期,使R和NSE提升了9.78%和16.47%,使RMSE和MAPE降低了71.33%和65.82%;在驗證期,CEENDAN-BP相較于后者,使R和NSE提升了9.78%和17.86%,使RMSE和MAPE降低了70.75%和63.31%。對于長水水文站,CEENDAN-BP相較于BP模型,在率定期期,使R和NSE提升了79.22%和656.12%,使RMSE和MAPE降低了46.39%和10.25%;在驗證期,CEENDAN-BP相較于后者,使R和NSE提升了133.13%和453.49%,使RMSE和MAPE降低了31.15%和42.05%。CEENDAN-VMD-BP相較于CEEMDAN-BP模型,在率定期,使R和NSE提升了13.55%和28.42%,使RMSE和MAPE降低了70.43%和51.49%;在驗證期,CEENDAN-BP相較于后者,使R和NSE提升了28.42%和101.29%,使RMSE和MAPE降低了65.28%和50.66%。以上分析驗證了通過分解方法預處理徑流量數(shù)據(jù)可以獲得線性更好的數(shù)據(jù),進而降低了模型的預測難度;同時驗證了CEEMDAN-VMD分解模型的高效性及其與BP模型的協(xié)同效應弱化了單個模型的不足。
圖6至圖9展示了兩站驗證期3種模型的預測效果。從折線圖(圖6和7)可以看出:由于兩站原始徑流量序列復雜性較高,單一BP模型的預測值與實測值的離散程度較高,經(jīng)過一次分解和二次分解后模型預測值的趨勢線與實際值的波動趨勢大體一致;BP模型和CEEMDAN-BP模型對極值點的預報值總體小于實測值且存在滯后效應,同時對于本文兩個研究對象,單獨BP模型的徑流量預報數(shù)值存在負值;一次分解預報模型在數(shù)值及時間定位方面提升了徑流量峰值預報能力,但對于徑流較小月份的預報精度還有待提高;相較于BP模型和CEEMDAN-BP模型,CEEMDAN-VMD-BP模型能更精準地捕獲原始徑流量數(shù)據(jù)的變化特征,大幅度提升了模型預報能力,擬合效果最優(yōu)。從洪家渡水電站和長水水文站的箱線圖(圖8和圖9)可以看出,相較于BP模型和CEEMDAN-BP模型,CEEMDAN-VMD-BP模型預測的最大值、最小值和中位數(shù)與實測值的最大值、最小值和中位數(shù)最接近;BP模型和CEEMDAN-BP模型預測的異常值遠小于實測數(shù)據(jù)的異常值,而CEEMDAN-BP-VMD模型預測的異常值均很接近實測數(shù)據(jù)的異常值。從箱線圖中可以看出,CEEMDAN-VMD-BP模型預測汛期峰值流量更具優(yōu)越性,更全面地捕獲了徑流量時間序列的變化特征。
從上面的研究結果分析可知:CEEMDAN-BP模型與BP模型相比,在月徑流時間序列預報方面能夠取得更好的擬合效果;本文提出的基于“二次分解”思路的CEEMDAN-VMD-BP模型的預測精度優(yōu)于CEEMDAN-BP模型,說明CEEMDAN-VMD組合分解方法更適用于分解月徑流量時間序列,二次分解的思路是可行的。本文提出的CEEMDAN-VMD-BP模型在徑流預報中產(chǎn)生的協(xié)同效應克服了單一預報模型的不足,因此采用二次分解技術預處理月徑流數(shù)據(jù)作為預測模型的輸入,可以最大限度降低序列復雜性,有助于提高模型的預測性能。
中長期徑流預報在水資源的運行和管理中起著至關重要的作用,高精度的預測結果有助于合理規(guī)劃流域用水需求。為了提升徑流預測精度,本文提出了一種用于長期徑流預測的混合模型,該模型結合了二次分解技術和BP神經(jīng)網(wǎng)絡模型(CEEMDAN-VMD-BP)。首先,利用自適應噪聲的完全集合經(jīng)驗模態(tài)分解(CEEMDAN)技術分解實測月徑流量時間序列并計算所有子序列的樣本熵;其次,將具有最大樣本熵的子序列用變分模態(tài)分解(VMD)進行二次分解,進而充分削弱子序列的復雜性;然后,使用BP模型訓練和預測數(shù)據(jù);最后,將提出的模型的預測結果與BP模型、CEEMDAN-BP模型的結果進行了比較。主要結論如下:
1)引入樣本熵計算CEEMDAN分解所得子序列的復雜性,利用VMD技術進一步降低徑流量序列的復雜度,并使用BP神經(jīng)網(wǎng)絡模型充分挖掘徑流量數(shù)據(jù)中的規(guī)律和特征,提高了月徑流量預測精度。
2)建立了3個模型對洪家渡水電站和長水水文站月徑流量進行了預測。通過對比發(fā)現(xiàn),提出的CEEMDAN-VMD-BP組合模型預測性能顯著高于傳統(tǒng)單一預測模型和一次分解組合模型,表明數(shù)據(jù)預處理技術大幅度降低了月徑流量序列的復雜度,能有效提高月徑流量的預報精度。
3)CEEMFAN和VMD作為兩種高效的信號處理方法,可以相互補充。通過樣本熵篩選后,將原始信號進行再次分解,可以更準確地捕獲徑流序列的趨勢、周期等本質特征,降低了模型預測難度,彌補了一次分解的局限性。
本研究提出的組合預測方法結合了數(shù)據(jù)預處理技術、樣本熵、預測模型和誤差分析,建立了徑流預報模型,能取得更準確的預測精度,是一種高效、實用的預測方法,可為流域水資源管理決策提供有價值的支撐。