(太原理工大學(xué) 水利科學(xué)與工程學(xué)院,山西 太原 030024)
準確預(yù)測徑流變化,對更好地利用分配有限的水資源具有重要意義。然而氣候、地理環(huán)境、社會發(fā)展及人類活動等不確定因素的影響,導(dǎo)致徑流預(yù)測仍然存在精確度低等諸多問題[1]。長期以來,國內(nèi)外水文工作者一直致力于探索研究各種徑流預(yù)測方法,以期進一步提高預(yù)測精度。傳統(tǒng)方法是根據(jù)河川徑流的變化具有連續(xù)性、周期性和隨機性等特點開展研究,主要有成因分析法、數(shù)理統(tǒng)計法和時間序列法[2]。隨著計算機技術(shù)的發(fā)展和新的數(shù)學(xué)方法的不斷涌現(xiàn),為徑流預(yù)測拓展了新的途徑,主要包括模糊數(shù)學(xué)、支持向量機、人工神經(jīng)網(wǎng)絡(luò)、混沌理論等[3],其中人工神經(jīng)網(wǎng)絡(luò)是一種模擬動物神經(jīng)網(wǎng)絡(luò),進行信息處理的算法數(shù)學(xué)模型,具有自學(xué)習(xí)、容錯性等特點[4]。而廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)對于非線性映射能力很強,適用于非線性問題,相比于其他神經(jīng)網(wǎng)絡(luò)模型效率、精度均較高[5],在一定程度上使徑流預(yù)測效果進一步改善。
在徑流序列模擬預(yù)測過程中,掌握徑流內(nèi)部變化規(guī)律及減小噪聲因素的影響,對于預(yù)測模型選擇及使用具有重要意義。目前常用于徑流序列分析的方法有主成分分析法[6]、奇異譜分析法[7]、小波分解方法[8]、經(jīng)驗?zāi)B(tài)分解法(EMD)[9-10]、互補集合經(jīng)驗?zāi)B(tài)分解法(CEEMD)[11]等。其中,主成分分析無法衡量變量間的非線性依賴程度;奇異譜分析按經(jīng)驗選取嵌入維度長度,具有一定的主觀性;小波分解方法基函數(shù)是人為確定的,缺乏對數(shù)據(jù)的自適應(yīng)性;EMD方法具有較強自適應(yīng)性,卻易出現(xiàn)模態(tài)混疊問題。而CEEMD方法不僅能夠解決主觀性及模態(tài)混疊問題,且能夠有效處理徑流序列中存在的數(shù)據(jù)噪聲。
由于各種分析方法僅能揭露徑流序列的變化特征及有效處理隨機因素,不能對徑流序列進行預(yù)測;單一預(yù)測模型中的函數(shù)辨識選擇受徑流序列中噪聲等大量隨機因素的影響,難以對整個水文過程進行有效的擬合。組合預(yù)測模型成為近年來廣受關(guān)注的研究方向之一。目前組合模型在實踐中更多的是利用不同分析方法與各種預(yù)測模型進行組合,以分析方法為基礎(chǔ)來提高模型的預(yù)測精度。
因此,本文提出CEEMD-GRNN組合模型,以汾河上游4個水文站月徑流數(shù)據(jù)為例進行預(yù)測,探究組合模型不同的建模方式對預(yù)測精度的影響,并將其與單一GRNN模型進行對比,為徑流預(yù)測提供一種新的有效方法。
CEEMD方法對月徑流序列分解后,得到多個具有一定物理意義的固有模態(tài)函數(shù)(IMF)和趨勢項(Res)。該方法可依據(jù)各層分解的頻譜提取有效信號,將隨機噪聲消除。其主要分解步驟如下[12-13]。
(1) 設(shè)x(t)為原序列,則IMF1公式為
(1)
(2) 求一階殘差r1(t):
r1(t)=x(t)-IMF1
(2)
(3)IMF2的計算公式為
(3)
(4) 求k階殘差:
rk(t)=rk-1(t)-IMFk
(4)
(5) 計算原序列的IMFk+1,公式如下:
(5)
(6) 重復(fù)(4),(5)步,直至殘差不能再分解,求得最終殘差R(t):
(6)
其中K為IMF的總數(shù),則原序列x(t)的表達式為
(7)
式中,Ek(·)為定義好的算子;ωi(t)為單位方差的零均值高斯白噪聲;εk為系數(shù)允許在每個階段選擇信噪比;x(t)為徑流序列。
GRNN是一種徑向基網(wǎng)絡(luò),由輸入層、模式層、求和層和輸出層構(gòu)成,結(jié)構(gòu)簡單完備,對數(shù)據(jù)樣本的數(shù)量要求不高,具有較高的泛化能力和全局收斂性等特性;隱含層節(jié)點中的作用函數(shù)采用高斯函數(shù),從而具備局部迫近能力,因而學(xué)習(xí)速度更快;網(wǎng)絡(luò)訓(xùn)練中,人為參數(shù)較少,只有一個閾值,因此可以最大程度避免人為因素造成的誤差,使預(yù)測準確性更高[14-15]。
加權(quán)平均集成法的基本思想是計算IMFs及Res經(jīng)GRNN預(yù)測所得結(jié)果的權(quán)重,求取加權(quán)平均值,以此作為最終預(yù)測結(jié)果[16]。
加權(quán)平均集成法計算公式為
(8)
(9)
式中,ei為第i個分量預(yù)測誤差的絕對值。
CEEMD方法可有效解決徑流序列中的噪聲因素,但對噪聲的去除是逐步進行的,因此,CEEMD分解出的高頻分量中仍含有部分噪聲。為探究包含部分噪聲的高頻分量是否影響組合模型預(yù)測精度,并驗證加權(quán)平均集成法相比于直接相加法能夠有效減小預(yù)測誤差,本文提出3種不同建模方式構(gòu)成的組合模型。組合模型1采用加權(quán)平均集成法建模,即將CEEMD分解出的各個IMF分量及Res通過GRNN神經(jīng)網(wǎng)絡(luò)預(yù)測,使用加權(quán)平均集成法將各預(yù)測結(jié)果相加;組合模型2采用高頻分量去除法及加權(quán)平均集成法建模,即將CEEMD分解出的高頻項去除后,剩余IMF分量及Res通過GRNN預(yù)測后,使用加權(quán)平均法將各預(yù)測結(jié)果相加;組合模型3采用高頻分量去除法建模,即將CEEMD分解出的高頻項去除后,剩余IMF分量及Res通過GRNN預(yù)測后直接相加。通過組合模型1與組合模型2預(yù)測結(jié)果對比可探究高頻分量是否影響模型預(yù)測精度;通過組合模型2與組合模型3預(yù)測結(jié)果對比來驗證加權(quán)平均集成法是否能夠減小預(yù)測誤差。3種組合模型具體建模過程如圖1所示。
圖1 CEEMD-GRNN組合模型預(yù)測流程Fig.1 Flow chart of the three proposed CEEMD-GRNN model
汾河是黃河第二大支流,流經(jīng)山西省6市的29縣(區(qū)),是全省生產(chǎn)生活重要的水源。近年來,汾河上游為生態(tài)環(huán)境建設(shè)和農(nóng)業(yè)發(fā)展興建了大批水利工程,在人類活動及氣候變化的影響下,徑流的變化十分顯著。因此能夠準確預(yù)測汾河上游的徑流變化對于當(dāng)?shù)乜沙掷m(xù)健康發(fā)展具有重要意義。
上靜游站位于汾河支流嵐河上,其月徑流序列波動較為緩和;汾河水庫站、寨上站及蘭村站位于汾河干流上,其月徑流序列波動較為劇烈。因此本文選用汾河上游這4個水文站1958~2000年月徑流數(shù)據(jù)進行預(yù)測驗證。
CEEMD可將復(fù)雜的月徑流序列分解成包含不同尺度信息且噪聲逐漸減少直至消除的IMF及Res。汾河上游4個水文站CEEMD分解結(jié)果如圖2所示,由圖2可知:4個水文站的月徑流序列經(jīng)過CEEMD分解得到的子序列,均呈現(xiàn)從IMF1到趨勢項,頻率降低,波長變長,振幅變小。各站IMF1~IMF3具有較高的頻率,較短的波長,較大的振幅,其中IMF1,IMF2的變化極不規(guī)律,這是由于這些分量受原序列極值的影響較大,仍含有部分高頻噪聲。上靜游站、汾河水庫站、寨上站IMF4~IMF7,蘭村站IMF4~IMF6,逐漸表現(xiàn)出一定的變化規(guī)律及周期,表明噪聲因素已被逐步消除。各站Res分別表現(xiàn)了該站1958~2000年的月徑流序列變化趨勢,其中,上靜游站和汾河水庫站呈現(xiàn)下降趨勢,寨上站呈現(xiàn)先下降再上升的趨勢,蘭村站呈現(xiàn)先下降后小幅上升繼而再下降的趨勢。由Res可知,各站原月徑流序列均為非線性序列,因此本文選取適用于非線性的GRNN模型預(yù)測。
綜上所述,CEEMD可有效去除高頻噪聲這一隨機因素的影響,進而展現(xiàn)出原徑流序列中不同尺度的信息,對后續(xù)預(yù)測模型的選擇及模型能夠提取月徑流序列中的有效信息從而為提高預(yù)測精度奠定基礎(chǔ)。
本文以上靜游站、汾河水庫站、寨上站及蘭村站1958~1998年共492個月徑流數(shù)據(jù)作為模擬期樣本,1999~2000年24個月徑流數(shù)據(jù)作為驗證期樣本。模型在模擬期通過不斷地滾動預(yù)測來調(diào)整內(nèi)部結(jié)構(gòu),尋求最優(yōu)參數(shù);在驗證期檢驗此模型的預(yù)測效果。組合模型1與組合模型2使用加權(quán)平均集成法將各分量預(yù)測結(jié)果重組時,各分量權(quán)重見表1。
表1 組合模型1與組合模型2分量權(quán)重Tab.1 Weight of combined model one and combined model two
加權(quán)平均集成法中,權(quán)重表示各分量對于最終預(yù)測結(jié)果的相對重要程度,即權(quán)重越大,對提高預(yù)測精度的作用越大。由表1可知,上靜游站組合模型1中IMF1、IMF2預(yù)測值所占權(quán)重比其余各分量大,因此高頻分量對于預(yù)測精度的貢獻較大;汾河水庫站、寨上站、蘭村站組合模型1中IMF1、IMF2預(yù)測值所占權(quán)重比其余分量小,說明高頻分量對于預(yù)測精度的貢獻較小。而不同頻率分量預(yù)測精度也不相同,根據(jù)表2中組合模型1的各分量預(yù)測值平均相對誤差可看出,對于上靜游站,IMF1、IMF2的平均相對誤差分別為13%、18%,均比其他分量小,高頻分量預(yù)測精度較高;對于汾河水庫站、寨上站及蘭村站,IMF1、IMF2的平均相對誤差為48%~68%,均大于其他分量,高頻分量預(yù)測精度較低。為了進一步探究高頻分量預(yù)測值對總體預(yù)測精度的影響,本文提出的組合模型2及組合模型3將高頻分量去除。
圖2 月徑流序列的CEEMD結(jié)果(徑流量單位:萬m3)Fig.2 CEEMD results of monthly runoff sequences
4個水文站驗證期不同模型預(yù)測值與實測值對比結(jié)果如圖3所示。
由圖3結(jié)果做初步判斷可得:各模型預(yù)測結(jié)果的總體變化趨勢與實測月徑流序列基本一致;單一GRNN模型預(yù)測值相比于其他3種組合模型與實測月徑流序列值相差最大。
表2 組合模型1各分量平均相對誤差Tab.2 Average relative error of components in combined model one %
單一GRNN模型預(yù)測結(jié)果中,上靜游站1999年7月、2000年8月,汾河水庫站1999年8月、2000年7月和9月,寨上站1999年5月和6月及2000年6月和7月,蘭村站1999年6月、2000年8月預(yù)測結(jié)果明顯大于原徑流數(shù)據(jù),相對誤差達到了66%以上。由于汾河流域在每年6~10月隨著降雨量增大,月徑流量也隨之增加,使月徑流序列產(chǎn)生較大程度的波動,高頻噪聲隨機因素增多,導(dǎo)致GRNN模型對于6~10月的徑流預(yù)測結(jié)果誤差增大,各站中,相比于其他月份57%以上的平均相對誤差,6~10月的平均相對誤差增大到89%以上,因此影響了單一GRNN模型的整體預(yù)測精度。而其他3種通過CEEMD與GRNN不同建模方式構(gòu)成的組合模型,預(yù)測值曲線均與實測值曲線有更高的擬合度,各站6~10月的徑流預(yù)測結(jié)果平均相對誤差降低至39%~64%,進一步說明了CEEMD可有效去除高頻噪聲隨機因素的影響,為降低預(yù)測誤差奠定基礎(chǔ)。
不同建模方式構(gòu)成的組合模型,預(yù)測值與實測值擬合效果也不相同。
對于上靜游站,擬合效果為組合模型1>組合模型2>組合模型3。通過前文可知,組合模型1中CEEMD分解出的高頻分量預(yù)測值所占權(quán)重比其余分量大,且平均相對誤差較小,說明該站徑流高頻分量的存在可提高預(yù)測精度。這是由于上靜游站位于汾河支流嵐河上,月徑流序列波動程度較緩和,極差也較小約為317萬m3,因此CEEMD分解出的高頻分量中仍存在的部分噪聲因素對預(yù)測精度影響較小,能夠較好地預(yù)測波峰值,使結(jié)果更加貼近原徑流序列,平均相對誤差不超過19%;若去除高頻分量,則會減少部分波峰值信息,使組合模型2、組合模型3的預(yù)測結(jié)果大部分小于月徑流實測值,兩種組合模型的最大相對誤差分別達到36%、45%。
對于汾河水庫站、寨上站、蘭村站,擬合效果為組合模型2>組合模型3>組合模型1。前文提到組合模型1中CEEMD分解出的高頻分量預(yù)測值所占權(quán)重比其余分量小,平均相對誤差也較大,高頻分量的存在,在一定程度上影響預(yù)測精度。這是由于這3個站位于汾河干流,月徑流序列波動程度較為劇烈,極差較大,分別約為2 300萬、2 268萬、2 631萬m3,極差至少為上靜游站的7倍,因此CEEMD分解出的高頻分量中仍存在的部分噪聲因素對后續(xù)預(yù)測過程產(chǎn)生較大影響。各站使用組合模型1預(yù)測的結(jié)果最大相對誤差達到53%~66%;使用組合模型2、組合模型3預(yù)測的結(jié)果相對誤差均減小。
4個水文站中,組合模型2的擬合效果均優(yōu)于組合模型3的擬合效果,各站組合模型二預(yù)測結(jié)果的平均相對誤差較組合模型三減小4%~28%。由此可驗證加權(quán)平均集成法可對各分量預(yù)測結(jié)果揚長避短,進而構(gòu)成更準確的預(yù)測結(jié)果。
圖3 4個水文站各模型預(yù)測結(jié)果對比Fig.3 Forecast results of each model at four hydrological stations
為了更準確地描述這些模型預(yù)測效果的好壞且避免偶然性,本文采用平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)、均方根誤差(RMSE)及確定性系數(shù)(NS)4個指標評價模型的預(yù)測精度。
圖4 4個水文站各模型預(yù)測誤差及NS對比Fig.4 Prediction error and NS of each model at four hydrological stations
(10)
(11)
(12)
(13)
根據(jù)《水文情報預(yù)報規(guī)范》(SL250-2000)規(guī)定:當(dāng)NS≥0.9時,預(yù)測精度為甲級;0.7≤NS<0.9時,為乙級;當(dāng)0.5≤NS<0.7時,為丙級;當(dāng)NS<0.5時,預(yù)報結(jié)果不可信。
汾河上游4個水文站預(yù)測誤差及確定性系數(shù)結(jié)果如圖4所示,由圖4可知:
(1) 各模型在模擬期與驗證期的NS值均大于0.5,即預(yù)測結(jié)果均具有可信度,NS越大,則表示預(yù)測結(jié)果精度越高。各站組合模型的NS值始終大于單一GRNN模型。但在不同水文站,組合模型的預(yù)測精度也不相同。對于上靜游站組合模型1的NS最大,模擬期為0.82、驗證期為0.78,精度為乙級;組合模型2次之,模擬期為0.72、驗證期為0.70,精度為乙級;組合模型3的NS值最小,模擬期為0.61、驗證期為0.58,精度為丙級。對于汾河水庫站、寨上站及蘭村站,組合模型2的NS最大,模擬期為0.81~0.90、驗證期為0.85~0.92,精度達到乙級以上,其中蘭村站模擬期及寨上站驗證期精度可達到甲級;組合模型3次之,模擬期為0.69~0.83、驗證期為0.73~0.88,除汾河水庫站模擬期精度為丙級外,其余精度為乙級;組合模型1的NS值最小,模擬期為0.67~0.77、驗證期為0.71~0.80,除汾河水庫站模擬期精度為丙級外,其余精度為乙級。
(2) 在模擬期,上靜游站誤差結(jié)果為組合模型1<組合模型2<組合模型3 汾河水庫站、寨上站及蘭村站誤差結(jié)果為組合模型2<組合模型3<組合模型1 (3) 在驗證期,結(jié)果與模擬期相似,上靜游站誤差結(jié)果為組合模型1<組合模型2<組合模型3 汾河水庫站、寨上站及蘭村站誤差結(jié)果為組合模型2<組合模型3<組合模型1 綜上,各模型預(yù)測結(jié)果均具有可信度,模擬期、驗證期中各組合模型與單一GRNN模型相比,預(yù)測誤差較小,精度較高,再次驗證CEEMD可有效減小月徑流序列中高頻噪聲的影響,為提高預(yù)測精度奠定基礎(chǔ)。對于上靜游站組合模型1的預(yù)測誤差較組合模型2與組合模型3小,且精度更高,對于汾河水庫站、寨上站、蘭村站組合模型2的預(yù)測誤差較組合模型1與組合模型3小,且精度更高,進一步證明將月徑流序列通過CEEMD分解后,對于極差較小的月徑流序列,保留高頻分量可以得到較好的預(yù)測效果,對于極差較大的月徑流序列,去除高頻分量后進行預(yù)測能夠減小誤差。組合模型2的預(yù)測誤差總是小于組合模型3的預(yù)測誤差,因此進一步驗證加權(quán)平均集成法能夠有效提高預(yù)測精度。 本文針對月徑流序列所含的噪聲因素及其非線性特征,提出CEEMD-GRNN組合模型,并探究不同建模方式下的組合模型預(yù)測效果,通過與單一GRNN模型相比,以汾河上游4個水文站月徑流序列為例進行預(yù)測分析,得出如下結(jié)論。 (1) 各模型的NS值均大于0.5,預(yù)測結(jié)果具有可信度。3種不同建模方式下的組合模型預(yù)測精度均優(yōu)于單一GRNN模型,CEEMD方法可有效去隨機噪聲的影響,組合模型更適用于徑流預(yù)測。 (2) 不同的徑流序列適用不同的建模方式。對于極差較小的徑流序列,CEEMD分解出的高頻分量對預(yù)測精度影響較小,且有助于對極值點的預(yù)測,因此加權(quán)平均集成法構(gòu)成的組合模型適用于此類徑流序列的預(yù)測;對于極差較大的徑流序列,CEEMD分解出的高頻分量對預(yù)測精度影響較大,若去除高頻分量后進行預(yù)測,則誤差會減小,因此高頻分量去除及加權(quán)平均集成法構(gòu)成的組合模型更適用于此類徑流序列的預(yù)測。 (3) 加權(quán)平均集成法可對各分量的預(yù)測結(jié)果揚長避短,有效提高總體預(yù)測精度。4 結(jié) 論