丁公博,農(nóng)振學(xué),王 超,宋培兵,雷曉輝
(1.中國地質(zhì)大學(xué)(北京) 水資源與環(huán)境學(xué)院,北京 100083;2.中國能源建設(shè)集團(tuán)廣西電力設(shè)計研究院有限公司,南寧 530007; 3.中國水利水電科學(xué)研究院,北京 100038;4.浙江大學(xué)建筑工程學(xué)院,杭州 310058)
流域中長期徑流預(yù)測是流域水量分配和水量調(diào)度的基礎(chǔ),如何構(gòu)建能夠準(zhǔn)確描述流域水文特性的中長期徑流預(yù)測模型并精確預(yù)測未來中長期徑流是實現(xiàn)流域水資源管理精細(xì)化首先要突破的問題。近年來,國內(nèi)外研究學(xué)者對中長期徑流預(yù)報進(jìn)行了大量研究,其研究重點主要集中在2個方面:一是預(yù)報模型研究。常用模型有傳統(tǒng)統(tǒng)計法和現(xiàn)代統(tǒng)計法,其中傳統(tǒng)統(tǒng)計法包括時間序列法[1]等方法、現(xiàn)代統(tǒng)計法則包括支持向量機(jī)法[2]、人工神經(jīng)網(wǎng)絡(luò)法[3]、半監(jiān)督迭代模糊聚類法[4]、小波分析法[5]、混沌理論法[6]、灰色系統(tǒng)法[7]和最優(yōu)預(yù)測組合法[8]等方法。其中,人工神經(jīng)網(wǎng)絡(luò)法,以其簡易的網(wǎng)絡(luò)結(jié)構(gòu),高效的運(yùn)算機(jī)制和強(qiáng)大的知識表示能力,已被廣泛應(yīng)用至中長期水文預(yù)報中。為驗證人工神經(jīng)網(wǎng)絡(luò)模型在水文預(yù)報中的適用性,胡軍華[9]等將該方法應(yīng)用于塔里木河。結(jié)果表明,率定期和檢驗期預(yù)報結(jié)果的合格率皆滿足相關(guān)標(biāo)準(zhǔn)規(guī)范的要求。楊旭[10],王鵬[11]等通過改進(jìn)人工神經(jīng)網(wǎng)絡(luò)模型的參數(shù)和結(jié)構(gòu)等,使人工神經(jīng)網(wǎng)絡(luò)模型的預(yù)測精度得到了顯著提高。如何從諸多水文和氣象因素中選擇適合特定研究區(qū)域的預(yù)測因子是提高預(yù)測模型預(yù)測精度的關(guān)鍵之一。在預(yù)報因子方面,隨著對水文過程物理機(jī)理認(rèn)識的不斷加深,預(yù)報因子的分類從之前單純的前期降水和徑流,發(fā)展到現(xiàn)在包括海面溫度和大氣環(huán)流因子等多種類型。而預(yù)報因子篩選方法也由以前的線性相關(guān)性分析法[12]等發(fā)展為現(xiàn)在的互信息法[13]、主成分分析法[14]等方法。Sharma[15]引入互信息(MI)的概念來描述中長期降雨預(yù)報中變量間的非線性關(guān)系。該方法在多變量時間序列自回歸模型和多變量閾值時間序列自回歸模型的變量識別方面取得了巨大的成功。趙銅鐵鋼[16]等利用互信息方法分析了長江上下游和主要干支流流量間的相關(guān)性,研究了長江主要干支流的日徑流預(yù)報。結(jié)果表明,引用互信息篩選預(yù)測因子可有效提高人工神經(jīng)網(wǎng)絡(luò)模型的預(yù)報精度。雖然互信息可更好的反應(yīng)預(yù)測因子與預(yù)測徑流間的復(fù)雜非線性關(guān)系,但預(yù)測因子間存在信息重疊,很容易產(chǎn)生預(yù)測模型的“過擬合”現(xiàn)象,從而影響模型的預(yù)測精度;主成分分析由于能有效地解決因子冗雜、信息重疊等問題,被廣泛運(yùn)用于水文預(yù)報中。在贛江流域[17]、三峽水庫[18]的實例研究表明,運(yùn)用主成分分析方法篩選預(yù)報因子,能夠緩解預(yù)報因子間信息重疊導(dǎo)致的“過擬合”問題,可以提高人工神經(jīng)網(wǎng)絡(luò)模型在率定期和檢驗期的預(yù)測精度。主成分分析雖然能夠提取預(yù)報因子的主要信息部分,但是大多停留在線性相關(guān)分析上,不足以揭示徑流形成的復(fù)雜變化機(jī)理。因此,為解決石羊河流域中長期徑流預(yù)報的實際工程問題,考慮運(yùn)用在中長期徑流預(yù)報中應(yīng)用廣泛、效果較好的BP神經(jīng)網(wǎng)絡(luò)作為預(yù)報模型,考慮到互信息法和主成分分析法在篩選預(yù)測因子方面的優(yōu)勢,提出了一種耦合互信息法(MI)和主成分分析方法(PCA)的預(yù)報因子篩選方法(MI-PCA),并以石羊河流域西營水庫的入庫徑流預(yù)報為實例開展研究,論證所提方法的有效性。
互信息法(Mutual Information,MI)是一種對多個變量(2個及2個以上)計算和呈現(xiàn)這些變量之間互信息的方法。變量的互信息量與相關(guān)性則呈正比關(guān)系,隨著互信息量的增大或減小,相關(guān)性也會增大或減小。
當(dāng)x和y2個隨機(jī)變量相互獨立時,其聯(lián)合分布密度等于2者的邊緣分布密度之積,即:
Px,y(x,y)=Px(x)Py(y)
(1)
當(dāng)變量x和y具有N個觀測值且為離散型隨機(jī)變量時,變量間的互信息方程如下:
(2)
當(dāng)變量x、y是連續(xù)隨機(jī)變量時,變量之間的互信息方程如下:
(3)
式中:μ(x,y)表示連續(xù)隨機(jī)變量x和y的聯(lián)合分布密度;μx(x)、μy(y)分別表示連續(xù)隨機(jī)變量x和y的邊緣分布密度。
當(dāng)隨機(jī)變量x、y相互獨立時:
則MI=0。
當(dāng)x、y不相互獨立時,MI將趨近正無窮大。因變量的互信息值與相關(guān)性為正比關(guān)系,故隨著互信息值的增大,相關(guān)性也增大。
主成分分析法(Principal Component Analysis,PCA)是一種多變量統(tǒng)計方法,用于計算多個變量之間的相關(guān)性并導(dǎo)出一些主成分。在導(dǎo)出的少數(shù)幾個主分量中都包含有原始變量的大部分信息且每個主分量中的信息彼此不相關(guān),從而達(dá)到簡化數(shù)據(jù)和降維的目的。
設(shè)初始變量和主分量分別是x1,x2,…,xp和z1,z2,…,zm(m≤p),則各主成分計算公式如下式:
(4)
式中:z1,z2,…,zm為x1,x2,…,xP所對應(yīng)的m個主成分,其中,zi與zj(i≠j)相互無關(guān),z1為x1,x2,…,xp的線性組合且在所有線性組合中方差最大,z2為與z1不相關(guān)的x1,x2,…,xp的線性組合且在所有線性組合中方差最大,依次類推;所有的系數(shù)l可構(gòu)成荷載矩陣L。
互信息和主成分分析法(Mutual Information-Principal Component Analysis,MI-PCA)是結(jié)合互信息和主成分分析法2種算法的優(yōu)點層級篩選預(yù)報因子的方法。其原理是在互信息選出備選因子的基礎(chǔ)上,再計算主成分。該方法既考慮到了2變量(或多變量)之間的線性和非線性關(guān)系,又可以舍去變量間重疊部分的信息,減少了原始變量的數(shù)量,并且更突出地顯示變量與研究對象間的相關(guān)性?;诨バ畔⒑椭鞒煞址治龅闹虚L期徑流預(yù)報模型相比于互信息和主成分分析2種方法預(yù)報效果更好,模型穩(wěn)定性更高。
BP神經(jīng)網(wǎng)絡(luò)[19](Back Propagation Neural Network)是1986年由Rumelhart和McCelland為首的科學(xué)家小組提出,它是一個多層的前饋型神經(jīng)網(wǎng)絡(luò)。其模型拓?fù)浣Y(jié)構(gòu)包括輸入層(Input Layer)、隱含層(Hide Layer)和輸出層(Output Layer),如圖1所示。BP神經(jīng)網(wǎng)絡(luò)可以根據(jù)預(yù)測誤差連續(xù)調(diào)整網(wǎng)絡(luò)各層的權(quán)重,從而達(dá)到預(yù)測輸出無限接近預(yù)期輸出的效果。由于BP人工神經(jīng)網(wǎng)絡(luò)具有3層(3層以上)結(jié)構(gòu),對線性和非線性具有很強(qiáng)的映射能力,因此被廣泛用于中長期水文預(yù)報領(lǐng)域。
圖1 BP人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)概化圖Fig.1 BP artificial neural network structure generalization diagram
石羊河流域全長250 km,總面積4.16 萬km2。近年來,隨著石羊河流域枯水期水資源供需矛盾的加劇,開展流域水資源優(yōu)化調(diào)度及合理分配,成為解決該問題的有效途徑之一。而流域水資源優(yōu)化調(diào)度最重要的一個環(huán)節(jié)是中長期徑流預(yù)報,預(yù)報精度將直接影響流域水資源調(diào)度的效果。因此,在分析流域特征、水文特性以及調(diào)度工程情況的基礎(chǔ)上,研究適合流域特性的中長期徑流預(yù)報方法,提高中長期徑流預(yù)報的精度是石羊河流域水資源調(diào)度實施中必須首先解決的關(guān)鍵問題。西營水庫是石羊河流域中一座控制性水利工程,兼顧流域灌溉、防洪和發(fā)電等綜合利用需求。其灌溉面積達(dá)2.522 萬hm2,總庫容為2 350 萬m3,入庫徑流資料相對完整且資料序列較長。因此,本研究以西營水庫為例,收集西營水庫1970-2016年的年均徑流資料,分別構(gòu)建基于MI、PCA和MI-PCA的BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)報,根據(jù)預(yù)報結(jié)果優(yōu)選最適合石羊河流域的預(yù)報模型。
選取西營水庫1970-2016年47 a的長系列年徑流數(shù)據(jù)作為預(yù)測數(shù)據(jù)。經(jīng)計算,西營水庫入庫徑流年際極值比和全年徑流量變差系數(shù)均較小,分別為2.05和 0.17,表明西營水庫入庫徑流的年際變化較小。徑流的變化過程如圖2所示。
圖2 西營水庫1970-2016年徑流變化過程Fig.2 Process of runoff change in Xiying Reservoir from 1970 to 2016
選擇西營水庫1970-2016年實測徑流資料以及中國氣象局國家氣候中心氣候監(jiān)測室 http:∥cmdp.ncccma.net/Monitoring/cn_index_130.php提供的130項氣候系統(tǒng)指數(shù)(即88項大氣環(huán)流指數(shù)、26項海溫指數(shù)和16項其他指數(shù))作為待選因子。
首先,采用互信息(MI)方法計算各待選因子與年平均徑流序列的互信息量大小,因子初步優(yōu)選結(jié)果如表1所示。
其次,在初步選定因子的基礎(chǔ)上,根據(jù)主成分分析(PCA)原則進(jìn)行預(yù)報因子組合取滿足85%貢獻(xiàn)率,得主成分得分系數(shù)矩陣如表2所示。將得分系數(shù)代入式(4)產(chǎn)生新的預(yù)測因子z1,z2,…,z5作為預(yù)報因子。
表1 西營水庫預(yù)報因子初步優(yōu)選結(jié)果Tab.1 Preliminary optimization results of forecast factors of Xiying Reservoir
表2 主成分得分系數(shù)矩陣Tab.2 Principal component score coefficient matrix
最后,利用MI-PCA方法篩選的預(yù)測因子作為模型的輸入因子,對西營水庫進(jìn)行年平均入庫徑流預(yù)測。模型率定期和檢驗期設(shè)置如下:1920-2004年為率定期,2005-2016年為檢驗期。
為了驗證基于MI-PCA的BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)測效果,將預(yù)測結(jié)果與基于MI和PCA的BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對比。并考慮采用《水文情報預(yù)報規(guī)范》的相關(guān)方法對預(yù)報精度進(jìn)行評價。評價指標(biāo)具體如下:
(5)
式中:QR為預(yù)報合格率;M為預(yù)測值合格的次數(shù)(預(yù)測值和實測值之間的相對誤差在±20%之間預(yù)測結(jié)果視為合格);N為預(yù)報總次數(shù)。
只有當(dāng)合格率達(dá)到80%以上的預(yù)報模型,才能用于作業(yè)預(yù)報。
MI、PCA、MI-PCA的模型參數(shù)結(jié)構(gòu)和預(yù)報效果如表3、表4所示。
表3 MI、PCA、MI-PCA模型參數(shù)結(jié)構(gòu)Tab.3 Parameter structure of MI, PCA, MI-PCA model
表4 MI、PCA、MI-PCA年徑流預(yù)報精度評價結(jié)果Tab.4 Results of the accuracy evaluation of annual runoff forecast for MI, PCA and MI-PCA
3種不同預(yù)報因子篩選方法(MI、PCA、MI-PCA)的年徑流預(yù)報效果圖如圖3所示。
圖3 西營水庫3種不同預(yù)報因子篩選方法(MI、PCA、MI-PCA)的年徑流預(yù)報效果Fig.3 Annual runoff prediction effect of three different forecasting factors screening methods (MI, PCA, MI-PCA) in Xiying Reservoir
由表4和圖3可知,率定期MI、PCA和MI-PCA的合格率均大于80%;而在檢驗期基于PCA的BP預(yù)報模型合格率僅為75%,說明基于PCA優(yōu)選預(yù)報因子構(gòu)建的BP神經(jīng)網(wǎng)絡(luò)模型存在過擬合現(xiàn)象,模型可靠性較低;而MI、MI-PCA模型在檢驗期的預(yù)報合格率分別為83.33%和91.67%,預(yù)報效果較好。
在石羊河流域的中長期徑流預(yù)報中,基于MI和MI-PCA的BP神經(jīng)網(wǎng)絡(luò)2個模型的預(yù)報精度都滿足《水文情報預(yù)報規(guī)范》對于預(yù)報精度的要求,它可為石羊河流域中長期徑流預(yù)測提供技術(shù)支持。整體而言,MI-PCA模型預(yù)報效果最佳,表明在互信息的基礎(chǔ)上計算主成分,既充分考慮到了2個變量之間線性和非線性的關(guān)系,又可以舍去重疊部分的信息,減少原來變量的個數(shù),能夠更準(zhǔn)確地描述預(yù)報因子與預(yù)報徑流間復(fù)雜的非線性特征,是一種有效的中長期預(yù)報方法。
□