王麗萍,李寧寧,馬皓宇,紀(jì)昌明,李貴博
(華北電力大學(xué)可再生能源學(xué)院,北京 102206)
徑流預(yù)報(bào)是根據(jù)前期水文氣象要素,通過成因分析與數(shù)理統(tǒng)計(jì)等方法,對(duì)未來一段時(shí)期的徑流進(jìn)行科學(xué)的預(yù)測(cè)。準(zhǔn)確及時(shí)的徑流預(yù)報(bào),對(duì)于爭(zhēng)取防汛、抗旱的主動(dòng)權(quán),制定科學(xué)的水資源調(diào)度方案,確保水利設(shè)施的安全和發(fā)揮其經(jīng)濟(jì)效益具有重要意義[1]。傳統(tǒng)徑流預(yù)報(bào)方法一般包括物理成因法和數(shù)理統(tǒng)計(jì)法等[2,3]。近年來國(guó)內(nèi)外學(xué)者從各個(gè)方向?qū)搅黝A(yù)報(bào)的理論與方法進(jìn)行了深入的研究與探索,提出了許多基于現(xiàn)代智能方法和數(shù)值天氣預(yù)報(bào)的綜合預(yù)報(bào)模型,主要包括模糊分析[4]、灰色系統(tǒng)理論[5]、混沌理論[6]、小波分析理論[7]、人工神經(jīng)網(wǎng)絡(luò)等[8],這些方法對(duì)于提高徑流預(yù)報(bào)結(jié)果的精度和可靠性有著重要意義。然而,相比于預(yù)報(bào)模型,目前對(duì)水文預(yù)報(bào)因子選取的研究相對(duì)較少,預(yù)報(bào)因子作為預(yù)報(bào)模型的輸入側(cè),直接影響預(yù)報(bào)結(jié)果的準(zhǔn)確性和短期預(yù)報(bào)的實(shí)效性,如何從眾多預(yù)報(bào)因子中篩選出關(guān)于預(yù)報(bào)對(duì)象信息含量高、冗余信息少的預(yù)報(bào)因子集是當(dāng)前預(yù)報(bào)工作中的重點(diǎn)。
預(yù)報(bào)因子(輸入變量)的選取是預(yù)報(bào)模型應(yīng)用于實(shí)際工程的關(guān)鍵問題之一。若模型的輸入變量過多,會(huì)導(dǎo)致輸入信息冗余,樣本觀測(cè)誤差增加,模型復(fù)雜度隨之提升,增大預(yù)報(bào)誤差和計(jì)算時(shí)間。輸入變量過少,則模型輸入側(cè)提供的預(yù)報(bào)信息不足,無法很好地解釋輸出變量的變化機(jī)理,難以得到準(zhǔn)確的預(yù)報(bào)結(jié)果。預(yù)報(bào)因子的篩選主要利用因子與預(yù)報(bào)對(duì)象間的相關(guān)關(guān)系,剔除含有不相關(guān)和重復(fù)信息的因子,確保篩選出高信息量、強(qiáng)相關(guān)性的預(yù)報(bào)因子。現(xiàn)階段,傳統(tǒng)的預(yù)報(bào)因子選取方法有先驗(yàn)判斷法、逐步回歸法、相關(guān)系數(shù)法等。先驗(yàn)判斷法容易受判斷者主觀意識(shí)的影響,缺乏客觀性;逐步回歸法與相關(guān)系數(shù)法只能處理線性問題,在處理非線性問題時(shí)存在較大偏差。朱雙等[9]采用灰色關(guān)聯(lián)分析來量化預(yù)報(bào)因子與預(yù)報(bào)對(duì)象的關(guān)聯(lián)程度,并按關(guān)聯(lián)度大小從眾多的相關(guān)因子中挑選出對(duì)徑流過程影響顯著的預(yù)報(bào)因子;趙銅鐵鋼[10],劉蕊鑫[11]等將互信息運(yùn)用于神經(jīng)網(wǎng)絡(luò)徑流預(yù)報(bào)模型輸入變量的選取,并對(duì)結(jié)果進(jìn)行了分析,證明該方法具有一定的實(shí)用性;紀(jì)昌明等[12]建立最大聯(lián)合互信息模型進(jìn)行預(yù)報(bào)因子篩選,新方法能夠?yàn)轭A(yù)報(bào)模型提供更加科學(xué)的輸入,提高模型的預(yù)報(bào)精度;閃麗潔等[13]分別以相關(guān)系數(shù)法、逐步回歸法以及相關(guān)系數(shù)法-逐步回歸法篩選出的因子作為預(yù)報(bào)的輸入項(xiàng),結(jié)果表明綜合方法篩選出的預(yù)報(bào)因子組合可以取得較好的模擬效果;周育琳等[14]驗(yàn)證了相關(guān)系數(shù)法-主成分分析法結(jié)合的綜合方法優(yōu)選預(yù)報(bào)因子的效果優(yōu)于單一方法。
在現(xiàn)有研究的基礎(chǔ)上,本文引入一種新的衡量相關(guān)關(guān)系的度量指標(biāo)——最大信息系數(shù),并將其與主成分分析法結(jié)合,提出最大信息系數(shù)-主成分分析耦合方法(MIC-PCA),應(yīng)用于徑流預(yù)報(bào)因子篩選。并選取BP人工神經(jīng)網(wǎng)絡(luò)作為預(yù)報(bào)模型,該模型廣泛應(yīng)用于復(fù)雜的非線性系統(tǒng)建模。將耦合算法篩選出的因子集輸入到預(yù)報(bào)模型中以驗(yàn)證因子篩選的效果。研究結(jié)果表明,相比于現(xiàn)行方法,MIC-PCA法能夠?yàn)樗念A(yù)報(bào)模型提供更加準(zhǔn)確科學(xué)的輸入,提高模型的預(yù)報(bào)精度。
最大信息系數(shù)(The maximal information coefficient MIC)是一種基于互信息的度量二維變量間相關(guān)關(guān)系的指標(biāo),由麻省理工學(xué)院的David N.Reshef[15]等人于2011年提出。該方法是在互信息的基礎(chǔ)上經(jīng)不等間隔尋優(yōu)與矯正處理[16],相比于傳統(tǒng)的相關(guān)關(guān)系度量指標(biāo)(Pearson相關(guān)系數(shù)、Spearman相關(guān)關(guān)系、互信息等),主要具有以下3個(gè)優(yōu)點(diǎn)。
(1)普適性。MIC法總能找到一種網(wǎng)格劃分,搜索最優(yōu)的分割點(diǎn)計(jì)算其互信息值,使其能有效反應(yīng)變量之間的任意函數(shù)關(guān)系(包括線性或非線性關(guān)系),在函數(shù)的疊加等非函數(shù)關(guān)系的度量上也有優(yōu)異的表現(xiàn)。
(2)穩(wěn)健性。MIC不易受到觀測(cè)樣本中異常值的影響,水文資料一般序列較長(zhǎng),往往存在異常值,因此,MIC適合分析水文資料的相關(guān)關(guān)系。
(3)公平性。對(duì)于2組信息量相同的變量,其對(duì)應(yīng)的MIC值也相同,可以放在同一等級(jí)上公平對(duì)待。當(dāng)2個(gè)隨機(jī)變量滿足函數(shù)或函數(shù)疊加關(guān)系時(shí),MIC依概率收斂到1;當(dāng)2個(gè)隨機(jī)變量相互獨(dú)立時(shí),MIC依概率收斂到0。MIC值理論上在[0,1],相關(guān)程度一目了然,使其在不同關(guān)系中具有可比性。
因而MIC在相關(guān)關(guān)系辨識(shí)、特征選擇等方面的應(yīng)用范圍更廣,將MIC引入到徑流預(yù)報(bào)因子篩選是可行的。
主成分分析(Principal Component Analysis,PCA)由美國(guó)運(yùn)籌學(xué)家Salty在1977年提出,該方法[17]利用降維思想,在保證數(shù)據(jù)信息損失最小的前提下,經(jīng)線性變換和舍棄一小部分信息,把多變量轉(zhuǎn)化為少數(shù)幾個(gè)綜合變量(即主成分)。PCA的基本原理是借助于一個(gè)正交變換,將其分量相關(guān)的原隨機(jī)向量轉(zhuǎn)化成其分量不相關(guān)的新隨機(jī)向量,在代數(shù)上表現(xiàn)為將原隨機(jī)向量的協(xié)方差矩陣變換成對(duì)角形陣,在幾何上表現(xiàn)為將原坐標(biāo)系變換成新的正交坐標(biāo)系,使之指向樣本點(diǎn)散布最開的若干個(gè)正交方向,然后對(duì)多維變量系統(tǒng)進(jìn)行降維處理,使之能以一個(gè)較高的精度轉(zhuǎn)換成低維變量系統(tǒng)。對(duì)于一個(gè)矩陣來說,將其對(duì)角化即產(chǎn)生特征根及特征向量的過程,也是將其在標(biāo)準(zhǔn)正交基上投影的過程,而特征值對(duì)應(yīng)的即為該特征向量方向上的投影長(zhǎng)度,因此該方向上攜帶的原有數(shù)據(jù)的信息最多。主成分空間內(nèi)每一個(gè)主成分表示轉(zhuǎn)換后有效的新特征。張輝[18]等選用主成分分析法進(jìn)行經(jīng)濟(jì)學(xué)指標(biāo)篩選。遲國(guó)泰[19]等通過主成分分析法刪除了因子負(fù)載小的指標(biāo)。說明了主成分分析法在因子篩選及降維中的實(shí)用性。
傳統(tǒng)主成分分析法的計(jì)算步驟簡(jiǎn)述如下。
(1)形成樣本矩陣,樣本標(biāo)準(zhǔn)化處理。
(2)計(jì)算樣本矩陣的協(xié)方差矩陣。
(3)對(duì)協(xié)方差矩陣進(jìn)行特征值分解,計(jì)算主成分貢獻(xiàn)率及累計(jì)貢獻(xiàn)率。
(4)按照一定的累計(jì)貢獻(xiàn)率選取最大的n個(gè)特征值對(duì)應(yīng)的特征向量組成投影矩陣, 得到降維后的新樣本矩陣。
篩選預(yù)報(bào)因子主要目的是剔除含有較多冗余信息的因子,冗余信息既包括有效信息含量低,對(duì)預(yù)報(bào)對(duì)象影響不顯著的信息,又包括重復(fù)信息,無論因子的信息含量高或低都可能含有重復(fù)信息。所以預(yù)報(bào)因子的篩選過程分為2個(gè)步驟:一是要篩選出信息含量高,對(duì)預(yù)報(bào)結(jié)果和預(yù)報(bào)精度影響顯著的因子。這一步剔除了冗余信息中的無關(guān)信息,信息含量低的因子與預(yù)報(bào)變量相關(guān)程度很低甚至無關(guān),輸入到預(yù)報(bào)模型中不僅會(huì)增加模型復(fù)雜度,還會(huì)影響預(yù)報(bào)結(jié)果的準(zhǔn)確性,可能造成對(duì)訓(xùn)練樣本的擬合度不夠,即“欠學(xué)習(xí)”。二是要剔除高信息量因子中重復(fù)信息含量較高的因子。強(qiáng)相關(guān)關(guān)系的高信息量因子之間存在著較大的信息重疊部分,即因子之間存在較多的信息冗余。這樣的因子輸入到預(yù)報(bào)方法中會(huì)使預(yù)報(bào)模型過為復(fù)雜,影響預(yù)報(bào)結(jié)果的準(zhǔn)確性,可能產(chǎn)生“過學(xué)習(xí)”,增加預(yù)報(bào)模型的復(fù)雜程度。
現(xiàn)有的預(yù)報(bào)因子篩選方法,一部分以相關(guān)系數(shù)法、互信息法等為代表,其只考慮最大化因子集的信息含量,而無法保證篩選出的因子集中重復(fù)信息少;另一部分以主成分分析法為代表,只考慮對(duì)變量空間進(jìn)行降維,獲得代表原始變量的主要成分,而無法保證篩選出的因子集信息量最大化。目前,很少有方法可以達(dá)到2者兼顧,而且單一的方法也很難同時(shí)滿足這2點(diǎn)要求。因此,考慮對(duì)這2種方法進(jìn)行有機(jī)結(jié)合,為預(yù)報(bào)因子的選取工作提供了新的思路。
基于此,本文提出最大信息系數(shù)-主成分分析耦合方法(MIC-PCA),應(yīng)用于2階段徑流預(yù)報(bào)因子篩選中。第1階段,通過最大信息系數(shù)有效衡量預(yù)報(bào)因子與實(shí)際徑流系列的相關(guān)關(guān)系,篩選出與實(shí)際徑流系列相關(guān)性強(qiáng)的因子,這些因子通常為高信息量因子,對(duì)于預(yù)報(bào)變量影響顯著;第2階段,從高信息量因子中剔除掉含有較多重疊信息的因子。
主成分分析的目的就是 “去冗余”?!叭ト哂唷钡哪康木褪鞘贡A粝聛淼木S度間的相關(guān)性盡可能小,傳統(tǒng)方法中以協(xié)方差來描述相關(guān)性,本文提出用MIC特征矩陣替代協(xié)方差矩陣來衡量“信息”的多少。MIC矩陣的主對(duì)角線上的元素與協(xié)方差矩陣主對(duì)角線上的元素一樣具有“方差”的含義,其他元素是兩兩維度間的相關(guān)性度量。因此,用MIC特征矩陣替代協(xié)方差矩陣是合理的。通過計(jì)算預(yù)報(bào)因子之間的最大信息系數(shù)以建立預(yù)報(bào)因子MIC特征矩陣,采用主成分分析法剔除信息重疊的因子,得到最終的預(yù)報(bào)因子集,可保證因子集含有最大信息量的同時(shí)重疊信息較少。MIC特征矩陣替代協(xié)方差矩陣具有如下優(yōu)點(diǎn)。
(1)協(xié)方差矩陣本身含有單位,需要變量進(jìn)行歸一化處理以消除單位帶來的影響。
(2)協(xié)方差只能表征變量間的線性關(guān)系,而MIC可以衡量變量間的非線性關(guān)系甚至非函數(shù)關(guān)系[20]。
(3)MIC基于信息熵,本身就含有“信息”的屬性,可以比協(xié)方差更好地度量信息量。
設(shè)初始預(yù)報(bào)因子集為X={X1,X2,…,Xn},預(yù)報(bào)對(duì)象為Y,MIC[21,22]-PCA的具體計(jì)算步驟如下。
(1)在2個(gè)因子的散點(diǎn)圖(集合D)上進(jìn)行x×y劃分,將其元素按x值劃分到x個(gè)格子中,按y值劃分到y(tǒng)個(gè)格子中。
(2)計(jì)算集合D的點(diǎn)落在給定的網(wǎng)格G上所得到的頻率分布D|G,(允許某幾個(gè)網(wǎng)格內(nèi)沒有落入數(shù)據(jù)集D中的點(diǎn))。為了保證既不會(huì)因?yàn)榫W(wǎng)格過為細(xì)密造成每個(gè)樣本點(diǎn)都有自己的小格,而導(dǎo)致即便對(duì)隨機(jī)數(shù)據(jù)也有MIC≠0,又不會(huì)因?yàn)榫W(wǎng)格過為稀疏而不能精確地反映數(shù)據(jù)集的信息,需要合理選擇網(wǎng)格G的劃分上界B(n),ω(1)
(3)計(jì)算不同的網(wǎng)格G確定不同的概率分布,即I(D|G) ,表示點(diǎn)集基于分布D|G的互信息。
(4)在基于x×y網(wǎng)格G的所有可能分布D|G的互信息中找到最大的互信息maxI(D|G)記為I*(D,x,y)。然后將不同大小網(wǎng)格G上的最大互信息標(biāo)準(zhǔn)化,使得各最大互信息均在(0,1)內(nèi),保證了公平性,得到二維數(shù)據(jù)集D的特征矩陣M(D)。
(1)
(5)從步驟(4)得到的結(jié)果中找出最大者,即為最大信息系數(shù)。
MIC(D)=maxx y
(2)
(6)分別計(jì)算各預(yù)報(bào)因子與實(shí)測(cè)徑流間的最大互信息系數(shù)MIC(Xi,Y),并按照從大到小的順序依次排列,篩選出排名靠前的若干因子組成新的因子集X′={X1,X2,…,Xm},m≤n。
(7)分別計(jì)算因子集X′中各因子之間的MIC值MIC(Xi,Xj)(i,j≤n),組成MIC特征矩陣。
(8)計(jì)算MIC特征矩陣的特征值并使其按從大到小順序排列λ1≥λ2≥…λm≥0。分別求出對(duì)應(yīng)于特征值λi的特征向量ei(i=1,2,…,m),要求‖ei‖=1。
(9)計(jì)算主成分貢獻(xiàn)率及累計(jì)貢獻(xiàn)率。一般取累計(jì)貢獻(xiàn)率達(dá)85%~95%的p個(gè)特征值所對(duì)應(yīng)的p個(gè)主成分,即得到最終的預(yù)報(bào)因子集X″={X1,X2,…,Xp}。
貢獻(xiàn)率:
(3)
累計(jì)貢獻(xiàn)率:
(4)
運(yùn)用MIC-PCA進(jìn)行預(yù)報(bào)因子篩選的流程圖如圖1所示。
本文選取雅礱江流域打羅水文站日徑流預(yù)報(bào)作為研究對(duì)象。打羅水文站位于官地水電站下游,官地水電站是雅礱江水電基地下游卡拉至江口河段規(guī)劃的5個(gè)梯級(jí)電站之一。由于官地水電站上游未設(shè)有入庫(kù)水文站,官地的入庫(kù)徑流一般通過“反推”得到。徑流變化對(duì)于水電站水庫(kù)調(diào)度、發(fā)電及農(nóng)業(yè)灌溉等有重要影響,準(zhǔn)確預(yù)報(bào)打羅水文站的徑流量可以提前推算出官地的入流情況,對(duì)官地水電站提前制定調(diào)度方案,指導(dǎo)電站科學(xué)合理運(yùn)行具有重要意義。打羅站位于雅礱江干流上,其徑流主要由支流九龍河(烏拉溪站控制)匯入雅礱江干流(三灘站控制)形成,上游有瀘寧站匯入。徑流的傳遞具有時(shí)延性,所以上游站點(diǎn)已發(fā)生的當(dāng)日流量直接影響著下游站點(diǎn)未來的流量。另外,由于流量序列具有自相關(guān)性,打羅站前期流量對(duì)當(dāng)日流量的預(yù)報(bào)有著重要作用。
為驗(yàn)證本文提出的因子篩選方法的可行性與優(yōu)越性,選取打羅站2009年汛期5-10月日流量作為預(yù)報(bào)對(duì)象,即Y={Qdl,t},選取1998-2008年共10 a汛期(5-10月)打羅水文站前1 d至前5 d天然日徑流和上游水文站三灘站、烏拉溪站、瀘寧站的當(dāng)日徑流及前1 d至前5 d流量實(shí)測(cè)數(shù)據(jù)作為候選預(yù)報(bào)因子集:X={Qdl,t-1,…,Qdl,t-5,Qln,t,…,Qln,t-5,Qst,t,…,Qst,t-5,Qwlx,t,…,Qwlx,t-5},采用MIC-PCA耦合法進(jìn)行預(yù)報(bào)因子篩選。
圖1 MIC-PCA法預(yù)報(bào)因子篩選流程Fig.1 Flow chart of prediction factor screening by MIC-PCA method
其中Qdl,t-1,…,Qdl,t-5代表打羅站前1 d至前5 d天然日徑流,其他符號(hào)含義以此類推。所選各站徑流資料由雅礱江公司提供,該公司之前也利用此數(shù)據(jù)資料作過相關(guān)的分析,可以充分反映官地上游來水情勢(shì)以及水文變化情況,選取的10 a資料,時(shí)間跨度大,能夠體現(xiàn)該流域徑流在時(shí)間上的變化,該數(shù)據(jù)具有代表性好,可靠性高等特點(diǎn)。文中提及的水庫(kù)、水文站點(diǎn)的布設(shè)示意圖如圖2所示。
圖2 水文站點(diǎn)布設(shè)示意圖Fig.2 Layout of hydrological stations
第1階段,計(jì)算因子集中各因子與打羅站當(dāng)日徑流間的最大信息系數(shù)MIC(Xi,Y),計(jì)算結(jié)果如圖3所示。分析圖3中的計(jì)算結(jié)果可以得到以下結(jié)論。
(1)打羅站當(dāng)日徑流序列與其自身的MIC值為1,是完全相關(guān)關(guān)系,以該點(diǎn)作為參照點(diǎn),那么打羅站當(dāng)日徑流序列與打羅站t-1~t-5、瀘寧站和三灘站t~t-5的徑流序列的MIC值均在0.6以上,說明這些預(yù)報(bào)因子與預(yù)報(bào)對(duì)象相關(guān)關(guān)系強(qiáng),而與烏拉溪站的最大信息系數(shù)均位于0.6以下,且明顯遠(yuǎn)小于其他因子,說明烏拉溪站徑流與打羅站徑流的相關(guān)性較弱,所含信息量相比于其他站點(diǎn)較少,可以剔除。
(2)打羅站、瀘寧站和三灘站的最大信息系數(shù)曲線差距很小,基本重疊,表明這3個(gè)站點(diǎn)在同一時(shí)刻的因子所含信息量接近,之間可能存在重復(fù)信息,需要考慮進(jìn)一步剔除簡(jiǎn)化;再次,每一個(gè)站點(diǎn)的曲線都大致呈下降趨勢(shì),說明打羅站當(dāng)日徑流序列與各站徑流序列的相關(guān)程度隨著時(shí)間間隔增加而減弱,即預(yù)報(bào)因子與預(yù)報(bào)對(duì)象的時(shí)間差越小,其包含的預(yù)報(bào)信息越多,該因子在預(yù)報(bào)中所起的作用越大。
(3)瀘寧站與三灘站的曲線在t時(shí)刻到達(dá)最高點(diǎn),且與t-1時(shí)刻接近,可以推測(cè)瀘寧站與三灘站的徑流只需不到1 d即可流經(jīng)打羅站,烏拉溪站在t-1時(shí)刻到達(dá)最高點(diǎn),且與t、t-2時(shí)刻的最大信息系數(shù)值非常接近,所以烏拉溪站的徑流要經(jīng)過1~2 d才能抵達(dá)打羅站。這與各站點(diǎn)間的布設(shè)位置和距離的實(shí)際情況相一致。綜上所述,第1階段篩選后得到的預(yù)報(bào)因子集為X′={Qdl,t-1,…,Qdl,t-5,Qln,t,…,Qln,t-5,Qst,t,…,Qst,t-5},因子集由23個(gè)因子初步簡(jiǎn)化為17個(gè)。
圖3 MIC(Xi, Y)計(jì)算結(jié)果Fig.3 Calculation results of MIC(Xi,Y)
第2階段,在MIC法篩選出的因子集的基礎(chǔ)上,采用改進(jìn)的主成分分析法剔除冗余的預(yù)報(bào)因子,精簡(jiǎn)預(yù)報(bào)集。計(jì)算因子集X′中各因子之間的最大信息系數(shù)MIC(Xi,Xj),得到17×17的最大信息系數(shù)矩陣;計(jì)算MIC矩陣的特征值向量及各因子的主成分貢獻(xiàn)率向量。計(jì)算結(jié)果見表1。
表1 MIC-PCA法第2階段計(jì)算結(jié)果Tab.1 Second phase calculation results of MIC-PCA method
顯然,前3個(gè)因子的累計(jì)貢獻(xiàn)率達(dá)到99%以上,說明前3個(gè)因子含有的預(yù)報(bào)信息量占17個(gè)因子的99%以上,其余因子間的相關(guān)關(guān)系很強(qiáng),可以互相取代,存在較多冗余信息。說明瀘寧站、三灘站與打羅站的徑流十分接近,可能3個(gè)站在地理位置上距離鄰近。因此完全可以用這3個(gè)因子代替17個(gè)因子,則最終篩選出的預(yù)報(bào)因子集為X″={Qdl,t-1,…,Qdl,t-3},因子集由17個(gè)因子簡(jiǎn)化為3個(gè)。
為了驗(yàn)證MIC-PCA法的有效性,本文選取BP人工神經(jīng)網(wǎng)絡(luò)作為預(yù)報(bào)模型,將篩選得到的預(yù)報(bào)因子集的觀測(cè)樣本作為模型的輸入樣本,對(duì)預(yù)報(bào)模型進(jìn)行訓(xùn)練和測(cè)試,通過徑流系列的預(yù)測(cè)結(jié)果檢驗(yàn)預(yù)報(bào)因子集的篩選效果。采用1998-2008年共2 024組汛期數(shù)據(jù)進(jìn)行模型訓(xùn)練,神經(jīng)元傳遞函數(shù)選取雙曲正切函數(shù),隱含層神經(jīng)元數(shù)量設(shè)為200,訓(xùn)練次數(shù)10 000次。預(yù)測(cè)打羅站2009年5月1日至10月31日的日平均流量過程,并采用因子篩選方法中應(yīng)用較多的互信息法(MI),與單一最大信息系數(shù)法(MIC)、傳統(tǒng)主成分分析法(PCA)和本文提出的MIC-PCA法的因子篩選結(jié)果和預(yù)報(bào)結(jié)果進(jìn)行對(duì)比。預(yù)報(bào)結(jié)果的評(píng)定采用計(jì)算時(shí)間、平均絕對(duì)誤差MAE、均方根誤差RMSE、確定性系數(shù)DC和預(yù)報(bào)合格率QR這5項(xiàng)指標(biāo),對(duì)各模型的擬合結(jié)果進(jìn)行檢驗(yàn),評(píng)定指標(biāo)的計(jì)算公式見表2。
表2 預(yù)報(bào)準(zhǔn)確度計(jì)算指標(biāo)和計(jì)算公式Tab.2 The calculation index of forecast accuracy
表2式中:MAE代表預(yù)測(cè)值與實(shí)際值的偏差絕對(duì)值求平均;RMSE代表預(yù)測(cè)值與實(shí)際值之差的平方根的平均值;DC代表預(yù)報(bào)過程與實(shí)測(cè)過程之間的吻合程度,其值越接近1,偏離程度越?。籕R代表預(yù)報(bào)合格點(diǎn)所占比重,短期徑流預(yù)報(bào)誤差小于15%為合格預(yù)報(bào);N為序列長(zhǎng)度;Q(i)為實(shí)際流量值;Qf(i)為預(yù)測(cè)流量值;n為預(yù)報(bào)合格次數(shù)。
互信息和MIC按照80%的單側(cè)置信度選取因子,主成分分析選取99%累積貢獻(xiàn)率的因子,各種方法篩選出的因子集及預(yù)報(bào)效果見表3。
表3 各方法篩選結(jié)果與預(yù)報(bào)準(zhǔn)確度指標(biāo)值Tab.3 The screening results of various methods and the index value of prediction accuracy
結(jié)果顯示:互信息和最大信息系數(shù)都是將與預(yù)報(bào)對(duì)象相關(guān)關(guān)系強(qiáng)的因子篩選出來,保證篩選出的因子集信息量最大。最大信息系數(shù)作為MIC-PCA的第1階段,目的是篩選出含有高信息量的因子,與互信息相比,因其衡量非線性、非函數(shù)關(guān)系的能力更強(qiáng),更容易發(fā)現(xiàn)互信息無法檢測(cè)到的因子間的關(guān)聯(lián)信息,故篩選出的因子更多。但所篩選出的因子集作為BP人工神經(jīng)網(wǎng)絡(luò)的輸入表現(xiàn)不佳,計(jì)算時(shí)間最長(zhǎng),預(yù)報(bào)精度和合格率都最低,說明這些因子間信息重疊部分較大,影響了預(yù)報(bào)的準(zhǔn)確度。
互信息與主成分分析的計(jì)算時(shí)間相差不大,但主成分分析的預(yù)報(bào)效果明顯較好,主成分分析法基于各因子的線性組合,將系數(shù)大的識(shí)別為主成分,并通過降維剔除了大多冗余信息。但主成分分析法無法識(shí)別與預(yù)報(bào)對(duì)象非線性關(guān)系較強(qiáng)的預(yù)報(bào)因子,故遺漏了該部分因子所包含的信息,擬合效果欠佳?;バ畔⒎êY選出的因子集中保留了過多的因子,可能存在信息冗余,降低了BP人工神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)效果,擬合效果不佳。
MIC-PCA在所有方法中表現(xiàn)最佳,預(yù)報(bào)因子集最為精簡(jiǎn),計(jì)算時(shí)間最短。雖然因子數(shù)量少,但衡量預(yù)報(bào)準(zhǔn)誤差的MAE和RMSE均最小,DC最接近1,說明預(yù)報(bào)徑流與實(shí)際徑流的偏差小,擬合精度高,且預(yù)報(bào)合格的點(diǎn)數(shù)多,預(yù)報(bào)效果最佳。采用MIC-PCA篩選出的因子既保證了信息量充足,又剔除了較多重復(fù)信息,使因子集合理精簡(jiǎn)保證了高質(zhì)量、精準(zhǔn)的模型輸入,因此預(yù)報(bào)模擬效果好。這說明MIC-PCA可以為官地水電站的入庫(kù)站徑流預(yù)報(bào)提供準(zhǔn)確的預(yù)報(bào)因子集。
采用的互信息法、主成分分析法和MIC-PCA法用于徑流預(yù)報(bào),3種方法的預(yù)報(bào)結(jié)果及實(shí)際徑流過程線如圖4所示。
圖4 以各方法的因子集進(jìn)行徑流預(yù)報(bào)的結(jié)果Fig.4 The result of runoff forecast based on the factor set of each method
從圖4可以看出,無論是在低流量還是高流量的情況下,MIC-PCA的預(yù)報(bào)徑流曲線與實(shí)際徑流曲線十分接近,預(yù)報(bào)準(zhǔn)確度較高;互信息法在低流量附近和峰值附近擬合偏差較大,前期5月1日至6月10日預(yù)報(bào)值偏大,之后普遍偏低。根據(jù)互信息法篩選出的因子集進(jìn)行預(yù)報(bào)偏差較大,平均每個(gè)預(yù)測(cè)點(diǎn)與真實(shí)值的相差350 m3/s,不利于水庫(kù)汛期的安全運(yùn)行;MIC-PCA法與主成分分析法的預(yù)測(cè)徑流比較貼近,但可以看出MIC-PCA法的的預(yù)報(bào)徑流曲線與實(shí)際徑流曲線更加吻合,尤其是在極端值附近。實(shí)測(cè)徑流序列最大峰值出現(xiàn)于2009年8月13日,為8 090 m3/s,MIC-PCA法預(yù)測(cè)為7 913 m3/s,而主成分分析法預(yù)測(cè)為7 273 m3/s,較實(shí)際值明顯偏小,若使用該預(yù)報(bào)值作為調(diào)度決策的參考,使官地水電站推算出的入庫(kù)徑流量偏小,會(huì)發(fā)生預(yù)留的防洪庫(kù)容不足的后果,對(duì)下游及水庫(kù)安全造成損害。而MIC-PCA法的預(yù)報(bào)值與實(shí)際值始終較為接近,預(yù)報(bào)合格率高達(dá)93%,可以為官地水電站的調(diào)度決策提供更加可靠的參考。
為解決現(xiàn)有徑流預(yù)報(bào)因子篩選方法較少能夠兼顧信息量高、冗余信息少等要求,本文將最大信息系數(shù)衡量變量間復(fù)雜相關(guān)關(guān)系的能力,與主成分分析法降維去除冗余信息的能力有機(jī)結(jié)合,提出MIC-PCA耦合算法,并應(yīng)用于徑流預(yù)報(bào)因子篩選。第1階段,計(jì)算各預(yù)報(bào)因子與實(shí)測(cè)徑流間的最大互信息系數(shù)從而篩選信息含量高的因子;第2階段,采用改進(jìn)的主成分分析法,即以預(yù)報(bào)因子之間的最大信息系數(shù)矩陣代替?zhèn)鹘y(tǒng)方法中的協(xié)方差矩陣,剔除信息重疊的因子,最終得到篩選后的預(yù)報(bào)因子集。本文將該方法應(yīng)用于打羅水文站的日徑流預(yù)報(bào)中,并將該方法篩選出的預(yù)報(bào)因子集與其他多種因子篩選方法的篩選結(jié)果分別作為BP人工神經(jīng)網(wǎng)絡(luò)的輸入以驗(yàn)證該方法的有效性,綜合各項(xiàng)結(jié)果可以看出,該方法能夠從眾多預(yù)報(bào)因子中篩選出高信息量低冗余度的因子,為預(yù)報(bào)模型提供精確合理的輸入,有助于提高預(yù)報(bào)模型的預(yù)報(bào)效果。綜上,本文提出的MIC-PCA耦合算法在預(yù)報(bào)因子篩選方面具有實(shí)用價(jià)值。
□