王曉鵬
(遼寧省水利水電勘測設(shè)計研究院有限責任公司,遼寧 沈陽 110006)
泥沙淤積現(xiàn)已成為多數(shù)已建水庫正常運用的制約條件,尤其對于北方水庫,天然徑流量年內(nèi)分布極不均勻,大部分來水幾乎都集中在汛期,而汛期的來沙量也占到全年來沙量的80%以上。多泥沙河流水庫的入庫沙量主要是由汛期洪水攜帶入庫,因此,入庫洪量和沙量的相關(guān)關(guān)系,對于研究發(fā)揮水庫綜合效益與排沙之間的矛盾是非常有意義的。入庫沙量的預(yù)報具有影響因素多、不確定性強等特點。由于下墊面對降雨復(fù)雜的作用機制,對于不同的下墊面條件,即使降雨量和降雨過程相同,產(chǎn)沙量也相差甚遠;而對于相同的下墊面條件,降雨量、降雨過程等降雨特征也直接決定了產(chǎn)沙量的大小。
本文通過統(tǒng)計分析鬧德海水庫的入庫水量、沙量資料,以鬧德海水庫所在的柳河流域為研究對象,對比分析柳河流域的不同支流流域下墊面情況,對水庫入庫沙量的影響因子進行離散化處理,利用決策樹數(shù)據(jù)挖掘技術(shù),建立各項因素之間的關(guān)系,達到預(yù)測水庫入庫沙量的目的。
決策樹技術(shù)是一種被廣泛應(yīng)用的邏輯方法,利用大數(shù)據(jù)原理,在看似不存在相關(guān)關(guān)系的樣本數(shù)據(jù)中,對數(shù)據(jù)進行分類、歸納和總結(jié),分析出一種決策樹式的相關(guān)關(guān)系規(guī)則。決策樹技術(shù)建立了由上至下的遞歸的形式,決策樹形式中的每一個節(jié)點代表了一個屬性,該屬性以屬性增量或者遞增率作為啟發(fā)信息,對樣本數(shù)據(jù)進行離散;決策樹中的分支則表示著屬性的輸出。
決策樹技術(shù)主要包括ID3算法和C4.5算法。ID3算法是一種較為基礎(chǔ)的算法,目前使用較為廣泛的算法大部分以ID3算法作為基礎(chǔ)。C4.5算法以ID3算法為基礎(chǔ),并進行了一定改進。C4.5算法與ID3算法一樣采用增量最大的屬性作為決策樹結(jié)構(gòu)的結(jié)點,但是卻改善了ID3算法偏向于取值多的屬性缺點,本文中將采用較為先進的C4.5算法進行分析建模研究。
分析降雨產(chǎn)沙量首先需要找到影響降雨產(chǎn)沙量的因素,然后利用歷史降雨及產(chǎn)沙量資料建立模型,擬合水庫入庫水沙關(guān)系。
本次研究選取降雨中心分布、降雨過程分布值a、最大3h降雨量、前期影響雨量Pa、水庫入庫輸沙量5個因素作為模型的影響因子。降雨中心分布的差異直接體現(xiàn)了不同下墊面的宏觀差異,對降雨產(chǎn)沙量影響較大;降雨過程分布值a,反映了單次降雨的過程和降雨強度,是影響產(chǎn)沙量的另一個重要因素;最大3h降雨量,對于北方降雨基本可以反映單次降雨的總降雨量,宏觀上決定了水量和沙量的關(guān)系;前期影響雨量Pa,根據(jù)產(chǎn)流原理,蓄滿產(chǎn)流的前期影響雨量決定了單次降雨的徑流量。
各個影響因子有n個數(shù)據(jù)樣本,水庫入庫沙量為模型輸出因子,降雨中心分布、降雨過程分布值a、最大3h降雨量、前期影響雨量Pa為輸入因子。輸出因子存在m個樣本數(shù)值,定義m個Pi(i=1,2,…,m)。任意一個樣本數(shù)據(jù)的期望值為
假設(shè)輸入因子I有p個不同取值{a1,a2,…,ak},可用因子I將指定數(shù)據(jù)集合S分為P個子集合{C1,C2,…,Ck}。假設(shè)I為影響因子,則由P集合衍生的分支與該子集為對應(yīng)關(guān)系。假設(shè)子集Ci中Pi的樣本數(shù)為pij,那么I子集的熵為
根據(jù)上述公式,對于特定的子集Cj的期望值為
期望值和熵值可獲得信息增率,對于輸入因子I上的分支,可以由Gain(A)=I(p1,p2,…,pm)-E(A)得到,則信息增率公式為
以該分支的集合增率繼續(xù)分解樣本,直到劃分完所有因子為止,從而得到水庫入庫沙量這個輸出因子的決策樹模型。
決策樹技術(shù)模擬單次降雨的輸沙量,需要對各項輸入因子進行離散處理,處理后的輸入因子作為決策樹的節(jié)點,并以此繼續(xù)進行向下分支,以該分支的數(shù)據(jù)對樣本進行持續(xù)劃分,直到劃分完所有因子為止(見圖1)。
圖1 決策樹分類示意圖
選取降雨中心分布、降雨過程分布值a、最大3h降雨量、前期影響雨量Pa這4個因素作為模型的輸入因子,水庫入庫輸沙量作為模型的輸出因子,分別對各項因子進行離散處理。離散分級情況見表1。
表1 因子的離散分級情況
本文選擇遼寧省鬧德海水庫進行決策樹入庫沙量模擬,以最大3h降雨量為決策樹模型的主要輸入因子,降雨中心分布作為次要輸入因子建立決策樹模型(見圖2)。
圖2 鬧德海水庫降雨輸沙量預(yù)報決策樹模型
若最大3h降雨量為1~2級,降雨中心主要分布在石門子流域,則入庫輸沙量為1~3級,降雨過程分布值a越大,輸沙量越大,若降雨中心分布屬于均勻分布,則入庫輸沙量為3級;若最大3h降雨量為3級,降雨中心主要分布在石門子流域,則入庫輸沙量為2~4級,降雨過程分布值a越大,輸沙量越大,若降雨中心分布屬于均勻分布,則入庫輸沙量為4級;若最大3h降雨量為4級,則入庫輸沙量為6級。
以本文選擇的決策樹模型,對鬧德海水庫歷史25場洪水進行模擬預(yù)報,其中1990年的第二場洪水預(yù)報誤差偏小了4個等級,1998年、2000年、2002年、2004年洪水預(yù)報誤差偏大1~2個等級。能夠準確預(yù)報出水庫入庫輸沙量的洪水達到20場次,準確率達到80%(見表2)。
表2 分級預(yù)報入庫輸沙量結(jié)果
本文采用決策樹數(shù)據(jù)挖掘技術(shù),以柳河流域鬧德海水庫為例,選取降雨中心分布、降雨過程分布值a、最大3h降雨量、前期影響雨量Pa這4個因素作為模型的輸入因子,水庫入庫輸沙量作為模型的輸出因子,進行了決策樹建模和模擬。模擬的25場歷史洪水中,準確預(yù)報出水庫入庫輸沙量的為20場,準確率達到了80%,在泥沙預(yù)報領(lǐng)域內(nèi),屬于較高水平。利用該模型對多泥沙河流水庫的入庫沙量進行預(yù)報,對水庫水沙調(diào)度有一定的指導(dǎo)意義,有利于多泥沙河流水庫實現(xiàn)沖淤平衡,從而更好地發(fā)揮水庫綜合效益。