孫苗苗,李彬權(quán),王 穎,肖章玲,樊 靜,全雨菲
(1. 河海大學水文水資源學院,江蘇 南京 210098;2. 江蘇省水文水資源勘測局泰州分局,江蘇 泰州 225300)
常用的水文預報模型方法可概括為基于物理過程驅(qū)動的水文模型以及基于數(shù)據(jù)驅(qū)動的水文模型兩大類。前者是將復雜的水文現(xiàn)象加以概化,建立具有一定物理意義的數(shù)學物理模型來預報水情[1],后者則利用數(shù)據(jù)挖掘技術(shù),從歷史水文氣象入手,利用智能算法對水文現(xiàn)象成因進行模擬,實現(xiàn)水文預報[2-3]。
長期以來,黃土丘陵區(qū)干旱半干旱流域的洪水預報精度水平普遍不高,其主要原因是其自身產(chǎn)匯流機理的復雜性及下墊面人類活動的強烈擾動作用[4]。由于影響降雨徑流關(guān)系的因素多而復雜,采用第一類基于物理過程驅(qū)動的水文模型進行洪水預報,往往難以取得理想的效果。近年來,神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則等數(shù)據(jù)挖掘技術(shù)在水文預報中得到不同程度的應用[5-7],取得良好精度效果,為復雜水文條件地區(qū)的洪水預報問題提供了新的思路。隨機森林模型是一種新的機器學習方法[8],在水文預報領(lǐng)域也得以應用。Li等[9]采用隨機森林算法建立鄱陽湖日水位預測模型,與人工神經(jīng)網(wǎng)絡(luò)、支持向量機和線性模型相比,表現(xiàn)為較高的預報精度。Liang等[10]利用隨機森林模型生成丹江口水庫流域降水場數(shù)據(jù)序列,耦合SWAT模型進行長期徑流預報。趙文秀等[11]則直接將隨機森林模型應用于長期徑流預報,取得較高預報精度。本文以黃河支流窟野河上游的悖牛川流域為研究區(qū),利用數(shù)據(jù)挖掘手段建立該流域把口站(新廟站)洪水預報的隨機森林模型,驗證該模型方法在黃土丘陵區(qū)干旱半干旱流域的適用性,嘗試解決該地區(qū)現(xiàn)有水文模型的洪水預報精度不高的難題。
隨機森林是在Bagging集成學習理論和隨機子空間方法基礎(chǔ)上發(fā)展得到的一種機器學習算法[[8,12]。在機器學習中,隨機森林是一個包含多個決策樹的分類器。與其他模型一樣,隨機森林可以解釋若干自變量(X1,X2,…,Xk)對因變量Y的作用。在構(gòu)建分類樹時,隨機森林先從初始樣本集中隨機抽樣(Bootstrap隨機抽樣),然后為每個樣本分別構(gòu)建決策樹。一般情況下,隨機森林隨機生成幾百個至幾千個分類樹,即可得到多個分類結(jié)果,然后對每個分類的結(jié)果進行投票,選擇得票最高的樹作為最終結(jié)果[13],見圖1。
與當前多種機器學習模型比較,隨機森林算法優(yōu)勢明顯:它可以處理大量的自變量問題,學習過程快速,且能高效處理很大的數(shù)據(jù)量問題;現(xiàn)有的隨機森林算法不需要顧慮到一般回歸問題所面臨的多元共線性的問題,而是評估所有變量的重要性;它在部分資料缺失條件下仍能維持一定的準確度[10]。
將隨機森林模型應用于洪水過程預報時,在模型構(gòu)建階段,由預報因子與預報對象的歷史觀測數(shù)據(jù)可構(gòu)建隨機森林模型;在模型預測階段,只要將最新觀測的預報因子數(shù)據(jù)輸入到模型中,便可得到預報對象的預測值。本文研究中預報因子包括流域面平均降雨量、新廟站歷史觀測流量,預報對象為新廟站待預報時刻的流量。
悖牛川發(fā)源于內(nèi)蒙古南部伊克昭盟東勝縣內(nèi),與烏蘭木倫河在陜西神木縣城北的房子塔相匯合后注入窟野河,全河長109 km,流域面積2 274 km2[14],地處黃河中游黃土丘陵區(qū),黃土覆蓋,地形起伏大,水土流失嚴重多,年平均氣溫7.9℃,平均降水量410 mm左右。受季風的影響,屬于干旱半干旱大陸性氣候,春季干旱少雨,夏季多有暴雨,秋季降霜早凍,冬季酷寒稀雪[15]。新廟站為悖牛川匯入窟野河的把口水文站,本文選取新廟站進行洪水預報研究(圖2)。
選用流域內(nèi)12個雨量站以及新廟水文站1981—2007年的場次洪水資料構(gòu)建暴雨洪水預報模型,站點分布情況見圖2。摘取的次洪過程共48場,時段步長為0.5 h,其中1—36場用為模型率定,37—48場為模型驗證。
2.2.1 預報因子篩選結(jié)果
將場次洪水的累積ih流域平均降雨量(i=0.5, 1.0, 1.5, …, 3)和提前jh流量(j=0.5,1)作為初選預報因子(自變量),將逐時段洪水流量作為預報對象(因變量),通過統(tǒng)計分析篩選預報因子。
以相關(guān)系數(shù)為目標函數(shù)篩選的預報因子為:①累積2.5 h流域面平均降雨量;②累積3 h流域面平均降雨量;③提前0.5 h的流量;④提前1 h的流量。在模型構(gòu)建中,隨機森林決策樹數(shù)量為100。
2.2.2 模型結(jié)果分析
根據(jù)《水文情報預報規(guī)范》相關(guān)規(guī)定[16],采用相關(guān)系數(shù)、確定性系數(shù)、洪峰誤差、洪量誤差及峰現(xiàn)時間誤差5種評定指標分別對新廟站率定期36場洪水和驗證期12場洪水模擬過程進行精度評定,結(jié)果見圖3??梢钥闯觯识ㄆ诤万炞C期所有場次洪水的相關(guān)系數(shù)均大于0.6;率定期和驗證期相關(guān)系數(shù)的平均值分別為0.93和0.86。根據(jù)確定性系數(shù)指標,率定期滿足精度要求(確定性系數(shù)大于0.7)的場次為31場,驗證期確定性系數(shù)滿足精度要求的場次為7場;率定期和驗證期確定性系數(shù)的平均值分別為0.84和0.71。所有48場洪水中,共有44場洪峰達到合格,合格率為91.7%。洪峰誤差、洪量誤差及峰現(xiàn)時間誤差指標上來看,大部分場次滿足精度要求,但也存在個別場次不滿足精度的情況??傮w來看,隨機森林模型模擬的場次洪水結(jié)果在率定期的精度要優(yōu)于驗證期。
圖4給出了新廟站率定期6場、驗證期2場洪水的模擬流量過程線與實測序列的對比。從擬合效果來看,隨機森林模型對單峰與復式洪水均能較好地模擬出其漲落過程,在峰、量及峰現(xiàn)時間等防洪工作中重點關(guān)注的防洪要素上精度較高。
回顧當前黃河中游干旱半干旱區(qū)水文模型研究現(xiàn)狀,集總式水文模型與分布式水文模型(包括超滲產(chǎn)流及超滲-蓄滿混合產(chǎn)流等機制)在實際作業(yè)中的洪水過程預報均難以滿足精度要求[4]。因此,現(xiàn)有的水文模型在黃河中游地區(qū)的場次洪水預報中的應用精度均不高。而整體來看,本文構(gòu)建的隨機森林模型在悖牛川流域新廟站洪水模擬中具有較好的精度,模擬的與實測流量過程線吻合度良好,一定程度上反映了隨機森林模型在該地區(qū)洪水預報中的適用性。盡管本文構(gòu)建的隨機森林模型精度有保證,但也存在部分場次洪水精度不高的現(xiàn)象,其原因比較復雜,主要表現(xiàn)為:①預報因子比較單一,目前只選擇了降雨因子與流量因子,悖牛川流域?qū)俚湫透珊蛋敫珊祬^(qū),降雨時空分布不均,水土流失嚴重,山地居多等都會對產(chǎn)匯流過程產(chǎn)生復雜影響; ②面雨量估計精度誤差,雨強是超滲產(chǎn)流的決定性因素,研究流域為超滲產(chǎn)流區(qū),降雨強度大,降雨歷時短,面雨量計算時會有一定均化誤差,導致模型結(jié)果存在不確定性;③模型的自身局限性,隨機森林模型屬數(shù)理統(tǒng)計方法,可能存在缺乏對產(chǎn)匯流形成機制全面考慮的局限性。因此,在改變洪水預報對象的情況下,隨機森林模型應用效果可能有所變化,需要進一步深入研究。
本次研究選取黃河中游干旱半干旱地區(qū)悖牛川流域1981—2007年的48場次洪水資料,通過數(shù)據(jù)挖掘手段篩選新廟站洪水預報的關(guān)鍵預報因子,構(gòu)建基于隨機森林模型的洪水預報模型;模型結(jié)果表明,利用隨機森林模型進行洪水預報的精度滿足要求。此外,隨機森林模型具有方便快捷、操作簡單及高效率的優(yōu)點,可為黃河中游干旱半干旱地區(qū)的洪水預報提供有益參考。