史劍偉 江時(shí)俊 劉啟興
(1.安慶市重點(diǎn)水利工程建設(shè)管理處 安慶 246000 2.黃河水利科學(xué)研究院 鄭州 450000)
由于黃河特殊的自然、氣象等條件使得黃河的河性變得十分復(fù)雜,黃河也變得難以治理。黃河流域的降雨、徑流變化等過(guò)程是一個(gè)十分復(fù)雜的動(dòng)力學(xué)系統(tǒng),難以用定量的方法來(lái)清晰地描繪出來(lái)。一般所用到的大氣運(yùn)動(dòng)方程、水土流失方程、河流動(dòng)力學(xué)方程和泥沙輸移運(yùn)動(dòng)方程等一系列方程用在黃河上都存在很多的問(wèn)題。同時(shí),黃河也比較缺乏完整的氣象、地形、水沙等實(shí)測(cè)資料,因此,利用目前已經(jīng)擁有的比較少的實(shí)測(cè)資料來(lái)解決黃河復(fù)雜的問(wèn)題,是迫切且關(guān)鍵的。
基于人工智能和大數(shù)據(jù)驅(qū)動(dòng)的新一代水文模型已經(jīng)成功運(yùn)用到許多地區(qū)的洪水分析中,并都取得了較好的計(jì)算結(jié)果。針對(duì)降雨徑流過(guò)程的高隨機(jī)性和非靜態(tài)特性,人們開發(fā)了大量的模型來(lái)研究這一復(fù)雜的現(xiàn)象。近年來(lái),人工神經(jīng)網(wǎng)絡(luò)(ANN)等機(jī)器學(xué)習(xí)技術(shù)已被水文工作者廣泛應(yīng)用于降雨徑流模擬和其他水文領(lǐng)域。然而,像LSTM網(wǎng)絡(luò)這樣的深度學(xué)習(xí)方法在水文序列、時(shí)間序列預(yù)測(cè)方面的研究還很少。胡彩虹等通過(guò)對(duì)汾河(黃河的第二大支流)流域的14個(gè)降雨監(jiān)測(cè)水文站和1個(gè)流域水文站點(diǎn)監(jiān)測(cè)的1971—2013年發(fā)生的洪水事件進(jìn)行分析,采用ANN和LSTM網(wǎng)絡(luò)模型,對(duì)其降雨徑流過(guò)程進(jìn)行了模擬。模型的數(shù)據(jù)來(lái)自同一時(shí)期的98個(gè)降雨徑流事件,以86個(gè)降雨徑流事件為訓(xùn)練集,其余的12個(gè)降雨徑流事件為測(cè)試集。結(jié)果表明,采用的兩個(gè)網(wǎng)絡(luò)模型都適用于模擬降雨徑流過(guò)程,且都優(yōu)于基于概念和物理的模型。
本次研究以黃河流域的伊洛河流域?yàn)檠芯繀^(qū)域,進(jìn)行基于XGBoost算法設(shè)計(jì)和構(gòu)建的智能預(yù)測(cè)模型的研究分析,以流域2003年的洪水過(guò)程作為驗(yàn)證數(shù)據(jù),并且與傳統(tǒng)的水文模型HBV 進(jìn)行效果比較分析。
伊洛河流域位于黃河流域的中部。伊洛河由伊河、洛河兩條河流構(gòu)成,兩條河流流向近乎平行。其中伊河發(fā)源于河南省奕川縣,洛河發(fā)源于陜西省洛南縣,二者在堰師市棗莊交匯。
沁河是黃河三花間的第二大支流,它發(fā)源于山西省長(zhǎng)治市沁源縣太岳山南麓的二郎神溝,流經(jīng)山西、河南兩省的16個(gè)縣市,最后在武陟縣南賈村匯入到黃河之中。
目前,集成學(xué)習(xí)是機(jī)器學(xué)習(xí)中最熱門的研究領(lǐng)域之一,它的基本思路是結(jié)合很多個(gè)弱學(xué)習(xí)器,從而構(gòu)成一個(gè)強(qiáng)大的能夠準(zhǔn)確預(yù)測(cè)的模型。集成學(xué)習(xí)并不僅僅是簡(jiǎn)單的多個(gè)分類器的疊加,而是通過(guò)訓(xùn)練這個(gè)聚合的模型,實(shí)現(xiàn)弱學(xué)習(xí)器的最優(yōu)組合,它比使用單個(gè)模型預(yù)測(cè)出來(lái)的結(jié)果要精確的多。
極端梯度提升樹(XGBoost)是一個(gè)集成學(xué)習(xí)算法,它是大規(guī)模并行集成決策樹的工具,是目前最快最好的集成決策樹算法,它是由多個(gè)相關(guān)聯(lián)的決策樹聯(lián)合決策,即下一棵決策樹輸入樣本會(huì)與前面決策樹的訓(xùn)練和預(yù)測(cè)結(jié)果相關(guān)。模型訓(xùn)練開始時(shí)決策樹個(gè)數(shù)是0,隨著訓(xùn)練迭代加入決策樹,即加入決策函數(shù)。作為集成學(xué)習(xí)方法的一種,XGBoost預(yù)測(cè)模型可以表示為:
目標(biāo)函數(shù)可以表示為:
為了客觀地反映徑流預(yù)測(cè)智能模型在黃河流域徑流過(guò)程預(yù)測(cè)中的準(zhǔn)確度,通過(guò)水文模型中常用的納什效率系數(shù)(Nash-Sutcliffe efficiency coefficient,簡(jiǎn)稱NSE)以及水量誤差(Relative Error,簡(jiǎn)稱RE)來(lái)評(píng)判算法性能的優(yōu)劣。
式中:Qobs是指觀測(cè)值;Qsim是指模擬值;i表示第t時(shí)刻的某個(gè)值;表示觀測(cè)值的總平均值。
NSE 取值范圍為負(fù)無(wú)窮至1。NSE越接近1,表示模型擬合結(jié)果越好,模型的可信度越高;NSE越接近0,表示模擬得出的結(jié)果越接近觀測(cè)值的平均值,即總體結(jié)果比較可信,但是模擬過(guò)程出現(xiàn)的誤差比較大;NSE 遠(yuǎn)遠(yuǎn)小于0,則模型是完全不可信的。RE表示誤差與觀測(cè)值的相對(duì)大小。
選取徑流過(guò)程較豐富的2003年的伊洛河、沁河洪水過(guò)程作為測(cè)試集,其余的數(shù)據(jù)作為訓(xùn)練集。
XGBoost模型在第52次訓(xùn)練迭代后趨于穩(wěn)定,損失函數(shù)值在0.09~0.10之間。將訓(xùn)練得到的模型應(yīng)用到測(cè)試集,在2003年,伊洛河黑石關(guān)站最大流量發(fā)生在9月3日,流量為2030m3/s。8~11月期間,流量還出現(xiàn)多次超過(guò)1000m3/s的情況,包括10月5日和9月2日,流量分別為1330m3/s和1730 m3/s,峰值預(yù)測(cè)對(duì)比結(jié)果見表1。
XGBoost模型訓(xùn)練結(jié)果在第43次訓(xùn)練迭代后趨于穩(wěn)定,損失函數(shù)值在0.95~0.96之間。將訓(xùn)練得到的模型應(yīng)用到測(cè)試集,在2003年,沁河武陟站的最大流量出現(xiàn)在10月12日,為839m3/s。除此之外,8—11月還出現(xiàn)多次較大的洪峰流量,包括8月28日出現(xiàn)的504 m3/s和10月15日出現(xiàn)的451m3/s。峰值預(yù)測(cè)結(jié)果見表2。
表2 沁河武陟站峰值模擬結(jié)果對(duì)比表
從伊洛河和沁河2003年洪水過(guò)程模擬結(jié)果可以看出,在非汛期時(shí),基于集成學(xué)習(xí)的極端梯度提升樹(XGBoost)模型和傳統(tǒng)水文模型HBV模型都可以比較好地模擬徑流,特別是基流過(guò)程。兩個(gè)流域徑流預(yù)報(bào)結(jié)果基本反映洪水漲落過(guò)程,洪水的場(chǎng)次以及峰形符合較好,但傳統(tǒng)的水文模型HBV模型對(duì)兩個(gè)流域“尖瘦型”洪水的預(yù)報(bào)能力明顯不足。從NSE值、RE值及峰值相對(duì)誤差等結(jié)果綜合比較可以看出,基于XGBoost 建立的智能模型相比于傳統(tǒng)的水文模型HBV模型,可以更穩(wěn)定、更準(zhǔn)確地模擬洪水過(guò)程。
本文對(duì)黃河徑流智能預(yù)測(cè)模型的原理、使用方法進(jìn)行了詳細(xì)闡明。其中基于集成學(xué)習(xí)的極端梯度提升樹(XGBoost)智能模型十分適合預(yù)測(cè)黃河徑流的變化,將基于XGBoost模型設(shè)計(jì)和構(gòu)建的智能預(yù)測(cè)模型應(yīng)用于黃河伊洛河、沁河流域進(jìn)行預(yù)報(bào),并對(duì)預(yù)報(bào)結(jié)果進(jìn)行了分析研究。
兩個(gè)流域徑流預(yù)測(cè)結(jié)果都基本反映了洪水漲落過(guò)程,洪水時(shí)間及峰形符合較好,但沁河流域徑流預(yù)測(cè)結(jié)果稍優(yōu)于面積較大的伊洛河流域?;赬GBoost模型的智能預(yù)測(cè)模型對(duì)兩個(gè)流域洪水過(guò)程模擬相比傳統(tǒng)水文模型HBV模型更加穩(wěn)定和準(zhǔn)確。
黃河徑流智能預(yù)測(cè)的內(nèi)容十分復(fù)雜,如何利用具有捕捉要素時(shí)序特征的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)算法開展黃河徑流預(yù)測(cè)有待進(jìn)一步的深入研究。
洪水預(yù)報(bào)需要大量要素?cái)?shù)據(jù)支撐,主要包括:水文數(shù)據(jù)、氣象數(shù)據(jù)、衛(wèi)星遙感數(shù)據(jù)、社會(huì)經(jīng)濟(jì)數(shù)據(jù)以及水利模型模擬演算數(shù)據(jù)等。數(shù)據(jù)具有多模態(tài)、多要素耦合、非線性、多時(shí)空尺度、高度復(fù)雜的特點(diǎn),目前基于人工智能算法黃河徑流預(yù)測(cè)模型的輸入仍以氣象強(qiáng)制條件為主,結(jié)合地形、土地利用等多類型多模態(tài)數(shù)據(jù)的人工智能算法的改進(jìn)是未來(lái)研究方向之一■