張宸宇
(北京金河水務(wù)建設(shè)集團(tuán)有限公司,北京 102206)
作為區(qū)域水文循環(huán)的重要組成部分,河道水沙含量及運(yùn)移規(guī)律是影響區(qū)域水土資源平衡的重要因素之一[1-2]。全球氣候變化,嚴(yán)重影響了區(qū)域河道的徑流及含沙量的變化規(guī)律,人類活動(dòng)同樣為影響河道變化的關(guān)鍵因素[3]。聯(lián)合國(guó)政府間氣候變化專門委員會(huì)(Intergovernmental Panel on Climate Change,IPCC)第五次評(píng)估報(bào)告中明確指出,全球氣溫在近年來(lái)上升了0.85℃,在未來(lái)幾十年將上升1.5℃,這嚴(yán)重影響了居民正常居住和社會(huì)的穩(wěn)定發(fā)展[4]。全球氣候變化對(duì)河道水沙過(guò)程的影響成為了如今相關(guān)部門的研究熱點(diǎn)。
關(guān)于區(qū)域水沙運(yùn)移規(guī)律的研究國(guó)內(nèi)已取得了一定的進(jìn)展。范俊健等[5]基于實(shí)測(cè)數(shù)據(jù)研究了黃河上游多年的水沙變化規(guī)律,指出區(qū)域不同站點(diǎn)的徑流和輸沙量均呈現(xiàn)逐年減少的趨勢(shì);李金鑫[6]研究了淮河干流多年的徑流和含沙量變化趨勢(shì),指出該區(qū)域的年徑流量和年輸沙量均呈現(xiàn)了逐漸升高的趨勢(shì);李政航等[7]研究了黃河在內(nèi)蒙古境內(nèi)的水沙分布特性,指出區(qū)域年徑流和輸沙量均呈現(xiàn)逐漸顯著升高趨勢(shì)。由于區(qū)域氣候條件與人類活動(dòng)的影響程度不同,導(dǎo)致不同區(qū)域不同河道水沙運(yùn)移規(guī)律存在明顯差異。
由于不同區(qū)域河道水沙運(yùn)移規(guī)律差異較大,因此,構(gòu)建區(qū)域水沙運(yùn)移的模型成為了掌握水沙分布規(guī)律的關(guān)鍵。丁昌春等[8]在松花江哈爾濱河段構(gòu)建了水沙運(yùn)動(dòng)模型,申紅彬等[9]在黃河下游同樣構(gòu)建了水沙運(yùn)動(dòng)模型,均取得了較好的計(jì)算結(jié)果。由于河道水沙運(yùn)移與氣候條件、人類活動(dòng)等多種影響因素有關(guān),傳統(tǒng)的模型算法無(wú)法很好地反映水沙與各影響因素之間的非線性關(guān)系,也限制了模型的使用。隨著科技的發(fā)展,機(jī)器學(xué)習(xí)模型的應(yīng)用很大程度上解決了這一問(wèn)題,王俊杰等[10]基于小波神經(jīng)網(wǎng)絡(luò)構(gòu)建了黃河輸沙量預(yù)測(cè)模型,取得了較高的精度。
隨著研究的深入,由于傳統(tǒng)機(jī)器學(xué)習(xí)模型具有已發(fā)生局部極值且收斂速度較慢的缺點(diǎn),導(dǎo)致傳統(tǒng)的機(jī)器學(xué)習(xí)模型已無(wú)法滿足各領(lǐng)域精度的要求。一種引申的生物啟發(fā)算法被逐漸應(yīng)用于機(jī)器學(xué)習(xí)模型優(yōu)化與改進(jìn)中。本文基于一種改進(jìn)的鯨魚算法(MWOA),以梯度提升決策樹(CatBoost)模型為基礎(chǔ),構(gòu)建了MWOA-CatBoost綜合模型,并與粒子群算法(PSO)、遺傳算法(GA)2種傳統(tǒng)優(yōu)化算法構(gòu)建的優(yōu)化模型(PSO-CatBoost和GA-CatBoost)以及2種傳統(tǒng)提升樹模型(極端梯度提升樹XGBoost和自適應(yīng)提升樹AdaBoost)進(jìn)行對(duì)比,找尋河道水沙預(yù)測(cè)的適宜模型。
本文數(shù)據(jù)以小流津河2013—2018年的實(shí)測(cè)徑流及含沙量數(shù)據(jù)為基礎(chǔ),同時(shí)收集了區(qū)域最高溫度、最低溫度、降雨、蒸散、植被指數(shù)、土壤分布、DEM高程等數(shù)據(jù)。植被與土壤數(shù)據(jù)來(lái)源于 Maryland大學(xué)發(fā)布的全球 1km土地覆蓋數(shù)據(jù)集。
1.2.1 梯度提升決策樹模型
梯度提升決策樹(CatBoost)模型是一種新型的提升樹模型。該模型可在算法訓(xùn)練過(guò)程中對(duì)不同分類特征的變量進(jìn)行處理,減少傳統(tǒng)提升樹模型的過(guò)度擬合現(xiàn)象[11]。在傳統(tǒng)提升樹模型中,采用樣本平均值作為節(jié)點(diǎn)分裂的標(biāo)準(zhǔn),具體公式為
(1)
傳統(tǒng)模型的缺點(diǎn)為用樣本的平均值作為標(biāo)準(zhǔn),當(dāng)訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集的結(jié)構(gòu)不同時(shí),可能會(huì)出現(xiàn)條件偏移。因此,在CatBoost模型中對(duì)這個(gè)問(wèn)題進(jìn)行了改進(jìn),添加了先驗(yàn)分布。公式(1)可變?yōu)?/p>
(2)
(3)
式中:p為先驗(yàn)分布;σj為置換項(xiàng);α為權(quán)重。
采用CatBoost模型可提高計(jì)算維度,解決了傳統(tǒng)模型發(fā)生條件偏移的問(wèn)題,具體步驟可見文獻(xiàn)[12]。
1.2.2 改進(jìn)鯨魚優(yōu)化算法
鯨魚優(yōu)化算法(WOA)是通過(guò)模擬鯨魚捕食的行為而引申出的一種生物啟發(fā)式優(yōu)化算法[13]。傳統(tǒng)的WOA算法計(jì)算簡(jiǎn)單,精度較高,但存在早期收斂等問(wèn)題,易產(chǎn)生局部極值。因此,在應(yīng)用時(shí)常需對(duì)算法進(jìn)行優(yōu)化,提出MWOA算法進(jìn)行應(yīng)用,具體優(yōu)化過(guò)程如下:
a.Logistic映射優(yōu)化初始種群。WOA算法采用隨機(jī)初始化種群來(lái)更新鯨魚個(gè)體的位置,該方式的缺點(diǎn)為可能造成初始種群分布的不均勻性,從而影響后續(xù)算法的精度。在初始化種群時(shí)引入Logistic映射,增加了種群初始化的均勻性,具體公式為
yk+1=ρyk(1-yk)
(4)
式中:ρ為L(zhǎng)ogistic映射系數(shù);yk為0~1的隨機(jī)數(shù)。
b.自適應(yīng)權(quán)重。本文將自適應(yīng)權(quán)重引入鯨魚算法的位置更新公式中,以增強(qiáng)全局搜索能力和局部搜索能力,具體公式為
(5)
c.交叉變異處理。為避免算法陷入局部極值問(wèn)題中,在算法中利用差分優(yōu)化算法對(duì)個(gè)體進(jìn)行變異處理,再將目標(biāo)個(gè)體與變異個(gè)體進(jìn)行交叉處理,增加種群的多樣性,經(jīng)優(yōu)化后的MWOA算法對(duì)CatBoost模型進(jìn)行了優(yōu)化,MWOA-CatBoost模型的具體運(yùn)算步驟可見文獻(xiàn)[14]。
1.2.3 模型精度對(duì)比
為驗(yàn)證MWOA-CatBoost模型的精度,本文將該模型計(jì)算結(jié)果與WOA-CatBoost模型及2種傳統(tǒng)優(yōu)化算法(粒子群優(yōu)化算法PSO和遺傳算法GA)優(yōu)化CatBoost模型進(jìn)行精度對(duì)比,同時(shí)與2種傳統(tǒng)提升樹模型(極端梯度提升樹XGBoost和自適應(yīng)提升樹AdaBoost)比較,模型基本步驟可見文獻(xiàn)[15]。
構(gòu)建以均方根誤差(RMSE)、相對(duì)均方根誤差(RRMSE)、平均絕對(duì)誤差(MAE)、決定系數(shù)(R2)、效率系數(shù)(Ens)為基礎(chǔ)的評(píng)價(jià)體系,具體公式為
(6)
(7)
(8)
(9)
(10)
當(dāng)評(píng)價(jià)指標(biāo)較多時(shí),可能會(huì)出現(xiàn)評(píng)價(jià)結(jié)果不統(tǒng)一的現(xiàn)象,為綜合評(píng)定不同模型在誤差及一致性上的精度,研究中常采用綜合性指標(biāo)GPI指數(shù)對(duì)模型精度進(jìn)行排名,得出最優(yōu)模型,GPI指數(shù)可整合5個(gè)指標(biāo)的綜合評(píng)價(jià)結(jié)果,最終得出精度最高模型[16],公式如下:
(11)
式中:αj為常數(shù);gj為不同指標(biāo)的縮放值的中位數(shù);yij為不同指標(biāo)的尺度值。
河道水沙多年分布規(guī)律見圖1。由圖1可以看出,在全年內(nèi),河道徑流和含沙量存在明顯的規(guī)律性。其中,徑流在年內(nèi)為明顯的二次拋物線形式,在6—8月徑流量均為最大。含沙量在年內(nèi)的1—3月、11—12月取值均為0,在8月達(dá)到最大值,多年含沙量在8月的最高取值為0.45~7.38kg/m3。河道年內(nèi)徑流與含沙量的變化與氣候因素和人類活動(dòng)有關(guān),本文在模型訓(xùn)練時(shí),以降雨、蒸散、植被指數(shù)、土壤指數(shù)為輸入數(shù)據(jù),采用Matlab2018a軟件進(jìn)行計(jì)算,獲得不同模型的模擬結(jié)果,數(shù)據(jù)輸入截面見圖2。
圖1 河道水沙多年分布規(guī)律
圖2 數(shù)據(jù)輸入界面示意圖
不同模型模擬河道徑流量和含沙量日值與實(shí)測(cè)值的擬合結(jié)果分析見圖3和圖4。由圖3可以看出,在模擬河道徑流時(shí),MWOA-CatBoost模型的擬合效果最優(yōu),其與實(shí)測(cè)值的擬合方程斜率為0.990,決定系數(shù)R2為0.998;WOA-CatBoost模型精度次之,其與實(shí)測(cè)值的擬合方程斜率為1.028,決定系數(shù)R2為0.990。在優(yōu)化模型中,PSO-CatBoost模型和GA-CatBoost模型的擬合效果較差。優(yōu)化模型的擬合效果普遍優(yōu)于傳統(tǒng)的提升樹模型,在傳統(tǒng)模型中,CatBoost模型擬合效果最優(yōu),XGBoost模型的擬合效果次之,AdaBoost模型精度較低。
圖3 不同模型模擬河道徑流量擬合結(jié)果分析
圖4 不同模型模擬含沙量日值與實(shí)測(cè)值擬合結(jié)果分析
在模擬河道含沙量時(shí),其基本規(guī)律與模擬徑流時(shí)基本一致。由圖4可以看出,MWOA-CatBoost模型的擬合效果最優(yōu),其與實(shí)測(cè)值的擬合方程斜率為0.907,決定系數(shù)R2為0.998;AdaBoost模型精度較低,其與實(shí)測(cè)值的擬合方程斜率和決定系數(shù)R2分別為0.840和0.909。
基于2018年實(shí)測(cè)數(shù)據(jù)計(jì)算得出的不同模型水沙月值的擬合結(jié)果見圖5。由圖5可以看出,不同模型模擬值的變化趨勢(shì)與實(shí)測(cè)值基本一致。在模擬徑流時(shí),不同模型結(jié)果均呈現(xiàn)開口向下的二次拋物線形式,河道在12月至次年4月的徑流量較少,主要集中在6—10月,其中MWOA-CatBoost模型模擬的月值與實(shí)測(cè)值最為接近。在模擬含沙量時(shí),不同模型的模擬結(jié)果主要集中在4—10月,同樣MWOA-CatBoost模型計(jì)算結(jié)果的精度最優(yōu)。
圖5 不同模型模擬水沙月值結(jié)果分析
為進(jìn)一步驗(yàn)證不同模型的計(jì)算精度,本文計(jì)算了不同模型的精度指標(biāo)體系,結(jié)果見表1和表2。由表1可以看出,在模擬河道徑流時(shí),MWOA-CatBoost模型精度最高,其RMSE、RRMSE和MAE僅為0.236m3/s、3.570%和0.165m3/s,誤差在所有模型中最低,其R2和Ens分別為0.998和0.997,一致性指標(biāo)在所有模型中最高,其GPI為1.902,在所有模型中排名第1;其余3種優(yōu)化模型的精度次之,但精度均優(yōu)于傳統(tǒng)模型。在傳統(tǒng)模型中,CatBoost模型精度最高,其GPI為-0.214,在所有模型中排名第5,AdaBoost模型精度最低,其GPI僅為-3.000。
表1 不同模型模擬徑流量精度對(duì)比
由表2可以看出,在模擬含沙量時(shí),MWOA-CatBoost模型精度最高,其RMSE、RRMSE和MAE僅為0.103kg/m3、19.230%和0.023kg/m3,其R2和Ens分別為0.998和0.989,GPI為2.204,精度最高;WOA-CatBoost模型和PSO-CatBoost模型的精度次之,其GPI分別為1.604和1.214,在所有模型中排名第2和第3。在傳統(tǒng)模型中,同樣表現(xiàn)為AdaBoost模型精度最低。
表2 不同模型模擬含沙量精度對(duì)比
不同模型在模擬河道水沙時(shí)的泰勒?qǐng)D見圖6。在圖6中,可清晰反映出模型計(jì)算結(jié)果的均方根誤差、相關(guān)系數(shù)和標(biāo)準(zhǔn)差之間的關(guān)系。由圖6可以看出,MWOA-CatBoost模型與實(shí)測(cè)值最為接近,其計(jì)算結(jié)果與實(shí)測(cè)值的相關(guān)系數(shù)最高,誤差及標(biāo)準(zhǔn)差最低,這進(jìn)一步證明了該模型的精度。
圖6 不同模型模擬泰勒?qǐng)D對(duì)比
本文基于優(yōu)化的鯨魚算法對(duì)CatBoost模型進(jìn)行構(gòu)建,得到了MWOA-CatBoost模型,對(duì)河道水沙進(jìn)行了模擬,并將計(jì)算結(jié)果與WOA-CatBoost模型、PSO-CatBoost模型、GA-CatBoost模型、CatBoost模型、XGBoost模型和AdaBoost模型結(jié)果進(jìn)行了對(duì)比,指出MWOA-CatBoost模型在模擬水沙日值和月值時(shí)的精度最高,可推薦模擬河道水沙數(shù)值。本文結(jié)論可為水文部門防汛防沙措施的制定提供理論支持。