鄧超 陳春宇 尹鑫 王明明 張宇新
摘要:環(huán)境變化影響下流域徑流的精確模擬對洪澇災(zāi)害防治與區(qū)域水資源管理都具有重要意義。在徑流模擬研究中,現(xiàn)有機器學(xué)習(xí)模型未能充分考慮水文中間狀態(tài)變量對降雨-徑流過程的影響,本研究基于集合卡爾曼濾波(EnKF)更新水文狀態(tài)變量,結(jié)合主成分分析(PCA)提取預(yù)報因子的主要特征,采用長短時記憶神經(jīng)網(wǎng)絡(luò)(LSTM)構(gòu)建考慮水文中間變量的機器學(xué)習(xí)水文模型EnKF-PCA-LSTM。以贛江流域為例,評估EnKF-PCA-LSTM模型的徑流模擬效果,同時將模擬結(jié)果與LSTM模型、物理水文模型HYMOD做對比分析。結(jié)果表明,EnKF-PCA-LSTM模型模擬徑流的納什效率系數(shù)、Kling-Gupta效率系數(shù)和對數(shù)納什效率系數(shù)分別為0.954、0.971和0.972,比LSTM模型和HYMOD模型具有更好的模擬性能,說明考慮水文狀態(tài)變量可有效提高機器學(xué)習(xí)模型的徑流模擬精度及穩(wěn)定性。研究成果可為流域徑流模擬提供技術(shù)參考。
關(guān)鍵詞:徑流模擬方法;水文狀態(tài)變量;集合卡爾曼濾波;主成分分析;長短時記憶神經(jīng)網(wǎng)絡(luò)
中圖分類號:TV122
文獻標(biāo)志碼:A
文章編號:1001-6791(2023)06-0839-11
收稿日期:2023-05-29;網(wǎng)絡(luò)出版日期:2023-10-25
網(wǎng)絡(luò)出版地址:https:∥link.cnki.net/urlid/32.1309.P.20231025.1028.0022
基金項目:國家重點研發(fā)計劃資助項目(2022YFC3202802);中央高?;究蒲袠I(yè)務(wù)費專項資金資助項目(B210201030)
作者簡介:鄧超(1989—),男,湖南常德人,副教授,博士,主要從事水文過程機理及其模擬研究。
E-mail:dengchao@hhu.edu.cn
徑流模擬是流域水文預(yù)報領(lǐng)域非常重要的一環(huán),也是水文水資源研究中最重要的科學(xué)問題之一[1]。近年來,受強人類活動和全球氣候變暖等因素的影響,極端天氣事件頻發(fā),洪澇干旱災(zāi)害加劇,對中國經(jīng)濟和社會造成了極為嚴(yán)重的損失[2-3]。因此,提出能夠適應(yīng)變化環(huán)境的流域徑流模擬方法,從而提高流域徑流模擬精度[4],具有重大的科學(xué)意義和實際應(yīng)用價值。
隨著智能監(jiān)測技術(shù)的全面發(fā)展,水文數(shù)據(jù)更易獲?。?],而利用機器學(xué)習(xí)方法構(gòu)建水文輸入變量與輸出變量的映射關(guān)系,用來開展流域徑流模擬成為當(dāng)前的研究熱點之一[6-7]。長短時記憶神經(jīng)網(wǎng)絡(luò)(long short-term memory,LSTM)作為熱門機器學(xué)習(xí)方法之一,在徑流模擬領(lǐng)域已經(jīng)有了廣泛的研究和應(yīng)用[8]。李大洋等[9]提出了基于變分貝葉斯與深度學(xué)習(xí)的水文概率預(yù)報新方法VB-LSTM,應(yīng)用于黃河源區(qū)流域,結(jié)果表明,VB-LSTM具有一定的靈活性與通用性,且有效提高了徑流預(yù)報精度;Khandelwal等[10]將LSTM模型應(yīng)用到500多個流域,發(fā)現(xiàn)LSTM模型在更多樣本數(shù)據(jù)訓(xùn)練時,預(yù)測結(jié)果優(yōu)于物理機制模型。但目前基于LSTM模型的流域徑流模擬預(yù)報研究大多是將預(yù)測因子直接輸入模型[11],而數(shù)據(jù)的多源性增加了模型的不確定性,影響了徑流模擬的精準(zhǔn)度和計算效率。近期,李步等[12]將主成分分析(principal component analysis,PCA)與LSTM結(jié)合,構(gòu)建了融合氣象要素時空特征的PCA-LSTM模型,該方法在黃河源區(qū)的應(yīng)用效果證明了其適用性和魯棒性。對于流域降雨-徑流過程,水文中間狀態(tài)變量如土壤濕度、蒸散發(fā)等,對流域徑流的形成有著重要影響[11]。因此,如何提高水文模型對水文中間狀態(tài)變量的估計,并將其充分應(yīng)用到基于機器學(xué)習(xí)的流域徑流模擬中以提高徑流模擬精度,有待進一步研究。
本文將采用集合卡爾曼濾波(ensemble Kalman filter,EnKF)、PCA和LSTM方法構(gòu)建一種融合數(shù)據(jù)同化與機器學(xué)習(xí)的流域徑流模擬模型,記為EnKF-PCA-LSTM,以贛江流域開展實例研究,通過同化土壤濕度、蒸散發(fā)狀態(tài)變量,以期提高機器學(xué)習(xí)徑流模擬精度,并選取HYMOD水文模型和LSTM模型進行對比分析,系統(tǒng)評估EnKF-PCA-LSTM模型的流域徑流模擬效果。
1 研究方法
1.1 EnKF-PCA-LSTM模型
本文提出的一種融合EnKF、PCA和LSTM的流域徑流模擬模型?;谒臍庀髮崪y數(shù)據(jù),通過SCE-UA算法[13-14]率定HYMOD水文模型參數(shù)的最優(yōu)值,以流域歷史徑流序列,采用EnKF更新流域水文模型的狀態(tài)變量,即實際蒸散發(fā)(ET)和土壤濕度(MS);通過PCA方法進行主成分提取,得到流域徑流模擬因子集合;根據(jù)篩選的徑流模擬因子集合和流域?qū)崪y徑流訓(xùn)練LSTM模型,基于訓(xùn)練好的LSTM模型進行流域徑流模擬。
1.1.1 集合卡爾曼濾波
EnKF結(jié)合了集合模擬預(yù)報的形式和卡爾曼濾波算法,通過蒙特卡洛方法計算狀態(tài)變量的預(yù)測誤差協(xié)方差,將預(yù)測值和觀測值之間的誤差協(xié)方差最小化來優(yōu)化目標(biāo)估計。主要步驟分為預(yù)測和更新,首先利用狀態(tài)轉(zhuǎn)移方程對實際問題的狀態(tài)變量進行預(yù)測,然后根據(jù)觀測信息和計算得到的增益因子,更新狀態(tài)變量[15-16]。
1.1.2 主成分分析
PCA是最常用的線性降維方法之一,主要步驟是對每一個特征進行去均值處理,求其協(xié)方差矩陣,再求協(xié)方差矩陣的特征值和相對應(yīng)的特征向量,選取前k個最大的特征值,最后將原始特征投影到選取的特征向量上,得到降維后的k維特征,以此使用較少的數(shù)據(jù)維度,同時保留住較多的原數(shù)據(jù)點的特性。PCA具體計算步驟可參考文獻[17]。當(dāng)PCA能夠提取滿足贛江流域徑流模擬的因子特征時,進一步增加主成分閾值對徑流模擬影響較小[12],故本文主成分閾值設(shè)為85%。
1.1.3 長短時記憶神經(jīng)網(wǎng)絡(luò)
LSTM能夠有效捕捉長時序數(shù)據(jù)之間的關(guān)聯(lián),緩解梯度消失或爆炸現(xiàn)象。LSTM的核心結(jié)構(gòu)分為4個部分:遺忘門、輸入門、細(xì)胞狀態(tài)和輸出門。其中,遺忘門決定從之前隱藏層狀態(tài)中需要舍棄的信息;輸入門選擇用哪些新獲取的信息更新狀態(tài);細(xì)胞狀態(tài)負(fù)責(zé)更新記憶單元狀態(tài)變量,這也是LSTM有長時間記憶能力的關(guān)鍵;輸出門將部分記憶單元狀態(tài)變量生成隱藏層狀態(tài)變量,形成循環(huán)結(jié)構(gòu)。LSTM在水文模擬預(yù)報中的詳細(xì)運算過程可參考文獻[18]。
1.1.4 EnKF-PCA-LSTM模型
基于以上方法,本文構(gòu)建了一種融合EnKF、PCA和LSTM的流域徑流模擬模型,該方法步驟主要包括(圖1):
(1) 將降水(P)、潛在蒸散發(fā)(ETP)以及流域出口斷面徑流(Qint)等作為輸入數(shù)據(jù);采用SCE-UA優(yōu)化算法,率定得到HYMOD模型參數(shù)的最優(yōu)值,而后基于HYMOD模型采用EnKF更新狀態(tài)變量(ET、MS),更新過程中HYMOD水文模型參數(shù)固定不變[19]。
(2) 參考PCA與機器學(xué)習(xí)結(jié)合在水文預(yù)報領(lǐng)域的研究[20-21],將主成分閾值設(shè)為85%,并采用2種方式進行流域徑流模擬因子主成分提?。孩?針對更新后的狀態(tài)變量,結(jié)合驅(qū)動變量P、Qint,同時作為輸入變量通過PCA進行主成分提取;② 將更新后的狀態(tài)變量與驅(qū)動變量分別采用PCA進行主成分提取。
(3) 將提取得到的主成分輸入LSTM模型,基于流域徑流實測資料訓(xùn)練LSTM模型,最后基于訓(xùn)練好的LSTM模型,開展流域徑流模擬。
1.2 對照模型
為評估EnKF-PCA-LSTM模型的可行性,本文與LSTM機器學(xué)習(xí)模型和HYMOD水文模型作對比研究。為驗證同化后水文狀態(tài)變量對徑流模擬的影響,LSTM模型的輸入變量包括降水、徑流、蒸散發(fā)和HYMOD模擬得到的未同化處理的土壤濕度。
HYMOD模型是一種基于蓄滿產(chǎn)流理論的集總式水文模型,將一個流域分為無限個不相關(guān)聯(lián)的點的集合,每一個點都含有一定的初始土壤含水量,并且該點有其最大蓄水能力(Cmax),當(dāng)該點的降水量超過Cmax時,超出的降水則轉(zhuǎn)為徑流。模型的產(chǎn)流計算基于流域蓄水能力曲線[22-23],公式如下:
F(C)=1-1-CCmaxB(1)
式中:F(C)為流域內(nèi)某點蓄水能力累積率;C為流域內(nèi)某點的蓄水能力,mm;B為流域內(nèi)某點的蓄水能力空間變化指數(shù)。
2 研究區(qū)域與數(shù)據(jù)
2.1 研究區(qū)域
贛江是長江主要支流之一,為江西省最大河流,流域面積達81 800 km2。贛江位于長江中下游南岸,自然落差為937 m,平均年徑流深為849 mm,平均年徑流系數(shù)為0.61。流域發(fā)源于江西省贛州市石城縣洋地鄉(xiāng)石寮崠,地形組成較為復(fù)雜,其中山地、低丘、丘陵分別占流域總面積的44%、31%和21%,其他為水域和平原。流域汛期為4—9月,豐枯變化顯著,汛期水量約占全年的73%~78%,多年平均最大月徑流量與最小月徑流量比值為5~9[24-25]。
2.2 數(shù)據(jù)
本文構(gòu)建模型的輸入數(shù)據(jù)分別為:
(1) Qint來源于水文年鑒外州水文控制站的實測日平均流量數(shù)據(jù)。
(2) 降水來源于中國氣象數(shù)據(jù)網(wǎng)(http:∥data.cma.cn/)中贛江流域內(nèi)及其附近的16個氣象站點(如圖2所示)數(shù)據(jù)。
(3) 蒸散發(fā)包括潛在蒸散發(fā)和實際蒸散發(fā)。潛在蒸散發(fā)采用中國氣象數(shù)據(jù)網(wǎng)獲取的蒸發(fā)皿蒸發(fā)數(shù)據(jù),實際蒸散發(fā)來源于國家青藏高原科學(xué)數(shù)據(jù)中心(http:∥data.tpdc.ac.cn/zh-hans/)的遙感反演產(chǎn)品PML-V2[26]。
采用泰森多邊形法計算流域面平均降水、面平均蒸發(fā)皿蒸發(fā)。流域面平均實際蒸散發(fā)基于蒸散發(fā)產(chǎn)品,采用Python的GeoPandas庫處理得到。由于蒸散發(fā)產(chǎn)品PML-V2的起始時間序列為2002-07-04,故輸入數(shù)據(jù)樣本選用2002-07-04/2010-12-31,并將該段樣本數(shù)據(jù)以7∶3的比例分為率定期和驗證期,即2002-07-04/2008-06-12為訓(xùn)練期(率定期),2008-06-13/2010-12-31為測試期(驗證期)。
由于模型的預(yù)熱期導(dǎo)致EnKF同化之后的數(shù)據(jù)初始階段誤差較大,為降低對后續(xù)模型徑流模擬的影響,同時考慮數(shù)據(jù)的完整性,選擇2002-07-04/10-04共3個月為預(yù)熱期。在EnKF更新水文中間狀態(tài)變量之后,t記為徑流模擬當(dāng)前時刻,t-1為模擬當(dāng)天的前一日,則PCA的輸入變量為Qt-1、Pt、ET,t和MS,t。
2.3 模型參數(shù)設(shè)置
(1) EnKF-PCA-LSTM模型。HYMOD水文模型參數(shù)的初始值和參考取值范圍如表1所示,模型參數(shù)采用SCE-UA優(yōu)化算法率定得到;LSTM模型的超參數(shù)主要包括隱藏層數(shù)(num_layers)、舍棄率(droupout)、迭代次數(shù)(epochs)、隱藏神經(jīng)元數(shù)量(hidden_size)、訓(xùn)練批次大?。╞atch_size)、學(xué)習(xí)率(learning_size),超參數(shù)的設(shè)置也會影響到模型的預(yù)測效果和預(yù)測時間[27]。本研究參考相關(guān)文獻并結(jié)合前期實驗選取參數(shù)率定范圍[27-28],LSTM模型根據(jù)給定的參數(shù)率定范圍進行多次迭代計算,并自動輸出評價指標(biāo)Kling-Gupta效率系數(shù)最優(yōu)值對應(yīng)的一組參數(shù)。EnKF-PCA-LSTM模型中LSTM的主要超參數(shù)設(shè)置如下:num_layers值為1、droupout值為0.15、epochs值為10、hidden_size值為40、batch_size值為32、learning_size值為0.01,其中num_layers默認(rèn)設(shè)置為1層,不參與模型參數(shù)優(yōu)選率定過程,則LSTM模型需要通過參數(shù)優(yōu)選率定的超參數(shù)為5個,模型損失函數(shù)選取均方根誤差(EMS),模型采用Adam優(yōu)化器,輸入數(shù)據(jù)采用“Max-Min”歸一化方法。
(2) 對照模型。為充分證明EnKF-PCA-LSTM模型的可行性,HYMOD模型、LSTM模型的超參數(shù)設(shè)置與EnKF-PCA-LSTM模型中對應(yīng)參數(shù)設(shè)置保持一致。其中,HYMOD模型的輸入為流域徑流量、面平均降水量和潛在蒸散發(fā)量,輸出為土壤濕度和HYMOD模擬徑流;LSTM模型的輸入為流域徑流量、面平均降水量、潛在蒸散發(fā)量和HYMOD模型模擬的土壤濕度,輸出為流域徑流。同時,為了檢驗?zāi)P偷聂敯粜?,本文采用設(shè)置不同標(biāo)準(zhǔn)差的高斯噪音來模擬真實環(huán)境中的不確定性[29],檢驗EnKF-PCA-LSTM模型是否對作為LSTM模型的輸入數(shù)據(jù)過擬合。
2.4 評價指標(biāo)
本文采用3個指標(biāo)評價模型的性能,分別為納什效率系數(shù)(ENS)、Kling-Gupta效率系數(shù)(EKG)和徑流對數(shù)的納什效率系數(shù)(ENSlnQ)。計算公式分別為:
ENS=1-∑nt=1(Qsim,t-Qobs,t)2∑nt=1(Qobs,t-Qobs,t)2(2)
EKG=1-(r-1)2+(α-1)2+(β-1)2(3)
ENSlnQ=1-∑nt=1[ln(Qsim,t+ζ)-ln(Qobs,t+ζ)]2∑nt=1[ln(Qobs,t+ζ)-ln(Qobs,t+ζ)]2(4)
式中:Qsim,t為t時刻的模型模擬流量;Qobs,t為t時刻的觀測流量;Qobs,t為觀測流量的平均值;r為皮爾遜線性相關(guān)系數(shù);α為日徑流量模擬值與日徑流量觀測值標(biāo)準(zhǔn)差的比值;β為模擬日徑流量與實測日徑流量平均值的比值;n為時間序列的長度;ζ為常數(shù),用來處理流域特別時段出現(xiàn)的零流量現(xiàn)象,建議取值為整個時段觀測徑流平均值的1%[30],即ζ=0.01Qobs,t;ln(Qobs,t+ζ)為觀測流量加上常數(shù)ζ后取對數(shù)的平均值。
ENS為一個標(biāo)準(zhǔn)化統(tǒng)計指標(biāo)[31],EKG主要用于對高流量模擬的評估[32],ENSlnQ主要用于評估低流量的模擬效果[30],ENS、EKG和ENSlnQ的取值范圍都為(-∞,1],取值越接近于1,說明模型的模擬效果越好,反之越差。
3 結(jié)果與討論
3.1 PCA 2種方式對比
為了對比在EnKF-PCA-LSTM模型徑流模擬過程中數(shù)據(jù)同化之后,狀態(tài)變量與驅(qū)動變量同時或分別作為輸入變量進行主成分提取的降維結(jié)果對最終徑流模擬效果的影響,做如下對比研究。
方案一:當(dāng)數(shù)據(jù)同化之后,對狀態(tài)變量與驅(qū)動變量分別進行主成分提取,再將二者的主成分集合作為LSTM的輸入數(shù)據(jù),進行徑流模擬。
方案二:將數(shù)據(jù)同化后的狀態(tài)變量與驅(qū)動變量共同進行主成分提取,并將主成分集合輸入LSTM模型進行模擬,2種方案的評價指標(biāo)對比見表2,徑流模擬結(jié)果如圖3所示。
根據(jù)表2所示結(jié)果,在驗證期內(nèi),方案二的EKG比方案一高,其可能的原因是:方案一進行的2次PCA過程共保留了2個主成分,這也增加了噪聲數(shù)據(jù)對徑流模擬的影響[33],而方案二進行的PCA過程只保留了1個主成分,且貢獻率約為97%,相比于方案一在保留輸入數(shù)據(jù)主要特征的同時,也有效降低了噪聲數(shù)據(jù)的影響。
為了評估PCA在提出方法中的必要性,本文設(shè)置了驅(qū)動數(shù)據(jù)和同化后的狀態(tài)變量不進行PCA處理的對比方案,直接作為LSTM的輸入數(shù)據(jù),參數(shù)設(shè)置與方案二保持一致,結(jié)果顯示率定期的EKG為0.918,驗證期的EKG為0.916,其他評價指標(biāo)也均略低于方案一和方案二。表明采用PCA方法進行主成分提取能夠降低噪聲數(shù)據(jù)對徑流模擬結(jié)果的影響。
在考慮PCA的情景下,2種方案的ENS和ENSlnQ相差不大,但在濕潤、半濕潤地區(qū)徑流模擬工作中,一般更關(guān)注高流量徑流,因此,本文采用方案二與HYMOD模型和LSTM模型作以下對比研究。
3.2 不同模型結(jié)果對比
圖4展示了EnKF-PCA-LSTM模型(方案二)與對比模型HYMOD模型和LSTM模型的徑流模擬過程,表3展示了各模型的評價指標(biāo)結(jié)果。以驗證期為例,EnKF-PCA-LSTM、LSTM和HYMOD模型的ENS分別為0.954、0.952和0.841,EKG分別為0.971、0.900和0.849,ENSlnQ分別為0.974、0.972和0.825。結(jié)果顯示,3種模型的所有評價指標(biāo)均大于0.8,表明3種模型在贛江流域均能取得良好的徑流模擬效果。提出的EnKF-PCA-LSTM模型結(jié)果最優(yōu),LSTM模型次之,而HYMOD模型最差。相較于對照模型LSTM和HYMOD,EnKF-PCA-LSTM模型徑流模擬結(jié)果的ENS分別提高了0.2%和13.4%,EKG分別提高了7.9%和14.4%,而ENSlnQ相較于LSTM模型無提升,相較于HYMOD模型則提高了17.8%。
HYMOD模型作為物理過程水文模型,是對流域真實水文過程的概化,其刻畫的降雨徑流過程會存在不足,導(dǎo)致徑流的模擬存在一定的誤差。徑流過程的高水、低水過程較小的絕對誤差亦會產(chǎn)生較大的相對誤差,使得HYMOD模型對于徑流過程的總體結(jié)果相對較差。LSTM模型是基于數(shù)理統(tǒng)計的數(shù)據(jù)驅(qū)動模型[34],能夠基于歷史降水、徑流等實測數(shù)據(jù)挖掘更為準(zhǔn)確的降雨徑流映射關(guān)系,相比于HYMOD模型其徑流模擬過程更接近于實測徑流,但LSTM模型本質(zhì)仍然是基于數(shù)據(jù)分析建立的映射關(guān)系,未能考慮水文循環(huán)過程中的中間變量對徑流過程的影響[35-36]。提出的EnKF-PCA-LSTM模型既能充分考慮了水文中間狀態(tài)變量對徑流過程的影響,也能減少噪聲數(shù)據(jù),提高LSTM模型的計算效率,上述徑流模擬結(jié)果也驗證了該模型在3個模型中表現(xiàn)最優(yōu),特別是在徑流過程高水部分的效果提升。
3.3 模型魯棒性檢驗
表4展現(xiàn)了在不同標(biāo)準(zhǔn)差的高斯噪聲下,EnKF-PCA-LSTM模型與LSTM模型徑流模擬結(jié)果的ENS值。結(jié)果表明,EnKF-PCA-LSTM模型與LSTM模型對于不同標(biāo)準(zhǔn)差的高斯噪聲幾乎不受影響,ENS值始終保持在0.94以上,并且沒有發(fā)生驟降趨勢,證明了EnKF-PCA-LSTM模型未對作為LSTM模型的輸入數(shù)據(jù)過擬合,具有很好的魯棒性。
4 結(jié)? 論
本研究以贛江流域為例,對比了EnKF-PCA-LSTM模型、LSTM模型和HYMOD模型在日尺度下的徑流模擬結(jié)果,主要結(jié)論為:
(1) 本研究提出了考慮水文中間狀態(tài)變量的機器學(xué)習(xí)模型EnKF-PCA-LSTM,通過融合集合卡爾曼濾波和主成分分析方法,不僅考慮了水文狀態(tài)變量對徑流過程的影響,還減少了輸入數(shù)據(jù)的不確定性,提高了機器學(xué)習(xí)模型對徑流模擬輸入因子有效信息的引入,可為變化環(huán)境下的流域水文模擬提供技術(shù)支撐。
(2) 在EnKF-PCA-LSTM模型徑流模擬過程中,經(jīng)過EnKF同化之后,狀態(tài)變量與驅(qū)動變量同時作為輸入變量進行降維處理,其最終徑流模擬結(jié)果要優(yōu)于狀態(tài)變量與驅(qū)動變量分開降維的結(jié)果,說明并非主成分?jǐn)?shù)量越多,EnKF-PCA-LSTM模型徑流模擬效果越好,過多的主成分?jǐn)?shù)量會增加噪聲數(shù)據(jù)的影響,削弱主成分分析的降維效果。
(3) 以驗證期為例,EnKF-PCA-LSTM模型的Kling-Gupta效率系數(shù)對比LSTM模型和HYMOD模型分別提高了7.9%和14.4%;納什效率系數(shù)和徑流對數(shù)的納什效率系數(shù)較HYMOOD模型分別提高了13.4%和17.8%,表明EnKF-PCA-LSTM模型具有很好的適用性和魯棒性,模型可提高徑流模擬精度,特別是在高水徑流過程。
本文引入EnKF-PCA-LSTM模型的目的在于通過數(shù)據(jù)同化技術(shù)考慮水文中間狀態(tài)變量的影響,從而提高流域徑流模擬精度。本次研究采用了集總式水文模型,后續(xù)可基于分布式水文模型考慮多維狀態(tài)變量及下墊面空間異質(zhì)性對流域產(chǎn)匯流的影響來開展流域徑流模擬預(yù)報研究。
參考文獻:
[1]NIU W J,F(xiàn)ENG Z K.Evaluating the performances of several artificial intelligence methods in forecasting daily streamflow time series for sustainable water resources management[J].Sustainable Cities and Society,2021,64:102562.
[2]宋曉猛,張建云,占車生,等.氣候變化和人類活動對水文循環(huán)影響研究進展[J].水利學(xué)報,2013,44(7):779-790.(SONG X M,ZHANG J Y,ZHAN C S,et al.Review for impacts of climate change and human activities on water cycle[J].Journal of Hydraulic Engineering,2013,44(7):779-790.(in Chinese))
[3]張建云,王銀堂,賀瑞敏,等.中國城市洪澇問題及成因分析[J].水科學(xué)進展,2016,27(4):485-491.(ZHANG J Y,WANG Y T,HE R M,et al.Discussion on the urban flood and waterlogging and causes analysis in China[J].Advances in Water Science,2016,27(4):485-491.(in Chinese))
[4]張海榮.耦合天氣預(yù)報的流域短期水文預(yù)報方法研究[D].武漢:華中科技大學(xué),2017.(ZHANG H R.Watershed short-term hydrological forecast coupling with weather forecasting[D].Wuhan:Huazhong University of Science and Technology,2017.(in Chinese))
[5]芮孝芳.水文學(xué)與“大數(shù)據(jù)”[J].水利水電科技進展,2016,36(3):1-4.(RUI X F.Hydrology and big data[J].Advances in Science and Technology of Water Resources,2016,36(3):1-4.(in Chinese))
[6]HAO R N,BAI Z X.Comparative study for daily streamflow simulation with different machine learning methods[J].Water,2023,15(6):1179.
[7]董寧澎,余鐘波,王浩,等.耦合水庫群參數(shù)化方案的區(qū)域陸面水文模擬[J].水科學(xué)進展,2021,32(5):670-682.(DONG N P,YU Z B,WANG H,et al.Regional coupled land surface-hydrologic simulation fully coupled with reservoir network scheme[J].Advances in Water Science,2021,32(5):670-682.(in Chinese))
[8]張力,王紅瑞,郭琲楠,等.基于時序分解與機器學(xué)習(xí)的非平穩(wěn)徑流序列集成模型與應(yīng)用[J].水科學(xué)進展,2023,34(1):42-52.(ZHANG L,WANG H R,GUO B N,et al.Integrated model and application of non-stationary runoff based on time series decomposition and machine learning[J].Advances in Water Science,2023,34(1):42-52.(in Chinese))
[9]李大洋,姚軼,梁忠民,等.基于變分貝葉斯深度學(xué)習(xí)的水文概率預(yù)報方法[J].水科學(xué)進展,2023,34(1):33-41.(LI D Y,YAO Y,LIANG Z M,et al.Probabilistic hydrological forecasting based on variational Bayesian deep learning[J].Advances in Water Science,2023,34(1):33-41.(in Chinese))
[10]KHANDELWAL A,XU S M,LI X,et al.Physics guided machine learning methods for hydrology[EB/OL].[2023-04-29].https:∥arxiv.org/abs/2012.02854.pdf.
[11]BHASME P,VAGADIYA J,BHATIA U.Enhancing predictive skills in physically-consistent way:physics informed machine learning for hydrological processes[J].Journal of Hydrology,2022,615:128618.
[12]李步,田富強,李鈺坤,等.融合氣象要素時空特征的深度學(xué)習(xí)水文模型[J].水科學(xué)進展,2022,33(6):904-913.(LI B,TIAN F Q,LI Y K,et al.Development of a spatiotemporal deep-learning-based hydrological model[J].Advances in Water Science,2022,33(6):904-913.(in Chinese))
[13]王宇暉,雷曉輝,蔣云鐘,等.HYMOD模型參數(shù)敏感性分析和多目標(biāo)優(yōu)化[J].水電能源科學(xué),2010,28(11):15-17,122.(WANG Y H,LEI X H,JIANG Y Z,et al.Parameter sensitivity analysis and multi-objective optimization on HYMOD model[J].Water Resources and Power,2010,28(11):15-17,122.(in Chinese))
[14]DUAN Q Y,GUPTA V K,SOROOSHIAN S.Shuffled complex evolution approach for effective and efficient global minimization[J].Journal of Optimization Theory and Applications,1993,76(3):501-521.
[15]BURGERS G,jan van LEEUWEN P,EVENSEN G.Analysis scheme in the ensemble Kalman filter[J].Monthly Weather Review,1998,126(6):1719-1724.
[16]REICHLE R H,MCLAUGHLIN D B,ENTEKHABI D.Hydrologic data assimilation with the ensemble Kalman filter[J].Monthly Weather Review,2002,130(1):103-114.
[17]朱春苗,吳海江,宋小燕,等.基于多因子組合的SVR模型在松花江流域徑流預(yù)報中的應(yīng)用[J].水電能源科學(xué),2021,39(6):12-15,41.(ZHU C M,WU H J,SONG X Y,et al.Application of SVR model based on multi-factors combination in streamflow forecasting of Songhua River basin[J].Water Resources and Power,2021,39(6):12-15,41.(in Chinese))
[18]KRATZERT F,KLOTZ D,BRENNER C,et al.Rainfall-runoff modelling using Long Short-Term Memory (LSTM) networks[J].Hydrology and Earth System Sciences,2018,22(11):6005-6022.
[19]王衛(wèi)光,鄒佳成,鄧超.贛江流域多種數(shù)據(jù)同化方案的徑流模擬比較[J].湖泊科學(xué),2023,35(3):1047-1056.(WANG W G,ZOU J C,DENG C.Comparison of data assimilation based approach for daily streamflow simulation under multiple scenarios in Ganjiang River basin[J].Journal of Lake Sciences,2023,35(3):1047-1056.(in Chinese))
[20]HUANG S C,LAWRENCE D,IRENE BEOX N,et al.Direct statistical downscaling of monthly streamflow from atmospheric variables in catchments with differing contributions from snowmelt[J].International Journal of Climatology,2021,41(S1):E2757-E2777.
[21]FAN Y R,HUANG G H,LI Y P,et al.Development of PCA-based cluster quantile regression (PCA-CQR) framework for streamflow prediction:application to the Xiangxi River watershed,China[J].Applied Soft Computing,2017,51:280-293.
[22]MOORE R J.The probability-distributed principle and runoff production at point and basin scales[J].Hydrological Sciences Journal,1985,30(2):273-297.
[23]全鐘賢,羅華萍,孫文超,等.概念性水文模型HYMOD在雅礱江流域的適用性研究[J].北京師范大學(xué)學(xué)報(自然科學(xué)版),2014,50(5):472-477.(QUAN Z X,LUO H P,SUN W C,et al.Application of conceptual hydrological model HYMOD in the Yalong River basin[J].Journal of Beijing Normal University(Natural Science),2014,50(5):472-477.(in Chinese))
[24]SOLDATOVA E A,SAVICHEV O G,ZHOU D,et al.Ecological-geochemical conditions of surface water and groundwater and estimation of the anthropogenic effect in the basin of the Ganjiang River[J].Water Resources,2022,49(3):483-492.
[25]邴建平,鄧鵬鑫,吳智,等.贛江流域生態(tài)流量與地表水資源可利用量研究[J].人民長江,2023,54(2):127-131,170.(BING J P,DENG P X,WU Z,et al.Ecological flow and available surface water resources in Ganjiang River basin[J].Yangtze River,2023,54(2):127-131,170.(in Chinese))
[26]ZHANG Y Q,KONG D D,GAN R,et al.Coupled estimation of 500 m and 8-day resolution global evapotranspiration and gross primary production in 2002—2017[J].Remote Sensing of Environment,2019,222:165-182.
[27]殷兆凱,廖衛(wèi)紅,王若佳,等.基于長短時記憶神經(jīng)網(wǎng)絡(luò)(LSTM)的降雨徑流模擬及預(yù)報[J].南水北調(diào)與水利科技,2019,17(6):1-9,27.(YIN Z K,LIAO W H,WANG R J,et al.Rainfall-runoff modelling and forecasting based on long short-term memory(LSTM)[J].South-to-North Water Transfers and Water Science & Technology,2019,17(6):1-9,27.(in Chinese))
[28]田遠洋,徐顯濤,彭安幫,等.訓(xùn)練數(shù)據(jù)量對LSTM網(wǎng)絡(luò)學(xué)習(xí)性能影響分析[J].水文,2022,42(1):29-34,22.(TIAN Y Y,XU X T,PENG A B,et al.Effects of training data on the study performance of LSTM network[J].Journal of China Hydrology,2022,42(1):29-34,22.(in Chinese))
[29]KRATZERT F,KLOTZ D,SHALEV G,et al.Towards learning universal,regional,and local hydrological behaviors via machine learning applied to large-sample datasets[J].Hydrology and Earth System Sciences,2019,23(12):5089-5110.
[30]PUSHPALATHA R,PERRIN C,LE MOINE N,et al.A review of efficiency criteria suitable for evaluating low-flow simulations[J].Journal of Hydrology,2012,420/421:171-182.
[31]NASH J E,SUTCLIFFE J V.River flow forecasting through conceptual models part I:a discussion of principles[J].Journal of Hydrology,1970,10(3):282-290.
[32]SANTOS L,THIREL G,PERRIN C.Technical note:pitfalls in using log-transformed flows within the KGE criterion[J].Hydrology and Earth System Sciences,2018,22(8):4583-4591.
[33]張婧,劉倩.主成分分析閾值選擇差異性分析研究[J].數(shù)據(jù)采集與處理,2022,37(5):1012-1017.(ZHANG J,LIU Q.Difference analysis research of threshold selection in principal component analysis[J].Journal of Data Acquisition and Processing,2022,37(5):1012-1017.(in Chinese))
[34]LEE J,NOH J.Development of a one-parameter new exponential (ONE) model for simulating rainfall-runoff and comparison with data-driven LSTM model[J].Water,2023,15(6):1036.
[35]PENG A B,ZHANG X L,XU W,et al.Effects of training data on the learning performance of LSTM network for runoff simulation[J].Water Resources Management,2022,36(7):2381-2394.
[36]HASHEMI R,BRIGODE P,GARAMBOIS P A,et al.How can we benefit from regime information to make more effective use of long short-term memory (LSTM) runoff models?[J].Hydrology and Earth System Sciences,2022,26(22):5793-5816.
Catchment runoff simulation by coupling data assimilation and
machine learning methods
The study is financially supported by the National Key R&D Program of China (No.2022YFC3202802) and the Fundamental Research Funds for the Central Universities,China (No.B210201030).
DENG Chao1,CHEN Chunyu1,YIN Xin2,WANG Mingming3,ZHANG Yuxin4
(1. College of Hydrology and Water Resources,Hohai University,Nanjing 210098,China;
2. The National Key Laboratory of
Water Disaster Prevention,Nanjing Hydraulic Research Institute,Nanjing 210029;China;
3. Suqian Municipal Water
Resources Bureau,Suqian 223800,China;
4. Nanjing R&D Tech Group Co.,Ltd,Nanjing 210098,China)
Abstract:Accurate catchment runoff simulation under the changing environment has a great significance in the flood disaster prevention and regional water resources management.The machine learning (ML) approach has been widely and successfully applied in runoff modelling during recent years,which,however,has not yet fully considered the potential impact of changes in hydrological intermediate state variables.This study proposed a coupled ML-based model for runoff simulating by integrating the ensemble Kalman filter (EnKF),the principal component analysis (PCA) and the long short-term memory (LSTM),which denoted as EnKF-PCA-LSTM.The specific steps include:① The dynamic update of hydrological intermediate state variables via the EnKF method;② The integration of updated state variables into the input set for predictor selection by the PCA method;③ Runoff simulation through the combination of chosen predictors with the LSTM model.Taking the Ganjiang River basin as a case study,we provided a comprehensive assessment on the runoff simulation performance of the EnKF-PCA-LSTM,and performed comparisons against that of the original LSTM model and the physical hydrological model HYMOD.Results show that the EnKF-PCA-LSTM outperforms both the LSTM and HYMOD models,as reflected by the higher Nash-Sutcliffe efficiency coefficients,the Kling-Gupta efficiency coefficient and the Nash-Sutcliffe efficiency for the log-transformed runoff (0.954,0.971 and 0.972,respectively).This finding suggests that considering the hydrological intermediate state could effectively improve the accuracy and stability of ML models in terms of runoff simulation,which undoubtedly provides valuable insight into the catchment runoff modeling.
Key words:runoff simulation approach;hydrological intermediate state variable;ensemble Kalman Filter;principal component analysis;long short-term memory