劉文強(qiáng)
(1.天津師范大學(xué) 水資源與水環(huán)境重點(diǎn)實(shí)驗(yàn)室,天津 300387;2.天津師范大學(xué) 地理與環(huán)境科學(xué)學(xué)院,天津 300387)
河流流量是全球和區(qū)域水文循環(huán)的基本組成部分[1-2]。準(zhǔn)確的流量預(yù)測(cè)在保障及時(shí)有效的水資源管理、農(nóng)業(yè)灌溉、水力發(fā)電、防洪調(diào)度和風(fēng)險(xiǎn)評(píng)估等方面發(fā)揮了重要作用[3-5]。循環(huán)神經(jīng)網(wǎng)絡(luò)長(zhǎng)短期記憶(Recurrent Neural Network Long Short-Term Memory,RNN LSTM)是深度神經(jīng)網(wǎng)絡(luò)最先進(jìn)的技術(shù)之一,已被廣泛應(yīng)用于流量預(yù)測(cè)。Hu等[6]在2018年利用RNN LSTM成功模擬了多年洪水事件的“降水-徑流”過(guò)程,揭示了數(shù)據(jù)驅(qū)動(dòng)模式下降水和徑流時(shí)間序列之間的關(guān)系。Sudriani等[7]在2019年利用RNN LSTM分析了多年日尺度流量的動(dòng)態(tài)變化,并為灌溉和水資源管理控制提供了方案。Kratzert等[8]在2019年利用RNN LSTM對(duì)大型水文進(jìn)行建模,證明了水文模型在大數(shù)據(jù)范式下的性能顯著提高。
本研究主要評(píng)估RNN LSTM模型在每日、每周和每月3種時(shí)間尺度下的預(yù)測(cè)性能,將模型應(yīng)用于預(yù)測(cè)海河上游唐河流域的實(shí)際案例中,多個(gè)水文氣候要素作為輸入并找出模型中重要參數(shù)的最優(yōu)設(shè)置。本研究的主要目標(biāo)是:(1)比較每日、每周和每月時(shí)間尺度下的模型預(yù)測(cè)結(jié)果,揭示模型中長(zhǎng)期預(yù)測(cè)性能的差異,并對(duì)流量預(yù)測(cè)提出見解;(2)通過(guò)設(shè)置參數(shù)中的不同時(shí)間序列步長(zhǎng),得出多種流量預(yù)測(cè)結(jié)果,調(diào)查每種時(shí)間尺度下流量變化對(duì)水文氣候要素的周期性響應(yīng);(3)利用模型學(xué)習(xí)多個(gè)水文氣候要素與流量之間的非線性關(guān)系,能準(zhǔn)確捕捉流量曲線。
研究區(qū)域位于大清河流域西部,即113°39′~116°14′E、38°11′~40°04′N,面積約為4 990 km2,如圖1所示。本研究以大清河流域上游山區(qū)的倒馬關(guān)水文站為例,研究氣候要素和人類活動(dòng)作用下河流流量的響應(yīng)機(jī)制。該站為大清河水系唐河上游控制站,地處深山,位于東經(jīng)114°38′、北緯39°05′,主要受季風(fēng)影響,屬溫帶季風(fēng)氣候,6~8月雨水相對(duì)充沛,流域平均年降水量為612.37 mm??刂茢嗝嬉陨狭饔蛎娣e為2 770 km2,主河道長(zhǎng)131.0 km,河道縱坡8.0%,流域平均寬度為27.7 km。
本研究收集了2006年1月1日至2014年12月31日唐河流域的水文和氣候數(shù)據(jù)。水文數(shù)據(jù)來(lái)自《中華人民共和國(guó)水文年鑒:第三卷 海河流域水文資料》,包括研究區(qū)域河流的流量、降水量、水位和水溫。氣候數(shù)據(jù)下載于中國(guó)科學(xué)院地理科學(xué)與資源研究所-資源環(huán)境科學(xué)與數(shù)據(jù)中心網(wǎng)站(https://www.resdc.cn/),包括地溫、氣壓、相對(duì)濕度、日照和風(fēng)速。
本研究使用RNN LSTM作為建模框架來(lái)建立中長(zhǎng)期預(yù)測(cè)模型,任何給定時(shí)間的時(shí)間序列數(shù)據(jù)都作為當(dāng)時(shí)的輸入提供,任何給定時(shí)間的氣候和水文輸入數(shù)據(jù)都作為向量值時(shí)間序列,其中每個(gè)輸入在本研究中被稱為指標(biāo)。這里使用的指標(biāo)類似于圖像處理體系中已知的特征。
RNN LSTM是對(duì)傳統(tǒng)RNN模型的改進(jìn),具有更長(zhǎng)的記憶,可以避免梯度在最小化步驟中消失和爆炸(見圖1)。RNN LSTM包括3個(gè)控制門:遺忘門ft、輸入門it和輸出門ot。它們?cè)跈C(jī)器學(xué)習(xí)過(guò)程中選擇性地允許信息通過(guò)。ft、it、新值新單元狀態(tài)ht和ot的網(wǎng)絡(luò)結(jié)構(gòu)相似。新狀態(tài)、遺忘門、輸入門、新值和輸出門是由之前的狀態(tài)和新輸入計(jì)算出來(lái)的,方法是將相關(guān)變量與權(quán)值矩陣Wf、Wi、Wc和Wo相乘,再加上偏差,然后分別由激活函數(shù)(sigmoid或tanh函數(shù))作用。等式⊙為Hadmard乘積(元素乘法)。詳細(xì)的RNN LSTM結(jié)構(gòu)總結(jié)在公式(1)~(8)中。
圖1 具有LSTM單元的RNN流程
本研究使用雙曲正切函數(shù)作為激活函數(shù),使傳送帶上的每個(gè)元素限制在﹣1~1。然后將其與ot進(jìn)行Elementwise multiplication得到狀態(tài)向量,如公式(6)所示。狀態(tài)向量被向前推進(jìn)到下一步,也可以成為下一步RNN LSTM的輸出。
RNN LSTM模型能處理多個(gè)指標(biāo)輸入的非線性時(shí)間序列。在本研究中,RNN LSTM被用于輸入不同時(shí)間尺度下多個(gè)水文、氣候指標(biāo)來(lái)預(yù)測(cè)經(jīng)過(guò)多年演化的河流流量。
為了評(píng)估RNN LSTM模型中的誤差,本研究使用了4個(gè)度量,包括均方根誤差RMSE、平均絕對(duì)誤差MAE、平均絕對(duì)百分比誤差MAPE和Nash-Sutcliffe效率系數(shù)NSE,定義如下:式中:yi為實(shí)測(cè)流量數(shù)據(jù)為RNN LSTM預(yù)測(cè)值;N為訓(xùn)練或測(cè)試周期的時(shí)間長(zhǎng)度,RMSE反映了預(yù)測(cè)誤差的擴(kuò)散程度。
本研究開發(fā)了3種不同時(shí)間尺度(日尺度、周尺度和月尺度)的時(shí)間序列數(shù)據(jù)的RNN LSTM模型,每個(gè)時(shí)間尺度的多維輸入模型用于預(yù)測(cè)和分析倒馬關(guān)水文站的河流流量。對(duì)于多尺度時(shí)間序列預(yù)測(cè),構(gòu)建了4層RNN LSTM作為隱層,全鏈接層作為輸出層,并比較了不同時(shí)間尺度下RNN LSTM模型的性能。
RNN LSTM模型的多維輸入包括:(1)水溫、降水、水位、地溫、氣壓、相對(duì)濕度、日照時(shí)數(shù)、風(fēng)速(輸入指標(biāo)/變量);(2)河流流量或徑流(一維輸出)。本研究使用這些模型對(duì)3種不同時(shí)間尺度下的水文、氣候或水文氣象指標(biāo)進(jìn)行短期預(yù)測(cè)評(píng)估。
在日尺度的時(shí)間序列中,本研究將2006年1月1日至2011年12月31日收集的數(shù)據(jù)作為訓(xùn)練集,將2012年1月1日至2014年12月31日收集的數(shù)據(jù)作為預(yù)測(cè)集。利用時(shí)序步長(zhǎng)τ(2~20天)對(duì)訓(xùn)練階段的數(shù)據(jù)進(jìn)行分組,通過(guò)RNN LSTM模型預(yù)測(cè)。模型對(duì)不同時(shí)序步長(zhǎng)的性能如表1所示(Stepτ表示設(shè)置的時(shí)序步長(zhǎng)為τ天)。
由表1可知,當(dāng)時(shí)序長(zhǎng)度τ從2天增加到12天時(shí),訓(xùn)練集NSE從0.84增加到0.88,訓(xùn)練期間RMSE、MAE和MAPE相對(duì)降低。同時(shí),預(yù)測(cè)集NSE從0.70增加到0.74,RMSE、MAE和MAPE在測(cè)試期間相對(duì)降低。當(dāng)時(shí)序長(zhǎng)度從12天增加到20天時(shí),訓(xùn)練集NSE保持在0.87~0.88,RMSE、MAE和MAPE在訓(xùn)練期間相對(duì)提高。同時(shí),預(yù)測(cè)集NSE保持在0.69~0.74,RMSE、MAE和MAPE在預(yù)測(cè)期間相對(duì)提高。事實(shí)表明,RNN LSTM將過(guò)去12天的信息存儲(chǔ)在存儲(chǔ)單元中,最能反映信息流量。
表1 日尺度下訓(xùn)練和預(yù)測(cè)時(shí)序步長(zhǎng)τ
續(xù)表1
在每周尺度的時(shí)間序列中,本研究將2006年第一周至2011年最后一周收集的數(shù)據(jù)歸為訓(xùn)練集,將2012年第一周至2014年最后一周收集的數(shù)據(jù)歸為預(yù)測(cè)集。利用時(shí)序步長(zhǎng)τ(2~15周)對(duì)訓(xùn)練過(guò)程中的數(shù)據(jù)進(jìn)行建模。模型在各時(shí)序步長(zhǎng)的性能如表2所示。
表2 周尺度下訓(xùn)練和預(yù)測(cè)時(shí)序步長(zhǎng)τ
續(xù)表2
表2顯示,當(dāng)時(shí)間長(zhǎng)度τ從2周增加到3周時(shí),訓(xùn)練集NSE從0.61增加到0.96,訓(xùn)練期間RMSE、MAE和MAPE相對(duì)降低。同時(shí),預(yù)測(cè)集NSE從0.51增加到0.55,RMSE、MAE和MAPE在預(yù)測(cè)期間相對(duì)降低。當(dāng)時(shí)間長(zhǎng)度從3周增加到15周時(shí),訓(xùn)練集NSE保持在0.65~0.95,RMSE、MAE和MAPE在訓(xùn)練期間相對(duì)提高。同時(shí),預(yù)測(cè)集NSE保持在0.55~﹣4.13,RMSE、MAE和MAPE在測(cè)試期間相對(duì)提高。這表明,在每周時(shí)間尺度下,RNN LSTM將過(guò)去3周的信息儲(chǔ)存在儲(chǔ)存單元中建模效果最好。
在每月尺度的時(shí)間序列中,本研究將2006年1月至2011年12月的數(shù)據(jù)歸為訓(xùn)練集,將2012年1月至2014年12月的數(shù)據(jù)歸為預(yù)測(cè)集。利用時(shí)序步長(zhǎng)τ(2~12個(gè)月)建立RNN LSTM模型。模型對(duì)各時(shí)序步長(zhǎng)的性能如表3所示。
表3 月尺度下訓(xùn)練和預(yù)測(cè)時(shí)序步長(zhǎng)τ
續(xù)表3
表3顯示,當(dāng)時(shí)間長(zhǎng)度τ從2個(gè)月增加到6個(gè)月時(shí),訓(xùn)練期間NSE、RMSE、MAE和MAPE保持穩(wěn)定。同時(shí),預(yù)測(cè)集NSE從﹣0.44增加到0.52,RMSE、MAE和MAPE在預(yù)測(cè)期間相對(duì)降低。當(dāng)時(shí)間長(zhǎng)度從6個(gè)月增加到12個(gè)月時(shí),訓(xùn)練集NSE保持在0.90~0.98,RMSE、MAE和MAPE在訓(xùn)練期間略有波動(dòng)。同時(shí),預(yù)測(cè)集NSE保持在0.52~0.04,RMSE、MAE和MAPE在預(yù)測(cè)期間相對(duì)提高。事實(shí)表明,在每月時(shí)間尺度下,RNN LSTM反應(yīng)流量信息的優(yōu)化儲(chǔ)存時(shí)間為6個(gè)月。月尺度模型性能優(yōu)于訓(xùn)練期間每日和每周尺度,但預(yù)測(cè)效果不如每日和每周尺度,因?yàn)檩^粗粒度的數(shù)據(jù)無(wú)法使月尺度模型比周尺度和日尺度模型更能適應(yīng)時(shí)間序列變化。
本研究采用多維輸入和長(zhǎng)短期記憶的預(yù)測(cè)方法提高預(yù)測(cè)的準(zhǔn)確性。將上述方案應(yīng)用于大清河—倒馬關(guān)水文站上游唐河流域,從不同角度分析其水文機(jī)制,探索不同時(shí)間尺度下的水文模型機(jī)理,并對(duì)河流流量預(yù)測(cè)工作提出見解:
(1)通過(guò)試驗(yàn)驗(yàn)證得出模型預(yù)測(cè)效果:在訓(xùn)練期間,月尺度優(yōu)于周尺度,周尺度優(yōu)于日尺度;在預(yù)測(cè)期間,日尺度優(yōu)于周尺度,周尺度優(yōu)于月尺度。這說(shuō)明較粗粒度的數(shù)據(jù)更難適應(yīng)時(shí)間序列的變化,需要更多的數(shù)據(jù)集來(lái)學(xué)習(xí)多維輸入變量與輸出流量之間的長(zhǎng)期依賴關(guān)系。
(2)本研究搭建了“Next”時(shí)間序列模式神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)在模型內(nèi)部以滑動(dòng)窗口的方式訓(xùn)練,每次窗口的滑動(dòng)都會(huì)預(yù)測(cè)窗口以外未來(lái)1天/周/月的河流流量。不同時(shí)間尺度的流量預(yù)測(cè)取得了較好的效果,可以為以后的水文預(yù)測(cè)工作提供參考,將這種運(yùn)行模式推廣到洪水和干旱預(yù)測(cè)中。
(3)RNN LSTM的長(zhǎng)短期記憶功能揭示了在不同時(shí)間尺度下水文過(guò)程的產(chǎn)流機(jī)制,篩選出每日、每周和每月時(shí)間尺度下的最佳儲(chǔ)存時(shí)間分別為12天、3周和6個(gè)月,說(shuō)明在每種時(shí)間尺度下,水文氣候要素對(duì)河流匯流的滯后效應(yīng)不同。