劉文強
(1.天津師范大學 水資源與水環(huán)境重點實驗室,天津 300387;2.天津師范大學 地理與環(huán)境科學學院,天津 300387)
河流流量是全球和區(qū)域水文循環(huán)的基本組成部分[1-2]。準確的流量預測在保障及時有效的水資源管理、農(nóng)業(yè)灌溉、水力發(fā)電、防洪調(diào)度和風險評估等方面發(fā)揮了重要作用[3-5]。循環(huán)神經(jīng)網(wǎng)絡(luò)長短期記憶(Recurrent Neural Network Long Short-Term Memory,RNN LSTM)是深度神經(jīng)網(wǎng)絡(luò)最先進的技術(shù)之一,已被廣泛應(yīng)用于流量預測。Hu等[6]在2018年利用RNN LSTM成功模擬了多年洪水事件的“降水-徑流”過程,揭示了數(shù)據(jù)驅(qū)動模式下降水和徑流時間序列之間的關(guān)系。Sudriani等[7]在2019年利用RNN LSTM分析了多年日尺度流量的動態(tài)變化,并為灌溉和水資源管理控制提供了方案。Kratzert等[8]在2019年利用RNN LSTM對大型水文進行建模,證明了水文模型在大數(shù)據(jù)范式下的性能顯著提高。
本研究主要評估RNN LSTM模型在每日、每周和每月3種時間尺度下的預測性能,將模型應(yīng)用于預測海河上游唐河流域的實際案例中,多個水文氣候要素作為輸入并找出模型中重要參數(shù)的最優(yōu)設(shè)置。本研究的主要目標是:(1)比較每日、每周和每月時間尺度下的模型預測結(jié)果,揭示模型中長期預測性能的差異,并對流量預測提出見解;(2)通過設(shè)置參數(shù)中的不同時間序列步長,得出多種流量預測結(jié)果,調(diào)查每種時間尺度下流量變化對水文氣候要素的周期性響應(yīng);(3)利用模型學習多個水文氣候要素與流量之間的非線性關(guān)系,能準確捕捉流量曲線。
研究區(qū)域位于大清河流域西部,即113°39′~116°14′E、38°11′~40°04′N,面積約為4 990 km2,如圖1所示。本研究以大清河流域上游山區(qū)的倒馬關(guān)水文站為例,研究氣候要素和人類活動作用下河流流量的響應(yīng)機制。該站為大清河水系唐河上游控制站,地處深山,位于東經(jīng)114°38′、北緯39°05′,主要受季風影響,屬溫帶季風氣候,6~8月雨水相對充沛,流域平均年降水量為612.37 mm。控制斷面以上流域面積為2 770 km2,主河道長131.0 km,河道縱坡8.0%,流域平均寬度為27.7 km。
本研究收集了2006年1月1日至2014年12月31日唐河流域的水文和氣候數(shù)據(jù)。水文數(shù)據(jù)來自《中華人民共和國水文年鑒:第三卷 海河流域水文資料》,包括研究區(qū)域河流的流量、降水量、水位和水溫。氣候數(shù)據(jù)下載于中國科學院地理科學與資源研究所-資源環(huán)境科學與數(shù)據(jù)中心網(wǎng)站(https://www.resdc.cn/),包括地溫、氣壓、相對濕度、日照和風速。
本研究使用RNN LSTM作為建??蚣軄斫⒅虚L期預測模型,任何給定時間的時間序列數(shù)據(jù)都作為當時的輸入提供,任何給定時間的氣候和水文輸入數(shù)據(jù)都作為向量值時間序列,其中每個輸入在本研究中被稱為指標。這里使用的指標類似于圖像處理體系中已知的特征。
RNN LSTM是對傳統(tǒng)RNN模型的改進,具有更長的記憶,可以避免梯度在最小化步驟中消失和爆炸(見圖1)。RNN LSTM包括3個控制門:遺忘門ft、輸入門it和輸出門ot。它們在機器學習過程中選擇性地允許信息通過。ft、it、新值新單元狀態(tài)ht和ot的網(wǎng)絡(luò)結(jié)構(gòu)相似。新狀態(tài)、遺忘門、輸入門、新值和輸出門是由之前的狀態(tài)和新輸入計算出來的,方法是將相關(guān)變量與權(quán)值矩陣Wf、Wi、Wc和Wo相乘,再加上偏差,然后分別由激活函數(shù)(sigmoid或tanh函數(shù))作用。等式⊙為Hadmard乘積(元素乘法)。詳細的RNN LSTM結(jié)構(gòu)總結(jié)在公式(1)~(8)中。
圖1 具有LSTM單元的RNN流程
本研究使用雙曲正切函數(shù)作為激活函數(shù),使傳送帶上的每個元素限制在﹣1~1。然后將其與ot進行Elementwise multiplication得到狀態(tài)向量,如公式(6)所示。狀態(tài)向量被向前推進到下一步,也可以成為下一步RNN LSTM的輸出。
RNN LSTM模型能處理多個指標輸入的非線性時間序列。在本研究中,RNN LSTM被用于輸入不同時間尺度下多個水文、氣候指標來預測經(jīng)過多年演化的河流流量。
為了評估RNN LSTM模型中的誤差,本研究使用了4個度量,包括均方根誤差RMSE、平均絕對誤差MAE、平均絕對百分比誤差MAPE和Nash-Sutcliffe效率系數(shù)NSE,定義如下:式中:yi為實測流量數(shù)據(jù)為RNN LSTM預測值;N為訓練或測試周期的時間長度,RMSE反映了預測誤差的擴散程度。
本研究開發(fā)了3種不同時間尺度(日尺度、周尺度和月尺度)的時間序列數(shù)據(jù)的RNN LSTM模型,每個時間尺度的多維輸入模型用于預測和分析倒馬關(guān)水文站的河流流量。對于多尺度時間序列預測,構(gòu)建了4層RNN LSTM作為隱層,全鏈接層作為輸出層,并比較了不同時間尺度下RNN LSTM模型的性能。
RNN LSTM模型的多維輸入包括:(1)水溫、降水、水位、地溫、氣壓、相對濕度、日照時數(shù)、風速(輸入指標/變量);(2)河流流量或徑流(一維輸出)。本研究使用這些模型對3種不同時間尺度下的水文、氣候或水文氣象指標進行短期預測評估。
在日尺度的時間序列中,本研究將2006年1月1日至2011年12月31日收集的數(shù)據(jù)作為訓練集,將2012年1月1日至2014年12月31日收集的數(shù)據(jù)作為預測集。利用時序步長τ(2~20天)對訓練階段的數(shù)據(jù)進行分組,通過RNN LSTM模型預測。模型對不同時序步長的性能如表1所示(Stepτ表示設(shè)置的時序步長為τ天)。
由表1可知,當時序長度τ從2天增加到12天時,訓練集NSE從0.84增加到0.88,訓練期間RMSE、MAE和MAPE相對降低。同時,預測集NSE從0.70增加到0.74,RMSE、MAE和MAPE在測試期間相對降低。當時序長度從12天增加到20天時,訓練集NSE保持在0.87~0.88,RMSE、MAE和MAPE在訓練期間相對提高。同時,預測集NSE保持在0.69~0.74,RMSE、MAE和MAPE在預測期間相對提高。事實表明,RNN LSTM將過去12天的信息存儲在存儲單元中,最能反映信息流量。
表1 日尺度下訓練和預測時序步長τ
續(xù)表1
在每周尺度的時間序列中,本研究將2006年第一周至2011年最后一周收集的數(shù)據(jù)歸為訓練集,將2012年第一周至2014年最后一周收集的數(shù)據(jù)歸為預測集。利用時序步長τ(2~15周)對訓練過程中的數(shù)據(jù)進行建模。模型在各時序步長的性能如表2所示。
表2 周尺度下訓練和預測時序步長τ
續(xù)表2
表2顯示,當時間長度τ從2周增加到3周時,訓練集NSE從0.61增加到0.96,訓練期間RMSE、MAE和MAPE相對降低。同時,預測集NSE從0.51增加到0.55,RMSE、MAE和MAPE在預測期間相對降低。當時間長度從3周增加到15周時,訓練集NSE保持在0.65~0.95,RMSE、MAE和MAPE在訓練期間相對提高。同時,預測集NSE保持在0.55~﹣4.13,RMSE、MAE和MAPE在測試期間相對提高。這表明,在每周時間尺度下,RNN LSTM將過去3周的信息儲存在儲存單元中建模效果最好。
在每月尺度的時間序列中,本研究將2006年1月至2011年12月的數(shù)據(jù)歸為訓練集,將2012年1月至2014年12月的數(shù)據(jù)歸為預測集。利用時序步長τ(2~12個月)建立RNN LSTM模型。模型對各時序步長的性能如表3所示。
表3 月尺度下訓練和預測時序步長τ
續(xù)表3
表3顯示,當時間長度τ從2個月增加到6個月時,訓練期間NSE、RMSE、MAE和MAPE保持穩(wěn)定。同時,預測集NSE從﹣0.44增加到0.52,RMSE、MAE和MAPE在預測期間相對降低。當時間長度從6個月增加到12個月時,訓練集NSE保持在0.90~0.98,RMSE、MAE和MAPE在訓練期間略有波動。同時,預測集NSE保持在0.52~0.04,RMSE、MAE和MAPE在預測期間相對提高。事實表明,在每月時間尺度下,RNN LSTM反應(yīng)流量信息的優(yōu)化儲存時間為6個月。月尺度模型性能優(yōu)于訓練期間每日和每周尺度,但預測效果不如每日和每周尺度,因為較粗粒度的數(shù)據(jù)無法使月尺度模型比周尺度和日尺度模型更能適應(yīng)時間序列變化。
本研究采用多維輸入和長短期記憶的預測方法提高預測的準確性。將上述方案應(yīng)用于大清河—倒馬關(guān)水文站上游唐河流域,從不同角度分析其水文機制,探索不同時間尺度下的水文模型機理,并對河流流量預測工作提出見解:
(1)通過試驗驗證得出模型預測效果:在訓練期間,月尺度優(yōu)于周尺度,周尺度優(yōu)于日尺度;在預測期間,日尺度優(yōu)于周尺度,周尺度優(yōu)于月尺度。這說明較粗粒度的數(shù)據(jù)更難適應(yīng)時間序列的變化,需要更多的數(shù)據(jù)集來學習多維輸入變量與輸出流量之間的長期依賴關(guān)系。
(2)本研究搭建了“Next”時間序列模式神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)在模型內(nèi)部以滑動窗口的方式訓練,每次窗口的滑動都會預測窗口以外未來1天/周/月的河流流量。不同時間尺度的流量預測取得了較好的效果,可以為以后的水文預測工作提供參考,將這種運行模式推廣到洪水和干旱預測中。
(3)RNN LSTM的長短期記憶功能揭示了在不同時間尺度下水文過程的產(chǎn)流機制,篩選出每日、每周和每月時間尺度下的最佳儲存時間分別為12天、3周和6個月,說明在每種時間尺度下,水文氣候要素對河流匯流的滯后效應(yīng)不同。