關(guān)鍵詞:中長期徑流預報;分期組合;機器學習;可解釋性;黃河源區(qū)
中圖分類號:P338+ .2;TV882.1 文獻標志碼:A doi:10.3969/ j.issn.1000-1379.2024.09.008
引用格式:黃強,尚嘉楠,方偉,等.基于可解釋機器學習的黃河源區(qū)徑流分期組合預報[J].人民黃河,2024,46(9):50-59.
0引言
黃河源區(qū)年徑流量占全流域的34.1%,是黃河重要的產(chǎn)流區(qū)和水源涵養(yǎng)區(qū),素有“黃河水塔”之稱[1-2] 。黃河流域?qū)儆谫Y源性缺水地區(qū),源區(qū)來水的變化對全流域水資源開發(fā)、利用和管理影響巨大,加強黃河源區(qū)徑流預報研究至關(guān)重要。此外,全球升溫對黃河源區(qū)在內(nèi)的冰凍圈、大氣圈、水圈、生物圈等多個圈層產(chǎn)生了顯著影響[3] ,綠色低碳發(fā)展已經(jīng)成為實現(xiàn)溫控目標的全球共識。黃河源區(qū)跨越我國一、二級階梯,地勢落差大,水能資源蘊藏量達2 000 萬kW。在水能資源富集區(qū)規(guī)劃建設(shè)水風光一體化清潔能源基地,是黃河等我國主要流域綠色低碳轉(zhuǎn)型的重要舉措[4] 。流域水電站是改善風、光出力隨機波動性的調(diào)節(jié)中樞,徑流則是決定其調(diào)節(jié)能力的主控因素,準確預報徑流情勢可為流域清潔能源高效利用、綠色低碳轉(zhuǎn)型提供關(guān)鍵技術(shù)支撐。因此,開展黃河源區(qū)徑流預報研究對于流域水資源科學調(diào)配和綠色低碳發(fā)展具有重要意義。
近年來,基于機器學習的數(shù)據(jù)驅(qū)動模型在徑流預報領(lǐng)域快速發(fā)展,并得到廣泛應(yīng)用[5] 。Lu 等[6] 將XG?Boost( Extreme Gradient Boosting) 模型、RF ( RandomForest)模型、AdaBoost(Adaptive Boosting)模型應(yīng)用于富春江水庫的日出庫流量預測,結(jié)果表明XGBoost 模型預測精度最高且預報能力比較穩(wěn)定。Han 等[7] 將深度學習方法作為預測模型誤差后處理器,校正了俄羅斯河徑流預報結(jié)果,有效提升了預測精度,并有助于揭示多種不確定因素對模型預測結(jié)果的影響。
雖然機器學習善于模擬高維非線性復雜系統(tǒng),在徑流預報研究中表現(xiàn)良好,但是其結(jié)構(gòu)復雜且具有“黑箱”屬性,無法真正理解和刻畫水文過程及其物理規(guī)律,導致預測結(jié)果難以被充分信任[8] 。機器學習的可解釋性分析旨在揭示模型輸入因子對預報對象的驅(qū)動機制,提高機器學習模型決策過程的透明度。Lundberg 等[9] 將博弈論與局部解釋性關(guān)聯(lián)起來,提出了機器學習模型的SHAP 可解釋性分析框架,闡明了各輸入變量對機器學習決策的影響機理。Liu 等[10] 構(gòu)建了一個月預見期的XGBoost 徑流預測模型,并使用SHAP 可解釋性分析方法計算了SHAP 總效應(yīng)值、主效應(yīng)值、交互作用值和損失值,量化了XGBoost 徑流預報模型中氣象要素、歷史徑流、全球氣候因子等輸入變量對徑流預報結(jié)果的貢獻率。Jing 等[11] 將LSTM 模型應(yīng)用于漢江上游日徑流預測中,利用IG(Integrated Gradient)可解釋性方法研究了徑流預測的潛在決策機制。
基于上述研究,筆者以黃河源區(qū)唐乃亥和瑪曲水文站為研究對象,考慮季節(jié)性融雪變化影響,建立中長期徑流分期組合機器學習預報模型,構(gòu)建機器學習預報模型的可解釋性分析框架,定量識別不同預報因子的貢獻率及多因子的復雜交互作用。
1研究區(qū)概況與數(shù)據(jù)來源
1.1研究區(qū)概況
黃河發(fā)源于青藏高原的巴顏喀拉山北麓,全長5 464 km,流域面積79.5 萬km2。其中,唐乃亥站以上為黃河源區(qū)(見圖1)。源區(qū)河道總長1 553 km,面積達12.19 萬km2,占黃河流域總面積的16.2%。唐乃亥站多年平均來水量200 億m3,年徑流量占全流域的34.1%[2] ,源區(qū)多年平均徑流量分割統(tǒng)計顯示,降雨、地下水補給(基流)、冰雪及凍土融水分別占年總徑流量的63.15%、26.18%和9.17%[12] 。黃河源區(qū)湖泊數(shù)量眾多,水資源豐沛。河段落差達3 745 m,水能資源豐富[13-14] ,是我國九大清潔能源基地之一。
1.2數(shù)據(jù)來源
研究數(shù)據(jù)涵蓋了水文、氣象、積雪覆蓋、大尺度環(huán)流因子等多源數(shù)據(jù),時段跨度為1960—2020年。具體的數(shù)據(jù)類型及其來源見表1。
2研究方法
基于積雪覆蓋變化和彈性系數(shù)精細劃分徑流的年內(nèi)預報時段,構(gòu)建基于XGBoost 的分期組合預報模型,并使用SHAP 可解釋性分析方法研究不同預報因子對徑流的驅(qū)動機制。技術(shù)路線見圖2。
黃河源區(qū)年內(nèi)不同時期的融雪徑流占比差異較大,為提升中長期徑流預報的精度,本研究以融雪水當量彈性系數(shù)和流域積雪覆蓋率變化為判斷依據(jù),將年內(nèi)的徑流預報時段劃分為融雪影響期和非融雪主導期,分別構(gòu)建徑流預報模型。融雪影響期的劃分標準為:1)融雪水當量彈性系數(shù)大于0;2)時段內(nèi)流域積雪覆蓋率呈下降趨勢;3)流域內(nèi)積雪覆蓋率不小于年內(nèi)最大積雪覆蓋率(其中,唐乃亥以上流域為32%、瑪曲以上流域為38%)的10%;4)融雪徑流占比達到10%。參考文獻[17],采用下式估算融雪徑流比。
SW =SW / (SW+P)×100% (4)
式中:SW為融雪徑流占比,SW 為融雪水當量。
2.2中長期徑流分期組合預報模型
采用分期組合預報策略,分別對融雪影響期和非融雪主導期開展徑流預報,再將兩個時期的預報結(jié)果組合,得到年內(nèi)所有月份的預報結(jié)果。分期組合預報策略見圖3。
備選的預報因子分為3 類,包括水文氣象因子(Ⅰ類,歷史月平均流量、月累計降水量等8 種)、大尺度環(huán)流因子(Ⅱ類,8 種大尺度環(huán)流因子與太陽黑子指數(shù))和融雪水當量(Ⅲ類)。針對融雪影響期和非融雪主導期,采用點間互信息法和相關(guān)系數(shù)法依次篩選預報因子的最佳組合及最優(yōu)滯時。需要注意的是,非融雪主導期的融雪徑流占比低,融雪水當量可不作為該期的主要預報因子。
從“預報因子類型”和“是否進行預報因子篩選”兩個角度出發(fā),設(shè)置多種組合方案,在融雪影響期和非融雪主導期分別優(yōu)選出性能最好的預報模型,具體的方案設(shè)置見表2。
基于優(yōu)選出的融雪影響期和非融雪主導期預報模型,建立中長期徑流分期組合預報模型。此外,為評估分期組合預報策略在研究區(qū)的適用性,對比分期組合模型和傳統(tǒng)不分期模型的預測性能,對比方案設(shè)置見表3。
上述方案的徑流預報模型均基于XGBoost模型構(gòu)建,通過粒子群算法迭代尋優(yōu)XGBoost模型的超參數(shù)。模型的率定期設(shè)定為1960—1999年, 驗證期為2000—2014年,測試期為2015—2020年。
2.3SHAP 機器學習可解釋性分析框架
為了深入挖掘預報模型的決策機制并提升可解釋性,基于XGBoost 模型構(gòu)建徑流分期組合預報模型,并采用SHAP 方法研究其可解釋性分析框架。
通過計算SHAP 值來衡量單變量預報因子、多因子組合對預報結(jié)果的貢獻程度,由此可開展預報結(jié)果的歸因分析[18] 。對于一個已經(jīng)訓練好的機器學習預報模型,各預報因子的SHAP 值可由下式計算:
根據(jù)SHAP 值、SHAP 主效應(yīng)值和SHAP交互作用值,從各預報因子對預報結(jié)果的貢獻程度、預報結(jié)果對預報因子的依賴關(guān)系、預報因子間的交互作用等角度對建立的徑流預報e206805ff1c1c201b07b8c74d44b5c705ecba92e9ec79d5b53dfcc459f7cd7ef模型進行可解釋性研究。
3結(jié)果與分析
3.1融雪影響期與非融雪主導期
基于水量平衡原理,計算了唐乃亥站和瑪曲站以上流域不同月份降水彈性系數(shù)和融雪水當量彈性系數(shù)(見表4)。結(jié)果顯示兩者均為正值,說明降水、融雪水當量與徑流正相關(guān),彈性系數(shù)計算結(jié)果具有合理性。融雪水當量彈性系數(shù)在唐乃亥站以上流域和瑪曲站以上流域的年內(nèi)變化過程相似,于4—5 月達最大值,此時徑流對融雪變化最敏感。如圖4 所示,融雪徑流占比從3 月起顯著上升,在4—5 月達到最大(40% ~50%)。由此可見,融雪水是黃河源區(qū)地表徑流的重要組成部分[19-20] 。
如圖5 所示,根據(jù)2.1 節(jié)所述的年內(nèi)預報時段劃分方法,識別出融雪影響期為3—6 月,非融雪主導期為7 月—次年2 月,唐乃亥站和瑪曲站以上流域的預報時段劃分結(jié)果一致。
3.2黃河源區(qū)中長期徑流分期組合預報
3.2.1融雪影響期和非融雪主導期預報模型優(yōu)選
根據(jù)表2設(shè)定的預報模型方案集,分別在融雪影響期和非融雪主導期優(yōu)選出預報性能最佳的模型方案。
首先,利用點間互信息法初篩各方案(見表2)的徑流預報因子。圖6 顯示了各預報因子的點間互信息(PMI,Pointwise Mutual Information)值。在融雪影響期和非融雪主導期,PMI 值較大的前一個月流量(Q)、氣溫、蒸發(fā)等氣象要素與唐乃亥站、瑪曲站流量表現(xiàn)出顯著相關(guān)性。此外,在融雪影響期,融雪水當量的PMI 值均超過0.4(排名第6),也是重要的預報因子。
分別取兩時期內(nèi)PMI 值較大的10 種因子作為對應(yīng)徑流預報時期的預報因子。采用相關(guān)系數(shù)法確定各方案初篩得到的預報因子的最優(yōu)滯時,不同滯時預報因子與徑流的相關(guān)系數(shù)如圖7 所示。由圖7 可見,在融雪影響期和非融雪主導期,滯時為一個月的前期流量、前期降水與當月流量之間的相關(guān)系數(shù)均為1~12 個月中的最大值(大于0.68),關(guān)系密切。在融雪影響期,徑流與前一個月融雪水當量的相關(guān)系數(shù)達0.75。根據(jù)不同滯時預報因子與流量的相關(guān)系數(shù)大小,確定了不同模型方案預報因子的最優(yōu)滯時,見表5,其中,Q表示滯時為1 個月的前期流量,其余因子采用類似的表達方式。
根據(jù)表5中的不同方案預報因子集合,采用粒子群優(yōu)化算法優(yōu)化XGBoost 的超參數(shù),分別率定融雪影響期和非融雪主導期的徑流預報模型。并基于測試期的納什效率系數(shù)(NSE)、確定系數(shù)(R2)、均方根誤差與標準偏差之比(RSR)和均方根誤差(RMSE),分別篩選融雪影響期和非融雪主導期最優(yōu)預測模型,結(jié)果見表6。
由表6 可以發(fā)現(xiàn):在融雪影響期,以水文氣象要素和融雪水當量作為預報因子時(TNH-Sw-3-S 和MQSw-3-S 方案),模型預報能力均達到最優(yōu);在非融雪主導期,將水文氣象要素作為預報因子時(TNH-Pr-1-S和MQ-Pr-1-S 方案),其模型預報能力在兩站均為最佳。
通過篩選預報因子并以最優(yōu)滯時作為輸入(對應(yīng)表6 中加星號的方案),模型預報精度可得到提升。例如,在唐乃亥站,經(jīng)預報因子篩選后的模型方案TNH-Sw-3-S 和TNH-Pr-1-S 與未篩選方案TNH-Sw-3 和TNH-Pr-1 相比,NSE 分別提高約17%和6%、RSR 分別降低約44%和17%、RMSE 分別減少約44%和17%。
由表6 還可知:TNH-Sw-3-S、TNH-Pr-1-S 和MQ-Sw-3-S模型方案表現(xiàn)較佳;在瑪曲站非融雪主導期內(nèi),雖然MQ-Pr-1-S 的R2略低于MQ-Pr-2,但其余3 個指標均更優(yōu),可視為最優(yōu)模型。據(jù)此,得到研究區(qū)中長期分期組合預報模型方案如下:由方案TNH-Sw-3-S 和TNH-Pr-1-S 可得到唐乃亥站性能最優(yōu)的分期組合模型(記為TNH-F-0-S);由方案MQ-Sw-3-S和MQ-Pr-1-S 得到瑪曲站性能最佳的分期組合模型(記為MQ-F-0-S)。
3.2.2分期組合預報模型性能分析
將得到的最優(yōu)分期組合模型與傳統(tǒng)不分期模型(建模方案見表3)進行對比,評估分期組合預報策略在研究區(qū)的適用性及其預報性能提升效果。
在構(gòu)建不分期模型時,運用點間互信息和相關(guān)系數(shù)方法篩選各模型方案(表3 中Z-1-S、Z-2-S、Z-3-S 和Z-4-S 方案)中預報因子類型及其最優(yōu)滯時,進而采用PSO 優(yōu)化的XGBoost 機器學習算法構(gòu)建預測模型,4 種方案不分期模型性能見表7。由表7 可見,與不分期模型相比,分期預報模型在唐乃亥站和瑪曲站的NSE 分別提高3%和10%、RSR 分別降低10%和17%、RMSE 分別減少10%和17%,兩站徑流預報的準確率得到提高。綜上可知,本研究構(gòu)建的分期組合預報模型(即表7 中TNH-F-0-S 和MQ-F-0-S)的預報精度高,整體性能較傳統(tǒng)不分期模型明顯提升,分期組合預報策略在研究區(qū)具有良好適用性。
為進一步減小徑流預報誤差,提升分期組合預報模型的精度,采用分位數(shù)映射方法校正徑流預報誤差,結(jié)果見表8。根據(jù)《水文情報預報規(guī)范》(GB/ T 22482—2008)對預報精度的分級標準,在校正后的TNH-F-0-S分期組合模型的確定系數(shù)R2 為0.926,達到甲等精度;MQ-F-0-S 分期組合模型的確定系數(shù)R2為0.850,接近甲等精度。
3.3分期組合預報模型的可解釋性分析
分期組合模型預報功能的實現(xiàn), 需要利用XGBoost 機器學習方法擬合預報因子與徑流的復雜響應(yīng)關(guān)系。為了深入理解XGBoost 在徑流預報中的決策邏輯和工作機制,提升分期組合預報模型的可理解性和透明度,基于上文優(yōu)選的最優(yōu)組合預報模型及其預測結(jié)果,計算各預報因子的SHAP 值、SHAP 主效應(yīng)值和SHAP交互效應(yīng)值,依次解析組合預報模型的單因子貢獻度、因子依賴關(guān)系和多因子間交互作用。
3.3.1單因子貢獻度
SHAP 值可以衡量某一模型預報因子對預報結(jié)果的貢獻程度,值越大表示其對預報結(jié)果的貢獻越大。計算各預報因子的SHAP 均值,并按其絕對值大小進行排序,如圖8 所示。由圖8可知,在不同水文站和不同預報時段,盡管預報因子對預報結(jié)果的貢獻度略有差異,但排名前列的預報因子類型相同。綜合SHAP 均值來看,預測因子按貢獻由大到小依次為降水、前一個月流量、蒸發(fā)、氣溫、相對濕度、融雪水當量、氣壓和風速。
采用SHAP 方法進行預報模型可解釋性分析的優(yōu)勢還在于能夠可視化模型的決策路徑。圖9 中每條折線代表預報模型對樣本的決策路徑,顏色表示預報流量的大小(藍色表示小流量預報值,紅色表示大流量預報值)。線條方向的變化指示預報因子的影響效果,向左(SHAP 值<0) 表示會減小預報值, 向右(SHAP 值>0)則增大預報值。結(jié)果表明,在小流量模型中,預報因子的影響較一致,歸納其典型決策路徑為:Q(減?。ⅲ校遥牛p?。?、EVP(減?。?、TEM(增大)、RHU(增大)、WIN(增大)、PRS(減小)、SW(減小);但隨著預報流量的增大,其預報因子的決策路徑變得更加復雜。
3.3.2預報值對因子的依賴關(guān)系
繪制SHAP部分依賴圖,可以識別預報結(jié)果與預報因子間線性或非線性、單調(diào)或非單調(diào)的復雜依賴關(guān)系,如圖10所示。圖10中,橫、縱軸分別代表預報因子數(shù)值與SHAP 主效應(yīng)值??梢园l(fā)現(xiàn):流量預報值與前期降水整體成單調(diào)遞增的依賴關(guān)系,與蒸發(fā)則成單調(diào)遞減的依賴關(guān)系,且在較大范圍內(nèi)以線性依賴關(guān)系為主。除單調(diào)線性關(guān)系外,預報徑流與風速還存在非單調(diào)、非線性的復雜依賴關(guān)系。此外,預報流量值與前期流量、相對濕度整體同樣成單調(diào)遞增的關(guān)系,與氣溫、氣壓成非單調(diào)、非線性的復雜依賴關(guān)系。受篇幅限制,此處不再贅述。
對于成單調(diào)依賴關(guān)系的預報因子,其依賴關(guān)系在各徑流預報時段基本相似,但變化閾值存在一定差異。以降水為例,構(gòu)建的預報模型在不同時期均顯示出了單調(diào)遞增的線性依賴關(guān)系,在同一預報時期內(nèi)預報因子閾值接近,推測與研究區(qū)高寒山區(qū)下墊面對徑流調(diào)節(jié)機制的影響有關(guān)[21] 。例如,在融雪影響期,氣溫較低且冰雪、凍土未完全消融,土壤下滲能力弱,少量降水即可產(chǎn)生徑流,在局部依賴圖中表現(xiàn)為SHAP 主效應(yīng)值開始增長的閾值較小但之后的響應(yīng)斜率較大;而在非融雪主導期,氣溫和蒸發(fā)強度較大,土壤下滲能力增強,需要更加充足的降水才能產(chǎn)生地表徑流,因此相應(yīng)的閾值也較大。
3.3.3兩因子的交互作用
計算預報因子兩兩組合的SHAP 交互作用值,揭示多因子交互作用對預報流量的影響。圖11 為降水與其他預報因t9/YGQpi2FhawAuHBCgpMQ==子的SHAP 交互作用散點圖(以唐乃亥站非融雪主導期TNH-Pr-1-S 模型、瑪曲站非融雪主導期MQ-Pr-1-S 模型為例)。圖中,縱軸表示SHAP交互作用值,散點顏色表示預報因子(降水)值,橫軸是與降水組合的預報因子。SHAP 交互作用值的絕對值越大,交互作用越強;交互作用值為正表示有增大徑流量的效果,負值則相反。
以SHAP 交互作用絕對值判斷交互作用強度,發(fā)現(xiàn)降水與氣溫、降水與蒸發(fā)、降水與前期流量的交互作用較強。其中,在唐乃亥站非融雪主導期TNH-Pr-1-S 模型中,前期降水與氣溫交互作用值達-100,表明在低氣溫下的降水以積雪為主,導致徑流預報值容易出現(xiàn)減小的情況。在瑪曲站非融雪主導期MQ-Pr-1-S模型中,前期降水與蒸發(fā)交互作用值約為70,表明當降水量較大、蒸發(fā)較少時,會導致徑流量增大。
同時還發(fā)現(xiàn)SHAP 交互作用散點分布具有拖尾式或階躍式的特征。拖尾式的特點為在某一區(qū)間內(nèi)交互作用變化不顯著(SHAP 交互作用值基本保持不變),區(qū)間外連續(xù)變化顯著( 散點連續(xù)分布), 如TNH-Pr-1-S模型中降水與蒸發(fā)、降水與風速的組合。階躍式的特點為在某一區(qū)間內(nèi)散點分層(分區(qū))現(xiàn)象明顯,反映出當給定某一降水時交互作用變化對橫坐標預報因子的變化不敏感,此時交互作用強度主要由降水量決定,如MQ-Pr-1-S 模型中降水與流量、降水與氣壓組合等。
4結(jié)論
以黃河源區(qū)唐乃亥站和瑪曲站為研究對象,提出了分期組合預報策略,構(gòu)建了中長期徑流分期組合預報機器學習模型及其可解釋性分析框架,主要結(jié)論如下。
1)黃河源區(qū)存在顯著的季節(jié)性積融雪過程,基于水量平衡原理并結(jié)合積雪覆蓋率、融雪水當量變化,定量劃分年內(nèi)的徑流預報時段,其中融雪影響期為3 月至6 月,非融雪主導期為7 月至次年2月。
2)與傳統(tǒng)模型相比,采用分期組合預報模型能提高黃河上游唐乃亥站和瑪曲站徑流預報精度。與不分期模型相比,分期組合預報模型在唐乃亥站和瑪曲站的NSE分別提高3%和10%、RSR 分別降低10%和17%、RMSE 分別降低10%和17%,經(jīng)誤差校正后唐乃亥站預報模型R2為0.926,瑪曲站預報模型R2 為0.850。
3)基于SHAP 機器學習可解釋性分析框架,識別出預報因子對徑流預報結(jié)果的貢獻程度從大到小依次為降水、前一個月流量、蒸發(fā)、氣溫、相對濕度、融雪水當量等。徑流對不同預報因子的依賴關(guān)系復雜,其中降水、前期流量和相對濕度以單調(diào)遞增的依賴關(guān)系為主,蒸發(fā)在一定范圍內(nèi)成單調(diào)遞減的線性依賴關(guān)系,不同預報因子之間交互作用具有拖尾式或階躍式的特征。