許 斌,楊鳳根,酈于杰
(1.河海大學(xué)地球科學(xué)與工程學(xué)院,江蘇 南京 211100;2.河海大學(xué)水文水資源學(xué)院,江蘇 南京 210098)
準(zhǔn)確、穩(wěn)定的月-季-年尺度的中長期徑流預(yù)報,對科學(xué)制訂水資源的合理配置和優(yōu)化調(diào)度方案,對提高水文預(yù)報綜合業(yè)務(wù)的廣度和深度具有重要的戰(zhàn)略意義與應(yīng)用價值[1]。隨著水利信息化的大力推進,水文數(shù)據(jù)已逐漸呈現(xiàn)出海量數(shù)據(jù)、多種來源、多種結(jié)構(gòu)、高價值、價值密度稀疏等特征,且具有較強的空間、時間屬性[1-2]。在大數(shù)據(jù)時代,如何利用數(shù)據(jù)挖掘技術(shù),從歷史經(jīng)驗與海量氣象水文中探索數(shù)據(jù)的內(nèi)在價值與深度聯(lián)系,是發(fā)展和擴充水文預(yù)報的前沿研究領(lǐng)域[3]。
機器學(xué)習(xí)是一門主要研究對象是人工智能的學(xué)科,通過經(jīng)驗學(xué)習(xí)改進預(yù)測性能及優(yōu)化算法,廣泛應(yīng)用于數(shù)據(jù)挖掘、計算機視覺、生物特征識別、市場規(guī)律分析等領(lǐng)域[4-5]?;诖髷?shù)據(jù)的機器學(xué)習(xí)在中長期徑流預(yù)測中構(gòu)建了一類黑箱模型,在忽略復(fù)雜的陸氣環(huán)流方式、水文模擬過程、下墊面變化、人類活動影響、尺度不匹配及參數(shù)異質(zhì)化等前提下,利用人工智能算法對大量、高維、多態(tài)問題的優(yōu)異處理性能,實現(xiàn)月-季-年尺度的水資源預(yù)測。
機器學(xué)習(xí)中一些智能算法已應(yīng)用于中長期徑流預(yù)報[6-10]。在這些機器學(xué)習(xí)的有監(jiān)督學(xué)習(xí)算法中,預(yù)報因子往往是前期降雨、徑流,缺乏一定的物理機制;預(yù)報模型的選擇也較為單一,準(zhǔn)確率與穩(wěn)定性均有所不足。因此,本次研究將前期氣候指數(shù)作為預(yù)報因子,利用分類回歸樹算法(CART)作為基學(xué)習(xí)器,引入隨機森林模型(RF)與梯度提升樹模型(GBDT)作為兩類集成學(xué)習(xí)算法,通過形成強學(xué)習(xí)預(yù)報模型,實現(xiàn)對丹江口水庫未來1個月,未來1季度以及未來1年三類徑流序列的滾動預(yù)報,并通過相對誤差絕對值的平均值(MAPE)、Nash效率系數(shù)(NSE)、相對均方根誤差(RRMSE)、合格率(QR)等指標(biāo)進行比較分析,探索中長期徑流預(yù)報的研究發(fā)展新途徑。
漢江為長江的最大支流,發(fā)源于陜西省潘冢山,全長1 577 km;流域面積達15.9萬km2,地勢西高東低,西北部以山區(qū)為主,東南部以平原為主。漢江流域?qū)儆趤啛釒Ъ撅L(fēng)氣候,降水充沛,多年平均降雨量為900~1 500 mm,年內(nèi)分配極不均勻,夏季降水約占年總降水的50%。流域多年平均徑流量為250億m3,汛期(5月~10月)徑流量約占全年的75%。丹江口水庫位于漢江中上游,為南水北調(diào)中線一期工程水源地,水源面積達1 000 km2,蓄水量達290億m3。分析影響丹江口水庫來水量的主要因子,并建立相應(yīng)的中長期徑流預(yù)報模型,對合理安排水庫調(diào)度、保障南水北調(diào)中線供水具有重要的意義。
集成學(xué)習(xí)算法(Ensemble Learning)的主要思想是產(chǎn)生大量的子預(yù)報模型,再通過某種策略將結(jié)果綜合。在本次研究中,采用分類回歸樹算法(CART)[11]作為子預(yù)報模型,集成學(xué)習(xí)算法主要采用基于Bagging算法的隨機森林模型(RF)與基于Boosting算法的梯度提升樹模型(GBDT)。Bagging算法的核心思想是從訓(xùn)練集進行Bootstrap抽樣,構(gòu)造子預(yù)測模型,再將所有預(yù)測結(jié)果進行投票平均。Boosting算法的核心思想是將訓(xùn)練過程階梯化,每輪訓(xùn)練使用全部樣本,但改變樣本的權(quán)重。采用損失函數(shù)擬合殘差,每一輪訓(xùn)練的目標(biāo)為擬合上一輪的殘差,到殘差足夠小或達到迭代次數(shù)時停止,其預(yù)測結(jié)果為每一輪子預(yù)報結(jié)果的加權(quán)平均。
本次采用130項逐月遙相關(guān)氣候指數(shù)作為預(yù)報因子數(shù)據(jù)集,丹江口水庫天然入庫徑流量作為預(yù)報對象,對未來1個月、1季度及未來1年的3類徑流量進行滾動預(yù)報(模擬),并設(shè)定率定期徑流序列為1965年~2001年(共37 a),驗證期徑流序列為2002年~2016年(共15 a)。預(yù)報因子篩選過程如下:
(1)假定預(yù)報因子作用的提前量為一年,分別計算相同月徑流序列(如1965年~2001年1月徑流)與前期各月(如1964年~2000年2月)各項預(yù)報因子的相關(guān)系數(shù),得到1 560組相關(guān)系數(shù)。
(2)設(shè)置置信度為0.05,根據(jù)序列長度與相關(guān)系數(shù)顯著性檢驗表,篩選出所有顯著相關(guān)的因子作為初選預(yù)報因子。
(3)對初選預(yù)報因子進行逐步回歸分析,根據(jù)方差貢獻率,進一步篩選出10個獨立性強、相關(guān)性高的因子作為最終預(yù)報因子。丹江口站徑流預(yù)報因子匯總表略。
本次采用Python作為編程平臺,同時包括開源數(shù)據(jù)庫NumPy、Pandas、Scikit-Learn等。RF模型與GBDT模型的參數(shù)通過率定期的擬合效果確定。采用相對誤差絕對值的平均值(MAPE)、相對均方根誤差(RRMSE)、Nash效率系數(shù)(NSE)與合格率(QR)作為評定模擬精度的評價指標(biāo)。其中,RRMSE范圍為0~1,數(shù)值越小表明模擬結(jié)果越好。NSE范圍為-1~1,越接近1表明模擬結(jié)果越好。具體為
(1)
(2)
(3)
(4)
(5)
根據(jù)GB/T 22482—2008《水文情報預(yù)報規(guī)范》:“7.5.3 中長期定性預(yù)報主要根據(jù)要素距平值劃分為枯水(距平<-20%)、偏枯(-20%≤距平<-10%)、正常(-10%≤距平≤10%)、偏豐(10%<距平≤≤20%)、豐水(距平>20%)五級。7.5.4 中長期預(yù)報的精度評定規(guī)定:對于水位(流量)的特征值定量預(yù)報,按多年同期實測變幅的10%、其他要素按多年同期實測變幅的20%、要素極值的出現(xiàn)時間按多年同期變幅的30%作為許可誤差,根據(jù)所發(fā)布的數(shù)值或?qū)崪y變幅的中值進行評定?!?/p>
圖1 RF模型、GBDT模型的模擬結(jié)果(預(yù)報未來一個月)
故,本文QR分為定性與定量兩種評定方式。在定性評定中,若預(yù)報等級與實測等級相同,則計為合格;在定量評定中,分別采用實測變幅的10%與實測變幅的20%作為許可誤差,若預(yù)報值與實測值的差值小于許可誤差,則計為合格。另外,在定性預(yù)報中,增加一種根據(jù)要素距平值劃分為枯水(距平<-20%)、平水(-20%≤距平≤20%)、豐水(距平>20%)三級的評級方法,若預(yù)報等級與實測等級相同,則計為合格。
圖1展示了RF模型和GBDT模型在預(yù)報未來1個月徑流時模擬性能,其中圖1a與圖1b分別為兩個模型在率定期的結(jié)果,圖1c與圖1d分別為兩個模型在驗證期的結(jié)果。不難發(fā)現(xiàn),在率定期GBDT模型明顯優(yōu)于RF模型,其預(yù)測值與實測值擬合更好,兩者的決定系數(shù)R2分別為0.999 5和0.954 1。而在驗證期,RF模型的模擬性能略好于GBDT模型,兩者的決定系數(shù)R2分別為0.863 2和0.852 4。當(dāng)預(yù)報未來1季度徑流時,RF模型和GBDT模型表現(xiàn)出相似的模擬性能(圖略),率定期兩者的決定系數(shù)R2分別為0.954 1和0.999 6,驗證期精度均有所下降,兩者的決定系數(shù)R2分別為0.840 6和0.860 3。當(dāng)預(yù)報預(yù)報1年徑流時(圖略),RF模型和GBDT模型仍然保持了較好的模擬能力,率定期兩者的決定系數(shù)R2分別為0.963 2和0.999 1,驗證期兩者的決定系數(shù)R2分別為0.645 8和0.765 6。
統(tǒng)計上述預(yù)測序列的精度指標(biāo)于表1可得,在率定期,預(yù)報未來1個月、1季度、1年徑流時,MAPE依次減小,RF模型分別為20.6%、15.7%、10.1%,GBDT模型分別為1.5%、1.1%、1.0%;RRMS同樣依次減小,RF模型分別為0.36、0.28、0.13,GBDT模型分別為0.03、0.02、0.02;由于預(yù)報1季度、1年的序列太短,不適合統(tǒng)計NSE指標(biāo),故只用于表征預(yù)報1個月,在率定期,RF、GBDT模型分別為0.94與0.99。在驗證期,預(yù)報未來1個月、1季度、1年徑流時,MAPE亦依次減小,RF模型分別為36.5%、20.4%、14.7%,GBDT模型分別為37.6%、21.5%、13.9%;RRMSE走勢亦相似,RF模型分別為0.55、0.23、0.17,GBDT模型分別為0.61、0.25、0.16;RF與GBDT模型的NSE分別為0.90與0.88。此外,在率定期,GBDT模型模擬精度優(yōu)于RF模型,在驗證期,兩種模型精度相近。
表1 3類精度評定指標(biāo)
表2 4類預(yù)報合格率 %
進一步統(tǒng)計上述預(yù)測序列的合格率于表2可得,無論率定期與驗證期,4類合格率均隨著預(yù)報尺度與徑流量的增加(從預(yù)報1個月到1季度,1年)而提高,且在驗證期,兩種模型精度相近。具體地看,若以多年變幅的10%作為許可誤差,驗證期RF模型在3類徑流序列(1個月、1季度、1年)的合格率分別為56.7%、58.3%、66.7%;GBDT模型則為53.3%、55.0%、80.0%。若以多年變幅的20%作為許可誤差,驗證期RF模型在3類徑流序列的合格率分別為84.4%、90.0%、93.3%;GBDT模型則為82.8%、90.0%、100.0%。對于5級預(yù)報,驗證期RF模型在3類徑流序列的合格率分別為43.3%、58.3%、66.7%;GBDT模型則為46.1%、53.3%、66.7%。對于3級預(yù)報,驗證期RF模型在3類徑流序列的合格率分別為58.3%、68.3%、70.0%;GBDT模型則為58.3%、66.7%、66.7%。
本研究將前期130項遙相關(guān)氣候指數(shù)作為預(yù)報因子,利用分類回歸樹算法(CART)作為子預(yù)報模型,引入集成學(xué)習(xí)算法中Bagging和Boosting的代表模型,隨機森林(RF)與梯度提升樹(GBDT)作為強學(xué)習(xí)預(yù)報模型,實現(xiàn)對丹江口水庫未來1個月,未來1季度以及未來1年3類徑流序列的滾動預(yù)報,并通過相對誤差絕對值的平均值(MAPE)、Nash效率系數(shù)(NSE)、相對均方根誤差(RRMSE)、合格率(QR)等指標(biāo)進行對比分析,得到如下結(jié)論:
(1)若從作業(yè)預(yù)報中最常用的MAPE指標(biāo)來看,驗證期RF模型對于3類徑流序列的模擬結(jié)果分別為36.5%、20.4%、14.7%;GBDT模型分別為37.6%、21.5%、13.9%,均表明兩類模型可用于中長期徑流預(yù)報,且精度尚可,結(jié)果相仿。
(2)隨著預(yù)報對象量級的增加,徑流序列的不穩(wěn)定性與極值序列分布的不均勻性得以降低,預(yù)報的準(zhǔn)確度、可靠度以及穩(wěn)定度得到提高,換句話說,未來1年、1季度、1個月的預(yù)報精度呈單調(diào)下降。