楊承亮
(南昌市水利規(guī)劃設(shè)計(jì)院,江西 南昌 330000)
隨著氣候變化和自然災(zāi)害頻發(fā),對(duì)降雨量準(zhǔn)確空間反演變得愈發(fā)重要[1]。江西作為南方立體農(nóng)業(yè)核心區(qū),其降雨量分布對(duì)水資源管理和災(zāi)害防控具有重要意義。然而,由于該省地形復(fù)雜、降雨量具有明顯的時(shí)空變化特征,傳統(tǒng)的降雨量觀測(cè)手段難以全面準(zhǔn)確地獲取其空間分布信息[2]。為此,許多研究者關(guān)注基于多源數(shù)據(jù)和機(jī)器學(xué)習(xí)算法的降雨量空間反演研究。其中,隨機(jī)森林(RF)作為一種強(qiáng)大的非參數(shù)機(jī)器學(xué)習(xí)方法,已經(jīng)在許多領(lǐng)域展現(xiàn)出了良好的預(yù)測(cè)能力[3-4]。通過(guò)結(jié)合多源數(shù)據(jù),如氣象站點(diǎn)觀測(cè)數(shù)據(jù)、衛(wèi)星遙感數(shù)據(jù)以及地理信息系統(tǒng)數(shù)據(jù),可以獲得更豐富的降雨量信息,提高空間反演的準(zhǔn)確性[5]。因此,本研究以江西省為研究對(duì)象,旨在利用RF 算法和多源數(shù)據(jù),實(shí)現(xiàn)對(duì)省域降雨量空間反演,為區(qū)域水資源管理、氣象災(zāi)害預(yù)警等提供科學(xué)依據(jù)。
如圖1 所示,江西省位于中國(guó)中東部、鄱陽(yáng)湖南側(cè)、武夷山北麓,總面積16.7 萬(wàn)km2。區(qū)域地形自東、南、西向中北部?jī)A斜,海拔介于0~2160 m,形成環(huán)鄱陽(yáng)湖平原、江南丘陵、幕府山地、武夷山系等折疊地貌,境內(nèi)有長(zhǎng)江贛江自南向北通過(guò),具有徑流量大、汛期長(zhǎng)特點(diǎn)。
圖1 江西省地形特征和氣象站點(diǎn)分布
本研究中的降雨量數(shù)據(jù)從氣象科學(xué)數(shù)據(jù)中心(https://data.cma.cn/data)下載,鑒于數(shù)據(jù)可得性,僅獲取了2020 年89 個(gè)氣象站日降雨資料。該數(shù)據(jù)經(jīng)0.1 mm 精度的質(zhì)量控制,具有良好應(yīng)用性。為實(shí)現(xiàn)對(duì)省域降水量進(jìn)行空間反演,選擇地理空間數(shù)據(jù)云(http://www.gscloud.cn)平臺(tái)提供的STRM DEM 數(shù)據(jù)作為輔助,其空間分辨率為90 m,可精確反映局部地形變異;另外還基于DEM 數(shù)據(jù)提取了坡度和坡向信息。為反映降雨量經(jīng)緯度地帶性特征,以獲取的DEM 數(shù)據(jù)為基礎(chǔ),先通過(guò)ArcGIS10.8 平臺(tái)中的rater to point 工具將DEM 柵格轉(zhuǎn)成成空間點(diǎn)數(shù)據(jù),然后利用屬性表中Calculate geometry 工具計(jì)算每一格點(diǎn)的經(jīng)度和緯度,再通過(guò)point to raster 模塊生成區(qū)域柵格式經(jīng)、緯度信息。將全部柵格數(shù)據(jù)利用cubic 方法重采樣成500 m 分辨率,用作空間反演輔助變量集。
隨機(jī)森林RF 是基于Boostrap 抽樣和bagging 理論的一種組合器算法,它由許多決策樹(shù)或回歸樹(shù)組成,每棵樹(shù)依賴于獨(dú)立采樣的隨機(jī)向量的值,并且數(shù)據(jù)中所有樹(shù)的分布相同。在RF 建模中使用boostrap 采樣允許袋外數(shù)據(jù)用于估計(jì)一般誤差,預(yù)測(cè)結(jié)果是所有聚合預(yù)測(cè)的平均輸出[6]。RF 建模需要兩個(gè)用戶定義的參數(shù):用于生長(zhǎng)每棵樹(shù)的變量數(shù)量(mtry)、林中樹(shù)數(shù)量(ntree)。mtry 參數(shù)確定每棵樹(shù)的強(qiáng)度和樹(shù)之間的相關(guān)性,增加mtry 還會(huì)增加每棵樹(shù)的強(qiáng)度和樹(shù)之間的相關(guān)性[7]。RF 模型性能通過(guò)增加樹(shù)木強(qiáng)度和降低樹(shù)木之間的相關(guān)性而得到改善。
RF 機(jī)器學(xué)習(xí)作為數(shù)據(jù)驅(qū)動(dòng)模型對(duì)數(shù)據(jù)結(jié)構(gòu)具有一定敏感性,將89 個(gè)樣本點(diǎn)按照7∶3 的比例隨機(jī)劃分成訓(xùn)練集(62個(gè))和驗(yàn)證集(27 個(gè)),分別執(zhí)行模型訓(xùn)練、獨(dú)立驗(yàn)證。對(duì)于訓(xùn)練集、測(cè)試集,應(yīng)用十折交叉驗(yàn)證方法計(jì)算模型的決定系數(shù)(R2)、均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)來(lái)評(píng)估模型預(yù)測(cè)能力和空間反演精度。
式中:yp、yo為預(yù)測(cè)值與實(shí)際值;、為預(yù)測(cè)與實(shí)測(cè)序列的平均值;r為實(shí)測(cè)值與預(yù)測(cè)值之間皮爾遜相關(guān)系數(shù);V2p、V2o分別為預(yù)測(cè)值、實(shí)際值的方差。
江西省2020 年89 個(gè)標(biāo)準(zhǔn)氣象站點(diǎn)觀測(cè)的降雨量統(tǒng)計(jì)特征見(jiàn)表1。年降雨量最小值出現(xiàn)在彭澤站,僅為1285.61 mm,最大值為資溪站的2340.46 mm,兩者相差1054.86 mm;統(tǒng)計(jì)平均值為1799.53 mm,中值為1834.83 mm,單樣本KS 檢驗(yàn)顯示其呈偏態(tài)分布。全部樣帶數(shù)據(jù)的離差系數(shù)為16.60%,表明全省降水量呈中度異質(zhì)性。
表1 江西省站點(diǎn)降水量統(tǒng)計(jì)特征(n=89) 單位:mm
為深入認(rèn)識(shí)站點(diǎn)降雨資料空間變異特征,使用ArcGIS10.8→Geostatistical analysis →Wizard kriging 工具得到其半方差函數(shù)Semivariance 結(jié)構(gòu)圖,其結(jié)果見(jiàn)圖2。由圖2 可知,區(qū)域降雨量空間分布符合高斯(Gau)模型,塊金值為0.35,偏基臺(tái)值Partial Sill 為2.23,塊基比(Nugget/Sill)為13.56%,具有強(qiáng)烈空間自相關(guān)性(25%<Nugget/Sill<75%),其空間自相關(guān)范圍為600 km。這表明,研究區(qū)不同空間位置上降水量具有一定相關(guān)性,局域降水量存在互相影響。
圖2 江西省站點(diǎn)降水量Semivariance 結(jié)構(gòu)圖
本研究以樣本植被為輸入變量,以站點(diǎn)時(shí)間降雨量為輸出目標(biāo),在Rstudio平臺(tái)中運(yùn)用Caret程序包設(shè)計(jì)RF回歸模型。RF 模型結(jié)構(gòu)受超參數(shù)影響,為確保模型穩(wěn)健性和擬合能力,使用gridsearch 方法進(jìn)行參數(shù)尋優(yōu),其結(jié)果見(jiàn)圖3??梢?jiàn),模型訓(xùn)練精度R2隨著ntree 數(shù)量增加先呈急劇增加后平穩(wěn)趨勢(shì),當(dāng)ntree 大于200 時(shí),R2趨于穩(wěn)定。由于輸入變量較少,因此設(shè)置mtry 參數(shù)尋優(yōu)區(qū)間為2~8,可見(jiàn)當(dāng)其取值為8 時(shí)達(dá)到最大值。據(jù)此,選擇ntree、mtry 的超參數(shù)配對(duì)依次為200、8。
圖3 基于RF 算法降雨量插值模型優(yōu)化過(guò)程
基于以上優(yōu)化過(guò)程此訓(xùn)練RF 模型,并分別利用訓(xùn)練集計(jì)算精度評(píng)價(jià)指標(biāo)R2、MAE 和RMSE,結(jié)果見(jiàn)圖4??梢?jiàn)RF建模精度良好,其R2達(dá)0.78,MAE 和RMSE 分別為91.81 mm、139.81 mm。訓(xùn)練集里真實(shí)值與預(yù)測(cè)值分布于1∶1 線兩側(cè),并具有局部離散特征,表明該模型在訓(xùn)練過(guò)程中較好擬合了降雨量與環(huán)境之間關(guān)系。因此可用以對(duì)未知區(qū)降水量進(jìn)行插值預(yù)測(cè)。
圖4 隨機(jī)森林模型訓(xùn)練精度
將上述訓(xùn)練好的RF 模型代入柵格變量數(shù)據(jù)集,進(jìn)而對(duì)省域降雨量空間分布進(jìn)行預(yù)測(cè),其結(jié)果見(jiàn)圖5。由圖5 可知,降雨量柵格面值域介于1280 mm~2340 mm,柵格平均值為1823 mm,離差系數(shù)為23.54%,這與表1 中站點(diǎn)統(tǒng)計(jì)值一致,表明預(yù)測(cè)的降雨量分布集成了站點(diǎn)降雨特性。降雨量呈現(xiàn)自東北向西、北遞減分布,降水量中心位于贛東鷹潭等地,局部降雨量可達(dá)1900 mm 以上;贛中地區(qū)次之,分布范圍為1600 mm~1900 mm 之間;贛南地區(qū)降水量呈現(xiàn)自西向東增加分布,介于1500 mm~1750 mm ;贛西北地區(qū)的幕阜山地區(qū)最少,僅為1280 mm~1500 mm。這種分布特征主要受季風(fēng)運(yùn)移路徑和地形影響。從局域特征來(lái),該非線性插值結(jié)果并未出現(xiàn)“牛眼”“機(jī)械漸變”等非自然特征,而較好體現(xiàn)了經(jīng)緯度地帶性和地形變異,因而反演的降水量分布更符合區(qū)域?qū)嶋H。
圖5 隨機(jī)森林方法反演的降水量空間分布
為進(jìn)一步評(píng)價(jià)RF 模型反演精度,基于測(cè)試集計(jì)算了精度評(píng)價(jià)參數(shù),并繪制散點(diǎn)圖,其結(jié)果見(jiàn)圖6。可知其獨(dú)立驗(yàn)證的R2達(dá)0.76,MAE 和RMSE 依次為121.11 mm、151.70 mm,相對(duì)于訓(xùn)練精度的R2減小了2.56%,MAE 和RMSE 分別增大了-31.91%、8.50%,表明RF 模型在移植后發(fā)生了一定程度精度下降,但依然在可接受范圍內(nèi)。圖6 顯示,預(yù)測(cè)值與實(shí)際觀測(cè)降雨量之間具有良好線性關(guān)系,因此空間反演結(jié)果在研究區(qū)具有一定替代性,同時(shí)表明RF 模型能挖掘降雨量—環(huán)境因素間顯性、隱式關(guān)系進(jìn)而更穩(wěn)健擬合區(qū)域降雨分布。綜合來(lái)看,使用多源環(huán)境變量與RF 算法反演省域尺度降雨量空間分布過(guò)程中不存在過(guò)擬合而且具有良好適用性。
圖6 區(qū)域降雨量反演獨(dú)立驗(yàn)證精度
本研究通過(guò)聯(lián)合GIS 與RF 機(jī)器學(xué)習(xí)技術(shù),準(zhǔn)確反演了省域尺度500 m 空間分辨率的降雨量分布式信息,結(jié)論如下:RF 模型基于站點(diǎn)降水量與環(huán)境因子之間非線性關(guān)系假設(shè),模擬省域降雨量面分布,該方案克服了氣象站點(diǎn)數(shù)據(jù)密度缺陷且促進(jìn)了氣候過(guò)程模式理解,可作為具有前景的數(shù)據(jù)解析技術(shù),并能夠移植到其他地區(qū)幫助構(gòu)建穩(wěn)健的氣候要素反演模型,繪制更為精細(xì)的氣候面空間圖。然而,模型預(yù)測(cè)能力依賴于環(huán)境變量,本研究?jī)H考慮了地形和經(jīng)緯度因子,后續(xù)研究應(yīng)納入大氣含水量、氣溫、地表溫度等信息,進(jìn)而改進(jìn)模型性能;此外還應(yīng)定量分析各環(huán)境因子重要性,深刻解釋環(huán)境因子對(duì)降雨量空間異化的影響。