趙 華
(昌吉水文勘測(cè)局,新疆 昌吉 831100 )
降水量空間分布研究是氣象科學(xué)領(lǐng)域熱點(diǎn)之一[1]。目前降水量模擬主要使用數(shù)值模式,但由于氣象觀測(cè)站點(diǎn)限制,其在降水量時(shí)空分布方面模擬精度較低[2-3]。為了克服這一限制,學(xué)者們使用衛(wèi)星遙感技術(shù)來獲取高時(shí)空間分辨率的降水量數(shù)據(jù),并證實(shí)了能夠更準(zhǔn)確了解降水量分布式信息[4-5]。然而,由于衛(wèi)星數(shù)據(jù)分辨率通常比觀測(cè)站粗糙得多,因此需要使用降尺度方法來將衛(wèi)星數(shù)據(jù)轉(zhuǎn)換為精細(xì)柵格面數(shù)據(jù)。目前主要的降尺度方法包括統(tǒng)計(jì)降尺度方法、動(dòng)態(tài)降尺度方法[6-7]。動(dòng)態(tài)降尺度方法通過分析大氣-陸地系統(tǒng)之間的交互作用來降尺度,而具有較大研究成本。以隨機(jī)森林回歸算法為代表的機(jī)器學(xué)習(xí)方法不僅能預(yù)測(cè)降水量空間分布,同時(shí)也能夠有效地降尺度衛(wèi)星數(shù)據(jù)。
昌吉州位于亞洲大陸核心、我國新疆北部,總面積面積為11.2 萬km2。區(qū)域東部為準(zhǔn)格爾盆地區(qū),西南側(cè)為天山山麓,總體地勢(shì)呈現(xiàn)自西向東、自南向北傾向,海拔介于227 m~5323 m 之間,形成高寒山地、隔壁、盆地綠洲等地貌。該地區(qū)屬于溫帶大陸性干旱區(qū),具有干旱少雨、酷暑寒冬、晝夜溫差大等特點(diǎn);年平均氣溫在6℃~12℃之間, 年降水量100 mm~300 mm,積溫約2500℃,日照時(shí)數(shù)為2660 h,干旱日數(shù)約250 d,太陽輻射量120 kcal/cm2以上。該地水資源主要來自于天山融雪和地表徑流,年徑流量為33.7 億m3。
從氣象科學(xué)數(shù)據(jù)中心(http://data.cma.cn/)共收集到研究區(qū)16 個(gè)站點(diǎn)資料,時(shí)間為2020 年。該氣象站點(diǎn)通過降雨量自記錄儀記錄雨滴時(shí)的微弱電信號(hào)進(jìn)行降水測(cè)量。人工觀測(cè)則在定點(diǎn)場(chǎng)地安裝雨量計(jì),由專業(yè)人員采集記錄雨水的信息,并采用自動(dòng)算法、人工復(fù)核等方法,對(duì)于存在異?;蚱畹臄?shù)據(jù)進(jìn)行修正或刪除,因而數(shù)據(jù)可信度高。
研究區(qū)GPM 衛(wèi)星降水?dāng)?shù)據(jù)則通過官方網(wǎng)站獲?。╤ttps://gpm.nasa.gov/data/directory)。該數(shù)據(jù)產(chǎn)品為IMERG,時(shí)間分辨率為/月,空間分辨率為0.1°(約10km),利用累加法將逐月GPM 數(shù)據(jù)合成2020 年產(chǎn)品,進(jìn)而與該地地貌雨量站資料匹配。
隨機(jī)森林回歸(Random forest regression)是一種基于決策樹(CART)的集成學(xué)習(xí)方法,它通過將多個(gè)決策樹的預(yù)測(cè)結(jié)果進(jìn)行平均或加權(quán)平均來得到最終的預(yù)測(cè)結(jié)果。集成學(xué)習(xí)方法可以降低單一模型的泛化誤差,提升模型的穩(wěn)定性和準(zhǔn)確度。以海拔、經(jīng)度、緯度和經(jīng)緯度等環(huán)境屬性作為隨機(jī)森林回歸模型的輸入特征,以基于氣象站點(diǎn)降水量數(shù)據(jù)為目標(biāo)變量,構(gòu)造的訓(xùn)練集為:T={(x1,y1), (x2,y2), …,(xn,yn)},其中xi∈X,n=16 為輸入樣本數(shù)量,yi∈Y,為地面降水量值,進(jìn)而擬合降水—環(huán)境之間復(fù)雜非線性關(guān)系下:
式中:B={1,2…,B},表示CART 數(shù)據(jù);b表示boostrap樣本數(shù);tb*為單一CART,K是第k個(gè)訓(xùn)練樣本,包含目標(biāo)變量(y)和協(xié)變量(x)的成對(duì)值[8]。
本研究使用ArcGIS 軟件對(duì)文中空間數(shù)據(jù)進(jìn)行預(yù)處理,降尺度模型構(gòu)建與參數(shù)優(yōu)化則在Rstudio 軟件中實(shí)行。利用隨機(jī)森林回歸算法預(yù)測(cè)得到的降水量柵格點(diǎn)值y'為參考值,以地面觀測(cè)站降水量y 為真值,計(jì)算決定系數(shù)(R2)、平均絕對(duì)誤差(MAE)和均方根誤差(RMSE),對(duì)昌吉地區(qū)降水量GPM 降尺度精度進(jìn)行量化評(píng)估。
研究區(qū)原GPM 年降水量柵格面見圖1,其共存在2498 個(gè)像素,可知其原GPM 像素值介于降水量介于78 mm~508 mm之間,其空間平均值為178 mm,離差系數(shù)達(dá)56%,呈現(xiàn)自動(dòng)向西減少的分布特征。需指出的是,該粗糙的柵格像素存在明顯機(jī)械性特征,無法精細(xì)表達(dá)降水量空間細(xì)節(jié)變化。
圖1 昌吉地區(qū)原GPM 降水量空間分布
利用半方差函數(shù)(GS+9.0 軟件)檢測(cè)原GPM 降水?dāng)?shù)據(jù)(圖3)柵格像素點(diǎn)之間空間自相關(guān)性。由圖2 可知,隨著空間距離增加,半方差值先從0 值迅速升高,當(dāng)空間距離達(dá)到300 km 距離時(shí),半方差值趨于穩(wěn)定。統(tǒng)計(jì)的其塊基比為6.29%,說明存在顯著空間自相關(guān),其自相關(guān)距離約為30 km,降水量在此范圍內(nèi)呈現(xiàn)互相影響,而超出該范圍則相關(guān)性消失。上述研究表明,利用RF算法對(duì)區(qū)域降水量進(jìn)行空間擬合具有可行性。
圖2 研究區(qū)降水量半方差函數(shù)特征
圖3 昌吉地區(qū)原GPM 降水量與地面觀測(cè)值之間一致性
為客觀評(píng)估研究區(qū)GPM 降水量數(shù)據(jù)可替代性,利用研究區(qū)16 個(gè)氣象站點(diǎn)空間數(shù)據(jù)提取了對(duì)應(yīng)位置上GPM 像素,并比較二者之間差值。如圖3 所示,衛(wèi)星記錄降水量值與地面觀測(cè)值之間具有較好一致性,散點(diǎn)聚集于1∶1 兩側(cè),僅有少部分離散點(diǎn);統(tǒng)計(jì)得到二者間的R2達(dá)0.45,MAE 和RMSE分別為48.89 mm、61.47 mm。由此可知,昌吉地區(qū)2020 年GPM 衛(wèi)星數(shù)據(jù)在該地區(qū)具有一定可替代性。
為確保降尺度模型穩(wěn)健性,利用全部16 個(gè)氣象站點(diǎn)降水量資料進(jìn)行充分訓(xùn)練,以地面雨量站觀測(cè)降水量為目標(biāo)特征,以DEM、地理經(jīng)度、緯度和經(jīng)緯度乘積為協(xié)變量,進(jìn)而訓(xùn)練隨機(jī)森林回歸模型。利用網(wǎng)格搜索算法對(duì)該關(guān)鍵參數(shù)優(yōu)化,其中對(duì)Importance Coefficient 設(shè)定搜索范圍為0~1,步長為0.1;mtry 取 值 0~1 之 間 整 數(shù);Regularization value 為0~1 之 間,步長為0.1。由模型參數(shù)優(yōu)化過程可見當(dāng)mtry、Importance Coefficient 和Regularization value 參數(shù)組合配置依次為10、0、0.2 時(shí),此時(shí)模型訓(xùn)練精度RMSE 達(dá)到最小,僅為14.23 mm。
利用訓(xùn)練好的隨機(jī)森林回歸模型進(jìn)行降尺度處理得到昌吉州1 km 分辨率水平的降水量空間信息(圖4)??梢?降水量值域范圍為77 mm~512 mm,其空間平均值為190 mm,這些統(tǒng)計(jì)特征與原GPM 數(shù)據(jù)(圖1)相接近。西部南部天山北坡地區(qū)降水量較高,可達(dá)300 mm 以上,而東部、東北部平原地區(qū)較少,僅為200 mm 一下,該分布特征主要受到地形抬升影響。然而,與原始GPM 資料相比,降尺度后的GPM 數(shù)據(jù)不僅繼承了其數(shù)值水平和空間分異規(guī)律,還突出了在刻畫降水量分布細(xì)節(jié)信息方面的優(yōu)勢(shì),更符合研究區(qū)實(shí)際。
圖4 昌吉地區(qū)GPM 數(shù)據(jù)降尺度降水量分布
在獲取研究區(qū)GPM 數(shù)據(jù)降尺度后柵格面基礎(chǔ)上,利用ArcGIS 工具extract 功能提取昌吉州全部氣象站點(diǎn)位置上對(duì)應(yīng)的降尺度后降水量數(shù)值信息,在此基礎(chǔ)以地面觀測(cè)降水量值為參考,計(jì)算二者之間差值。圖5 中顯示,地面降水量與降尺度后GPM 值之間擬合度較好,二者間的R2達(dá)0.703,MAE、RMSE 分別為37.31 mm、42.34 mm,且離散點(diǎn)相對(duì)較少。相比于原始GPM 數(shù)據(jù),降尺度的GPM 降水量與地面觀測(cè)值之間的R2提升了62%,而MAE 和RMSE 依次降低了24%、31%。該結(jié)果表明,研究區(qū)粗糙集GPM 數(shù)據(jù)經(jīng)隨機(jī)森林降尺度處理,提升了數(shù)值準(zhǔn)確性。
圖5 降尺度后GPM 降水量與地面觀測(cè)值之間一致性
為進(jìn)一步了解隨機(jī)森林降尺度后GPM 數(shù)據(jù)具體誤差分布,先利用站點(diǎn)數(shù)據(jù)統(tǒng)計(jì)了點(diǎn)基尺度相對(duì)誤差,再利用Voroni 圖進(jìn)行可視化,具體分析過程為:ArcGIS Geostatistical Analysis →Explore data Voronoi map。如圖6 所示,降尺度后GPM 數(shù)據(jù)誤差存在區(qū)域性差異,其中對(duì)中北部地區(qū)降水量存在高估,相對(duì)誤差約為0~60 mm,對(duì)南部山地存在低估,誤差約為-78 mm~0 mm。
圖6 昌吉地區(qū)GPM 降水量空間殘差分布
本研究基于隨機(jī)森林回歸降尺度算法對(duì)粗糙集的原GPM衛(wèi)星降水?dāng)?shù)據(jù)進(jìn)行尺度變換處理,對(duì)昌吉州降水量空間分布進(jìn)行研究。結(jié)果表明,隨機(jī)森林回歸模型通過擬合地面觀測(cè)降水量與地形、經(jīng)緯度之間非線性關(guān)系,較好模擬了昌吉地區(qū)降水量空間細(xì)節(jié)分布,并展示了空間平滑性和可靠性;經(jīng)降尺度處理后的GPM 數(shù)據(jù)精度取得較大提升,生成的降水量空間柵格圖顯示,區(qū)域降水量呈現(xiàn)自東向西、自南向北減少分布規(guī)律;區(qū)域GPM 數(shù)據(jù)降尺度后誤差呈現(xiàn)由南向北增加分布,南部山區(qū)存在低估,北方盆地存在高估。未來研究仍需進(jìn)一步拓展其他機(jī)器學(xué)習(xí)或深度學(xué)習(xí)算法在降尺度過程中的應(yīng)用性,并比較不同非線性回歸技術(shù)對(duì)GPM 數(shù)據(jù)降尺度的差異性。