文高峰
(臨汾市水利發(fā)展中心,山西 臨汾 041000)
隨著衛(wèi)星遙感技術(shù)不斷發(fā)展,衛(wèi)星降水產(chǎn)品已成為地表水文過程、水資源管理、氣候變化等領(lǐng)域中新型數(shù)據(jù)源[1-3]。然而其自身較低空間分辨率缺陷,限制了在一些細(xì)致研究中的應(yīng)用。因此,如何將衛(wèi)星降水產(chǎn)品降尺度成高分辨率的數(shù)據(jù),成為水文氣象遙感研究熱點之一[4]。在降尺度方法中,Cubist算法是一種基于決策樹的機器學(xué)習(xí)算法,具有較高準(zhǔn)確性和可解釋性。本文以Cubist算法為基礎(chǔ),對臨汾市GPM衛(wèi)星降水?dāng)?shù)據(jù)進行降尺度研究,旨在提高衛(wèi)星降水?dāng)?shù)據(jù)的空間分辨率,為地表水文過程、水資源管理、氣候變化等領(lǐng)域的研究提供更為細(xì)致和準(zhǔn)確的數(shù)據(jù)支持。
臨汾地處山西省西南、黃河?xùn)|岸,地理坐標(biāo)為35°23′~36°57′N,110°22′~112°34′E,總面積20275km2。地形輪廓大體呈“凹”字型周環(huán)山,自西向東依次為黃河谷地、呂梁市、汾河谷地、太岳中條山系,以丘陵、山地為主,海拔介于378~2460m,如圖1所示。臨汾地處半干旱、半濕潤季風(fēng)氣候區(qū),屬溫帶大陸性氣候,年平均氣溫11.3℃,降水量480mm,無霜期240d,日照時數(shù)1748.4~2512.6h。該地河流具有季節(jié)性特征,徑流量多集中6—9月,水資源總量為15.2億m3,人均水資源十分貧乏。
圖1 臨汾市地形和氣象站點位置
文中降尺度目標(biāo)數(shù)據(jù)為新一代全球降水觀測(Global Precipitation Measurement)衛(wèi)星降水產(chǎn)品[4-6]。其通過雷達(dá)觀測、紅外掃描、模式糾偏處理生成覆蓋全球的降水量產(chǎn)品,成像周期為0.5h,空間分辨率為0.1°×0.1°。本研究通過GPM數(shù)據(jù)網(wǎng)站(https://pmm.nasa.gov/data-access)獲取該地2019年降水量產(chǎn)品。
依賴因子是GPM精細(xì)化降尺度的關(guān)鍵,基于前任研究經(jīng)驗,獲取了研究區(qū)高程、坡度、坡向等地形因子,NDVI等光譜指數(shù),地理經(jīng)度、緯度、經(jīng)緯度乘積等海陸位置因子;其中地形數(shù)據(jù)源為STRM DEM產(chǎn)品,獲取途徑為http://www.gscloud.cn/sources/;NDVI來自MODIS衛(wèi)星的MOD13A3產(chǎn)品;地形因子為柵格像素中心位置。
為實現(xiàn)星地降水?dāng)?shù)據(jù)高精度融合,對GPM數(shù)據(jù)降尺度的目標(biāo)參考設(shè)置確定為同期地面站點觀測降水量資料,鑒于數(shù)據(jù)可得性僅獲取了11個無缺測的站點,其來源于從中國氣象科學(xué)數(shù)據(jù)中心(http://data.cma.cn)。
Cubist算法是Quinlan基于回歸樹開發(fā)的一種多變量回歸模型,模型中每一變量的創(chuàng)建遵循“if-else-then”規(guī)則對目標(biāo)進行分段預(yù)測。其主要優(yōu)點是通過多個線性模型,以便加權(quán)平衡處理,從而產(chǎn)生更穩(wěn)健預(yù)測。Cubist模型通過增加線性模型數(shù)量、調(diào)解分段函數(shù)之間距離提升預(yù)測精度[7-8]。對于由2個線性模型構(gòu)成的Cubist模型可描述為:
ζpar=(1-a)×ζ(p)+a×ζ(c)
(1)
式中,ζ(c)—當(dāng)前線性模型的預(yù)測;ζ(p)—位于回歸樹父模型的預(yù)測。由于Cubist提出了給定預(yù)測變量的簡潔線性建模規(guī)則,因此具有運行效率高、收斂快的特點。本文中Cubist模型構(gòu)建通過R軟件包Cubist程序完成,為確保建模精確度,需對超參數(shù)鄰近距離(Instances)和回歸樹數(shù)量(Committees)進行優(yōu)化[7-8]。
Step1:在ArcGIS平臺中采用resample工具將不同源的降尺度依賴因子與原GPM數(shù)據(jù)重采樣至10km,并且設(shè)定統(tǒng)一的UTM-1984橫軸墨卡托投影。
Step2:提取預(yù)處理后每一柵格數(shù)據(jù)中心點像素值來生成樣本值,以降尺度因子值為解釋變量,GPM降水量值為目標(biāo)變量,運用Cubist回歸構(gòu)建降尺度模型,同時結(jié)合GridSearch方法實施模型優(yōu)化。
Step3:確定100m為降尺度目標(biāo),根據(jù)步驟1,將相關(guān)數(shù)據(jù)重采樣至100m空間分辨率,并輸出tif格式。
Step4:利用優(yōu)化后的Cubis模型代入100m的tif柵格因子集進而實施空間降尺度,得出初步降尺度結(jié)果。
Step5:以氣象站點數(shù)據(jù)為真值,估算初步降尺度結(jié)果后的誤差,并利用Kriging插值法生成100m分辨率的殘差分布。
Step6:將步驟4得到的初步預(yù)測與步驟5提取的殘差家和,得到研究區(qū)GPM降水量降尺度空間分布。
Step7:利用地面觀測站點對降尺度后的產(chǎn)品精度進行驗證。以站點實測降水量為目標(biāo)參考,以降尺度值為評價對象,在站點尺度上計算二者之間的決定系數(shù)R2、平均絕對誤差MAE和平均相對誤差RMSE,具體公式如下:
(2)
(3)
(4)
如圖2所示,臨汾市GPM年降水量共存在209個像素,降水量信息介于457~587mm之間。盡管該數(shù)據(jù)初步揭示了該地降水量呈現(xiàn)自南向北減少分布,但其在存在空間模糊化的缺陷和機械性漸變,因此在刻畫實際降水量分布特征方面存在一定不足。為驗證原GPM數(shù)據(jù)在本地降水量方面棵替代性,利用站點數(shù)據(jù)計算了二者之間偏差,得到R2為0.49,MAE和RMSE依次為46.84、65.23mm,說明該GPM與地面實際降水量之間存在一定誤差,但具有系統(tǒng)性偏差趨勢。
圖2 研究區(qū)原GPM降水量分布
將全部環(huán)境因子作為自變量,站點降水量為因變量,先通過自適應(yīng)方法進行Cubist算法初步擬合,然后設(shè)置Cubist模型的超參數(shù)優(yōu)化區(qū)間和優(yōu)化步長,其過程如圖3所示。可知,Cubist模型訓(xùn)練過程的交叉驗證精度參數(shù)RMSE隨著Instances、Committees變化呈一定波段特征,并且2個超參數(shù)配對共同影響模型性能。當(dāng)Instances取值為7、Committees取值為4時,模型擬合能力達(dá)到最佳,此時RMSE僅為10.17mm,因此其為該模型最優(yōu)超參數(shù)配對。此外,該較低的RMSE數(shù)值表明Cubist模型訓(xùn)練精度良好,可準(zhǔn)確擬合降水量與環(huán)境因子間非線性關(guān)系,因此本研究將其應(yīng)用于臨汾市GPM降水量空間降尺度預(yù)測中[9]。
圖3 Cubist模型超參數(shù)優(yōu)化過程
依據(jù)降尺度流程,生成了臨汾市GPM降水?dāng)?shù)據(jù)降尺度結(jié)果。如圖4所示,降尺度后的降水量數(shù)值統(tǒng)計范圍介于385~707mm,空間平均值為536mm,標(biāo)準(zhǔn)差為55mm,離差系數(shù)為9.75%,這與原GPM(圖2)相比差異不大,說明降尺度的結(jié)果保持了原GPM數(shù)值屬性,但因其加入了地面降水資料糾偏過程,因而略有變化。此外,該結(jié)果比與原GPM數(shù)據(jù)具有更精細(xì)表現(xiàn)力,具體在刻畫降水量漸變過程及其地帶性分異方面具有自然平滑特征,說明該降尺度后降水量分布符合區(qū)域?qū)嶋H。盡管Cubist算法在擬合降水—環(huán)境關(guān)系過程通過若干基于線性準(zhǔn)則的樹模型實現(xiàn),但其迭代加權(quán)全部子樹的預(yù)測并增益有價值的子樹信息,最終實現(xiàn)非線性預(yù)測,因此確保了降尺度結(jié)果合理性。
圖4 臨汾市GPM降尺度降水量空間分布
利用公式(2)—(4),計算了站點觀測降水量與GPM數(shù)據(jù)降尺度后數(shù)值之間誤差(如圖5所示)??梢?,降尺度后GPM像素值與地面降水量之間具有高度一致性,其R2達(dá)0.60(P<0.01),其MAE和RMSE分別為17.46、20.29mm,說明其絕對數(shù)值誤差較小。與杜懿[3]、謝祥洲等[1]研究結(jié)果對比來看(其R2介于0.54~0.85),本研究在半干旱的臨汾地區(qū)中降尺度精度在可接受范圍內(nèi)。另需強調(diào)的是,GPM降尺度效果不僅受模型回歸算法影響,還與區(qū)域氣候特征有關(guān),這是由于GPM衛(wèi)星傳感器對微量降雨捕捉能力較強降雨的探測靈敏度低,因此在降水豐度低的地區(qū)降尺度效果一般[1,6]。進一步分析發(fā)現(xiàn),與原GPM數(shù)值精度相比,降尺度后的降水量產(chǎn)品精度的R2提升了22.45%,MAE和RMSE分別減小了64.10%、68.89%,表明該降尺度過程有效性。
經(jīng)過對臨汾市GPM衛(wèi)星降水?dāng)?shù)據(jù)降尺度研究得出主要結(jié)論如下:
(1)臨汾市的降水量存在明顯的空間不均衡性,降水豐值集中于南西片區(qū),北東片區(qū)相對較少。
(2)Cubist算法在降尺度預(yù)測臨汾市GPM降水量方面,在訓(xùn)練集和測試集上均表現(xiàn)出較小擬合誤差,說明該算法能夠有效地捕捉數(shù)據(jù)規(guī)律和趨勢,可為未來的降水預(yù)測和水資源管理提供可靠數(shù)據(jù)驅(qū)動支持。
(3)通過對比不同參數(shù)組合下的預(yù)測誤差,發(fā)現(xiàn)Cubist算法的準(zhǔn)確性受到參數(shù)設(shè)置影響較大,因此在實際應(yīng)用中,需要根據(jù)具體情況進行參數(shù)調(diào)整,以提高降尺度預(yù)測的準(zhǔn)確性。考慮到降水分布還與氣候系統(tǒng)密切關(guān)系,未來可增加季風(fēng)強度及其運移路徑作為降尺度依賴性因子,并探討其可用性。