顏佳楠,陳 虹,姚光林,吳 驊
(1.中國科學(xué)院地理科學(xué)與資源研究所 資源與環(huán)境信息系統(tǒng)國家重點實驗室,北京 100101;2.中國自然資源航空物探遙感中心,北京 100083;3.山東省第八地質(zhì)礦產(chǎn)勘查院,山東 日照 276826)
地表溫度(Land Surface Temperature,LST)是環(huán)境監(jiān)測中的重要參數(shù),可用于探測城市熱島效應(yīng)[1],監(jiān)測森林火災(zāi)[2]和土地覆蓋變化[3],評估地表干旱程度[4]及管理水資源[5]。通過遙感衛(wèi)星可以獲取到大范圍的LST,但是現(xiàn)有的衛(wèi)星、遙感器受制于設(shè)備,無法獲取兼顧時間分辨率高和空間分辨率高的LST。例如中分辨率成像光譜儀(Moderate Resolution Imaging Spectroradiometer,MODIS)一天內(nèi)可以獲取4次1 000 m分辨率的LST,而Landsat8衛(wèi)星每16天獲取一次100 m分辨率的LST。LST遙感產(chǎn)品時空分辨率相互制約的局限性影響LST的應(yīng)用。因此,許多學(xué)者嘗試針對MODIS數(shù)據(jù),發(fā)展LST空間降尺度的方法,以期獲得時空分辨率較高的LST遙感產(chǎn)品。
目前LST空間降尺度方法主要有2種:一種是基于融合的方法;另一種是基于回歸的方法?;谌诤系姆椒ㄍㄟ^融合高時間分辨率和高空間分辨率的影像,預(yù)測高分辨率LST[6]。典型基于回歸的方法是Kustas等提出的DisTrad算法,其針對的是植被覆蓋區(qū)域,以NDVI為回歸核,獲取回歸核與低分辨率溫度之間的回歸關(guān)系,并將此函數(shù)關(guān)系應(yīng)用于高分辨率回歸核與高分辨率LST[7]。Agam等人[8]基于TsHARP算法,將二次多項式回歸改為一次多項式回歸,把回歸核換作植被覆蓋度(FC),精度有所提高。然而,LST-FC(NDVI)的回歸關(guān)系在異質(zhì)性地區(qū)表現(xiàn)較差[9]。針對這個問題,Essa等人[10]將回歸核改為SAVI,NDBI,NDBal,NDMI等15個光譜指標(biāo),將此方法推廣到異質(zhì)性區(qū)域。Duan等人[11]以NDVI和DEM為回歸核,利用地理加權(quán)回歸進(jìn)行LST降尺度。
為了提高模型的精度和適用范圍,有學(xué)者利用機(jī)器學(xué)習(xí)的方法獲取回歸核以及LST之間的關(guān)系,例如Gao[12]建立回歸樹獲取LST與短波光譜反射率之間的關(guān)系。Hutengs[13]提出了Basic-RF算法,用隨機(jī)森林的方法,獲取LST與數(shù)字高程數(shù)據(jù)、土地覆蓋類型、紅波段和近紅外波段的反射率之間的關(guān)系。Li[14]基于BasicRF提出了RRF算法,相比BasicRF,增加了回歸核種類,并對模型進(jìn)行魯棒性驗證,在多個不同的研究區(qū)獲得了較高的精度。
考慮目前LST空間降尺度最優(yōu)回歸核的組合形式以及其泛化能力尚不明確,本文嘗試選取波段反射率、遙感光譜指數(shù)、地形因子、地表覆蓋類型、經(jīng)緯度以及大氣再分析數(shù)據(jù)6類回歸核,構(gòu)建基于極端梯度提升樹(Extreme Gradrent Boost,XGBoost)算法的LST空間降尺度模型,同時開展對應(yīng)的平行試驗,通過對比分析6類回歸核LST空間降尺度的精度,評估構(gòu)建模型的泛化能力。
基于XGBoost算法的LST空間降尺度總體技術(shù)流程如圖1所示。
圖1 總體技術(shù)流程Fig.1 Flowchart of downscaling procedure
LST降尺度包括5個步驟:① 數(shù)據(jù)預(yù)處理。對圖像進(jìn)行質(zhì)量檢測、重投影、裁剪、重采樣以及空間聚合,獲取低分辨率(1 km)的回歸核數(shù)據(jù)和LST數(shù)據(jù)以及高分辨率(100 m)的回歸核數(shù)據(jù)和LST數(shù)據(jù)。② 溫度校正。由于待降尺度的MODIS的1 km分辨率LST產(chǎn)品是通過劈窗算法獲取的,而選作參考基準(zhǔn)的Landsat-8衛(wèi)星的100 m分辨率LST由單通道算法產(chǎn)生,搭載2個傳感器的衛(wèi)星過境時間存在差異,為了更好地驗證LST空間降尺度的結(jié)果,本文將以Landsat-8衛(wèi)星獲取的LST作為基準(zhǔn),對MODIS獲取的LST進(jìn)行校正。③ XGBoost模型訓(xùn)練。利用XGBoost獲取低分辨率回歸核與LST之間的回歸關(guān)系。④ 模型預(yù)測。用在低空間分辨率上訓(xùn)練好的模型來預(yù)測高空間分辨率LST,加上低分辨率的殘差,得到溫度降尺度的結(jié)果。⑤ 降尺度結(jié)果的驗證。
XGBoost是由Chen[15]提出的一種提升樹(Tree Boosting)算法,該算法能夠應(yīng)用于多種場景,在機(jī)器學(xué)習(xí)大賽和數(shù)據(jù)挖掘比賽中,多次被優(yōu)勝隊伍選用[15]。Chen[15]提到XGBoost在梯度提升樹(Gradient Tree Boosting)的基礎(chǔ)上,進(jìn)一步對模型做了優(yōu)化。例如,在稀疏數(shù)據(jù)的處理上速度更快,并行和分布式計算等。這些優(yōu)化使XGBoost能夠用最小的資源處理大量的數(shù)據(jù)。
在數(shù)據(jù)集D={(xi,yi)|i=1,2,…,n}(xi∈m,yi∈)中選取一個樣本(xi,yi),用K個可加性函數(shù)對樣本進(jìn)行預(yù)測,結(jié)果如下:
(1)
XGBoost的目標(biāo)函數(shù)由損失函數(shù)和正則化項組成,這2項分別表示模型的擬合效果和模型的復(fù)雜度。目標(biāo)函數(shù)如下:
(2)
對損失函數(shù)進(jìn)行二階泰勒展開,有:
基于回歸的LST降尺度方法的基本假設(shè)是在不同尺度下,LST回歸核的回歸關(guān)系不變[8],其關(guān)系式[16]為:
(3)
(4)
(5)
本文通過分析比較前人研究,共篩選出6類不同的回歸核,具體情況如表1所示。地表反射率表征地表反射的太陽短波輻射能量大小,與地面狀態(tài)、太陽高度角相關(guān)。光譜指數(shù)、地表類型數(shù)據(jù)提供地表狀態(tài)信息,包括植被覆蓋度、干旱狀態(tài)及建筑信息等,提高模型在異質(zhì)性區(qū)域的適用性。地形數(shù)據(jù)反映不同地形地貌對輻射的影響,提高模型在地形起伏區(qū)域的適用性。大氣再分析數(shù)據(jù)反映大氣生物物理量,淺層土壤含水量受淺層土壤溫度的影響,且淺層土壤溫度、近地表氣溫與地表溫度有相關(guān)性??諝饬鲃拥乃俾逝c植物蒸騰作用相關(guān),間接對地表溫度產(chǎn)生影響。經(jīng)緯度提供空間變化信息。
表1 回歸核的信息
為了比較不同回歸核情況下LST降尺度精度的差異,對6類回歸核進(jìn)行不同組合,共得到12組,具體分組情況如表2所示。
表2 分組情況
依照地理位置分布范圍廣、地表類型多樣以及Landsat8圖像晴空無云且質(zhì)量較高3個標(biāo)準(zhǔn),以2019年為待選年份,在中國范圍內(nèi)選出了7景滿足條件的Landsat8數(shù)據(jù),并將其作為降尺度的研究區(qū)(83°45′E~116°17′E,33°N~44°30′N),研究區(qū)的時空信息如表3所示。
表3 研究區(qū)時空信息
本研究所用的Landsat8 C2L2數(shù)據(jù)來源于美國地質(zhì)調(diào)查局網(wǎng)站(https:∥earthexplorer.usgs.gov/)。Landsat8數(shù)據(jù)集包含30 m分辨率的可見光波段、近紅外波段以及100 m分辨率的熱紅外波段。分別對原始Landsat8可見光-近紅外反射率產(chǎn)品以及熱紅外LST產(chǎn)品進(jìn)行裁剪、重采樣(雙線性插值法)、空間平均聚合,得到100 m分辨率和1 km分辨率的LST以及相應(yīng)的降尺度回歸核。
低分辨率的LST選擇分辨率為1 km的MOD11A1數(shù)據(jù)[17](https:∥lpdaac.usgs.gov/products/mod11a1v006/)。對MOD11A1數(shù)據(jù)進(jìn)行重投影、裁剪,并利用質(zhì)量文件刪除質(zhì)量較差以及有云的點。
數(shù)字高程數(shù)據(jù)來源于航天飛機(jī)雷達(dá)地形測繪使命(Shuttle Radar Topography Mission,SRTM)[18](https:∥srtm.csi.cgiar.org/srtmdata/),分辨率為90 m,經(jīng)過重投影、重采樣(雙線性插值法)、裁剪及空間平均聚合后,作為100 m分辨率和1 km分辨率的回歸核。
地表覆蓋類型數(shù)據(jù)來源于GlobeLand30數(shù)據(jù)集[19](https:∥www.webmap.cn/commres.do?method=globeIndex),分辨率為30 m。同樣對其進(jìn)行重投影、重采樣(雙線性插值法)、裁剪、空間平均聚合的數(shù)據(jù)預(yù)處理工作,得到100 m分辨率和1 km分辨率的數(shù)據(jù)。
大氣再分析數(shù)據(jù)取自歐洲中期天氣預(yù)報中心(ECMWF)全球氣候大氣再分析資料的第五代產(chǎn)品——ERA5[20](https:∥cds.climate.copernicus.eu/),其空間分辨率為0.25°。從中選取淺層土壤溫度、淺層土壤體積含水量、離地2 m附近大氣溫度、離地10 m附近徑向風(fēng)速、離地10 m附近橫向風(fēng)速,5個數(shù)據(jù)作為代表。首先獲取與衛(wèi)星成像時間最近2個時刻的大氣再分析數(shù)據(jù),對大氣再分析數(shù)據(jù)進(jìn)行重投影、裁剪以及雙線性插值處理,得到100 m分辨率和1 km分辨率的數(shù)據(jù);再對相鄰2個時刻的數(shù)據(jù)進(jìn)行線性插值,得到與衛(wèi)星成像時間相同的大氣再分析數(shù)據(jù)。
此外,由于Landsat8獲取的LST與MOD11A1獲取的LST之間存在算法和觀測時間之間的差異,對MOD11A1的溫度產(chǎn)品進(jìn)行了溫度校正。主要操作是先對Landsat8獲取的LST進(jìn)行空間平均聚合操作,得到1 km分辨率的LST(Landsat8),再以MOD11A1-LST為自變量,Landsat8-LST(1 km)為因變量做回歸,對原始待降尺度的MOD11A1-LST進(jìn)行了溫度的校正。7個研究區(qū)溫度校正過程的散點圖如圖2所示(圖2(a)~圖2(g)分別是7個研究區(qū)的校正結(jié)果),LST校正的均方根誤差(RMSE)在0.6~1 K,表明溫度校正后的結(jié)果可用于LST降尺度結(jié)果的檢驗。
圖2 MOD11A1溫度校正的散點圖
表4 12組平行試驗LST降尺度算法性能統(tǒng)計表
為了更好地展示各研究區(qū)降尺度的性能,本文挑選了表征降尺度精度的RMSE以及表征VIF作為評價指標(biāo),統(tǒng)計結(jié)果如表5所示,其中研究區(qū)1~7用A~G標(biāo)識,分組用G1~G12表示,RstdV和VstdV分別表示7個研究區(qū)RMSE和VIF統(tǒng)計指標(biāo)的標(biāo)準(zhǔn)差。
表5 各研究區(qū)的均方根誤差和視覺信息保真度
由表4和表5可以看出,group1(回歸核為地表反射率)的RMSE結(jié)果較差,表現(xiàn)為降尺度的總體精度較差,且各個研究區(qū)的離散度較大,標(biāo)準(zhǔn)差為0.91;剩余group的降尺度總體精度差別不大,在2 K左右,但group3(回歸核為地表反射率、光譜指數(shù))在各個研究區(qū)的表現(xiàn)略微差,體現(xiàn)在精度存在部分差異,標(biāo)準(zhǔn)差在0.7左右。對于視覺信息保真度VIF,group1(回歸核為地表反射率)、group2、group3、group4(回歸核為光譜指數(shù)、地形)、group6(回歸核為光譜指數(shù)、地表類型)、group7、group12(回歸核為地表反射率、經(jīng)緯度)能夠更好地保持圖像的紋理。
為了進(jìn)一步目視展示降尺度的結(jié)果,本文選取了研究區(qū)1、研究區(qū)2和研究區(qū)7,繪制了不同分組回歸核降尺度前后的對比圖,如圖3所示。
由圖3可以看出,以降尺度的清晰度和LST的空間分布作為評價指標(biāo),結(jié)合表4和表5統(tǒng)計結(jié)果,group2、group4、group7相對更優(yōu),LST降尺度RMSE可控制在2 K,LST回歸殘差控制在0.5 K,而視覺信息保真度VIF可超過0.07。由于這3個分組中都包含了光譜指數(shù)回歸核,因此光譜指數(shù)對于LST的降尺度更加重要。在構(gòu)建回歸模型時,引入光譜指數(shù)回歸核,能夠有效控制LST降尺度的精度。
為探究利用單個研究區(qū)進(jìn)行訓(xùn)練的模型推廣至其他研究區(qū)后降尺度精度、保真度指標(biāo)以及回歸模型適用性的變化,即探尋降尺度模型的泛化能力,選擇3組(group2,group4,group7),針對研究區(qū)1,2和7,分別統(tǒng)計了選定研究區(qū)不同分組回歸核條件下的降尺度的性能指標(biāo),如表6所示。
表6 不同組別的回歸核在不同研究區(qū)交叉驗證的統(tǒng)計結(jié)果
圖3 選定研究區(qū)降尺度前后的對比圖Fig.3 Results of comparison for studied areas before and after LST downscaling
由表6可以看出,對于group2、group4和group7分組回歸核,某一研究區(qū)數(shù)據(jù)訓(xùn)練得到的XGBoost模型應(yīng)用于本研究區(qū)或者其他研究區(qū)時,LST降尺度的RMSE變化不大,二者差值小于0.5 K。對于視覺信息保真度VIF,某一研究區(qū)數(shù)據(jù)訓(xùn)練得到的模型應(yīng)用于其他研究區(qū)時,VIF將降低,會造成LST降尺度結(jié)果的失真,如模糊或者細(xì)節(jié)丟失。對于LST回歸模型的殘差,殘差變化較大,本地訓(xùn)練模型應(yīng)用于本地時,殘差值較小,然而用于其他區(qū)域的時候,殘差能增大到10 K以上。雖然LST降尺度的RMSE能保持在同一水平,但殘差值仍然較大,說明通過局部數(shù)據(jù)訓(xùn)練的XGBoost模型,回歸泛化能力不夠,某個研究區(qū)訓(xùn)練得到的模型,應(yīng)用于更大范圍的研究區(qū)時可能會帶來較大的誤差。為了提高XGBoost模型的回歸泛化能力,需要保證訓(xùn)練數(shù)據(jù)的代表性。
本文選取7個研究區(qū),并對地表反射率、光譜指數(shù)、地形因子、大氣再分析數(shù)據(jù)、經(jīng)緯度、地表類型6種回歸核進(jìn)行組合實驗。利用基于XGBoost算法的LST降尺度模型,在不同回歸核組合的情況下,將1 km分辨率的MODISLST空間降尺度成100 m分辨率的LST,并將估計值與Landsat-8反演的100 m分辨率的LST進(jìn)行了分析比較,討論了不同回歸核組合條件下LST降尺度的性能差異。本文得到的主要結(jié)論如下:
① 通過12組回歸核的實驗比對發(fā)現(xiàn), group2,group4,group7作為回歸核時,可以得到精度低且質(zhì)量好的預(yù)測圖像,3組的RMSE在2 K左右,LST降尺度殘差控制在0.5 K左右,VIF可超過0.07。
② 由于選定的最優(yōu)回歸核組合(group2,group4,group7)中均包含了光譜指數(shù),因此光譜指數(shù)是LST降尺度的關(guān)鍵因素。在實際應(yīng)用中,可根據(jù)其他回歸核(如地形、經(jīng)緯度)的獲取情況選擇具體的回歸核組合。從當(dāng)前研究結(jié)果來看,引入更多的回歸核會部分提高LST降尺度的精度,但在一定程度上增大了降尺度實施的復(fù)雜度。
③ 基于XGBoost算法的LST降尺度模型的泛化能力仍舊不夠,雖然LST降尺度的RMSE可以得到一定的保證,但這是通過殘差糾正來實現(xiàn)的,實際上局部數(shù)據(jù)訓(xùn)練的XGBoost回歸模型自身無法有效從某一區(qū)域推廣到另一區(qū)域。為了構(gòu)建適用大范圍的LST降尺度模型,確定XGBoost回歸模型需要選擇更具代表性的訓(xùn)練數(shù)據(jù)。
在本文研究的基礎(chǔ)上,后續(xù)可嘗試對降尺度模型進(jìn)行改進(jìn),減少降尺度殘差對結(jié)果的影響。同時將考慮組內(nèi)回歸核的相關(guān)性,對組內(nèi)回歸核數(shù)據(jù)進(jìn)行主成分分析,并對回歸結(jié)果進(jìn)行比較分析。此外,也將重點考慮回歸窗口的影響,采用全局和局部等不同策略來完善降尺度模型,以期得到一個泛化能力更強的LST降尺度模型。