馮 瑞,楊麗萍,侯成磊,王 彤,張 靜,肖 舜
(1.長(zhǎng)安大學(xué) 地球科學(xué)與資源學(xué)院,陜西 西安 710054;2.長(zhǎng)安大學(xué) 地質(zhì)工程與測(cè)繪學(xué)院,陜西 西安 710054;3.山東農(nóng)業(yè)工程學(xué)院 國(guó)土資源與測(cè)繪工程學(xué)院,山東 濟(jì)南 250100;4.陜西師范大學(xué) 地理科學(xué)與旅游學(xué)院,陜西 西安 710119)
近地表氣溫指距離地面1.5~2.0 m的大氣溫度。作為描述地表大氣環(huán)境的重要指標(biāo),近地表氣溫是氣象觀測(cè)的基本要素之一,也是地表與大氣能量交換、水循環(huán)及生態(tài)過(guò)程研究的重要輸入因子。近地表氣溫與人類的日常生活和社會(huì)生產(chǎn)活動(dòng)息息相關(guān),高精度、大范圍近地表氣溫監(jiān)測(cè)對(duì)于生態(tài)環(huán)境、農(nóng)業(yè)生產(chǎn)、氣候變化等研究具有重要的現(xiàn)實(shí)意義。
氣象站點(diǎn)觀測(cè)數(shù)據(jù)是獲取近地表氣溫的直接途徑,具有準(zhǔn)確性高等特點(diǎn)。早有學(xué)者基于氣象觀測(cè)數(shù)據(jù),利用反距離權(quán)重、樣條函數(shù)和克里金插值等多種空間插值法獲取了具有空間連續(xù)性的氣溫?cái)?shù)據(jù)。然而受多種因素限制,通常情況下氣象站點(diǎn)數(shù)量有限,在站點(diǎn)稀疏和分布不均勻的地區(qū),利用空間插值法得到的氣溫?cái)?shù)據(jù)誤差較大。相較于傳統(tǒng)的觀測(cè)方法,衛(wèi)星遙感技術(shù)具有大范圍、實(shí)時(shí)性和經(jīng)濟(jì)性等優(yōu)勢(shì),同時(shí)可提供比氣象站點(diǎn)觀測(cè)資料更完整的空間異質(zhì)度信息。隨著衛(wèi)星遙感技術(shù)不斷發(fā)展,國(guó)內(nèi)外學(xué)者基于遙感數(shù)據(jù)在近地表氣溫反演中開展了大量研究,提出了多種近地表氣溫反演算法,主要可概括為以下4類。第一類為常規(guī)統(tǒng)計(jì)法,包括單因子統(tǒng)計(jì)法和多因子統(tǒng)計(jì)法。該方法通常基于地表溫度(Land Surface Temperature,LST)與實(shí)際觀測(cè)氣溫?cái)?shù)據(jù)間的相關(guān)關(guān)系進(jìn)行氣溫模擬。陳命男利用一元線性回歸方法分別對(duì)上海市2007年和2008年的地表溫度與氣溫觀測(cè)數(shù)據(jù)進(jìn)行擬合,判定系數(shù)()分別為0.566 0和0.706 6;Lin等在結(jié)合歸一化植被指數(shù)(Normalized Difference Vegetation Index,NDVI)和環(huán)境絕對(duì)濕度等因子估算復(fù)雜地形山區(qū)氣溫時(shí)發(fā)現(xiàn),判定系數(shù)從0.60~0.65增加到0.71~0.88,這表明在解釋復(fù)雜地形表面能量通量的時(shí)空變化時(shí)必須考慮相關(guān)的環(huán)境因素;Mohammadi等利用地理加權(quán)回歸方法比較了單變量和多變量模型反演大氣溫度的精度,發(fā)現(xiàn)采用多變量回歸方法精度更高,均方根誤差(Root Mean Square Error,RMSE)為0.62 ℃,平均相關(guān)系數(shù)為0.99。第二類為溫度植被指數(shù)(Temperature-Vegetation Index,TVX)法。該方法是一種利用地表溫度和光譜植被指數(shù)間的負(fù)相關(guān)性,從遙感數(shù)據(jù)中提取氣溫的空間鄰域運(yùn)算方法,適用于濃密植被覆蓋地區(qū)。徐永明等通過(guò)去除溫度植被指數(shù)空間窗口內(nèi)殘余水體和云像元改進(jìn)溫度植被指數(shù)法,提高了算法適用范圍。第三類為能量平衡法。Pape等基于能量平衡方程,并結(jié)合下墊面植被及地貌數(shù)據(jù)反演近地表氣溫,均方根誤差為0.37 ℃~1.02 ℃。第四類為機(jī)器學(xué)習(xí)法。Yoo等設(shè)計(jì)了8種不同變量輸入方案,利用隨機(jī)森林算法模型研究了洛杉磯市和首爾市的日最高氣溫和最低氣溫,最佳模型判定系數(shù)大于0.7,均方根誤差小于1.7 ℃;高亮等采用隨機(jī)森林、支持向量機(jī)、AdaBoost和嶺回歸等4種機(jī)器學(xué)習(xí)模型擬合觀測(cè)氣溫與影響要素的相關(guān)關(guān)系,結(jié)果表明隨機(jī)森林模型精度最高,判定系數(shù)平均值為0.85,均方根誤差平均值為0.50 ℃;邢立亭等使用隨機(jī)森林模型估算了蘭州市近地表最高氣溫和最低氣溫,模型估算效果良好,判定系數(shù)分別為0.921和0.916。
綜上所述,前人已提出了多種近地表氣溫遙感反演方法,并在近地表氣溫監(jiān)測(cè)中取得了顯著成效。其中,因考慮了多種環(huán)境因子,多因子統(tǒng)計(jì)法的反演精度通常高于單因子統(tǒng)計(jì)法;溫度植被指數(shù)法輸入?yún)?shù)少且相對(duì)簡(jiǎn)單,但對(duì)于低植被及裸土地區(qū),該方法并不適用;能量平衡法具有深厚的物理基礎(chǔ),但計(jì)算過(guò)程相對(duì)繁雜;機(jī)器學(xué)習(xí)法已廣泛應(yīng)用于各個(gè)領(lǐng)域,已有學(xué)者利用機(jī)器學(xué)習(xí)法在近地表氣溫反演中進(jìn)行了有益嘗試,大量研究表明隨機(jī)森林模型在獲取高時(shí)空分辨率近地表氣溫中精度較高,表現(xiàn)良好。氣溫的時(shí)空分布與變化受海拔高度、地形、下墊面性質(zhì)和緯度等多種因素的綜合影響,且影響關(guān)系復(fù)雜。傳統(tǒng)的統(tǒng)計(jì)回歸模型對(duì)這一復(fù)雜耦合關(guān)系的表達(dá)能力有限;隨機(jī)森林模型訓(xùn)練速度快,模型參數(shù)調(diào)整相對(duì)簡(jiǎn)單,可以較好地?cái)M合因變量與多個(gè)自變量的非線性關(guān)系,為探討這一復(fù)雜耦合關(guān)系提供了新的途徑。
陜西省西安市是中國(guó)西部地區(qū)的中心城市。近年來(lái),隨著西安市向國(guó)際化大都市的快速邁進(jìn),城市化進(jìn)程飛速發(fā)展,人口激增,城市規(guī)模不斷擴(kuò)張,人工景觀大幅代替自然景觀。人類密集活動(dòng)以及城市下墊面性質(zhì)的變化加劇了西安市局地氣候與環(huán)境問(wèn)題。前人研究表明,西安市平均氣溫呈上升趨勢(shì),且市區(qū)氣溫上升速率高于郊縣區(qū)。以城市熱島效應(yīng)為典型的城市氣候與熱環(huán)境問(wèn)題愈演愈烈,這一問(wèn)題不僅可以通過(guò)熱危害直接威脅人體健康,還會(huì)加重空氣污染,間接增加呼吸系統(tǒng)和心腦血管等疾病的發(fā)病率。在上述背景下,開展西安市近地表氣溫估算研究,以期為改善城市氣候、減緩城市熱島效應(yīng)、打造適宜人居環(huán)境提供參考。
本文首先基于西安市Landsat 8衛(wèi)星數(shù)據(jù)提取地表溫度、歸一化植被指數(shù)、歸一化建筑指數(shù)(Normalized Difference Built-up Index,NDBI)、改進(jìn)的歸一化水體指數(shù)(Modified Normalized Difference Water Index,MNDWI)和地表反照率(Albedo)等5種遙感因子,基于30 m空間分辨率的SRTM DEM數(shù)據(jù)提取高程(Altitude)、坡向(Aspect)和坡度(Slope)等3種地形因子,將提取的8個(gè)參數(shù)進(jìn)行相關(guān)性和重要性綜合分析;然后在此基礎(chǔ)上進(jìn)行不同參數(shù)組合,構(gòu)建多個(gè)估算氣溫的隨機(jī)森林模型;最后基于氣象站點(diǎn)觀測(cè)數(shù)據(jù),利用交叉驗(yàn)證的方法評(píng)估模型性能、驗(yàn)證模型精度,并選取最優(yōu)參數(shù)組合方案進(jìn)行近地表氣溫估算。
西安市地處陜西省關(guān)中平原中部,經(jīng)度范圍為107.40°E~109.49°E,緯度范圍為33.42°N~34.45°N(圖1)。西安市整體呈南高北低、階梯狀的地勢(shì)特點(diǎn),城市以北的渭河平原和南部的秦嶺山地形成強(qiáng)烈的地貌對(duì)照。西安市管轄11個(gè)區(qū)和2個(gè)縣,其中灞橋區(qū)、未央?yún)^(qū)、新城區(qū)、蓮湖區(qū)、雁塔區(qū)、碑林區(qū)為西安市中心城區(qū)。長(zhǎng)安區(qū)、臨潼區(qū)、高陵區(qū)、閻良區(qū)、鄠邑區(qū)、藍(lán)田縣和周至縣是西安市的周邊郊縣區(qū)。山區(qū)主要指東西向橫跨周至縣、鄠邑區(qū)、長(zhǎng)安區(qū)和藍(lán)田縣的秦嶺山區(qū)。西安市屬暖溫帶半濕潤(rùn)大陸性季風(fēng)氣候,四季分明,年平均氣溫為13.0 ℃~13.7 ℃,年降水量為522.4~719.5 mm。
圖1 陜西省西安市地區(qū)氣象站點(diǎn)分布Fig.1 Distribution of Meteorological Stations in Xi’an City of Shaanxi Province
遙感數(shù)據(jù)采用2016年5月16日的Landsat 8衛(wèi)星影像,數(shù)據(jù)來(lái)源于地理空間數(shù)據(jù)云(http:∥www.gscloud.cn/)。利用ENVI5.3軟件對(duì)衛(wèi)星影像進(jìn)行了輻射定標(biāo)、大氣校正及拼接與裁剪。以30 m空間分辨率的SRTM DEM作為高程數(shù)據(jù),數(shù)據(jù)來(lái)源于美國(guó)地質(zhì)調(diào)查局(http:∥www.usgs.gov/),將6幅DEM數(shù)據(jù)進(jìn)行拼接、裁剪得到覆蓋全研究區(qū)的DEM數(shù)據(jù)。
氣象數(shù)據(jù)為2016年5月16日西安市地面自動(dòng)氣象站點(diǎn)逐小時(shí)氣象觀測(cè)數(shù)據(jù),采用與衛(wèi)星過(guò)境時(shí)間相一致的觀測(cè)數(shù)據(jù)進(jìn)行模型性能評(píng)估與精度驗(yàn)證。研究區(qū)共102個(gè)氣象站點(diǎn),由于衛(wèi)星過(guò)境時(shí)不是整點(diǎn)時(shí)刻,所以取過(guò)境時(shí)相鄰整點(diǎn)實(shí)測(cè)氣溫?cái)?shù)據(jù)進(jìn)行線性插值計(jì)算出衛(wèi)星過(guò)境時(shí)的氣溫。研究區(qū)氣象站點(diǎn)分布如圖1所示。
2.1.1 地表溫度
本文采用胡德勇等針對(duì)Landsat 8第10波段(TIRS 10)提出的地表溫度單窗算法(簡(jiǎn)稱為TIRS 10-SC算法)計(jì)算地表溫度。胡德勇等利用TI-RS 10-SC算法、覃志豪單窗算法和Jiménez-Muňoz算法反演了不同植被覆蓋類型的地表溫度,認(rèn)為TIRS 10-SC算法可以較好地應(yīng)用于Landsat 8衛(wèi)星影像數(shù)據(jù)地表溫度反演。TIRS 10-SC算法公式為
(1)
=
(2)
=(1-)·[1+(1-)]
(3)
式中:為地表溫度;為TIRS 10的亮溫;為大氣平均作用溫度;為TIRS 10地表比輻射率;為TIRS 10大氣透射率;取常數(shù)1 321.08 K;和為中間參量。
2.1.2 其他自變量
影響近地表氣溫的因素眾多,除地表溫度外,太陽(yáng)輻射、植被、水體、建筑物分布及地形等因素均具有一定影響。因此,本文引入其他遙感因子(包括歸一化植被指數(shù)、歸一化建筑指數(shù)、改進(jìn)的歸一化水體指數(shù)和地表反照率)以及地形因子(包括高程、坡向和坡度)作為構(gòu)建隨機(jī)森林氣溫估算模型的輸入?yún)?shù)。遙感因子基于Landsat 8衛(wèi)星數(shù)據(jù)獲取,計(jì)算公式見表1,地形因子由DEM數(shù)據(jù)獲取。
表1 遙感因子提取算法Table 1 Extraction Algorithms for Remote Sensing Factors
隨機(jī)森林是Breiman提出的一種基于決策樹組合的可用于分類、回歸以及多維數(shù)據(jù)處理的機(jī)器學(xué)習(xí)算法。較傳統(tǒng)決策樹算法而言,該算法能夠平衡分布不均勻樣本的誤差,分類精度高,對(duì)異常值和噪聲有很好的容忍度。隨機(jī)森林是未經(jīng)修剪的分類樹或回歸樹的集合,這些樹是通過(guò)訓(xùn)練數(shù)據(jù)的自舉樣本和樹歸納中的隨機(jī)特征選擇而創(chuàng)建的,隨機(jī)森林選取總樣本數(shù)的2/3作為訓(xùn)練集構(gòu)建決策樹,剩余1/3數(shù)據(jù)用于驗(yàn)證所構(gòu)建的模型性能。通常可通過(guò)調(diào)整決策樹的數(shù)量以及單棵決策樹的特征數(shù)量來(lái)提高隨機(jī)森林模型的性能,本文使用循環(huán)迭代法進(jìn)行參數(shù)優(yōu)化。對(duì)于決策樹數(shù)量設(shè)置,將決策樹數(shù)量步長(zhǎng)設(shè)置為10,自第10棵樹起每加入10棵樹模型運(yùn)行1次,決策樹數(shù)量至300棵時(shí)模型結(jié)束,將判定系數(shù)最大值對(duì)應(yīng)的模型作為此次運(yùn)算的最佳結(jié)果保存。對(duì)于單棵決策樹數(shù)量的設(shè)置,在1到模型輸入?yún)?shù)數(shù)量之間選擇一個(gè)合適的值作為單棵決策樹的特征數(shù)量,通過(guò)在決策樹棵樹的循環(huán)下嵌套一個(gè)循環(huán)體,將步長(zhǎng)設(shè)置為1,把表現(xiàn)最好的作為單棵決策樹的特征數(shù)量進(jìn)行保存。本文隨機(jī)森林模型的構(gòu)建通過(guò)MATLAB軟件中的Random Forest工具箱完成,模型實(shí)現(xiàn)步驟如下。
步驟一:通過(guò)自舉采樣方法Bootstrap從原始數(shù)據(jù)集中隨機(jī)抽取次(有放回),樣本集組成個(gè)訓(xùn)練集,未被抽到的數(shù)據(jù)為袋外(Out of Bag,OOB)數(shù)據(jù),可用于評(píng)估構(gòu)建模型的性能。
步驟二:新構(gòu)建的每個(gè)訓(xùn)練集均單獨(dú)作為一棵決策樹,每棵決策樹在生長(zhǎng)過(guò)程中均不進(jìn)行剪枝。
步驟三:重復(fù)步驟二次,將生成的棵決策樹組成隨機(jī)森林,并應(yīng)用于分類和回歸。對(duì)于每棵樹都能得到一個(gè)袋外數(shù)據(jù)誤差統(tǒng)計(jì),對(duì)所有決策樹的袋外數(shù)據(jù)誤差取平均后可得到隨機(jī)森林泛化誤差估計(jì),袋外數(shù)據(jù)誤差是無(wú)偏估計(jì)。
隨機(jī)森林可以在訓(xùn)練過(guò)程中生成輸入變量的重要性度量。本文隨機(jī)森林中的變量重要性利用平均精度下降(Mean Decrease Accuracy,MDA)進(jìn)行表征,該方法是基于袋外數(shù)據(jù)誤差的一種重要性評(píng)判方法。其基本原理是在外包樣本數(shù)據(jù)集中改變某一輸入?yún)?shù)值,然后計(jì)算造成的估算誤差,通過(guò)得到的誤差評(píng)判參數(shù)的重要性。若誤差較大,說(shuō)明該變量對(duì)預(yù)測(cè)結(jié)果越敏感,同時(shí)重要性值越大,對(duì)模型的貢獻(xiàn)越高。
隨機(jī)森林是隨機(jī)選取樣本數(shù)據(jù)的過(guò)程,其本身具有交叉驗(yàn)證的優(yōu)勢(shì),當(dāng)模型中決策樹的數(shù)目足夠保證每個(gè)樣本都可以充當(dāng)一次訓(xùn)練集和樣本集時(shí),可以最大程度地避免模型過(guò)度擬合,同時(shí)提升模型的外推能力。K折交叉驗(yàn)證是對(duì)交叉驗(yàn)證的進(jìn)一步發(fā)展和推廣,根據(jù)Kohavi的研究結(jié)果,10倍的變異系數(shù)在估計(jì)模型預(yù)測(cè)誤差時(shí)效果最佳,因此,本文采用10折交叉驗(yàn)證來(lái)評(píng)估模型性能,采用判定系數(shù)和均方根誤差作為模型性能的評(píng)價(jià)指標(biāo)。
3.1.1 相關(guān)性分析
為定量分析自變量與近地表氣溫之間的關(guān)系,本文選用Pearson相關(guān)系數(shù)對(duì)近地表氣溫和8個(gè)輸入?yún)?shù)之間的潛在關(guān)系進(jìn)行研究,結(jié)果如圖2所示。
**表示在0.01水平(雙側(cè))上顯著相關(guān);*表示在0.05水平(雙側(cè))上顯著相關(guān)??v坐標(biāo)中,1表示地表溫度;2表示改進(jìn)的歸一化水體指數(shù);3表示歸一化建筑指數(shù);4表示歸一化植被指數(shù);5表示地表反照率;6表示高程;7表示坡向;8表示坡度圖2 相關(guān)性分析結(jié)果Fig.2 Correlation Analysis Results
相關(guān)性涉及的8個(gè)自變量包括5個(gè)遙感因子和3個(gè)地形因子。遙感因子中,地表溫度、改進(jìn)的歸一化水體指數(shù)和歸一化植被指數(shù)通過(guò)了顯著性檢驗(yàn),歸一化建筑指數(shù)和地表反照率未通過(guò)顯著性檢驗(yàn)。其中,地表溫度相關(guān)性最高,相關(guān)系數(shù)為0.551;地表反照率相關(guān)性最低,相關(guān)系數(shù)為0.041。地形因子中,高程和坡度通過(guò)顯著性檢驗(yàn),坡向未通過(guò)顯著性檢驗(yàn)。高程相關(guān)性最高,相關(guān)系數(shù)為-0.803;坡向相關(guān)性最低,相關(guān)系數(shù)僅0.021。整體來(lái)看,8個(gè)自變量的相關(guān)性從高到低依次為高程、地表溫度、坡度、改進(jìn)的歸一化水體指數(shù)、歸一化植被指數(shù)、歸一化建筑指數(shù)、地表反照率、坡向。其中,地表溫度、改進(jìn)的歸一化水體指數(shù)、歸一化建筑指數(shù)、地表反照率和坡向與近地表氣溫成正相關(guān)關(guān)系;歸一化植被指數(shù)、高程和坡度與近地表氣溫成負(fù)相關(guān)關(guān)系;與近地表氣溫相關(guān)性最高的參數(shù)為高程,相關(guān)性最低的為坡向。
3.1.2 重要性分析
輸入因子重要性評(píng)分用平均精度下降表示,結(jié)果如圖3所示。由圖3可見:在遙感因子中,地表溫度對(duì)于近地表氣溫估算的重要性高于其他4個(gè)因子,地表溫度的重要性評(píng)分最高,所對(duì)應(yīng)的平均值也最高;歸一化建筑指數(shù)重要性評(píng)分與平均值最低;改進(jìn)的歸一化水體指數(shù)、歸一化植被指數(shù)和地表反照率的重要性評(píng)分以及平均值差別不大,表明這3個(gè)變量對(duì)于近地表氣溫估算的貢獻(xiàn)度相當(dāng)。在地形因子中,高程對(duì)于近地表氣溫估算的重要性評(píng)分最高,坡度次之,坡向最低,其對(duì)應(yīng)的平均值亦然。整體來(lái)看,8個(gè)自變量中,高程的重要性評(píng)分及平均值最高,地表溫度次之,其他6個(gè)自變量的重要性評(píng)分沒有明顯差異,歸一化建筑指數(shù)重要性評(píng)分及平均值最低。從重要性分析來(lái)看,對(duì)近地表氣溫估算貢獻(xiàn)度最大的是高程,其次是地表溫度。
橫坐標(biāo)中,1表示地表溫度;2表示改進(jìn)的歸一化水體指數(shù);3表示歸一化建筑指數(shù);4表示歸一化植被指數(shù);5表示地表反照率;6表示高程;7表示坡向;8表示坡度圖3 重要性分析結(jié)果Fig.3 Importance Analysis Results
3.1.3 相關(guān)性與重要性綜合分析
第3.1.1和3.1.2節(jié)分別通過(guò)自變量與實(shí)測(cè)氣溫的相關(guān)性和重要性分析了影響因子對(duì)近地表氣溫估算的貢獻(xiàn)度以及相關(guān)性和重要性表征變量不同的特征意義。這兩種評(píng)價(jià)指標(biāo)具有不同的量綱,為了綜合考慮自變量的相關(guān)性和重要性,并消除不同指標(biāo)之間的量綱影響,對(duì)相關(guān)系數(shù)和重要性評(píng)分進(jìn)行歸一化(MIN-MAX Normalization)處理,將數(shù)據(jù)結(jié)果映射到[0,1],為判定自變量的貢獻(xiàn)度大小及設(shè)計(jì)不同模型參數(shù)組合方案奠定基礎(chǔ)。
橫坐標(biāo)中,1表示地表溫度;2表示改進(jìn)的歸一化水體指數(shù);3表示歸一化建筑指數(shù);4表示歸一化植被指數(shù);5表示地表反照率;6表示高程;7表示坡向;8表示坡度圖4 歸一化綜合評(píng)價(jià)結(jié)果Fig.4 Normalized Comprehensive Assessment Results
歸一化處理結(jié)果如圖4所示。由圖4可見:在遙感因子中,地表溫度歸一化結(jié)果最高,這與地表溫度和近地表氣溫的相關(guān)性和重要性較高相一致,其次為改進(jìn)的歸一化水體指數(shù),歸一化結(jié)果最低的參數(shù)是地表反照率,表明遙感因子中對(duì)近地表氣溫估算貢獻(xiàn)度最大的是地表溫度;在地形因子中,高程的歸一化結(jié)果最高,這與地形因子高程和近地表氣溫的相關(guān)性和重要性最高相一致,其次為坡度,最低為坡向,表明高程對(duì)估算近地表氣溫貢獻(xiàn)度最大。整體來(lái)看,在構(gòu)建隨機(jī)森林模型估算近地表氣溫的過(guò)程中,8個(gè)自變量的貢獻(xiàn)度從大到小依次為高程、地表溫度、坡度、改進(jìn)的歸一化水體指數(shù)、歸一化植被指數(shù)、歸一化建筑指數(shù)、地表反照率、坡向,表明在近地表氣溫估算過(guò)程中地表溫度和高程是最為重要的兩個(gè)輸入?yún)?shù)。近地表氣溫變化受多因素影響,一般情況下,在對(duì)流層中其垂直分布隨高程的增加而降低,主要是由于距離地表越遠(yuǎn),吸收的地面長(zhǎng)波輻射越少,氣溫越低。地表吸收太陽(yáng)輻射而增溫,然后向外發(fā)出長(zhǎng)波輻射,近地表氣溫因吸收地面輻射而增溫,地表熱量對(duì)近地表氣溫變化起直接的、主導(dǎo)的作用,因此,地表溫度與近地表氣溫相關(guān)性較高。歸一化植被指數(shù)反映植被覆蓋度狀況,植被覆蓋度的變化會(huì)改變地表潛熱、感熱通量以及植被自身的蒸騰作用,進(jìn)而對(duì)近地表氣溫變化產(chǎn)生影響,在近地表氣溫估算時(shí)考慮地表熱量、水體、建筑等下墊面狀況是非常有必要的。因此,根據(jù)歸一化綜合評(píng)價(jià)結(jié)果所反映的影響因子對(duì)近地表氣溫的貢獻(xiàn)度大小,構(gòu)建P2~P8(其中數(shù)字代表參數(shù)個(gè)數(shù))共7種參數(shù)組合方案(表2)。
表2 模型參數(shù)組合方案Table 2 Combination Schemes of Model Parameter
將第3.1.3節(jié)構(gòu)建的7種參數(shù)組合方案分別輸入隨機(jī)森林模型進(jìn)行近地表氣溫估算,采用10折交叉驗(yàn)證評(píng)估模型性能,結(jié)果如表3所示。由表3可知:7種參數(shù)組合方案下的隨機(jī)森林模型訓(xùn)練集判定系數(shù)均高于0.916,均方根誤差均低于0.467 ℃;所有模型驗(yàn)證集判定系數(shù)均高于0.726,均方根誤差均低于0.840 ℃;訓(xùn)練集判定系數(shù)均高于驗(yàn)證集,均方根誤差均低于驗(yàn)證集。7種參數(shù)組合方案分別構(gòu)建的隨機(jī)森林模型均能夠?qū)τ?xùn)練集和驗(yàn)證集進(jìn)行較好的擬合,表明隨機(jī)森林在研究區(qū)近地表氣溫估算中具有較好效果。
表3 隨機(jī)森林模型性能Table 3 Model Performance of Random Forest
進(jìn)一步分析發(fā)現(xiàn),對(duì)于訓(xùn)練集,P5~P8方案模型判定系數(shù)大于P2~P4方案模型,且其均方根誤差小于P2~P4方案模型,隨著輸入?yún)?shù)的增加,P5~P8方案模型判定系數(shù)和均方根誤差無(wú)明顯變化,模型性能較P2~P4方案模型表現(xiàn)較好且趨于穩(wěn)定。對(duì)于驗(yàn)證集,P2~P5方案模型判定系數(shù)隨著參數(shù)的增加而增加,均方根誤差隨著參數(shù)的增加而減小,P5方案模型性能表現(xiàn)較好;相比P2~P5方案模型,P6~P8方案模型判定系數(shù)出現(xiàn)先減后增變化,均方根誤差出現(xiàn)先增后減變化。綜合訓(xùn)練集和驗(yàn)證集來(lái)看,當(dāng)全部參數(shù)輸入模型后,隨機(jī)森林模型(P8方案模型)性能表現(xiàn)最佳,其驗(yàn)證集精度優(yōu)于P5方案模型,P8方案模型的訓(xùn)練集判定系數(shù)為0.934,均方根誤差為0.425 ℃(P5方案模型訓(xùn)練集判定系數(shù)為0.935,均方根誤差為0.426 ℃),驗(yàn)證集判定系數(shù)為0.795,均方根誤差為0.783 ℃(P5方案模型驗(yàn)證集判定系數(shù)為0.788,均方根誤差為0.785 ℃)。因此,本文基于P8方案建立研究區(qū)隨機(jī)森林近地表氣溫估算模型。
從上述隨機(jī)森林模型估算近地表氣溫的訓(xùn)練集及驗(yàn)證集結(jié)果來(lái)看,隨機(jī)森林近地表氣溫估算模型精度較高,其中P8方案模型精度最高。為進(jìn)一步驗(yàn)證模型精度,對(duì)基于最佳模型的近地表氣溫估算值與站點(diǎn)觀測(cè)值進(jìn)行線性擬合,結(jié)果如圖5所示。由圖5可見,近地表氣溫估算值與站點(diǎn)觀測(cè)值的判定系數(shù)為0.792,均方根誤差為1.055 ℃,氣溫估算精度較好。根據(jù)樣本點(diǎn)相對(duì)1∶1線的分布情況可知,部分近地表氣溫估算值出現(xiàn)高值低估的現(xiàn)象。這一方面可能是由于近地表氣溫觀測(cè)站點(diǎn)幾乎全部分布在秦嶺以北地區(qū),研究區(qū)南部氣溫觀測(cè)站點(diǎn)較為有限(圖1),所以觀測(cè)氣溫的高值較多,在模型估算近地表氣溫過(guò)程中出現(xiàn)了一定程度的過(guò)擬合;另一方面,在氣溫估算過(guò)程中,未能考慮太陽(yáng)輻射對(duì)地表溫度直接作用的影響,從而也會(huì)導(dǎo)致近地表氣溫高值低估的情況。綜上所述,雖然出現(xiàn)部分高值低估的現(xiàn)象,但根據(jù)總體估算精度來(lái)看,低估偏差在合理范圍內(nèi),所構(gòu)建的隨機(jī)森林模型適用于西安市近地表氣溫的估算。
圖5 近地表氣溫估算值和站點(diǎn)觀測(cè)值散點(diǎn)圖Fig.5 Scatter Plot of Estimated Temperature and Site Temperature
基于上述最佳隨機(jī)森林模型,模擬得到 2016年5月16日西安市近地表氣溫(圖6)。由圖6可見,西安市近地表氣溫呈現(xiàn)顯著的空間差異性,整體呈南低北高、中心城區(qū)高于郊縣區(qū)的態(tài)勢(shì)。
圖6 2016年5月16日西安市近地表氣溫空間分布模擬圖Fig.6 Spatial Distribution Simulation Map of the Near-surface Air Temperature in Xi’an City on May 16,2016
為進(jìn)一步分析近地表氣溫的空間差異性,提取了不同區(qū)縣的最低氣溫、最高氣溫、平均氣溫和平均高程,結(jié)果如表4所示。由表4可見,西安市13個(gè)區(qū)縣的最低氣溫平均值為20.50 ℃,最高氣溫平均值為23.49 ℃,并且各區(qū)縣最高氣溫均高于23.00 ℃,西安市平均氣溫為21.98 ℃。中心城區(qū)的3個(gè)氣溫指標(biāo)均大于郊縣區(qū),其最低氣溫平均值、最高氣溫平均值以及氣溫平均值分別高于郊縣區(qū)1.54 ℃、0.01 ℃和1.76 ℃。13個(gè)區(qū)縣平均高程為380~1 433 m,從平均高程來(lái)看,秦嶺山區(qū)橫跨的周至縣、鄠邑區(qū)、長(zhǎng)安區(qū)和藍(lán)田縣的平均高程遠(yuǎn)高于其他轄區(qū),這是引起這4個(gè)區(qū)縣平均氣溫普遍低于其他轄區(qū)的一個(gè)重要原因,對(duì)于高程相近的其他轄區(qū),近地表氣溫仍表現(xiàn)出空間差異性。伴隨著城市化發(fā)展,地表下墊面類型發(fā)生改變,尤其對(duì)于中心城區(qū),高層建筑、道路鋪裝等均會(huì)使植被、土地和水域等自然表面變?yōu)椴煌杆?,進(jìn)而改變了地表長(zhǎng)波輻射能量,導(dǎo)致氣溫發(fā)生變化,這是城市氣溫產(chǎn)生空間差異的另一原因。此外,近地表氣溫受植被覆蓋度、水域面積、人口密度及社會(huì)生產(chǎn)活動(dòng)等眾多因素影響,與中心城區(qū)相比,郊縣區(qū)發(fā)展較慢且區(qū)域面積大,人類社會(huì)生產(chǎn)活動(dòng)相對(duì)較少,使郊縣區(qū)平均氣溫普遍低于中心城區(qū)。
表4 氣溫-高程分區(qū)統(tǒng)計(jì)Table 4 Statistics of Air Temperature-altitude in Different Districts
在中心城區(qū)內(nèi),灞橋區(qū)具有最低氣溫(19.20 ℃),遠(yuǎn)低于其他5個(gè)轄區(qū),差值為1.53 ℃~3.11 ℃;灞橋區(qū)平均氣溫為22.19 ℃,低于除雁塔區(qū)以外的其他4個(gè)轄區(qū),差值為0.62 ℃~1.00 ℃。灞橋區(qū)內(nèi)灞河、浐河和渭河交匯處,水域面積廣,植被覆蓋度相對(duì)較高,因此,灞橋區(qū)平均氣溫較低。雁塔區(qū)大型景觀公園較多,綠化率高,平均氣溫最低。蓮湖區(qū)、新城區(qū)和碑林區(qū)屬于老城區(qū),建筑密集,人口密度大,平均氣溫相對(duì)較高。對(duì)于郊縣區(qū),在周至縣、鄠邑區(qū)、長(zhǎng)安區(qū)和藍(lán)田縣均觀測(cè)到最低氣溫(19.05 ℃),明顯低于高陵區(qū)和閻良區(qū),與臨潼區(qū)相差無(wú)異;其平均氣溫也明顯低于高陵區(qū)和閻良區(qū)。秦嶺位于西安市南部,東西向橫跨周至縣、鄠邑區(qū)、長(zhǎng)安區(qū)和藍(lán)田縣,秦嶺山區(qū)海拔高、植被覆蓋度大,且以自然地表為主,因此,這4個(gè)區(qū)縣平均氣溫低于高陵區(qū)、閻良區(qū)和臨潼區(qū)。
綜合圖6和表4可知:西安市高溫聚集在中心城區(qū),最高氣溫為23.51 ℃;郊縣區(qū)以及植被較為濃密的地區(qū)氣溫低于中心城區(qū);低溫聚集在秦嶺山區(qū),最低氣溫為19.05 ℃。西安市近地表氣溫呈現(xiàn)出中心城區(qū)較高、郊縣區(qū)適中、山區(qū)較低的總體分布格局,且從中心城區(qū)到郊縣區(qū)逐漸降低,山區(qū)氣溫普遍低于中心城區(qū),呈現(xiàn)顯著的城市熱島效應(yīng)。
(1)相關(guān)性及重要性綜合分析表明,在地表溫度、歸一化植被指數(shù)、歸一化建筑指數(shù)、改進(jìn)的歸一化水體指數(shù)和地表反照率等5個(gè)遙感因子以及高程、坡向和坡度等3個(gè)地形因子中,高程對(duì)隨機(jī)森林模型估算近地表氣溫的貢獻(xiàn)度最大,其次是地表溫度,坡向貢獻(xiàn)度最低。
(2)7種參數(shù)組合方案構(gòu)建的隨機(jī)森林模型均能夠?qū)τ?xùn)練集和驗(yàn)證集進(jìn)行較好的擬合,訓(xùn)練集判定系數(shù)均高于0.916,均方根誤差均低于0.467 ℃,驗(yàn)證集判定系數(shù)均高于0.726,均方根誤差均低于0.840 ℃;訓(xùn)練集判定系數(shù)均高于驗(yàn)證集,均方根誤差均低于驗(yàn)證集。P8方案模型表現(xiàn)最優(yōu),其訓(xùn)練集判定系數(shù)為0.934,均方根誤差為0.425 ℃,驗(yàn)證集判定系數(shù)為0.795,均方根誤差為0.783 ℃,近地表氣溫估算精度判定系數(shù)為0.792,均方根誤差為1.055 ℃,表明隨機(jī)森林模型在研究區(qū)近地表氣溫估算中效果良好。
(3)2016年5月16日,西安市平均氣溫為21.98 ℃,13個(gè)區(qū)縣的最低氣溫平均值為20.50 ℃,最高氣溫平均值為23.49 ℃。中心城區(qū)的3個(gè)氣溫指標(biāo)值均高于郊縣區(qū),其最低氣溫平均值、最高氣溫平均值及氣溫平均值分別高于郊縣區(qū)1.54 ℃、0.01 ℃和1.76 ℃。水域和植被覆蓋度高的地區(qū)氣溫相對(duì)較低。中心城區(qū)內(nèi),灞橋區(qū)氣溫低于其他轄區(qū);郊縣區(qū)內(nèi),周至縣、鄠邑區(qū)、長(zhǎng)安區(qū)和藍(lán)田縣低于高陵區(qū)、閻良區(qū)和臨潼區(qū)。西安市近地表氣溫南低北高,空間差異明顯,自中心城區(qū)至郊縣區(qū)到南部山區(qū)逐漸降低,呈現(xiàn)出顯著的城市熱島效應(yīng)。
(4)本文在近地表氣溫隨機(jī)森林建模中綜合考慮了地表溫度、植被、水體、建筑物及地形等多種因素的影響,結(jié)合最優(yōu)參數(shù)組合方案獲取了精度較好的連續(xù)性空間近地表氣溫信息,對(duì)于開拓研究思路、提高估算精度、探索近地表氣溫遙感反演的新方法具有一定的參考意義,可為城市熱島效應(yīng)研究提供新的思路。但是,影響近地表氣溫的因素眾多,本文在模型設(shè)計(jì)時(shí)僅考慮了5個(gè)遙感因子和3個(gè)地形因子,未考慮太陽(yáng)輻射、相對(duì)濕度、人口密度等自然因子及社會(huì)經(jīng)濟(jì)因子,后期將在模型中加入更多因子,深入探討各因子對(duì)近地表氣溫估算的影響機(jī)理。此外,由于近地表氣溫實(shí)測(cè)氣象站點(diǎn)數(shù)據(jù)有限,本文僅對(duì)單一時(shí)相數(shù)據(jù)進(jìn)行了研究,下一步可在獲取時(shí)間序列氣溫?cái)?shù)據(jù)后開展近地表氣溫時(shí)空變化過(guò)程及機(jī)制研究,為城市生態(tài)環(huán)境保護(hù)和區(qū)域氣候改善提供基礎(chǔ)數(shù)據(jù)。