黃仲
(江西省贛西土木工程勘測(cè)設(shè)計(jì)院,江西 宜春 336000)
有效、快速地獲取土地覆被信息對(duì)于土地資源監(jiān)測(cè)、土地資源統(tǒng)一規(guī)劃、農(nóng)業(yè)快速發(fā)展、水資源合理配置具有重要意義。土地目標(biāo)對(duì)象的提取和分類(lèi)是土地要素變化的基本內(nèi)容,為土地覆被變化提供了數(shù)據(jù)依據(jù)。過(guò)去,人們通過(guò)實(shí)地調(diào)查和匯總統(tǒng)計(jì)了解覆蓋信息,既費(fèi)時(shí)又費(fèi)力。遙感技術(shù)目前用于地面的實(shí)時(shí)監(jiān)測(cè),影像信息時(shí)效性好,可實(shí)現(xiàn)大規(guī)模土地利用的實(shí)時(shí)監(jiān)測(cè),顯著提高土地資源信息獲取效率。
隨著遙感技術(shù)的日漸成熟,高精度的土地分類(lèi)成果已成為趨勢(shì),通常會(huì)通過(guò)時(shí)間序列的多期影像方法來(lái)提高土地分類(lèi)精度。如朱永森等以多期HJ/AB 星為數(shù)據(jù)源,創(chuàng)建PCI、NDVI 指數(shù)和模型閾值,提取城市群土地分類(lèi)利用信息[1]。
高分辨率光學(xué)影像具有清晰的光譜和地物紋理信息,在破碎區(qū)域能獲取更高的精度?;诟叻直媛视跋竦耐恋胤诸?lèi)研究采用的方法主要包括濾波、支持向量機(jī)、機(jī)器學(xué)習(xí)、高斯核函數(shù)等。然而,在實(shí)際應(yīng)用中,對(duì)于大尺度和云雨較多地區(qū),受云雨、光照等因素的影響,經(jīng)常造成數(shù)據(jù)缺失形成無(wú)效觀測(cè),一定程度上限制了土地分類(lèi)的準(zhǔn)確提取[2]。
合成孔徑雷達(dá)(Synthetic Aperture Radar,SAR)數(shù)據(jù),對(duì)云層的穿透力很強(qiáng),具有不受云雨天氣影響、全天時(shí)、全天候監(jiān)測(cè)等特點(diǎn),彌補(bǔ)了光學(xué)影像的不足。然而,單一時(shí)相的SAR 數(shù)據(jù)很難對(duì)地物進(jìn)行精確提取,主要是因?yàn)镾AR 數(shù)據(jù)的信號(hào)易受其他地物相干斑噪聲的干擾,影響對(duì)目標(biāo)地物的提取。
有學(xué)者認(rèn)為,多時(shí)相或者多極化SAR 數(shù)據(jù)能夠獲得更好的分類(lèi)結(jié)果[3]。利用光學(xué)數(shù)據(jù)和SAR 數(shù)據(jù)融合,可以最大限度地提升地物分類(lèi)精度。除數(shù)據(jù)源外,根據(jù)地區(qū)環(huán)境選擇合適的分類(lèi)算法,也會(huì)提升分類(lèi)精度結(jié)果[4]。
近年來(lái),隨著機(jī)器學(xué)習(xí)算法的發(fā)展,利用機(jī)器學(xué)習(xí)算法進(jìn)行地物分類(lèi)被廣泛應(yīng)用。隨機(jī)森林算法是機(jī)器學(xué)習(xí)分類(lèi)算法的一種,具有模型訓(xùn)練時(shí)間少、計(jì)算精度高等特點(diǎn),同時(shí)對(duì)訓(xùn)練樣本的數(shù)量和質(zhì)量要求較低,因此可用于復(fù)雜的地物分類(lèi)中。
GEE 是一個(gè)結(jié)合海量衛(wèi)星遙感影像以及地理要素?cái)?shù)據(jù)的網(wǎng)絡(luò)平臺(tái),存儲(chǔ)了Sentinel 數(shù)據(jù)、MODIS 數(shù)據(jù)集、降水?dāng)?shù)據(jù)、海洋表面溫度數(shù)據(jù)、Landsat 數(shù)據(jù)、氣候數(shù)據(jù)和海拔數(shù)據(jù)等海量數(shù)據(jù),可以解決大面積土地覆蓋制圖方面最重要的數(shù)據(jù)存儲(chǔ)下載問(wèn)題[5]。用戶(hù)可以輕松訪(fǎng)問(wèn)、選擇和處理待研究區(qū)域的大量數(shù)據(jù)。GEE 云平臺(tái)也允許用戶(hù)上傳自己的柵格和矢量數(shù)據(jù)(例如GeoTIFF 或Shape 文件)進(jìn)行分析,完全控制訪(fǎng)問(wèn)[6]。因此,該平臺(tái)被科研人員廣泛應(yīng)用?;诖?,本文借助GEE 云平臺(tái)數(shù)據(jù)資源和計(jì)算資源,將Sentinel-1 SAR 極化數(shù)據(jù)所包含的地物結(jié)構(gòu)信息、Sentinel-2 光學(xué)數(shù)據(jù)的光譜信息和機(jī)器學(xué)習(xí)RF 算法相結(jié)合,探究時(shí)間序列SAR 數(shù)據(jù)、融合時(shí)間序列SAR 和光學(xué)數(shù)據(jù)的不同特征值組合對(duì)土地利用分類(lèi)精度的影響,初步驗(yàn)證了利用JM 距離尋找最優(yōu)特征的可行性。
研究區(qū)為江西省南部的贛州市(113°54′~116°38′E ,24°29′~27°09′N(xiāo)),區(qū)域范圍如圖1 所示。該地區(qū)受地質(zhì)構(gòu)造和成土因素等條件影響,具有土地類(lèi)型地域性強(qiáng)、土地利用差異明顯、山地多平原少、耕地面積小、后備耕地資源不足等特點(diǎn)。
圖1 江西省贛州市
Sentinel-1 主動(dòng)微波遙感衛(wèi)星由兩顆極軌衛(wèi)星A星和B 星組成,搭載C 波段的合成孔徑雷達(dá)(SAR)傳感器,重訪(fǎng)周期小于10 天,本文采用分辨率為10m,極化方式為“VV”和“VH”的后向散射系數(shù)數(shù)據(jù)。Sentinel-2 由Sentinel-2A 和Sentinel-2B 兩顆高分辨率衛(wèi)星組成,單顆衛(wèi)星的重訪(fǎng)周期為10 天,兩顆互補(bǔ),重訪(fǎng)周期為5 天。
本文選取的研究區(qū)范圍較大(3.9 萬(wàn)平方公里)且時(shí)間序列長(zhǎng)久,因此在GEE 云平臺(tái)上進(jìn)行調(diào)用、處理Sentinel-1 微波遙感數(shù)據(jù)(811 景)和Sentinel-2 MSI 多光譜遙感數(shù)據(jù)(374 景)。SAR 數(shù)據(jù)雖不受云雨氣候影響,但由于距離成像中心越遠(yuǎn)的像元噪聲越強(qiáng),因此調(diào)用GEE 預(yù)處理參數(shù)完成軌道參數(shù)定標(biāo)、輻射定標(biāo)和熱噪聲去除等操作。多光譜數(shù)據(jù)易受云雨影響,因此調(diào)用平臺(tái)云掩膜算法對(duì)影像進(jìn)行計(jì)算,將云量參數(shù)設(shè)置為小于10%,并將去云影像重采樣至10m。遙感影像參數(shù)及日期如表1 所示。
表1 遙感影像參數(shù)及日期
結(jié)合研究區(qū)植被的生態(tài)環(huán)境特點(diǎn),共計(jì)24 個(gè)特征變量。其中選取Sentinel-1 高度、坡度2 個(gè)地形特征,選取Sentinel-2 光譜反射率及相關(guān)植被、水體、紅邊指數(shù)共16 個(gè)特征變量。選取Sentinel-1 SAR 數(shù)據(jù)的極化特征變量和紋理特征變量,選取灰度共生矩陣(Gray-level Co-occurrence Matrix,GLCM)生成的角二矩陣(Angular Second Moment,ASM)、對(duì)比度(Contrast,CONTRAST)、相關(guān)性(Correlation,CORR)和熵值4 個(gè)紋理特征變量,具體如表2 所示。
表2 特征變量及其計(jì)算公式
根據(jù)《贛州市第三次全國(guó)國(guó)土調(diào)查主要數(shù)據(jù)公報(bào)》現(xiàn)行的土地利用分類(lèi)體系,結(jié)合研究區(qū)土地利用/覆被特點(diǎn),將研究區(qū)分為建設(shè)用地、水體、林地、裸地和耕地5 大類(lèi)。
結(jié)合多期Google Earth 遙感影像,在遙感影像上進(jìn)行采樣。建設(shè)用地包括房屋、道路等,林地包含林地、草地、城市綠地等,裸地包括裸土、裸巖以及采石場(chǎng)等。在Google Earth 上,采用隨機(jī)采樣方法在研究區(qū)采集樣本點(diǎn),一共獲得總樣本8657 個(gè)樣本點(diǎn),根據(jù)目前常用解譯分類(lèi)習(xí)慣,將訓(xùn)練樣本和驗(yàn)證樣本比例設(shè)置為7∶3,分別為6493 個(gè)和2164 個(gè),樣本數(shù)據(jù)集如表3 所示。
表3 樣本數(shù)據(jù)集
利用SAR 影像和光學(xué)影像特性,提取地物光譜特征、極化特征、紋理特征、指數(shù)特征和地理特征,基于JM 距離特征優(yōu)選,實(shí)現(xiàn)特征最優(yōu)解,構(gòu)建特征組合,融合時(shí)序SAR 影像和時(shí)序光學(xué)影像,實(shí)驗(yàn)驗(yàn)證不同特征不同融合影像信息的提取地物分類(lèi)差異,分析分類(lèi)精度及在不同組合下的優(yōu)勢(shì)。技術(shù)流程如圖2 所示。
圖2 技術(shù)流程
采用JM 距離確定研究區(qū)土地分類(lèi)最佳特征組合。JM 距離是評(píng)價(jià)不同類(lèi)別之間分離程度的有效辦法,其表達(dá)式為:
公式(1)中,d表示某一特征的巴氏距離。通常情況下假設(shè)多變量正態(tài)分布,巴氏距離d的公式為:
公式(2)中,mk表示某一特征的均值,∑k表示某一特征的協(xié)方差。JM 距離表示樣本間的可分離程度,其值在0 ~2之間,值越大表示分離度越高。
隨機(jī)森林(RF)是機(jī)器學(xué)習(xí)和監(jiān)督分類(lèi)算法的一種。隨機(jī)森林算法的預(yù)測(cè)結(jié)果是通過(guò)求解組成森林的不同決策樹(shù)的多數(shù)決策結(jié)果得到的。隨機(jī)森林算法具有運(yùn)算速度快、分類(lèi)準(zhǔn)確率高、對(duì)噪聲數(shù)據(jù)敏感等特點(diǎn)。隨機(jī)森林模型訓(xùn)練速度比較快,可以創(chuàng)建高精度的分類(lèi)器,分類(lèi)效果更好。但是隨機(jī)森林中決策樹(shù)的數(shù)量會(huì)極大地影響隨機(jī)森林算法的效率。如果決策樹(shù)的數(shù)量太少,分類(lèi)精度會(huì)下降;如果決策樹(shù)較多,分類(lèi)精度趨于穩(wěn)定,但工作速度較慢[7]??傮w來(lái)說(shuō),隨機(jī)森林的數(shù)據(jù)公式模型如公式(3)所示,本文在保證分類(lèi)精度的同時(shí)也確保工作效率,因此基于大量的實(shí)驗(yàn)研究選取決策樹(shù)數(shù)量為50 最為合適。
公式(3)中,F(xiàn)(x)表示隨機(jī)森林的預(yù)測(cè)結(jié)果,f_i(x)表示第i棵決策樹(shù)的預(yù)測(cè)結(jié)果。
利用GEE 云平臺(tái)調(diào)用特征去相關(guān)函數(shù)模塊,計(jì)算特征集相關(guān)系數(shù)矩陣,設(shè)置保留相關(guān)系數(shù)絕對(duì)值小于0.9 的特征集,完成特征去相關(guān)。然后調(diào)用JM 距離函數(shù)模塊,分別統(tǒng)計(jì)計(jì)算不同特征對(duì)5 類(lèi)覆被類(lèi)型的JM距離的分離程度。
按照分離程度由高到低增加特征變量。當(dāng)特征數(shù)為21 時(shí),林地制圖精度達(dá)到最大;當(dāng)特征數(shù)為23 時(shí),建設(shè)用地制圖精度達(dá)到最大;當(dāng)特征數(shù)為23 時(shí),水體制圖精度達(dá)到最大;當(dāng)特征數(shù)為22 時(shí),裸地制圖精度達(dá)到最大;當(dāng)特征數(shù)為21 時(shí),耕地制圖精度達(dá)到最大。以上地物覆蓋類(lèi)型之后會(huì)隨著特征繼續(xù)增加分類(lèi)精度,開(kāi)始趨于穩(wěn)定并有所下降。因此可利用特征優(yōu)選確定最少代入計(jì)算的特征,篩選排名靠前的5 至10 個(gè)特征作為最優(yōu)特征進(jìn)行后續(xù)分類(lèi),減少信息冗余。具體特征增加過(guò)程如圖3 所示。
圖3 制圖精度隨特征變化情況
單利用某一時(shí)相的SAR 極化特征數(shù)據(jù)有極大局限性[8]。將月尺度上SAR 觀測(cè)數(shù)據(jù)進(jìn)行均值合成,可降低云雨天氣對(duì)分類(lèi)精度的影響,提高土地利用分類(lèi)的精度[3]。本研究選取2021 年11 月到2022 年6 月的Sentinel-1 SAR 數(shù)據(jù),在月尺度上進(jìn)行均值合成,用于土地利用分類(lèi)研究。在GLCM 計(jì)算紋理特征共生矩陣大小的選擇上,選取4、8、16 鄰域數(shù)值進(jìn)行計(jì)算,分類(lèi)精度最高為4 鄰域。融合多時(shí)相Sentinel-1 極化特征和紋理特征的分類(lèi)總體精度為85.02%,Kappa 系數(shù)為0.79。分類(lèi)效果不是特別理想,結(jié)果如表4 所示。
表4 多時(shí)相Sentinel-1 SAR的極化特征分類(lèi)結(jié)果
受研究區(qū)地理位置及氣候環(huán)境影響,在2021 年11 月到2022 年6 月期間,難以獲取單天覆蓋整個(gè)研究區(qū)的Sentinel-2 光學(xué)影像。因此,選取2022 年1月到6 月覆蓋整個(gè)研究區(qū)的合成光學(xué)數(shù)據(jù),探究融合主被動(dòng)遙感數(shù)據(jù)對(duì)土地利用分類(lèi)精度的影響。首先,對(duì)光學(xué)數(shù)據(jù)進(jìn)行分類(lèi)研究,分類(lèi)結(jié)果如表5和圖4所示。
表5 Sentinel-2光學(xué)數(shù)據(jù)分類(lèi)結(jié)果
圖4 Sentinel-2光學(xué)數(shù)據(jù)(左)及其分類(lèi)結(jié)果(右)
由表5 和圖4 可知,Sentinel-2 光學(xué)數(shù)據(jù)的分類(lèi)總體精度為89.36%,Kappa 系數(shù)為0.85。相對(duì)融合Sentinel-1 SAR 數(shù)據(jù)的分類(lèi)總體精度提升4.34%,Kappa 系數(shù)提升6.40%。
其次,融合時(shí)序Sentinel-1 SAR數(shù)據(jù)、SAR紋理特征和Sentinel-2 光學(xué)數(shù)據(jù),進(jìn)行土地分類(lèi)研究,結(jié)果如表6 和圖5 所示。此時(shí),融合主被動(dòng)遙感數(shù)據(jù)的土地分類(lèi)總體精度為94.96%,Kappa 系數(shù)為0.93,相對(duì)于單獨(dú)使用光學(xué)數(shù)據(jù),分類(lèi)總體精度提升5.63%,Kappa 系數(shù)提升7.82% ;相對(duì)于融合時(shí)序Sentinel-1 SAR 數(shù)據(jù),分類(lèi)總體精度提升9.94%,Kappa 系數(shù)提升14.22%。
圖5 SAR VH極化圖(左)和多時(shí)相Sentinel-1 SAR數(shù)據(jù)的極化特征、紋理特征融合單期光學(xué)數(shù)據(jù)分類(lèi)結(jié)果(右)
多源融合后的影像分類(lèi)成果精度更加精準(zhǔn),耕地、水體、林地等在圖像上的分類(lèi)更加精細(xì)。這主要是由于SAR 數(shù)據(jù)的地物后向散射特性異于光學(xué)遙感影像。光學(xué)數(shù)據(jù)反映的是目標(biāo)體的光譜特性,SAR 數(shù)據(jù)的穿透性不僅能夠獲取植被表面信息,對(duì)植被的葉、莖、枝干等信息也有一定反映,獲取的是不同于光學(xué)數(shù)據(jù)的地物信息[9]。此外,時(shí)序SAR 數(shù)據(jù)相對(duì)于光學(xué)數(shù)據(jù)和融合主被動(dòng)遙感數(shù)據(jù),在有云霧覆蓋時(shí)同樣能夠進(jìn)行土地利用分類(lèi)。在氣候濕潤(rùn)、多云多霧的江西省贛州地區(qū),當(dāng)缺乏光學(xué)數(shù)據(jù)時(shí),使用長(zhǎng)時(shí)序SAR 數(shù)據(jù)是最優(yōu)選擇。
研究在GEE 云平臺(tái)上,利用時(shí)序Sentinel-1 SAR數(shù)據(jù)和Sentinel-2 光學(xué)影像,在RF 算法上,構(gòu)建不同的特征向量組合,驗(yàn)證了利用JM 距離尋找最優(yōu)特征的可行性,對(duì)比分析了不同特征向量組合對(duì)土地利用分類(lèi)的精度,得到如下結(jié)論:
(1)在缺乏光學(xué)數(shù)據(jù)的情況下,融合時(shí)序月平均SAR 數(shù)據(jù)對(duì)土地利用分類(lèi)的精度能夠達(dá)到85%,特別是對(duì)水體的識(shí)別精度能夠達(dá)到96%以上;相對(duì)于光學(xué)數(shù)據(jù),時(shí)序SAR 數(shù)據(jù)能夠穿透云霧,對(duì)云覆蓋區(qū)域的土地利用分類(lèi)有一定指導(dǎo)作用。
(2)利用JM 距離探索了不同地物的最優(yōu)特征選擇,并將特征數(shù)降低,且相對(duì)提升了制圖精度。
(3)時(shí)序月平均SAR 數(shù)據(jù)與光學(xué)數(shù)據(jù)融合時(shí),土地利用總體分類(lèi)精度最高,達(dá)到94.96%,Kappa 系數(shù)達(dá)到0.93。