周亞男,陳 繪,劉洪斌
基于多源數(shù)據(jù)和Stacking-SHAP方法的山地丘陵區(qū)土地覆被分類
周亞男1,2,陳 繪1,劉洪斌1,2※
(1. 西南大學資源環(huán)境學院,重慶 400716;2. 重慶市數(shù)字農(nóng)業(yè)重點實驗室,重慶 400716)
山地丘陵區(qū)地形復(fù)雜,地表輻射信號畸變嚴重,地物識別困難。為準確提取山區(qū)地物信息,結(jié)合多源異構(gòu)數(shù)據(jù),Stacking 集成學習和shapley addictive explanation(SHAP)方法展開土地覆被分類研究。從Sentinel-1/2影像、氣候數(shù)據(jù)、土壤數(shù)據(jù)和數(shù)字高程圖中提取遙感、氣候、土壤和地形四類特征變量,設(shè)計多種變量組合方案,結(jié)合Stacking算法,探討不同類型變量在山區(qū)地物識別中的效用,并對比Stacking最佳方案與支持向量機(Support Vector Machine,SVM)、隨機森林(Random Forest,RF)和極端梯度回歸(eXtreme Gradient Boosting,XGBoost)算法的分類精度,評價Stacking方法在山區(qū)地物信息提取中的性能。同時,引入SHAP方法,量化Stacking模型中各特征變量的重要性。結(jié)果表明:在僅以遙感變量為基礎(chǔ)方案時,山區(qū)土地覆被分類精度最低;在分別加入氣候、土壤和地形變量后,總體精度、Kappa系數(shù)和F1分數(shù)均有所提高,其中旱地、水田和園地分類精度的提升幅度較大。基于Stacking算法結(jié)合所有類型特征變量的方案達到了最佳的分類精度,其總體精度、Kappa系數(shù)和F1分數(shù)分別為96.61%、0.96和94.81%,分類精度優(yōu)于相同特征下的SVM、 RF和XGBoost。SHAP方法可量化Stacking模型中特征變量的全局以及局部重要性,明確各變量對不同地物類型識別的相對貢獻,為山區(qū)土地覆被分類的變量選擇及優(yōu)化提供有價值的信息。該研究可為機器學習協(xié)助復(fù)雜景觀地區(qū)土地覆被制圖研究提供技術(shù)支持和理論參考。
遙感;多源數(shù)據(jù);土地覆被分類;Stacking算法;SHAP方法;山地丘陵區(qū)
土地覆被是地球陸地表層最突出的景觀標志,其時空變化直接影響地表能量平衡、生態(tài)系統(tǒng)功能和生物地球化學循環(huán)[1]。在全球環(huán)境變化和模擬研究中,高質(zhì)量的土地覆被產(chǎn)品往往也是地球系統(tǒng)模型的關(guān)鍵輸入?yún)?shù)[2],具有重要價值。準確及時地獲取土地覆被信息有助于為區(qū)域環(huán)境的高效決策和管理提供基礎(chǔ)數(shù)據(jù)集,對社會可持續(xù)發(fā)展具有重大意義。
近年來,遙感技術(shù)因覆蓋范圍廣、效率高、受地形限制小等優(yōu)勢在土地覆被分類中發(fā)揮著重要作用。學者多利用光學遙感產(chǎn)品,基于影像的光譜特征差異展開相關(guān)研究[1-4]。其中,Sentinel-2、Landsat-8等新型多光譜衛(wèi)星產(chǎn)品被廣泛使用[3-5]。它們獲取成本低廉,時空分辨率高,光譜特征豐富,在平原農(nóng)耕區(qū)、高寒濕地、中南半島等不同地域的土地覆被分類制圖中均有出色的表現(xiàn)[3-5]。同時,合成孔徑雷達(Synthetic Aperture Radar,SAR)也被逐步應(yīng)用,它不受云雨天氣限制,可全天候晝夜成像,彌補了光學影像的不足。其后向散射系數(shù)對地物的介電特性敏感,對于植被冠層結(jié)構(gòu)、土壤含水率及地表的粗糙度有不同的響應(yīng),可以提供不同于光學影像的獨特信息[6]。光學與雷達遙感數(shù)據(jù)的聯(lián)合使用已在不同尺度的地物識別中顯示出了巨大的潛能[6 -9]。然而,在山地丘陵區(qū),地勢崎嶇,地塊破碎,地物光譜特征變異復(fù)雜,地表信號輻射畸變嚴重,僅依賴于遙感數(shù)據(jù)進行地物識別,分類精度難以保證。需要結(jié)合多樣的環(huán)境輔助數(shù)據(jù),以增大地物類別的可分性。Wang等[10]在熱帶山區(qū)提取地物信息時,在光學、雷達遙感變量的基礎(chǔ)之上添加高程、坡度等地形參數(shù),有效減少了自然植被和栽培作物之間的錯分。Grabska等[11]結(jié)合Sentinel-1/2衛(wèi)星影像和數(shù)字高程圖(Digital Elevation Map,DEM)在波蘭喀爾巴阡山脈進行林分物種制圖,發(fā)現(xiàn)地形因子的引入顯著提高了制圖精度。現(xiàn)有的研究多在遙感影像基礎(chǔ)之上輔以地形數(shù)據(jù)提取山區(qū)地物信息[10-13]。實際上,除了地形變量外,與自然環(huán)境相關(guān)的土壤、氣候等因素被考慮時,分類結(jié)果可能會更可靠,因為它們同樣影響和決定土地利用和土地覆被[14]。協(xié)同使用這些多源異構(gòu)數(shù)據(jù),可能會優(yōu)勢互補,進一步提高山區(qū)地物識別精度,但是相關(guān)的研究相對匱乏。
隨著計算機技術(shù)的發(fā)展,先進的機器學習算法也已被廣泛使用在圖像分類領(lǐng)域。該類算法突破了傳統(tǒng)分析方法的固有限制,能夠從數(shù)據(jù)迭代中捕獲變量之間高階的非線性關(guān)系,避免了潛在信息的遺漏[13-15]。其中,隨機森林(Random Forest,RF)、支持向量機(Support Vector Machine,SVM)和極端梯度提升(eXtreme Gradient Boosting,XGBoost)因分類精度高、泛化性能出眾以及抗過擬合能力強而受到青睞[4,9,16]。同時,Stacking集成學習也受到了廣泛關(guān)注。它通過堆疊泛化的策略將多個機器學習分類器進行組合,綜合各單一分類器的優(yōu)勢,具有更穩(wěn)健的預(yù)測準確性。該方法已被成功應(yīng)用在生物識別[17]、地價模擬[18]和土壤養(yǎng)分預(yù)測[19]等領(lǐng)域。但該算法在地物分類中的應(yīng)用非常有限,對山區(qū)地物信息提取的適用性亟需進一步探索。
此外,在土地覆被分類領(lǐng)域使用Stacking集成學習的一個局限在于,由于算法固有的“黑盒”特性,無法量化模型中特征變量的重要性,以評估各變量在地物識別中的相對貢獻。Lundberg等[20]所提出的SHapley Addictive exPlanation(SHAP)方法彌補了上述不足。該方法作為當前廣受關(guān)注的機器學習模型事后解釋工具[20-22],通過比較變量存在或不存在情況下模型輸出的平均變化來闡明變量的重要性,其數(shù)學基礎(chǔ)嚴密,滿足局部準確性、缺失性和一致性原則[20-22]。結(jié)合SHAP方法不僅能清楚量化復(fù)雜的機器學習模型中特征變量的全局重要性,以明確影響覆被分類的關(guān)鍵因素,更好服務(wù)于制圖決策;還可以評估特征變量對各種單一地物類型識別的局部貢獻,為山區(qū)地物信息提取在變量選擇及優(yōu)化上提供更多參考信息。盡管如此,該方法目前尚未被納入土地覆被分類框架中。
綜上,本文以重慶市黔江區(qū)為例,結(jié)合多源異構(gòu)數(shù)據(jù)(Sentinel-1/2衛(wèi)星影像、DEM、土壤和氣候數(shù)據(jù))和Stacking集成算法在山地丘陵區(qū)進行土地覆被制圖。設(shè)計多種分類方案,分析不同類型特征變量對分類結(jié)果的影響,并基于最佳方案,通過與RF、SVM和XGBoost單一分類器的分類結(jié)果對比,評估Stacking方法在山區(qū)地物信息提取的有效性。同時,引入SHAP方法量化Stacking模型中特征變量的重要性,明確各變量在地物識別中的全局及局部貢獻。
重慶市黔江區(qū)地處四川盆地東南邊陲(圖1),地理坐標為108°28′E~108°56′E,29°04′N~29°52′N,總面積約為2 402 km2。境內(nèi)海拔為320~1 900 m,地貌類型是山地和丘陵,主要以中山為主,地形復(fù)雜,地塊小而破碎。該地區(qū)屬于亞熱帶季風氣候,四季分明。年均溫為15.4 ℃,年均降雨量為1 000~1 400 mm,無霜期長274 d。
1.2.1 分類體系劃分和樣本數(shù)據(jù)選取
參照《全國遙感監(jiān)測土地利用/覆蓋分類體系》,并根據(jù)研究區(qū)實際情況,將土地覆被類型在一級類上劃分為耕地、林地、水域、建設(shè)用地、園地。考慮到Sentinel-2衛(wèi)星影像較高的空間分辨率,進一步將耕地細分為旱地和水田。本研究于2017年9月期間利用手持GPS通過野外采樣獲取部分土地覆被類型樣點。同時結(jié)合第三次國土調(diào)查的1:10 000土地利用現(xiàn)狀圖進行樣本擴充。為了保證樣點的精確性,通過對同期Google Earth高分辨率影像進行目視解譯,剔除異常點,最終獲取樣本點7 485個。其中,大約70%的樣本被隨機劃分為訓(xùn)練集,30% 的為測試集(表1)。
圖1 研究區(qū)地理位置和Sentinel-2影像
表1 各土地覆被類型樣本數(shù)量
1.2.2 遙感數(shù)據(jù)及預(yù)處理
由于研究區(qū)常年的云雨天氣,質(zhì)量良好的光譜數(shù)據(jù)較難獲得。同時考慮到影像獲取時間應(yīng)該接近采樣時間,因此下載了質(zhì)量良好(云量<10%)的2017年7月10日的Sentinel-2A L1C級產(chǎn)品和2017年7月8日Sentinel-1 IW GRDH 產(chǎn)品。
利用歐空局(European Space Agency,ESA)提供的Sencor2插件對Sentinel-2A L1C產(chǎn)品進行大氣校正,轉(zhuǎn)換為大氣底層發(fā)射數(shù)據(jù)(L2A)。剔除60 m分辨率的光譜波段,并利用雙線性重采樣法,將20 m分辨率的波段重采樣為10 m。Sentinel-1 IW GRDH產(chǎn)品包括VV、VH兩種極化方式,空間分辨率為10 m。利用SNAP軟件對該產(chǎn)品進行預(yù)處理,包括軌道校正、熱噪聲去除、輻射定標、濾波和地形校正。最終,獲得VV和VH方向的后向散射系數(shù)圖像。
1.2.3 環(huán)境輔助數(shù)據(jù)及預(yù)處理
用于當前研究的環(huán)境輔助數(shù)據(jù)包括地形、土壤和氣候數(shù)據(jù)。地形數(shù)據(jù)是空間分辨率為30 m的SRTM-DEM數(shù)據(jù),從美國地質(zhì)勘探局(United States Geological Survey,USGS)下載獲得。土壤數(shù)據(jù)主要包括2017年黔江區(qū)全域的土壤養(yǎng)分(pH值、有機碳、全氮、速效鉀和有效磷)分布圖和中國土壤黏粒含量分布圖。其中,土壤養(yǎng)分分布圖的空間分辨率為10 m,從黔江區(qū)農(nóng)業(yè)農(nóng)村委員會獲得;黏粒含量分布圖空間分辨率為1 km,該數(shù)據(jù)由Shang等[23]提供。氣候數(shù)據(jù)使用全球數(shù)據(jù)庫World Clim 1.4版本(www.worldclim.org),空間分辨率為1 km。為了和Sentinel-1/2影像匹配,利用ArcGIS 10.6軟件中的最近鄰法將這些數(shù)據(jù)統(tǒng)一轉(zhuǎn)換成10 m分辨率的柵格圖層(UTM WGS84 Zone 49 N 投影系統(tǒng))。
研究流程具體如下:從多源數(shù)據(jù)中提取不同的特征變量,結(jié)合方差膨脹系數(shù)(Variance Inflation Factor,VIF)和Boruta方法進行變量優(yōu)選,簡化統(tǒng)計問題。基于優(yōu)選的特征變量,構(gòu)建不同的特征變量組合方案,并利用SMOTE(Synthetic Minority Oversampling Technique)算法平衡樣本數(shù)據(jù)后,結(jié)合Stacking集成學習進行分類,篩選出最佳分類組合?;谧罴训姆桨福ㄟ^與RF、SVM、XGBoost分類結(jié)果對比,評估Stacking方法在山區(qū)地物信息提取的性能。同時,引入 SHAP 方法,量化Stacking模型中各個特征變量的重要性。
1.3.1 變量選取、優(yōu)化及試驗方案構(gòu)建
研究發(fā)現(xiàn)[10-11],在傳統(tǒng)遙感變量的基礎(chǔ)上添加環(huán)境輔助因子,可提高復(fù)雜地形區(qū)土地覆被分類的精度。因此,本研究考慮了更多可用的環(huán)境輔助數(shù)據(jù)(DEM,氣候和土壤數(shù)據(jù)),并結(jié)合光學、雷達影像,從中提取多個光譜波段、植被水體指數(shù)、地形因子、土壤與氣候參數(shù)構(gòu)建原始變量集合。為降低模型復(fù)雜度,使用Boruta算法和多重共線性分析對原始變量進行降維,剔除無關(guān)和冗余信息。Boruta算法通過與目標函數(shù)的關(guān)系重要性,保留重要的變量集合[24]。多重共線性分析方法可以剔除高度相關(guān)的變量。本研究首先利用python 3.6.10調(diào)用Boruta 算法進行變量篩選,之后在SPSS v 25.0軟件中計算被保留的特征變量的方差膨脹系數(shù),進一步剔除系數(shù)大于10的變量,構(gòu)建優(yōu)選變量子集(表2)。基于優(yōu)選變量子集構(gòu)建5種試驗方案:方案1僅使用遙感變量,方案2、3、4在方案1的基礎(chǔ)上分別增加氣候、地形和土壤3種不同的環(huán)境輔助變量,方案5包含全部變量。通過比較不同方案分類精度,以探索不同類型環(huán)境輔助變量的效用(表3)。
1.3.2 SMOTE算法
數(shù)據(jù)集中不同類別的樣本比例不均衡往往會影響模型性能,因此引入SMOTE(Synthetic Minority Oversampling Technique)方法平衡數(shù)據(jù)集。該方法通過在變量空間中對少數(shù)類別執(zhí)行過采樣,模擬出新的樣本以平衡數(shù)據(jù)集[25-26],現(xiàn)已成功解決不同領(lǐng)域的數(shù)據(jù)不平衡問題[25-26]。在本次研究中,使用python 3.6.10 中的Borderline-SMOTE算法將不平衡的訓(xùn)練數(shù)據(jù)集轉(zhuǎn)化為平衡數(shù)據(jù)集。以進行后續(xù)的模型訓(xùn)練。表4展示了原始數(shù)據(jù)集和轉(zhuǎn)換后的平衡數(shù)據(jù)集。
表2 優(yōu)選變量集描述
表3 方案設(shè)計
表4 SMOTE過采樣前后不同覆被類型的樣點的數(shù)量
1.3.3 建模方法
Stacking方法是基于堆疊泛化策略和K折交叉驗證的一種集成算法,通過將多個機器學習算法的預(yù)測值加權(quán)組合來提高預(yù)測性能[19]。該方法融合了各個單一機器學習方法的優(yōu)勢,在分類和回歸問題中顯示出了更高的預(yù)測精度和更穩(wěn)健的泛化能力。其學習框架有兩層,第一層被稱作基學習器,第二層被稱作元學習器。其中,基學習器性能好壞往往決定著Stacking模型的最終效果??紤]到RF對噪聲和異常值不敏感,對高維數(shù)據(jù)具有良好的可擴展性[13];SVM有著成熟的理論基礎(chǔ),泛化錯誤率低[27];XGBoost處理數(shù)據(jù)高效,抗過擬合能力強[28],且上述這3種算法已被廣泛地應(yīng)用于不同學科的回歸和分類任務(wù)[13,16,27],因此被作為本研究中Stacking模型的基學習器,Logistic回歸被選擇作為元學習器。
Stacking集成學習的構(gòu)架如下:1)將訓(xùn)練集劃分為10份;2)利用十折交叉驗證的方法分別訓(xùn)練RF、SVM和XGBoost這3個基分類器;3)堆疊十折交叉驗證過程中上述3個基學習器的折疊外(out-of-fold)預(yù)測值;4)將堆疊的預(yù)測值作為元分類器的輸入,并擬合元分類器以獲得RF、SVM和XGBoos這3個基學習器的權(quán)重系數(shù);5)利用測試集對構(gòu)建的模型進行評估。
1.3.4 模型構(gòu)建與評價
基于劃分的訓(xùn)練集,利用格網(wǎng)搜索和交叉驗證的方法確定模型超參數(shù),結(jié)果如表5。獨立測試集被用于評價模型的性能。精度評估指標包括總體精度(Overall Accuracy,OA)、Kappa系數(shù)、F1分數(shù)(F1-score)、用戶精度(User’s Accuracy,UA)和生產(chǎn)者精度(Producer’s Accuracy,PA)[28-29]??傮w精度,Kappa系數(shù)和F1分數(shù)用于評價模型的整體性能;用戶精度和生產(chǎn)者精度用于評價單個覆被類別的分類精度。Kappa系數(shù)度量的是模型的分類結(jié)果與真實結(jié)果的一致程度,取值在?1~1之間,越接近1,兩者越一致。
模型構(gòu)建、參數(shù)尋優(yōu)以及精度指標計算均使用 python 3.6.10 完成。
表5 參數(shù)尋優(yōu)結(jié)果
1.3.5 SHAP方法
由Lundberg和Lee于2017年提出的SHAP方法,為所有復(fù)雜的機器學習模型提供了統(tǒng)一的解釋框架[20]。該方法基于博弈論通過計算Shapley值量化每個輸入的特征變量對于單個樣本預(yù)測的邊際貢獻,相關(guān)公式如下:
該方法側(cè)重于從單個樣本預(yù)測出發(fā),其不僅能夠評估特征變量的全局重要性還能夠量化其局部重要性,從而為模型解釋提供更多的細節(jié)。本文利用python 3.6.10調(diào)用SHAP包量化Stacking模型中各特征變量的重要性。
基于優(yōu)選的特征變量,結(jié)合SMOTE方法平衡訓(xùn)練數(shù)據(jù)集后以進行模型的構(gòu)建。表6展示了數(shù)據(jù)集被平衡前后不同試驗方案的分類結(jié)果??梢钥闯?,在數(shù)據(jù)集被平衡前后,這些試驗方案的土地覆被分類精度呈現(xiàn)出一致的趨勢:僅使用遙感變量(方案1)進行地物識別的精度最低;在遙感變量的基礎(chǔ)之上,分別添加氣候(方案2)、地形(方案3)和土壤(方案4)變量后,總體精度、Kappa系數(shù)和F1分數(shù)均有所提高。其中,加入土壤變量后精度提升最大;基于全部特征變量的方案6取得了最佳的分類結(jié)果。這證實了不同類型環(huán)境輔助變量的加入都對遙感數(shù)據(jù)進行了有效的補充,提供了異于遙感變量的獨特解釋力,從而提高了山地丘陵區(qū)土地覆被制圖精度。此外,對比數(shù)據(jù)集被平衡前后同一種方案下的各評估指標,可以發(fā)現(xiàn)SMOTE方法的使用能夠顯著提升模型性能。被平衡后模型的總體精度、Kappa系數(shù)和F1分數(shù)相較于被平衡前,其平均增幅分別為4.22%、0.05和8.77%。因此,下文基于SMOTE采樣后的結(jié)果進行分析。
表6 SMOTE采樣前后不同試驗方案的分類精度比較
不同試驗方案中各個地物類型的分類詳情如圖2所示。其中,所有的試驗方案都實現(xiàn)了對林地、建設(shè)用地和水域的準確提取,其生產(chǎn)者精度和用戶精度均在96%以上。由于這3種地物類型的光譜反射特性差異大,僅使用遙感變量就足以離散和區(qū)別;在此基礎(chǔ)上,其他類型的特征變量的加入都無法明顯提高這些地物相應(yīng)的分類精度,反而會因信息的冗余,導(dǎo)致精度的降低。而在這些不同的試驗方案中,旱地,水田和園地的分類精度存在明顯差異:方案1中,這3類地物的分類準確性最低,其生產(chǎn)者精度和用戶精度分別為78.83%和87.83%,72.22%和66.1%,93.94%和85.06%。與方案1相比,方案2、3、4在依次增加氣候、地形和土壤變量后,旱地的生產(chǎn)者精度和用戶精度分別提升了3.16和1.58(方案2)、6.8和2.44(方案3)、9.71和4.57(方案4)個百分點;水田分別提升了3.7和1.11、3.71和9.13、9.26和14.63個百分點,園地分別提高了4.04和6.45、2.69和4.91、4.72和9.15個百分點??梢姡@些環(huán)境輔助變量的加入有效地提高了旱地、水田和園地這些農(nóng)用地類的分類精度。研究區(qū)處于南方山地丘陵地帶,具有高度異質(zhì)性的格局,輻射信號畸變嚴重,境內(nèi)不同類型農(nóng)用地交錯分布,像元混雜;同時,農(nóng)用地栽培作物的“同物異譜,異物同譜”現(xiàn)象突出[16],僅依賴于遙感數(shù)據(jù)難以提供足夠的信息。因此,在方案1中,這些農(nóng)用地類間錯分嚴重。加入地形,氣候和土壤等相關(guān)因素后,錯分情況顯著減少。這主要是因為地形、氣候和土壤等自然環(huán)境要素會影響人類活動,進而決定土地利用方式和土地覆被類型。具體而言,對于不同類型的農(nóng)作物耕種,通常會綜合考量地形地勢條件、氣候適宜度和土壤功能性屬性(土壤質(zhì)地和養(yǎng)分)等以進行農(nóng)業(yè)區(qū)劃,這在一定程度上決定了不同類型農(nóng)用地的空間分布。
現(xiàn)有的山區(qū)土地利用分類更多側(cè)重于使用光學、雷達遙感數(shù)據(jù)或者結(jié)合地形輔助數(shù)據(jù)[12-14],本研究考慮了更多環(huán)境輔助數(shù)據(jù)的可用性,證實了不同類型環(huán)境輔助變量在山區(qū)地物信息提取的效用,與以往研究[15-17](總體精度<92%, Kappa系數(shù)<0.90)相比進一步提高了山區(qū)土地覆被分類精度[12-14],這為復(fù)雜地區(qū)地物識別在數(shù)據(jù)選擇上提供了借鑒。
圖2 不同試驗方案中各土地覆被類型的分類精度
為評估Stacking模型在山區(qū)地物信息提取中的適用性,將最佳的分類方案與RF、SVM和XGBoost這些單一的基學習器分類結(jié)果進行對比,結(jié)果如表7所示。其中,Stacking算法的分類精度最高,總體精度為96.61%,Kappa系數(shù)為0.96,F(xiàn)1分數(shù)為94.81%,其次依次為XGBoost、SVM和RF。與基學習器相比,Stacking集成算法的總體精度、Kappa系數(shù)和F1分數(shù)分別提高了1.24~2.57個百分點、0.02~0.03和1.3~3.36個百分點。這與Fu等[30]和Long等[31]的研究結(jié)果一致,他們在利用遙感圖像分別對濕地和紅樹林物種進行分類時,同樣發(fā)現(xiàn)Stacking集成算法可提供較單一基分類器更準確的精度。表7中的混淆矩陣還揭示了各種分類算法識別不同地物類型的詳細情況。由矩陣對角線上被正確劃分的各地物樣點數(shù)量可知,不同分類算法在提取各單一地物類型信息的能力不同:RF識別建設(shè)用地的能力比較顯著,SVM在旱地信息提取上具有優(yōu)勢,XGBoost識別水田和林地的能力更為突出,這3種不同的單一基分類器在山區(qū)地物信息提取中有著各自獨特的優(yōu)劣勢。而Stacking算法則綜合集成了RF、SVM和XGBoost這3種基學習器的優(yōu)勢,對它們的分類結(jié)果進行加權(quán)組合,在各種類型地物識別中均表現(xiàn)出最佳性能,因而準確性最高。
表7 基于最佳方案的不同算法的混淆矩陣
土地覆被分類圖直觀地展示了不同算法的分類結(jié)果(圖3a)。從目視效果看,水域多分布于東部地區(qū),建設(shè)用地集中在東北部,林地則廣泛分布在整個區(qū)域內(nèi),這3種地物類型在各種算法中呈現(xiàn)出一致的空間分布格局,相應(yīng)的圖斑邊界分明,分布連續(xù),較為規(guī)整平滑。而區(qū)內(nèi)旱地、水田和園地這些農(nóng)用地混合分布于林地內(nèi),地塊面積較小,地物圖斑分布較為破碎,相應(yīng)的分類結(jié)果在不同算法中也不一致。結(jié)合局部分類圖(圖3b)和不同算法分類結(jié)果中地物類型占比情況(表7)可以發(fā)現(xiàn),3種基學習器對旱地信息提取不完整,同時會高估水田、園地的面積分布。Stacking算法則能夠兼顧局部紋理細節(jié),與3種基學習器相比,相應(yīng)的旱地、水田和園地生產(chǎn)者精度分別平均提高了6.88,2.47和0.6個百分點,用戶精度分別平均提高了1.1,6.58和3.15個百分點,該算法實現(xiàn)了山區(qū)土地覆被精細分類的最佳結(jié)果。
土地利用/覆被分類研究受益于建模方法。以往的研究大都基于單一分類器的性能對比,以選擇最佳的建模方法。當前研究則利用Stacking集成算法結(jié)合多種機器學習方法進行分類,產(chǎn)生了比單一分類器更準確和穩(wěn)健的結(jié)果。不過,Taghizadeh-Mehrjar等[32]強調(diào)道,只有當來自基學習器的預(yù)測值相關(guān)性較低時,Stacking模型才能獲得較大的改進,因此未來的研究將會嘗試納入更多樣化的算法以進一步提升Stacking性能。
基于最佳試驗方案,利用SHAP方法量化了Stacking模型中各特征變量在地物識別中的重要性。如圖4所示,按照全局重要性,排名靠前的特征變量的相對重要性分數(shù)依次為NDVI(100%)、MCARI(77%)、MNDWI(69%)。然而,這些特征變量并非在每種地物識別中都具有顯著貢獻。圖4還展示了單個地物類型識別中變量重要性排序:對于旱地而言,排名靠前的特征變量的相對重要性分數(shù)依次為NDVI(100%)、B5(76%)、MCARI(70%);對于水田依次為NDVI(100%)、MCARI(81%)、B5(65%);對于林地為NDVI(100%)、B2(76%)、Slope(36%),對于建設(shè)用地是NDVI(100%)、MCARI(82%)、IRECI(65%),對于園地是B5(100%)、NDVI(97%)、K(74%),對于水域則為MNDWI(100%)、MCARI(43%)、B5(31%)。
圖3 不同算法的土地覆被分類圖
圖4 基于SHAP方法的特征變量重要性排序
綜合全局和局部重要性對特征變量進行分析可知,NDVI是研究區(qū)土地覆被分類最關(guān)鍵的變量,它在旱地、水田、建設(shè)用地、林地和園地多種地物識別中重要性排名均位于前列。所選影像時相為夏季,栽培作物和自然植被此時生長茂盛,同時研究區(qū)內(nèi)森林覆蓋率極高。NDVI作為反映植被生長狀態(tài)和植被分布密度最佳的指數(shù)因子[3],提取了大范圍內(nèi)不同類型的作物和植被信息,因此在各種農(nóng)用地類型和林地識別中重要性顯著。同時,建設(shè)用地偏裸地特性,植被覆蓋率低,NDVI能有效地將它與植被覆蓋度高的其他地類區(qū)分。紅邊因子MCARI重要程度僅次于NDVI,主要貢獻體現(xiàn)在不同類型農(nóng)用地的信息提取?!凹t邊”是位于電磁波譜紅色和近紅外之間的光譜域,受到植被體內(nèi)葉綠素的吸收作用,在此范圍內(nèi)植被反射率會急劇上升,該特征可有效區(qū)別植被和非植被[33]。Shendryk 等[33]在利用Sentinel-2進行植被類型識別時,發(fā)現(xiàn)紅邊波段及其衍生的植被指數(shù)在描繪圖像中線性和小尺寸元素方面具有優(yōu)勢,證實了紅邊因子在區(qū)分植被類間的效用。因此,紅邊因子有利于種植著不同栽培作物農(nóng)用地(水田、旱地和園地)的類間區(qū)分。MNDWI在全局重要性中排名第三,在水域的識別中起著主導(dǎo)作用。該指數(shù)可以有效抑制甚至消除建設(shè)用地,植被和土壤的噪聲,從而增強開放性的水體特征[34]。此外,雖然坡度(Slope)和土壤速效鉀含量(K)在全局重要性中排名并不靠前,但二者分別對林地、園地的提取有著一定貢獻。SHAP方法針對多分類問題,會計算每個特征對于不同地類的重要性,因此,與以往研究中僅局限于評估特征變量的全局重要性所不同,特征變量對于各單一地類識別的局部貢獻也被量化,這可進一步明確各變量具體是通過影響哪類地物信息提取進而影響最終分類結(jié)果,這為覆被分類制圖在今后的變量選擇和優(yōu)化上提供了更多有價值的信息。
本研究以重慶市黔江區(qū)為例,從Sentinel-1/2影像、土壤、氣候數(shù)據(jù)和DEM中提取不同的特征變量,設(shè)計多種特征組合方案,探究不同類型特征變量在山地信息提取的效用。同時,基于最佳方案,將Stacking與RF、 SVM和 XGBoost分類結(jié)果進行對比,評估Stacking方法在山區(qū)地物信息提取中的性能。引入SHAP方法,明確量化了Stacking模型中各個特征變量的重要性。結(jié)果表明:
1)與僅使用遙感變量相比,加入氣候、地形和土壤變量可以有效提高山區(qū)土地覆被分類的精度,其中,農(nóng)用地地類的分類精度提升幅度較大,加入氣候、地形和土壤變量后,旱地的生產(chǎn)者精度和用戶精度分別提升了3.16和1.58、6.8和2.44、9.71和4.57個百分點;水田分別提升了3.7和1.11、3.71和9.13、9.26和14.63個百分點;園地分別提高了4.04和6.45、2.69和4.91、4.72和9.15個百分點;
2)Stacking算法與優(yōu)選的所有類型變量結(jié)合可實現(xiàn)山區(qū)地物最佳的分類結(jié)果,其總體精度,Kappa系數(shù)和F1分數(shù)分別為96.61%、0.96和94.81%。與RF、 SVM和 XGBoost單一的基學習器相比,其總體精度、Kappa系數(shù)和F1分數(shù)分別提高了1.24~2.57個百分點、0.02~0.03和1.3~3.36個百分點。
3)SHAP方法可量化Stacking模型中各特征變量的全局及局部重要性,明確了各變量在不同類型地物識別中的相對貢獻,為山區(qū)覆被分類制圖在特征選擇和優(yōu)化上提供了有價值的信息。
[1] Verde N, Kokkoris I, Georgiadis C, et al. National scale land cover classification for ecosystem services mapping and assessment using multitemporal copernicus EO data and google earth engine[J]. Remote Sensing, 2020, 12(20): 3303.
[2] Liu H, Gong P, Wang J, et al. Production of global daily seamless data cubes and quantification of global land cover change from 1985 to 2020 - iMap World 1.0[J]. Remote Sensing of Environment, 2021, 258:112364.
[3] 何云,黃翀,李賀,等. 基于Sentinel-2A影像特征優(yōu)選的隨機森林土地覆蓋分類[J]. 資源科學,2019,41(5):992-1001.
He Yun, Huang Chong, Li He, et al. Land-cover classification of random forest based on Sentinel-2A image feature optimization [J]. Resources Science, 2019, 41(5): 992-1001. (in Chinese with English abstract)
[4] 侯蒙京,殷建鵬,葛靜,等. 基于隨機森林的高寒濕地地區(qū)土地覆蓋遙感分類方法[J]. 農(nóng)業(yè)機械學報,2020,51(7):220-227.
Hou Mengjing, Yin Jianpeng, Ge Jing, et al. Land cover remote sensing classification method of alpine wetland region based on random forest algorithm[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(7): 220-227. (in Chinese with English abstract)
[5] 王李娟,孔鈺如,楊小冬,等. 基于特征優(yōu)選隨機森林算法的農(nóng)耕區(qū)土地利用分類[J]. 農(nóng)業(yè)工程學報,2020,36(4):244-250.
Wang Lijuan, Kong Yuru, Yang Xiaodong, et al. Classification of land use in farming areas based on feature optimization random forest algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(4): 244-250. (in Chinese with English abstract)
[6] 寧曉剛,常文濤,王浩,等. 聯(lián)合 GEE 與多源遙感數(shù)據(jù)的黑龍江流域沼澤濕地信息提取[J]. 遙感學報,2022,26(2):386-396.
Ning Xiaogang, Chang Wentao, Wang Hao, et al. Extraction of marsh wetland in Heilongjiang Basin based on GEE and multi-source remote sensing data[J]. National Remote Sensing Bulletin, 2022, 26(2): 386-396. (in Chinese with English abstract)
[7] Kpienbaareh D, Sun X, Wang J, et al. Crop type and land cover mapping in northern Malawi using the integration of Sentinel-1, Sentinel-2, and Planetscope satellite data[J]. Remote Sensing, 2021, 13(4): 700.
[8] 姚金璽,王浪,李建忠,等. 青海諾木洪地區(qū)多源遙感及多特征組合地物分類[J]. 農(nóng)業(yè)工程學報,2022,38(3):247-256.
Yao Jinxi, Wang Lang, Li Jianzhong, et al. Multi-source remote sensing and multi-feature combination ground object classification in Nuomuhong areas,Qinghai Province of China[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(3): 247-256. (in Chinese with English abstract)
[9] 翟鵬飛,李世華,胡月明. 協(xié)同光學與雷達遙感數(shù)據(jù)的面向?qū)ο笸恋馗采w變化檢測[J]. 農(nóng)業(yè)工程學報,2021,37(23):216-224.
Zhai Pengfei, Li Shihua, Hu Yueming. Object-oriented land cover change detection combining optical and radar remote sensing data[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(23): 216-224. (in Chinese with English abstract)
[10] Wang Y, Feng C, Duc H, et al. C. Feng, H. Vu Duc Integrating multi sensor remote sensing data for land use/cover mapping in a tropical mountainous area in Northern Thailand[J]. Geographical Research, 2012, 50(3): 320-331.
[11] Grabska E, Frantz D, Ostapowicz K. Evaluation of machine learning algorithms for forest stand species mapping using Sentinel-2 imagery and environmental data in the Polish Carpathians[J]. Remote Sensing of Environment, 2020, 251: 112103.
[12] 郭逸飛,吳田軍,駱劍承,等. 基于不確定性迭代優(yōu)化的山地植被遙感制圖[J]. 地球信息科學學報,2022,24(7):1406-1419.
Guo Yifei, Wu Tianjun, Luo Jiancheng, et al. Remote sensing mapping of mountain vegetation via uncertainty-based iterative optimization[J]. Journal of Geo-information Science, 2022, 24(7):1406-1419. (in Chinese with English abstract)
[13] 李恒凱,王利娟,肖松松. 基于多源數(shù)據(jù)的南方丘陵山地土地利用隨機森林分類[J]. 農(nóng)業(yè)工程學報,2021,37(7):244-251.
Li Hengkai, Wang Lijuan, Xiao Songsong. Random forest classification of land use in hilly and mountain areas of southern China using multi-source remote sensing data [J].Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(7): 244-251. (in Chinese with English abstract)
[14] Zeferino L B, Souza L, Amaral C, et al. Does environmental data increase the accuracy of land use and land cover classification?[J]. International Journal of Applied Earth Observation and Geoinformation, 2020, 91: 102128.
[15] Zhang L, Wang Y, Niu M, et al. Machine learning for characterizing risk of type 2 diabetes mellitus in a rural Chinese population: The Henan Rural Cohort Study[J]. Scientific Reports, 2020, 10(1): 1-10.
[16] Georganos S, Grippa T, Vanhuysse S, et al. Very high resolution object-based land use–land cover urban classification using extreme gradient boosting[J]. IEEE Geoscience and Remote Sensing Letters, 2018, 15(4): 607-611.
[17] Biswas D, Everson L, Liu M, et al. CorNET: Deep learning framework for PPG-based heart rate estimation and biometric identification in ambulant environment[J]. IEEE Transactions on Biomedical Circuits and Systems, 2019, 13(2): 282-291.
[18] 張鵬,胡守庚,楊剩富,等. 基于多源數(shù)據(jù)和集成學習的城市住宅地價分布模擬:以武漢市為例[J]. 地理科學進展,2021,40(10):1664-1677.
Zhang Peng, Hu Shougeng, Yang Shengfu, et al. Modeling urban residential land price distribution using multi-source data and ensemble learning: A case of Wuhan City[J]. Progress in Geography, 2021, 40(10): 1664-1677. (in Chinese with English abstract)
[19] Taghizadeh-Mehrjardi R, Hamzehpour N, Hassanzadeh M, et al. Enhancing the accuracy of machine learning models using the super learner technique in digital soil mapping[J]. Geoderma, 2021, 399: 115108.
[20] Lundberg S, Lee S. A unified approach to interpreting model predictions[C]//Proceedings of the 31st Conference on Neural Information Processing Systems. Long Beach, USA:ACM digital library, 2017.
[21] Stoji? A, Stani? N, Vukovi? G, et al. Explainable extreme gradient boosting tree-based prediction of toluene, ethylbenzene and xylene wet deposition[J]. Science of the Total Environment, 2019, 653: 140-147.
[22] 周挺,楊軍,詹祥澎,等. 一種數(shù)據(jù)驅(qū)動的暫態(tài)電壓穩(wěn)定評估方法及其可解釋性研究[J]. 電網(wǎng)技術(shù),2021,45(11):4416-4425.
Zhou Ting, Yang Jun, Zhan Xiangpeng, et al. Data-driven Method and Interpretability Analysis for Transient Voltage Stability Assessment[J]. Power System Technology, 2021, 45(11): 4416-4425. (in Chinese with English abstract)
[23] Shang W, Dai Y, Liu B, et al. A soil particle-size distribution dataset for regional land and climate modelling in China[J]. Geoderma, 2012, 171: 85-91.
[24] Zeraatpisheh M, Garosi Y, Owliaie H, et al. Improving the spatial prediction of soil organic carbon using environmental covariates selection: A comparison of a group of environmental covariates[J]. Catena, 2022, 208:105723.
[25] Elreedy D, Atiya A. A Comprehensive Analysis of Synthetic Minority Oversampling Technique (SMOTE) for handling class imbalance[J]. Information Sciences, 2019, 505: 32-64.
[26] Taghizadeh-Mehrjardi R, Schmidt K, Eftekhari K, et al. Synthetic resampling strategies and machine learning for digital soil mapping in Iran[J]. European Journal of Soil Science, 2020, 71(3): 352-368.
[27] 張?zhí)炝粒瑥垨|興,崔濤,等. 基于葉片光譜特性的玉米品種抗倒伏性預(yù)測[J]. 農(nóng)業(yè)工程學報,2022,38(1):178-185.
Zhang Tianliang, Zhang Dongxing, Cui Tao, et al. Predicting lodging resistance of maize varieties using leaf hyperspectral imaging[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(1): 178-185. (in Chinese with English abstract)
[28] 劉通,任鴻瑞. GEE平臺下利用物候特征進行面向?qū)ο蟮乃痉N植分布提取[J]. 農(nóng)業(yè)工程學報,2022,38(12):189-196.
Liu Tong, Ren Hongrui. Object-oriented extraction of paddy rice planting areas using phenological features from the GEE platform[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(12): 189-196. (in Chinese with English abstract)
[29] Solórzano J V, Mas J F, Gao Y, et al. Land use land cover classification with U-Net: advantages of combining Sentinel-1 and Sentinel-2 imagery[J]. Remote Sensing, 2021, 13(18): 3600.
[30] Fu B L, He X, Yao H, et al. Comparison of RFE-DL and stacking ensemble learning algorithms for classifying mangrove species on UAV multispectral images[J]. International Journal of Applied Earth Observation and Geoinformation, 2022, 112: 102890.
[31] Long X R, Li X Y, Lin H, et al. Mapping the vegetation distribution and dynamics of a wetland using adaptive-stacking and Google Earth Engine based on multi-source remote sensing data[J]. International Journal of Applied Earth Observation and Geoinformation, 2021, 102: 102453.
[32] Taghizadeh-Mehrjardi R, Schmidt K, Amirian-Chakan A, et al. Improving the spatial prediction of soil organic carbon content in two contrasting climatic regions by stacking machine learning models and rescanning covariate space[J]. Remote Sensing, 2020, 12(7): 1095.
[33] Shendryk Y, Rist Y, Ticehurst C, et al. Deep learning for multi-modal classification of cloud, shadow and land cover scenes in PlanetScope and Sentinel-2 imagery[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2019, 157: 124-136.
[34] Phan T N, Kuch V, Lehnert L W. Land cover classification using google earth engine and random forest classifier—the role of image composition[J]. Remote Sensing, 2020, 12(15): 2411.
Land cover classification in hilly and mountainous areas using multi-source data and Stacking-SHAP technique
Zhou Yanan1,2, Chen Hui1, Liu Hongbin1,2※
(1.,,400716,; 2.,400716,)
An accurate classification of land cover can greatly contribute to the basic dataset for regional ecological protection and environmental management. Remote sensing (RS) images are commonly used as the main data source for the extraction of land cover at present. However, there is a complex landscape, broken distribution of ground objects, frequent cloud cover, as well as serious radiometric distortion in the hilly and mountainous areas. Thus, it is difficult to accurately gain the distribution information of ground objects only by satellite images. Fortunately, the collaborative application of multi-source heterogeneous data can be expected to bridge the deficiency of a single data source, in order to accumulate more valuable information for the separability of ground objects. Great prospects can be realized to extract the land cover in areas with the complex surface landscape. In addition, the stacking algorithm with advanced machine learning can present superior and robust predictive performance in recent classification tasks. Therefore, the purpose of the current study is to explore the effectiveness of the multi-source heterogeneous data and stacking algorithm on land cover classification in hilly and mountainous areas. The study area was taken as the Qian Jiang District in Chongqing Province of China. Specifically, the various feature variables were extracted from the multi-source heterogeneous data, including the Sentinel-1/2 images, Digital Elevation Model (DEM), soil and climate data. Boruta method and Variance Inflation Factor (VIF) were applied to eliminate the redundant feature for the simple statistics. Then, five schemes with different inputs were created using the subset of the optimized variables, including the purely RS variables, RS variables plus climate factors, RS variables plus terrain parameters, RS variables plus soil parameters, and all variables. A stacking algorithm was also used to construct the classification model for the impacts of different types of variables on the classification accuracy of land cover. Meanwhile, the best classification using the stacking algorithm was compared with the Support Vector Machine (SVM), Random Forest (RF), and extreme gradient boosting (XGBoost). Additionally, a novel shapley addictive explanation (SHAP) was introduced to quantify the importance of variables in the model. The results showed that the overall accuracy, Kappa coefficient, and F1-score were significantly improved after the introduction of the climate, soil, and terrain variables. By contrast, the lowest classification accuracy of land cover was found in the model only using remote sensing variables. Among them, the soil variables contributed the most improvement, followed by the terrain, and climate variables. The classification accuracy of agricultural land types (dry farmland, paddy field, and orchard) was greater than that of the rest. The best classification accuracy was achieved in the experimental scheme with all feature variables, indicating an overall accuracy of 96.61%, Kappa of 0.96, and F1-score of 94.81%. The classification accuracy of the improved was higher than that of the SVM, RF, and XGBoost under the same variables. The SHAP technique can be expected to quantify and evaluate the global importance of each variable, indicating that the traditional vegetation and water spectral indicators were the most important feature variables. Besides, the local contribution of each variable for each land cover type can provide more value to optimize the parameters for the extraction of object information in hilly and mountainous areas. This finding can offer technical support and theoretical reference for land cover mapping in complex landscape areas.
remote sensing; multi-source data; land cover classification; Stacking algorithm; SHAP technique; hilly and mountainous areas
10.11975/j.issn.1002-6819.2022.23.023
P237
A
1002-6819(2022)-23-0213-10
周亞男,陳繪,劉洪斌. 基于多源數(shù)據(jù)和Stacking-SHAP方法的山地丘陵區(qū)土地覆被分類[J]. 農(nóng)業(yè)工程學報,2022,38(23):213-222.doi:10.11975/j.issn.1002-6819.2022.23.023 http://www.tcsae.org
Zhou Yanan, Chen Hui, Liu Hongbin. Land cover classification in hilly and mountainous areas using multi-source data and Stacking-SHAP technique[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(23): 213-222. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.23.023 http://www.tcsae.org
2022-07-28
2022-10-21
中央高?;究蒲袠I(yè)務(wù)費專項(XDJK2016D041)
周亞男,研究方向主要為土地信息系統(tǒng)。Email:zyn1999@email.swu.edu.cn
劉洪斌,博士、研究員,博士生導(dǎo)師。研究方向主要為GIS、遙感和土壤-景觀關(guān)系。Email:swuagis@163.com