鐘蕭俊,秦夢謠
(蘭州大學(xué),甘肅 蘭州 730000)
遙感傳感器的空間分辨率和光譜分辨率不斷提高,尤其是高光譜分辨率的提高,使高光譜遙感成為遙感最重要的研究方向之一[1]。杜培軍等認為高光譜遙感影像分類要繼續(xù)引入模式識別與機器學(xué)習(xí)領(lǐng)域的新理論、新模型,發(fā)展更先進、更有效的高光譜影像分類方法[2]。劉大偉等針對高分辨率影像應(yīng)用DBN 對高分辨率影像進行了基于光譜-紋理特征的分類,并與其他算法做了對比[3]。李朝奎等應(yīng)用不同算法基于面向?qū)ο蠛鸵?guī)則進行了分類研究[4]。張寅丹等基于實驗得出了監(jiān)督方法更適合分析高分辨率遙感影像的特定目標(biāo)地物提取的結(jié)論[5]。因此,本文基于對象針對監(jiān)督分類算法,對比數(shù)據(jù)挖掘中的KNN、J48、SMO 三種方法,建立了靖遠縣地區(qū)的土地覆被。
KNN 分類算法是一種簡單有效的高光譜影像的分類方法,是數(shù)據(jù)挖掘領(lǐng)域的經(jīng)典算法。其思路是找到距離樣本特征空間最近樣本,如果這K 個樣本大多數(shù)都屬于同一個類別,則該樣本也屬于這個類別。該方法在面對高空間分辨率和高光譜分辨率時會面臨維度災(zāi)難、運算時間長的問題。因此,陸海霞等做了基于對象的KNN 算法的研究,認為基于對象的KNN 算法能顯著降低運算時間[6]。王小美等基于測定距離對KNN 算法進行改進,得到適用于高光譜遙感數(shù)據(jù)的分類方法[7]。王佃來等基于BP改進的KNN 算法進行了土地覆蓋分類的研究,提高了KNN 算法的精度[8]。趙理君等認為KNN 算法受參數(shù)的影像程度更弱[9]。
J48 算法是決策樹算法的一種,是C4.5 算法的一個版本,ID3 算法是其核心,ID3 算法的核心是“信息熵”[10]。J48算法在同類算法中不僅分類準(zhǔn)確率高,而且速度快[11]。楊雪峰等針對多種決策樹算法進行研究,得出了近紅外數(shù)據(jù)集的分類效果優(yōu)于紅光數(shù)據(jù)[12],本文也選取了近紅外波段。孫宇翼等對比了J48 決策樹、最大似然法和基于試錯性規(guī)則集的面向?qū)ο蠓椒?,認為J48 算法分類精度明顯優(yōu)于兩者[13]。
支持向量機最初用來對數(shù)據(jù)進行二值分類,原理是尋找一個滿足分類要求的最優(yōu)分割超平面,即不僅能分開兩者,并且使兩者的分類空隙最大。其區(qū)別于傳統(tǒng)的降維方法,SVM 通過提升數(shù)據(jù)維度將非線性分類問題轉(zhuǎn)變成了線性分類問題,解決了傳統(tǒng)算法中訓(xùn)練集誤差最小而測試集誤差仍較大的問題[14]。即SVM 本身是解決二分類問題的,針對遙感影像的多分類特點,有兩種解決方法:一種是集成許多二分類問題,另一種是將多個分類面的參數(shù)求解合并到一個優(yōu)化問題中[15]。SMO 算法由John C.Platt 于1998 年提出,其優(yōu)點在于將求解子問題的耗費轉(zhuǎn)移到迭代上,然后在迭代上尋求快速算法[16]。張艷等提出了SDBSMO 算法[17]。張召針對SMO 算法只用一個閾值參數(shù)引起的問題進行了實驗[18]。黎超等提出了P-SMO 算法,以冗余維的去除提高了SMO 算法的性能[19]。胡懋智等做了不同類型支持向量機算法的對比,認為SMO 算法在線性核的表現(xiàn)優(yōu)于非線性核[20]。胡自申等通過逐步減少訓(xùn)練數(shù)據(jù),證明了SVM 算法具有很好的泛化性能[21]。段秋亞等基于高分一號數(shù)據(jù)水體信息提取,對比了多種方法,得出了SVM 算法提取精度最高的結(jié)論[22]。張友靜等對比了多種傳統(tǒng)方法與SVM 決策支持樹對城市植被的分類研究,證明了SVM 的優(yōu)越性能[23]。薛夢姣等基于資源三號衛(wèi)星對比了基于對象的多種機器學(xué)習(xí)方法的分類結(jié)果,得出了面向?qū)ο蟮腟VM 分類方法遠高于面向?qū)ο蟮腒NN 算法[24]。
靖遠縣,隸屬甘肅省白銀市,位于黃河上游,甘肅省中東部,白銀市腹地,白銀市平川區(qū)從中析置。靖遠縣土地類型復(fù)雜多樣,農(nóng)、林、牧、副、漁潛力較大;水資源低于國內(nèi)平均水平;為溫帶大陸性氣候,降水集中在6-8 月份,雨熱同期,光能充足,溫差較大,地形復(fù)雜,可滿足農(nóng)作物生長條件。在6 月份,農(nóng)作物長勢良好。靖遠縣下轄13 個鎮(zhèn)、5 個鄉(xiāng)。2017 年,靖遠縣常住人口為46.18 萬人,實現(xiàn)地區(qū)生產(chǎn)總值(GDP)70.68 億元。其中:第一產(chǎn)業(yè)增加值24.41 億元,第二產(chǎn)業(yè)增加值17.43 億元,第三產(chǎn)業(yè)增加值28.84 億元,三次產(chǎn)業(yè)結(jié)構(gòu)比例為34.5:24.7:40.8,人均生產(chǎn)總值達到15 356 元。研究區(qū)的典型地物有農(nóng)田、城鎮(zhèn)居民地、鄉(xiāng)村居民地、水系、道路、裸露山地等,如圖1 所示。
圖1 矯正后研究區(qū)圖像
本報告選用的傳感器為Landsat-8 衛(wèi)星OLI 數(shù)據(jù),條代號是130,行編號是035,傳感器一共9 個波段,分別是:海岸氣溶膠波段、藍波段、綠波段、紅波段、近紅外波段、2 個短波紅外波段、全色波段、卷云波段、2 個熱紅外波段。除全色波段空間分辨率為15 m、2 個熱紅外波段空間分辨率為100 m 外,其余波段空間分辨率都為30 m;數(shù)據(jù)產(chǎn)品為L1T,記錄格式為BSQ,用TIF 格式存儲。影像獲取時間為2019 年1 月22 日,其中心時間為03:37:46;中心經(jīng)度為104.536 6°,中心緯度為36.054 7°;坐標(biāo)系為WGS_1984_UTM_Zone_48N;太陽方位角為112.721 146°,太陽高度角為64.210 290°。利用Landsat-8 OLI 數(shù)據(jù),經(jīng)過校正后,將多光譜30 m 空間分辨率和全色波段15 m 空間分辨率的波段,進行影像融合。融合后的影像波段信息如表1 所示。
表1 傳感器參數(shù)與波段介紹
在易康中,利用多尺度分割算法,以9.0 的分割版本;圖層權(quán)重為1,1,1,1,2,1,1;尺度參數(shù)為50;形狀因子為0.1,緊致性因子為0.5。分割結(jié)果如圖2 所示。
圖2 分割結(jié)果圖
選擇特征,并導(dǎo)出。特征表如表2 所示。
表2 幾何信息的分類特征
根據(jù)區(qū)域特點,將該地區(qū)分為7 種土地覆被,分別是:塑料大棚、山地、農(nóng)田、綠地、裸地、居民地、河流。
基于WEKA 平臺選擇監(jiān)督分類中的J48 分類算法、IBK 算法、SMO 算法,進行模型訓(xùn)練、分類和驗證。結(jié)果如圖3 所示。
圖3 分類結(jié)果圖
精度評價如表3、表4 所示。
表3 精度評價表
表4 混淆矩陣
從實驗結(jié)果可以看出,在30 m 分辨率下,分類效果一般。一方面是研究區(qū)的情況比較復(fù)雜,樣本點的選取數(shù)量偏少;另一方面是在樣本的選取過程中,有些區(qū)域很難辨認,導(dǎo)致樣本選取不夠精確。同時,裸地、山地、無植被覆蓋的耕地很難區(qū)分,植被和有作物覆蓋的耕地很難區(qū)分,導(dǎo)致可分性不高。從統(tǒng)計結(jié)果看,SMO 分類算法的正確率和Kappa 系數(shù)高于KNN 分類算法,KNN 分類算法高于J48 分類算法。
從山地的分類結(jié)果看,J48 的分類結(jié)果更符合實際,而KNN 和SMO 將小的破碎點(綠地和裸地)都分為了山地。從居民地的分類結(jié)果看,KNN 的分類效果最差,J48分類效果最好。從塑料大棚的分類效果來看,KNN 的算法最優(yōu),J48 最差。
從統(tǒng)計結(jié)果來看,針對本區(qū)域SMO 的分類精度最高,效果最好,KNN 次之,J48 最差。