康 洋 任 潔 全 凱 楊江濤 張宏鳴*
1(西北農(nóng)林科技大學(xué)信息工程學(xué)院 陜西 楊凌 712100)
2(西北農(nóng)林科技大學(xué)水利與建筑工程學(xué)院 陜西 楊凌 712100)
梯田是一種沿等高線方向修建的臺(tái)階式田地,在提高糧食產(chǎn)量、治理水土流失等方面具有重要作用[1]。因此,如何快速準(zhǔn)確地對(duì)區(qū)域內(nèi)梯田分布信息進(jìn)行提取,對(duì)區(qū)域生態(tài)規(guī)劃以及自然災(zāi)害的預(yù)防具有重要的作用與意義。長期以來,采用人工統(tǒng)計(jì)的方法來提取梯田分布信息效率低并且精度不高[2]。隨著無人機(jī)遙感影像的發(fā)展,結(jié)合高分辨率遙感影像進(jìn)行地物分布信息提取,逐漸成為當(dāng)前研究熱點(diǎn)話題之一??偨Y(jié)目前梯田提取的研究進(jìn)展,主要分為基于窗口與基于對(duì)象兩種方法。
基于窗口的提取方法,利用影像的紋理特征以及灰度特征,以像素窗口為最小單元進(jìn)行梯田分布信息提取。Sofia等[3]采用改進(jìn)的直線線段檢測算法結(jié)合數(shù)字高程模型(Digital Elevation Model,DEM)對(duì)梯田信息進(jìn)行提取。Crommelinck等[4]將梯田影像分割為若干個(gè)不重疊區(qū)域,進(jìn)行邊緣檢測以及邊緣連接,進(jìn)行梯田提取。Zhang等[5]通過對(duì)高分辨率梯田遙感影像的邊緣檢測生成二值圖像,再采用模板匹配法來對(duì)梯田區(qū)域進(jìn)行提取,但模板尺寸固定,未能對(duì)梯田研究區(qū)域取得一個(gè)較好的結(jié)果。
基于對(duì)象的提取方法,通過多尺度分割將梯田影像轉(zhuǎn)化為多個(gè)樣本對(duì)象,結(jié)合紋理特征、光譜特征、形狀特征等,充分利用相關(guān)地形信息來進(jìn)行梯田分布提取。Capolupo等[6]基于DEM以及多光譜數(shù)據(jù),采用坡度、地形位置指數(shù)與最小差異指數(shù)作為分類特征對(duì)梯田進(jìn)行提取,由于研究區(qū)域有較多的植被覆蓋,提取結(jié)果受到一定的影響。Eckert等[7]將高光譜數(shù)據(jù)與數(shù)字地表模型(Digital Surface Model,DSM)相結(jié)合,采用SVM算法來進(jìn)行提取。薛牡丹等[8]將地形因子與無人機(jī)獲取的高分辨率遙感影像融合后進(jìn)行梯田提取,結(jié)果表明遙感影像與地形因子結(jié)合后,提取效果有了較大的提升。楊亞男等[9]將無人機(jī)正射影像與坡度數(shù)據(jù)進(jìn)行融合,對(duì)梯田進(jìn)行粗邊緣與精細(xì)邊緣提取,結(jié)果表明加入坡度數(shù)據(jù)后,梯田粗細(xì)邊緣的提取效果都有了較大的提升。
基于窗口的提取方法在提取時(shí)考慮到了梯田的紋理以及灰度特征,利用了較少的地形信息,未結(jié)合更多含有豐富地形信息的地形因子來進(jìn)行梯田提取?;趯?duì)象的提取方法利用了地形因子來進(jìn)行提取,提取效果有了較大的提升,但目前對(duì)于復(fù)雜區(qū)域的提取未能取得較好的結(jié)果。
針對(duì)當(dāng)前梯田提取算法在復(fù)雜地形區(qū)域提取時(shí),算法適用性較差導(dǎo)致效果差異大的問題,本文采用改進(jìn)AdaBoost算法,通過集成多個(gè)分類器共同決策,有效地提高了算法的適用性,對(duì)復(fù)雜地形區(qū)域取得了較好的提取結(jié)果。首先將無人機(jī)獲取的高分辨率正射影像與DEM衍生的地形因子進(jìn)行融合,利用多尺度分割算法獲得三塊不同地形特征的樣本數(shù)據(jù)集。然后為保證數(shù)據(jù)特征的有效性,通過過濾式特征選擇算法去除冗余特征。同時(shí)考慮到梯田和非梯田數(shù)量有著較大的差異,為降低不均衡數(shù)據(jù)對(duì)梯田提取結(jié)果的影響,對(duì)樣本進(jìn)行均衡化處理。最后利用改進(jìn)AdaBoost提取方法對(duì)復(fù)雜的區(qū)域進(jìn)行梯田提取。為了評(píng)價(jià)改進(jìn)AdaBoost算法的梯田提取效果,本文將結(jié)合AdaBoost算法、SVM、KNN、CART進(jìn)行對(duì)比驗(yàn)證。
1.1.1研究區(qū)域
研究區(qū)域?yàn)楦拭C省榆中縣龍泉鄉(xiāng),地理上的坐標(biāo)范圍為東經(jīng)104°10′58″至104°19′51″,北緯35°34′4″至35°40′56″,本文選取了三塊不同特征的區(qū)域進(jìn)行研究。區(qū)域1中有部分山脊以及道路,梯田田塊主要呈條狀,具有細(xì)、窄的特點(diǎn),數(shù)量較多,為密集條形區(qū)梯田。區(qū)域2中有部分道路以及少量建筑物,形狀不規(guī)則,為不規(guī)則區(qū)梯田。區(qū)域3中有部分建筑物以及山脊,主要呈塊狀,并且邊緣曲線光滑,數(shù)量較少,為稀疏塊狀區(qū)梯田。
1.1.2數(shù)據(jù)獲取
為降低天氣因素的影響,于2016年3月對(duì)研究區(qū)域利用無人機(jī)搭載相機(jī)來進(jìn)行數(shù)據(jù)采集,所拍攝的單幅影像的采集面積約為340 m×500 m,影像分辨率為0.5 m,采集時(shí)長約24小時(shí)。為了保證采集過程中精度符合要求,對(duì)梯田邊緣以及道路的交叉處設(shè)立地面的控制點(diǎn),并實(shí)時(shí)進(jìn)行空間運(yùn)算和精度檢測。通過Agisoft PhotoScan軟件對(duì)所獲得的影像數(shù)據(jù)進(jìn)行處理,對(duì)整個(gè)研究區(qū)域進(jìn)行劃分,并進(jìn)行點(diǎn)云提取和立體模型的構(gòu)建,合并后進(jìn)行紋理提取,獲取數(shù)字表面模型DSM,通過所獲得的點(diǎn)云數(shù)據(jù),得到地面點(diǎn)的DEM數(shù)據(jù),分辨率為0.5 m。
本文首先對(duì)研究區(qū)域圖像進(jìn)行了去霧處理,然后將去冗余后地形因子與正射影像進(jìn)行融合,得到富含地形信息的遙感影像,利用多尺度分割技術(shù)進(jìn)行影像分割,獲得用于梯田提取的樣本數(shù)據(jù)集,最后對(duì)樣本集進(jìn)行特征選擇、樣本均衡化,降低冗余數(shù)據(jù)和不均衡數(shù)據(jù)對(duì)梯田提取結(jié)果的影響。
1.2.1圖像去霧
物體的反射光線在大氣中傳播的時(shí)候會(huì)受到顆粒物等的影響,導(dǎo)致光線的傳播方向被改變,向各個(gè)方向散射,最終所得到的圖像會(huì)變得模糊,因此需要進(jìn)行圖像去霧[10]。目前主要采用暗通道去霧算法來進(jìn)行圖像去霧[11],暗通道去霧算法首先計(jì)算大氣散射模型,得到透射率以及全局大氣,然后根據(jù)暗原色先驗(yàn)理論在RGB三通道以及周圍的局部區(qū)域取最小值,計(jì)算得到圖像的透射率并估算全局大氣,最終得到無霧圖像[12]。
基于暗通道的去霧步驟如下:
(1) 計(jì)算大氣散射模型,計(jì)算方法如式(1)所示。
I(x)=J(x)t(x)+A(1-t(x))
(1)
式中:I(x)為有霧圖;J(x)為無霧圖像;t(x)為透射率;A為全局大氣,經(jīng)變換可得式(2)。
(2)
(2) 暗原色先驗(yàn)理論如式(3)所示。
(3)
式中:Jdark(x)表示暗原色;y∈Ω(x)是以x為中心的領(lǐng)域區(qū)域。
(3) 得到圖像透射率如式(4)所示。
(4)
估算全局大氣A,代入式(2)得到無霧圖像。
將去霧前的圖像與去霧后的圖像進(jìn)行比較,去霧后的圖像地物間的紋理差異更為顯著,提升了圖像的清晰度,可觀察到更多的地物細(xì)節(jié)如圖2所示。
本文對(duì)三塊區(qū)域的原圖以及去霧后圖像的灰度直方圖進(jìn)行了分析如圖3所示,可以看到原圖直方圖的能量分布較為集中,并未充分分布到整個(gè)顏色空間,經(jīng)過去霧處理,能量分布較原圖更加均勻,去霧后的圖像可以提供更加有效的圖像信息。
1.2.2基于相關(guān)性的地形因子降維
地形因子是指為有效研究與表達(dá)地貌形態(tài)特征所設(shè)定的具有一定意義的參數(shù)或指標(biāo)[14]。
坡度S、粗糙度TR、高程變異系數(shù)CVE、正負(fù)地形因子PN、山體陰影HS、坡度的坡度SOS均為常見地形因子,本文采用上述地形因子來進(jìn)行計(jì)算,計(jì)算方法如下所示。
(1) 坡度S。反映坡面的傾斜程度,如式(5)所示。
(5)
式中:ΔH為高程差;L為水平距離。
(2) 粗糙度TR??坍嫷乇淼貏莸钠鸱兓?如式(6)所示。
(6)
式中:α為投影角度;SAB為表面積;SAC為投影面積。
(3) 高程變異系數(shù)CVE。表示地表高程變化,如式(7)所示。
(7)
式中:SD為標(biāo)準(zhǔn)差;Hmean為平均高程。
(4) 正負(fù)地形因子PN。描述基本的地貌形態(tài),如式(8)所示。
PN=Hmax-Hmean
(8)
式中:Hmax為最大高程值;Hmean為平均高程值。
(5) 山體陰影HS。模擬光源在某方向和太陽高度下的灰度圖,如式(9)所示。
HS=255×cos(zenithrad)×cos(sloperad)+
sin(zenithrad))×sin(sloperad)×
cos(azimuthrad-aspectrad)
(9)
式中:sloperad為坡度弧度數(shù);azimuthrad為光線方向角的弧度數(shù);aspectrad為坡向弧度值;zenithrad為太陽天頂角的弧度數(shù)。
(6) 坡度的坡度SOS。為坡度的坡面傾斜度,如式(10)所示。
(10)
式中:SΔH表示高程差;SL為水平距離。
計(jì)算最終得到6個(gè)地形因子如圖4所示。
考慮到地形因子間數(shù)據(jù)冗余對(duì)梯田提取的影響,本文通過PCA得到地形因子間的相關(guān)系數(shù),通過設(shè)立閾值來進(jìn)行相關(guān)性強(qiáng)弱判斷,去除冗余地形因子,方法的步驟如下:
(1) 計(jì)算地形因子。通過DEM數(shù)據(jù)計(jì)算衍生的6個(gè)地形因子。
(2) 基于PCA的地形因子相關(guān)系數(shù)估算。通過PCA將數(shù)據(jù)用線性無關(guān)的形式來進(jìn)行表示,得到數(shù)據(jù)中相關(guān)性較低的分量[13]。本文通過PCA中地形因子的相關(guān)系數(shù)矩陣來進(jìn)行后續(xù)的降維。
(3) 設(shè)置相關(guān)系數(shù)閾值。采用皮爾遜相關(guān)系數(shù)來進(jìn)行相關(guān)系數(shù)的計(jì)算,設(shè)置相關(guān)系數(shù)閾值來進(jìn)行地形因子相關(guān)性強(qiáng)弱的判斷。
(4) 基于閾值的地形因子選擇。對(duì)比分析相關(guān)系數(shù),結(jié)合閾值確定獲得用于梯田提取的地形因子。
表1-表3分別為三塊研究區(qū)域經(jīng)過PCA后的地形因子相關(guān)系數(shù)矩陣,矩陣中的值表示兩個(gè)地形因子的相關(guān)系數(shù),當(dāng)相關(guān)系數(shù)的絕對(duì)值越接近于1或-1時(shí),表明地形因子間的相關(guān)性越強(qiáng)。本文采用皮爾遜相關(guān)系數(shù)來進(jìn)行相關(guān)系數(shù)計(jì)算,皮爾遜相關(guān)系數(shù)是一種常見的相關(guān)系數(shù)計(jì)算方法,當(dāng)相關(guān)系數(shù)的絕對(duì)值大于0.8時(shí),表明地形因子間具有強(qiáng)相關(guān)性。通過對(duì)三塊研究區(qū)域地形因子相關(guān)系數(shù)判斷,最終得到用于梯田提取的地形因子為S、TR、HS、SOS。
表1 區(qū)域1 PCA相關(guān)系數(shù)矩陣
表2 區(qū)域2 PCA相關(guān)系數(shù)矩陣
1.2.3多尺度分割
為了獲取樣本數(shù)據(jù)集,需要對(duì)研究區(qū)域影像進(jìn)行分割得到多個(gè)分割區(qū)域,并且滿足區(qū)域內(nèi)相似性高,而區(qū)域間相似性低的要求[15]。多尺度分割是一種常見的分割方法,采用自下而上的策略,單獨(dú)的像元在最小異質(zhì)性準(zhǔn)則之下與相鄰的像元逐漸進(jìn)行合并,通過控制分割尺度、形狀異質(zhì)性、光譜異質(zhì)性來確定分割中所生成對(duì)象的形狀與數(shù)量。分割尺度過小會(huì)造成欠分割現(xiàn)象,會(huì)將完整的對(duì)象分割得支離破碎,尺度過大會(huì)造成過分割現(xiàn)象。將不同的對(duì)象劃分為一個(gè)整體[16],形狀異質(zhì)性通過緊致度因子和光滑度因子來進(jìn)行表示,最終實(shí)現(xiàn)在分割尺度閾值下達(dá)到平均異質(zhì)性最小。異質(zhì)性的度量如下:
(1) 總體異質(zhì)性度量,如式(11)所示。
f=α·hshape+(1-α)hcolor
(11)
式中:f為影像對(duì)象總體異質(zhì)性;hshape為光譜異質(zhì)性;hcolor為形狀異質(zhì)性,α為形狀異質(zhì)性所占權(quán)重,范圍為[0,1]。
(2) 形狀異質(zhì)性度量,如式(12)-式(16)所示。
(12)
(13)
式中:hsmooth為光滑度因子,表示對(duì)象輪廓的光滑程度;hcompact為緊致度因子,表示對(duì)象的緊致程度;c表示區(qū)域的周長;l表示最小外接矩形的周長;s表示面積。
將相鄰兩個(gè)區(qū)域進(jìn)行合并,c、l以及s分別為c1、c2、l1、l2、s1、s2,合并后光滑度因子和緊致度因子計(jì)算如下:
(14)
(15)
最終形狀異質(zhì)性表示為:
(16)
式中:hshape為形狀異質(zhì)性;α為光滑度因子權(quán)重值,范圍為[0,1]。
(3) 光譜異質(zhì)性度量,如式(17)所示。
(17)
式中:hcolor為光譜異質(zhì)性;c為波段數(shù);ωc為層的權(quán)重;σc為波段的方差。
將相鄰兩個(gè)區(qū)域進(jìn)行合并,面積和方差分別為s1、s2、σc1、σc2,合并之后區(qū)域的面積和方差為smerge、σcmerge,則合并后的光譜異質(zhì)性為:
(18)
為了解決目前多尺度最優(yōu)分割尺度人為操作的問題,本文采用ESP2方法來進(jìn)行多尺度分割,通過評(píng)價(jià)不同尺度下分割結(jié)果的最大異質(zhì)性[17],并根據(jù)影像分割結(jié)果局部方差(LV)及ROC曲線來對(duì)分割的最優(yōu)尺度進(jìn)行評(píng)估,利用ROC的峰值來反映最大異質(zhì)性[18]。由于影像所含地物復(fù)雜,通過ESP2計(jì)算可得到多個(gè)最優(yōu)尺度,ROC的計(jì)算如式(19)所示。
(19)
式中:LVL分割尺度為L時(shí)分割結(jié)果的局部方差均值;LVL-1為分割尺度為L-1時(shí)分割結(jié)果的局部方差均值。
首先將原始正射影像融合4波段地形因子影像,形成7波段遙感影像,然后設(shè)置ESP2的分割參數(shù),利用控制變量法選擇出分割效果較好的形狀異質(zhì)性權(quán)重和緊致度因子,權(quán)重的參數(shù)組合為(0.2,0.5)。通過ESP2方法對(duì)區(qū)域1進(jìn)行多尺度分割,ROC曲線會(huì)出現(xiàn)多個(gè)峰值如圖5所示,其中黑色為局部方差,呈上升趨勢,灰色為ROC曲線,隨著尺度變化上下波動(dòng)。
將所有峰值對(duì)應(yīng)的尺度用于分割,對(duì)比選擇出梯田的最優(yōu)分割尺度。通過對(duì)比分析,確定區(qū)域1的最優(yōu)分割尺度為70,與其他尺度的分割結(jié)果進(jìn)行對(duì)比,在最優(yōu)分割尺度時(shí)梯田提取效果較好,如圖6所示,黑框?yàn)槠渌叨却嬖谇贩指钆c過分割的區(qū)域。
使用上述方法依次對(duì)區(qū)域2、區(qū)域3的分割尺度進(jìn)行計(jì)算,最終得到最優(yōu)分割尺度分別為65、76。通過多尺度分割獲取樣本數(shù)據(jù)集,經(jīng)過專家標(biāo)注,得到研究區(qū)域中梯田與非梯田的數(shù)量,如表4所示。
表4 研究區(qū)域樣本數(shù)量
1.2.4特征選擇
特征提取的優(yōu)劣對(duì)最終的結(jié)果有著很大的影響[19]。本文從光譜、紋理、形狀三個(gè)方面來對(duì)特征進(jìn)行提取。光譜特征主要是對(duì)影像的相關(guān)灰度信息進(jìn)行描述,選取均值和標(biāo)準(zhǔn)差作為梯田的提取特征。紋理特征通過圖像的灰度變化來對(duì)粗糙度、方向性等性質(zhì)利用灰度共生矩陣(Grey Level Co-occurrence Matrix,GLCM)來進(jìn)行描述[20],選取同質(zhì)性、對(duì)比度、非相似性等7個(gè)特征作為提取特征。形狀特征通過幾何參數(shù)來進(jìn)行表達(dá),選取形狀指數(shù)和長寬比作為提取特征,如表5所示。
表5 特征描述
為降低冗余特征的干擾,采用CfsSubsetEval評(píng)估器,結(jié)合Best-First搜索方法來進(jìn)行特征選擇。首先Best-First搜索方法從空的子集開始進(jìn)行前向搜索來添加特征,當(dāng)連續(xù)添加多個(gè)特征時(shí),性能仍然沒有改進(jìn)就結(jié)束對(duì)屬性子集空間的搜索?;谙嚓P(guān)性,采用CfsSubsetEval評(píng)估器對(duì)特征子集進(jìn)行評(píng)價(jià),通過各個(gè)特征的預(yù)測能力以及特征之間的相關(guān)性,建立特征評(píng)價(jià)器作為最優(yōu)特征子集的選擇標(biāo)準(zhǔn)。
區(qū)域1中最優(yōu)特征子集包含12個(gè)特征,分別為Mean(R、G、B、S、SOS)、Sd(R、S)、Entropy(HS、SOS)、Correlation R、Angular 2nd moment SOS、Homogeneity HS。區(qū)域2中最優(yōu)特征子集包含10個(gè)特征,分別為Mean(G、S)、Sd(B、S)、Correlation B、Dissimilarity TR、Entropy TR、Angular 2nd moment(G、TR)、Homogeneity R。區(qū)域3中最優(yōu)特征子集包含9個(gè)特征,分別為Mean(G、SOS、TR)、Sd R、Correlation R、Entropy(HS、SOS)、Homogeneity(R、B)。
以區(qū)域1為例,采用箱線圖對(duì)最優(yōu)特征子集進(jìn)行分析。箱線圖是一種常用的數(shù)理統(tǒng)計(jì)方法,從宏觀上展示數(shù)據(jù)的大概分布[21]。圖7為最優(yōu)特征子集中的特征在梯田與非梯田上的分布情況,結(jié)果顯示兩者的分布重疊部分較少,梯田與非梯田有明顯的區(qū)分效果,將這些特征進(jìn)行結(jié)合,有利于更好地對(duì)梯田進(jìn)行提取。
1.2.5樣本均衡化
考慮到本文的數(shù)據(jù)集為不均衡數(shù)據(jù)集,為了降低不均衡數(shù)據(jù)對(duì)提取效果的影響,要進(jìn)行均衡化采樣處理。目前針對(duì)不均衡數(shù)據(jù)的采樣處理主要分為欠采樣與過采樣,欠采樣通過減少多數(shù)類的樣本數(shù)量來達(dá)到樣本均衡的樣本,但對(duì)總體的樣本數(shù)據(jù)未能充分利用。過采樣通過增加少數(shù)類樣本的數(shù)量來達(dá)到樣本均衡,可以充分利用所有的樣本數(shù)據(jù)。SMOTE算法是一種常見的過采樣算法,利用人工方式合成樣本量較少的類,擴(kuò)大樣本量,保證不同類別的樣本量達(dá)到均衡水平。SMOTE算法步驟如下:
(1) 對(duì)于樣本總數(shù)為n的少數(shù)類,采用歐氏距離計(jì)算每個(gè)樣本ai(i=1,2,…,n)距離最近的M個(gè)樣本。
(2) 根據(jù)樣本的不平衡率設(shè)置樣本合成的倍率N,在M個(gè)樣本中隨機(jī)選取N個(gè)樣本,對(duì)于每個(gè)被選取的樣本與原來的少數(shù)類進(jìn)行樣本合成,如式(20)所示。
anew=a+rand(0,1)×(ai-a)
(20)
式中:anew為合成的少數(shù)類樣本;rand(0,1)為在區(qū)間(0,1)之內(nèi)隨機(jī)生成數(shù)。
在目前的梯田提取中,不同的分類算法易受研究區(qū)域地形特征的影響,對(duì)于不同的研究區(qū)域未能全部取得一個(gè)較好的提取結(jié)果。AdaBoost算法是一種常用的集成學(xué)習(xí)算法,根據(jù)樣本的權(quán)值變化不斷更新基分類器的權(quán)重,最終得到一個(gè)性能較好的分類模型。首先對(duì)每個(gè)樣本賦予相同的權(quán)值,然后選取當(dāng)前誤差率最小的基分類器計(jì)算其權(quán)值以及更新樣本權(quán)值,分錯(cuò)樣本會(huì)被賦予更大的權(quán)值,對(duì)這些樣本著重進(jìn)行訓(xùn)練,通過不斷迭代直至滿足迭代條件,得到最終分類模型。算法的步驟如下:
(1) 賦予每個(gè)樣本初始權(quán)值相等,如式(21)所示。
(21)
式中:D1(i)表示在第1次迭代下第i個(gè)樣本的權(quán)值;N為樣本總數(shù);i=1,2,…,N。
(2) 比較各基分類器的誤差率,選擇誤差率最小的基分類器F用于此次迭代,如式(22)所示。
(22)
式中:t為迭代輪數(shù);et為誤差率;Ft(xi)為預(yù)測標(biāo)簽;yi為實(shí)際標(biāo)簽,取值范圍為{-1,1}。
(3) 計(jì)算基分類器F所占的權(quán)值,如式(23)所示。
(23)
式中:αt表示F的權(quán)值。
(4) 對(duì)訓(xùn)練樣本的權(quán)值進(jìn)行更新,如式(24)所示。
(24)
式中:當(dāng)樣本分對(duì)時(shí),yiFt(xi)=1,反之樣本分錯(cuò)時(shí),yiFt(xi)=-1。樣本權(quán)值更新如下:
(25)
(26)
式中:Dt+1(i)+表示正確分類樣本的權(quán)值;Dt+1(i)-表示錯(cuò)誤分類樣本的權(quán)值。
(5) 設(shè)置所采用的基分類器數(shù)量為迭代閾值T,對(duì)步驟(2)-步驟(4)進(jìn)行迭代。
(6) 得到最終分類模型,如式(27)所示。
(27)
式中:Ffinal為最終模型,值為預(yù)測的分類結(jié)果。
AdaBoost算法通過不斷的迭代進(jìn)行訓(xùn)練,當(dāng)某些樣本被多次錯(cuò)誤分類后,會(huì)導(dǎo)致這些樣本的權(quán)值過大,分對(duì)樣本會(huì)被賦予較小的權(quán)值。權(quán)值過大的樣本會(huì)對(duì)后面的基分類器權(quán)值影響較大,導(dǎo)致基分類器過于關(guān)注這些異常樣本,對(duì)最終模型的性能有所影響。
因此,為抑制分錯(cuò)樣本的權(quán)值過快增長,將樣本的分錯(cuò)次數(shù)引入權(quán)值的計(jì)算公式中,防止不同樣本權(quán)值差異過大,從而提高模型的性能。
本文對(duì)AdaBoost算法中的分錯(cuò)樣本的權(quán)值迭代,進(jìn)行了改進(jìn),改進(jìn)如式(28)所示。
(28)
式中:Dt+1(i)-′表示改進(jìn)后的分錯(cuò)樣本權(quán)值迭代;m為常數(shù),通常大于樣本迭代次數(shù);n為樣本分錯(cuò)次數(shù)。
由于權(quán)值的范圍為(0,1),為了使更新后的權(quán)值小于之前的權(quán)值,需要滿足權(quán)值逐漸增長,并且隨著分錯(cuò)次數(shù)的增加,權(quán)值的抑制作用愈加明顯。通過對(duì)權(quán)值增長的抑制,使得算法在訓(xùn)練過程中對(duì)分錯(cuò)樣本權(quán)重的增長變得緩慢,算法的結(jié)果需要關(guān)注全局?jǐn)?shù)據(jù)上的優(yōu)化,避免了因?yàn)樯贁?shù)樣本的正確率,導(dǎo)致全局的正確率下降。
精度評(píng)價(jià)是指對(duì)于實(shí)際中的真值數(shù)據(jù)與分類后的結(jié)果進(jìn)行對(duì)比,來確定分類的準(zhǔn)確程度[22]。本文通過總體分類精度OA(Overcall Accuracy)以及Kappa系數(shù)來進(jìn)行精度評(píng)價(jià)。總體分類精度通過總的樣本數(shù)與分類正確的樣本數(shù)的比值來表示。Kappa系數(shù)通過總的樣本數(shù)量與混淆矩陣來進(jìn)行相關(guān)計(jì)算,綜合考慮了混淆矩陣中精確率、召回率等因素,能夠全面地對(duì)分類精度進(jìn)行反映[23],如式(29)、式(30)所示。
(29)
(30)
式中:N代表總的樣本數(shù);n代表分類的所有的類別數(shù);hik表示混淆矩陣中元素。
為了探究基分類器數(shù)量對(duì)分類精度的影響,本文采用不同基分類器數(shù)量進(jìn)行實(shí)驗(yàn),測試了基分類器數(shù)量從20到500共13組下的三塊區(qū)域的分類精度和Kappa系數(shù)值,實(shí)驗(yàn)結(jié)果如圖8-圖9所示,可以看出三塊區(qū)域的分類精度以及Kappa系數(shù)隨基分類器數(shù)量增長上下波動(dòng),而且三塊區(qū)域分類精度以及Kappa系數(shù)最高時(shí)對(duì)應(yīng)的基分類器數(shù)量不同,表明了不同類別區(qū)域的數(shù)據(jù)特征不同。
本文以決策樹為基分類器,通過不斷改變基分類器數(shù)量觀察精度的變化趨勢,當(dāng)三塊研究區(qū)域的基分類器數(shù)量分別為80、360、200時(shí),總精度與Kappa系數(shù)均達(dá)到最大,總精度分別為95.19%、93.67%、90.54%,Kappa系數(shù)分別為0.879 4、0.846 8、0.777 3。
為驗(yàn)證樣本均衡化對(duì)梯田提取效果的影響,本文對(duì)三塊研究區(qū)域分別進(jìn)行實(shí)驗(yàn),在未均衡化處理前,三塊研究區(qū)域的不平衡率分別為2.96、2.12、2.91。均衡化前后的精度以及Kappa系數(shù)如圖10所示,結(jié)果表明,經(jīng)過樣本均衡化后,各個(gè)模型性能均有所提升,并且改進(jìn)的AdaBoost算法提取效果最好。
(a) 區(qū)域1原圖 (b) 區(qū)域2原圖 (c) 區(qū)域3原圖
(a) 區(qū)域1原圖 (b) 區(qū)域1去霧后
(a) S(b) TR (c) CVE(d) PN (e) HS (f) SOS圖4 研究區(qū)域的地形因子
圖5 區(qū)域1 ESP2結(jié)果圖
圖6 區(qū)域1多尺度分割結(jié)果對(duì)比
圖8 不同基分類器數(shù)量下的總精度
圖9 不同基分類器數(shù)量下的Kappa系數(shù)
(a) 區(qū)域1總精度對(duì)比 (b) 區(qū)域1 Kappa系數(shù)對(duì)比
為了驗(yàn)證本文方法的有效性,與AdaBoost算法以及KNN、SVM、CART進(jìn)行對(duì)比實(shí)驗(yàn)。對(duì)密集條形區(qū)、不規(guī)則區(qū)、稀疏塊狀區(qū)區(qū)域進(jìn)行梯田提取。為了對(duì)比不同算法的提取效果,結(jié)果中用灰色表示梯田區(qū)域,白色表示非梯田區(qū)域,黑色表示提取錯(cuò)誤的區(qū)域。
區(qū)域1為密集條形區(qū)梯田,梯田區(qū)域多為條狀,并且具有細(xì)窄的特點(diǎn)。不同算法的提取效果如圖11所示。在三種常用的分類算法KNN、SVM、CART中,CART在寬短類型梯田區(qū)域提取效果較差。KNN的提取效果優(yōu)于CART,但對(duì)于細(xì)長類型的區(qū)域如道路等提取效果較差。SVM的提取效果優(yōu)于前兩種方法,但對(duì)于臨近道路的復(fù)雜地物區(qū)域提取效果差,相比而言,AdaBoost算法對(duì)于寬短類型、細(xì)長類型以及臨近道路的復(fù)雜地物區(qū)域的提取效果優(yōu)于以上三種方法。改進(jìn)的AdaBoost算法的提取效果優(yōu)于AdaBoost算法,對(duì)于地勢較高的區(qū)域提取效果更好,同時(shí)避免了其他方法對(duì)小面積非梯田區(qū)域的錯(cuò)誤提取。
(a) 真值圖 (b) 改進(jìn)AdaBoost (c) AdaBoost
區(qū)域2為不規(guī)則的梯田區(qū)域,梯田形狀不規(guī)則。不同算法的提取效果如圖12所示。KNN、SVM、CART三種方法的提取效果的差異較小,對(duì)于小面積區(qū)域以及連通梯田的非梯田區(qū)域提取效果較差。AdaBoost算法對(duì)于細(xì)窄區(qū)域的提取效果較差。
(a) 原圖 (b) 改進(jìn)AdaBoost (c) AdaBoost
區(qū)域3為稀疏塊狀梯田區(qū)域,邊緣光滑,數(shù)量相對(duì)較少,梯田面積較大,部分區(qū)域由于積雪的覆蓋,導(dǎo)致梯田紋理顏色等發(fā)生變化不能較好地進(jìn)行提取,并且田坎對(duì)提取也會(huì)產(chǎn)生影響。不同算法的提取效果如圖13所示。KNN、SVM、CART三種算法對(duì)于積雪覆蓋的區(qū)域均不能取得較好的提取效果,改進(jìn)的AdaBoost算法以及AdaBoost算法在積雪覆蓋區(qū)域與上述三種方法相比,提取效果較好。但AdaBoost算法相對(duì)于改進(jìn)的AdaBoost算法,對(duì)于含有建筑物的區(qū)域提取效果較差。
(a) 真值圖 (b) 改進(jìn)AdaBoost (c) AdaBoost
從以上實(shí)驗(yàn)結(jié)果可以看出,改進(jìn)的AdaBoost算法以及AdaBoost算法較KNN、SVM、CART三種方法具有更好的提取效果,而改進(jìn)的AdaBoost算法對(duì)于較難提取的區(qū)域較AdaBoost算法具有更好的提取效果。
本文測試的五種方法在三塊梯田區(qū)域上提取結(jié)果的總精度以及Kappa系數(shù)如表6-表7所示。改進(jìn)的AdaBoost算法以及AdaBoost算法的總精度以及Kappa系數(shù)均高于KNN、SVM、CART三種算法,改進(jìn)的AdaBoost算法的平均總精度以及平均Kappa系數(shù)相比于AdaBoost算法分別提高了1.62百分點(diǎn)以及0.04,表明改進(jìn)的AdaBoost算法具有良好的提取效果。
表6 研究區(qū)域梯田總精度提取結(jié)果(%)
表7 研究區(qū)域梯田Kappa系數(shù)提取結(jié)果
本文改進(jìn)的AdaBoost算法結(jié)合SMOTE均衡化,對(duì)三塊不同地形特征區(qū)域進(jìn)行梯田提取。首先對(duì)高分辨率遙感影像與地形因子進(jìn)行融合與分割,得到樣本數(shù)據(jù)集;然后通過特征選擇對(duì)冗余特征進(jìn)行去除,提高了特征的有效性;針對(duì)研究區(qū)域梯田與非梯田樣本不均衡問題采用SMOTE均衡化,結(jié)果表明,樣本均衡化對(duì)梯田提取有一定影響;最后對(duì)五種方法的提取結(jié)果進(jìn)行分析,表明改進(jìn)的AdaBoost算法對(duì)復(fù)雜區(qū)域的梯田提取有較好的效果。
在下一步的研究中,將采用不同類型的算法作為AdaBoost算法的基分類器進(jìn)行研究,以及與深度學(xué)習(xí)進(jìn)行結(jié)合來探索更為精確的梯田提取方法。