劉 舒 姜琦剛 馬 玥 肖 艷 李遠(yuǎn)華 崔 璨
(1.吉林大學(xué)地球探測科學(xué)與技術(shù)學(xué)院, 長春 130026; 2.大連海事大學(xué)航海學(xué)院, 大連 116000)
基于多目標(biāo)遺傳隨機(jī)森林特征選擇的面向?qū)ο鬂竦胤诸?/p>
劉 舒1姜琦剛1馬 玥1肖 艷1李遠(yuǎn)華1崔 璨2
(1.吉林大學(xué)地球探測科學(xué)與技術(shù)學(xué)院, 長春 130026; 2.大連海事大學(xué)航海學(xué)院, 大連 116000)
以多時(shí)相Landsat8影像和SRTM DEM為數(shù)據(jù)源,對南甕河流域進(jìn)行了面向?qū)ο鬂竦胤诸?。為削弱高維特征集對分類精度的影響,提出一種多目標(biāo)遺傳隨機(jī)森林組合式特征選擇算法(MOGARF)進(jìn)行特征集優(yōu)化。利用Relief F算法對完整特征集進(jìn)行特征初選,再以基于隨機(jī)森林的封裝式多目標(biāo)遺傳算法進(jìn)一步提取優(yōu)化特征集。將所得特征集結(jié)合隨機(jī)森林分類法提取濕地信息。并將結(jié)果分別與基于完整特征集和僅采用Relief F算法及Boruta算法提取的優(yōu)化特征集的3種隨機(jī)森林分類結(jié)果對比。試驗(yàn)結(jié)果表明,采用MOGARF算法特征選擇后,特征維度降低至原來的10%,且分類精度最高,總體精度為92.61%,比其他分類方案提高0.35%~1.94%,Kappa系數(shù)為0.907 5,袋外誤差為7.77%,比其他分類方案降低0.91%~1.48%。利用MOGARF特征選擇的隨機(jī)森林分類法是濕地分類的有效方法。
濕地分類; 多光譜遙感影像; 面向?qū)ο螅?多目標(biāo)遺傳隨機(jī)森林算法; 特征選擇
利用多光譜遙感影像對濕地進(jìn)行基于植物類型的準(zhǔn)確分類,是濕地碳循環(huán)過程監(jiān)測的有效手段[1]。目前研究者常引入多源數(shù)據(jù)采取面向?qū)ο蠓诸惙绞剑韵魅醵喙庾V影像分類的弊端[2-4]。但面向?qū)ο蠓椒ㄔ龃罅颂卣骶S度,在使用常規(guī)方法分類時(shí)需要先進(jìn)行特征選擇[4-7]。隨機(jī)森林(Random forest,RF)被認(rèn)為是能夠直接處理高維數(shù)據(jù)的高效分類算法[8-10],廣泛應(yīng)用于多個(gè)領(lǐng)域,近年來也被引入到濕地分類研究中,并獲得較高精度的結(jié)果[2,5,10-12]。但當(dāng)特征維度過高時(shí),特征集中次要特征仍會降低分類精度,在分類前也需要優(yōu)化特征空間[13]。優(yōu)化的特征空間應(yīng)具有較低維度,特征應(yīng)具有類內(nèi)聚合性和類間可分性,特征間相關(guān)度低,能得到較高的分類精度[14]。
目前與RF算法結(jié)合的特征選擇算法主要分為過濾式(Filter)和封裝式(Wrapper)。也有學(xué)者構(gòu)造Filter-Wrapper組合特征選擇法,發(fā)揮兩種算法優(yōu)勢,兼顧多個(gè)特征空間評價(jià)因素,尋求精度和效率的平衡[4,15]。
Relief F算法是一種過濾式多類別特征選擇算法,通過計(jì)算特征權(quán)重,判斷特征重要性。
目前基于RF模型的面向?qū)ο鬂竦胤诸愌芯枯^少,將組合式特征選擇算法應(yīng)用于面向?qū)ο蠓诸惖难芯恳蚕鄬^少[4]。本文將Relief F Filter(Relief F)算法和基于隨機(jī)森林的多目標(biāo)遺傳Wrapper算法結(jié)合,提出多目標(biāo)遺傳隨機(jī)森林Filter-Wrapper組合式特征選擇算法提取優(yōu)化特征集,并應(yīng)用于南甕河流域,實(shí)現(xiàn)基于RF的面向?qū)ο鬂竦胤诸?。將分類結(jié)果與基于完整特征集(No_FS)和分別利用Relief F算法、Boruta算法提取的優(yōu)化特征集的RF面向?qū)ο鬂竦胤诸悓Ρ?,?yàn)證該方法的有效性。
1.1 研究區(qū)概況
南甕河流域位于大興安嶺地區(qū)東部,地理坐標(biāo)為北緯50°56′12″~51°39′40″,東經(jīng)124°24′54″~126°13′15″(圖1)。研究區(qū)內(nèi)植被豐富,喬木主要有興安落葉松、柞樹等;灌木有興安杜鵑、叢樺等;草本植物主要為杜香、大葉章等。該區(qū)為寒溫帶大陸性季風(fēng)氣候,寒冷季節(jié)較長,植物生長周期約為110 d。研究區(qū)濕地資源豐富,主要包括森林濕地、灌叢濕地、草本濕地、島狀林濕地、湖泊濕地和河流濕地,人工濕地為采礦后產(chǎn)生的積水地帶。其內(nèi)包含我國唯一以寒溫帶森林濕地生態(tài)系統(tǒng)為保護(hù)對象的國家級自然保護(hù)區(qū)[7],也是我國最大的森林濕地分布區(qū)之一[7,16]。
圖1 研究區(qū)位置圖Fig.1 Location map of study area
1.2 數(shù)據(jù)源與預(yù)處理
本文以春、夏和秋季30 m空間分辨率的Landsat8(OLI)影像和90 m空間分辨率的SRTM DEM影像為數(shù)據(jù)源,提取南甕河流域光譜、形狀、紋理和地形特征,并計(jì)算指數(shù)特征。春季OLI影像選用LC81200242014098LGN00,夏季影像選用LC81200242015197LGN00,秋季影像選用LC81200242015293LGN00。夏季影像分布有1%的薄云,經(jīng)大氣校正后不影響光譜特征的提取。由于選取的OLI影像拍攝時(shí)間接近,且南甕河流域大部分區(qū)域較少人為活動干預(yù),本文假定不同時(shí)相影像同一位置像素間沒有土地覆被類型轉(zhuǎn)換,不影響像素類別劃分過程。
將3個(gè)時(shí)相Landsat8影像在ENVI5.1中輻射定標(biāo)和大氣校正,SRTM DEM重采樣為30 m,并統(tǒng)一兩種影像投影參數(shù)。將每個(gè)時(shí)相Landsat8影像的第1、2、3、4、5、7波段,連同高程信息合成具有19個(gè)波段的影像分類基礎(chǔ)數(shù)據(jù)。利用Ecognition多尺度分割模塊分割該基礎(chǔ)數(shù)據(jù),分割時(shí)令所有波段權(quán)重為1,形狀因子為0.1,緊湊度因子為0.3,分割尺度確定為15。
2.1 濕地分類體系建立與濕地特點(diǎn)分析
根據(jù)《濕地公約》和《東北地區(qū)國土遙感綜合調(diào)查》項(xiàng)目建立的分類體系,南甕河流域濕地類型以天然濕地為主,具體分為河流濕地、湖泊濕地和沼澤草甸濕地。區(qū)內(nèi)的人工濕地主要為采礦積水區(qū),由于面積較小,在本研究中不單獨(dú)列為一類。參照2000年和2007年對該區(qū)濕地的解譯結(jié)果和相關(guān)文獻(xiàn),區(qū)內(nèi)河流濕地主要為永久性河流,湖泊濕地主要為季節(jié)性湖泊和坑塘,沼澤草甸濕地主要為草本濕地、森林濕地和灌叢濕地。結(jié)合研究區(qū)實(shí)際情況,建立濕地分類體系如表1所示[7]。
本研究的目的在于提取濕地信息,因此將區(qū)內(nèi)其他土地覆被類型作為背景地類。背景地類參考2007年《土地利用現(xiàn)狀分類》國家標(biāo)準(zhǔn)劃分至一級類,分別為:林地、草地、耕地、交通運(yùn)輸用地。其中耕地以旱地為主,交通運(yùn)輸用地以道路為主,在此簡稱為道路。林地特指不包括森林濕地的一般有林區(qū)域。
表1 研究區(qū)濕地分類體系
Tab.1 Classification system for wetlands in study area
一級二級三級劃分依據(jù)天然濕地河流濕地永久性河流常年有水的河流,僅包括河床部分湖泊濕地季節(jié)性湖泊季節(jié)性積水的漫灘湖泊或淺灘,以水面為主草本濕地草本植物為主,植被蓋度不低于30%,有泥炭層沼澤草甸濕地灌叢濕地灌木植物為主,植被蓋度不低于30%,無泥炭累積森林濕地落葉喬木為主,植被郁閉度不低于0.2,有泥炭層
研究區(qū)內(nèi)的喬木主要為落葉喬木。處于植被繁茂的有葉時(shí)期時(shí),林地與森林濕地的植被群落組成和冠層反射率相似,直接利用光學(xué)遙感影像分離森林濕地較為困難。但二者地表水文特征有顯著差異,在早春或晚秋的落葉期對二者林下水文信息的提取是區(qū)分林地和森林濕地的關(guān)鍵。季節(jié)性積水的特點(diǎn)也要求森林濕地多處于坡度較小的區(qū)域。本研究區(qū)存在島狀林濕地,在影像上表現(xiàn)為被草本濕地包圍的林地小斑塊,易于辨識[7,10]。
濕地與旱地的水文特征差異還影響上層植被的長勢和生長期分布,進(jìn)行野外驗(yàn)證時(shí)發(fā)現(xiàn),與季節(jié)性干涸的草本濕地相比,水分充足的草本濕地中植被更晚枯萎。研究區(qū)內(nèi)草本濕地和草地的植被生長周期不同,在春季和秋季的影像上二者區(qū)別明顯[7]。草本濕地和森林濕地的植被類型差異較大,可直接通過植被指數(shù)進(jìn)行區(qū)分。
灌叢濕地屬于森林濕地和草本濕地之間的過渡階段,雖與草本濕地、森林濕地之間的界限不明顯,但它不同于森林濕地和草木濕地,表層土壤無泥炭累積,且植被類型以灌木為主,落葉時(shí)期的土壤指數(shù)和有葉時(shí)期植被指數(shù)為灌叢濕地識別的關(guān)鍵。
對于永久性河流和季節(jié)性湖泊而言,當(dāng)處于豐水期時(shí),二者在影像上均表現(xiàn)為深藍(lán)色水面,當(dāng)枯水期時(shí),二者區(qū)別明顯。
2.2 樣本提取與精度驗(yàn)證
樣本質(zhì)量直接關(guān)系到濕地分類的精度,應(yīng)選擇具有典型性、代表性的純凈對象作為樣本。常用的樣本選取方式有:簡單隨機(jī)抽樣、聚點(diǎn)抽樣、等距抽樣和分層隨機(jī)抽樣[17]。由于RF算法分類精度受各類別樣本數(shù)量和空間分布的影響[9,18],因此采取分層隨機(jī)抽樣的方式,使各類別樣本點(diǎn)數(shù)量大致與該類別的總面積成比例。為保證比例較小的類別也有一定數(shù)量樣本,設(shè)各類別最小樣本數(shù)為100。
依據(jù)Google Earth高分辨率影像解譯研究區(qū)的島狀林濕地和沿河的灌叢濕地,并將解譯結(jié)果作為森林濕地和灌叢濕地典型樣區(qū);利用收集到的2007年濕地解譯數(shù)據(jù)確定草本濕地、永久性河流和季節(jié)性湖泊典型樣區(qū);結(jié)合部分2016年東北地區(qū)自然資源解譯數(shù)據(jù)確定森林、草地、耕地和道路樣區(qū)。在高清影像中島狀林斑塊和灌叢濕地特征明顯,邊界清晰;選用的已有參考解譯數(shù)據(jù)都已經(jīng)驗(yàn)證過,是樣本選取和精度評價(jià)的可靠基礎(chǔ)數(shù)據(jù)。
查閱相關(guān)統(tǒng)計(jì)數(shù)據(jù),設(shè)定覆被類型面積比例。提取落在各樣區(qū)內(nèi)相對純凈的分割對象組成樣本空間,按照設(shè)定比例在每類地物樣本空間中隨機(jī)抽取樣本。其中2/3作為訓(xùn)練樣本,用于特征選擇和RF建模,剩余作為測試樣本,利用模型將其分類,并與樣本實(shí)際類別對比,計(jì)算混淆矩陣和相關(guān)精度指標(biāo),評價(jià)RF分類精度。各類樣本數(shù)量如表2所示。
表2 各類型樣本數(shù)量分布
Tab.2 Numbers of samples for each class
類別林地森林濕地灌叢濕地草本濕地草地耕地道路永久性河流季節(jié)性湖泊訓(xùn)練集5008010050020010010010080測試集250305025010050505040
2.3 對象特征提取
依據(jù)不同濕地類型特點(diǎn)建立完整對象特征集,共提取與水體、土壤和植被狀態(tài)有關(guān)的473個(gè)特征用于濕地分類。主要包括以下類別:
(1)光譜特征:提取各對象3個(gè)時(shí)相Landsat8影像1、2、3、4、5、7波段的均值(Mean)、標(biāo)準(zhǔn)差(Std)、最大像素值(Max.)、最小像素值(Min.)、偏斜度(Skewness)、波段最大差異(Max. diff)、總體亮度值(Brightness)[6]。
(2)指數(shù)特征:提取歸一化植被指數(shù)NDVI,差值植被指數(shù)DVI,比值植被指數(shù)RVI, 土壤調(diào)節(jié)植被指數(shù)SAVI,優(yōu)化土壤調(diào)節(jié)植被指數(shù)OSAVI,修正土壤調(diào)節(jié)植被指數(shù)MSAVI,垂直植被指數(shù)PVI,增強(qiáng)植被指數(shù)EVI[19],結(jié)構(gòu)不敏感色素指數(shù)SIPI[20],修正差值植被指數(shù)RDVI,改進(jìn)葉綠素溶解綠指數(shù)MCARI2[21],綠度植被指數(shù)GVI[22],抗大氣植被指數(shù)ARVI[23],歸一化濕度指數(shù)NDMI,穗帽變換綠度指數(shù)TCG,濕度指數(shù)TCW,亮度指數(shù)TCB,歸一化建筑指數(shù)NDBI[24],修正歸一化水體指數(shù)RNDWI,改進(jìn)歸一化水體指數(shù)MNDWI,新型水體指數(shù)NWI,增強(qiáng)水體指數(shù)EWI[25],全球植被水分指數(shù)GVMI[26],可見光短波紅外干旱指數(shù)VSDI,地表水指數(shù)LSWI,水分脅迫指數(shù)MSI,地表水容量指數(shù)SWCI[27],葉面積指數(shù)LAI[28],葉綠素含量指數(shù)CVI,表征綠量VQ[29]。
(3)紋理特征:提取對象全方位灰度共生矩陣均值(GLCM Mean),熵(GLCM Ent),同質(zhì)度(GLCM Homo),標(biāo)準(zhǔn)差(GLCM Std),非相似性(GLCM Dissim),對比度(GLCM Contrast),角二階矩(GLCM Ang. 2ndMoment)和相關(guān)性(GLCM Corr);全方位(all dir.)歸一化灰度矢量(GLDV)的均值(GLDV Mean),熵(GLDV Ent),反差(GLDV Contrast),角二階矩(GLDV Ang. 2ndMoment)來描述對象紋理特征。
(4)地形特征:從SRTM影像中提取高程(Elev)、坡向(Aspect)、坡度(Slope)和山體陰影(Hillshade)等地形信息。
(5)形狀特征:提取對象的形狀特征,包括對象的邊界長度、長度、寬度、圓度、緊湊度、不對稱性、密度、包含像素?cái)?shù)、面積、形狀指數(shù)等[6]。
2.4 多目標(biāo)遺傳隨機(jī)森林(MOGARF)特征選擇方案
2.4.1 Relief F算法原理
Relief F算法是目前廣泛應(yīng)用的一種過濾式(Filter)多類別特征選擇算法,通過計(jì)算特征權(quán)重判斷特征重要性。該算法不受數(shù)據(jù)類型的限制,不受噪聲干擾,實(shí)施簡單,運(yùn)算效率高。具體過程為:在某類樣本中抽取一個(gè)體R,分別在同類和異類樣本中尋找k個(gè)最鄰近樣本,構(gòu)成同類臨近樣本集H和異類臨近樣本集T。再以R與H和T中樣本各特征平均差異的差值定義特征權(quán)重W。對于任意特征m,完成n次抽樣的特征權(quán)重Wm計(jì)算式為
(1)
式中c——異類樣本的樣本類別R[m]——個(gè)體R特征m的值Hj[m]——第j個(gè)最鄰近同類樣本特征m的值
p(c)——異類樣本類別為c的概率
class(R)——個(gè)體R的類別
p(class(R))——樣本類別與R相同的概率
T(c)j[m]——第j個(gè)最鄰近c(diǎn)類樣本特征m的值
特征權(quán)重越大,說明該特征使得樣本的類間距離大,類內(nèi)距離小,對類別識別作用大[4,30]。
2.4.2 隨機(jī)森林算法原理
隨機(jī)森林分類器(Random forest classifier)是根據(jù)隨機(jī)抽取的樣本信息,通過建立多棵獨(dú)立決策樹分別預(yù)測目標(biāo)類別的無參數(shù)分類器。假定生成決策樹的棵數(shù)為N,樣本的全部特征數(shù)為M,模型的每棵決策樹都是在所有訓(xùn)練樣本中依據(jù)bootstrap抽樣方式提取子訓(xùn)練集后,再從參與建模的全部特征中隨機(jī)選擇指定數(shù)目的特征建立的,并利用不屬于子訓(xùn)練集的樣本計(jì)算該決策樹的分類內(nèi)部誤差。為新數(shù)據(jù)分類時(shí),綜合所有決策樹的獨(dú)立預(yù)測結(jié)果,通過投票方式?jīng)Q定待分類目標(biāo)的最可能類別,得出綜合袋外誤差(Out-of-bag error,OOB)。OOB誤差越小,說明基于RF的分類錯誤率越小,分類精度越高。
OOB誤差除體現(xiàn)分類精度外,也可用于計(jì)算特征重要性評分(VIM)。在每棵決策樹得到OOB誤差(Bo)后,對于每一個(gè)參與決策樹運(yùn)算的特征變量,保持其他特征取值不變,將該特征變量袋外數(shù)據(jù)取值隨機(jī)打亂,重新計(jì)算決策樹的OOB誤差(Bn)。所有決策樹兩類OOB誤差的差值和的百分比即為被打亂特征的VIM。對于任意特征MA,決策樹編號為t,特征重要性評分V(MA)可以表示為
(2)
V越大,特征越重要[8,9,31]。
圖2 MOGARF特征選擇流程圖Fig.2 Flow chart of MOGARF feature selection method
特征選擇過程中,RF算法主要用于評價(jià)各特征組合分類精度和組合內(nèi)特征的重要程度。獲得最優(yōu)特征集后,還將利用RF算法提取研究區(qū)濕地信息。
RF模型基于R語言的Random Forest語言包建立。運(yùn)行時(shí)需為兩個(gè)參數(shù)賦值:生成決策樹的數(shù)目ntree和節(jié)點(diǎn)分裂時(shí)輸入的特征變量個(gè)數(shù)mtry。軟件默認(rèn)mtry為sqrt(M),ntree為500[3]。當(dāng)特征數(shù)目較多時(shí),使用默認(rèn)值得到的模型OOB誤差可能偏高,因此本文在每次利用RF算法分類前,都分別對兩個(gè)參數(shù)取值進(jìn)行試驗(yàn),提取使OOB誤差最小參數(shù)組合并以此建立RF模型。具體方法為:首先固定ntree為2 000,對mtry取遍1~M的所有整數(shù)分別建立RF模型,計(jì)算OOB誤差,最佳mtry取值為使OOB誤差最小的mtry0;再令mtry=mtry0,使ntree取遍1~2 000的所有整數(shù),比較相應(yīng)的OOB誤差,確定使OOB誤差最小的最佳ntree取值。
2.4.3 MOGARF特征選擇方案構(gòu)建
做某種決策時(shí)常需要同時(shí)綜合考慮多項(xiàng)限制條件,有時(shí)這些約束條件甚至是相互矛盾的,這就需要借助多目標(biāo)優(yōu)化思想來解決問題。NSGAII多目標(biāo)遺傳算法是對傳統(tǒng)遺傳算法的改進(jìn),目前已成為解決多目標(biāo)優(yōu)化問題的基準(zhǔn)算法之一。NSGAII的步驟主要有編碼、初始化種群、設(shè)計(jì)目標(biāo)函數(shù)、非支配排序和計(jì)算擁擠距離,通過對擁擠距離的評估進(jìn)行選擇、交叉和變異產(chǎn)生新種群[14]。
本文提出的MOGARF算法是基于NSGAII的特征選擇算法,首先利用Relief F算法對參與分類的特征進(jìn)行初選,剔除類間距離小于類內(nèi)距離的特征;再根據(jù)特征優(yōu)化的4個(gè)因素確定算法目標(biāo),建立非支配集,計(jì)算擁擠距離;在生成初始化種群時(shí),由RF算法得到VIM基于Gama分布產(chǎn)生每個(gè)保留特征入選的概率,確保重要的特征入選的幾率更大[13]。
設(shè)遺傳代數(shù)為G,種群中個(gè)體數(shù)為S,選擇率為ps,交叉率為pc,變異率為pm,由包含全部特征的No_FS特征集得到的最佳RF建模參數(shù)為mtry0和ntree0,MOGARF算法具體實(shí)現(xiàn)流程如圖2所示[13]。
對于第G代種群中的個(gè)體,直接選取其中擁擠距離最大的個(gè)體作為最優(yōu)解,該個(gè)體包含的特征構(gòu)成本試驗(yàn)最優(yōu)特征集。
MOGARF選擇和濕地RF分類過程借助Matlab和R語言軟件平臺交互實(shí)現(xiàn)。對選出的最優(yōu)特征集進(jìn)行RF模型參數(shù)選擇試驗(yàn),選出最佳參數(shù)組合ntreen和mtryn,并對最優(yōu)特征集建立RF模型,提取南甕河流域濕地信息。
3.1 MOGARF模型選取特征集
對No_FS特征集,當(dāng)mtry取94時(shí)OOB誤差取最小值13.37%,ntree超過1 000時(shí)模型OOB誤差趨于穩(wěn)定,故將最佳參數(shù)組合確定為mtry0=94,ntree0=1 000。此參數(shù)組合也作為初始RF建模參數(shù)提取滿足Gama分布的特征入選概率。利用Matlab和R語言軟件交互實(shí)現(xiàn)MOGARF特征選擇過程,得到了具有45個(gè)特征的最優(yōu)特征集,如表3所示。表中指數(shù)特征以“特征類型 季節(jié)縮寫”的形式命名,其他特征以“特征類型 波段 季節(jié)”命名。
在最優(yōu)特征集中,包含除形狀特征外的其余4種特征類別,說明想要達(dá)到理想的分類效果,需要綜合利用多源信息,整合不同類別的特征,共同用于分類過程。入選光譜特征和指數(shù)特征數(shù)量最多,說明在本研究中光譜特征和指數(shù)特征是重要特征類別。紋理特征和地形特征種類較少,且沒有形態(tài)特征入選,可能由以下原因造成:對于中等分辨率的影像而言,由于存在混合像元,且在影像分割后以對象邊界為窗口提取對象的紋理特征,削弱了紋理特征取值的區(qū)別,使紋理特征在分類過程中起到作用較小。本文采用統(tǒng)一尺度分割影像,對象的形狀特征相似,削弱了形狀特征的作用。
表3 最優(yōu)特征集
Tab.3 Optimal feature set
特征類別特征命名數(shù)量光譜特征MeanNIRspr、MeanNIRsum、MeanSWIR2sum、MeanRedaut、MeanSWIR1aut、SkewnessSWIR1aut、SkewnessSWIR2aut、SkewnessSWIR2spr、Min.pixelBluespr、Min.pixelElev、Min.pixelGreensum、Min.pixelSWIR1sum、Max.pixelBluesum、Max.pixelSlope14紋理特征GLCMAng.2ndmoment(alldir.)、GLCMMeanBluespr、GLCMMeanGreensum、GLCMMeanRedspr、GLCMMeanElev、GLCMMeanSlope、GLDVEntNIRaut7指數(shù)特征MCARI2aut、EWIspr、LAIspr、SAVIspr、OSAVIsum、DVIspr、DVIaut、EVIspr、EVIsum、EVIaut、ARVIspr、GVIspr、GVIsum、NDBIspr、NDBIaut、CVIspr、CVIaut、MNDWIaut、LSWIspr、NDMIsum、NDMIaut、SWCIspr、SWCIaut23地形特征MeanElev1
3.2 MOGARF_RF分類方案結(jié)果與精度分析
圖3 MOGARF_RF方案分類結(jié)果Fig.3 Result maps of MOGARF_RF classification strategy
令OOB誤差最小的參數(shù)組合為mtry0MOGARF=6,ntree=1 000。建立RF模型對研究區(qū)進(jìn)行分類,濕地分布情況如圖3a所示。研究區(qū)內(nèi)各類濕地總面積為1 661.698 km2,占總面積的30%,多分布于平緩低洼地帶。其中森林濕地約為274.576 km2,主要集中在研究區(qū)東南,占濕地總面積的16.52%;灌叢濕地面積36.60 km2,多分布于河岸兩側(cè),占濕地總面積的0.02%;草本濕地面積1 340.120 km2,面積最大,遍布整個(gè)研究區(qū),占濕地總面積的80.65%。與圖3b對比可知,本文得到的濕地面積和分布情況基本符合研究區(qū)實(shí)際情況。
計(jì)算混淆矩陣,獲取的精度評定指標(biāo)如表4所示?;煜仃囍械脑匾园俜直刃问奖硎?。由表4可知,MOGARF_RF分類方案的總體精度為92.61%,Kappa系數(shù)為0.907 5,森林濕地、灌叢濕地、草本濕地、永久性湖泊和季節(jié)性河流的用戶精度分別為87.5%、82.0%、97.6%、88.0%和79.5%。這5類濕地的制圖精度分別為94.7%、93.3%、86.3%、86.8%和97.0%。該方案分類精度較高,是研究區(qū)內(nèi)濕地信息提取的可行方案。由于樣本具有代表性,不同類別濕地間的混淆較少。不同地類的混淆主要發(fā)生在草本濕地和其他地類之間,灌叢濕地和永久性河流之間,以及季節(jié)性湖泊和永久性河流之間。部分混淆是由地類間光譜特征的相似性造成。季節(jié)性湖泊和永久性河流在一定時(shí)段內(nèi)都存在特征相似的水面,草地和草本濕地在一定時(shí)段內(nèi)水文、植被特征相似,在草相對茂盛的區(qū)域,即使草下水文狀態(tài)不同,也可能由于Landsat影像的弱穿透能力而導(dǎo)致誤分錯分現(xiàn)象。其余混淆主要是由于相鄰兩種地類間邊界較模糊,且存在一定的混合像元造成的。一般情況下,濕地通常從森林濕地經(jīng)由灌叢濕地和草本濕地過渡至泥炭沼澤濕地。相鄰濕地類型?;焐植?,之間沒有明確的界限,在中等分辨率的影像中常以混合像元形式存在,從而導(dǎo)致濕地類型的誤判斷。由于島狀林的特殊性,研究區(qū)中部分森林濕地與草本濕地直接相連,二者也存在一定量的混合像元[7];本研究選取的灌叢濕地樣本分布在永久性河流河岸處,灌叢濕地和永久性河流也存在混合像元。
表4 MOGARF_RF分類方案混淆矩陣
Tab.4 Confusion matrix of MOGARF_RF classification scheme
林地森林濕地灌叢濕地草本濕地草地耕地道路永久性河流季節(jié)性湖泊林地100000000森林濕地00.9000.0800000.03灌叢濕地000.840.040000.120草本濕地0000.980.010000草地00.0200.130.830.02000耕地0000.080.020.880.0200道路0.04000.200.0400.7200永久性河流000.040.040000.920季節(jié)性湖泊0000.13000.030.030.82制圖精度/%99.294.793.386.393.395.692.386.897.0用戶精度/%10087.582.097.683.086.064.088.079.5總體精度/%92.61Kappa系數(shù)0.9075
3.3 不同方案分類精度指標(biāo)比較
為比較MOGARF算法的特征選擇效果,將其分別與利用No_FS特征集、Relief F優(yōu)化特征集和Boruta優(yōu)化特征集的RF分類對比,令Relief F優(yōu)化特征集和Boruta優(yōu)化特征集的特征數(shù)也為45。RF模型的ntree取1 000,mtry0No_FS=5,mtry0MOGARF=6, mtry0ReliefF=9, mtry0Boruta=5。由4種分類方案的混淆矩陣分析總體精度、Kappa系數(shù)、OOB誤差、漏分和錯分誤差等指標(biāo),量化不同方案的分類精度。各分類方案精度評定指標(biāo)如圖4所示。
從圖4a~4c中可以看出,在4種分類方式中,利用MOGARF優(yōu)化特征集,總體精度達(dá)到92.61%,OOB誤差為7.77%;利用Boruta優(yōu)化特征集的RF分類,總體精度達(dá)到90.67%,OOB誤差為9.25%;而考慮類間可分性的Relief F優(yōu)化特征集分類精度為92.26%。分類結(jié)果的Kappa系數(shù)都在0.8以上,分類結(jié)果具有較高可信度。在建立RF模型時(shí)都采用了每種分類方式各自的最優(yōu)參數(shù)組合,保證所有分類結(jié)果都為對應(yīng)方案中的相對最優(yōu)解。比較可知,MOGARF進(jìn)行面向?qū)ο蟮腞F分類精度最高,總體精度比其他分類方案提高0.35%~1.94%,OOB誤差比其他分類方案降低0.91%~1.48%。
從圖4d、4e可以看出,采用MOGARF特征選擇算法對所有濕地類別的錯分誤差總體上小于其他方法,錯分主要集中在森林濕地、灌叢濕地和季節(jié)性湖泊中。原因可能在于這3類濕地覆蓋面積小,而在選取樣本時(shí)為保證類別具有足夠樣本,實(shí)際采集的樣本數(shù)所占比例大于實(shí)際地類區(qū)內(nèi)所占比例,從而增大了其他類別個(gè)體被誤判為這幾類的可能性。永久性河流和草本濕地的漏分現(xiàn)象嚴(yán)重,道路與其他類別的錯分也由相似原因?qū)е隆4送?,道路在影像圖中較為細(xì)小,易與其他類別形成混合像元,在一定程度上影響了分類精度。
圖4 不同特征選擇方案分類誤差對比圖Fig.4 Comparisons of classification errors with different feature selection strategies
從上述的研究過程與結(jié)果中可以看出,在采用RF算法進(jìn)行濕地分類前,先利用MOGARF特征選擇算法提取優(yōu)化的特征集,能夠在一定程度上提高RF分類精度。相比于Boruta和Relief F特征選擇方案,MOGARF特征選擇算法能夠獨(dú)立確定特征集維數(shù),并平衡分類精度、數(shù)據(jù)冗余度、數(shù)據(jù)維度等多項(xiàng)特征集評價(jià)指標(biāo)。此外,利用MOGARF算法選取最優(yōu)特征集,能夠大幅度降低數(shù)據(jù)維度,降維后的數(shù)
據(jù)通過RF算法進(jìn)行分類,在保證高分類精度的前提下,減少研究人員在數(shù)據(jù)準(zhǔn)備過程中的工作量,節(jié)約存儲空間,提高運(yùn)算效率。因此,基于MOGARF特征選擇的面向?qū)ο蠓诸惙椒ㄊ菨竦胤诸愌芯靠煽康膶?shí)施方案,更適用于對濕地主要類別的提取。
1 毛德華.定量評價(jià)人類活動對東北地區(qū)沼澤濕地植被NPP的影響[D].長春:中國科學(xué)院東北地理與農(nóng)業(yè)生態(tài)研究所,2014. MAO Dehua. Quantitative assessment in the impacts of human activities on net primary productivity of wetlands in the northeast China[D].Changchun: Northeast Institute of Geography and Agro ecology, Chinese Academy of Sciences,2014. (in Chinese)
2 DRONOVA I. Object-based image analysis in wetland research: a review[J].Remote Sensing, 2015,7(5):6380-6413.
3 NA Xiaodong, ZANG Shuying, WU Changshan, et al. Mapping forested wetlands in the Great Zhan River Basin through integrating optical, radar, and topographical data classification techniques[J]. Environmental Monitoring and Assessment, 2015, 187(11): 1-17.
4 肖艷,姜琦剛,王斌,等.Relief F和PSO混合特征選擇的面向?qū)ο笸恋乩梅诸怺J].農(nóng)業(yè)工程學(xué)報(bào),2016,32(4):211-216. XIAO Yan, JIANG Qigang, WANG Bin, et al. Object based land-use classification based on hybrid feature selection method of combining Relief F and PSO[J]. Transactions of the CSAE, 2016, 32(4):211-216. (in Chinese)
5 SHRUTHI R B, KERLE N, JETTEN V, et al. Object-based gully system prediction from medium resolution imagery using random forests[J]. Geomorphology, 2014,216: 283-294.
6 謝靜.基于多季相遙感信息的三江平原濕地信息提取[D].長春:中國科學(xué)院研究生院東北地理與農(nóng)業(yè)生態(tài)研究所,2013. XIE Jing. Classification of wetlands using object-oriented method and multi-season remote sensing images in Sanjiang Plain[D]. Changchun: Northeast Institute of Geography and Agro ecology, Chinese Academy of Sciences, 2013. (in Chinese)
7 孫俊杰,馬大喜,任春穎,等.基于多時(shí)相環(huán)境衛(wèi)星數(shù)據(jù)的南甕河流域濕地信息提取方法研究[J].濕地科學(xué),2013,11(1):60-67. SUN Junjie, MA Daxi, REN Chunying, et al. Method of extraction of wetlands’ information in Nanweng River Basin based on multi-temporal environment satellite images[J]. Wetland Science, 2013, 11(1):60-67. (in Chinese)
8 BREIMAN L. Random forest[J].Machine Learning,2001,45(1):5-32.
10 嚴(yán)婷婷,邊紅楓,廖桂項(xiàng),等.森林濕地遙感信息提取方法研究現(xiàn)狀[J].國土資源遙感,2014,26(2):11-18. YAN Tingting, BIAN Hongfeng, LIAO Guixiang, et al. Research status of methods for mapping forested wetlands based on remote sensing[J]. Remote Sensing for Land & Resources, 2014, 26(2):11-18. (in Chinese)
11 王書玉,張羽威,于振華.基于隨機(jī)森林的洪河濕地遙感影像分類研究[J].測繪與空間地理信息,2014,37(4):83-85,93. WANG Shuyu, ZHANG Yuwei, YU Zhenhua. Classification of Honghe wetland remote sensing image based on random forests[J]. Geomatics & Spatial Information Technology, 2014, 37(4):83-85,93. (in Chinese)
12 ZHANG Caiyun, XIE Zhixiao. Object-based vegetation mapping in the Kissimmee River Watershed using HyMap data and machine learning techniques[J]. Wetlands, 2013, 33(2): 233-244.
13 趙發(fā)林,張濤,李康. 基于遺傳算法的隨機(jī)森林模型(GARF)用于特征基因篩選[C]∥2011年中國衛(wèi)生統(tǒng)計(jì)學(xué)年會會議論文集,2011:7.
14 宋羚.基于多目標(biāo)遺傳算法和SVM的特征選擇方法[D].武漢:華中科技大學(xué),2007. SONG Ling. A feature selection method based on multi-objective genetic algorithm and support vector machines[D]. Wuhan: Huazhong University of Science and Technology,2007. (in Chinese)
15 裘國永,王娜,汪萬紫.基于互信息和遺傳算法的兩階段特征選擇方法[J] .計(jì)算機(jī)應(yīng)用研究, 2012, 29(8): 2903-2905. QIU Guoyong, WANG Na, WANG Wanzi. Two-stage feature selection algorithm based on mutual information and genetic algorithm[J]. Application Research of Computers, 2012,29(8): 2903-2905. (in Chinese)
16 劉航宏.黑龍江南甕河國家級自然保護(hù)區(qū)大型真菌多樣性研究[D].長春:吉林農(nóng)業(yè)大學(xué),2013. LIU Hanghong. Study on diversity of macrofungi in Nanwenghe national nature reserve[D]. Changchun: Jilin Agricultural University, 2013. (in Chinese)
17 裴亞軍.滇東南石漠化多尺度遙感監(jiān)測的精度評價(jià)研究[D].昆明:昆明理工大學(xué),2014.
18 MILLARD K, RICHARDSON M. On the importance of training data sample selection in random forest image classification: a case study in Peatland ecosystem mapping[J]. Remote Sensing, 2015, 7(7):8489-8515.
19 劉金鋒.基于多源遙感數(shù)據(jù)的青海湖流域植被指數(shù)研究[D].西寧:青海師范大學(xué),2014. LIU Jinfeng. Vegetation indices based on multi-source remote sensing data of the Qinghai Lake basin[D]. Xining: Qinghai Normal University, 2014. (in Chinese)
20 朱旭珍.三種不同方法估算森林葉面積指數(shù)的比較研究[D].臨安:浙江農(nóng)林大學(xué),2014. ZHU Xuzhen. A comparative study of three different methods for estimating forest leaf area index[D]. Lin’an: Zhejiang A&F University, 2014. (in Chinese)
21 李子揚(yáng),錢永剛,申慶豐,等.基于高光譜數(shù)據(jù)的葉面積指數(shù)遙感反演[J].紅外與激光工程,2014,43(3):944-949. LI Ziyang, QIAN Yonggang, SHEN Qingfeng, et al. Leaf area index retrieval from remotely sensed hyperspectral data[J]. Infrared and Laser Engineering, 2014, 43(3):944-949. (in Chinese)
22 朱緒超,袁國富,易小波,等.基于Landsat 8 OLI影像的塔里木河下游河岸林葉面積指數(shù)反演[J].干旱區(qū)地理,2014,37(6):1248-1256. ZHU Xuchao, YUAN Guofu, YI Xiaobo, et al. Leaf area index inversion of riparian forest in the lower basin of Tarim River based on Landsat 8 OLI images[J]. Arid Land Geography, 2014, 37(6):1248-1256. (in Chinese)
23 任安才.基于TM影像的川西北理塘草地生物量與植被指數(shù)關(guān)系研究[D].雅安:四川農(nóng)業(yè)大學(xué),2008. REN Ancai. Grassland biomass on north-western Plateau of Sichuan and vegetation indexes relation using Landsat TM image[D]. Ya’an: Sichuan Agricultural University, 2008. (in Chinese)
24 樊輝.基于Landsat TM的城市熱島效應(yīng)與地表特征參數(shù)穩(wěn)健關(guān)系模型[J] .國土資源遙感,2008,19(3):45-51. FAN Hui. The robust linear regression model between satellite-derived urban heat island and underlying surface parameters[J]. Remote Sensing for Land & Resources, 2008, 19(3):45-51. (in Chinese)
25 羅崇亮.基于水體指數(shù)的艾比湖湖水面積提取對比研究[J].科技創(chuàng)新導(dǎo)報(bào),2015(24):34-35.
26 李夢云.基于VSDI指數(shù)的土壤濕度遙感降尺度研究[D].長春:東北師范大學(xué),2014. LI Mengyun. Downscaling of passive microwave soil moisture using visible and shortwave infrared drought index: a case study of the western Jilin province[D]. Changchun: Northeast Normal University,2014. (in Chinese)
27 ZHANG Ning, YANG Hong, QIN Qiming, et al. Evaluation of the visible and shortwave infrared drought index in China[J]. International Journal of Disaster Risk Science, 2013, 4(2):68-76.
28 邢麗瑋,李小娟,李昂晟.等. 基于高光譜與多光譜植被指數(shù)的洪河沼澤植被葉面積指數(shù)估算模型對比研究[J].濕地科學(xué),2013,11(3):313-319. XING Liwei, LI Xiaojuan, LI Angsheng, et al. A comparative study on estimation model for leaf area index of vegetation in marshes in Honghe National Nature Reserve based on hyperspectral and multispectral vegetation indices[J]. Wetland Science, 2013, 11(3):313-319. (in Chinese)
29 康峰峰.北京西南山地森林綠量遙感反演的研究[D].北京:北京林業(yè)大學(xué),2011. KANG Fengfeng. Study on remote sensing retrieval of forest vegetation quantity in mountainous area south-western Beijing China[D]. Beijing: Beijing Forestry University,2011. (in Chinese)
30 李曉嵐.基于Relief特征選擇算法的研究與應(yīng)用[D].大連:大連理工大學(xué),2013. LI Xiaolan. The study and application of feature selection algorithms based on Relief[D]. Dalian: Dalian University of Technology,2013. (in Chinese)
31 馬玥,姜琦剛,孟治國,等.基于隨機(jī)森林算法的農(nóng)耕區(qū)土地利用分類研究[J/OL].農(nóng)業(yè)機(jī)械學(xué)報(bào),2016,47(1):297-303.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?file_no=20160140&flag=1. DOI:10.6041/j.issn.1000-1298.2016.01.040. MA Yue, JIANG Qigang, MENG Zhiguo, et al. Random forest classification of land use in farming area[J/OL]. Transactions of the Chinese Society for Agricultural Machinery, 2016, 47(1):297-303. (in Chinese)
Object-oriented Wetland Classification Based on Hybrid Feature Selection Method Combining with Relief F, Multi-objective Genetic Algorithm and Random Forest
LIU Shu1JIANG Qigang1MA Yue1XIAO Yan1LI Yuanhua1CUI Can2
(1.CollegeofGeo-explorationScienceandTechnology,JilinUniversity,Changchun130026,China2.NavigationCollege,DalianMaritimeUniversity,Dalian116000,China)
Recently, researchers adopted object-oriented method to extract wetland distributions. Multi-temporal and multi-sources of data can facilitate the extraction process but meanwhile it enlarges the amount of features. It needs a large quantity of experiment based on the expert knowledge to determine the optimal feature sets and the threshold values. In order to improve the classification accuracy and relief the researchers from large amount of work, a filter-wrapper hybrid feature selection method combining relief F, multi-objective genetic algorithm and random forest was proposed, which was a two-step method. In the first step, relief F algorithm was adopted to select features with class separability. In the second step, multi-objective genetic algorithm based on random forest (MOGARF) was built. Four measures such as out-of-bag (OOB) error of random forest algorithm, dimension of the feature space, correlations among features and the variable weight of relief F algorithm were acted as four objectives of MOGA. The probability whether the feature was expressed was determined by the variable importance measures from random forest algorithm. The crowded distance of each feature collection was calculated and the feature collection with the least crowded distance was the optimal feature set. Nanweng river basin was taken as the study site. Object-oriented classification using random forest classifier was conducted based on the optimal feature set. Then the result was compared with three other random forest classification schemes by using the entire feature set or the feature set selected by relief F algorithm or the Boruta algorithm. The classification scheme with MOGARF had the best performance and the feature dimension was reduced to 10% of the entire one. The overall accuracy reached 92.61% which was 0.35%~1.94% higher than those of the other three schemes with Kappa coefficient of 0.930 6. The OOB error of MOGARF was 7.77% which was 0.91%~1.48% lower than those of the other schemes. All these indicated that the MOGARF feature selection method was an effective feature selection method when it was combined with random forest classifier.
wetland classification; multi-spectral remote sensed imagery; object-oriented; multi-objective genetic and random forest algorithm; feature selection
10.6041/j.issn.1000-1298.2017.01.016
2016-09-02
2016-11-04
東北地區(qū)國土資源遙感綜合調(diào)查項(xiàng)目(85015B01009)
劉舒(1988—),女,博士生,主要從事遙感地學(xué)和環(huán)境遙感研究,E-mail: liushu8877@126.com
姜琦剛(1964—),男,教授,博士生導(dǎo)師,主要從事GIS與遙感地學(xué)環(huán)境研究,E-mail: jiangqigang@jlu.edu.cn
TP79
A
1000-1298(2017)01-0119-09