萬(wàn)杰 楊勇 韓春峰 王訓(xùn)宇
摘 要:該文章以云南省昆明市西山區(qū)為研究區(qū)域,利用WordView-2的4波段影像數(shù)據(jù)源,通過(guò)學(xué)習(xí)掌握ENVI軟件中的決策樹(shù)分類(lèi)工具,以及利用不同地類(lèi)的波譜信息的特征差異,分析了影像的各個(gè)地類(lèi)的光譜特征,從中提取了4波段影像的NDVI(歸一化植被指數(shù)),以此確定了不同地類(lèi)之間的波段均值閾,根據(jù)不同地類(lèi)在不同波段以及NDVI上的變化建立對(duì)應(yīng)的決策樹(shù)模型,最終得到其分類(lèi)結(jié)果。本文最后采用已有的樣本感興趣區(qū)數(shù)據(jù)對(duì)其決策樹(shù)分類(lèi)結(jié)果進(jìn)行了精度評(píng)價(jià),并且評(píng)價(jià)分析了其結(jié)果精度在遙感數(shù)據(jù)中的作用。
關(guān)鍵詞:決策樹(shù) ENVI提取信息 WV-2
中圖分類(lèi)號(hào):S127 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2015)03(c)-0047-04
遙感影像信息提取是影像分析的一項(xiàng)重要內(nèi)容。信息提取的方法由傳統(tǒng)的人工解譯,監(jiān)督分類(lèi),非監(jiān)督分類(lèi)到后期的基于專(zhuān)家知識(shí)的決策樹(shù)分類(lèi)。研究區(qū)域的不同,選擇研究方法也有所改變,尤其對(duì)于西南區(qū)域的丘陵地帶或多山地區(qū)采用傳統(tǒng)的方法不能很好的提取地類(lèi)信息,因此,僅靠傳統(tǒng)的光譜特性提取地物,就容易造成地類(lèi)提取的錯(cuò)分或者漏分,分類(lèi)結(jié)果不能滿(mǎn)足,后期的應(yīng)用達(dá)不到精度需求[1]。為了實(shí)現(xiàn)自動(dòng)、高效的影像分類(lèi)方法,決策樹(shù)分類(lèi)算法成為信息提取的關(guān)鍵技術(shù)之一,決策樹(shù)分類(lèi)方法具有以下的優(yōu)點(diǎn):(1)速度快:計(jì)算量相對(duì)較小,且容易轉(zhuǎn)化成分類(lèi)規(guī)則;(2)準(zhǔn)確性高:挖掘出的分類(lèi)規(guī)則準(zhǔn)確性高,便于理解;(3)方法操作簡(jiǎn)單,準(zhǔn)確度高,已在遙感圖像特征提取和圖像分類(lèi)中得到廣泛應(yīng)用[6-7]。
1 研究區(qū)概況與研究資料
1.1 研究區(qū)概況
西山區(qū)位于昆明市區(qū)西部,地處東經(jīng)102°21′~102°45′,北緯24°41′~25°26′。東西寬36.8千米,南北長(zhǎng)72千米,形如靈芝狀??偯娣e1058平方千米[2] ,其中山區(qū)、半山區(qū)面積占92%,壩區(qū)面積占8%。
西山區(qū)地處滇池盆地西北邊沿,地勢(shì)西北高,東南低,西北、北部地形起伏較大,靠昆明主城區(qū)部分為壩區(qū),其余為山區(qū)、半山區(qū)。最高海拔2622米(風(fēng)擺山),最低海拔1731米[3] 。部分西山區(qū)地理位置如圖1所示。
1.2 數(shù)據(jù)源獲取
本研究采用的數(shù)據(jù)為云南省昆明市西山區(qū)的數(shù)據(jù),根據(jù)不同中心波長(zhǎng)波段的組合方案,本研究采用WV-2數(shù)據(jù)的4,3,2波段分別賦予紅、綠、藍(lán),獲取近似自然的假彩色合成圖像(如圖2),方便后面的目視解譯以及結(jié)果查看。
2 決策樹(shù)分類(lèi)研究
ENVIDecision Tree分類(lèi)方法是一個(gè)多級(jí)分類(lèi)器,它的基礎(chǔ)是一系列的二叉決策樹(shù)。每一個(gè)決策樹(shù)依據(jù)一個(gè)表達(dá)式將圖像中的像元分為兩類(lèi),每一個(gè)新生成的類(lèi)別又可以根據(jù)其他的表達(dá)式繼續(xù)向下分為兩類(lèi)??梢愿鶕?jù)需求定義決策樹(shù)的節(jié)點(diǎn),節(jié)點(diǎn)的個(gè)數(shù)是不受限制的。用戶(hù)可以使用來(lái)自不同來(lái)源或文件的數(shù)據(jù)共同生成一個(gè)決策樹(shù)分類(lèi)器,也可以交互式編輯和“剪除”決策樹(shù),保存后的決策樹(shù)可以用于其他數(shù)據(jù)。
ENVI的決策樹(shù)分類(lèi)器有如下特征[4]:
決策樹(shù)的建立采用圖形拖放工具。
在單個(gè)決策樹(shù)中可以使用具有不同投影和不同像元尺寸的文件,使用過(guò)程中將動(dòng)態(tài)對(duì)他們進(jìn)行重新投影和重采樣。
可以動(dòng)態(tài)計(jì)算特定的變量值(如NDVI、Aspect等),而不需要單獨(dú)準(zhǔn)備,并將他們應(yīng)用在表達(dá)式中。
基于知識(shí)的決策樹(shù)分類(lèi)是基于遙感影像數(shù)據(jù)及其他空間數(shù)據(jù),通過(guò)專(zhuān)家經(jīng)驗(yàn)總結(jié)、簡(jiǎn)單的數(shù)學(xué)統(tǒng)計(jì)和歸納方法等,獲得分類(lèi)規(guī)則并進(jìn)行遙感分類(lèi)。分類(lèi)規(guī)則易于理解,分類(lèi)過(guò)程也符合人的認(rèn)知過(guò)程,最大的特點(diǎn)是利用多源數(shù)據(jù)。
專(zhuān)家知識(shí)決策樹(shù)分類(lèi)的步驟大體上可分為四步:知識(shí)(規(guī)則)定義、規(guī)則輸入、決策樹(shù)運(yùn)行和分類(lèi)后處理。難點(diǎn)是規(guī)則的獲取,可以來(lái)自經(jīng)驗(yàn)總結(jié),如坡度小于20度是緩坡等;也可以通過(guò)統(tǒng)計(jì)的方法從樣本中獲取規(guī)則,如C4.5算法、CART算法、S-PLUS算法等。
2.1 分類(lèi)預(yù)處理
根據(jù)人工目視解譯的標(biāo)準(zhǔn)規(guī)范《中華人民共和國(guó)土地利用現(xiàn)狀分類(lèi)國(guó)家標(biāo)準(zhǔn)》,根據(jù)實(shí)驗(yàn)區(qū)的特點(diǎn)將其土地覆蓋信息分為:植被,人工建筑棚,建筑用地,水體,未利用地。
由于每一種地物之間都可能存在有同物異譜,同譜異物的特性,在進(jìn)行地類(lèi)樣本選擇以前,需要通過(guò)測(cè)定各個(gè)地類(lèi)的光譜值進(jìn)行各個(gè)地類(lèi)的最值,均值和方差值統(tǒng)計(jì),綜合運(yùn)用閾值的方法,將不同的地物提取出來(lái)。
2.2 規(guī)則建立
2.2.1植被提取以及人工建筑棚提取
由于植被在近紅外波段的反射率最強(qiáng),在紅光波段的吸收率最強(qiáng),這兩個(gè)波段不僅是植物光譜、光合作用中的最重要的波段,而且它們對(duì)同一生物物理現(xiàn)象的光譜響應(yīng)截然相反,形成的明顯反差,這種反差隨著植被覆蓋度的變化而變化,因此,可對(duì)它們用比值,差分等多種組合來(lái)增強(qiáng)現(xiàn)實(shí)植被或者揭示隱含的植被信息[5]。
提取的植被信息與人工建筑棚之間存在一定的聯(lián)系,通過(guò)一定的NDVI閾值設(shè)定可以看到,提取的植被信息中有被錯(cuò)分的地物,主要是人造工棚以及屋頂顏色鮮艷的建筑物,通過(guò)ENVI下的統(tǒng)計(jì)分析可以看出,在藍(lán)色波段可以發(fā)現(xiàn)綠地區(qū)域的最大值與非綠地對(duì)應(yīng)的最小值基本接近,可以通過(guò)設(shè)置此閾值區(qū)分植被與人間建筑棚。
2.2.2 未利用地以及建筑用地提取
未利用地域建筑用地有很大的相似性,但又有很大的區(qū)別,可以通過(guò)二者地物在綠波段以及NDVI的差值變化來(lái)進(jìn)行區(qū)分。具體的區(qū)分閾值通過(guò)ENVI下的樣本選擇統(tǒng)計(jì)分析進(jìn)行劃定。
2.2.3 水體信息提取
水體信息在近紅外波段以后出現(xiàn)強(qiáng)吸收階段,反射率幾乎為零,可以根據(jù)此特定從NDVI值的閾值設(shè)定來(lái)區(qū)分水體與非水體信息。
2.3 決策樹(shù)生成
2.3.1 決策樹(shù)生成
生成的決策樹(shù)見(jiàn)圖4所示。
2.3.2 ENVI下執(zhí)行決策樹(shù)規(guī)則
第一步:規(guī)則獲取
根據(jù)上述三步對(duì)于不同地類(lèi)的需求,ENVI下構(gòu)建的決策樹(shù)規(guī)則描述如下:
Class1(植被):NDVI>0.3,
Class2(人工建筑棚):0.3Class3(未利用地):0.03