曾特林 吳彩燕 曾曉麗
(西南科技大學(xué)環(huán)境與資源學(xué)院 四川綿陽 621010)
?
基于決策樹的多源遙感數(shù)據(jù)分類
曾特林 吳彩燕 曾曉麗
(西南科技大學(xué)環(huán)境與資源學(xué)院 四川綿陽 621010)
遙感影像是獲取土地覆蓋信息的重要手段。分析了影響決策樹分類的特征因子,并根據(jù)這些因子構(gòu)建分類決策樹。結(jié)合中分辨率多源遙感數(shù)據(jù),對貢嘎山區(qū)進行土地覆蓋分類,通過與最大似然法分析對比,基于決策樹的多源數(shù)據(jù)分類對試驗區(qū)的分類精度(總體精度85.71%,Kappa系數(shù)0.83)遠高于基于像素的最大似然法監(jiān)督分類(總體精度63.56%,Kappa系數(shù)0.58)。
決策樹分類 多源數(shù)據(jù) 貢嘎山區(qū) 中分辨率 遙感分類
自20世紀90年代以來,國內(nèi)外對土地覆蓋的遙感分類方法主要為基于傳統(tǒng)的統(tǒng)計模式的分類方法,如最大似然分類法、最小距離分類法、等距離混合法、ISODATA等。近年來,傳統(tǒng)統(tǒng)計模式的分類方法已經(jīng)不能滿足地物類別的判讀精度,因此出現(xiàn)了越來越多的人工智能分類方法,其中面向?qū)ο蟮臎Q策樹分類方法得到諸多應(yīng)用。韓濤等利用單時相的MODIS數(shù)據(jù)構(gòu)建決策樹進行自動分類[2],趙慧等研究了影響分類精度的因素[3],楊曦光等使用決策樹方法對海島土地利用進行了分類研究[4]。這些研究結(jié)果都肯定了決策樹分類方法在遙感影像分類中的顯著效果,但對影像分辨率要求都比較高?;跊Q策樹的多源遙感影像分類方法不同于基于像元、亞像元的分類方法,是一種結(jié)合多源數(shù)據(jù)的面向?qū)ο蟮姆诸惙?,本文通過結(jié)合多源數(shù)據(jù)的影像分割建立決策樹進行分類,并與傳統(tǒng)的分類方法監(jiān)督分類(最大似然法)的分類結(jié)果進行對比分析。
決策樹分類法的原理是按照一定的規(guī)則把遙感數(shù)據(jù)集逐級往下細分,以確定決策樹的各個分支,分類時,地物可根據(jù)決策樹逐級決策,最終得到詳細的劃分(圖1)。分類的導(dǎo)入數(shù)據(jù)除了TM各個波段(由于熱紅外波段不在研究范圍之列,因此移除了TM6和HJ-A/B 4個波段數(shù)據(jù))之外,還加入了ASTER DEM以及坡度、坡向數(shù)據(jù)。決策樹分類主要包括4個步驟:⑴影像特征分析;⑵影像分割;⑶建立決策樹規(guī)則;⑷影像特征提取。
圖1 決策樹分類流程Fig.1 Decision tree classification process
2.1 研究區(qū)概況
貢嘎山(101° 40′ ~102°15′E , 29°20′ ~30°10′N)位于青藏高原東南緣, 地處四川盆地向青藏高原過渡的大雪山的中段,主峰海拔7 514 m ,是我國典型海洋季風(fēng)型冰川的分布區(qū),也是植被垂直帶譜非常明顯的地區(qū)。該地區(qū)森林植被覆蓋率高 ,植物種類較豐富。其海拔高差較大,植被垂直帶譜復(fù)雜多樣。研究區(qū)自上而下囊括了亞熱帶、暖溫帶、寒溫帶、亞寒帶、寒帶、寒冷帶、冰雪帶7個氣候區(qū),植被類型包括了常綠闊葉林帶(1 000~2 200 m)、針闊葉混交林帶(2 200~2 500 m)、針葉林帶(2 500~3 600 m)、灌叢草甸帶(3 600~4 600 m)、高山流石灘稀疏植被帶(4 600~5 000 m)、永久冰雪帶(5 000 m以上)。
2.2 多源數(shù)據(jù)與數(shù)據(jù)處理平臺
研究區(qū)域內(nèi)的多源遙感影像數(shù)據(jù)是Landsat 2008年12月16日的TM影像以及環(huán)境與災(zāi)害監(jiān)測預(yù)報小衛(wèi)星星座HJ-1A 2010年3月20日CCD影像、HJ-1B 2011年6月5日的CCD影像、HJ-1A 2010年12月13日的CCD影像??臻g幾何數(shù)據(jù)為空間分辨率為30 m的ASTER DEM,投影為UTM/W- GS84。DEM產(chǎn)生的坡度、坡向圖提供了研究中會用到的影像對象中的地形因子。用于確定研究區(qū)域的是1:400萬的基礎(chǔ)地理數(shù)據(jù),用于評價精度的是野外采集的照片和GPS采樣點。
數(shù)據(jù)處理平臺為ERDAS IMAGINE 9.2、ENVI4.5專業(yè)遙感圖像處理系統(tǒng)、ARCGIS 9.2 地理信息系統(tǒng)軟件以及德國Definiens imaging公司的Definiens Developer的面向?qū)ο蠓诸愜浖?/p>
數(shù)據(jù)預(yù)處理包括:幾何校正、邊界裁剪、投影轉(zhuǎn)換從而產(chǎn)生研究區(qū)域的各子數(shù)據(jù)集。影像的幾何校正采用三階多項式糾正模型進行控制點的選取、用最鄰近插值法重采樣[11],利用從1:50 000地形圖(高斯-克呂格1980年西安坐標系投影)上選擇的25個地面控制點糾正得到的均方根誤差小于0.5。子數(shù)據(jù)集就是根據(jù)行政邊界和貢嘎山的范圍劃定研究區(qū)域后,再根據(jù)這個區(qū)域?qū)b感影像、DEM等數(shù)據(jù)進行裁剪,并使用線性拉伸使圖像信息得到增強并且將投影統(tǒng)一為UTM-WGS84-48N的遙感圖像和DEM圖像。
2.3 決策樹分類
2.1.1 影像特征分析
影像既有光譜特征,也有空間特征。分析影像特征旨在甄選出用于構(gòu)造決策樹規(guī)則的特征指標。在影像上可以大致看出:植被的光譜特征在影像識別上占主要作用,而其它非植被類型如居民地、耕地、河流等主要受空間特征影響,水體的光譜特征也比較強,利用波段組合可以起到一定的作用(表1)。
表1 TM2+TM3-(TM4+TM5)的樣點值與均值Table 1 The sample values and mean values of TM2 + TM3 -(TM4 + TM5)
表2 針葉林與闊葉林特征值統(tǒng)計表Table 2 The eigenvalue statistics of Needle leaf Forests and Broadleaf Forests
目前應(yīng)用最廣泛的植被提取方法是歸一化植被指數(shù)法[7],歸一化植被指數(shù)(NDVI-Normal Different Vegetation Index)的計算公式:
NDVI=(NIR-R)/(NIR+R)
其中NIR為近紅外波段,R為紅波段,通過多次設(shè)定閾值,本研究區(qū)的NDVI值取0.15區(qū)分植被和非植被。
林、灌以及其他難以區(qū)分的植被,通過使用均值統(tǒng)計方法,結(jié)合二維空間散點圖與特征分布圖,確定決策樹規(guī)則中的變量[8-9]。根據(jù)表2,結(jié)合試驗分析,最終采用TM4取35.8,提取出針葉林與闊葉林植被的光譜特征。
2.3.2 影像分割
影像分割是指一副影像分割成影像對象,以作為進一步結(jié)合灰度和空間分類的基礎(chǔ)。根據(jù)邊緣檢測法的分割方法[14],遙感影像分割結(jié)果的效果受到分割尺度、緊致度因子、形狀因子以及波段權(quán)重等的影響。圖像中每一個像素點都有其灰度尺度和空間尺度(Ahuja,1996),灰度尺度就是該像素點在被分割成的所在對象區(qū)域與周圍區(qū)域的差異,而空間尺度是該點與對象區(qū)域邊緣的最短距離[10-11]。影像對象既有空間異質(zhì)性,又有光譜異質(zhì)性,它們構(gòu)成了影像對象的異質(zhì)性,由信息權(quán)重、異質(zhì)性值和用戶自定義的權(quán)重決定。eCognition軟件可以設(shè)置分割的尺度值和各因子的權(quán)重值。影像的像素決定了它的尺度參數(shù),形狀因子影響的是影像對象的邊緣平滑程度和對象的緊致度,這些因子的確定最終將影像對象互相區(qū)別開來。實驗對不同尺度和不同影響因子分別做了研究,最終確定的參數(shù)是分割尺度為6,形狀因子為0.1,緊致度因子為0.5,TM波段權(quán)重全為1,而其他波段權(quán)重為0 。
2.3.3 建立決策樹規(guī)則
根據(jù)貢嘎山植被群落的結(jié)構(gòu)和其他地物的特征,參照國家土地利用分類標準,實驗研究區(qū)域最終被分為12類。
張彤等[16]對決策樹的形式算法做了比較詳細的闡述,建立決策樹實際上就是根據(jù)邏輯判別式,不斷從父節(jié)點分叉產(chǎn)生根節(jié)點,直至停止分叉的一個過程。決策樹分類規(guī)則的建立是基于影像分割及其特征。首先,由決策樹的各個節(jié)點來建立一個邏輯結(jié)構(gòu),在此過程中會產(chǎn)生一些中間類,它們在分類過程中起到緩存的作用,最終將被一一歸到分類系統(tǒng)中。自動分類的決策樹包含了分割、分類、指數(shù)三大部分。由于影像特征的交叉性較強、混合像元無可避免,規(guī)則條件不可能完全將影像對象分成界限絕對清晰的兩類,所以分類的部分還包括了適當修剪的部分。分類邏輯結(jié)構(gòu)是一個由多條規(guī)則構(gòu)成的系統(tǒng),一條規(guī)則由一個或多個邏輯語句構(gòu)成,規(guī)則之間不能交換順序,否則有可能使分類結(jié)果混亂。規(guī)則里需要使用的變量放在決策樹的指數(shù)部分。決策樹的生長與修剪是一個無法分割的過程,為了得到更加穩(wěn)定的分類樹,實驗采用事后修剪,最終只有少部分的冰雪被誤分到裸地和稀疏植被中。
2.3.4 影像特征提取
規(guī)則通常是由好幾個特征參數(shù)和好幾個邏輯語句共同構(gòu)成的,如利用NDVI,MNDWI[12],TM4,DEM值來共同構(gòu)建一條得出的NDVI與云量較少的HJ3,4波段計算得出的NDVI的差值。這是因為兩種影像分別是植被生長期和植被落葉期的影像,利用二者之間的差值,可以有效提取落葉與常綠的灌木;在冰川積雪、河流、湖泊、裸地、居民地的提取過程中,根據(jù)DEM和TM4確定出冰雪區(qū),但是這個過程中產(chǎn)生了中間類,而這個中間類囊括了所有非植被中的非冰雪區(qū),而河流可直接利用海拔高度和TM2+TM3-TM4-TM5的范圍值提取,在提取河流時產(chǎn)生的中間類,可結(jié)合海拔與坡度等因子,將湖泊分出,但這時中間類并未完全消失,因為它包含了裸地與居民地,要提取這兩種地物,需充分利用NDBI、坡度及DEM值來處理。當幾個特征都在待選之列時,可借助二維特征空間圖提取信息。
2.3.5 精度評價
傳統(tǒng)的基于像素的分類使用的是最大似然算法分類。為了確保一致性,實驗時在這12個分類范圍內(nèi)選取了50個與多源數(shù)據(jù)決策樹分類方法的訓(xùn)練樣本基本一致的代表區(qū)域來進行分類,最終這些區(qū)域的像元都分別被分到了概率最高的各類別當中。
利用分層采樣法,通過分類結(jié)果圖中的類別和野外采樣分布中對應(yīng)的類別進行對照,進行精度評價,采用混淆矩陣來表示,并采用用戶精度、生產(chǎn)者精度、總體分類精度及Kappa系數(shù)評價分類圖精度。貢嘎山區(qū)的土地覆蓋類型分布不均,若采用隨機采樣法不能保證每個類別的樣本數(shù)量,在選擇樣本的時候,考慮到了空間相關(guān)性。
基于決策樹的多源遙感數(shù)據(jù)分類與基于像元的最大似然算法監(jiān)督分類的精度評價結(jié)果見表3,分類結(jié)果圖見圖2?;跊Q策樹的多源遙感數(shù)據(jù)分類,比基于像素的最大似然法監(jiān)督分類具有更高的分類精度(總體精度高出22.15 %,Kappa系數(shù)提高了 0.25%)。這表明,基于決策樹的多源遙感數(shù)據(jù)分類為類似貢嘎山區(qū)這樣土地覆蓋復(fù)雜的區(qū)域提供了一種較好的土地利用分類方法。此分類法有效地處理了“同譜異物”現(xiàn)象,例如光譜信息相似的居民地和冰川積雪;改善“同物異譜”現(xiàn)象,例如同為耕地;有效改善了“椒鹽現(xiàn)象”;充分利用了輔助數(shù)據(jù)和多時相遙感信息來參與分類,使分類結(jié)果的精度不受影像分辨率嚴格控制。因此,本次研究的結(jié)果顯示出在缺乏高分辨率的土地類型復(fù)雜的山區(qū),基于決策樹的多源遙感數(shù)據(jù)分類方法的顯著優(yōu)勢和實用性。
表3 兩種分類方法的精度評價結(jié)果對比Table 3 The accuracy of two classification methods evaluation results contrast
圖2 分類結(jié)果圖Fig. 2 The classification result
[1] 賈坤, 李強子, 田亦陳,等. 遙感影像分類方法研究進展 [J]. 光譜學(xué)與光譜分析, 2011, 31(10): 2618-2623.
[2] 韓濤, 徐曉桃, 頡耀文. 基于單時相MODIS數(shù)據(jù)的決策樹自動構(gòu)建及分類研究[J]. 武漢大學(xué)學(xué)報, 2009,34(2):191-194.
[3] 趙慧, 汪云甲. 影響ETM影像土地利用_覆蓋分類精度因素的研究[J]. 遙感技術(shù)與應(yīng)用, 2012, 27(4):600-608.
[4] 楊曦光, 黃海軍, 嚴立文.等.基于決策樹方法的海島土地利用分類研究[J].國土資源遙感, 2012,24(2):116-120.
[5] FOODY G M. Status of land cover classification accuracy assessment [J]. Remote Sensing of Environment, 2002, 80(1): 185-201.
[6] 李爽, 丁圣彥. 決策樹分類法及其在土地覆蓋分類中的應(yīng)用 [J]. 遙感技術(shù)與應(yīng)用, 2002, 17(1): 6-11.
[7] NALWA V S,BINFORD T O. On detecting edges[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1986,8(6):699-714.
[8] 陳華芳, 王金亮, 陳忠,等. 山地高原地區(qū) TM 影像水體信息提取方法比較——以香格里拉縣部分地區(qū)為例 [J]. 遙感技術(shù)與應(yīng)用, 2005, 19(6): 479-84.
[9] 李小曼, 王剛, 田杰. TM 影像中水體提取方法研究[J]. 西南農(nóng)業(yè)大學(xué)學(xué)報, 2006, 28(4): 580-582.
[10] AHUJA N. A transform for multiscale image segmentation by integrated edge and region detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1996, 18(12): 1211-1235.
[11] TABB M, AHUJA N. Multiscale image segmentation by integrated edge and region detection [J]. Image Processing, IEEE Transactions on, 1997, 6(5): 642-655.
[12] XU Han-qiu. A study on information extraction of water body with the modified normalized difference water index (MNDWI)[J]. Journal of Remote Sensing, 2005, 9(5): 589-595.
[13] 張敏, 楊武年, 黃瑾,等. 汶川地震區(qū)航空影像地質(zhì)災(zāi)害自動識別技術(shù) [J]. 地理與地理信息科學(xué), 2009, 24(6): 42-45.
[14] 陳志強,陳健飛.基于NDBI指數(shù)法的城鎮(zhèn)用地影像識別分析與制圖[J].地球信息科學(xué),2006,8(2):137-140.
[15] 馮露, 岳德鵬, 郭祥. 植被指數(shù)的應(yīng)用研究綜述[J]. 林業(yè)調(diào)查規(guī)劃, 2009, 34(2): 48-52.
[16] 張彤, 潘和平. 決策樹的形式算法及其在地理信息學(xué)中的應(yīng)用[J]. 測繪通報, 2002, (7): 51-53.
Multi-source Remote Sensing Data Classification Method Based on Decision Tree
ZENG Te-ling, WU Cai-yan, ZENG Xiao-li
(SchoolofEnvironmentalEngineeringandResources,SouthwestUniversityofScienceandTechnology,Mianyang621010,Sichuan,China)
Since it is an important approach to get land cover information, remote sensing provides services to resource surveys, environmental monitoring, etc. , the study of remote sensing image classification is significant. This paper analyzes the factors affecting the characteristics of decision tree classification, and then the decision tree to classify the image was built based on these factors. Combined with medium resolution multi-source remote sensing data, taking Gongga Mountain for instance, the comparisons to the maximum likelihood method were performed for the validation. The result demonstrates that the classification accuracy of the test area (overall accuracy 85.71%, Kappa coefficient of 0.83) is much higher than the pixel-based maximum likelihood classification (overall accuracy of 63.56%, kappa coefficient of 0.58), showing the advantages and prospects of the object-based multi-source data decision tree classification .
Multi-source data; Decision tree; Gongga Mountain; Moderate Resolution; Remote sensing classification
2014-12-27
國家自然科學(xué)基金(41301587)。
曾特林(1989—),女,碩士研究生。E-mail:zengteling@126.com.通訊作者:吳彩燕(1976—),女,副教授,研究方向為地質(zhì)災(zāi)害評價與防治、地理信息系統(tǒng)的應(yīng)用與開發(fā)。E-mail:wucaiyan@swust.edu.cn
P237
A
1671-8755(2015)02-0041-05