□ 劉航 林峰 周艷
(國家測繪地理信息局黑龍江基礎地理信息中心,黑龍江哈爾濱150081)
基于決策樹的洪河自然保護區(qū)遙感影像分類研究
□ 劉航 林峰 周艷
(國家測繪地理信息局黑龍江基礎地理信息中心,黑龍江哈爾濱150081)
本文以黑龍江國家級洪河自然保護區(qū)濕地為研究區(qū)域,探討了提取濕地基礎信息的方法。采用Landsat-5TM遙感影像數據,在已選擇的訓練樣本數據中,使用分類回歸樹(CART)算法挖掘分類規(guī)則,將遙感影像的光譜特征、地學輔助數據和紋理特征等進行綜合考慮分析,并建立保護區(qū)濕地信息提取的決策樹模型。結合在野外實測GPS樣本點的基礎上,對分類結果進行精度驗證,并與傳統(tǒng)的最大似然監(jiān)督分類方法(MLC)進行比較分析。在研究成果中得到,總精度和Kappa系數在基于CART的決策樹分類方法結果中分別為82.14%和0.76,分類精度與MLC監(jiān)督分類方法相比較有明顯的提高,得到較好的分類效果。
遙感影像;決策樹分類;濕地;信息提取;CART算法
遙感技術領域的研究中遙感影像的分類是非常重要的一個組成部分。概率統(tǒng)計的模式識別分類方法是傳統(tǒng)的遙感影像分類方法,但是在依靠地物光譜特征進行分類過程中存在“同物異譜”和“異物同譜”現象,就會容易導致錯分、漏分,從而會導致降低分類結果精度[1-3、8]。當前多光譜遙感影像自身具有大量信息,例如地物的紋理特征和幾何知識以及地物間鄰近關系等。在相關的研究結果中,結合影像的光譜信息、紋理信息和其他地學輔助信息等可以對影像的分類精度結果有很大提高。本文主要采用了分類回歸樹的類方法,把影像的紋理、光譜和輔助地學這三種特征作為決策樹的測試變量,對洪河國家級自然保護區(qū)濕地2010年Landsat-5TM影像進行分類,把分類結果與我們傳統(tǒng)的最大似然法分類結果進行比對。探索基于CART算法的決策樹分類方法在濕地基礎地物信息分類方面的優(yōu)勢。
1.1 研究區(qū)域與數據
黑龍江洪河國家級自然保護區(qū)位于黑龍江省三江平原腹地,坐落在同江市與撫遠縣境內,被三個國營農場所包圍,保護區(qū)東南部為前鋒農場,西北部為鴨綠河農場,西南部為洪河農場,被濃江中游、沃綠蘭河所環(huán)繞。其地理坐標為東經133°33′19′-133°47′35′,北緯47°41′58′-47°52′03′,總面積為21835.7公頃,地質構造屬于中生代同江內陸斷陷的次級單位。撫遠凹陷的中部西南部分,因為受構造區(qū)長期的下降影響,使得保護區(qū)內兩條河的分水線、河間階地發(fā)育特別明顯,河漫灘也特別的廣闊。保護區(qū)地勢相對平坦,由西南向東北表現微傾斜,西南端海拔高度為54.5m,東北處海拔51.5m,相對高度差為3m,地面坡降為1/5000-1/10000。
本研究區(qū)域所選取能夠覆蓋洪河自然保護區(qū)分辨率為30m,2010年Landsat-5TM遙感影像的基礎數據在幾何校正過程中,參考數據使用1∶5萬地形圖作為參考,糾正方法為二次多項式方法,校正后誤差不大于0.5個像元。因為研究區(qū)域范圍已經超出單幅TM影像的覆蓋范圍,需要對影像進行鑲嵌與裁剪。首先選用直方圖匹配法實現兩幅圖像的亮度值匹配,然后洪河國家級自然保護區(qū)濕地的矢量邊界數據對影像進行裁剪。
1.2 實地考察
分別于2012年6月和2013年8月對洪河自然保護區(qū)進行了實地考察,利用GPS定位,在保護區(qū)內選取了100個測試樣本進行數碼拍照,用于實驗室內分類精度的驗證。同時考察了保護區(qū)內的實際覆被類型分布情況,并結合保護區(qū)實際狀況本文將保護區(qū)劃分為:沼澤、林地、耕地、草甸4種土地覆被類型。
2.1 分類回歸樹
決策樹(Decision tree)是通過對訓練樣本進行歸納學習生成決策樹或決策規(guī)則,然后用決策樹或決策規(guī)則對新數據進行分類的一種數學方法[1]。在決策樹的樹狀圖中,某屬性的測試在其內部對應一個結點(Internal Node),此屬性的一個可能值或多個可能值的集合組成決策樹下的每個分支(Branch),每個樹葉結點對應的是一個目標類別(Target Class)。Breiman在1984年提出的分類回歸樹是一種比較成熟的決策樹構建方法。它的基本原理是:通過對由測試變量和目標變量構成的訓練數據集的循環(huán)二分形成二叉樹形式的決策樹結構。這種算法既可用于分類又可用于連續(xù)變量的預測,當目標變量為離散值時稱為分類樹,當目標變量為連續(xù)值時稱為回歸樹。在遙感分類過程中,目標變量是地物類型值,測試變量為所利用的分類特征。該算法的優(yōu)點為:結構清晰,易于理解,實現簡單,運行速度快,準確性高,可有效地處理大量高維數據和非線性關系;對輸入數據無任何統(tǒng)計分布要求,輸入數據可以是連續(xù)變量也可以是離散值;包容數據缺失和錯誤,可給出測試變量的重要性[4,5]。
2.2 訓練樣本選取
在影像分類過程中,分類精度結果的好與壞和訓練樣本如何選取有很大的關系。為了更好的影像判讀,我們經過實驗,用4、3、2波段進行組合(圖1),能夠更好的區(qū)分遙感影像中的林地、草甸、耕地、沼澤四種類型。利用ENVI 5.0軟件畫出ROI范圍??偣策x取了近350個訓練樣本來分析保護區(qū)中地物的紋理信息和光譜信息。
圖1 基于TM 4、3、2波段洪河自然保護區(qū)假彩色影像
2.3 測試變量的選取
采用CART算法進行計算分析訓練樣本,第一主成分PCA1;TM影像的6個波段灰度值作為測試變量;纓帽變換后的綠度指數、濕度指數和亮度指數。根據8個紋理特征值,選用33為紋理特征窗口,0為移動方向,1為移動步長,共選取18個測試變量,離散變量定義為坡向,其他的變量均定義為連續(xù)變量。采用ENVI5.0CART的算法補丁已經決策樹的分類[6-7,11],這種算法已經通過了自動閾值的處理,得到了最優(yōu)的二叉樹(如圖2所示)。為了和CART分類精度比對,本文運用了監(jiān)督分類的最大似然飯對紅河自然保護區(qū)進行分類。最后得到的分類結果(如圖3、4所示)。
圖2 決策樹的生成
圖3 決策樹分類結果
圖4 最大似然法分類結果
本文對MLC和CART兩種方法進行精度評價,包括KAPPA系數還有總體精度,本文參考了外業(yè)實測的GPS樣本點,高分影像和1∶5萬地形圖,獲取了120個驗證樣本。
表1 決策樹分類與監(jiān)督分類兩種方法的總體精度及Kappa系數比較
通過以上結果可以發(fā)現采用CART決策樹分類要比最大似然法要好很多。利用灰度共生矩陣提取的影像紋理信息以及加入的NDVI,也可以幫助我們能更好的提高決策樹分類的精度。但是本研究也存在了一些不足之處,比如對陰影的處理可以放在分類之前進行會更好些,如果能更好的完成對決策樹的修剪工作,就可以避免產生過度分類的情況發(fā)生。此外,如何利用其它特征構建決策樹進行分類,提高分類精度,是后續(xù)需要解決的問題。
【1】申文明,王文杰,羅海江等.基于決策樹分類技術的遙感影像分類方法[J].遙感技術與應用,2007,22(3):333-338.
【2】劉勇洪,牛錚,王長耀.基于MODIS數據的決策樹分類方法研究與應用[J].遙感學報,2005,9(4):405-412.
【3】李爽,丁圣彥,錢樂祥.決策樹分類法及其在土地覆蓋分類中的應用[J].遙感技術與應用,2002,17(1):6-11.
【4】BreimanL,FriedmanJH,OlshenRA,etal.ClassificationandRegressionTrees[M].Monterey,California,U.S.A.WadsworthnternationalGroup,1984.
【5】YohannesY,HoddinottJ.ClassificationandRegressionTree:AnIntroduction[M].Washington,D. C.,U.S.A.:InternationalFoodPolicyResearchInstitute,1999.
【6】翁中銀,何政偉,于歡.基于決策樹分類的地表覆蓋遙感信息提取[J].
地理空間信息,2012,10(2):110-112.
【7】李楊,江南,呂恒等.基于水稻特征波段的決策樹分類研究[J].地理與地理信息科學,2010,26(2):11-14.
【8】賈坤,李強子,田亦陳等.遙感影像分類方法研究進展[J].SpectroscopyandSpectral Analysis,2011.
【9】楊曦光,黃海軍,嚴立文等.基于決策樹方法的海島土地利用分類研究[J]國土資源遙感,2012,24(2):116-120.
【10】齊樂,岳彩榮.基于CART決策樹方法的遙感影像分類[J].林業(yè)調查規(guī)劃,2011,36(2): 62-66.
【11】張樹清,于歡.基于QUEST決策樹兼容多源數據的淡水沼澤濕地信息提取[J].生態(tài)學雜志,2009,28(2):357-365.
【12】王柳,段英.利用遙感影像進行植被分布分析[J].測繪與空間地理信息,2012,35(3):140-142.
劉航(1982年——),女,黑龍江牡丹江人,工程師,碩士,2009年畢業(yè)于哈爾濱師范大學自然地理學專業(yè),主要從事遙感影像的應用研究工作。
P237
B
2095-7319(2014)04-0080-04