李 慧
遼寧師范大學(xué)城市與環(huán)境學(xué)院
影像信息決策樹(shù)分類(lèi)方法設(shè)計(jì)
李 慧
遼寧師范大學(xué)城市與環(huán)境學(xué)院
歸納學(xué)習(xí)訓(xùn)練樣本能夠產(chǎn)生決策規(guī)則或決策樹(shù),通過(guò)決策規(guī)則或決策樹(shù)分類(lèi)新數(shù)據(jù)的方法稱(chēng)為決策樹(shù)。本文以大連市旅順口區(qū)為研究區(qū)域,分析該區(qū)影像信息選取分類(lèi)樣本,選取合適的特征,統(tǒng)計(jì)分析樣本的特征值,運(yùn)用基于特征的決策樹(shù)分類(lèi)方法,設(shè)計(jì)決策樹(shù)分類(lèi)器,來(lái)解決該區(qū)域土地利用分類(lèi)問(wèn)題。
提取和分類(lèi)遙感數(shù)據(jù)是目前數(shù)據(jù)挖掘領(lǐng)域的焦點(diǎn)問(wèn)題,以統(tǒng)計(jì)特征為基礎(chǔ)的模式識(shí)別技術(shù)是進(jìn)行遙感數(shù)據(jù)分類(lèi)和提取最主要的方式。但是,由于遙感圖像具有同物異譜和異物同譜的現(xiàn)象,因而用傳統(tǒng)統(tǒng)計(jì)模式分類(lèi)效果并不盡如人意。因此,人們開(kāi)展了大量關(guān)于遙感數(shù)據(jù)提取和分類(lèi)的相關(guān)研究?;谥R(shí)的二叉樹(shù)信息提取方法,知識(shí)結(jié)構(gòu)簡(jiǎn)單,技術(shù)先進(jìn),理論成熟,流程清晰、直觀,在現(xiàn)階段有著不可取代的優(yōu)勢(shì)。
本文選擇以多特征為基礎(chǔ)的決策樹(shù)分類(lèi)方法,以遙感圖像的特征值和數(shù)據(jù)為參考,利用數(shù)學(xué)歸納和統(tǒng)計(jì)等手段,生成分類(lèi)規(guī)則,并完成遙感分類(lèi)。這種方法的實(shí)現(xiàn)原理和方法較為簡(jiǎn)單,與人類(lèi)認(rèn)知的過(guò)程極為相似,能夠?qū)Χ嘣獢?shù)據(jù)進(jìn)行合理利用。
基于多特征的決策樹(shù)分類(lèi)方法通用的總體思路為:首先,統(tǒng)計(jì)分析訓(xùn)練樣本的特征分布,將決策樹(shù)分類(lèi)提取過(guò)程尋找出來(lái);其次,設(shè)計(jì)并生成決策樹(shù)分類(lèi)器,分類(lèi)遙感圖像。
決策樹(shù)分類(lèi)方法介紹
歸納學(xué)習(xí)訓(xùn)練樣本能夠產(chǎn)生決策規(guī)則或決策樹(shù),通過(guò)決策規(guī)則或決策樹(shù)分類(lèi)新數(shù)據(jù)的方法稱(chēng)為決策樹(shù)。決策樹(shù)屬于樹(shù)型結(jié)構(gòu),由若干葉節(jié)點(diǎn)、若干內(nèi)部節(jié)點(diǎn)和一個(gè)根節(jié)點(diǎn)構(gòu)成。任意節(jié)點(diǎn)有超過(guò)兩個(gè)的子節(jié)點(diǎn)和一個(gè)父節(jié)點(diǎn),各節(jié)點(diǎn)之間利用分支連接。決策樹(shù)內(nèi)的任意內(nèi)部節(jié)點(diǎn)都與集合或非類(lèi)別屬性相對(duì)應(yīng),任意邊與屬性的可能值相對(duì)應(yīng)。決策樹(shù)上的任意葉節(jié)點(diǎn)都與類(lèi)別屬性值相對(duì)應(yīng),同一類(lèi)別屬性值能夠與不同葉節(jié)點(diǎn)相對(duì)應(yīng)。決策樹(shù)不僅能夠用“樹(shù)”的形式來(lái)描述,還能夠用符合IF-THEN格式的產(chǎn)生式規(guī)則來(lái)描述。規(guī)則比決策屬性更加簡(jiǎn)單、直觀,易于修改、使用和掌握,在實(shí)際工作中使用的更為廣泛。
基于多特征的決策樹(shù)分類(lèi)流程
以多特征為參考的決策樹(shù)分類(lèi)方法,解決土地利用分類(lèi)問(wèn)題的具體流程如圖1。
數(shù)據(jù)源選擇
本文選擇1996年8月的大連旅順口區(qū)LANDSAT5 TM數(shù)據(jù),該數(shù)據(jù)已經(jīng)進(jìn)行幾何糾正。
研究區(qū)大連市旅順口區(qū)位于遼東半島的最南端,是遼寧省大連市的一個(gè)市轄區(qū)。旅順口區(qū)全境屬長(zhǎng)白山余脈構(gòu)成的沿海丘陵地帶,東高西低,多山地丘陵,少平原低地,平均海拔140m,針葉林分布廣泛。大部分農(nóng)田分布在溫度約15℃的緩坡上,少部分農(nóng)田分布在沿海河谷和丘陵盆地。除耕地外,有大量果樹(shù)種植。
樣本選擇
對(duì)研究區(qū)TM影像進(jìn)行4、3、5波段RGB假彩色合成,對(duì)合成圖像進(jìn)行分析,并結(jié)合研究區(qū)的概況以及其地形圖,將地物劃分為針葉林、建筑用地、耕地、水體、闊葉林(果林)和其他六種類(lèi)。然后在該RGB圖上選擇部分特征明顯的區(qū)域作為樣本。
圖1 基于多特征的決策樹(shù)分類(lèi)流程圖
在進(jìn)行遙感圖像分類(lèi)時(shí),往往根據(jù)訓(xùn)練數(shù)據(jù)類(lèi)分析圖像的可分性,對(duì)各種特征組合中的期望分類(lèi)誤差進(jìn)行估算??煞中远攘坑蒍-M距離和離散度構(gòu)成。根據(jù)ENVI4.8,估算出不同類(lèi)別的訓(xùn)練樣本之間的J-M距離和變換離散度。計(jì)算結(jié)果顯示,不同類(lèi)別的訓(xùn)練樣本之間的J-M距離和變換離散度均超過(guò)1.9,表明訓(xùn)練樣本具有良好的可分性,可分性強(qiáng)。
分類(lèi)特征選擇
本文選用了5種數(shù)據(jù)作為決策樹(shù)分類(lèi)特征數(shù)據(jù),分別是近紅外波段(B4)、主成分分析的第一主成分(PC1)、第二主成分(PC2)、第三主成份(PC3)和歸一化植被指數(shù)(NDVI)。主成分分析數(shù)據(jù)源,對(duì)指數(shù)進(jìn)行歸一化處理。選擇上述特征的原因主要包括以下幾個(gè)方面:近紅外波段:具有強(qiáng)吸水特性,能夠用于區(qū)分非水體和水體。
主成分分析:該方法能夠有效降低決策樹(shù)復(fù)雜度和數(shù)據(jù)冗余度,并使分類(lèi)精度顯著提高。對(duì)LANDSAT TM影像的7個(gè)波段進(jìn)行主成分變換, 變換后的PC1、PC2和PC3包含了絕大部分信息,所以選擇這三種主成分作為特征參數(shù)。
歸一化植被指數(shù):歸一化差異植被指數(shù)對(duì)綠色植被敏感,可以將水泥表面、柏油路、植被等地物準(zhǔn)確的區(qū)分開(kāi)。按照下列公式能夠計(jì)算出NDVI:NDVI=(NIR-R)/(NIR+R)
統(tǒng)計(jì)分析樣本地物的特征分布
統(tǒng)計(jì)出訓(xùn)練樣本在每個(gè)特征中的特征值, 計(jì)算出特征數(shù)據(jù)(B4、PC1、PC2、PC3和NDVI)的標(biāo)準(zhǔn)差和均值。為了便于分析,假設(shè)樣本數(shù)據(jù)符合正態(tài)分布規(guī)律,按照樣本數(shù)據(jù)的概率密度分布曲線(xiàn),能夠?qū)⒌匚锏奶卣鳂颖局捣植夹畔⒔y(tǒng)計(jì)出來(lái)。
(1)水體。LANDSAT 5多光譜數(shù)據(jù)的B4近紅外波段具有強(qiáng)吸水性特征,能夠?qū)⑵鋭澐譃榉撬w和水體兩類(lèi),將水體與其他的地物類(lèi)型予以區(qū)分。對(duì)于水體里面混有少量的針葉林,可通過(guò)PC2將其消除;對(duì)于水體里混有的少量建筑用地,可以通過(guò)PC1消除。
(2)植被與非植被。NDVI可區(qū)分植被與非植被,從而將其他用地和建筑用地與植被區(qū)分開(kāi)。對(duì)于非植被中混有的少量針葉林,可用PC1將其消除。
(3)建筑用地與其他用地。運(yùn)用特征值 PC3,利用閾值分割將建筑用地和其他用地區(qū)分開(kāi),無(wú)法有效的區(qū)分其他特征數(shù)據(jù)。
(4)針葉林。PC1能夠很好的將針葉林從其他植被中提取出來(lái);PC2對(duì)針葉林和其他植被的區(qū)分也比較明顯。
(5)闊葉林(果林)和耕地。只有PC3能夠較好的將闊葉林(果林)和耕地區(qū)分出來(lái),其他的特征信息都不能作為區(qū)分指標(biāo)。
決策樹(shù)分類(lèi)器設(shè)計(jì)
根據(jù)樣本特征值的統(tǒng)計(jì)分析結(jié)果以及先驗(yàn)知識(shí),綜合考慮地物光譜特性,能夠?qū)⑷斯Q策樹(shù)構(gòu)造出來(lái)。按照樣本特征數(shù)據(jù)的峰值,能夠確定人工決策樹(shù)的分割閾值。如:耕地與闊葉林(果林)可以通過(guò)PC3來(lái)區(qū)分。樣本統(tǒng)計(jì)結(jié)果表明,耕地特征值的谷值是5.1,闊葉林(果林)特征值的峰值是11.5,耕地和闊葉林(果林)的分割閾值選擇二者的平均值8.3,完成分類(lèi),目視評(píng)價(jià)分類(lèi)結(jié)果,并與樣本進(jìn)行對(duì)比分析,對(duì)閾值進(jìn)行適當(dāng)調(diào)整,直到分類(lèi)效果最理想為止。實(shí)驗(yàn)結(jié)果表明,分割效果最理想的分割值是7。如圖2所示,為決策樹(shù)分類(lèi)器設(shè)計(jì)的流程圖。
圖2 人工決策樹(shù)分層提取地物流程
結(jié)果
決策樹(shù)分類(lèi)在編輯好分類(lèi)樹(shù)后在ENVI4.8下實(shí)現(xiàn)。
比較與分析
為了與決策樹(shù)分類(lèi)方法進(jìn)行對(duì)比比較,本文采用了一種傳統(tǒng)監(jiān)督分類(lèi)方法——最大似然分類(lèi)方法,用同樣的樣本進(jìn)行了分類(lèi)。通過(guò)總體的對(duì)比觀察,決策樹(shù)分類(lèi)結(jié)果與原圖像圖形更加貼近,精度更高,尤其是在建筑用地的篩選當(dāng)中。在其他地域類(lèi)型的篩選中,也有相對(duì)較高的精度。
(1)利用LANDSAT5 TM多光譜數(shù)據(jù)的近紅外波段(B4)、主成分分析和歸一化植被指數(shù)(NDVI)計(jì)算出的特征數(shù)據(jù)PC1、PC2、PC3能夠有效分類(lèi)決策樹(shù)。
(2)相較于傳統(tǒng)MLC分類(lèi)方法,決策樹(shù)方法具有原理簡(jiǎn)單、易于實(shí)現(xiàn)、準(zhǔn)確率高的優(yōu)點(diǎn),尤其適用于建筑用地分類(lèi)。
(3)決策樹(shù)具有應(yīng)用簡(jiǎn)單的優(yōu)點(diǎn)。從決策樹(shù)的樹(shù)根開(kāi)始,沿分支追溯到樹(shù)葉,根據(jù)二叉樹(shù)對(duì)地物類(lèi)型進(jìn)行篩選和排除,能夠提高提取特定類(lèi)別地物的效率。
然而,因?yàn)橐詻Q策樹(shù)為基礎(chǔ)的分類(lèi)方法的分類(lèi)知識(shí)來(lái)自于空間數(shù)據(jù),所以會(huì)受到參考信息的干擾。此外,在進(jìn)行決策樹(shù)分類(lèi)時(shí),不能對(duì)樣本點(diǎn)數(shù)據(jù)的誤差進(jìn)行有效識(shí)別。因此,為了確保樣本參考信息的準(zhǔn)確性和全面性,提高分類(lèi)精度,在進(jìn)行決策樹(shù)分類(lèi)時(shí),要保證樣本參考點(diǎn)數(shù)據(jù)的充足,合理設(shè)置閾值。在決策樹(shù)分類(lèi)理論中引入數(shù)據(jù)挖掘技術(shù),實(shí)現(xiàn)決策樹(shù)的自動(dòng)構(gòu)建是未來(lái)研究的重點(diǎn)問(wèn)題。
10.3969/j.issn.1001-8972.2015.06.026