梁志國 隋傲 于穎 趙戈榕 謝秋 劉代超
(東北林業(yè)大學(xué),哈爾濱,150040) (中國科學(xué)院空天信息創(chuàng)新研究院)
在土地利用信息獲取中,遙感影像的分類技術(shù)作為一種重要的手段被廣泛利用,也是遙感研究領(lǐng)域中的熱點(diǎn)?!巴V異物”與“同物異譜”現(xiàn)象一直是遙感分類研究需要克服的難題。由于遙感影像的數(shù)據(jù)量龐大,因此,依靠傳統(tǒng)的分類很難挖掘出遙感圖像中蘊(yùn)含的復(fù)雜信息。隨著計(jì)算機(jī)技術(shù)的發(fā)展,基于機(jī)器的深度學(xué)習(xí)方法被廣泛用于遙感分類。郭燕等[1]利用高分二號(hào)數(shù)據(jù),借助支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、最大似然法等對(duì)小麥進(jìn)行快速識(shí)別。決策樹算法由于其普適性良好、邏輯性強(qiáng)等優(yōu)點(diǎn)成為常用的遙感圖像監(jiān)督分類方法。CART算法有很強(qiáng)的利用空間輔助信息的能力,可以深度挖掘訓(xùn)練樣本的特征信息,是一種良好的基于決策樹的分類算法。王凱等[2]使用高分一號(hào)數(shù)據(jù),利用決策樹方法與像元分解模型對(duì)冬小麥種植面積進(jìn)行快速監(jiān)測(cè);胡茂瑩等[3]使用高分二號(hào)數(shù)據(jù),基于面向?qū)ο蟮姆椒ê虲ART決策樹算法提取了城市房屋的信息。然而,傳統(tǒng)的遙感數(shù)據(jù)由于波段數(shù)較少,導(dǎo)致訓(xùn)練樣本的可挖掘性不夠深,而在可見光波段與紅外波段中加入紅邊、黃邊、紫邊波段,是當(dāng)前高分辨率衛(wèi)星傳感器的研究熱點(diǎn)。劉佳等[4]研究表明,在RapidEye衛(wèi)星數(shù)據(jù)中引入紅邊波段有效的提高了對(duì)農(nóng)作物面積提取的精度。因此,本文運(yùn)用我國農(nóng)業(yè)衛(wèi)星“高分六號(hào)”的遙感數(shù)據(jù),以本溪地區(qū)有林地為研究對(duì)象,建立有林地快速識(shí)別系統(tǒng),并與傳統(tǒng)高分?jǐn)?shù)據(jù)識(shí)別有林地對(duì)比分析,探究國產(chǎn)GF-6新衛(wèi)星在有林地快速識(shí)別上的優(yōu)勢(shì),為國產(chǎn)GF-6衛(wèi)星的應(yīng)用提供參考。
本溪位于遼寧省東南部地區(qū),地處E123°34′~125°46′,N40°49′~41°35′。本溪市林業(yè)用地6 666.67 km2。共有木本植物47科100屬251種,珍貴樹種有紅松(PinuskoraiensisSieb. et Zucc.)、油松(PinustabulaeformisCarr.)、落葉松(LarixoigensisA. Herry.)等,林木蓄積量4 860萬m3,林地覆蓋率74%。
高分六號(hào)是國家高分辨率重大專項(xiàng)衛(wèi)星,又稱為“高分陸地應(yīng)急監(jiān)測(cè)衛(wèi)星”,服務(wù)于農(nóng)業(yè)農(nóng)村、自然資源、應(yīng)急管理、生態(tài)環(huán)境等行業(yè)。GF-6具有高分辨率、寬覆蓋、高質(zhì)量成像、高效能成像、國產(chǎn)化率高等特點(diǎn)。配置一臺(tái)2 m全色/8 m多光譜高分辨率相機(jī)和一臺(tái)16 m多光譜中分辨率寬幅相機(jī),2 m全色/8 m多光譜相機(jī)觀測(cè)幅寬90 km, 16 m多光譜相機(jī)觀測(cè)幅寬800 km。增加了兩個(gè)能夠有效反映作物特有光譜特性的“紅邊”波段,可以為植被應(yīng)用提供更加詳細(xì)的光譜信息。高分六號(hào)衛(wèi)星與高分一號(hào)衛(wèi)星的分辨率設(shè)置基本相同,在譜段上增加了紫譜段(0.40~0.45 μm)、黃譜段(0.59~0.63 μm)、紅邊譜段1(0.69~0.73 μm)和紅邊譜段2(0.73~0.77 μm)。
首先,對(duì)本溪GF-6數(shù)據(jù)進(jìn)行輻射定標(biāo)、幾何精校正和鑲嵌預(yù)處理;其次,選擇差值植被指數(shù)(DVI)、歸一化植被指數(shù)(NDVI)以及遙感圖像的紋理等因子作為決策樹分類的特征變量。然后,使用傳統(tǒng)人工決策樹和基于CART算法的自適應(yīng)特征和閾值決策樹方法進(jìn)行分類,比較分類精度。最后,對(duì)分類結(jié)果進(jìn)行比較。分類方案見表1。
表1 分類方案
分類系統(tǒng)是遙感分類的基礎(chǔ)和目標(biāo),是地表覆蓋類型從粗到細(xì)以信息樹表示的分級(jí)結(jié)構(gòu)的分類形式,表示各類別等級(jí)的詳細(xì)程度。根據(jù)我國《土地利用現(xiàn)狀分類》標(biāo)準(zhǔn),土地一級(jí)類型包括耕地、園地、林地、草地、商服用地、工礦倉儲(chǔ)用地、住宅用地、公共管理與公共服務(wù)用地、特殊用地、交通運(yùn)輸用地、水域及水利設(shè)施用地以及其他用地。
本次研究的目的是實(shí)現(xiàn)研究地區(qū)有林地的快速分類。目視解譯結(jié)合Google地圖發(fā)現(xiàn)研究地區(qū)地物類型包括林地、農(nóng)田、草地、建筑、道路、水等;其中建筑、道路、水等非植被可以和林地、農(nóng)田、草地等植被區(qū)分開;而農(nóng)田、草地等非林地和林地可區(qū)分開。林地包括有林地、疏林地、灌木林地、未成林地、苗圃地、無立木林地、宜林地和林業(yè)輔助生產(chǎn)用地。本研究只區(qū)分有林地,分類系統(tǒng)第一層分為植被和非植被,第二層將植被分為有林地和其他。
決策樹是通過一系列規(guī)則對(duì)數(shù)據(jù)進(jìn)行分類的過程。這種分類方式是通過條件得到規(guī)則。決策樹一般分為分類樹和回歸樹,離散變量需要使用分類樹,連續(xù)變量使用回歸樹。決策樹是根據(jù)數(shù)據(jù)的本質(zhì)特征將數(shù)據(jù)集分類的過程。本研究基于GF6數(shù)據(jù),利用ENVI5.3平臺(tái),對(duì)本溪地區(qū)進(jìn)行人工決策樹分類,并使用無新增波段的高光譜數(shù)據(jù)進(jìn)行對(duì)比。
CART算法對(duì)于特征屬性時(shí)進(jìn)行二元分裂。樣本滿足條件則分裂給左子樹,否則分裂到右子樹。所以,這種方法生成的決策樹為簡(jiǎn)單的二叉樹。此方法基于基尼指數(shù)[5-6]選擇最優(yōu)特征,并決定特征的最優(yōu)切分點(diǎn)。
二分類問題是對(duì)給定樣品集合D以及特征A,樣本集合D會(huì)被分裂成D1和D2兩部分,則有特征A下的集合D的基尼指數(shù)(Gn)為:Gn(D,A)=(D1/D)·Gn(D1)+ (D2/D)·Gn(D2) ?;嶂笖?shù)表示集合的不確定性,基尼指數(shù)越大,樣本集合的不確定性越大。
在決策樹的構(gòu)造的過程中,由于數(shù)據(jù)存在噪聲等不確定因素,造成了數(shù)據(jù)過度擬合,導(dǎo)致分類精度降低,因此,算法加入了剪枝過程,以提高決策樹的精度。剪枝技術(shù)有預(yù)剪枝和后剪枝的方法。CART算法一般使用后剪枝的方法,也就是說通過刪除節(jié)點(diǎn)的分支來剪去樹的節(jié)點(diǎn),則最底層的節(jié)點(diǎn)成為樹葉部分。
本研究使用同一套R(shí)OI并使用CART算法,對(duì)原始GF6數(shù)據(jù)的8個(gè)波段和紋理特征[7-8]及植被指數(shù)進(jìn)行自適應(yīng)濾波的計(jì)算,得出的自適應(yīng)特征及閾值構(gòu)建決策樹。為了體現(xiàn)新波段帶來的優(yōu)勢(shì)再加入一組對(duì)比實(shí)驗(yàn),對(duì)原GF6圖像的B1(藍(lán)光波段)、B2(綠光波段),B3(紅光波段)、B4(近紅外波段)[9-11]和紋理特征及植被指數(shù)進(jìn)行CART自適應(yīng)濾波的計(jì)算,得出的自適應(yīng)特征及閾值構(gòu)建決策樹。
在決策樹的構(gòu)建中,僅使用地物的輻射亮度均值以及植被指數(shù)很難將植被之中的有林地與其他類型地物高精度分開。因此,使用紋理來區(qū)分其他類型地物(人為的、具有規(guī)則形狀的農(nóng)田),通過灰度共生矩陣提取紋理特征是遙感常用的提取方法。本文采用二階概率統(tǒng)計(jì)的方法,利用協(xié)同性、平均值、方差、熵等8類濾波,用一個(gè)灰色空間相關(guān)性矩陣計(jì)算紋理值,顯示一個(gè)像元和它特定鄰域之間關(guān)系的發(fā)生數(shù)。
隨機(jī)選取研究區(qū)域有林地與其他類型地物各500個(gè)左右作為檢驗(yàn)樣本,以Kappa系數(shù)[12]和總體分類精度為標(biāo)準(zhǔn)對(duì)比分析分類精度??傮w分類精度指正確分類的類別像元數(shù)與總的類別個(gè)數(shù)的比值。Kappa系數(shù)表示分類與完全隨機(jī)的分類產(chǎn)生錯(cuò)誤減少的比例,計(jì)算公式k=(p0-pe)/(1-pe),p0為實(shí)際一致率,pe為理論一致率。若每一類的真實(shí)樣本個(gè)數(shù)分別為a1、a2、…、ac,而預(yù)測(cè)出來的每一類樣本的個(gè)數(shù)分別為b1、b2、…、bc,總樣本個(gè)數(shù)為n,pe=(a1×b1+a2×b2+…+ac×bc)/(n×n)。
3.1.1 GF數(shù)據(jù)原始波段對(duì)有林地識(shí)別精度
研究選取歸一化植被指數(shù)(NDVI)[13]、差值植被指數(shù)(DVI)以及影像的紋理信息這一系列特征構(gòu)建決策樹,并通過選取特定的波段再一次放大影像的信息量。首先,選取的植被與非植被ROI(感興趣區(qū))來統(tǒng)計(jì)輻射亮度均值,以此選擇出植被指數(shù)所需要的具有明顯特征的波段來分類的第一層[14](植被與非植被)。植被的B4波段的輻射亮度均值高于非植被,是植被非植被的主要區(qū)分波段。在植被中,B4波段要明顯高于B3波段,而非植被中B4波段和B3波段相差不大可以利用B4波段和B3波段區(qū)分植被/非植被。統(tǒng)計(jì)植被、非植被訓(xùn)練樣本ROI在B4波段和B3波段組成的歸一化植被指數(shù)的概率密度曲線(見圖1)。
從圖1中可以看出植被/非植被歸一化植被指數(shù)中,非植被的指數(shù)范圍為(-0.335 656,0.390 545),植被的指數(shù)范圍為(0.369 73,0.589 868);在(0.369 73,0.589 868)范圍內(nèi)兩種地類沒有交叉,即為植被/非植被分類閾值,可引入決策樹快速分類第一層中作為分類規(guī)則。
利用選取的有林地/其他類型地物的ROI,確定第二層決策樹分類所需要的特征波段,發(fā)現(xiàn)有林地/其他類型地物在B4(近紅外)波段上輻射亮度均值都是最大的,利用差值植被指數(shù)(近紅外波段-紅光波段)作為有林地與其他類型地物的分類規(guī)則,統(tǒng)計(jì)差值植被指數(shù)概率密度曲線(見圖2)。
從圖2中可以得到,有林地在差值植被指數(shù)的閾值(3.179 785,8.099 041),其他類型地物的閾值是(3.987 723,7.762 255);有林地與其他類型地物在(6.530 532,8.099 041)上有部分混淆,但在(3.199 152,6.355 997)上可以區(qū)分開,因此,將(3.199 152,6.355 997)作為有林地分類閾值。將歸一化植被指數(shù)和差值植被指數(shù)輸入決策樹中,得到?jīng)Q策樹規(guī)則(見圖3)和分類結(jié)果(見圖4)。
3.1.2 GF6新增波段對(duì)有林地識(shí)別精度
為了分析GF6新增特殊波段對(duì)于快速識(shí)別有林地特征的優(yōu)勢(shì),增加了GF6新增特殊波段(紫光、紅邊1、紅邊2和黃邊)建立規(guī)則,制作人工決策樹進(jìn)行對(duì)比。為了更客觀的評(píng)價(jià),分類對(duì)比實(shí)驗(yàn)使用同一套植被/非植被ROI,有林地/其他類型地物ROI。植被/非植被的分類仍然沿用NDVI作為分類規(guī)則,統(tǒng)計(jì)有林地/其他類型地物的訓(xùn)練樣本在GF6各個(gè)波段上的輻射亮度均值,可以發(fā)現(xiàn)其他類型地物在B4(近紅外)波段上輻射亮度均值均高于有林地,所以可以利用B4波段分別與其他波段做差,得到植被/非植被差異性相對(duì)較大的波段組合,經(jīng)計(jì)算可知,近紅外與紅邊1的差值在有林地/其他類型地物差異相對(duì)較高,因此,利用這兩個(gè)波段的差作為差值植被指數(shù),并統(tǒng)計(jì)有林地/其他類型地物的概率密度曲線(見圖5)。
由圖5可知,其他類型地物的DVI閾值為(3.583 323,7.697 885),有林地DVI閾值為(3.219 367,7.182 94)為有林地;DVI在(3.654 583,6.001 639)范圍內(nèi)有林地/其他類型地物混淆相對(duì)較少,可作為有林地/其他類型地物DVI分類閾值。
將DVI加入植被/非植被分類中,得到?jīng)Q策樹分類規(guī)則(見圖6)和分類結(jié)果(見圖7)。
3.2.1 GF數(shù)據(jù)原始波段對(duì)有林地識(shí)別的精度
研究對(duì)遼寧本溪市2018年7月22日的高分六號(hào)影像的傳統(tǒng)四個(gè)波段基于CART算法選取自適應(yīng)特征及閾值構(gòu)造決策樹。自適應(yīng)特征選擇的變量為GF數(shù)據(jù)傳統(tǒng)波段、NDVI、DVI、8種紋理信息(平均值、方差、二階矩、同質(zhì)性、對(duì)比度、熵、相關(guān)性、相異性)??傮w分類精度為94.31%,Kappa系數(shù)達(dá)到0.87,分類結(jié)果見圖8。
3.2.2 GF6新增波段對(duì)有林地識(shí)別精度
為了進(jìn)一步比較GF6數(shù)據(jù)新增波段在有林地識(shí)別上的優(yōu)越性,研究基于CART自適應(yīng)特征與閾值算法,加入新增4個(gè)波段(紫光、紅邊1、紅邊2和黃邊)構(gòu)建決策樹。自適應(yīng)特征選擇的變量為GF數(shù)據(jù)新增波段、傳統(tǒng)波段、NDVI、DVI、7種紋理信息(平均值、方差、二階矩、同質(zhì)性、對(duì)比度、熵、相關(guān)性)??傮w分類精度為97.67%,Kappa系數(shù)達(dá)到0.95,分類結(jié)果見圖9。
本研究構(gòu)造了有無新增特殊波段、人工決策樹與CART自適應(yīng)特征自適應(yīng)閾值的4組決策樹。從分類結(jié)果中可以發(fā)現(xiàn)沒有新增波段的人工決策樹分類結(jié)果椒鹽現(xiàn)象及錯(cuò)分現(xiàn)象最為嚴(yán)重;有新增波段的人工決策樹分類結(jié)果較上一種稍好一些,但椒鹽現(xiàn)象及錯(cuò)分現(xiàn)象依然嚴(yán)重;使用CART算法構(gòu)造的無新增波段的決策樹解決了椒鹽現(xiàn)象但依然存在錯(cuò)分現(xiàn)象;具有新增波段并使用CART算法構(gòu)造的決策樹從分類結(jié)果來看效果最好,說明高分六號(hào)的特殊波段對(duì)于林地有很強(qiáng)的辨識(shí)能力。
波段選擇的目的是更加有效的識(shí)別地物類型,通過上述方法,分別組合了有無新增特殊波段的有林地與其他類型地物的可分性測(cè)度。無新增特殊波段對(duì)可分性測(cè)度[15]為1.32,有新增特殊波段對(duì)可分性測(cè)度為1.88,因此,具有特殊波段的高分六號(hào)遙感圖像的有林地識(shí)別能力更高,可分離程度更高。
由表2可知,人工4波段的總體分類精度和Kappa系數(shù)均小于人工8波段;CART 4波段的總體分類精度和Kappa系數(shù)均小于CART 8波段。通過對(duì)比發(fā)現(xiàn)無論是從可分離性測(cè)度、生成的結(jié)果圖像或是精度檢驗(yàn)結(jié)果,都可以表明具有特殊波段的高分六號(hào)數(shù)據(jù)對(duì)有林地具有很強(qiáng)的識(shí)別能力。
表2 有無新增特殊波段的有林地識(shí)別總體分類精度比較
本文基于高分六號(hào)的數(shù)據(jù),通過人工和CART算法構(gòu)建決策樹,對(duì)遼寧本溪地區(qū)進(jìn)行有林地的快速識(shí)別。結(jié)果如下:通過比較有無新增特殊波段的高分六號(hào)圖像樣本點(diǎn)可分離度發(fā)現(xiàn),具有特殊波段的樣本點(diǎn)可分離性明顯高于無特殊波段的樣本點(diǎn),可分離性由1.32提高到1.88;使用人工和CART算法構(gòu)造決策樹,通過兩種圖像對(duì)比,在沒有特殊波段的圖像分類結(jié)果中有更多的錯(cuò)分現(xiàn)象,其中多數(shù)錯(cuò)分為農(nóng)田與有林地的混淆;加入了特殊波段的高分六號(hào)數(shù)據(jù)對(duì)于有林地有更強(qiáng)的識(shí)別能力,圖像分類總精度比無特殊波段的圖像高出3%以上。且使用CART算法能更好的挖掘出圖像本身的特征及自適應(yīng)閾值達(dá)到快速分類的效果。
因此,增加了特殊波段的高分六號(hào)數(shù)據(jù)具有更好的有林地識(shí)別能力,相比于一般的衛(wèi)星傳感器,高分六號(hào)的傳感器更有利于有林地的識(shí)別以及分類。另外,在使用CART算法構(gòu)建決策樹時(shí)存在過度擬合的問題,在以后的研究中應(yīng)優(yōu)化剪枝程序或更新算法,提高分類的實(shí)際精度。