王春來,張森原,崔 璐,葛玉停,張金祿,張淼泓
(1.河南黃河勘測(cè)信息工程院,河南鄭州450045;2.黃河水文勘察測(cè)繪局,河南 鄭州450000)
近年來,航空航天遙感數(shù)據(jù)的獲取趨向于“三多”(即多平臺(tái)、多傳感器、多角度)和“三高”(高空間分辨率、高光譜分辨率、高時(shí)相分辨率),獲取的遙感影像信息量更豐富,便于影像解譯和信息提取,使得遙感技術(shù)對(duì)資源、環(huán)境、災(zāi)害、區(qū)域、城市等進(jìn)行調(diào)查、檢測(cè)、分析和預(yù)測(cè)、預(yù)報(bào)等方面的研究工作得到了長足的發(fā)展。而遙感影像的精確分類是遙感應(yīng)用的重要前提,對(duì)遙感影像的分類主要分為監(jiān)督分類和非監(jiān)督分類。針對(duì)監(jiān)督分類目前國內(nèi)外對(duì)該技術(shù)的研究主要集中在分類方法上,而對(duì)訓(xùn)練樣本數(shù)量選擇和分類精度的關(guān)系研究較少。
2004年Foody針對(duì)SVM分類提出:以地物邊界上較少數(shù)量的混合像元作為訓(xùn)練樣本,可以達(dá)到選取大量純凈樣本作為訓(xùn)練樣本得到的分類精度[1]。2005年Van Niel T G等指出,訓(xùn)練樣本數(shù)量選取規(guī)則是每個(gè)地物類別需要的樣本數(shù)量為遙感數(shù)據(jù)波段數(shù)的10~30倍,并在此基礎(chǔ)上越多越好[2]。2006年Foody又結(jié)合統(tǒng)計(jì)學(xué)理論,給出了訓(xùn)練樣本數(shù)量的計(jì)算公式[3]。而國內(nèi)的學(xué)者薄樹奎、丁琳等于2010年選取TM影像通過實(shí)驗(yàn)分別驗(yàn)證了各個(gè)地物類別分類精度和選取各波段樣本數(shù)量的關(guān)系[4]。王曉玲、杜培軍等于2011年證明了針對(duì)SVM選取混合像元作為訓(xùn)練樣本的可行性[5]。從上述研究成果中可以看出:對(duì)訓(xùn)練樣本數(shù)量選取和分類精度的關(guān)系,前人的研究不但缺乏對(duì)逐像元分類和基于特征基元分類的對(duì)比分析,而且缺乏高分辨率遙感影像訓(xùn)練樣本數(shù)量選擇和整體分類精度關(guān)系分析。
利用監(jiān)督分類對(duì)遙感影像進(jìn)行分類時(shí),在確定分類方法和分類對(duì)象后,訓(xùn)練樣本的選擇也是一個(gè)關(guān)鍵步驟,訓(xùn)練樣本的選擇比分類算法的選擇對(duì)分類精度的影響更大,因此,訓(xùn)練樣本選取的好與壞,在一定程度上決定了分類精度的高與低。
遙感影像分類中,基于像元監(jiān)督分類通常假設(shè)某一地物類別服從正態(tài)分布,選取地物類別的訓(xùn)練樣本時(shí),根據(jù)統(tǒng)計(jì)學(xué)理論,所需訓(xùn)練樣本數(shù)量的計(jì)算公式[3]為:
式中:σ為地物類別的標(biāo)準(zhǔn)差;z為指定的置信水平;h為指定的置信區(qū)間的半寬;N為類別的大小。對(duì)于遙感影像中像元數(shù)目比較大的地物類別,式(1)可近似表示為:
在實(shí)際的遙感分類應(yīng)用中,一般認(rèn)為,基于像元監(jiān)督分類時(shí)所要求訓(xùn)練樣本數(shù)量是特征變量維數(shù)的函數(shù),隨著維數(shù)的增加而增加。通常采用試探性的方法來選取訓(xùn)練樣本,選取訓(xùn)練樣本的規(guī)則是每個(gè)地物類別的訓(xùn)練樣本數(shù)量為數(shù)據(jù)波段的10~30倍[2],且在此基礎(chǔ)上訓(xùn)練樣本數(shù)量越多,分類精度越高。
特征基元是與像元相對(duì)應(yīng)的影像分析實(shí)體,是光譜信息類似的相鄰像元集合體,其大小由影像分割尺度與影像空間結(jié)構(gòu)決定[6]。特征基元的獲取是根據(jù)特定的規(guī)則將相似的相鄰像元合并成影像對(duì)象,每個(gè)特征基元的光譜值是其中所有像元的平均值,然后以這些特征基元作為影像分類的基本處理單元。這樣就形成了影像分割前后兩類不同的數(shù)據(jù)集。在基于像元分類中,需要大量訓(xùn)練樣本,而基于特征基元分類方法中基本的處理單元發(fā)生了改變,因此,對(duì)影像分割后基于特征基元利用監(jiān)督分類時(shí),訓(xùn)練樣本的選取數(shù)量也就區(qū)別于基于像元的監(jiān)督分類。
實(shí)際上基于特征基元分類方法中的樣本選擇與基于像元分類方法中的樣本選擇類似,在原始影像上基于像元選取的訓(xùn)練樣本,與分割影像上相對(duì)位置上的像元集,即為采用基于特征基元監(jiān)督分類時(shí),所需選取的訓(xùn)練樣本。
本文截取某城市400×400的高分辨率影像數(shù)據(jù)作為研究對(duì)象。截取的原始影像數(shù)據(jù)如圖1所示,進(jìn)行影像分割生成特征基元的影像數(shù)據(jù)如圖2所示。
圖1 原始影像
圖2 分割影像
本文為驗(yàn)證基于特征基元分類和基于像元分類的訓(xùn)練樣本選取數(shù)量與最終分類精度的關(guān)系,分別在分割影像和原始影像上選取5組樣本數(shù)據(jù)進(jìn)行研究,具體研究流程如圖3所示。選取樣本的數(shù)量和樣本點(diǎn)的坐標(biāo)在兩類影像上均一一對(duì)應(yīng),同時(shí)滿足選取各類地物的樣本數(shù)量分別是影像波段數(shù)的3~4倍、6~8倍、12~15倍、24~30倍、48~55倍。具體各類地物樣本選取的個(gè)數(shù)如表1所示。
基于特征基元SVM分類和逐像元SVM分類的訓(xùn)練樣本確定后,分別利用交叉驗(yàn)證和格網(wǎng)搜索法對(duì)選取的兩類訓(xùn)練樣本進(jìn)行參數(shù)尋優(yōu),最終各組訓(xùn)練樣本對(duì)應(yīng)的最優(yōu)懲罰因子C和Gamma參數(shù)g如表2所示。
基于特征基元SVM分類和逐像元SVM分類的訓(xùn)練樣本的最優(yōu)參數(shù)求得后,選用各組數(shù)據(jù)的最優(yōu)參數(shù),利用SVM分類器對(duì)分割影像和原始影像分別分類,兩組訓(xùn)練樣本分類后求得最終分類結(jié)果的混淆矩陣分別如表3和表4所示。
將兩組訓(xùn)練樣本各自對(duì)應(yīng)的分類混淆矩陣求出后,分別將兩類影像訓(xùn)練樣本數(shù)量作為橫坐標(biāo)(以波段倍數(shù)表示),將得到的最終分類的總體精度作為縱坐標(biāo),生成的線性關(guān)系如圖4所示。
圖3 實(shí)驗(yàn)流程
圖4 樣本數(shù)量與分類總體精度線性關(guān)系圖
表1 研究區(qū)各類地物樣本選取狀況
表2 各組訓(xùn)練樣本參數(shù)尋優(yōu)結(jié)果
表3 各組訓(xùn)練樣本所得混淆矩陣及Kappa系數(shù)—基于特征基元分類
續(xù)表
表4 各組訓(xùn)練樣本所得混淆矩陣及Kappa系數(shù)—基于像元分類
續(xù)表
從圖3(其中,藍(lán)色代表基于特征基元分類,紅色代表基于像元分類)可以看出,隨著訓(xùn)練樣本數(shù)量的增加,兩類影像分類總體精度呈現(xiàn)上升趨勢(shì)?;谔卣骰诸悤r(shí),當(dāng)樣本數(shù)量是波段數(shù)6~8倍時(shí),分類總體精度(95.29%)已經(jīng)達(dá)到較高水平,之后,隨著樣本數(shù)量的增加,分類總體精度增幅變緩;基于像元分類時(shí),當(dāng)樣本數(shù)量是波段數(shù)的24~30倍時(shí),分類總體精度(89.4%)才達(dá)到較高水平。基于特征基元分類選擇訓(xùn)練樣本的數(shù)量比基于像素分類方法明顯減少4倍左右,即基于特征基元分類訓(xùn)練樣本選取的數(shù)量在6~8倍波段數(shù)目時(shí)分類精度就能達(dá)到較高的水平,并進(jìn)入一個(gè)平穩(wěn)階段,而基于像元分類訓(xùn)練樣本選取數(shù)量在24~30倍時(shí)分類精度才達(dá)到較高的水平。因此,基于特征基元分類與基于像元分類相比,基于特征基元分類選取訓(xùn)練樣本時(shí),只需選擇較少的樣本數(shù)量即可。
本文通過實(shí)驗(yàn)分析得出基于像元分類和基于特征基元分類時(shí)訓(xùn)練樣本的選取與分類精度的關(guān)系。認(rèn)為基于特征基元分類訓(xùn)練樣本選取的數(shù)量在6~8倍波段數(shù)目時(shí)分類精度就能達(dá)到較高的水平,并進(jìn)入一個(gè)穩(wěn)定階段,而基于像元分類訓(xùn)練樣本選取數(shù)量在24~30倍波段數(shù)目時(shí)分類精度才達(dá)到較高的水平。該結(jié)論對(duì)遙感信息的提取和遙感分類有重要的借鑒和指導(dǎo)意義。
[1] Foody G M,Mathur A.Toward intelligent training of supervised image classifications:Directing training data acquisition for SVM classifications[J].Remote Sensing of Environment,2004,93:107 - 117.
[2] Van Niel T G,McVicar T R,Datt B.On the relationship between training sample size and data dimensionality:Monte Carlo analysis of broadb and multi- temporal classification[J].Remote Sensing of Environment,2005,98(4):468 -480.
[3] Foody G M,Mathur A.The use of small training sets containing mixed pixels for accurate hard image classification.Training on mixed spectral responses for classification by a SVM [J].Remote Sensing of Environment,2006,103(2):179 -189.
[4] 薄樹奎,丁琳.訓(xùn)練樣本數(shù)目選擇對(duì)面向?qū)ο笥跋穹诸惙椒ň鹊挠绊懀跩].中國圖象圖形學(xué)報(bào),2010,15(7):1106-1111.
[5] 王曉玲,杜培軍.高光譜遙感影像SVM分類中訓(xùn)練樣本選擇的研究[J].測(cè)繪科學(xué),2011,36(3):127-129.
[6] Baatz M,Benz U,Dehghani S,et al.Ecognition Professional User Guide[EB/OL].[2009 -02 -25].http//www.definiens.imaging.com.