秦進(jìn)春,張 麗,彭 宇
1.西安測繪研究所,陜西 西安,710054;2.地理信息工程國家重點(diǎn)實(shí)驗(yàn)室,陜西 西安,710054;3.中國天繪衛(wèi)星中心,北京,102102
?
基于多核SVM的高光譜影像植被精細(xì)分類
秦進(jìn)春1,2,張麗1,2,彭宇3
1.西安測繪研究所,陜西 西安,710054;2.地理信息工程國家重點(diǎn)實(shí)驗(yàn)室,陜西 西安,710054;3.中國天繪衛(wèi)星中心,北京,102102
植被自身復(fù)雜的生長環(huán)境和垂直分布結(jié)構(gòu),使得高光譜影像中的植被特征受到大量異構(gòu)信息影響。在對植被進(jìn)行精細(xì)分類時(shí),隨著植被類別的增加,植被樣本信息量大大增加,但植被各類別之間的可分性卻在下降,采用單核映射方式對所有植被樣本進(jìn)行處理的分類方法難以得到可靠的分類精度。多核學(xué)習(xí)方法能夠以全新的核函數(shù)映射方式對復(fù)雜的樣本信息進(jìn)行處理,本文將多核學(xué)習(xí)方法引入植被精細(xì)分類中,提出基于多核SVM的高光譜影像植被精細(xì)分類方法,實(shí)驗(yàn)結(jié)果表明該方法可以顯著提高分類精度,在樹種識(shí)別、精細(xì)農(nóng)業(yè)等方面具有廣泛的應(yīng)用前景。
高光譜影像;多核支持向量機(jī);植被精細(xì)分類
高光譜影像數(shù)據(jù)中蘊(yùn)含著豐富的光譜信息,使得植被種類識(shí)別與分類成為可能[1],但是植被精細(xì)分類的精度卻受到了諸多因素的限制。主要有以下兩方面的原因:一是受光譜分辨率和數(shù)據(jù)質(zhì)量的影響,不同植被類型的光譜曲線差異不夠明顯,往往很難進(jìn)行區(qū)分;二是分類方法對多類別精細(xì)分類的適應(yīng)性不夠,當(dāng)植被類別較多的情況下,常規(guī)分類方法的分類精度下降比較明顯,并且很難達(dá)到樹種級別的區(qū)分[2]。目前,很多學(xué)者都在探索研究新的精細(xì)分類算法,以提高精細(xì)分類精度。
支持向量機(jī)(Support Vector Machine,SVM)已經(jīng)被廣泛用于高光譜植被分類中,相比傳統(tǒng)分類算法有更高的分類精度[3]。但SVM是基于單個(gè)特征空間的單核函數(shù)方法,面對復(fù)雜樣本數(shù)據(jù)時(shí),單核函數(shù)就無法充分挖掘數(shù)據(jù)信息。因此,出現(xiàn)了利用多核代替單核的多核支持向量機(jī),該方法利用多個(gè)核函數(shù)對不同來源數(shù)據(jù)進(jìn)行分類[4]。尚坤等[5]設(shè)計(jì)了一種基于合成核支持向量機(jī)的高光譜影像分類方法,使用不同的波段選擇方法將數(shù)據(jù)分組,每組數(shù)據(jù)使用不同的核函數(shù)進(jìn)行分類處理,得到了較好的結(jié)果,但其多核函數(shù)權(quán)系數(shù)是通過人工給定的,主觀性較強(qiáng);谷延鋒等[6]提出了一種典型多核學(xué)習(xí)方法對高光譜圖像進(jìn)行分類,利用統(tǒng)計(jì)顯著性代替耗時(shí)的最優(yōu)核組合搜索法來確定核函數(shù)和權(quán)系數(shù)。
本研究的目的是將簡單多核學(xué)習(xí)引入到植被分類問題中,提出利用多核支持向量機(jī)對高光譜植被進(jìn)行精細(xì)分類,并與支持向量機(jī)等傳統(tǒng)算法進(jìn)行實(shí)驗(yàn)對比,探索如何利用多核支持向量機(jī)分類算法來提高植被精細(xì)分類精度。
2.1SVM分類
原始的SVM是一種二類分類模型,在非線性情況下,SVM可以通過一定形式的核函數(shù)將輸入數(shù)據(jù)非線性的映射到高維特征空間中,并使得數(shù)據(jù)在高維特征空間中可分,從而構(gòu)造出最優(yōu)分類超平面。圖1以二維分布情況為例,對最優(yōu)分類線進(jìn)行說明。
圖1 SVM最優(yōu)分類線示意圖
非線性SVM的學(xué)習(xí)問題可形式化為如下凸二次規(guī)劃問題,即SVM的原始問題:
(1)
其中,w為分類超平面的法向量,b為偏移量,C為懲罰系數(shù),ξi為松弛變量。
有訓(xùn)練樣本集T={(x1,y1),(x2,y2),…,(xn,yn)},其中xi∈Rn,yi∈Y={+1,-1},i=1,2,…n,φ(xi) 表示一個(gè)映射,則可通過拉格朗日函數(shù)法推導(dǎo)出原始最優(yōu)化問題的對偶問題:
(2)
其中,k(xi,xj)為核函數(shù),C為懲罰參數(shù)。SVM應(yīng)用中使用較多的是線性核函數(shù)、多項(xiàng)式核函數(shù)、高斯徑向基核函數(shù)以及Sigmoid核函數(shù)。
2.2多核學(xué)習(xí)的對偶問題
根據(jù)核函數(shù)的性質(zhì)可知,如果K1和K2是在X×X上的核,那么下面的函數(shù)也是核函數(shù):
(3)
如果X×X上有M個(gè)核函數(shù),那么根據(jù)核函數(shù)組合特性,下面的函數(shù)也是核函數(shù):
(4)
上式是多核學(xué)習(xí)中核函數(shù)的通用形式,它是由多個(gè)基核函數(shù)線性凸組合而成,式中Km是基核函數(shù),M是基核函數(shù)的個(gè)數(shù),dm是基核函數(shù)線性組合的權(quán)系數(shù)。分析可知,解決多核學(xué)習(xí)問題的核心在于對權(quán)系數(shù)dm的答解。文獻(xiàn)[7]在綜合考慮分類精度和計(jì)算時(shí)間的基礎(chǔ)上,提出了一種簡單多核學(xué)習(xí)解決方案,并推導(dǎo)證明了簡單多核學(xué)習(xí)方法與多核學(xué)習(xí)的原始問題是一致的,但是簡單多核學(xué)習(xí)方法在樣本和維數(shù)較大時(shí),多核矩陣會(huì)因過大而導(dǎo)致內(nèi)存溢出。因此,本文在簡單多核學(xué)習(xí)方法框架下,采用梯度下降法對多核學(xué)習(xí)原始問題進(jìn)行答解,從而得到多核學(xué)習(xí)原始問題的近似最優(yōu)解。根據(jù)文獻(xiàn)[7]直接給出包含權(quán)系數(shù)dm
的簡單多核學(xué)習(xí)優(yōu)化問題:
(5)
(6)
與式(1)類似,可以根據(jù)SVM的答解方法,采用拉格朗日函數(shù)將式(6)中的目標(biāo)函數(shù)J(d)轉(zhuǎn)化為一個(gè)包含變量dm的凸優(yōu)化問題,即:
(7)
式(7)中αi,vi與SVM問題中拉格朗日系數(shù)相似,λ和ηm是約束dm的拉格朗日系數(shù)。而對偶問題又是拉格朗日的極大極小問題,因此,首先求解L對wm,b,ζ,d,α,υ,λ,η的梯度,并置為0,有:
(8)
將式(8)中各式帶入式(7)后對α和λ求極大值,即得多核學(xué)習(xí)的對偶問題:
(9)
2.3多核學(xué)習(xí)的梯度解
(10)
若式(10)的最優(yōu)解α*與dm無關(guān),則J(d)對dm的微分為:
(11)
式(11)可以計(jì)算出目標(biāo)函數(shù)J(d)的梯度,則通過梯度下降方向來更新滿足約束的d值:
(12)
式中,γ為更新步長,Dt為梯度下降方向。
(13)
式中,ε為閾值。通過迭代計(jì)算后,能夠得到各基核函數(shù)參與核矩陣計(jì)算的權(quán)系數(shù),從而計(jì)算出每一類別的決策函數(shù)J(d)。
3.1植被精細(xì)分類流程
(1)高光譜數(shù)據(jù)波段較多,算法進(jìn)行訓(xùn)練時(shí)容易造成核矩陣過大,影響訓(xùn)練速度,因此首先對原始數(shù)據(jù)進(jìn)行波段選擇預(yù)處理;
(2)由已知地面實(shí)測信息采集植被訓(xùn)練樣本和測試樣本;
(3)選擇所需的基核函數(shù)及MKSVM的多類分類策略,并對多核函數(shù)參數(shù)進(jìn)行初始化設(shè)置;
(4)利用梯度下降法迭代計(jì)算多核函數(shù)權(quán)系數(shù);
(5)利用植被訓(xùn)練樣本對MKSVM進(jìn)行訓(xùn)練,得到分類訓(xùn)練模型;
(6)對高光譜數(shù)據(jù)進(jìn)行植被精細(xì)分類實(shí)驗(yàn),并利用測試樣本計(jì)算分類結(jié)果的混淆矩陣,從而得到總體分類精度、Kappa系數(shù)以及單類用戶分類精度。
3.2實(shí)驗(yàn)區(qū)域
實(shí)驗(yàn)數(shù)據(jù)為2001年7月12日利用中科院上海技術(shù)物理研究所研制的OMIS航空高光譜成像儀拍攝的陜西省延河流域棗園鎮(zhèn)影像,影像波長范圍為455.7nm~1642.4nm,影像大小為1323×512像素,空間分辨率為6.6m。影像區(qū)域內(nèi)主要是森林、灌木叢以及草原植被景觀,是我國保存較為完好的溫帶落葉林區(qū)[8]。棗園數(shù)據(jù)信息較為豐富,并且在拍攝之后進(jìn)行了該區(qū)域的實(shí)地調(diào)繪工作,因此對該區(qū)域的樣本信息獲取較為準(zhǔn)確。實(shí)驗(yàn)區(qū)域野外調(diào)繪結(jié)果如圖2所示,樣本分布情況如圖3所示,樣本信息如表1所示。
圖2 棗園高光譜數(shù)據(jù)野外實(shí)地調(diào)繪圖
圖3 棗園高光譜數(shù)據(jù)樣本分布圖
表1棗園高光譜數(shù)據(jù)樣本信息
標(biāo)號(hào)名稱數(shù)量標(biāo)號(hào)名稱數(shù)量1蘋果園地4542葡萄園地3833草地3594好玉米地2745柳樹林地356刺槐坡地4137枯苗地4198菜地4229水池36910白楊樹20611土豆地26012國槐林地12413一級階地22814桃園地23415松樹苗林地22316一般玉米地44117西瓜地29318苗圃地23219豆角地18420刺槐林地18321胡芝子草坡地21622梨園地275
3.3多核函數(shù)參數(shù)設(shè)置
在簡單多核學(xué)習(xí)過程中,多核函數(shù)有單個(gè)核函數(shù)不同參數(shù)和不同核函數(shù)不同參數(shù)兩種組合方式。實(shí)驗(yàn)采用第二種組合方式,并選擇高斯徑向基核函數(shù)和多項(xiàng)式核函數(shù)作為基核函數(shù),其表達(dá)式分別為:
k(x,z)=exp(-||x-z||2/2σ2)
(14)
k(x,z)=(x·z+1)p
(15)
式中,σ為高斯核參數(shù),p為多項(xiàng)式系數(shù)。
3.4實(shí)驗(yàn)結(jié)果與分析
為了對比MKSVM的精細(xì)分類效果,實(shí)驗(yàn)還利用單核SVM、Fisher判別法以及光譜角匹配法(Spectral Angle Mapping,SAM)這三種常用的傳統(tǒng)分類方法對高光譜數(shù)據(jù)進(jìn)行了植被精細(xì)分類,實(shí)驗(yàn)結(jié)果如圖4所示,精度比較如表2所示。
表2棗園高光譜數(shù)據(jù)植被精細(xì)分類精度對比
名稱SAM分類(%)Fisher分類(%)SVM分類(%)MKSVM分類(%)蘋果園地100.00100.00100.00100.00葡萄園地93.1894.8296.55100.00草地83.1489.2796.8498.87好玉米地50.7990.28100.00100.00柳樹林地84.7858.5778.0896.83刺槐坡地98.1692.38100.00100.00枯苗地55.4586.4392.7092.72菜地67.6484.5291.6794.12水池51.5679.7289.5885.93白楊樹56.0059.6464.7068.00土豆地79.3189.23100.0088.97國槐林地59.8266.1282.9774.39一級階地68.5178.6477.7883.72桃園地98.3196.5885.2499.16松樹苗林地61.1274.7482.7184.51
續(xù)表2
圖4 棗園高光譜數(shù)據(jù)植被精細(xì)分類結(jié)果
圖5 懲罰系數(shù)與分類精度和Kappa系數(shù)關(guān)系圖
分析圖4和表2可知,MKSVM獲得了最高的分類精度,相比SAM分類、Fisher分類和單核SVM分類分別提高了17.24%、9.4%、4.41%;分析單個(gè)植被類別用戶使用精度可以看出,在22類地物(主要為植被)中,MKSVM獲得了16個(gè)類別的最佳用戶使用精度,充分說明了MKSVM更能適應(yīng)多類別精細(xì)分類的情況,無論是總體分類精度還是單個(gè)類別用戶精度,相比于單核SVM都有提高,對Fisher分類和SAM分類更是有明顯的優(yōu)勢。
實(shí)驗(yàn)中發(fā)現(xiàn)不同的核函數(shù)參數(shù)設(shè)置對植被分類提取的精度和算法總體運(yùn)行時(shí)間有較大影響。從圖5的關(guān)系曲線圖也可以看出,懲罰系數(shù)C的變化會(huì)導(dǎo)致MKSVM分類精度的變化,當(dāng)懲罰系數(shù)在10000時(shí),分類精度和Kappa系數(shù)最佳,隨著懲罰系數(shù)的增大,精度變化不明顯,但是會(huì)造成運(yùn)行時(shí)間的極大增加。此外,MKSVM雖然能夠較好地解決多類別植被精細(xì)分類問題,但是隨著數(shù)據(jù)量的增加,MKSVM的計(jì)算量也顯著增加,其計(jì)算速度明顯低于其他三種分類方法。
本文在分析單核函數(shù)對非線性特征等問題適
應(yīng)性不足的基礎(chǔ)上引入多核函數(shù)的概念,將MKSVM用于植被精細(xì)分類。該方法以多個(gè)核函數(shù)線性加權(quán)組合的方式代替單個(gè)核函數(shù),并通過迭代解算每個(gè)單核SVM問題,采用梯度下降法答解多核權(quán)系數(shù),從而實(shí)現(xiàn)對植被的分類。實(shí)驗(yàn)部分詳細(xì)分析了利用MKSVM對高光譜影像中植被進(jìn)行精細(xì)分類的流程。實(shí)驗(yàn)結(jié)果表明,MKSVM能夠有效提高植被要素的分類精度,對多類別植被精細(xì)分類有較好的適應(yīng)性,在總體分類精度和Kappa系數(shù)上都高于單核SVM等傳統(tǒng)分類方法,在樹種識(shí)別、精細(xì)農(nóng)業(yè)等方面將具有廣泛的應(yīng)用前景。
[1]余旭初,馮伍法,楊國鵬等.高光譜影像分析與應(yīng)用[M].北京:科學(xué)出版社,2013.
[2]李小梅,譚炳香,李增元等.CHRIS高光譜圖像森林類型分類方法比較研究[J].遙感技術(shù)與應(yīng)用,2010,25(2):227-234.
[3]馬心璐,任志遠(yuǎn),王永麗.支持向量機(jī)在高光譜遙感圖像植被分類中的應(yīng)用[J].農(nóng)業(yè)系統(tǒng)科學(xué)與綜合研究,2009,25(2):204-207.
[4]汪洪橋,孫富春,蔡艷寧等.多核學(xué)習(xí)方法[J].自動(dòng)化學(xué)報(bào),2010,36(8):1037-105.
[5]尚坤,李培軍,程濤.基于合成核支持向量機(jī)的高光譜土地覆蓋分類[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,47(1):109-114.
[6]Yanfeng Gu,Chen Wang,Di You.Representative Multiple Kernel Learning for Classification in Hyperspectral Imagery[J].IEEE Transactions on Geoscience and Remote Sensing,2012,50(7):2852-2865.
[7]Rakotomamonjy A,Bach F,Canu S,etc.Simple MKL[J]. Journal of Machine Learning Research,2008,1-34.
[8]楊國鵬.基于機(jī)器學(xué)習(xí)方法的高光譜影像分類研究[D].鄭州:信息工程大學(xué),2010.
Sophisticated Vegetation Classification Based on Multiple Kernel SVM Using Hyperspectral Images
Qin Jinchun1,2, Zhang Li1,2,Peng Yu3
1.Xi’an Research Institute of Surveying and Mapping, Xi’an 710054, China 2.State Key Laboratory of Geo-information Engineering, Xi’an 710054, China 3.Tianhui Satellite Center of China, Beijing 102102, China
Due to the complicated growth environment and vertical distribution structure, the vegetation characteristics in hyperspectral images are influenced by a large amount of heterogeneous information. During the sophisticated classification of vegetation, the amount of vegetation sample information increases greatly with the enrichment of vegetation types, but the separability between different classification decreases. Therefore, it is difficult to achieve reliable classification accuracy by processing all samples with classification methods based on single kernel function. By contrast, multiple kernel learning method using new kernel function mapping mode can deal with complicated sample information. The new method is introduced to solve vegetation classification problems, and sophisticated classification method based on multiple kernel SVM is proposed. Sophisticated vegetation classification experiment is conducted using hyperspectral images with real ground vegetation data, and the results show that the method can significantly improve the classification accuracy and has a wide application in species identification, precision agriculture and other fields.
hyperspectral image; multiple kernel SVM; sophisticated vegetation classification
2015-09-29。
秦進(jìn)春(1989—),男,研究實(shí)習(xí)員,主要從事高光譜影像應(yīng)用技術(shù)研究。
P223
A