古麗娜孜·艾力木江,孫鐵利,乎西旦
(1.伊犁師范學(xué)院電子與信息工程學(xué)院,新疆 伊寧 835000;2.東北師范大學(xué)地理科學(xué)學(xué)院,吉林 長(zhǎng)春 130024;3.東北師范大學(xué)計(jì)算機(jī)科學(xué)與信息技術(shù)學(xué)院,吉林 長(zhǎng)春 130117)
?
一種基于融合核函數(shù)支持向量機(jī)的遙感圖像分類
古麗娜孜·艾力木江1,2,孫鐵利3,乎西旦1
(1.伊犁師范學(xué)院電子與信息工程學(xué)院,新疆 伊寧 835000;2.東北師范大學(xué)地理科學(xué)學(xué)院,吉林 長(zhǎng)春 130024;3.東北師范大學(xué)計(jì)算機(jī)科學(xué)與信息技術(shù)學(xué)院,吉林 長(zhǎng)春 130117)
從核函數(shù)選取規(guī)則著手,結(jié)合遙感數(shù)據(jù)本身特征,將具有互補(bǔ)性的幾種核函數(shù)融合在一起,提出了一種復(fù)合核函數(shù)構(gòu)造方法.通過實(shí)驗(yàn)數(shù)據(jù)與傳統(tǒng)支持向量機(jī)方法比較,結(jié)果表明了復(fù)合核方法的有效性.
支持向量機(jī);遙感數(shù)據(jù);核函數(shù);光譜
遙感圖像的分類是遙感數(shù)據(jù)研究領(lǐng)域的重要部分,如何解決并提高樣本間的分類精度是遙感數(shù)據(jù)應(yīng)用的關(guān)鍵,具有較強(qiáng)的實(shí)際研究意義.
遙感數(shù)據(jù)技術(shù)通過獲取大尺度、動(dòng)態(tài)、宏觀的各類專題圖,對(duì)土地覆蓋檢測(cè)提供有利的數(shù)據(jù).與此同時(shí),由于地理空間數(shù)據(jù)的不確定性和復(fù)雜性等特征,異物同譜現(xiàn)象和同物異譜現(xiàn)象,使得專題圖數(shù)據(jù)表達(dá)得有些模糊和不確定性,從而加大了信息提取工作的難度.[1-3]精確與時(shí)時(shí)地土地覆蓋分類遙感數(shù)據(jù)的提取不僅與數(shù)據(jù)質(zhì)量和分辨率有關(guān),同樣也與分類技術(shù)有關(guān)[4-5].因此,提高遙感數(shù)據(jù)分類精度已經(jīng)引起了很多人對(duì)遙感研究領(lǐng)域的關(guān)注[6-7].基于統(tǒng)計(jì)模式的分類方法,Vapnik提出支持向量機(jī)(SVM)方法,以計(jì)算量較低而在非線性分類問題很受歡迎并成為熱點(diǎn)的研究算法,也是模式識(shí)別領(lǐng)域最為活躍的一個(gè)機(jī)器學(xué)習(xí)算法.[6-9]同樣在維數(shù)高、數(shù)據(jù)不確定性等遙感數(shù)據(jù)處理領(lǐng)域里也顯出了其優(yōu)勢(shì)[10-12].目前,SVM不管是在圖像分類[13-14],還是在土地覆蓋分類、森林類型檢測(cè)、農(nóng)業(yè)作物監(jiān)測(cè)、道路信息提取等領(lǐng)域都被廣泛使用[15-22].盡管如此, SVM分類方法仍有進(jìn)一步優(yōu)化改進(jìn)并完善的研究空間,這跟SVM 本身設(shè)計(jì)原理息息相關(guān).當(dāng)要解決具體問題時(shí),首先應(yīng)考慮數(shù)據(jù)集的特征和分類問題的性質(zhì),如果核函數(shù)的選擇及其參數(shù)選定不當(dāng),則將直接影響分類結(jié)果,有的需靠經(jīng)驗(yàn)知識(shí),有的只能自己手工調(diào)整.
不管是哪一類核函數(shù),它的性能一般就在核函數(shù)的本身.因此,特定領(lǐng)域的分類問題靠核函數(shù)的選擇及其他的參數(shù).若隨意地選了核函數(shù),則該核函數(shù)模型的推廣性將會(huì)受影響,甚至影響到樣本的分類效率.[23-27]所以,針對(duì)特定的數(shù)據(jù)集和數(shù)據(jù)來源,根據(jù)先驗(yàn)知識(shí)和經(jīng)驗(yàn),選擇合適的核函數(shù),分類精度必然會(huì)提高.
本文提出一種根據(jù)核函數(shù)本身的性質(zhì)與構(gòu)造原理來構(gòu)建復(fù)合核函數(shù).應(yīng)用SVM在進(jìn)行圖像分類時(shí),基于線性核、多項(xiàng)式核、徑向基核、感知器核(S型核)的分類結(jié)果與本文提出的復(fù)合核函數(shù)下的分類結(jié)果進(jìn)行了對(duì)比研究.
SVM是統(tǒng)計(jì)學(xué)習(xí)理論中最重要的學(xué)習(xí)方法,僅從分類的角度來分析的話,SVM是一種廣義的線性分類器,在該分類器的基礎(chǔ)上,經(jīng)過引入結(jié)構(gòu)風(fēng)險(xiǎn)最小化、最優(yōu)化和核方法等原理與理論逐漸演化而成的.雖然該方法的設(shè)計(jì)完成經(jīng)歷了從1992年到1995年的漫長(zhǎng)的3年時(shí)間,但從實(shí)用角度來看,目前仍處于不斷完善、優(yōu)化的階段.
圖1 二維情形中的最優(yōu)分類面和間隔(Margin)
SVM的工作原理就是一個(gè)分類面(分類曲線或者是分類線).簡(jiǎn)單線性可分的兩類問題上它就是一條分離線或者是分類曲線;多類復(fù)雜的,即為非線性可分情況下它就是一個(gè)分類面,當(dāng)在這種復(fù)雜情況下,它先通過運(yùn)用適當(dāng)?shù)膬?nèi)積函數(shù)也就是核函數(shù),將輸入空間中的輸入點(diǎn)信息映射到其他某個(gè)高維的空間中,使得輸入樣本在這里能線性可分,從而求出可分所對(duì)應(yīng)的最優(yōu)線性分類面.所謂最優(yōu)指的是不同樣本之間的分類間隔最大,使得不同樣本能正確分開(如圖1所示).
SVM的線性可分分類問題描述為
s·t·yi[wxi+b]-1≥0,i=1,2,…,l.
(1)
其訓(xùn)練樣本集為
(2)
(3)
其中對(duì)應(yīng)ai≠0的樣本就是支持向量.
解決非線性圖像分類問題時(shí),利用一些非線性特征變換,將原始輸入空間中的輸入點(diǎn)信息轉(zhuǎn)變(映射)到其他的某個(gè)高維特征空間中去,然后到這新的空間中求出最優(yōu)的分界面.根據(jù)映射(2)式可變?yōu)椋?/p>
s·t·yi[wxi+b]-1+ξi≥0,i=1,2,…,l,ξi≥0,i=1,2,…,l.
(4)
其中φ( )為空間變化函數(shù),C為懲罰系數(shù),ξi為松弛項(xiàng).
通過運(yùn)用與構(gòu)造不同形式的核函數(shù),就可解決不同的分類問題,這樣最優(yōu)分類面(3)式引入核函數(shù)后變?yōu)?/p>
(5)
2.1核函數(shù)
核函數(shù)本身就是一個(gè)通過內(nèi)積運(yùn)算將各類線性算法非線性化的點(diǎn)積運(yùn)算公式.核函數(shù)理論研究已有很長(zhǎng)的歷史,但是,在Vapnik等人將核函數(shù)思想用到SVM方法之前,核函數(shù)的重要性其實(shí)沒有受到很大重視,運(yùn)用較欠缺.
SVM被提出之后,很多人就意識(shí)到原來提高SVM分類精度的關(guān)鍵就是選擇和確定合適的核函數(shù)及其參數(shù)的選擇,繼而基于核函數(shù)的各類算法的設(shè)計(jì)以及相關(guān)領(lǐng)域里的應(yīng)用應(yīng)運(yùn)而生.
根據(jù)核函數(shù)的定義和構(gòu)造原理來分析的話,核函數(shù)的選擇問題并不困難,只要滿足Mercer定理的函數(shù)都可以當(dāng)做核函數(shù)來使用.SVM中常用的核函數(shù)有以下幾種:
(1) 線性內(nèi)核為K(x,xi)=x·xi;
除了這些簡(jiǎn)單核函數(shù)以外,目前研究主要集中在根據(jù)具體數(shù)據(jù)集構(gòu)造復(fù)雜的核函數(shù),使得SVM能夠得到進(jìn)一步的推廣.
2.2核函數(shù)的基本性質(zhì)
2.2.1封閉性
若k1,k2,k3,…是核函數(shù),則有:
(a)k1+k2是核函數(shù);
(b)αk1,α≥0是核函數(shù);
(c)k1°k2是核函數(shù);
2.2.2組合性
設(shè)k:Χ×Χ→R是核函數(shù),f:Χ→R是任意核函數(shù),則有:
2.2.3正定性
k:Χ×Χ→R是核函數(shù)當(dāng)且僅當(dāng)它是正定的.
2.2.4無(wú)關(guān)性
2.2.4相似性
核函數(shù)本身就是一個(gè)測(cè)度函數(shù),是根據(jù)輸入樣本之間的相似性而設(shè)置的特征映射,即距離公式.對(duì)于核函數(shù)k:Χ×Χ→R的特征映射φ,該距離公式為
這個(gè)距離公式就是計(jì)算χ與χ′等兩類樣本之間的相似性度量,這一點(diǎn)理解核函數(shù)和SVM是非常重要的.比如,在遙感數(shù)據(jù)的分類工作中,關(guān)注樣本之間的光譜相似性特征是極其重要的.
2.3核函數(shù)方法實(shí)現(xiàn)步驟
核函數(shù)方法是由核函數(shù)設(shè)計(jì)和算法設(shè)計(jì)等兩大模塊組成的一種模塊化的方法,其具體過程如圖2所示.
圖2 核函數(shù)方法實(shí)現(xiàn)步驟
核函數(shù)方法的實(shí)現(xiàn)步驟,可以概括為:
(1) 樣本采集并標(biāo)準(zhǔn)化;
(2) 選擇或構(gòu)造恰當(dāng)?shù)暮撕瘮?shù);
(3) 將輸入數(shù)據(jù)通過非線性變換函數(shù)映射到高維特征空間,即用核函數(shù)將輸入樣本變換成為核函數(shù)矩陣信息,這個(gè)步驟非常關(guān)鍵,注意矩陣是l×l的對(duì)稱矩陣,l為樣本數(shù);
(4)最后在對(duì)稱矩陣上使用一些線性方法,可得原輸入空間中的所對(duì)應(yīng)的非線性模型.
2.4目標(biāo)核函數(shù)——復(fù)合核函數(shù)
依據(jù):(1)SVM核函數(shù)中用的較多的是徑向基核,因與其他常用核相比,徑向基核的參數(shù)較少,比較容易掌握.只要保證σ→0,樣本基本都能區(qū)分,正確分類.(2)多項(xiàng)式核一來簡(jiǎn)單,二來隨著階數(shù)d值的變小而增強(qiáng),因此它的推廣能力較強(qiáng).(3)只要保證展開項(xiàng)數(shù)不多的任何正弦、余弦等連續(xù)可微的周期函數(shù)都可以用多項(xiàng)式來逼近,而且選取傅里葉核可以使SVM達(dá)到較好的推廣性能,由此可以設(shè)想用這一類核函數(shù)去逼近其他類型的核函數(shù).當(dāng)然,這些核都有各自突出的優(yōu)點(diǎn)和不足之處,一旦將它們組合起來應(yīng)用就可以達(dá)到互補(bǔ)的效果.由此我們將它們自然地組合起來,構(gòu)成一個(gè)復(fù)合核函數(shù),應(yīng)用到實(shí)際的遙感影像分類問題中.
為了引入重點(diǎn)的方便,不妨使用如下符號(hào),令:
利用核函數(shù)的“封閉性”性質(zhì),構(gòu)造出復(fù)合核函數(shù)為
(6)
其中ρi稱為權(quán)參數(shù),代表著這三類核函數(shù)在復(fù)合核函數(shù)中占的比例,而d,σ和q均為核參數(shù).從(6)式看出,當(dāng)ρ1=1,ρ2=ρ3=0時(shí),(6)式就轉(zhuǎn)變?yōu)槌S玫膹较蚧?,而?dāng)ρ2=1,ρ1=ρ3=0時(shí),(6)式就是簡(jiǎn)單的多項(xiàng)式核.這點(diǎn)有利于我們選取核參數(shù)d.
(6)式中的參數(shù)比較復(fù)雜,所以我們首先選取核參數(shù)最優(yōu)值,然后再去選擇權(quán)參數(shù)最優(yōu)值.
對(duì)于核參數(shù)最優(yōu)值的選擇,目前有很多種方法,如交叉驗(yàn)證、遺傳算法、網(wǎng)絡(luò)搜索法、平均約束規(guī)劃(MPEC)模型[28]等.我們采用傳統(tǒng)的遺傳算法獲取最優(yōu)的核參數(shù)值.
本文采用2009年12月18日制作的吉林長(zhǎng)春伊通河ALOS數(shù)據(jù),覆蓋范圍長(zhǎng)達(dá)10.074 13m×10.115 708m地段,由7 100 行7 995列4個(gè)波段([BIP]式)組成,含227,123,619B像素.為了實(shí)驗(yàn)的方便截取1 014像素×721像素×3像素規(guī)格的一部分?jǐn)?shù)據(jù)當(dāng)做本次實(shí)驗(yàn)數(shù)據(jù)集.數(shù)據(jù)集大致分為由水體、建筑、草地與灌木、裸地、道路等5類,以下是實(shí)驗(yàn)樣本集,感興趣區(qū)域樣本間分離度的數(shù)字化和可視化表示形式見圖3—5.
來自于2009-12制作的吉林長(zhǎng)春伊通河遙感影像
圖4 ROI樣本分離性報(bào)告
圖5 ROI樣本分類型n-D可視化報(bào)告
實(shí)驗(yàn)結(jié)果和分類效果見表1和圖6.更換了復(fù)合核以后,樣本間的分類精度從Kappa系數(shù)、總體分類精度、分類可視化效果等都有所提高.但這效果也是換取結(jié)構(gòu)復(fù)雜、所需參數(shù)較多的核函數(shù)為代價(jià),所以這樣復(fù)雜的結(jié)構(gòu)勢(shì)必會(huì)增加算法的時(shí)間復(fù)雜度,這正是課題組下一步將要研究解決問題,將使算法達(dá)到結(jié)構(gòu)上的魯棒性.
表1 實(shí)驗(yàn)結(jié)果
圖6分類效果圖
文獻(xiàn)報(bào)道到遙感數(shù)據(jù)感興趣區(qū)域里每類樣本之間的區(qū)分度都在1.8以上,比較理想,而我們實(shí)驗(yàn)數(shù)據(jù)僅達(dá)到1.554 6.但從整體來說,以核函數(shù)的角度來看,我們獲得實(shí)驗(yàn)數(shù)據(jù)已達(dá)到構(gòu)建核函數(shù)的目的,以后加以改進(jìn)優(yōu)化等工作作為下一步的研究任務(wù).
本文利用核函數(shù)的封閉性、組合性等固有性質(zhì)和SVM 方法的常用核函數(shù)技巧構(gòu)建了一種復(fù)合核函數(shù),實(shí)驗(yàn)數(shù)據(jù)表明,該方法具有一定的推廣性能.但仍有一些不足:(1)核函數(shù)的結(jié)構(gòu)較為復(fù)雜;(2)沒能加上樣本的光譜特征,因我們的實(shí)驗(yàn)數(shù)據(jù)源就是遙感數(shù)據(jù),所以對(duì)遙感數(shù)據(jù)來講得兼顧樣本之間的光譜特征才行,也就是說普通距離運(yùn)算和光譜運(yùn)算結(jié)合起來當(dāng)做樣本之間的距離運(yùn)算,這樣樣本間的區(qū)分度會(huì)更好一些,這也是將來要研究完成的任務(wù)之一.
[1]SERGE A, LUDOVIC R,YANNICK C,et al. A fuzzy-possibilistic scheme of study for objects with indeterminate boundaries:application to French Polynesian reef scapes[J].IEEE Transaction on Geoscience and Remote Sensing,2000,38(1):257-270.
[2]YANG C,BRUZZONE L,SUN F Y,et al.Fuzzy statistics based affinity propagation technique for clustering in multis images [J]. IEEE Transactions on Geoscience and Remote Sensing,2010,48(6):2647-2659.
[3]駱繼成,郭華東,史文中,等. 遙感數(shù)據(jù)的不確定性問題[M]. 北京:科學(xué)出版社,2004:97-264.
[4]YOUSSEF A M. An enhanced remote sensing procedure for material mapping in the western desert of Egypt:a tool for managing urban development [J]. Natural Resources Research,2008,17(4):215-226.
[5]PAN X,ZHANG S Q,ZHANG H Q.A variable precision rough set approach to the remote sensing land use/cover classification [J]. Computers & Geosciences,2010,36(14):66-1473.
[6]ROGéRIO GALANTE NEGRI,LUCIANO VIEIRA DUTRA,SIDNEI JOO SIQUEIRA SANT’ANNA. An innovative support vector machine based method for contextual image classification [J]. ISPRS Journal of Photogrammetry and Remote Sensing,2014(87):241-248.
[7]VAPNIK V N.Statistical Learning Theory [M]. New York:Wiley,1998:132-302.
[8]JIA X P,KUO B C,CRAWFORD M M. Feature mining for hyperspectral image classification [J]. Proc IEEE,2013,101(3):676-697.
[9]WANG L,JIA X. Integration of soft and hard classifications using extended support vector machines [J]. IEEE Geoscience and Remote Sensing Letters,2009,6(3):543-547.
[10]DALPONTE M,BRUZZONE L,GIANELLE D. Fusion of hyperspectral and LIDAR remote sensing data for classification of complex forest areas[J]. IEEE Transactions on Geoscience and Remote Sensing,2008,46(5):1416-1427.
[11]劉偉強(qiáng),胡 靜,夏德深.基于核空間的多光譜遙感圖像分類方法[J]. 國(guó)土資源遙感,2002(3):44-47.
[12]楊志民,劉廣利.不確定性支持向量機(jī)[M]. 北京:科學(xué)出版社,2007:57-63.
[13]羅小波,趙春暉,潘建平,等.遙感圖像智能分類及其應(yīng)用[M].北京:電子工業(yè)出版社,2011:122-178.
[14]杜培軍,譚琨,夏俊士.高光譜遙感影像分類與支持向量機(jī)應(yīng)用研究[M].北京:科學(xué)出版社,2012:89-115.
[15]LI J,BIOUCAS-DIAS J M,PLAZA A. Semi supervised hyper spectral image classification using soft sparse multinomial logistic regression [J]. IEEE Geosci. Remote Sens. Lett,2013,10(2):318-322.
[16]ANDRéS SERNA,BEATRIZ MARCOTEGUI. Detection,segmentation and classification of 3D urban objects using mathematical morphology and supervised learning [J]. ISPRS Journal of Photogrammetry and Remote Sensing,2014,93:243-225.
[17]PETROPOULOS G P,KALAITZIDIS C,VADREVU K P.Support vector machines and object-based classification for obtaining land-use/cover cartography from hyperion hyper spectral imagery [J].Computers & Geosciences,2012,41:99-107.
[18]LIU Y,ZHANG B,HUANG L H,et al. A novel optimization parameters of support vector machines model for the land use/cover classification [J]. International Journal of Food,Agriculture & Environment,2012,10(2):1098-1104.
[20]HEIKKINEN V,TOKOLA T,PARKKINEN J,et al.Simulated multispectral imagery for tree species classification using support vector machines[J]. IEEE Transactions on Geoscience and Remote Sensing,2010,48(3):1355-1364.
[21]LARDEUX C,F(xiàn)RISON P L,TISON C,et al.Support vector machine for multifrequency SAR polarimetric data classification [J]. IEEE Transactions on Geoscience and Remote Sensing,2009,47(12):4143-4152.
[22]HUANG X,ZHANG L P. Road centre line extraction from high-resolution imagery based on multi scale structural features and support vector machines [J].International Journal of Remote Sensing,2009,30(8):1977-1987.
[23]BURGES C.A tutorial on support vector machines for pattern recognition[J]. Data Mining and Knowledge Discovery,1998,2:121-167.
[26]CORTES C,VAPNIK V. Support vector networks[J]. Machine Learning.1995,20:273-297.
[24]CRISTIANINI N,KANDOLA J,ELISSEEFF A,et al. On kernel target alignment[C]//Dietterich T G,Becker S,Ghahramani Z,Advances in Neural Information Processing Systems 14. Cambridge:MIT Press,2002:367-374.
[25]SCHOLKOPF B A J,MULLER K R. The connection between regularization operators and support vectors kernels [J]. Neural Net Works,1998,11(3):637-649.
[26]EVGENIOU T,PONTIL M,POGGIO T.Regularization net works and support vector machines[J].Advance in Computational Mathematics,2000,13:1-50.
[27]吳濤,賀漢根,賀明科.基于插值的核函數(shù)構(gòu)造[J].計(jì)算機(jī)學(xué)報(bào),2003,26(8):990-996.
[28]DONG YU-LIN,XIA ZUN-QUAN,WANG MING-ZHENG.An MPEC model for selecting optimal parameter in support vector machines[C]//The First International Symposium on Optimization and Systems Biology. Beijing:The First International Symposium on Optimization and System Biology,2007:351-357.
(責(zé)任編輯:石紹慶)
The remote sensing image classification based on fusion kernel function of support vector machine
GULNAZ Alimjan1,2,SUN Tie-li3,Hurxida1
(1.Department of Electronics and Information Engineering,Yili Normal University,Yining 835000,China;2.School of Geographical Science,Northeast Normal University,Changchun 130024,China;3.School of Computer Science and Information Technology,Northeast Normal University,Changchun 1300117,China)
In the technology of remote sensing image classification,classification methods directly affect the classification accuracy between the samples. Current research of based on support vector machine(SVM) remote sensing image classification have achieved good results,but there is no further study on the selection of kernel function. From the selection of kernel function rules set out to research and combined with the feature of remote sensing data itself,fused several kinds of kernel function is complementary,put forward a method of composite kernel function,through compared with traditional SVM method,the experimental data show that the effectiveness of the composite kernel method.
support vector machine;remote sensing data;kernel function;spectrum
1000-1832(2016)03-0060-07
2015-09-18
國(guó)家自然科學(xué)基金資助項(xiàng)目(61363066);新疆高校科研計(jì)劃重點(diǎn)研究項(xiàng)目(XJEDU2014I043);吉林省科技發(fā)展計(jì)劃項(xiàng)目(20120302);伊犁師范學(xué)院院級(jí)重點(diǎn)項(xiàng)目(2015YSZD04).
古麗娜孜·艾力木江(1972—),女,博士研究生,副教授,主要從事模式識(shí)別與遙感數(shù)據(jù)分類研究.
TP 391.1[學(xué)科代碼]520·30
A
[DOI]10.16163/j.cnki.22-1123/n.2016.03.012
東北師大學(xué)報(bào)(自然科學(xué)版)2016年3期