陳賽英,何建農
(福州大學 數(shù)學與計算機科學學院,福建 福州350108)
遙感圖像分類是模式識別技術在遙感技術領域的一個具體應用,是對遙感圖像信息進行屬性的分類,達到識別圖像信息所對應的實際地物,最后提取所需地物信息的目的.支持向量域描述(SVDD)算法具有復雜程度低、擴充性強,以及對訓練樣本數(shù)據(jù)規(guī)模上要求不高等優(yōu)點,已經廣泛應用于故障診斷、異常檢測、語音識別等多種領域[1-4].SVDD算法的核心部分是核函數(shù)的選擇,傳統(tǒng)SVDD算法通常是以徑向基核函數(shù)為核函數(shù),但徑向基核函數(shù)存在計算量大、泛化性能較弱等缺點[5].基于此,本文分別將K型核函數(shù)和指數(shù)徑向基核函數(shù)與徑向基核函數(shù)組合成多核函數(shù),構造SVDD的改進算法,并應用于遙感圖像分類.
SVDD算法是基于貝葉斯最優(yōu)決策理論的,其基本思想是通過非線性變換將數(shù)據(jù)點映射到高維特征空間,然后找到包含大部分映射到特征空間數(shù)據(jù)點的最小超球體(圖1).令{xi}?X是數(shù)據(jù)空間X?Rn的一個給定訓練數(shù)據(jù)集,用一個非線性變換Φ把X映射到某個高維特征空間,然后找到半徑為R的最小封閉超球體,可描述為下列最優(yōu)化問題,即
圖1 二維空間最優(yōu)超球體示意圖Fig.1 Optinal sphere schematic diagram of two-dimensional space
式(1)中:C<1是懲罰因子,調節(jié)超球體,控制誤差;a是球心;ξj是松弛變量.為了解決這個問題,引進拉格朗日算式
令?L/?R=0和?L/?a=0,可分別得到和最后將式(1)的問題轉化為如下對偶問題,即
式(3)中:K(xi,xj)=Φ(xi)·Φ(xj)是核函數(shù).只有滿足0<βj<C的點在超球體邊界,稱為支持向量(support vectors,SVs).訓練高斯核支持函數(shù)是用Φ(x)到球心的平方徑向距離來定義的,有
式(4)中:{x∶f(x)=R2}為支持向量.
K型核函數(shù)具有泛化能力強的優(yōu)點,避免了徑向基核函數(shù)復雜的指數(shù)運算,同時具有多項式核函數(shù)計算量少和徑向基核函數(shù)逼近精度高的優(yōu)點,性能更加優(yōu)越[7].K型核函數(shù)的公式為
式(5)中:x=(x1,…,xn′);y=(y1,…,yn)′;k>0反映K型核函數(shù)的寬度.
徑向基核函數(shù)具有的優(yōu)勢,指數(shù)徑向基核函數(shù)也具有,同時還具有計算量比徑向基核函數(shù)少的特點.指數(shù)徑向基核函數(shù)[8-9]的公式為
式(6)中:σ是核函數(shù)參數(shù).
為了權衡各種特征向量的差異,在單核函數(shù)的基礎上,綜合考慮引入多核函數(shù).多核函數(shù)1,多核函數(shù)1的公式分別為
式(7)中:α1,α2∈[0,1]是多核函數(shù)參數(shù);是徑向基核函數(shù).
由文獻[10]可知,上述多核函數(shù)是合理的核函數(shù).徑向基核函數(shù)、K型核函數(shù)和指數(shù)徑向基核函數(shù)具有各自的優(yōu)勢,將徑向基核函數(shù)分別與K型核函數(shù)、指數(shù)徑向基核函數(shù)組合得到多核函數(shù)可以將兩者的優(yōu)勢互補.利用多核函數(shù),可以構造出性能更加優(yōu)越的SVDD算法.
算法的基本思想是,利用光譜特征組合的特征向量,采用基于多核函數(shù)1和多核函數(shù)2的SVDD改進算法對遙感圖像進行分類.分類的實現(xiàn)主要分如下3個主要階段:1)把訓練樣本輸入SVDD進行訓練;2)用訓練好的SVDD對測試樣本和待分類圖像進行分類;3)對結果進行評價分析.
算法的實現(xiàn)步驟:設標記樣本集為訓練集{(xi,yi)}Ni=1?X×Y,xi∈X表示一個輸入模式,yi∈Y={ω1,…,ωc}表示對應的輸出類.用SVDD算法進行多類分類的中心思想,是利用由SVDD得到的領域描述信息來估計每個類的分布,然后通過貝葉斯決策規(guī)則對數(shù)據(jù)點分類[6].
算法的訓練階段有如下3個具體步驟.
步驟1數(shù)據(jù)預處理及模型參數(shù)初始化.將提取各波段遙感圖像的光譜特征組合成的特征向量作為訓練集,初始化懲罰因子C=0.1,徑向基核函數(shù)和指數(shù)徑向基核函數(shù)的參數(shù)σ=3,K型核函數(shù)的參數(shù)k=0.001和多核函數(shù)參數(shù)α=0.01,分別在(0,1),[3,25],(0,1)和[0,1]內取C,σ,k和α,步長分別為0.1,1,0.001和0.01,使用網格搜索法[11]找到最優(yōu)參數(shù)組合使得分類精度最高.
步驟2數(shù)據(jù)分區(qū).根據(jù)輸出類把給定的訓練集分成c個不相交的子集{Dk}ck=1.例如,第k類數(shù)據(jù)集Dk,包含Nk個元素,即Dk={(xi1,ωk),…,(xiNk,ωk)},其中xi是第k類遙感圖像的特征向量,ωk是對應的類別標簽.
步驟3對每類數(shù)據(jù)集做SVDD.對每類數(shù)據(jù)集Dk,通過SVDD建立一個訓練高斯核支持函數(shù).具體是解式(3)的對偶問題,記解為,l=1,…,Nk,Jk?{1,…,Nk}是非零ˉβil的指標集合.每類數(shù)據(jù)集Dk的訓練高斯核支持函數(shù)由下式給出
算法的測試階段有2個具體步驟.
步驟1為每個類構造偽密度函數(shù).即為每個類k(k=1,…,c)構造偽密度函數(shù)對任意fk(·)的支持向量xsk,rk=R2(xsk).
步驟2用估計偽后驗概率分布函數(shù)進行分類.即對每個類k(k=1,…,c)估計偽后驗概率分布函數(shù)為
首先對美國Lanier lake湖區(qū)Landsat E TM+遙感圖像選取波段3,4,5組合成多波段圖像作為原始的遙感圖像(圖2(a));然后,對合成圖進行降噪等預處理,并選擇大小為200px×200px的圖像作為待分類圖像(圖2(b)),再次分別提取第3,4,5波段遙感圖像(圖2(c,d,e))的光譜特征組合成特征向量;最后用特征向量進行訓練和測試分類效果.
圖2 美國Lanier lake湖區(qū)遙感圖像Fig.2 Remote sensing image of American Lanier lake
參照土地利用圖,采用目視解譯,確定該地區(qū)地面覆蓋類型為水域(W)、草地(G)、落葉林(D)、針葉林(P)、耕地(A)、居民區(qū)(U)和裸地(B).對以上每類各選取200個樣本,并將其中的100個樣本作為訓練樣本,剩余100個樣本作為測試分類樣本.
為了驗證算法的有效性,在環(huán)境為Matlab R2010b,機器配置為Pentium(R)Dual-Core cpu T4400 2.20GHz,內存為1.93GB的計算機上進行仿真實驗.利用實驗得到的訓練模型對分類圖像進行分類,結果如圖3所示.
分類精度(P)是遙感圖像中正確分類的百分比,而Kappa系數(shù)(K)是用來評價分類精度的多元統(tǒng)計方法[12],在遙感圖像處理中主要用于精確性評價和圖像的一致性判斷.分類精度、Kappa系數(shù)越大,分類結果越可靠,其表達式分別為
式(10),(11)中:ai,i代表分類混淆矩陣A的對角元素;N為各樣本總數(shù);Ti·和T·i分別表示A的第i行之和以及第i列之和.
從待分類圖像中7類地物的每一類中分別選取100個樣本點進行仿真,計算各個樣本所屬類別,并將每類樣本分類結果數(shù)據(jù)看作矩陣,計算分類總精度(Ptot)及Kappa系數(shù).然后,將3次實驗所得的分類混淆矩陣中的總體分類精度,Kappa系數(shù)和訓練時間(t)作為評價標準,結果如表1所示.
從表1可知:基于多核函數(shù)1的SVDD算法具有學習能力強、泛化能力強和計算量小的優(yōu)勢;基于多核函數(shù)2的SVDD算法具有學習能力強和計算量小的優(yōu)勢.從表1還可以看出:和基于徑向基核函數(shù)的SVDD算法相比,基于多核函數(shù)1和多核函數(shù)2的SVDD算法分類精度得到提高,訓練時間也減少了.其中,基于多核函數(shù)2的SVDD算法所用時間最短.
文中首次將K型核函數(shù)和指數(shù)徑向基核函數(shù)應用于SVDD算法中,并將構造的多核函數(shù)SVDD算法應用于遙感圖像分類.通過對遙感圖像的分類,驗證了基于核函數(shù)改進的SVDD算法縮短了分類過程的訓練時間,提高了分類精度,具有較強的現(xiàn)實意義.
[1]TAX D M J,DUIN R P W.Support vector data description[J].Machine Learning,2004,54(1):45-66.
[2]李衛(wèi)鵬,李凌均,孔維峰,等.正交小波變換支持向量數(shù)據(jù)描述在故障診斷中的應用[J].機械科學與技術,2011,30(3):466-470.
[3]成寶芝,趙春暉,王玉磊.結合光譜解混的高光譜圖像異常目標檢測SVDD算法[J].應用科學學報,2012,30(1):82-88.
[4]王震宇.基于支持向量數(shù)據(jù)描述的說話人識別研究[D].杭州:浙江工業(yè)大學,2011:13-50.
[5]汪廷華,趙東巖,張瓊.多類核極化及其在多寬度RBF核參數(shù)選擇中的應用[J].北京大學學報:自然科學版,2012,48(5):727-731.
[6]LEE D,LEE J.Domain described support vector classifier for multi-classification problems[J].Pattern Recognition,2007,40(1):41-51(doi:10.1016/j.patcog.2006.06.008).
[7]孫翠娟.基于K型核函數(shù)的支持向量機[J].淮海工學院學報:自然科學版,2006,15(2):4-7.
[8]王春燕,夏樂天,孫毓蔓.基于不同核函數(shù)的SVM用于徑流預報的比較[J].人民黃河,2010,32(9):35-36.
[9]LIMA C A M,COELHO A L V,CHAGAS S.Automatic EEG signal classification for epilepsy diagnosis with relevance vector machines[J]Expert Systems with Applications,2009,36(6):10054-10059.
[10]杜培軍,譚琨,夏俊士.高光譜遙感影像分類與支持向量機應用研究[M].北京:科學出版社,2012:117-118.
[11]王興玲,李占斌.基于網格搜索的支持向量機核函數(shù)參數(shù)的確定[J].中國海洋大學學報,2005,35(5):859-862.
[12]LAM K W K,LAU W L,LI Zhi-lin.The effects on image classification using image compression technique[J].International Archives of Photogrammertry and Remote Sensing,2000,33(B7):744-750.