張 穎,余代俊,楊曉霞,戴曉愛(ài)
(1.成都理工大學(xué) 地球科學(xué)學(xué)院,四川 成都 610059)
基于改進(jìn)的樣本預(yù)選取的高光譜影像半監(jiān)督分類
張 穎1,余代俊1,楊曉霞1,戴曉愛(ài)1
(1.成都理工大學(xué) 地球科學(xué)學(xué)院,四川 成都 610059)
針對(duì)高光譜影像中無(wú)標(biāo)記樣本對(duì)分類精度的影響問(wèn)題,運(yùn)用一種改進(jìn)的KFCM聚類算法先對(duì)未標(biāo)記樣本聚類;然后根據(jù)聚類結(jié)果進(jìn)行未標(biāo)記樣本選取,挑選出的未標(biāo)記樣本位于聚類邊界上可能屬于支持向量;最后使用已有的標(biāo)記樣本和挑選的未標(biāo)記樣本對(duì)支持向量機(jī)(SVM)進(jìn)行訓(xùn)練,直到其分類精度到達(dá)預(yù)期效果。實(shí)驗(yàn)結(jié)果表明,將聚類和半監(jiān)督SVM分類相結(jié)合并進(jìn)行未標(biāo)記選取,比省略此過(guò)程直接使用SVM進(jìn)行高光譜影像分類的精度高,且該方法穩(wěn)定、可靠。
高光譜影像;未標(biāo)記樣本預(yù)選??;KFCM聚類算法;SVM;半監(jiān)督分類
高光譜遙感因其波段多、光譜分辨率高、能夠獲取豐富的地表光譜信息,廣泛地應(yīng)用于地物的精細(xì)分類中[1-2]。在高光譜影像分類時(shí),若采用監(jiān)督分類,由于高光譜影像具有高維的特征空間,需要大量的標(biāo)記樣本,但獲取標(biāo)記樣本較為困難[3];若采用非監(jiān)督分類,無(wú)需使用帶標(biāo)記的訓(xùn)練樣本,分類過(guò)程較簡(jiǎn)單,但其分類難以控制,結(jié)果精度較低[4]。因此將監(jiān)督分類和非監(jiān)督分類結(jié)合起來(lái)的半監(jiān)督分類成為新的研究熱點(diǎn)[5-7]。目前常用的高光譜影像半監(jiān)督分類算法有:基于圖模型[8-9]、主動(dòng)學(xué)習(xí)[10]、判別學(xué)習(xí)[11]、半監(jiān)督SVM[12-16]等。半監(jiān)督SVM是高光譜影像分類中應(yīng)用較多的一種算法[17-19],當(dāng)前對(duì)其研究主要集中在利用一些約束函數(shù)將未標(biāo)記樣本的信息加入到優(yōu)化過(guò)程中,但這種模擬都存在不同程度的對(duì)噪聲過(guò)于敏感和本身算法的優(yōu)化問(wèn)題[20]。本文將一種改進(jìn)的KFCM聚類算法和半監(jiān)督SVM算法相結(jié)合進(jìn)行高光譜影像分類。首先運(yùn)用改進(jìn)的KFCM算法對(duì)相鄰樣本點(diǎn)加權(quán),并利用計(jì)算出的空間關(guān)系降低算法對(duì)噪聲的敏感度,改善聚類結(jié)果,從而選出有用的未標(biāo)記樣本;然后將選擇的未標(biāo)記樣本加入半監(jiān)督SVM算法進(jìn)行分類。該方法比直接在半監(jiān)督SVM算法中使用未標(biāo)記樣本進(jìn)行分類更加準(zhǔn)確。
KFCM算法是一種通過(guò)非線性映射,將低維特征空間的數(shù)據(jù)映射到高維特征空間,再通過(guò)迭代來(lái)優(yōu)化目標(biāo)函數(shù),對(duì)數(shù)據(jù)進(jìn)行模糊聚類的算法[21]。
原KFCM算法[22]中引入了一種空間函數(shù)將樣本點(diǎn)的空間關(guān)系利用起來(lái),但其并沒(méi)有考慮相鄰樣本點(diǎn)間的權(quán)重關(guān)系,為了更好地進(jìn)行聚類,對(duì)原KFCM算法進(jìn)行改進(jìn),將其相鄰的樣本點(diǎn)按權(quán)重關(guān)系引入,此空間函數(shù)定義為:
式中,Dk為以xk為中心的8個(gè)樣本點(diǎn)鄰域;I為鄰域Dk的非中心樣本點(diǎn);e為在中心樣本點(diǎn)四周的4個(gè)點(diǎn);f為在中心樣本點(diǎn)對(duì)角線上的4個(gè)點(diǎn);uie為樣本點(diǎn)四周4個(gè)樣本點(diǎn)對(duì)第 i類聚類中心的隸屬度;uif為對(duì)角線上4個(gè)樣本點(diǎn)對(duì)第i類聚類中心的隸屬度。Rik為由鄰域樣本點(diǎn)決定的xk屬于第i類聚類中心的可能性,假設(shè)xk所有的鄰域樣本點(diǎn)都屬于第i類,這時(shí)Rik應(yīng)取最大值;否則應(yīng)取最小值。
在同類區(qū)域里,該加權(quán)空間函數(shù)僅加強(qiáng)了原有的隸屬度函數(shù),聚類結(jié)果不會(huì)變化;但對(duì)于不同類的噪聲區(qū)域,該加權(quán)空間函數(shù)能夠大大減少噪聲點(diǎn)的權(quán)重,使噪聲點(diǎn)得以抑制,糾正影像的錯(cuò)誤分類,提高聚類的精度。
運(yùn)用改進(jìn)的KFCM算法聚類后,再對(duì)聚類結(jié)果進(jìn)行預(yù)選取。計(jì)算每個(gè)樣本到本類中心的距離,假設(shè)聚類類別按二維陣列排列,則每個(gè)聚類周圍存在8個(gè)相鄰聚類,第i個(gè)聚類Cluster i進(jìn)行樣本篩選的過(guò)程如下:
1)計(jì)算Cluster i所有樣本到本聚類中心的距離,并從大到小進(jìn)行排序,記為序列A。
2)計(jì)算Cluster i的每個(gè)樣本到相鄰聚類中心的距離,并從小到大進(jìn)行排序,記為序列B。
3)設(shè)閾值為d,選擇同時(shí)存在于A和B中的前d 個(gè)序列的樣本作為選擇的未標(biāo)記樣本。這些樣本距離本聚類中心最遠(yuǎn)且離另一類聚類中心最近,說(shuō)明這些樣本點(diǎn)位于聚類Cluster i的邊界附近,可能屬于支持向量的樣本。
4)若所有相鄰聚類計(jì)算完畢,則算法結(jié)束;否則,重復(fù)步驟1)~3),計(jì)算Cluster i中樣本到下一個(gè)相鄰聚類中心的距離,確定選擇的無(wú)標(biāo)記樣本。
實(shí)驗(yàn)利用Hypex 1024成像光譜儀進(jìn)行高光譜數(shù)據(jù)采集,采集數(shù)據(jù)包含108個(gè)波段。圖1為原始數(shù)據(jù)真彩色影像。本文通過(guò)水泥路(Class1)、水體(Class2)、大理石(Class3)、樹(shù)木(Class4)和草地(Class5)5類地物進(jìn)行算法驗(yàn)證。
圖1 真彩色影像圖
在運(yùn)用改進(jìn)的KFCM樣本預(yù)選取方法對(duì)高光譜影像進(jìn)行半監(jiān)督分類時(shí),參數(shù)設(shè)置為:聚類類別數(shù)c=5,模糊加權(quán)指數(shù)m=2,ε=0.1,最大迭代次數(shù)T=100,p=3,q=6,d=2;核函數(shù)采用高斯核函數(shù),懲罰系數(shù)為σ=0.5。為了更好地證明該方法的分類精度,本文進(jìn)行了4組對(duì)比實(shí)驗(yàn),分類精度見(jiàn)表1,分類結(jié)果見(jiàn)圖2。
表1 分類精度表
運(yùn)用改進(jìn)的KFCM算法聚類,得到新的隸屬度矩陣以及每個(gè)樣本的聚類特征。其中,初始聚類中心從實(shí)測(cè)的地面數(shù)據(jù)中獲得,根據(jù)加權(quán)的相鄰樣本間的空間關(guān)系,得到更加精確的聚類結(jié)果。每個(gè)樣本的聚類類別根據(jù)隸屬度矩陣中最大的類別進(jìn)行初始化,再根據(jù)聚類結(jié)果選取有用的未標(biāo)記樣本,加入SVM中進(jìn)行半監(jiān)督分類,其分類結(jié)果見(jiàn)圖2d。直接對(duì)原始數(shù)據(jù)進(jìn)行SVM半監(jiān)督分類得到的結(jié)果見(jiàn)圖2c,總體分類精度為86.68%,Kappa系數(shù)為0.843 2,雖然比使用MNF+SVM和PCA+SVM方法精度高,但是效果并不明顯。
圖2 分類結(jié)果
為了驗(yàn)證所選取的未標(biāo)記樣本對(duì)算法精度的影響和本文算法對(duì)標(biāo)記樣本數(shù)量的敏感性,分別進(jìn)行兩組實(shí)驗(yàn)對(duì)比。第一組實(shí)驗(yàn)均選取60個(gè)標(biāo)記樣本,而未標(biāo)記樣本則分別為聚類后直接選取的20、40、60個(gè)未標(biāo)記樣本,和經(jīng)過(guò)選取后的3、6、9個(gè)樣本,得到的分類精度見(jiàn)表2。由表2可知,雖然未經(jīng)選取的未標(biāo)記樣本數(shù)量逐漸增加,但總體分類精度比經(jīng)過(guò)選取后最少的3個(gè)樣本的精度還低,且隨著選取樣本數(shù)量的增加,其精度逐漸增加,但當(dāng)選取的未標(biāo)記樣本增加到一定程度時(shí),其精度也基本穩(wěn)定。
表2 未選取未標(biāo)記樣本與選取未標(biāo)記樣本分類精度比較/%
第二組實(shí)驗(yàn)選取6個(gè)未標(biāo)記樣本和15、30、45、60、75、90個(gè)標(biāo)記樣本,得到的分類精度見(jiàn)圖3。由圖3可知,隨著標(biāo)記樣本的增加,分類精度逐漸提高,但是當(dāng)標(biāo)記樣本增加到一定程度,精度基本穩(wěn)定。標(biāo)記樣本數(shù)量為60時(shí),本文方法的總體分類精度已達(dá)到88.96%,已超過(guò)了半監(jiān)督SVM的最高分類精度(86.68%)和MNF+SVM的最高分類精度(83.33%)。
由表2和圖3可知,本文算法不僅可以有效進(jìn)行未標(biāo)記樣本的選取,同時(shí)也能利用較少的標(biāo)記樣本達(dá)到最佳分類精度。該算法將聚類和半監(jiān)督分類相結(jié)合,既避免了單獨(dú)使用聚類算法進(jìn)行分類造成誤分率過(guò)大的問(wèn)題,又解決了半監(jiān)督分類中未標(biāo)記樣本對(duì)精度的影響問(wèn)題,通過(guò)實(shí)驗(yàn)證明其分類精度比直接使用SVM進(jìn)行高光譜影像半監(jiān)督分類的精度高。
圖3 不同標(biāo)記樣本數(shù)目下各方法的分類精度
針對(duì)KFCM算法聚類和未標(biāo)記樣本的選取問(wèn)題,本文將一種改進(jìn)的KFCM聚類算法與SVM算法相結(jié)合進(jìn)行高光譜影像半監(jiān)督分類。該算法引入了加權(quán)的空間函數(shù),能更好地利用相鄰未標(biāo)記樣本的信息,聚類效果更好。從聚類結(jié)果中選取有用的X個(gè)未標(biāo)記樣本,將其和L個(gè)標(biāo)記樣本一起加入分類器中進(jìn)行分類,這樣訓(xùn)練出的分類器具有較好的推廣性能。為證明該方法分類結(jié)果的精度,對(duì)成像光譜儀采集的數(shù)據(jù)進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,運(yùn)用改進(jìn)的KFCM算法預(yù)選取樣本后再使用SVM對(duì)高光譜影像進(jìn)行半監(jiān)督分類能夠取得較好的分類結(jié)果。
[1] 高恒振.高光譜遙感圖像分類技術(shù)研究[D].長(zhǎng)沙∶國(guó)防科技大學(xué),2011
[2] 潘佩芬,楊武年,戴曉愛(ài),等.不同森林植被的高光譜特征分析[J].遙感技術(shù)與應(yīng)用,2013,28(6)∶1 000-1 005
[3] 李二珠.半監(jiān)督支持向量機(jī)高光譜遙感影像分類[D].徐州∶中國(guó)礦業(yè)大學(xué),2014
[4] Alajlan N, Bazi Y, Melgani F, et al. Fusion of Supervised and Unsupervised Learning for Improved Classification of Hyperspectral Images[J]. Information Sciences, 2012,217(24)∶39-55
[5] 鐘清流,蔡自興.基于支持向量機(jī)的漸近式半監(jiān)督式學(xué)習(xí)算法[J].計(jì)算機(jī)工程與應(yīng)用,2006,42(25)∶19-21
[6] Carlson A, Betteridge J, WANG R C, et al. Coupled Semisupervised Learning for Information Extraction[C].Proceedings of the Third ACM International Conference on Web Search and Data Mining,ACM,2010∶101-110
[7] 陳榮,曹永峰,孫洪.基于主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的多類圖像分類[J].自動(dòng)化學(xué)報(bào),2011,37(8)∶954-962
[8] Campus-Valls G, Bandos Marsheva T, ZHOU D Y. Semisupervised Graph-based Hyperspectral Image Classification [J].IEEE Transaction on Geoscience and Remote Sensing, 2007,45(10)∶3 044-3 054
[9] Bandos T V, ZHOU D Y, Campus-Valls G. Semi-supervised Hyperspectral Image Classification with Graphs[C].Proceedings of IEEE International Conference on Geoscience and Remote Sensing Symposium,IEEE,2006∶3 883-3 886
[10] Rajan S, Ghosh J, Crawford M M. An Active Learning Approach to Hyperspectral Data Classification[J].IEEE Transactions on Geoscience and Remote Sensing,2008,46(4)∶1 231-1 242
[11] LI J, Bioucas-Dias J M ,Plaza A. Semi-supervised Hyperspectral Image Classification and Segmentation with Discriminative Learning[C].SPIE Europe Remote Sensing,Berlin,2009∶74-77
[12] Tuia D, Volpi M, Copa L, et al. A Survey of Active Learning Algorithms for Supervised Remote Sensing Image Classification[J].IEEE Journal of Selected Topics in Signal Processing,2011,5(3)∶606-617
[13] 趙瑩.半監(jiān)督支持向量機(jī)學(xué)習(xí)算法研究[D].哈爾濱∶哈爾濱工程大學(xué),2010
[14] Cortes C,Vanpik V. Support Vector Networks[J].Machine Learning,1995(20)∶273-297
[15]丁勝鋒,孫勁光,陳東莉,等.基于模糊雙支持向量機(jī)的遙感圖像分類研究[J].遙感技術(shù)與應(yīng)用,2012,27(3)∶353-358
[16] Fung G,Mangasarian O. Semi-supervised Support Vector Machines for Unlabeled Data Classification[J].Optimization Methods & Software,2001,15(1)∶29-44
[17] 李建民,張鈸,林福宗.支持向量機(jī)的訓(xùn)練算法[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2003,43(1)∶120-124
[18] 張磊,邵振峰,周熙然,等.聚類特征和SVM組合的高光譜影像半監(jiān)督協(xié)同分類[J].測(cè)繪學(xué)報(bào),2014,43(8)∶855-861
[19] Bennett K P,Demiriz A.Semi-supervised Support Vector Machines[J].Advances in Neural Information Processing Systems,2001,9(2)∶368-374
[20] 曹盼東.基于圖模型的半監(jiān)督SVM分類算法研究與應(yīng)用[D].哈爾濱∶哈爾濱工程大學(xué),2012
[21] ZHANG D,CHEN S.Clustering Incomplete Data Using Kernel-based Fuzzy C-means Algorithm[J].Neural Processing Letters,2003,18(3)∶155-162
[22] 吳一全,沈毅,陶飛翔.基于局部空間信息KFCM的遙感圖像聚類算法[J].地球信息科學(xué)學(xué)報(bào),2014(5)∶769-775
P237
B
1672-4623(2016)09-0065-03
10.3969/j.issn.1672-4623.2016.09.021
張穎,碩士研究生,主要從事高光譜影像分類方面的研究。
2015-06-17。
項(xiàng)目來(lái)源:國(guó)家自然科學(xué)基金資助項(xiàng)目(41201440);四川省教育廳科研資助項(xiàng)目(15ZA0078)。