崔賓閣,吳子賓,秦學(xué)川,馬秀丹
(山東科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,山東 青島 266590)
?
基于改進(jìn)標(biāo)簽傳播算法的高光譜圖像半監(jiān)督分類(lèi)
崔賓閣,吳子賓,秦學(xué)川,馬秀丹
(山東科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,山東 青島 266590)
針對(duì)標(biāo)簽傳播算法缺乏對(duì)新生成樣本的評(píng)價(jià)進(jìn)而影響分類(lèi)精度的問(wèn)題,本文提出一種利用閾值的標(biāo)簽傳播算法來(lái)提高高光譜圖像的分類(lèi)精度。首先,用基于圖像融合和遞歸濾波的特征提取方法對(duì)原始高光譜圖像進(jìn)行處理。然后,給出一個(gè)閾值并對(duì)標(biāo)簽傳播算法新生成樣本進(jìn)行評(píng)價(jià),保留一些可信度較高的樣本。最后,保留的新樣本和已標(biāo)記樣本之和作為訓(xùn)練樣本,對(duì)圖像進(jìn)行分類(lèi)。實(shí)驗(yàn)表明,基于改進(jìn)標(biāo)簽傳播算法優(yōu)于其他的高光譜圖像分類(lèi)算法。
標(biāo)簽傳播;高光譜圖像分類(lèi);閾值法;遞歸濾波
高光譜分辨率圖像可以由高光譜衛(wèi)星傳感器獲得,例如機(jī)載可見(jiàn)/紅外成像光譜儀(Airborne Visible/Infrared Imaging Spectrometer)。高光譜圖像提供了對(duì)應(yīng)地物物理材質(zhì)的詳細(xì)光譜信息,因此高光譜圖像能夠區(qū)分不同地貌特征。
目前常用的高光譜圖像的分類(lèi)方法有監(jiān)督分類(lèi)方法[1-4]、半監(jiān)督分類(lèi)方法[5-7]、非監(jiān)督分類(lèi)方法。其中,半監(jiān)督算法因其能夠在標(biāo)記樣本稀少[8]的情況下提高分類(lèi)精度而得到了越來(lái)越多的關(guān)注。
標(biāo)簽傳播算法[9](Label Propagation)是由Zhu等于2002年提出的一種基于圖的半監(jiān)督學(xué)習(xí)方法[10],因其不受數(shù)據(jù)分布形狀的影響、算法簡(jiǎn)單、執(zhí)行時(shí)間短且分類(lèi)性能好的優(yōu)點(diǎn)引起了國(guó)內(nèi)外學(xué)者的關(guān)注,并被大量應(yīng)用到圖像分類(lèi)領(lǐng)域中。但標(biāo)簽傳播算法仍存在一些問(wèn)題,如在信噪比較差的圖像中分類(lèi)效果較低,分類(lèi)精度易受樣本所屬標(biāo)簽類(lèi)概率的影響等。
針對(duì)標(biāo)簽算法存在的問(wèn)題,本文提出一種改進(jìn)的標(biāo)簽傳播算法(modified label propagation,MLP),其主要思想是:用基于圖像融合和遞歸濾波的高光譜圖像特征提取方法[11]提高圖像的質(zhì)量,然后給出一個(gè)閾值對(duì)標(biāo)簽傳播算法產(chǎn)生的新樣本進(jìn)行評(píng)價(jià),當(dāng)生成樣本的可信度低于閾值時(shí),認(rèn)為是錯(cuò)誤標(biāo)記樣本并去除該樣本,最后將保留的可信度較高的新樣本與已標(biāo)記樣本之和作為訓(xùn)練樣本,對(duì)圖像進(jìn)行分類(lèi)。實(shí)驗(yàn)結(jié)果表明,本文提出的MLP算法能夠顯著提高高光譜圖像分類(lèi)精度,且在訓(xùn)練樣本稀少的情況下,分類(lèi)效果更佳。
1.1 標(biāo)簽傳播算法及局限性分析
標(biāo)簽傳播算法是一種基于圖的半監(jiān)督學(xué)習(xí)方法,圖中的節(jié)點(diǎn)表示已標(biāo)記和未標(biāo)記的數(shù)據(jù),圖中的邊表示兩個(gè)節(jié)點(diǎn)的相似度;節(jié)點(diǎn)的標(biāo)簽通過(guò)邊傳播到相鄰節(jié)點(diǎn),為圖中的所有節(jié)點(diǎn)定義該節(jié)點(diǎn)所屬類(lèi)別的概率分布表,圖中的所有節(jié)點(diǎn)都根據(jù)它相鄰節(jié)點(diǎn)的概率分布來(lái)更新自己的概率分布。該算法在傳播過(guò)程中迭代執(zhí)行直到節(jié)點(diǎn)的概率分布收斂。然后選出未標(biāo)記樣本對(duì)應(yīng)概率最大的類(lèi),作為樣本的標(biāo)記信息。
圖1 標(biāo)簽傳播過(guò)程Fig.1 The procedure of label propagation
標(biāo)簽傳播過(guò)程如圖1所示,黑色和灰色節(jié)點(diǎn)是不同類(lèi)別的已標(biāo)記數(shù)據(jù),白色節(jié)點(diǎn)是未標(biāo)記數(shù)據(jù)。以箭頭上的概率從已標(biāo)記數(shù)據(jù)到未標(biāo)記數(shù)據(jù)傳播標(biāo)簽。
圖1中標(biāo)簽傳播算法通過(guò)近鄰點(diǎn)之間的標(biāo)記傳播來(lái)對(duì)節(jié)點(diǎn)進(jìn)行分類(lèi),新產(chǎn)生樣本的標(biāo)簽由樣本所屬標(biāo)簽類(lèi)的概率決定,當(dāng)概率很小時(shí),該數(shù)據(jù)有可能是噪聲數(shù)據(jù)或是其它類(lèi),由此產(chǎn)生錯(cuò)誤標(biāo)記,進(jìn)而對(duì)圖像分類(lèi)造成干擾。為排除錯(cuò)誤標(biāo)記的樣本產(chǎn)生的干擾,可以添加閾值來(lái)對(duì)新產(chǎn)生的樣本進(jìn)行評(píng)價(jià),提高新生成標(biāo)記樣本的可信度。
1.2 標(biāo)簽傳播算法
算法1:標(biāo)簽傳播算法(LP)
輸入:已標(biāo)記樣本及對(duì)應(yīng)標(biāo)簽集合Dl={(x1,y1),…,(xl,yl)}?RN,未標(biāo)記樣本集合Du={xl+1,…,xn}?RN,標(biāo)簽集L={1,…,c}
1)n個(gè)樣本集合{x1,x2,…,xl,xl+1,xl+2,…,xn}作為圖中的所有節(jié)點(diǎn),計(jì)算關(guān)聯(lián)矩陣Wn×n
(1)
2) 根據(jù)已有的W計(jì)算傳播概率矩陣Sn×n
(2)
其中Sij表示從節(jié)點(diǎn)i到節(jié)點(diǎn)j的傳播概率。
3) 初始化標(biāo)記矩陣An×c,初始化概率分布P,
(3)
Pij=Aij,1≤i≤n,1≤j≤c。
(4)
4) 傳播。每個(gè)節(jié)點(diǎn)根據(jù)傳播概率P把它周?chē)?jié)點(diǎn)傳播來(lái)的標(biāo)記信息按權(quán)重相加,并更新自己的概率分布F,F(xiàn)ij為第i個(gè)樣本屬于第j個(gè)類(lèi)的概率
(5)
5) 限定已標(biāo)記樣本。把已標(biāo)記樣本的概率分布重新賦值為初始值
Pij=Aij,1≤i≤l,1≤j≤c。
(6)
6) 重復(fù)步驟4,直到P收斂。
7) 對(duì)未標(biāo)記樣本進(jìn)行標(biāo)記,
(7)
2.1 改進(jìn)的標(biāo)簽傳播算法思想
改進(jìn)的標(biāo)簽傳播算法思想是:用基于圖像融合和遞歸濾波的高光譜圖像特征提取方法產(chǎn)生的圖像作為標(biāo)簽算法的輸入圖像;再增設(shè)一個(gè)閾值來(lái)對(duì)標(biāo)簽傳播算法產(chǎn)生的標(biāo)記樣本進(jìn)行評(píng)價(jià),如果產(chǎn)生的標(biāo)記樣本所屬標(biāo)簽類(lèi)的概率小于閾值,則將該樣本從標(biāo)記樣本集中去掉。
2.2 改進(jìn)的標(biāo)簽傳播算法
算法2:改進(jìn)的標(biāo)簽傳播算法(MLP)
輸出:訓(xùn)練樣本集D,分類(lèi)結(jié)果
1) 對(duì)圖像進(jìn)行基于圖像融合和遞歸濾波的特征提取操作
①圖像融合:圖像融合能有效地去除噪聲的影響,將高光譜圖像分割成相鄰波段的k個(gè)子集,用均值法對(duì)每個(gè)子集中的波段進(jìn)行融合。
(8)
②遞歸濾波:對(duì)融合后的圖像進(jìn)行遞歸濾波操作,遞歸濾波可以高效地利用圖像的空間信息。
J[m]=(1-ab)·I[m]+ab·J[m-1]。
(9)
3) 對(duì)候選集中每個(gè)樣本評(píng)價(jià),當(dāng)t小于等于Pij時(shí),將對(duì)應(yīng)的第i個(gè)樣本加入到訓(xùn)練樣本集D中
D=D∪{(xi,yi)},t≤Pij,l
(10)
4) 訓(xùn)練樣本集D作為訓(xùn)練樣本用SVM對(duì)處理后的圖像進(jìn)行分類(lèi)。
3.1 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)采用的是由機(jī)載可見(jiàn)/紅外成像光譜儀傳感器(AVIRIS)1992年在印第安納州西北部的IndianPines地區(qū)獲得的數(shù)據(jù)。高光譜圖像由220個(gè)光譜波段的145×145個(gè)像素組成,包括16個(gè)地物類(lèi)型,由于噪聲及吸水率的影響,去掉低信噪比、水汽吸收波段以及傳感器故障波段的20個(gè)波段。
每個(gè)單獨(dú)實(shí)驗(yàn)做20次,20次實(shí)驗(yàn)取均值作為獲得值;S表示每個(gè)類(lèi)的已標(biāo)記樣本數(shù)量;總體精度(overallaccuracy,OA)可以用訓(xùn)練樣本中分類(lèi)正確的樣本總數(shù)和訓(xùn)練樣本總數(shù)的比值來(lái)表示;平均精度(averageaccuracy,AA)可以用每種地物分類(lèi)正確的樣本數(shù)和每種地物樣本數(shù)比值的平均值來(lái)表示。
3.2 實(shí)驗(yàn)結(jié)果及分析
3.2.1 對(duì)于閾值的討論
在實(shí)驗(yàn)中,用IndianPines的AVIRIS數(shù)據(jù)集評(píng)估閾值對(duì)分類(lèi)性能的影響。圖2展示了不同閾值和不同樣本數(shù)總體精度的變化曲線,t和S分別取{0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.75,0.8,0.85,0.9,1}和{3,5,10},可以看到在S=3、S=5和S=10時(shí),OA分別在t=0.85、t=0.8和t=0.9時(shí)達(dá)到最高,且在達(dá)到最高之前,OA隨著t的增加而增加,而在到達(dá)最高之后OA隨著t的增加遞減。
由此可以得出:
1) 隨著t的增加,標(biāo)記樣本的可靠性越來(lái)越高,新增樣本的數(shù)量越來(lái)越少。
2) t=0意味著增加的新樣本都沒(méi)有被刪除,樣本數(shù)最多,但樣本的可靠性最低;t=1,相當(dāng)于新樣本全部被刪除,樣本數(shù)最少,樣本的可靠性最高。
3) 尋找最優(yōu)閾值,即找到產(chǎn)生的標(biāo)記樣本的可靠性與數(shù)量之間的最優(yōu)線性組合。
3.2.2 圖像特征提取效果的驗(yàn)證
在相同閾值條件下,討論以下兩種特征提取方法對(duì)圖像分類(lèi)精度的影響。每個(gè)類(lèi)取10個(gè)樣本。
方法1先用基于圖像融合和遞歸濾波的特征提取方法對(duì)原始高光譜圖像進(jìn)行處理,然后用帶有閾值的標(biāo)簽傳播算法對(duì)處理后的圖像進(jìn)行分類(lèi)。
方法2沒(méi)有經(jīng)過(guò)特征提取處理,直接用帶有閾值的標(biāo)簽傳播算法對(duì)原始圖像進(jìn)行分類(lèi)。
實(shí)驗(yàn)結(jié)果由圖3所示,可看到:
1) 由方法1和方法2得到的圖像分類(lèi)趨勢(shì)基本吻合。
2) 由方法1得到的分類(lèi)精度遠(yuǎn)遠(yuǎn)高于由方法2得到的圖像分類(lèi)精度。
實(shí)驗(yàn)結(jié)果說(shuō)明先用特征提取方法提高圖像質(zhì)量,再對(duì)圖像進(jìn)行分類(lèi),可以顯著提高圖像分類(lèi)精度。
圖2 每個(gè)類(lèi)的樣本數(shù)不同時(shí)閾值t對(duì)于Indian Pines的AVIRIS數(shù)據(jù)分類(lèi)性能的影響Fig.2 Influence of t on the performance for theAVIRIS data of Indian Pines
圖3 特征提取方法對(duì)于Indian Pines的 AVIRIS數(shù)據(jù)分類(lèi)性能的驗(yàn)證Fig.3 Influence of adding a feature extraction method on the performance for the AVIRIS data of Indian Pines
3.2.3 LP與MLP的對(duì)比實(shí)驗(yàn)
將改進(jìn)的標(biāo)簽傳播算法用Indian Pines的AVIRIS數(shù)據(jù)進(jìn)行實(shí)驗(yàn),并與標(biāo)簽傳播算法進(jìn)行比較。結(jié)果如表1所示。
表1 LP與MLP對(duì)于Indian Pines的 AVIRIS數(shù)據(jù)分類(lèi)的對(duì)比實(shí)驗(yàn)Tab.1 classification experiments of LP and MLP for the AVIRIS data of Indian Pines
表2 5種圖像分類(lèi)算法對(duì)于Indian Pines的 AVIRIS數(shù)據(jù)分類(lèi)的總體精度比較Tab.2 OA of the five image classified algorithms for the AVIRIS data of Indian Pines
可看出:與原標(biāo)簽傳播算法(LP)相比,改進(jìn)的標(biāo)簽算法(MLP)在S=10時(shí),OA、AA和Kappa均提高了20%左右,分類(lèi)效果提升明顯。
3.2.4 幾種常用圖像分類(lèi)算法的對(duì)比實(shí)驗(yàn)
將本文的MLP算法與四種常用的分類(lèi)方法利用Indian Pines的AVIRIS數(shù)據(jù)進(jìn)行比較,這些算法包括:Support Vector Machine(SVM)、Spectral-Spatial Hyperspectral Image Classification With Edge-Preserving Filtering(EPF)[1]、Feature Extraction of Hyperspectral Images With Image Fusion and Recursive Filtering(IFRF)[11]和Intrinsic Image Decomposition for Feature Extraction of Hyperspectral Images(IID)[2]。SVM算法采用高斯核函數(shù),EPF算法采用文獻(xiàn)[1]中的默認(rèn)參數(shù),IFRF算法采用20個(gè)特征值,IID算法中將圖像的波段分給成相鄰的4個(gè)子集。
表2為5種圖像分類(lèi)算法對(duì)圖像分類(lèi)后的總體精度比較,表中加粗的為在S取不同的值時(shí)各種方法的最優(yōu)值,可見(jiàn)在S取不同值時(shí),本文的MLP均優(yōu)于其他分類(lèi)算法。
表3 4種圖像分類(lèi)算法對(duì)于Indian Pines的AVIRIS數(shù)據(jù)的分類(lèi)精度Tab.3 Classification accuracies of four image classified algorithms for the AVIRIS data of Indian Pines
表3展示出五種算法對(duì)圖像分類(lèi)的平均精度(AA)。每個(gè)類(lèi)取15個(gè)已標(biāo)記樣本。由表3可以得出,本文的MLP能夠得到較高的AA,分別比EPF、IFRF和IID提高10.38%、9.32%和3.48%;而且MLP在許多地物的分類(lèi)精度上也優(yōu)于其他圖像分類(lèi)算法,尤其是在Corn-min till、Soybeans-clean till和Bldg-Grass-Tree-Drives等地物中分類(lèi)精度更為突出。與目前圖像分類(lèi)效果最好的IID算法相比,MLP在Stone-steel towers、Alfalfa等地物中分類(lèi)精度接近于IID算法;而在Corn-min till、Grass/pasture、Oats等地物中,MLP算法的分類(lèi)效果要優(yōu)于IID算法。
圖4 不同圖像分類(lèi)算法對(duì)Indian Pines的AVIRIS數(shù)據(jù)分類(lèi)性能的比較Fig.4 Comparison of the image classification algorithms for the AVIRIS data of Indian Pines
圖4(a)是地物覆蓋參考圖,圖4(b)-(f)分別是SVM、EPF、IFRF、LP和MLP的地物分類(lèi)圖??梢钥闯觯簣D4(f)最接近地物覆蓋參考圖4(a),MLP分類(lèi)效果最好。
本文提出的改進(jìn)的標(biāo)簽傳播算法(MLP),通過(guò)對(duì)圖像進(jìn)行融合及迭代濾波提高圖像質(zhì)量,然后通過(guò)添加閾值篩選標(biāo)簽傳播算法產(chǎn)生的未標(biāo)記樣本增加標(biāo)記樣本的可信度,最后用標(biāo)記樣本和已篩選的未標(biāo)記樣本訓(xùn)練SVM進(jìn)行遙感圖像分類(lèi)。
為了評(píng)估MLP的分類(lèi)性能,本文使用Indian Pines的AVIRIS數(shù)據(jù)集對(duì)SVM,EPF,IFRF,IID和LP的分類(lèi)結(jié)果進(jìn)行比較,由實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),MLP能夠受到不同閾值參數(shù)的影響,閾值的合理設(shè)置可以顯著提高圖像分類(lèi)精度。在已標(biāo)記樣本數(shù)量不變的情況下能夠明顯提高高光譜圖像的總體精度。
本文提出的一種改進(jìn)的標(biāo)簽傳播算法盡管能在稀少樣本的情況下獲得較高的分類(lèi)精度,但對(duì)于閾值的設(shè)置是通過(guò)實(shí)驗(yàn)獲得的,沒(méi)有形式化的表示出來(lái),閾值的設(shè)置問(wèn)題將會(huì)是以后研究的重點(diǎn),改進(jìn)的標(biāo)簽傳播算法是否能夠應(yīng)用到其他高光譜應(yīng)用中還有待進(jìn)行深入研究。
[1]KANG X D,LI S T,ATLI J.Spectral-spatial hyperspectral image classification with edge-preserving filtering[J].IEEE Transactions on Geoscience and Remote Sensing,2014,52(5):2666-2677.
[2]KANG X D,LI S T,FANG L Y,et al.Intrinsic image decomposition for feature extraction of hyperspectral images[J].IEEE Transactions on Geoscience and Remote Sensing,2015,53(4):2241-2253.
[3]MELGANI F,BRUZZONE L.Classification of hyperspectral remote sensing images with support vector machines[J].IEEE Transactions on Geoscience and Remote Sensing,2004,42(8):1778-1790.
[4]BOVOLO F,BRUZZONE L,CARLINE L.A novel technique for subpixel image classification based on support vection machine[J].IEEE Transactions on Image Processing,2010,19(11):2983-2999.
[5]KANG X D,LI S T,FANG L Y,et al.Extended random walker-based classification of hyperspectral Images[J].IEEE Transactions on Geoscience and Remote Sensing,2015,53(1):144-153.
[6]LI U J,DIAS B,PLAZA J M,et al.Semi-supervised hyperspectral image classification using soft sparse multinomial logistic regression[J].IEEE Transactions on Geoscience and Remote Sensing,2013,10(2):318-322.
[7]YANG L,YANG S,JIN P,et al.Semi-supervised hyperspectral image classification using spatio-spectral laplacian support vector machine[J].IEEE Transactions on Geoscience and Remote Sensing,2014,11(3):651-655.
[8]SHAHSHAHANI,B.M.,LANDGREBED.The effect of unlabeled samples in reducing the small sample size problem and mitigating the Hughes phenomenon[J].IEEE Transactions on Geoscience and Remote Sensing,1994,32(5):1087-1095.
[9]WANG L G,HAO S Y,WANG Q M,et al.Semi-supervised classification for hyperspectral imagery based on spatial-spectral label propagation[J].ISPRS Journal of Photogrammetry and Remote Sensing,2014,97(1):123-137.
[10]CAMPS-VALLS G,V.BANDOS T,ZHOU D Y.Semi-supervised graph-based hyperspectral image classification[J].IEEE Transactions on Geoscience and Remote Sensing,2007,45(10):3044-3054.
[11]KANG X D,LI S T,ATLI J.Feature extraction of hyperspectral images with image fusion and recursive filtering[J].IEEE Transactions on Geoscience and Remote Sensing,2014,52(6):3742-3752.
[12]HUGHESU G,GORDON P.On the mean accuracy of statistical pattern recognizers[J].IEEE Transactions on Information Theory,1968,14(1):55-63
[13]LI J,DIAS B,PLAZA A,et al.Spectral-spatial hyperspectral image segmentation using subspace multinomial logistic regression and markovrandom fields[J].IEEE Transactions on Geoscience and Remote Sensing,2012,50(3):809-823.
(責(zé)任編輯:傅 游)
Semi-supervised Classification of Hyperspectral Images Based on Modified Label Propagation Algorithm
CUI Binge, WU Zibin, QIN Xuechuan, MA Xiudan
(College of Computer Science and Engineering, Shandong University of Science and Technology, Qingdao, Shandong 266590, China)
To solve the lack of evaluation of the label propagation algorithm for new samples which further affects the classification accuracy, this paper proposed a new label propagation algorithm about the threshold to improve the classification accuracy of hyperspectral images. First of all, the original hyperspectral images were processed with the method of feature extraction based on image fusion and recursive filtering. Then a threshold was given and the new samples produced by label propagation algorithm were evaluated. Some samples with higher credibility were kept. Finally, with the newly-kept samples and tagged samples as the training samples, the images were classified. Experimental results show that the modified label propagation algorithm is better than other hyperspectral image classification algorithms.
label propagation; hyperspectral image; threshold value method; recursive filtering
2016-06-09
國(guó)家自然科學(xué)基金青年基金項(xiàng)目(41406200);山東省自然科學(xué)基金青年基金項(xiàng)目(ZR2014DQ030)
崔賓閣(1979—),男,山東煙臺(tái)人,副教授,碩士生導(dǎo)師,主要從事機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、人工智能、模式識(shí)別、遙感圖像處理、大數(shù)據(jù)和云計(jì)算研究. 吳子賓(1990—),男,山東聊城人,碩士研究生,主要從事高光譜遙感圖像分類(lèi)的研究,本文通信作者. E-mail:568690239@qq.com
TP75
A
1672-3767(2016)06-0101-07