阿茹罕, 何芳, 王標(biāo)標(biāo)
(1.西安培華學(xué)院會(huì)計(jì)與金融學(xué)院,西安 710065; 2.火箭軍工程大學(xué)核工程學(xué)院,西安 710025; 3.96862部隊(duì),洛陽 471003)
高光譜圖像是由成像光譜儀獲取的遙感圖像,在農(nóng)業(yè)研究、海洋監(jiān)測和情報(bào)偵察等領(lǐng)域[1-3]應(yīng)用較為廣泛。高光譜圖像較高的光譜維數(shù)和光譜分辨率為地物的精細(xì)分類帶來了巨大的機(jī)遇[4-5],但是,數(shù)據(jù)量的急劇膨脹也給傳統(tǒng)的分類識(shí)別算法提出了新的要求[6-8]。
隨著光譜分辨率的提升,其相鄰波段間的冗余性增強(qiáng)[9],嚴(yán)重影響了傳統(tǒng)高光譜圖像分類算法精度的提高。在訓(xùn)練樣本有限的情況下,高光譜圖像分類處理過程中還會(huì)遇到“維數(shù)災(zāi)難(curses of dimensionality)”現(xiàn)象[10],即隨著維數(shù)的增加,高光譜圖像分類精度會(huì)出現(xiàn)先升高后降低的現(xiàn)象。采用合適的降維方法將高維數(shù)據(jù)映射到低維空間,可以保留數(shù)據(jù)中的有用信息,摒棄其中的無用信息,從而減少數(shù)據(jù)量,避免維數(shù)災(zāi)難[1],提高分類精度[11-12]。
根據(jù)映射方法的不同,降維可以分為線性映射和非線性映射。線性映射的代表有: 線性判別分析(linear discriminant analysis,LDA)[13]和主成分分析(principle component analysis,PCA)[14-15]。非線性映射方法有: 局部保持投影(locality preserving projection,LPP)[16]和局部切空間排列(local tangent space alignment,LTSA)[17]等。
對(duì)于高光譜圖像而言,其樣本的分布在空間上具有連續(xù)性,僅僅基于光譜相似性的降維在很大程度上會(huì)使后續(xù)的分類性能下降[11]。引入空間信息可以有效抑制椒鹽噪聲的出現(xiàn),提高圖像分類精度,獲得空間連續(xù)性較好的分類圖像。因此,在對(duì)高光譜圖像進(jìn)行預(yù)處理時(shí),應(yīng)該結(jié)合高光譜的空間結(jié)構(gòu)特性,充分考慮高光譜圖像像元間在空間上的分布特性?;诖耍疚奶岢黾訖?quán)空-譜主成分分析(weighted spatial spectral principle component analysis,WSSPCA)算法。
加權(quán)空-譜算法可以平滑高光譜圖像,而PCA是經(jīng)典的降維算法,具有快速高效的特點(diǎn),將二者有效結(jié)合可以實(shí)現(xiàn)高光譜圖像的降維,有效提高分類精度。
在高光譜圖像中,設(shè)像元點(diǎn)xi的空間坐標(biāo)為(pi,qi),因此,該像元點(diǎn)xi的近鄰空間可以用表達(dá)式定義為
N(xi)={x=(p,q)},p∈[pi-a,pi+a],q∈[qi-a,qi+a],
(1)
a=(w-1)/2,
(2)
式中w表示xi的近鄰窗口的寬度,為奇數(shù)。近鄰空間N(xi)中的像元點(diǎn)可以定義為xi,xi1,xi2,...,xis,s為xi近鄰點(diǎn)的個(gè)數(shù),即s=w2-1。
采用加權(quán)空-譜算法對(duì)像元點(diǎn)xi進(jìn)行重構(gòu),即
(3)
νk=exp(-γ0‖xi-xik‖2),
(4)
式中:νk為近鄰空間N(xi)中任一像元xik到中心像元xi的權(quán)重,其中參數(shù)γ0為光譜因子[18],若2個(gè)像元間的光譜曲線越接近,則權(quán)重越大。
該算法通過近鄰窗口尺度w來調(diào)節(jié)近鄰空間大小,引入空間特征; 同時(shí),通過γ0調(diào)節(jié)像元的光譜值,調(diào)整像元間的相互影響程度,引入光譜特征。
采用圖1方法對(duì)位于圖像邊緣或角落的像元進(jìn)行預(yù)處理。圖1中,高光譜圖像中的一個(gè)像元用一個(gè)正方形格子代表,中心像元用淺灰色格子表示,相應(yīng)的填補(bǔ)方式用深灰色格子表示。用與其近鄰的像元點(diǎn)填補(bǔ)位于邊緣或角落位置的像元點(diǎn)[19]。
(a) 正常位置 (b) 邊緣位置 (c) 角落位置
PCA作為一種有效的特征提取方法,應(yīng)用于高光譜圖像處理中可以降低高光譜圖像數(shù)據(jù)間的冗余性,保留數(shù)據(jù)的主要成分,減小計(jì)算量[17]。WSSPCA算法綜合了高光譜圖像的空間信息和光譜信息后進(jìn)行降維,可以大大提高高光譜圖像的分類精度。
(5)
(6)
因此,S的特征值λ和特征向量ξi為
Sξi=λξi,(i=1,2,…,n)。
(7)
從中選取k個(gè)主成分分量構(gòu)成高光譜圖像的特征空間{u1,u2,...,uk},將重構(gòu)后的數(shù)據(jù)投影到此特征空間中,即
(8)
對(duì)投影后得到的數(shù)據(jù)y采用最近鄰分類器進(jìn)行分類并計(jì)算分類精度評(píng)價(jià)指標(biāo)。
基于WSSPCA算法進(jìn)行分類的具體步驟如下。
輸入: 高光譜圖像數(shù)據(jù)X={x1,…,xn}T,X∈Rn×d,參數(shù)w和γ0。
步驟1: 根據(jù)式(1)確定高光譜圖像X的近鄰空間;
輸出: 總體分類精度、平均分類精度和Kappa系數(shù)。
本文選擇PaviaU[20]和Indian Pines[7]圖像數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證。
PaviaU數(shù)據(jù)集是由ROSIS傳感器拍攝Pavia大學(xué)得到的高光譜圖像。去除12個(gè)噪聲影響最大的波段,剩余103個(gè)波段,每個(gè)波段包括610×340個(gè)像元點(diǎn),具有9個(gè)類別的地物,圖2(a)為PaviaU的B50(R),B27(G)和B17(B)假彩色合成圖像,圖2(b)為該數(shù)據(jù)地面真實(shí)地物類型及相應(yīng)的圖例。Indian Pines數(shù)據(jù)集是由AVIRIS傳感器獲取的,覆蓋美國印第安納州的一塊印度松樹地。去除水汽吸收及噪聲波段剩下200個(gè)波段,每個(gè)波段包含145×145個(gè)像元點(diǎn),具有16類不同類型地物,去除背景后剩下10 249個(gè)樣本點(diǎn)。圖2(c)為Indian Pines的B50(R),B27(G)和B17(B)假彩色合成圖像,圖2(d)為該數(shù)據(jù)地面真實(shí)地物類型及相應(yīng)的圖例。圖例括號(hào)內(nèi)為樣本數(shù)。
(a) PaviaU假彩色圖像 (b) PaviaU對(duì)應(yīng)地物類型
(c) Indian Pines假彩色圖像(d) Indian Pines對(duì)應(yīng)地物類型
本文將所提的WSSPCA算法與經(jīng)典的降維算法PCA,LPP以及不做降維處理直接進(jìn)行分類的結(jié)果進(jìn)行對(duì)比。對(duì)降維后的數(shù)據(jù)采用最近鄰分類器進(jìn)行分類。其中,直接采用最近鄰分類器得到的結(jié)果作為基準(zhǔn)線。采用實(shí)驗(yàn)分析的方法選取WSSPCA的參數(shù)w和γ0,LPP的權(quán)重矩陣T采用熱核法進(jìn)行構(gòu)造,即
(9)
式中σ為熱核參數(shù)。
本文所用高光譜圖像的分類精度評(píng)價(jià)指標(biāo)有: 總體精度(overall accuracy,OA),即被正確分類的像元總和除以總像元數(shù); 平均精度(average accuracy,AA)指對(duì)所有地物完成分類后計(jì)算出的分類精度平均值; Kappa系數(shù)衡量分類結(jié)果的總體指標(biāo)。這3個(gè)指標(biāo)越高,則所用方法對(duì)高光譜圖像的分類性能越好[6,12]。
選取PaviaU數(shù)據(jù)集中每一類樣本數(shù)量的5%作為訓(xùn)練樣本,其余的樣本作為測試樣本。采用實(shí)驗(yàn)分析的方法選取PaviaU數(shù)據(jù)集的參數(shù)。從圖3中可知,在PaviaU數(shù)據(jù)集上的最佳參數(shù)為:w=15,γ0=2.0。
(a) 近鄰窗口尺度與分類精度 (b) 光譜因子與分類精度
將每種算法重復(fù)進(jìn)行10次分類實(shí)驗(yàn)求其平均。各種算法在不同低維子空間中的分類精度如圖4所示。在訓(xùn)練樣本相同的情況下,由不同算法得到的最高分類精度評(píng)價(jià)指標(biāo)和所在低維子空間的維數(shù)如表1所示。
(a) AA與維數(shù)(b) OA與維數(shù) (c) Kappa系數(shù)與維數(shù)
表1 在PaviaU數(shù)據(jù)集上由各種算法得到的最高評(píng)價(jià)指標(biāo)及其對(duì)應(yīng)的維數(shù)
由圖4和表1可知,由WSSPCA算法得到的分類效果最好。其中,WSSPCA算法得到的OA最大值為96.69%,超出了基準(zhǔn)線14.36%; Kappa系數(shù)最大值為0.955 9,超出了基準(zhǔn)線0.193 8,而由PCA和LPP算法得到的分類結(jié)果均與基準(zhǔn)線水平相近。圖5顯示了PaviaU數(shù)據(jù)庫的訓(xùn)練樣本、測試樣本以及不做降維處理、采用PCA,LPP和WSSPCA算法得到的Kappa系數(shù)最大時(shí)對(duì)應(yīng)的分類結(jié)果。
(a) 訓(xùn)練樣本 (b) 測試樣本(c) 基準(zhǔn)線
(d) PCA (e) LPP (f) WSSPCA
在Indian Pines數(shù)據(jù)集上,隨機(jī)選取每類樣本的10%作為訓(xùn)練樣本,剩下的樣本作為測試樣本。同樣采用實(shí)驗(yàn)分析的方法選取WSSPCA算法中涉及到的2個(gè)主要參數(shù)。由圖6可知,在Indian Pines數(shù)據(jù)集上,最佳參數(shù)設(shè)置為:w=9,γ0=1.0。
(a) 近鄰窗口尺度與分類精度 (b) 光譜因子與分類精度
為比較各個(gè)算法的性能,實(shí)驗(yàn)中,隨機(jī)選取每類地物樣本的10%作為訓(xùn)練樣本,當(dāng)某類樣本數(shù)小于100時(shí)則隨機(jī)選取該類中的10個(gè)樣本作為訓(xùn)練樣本,其余樣本作為測試樣本。每種算法重復(fù)進(jìn)行10次求平均值。為對(duì)比分析不同算法在不同維數(shù)下的分類效果,圖7給出了在不同算法下AA,OA和Kappa系數(shù)與前100維低維子空間維數(shù)的關(guān)系。表2給出了不同算法在訓(xùn)練樣本數(shù)相同的情況下最高分類精度評(píng)價(jià)指標(biāo)和所在低維子空間的維數(shù)。
(a) AA與維數(shù) (b) OA與維數(shù) (c) Kappa系數(shù)與維數(shù)
表2 在Indian Pines數(shù)據(jù)集上由各種算法得到的最高評(píng)價(jià)指標(biāo)及其對(duì)應(yīng)的維數(shù)
由圖7可知,由WSSPCA算法得到的分類結(jié)果明顯優(yōu)于PCA和LPP算法,由WSSPCA算法得到的分類精度最大值能夠遠(yuǎn)遠(yuǎn)超出基準(zhǔn)線,而由PCA和LPP算法得到的結(jié)果近似于基準(zhǔn)線水平。這是因?yàn)閃SSPCA算法有效利用了高光譜圖像的空間和光譜信息,從而提高了分類精度。由表2可知,WSSPCA算法作為一種新型的空-譜聯(lián)合降維算法,在訓(xùn)練樣本相同的情況下,該算法的性能明顯優(yōu)于PCA和LPP算法。由WSSPCA算法得到的OA最大值為90.90%,超出了基準(zhǔn)線17.93%。Kappa系數(shù)最大值為0.896 1,超出了基準(zhǔn)線0.205 0。本文提出的WSSPCA算法使數(shù)據(jù)的可分性增強(qiáng),分類效果較好。
圖8顯示了Indian Pines數(shù)據(jù)集的訓(xùn)練樣本、測試樣本以及不做降維處理、采用PCA,LPP和WSSPCA算法得到的Kappa系數(shù)最大時(shí)對(duì)應(yīng)的分類結(jié)果,從圖中可以看出由WSSPCA算法得到的分類結(jié)果更加平滑。
(a) 訓(xùn)練樣本 (b) 測試樣本 (c) 基準(zhǔn)線
(d) PCA (e) LPP (f) WSSPCA
本文提出了一種新的加權(quán)空-譜主成分分析(WSSPCA)降維算法,該算法不僅有效消除了高光譜圖像中奇異點(diǎn)的干擾,而且減少了波段間的冗余信息,從而提高了高光譜圖像的分類精度。通過在PaviaU和Indian Pines數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了WSSPCA算法的優(yōu)越性。