曲海成, 郭月, 王媛媛
(遼寧工程技術(shù)大學(xué)軟件學(xué)院,葫蘆島 125105)
隨著高光譜遙感技術(shù)迅速發(fā)展,成像光譜儀能夠捕獲地表物質(zhì)精準(zhǔn)的光譜響應(yīng)和空間細(xì)節(jié)特征。通過(guò)有效分析與利用豐富的地表物質(zhì)信息,可對(duì)遙感地物進(jìn)行更細(xì)致的分類[1]。然而,高光譜圖像中豐富的光譜信息意味著其波段數(shù)量(維數(shù))較多,波段間信息冗余和高度相關(guān)不可避免。另外,由于高光譜圖像標(biāo)記樣本成本昂貴,分類所用的訓(xùn)練樣本數(shù)量有限且維數(shù)較高,如果直接對(duì)高光譜圖像數(shù)據(jù)集進(jìn)行分類,易發(fā)生Huges現(xiàn)象[2-3]。因此,降維處理通常作為高光譜圖像分類的預(yù)處理環(huán)節(jié)。高光譜圖像降維方法通常分為特征提取和波段選擇2大類。特征提取方法是以數(shù)據(jù)變換的形式實(shí)現(xiàn)對(duì)光譜數(shù)據(jù)的降維(如主成分分析、獨(dú)立成分分析)。而波段選擇(也稱特征選擇)則是直接從原始高光譜數(shù)據(jù)上百個(gè)波段中挑選出有效且有意義的波段子集。與特征提取方法相比,波段選擇方法選取的波段子集,保留了原始波段的物理意義與地表物質(zhì)的原始光譜特性,易于解釋[4]。
波段選擇方法根據(jù)是否需要樣本標(biāo)記信息可分為監(jiān)督和無(wú)監(jiān)督2大類。監(jiān)督波段選擇方法需要已知的樣本標(biāo)記信息進(jìn)行訓(xùn)練學(xué)習(xí),可明確地選擇含有地物重要信息的波段,如光譜角度制圖法、光譜混合距離法和光譜相關(guān)系數(shù)法等。然而在實(shí)際應(yīng)用中,高光譜圖像可用的標(biāo)記樣本信息有限,因此,在這種情況下無(wú)監(jiān)督波段選擇方法更適用[5-6]。由于不需要樣本標(biāo)記信息,無(wú)監(jiān)督波段選擇方法通常基于聚類的方式對(duì)高光譜圖像進(jìn)行波段選擇。在眾多聚類算法中,優(yōu)勢(shì)集聚類算法[7-13]是由優(yōu)勢(shì)集理論[10]產(chǎn)生的一種基于圖論的聚類算法,在各領(lǐng)域應(yīng)用中展現(xiàn)出良好的聚類性能,如圖像分割[11]、目標(biāo)檢測(cè)[12]和人類活動(dòng)分析[13]等。Hou等[8]提出基于優(yōu)勢(shì)集的簡(jiǎn)單特征組合方法,該方法利用優(yōu)勢(shì)集聚類對(duì)支持向量機(jī)分類器中核矩陣進(jìn)行加權(quán)處理,有效提升了分類器泛化能力。而傳統(tǒng)的無(wú)監(jiān)督波段選擇方法通常根據(jù)圖像的原始光譜信息來(lái)選擇最優(yōu)波段子集,并且以不同的統(tǒng)計(jì)方法測(cè)量波段的信息量和差異程度。高光譜圖像是一個(gè)三維立方體,具有豐富的結(jié)構(gòu)信息,有意義的結(jié)構(gòu)信息利用是有效的。為此,Zhu等[9]提出了基于優(yōu)勢(shì)集聚類的波段選擇方法,該方法先利用局部空間信息和譜間信息(簡(jiǎn)稱空譜)一致性分析圖像結(jié)構(gòu)信息,完成對(duì)波段信息量和差異程度的度量,再利用優(yōu)勢(shì)集聚類完成波段選擇,最后與多種分類器相結(jié)合對(duì)圖像進(jìn)行分類,均獲得了較好的結(jié)果。因此,本文選擇基于優(yōu)勢(shì)集聚類的波段選擇方法作為高光譜圖像分類應(yīng)用的預(yù)處理方法,實(shí)現(xiàn)數(shù)據(jù)特征提取和特征降維。
高光譜圖像分類通常分為特征降維和分類器設(shè)計(jì)2個(gè)方面,傳統(tǒng)分類器通?;诠庾V信息進(jìn)行分類,如支持向量機(jī)、K最近鄰和隨機(jī)森林等。由于受光照等外在因素的影響,成像光譜儀所獲取的高光譜遙感影像往往存在“同物異譜”和“異物同譜”現(xiàn)象[14],僅依靠光譜信息進(jìn)行分類很容易出現(xiàn)錯(cuò)分,產(chǎn)生“椒鹽”現(xiàn)象。為此,基于馬爾科夫隨機(jī)場(chǎng)的分類后處理方法[15-17]利用相鄰像元標(biāo)簽的局部空譜一致性將像元分類與圖像分割方法統(tǒng)一起來(lái),將光譜與空間信息以組合的形式綜合利用圖像上下文信息,已被廣泛應(yīng)用于高光譜圖像分類。鮑蕊等[18]提出綜合聚類和上下文特征的高光譜圖像分類方法,該方法將聚類信息與隱馬爾科夫隨機(jī)場(chǎng)模型相結(jié)合獲取圖像的空間信息并對(duì)圖像進(jìn)行分類,實(shí)驗(yàn)證明該方法有效彌補(bǔ)了單純基于光譜信息進(jìn)行圖像分類的不足。
綜上所述,為有效利用高光譜圖像局部空譜一致性分析獲取的空間信息,本文將基于優(yōu)勢(shì)集聚類波段選擇方法與基于馬爾科夫隨機(jī)場(chǎng)的分類后處理方法相結(jié)合,提出基于優(yōu)勢(shì)集聚類和馬爾科夫隨機(jī)場(chǎng)的高光譜圖像分類算法(dominant sets clustering and Markov random fields,DSSM)。
選取基于優(yōu)勢(shì)集聚類的波段選擇算法[9]作為高光譜數(shù)據(jù)的特征降維預(yù)處理方法。該算法主要分為2個(gè)部分: ①結(jié)構(gòu)感知度量,在結(jié)構(gòu)信息提取的基礎(chǔ)上進(jìn)行波段信息量和差異程度度量; ②圖形表示和優(yōu)化,利用優(yōu)勢(shì)集聚類算法將波段選擇問(wèn)題轉(zhuǎn)化為圖形表示,選擇出特征差異最大的波段子集。
高光譜圖像波段選擇的第一步通常是直接對(duì)波段進(jìn)行信息量和差異程度2方面的度量,忽視了高光譜立方體空間結(jié)構(gòu)信息的利用,而結(jié)構(gòu)上有意義的信息對(duì)波段選擇度量才是有利的。為此,通過(guò)局部空譜一致性分析,利用高光譜圖像自身結(jié)構(gòu)信息,完成對(duì)波段信息量和差異程度的度量。為簡(jiǎn)化計(jì)算,在對(duì)高光譜數(shù)據(jù)進(jìn)行局部空譜一致性分析之前需要先進(jìn)行歸一化預(yù)處理。具體算法描述如下:
(1)
(2)
(3)
式中:Hl(i,j)表示高光譜圖像第l波段對(duì)應(yīng)的圖像中坐標(biāo)為(i,j)的像元樣本值;dx(i,j,l),dy(i,j,l)和dz(i,j,l)分別表示該像元樣本的水平,垂直和光譜梯度值。然后,將Hl生成的梯度圖進(jìn)行二值化表示,即
(4)
將二值化后的結(jié)果制定一個(gè)局部空譜一致性的判別函數(shù),即
(5)
式中⊕和 │ 分別表示布爾運(yùn)算中異或(XOR)和或(OR)操作。若Dl(i,j)=0,則表示局部空譜一致; 否則為局部空譜不一致。
(6)
(7)
式中:dl為Dl的矢量轉(zhuǎn)換;γ為調(diào)整參數(shù),一般實(shí)驗(yàn)設(shè)為0.5。這個(gè)定義產(chǎn)生一個(gè)對(duì)稱的差異性矩陣L=(lk),且lk=kl。由于每個(gè)波段都是自相關(guān)的,因此L的主對(duì)角線上的元素被約束為0。
通過(guò)高光譜圖像的結(jié)構(gòu)分析完成了對(duì)波段信息量和獨(dú)立程度的度量,下一步則是最優(yōu)波段子集的篩選,利用優(yōu)勢(shì)集聚類方法將波段選擇問(wèn)題轉(zhuǎn)化為圖形表示,完成波段選擇。
具體來(lái)講,先構(gòu)造無(wú)向加權(quán)圖G=(V,E,f,g),其中V={1,…,N}為N個(gè)光譜波段的頂點(diǎn)集合,E?V×V為邊緣集。根據(jù)上述波段信息量和差異程度的度量公式,圖G的頂點(diǎn)集和邊緣集的權(quán)重函數(shù)分別定義為f(l)=θl和g(l,k)=lk。
假定S?V為非空頂點(diǎn)子集,l∈S且k?S。波段l關(guān)于波段k的內(nèi)部相關(guān)性可表示為
(8)
波段l與k的外部相關(guān)性定義為
(9)
然后,對(duì)于頂點(diǎn)集S,波段l的權(quán)值可用遞歸形式表示為
(10)
式中:S{l}為除去波段l的集合;wS(l)為l與在S{l}中的頂點(diǎn)之間相關(guān)整體連接的度量。
頂點(diǎn)集S的內(nèi)部總權(quán)值為
(11)
根據(jù)優(yōu)勢(shì)集的定理[10],優(yōu)勢(shì)集的求解問(wèn)題可轉(zhuǎn)化為二次規(guī)劃問(wèn)題,即
(12)
式中: 關(guān)系矩陣A=YLY;Y=diag(Θ),Θ=(θl,…,θN);Δ={z∈RN: (z≥0)∧(eTz=1)}。
二次規(guī)劃問(wèn)題通常可由復(fù)制動(dòng)態(tài)方程來(lái)求解,即
(13)
式中t為迭代次數(shù),該方程可保證約束條件Δ在動(dòng)態(tài)下是不變的。
由上文可知,基于優(yōu)勢(shì)集聚類的波段選擇方法通過(guò)分析高光譜圖像局部空譜一致性,將空間信息引入波段信息量和差異程度的度量,再利用優(yōu)勢(shì)集聚類從全局角度完成波段選擇,最終獲取的最優(yōu)波段子集保留原始數(shù)據(jù)有意義的空間信息。為了有效利用波段選擇后高光譜圖像的空間信息,結(jié)合基于馬爾科夫隨機(jī)場(chǎng)分類后處理方法,將獲取的波段子集作為概率支持向量機(jī)(probabilistic support vector machine,PSVM)的輸入特征進(jìn)行分類,再將獲得的分類圖應(yīng)用馬爾科夫隨機(jī)場(chǎng)通過(guò)圖像局部空譜一致性分析利用空間信息進(jìn)行優(yōu)化處理,從而高效完成高光譜圖像分類。
圖像分類的目的實(shí)質(zhì)是對(duì)圖像進(jìn)行標(biāo)記,即在觀察x時(shí)估計(jì)y。根據(jù)Bayes準(zhǔn)則,即
(14)
式中:P(y)表示在標(biāo)簽上y的先驗(yàn)概率;P(x)為觀測(cè)x所給定的,即其為一個(gè)常量;P(x|y)為給定標(biāo)簽y來(lái)觀測(cè)數(shù)據(jù)x的條件概率(即似然函數(shù))。因此有
P(y|x)∝P(x|y)P(y)。
(15)
可將式(14)的條件概率求解問(wèn)題轉(zhuǎn)化成通過(guò)最大化后驗(yàn)分布對(duì)觀測(cè)x的估計(jì),即對(duì)MAP(maximum a posterior)的估計(jì)。
因此,通過(guò)最大化后驗(yàn)分布可以給出分類結(jié)果,表達(dá)式為
(16)
式中:M表示圖像中含有像元總個(gè)數(shù);P(yi|xi)可以使用PSVM進(jìn)行建模獲取;P(y)通過(guò)利用相鄰像元局部相關(guān)性的馬爾可夫隨機(jī)場(chǎng)建模得到。P(y)的表達(dá)式為
(17)
式中:C為歸一化參數(shù);W(yi,yj)表示相鄰像元i和j之間的空間相關(guān)性函數(shù);Me為相鄰像元的集合(本文采用8鄰域)。為了計(jì)算函數(shù)W(yi,yj),采取Potts模型[17]求解,即
W(yi,yj)=β[1-δ(yi,yj)],
(18)
W(yi,yj)=β[1-δ(yi,yj)]exp[-d(xi,xj)] ,
(19)
(20)
(21)
式中d(xi,xj)表示xi和xj之間的差異。Wij較大,表示xi和xj為不同類別邊緣的相鄰像元,在模型優(yōu)化后,yi和yj采用不同的標(biāo)簽; 而Wij較小,表示xi和xj為同類別區(qū)域內(nèi)的相鄰像元,模型優(yōu)化后,yi和yj采用相同的類標(biāo)簽。
然后,基于P(yi|xi)和P(y),最終給出MAP結(jié)果為
(22)
最終,標(biāo)簽結(jié)果可以通過(guò)最小化式(22)由有效的基于圖切割擴(kuò)展算法[19]求解獲得。
DSSM算法首先通過(guò)基于優(yōu)勢(shì)集波段選擇算法對(duì)歸一化處理后的高光譜數(shù)據(jù)實(shí)現(xiàn)特征提?。?再將獲取的特征應(yīng)用PSVM進(jìn)行分類; 最后,利用馬爾科夫隨機(jī)場(chǎng)分類后處理方法將分類問(wèn)題轉(zhuǎn)化為最大后驗(yàn)概率的求解問(wèn)題,從而實(shí)現(xiàn)高光譜圖像的分類。DSSM算法流程如圖1所示。
圖1 DSSM算法流程
DSSM算法具體實(shí)現(xiàn)過(guò)程如下。
輸入: 高光譜數(shù)據(jù)X∈RH×W×N,類別個(gè)數(shù)為K,其中H和W分別為高光譜數(shù)據(jù)的空間維度的長(zhǎng)度和寬度,N為光譜維度上的波段數(shù)。
步驟6: 將P(y|x)和P(y)進(jìn)行MAP處理,利用基于圖切割擴(kuò)展算法求解MAP判別函數(shù)。
輸出: 分類結(jié)果。
選用Indian Pines與Pavia University高光譜遙感影像作為實(shí)驗(yàn)的數(shù)據(jù)集,檢驗(yàn)算法性能。
1)Indian Pines數(shù)據(jù)集: 該數(shù)據(jù)集是由AVIRIS傳感器獲取的覆蓋印第安納州西北部某農(nóng)業(yè)區(qū)域的高光譜遙感影像。該圖像大小為145像素×145像素,空間分辨率為20 m,光譜范圍從0.4~2.5 μm,含有16種地物類別; 去除大氣水分和信噪比低的波段,剩余200個(gè)波段。該數(shù)據(jù)集的真實(shí)地物標(biāo)記信息如表1所示。
表1 Indian Pines數(shù)據(jù)集的真實(shí)地物類別標(biāo)記信息
2)Pavia University數(shù)據(jù)集: 該數(shù)據(jù)集是由ROSIS傳感器采集覆蓋Pavia大學(xué)區(qū)域的高光譜遙感影像,圖像大小為610像素×340像素,空間分辨率為1.3 m,光譜范圍0.43~0.86 μm,含有9種地物類別; 去除大氣水分和信噪比低的波段,剩余103個(gè)波段。該數(shù)據(jù)集的真實(shí)地物標(biāo)記信息如表2所示。
表2 Pavia University數(shù)據(jù)集的真實(shí)地物類別標(biāo)記信息
為驗(yàn)證算法有效性,DSSM算法與單獨(dú)使用SVM算法、優(yōu)勢(shì)集聚類與SVM結(jié)合的算法(DS-SVM)、優(yōu)勢(shì)集聚類與K最近鄰結(jié)合的算法(DS-KNN)、優(yōu)勢(shì)集聚類與隨機(jī)森林結(jié)合的算法(DS-RT)進(jìn)行對(duì)照實(shí)驗(yàn)。由于SVM算法在小樣本下有著良好分類性能,因此,為了驗(yàn)證本文提出的算法在小樣本下的有效性,本文分別在Indian Pines和Pavia University這2組數(shù)據(jù)集中隨機(jī)選取10%作為訓(xùn)練樣本,剩下的90%則作為測(cè)試樣本進(jìn)行實(shí)驗(yàn),所有實(shí)驗(yàn)重復(fù)運(yùn)行20次,將20次的分類精度均值作為實(shí)驗(yàn)結(jié)果?;赟VM分類的算法,都采用高斯徑向基核函數(shù)(Gaussian radial basis function,RBF),在(γ=2-5,2-4,…,25,c=2-5,2-4,…,25)范圍內(nèi)經(jīng)5次交叉驗(yàn)證選取核半徑參數(shù)和懲罰參數(shù)。
為驗(yàn)證算法的有效性,圖2為DSSM算法在Indian Pines和Pavia University這2組數(shù)據(jù)集中不同特征數(shù)下的總體分類精度(overall accuracy,OA)。
(a) Indian Pines數(shù)據(jù)集(b) Pavia University數(shù)據(jù)集
對(duì)于Indian Pines數(shù)據(jù)集,特征數(shù)達(dá)到60后,OA趨于平穩(wěn); 當(dāng)特征數(shù)達(dá)到100時(shí),OA最高為94.16%; 特征數(shù)從140增加到200時(shí),OA存在減小的趨勢(shì)。對(duì)于Pavia University數(shù)據(jù)集,特征數(shù)達(dá)到40后,OA趨于平穩(wěn)。較多的特征數(shù)意味著算法計(jì)算量的增加,因此,本文分別在Indian Pines和Pavia University這2組數(shù)據(jù)集選取的特征數(shù)量為60和40進(jìn)行實(shí)驗(yàn)。
為更進(jìn)一步驗(yàn)證DSSM算法的有效性,本文將DSSM與SVM,DS-SVM,DS-KNN和DS-RT這4種經(jīng)典算法進(jìn)行對(duì)照實(shí)驗(yàn)。為了直觀驗(yàn)證DSSM算法的有效性,圖3和圖4分別為在Indian Pines和Pavia University數(shù)據(jù)集上真實(shí)地物和不同算法的分類結(jié)果。不同算法分別在Indian Pines和Pavia University這2組數(shù)據(jù)集上的OA和Kappa系數(shù)如表3所示。
(a) 真實(shí)地物 (b) SVM算法 (c) DS-SVM算法
(d) DS-KNN算法 (e) DS-RF算法 (f) DSSM算法
(a) 真實(shí)地物 (b) SVM算法 (c) DS-SVM算法
(d) DS-KNN算法 (e) DS-RF算法 (f) DSSM算法
圖4 Pavia University數(shù)據(jù)集上不同算法的分類結(jié)果
從圖3和圖4均可直觀地看出,除DSSM算法,其他算法的分類結(jié)果都有著較嚴(yán)重的“椒鹽”現(xiàn)象和較多同類別地物內(nèi)部區(qū)域的錯(cuò)分點(diǎn),尤其是DS-KNN和DS-RT算法,而DSSM算法分類結(jié)果中僅具有較少的“椒鹽”現(xiàn)象和同類別地物內(nèi)部區(qū)域的錯(cuò)分點(diǎn),更接近于數(shù)據(jù)集的真實(shí)地物圖。從表3也可以看出,相對(duì)于其他4種經(jīng)典算法,本文提出的DSSM算法在Indian Pines和Pavia University這2組數(shù)據(jù)集中均獲得了較高的OA和Kappa系數(shù)。在Indian Pines數(shù)據(jù)集上,DSSM算法的OA比SVM算法大約提升了15%,比DS-SVM算法提升了大約10%,比DS-KNN和DS-RT算法提升的更多,分別提升了大約20%和22.5%,并且Kappa系數(shù)最高。在Pavia University數(shù)據(jù)集上,DSSM算法的OA比SVM算法大約提升了3.5%,比DS-SVM算法提升了大約6%,比DS-KNN和DS-RT算法提升的更多,分別提升了大約13%和12%,并且Kappa系數(shù)最高。由此可得,本文提出的DSSM算法有效利用高光譜圖像光譜和空間信息,改善了分類結(jié)果中的“椒鹽”現(xiàn)象,并減少了錯(cuò)分點(diǎn),有效提高了分類精度。
1)基于優(yōu)勢(shì)集聚類的波段選擇方法,可選擇出保留良好結(jié)構(gòu)信息的最優(yōu)波段子集。雖然將獲取的波段子集作為SVM算法的輸入特征,可有效提升總體分類精度,但是由于分類過(guò)程中忽視高光譜圖像空間信息的利用,造成分類結(jié)果存在較多“椒鹽”現(xiàn)象和錯(cuò)分點(diǎn)。
2)為有效利用基于優(yōu)勢(shì)集聚類方法選擇的保留良好空間信息的最優(yōu)波段子集,本文提出基于優(yōu)勢(shì)集聚類和馬爾科夫隨機(jī)場(chǎng)的高光譜圖像分類算法(DSSM)。該算法通過(guò)馬爾可夫隨機(jī)場(chǎng)對(duì)經(jīng)優(yōu)勢(shì)集聚類方法進(jìn)行波段選擇后的高光譜圖像相鄰像元建立局部空譜一致性,利用空間上下文信息修正初始分類結(jié)果,實(shí)現(xiàn)了高光譜圖像自身空間和光譜信息的有效挖掘與利用,進(jìn)一步提高了分類精度。
3)在Indian Pines和Pavia University這2組數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,相對(duì)于現(xiàn)有的幾種經(jīng)典算法,本文提出的DSSM算法有效改善分類識(shí)別結(jié)果中的“椒鹽”現(xiàn)象和錯(cuò)分點(diǎn),并且在總體分類精度上有著明顯提升。