龔 渝,趙圣璞,徐俊潔,趙慧敏
1.中國民航大學(xué) 電子信息與自動(dòng)化學(xué)院,天津300300
2.南京林業(yè)大學(xué) 機(jī)械電子工程學(xué)院,南京210037
3.中國民航大學(xué) 安全科學(xué)與工程學(xué)院,天津300300
高光譜圖像(hyperspectral image,HSI)有效集合了成像場景中的空間信息和光譜信息,具有很強(qiáng)的目標(biāo)探測能力和物質(zhì)識(shí)別能力,廣泛用于地質(zhì)調(diào)查[1]、巖性識(shí)別[2]等領(lǐng)域。然而,HSI具有數(shù)據(jù)維數(shù)高、信息冗余大、波段間相關(guān)性高等特點(diǎn),給處理和分類帶來很大困難[3]。因此,如何減少數(shù)據(jù)冗余信息量,有效提取和利用HSI的特征,實(shí)現(xiàn)HSI精確分類,是研究HSI處理和分類的熱點(diǎn)問題[4]。
對HSI進(jìn)行分類時(shí),提取紋理特征可提高地物類別分辨準(zhǔn)確率及圖像分類精度[5]。LBP可同時(shí)兼顧紋理的統(tǒng)計(jì)和結(jié)構(gòu)特性[6],Masood等[7]首先將LBP應(yīng)用到高光譜圖像中。隨后,Li等[8]提出在單波段內(nèi)提取單幀HSI的LBP局部特征,極大提高了HSI的分類精度。職露等[9]提出一種多層級LBP的HSI特征提取方法,為其分類提供更加有效的類別判定特征。然而,HSI單一波段的紋理特征已達(dá)到高維,如果不進(jìn)行處理,那么HSI龐大的數(shù)據(jù)維度提取的紋理特征在后續(xù)處理和分類中,會(huì)消耗大量的計(jì)算量和內(nèi)存。因此,本文提出SRIULBP特征提取方法,該方法對LBP提取的紋理特征進(jìn)行處理,利用一種規(guī)則將冗雜的紋理特征降到更低維度,有效降低后續(xù)分類任務(wù)計(jì)算量。
稀疏表示分類是一種利用少量信號的線性組合來表示大量原始信號的模型[10]。基于SRC的圖像分類最初用于人臉識(shí)別[11];隨著壓縮感知技術(shù)和稀疏表示理論的發(fā)展,使得稀疏表示很快在HSI分類中得到應(yīng)用,并成為研究的熱點(diǎn)[12]。Chen等[13]提出基于稀疏表示的HSI聯(lián)合稀疏表示分類方法;在此基礎(chǔ)上,Tu等[14]提出一種融合相關(guān)系數(shù)的聯(lián)合稀疏表示分類,提高了分類精度。然而上述稀疏表示方法為了保證字典的完備性,是將所有的訓(xùn)練樣本作為稀疏字典,字典原子數(shù)目過多,導(dǎo)致稀疏求解和重構(gòu)計(jì)算復(fù)雜度增加,同時(shí)冗余字典原子也會(huì)影響求解和重構(gòu)的精度。
針對以上問題,本文提出基于SRIULBP和NNSRC的高光譜圖像分類方法,該方法首先利用SRIULBP進(jìn)行特征提取,獲取更低維度的紋理特征;再采用NNSRC模型構(gòu)建低冗余度、高質(zhì)量稀疏字典,實(shí)現(xiàn)高光譜圖像分類,保證分類精度、提高分類效率。
LBP是一種用來描述圖像局部紋理特征的紋理分析方法,用來描述圖像局部紋理特征?,F(xiàn)給定中心像素gc(xc,yc)以及鄰域像素gn:
其中,gn(n=0,1,…,N-1)表示以gc為中心的圓域上均勻分布的N個(gè)像素點(diǎn)的坐標(biāo)值。中心像素gc處的局部紋理信息可表示為:
領(lǐng)域像素大于中心像素的置1,小于等于的置0,得到對應(yīng)的二進(jìn)制編碼,最后轉(zhuǎn)化為十進(jìn)制編碼。根據(jù)統(tǒng)計(jì)規(guī)則不同,LBP可分為等價(jià)模式(ULBP)、旋轉(zhuǎn)不變模式(RILBP)、旋轉(zhuǎn)不變等價(jià)模式(RIULBP)等[15]。
稀疏表示是指信號可以由字典中原子的線性組合來近似表示?,F(xiàn)給定X=[X1,X2,…,XC]∈RD,為HSI像元,D為圖像波段數(shù),其中Xi=[xi1,xi2,…,xiNc]∈RD,Nc表示第i類樣本的數(shù)量。若是第i類樣本,其可近似為:
其中,Xi表示第i類樣本構(gòu)成的稀疏子典,αi表示測試樣本y的稀疏向量,該向量只包含少數(shù)非零值。
為了獲得最為稀疏的向量,通過求解以下公式:
其中,ε表示重構(gòu)誤差??刹捎谜黄ヅ渥粉櫍╫rthogonal matching pursuit,OMP)算法求解式(6)。計(jì)算出稀疏系數(shù)后,計(jì)算測試樣本y每類的重構(gòu)殘差:
式中,i∈{1,2,…,C}。
最后,比較所有類別字典的重構(gòu)殘差,最小殘差即為y所屬類別。
本文提出一種基于改進(jìn)局部二值模型和稀疏表示的高光譜圖像分類算法,算法示意圖如圖1所示。
圖1 SRIULBP-NNSRC示意圖Fig.1 SRIULBP-NNSRC schematic diagram
第一部分為特征提取階段,采用PCA對原始HSI進(jìn)行降維處理,得到投影后的低維特征空間;隨后,采用提出的SRIULBP對降維后的數(shù)據(jù)提取特征,獲得HSI豐富且精煉的紋理特征。第二部分為分類模型構(gòu)建階段,采用LDA對原始數(shù)據(jù)進(jìn)行降維,然后采用歐式距離計(jì)算公式計(jì)算樣本之間的相似性,選取距離最小的前K個(gè)樣本作為特定字典。最后是分類階段,將提取的紋理特征載入到相應(yīng)的測試樣本和特定字典中,按照稀疏表示分類步驟進(jìn)行分類。
傳統(tǒng)LBP提取HSI紋理特征信息量龐大且存在冗余。紋理特征是通過描述像素在鄰域空間的分布規(guī)律來表示對應(yīng)的物體表面的特征,它并不依賴獨(dú)立的像素點(diǎn),是對局部多個(gè)像素點(diǎn)的統(tǒng)計(jì)計(jì)算而得到的。
大量研究表明,在圖像數(shù)據(jù)中LBP的類別并不是均勻分布的,出現(xiàn)頻率較高的只是部分二值模型。常見的LBP模式方法如ULBP、RILBP、RIULBP都是基于一定的規(guī)則對LBP的類別進(jìn)行劃分,分為不同的特征維,提取出現(xiàn)頻次高的模式類別,對紋理特征進(jìn)行一定的提煉。因此,在不影響模型精度前提下,提出一種基于對稱旋轉(zhuǎn)不變等價(jià)局部二值模型的高光譜圖像紋理特征提取方法。該方法以新的直方圖統(tǒng)計(jì)規(guī)則將紋理特征降低到更小的維度,獲得精簡有效的特征信息,從而緩解后續(xù)分類任務(wù)壓力,提高計(jì)算效率。
SRIULBP的統(tǒng)計(jì)規(guī)則示例如圖2所示,其計(jì)算規(guī)則如式(9)所示:
圖2 SRIULBP算子編碼規(guī)則圖Fig.2 SRIULBP operator coding rule graph
傳統(tǒng)SRC模型為保證字典的完備性,將所有的訓(xùn)練樣本作為字典原子。當(dāng)樣本類別分布不均勻時(shí),小樣本類別原子數(shù)目少,其稀疏系數(shù)在稀疏求解時(shí)很難達(dá)到最優(yōu)值,因而往往分類效果不好;并且每次稀疏求解和重構(gòu)誤差的計(jì)算量與字典原子數(shù)目相關(guān),當(dāng)訓(xùn)練樣本過多時(shí),計(jì)算量會(huì)隨之增加,影響分類效率。
針對這些問題,本文提出NNSRC算法,為了減少計(jì)算量,增加類別之間的可分性,首先采用LDA對原始數(shù)據(jù)進(jìn)行降維,對降維后的每個(gè)測試樣本計(jì)算其與訓(xùn)練樣本之間的相關(guān)性,再采用近鄰思想,選取與測試樣本最相關(guān)的K個(gè)樣本,作為特定字典。最后,將提取的特征載入相應(yīng)的樣本中,進(jìn)行稀疏求解和重構(gòu),最后基于重構(gòu)誤差得到預(yù)測類別。
歐式距離是一種簡單直觀地計(jì)算樣本之間相關(guān)性的距離計(jì)算公式,相比其他方法,計(jì)算量較小。假設(shè)樣本分布在歐式空間中,樣本之間的距離反映了它們之間的相關(guān)性,距離越短,說明兩者越相關(guān)。
現(xiàn)給定訓(xùn)練樣本集XL=[x1,x2,…,xl]∈RDi,測試樣本集XT=[xl+1,xl+2,…,xN]∈RDi(Di為LDA降維后的維度),然后,對每個(gè)測試樣本,采用歐式距離計(jì)算式(10)計(jì)算它與訓(xùn)練樣本之間的相似性。
其中,xj為測試樣本,xi為訓(xùn)練樣本。
對于每個(gè)測試樣本,計(jì)算它與所有訓(xùn)練樣本之間的歐式距離,則每個(gè)測試樣本會(huì)得到l個(gè)EuclideanDistance(j),將距離最小的前K個(gè)訓(xùn)練樣本作為該測試樣本的稀疏字典,對其進(jìn)行稀疏分類。
NNSRC算法具體步驟如算法1所示。
算法1 NNSRC
從式(6)、(7)可看出,稀疏求解和稀疏重構(gòu)的計(jì)算量與稀疏字典A有關(guān),稀疏字典A的原子數(shù)目越多,計(jì)算量越大。NNSRC構(gòu)建的特定字典將原子數(shù)目從訓(xùn)練樣本的數(shù)目N降到K,意味著對每個(gè)測試樣本,稀疏求解和稀疏重構(gòu)的計(jì)算量從N降到K??傮w上看,雖然NNSRC需額外對稀疏字典進(jìn)行處理,花費(fèi)時(shí)間,但在后續(xù)稀疏求解和稀疏重構(gòu)的運(yùn)算上,每一次樣本的計(jì)算都會(huì)節(jié)約N-K的計(jì)算量,隨著數(shù)據(jù)樣本增多,節(jié)省時(shí)間也增多。
(1)Indian Pines數(shù)據(jù)集:由AVIRIS傳感器采集印第安納州西北部的印度松圖像,由145×145像素和224個(gè)光譜反射帶組成,波長范圍為0.4~2.5 nm,實(shí)驗(yàn)采用去除覆蓋水吸收區(qū)域波段之后的200個(gè)波段,包含16類地物要素,共計(jì)10 366個(gè)數(shù)據(jù)樣本,其假彩色圖和真實(shí)地物分布如圖3所示。
圖3 Indian Pines高光譜遙感圖像Fig.3 Indian Pines HSI
(2)Salinas scene數(shù)據(jù)集:AVIRIS光譜儀采集美國加利福尼亞州薩利納斯山谷圖像,大小為512×217像素,共224個(gè)波段,采用去除覆蓋水吸收區(qū)域波段之后的204個(gè)波段,包含16類地物要素,共計(jì)54 129個(gè)數(shù)據(jù)樣本,其假彩色圖和真實(shí)地物分布如圖4所示。
圖4 Salinas scene高光譜遙感圖像Fig.4 Salinas scene HSI
(3)Pavia University數(shù)據(jù)集:ROSIS光譜儀獲取的意大利帕維亞大學(xué)校園影像。其大小為610×340像素,共115個(gè)波段;采用去除覆蓋水吸收區(qū)域波段之后的103個(gè)波段,共包含9類地物要素,共計(jì)42 776個(gè)數(shù)據(jù)樣本,其假彩色圖和真實(shí)地物分布如圖5所示。
圖5 Pavia University高光譜遙感圖像Fig.5 Pavia University HSI
在實(shí)驗(yàn)中,三種數(shù)據(jù)每類地物隨機(jī)抽取10%作為訓(xùn)練樣本,其余為測試樣本。
為驗(yàn)證SRIULBP的有效性,選擇ULBP、RILBP和RIULBP進(jìn)行對比分析;用總體分類精度(OA)、平均分類精度(AA)、Kappa系數(shù)以及分類時(shí)間四個(gè)指標(biāo)來評價(jià)方法性能。為驗(yàn)證SRIULBP-NNSRC的有效性,選擇SRC[11]、JSRC[13]、CCJSRC[14]進(jìn)行對比分析。
實(shí)驗(yàn)中LBP算子的N、R取值按文獻(xiàn)[16]選取,即N=8,R=1。PCA降維維度d通過實(shí)驗(yàn)篩選,根據(jù)圖6結(jié)果,在Indian Pines上d=21,Pavia University上d=15,Salinas scene上d=30。
圖6 不同維度下三種數(shù)據(jù)集的分類精度Fig.6 Classification accuracy of three data sets in different dimensions
文獻(xiàn)[17]證明LDA的最優(yōu)維度為Di≤c-1,因此在Indian Pines和Salinas scene上Di=5,Pavia University上Di=8。網(wǎng)格搜索法確定LBP直方圖統(tǒng)計(jì)窗口size=10×10、稀疏度S=6以及最近鄰參數(shù)K=20。
根據(jù)表1~3的分類結(jié)果,SRIULBP在三種數(shù)據(jù)集上的分類精度和分類用時(shí)不同,主要原因是每個(gè)數(shù)據(jù)集的特點(diǎn)不同。Indian Pines數(shù)據(jù)集樣本數(shù)較少,有16個(gè)類別,但總共只有1萬多個(gè)樣本,Salinas scene數(shù)據(jù)集樣本數(shù)充足,共有5萬多個(gè)樣本,Pavia University數(shù)據(jù)集次之,有4萬多個(gè)樣本。在分類模型中,樣本數(shù)的大小影響分類的精度和處理的時(shí)間。因此,SRIULBP在Indian Pines上分類精度最小,時(shí)間最短;在Salinas scene數(shù)據(jù)集上分類精度最大,時(shí)間最長。
表1 Indian Pines分類結(jié)果Table 1 Indian Pines HSI classification result
表2 Salinas scene分類結(jié)果Table 2 Salinas scene HSI classification result
表3 Pavia University分類結(jié)果Table 3 Pavia University HSI classification result
不同LBP特征提取方法得到的樣本特征維度不同。其中ULBP、RILBP、RIULBP對每個(gè)波段提取的特征維度分別為59、37、10,而SRIULBP只有6維。一般來說,特征維度的減少會(huì)影響樣本的分類精度。但是三種數(shù)據(jù)集上的實(shí)驗(yàn)表明,SRIULBP提取的特征在分類實(shí)驗(yàn)上的結(jié)果并不遜色其他高維度的提取方法;在分類用時(shí)上,SRIULBP所提取的特征在三種數(shù)據(jù)集上的分類用時(shí)皆為最短。說明SRIULBP在不影響分類精度的前提下,具有提煉特征維度的能力。
為驗(yàn)證SRIULBP-NNSRC算法性能,與基于稀疏表示的各分類方法以及基于SRIULBP的傳統(tǒng)分類方法進(jìn)行對比實(shí)驗(yàn)。稀疏系數(shù)為6,JSRC和CCJSRC的聯(lián)合稀疏矩陣大小為6×6,CCJSRC的相關(guān)系數(shù)所占權(quán)重為0.6,NNSRC和SRIULBP-NNSRC參數(shù)見3.2節(jié),KNN參數(shù)見文獻(xiàn)[18]。每種方法進(jìn)行10次實(shí)驗(yàn)取平均值。
不同算法在三種數(shù)據(jù)集上的分類結(jié)果見表4~6所示、可視化分類結(jié)果如圖7~9所示。
圖7 各算法在Indian Pines數(shù)據(jù)集上的分類圖Fig.7 Classification map of each algorithm on Indian Pines dataset
從表4可以看出,在Indian Pines上,NNSRC的OA、AA、Kappa系數(shù)都優(yōu)于SRC方法,說明若只考慮光譜信息,NNSRC分類效果優(yōu)于SRC;JSRC和CCJSRC將空間信息融入稀疏表示中,可以看到其分類精度高于NNSRC。引入SRIULBP后,豐富了樣本特征,分類精度得到進(jìn)一步提高。相比于其他數(shù)據(jù)集,Indian Pines數(shù)據(jù)集尺寸小,但是樣本類別多,類別分布不均勻,且有些類別樣本數(shù)較少,對分類造成一定的影響。如SRIULBPKNN在Alfalfa、Grass_M、Oats小樣本上的分類效果都很差,而SRIULBP-NNSRC在Alfalfa和Oats的分類精度都能達(dá)到100%,說明SRIULBP-NNSRC算法不僅能有效提升分類準(zhǔn)確度,而且還能克服不平衡樣本導(dǎo)致的分類精度低問題。
表4 不同算法在Indian Pines數(shù)據(jù)集上的分類結(jié)果Table 4 Different algorithm classification results on Indian Pines
相比Indian Pines,Salinas scene每種地物樣本數(shù)量十分充足,因此各分類算法的效果都較好。SRC、CCJSRC、SRIULBP-KNN和SRIULBP-NNSRC的AA和OA都達(dá)到98%以上。從分類用時(shí)上看,只利用光譜信息的兩模型,NNSRC相比SRC不僅分類精度更高,而且用時(shí)更少,說明在樣本充足時(shí),利用特定字典代替原始字典,分類的效率更高。
在Pavia University上,SRIULBP-NNSRC的OA、AA、Kappa值皆為最好,其次是JSRC,然后是RIULBP-KNN。CCJSRC在此數(shù)據(jù)集上的表現(xiàn)反而不如JSRC,說明當(dāng)樣本類別數(shù)少時(shí),融合系數(shù)反而影響了分類準(zhǔn)確率。在分類用時(shí)上,NNSRC的用時(shí)最少,SRIULBP用時(shí)時(shí)間增加不到30 s,說明了SRIULBP在分類上同時(shí)兼顧了精度和時(shí)間效率。
通過比較NNSRC與SRC在三種數(shù)據(jù)集上的表現(xiàn)可知,NNSRC在三種數(shù)據(jù)集上的分類精度都明顯優(yōu)于SRC,體現(xiàn)了改進(jìn)方法在分類上的有效性。而從分類用時(shí)上看,在Indian Pines數(shù)據(jù)集上NNSRC用時(shí)多于SRC,而在Salinas scene和Pavia University上,NNSRC都比SRC的用時(shí)短。這是由于對原始數(shù)據(jù)做LDA處理和計(jì)算歐式距離需要花費(fèi)一定的時(shí)間,若樣本過少,LDA處理和歐式距離計(jì)算所花費(fèi)的時(shí)間高于特定小字典節(jié)省的時(shí)間,而隨著測試樣本數(shù)的增加,NNSRC的分類效率得以體現(xiàn)。
表5 不同算法在Salinas scene數(shù)據(jù)集上的分類結(jié)果Table 5 Different algorithms classification results on Salinas scene
表6 不同算法在Pavia University數(shù)據(jù)集上的分類結(jié)果Table 6 Different algorithms classification results on Pavia University
圖8 各算法在Salinas scene數(shù)據(jù)集上的分類圖Fig.8 Classification map of each algorithm on Salinas scene dataset
圖9 各算法在Pavia University數(shù)據(jù)集上的分類圖Fig.9 Classification map of each algorithm on Pavia University dataset
從總體上看,不采用特征提取時(shí),JSRC和CCJSRC方法都是為了提升分類精度而犧牲了效率,而NNSRC在提升分類精度的同時(shí)也兼顧了分類的效率;引入SRIULBP后,KNN也有很好表現(xiàn),但是在小樣本上,如Indian Pines上Oats、Grass_M上表現(xiàn)較差,說明當(dāng)訓(xùn)練樣本少時(shí),傳統(tǒng)分類器不能依靠豐富樣本特征來實(shí)現(xiàn)對地物的精確分類。在小樣本分類上,同類樣本少,異類樣本多,NNSRC采用LDA進(jìn)行降維,同類樣本之間聯(lián)系更近,異類樣本之間聯(lián)系更遠(yuǎn),導(dǎo)致在稀疏表示中進(jìn)行稀疏重構(gòu)時(shí),同類殘誤差較小,異類殘差較大,因此在小樣本分類時(shí),異類的重構(gòu)殘差更大,使分類更偏向于同類。
本文針對目前局部二值模型提取高光譜數(shù)據(jù)特征冗雜的問題,提出了一種基于對稱旋轉(zhuǎn)不變等價(jià)局部二值模型的高光譜圖像紋理特征提取方法,該方法以新直方圖統(tǒng)計(jì)規(guī)則將紋理特征降低到更小的維度,獲得精簡有效的特征信息。并結(jié)合NNSRC分類算法,利用歐式距離構(gòu)建特定的稀疏小字典,節(jié)省稀疏求解和稀疏重構(gòu)的時(shí)間,進(jìn)一步提高分類效率。在Indian Pines上表現(xiàn)優(yōu)異,特別是在小樣本分類上,效果更為明顯;在數(shù)據(jù)樣本較為充足的Salinas scene和Pavia University上也有不錯(cuò)的分類效果,并且相比其他改進(jìn)稀疏表示算法,分類效率更快,也更具有泛化能力。