任智偉 吳玲達(dá)
(1.航天工程大學(xué)研究生管理大隊(duì) 北京 101416)(2.航天工程大學(xué)復(fù)雜電子系統(tǒng)仿真實(shí)驗(yàn)室 北京 101416)
高光譜圖像既能夠描述地物的空間形態(tài)與分布,也具有光譜分辨率高、光譜連續(xù)以及圖譜合一等特點(diǎn)。但高光譜圖像的光譜分辨率過高,導(dǎo)致數(shù)據(jù)量大、各波段間相關(guān)性強(qiáng),信息冗余現(xiàn)象嚴(yán)重等問題。因此,高光譜圖像處理的難度較之彩色圖像以及多光譜圖像大大提高,“Hughes”現(xiàn)象[1]明顯。為避免可能出現(xiàn)的維數(shù)災(zāi)難問題及提高處理效率,在高光譜圖像分類分析之前,往往對其進(jìn)行降維處理。
目前,用于高光譜圖像降維處理的方法主要有兩種:光譜特征提取以及光譜特征選擇[2]。光譜特征選擇也被稱為波段選擇,針對特定對象選取光譜特征空間中的一個(gè)子集。特征提取是指原光譜特征空間或其子空間通過某種數(shù)學(xué)變換達(dá)到維數(shù)約減、特征增強(qiáng)等目的的過程。
波段選擇的目的是選出信息量大、相關(guān)性弱、具有代表性的波段或波段子集。常見的波段選擇方法可根據(jù)是否使用已標(biāo)記樣本信息分為無監(jiān)督、有監(jiān)督及半監(jiān)督波段選擇。有監(jiān)督波段選擇運(yùn)用標(biāo)記樣本的可分性來選擇波段子集。無監(jiān)督波段選擇通過考察波段包含信息量大小及波段間相關(guān)性給出某個(gè)指標(biāo),根據(jù)給出指標(biāo)對所有波段進(jìn)行降序排列,選擇滿足要求的前幾個(gè)波段。給出指標(biāo)的方法包括最佳指數(shù)因子方法,自適應(yīng)波段選擇方法、熵和聯(lián)合熵方法及自動(dòng)子空間劃分方法等[3]。半監(jiān)督波段選擇能夠充分利用有限的已標(biāo)記樣本數(shù)據(jù)和大量未被標(biāo)記的樣本數(shù)據(jù),既能夠得到較高的分類精度,又滿足真實(shí)高光譜數(shù)據(jù)要求,受到越來越多的研究者關(guān)注。目前基于自訓(xùn)練與圖譜的半監(jiān)督波段選擇方法較多[4~6]。
基于聚類的波段選擇也是實(shí)現(xiàn)波段選擇的可行思路。但傳統(tǒng)的聚類方法對初始聚類中心敏感,需要認(rèn)為確定聚類類數(shù),初始中心選取的隨機(jī)性可能導(dǎo)致聚類結(jié)果的不穩(wěn)定。此外,通過傳統(tǒng)聚類的結(jié)果不是真實(shí)的波段,因此最終的波段選擇結(jié)果與聚類之間存在很大誤差。2007年,F(xiàn)ray等[7]提出一種近鄰傳播聚類算法(Affinity Propagation Cluster?ing,AP),解決了以上的問題。在處理大規(guī)模、多類數(shù)據(jù)時(shí),AP算法效果較好。目前,AP算法已經(jīng)成功的應(yīng)用于圖像分割、目標(biāo)識別等領(lǐng)域[8]。
本文在AP聚類的基礎(chǔ)上,利用小波分解對高光譜圖像進(jìn)行處理。得到的高頻成分包含圖像的細(xì)節(jié)與噪聲信息,得到的低頻成分包含圖像平滑信息。利用高頻成分計(jì)算各波段間的相關(guān)性及信噪比,從而完成聚類。本文提出算法能夠選出信噪比高、相關(guān)性弱的波段自己。將得到的聚類結(jié)果輸入最小距離分類器進(jìn)行分類,驗(yàn)證本算法的有效性。
假設(shè)數(shù)據(jù)集中包含n個(gè)樣本{x1,x2,…,xn},AP算法首先計(jì)算每兩個(gè)樣本之間的相似度,通過相似度來計(jì)算吸引度和歸屬度,結(jié)合吸引度和歸屬度兩方面信息找到最優(yōu)的類代表點(diǎn)集合,最終使得所有數(shù)據(jù)點(diǎn)到其最近的類代表點(diǎn)的相似度之和最大。
n×n維的相似度矩陣S為工作的基礎(chǔ),每個(gè)元素為負(fù)值,可根據(jù)不同任務(wù)選擇相應(yīng)指標(biāo)作為測度[9]。當(dāng) i=j時(shí),s(i,j)代表偏向參數(shù) p(i)。p(i)越大,點(diǎn)xi作為聚類中心的可能性越大。在無監(jiān)督條件下,P通常取相似矩陣的中值。r(i,j)表示數(shù)據(jù)點(diǎn) j對點(diǎn)i的吸引度,描述點(diǎn) j適合作為點(diǎn)i的類代表的程度。a(i,j)表示數(shù)據(jù)點(diǎn)i對點(diǎn) j是歸屬度,表示數(shù)據(jù)i選擇點(diǎn) j作為類代表的程度。r(i,j)和a(i,j)越大,表明點(diǎn) j作為最終聚類中心的可能性越大。
吸引度矩陣和歸屬度矩陣的計(jì)算公式如下:
在更新 r(i,j)和 a(i,j)時(shí),通常采取引入阻尼系數(shù)λ∈[0,1 )的方式對 r(i,j)和 a(i,j)進(jìn)行縮放操作,以避免震蕩的發(fā)生??s放公式如下:
波段選擇是高光譜圖像處理中的預(yù)處理結(jié)果,波段選擇結(jié)果影響分類及目標(biāo)識別精度。除波段所包含信息量、波段間相關(guān)性外,噪聲大小也是影響精度的一個(gè)重要因素。計(jì)算圖像的信噪比需要將噪聲與信號分離開[10]。而小波變換可以將圖像分為包含細(xì)節(jié)和噪聲信息的高頻分量和包含地物背景等平滑信息的低頻分量。因此,本文利用小波變換計(jì)算波段間的相關(guān)性以及波段信噪比,改進(jìn)AP聚類算法,實(shí)現(xiàn)波段選擇。
在圖像處理領(lǐng)域,常將圖像進(jìn)行小波變換得到圖像的不同信息。對光譜曲線進(jìn)行小波變換,可以得到該光譜曲線的低頻成分和高頻成分向量[11]。由于低頻分量主要包含圖像平滑信息,反映原數(shù)據(jù)的近似特征;高頻分量主要包括光譜曲線的細(xì)節(jié)特征和噪聲信息。由于高光譜圖像各波段間信息冗余嚴(yán)重,在小波變換的結(jié)果中,各光譜曲線的低頻成分普遍相似性高,高頻成分普遍相似度低。因此,本文使用小波變換得到的高頻成分進(jìn)行相似性分析。本文對光譜曲線進(jìn)行三層Sym4小波分解,對高頻分量進(jìn)行相似性度量。
針對小波變換后的高頻成分,本文采用光譜角制圖法(SAM)計(jì)算兩兩波段間相似性,構(gòu)造AP聚類的相似度矩陣s。SAM的計(jì)算公式如下:
其中,sx和sy表示進(jìn)行相似性計(jì)算的兩個(gè)波段;L表示波段內(nèi)像元個(gè)數(shù)。si表示第i個(gè)像素點(diǎn)的像素值。
小波變換后,圖像的能量大部分集中在低頻分量上。因此,當(dāng)噪聲較大時(shí),可將最高頻率子帶的系數(shù)全部看成是噪聲,由此來估計(jì)噪聲的標(biāo)準(zhǔn)方差。Donoho和Johnstone提出在小波域中噪聲標(biāo)準(zhǔn)方差的估計(jì)公式[12~13],即
其中,M是高頻分量小波系數(shù)幅度的中值。
因此,高光譜圖像的第i個(gè)波段的信噪比計(jì)算公式為
其中,σsi與σni分別表示波段i的信號標(biāo)準(zhǔn)差和噪聲標(biāo)準(zhǔn)差。
基于小波變換改進(jìn)AP算法的波段選擇(WT-AP):
輸入:歸一化后的高光譜圖像數(shù)據(jù)(N個(gè)波段)
輸出:一維向量idx1×k,其中k表示波段選擇的波段數(shù),idx1×j表示聚類中心所在波段的標(biāo)號,j=1,2…k。
步驟1 依次對高光譜圖像數(shù)據(jù)每個(gè)波段進(jìn)行小波變換;
步驟2 提出高頻分量根據(jù)式(6)計(jì)算相關(guān)性矩陣s,根據(jù)式(7)、式(8)計(jì)算偏好值p;
步驟3 進(jìn)行AP聚類。
將本文提出的方法(WT-AP)與文獻(xiàn)[14]提出的最大信息量法(MI)、文獻(xiàn)[15]提出的自動(dòng)子空間劃分法(ABS)以及基于未改進(jìn)AP聚類的波段選擇方法(AP)進(jìn)行對比試驗(yàn)。將各波段選擇方法的輸出結(jié)果輸入最小距離分類器中進(jìn)行分類處理,對分類精度和運(yùn)行時(shí)間進(jìn)行比較分析。
實(shí)驗(yàn)采用由機(jī)載成像光譜儀AVIRIS在美國印第安納州西北部某農(nóng)林混合室驗(yàn)場采集得到的In?dian Pines數(shù)據(jù)集。圖像空間分辨率為25m,圖像大小為145×145像素。原始數(shù)據(jù)具有224個(gè)光譜波段,波長范圍0.4μm~2.5μm。最后保留了信噪比較高、質(zhì)量較好的200個(gè)波段。最終實(shí)驗(yàn)所使用的圖像大小為145×145×200,包含了16個(gè)地物類別。Indian Pines數(shù)據(jù)集灰度圖像及如圖1所示。
圖1 Indian Pines數(shù)據(jù)集灰度圖
圖2是分別使用上述四種波段選擇算法的總體分類精度的變化曲線。從曲線可以看出本文提出的WT-AP的整體分類精度明顯高于其余三種波段選擇方法,尤其是當(dāng)波段數(shù)小于10時(shí)。這說明WT-AP更能夠充分挖掘高光譜數(shù)據(jù)的有效信息。ABS與AP方法的精度較低。當(dāng)波段數(shù)高于10時(shí),WT-AP方法精度有小幅下降,但仍高于其余方法。此時(shí)MI、ABS及AP的分類精度變化緩慢。這說明當(dāng)波段數(shù)增加到一定程度時(shí),增加的波段不能夠提供更多有利于分類的有效信息。反映出高光譜數(shù)據(jù)圖像各波段間的信息冗余現(xiàn)象嚴(yán)重。再一次證明了降維的必要性和有效性。AP方法的精度低于其余方法,原因是此方法沒有根據(jù)高光譜數(shù)據(jù)特征進(jìn)行改進(jìn)。從圖中也可以看出,最小距離分類器的分類能力偏低,后續(xù)研究將選用其它性能良好的分類器。
圖2 分類精度對比
表1為選擇波段數(shù)為10時(shí),運(yùn)行時(shí)間的對比。從表中可以看出,MI方法運(yùn)行時(shí)間明顯高于其余三種方法,ABS方法運(yùn)行時(shí)間較低。原因是此方法只考慮相鄰波段的相關(guān)關(guān)系,而其余方法均考慮兩兩波段間的相關(guān)關(guān)系。WT-AP的運(yùn)行時(shí)間長于AP方法,原因是WT-AP增加了小波計(jì)算和光譜角制圖的時(shí)間。但WT-AP方法的時(shí)間遠(yuǎn)遠(yuǎn)低于MI方法。因此,本文提出方法在實(shí)際應(yīng)用中的可用性強(qiáng)。
表1 不同方法運(yùn)行時(shí)間對照表(10波段)
圖3(a~d)分別是10波段時(shí)四種方法地物分類示意圖。從圖中可以看出,WT-AP方法對面積大、細(xì)節(jié)較少的區(qū)域的分類具有明顯優(yōu)勢。在細(xì)節(jié)豐富區(qū)域的表現(xiàn)還有待加強(qiáng)。這與算法中引入了小波變換并計(jì)算信噪比時(shí),將部分細(xì)節(jié)錯(cuò)誤作為噪聲進(jìn)行計(jì)算。下一步研究將對這一問題進(jìn)行改善。從圖中也可以看出最小距離分類器的不足,需要進(jìn)一步改進(jìn)。
圖3 四種波段選擇方法分類結(jié)果圖
本文提出基于小波變換改進(jìn)AP聚類的高光譜圖像波段選擇方法,利用光譜角制圖對波段相似度進(jìn)行計(jì)算,利用信噪比計(jì)算偏好度。設(shè)計(jì)實(shí)驗(yàn)對Indiana Pines數(shù)據(jù)集進(jìn)行降維處理,并將降維結(jié)果輸入最小距離分類器進(jìn)行地物分類。實(shí)驗(yàn)證明:基于小波變換改進(jìn)AP聚類的高光譜圖像波段選擇整體分類準(zhǔn)確性高于MI、ABS、AP等方法的分類準(zhǔn)確性;與上述方法相比,基于小波變換改進(jìn)AP聚類的高光譜圖像波段選擇能夠更加有效地利用數(shù)據(jù)集的信息,提高分類的準(zhǔn)確性。且計(jì)算成本的增加在合理范圍內(nèi)。在今后的研究中,將重點(diǎn)利用其他先進(jìn)的相似度計(jì)算方法,提高算法效率和精度。