姚 瓊,徐 翔,2,鄒 昆
1.電子科技大學(xué)中山學(xué)院 計(jì)算機(jī)學(xué)院,廣東 中山 528400
2.中山大學(xué) 地理科學(xué)與規(guī)劃學(xué)院,廣州 510275
高光譜遙感圖像(Hyperspectral Image,HSI)具有高分辨率的光譜信息,這使得利用高光譜數(shù)據(jù)對地物進(jìn)行精細(xì)分類識(shí)別成為可能,為遙感技術(shù)從定性分析到定量分析奠定了技術(shù)基礎(chǔ)。HSI地物分類是遙感圖像處理的核心問題,是后續(xù)應(yīng)用的基礎(chǔ)。為了得到一幅準(zhǔn)確的HSI地物分類圖,監(jiān)督學(xué)習(xí)的分類方法需要用戶提供大量標(biāo)記訓(xùn)練樣本,分類的結(jié)果受標(biāo)記訓(xùn)練樣本的數(shù)量和質(zhì)量的影響。而在實(shí)際應(yīng)用中,大量樣本的標(biāo)記往往難以獲得,相反未標(biāo)記的樣本更容易獲得。因此,如何利用大量未標(biāo)記樣本中的信息進(jìn)行分類器的學(xué)習(xí),提高分類器的泛化能力,成為當(dāng)前研究熱點(diǎn)。主動(dòng)學(xué)習(xí)(Active Learning,AL)作為一種樣本查詢算法,得到了越來越多的關(guān)注[1-3]。主動(dòng)學(xué)習(xí)的工作原理是根據(jù)預(yù)先設(shè)計(jì)的查詢策略從未標(biāo)記樣本集中挑選信息含量最大的候選樣本,進(jìn)行人工標(biāo)記,再通過標(biāo)記樣本訓(xùn)練分類器。主動(dòng)學(xué)習(xí)的關(guān)鍵是樣本查詢策略的設(shè)計(jì),從而用盡可能少的最具價(jià)值的標(biāo)記樣本來訓(xùn)練出泛化能力更強(qiáng)的分類器。
在遙感圖像處理領(lǐng)域,主動(dòng)學(xué)習(xí)已經(jīng)應(yīng)用于HSI地物分類[1]。Tuia等對基于SVM分類器的多視圖邊緣采樣策略(Margin Sampling,MS)進(jìn)行改進(jìn),提出了一種基于最近支持向量的MS策略(MS-cSV),使得每次只為每個(gè)支持向量選取最近的候選樣本,增加了樣本之間的多樣性。此外,Tuia等還從委員會(huì)查詢策略(Query by Committee)的基礎(chǔ)上,擴(kuò)展了一種基于熵的委員會(huì)查詢策略(Entropy-based QB,EQB),之后又?jǐn)U展出正則化的EQB(Normalization-based EQB,nEQB)。EQB的查詢策略基于多分類器預(yù)測結(jié)果,這些分類器利用Bagging算法生成,Bagging算法是利用數(shù)據(jù)集的小的變動(dòng)來使得分類結(jié)果顯著變動(dòng)的分類方法,本質(zhì)上還是單一特征空間的表達(dá),存在一定的局限性。而高光譜遙感圖像具有“圖譜合一”的特點(diǎn),各種不同的特征空間反映了不同方面的特性,形成了不同的視圖。因此,研究者提出了多視圖學(xué)習(xí)的概念[4-5],并將多視圖結(jié)合到各種機(jī)器學(xué)習(xí)框架下,形成了諸如多視圖半監(jiān)督學(xué)習(xí)、多視圖主動(dòng)學(xué)習(xí)、多視圖裝配學(xué)習(xí)以及多視圖遷移學(xué)習(xí)等算法框架。
基于多視圖的主動(dòng)學(xué)習(xí)(Multi-View Active Learning,MVAL)通過多視圖之間相互學(xué)習(xí)訓(xùn)練多個(gè)分類器,通過分類器的預(yù)測,選擇一致性最低、信息含量最大的候選樣本。由于多視圖能提供具有多樣性和互補(bǔ)性的信息,基于多視圖的主動(dòng)學(xué)習(xí)可以取得比單視圖更好的分類結(jié)果。
Muslea在文獻(xiàn)[6]中將多視圖引入到主動(dòng)學(xué)習(xí)框架中,提出了經(jīng)典的“Co-Testing”算法。該算法從互補(bǔ)的視圖中互相學(xué)習(xí),檢測、標(biāo)記具有最大信息量的候選樣本,提高分類器的學(xué)習(xí)能力。文獻(xiàn)[4]進(jìn)一步討論了如何在HSI地物分類問題中建立多視圖,提出了利用光譜相關(guān)矩陣將全波段分組來生成多視圖。這種方法的缺點(diǎn)是沒有考慮不同的波段對不同類別地物的區(qū)分能力,如高光譜各個(gè)波段中,遠(yuǎn)紅外和近紅外波段的電磁輻射波段對于植被的判別能力較弱。文獻(xiàn)[5]基于三維冗余離散小波變換(3D Redundant Discrete Wavelet Transform,3D-RDWT),聯(lián)合空間域和光譜域信息,在不同尺度使用空間低頻子波段的小波變換系數(shù)構(gòu)建多視圖,取得了較高的分類精度。
文獻(xiàn)[4]只是采用了原始影像光譜特征,未做任何特征變換。文獻(xiàn)[5]提取了多分辨率下的小波低頻特征,具有一定的空間特征表征能力。但是,一般小波是從一維信號(hào)擴(kuò)展來的,方向的表達(dá)能力較弱。基于此,本文提出了一種新的基于三維Gabor特征的多視圖主動(dòng)學(xué)習(xí)算法。主要工作如下:(1)提出了一種基于三維Gabor變換[7-8]的多視圖生成策略,通過三維Gabor濾波器,聯(lián)合空譜特征,得到多個(gè)尺度和方向的特征,并從中挑選地物類別判別能力強(qiáng)的特征來構(gòu)建多視圖。(2)提出了一種新的基于多視圖后驗(yàn)概率差異最小的(Minimum Posteriori Probability Difference,MPPD)主動(dòng)學(xué)習(xí)查詢策略,利用全概率公式計(jì)算多視圖下每個(gè)候選樣本的后驗(yàn)概率,選擇后驗(yàn)概率差異最小的樣本作為信息量最大的候選樣本,經(jīng)人工標(biāo)記后加入訓(xùn)練集,對分類器重新訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,本文提出的多視圖設(shè)計(jì)方法和查詢策略可以充分利用視圖之間的多樣性和互補(bǔ)性,在每次迭代學(xué)習(xí)時(shí)選擇信息含量最大的候選樣本,取得更好的分類精度。
二維Gabor濾波作為一種空間濾波技術(shù),與人的視覺系統(tǒng)接近,能得到最優(yōu)空間和頻率的聯(lián)合。通過獲取圖像中特定尺度和方向的物理結(jié)構(gòu),二維Gabor濾波已經(jīng)廣泛應(yīng)用于人臉識(shí)別[9]、指紋識(shí)別[10]、步態(tài)識(shí)別[11]、語音識(shí)別[12]等領(lǐng)域,并在遙感領(lǐng)域也有應(yīng)用[13]。然而HSI最大特點(diǎn)是將成像技術(shù)與光譜探測技術(shù)結(jié)合,在對目標(biāo)的空間特征成像的同時(shí),對每個(gè)空間像元經(jīng)過色散形成幾十個(gè)乃至幾百個(gè)窄波段以進(jìn)行連續(xù)的光譜覆蓋。因此HSI數(shù)據(jù)可以看作一個(gè)三維數(shù)據(jù)塊。為了保持HSI圖像中先天的物理屬性,同時(shí)能夠提取聯(lián)合空譜信息的多尺度、多方向特征,本文擬采用三維Gabor濾波技術(shù)。
三維Gabor濾波早期被用于醫(yī)學(xué)圖像分析[14],后被引入遙感圖像處理。本文使用了Bau等設(shè)計(jì)的三維Gabor濾波器[8],其數(shù)學(xué)模型定義為:
其中,a(x,y,λ)為高斯成分;c(x,y,λ)為正弦成分,分別定義為:
其中,x、y代表空間變量;λ代表光譜波長;標(biāo)準(zhǔn)方差σ定義高斯函數(shù)的形狀和濾波尺度。代表徑向中心頻率,(Fx,Fy,Fλ)代表各正弦分量頻率,可表示為:
圖1 用θ和φ表示三維Gabor濾波器方向
表1 26個(gè)三維Gabor濾波器的參數(shù)設(shè)置
為了構(gòu)建具有多樣性和互補(bǔ)性的多個(gè)視圖,將26個(gè)三維Gabor濾波核與HSI原始影像做卷積濾波,得到26個(gè)特征視圖。這26個(gè)特征視圖對地物區(qū)分能力的強(qiáng)弱差別較大,并且從計(jì)算效率的角度,不適合全部用來作為視圖。因此,分別對這26個(gè)特征視圖進(jìn)行單視圖主動(dòng)學(xué)習(xí),計(jì)算每個(gè)視圖對應(yīng)每類地物的分類精度。如圖2所示,橫坐標(biāo)表示26個(gè)三維Gabor特征視圖,縱坐標(biāo)表示總體分類精度(Overall Average,OA),不同顏色、線型的曲線代表不同地物類別。可見,在兩個(gè)數(shù)據(jù)集上,第4、9、13、17、22、26個(gè)Gabor特征上能取得局部極大值,說明這6個(gè)三維Gabor特征視圖對地物類別的區(qū)分能力較強(qiáng)。對照表1,這6個(gè)三維Gabor特征分別對應(yīng)兩個(gè)尺度,(θ,φ)各取(-π/4,π/2),(π/4,π/2),(π/2,π/2)。因此,最終選擇這6個(gè)Gabor濾波卷積后的特征視圖作為多視圖。
MVAL查詢策略的好壞直接影響到AL迭代的收斂速度。傳統(tǒng)的查詢策略往往基于多個(gè)視圖預(yù)測結(jié)果的不一致性來對候選樣本進(jìn)行評(píng)價(jià),例如文獻(xiàn)[4-5]中都采用了一種基于類別標(biāo)簽不一致的多視圖查詢策略,稱為自適應(yīng)最大不一致策略(Adaptive Maximum Disagreement,AMD),其定義如式(5):
其中,x代表候選樣本;Li代表視圖Vi學(xué)習(xí)到的分類器。該公式表明,當(dāng)兩個(gè)視圖的預(yù)測類別不一致時(shí),l取1,否則,取0。經(jīng)過兩兩視圖之間的循環(huán)累加,得到候選樣本最終的不一致性評(píng)價(jià)指標(biāo),用d(x,L1,L2,…,Ln)表示。而AMD策略將選取具有最大d(x,L1,L2,…,Ln)的候選樣本加入訓(xùn)練集,進(jìn)行下一輪迭代。
然而,這種查詢策略仍然存在一定的局限性。首先,在早期的迭代中,由于學(xué)習(xí)器的泛化能力有限,對每個(gè)樣本的預(yù)測結(jié)果可靠性較低,無法單純地從預(yù)測結(jié)果的不一致就判斷出是否為信息量大的樣本。其次,隨著迭代深入,學(xué)習(xí)器的性能越來越強(qiáng),多個(gè)學(xué)習(xí)器逐漸收斂為一致,使得它們之間的預(yù)測差異越來越小,進(jìn)一步影響了樣本的精確查詢。
通過對AMD等查詢策略的分析,發(fā)現(xiàn)這類查詢策略僅僅考慮了視圖之間的預(yù)測不一致,而沒有充分利用每個(gè)視圖內(nèi)在的判別能力。為了解決這個(gè)問題,本文提出了一種新的樣本查詢策略,不是單純地通過多視圖預(yù)測結(jié)果的不一致性進(jìn)行查詢,而是首先根據(jù)每個(gè)視圖的多元邏輯回歸分類器預(yù)測樣本的類別條件概率P(x∈,然后根據(jù)全概率公式計(jì)算多視圖下每個(gè)樣本的后驗(yàn)概率P(x∈Ck),最后挑選出后驗(yàn)概率差異最小的樣本xMPPD。
當(dāng)特征空間劃分為n個(gè)視圖,視圖Vi預(yù)測樣本x屬于第k類的概率(k=1,2,…,K)可以根據(jù)多元邏輯回歸(Multinomial Logistic Regression,MLR)[15]計(jì)算,其公式如下:
圖2 26個(gè)Gabor特征視圖對地物區(qū)分能力的比較
當(dāng)每個(gè)視圖Vi通過MLR預(yù)測樣本x屬于第k類的條件概率后,利用全概率公式計(jì)算樣本x屬于第k類的概率,如下所示:
最后,根據(jù)式(9)選擇前兩類最大后驗(yàn)概率之間差最小的樣本。
其中,Cm1和Cm2分別代表最大和第二大的類別概率,兩個(gè)最大概率差值越小,表示樣本的信息含量越大,用該樣本訓(xùn)練分類器可以獲取更有價(jià)值的信息。P(Vi)代表了每個(gè)視圖的先驗(yàn)概率,可以作為每個(gè)視圖的強(qiáng)弱判別。通過選取不同形式的先驗(yàn)概率,達(dá)到對不同特征視圖的加權(quán),本文默認(rèn)P(Vi)=1/n,n為總視圖數(shù)。
基于三維Gabor的MVAL算法的基本思想是:首先,使用多尺度、多方向的三維Gabor濾波器對原始影像進(jìn)行卷積濾波,從中挑選具有最強(qiáng)地物判別能力的特征視圖來構(gòu)建多視圖;然后,借助本文的查詢策略MPPD,在每次迭代學(xué)習(xí)中挑選最具信息含量的候選樣本,進(jìn)行人工標(biāo)注后加入訓(xùn)練集,重新訓(xùn)練分類器,從而提高分類器的學(xué)習(xí)能力。其基本流程如下:
(1)用26組不同參數(shù)的三維Gabor濾波器對原始影像進(jìn)行卷積濾波,得到26個(gè)濾波后的特征視圖。選擇其中n個(gè)地物區(qū)分能力強(qiáng)的特征視圖,記為V1,V2,…,Vn。
(2)使用訓(xùn)練集DL在V1,V2,…,Vn上進(jìn)行分類器的學(xué)習(xí),得到對應(yīng)的n個(gè)分類器L1,L2,…,Ln。
(3)利用查詢策略MPPD,從候選集DC中挑選信息含量最大的候選樣本xMPPD,進(jìn)行人工標(biāo)記。
(4)將xMPPD從候選集DC中移走。
(5)將xMPPD加入訓(xùn)練集DL。
(6)判斷是否滿足結(jié)束條件,滿足則退出,否則轉(zhuǎn)步驟3。
(7)組合分類器Li(i=1,2,…,n)的預(yù)測,輸出最后的分類結(jié)果。
實(shí)驗(yàn)數(shù)據(jù)選取了兩幅常用于檢驗(yàn)圖像分類方法性能的高光譜圖像。第一個(gè)數(shù)據(jù)集Pavia基于ROSIS傳感器,采集自1995年意大利帕維亞大學(xué)的高光譜圖像,該幅圖像代表了典型的城市場景,包含了各種主要的城市地物類型以及土壤和植被等。圖像大小為610×340像元,單個(gè)像元的空間分辨率達(dá)到1.3 m,包含103個(gè)光譜波段(波段范圍從0.43~0.86 μm),總共標(biāo)定了9個(gè)類,42 776個(gè)標(biāo)記樣本。第二個(gè)數(shù)據(jù)集Indiana基于AVIRIS傳感器,采集自美國印第安納州西北部的一塊印度松樹林地。與城市場景不同,該幅圖像代表了典型的農(nóng)林場景,由于獲取于生長季的早期,使得數(shù)據(jù)包含了大量具有相似光譜信息的地物類別,這為地物的準(zhǔn)確分類識(shí)別提出了挑戰(zhàn)。圖像大小為145×145像元,單個(gè)像元的空間分辨率達(dá)到20 m,包含220個(gè)光譜波段(波段范圍0.4~2.5 μm)。移除噪聲和水吸收波段后,最終保留了200個(gè)波段,總共標(biāo)定了16個(gè)類,10 249個(gè)標(biāo)記樣本。兩幅圖像的假色圖及相應(yīng)的地物參考分布如圖3、圖4所示。
實(shí)驗(yàn)將標(biāo)記樣本集劃分為初始訓(xùn)練集、候選集和測試集。其中,初始訓(xùn)練集隨機(jī)選取30個(gè)標(biāo)記樣本,不能保證每一類均有相應(yīng)的樣本數(shù)據(jù),候選集有4 000個(gè)樣本點(diǎn),測試集為所有標(biāo)記樣本點(diǎn)。學(xué)習(xí)迭代次數(shù)為100次,每次迭代從候選集中根據(jù)查詢策略挑選一個(gè)樣本,即總共使用了130個(gè)訓(xùn)練樣本,占Pavia數(shù)據(jù)集的0.3%,占Indiana數(shù)據(jù)集的1.27%,這是非常小的訓(xùn)練集。每個(gè)實(shí)驗(yàn)重復(fù)10次,分類精度的評(píng)價(jià)標(biāo)準(zhǔn)為總體精度(OA),計(jì)算結(jié)果為10次實(shí)驗(yàn)的平均結(jié)果。實(shí)驗(yàn)選擇多元邏輯回歸分類器[15]。
圖3 Pavia數(shù)據(jù)的原始影像及地物分布
實(shí)驗(yàn)1分析視圖強(qiáng)弱和個(gè)數(shù)對分類結(jié)果的影響。首先討論視圖強(qiáng)弱對MVAL分類結(jié)果的影響。根據(jù)圖2,選擇第4、9、13、17、22、26個(gè)三維Gabor特征視圖,建立包含6個(gè)視圖的MVAL,查詢策略采用AMD。實(shí)驗(yàn)結(jié)果如圖5所示??梢姡?6個(gè)Gabor特征視圖View6的學(xué)習(xí)曲線不收斂。去掉View6后,建立包含5個(gè)視圖的MVAL,實(shí)驗(yàn)結(jié)果如圖6所示??梢钥闯?,去掉學(xué)習(xí)曲線不收斂的View6后,經(jīng)過100次迭代,Pavia數(shù)據(jù)集的分類精度從92.59%提高到94.06%,Indiana數(shù)據(jù)集的分類精度從89.05%提高到91.30%。表明了在建立多視圖時(shí),除了要保證視圖之間的多樣性外,還要保證每個(gè)視圖自身學(xué)習(xí)能力的收斂。然后比較視圖個(gè)數(shù)對MVAL分類結(jié)果的影響。從圖6可以看出,第4、9、13、17、22個(gè)三維Gabor特征視圖的學(xué)習(xí)曲線都是收斂的。每次實(shí)驗(yàn)去掉上次實(shí)驗(yàn)中收斂速度最慢的特征視圖,得到的分類結(jié)果如表2所示。可以看出,在每個(gè)特征視圖的學(xué)習(xí)曲線收斂的條件下,隨著視圖個(gè)數(shù)的減少,分類精度有所降低。表明過少的視圖對于樣本的不一致預(yù)測結(jié)果表現(xiàn)得不夠。然而,也可以看到,并非視圖的個(gè)數(shù)越多,分類精度越高,還需要保證這些視圖之間具有多樣性和充分性,才能得到樣本的可靠預(yù)測。
圖4 Indiana數(shù)據(jù)的原始影像及地物分布
圖5 包含6個(gè)視圖的MVAL迭代學(xué)習(xí)曲線
圖6 包含5個(gè)視圖的MVAL迭代學(xué)習(xí)曲線
表2 視圖個(gè)數(shù)對分類精度OA的影響
圖7 結(jié)合MPPD和AMD的MVAL迭代學(xué)習(xí)曲線
實(shí)驗(yàn)2比較本文提出的MPPD查詢策略和AMD查詢策略。分別在5個(gè)視圖和6個(gè)視圖的條件下,結(jié)合MPPD和AMD進(jìn)行實(shí)驗(yàn)。迭代學(xué)習(xí)曲線如圖7所示,對應(yīng)的地物分類結(jié)果如圖8、圖9所示。實(shí)驗(yàn)結(jié)果表明,在相同的多視圖條件下,本文提出的MPPD優(yōu)于AMD。這是因?yàn)锳MD僅僅考慮了視圖之間預(yù)測結(jié)果的不一致性,而忽略了每個(gè)視圖對樣本的預(yù)測能力,從而容易導(dǎo)致一定的查詢偏差。而MPPD聯(lián)合考慮了每個(gè)視圖對樣本的預(yù)測結(jié)果,能更加準(zhǔn)確地表征樣本的不確定性。然而,在迭代早期,MPPD的優(yōu)勢不明顯,表明在早期迭代時(shí),由于樣本較少,分類器的預(yù)測能力較弱(尤其是6個(gè)視圖的情況,存在不收斂的低效的分類器),難以發(fā)揮MPPD的作用。而隨著迭代增加,分類器自身的判別能力增強(qiáng),使得樣本的預(yù)測變得更準(zhǔn)確。
圖8 Pavia地物分類結(jié)果圖
圖9 Indiana地物分類結(jié)果圖
實(shí)驗(yàn)3為了進(jìn)一步分析算法對每類地物的分類效果,選取了4、9、13、17、22個(gè)三維Gabor特征視圖,結(jié)合本文的MPPD查詢策略,計(jì)算每類地物的迭代分類精度和混淆矩陣。實(shí)驗(yàn)結(jié)果如圖10、圖11,以及表3、表4所示。結(jié)果表明,由于采用了隨機(jī)選取初始訓(xùn)練樣本的方式,使得在初始迭代時(shí),存在部分地物類別的分類精度接近0,即缺少了對應(yīng)地物類別的訓(xùn)練樣本。然而,隨著主動(dòng)學(xué)習(xí)的迭代過程,通過不斷加入新的標(biāo)記樣本,最終能保證包含每類地物的訓(xùn)練樣本。
圖10 Pavia每類地物的迭代分類精度
圖11 Indiana每類地物的迭代分類精度
表3 Pavia混淆矩陣(MPPD+5V)
表4 Indiana混淆矩陣(MPPD+5V)
針對高光譜遙感圖像分類中存在的光譜維數(shù)高和標(biāo)記樣本少的問題,提出一種基于三維Gabor特征的多視圖主動(dòng)學(xué)習(xí)方法。首先利用三維Gabor濾波器組提取不同尺度和方向的空譜聯(lián)合特征,然后挑選地物判別能力強(qiáng)的特征子集構(gòu)建多視圖。在此基礎(chǔ)上,提出一種基于后驗(yàn)概率差異最小的樣本查詢選擇策略MPPD。兩個(gè)典型高光譜數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,通過MPPD策略挑選不超過130個(gè)訓(xùn)練樣本,可以達(dá)到較高的分類精度,有效解決了標(biāo)記樣本少的問題,證明了本文提出的多視圖主動(dòng)學(xué)習(xí)方法的有效性。值得注意的是,為了有效結(jié)合MPPD查詢策略,除了需要視圖之間具有一定的多樣性,還需要單個(gè)視圖具有較強(qiáng)的地物判別能力,才能保證好的分類效果。此外,在使用三維Gabor濾波器時(shí),本文采用了經(jīng)驗(yàn)方法選擇尺度和方向參數(shù),考慮到不同遙感圖像具有不同的空間和光譜分辨率,如何自適應(yīng)地選擇最優(yōu)參數(shù)集,需要進(jìn)一步研究。同時(shí),高光譜圖像中包含各種光譜指數(shù)特征,如何開展聯(lián)合光譜指數(shù)特征的空譜特征提取,有待進(jìn)一步研究。