(河海大學(xué)計算機(jī)與信息學(xué)院,江蘇 南京 211100)
近年來,高光譜圖像(HSI,hyperspectral image)引起了人們的廣泛關(guān)注,在各種遙感領(lǐng)域,如農(nóng)業(yè)監(jiān)測、環(huán)境監(jiān)測、海洋遙感等[1-4]中都有應(yīng)用。由于數(shù)百條光譜波段為地物信息的識別與分類提供了極為豐富的光譜信息,在早期的研究中,利用光譜信息進(jìn)行分類成為一個熱門方向[5-7],其中,特征選擇和降維[8-13]的方法常被用于緩和光譜維的高維性。隨著研究的深入,高光譜圖像復(fù)雜的空間、光譜特征分布成為困擾高光譜圖像分類的主要問題,許多研究者選擇加入空間局部聯(lián)系性來提升模型的分類性能[14-17],并取得了一定的效果。但這些方法大多基于手工特征和淺層模型,不僅高度依賴專家知識,而且泛化力差,難以提取具有代表性的判別特征。
深度學(xué)習(xí)[18]是目前最熱門的算法之一,它的出現(xiàn)使計算機(jī)技術(shù)在圖像分類[19]、目標(biāo)探測[20]等方面取得了巨大的進(jìn)展。與傳統(tǒng)的機(jī)器學(xué)習(xí)算法相比,它可以自動從原始輸入數(shù)據(jù)中由淺到深地提取特征,其學(xué)習(xí)過程完全自動化,且適應(yīng)力強。Chen等[21]將深度學(xué)習(xí)引入高光譜圖像分類算法中,構(gòu)建了一種基于堆疊自編碼器的深度模型來提取高級特征。Liu 等[22]提出一種利用深度置信網(wǎng)絡(luò)提取特征,再結(jié)合主動學(xué)習(xí)對這些特征進(jìn)行迭代的分類框架。雖然這些光譜分類器已經(jīng)取得了較好的分類結(jié)果,但研究證明,將空間特征合并到分類器中會進(jìn)一步提升分類精度[23]。因此,許多研究者將目光轉(zhuǎn)向了在圖像識別領(lǐng)域具有核心地位的深度卷積神經(jīng)網(wǎng)絡(luò)[24]。Zhong 等[25]設(shè)計了一種以原始的三維立方體作為輸入數(shù)據(jù)的端到端光譜空間殘差網(wǎng)絡(luò)。Feng 等[26]設(shè)計了一個3D-2D 深度卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural network)模型,利用殘差學(xué)習(xí)和深度可分離卷積來學(xué)習(xí)深層次光譜空間特征。殘差學(xué)習(xí)[27]等方法雖然可以解決模型向深度進(jìn)發(fā)時所引發(fā)的過擬合等問題,但在解決CNN 向深層進(jìn)發(fā)時所引起特征圖分辨率下降、細(xì)節(jié)特征丟失,進(jìn)而導(dǎo)致最終分類精度下降的問題上仍有進(jìn)一步提升空間。針對這一問題,Li 等[28]結(jié)合反卷積與全卷積來增強空間分辨率,Mou 等[29]提出一種由全卷積和反卷積搭建的無監(jiān)督光譜空間特征學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)。這類方法往往需要在反卷積前設(shè)置最大池化層來去除冗余,減少計算負(fù)擔(dān),但最大池化層同樣會帶來特征丟失的問題,以往的方法往往無法有效克服這種信息丟失,從而導(dǎo)致最終分類結(jié)果下降。另一方面,Ma 等[30]提出一種帶有跳躍結(jié)構(gòu)的端到端反卷積網(wǎng)絡(luò)來學(xué)習(xí)頻譜空間特征,該方法通過超鏈接來融合深淺層判別特征,從而彌補損失的特征信息并進(jìn)一步提升性能。但其面臨的一大問題是無法精準(zhǔn)地找出最優(yōu)深淺融合層,同時,過多的跳躍結(jié)構(gòu)也會增加模型過擬合的風(fēng)險。另一種提取有效判別特征的傳統(tǒng)策略是基于特征融合的寬網(wǎng)絡(luò),如Lee 等[31]提出的利用多尺度濾波器的空間光譜特征融合的分類方法和Gao 等[32]提出的多分支融合分類方法。但這些寬網(wǎng)絡(luò)往往只是對某一特征圖進(jìn)行優(yōu)化,而對其他特征圖優(yōu)化不足。
為了解決這些問題,本文提出了一種雙邊融合塊網(wǎng)絡(luò)(DFBN,bilateral fusion block network)對高光譜圖像進(jìn)行分類,與以往的高光譜圖像分類算法模型通過增加深度或廣度來獲取更為豐富的特征相比,它更加注重挖掘已被提取的特征信息,即將同一特征圖內(nèi)更具有代表性的判別特征與其他特征相分離,并采取不同方法進(jìn)行處理,從而完成對特征圖的優(yōu)化。在結(jié)構(gòu)方面,它由上下2 個結(jié)構(gòu)組成,常規(guī)卷積、轉(zhuǎn)置卷積、上采樣和最大池化層為下結(jié)構(gòu),1×1 卷積層和超鏈接為上結(jié)構(gòu)。下結(jié)構(gòu)負(fù)責(zé)對更具代表性判別特征進(jìn)行強化處理,上結(jié)構(gòu)負(fù)責(zé)傳遞被丟失的局部空間聯(lián)系性信息。所有結(jié)構(gòu)共同作用,以達(dá)成更高效的分類精度。
圖1 展示了雙邊融合塊網(wǎng)絡(luò)高光譜分類框架的總體流程。從圖1 可以看出,為緩和高維性、節(jié)約計算成本,首先應(yīng)用主成分分析法(PCA,principal component analysis)抽象出高光譜圖像中最具有信息量的波段子集;然后建立以標(biāo)記像素為中心的圖像塊,并傳送給雙邊融合塊網(wǎng)絡(luò)進(jìn)行訓(xùn)練;最后對待測像素的標(biāo)簽進(jìn)行預(yù)測。其中,雙邊融合塊網(wǎng)絡(luò)主體由雙邊融合塊、全連接以及sigmoid 分類函數(shù)構(gòu)成,雙邊融合塊的個數(shù)與高光譜圖像的復(fù)雜程度相關(guān)。
圖1 雙邊融合塊網(wǎng)絡(luò)高光譜分類框架的總體流程
圖2 展示了雙邊融合塊的整體結(jié)構(gòu),它由上下2 個結(jié)構(gòu)組成。上結(jié)構(gòu)負(fù)責(zé)傳遞原始局部空間聯(lián)系性,由一個帶有1×1 卷積的超鏈接構(gòu)成;下結(jié)構(gòu)負(fù)責(zé)提取更具代表性的判別特征并強化,由2 個卷積層、一個最大池化層,以及帶有上采樣層和轉(zhuǎn)置卷積層的雙層結(jié)構(gòu)共同組成。下面以基準(zhǔn)數(shù)據(jù)集IP(Indian Pines)的參數(shù)設(shè)置為例,展示雙邊融合塊的具體設(shè)置。
首先,將輸入圖像塊的大小設(shè)置為15,21×21(表示空間尺寸為21 像素×21 像素,圖層共計15 層),并將第一卷積層中的濾波器尺寸設(shè)置為16,5×5,步長設(shè)置為(1,1),輸入圖像塊與濾波器卷積后得到尺寸為16,21×21 的新特征圖。然后,利用縮小比例因數(shù)為(3,3)的池化層對該特征圖進(jìn)行最大特征提取,以此得到一個尺寸為16,7×7 的特征圖。包含轉(zhuǎn)置卷積和上采樣的雙層結(jié)構(gòu)將會對該特征圖進(jìn)行強化處理,將前者的濾波器尺寸設(shè)置為16,3×3,步長設(shè)置為(3,3),后者則沿著特征圖的行和列分別將這些最大特征重復(fù)3 次,二者所得特征圖結(jié)合為一個32,21×21 的融合特征圖。該融合特征圖被傳遞給濾波器尺寸為64,5×5 的第二卷積層,并在Relu 處理前,與上結(jié)構(gòu)中經(jīng)64,1×1的濾波器處理后得到的尺寸為64,21×21 的特征圖相融合,進(jìn)而得到最終輸出特征圖譜。本文還為每層卷積添加了批量歸一化(BN,batch normalization)和Relu 函數(shù)加快訓(xùn)練過程,提高泛化能力。
池化層在提取優(yōu)質(zhì)特征,去除噪聲冗余和抑制過擬合等方面有著出色的表現(xiàn)。在本設(shè)計中,池化操作將提取特征圖內(nèi)最優(yōu)特征,雙層結(jié)構(gòu)負(fù)責(zé)對最優(yōu)特征進(jìn)行強化,即利用轉(zhuǎn)置卷積重構(gòu)最優(yōu)特征的特征圖譜,擴(kuò)展其空間分辨率;利用上采樣將最優(yōu)特征復(fù)制到一定空間范圍內(nèi)。最后將二者的輸出拼接,得到更具代表性的判別特征強化圖。
圖2 雙邊融合塊結(jié)構(gòu)
圖3 展示了轉(zhuǎn)置卷積和上采樣的原理。轉(zhuǎn)置卷積層可以將單個輸入特征與多個輸出特征相關(guān)聯(lián)。上采樣將池化層提取出的最大特征值直接復(fù)制到附近位置上,從而擴(kuò)充特征圖譜。
圖3 轉(zhuǎn)置卷積與上采樣原理
本文將在IP、PU(University of Pavia)、SA(Salina)這3 個基準(zhǔn)數(shù)據(jù)集上對所提雙邊融合塊網(wǎng)絡(luò)進(jìn)行測試,以驗證其有效性。
IP 數(shù)據(jù)集是由AVIRIS 傳感器在印第安納州西北部上空拍攝的。它在空間域上由145 像素×145 像素組成;在光譜域上則由224 個光譜反射率波段組成,其波長范圍為0.4~2.45 μm。其中,可用的地面真相為16 個類,本文的實驗中去掉20 個吸水帶,最終選用數(shù)據(jù)集光譜波段總數(shù)為200 條。
PU 數(shù)據(jù)集是由ROSIS 傳感器在意大利北部上空拍攝的,它在空間域上由610 像素×340 像素組成;去掉吸水帶后,光譜域上由103 個光譜波段構(gòu)成,光譜覆蓋范圍為430~860 nm。其中,地面真相為9 個類,本文實驗中使用的數(shù)據(jù)集光譜波段總數(shù)為103 條。
SA數(shù)據(jù)集是由AVIRIS傳感器在加利福尼亞州上空拍攝的,它在光譜域上具有224 個波段,空間域上則是由512 像素×217 像素組成,它還具有高空間分辨率(3.7 米/像素)的特點。去掉20 個吸水帶后,實驗數(shù)據(jù)集波段總數(shù)為204 條,其可用的地面真相為16 個類。
圖4 展示了上述數(shù)據(jù)集相應(yīng)參考數(shù)據(jù)的色彩合成以及每個分類的樣本集的數(shù)量。
本文所提雙邊融合塊網(wǎng)絡(luò)基于Python 語言與keras 深度學(xué)習(xí)框架。實驗環(huán)境為64 位 Windows10操作系統(tǒng),RAM 16 GB 和 NVIDIA GeForce GTX 1660 Ti 6 GB GPU。為了防止不同的訓(xùn)練樣本所帶來的偏差,本文實驗取相同條件下20 個以上的實驗結(jié)果的平均值進(jìn)行分析。本模型采用隨機(jī)梯度下降法更新權(quán)重,學(xué)習(xí)率為0.01,全連接中的Dropout層斷開的神經(jīng)元比例設(shè)置為0.3,激活函數(shù)為Relu。本文還對雙邊融合塊網(wǎng)絡(luò)進(jìn)行了小批量梯度下降的訓(xùn)練,訓(xùn)練樣本設(shè)置為16 個,epoch 設(shè)置為200。
對于IP 數(shù)據(jù)集,隨機(jī)選取10%作為訓(xùn)練樣本,并將剩余90%作為測試樣本。對于PU 數(shù)據(jù)集,隨機(jī)選取2%作為訓(xùn)練樣本,并將剩余98%作為測試樣本。對于SA 數(shù)據(jù)集,隨機(jī)選取0.5%作為訓(xùn)練樣本,并將剩余99.5%作為測試樣本。
為了更好地衡量分類準(zhǔn)確度,采用總體精度OA 表示被正確分類的類別像元數(shù)與總的類別個數(shù)的比值,Kappa 系數(shù)KA 表示分類與完全隨機(jī)的分類產(chǎn)生錯誤減少的比例,平均精度AA 表示各類別的平均準(zhǔn)確率。
雙邊融合塊網(wǎng)絡(luò)的最優(yōu)參數(shù)如表1 所示。
圖4 IP、PU 和SA 數(shù)據(jù)集的樣本設(shè)置
表1 雙邊融合塊網(wǎng)絡(luò)最優(yōu)參數(shù)
為了印證雙邊融合塊中各個層的有效性,本文以IP 數(shù)據(jù)集為代表,對設(shè)置不同層的合理性進(jìn)行分析,結(jié)果如表2 所示。從表2 中可以看出,當(dāng)不采用轉(zhuǎn)置卷積、上采樣和超鏈接時,OA 僅為97.78%,分別加入上述3 種優(yōu)化手段后,OA 均有不同程度的提升。當(dāng)同時使用上采樣和轉(zhuǎn)置卷積時,OA 達(dá)到98.37%,明顯優(yōu)于單一采用轉(zhuǎn)置卷積或上采樣的98.15%和98.29%。超鏈接結(jié)構(gòu)的加入也使OA 提升,這是因為引入了原始局部空間相關(guān)性。同時采用上述3 種優(yōu)化手段,OA 達(dá)到98.45%。
表2 利用IP 數(shù)據(jù)集對雙邊融合塊網(wǎng)絡(luò)進(jìn)行層設(shè)置分析
小樣本問題是現(xiàn)有HSI 分類方法中普遍存在的問題。為了評估雙邊融合塊網(wǎng)絡(luò)在小訓(xùn)練集下的分類性能,本文從各類中隨機(jī)抽取一定比例的樣本作為訓(xùn)練集,剩下的樣本作為測試集。對于IP 數(shù)據(jù)集,本文隨機(jī)選取了1%、3%、5%、7%、10%的訓(xùn)練樣本進(jìn)行測試;對于PU 數(shù)據(jù)集,隨機(jī)選取0.5%、1%、2%、3%、5%的訓(xùn)練樣本進(jìn)行測試;對于SA 數(shù)據(jù)集,隨機(jī)選取0.1%、0.5%、1%、2%、3%的訓(xùn)練樣本進(jìn)行測試。測試結(jié)果如表3~表5 所示??梢钥闯?,雙邊融合塊網(wǎng)絡(luò)具有非常好的小樣本分類性能,對SA 數(shù)據(jù)集分類表現(xiàn)最佳,0.5%的訓(xùn)練樣本OA 即可達(dá)到98.71%;其次是PU 數(shù)據(jù)集,2%的訓(xùn)練樣本的OA 為98.74%;在IP 數(shù)據(jù)集的表現(xiàn)上,10%的訓(xùn)練樣本OA 可達(dá)98.45%。
表3 IP 數(shù)據(jù)集在小樣本情況下的分類結(jié)果
表4 PU 數(shù)據(jù)集在小樣本情況下的分類結(jié)果
表5 SA 數(shù)據(jù)集在小樣本情況下的分類結(jié)果
為了評價所提雙邊融合塊網(wǎng)絡(luò)的性能,本文將與5 種經(jīng)典的基于卷積神經(jīng)網(wǎng)絡(luò)的高光譜圖像分類模型進(jìn)行對比,包括RPCA-CNN(randomized principal component analysis convolutional neural network)模型[13]、帶有多尺度濾波器的深度網(wǎng)絡(luò) DCNN(contextual deep convolutional neural network)模型[31]、反卷積增強網(wǎng)絡(luò)FCNN(full convolutional neural network)模型[28]、利用空譜特征進(jìn)行分類的3D 網(wǎng)絡(luò)SSRN(spectral-spatial-residual network)模型[25]和具有16 層卷積的2D 經(jīng)典殘差網(wǎng)絡(luò)DRN(deep residual network)模型[27]。為了使所有的性能評估基于相同的條件,DCNN 模型、FCNN 模型、SSRN 模型與DRN 模型均采用了批量歸一化層優(yōu)化訓(xùn)練過程,批尺寸為16個。RPCA-CNN 批尺寸為32 個。為了更好地與傳統(tǒng)殘差網(wǎng)絡(luò)進(jìn)行對比,DRN 模型的訓(xùn)練集與雙邊融合塊網(wǎng)絡(luò)相同。其余參數(shù)參考相關(guān)文獻(xiàn)設(shè)置。
本文測試了訓(xùn)練樣本大小固定的情況下,各種模型的性能。在IP 數(shù)據(jù)集中隨機(jī)選取10%的樣本進(jìn)行訓(xùn)練,其余90%的樣本進(jìn)行測試。圖5 展示了不同模型的分類效果。從圖5 中可以看出,RPCA-CNN模型的分類效果最差,其分類圖中具有相當(dāng)大的噪聲,這是因為其模型深度不夠,不能提取到具有代表性的判別特征,同時對訓(xùn)練過程中出現(xiàn)的過擬合、分辨率下降等現(xiàn)象沒有做出相應(yīng)優(yōu)化調(diào)整。而在另外4 種經(jīng)典分類模型中,注重增加網(wǎng)絡(luò)深度的算法模型(SSRN 模型、DRN 模型、DFBN 模型)所取得分類結(jié)果要明顯優(yōu)于其他對比模型。此外,與SSRN 模型和DRN 模型相比,所提DFBN 模型能夠更準(zhǔn)確地對近邊緣區(qū)域的像素進(jìn)行分類,并提供與參考圖(圖4)更加相似的結(jié)果。表6 和表7給出了針對IP 數(shù)據(jù)集的定量分析結(jié)果。RPCA-CNN模型所取得的定量分析結(jié)果最差,所提DFBN 模型在OA、KA 上均取得了最優(yōu)的結(jié)果,而在AA 上略低于SSRN 模型,這是由于在IP 數(shù)據(jù)集中存在類別樣本極度不均衡的現(xiàn)象,而基于3D 卷積神經(jīng)網(wǎng)絡(luò)的SSRN 模型在加入了原始高光譜圖像的光譜上下文聯(lián)系后,克服了這一缺點,但其忽略了卷積神經(jīng)網(wǎng)絡(luò)在向深處進(jìn)發(fā)所引發(fā)的空間分辨率下降,以及對已提取到特征的利用,所以在精度方面的綜合評價上,本文所提DFBN 模型取得了最優(yōu)結(jié)果。
圖5 不同方法對IP 在標(biāo)記像素上的分類結(jié)果
表6 在IP 數(shù)據(jù)集下與其他分類模型的比較
表7 針對IP 數(shù)據(jù)集的分類結(jié)果
第二和第三個實驗分別在PU 數(shù)據(jù)集和SA 數(shù)據(jù)集上進(jìn)行。對PU 數(shù)據(jù)集,隨機(jī)選取2%作為訓(xùn)練樣本,剩余的樣本作為測試樣本。對于SA 數(shù)據(jù)集,選取0.5%作為訓(xùn)練樣本,剩余樣本作為測試樣本。圖6 和圖7 給出了由不同分類方法得到的分類圖,表8~表11 為相應(yīng)的定量分析結(jié)果。同樣地,在視覺效果上,本文所提方法在2 個數(shù)據(jù)集上所展示的地物分類圖擁有最少的噪聲且與圖4 所展示的地物分類參考圖最為相近;在定量分析中,DFBN 模型在PU 數(shù)據(jù)集和SA 數(shù)據(jù)集上的OA 分別達(dá)到了98.45%和98.74%,OA、KA及AA 均高于其他對比方法。所提DFBN 模型在IP 數(shù)據(jù)集、PU 數(shù)據(jù)集和SA 數(shù)據(jù)集上均有較好的性能。
圖6 不同方法對PU 在標(biāo)記像素上的分類結(jié)果
圖7 不同方法對SA 數(shù)據(jù)集在標(biāo)記像素上的分類結(jié)果
表8 在PU 數(shù)據(jù)集下與其他分類模型的比較
表9 針對PU 數(shù)據(jù)集的分類結(jié)果
表10 在SA 數(shù)據(jù)集下與其他分類模型的比較
表11 針對SA 數(shù)據(jù)集的分類結(jié)果
本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的高光譜圖像分類模型DFBN。作為一種新的提取判別特征的模型,它有效克服了空間分辨率下降和特征信息丟失所帶來的精度下降問題,此外,它提供了一種新的提取更具代表性判別特征的思路。在3 個真實的HSI 上的實驗結(jié)果表明,所提模型在分類圖的視覺質(zhì)量和定量指標(biāo)上均有出色的表現(xiàn)。
雖然雙邊融合塊網(wǎng)絡(luò)在性能方面非常優(yōu)異,但仍缺乏對上、下結(jié)構(gòu)所獲得的特征圖進(jìn)行權(quán)重分配的研究。在未來的工作中,將引入注意力機(jī)制,系統(tǒng)地分配2 個特征圖占比,進(jìn)一步提高分類精度。