王 燕,王振宇
蘭州理工大學(xué) 計算機(jī)與通信學(xué)院,蘭州 730050
隨著高光譜成像技術(shù)的快速發(fā)展,成像光譜儀可以繪制出數(shù)百個連續(xù)、精細(xì)的光譜波段的地表圖像。與灰度圖像和RGB 圖像不同,高光譜圖像(hyperspectral image,HSⅠ)包含數(shù)百個通道,可以提供極為豐富的通道信息和詳細(xì)的空間紋理。高光譜成像技術(shù)現(xiàn)已成為遙感應(yīng)用的有效工具,通過對HSⅠ的多維信息進(jìn)行識別學(xué)習(xí)以實(shí)現(xiàn)對應(yīng)的研究目標(biāo),在林業(yè)[1]、環(huán)境監(jiān)測[2]、圖像分類[3]、地質(zhì)學(xué)[4]、海洋勘探[5]、精準(zhǔn)農(nóng)業(yè)[6]等領(lǐng)域得到廣泛應(yīng)用。基于HSⅠ的圖像分類(hyperspectral image classification,HSⅠC)在遙感應(yīng)用及研究領(lǐng)域受到關(guān)注。
雖然HSⅠ具有眾多優(yōu)勢,但是針對HSⅠC 的研究仍然存在一些有待解決的難題,其成像原理導(dǎo)致的先天性問題給研究者帶來了挑戰(zhàn)。如HSⅠ的高維性導(dǎo)致圖像相鄰?fù)ǖ篱g存在高相關(guān)性,數(shù)據(jù)冗余度高;HSⅠ包含大量非線性信息;混合像元引起的“同譜異物”和“同物異譜”現(xiàn)象;以及較少的訓(xùn)練樣本會造成維數(shù)災(zāi)難。
在早期,關(guān)于HSⅠC 的研究主要集中在HSⅠ的特征提取上。常用的方法為流形學(xué)習(xí),該方法通過將高維空間中的原始數(shù)據(jù)映射到潛在的低維空間來減少HSⅠ通道維度的數(shù)量,主要有主成分分析(principal component analysis,PCA)、局部線性嵌入(locally linear embedding,LLE)[7]、拉普拉斯特征映射(Laplacian eigenmaps,Les)[8]和等距特征映射(ⅠSOMAP)。上述方法雖然提高了分類性能,但作為淺層模型,無法通過學(xué)習(xí)HSⅠ深層的抽象特征來提高最終的分類精度[9]。
近年來,深度學(xué)習(xí)算法在圖像分類、目標(biāo)檢測、自然語言處理等計算機(jī)視覺領(lǐng)域取得了突破?;谏疃葘W(xué)習(xí)的HSⅠC研究重點(diǎn)一開始主要集中在通道維度特征的深度表示和復(fù)雜注意力機(jī)制的使用上。采用堆疊自編碼器(stacked auto encoder,SAE)[10]和深度置信網(wǎng)絡(luò)(deep belief network,DBN)[11]等方法提取通道維度特征。空間維度特征的利用則是通過將一維空間向量與通道向量進(jìn)行拼接并將其輸入到網(wǎng)絡(luò)中提取深度特征來實(shí)現(xiàn)的。不像傳統(tǒng)機(jī)器學(xué)習(xí)方法,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)可通過一系列層次結(jié)構(gòu)自動提取有效的高維背景特征解決HSⅠC遇到的空間-通道特征學(xué)習(xí)問題。在大量成果中,注意力機(jī)制通常以獨(dú)立模塊的形式嵌入到模型中,通過加權(quán)波段、像素或通道來細(xì)化特征圖,從而提升模型最終性能。此外,還可通過在殘差網(wǎng)絡(luò)(residual network,ResNet)中嵌入通道注意力模塊(channel attention module,CAM)和空間注意力模塊(spatial attention module,SAM)感知圖像的空間和通道信息,以提高分類性能[12]。
目前,使用注意力機(jī)制和ResNet 的CNN 在圖像領(lǐng)域中取得了非常有前景的成果。Men 等人[13]提出了一種基于CNN的高光譜信息識別網(wǎng)絡(luò)(Res-CBAM),該模型結(jié)合ResNet和卷積注意力模塊(CBAM),提高了高光譜對稻米品質(zhì)跟蹤的檢測性能。Zhang等人[14]提出了一種基于可變形殘差卷積的輕量級通道-空間注意力融合(SSA-DCR)。該模型采用端到端順序提取深度特征的方法,分別利用3D-CNN 和2D-CNN 提取HSⅠ的淺層和深層空間特征。Wang等人[15]提出了一種深度可分離全卷積殘差網(wǎng)絡(luò)(DFRes)用于HSⅠC任務(wù),該模型利用3DCNN、ResNet 和深度可分離卷積(depthwise separable convolution,DSC)組合提取HSⅠ通道-空間特征,緩解了梯度消失問題,同時得益于DSC的結(jié)構(gòu)特性,極大減少了該分類模型的參數(shù)量。Li 等人[16]提出了一種空間注意力引導(dǎo)的殘差注意網(wǎng)絡(luò)(SpaAG-RAN),該網(wǎng)絡(luò)包括空間注意力模塊、通道注意力模塊和通道空間特征融合模塊??臻g注意力模塊以通道相似性為基礎(chǔ),通過一種新型激活函數(shù)捕獲與中心像素相同類別的空間像素;通道注意力模塊功能是選擇有利于通道特征表示的波段;最終利用通道空間特征融合模塊提取綜合特征。Deng等人[17]通過對雙通道殘差塊進(jìn)行多次疊加,構(gòu)造了一種輕量級的CNN。該分類模型的設(shè)計結(jié)合了雙通道特征提取和殘差連接兩種結(jié)構(gòu)。在構(gòu)建主干網(wǎng)絡(luò)時,設(shè)計了跨通道交互的多尺度通道注意力模塊以進(jìn)一步增強(qiáng)提取的特征。然而,大量堆疊使用卷積層會導(dǎo)致模型體量過于龐大,同時受HSⅠ基礎(chǔ)數(shù)據(jù)冗余、空間分辨率不足和訓(xùn)練樣本有限等因素的制約,模型的分類性能仍然受到負(fù)面影響。
為了解決以上問題,本文提出了一種名為多尺度可分離殘差注意力網(wǎng)絡(luò)(multiscale separable residual attention network,MSRAN)的分類模型。MSRAN通過引入三維空洞卷積,在Res2Net 結(jié)構(gòu)內(nèi)部使用多尺度DSC和空間可分離卷積(spatial separable con-volution,SSC)并嵌入SAM 和CAM 結(jié)構(gòu),同時舍棄CNN 尾部使用的全連接層(fully connected,F(xiàn)C),在保證模型特征提取能力的前提下優(yōu)化模型結(jié)構(gòu),從而嚴(yán)格控制了參數(shù)規(guī)模。經(jīng)過實(shí)驗(yàn)論證,MSRAN使用少量的訓(xùn)練樣本可以快速準(zhǔn)確地對HSⅠ進(jìn)行分類。
本文提出的MSRAN 首先使用PCA 對原始輸入圖像進(jìn)行通道維度的壓縮,然后以目標(biāo)像素為中心,將數(shù)據(jù)塊輸入三維空洞卷積層和SAM,接著將所得特征映射繼續(xù)輸入兩組空間-深度可分離殘差結(jié)構(gòu)(SSDSRes2Net)串聯(lián)CAM 結(jié)構(gòu)塊中,最后將輸出的特征映射通過全局平均池化(global average pooling,GAP)轉(zhuǎn)換成一維向量后直接輸入Softmax分類器得到預(yù)測結(jié)果。
MSRAN選擇使用交叉熵作為損失函數(shù),添加L2正則化和dropout 避免網(wǎng)絡(luò)模型出現(xiàn)過擬合,同時使用遵循動量與自適應(yīng)梯度思想的Adam 優(yōu)化器加速模型收斂。MSRAN的整體網(wǎng)絡(luò)框架如圖1所示。
圖1 多尺度可分離殘差注意力模型Fig.1 Multiscale separable residual attention network(MSRAN)model
原始Ⅰndian Pines 圖像大小為145×145×200,其中145為空間尺寸,200為通道數(shù)量。由于HSⅠ具有數(shù)據(jù)冗余性,首先使用PCA將原始圖像的通道數(shù)量從200壓縮到16 以降低通道之間的相關(guān)性,得到一個145×145×16的圖像立方體。然后將圖像立方體分割成15×15×16的數(shù)據(jù)塊輸入膨脹系數(shù)為(2,2,1)的空洞3D-CNN中提取淺層通道和空間特征。由于在空洞3D-CNN 中設(shè)置了零填充,因此輸入和輸出特征映射的空間尺寸保持一致。輸入映射通過窗口尺寸為3 的最大池化操作后使用SAM 添加空間權(quán)重信息,得到一組13×13×256 的輸出映射。將輸出映射繼續(xù)輸入SSDS-Res2Net 結(jié)構(gòu)中,經(jīng)過結(jié)構(gòu)內(nèi)部多分支多尺度卷積特征提取后,使用CAM 賦予特征映射特定的通道權(quán)重,經(jīng)過兩次上述特征提取,得到一組9×9×256 的輸出映射,最后使用GAP將該特征映射壓縮成1×1×256 的特征向量后輸入Softmax激活分類。
Res2Net是由Gao等人[18]首次提出的一種新型多尺度骨干網(wǎng)絡(luò)體系結(jié)構(gòu)。當(dāng)卷積網(wǎng)絡(luò)層數(shù)足夠深時,Res2Net繼承了ResNet的優(yōu)點(diǎn),并擁有更好的泛化能力和魯棒性。
具體地,Res2Net選擇將ResNet內(nèi)部卷積核替換為更小的卷積核組,同時以一種分層的類殘差形式將其進(jìn)行連接。經(jīng)過逐點(diǎn)卷積后,將特征映射均勻地劃分為s個特征映射子集xi,其中i∈{1,2,…,s}。與輸入特征數(shù)據(jù)相比,每個特征映射子集xi具有相同的空間大小和1/s的通道數(shù)量。除x1以外,每個xi都有一個對應(yīng)的內(nèi)部卷積核,特性映射子集xi經(jīng)過對應(yīng)卷積計算后被添加到下一組殘差連接中,作為其輸入數(shù)據(jù)。所以,Res2Net中的輸出數(shù)據(jù)表示為:
其中,xi表示特征映射子集,φi()表示卷積操作,yi表示輸出數(shù)據(jù)。
本文設(shè)計了一種以Res2Net 為基礎(chǔ)的多分支、多尺度殘差結(jié)構(gòu)SSDS-Res2Net,結(jié)構(gòu)如圖2所示。內(nèi)部使用兩組堆疊的SSC對細(xì)分后的特征映射子集xi進(jìn)行下采樣,并使用DSC提取xi的特征信息,同時在殘差連接中設(shè)置最大池化層保證前后端能夠順利進(jìn)行殘差計算。所以,SSDS-Res2Net中的輸出數(shù)據(jù)表示為:
圖2 多空間-深度可分離殘差結(jié)構(gòu)Fig.2 SSDS-Res2Net structure
其中,xi表示特征映射子集,δ()表示最大池化,ηi()表示SSC操作,ζi()表示DSC操作,yi表示輸出數(shù)據(jù)。
特殊情況下,同一目標(biāo)像素在不同通道的響應(yīng)可能不同,所以不同通道的特征表達(dá)能力是不同的。此外,提取的多維特征數(shù)據(jù)在不同空間位置也可能擁有不同的語義信息。如果能夠充分利用這些先驗(yàn)信息,將提高模型對特征信息的學(xué)習(xí)能力。使用CAM可以使網(wǎng)絡(luò)聚焦于更具鑒別性的通道上,同時抑制不必要的通道信息,同樣,SAM可以使網(wǎng)絡(luò)更加關(guān)注空間紋理信息。
因此,本文設(shè)計了新的SAM和CAM兩種注意力模塊來實(shí)現(xiàn)這一目標(biāo),具體結(jié)構(gòu)如圖3所示。在SAM中,使用逐點(diǎn)卷積將池化層輸出的特征映射通道從C 壓縮為1,接著對兩組特征映射采取級聯(lián)操作,最后經(jīng)過一層3×3 卷積得到該組特征映射的空間權(quán)重。在CAM 中,使用一維卷積分別校準(zhǔn)GAP 和全局最大池化(global max pooling,GMP)輸出的一維特征映射,同樣采取級聯(lián)操作將兩組特征映射進(jìn)行融合,然后通過具有MLP功能的兩層FC 層進(jìn)行信息重組,最后經(jīng)過一層一維卷積得到該組特征映射的通道權(quán)重。
圖3 注意力機(jī)制模塊Fig.3 Attention mechanism module
本文實(shí)驗(yàn)在Ⅰntel?Xeon Silver 4116 @2.10 GHz,NVⅠDⅠA Tesla T4,128 GB內(nèi)存硬件支持下運(yùn)行?;赪indows10系統(tǒng),使用Python3.7.6的Tensorflow2.1框架實(shí)現(xiàn)。
實(shí)驗(yàn)部分使用兩種常見的HSⅠ數(shù)據(jù)集:Ⅰndian Pines(ⅠP)和Pavia University(PU)。ⅠP數(shù)據(jù)集由AVⅠRⅠS拍攝于美國印第安納州西北部的農(nóng)業(yè)試驗(yàn)場。空間尺寸為145×145,空間分辨率為17 m/pixel,擁有400~2 500 nm的200 個通道波段,并去除了24 個噪聲波段??煞诸愊裨?0 249個,包含樹林、玉米、燕麥、大豆等16種地物類別。由于數(shù)據(jù)量不足以及地物間的邊界不清晰,因此導(dǎo)致ⅠP 數(shù)據(jù)集中的地物邊界無法得到精確映射。PU 數(shù)據(jù)集是使用光譜成像儀拍攝于意大利帕維亞大學(xué),空間尺寸為610×340,空間分辨率為1.3 m/pixel,擁有430~860 nm 的103 個通道波段,可分類像元42 776個,包含樹林、磚塊、礫石等9種地物類別。由于易散射的物體空間分辨率高,如樹林和人行道,給基于CNN的特征學(xué)習(xí)帶來了很大的困難。兩種HSⅠ數(shù)據(jù)集中具體地物類別像素的數(shù)量和訓(xùn)練數(shù)據(jù)的劃分如表1 和表2所示。
表1 ⅠP每種地物類別的像素數(shù)量Table 1 Number of pixels per feature category in ⅠP
表2 PU每種地物類別的像素數(shù)量Table 2 Number of pixels per feature category in PU
評價標(biāo)準(zhǔn)分別使用整體分類精度(overall accuracy,OA)、平均分類精度(average accuracy,AA)和Kappa(KA)系數(shù)來判斷模型的分類性能。
OA能夠表示模型正確分類的像素數(shù)占總像素的百分比,其計算公式表示為:
其中,IM表示正確分類的像素,IN表示像素總量。
AA是將每一種正確分類的像素與該像素總量之間的比值求和,再取其平均值,其計算公式表示為:
其中,IMk表示第k種地物標(biāo)簽被正確分類的個數(shù),INk表示第k種地物標(biāo)簽的總量,K表示標(biāo)簽類別個數(shù)。
KA 用來檢驗(yàn)?zāi)P偷姆诸惤Y(jié)果和正確結(jié)果是否一致,其計算公式表示為:
其中,IM表示正確分類的像素,IN表示像素總量,INk表示第k種地物標(biāo)簽的總量,IPk表示被模型分類成第k種標(biāo)簽的個數(shù),K表示標(biāo)簽類別個數(shù)。
MSRAN 中不同超參數(shù)的選擇對最終分類精度的影響如圖4 所示。通過實(shí)驗(yàn)分析,當(dāng)鄰域尺寸patch,學(xué)習(xí)率lr,訓(xùn)練輪數(shù)epoch 和隨機(jī)失活率dropout 分別設(shè)置為17、0.002、100和0.2時,模型分類精度取得最高值。
訓(xùn)練樣本不足是目前HSⅠC 任務(wù)面臨的主要困難之一。為了驗(yàn)證MSRAN 在小樣本條件下依然具有良好的特征學(xué)習(xí)能力,本文使用LSTM[19]、DPyResNet[20]、ATT-CapsNet[21]、JSSAN[22]和MSRAN進(jìn)行對比。從兩種數(shù)據(jù)集中隨機(jī)選定一定數(shù)量的標(biāo)簽數(shù)據(jù)作為訓(xùn)練集。具體地,ⅠP 數(shù)據(jù)集隨機(jī)選定1%、2%、4%和5%的標(biāo)簽數(shù)據(jù)作為訓(xùn)練集;PU數(shù)據(jù)集隨機(jī)選定1%、2%、3%和4.5%的標(biāo)簽數(shù)據(jù)作為訓(xùn)練集。如圖5 所示,MSRAN 在小樣本條件下取得了最高的分類精度。
圖5 不同模型在小樣本條件下的分類精度Fig.5 Classification accuracy of different models in small sample condition
為了驗(yàn)證MSRAN每個模塊的合理性,對設(shè)置不同模塊的有效性進(jìn)行實(shí)驗(yàn)論證,對比結(jié)果如表3 和表4 所示。以ⅠP數(shù)據(jù)集為例,可以看出當(dāng)只使用Res2Net而不添加任何注意力模塊時,參數(shù)數(shù)量為497 988,OA 為96.54%;當(dāng)分別嵌入SAM和CAM注意力模塊時,OA分別提升了0.49個百分點(diǎn)和0.58個百分點(diǎn)。當(dāng)只使用本文提出的SSDS-Res2Net而不添加任何注意力模塊時,相較于不使用注意力機(jī)制的Res2Net,參數(shù)量減少了88 832,OA 提升了0.89 個百分點(diǎn);最終,在SSDS-Res2Net 中同時嵌入SAM 和CAM 兩組注意力模塊時,參數(shù)數(shù)量為574 681,此時OA取得最高值。在PU數(shù)據(jù)集中,實(shí)驗(yàn)結(jié)果類似。
表3 MSRAN在ⅠP中的有效性精度對比Table 3 Validity accuracy comparison in ⅠP of MSRAN
表4 MSRAN在PU中的有效性精度對比Table 4 Validity accuracy comparison in PU of MSRAN
為了驗(yàn)證模型的收斂性,使用LSTM、DpyResNet、ATT-CapsNet、JSSAN和MSRAN進(jìn)行實(shí)驗(yàn)對比。如圖6所示,LSTM 和ATT-CapsNet 在前50 個epoch 精度提升較快,但當(dāng)epoch達(dá)到100時還未完全收斂;而DPyResNet和JSSAN在50至100個epoch精度提升較快,但精度均未達(dá)到飽和。MSRAN 在前20 個epoch 精度提升明顯,在100個epoch時精度達(dá)到飽和,模型完全收斂。
圖6 不同模型達(dá)到飽和分類精度所需要的訓(xùn)練輪數(shù)Fig.6 Number of training epochs required by different models to achieve saturation classification accuracy
選擇上述4種高光譜圖像分類模型與MSRAN進(jìn)行對比。除訓(xùn)練數(shù)據(jù)集劃分固定以外,所有模型的超參數(shù)保持原文獻(xiàn)不變,實(shí)驗(yàn)設(shè)置為運(yùn)行10 次,并取其平均值。5種模型的分類精度和參數(shù)數(shù)量如表5所示。
表5 5種分類模型的分類精度和參數(shù)量Table 5 Accuracy and params of five classification models
在ⅠP 數(shù)據(jù)集中,MSRAN 和其他4 種分類模型中性能最好的JSSAN相比,OA、AA和KA分別提升了1.59、1.54個百分點(diǎn)和1.71;而在PU數(shù)據(jù)集中,相較于JSSAN,MSRAN 取得的OA、AA 和KA 分別提升了0.57、0.60 個百分點(diǎn)和0.60。
圖7和圖8分別是5種HSⅠC模型在ⅠP和PU上取得的分類結(jié)果圖。顯然,LSTM在訓(xùn)練樣本較少的情況下出現(xiàn)了明顯的誤差,與真實(shí)地物圖差距較大;DpyResNet、ATT-CapsNet 和JSSAN 的分類精度高于LSTF,但依然在地物邊緣區(qū)域存在較多的誤差,同時有較多的噪聲斑點(diǎn)。MSRAN 利用三維空洞卷積在保證感受野的情況下對HSⅠ初始特征進(jìn)行了提取,得益于SSDS-Res2Net模塊中更為細(xì)分的多尺度卷積核和類殘差結(jié)構(gòu)以及引入空間-通道注意力機(jī)制,MSRAN可以對特征映射中更深層和抽象的特征進(jìn)行感知,從而在訓(xùn)練樣本有限的情況下保證了最終的分類精度。
圖8 5種分類模型獲得的PU預(yù)測圖與真實(shí)圖的對比Fig.8 Comparison between predicted and truth maps of PU obtained by five classification models
本文提出了一種改進(jìn)Res2Net 和注意力機(jī)制的高光譜圖像分類模型。該模型具有參數(shù)量少,收斂速度快,對樣本數(shù)據(jù)依賴性低的特點(diǎn)。得益于SSDS-Res2Net多尺度結(jié)構(gòu)可以在細(xì)粒級學(xué)習(xí)更多感受野的細(xì)節(jié)特征,模型在小樣本條件下依然可以取得不錯的分類精度。此外,通過在模型中嵌入SAM和CAM關(guān)注特定的頻譜通道和空間紋理等上下文信息,進(jìn)一步提升了模型的分類性能。然而該模型在對面積較小的地物進(jìn)行分類時,依然會存在明顯的誤差,這將是今后工作中優(yōu)化的重點(diǎn)。