袁芊芊 謝維信
(1.深圳大學ATR國防科技重點實驗室,廣東深圳 518060;2.廣東省智能信息處理重點實驗室,廣東深圳 518060)
高光譜圖像中包含了豐富的光譜和空間信息,在對地觀測研究領域起著重要作用,在軍事及民用領域也都有著重要的應用。高光譜圖像數(shù)據(jù)具有波段多、波段寬度窄、光譜分辨率高的特點,但同時也有著特征維度高的缺點。由于其具有的高維特性,容易導致分類器的性能下降,這種現(xiàn)象稱為“休斯(Hughes)”效應。此外,由于高光譜圖像數(shù)據(jù)的密集光譜采樣,高光譜波段中的相關光譜信息通常是高度相關的,高度冗余的信息也會影響高光譜圖像分類的性能。
為了獲得好的分類效果,提取的特征應該具有表示性強、判別性好的特點,特征工程對高光譜圖像分類起著關鍵的作用。傳統(tǒng)的高光譜圖像分類使用基于手工特征的機器學習技術[1-2]。近年來,深度學習逐漸興起,各種各樣的深度學習模型得以開發(fā)[3]。隨著深度學習技術的發(fā)展,基于深度學習的高光譜圖像分類在方法和性能上取得了顯著進展。
當前深度學習領域中最廣泛應用的高光譜圖像數(shù)據(jù)分類工具是卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)模型。它在處理圖像分類問題方面的優(yōu)越性,體現(xiàn)在其可從原始圖像中學習、提取和表示隱藏的、復雜的和非線性的特征的能力[4]。在過去幾年里,研究人員提出了許多可從高光譜圖像數(shù)據(jù)中捕獲復雜特征的深度學習算法,以深入理解和利用豐富的空譜特征[5]。其中三維卷積神經(jīng)網(wǎng)絡(3D-CNN)可以同時提取光譜信息和空間信息,這種光譜空間融合模型考慮了來自高光譜圖像數(shù)據(jù)立方體的光譜特性和空間信息,基于此可以發(fā)展出多種多樣的策略和架構來進行光譜空間信息的處理[6-7]。
He 等人[8]提出的殘差網(wǎng)絡(Residual Network,ResNet)是深度學習中應用最廣泛的骨干網(wǎng)絡架構之一,并且在高光譜圖像分類任務中也得到了應用。ResNet 已被證明在處理空間光譜數(shù)據(jù)中的冗余信息方面是有效的[9]。光譜和空間殘差塊可以有區(qū)別地學習和提取高光譜圖像中豐富的光譜空間信息,其中殘差塊通過恒等映射連接三維卷積層,以促進梯度更好地反向傳播[10-11]。殘差網(wǎng)絡已逐漸成為許多高光譜圖像分類算法的主要特征提取架構[12-13]。例如,Wang等人[14]提出了一種高光譜多尺度ResNet,通過更好地利用不同尺度的可用信息來改進簡單的殘差模型。此外,孟月[15]提出了一種3D-ResNet 分類模型,可以更充分地提取高光譜圖像中的空譜特征,從而進一步提高分類精度,但在數(shù)據(jù)輸入分類模型前需要借助虛擬樣本來增加訓練樣本的數(shù)量。Wang 等人[16]提出了一種深度可分離的全卷積殘差網(wǎng)絡,其中殘差學習和深度可分離卷積可以緩解梯度消失和過擬合的問題,但配合使用的區(qū)域增長方法需要額外的計算成本,因此需要花費大量時間,且在同一類像素相隔很遠的情況下性能欠佳。Mei等人[17]提出了一種級聯(lián)殘差膠囊網(wǎng)絡(Cascade Residual Capsule Network,CRCN),殘差模塊用于學習光譜維度中的高級光譜特征和處理空間相鄰類別的高光譜圖像立方體之間的光譜相似性,但CRCN的架構相當復雜,有待繼續(xù)改進??偟膩碚f,在高光譜圖像的處理方面,目前的一些殘差網(wǎng)絡及其變體或改進,在網(wǎng)絡結構方面還需要進一步發(fā)展,如何在性能改善的同時不增加模型復雜度也是值得進一步研究的問題。
新的CNN 架構設計是比較困難的,因此Hu 等人轉而關注通道關系,提出了可在原有的基礎CNN架構上集成的即插即用的“擠壓和激發(fā)”(Squeezeand-Excitation,SE)塊[18],顯式地將通道注意力機制集成到骨干網(wǎng)絡(backbone)中,以輔助獲取特征之間的通道相關性,提升骨干網(wǎng)絡的性能。Hu等人還把通道注意力模塊實例化地集成到VGG、Inception和ResNet 等骨干網(wǎng)絡中,并在二維圖像分類任務中取得了一定的效果。高光譜圖像數(shù)據(jù)中包含了高度冗余的信息,這會影響高光譜圖像分類的效果。因此,注意力機制有助于模型選擇性地關注具有判別性的信息并忽略冗余信息[19-20]。高光譜圖像立方體中不同的光譜帶和空間位置具有不同的判別能力,如果充分探索,這些先驗信息將有助于提高CNN的學習能力。沿著這個方向,Hang等人[21]提出了一種用于高光譜圖像光譜空間分類的注意力輔助CNN 模型,在每個卷積層中都加入了注意力模塊,使CNN 專注于更具辨別力的通道和空間位置,同時抑制了不必要的通道和空間位置,但也相應增大了模型的復雜度。而楊晴[22]將注意力模塊集成到常用于語義分割任務的經(jīng)典骨干網(wǎng)絡U-Net 上,提出了一種空間注意力網(wǎng)絡來學習高光譜圖像高頻區(qū)域的信息,但模型的泛化性有待提高。Qu 等人[23]提出了三重注意力并行網(wǎng)絡,且應用了一種三重注意機制過濾每個子網(wǎng)絡的特征圖,以獲得更多的空譜信息和更重要的特征通道,但捕獲的特征在類不平衡的情況下魯棒性不足。Zhai 等人[24]提出了基于雙重注意力的多級一維卷積神經(jīng)網(wǎng)絡,分層挖掘局部通道相關性,利用輕量級的子空間注意模塊來學習互補的跨通道依賴關系,然而提取的特征的判別性還可以進一步增強??偟膩碚f,在高光譜圖像的處理方面,目前用于輔助骨干網(wǎng)絡的注意力機制還存在不足,其輔助捕獲的特征的判別性和魯棒性還有待提高。
針對上述問題,為了獲取表示性高、判別性好的特征,提高分類模型的性能,本文提出了一種基于空譜注意力機制及預激活殘差網(wǎng)絡的高光譜圖像分類算法。該方法是一種基于光譜空間的深度卷積神經(jīng)網(wǎng)絡改進的特征學習方法。首先,設計了基于空譜注意力機制的空譜特征提取模塊,以利用注意力機制引導特征提取,更有效地利用高光譜圖像的光譜和空間信息對特征進行重校準,為空譜特征在后續(xù)聯(lián)合學習時能專注于更具辨別力的通道和空間位置提供保證。其次,設計了基于預激活殘差網(wǎng)絡的空譜特征聯(lián)合學習模塊,其中預激活殘差網(wǎng)絡改進了原始殘差構建塊的網(wǎng)絡結構,從而能在空譜特征聯(lián)合學習時獲得表示性更強的深層特征。實驗結果表明,提出的算法在Indian Pines、Kennedy Space Center 以及 University of Pavia 等不同的數(shù)據(jù)集上都能獲得更好的分類性能,表明該算法在獲得判別性更強的光譜空間特征表示方面的有效性和魯棒性。
本文所提出的基于空譜注意力機制及預激活殘差網(wǎng)絡的高光譜圖像分類的框架如圖1所示。該框架中,高光譜圖像的空間鄰域塊X∈RH×W×C是網(wǎng)絡的輸入。首先,利用基于空譜注意力機制的空譜特征提取模塊,從X中提取重校準的空譜特征;其次,利用基于預激活殘差網(wǎng)絡的空譜特征聯(lián)合學習模塊,進行重校準的空譜特征的聯(lián)合學習,獲得鑒別性更強的深層空譜特征表示;最后,對獲得的深層空譜特征表示進行平均池化處理,并通過全連接層以獲得最終的分類圖。
圖1 基于空譜注意力機制及預激活殘差網(wǎng)絡的高光譜圖像分類框架Fig.1 Hyperspectral image classification framework based on spatial-spectral attention mechanism and pre-activation residual network
使用注意力機制的各種模塊,由于其架構精簡,效果良好,且屬于即插即用的模塊,便于集成到骨干網(wǎng)絡中,在卷積神經(jīng)網(wǎng)絡得到了廣泛應用。其中SE 塊[18]以通道域為注意力域,旨在學習一個權重,以表示層或通道內(nèi)激活的相對重要性,但忽略了空間信息。而卷積塊注意模塊(Convolutional block attention module,CBAM)[25]與SE 相比,同時關注了空間域和通道域這兩個注意力域,在全局平均池化的基礎上多了一個全局最大池化,在空間注意力部分,將兩個池化相加激活后再對原特征進行加權,然而,使用最大池化會導致在保留局部信息方面的效果較差。而Roy等人[26]提出的通道擠壓和空間激勵塊(Channel Squeeze and Spatial Excitation Block,sSE )則是通過卷積生成投影張量,作為對于空間位置的所有通道的線性組合表示,然后把投影通過激活再用于加權原特征,能更好地保留相關局部信息。本文借鑒SE 塊和sSE 塊,針對高光譜圖像數(shù)據(jù),設計了基于空譜注意力機制的空譜特征提取模塊。其中,注意力機制分為光譜注意力以及空間注意力兩個部分,用于三維卷積神經(jīng)網(wǎng)絡,分別從光譜和空間維度兩個方面提供注意力特征圖。該機制可以有效地幫助網(wǎng)絡抑制相關性不強的特征,關注重要特征,從而增強網(wǎng)絡對特征的表征能力,提高網(wǎng)絡的分類性能。
本文設計的基于空譜注意力機制的空譜特征提取模塊如圖2所示。把從原始高光譜圖像中選取的三維圖像鄰域塊X作為模塊的輸入,對X使用卷積核大小為1 × 1 × 7、輸出通道數(shù)為C'的三維卷積,得到光譜特征,對X使用卷積核大小為3 ×3 × 1、輸出通道數(shù)為C''的三維卷積,得到空間特征,兩個特征的定義如下:
圖2 基于空譜注意力機制的空譜特征提取模塊示意圖Fig.2 The structure of spatial-spectral feature extraction module based on spatial spectrum attention mechanism
其中,*表示三維卷積操作,W和b分別表示卷積層的權重和偏置,F(xiàn)spectral變換用于提取光譜特征,F(xiàn)spatial變換用于提取空間特征。在卷積過程中,為了實現(xiàn)維度匹配,使用了零填充方式進行邊界填充,這有利于提取圖像邊緣部分的特征,防止信息丟失。
對于光譜特征,為了學習緊湊的特征表示和在特征圖中捕獲光譜通道間的相互依賴關系,首先利用全局平均池化操作來計算關于光譜特征的通道級的描述子Z∈Rc×1:
其中,Zc'表示Z的第c'個元素,H表示光譜特征的底部矩形的高度,W表示光譜特征的底部矩形的寬度,ui,j∈。
然后,為了更好地對光譜信息的相關性進行擬合,描述子Z經(jīng)過一個全連接層(使用三維卷積實現(xiàn)),同時使用ReLU 函數(shù)激活,將Z的特征維度由C'降低為C'/2。維數(shù)的壓縮同時減少了參數(shù)的開銷,也更有利于模型的收斂。
之后再經(jīng)過一個全連接層進行升維,恢復到之前的維度C'。同樣地,再次經(jīng)過ReLU 函數(shù)激活后,得到的特征記為x',輸入Softmax 函數(shù)計算權重分布。Softmax函數(shù)公式[27]如下:
其中,x'表示輸入的特征向量,N表示輸入的特征向量的維數(shù)。Softmax 函數(shù)把輸入的N維特征向量中的每個元素進行指數(shù)變換,得到N個大于0的數(shù)值,再除以它們的和,得到N個概率值作為權重。
應用Softmax 函數(shù)可計算關于光譜通道的一個權重分布,得到光譜注意力向量m,公式如下:
其中,mi是光譜注意力向量m的第i個元素,表示輸入的特征向量的維數(shù)。
最后,將光譜注意力向量m通過元素級乘法加權到光譜特征上,得到光譜注意力加權后的重校準特征,公式如下:
對于空間特征,利用三維卷積操作對其光譜通道維進行壓縮,得到一個空間信息的緊湊特征表示,記為然后,把緊湊特征表示輸入Softmax 函數(shù),計算空間權重分布,得到空間注意力向量n,公式如下:
其中,ni是光譜注意力向量n的第i個元素,表示輸入的特征向量的維數(shù)。
最后,空間注意力向量n通過元素級乘法加權到空間特征上,得到空間注意力加權后的重校準特征,公式如下:
得到重校準特征和重校準特征后,對它們使用特征級加法進行拼接,從而得到最終的基于空譜注意力機制進行重校準的空譜特征V,公式如下:
利用空譜注意力機制對特征進行重校準,能夠獲取高光譜圖像光譜信息的全局與局部相關性,以及空間信息的上下文相關性,有助于在后續(xù)聯(lián)合學習時選擇性地關注更具判別性的信息并忽略高光譜圖像數(shù)據(jù)包含的冗余信息,從而提高網(wǎng)絡產(chǎn)生的特征表示的質量,提高網(wǎng)絡的分類性能。
在眾多深度學習模型當中,ResNet 及其變體[8,28-31]是深受關注的卷積神經(jīng)網(wǎng)絡,通過跳躍連接可以很好地處理消失梯度問題。為了在網(wǎng)絡中前后傳播信息,原始的ResNet 通過將殘差塊深度疊加在一起而形成。原始的基本殘差塊(basic block)的網(wǎng)絡結構如圖3所示。
圖3 原始的基本殘差塊示意圖Fig.3 The structure of the original basic residual block
在原始的基本殘差塊的網(wǎng)絡結構中,信號進入分支前沒有經(jīng)過標準化處理,在網(wǎng)絡訓練過程中,其分布會逐漸發(fā)生偏移或者變動,這造成了學習困難;而信息傳播的最直接的路徑(由圖3中大的橙色箭頭表示)上也沒有應用正則化,容易產(chǎn)生過擬合現(xiàn)象,限制了模型的學習能力。而Duta等人[31]提出了I-ResNet,這是ResNet 的改進版本,對ResNet 的網(wǎng)絡層的信息流、殘差構建塊結構和投影快捷方式作出了改進,并在二維圖像分類任務中取得了效果。本文在I-ResNet中改進殘差構建塊結構的基礎上,針對高光譜圖像數(shù)據(jù),設計了基于預激活殘差網(wǎng)絡的空譜特征聯(lián)合學習模塊,通過進一步改進預激活殘差網(wǎng)絡中的殘差構建塊網(wǎng)絡結構來促進特征學習,從而獲得了更具鑒別性的深層光譜空間特征表示。
模塊的結構如圖4所示。模塊的輸入為基于空譜注意力機制重校準的空譜特征V。該模塊由預激活的光譜特征學習殘差塊(a)、refactor 層和預激活的空間特征學習殘差塊(b)先后級聯(lián)構成。兩個殘差塊具有相似的結構,均由若干個BN 層、ReLu 層、Conv3D 層構成,其不同之處在于三維卷積核的大小,殘差塊(a)中卷積核大小為(1,1,7),殘差塊(b)中卷積核大小為(3,3,1)。與原始的基本殘差塊(圖3)相比,預激活的殘差塊主要有以下三點不同。其一,在第一個卷積層前加入了BN 層和ReLu層作為預激活單元,通過預激活單元對輸入分支的信號做標準化處理,把輸入值的分布恢復為更穩(wěn)定的分布,這種穩(wěn)定的信號作為輸入使得模型更易于優(yōu)化。其二,針對高光譜圖像數(shù)據(jù)的特性將卷積層由二維卷積改為三維卷積,便于光譜特征和空間特征的聯(lián)合學習。其三,將分支的最后一個BN 層移動到應用加法操作進行信號合并之后,使得全信號經(jīng)過正則化后再通過ReLU 層進行激活,避免產(chǎn)生過擬合現(xiàn)象,提升了模型的特征學習能力。
圖4 基于預激活殘差網(wǎng)絡的空譜特征聯(lián)合學習模塊示意圖Fig.4 The structure of spatial-spectral feature joint learning module based on pre-activated residual network
具體地,重校準的空譜特征V先經(jīng)過預激活的光譜特征學習殘差塊(a),得到空間信息聚焦的光譜特征V',公式如下:
其中,F(xiàn)res_spectral表示一個可學習的殘差映射函數(shù),表示Fres_spectral中所有的BN 層及Conv3D 層中可訓練的參數(shù)。
然后經(jīng)過refactor 層進行重構,將特征V'轉換為適合下一殘差塊(b)輸入的形式。refactor 層在轉換特征的同時,也壓縮了特征V'的維度,從而有效地減少了網(wǎng)絡訓練的參數(shù)。最后,將refactor層輸出的轉換后的特征S輸入預激活的空間特征學習殘差塊(b),得到光譜信息聚焦的空間特征S',公式如下:
其中,F(xiàn)res_spatial表示一個可學習的殘差映射函數(shù)表示Fres_spatial中所有的BN層及Conv3D層中可訓練的參數(shù)。
上述基于預激活殘差網(wǎng)絡的空譜特征聯(lián)合學習模塊中,預激活殘差塊一方面對進入分支的信號進行了標準化處理,通過穩(wěn)定輸入值的分布使得模型易于優(yōu)化;另一方面在信息傳播的最直接的路徑(由圖3 中大的橙色箭頭表示)上應用了BN 層對全信號作正則化處理,避免了過擬合現(xiàn)象的產(chǎn)生。同時,預激活殘差網(wǎng)絡中構建了級聯(lián)的三維卷積核大小不同的兩個預激活殘差塊以處理高光譜圖像數(shù)據(jù)??梢钥闯?,預激活殘差網(wǎng)絡改進了原始殘差構建塊的網(wǎng)絡結構,從而能在利用注意力機制重校準的空譜特征的聯(lián)合學習時獲取更多含有豐富的深層細節(jié)信息的特征表示,這些從高光譜圖像數(shù)據(jù)中捕獲的深層特征判別性更強,有利于提高分類器的分類性能。
在基于預激活殘差網(wǎng)絡的空譜特征聯(lián)合學習模塊之后,使用平均池化層將提取的含有深層光譜空間信息的三維特征圖轉換為特征向量。最后,利用具有Softmax 函數(shù)的全連接層根據(jù)高光譜圖像中土地覆蓋類別的數(shù)量進行分類。全連接層作為一個分類器,可以將特征向量由特征空間映射到樣本標記空間。通過采用常用的多分類交叉熵函數(shù)作為Loss 函數(shù),計算預測向量和真值標簽向量y之間的誤差。網(wǎng)絡訓練的參數(shù)則通過反向傳播交叉熵函數(shù)的梯度進行更新。通過參數(shù)更新,可以合理地調整特征圖對分類結果的影響。多分類交叉熵函數(shù)的公式為:
其中,L表示batch_size 的大小,J表示土地覆蓋類別的總數(shù)。
所有的權值都是隨機初始化的,并使用Adam優(yōu)化器學習三維光譜-空間濾波器組的權值。該優(yōu)化器可以平滑地反向傳播由損失函數(shù)生成的網(wǎng)絡梯度流。學習率設置為0.0001,batch_size 設置為16,每次運行200 個epochs。整個過程重復5 次,以報告平均精度和標準偏差。
為了驗證本文提出的算法的有效性,在三個著名的高光譜圖像分類基準數(shù)據(jù)集:印度松(Indian Pines,IP)、肯尼迪太空中心(Kennedy Space Center,KSC)以及帕維亞大學(University of Pavia,UP)上進行了分類實驗。實驗中,從數(shù)據(jù)集中隨機挑選部分數(shù)據(jù)作為訓練集,剩余的用于測試,一共進行5次實驗,并計算標準差。
實驗采用了總體分類精度(Overall Accuracy,OA)、平均分類精度(Average Accuracy,AA)和Kappa系數(shù)等指標,以評估模型的分類性能。其中,OA 表示在總的測試樣本中正確分類樣本所占的比例;AA表示每一類的分類準確率的平均值;Kappa 系數(shù)是基于混淆矩陣計算的衡量分類精度的指標,用于檢驗網(wǎng)絡模型生成的分類圖與給定的地面標記模板的一致性,它的值通常落在0~1 間,越接近1 表明分類精度越高。
將提出的算法與傳統(tǒng)算法以及具有代表性的一些基于深度學習的高光譜圖像分類算法進行比較,對比算法包括MLR[32]、LSTM[33]等傳統(tǒng)算法以及ResNet[8]、MS-3DNet[34]、SSRN[10]、DPyResNet[35]、ENL-FCN[36]和A2S2K-ResNet[37]等深度學習算法。對比算法與提出的算法均使用10%的數(shù)據(jù)作為訓練集,剩余的90%用于測試。并且,為了進一步驗證提出的算法中空譜注意力機制以及預激活殘差網(wǎng)絡的有效性,使用5%的數(shù)據(jù)作為訓練集,剩余的95%用于測試,其他實驗設置保持不變,進行消融實驗。實驗從原始高光譜圖像數(shù)據(jù)中選取大小為9 × 9 ×B的三維圖像鄰域塊作為輸入,其中B為光譜維數(shù)。實驗平臺的配置為GTX1080Ti 顯卡以及Linux操作系統(tǒng),并基于Pytorch深度學習框架實現(xiàn)。
IP 數(shù)據(jù)集是由AVIRIS 傳感器在印第安納州西北部的印度松測試現(xiàn)場獲取的場景,由145x145 像素和224 個波段組成,其中有效波段200 個。此場景是較大場景的子集,一共有16個農(nóng)作物類別。
KSC 數(shù)據(jù)集是由AVIRIS 傳感器在佛羅里達州肯尼迪太空中心拍攝獲取的場景,一共包含了224個波段,經(jīng)過水汽噪聲去除后還剩下176 個波段。此場景的幾何分辨率為18 米,一共有13 個類別,代表了此場景中的各種土地覆蓋類型。
UP 數(shù)據(jù)集是由ROSIS 傳感器在意大利北部帕維亞上空進行的一次飛行比賽中獲得的場景,由610x340 像素和103 個波段組成。此場景的幾何分辨率為1.3米,一共有9個地物類別。
本文提出的基于空譜注意力機制及預激活殘差網(wǎng)絡的高光譜圖像分類算法與8種對比算法模型在IP、KSC 和UP 數(shù)據(jù)集上的分類結果分別如表1~表3 所示。圖5~圖7 則分別給出了提出的算法與6種深度學習對比算法在IP、KSC 和UP 數(shù)據(jù)集上的高光譜圖像分類圖。
表1 不同算法模型在IP數(shù)據(jù)集上的分類結果Tab.1 Classification results of different algorithm models for IP dataset
表2 不同算法模型在KSC數(shù)據(jù)集上的分類結果Tab.2 Classification results of different algorithm models for KSC dataset
表3 不同算法模型在UP數(shù)據(jù)集上的分類結果Tab.3 Classification results of different algorithm models for UP dataset
圖5 IP數(shù)據(jù)集分類圖,(a)偽色彩圖像,(b)地面標記模板,(c)ResNet,(d)MS-3DNet,(e)SSRN,(f)DPyResNet,(g)ENL-FCN,(h)A2S2K-ResNet,(i)本文算法Fig.5 Classification map of IP dataset,(a)False-color composite image,(b)Ground truth,(c)ResNet,(d)MS-3DNet,(e)SSRN,(f)DPyResNet,(g)ENL-FCN,(h)A2S2K-ResNet,(i)Proposed algorithm
圖6 KSC數(shù)據(jù)集分類圖,(a)偽色彩圖像,(b)地面標記模板,(c)ResNet,(d)MS-3DNet,(e)SSRN,(f)DPyResNet,(g)ENL-FCN,(h)A2S2K-ResNet,(i)本文算法Fig.6 Classification map of KSC dataset,(a)False-color composite image,(b)Ground truth,(c)ResNet,(d)MS-3DNet,(e)SSRN,(f)DPyResNet,(g)ENL-FCN,(h)A2S2K-ResNet,(i)Proposed algorithm
圖7 UP數(shù)據(jù)集分類圖,(a)偽色彩圖像,(b)地面標記模板,(c)ResNet,(d)MS-3DNet,(e)SSRN,(f)DPyResNet,(g)ENL-FCN,(h)A2S2K-ResNet,(i)本文算法Fig.7 Classification map of UP dataset,(a)False-color composite image,(b)Ground truth,(c)ResNet,(d)MS-3DNet,(e)SSRN,(f)DPyResNet,(g)ENL-FCN,(h)A2S2K-ResNet,(i)Proposed algorithm
從表1~表3 可以看出,在三個數(shù)據(jù)集上,本文算法的分類結果在OA、AA 和Kappa 上均優(yōu)于8 種對比算法。其中,在IP 數(shù)據(jù)集上分類準確率提升最多,在UP 數(shù)據(jù)集上分類準確率提升最少。這與訓練數(shù)據(jù)的標記樣本數(shù)量有關,UP數(shù)據(jù)集的標記樣本數(shù)量是最多的,原來的一些算法在10%的有限訓練樣本下,UP數(shù)據(jù)集上的分類結果都幾乎達到了99%以上,所以可提升空間有限。而IP 數(shù)據(jù)集的標記樣本數(shù)量最少,尤其是其中的第9 類(圖5 中的Oats),僅包含20 個標記樣本,所以該數(shù)據(jù)集更具挑戰(zhàn)性,可提升空間更大。不同算法在IP 數(shù)據(jù)集的第9 類(Oats)的單類分類精度如表4 所示。從表4 可以看出,本文算法與MLR、LSTM、ResNet、MS-3DNet、SSRN、DPyResNet、ENL-FCN 以 及A2S2K-ResNet 相比,在Oats 類的分類精度上分別提高了78.45%、30.31%、23.18%、17.34%、27.76%、17.35%、11.79%和9.75%。
表4 不同算法模型關于IP數(shù)據(jù)集的Oats類的單類分類精度Tab.4 Single-class classification accuracy of different algorithmic models on the Oats of IP dataset
從圖5~圖7 可以看出,本文算法所產(chǎn)生的分類圖與地面標記模板相比,分類錯誤的像素點更少。在最具挑戰(zhàn)性的IP數(shù)據(jù)集的分類圖(圖5)中可以觀察到,與圖5(c)~(h)相比,圖5(i)把第9 類(Oats)錯誤分類為其他類別的像素點更少。
因此,綜合在OA、AA 和Kappa 上的分類結果、在最具挑戰(zhàn)性的IP 數(shù)據(jù)集的Oats 類上的單類分類精度以及分類圖等實驗對比結果可以看出,所提出的基于空譜注意力機制及預激活殘差網(wǎng)絡的高光譜圖像分類算法可以更有效地獲取判別性更強的特征,從而提升分類性能。
為了驗證空譜注意力機制和預激活殘差網(wǎng)絡的有效性,構建了3 個對比網(wǎng)絡模型,使用5%的數(shù)據(jù)作為訓練集進行消融實驗。三個對比網(wǎng)絡模型分別是不包含空譜注意力機制的預激活殘差網(wǎng)絡(模型1)、包含空譜注意力機制的原始殘差網(wǎng)絡(模型2)以及本文提出的包含空譜注意力機制的預激活殘差網(wǎng)絡(模型3)。這三個網(wǎng)絡模型在IP、KSC 和UP 數(shù)據(jù)集上的分類結果分別如表5~表7 所示。從表5~表7 中可以看出,在三個數(shù)據(jù)集上,本文算法(模型3)的分類結果在OA、AA 和Kappa 上均優(yōu)于模型1 和模型2。與不包含空譜注意力機制的模型1 相比,本文算法(模型3)在三個數(shù)據(jù)集上的分類性能都有明顯提升,表明空譜注意力機制的有效性。另外,與將預激活殘差網(wǎng)絡替換為原始殘差網(wǎng)絡的模型2 相比,本文算法(模型3)在標記樣本數(shù)量充足的KSC、UP數(shù)據(jù)集上提升較少,在標記樣本數(shù)量較少的IP 數(shù)據(jù)集上的分類性能提升明顯,也表明了預激活殘差網(wǎng)絡的有效性。
表5 不同網(wǎng)絡模型在IP數(shù)據(jù)集上的分類結果Tab.5 Classification results of different network models on IP datasets
表6 不同網(wǎng)絡模型在KSC數(shù)據(jù)集上的分類結果Tab.6 Classification results of different network models on KSC datasets
表7 不同網(wǎng)絡模型在UP數(shù)據(jù)集上的分類結果Tab.7 Classification results of different network models on UP datasets
為了比較不同網(wǎng)絡模型的復雜度,表8 給出了不同深度學習算法模型的參數(shù)量,即反向傳播過程中更新的可訓練權重參數(shù)的數(shù)量。對比表8中不同模型使用的參數(shù)量,可以觀察到,ENL-FCN 使用的參數(shù)數(shù)量最少,而ResNet 需要的參數(shù)數(shù)量最多。提出的算法模型與SSRN、A2S2K-ResNet 模型使用的參數(shù)數(shù)量近似相同,但比SSRN 和A2S2K-ResNet 都要少,表明模型在分類性能提高的同時也保持了相似的模型復雜度。
表8 不同深度學習算法模型的參數(shù)量Tab.8 Parameters of different deep learning algorithm models
針對基于深度學習的高光譜圖像分類算法中提取的特征表示判別性不強而導致分類性能難以提升的問題,本文提出了基于空譜注意力機制及預激活殘差網(wǎng)絡的高光譜圖像分類算法。本文算法以空間-光譜信息為基礎,探究獲取判別性更強的光譜空間特征表示的方法。所提出的基于空譜注意力機制的空譜特征提取模塊可以有效地利用注意力機制捕獲高光譜圖像光譜信息的全局與局部相關性,以及空間信息的上下文相關性,從而對空譜特征進行重校準,為空譜特征在后續(xù)聯(lián)合學習時能專注于更具辨別力的通道和空間位置提供保證。此外,所提出的基于預激活殘差網(wǎng)絡的空譜特征聯(lián)合學習模塊中,預激活殘差網(wǎng)絡改進了原始殘差構建塊的網(wǎng)絡結構,從而能在注意力機制重校準的空譜特征的聯(lián)合學習時捕獲更具鑒別性的深層空譜特征,以提高分類器的分類性能。本文提出的高光譜圖像分類算法在Indian Pines、Kennedy Space Center 以及 University of Pavia 這3 個數(shù)據(jù)集上進行了實驗,實驗結果表明,提出的算法可以有效提升高光譜圖像分類性能,驗證了算法在提取判別性更強的特征表示方面的有效性和魯棒性。后續(xù)可考慮通過獲取不同尺度上的空間-光譜信息對網(wǎng)絡進行改進,以進一步提高獲得的特征的鑒別性,提升高光譜圖像分類的準確率。