王煜,張鵬,孫愷悅,孫學(xué)宏,劉麗萍*
(1.寧夏大學(xué) 物理與電子電氣工程學(xué)院,寧夏 銀川 750021;2.寧夏大學(xué) 信息工程學(xué)院,寧夏 銀川 750021)
隨著遙感技術(shù)的發(fā)展,實(shí)現(xiàn)遙感滑坡區(qū)域的自動(dòng)識(shí)別,對(duì)滑坡體監(jiān)測(cè)、地質(zhì)災(zāi)害預(yù)防具有重要現(xiàn)實(shí)意義[1-2]?;伦R(shí)別作為其他研究工作的基礎(chǔ),主要分為人工目視解譯、計(jì)算機(jī)識(shí)別兩類[3-4]。人工目視解譯依據(jù)遙感影像色彩、紋理等幾何特征,與專家知識(shí)、非遙感數(shù)據(jù)相結(jié)合,識(shí)別準(zhǔn)確度較高[5-6],但存在專家知識(shí)依賴性強(qiáng)、遙感信息利用不充分、人工成本高、效率低、定量描述不準(zhǔn)確等局限[7]。
近年來(lái),計(jì)算機(jī)識(shí)別方法取得長(zhǎng)足進(jìn)步。機(jī)器學(xué)習(xí)通過(guò)提取區(qū)域相關(guān)特征,使用多層感知機(jī)(MLP)[8]、支持向量機(jī)(SVM)[9]、人工神經(jīng)網(wǎng)絡(luò)(ANN)[10]等分類器進(jìn)行遙感目標(biāo)識(shí)別,自動(dòng)化程度較高,但模型依賴手工設(shè)計(jì),處理效率較低[11]。深度學(xué)習(xí)算法依托卷積神經(jīng)網(wǎng)絡(luò)(CNN)及大量訓(xùn)練樣本,不用人工構(gòu)建特征圖,大幅提高了識(shí)別效率和精度[12]。深度學(xué)習(xí)的滑坡識(shí)別模型多聚焦于CNN[13-14],如趙福軍等[15]提出的多尺度分割DCNN模型,利用全連接結(jié)構(gòu)提高模型泛化能力,滑坡目標(biāo)提取總體精度達(dá)到87.68%,顯著優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)方法。簡(jiǎn)小婷等[6]基于Faster R-CNN和高分1號(hào)衛(wèi)星影像,實(shí)現(xiàn)了強(qiáng)特征滑坡目標(biāo)的高識(shí)別率,但對(duì)形態(tài)殘缺的滑坡區(qū)域提取有限。針對(duì)滑坡目標(biāo)與地物背景容易混淆的問(wèn)題,姜萬(wàn)冬等[16]提出基于模擬困難樣本的Mask R-CNN滑坡提取方法,該方法檢測(cè)精度達(dá)到94.0%,實(shí)現(xiàn)了低虛警率下的高性能滑坡分割。針對(duì)復(fù)雜場(chǎng)景下遙感目標(biāo)邊緣識(shí)別不佳的問(wèn)題,王曦等[17]基于UNET模型框架,引入FPN結(jié)構(gòu)和BLR損失函數(shù),大幅改善了目標(biāo)邊緣識(shí)別結(jié)果。針對(duì)CNN局部感受野導(dǎo)致滑坡與地表背景難以區(qū)分的問(wèn)題,許瀕支等[18]通過(guò)引入金字塔結(jié)構(gòu)和通道注意力機(jī)制,增強(qiáng)了模型的多尺度特征提取和全局感知能力,在滑坡的完整性保持和區(qū)分光譜信息混淆方面取得明顯提升。此外,編碼器-解碼器結(jié)構(gòu)在滑坡識(shí)別任務(wù)上表現(xiàn)優(yōu)異,張?zhí)N靈等[11]提出多尺度特征融合滑坡分割網(wǎng)絡(luò)框架,通過(guò)稠密連接提取局部特征,利用跳躍連接融合多尺度語(yǔ)義特征。與經(jīng)典分割方法相比,具有更高的檢測(cè)精度,能夠有效削弱遙感影像背景噪聲。
基于卷積神經(jīng)網(wǎng)絡(luò)的滑坡識(shí)別方法利用多層卷積聚合局部特征,缺乏明確捕獲長(zhǎng)期(全局)特征間依賴關(guān)系的能力[19],對(duì)重點(diǎn)滑坡區(qū)域關(guān)注有限[20]。針對(duì)這些問(wèn)題,本文提出一種基于注意力融合的遙感圖像滑坡目標(biāo)識(shí)別方法。首先,在淺層特征中引入通道注意力與空間注意力機(jī)制,增強(qiáng)滑坡區(qū)域的特征權(quán)重。其次,在深層特征層,采用改進(jìn)自注意力(Self-attention,SA)編解碼模塊將上下文特征序列化,最大限度獲取特征間相關(guān)關(guān)系。該方法利用CNN的圖像歸納偏差有效避免了自注意力的大規(guī)模預(yù)訓(xùn)練。本文考慮到滑坡樣本小的問(wèn)題,選擇擴(kuò)充后的武漢大學(xué)滑坡檢測(cè)數(shù)據(jù)集作為研究數(shù)據(jù)源,選擇貴州省畢節(jié)市作為研究區(qū),探索本文方法進(jìn)行滑坡區(qū)域識(shí)別的可行性。
基于注意力融合的滑坡識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。該方法遵循編碼器-解碼器體系結(jié)構(gòu),使用深度可分離卷積替代普通卷積進(jìn)行特征提取,使用卷積塊注意力(Convolutional block attention,CBA)串聯(lián)跳躍連接(Skip connection)進(jìn)行滑坡關(guān)注區(qū)域提取,使淺層特征提取更具針對(duì)性,將自注意力編解碼模塊應(yīng)用到模型的深層特征表示,捕獲高級(jí)語(yǔ)義尺度下的全局依賴關(guān)系。
圖1 基于注意力融合的滑坡識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Landslide identification network structure of attention fusion
自注意力機(jī)制由Vaswani等[21]提出,其善于發(fā)現(xiàn)數(shù)據(jù)特征內(nèi)部的相互關(guān)聯(lián)性,能夠捕獲長(zhǎng)期(全局)依賴關(guān)系。輸入特征圖X∈RC×H×W,其中C、H、W分別為通道維數(shù)、空間高度和寬度。首先,利用卷積將X映射到3個(gè)不同的特征空間Q、K、V∈Rd×H×W,其中d≤C,表示特征通道的維數(shù)。隨后將Q、K、V中單一位置的全通道特征數(shù)據(jù)分別序列化為qi,ki,vi∈R1×d(i∈{1,…,n}),其中n=HW,將Q、K、V特征空間的序列化數(shù)據(jù)分別拼合為Q′,K′,V′∈Rn×d。自注意力輸出fatt是一個(gè)可伸縮點(diǎn)積(Scaled dot-product):
其中,softmax為歸一化指數(shù)函數(shù)。具體來(lái)說(shuō),第i個(gè)查詢的上下文映射矩陣pi用來(lái)計(jì)算qi和每個(gè)ki的相關(guān)聯(lián)程度,以此作為權(quán)重,從vi中收集上下文信 息,qi、ki、vi分別為Q′、K′、V′的第i行序列數(shù)據(jù)。
在自注意力機(jī)制中,序列長(zhǎng)度主導(dǎo)了自注意力計(jì)算。文獻(xiàn)[22]從理論方面證明了由自注意力機(jī)制形成的特征空間矩陣Q、K、V是低秩的,因此我們提出一種改進(jìn)自注意力機(jī)制,即將原序列化數(shù)據(jù)組合K′、V′線性映射為低秩矩陣K″,V″∈Rs×d,其中s?n,自注意力輸出變換為:
經(jīng)過(guò)改進(jìn)的自注意力能夠縮短原序列化數(shù)據(jù)K′、V′的序列長(zhǎng)度,從而達(dá)到減少模型參數(shù),輕量化模型的目標(biāo)。
2.2.1 改進(jìn)自注意力編碼模塊
依照改進(jìn)自注意力機(jī)制設(shè)計(jì)自注意力編碼模塊,結(jié)構(gòu)如圖2所示。該模塊輸入語(yǔ)義特征圖X∈RC×H×W,生成3個(gè)空間矩陣Q、K、V,經(jīng)過(guò)卷積操作得到Q′、K′、V′,再經(jīng)過(guò)線性映射得到低秩矩陣K″、V″,利用Q′對(duì)K′進(jìn)行查詢,獲取查詢結(jié)果Q′K″T,將查詢結(jié)果與隨機(jī)位置矩陣(Positional Encoding)相加并進(jìn)行softmax處理得到矩陣V″序列數(shù)據(jù)間的關(guān)聯(lián)權(quán)重,其中隨機(jī)位置矩陣經(jīng)過(guò)模型訓(xùn)練可以獲取序列數(shù)據(jù)間的位置相關(guān)信息,最后將關(guān)聯(lián)權(quán)重矩陣與值矩陣V″相乘獲取語(yǔ)義特征圖的自注意力。該編碼模塊的本質(zhì)是將特征圖映射為多條序列數(shù)據(jù),將與每條序列數(shù)據(jù)相關(guān)的其他序列數(shù)據(jù)按照相關(guān)性強(qiáng)弱進(jìn)行加權(quán)求和,并利用加權(quán)結(jié)果替代原序列數(shù)據(jù)得到輸出特征圖。改進(jìn)自注意力編碼模塊能夠從通道和空間兩方面縮減特征圖尺度,減少了計(jì)算成本,實(shí)現(xiàn)了特征圖內(nèi)部的自注意力機(jī)制。
圖2 改進(jìn)自注意力編碼模塊Fig.2 Improved self-attention encoder module
2.2.2 改進(jìn)自注意力解碼模塊
改進(jìn)自注意力解碼模塊結(jié)構(gòu)如圖3所示,該模塊利用低級(jí)語(yǔ)義特征X∈RC×H×W生成查詢輸入Q,利用高級(jí)語(yǔ)義特征Y∈RC×h×w生成鍵、值輸入K和V,經(jīng)過(guò)類似編碼模塊的卷積與線性映射得到Q′、K″、V″,通過(guò)查詢結(jié)果Q′K″T獲取兩種語(yǔ)義尺度下序列數(shù)據(jù)間的相關(guān)性矩陣,加入位置信息和softmax處理后獲取特征X反映在特征Y上的相關(guān)性權(quán)重,最后將相關(guān)性權(quán)重與值V″矩陣相乘獲得自注意力特征圖。該解碼模塊的本質(zhì)是獲得兩種語(yǔ)義尺度間序列數(shù)據(jù)的相關(guān)性,選出與低級(jí)語(yǔ)義特征每條序列數(shù)據(jù)相關(guān)的高級(jí)語(yǔ)義序列,將這些高級(jí)語(yǔ)義序列按照相關(guān)性強(qiáng)弱進(jìn)行加權(quán)求和并替換對(duì)應(yīng)的低級(jí)語(yǔ)義特征序列,進(jìn)而獲得由高級(jí)語(yǔ)義序列線性表示的低級(jí)語(yǔ)義特征矩陣,即輸出特征圖。該解碼模塊在繼承編碼模塊優(yōu)勢(shì)的基礎(chǔ)上,能夠捕獲不同特征圖不同空間位置特征的相關(guān)關(guān)系,實(shí)現(xiàn)了特征圖間的自注意力機(jī)制。
圖3 改進(jìn)自注意力解碼模塊Fig.3 Improved self-attention decoder module
卷積塊 注意力 機(jī)制由Woo等[20]提 出,分為通道注意力和空間注意力兩部分,如圖4所示。通道注意力利用特征的通道間關(guān)系,獲取通道注意力圖,進(jìn)而賦予高相關(guān)性通道以高權(quán)重??臻g注意力則與之互補(bǔ),其利用特征間的空間關(guān)系生成空間注意力圖,賦予通道內(nèi)高相關(guān)區(qū)域以高權(quán)重。
圖4 卷積塊注意力模塊Fig.4 Convolutional block attention module
以特征圖X∈RC×H×W作為特征輸入,通道注意力圖為AC∈RC×1×1,空間注意力圖為AS∈R1×H×W。卷積塊注意力過(guò)程可以概括為
其中?表示逐元素乘法。在運(yùn)算過(guò)程中,通道注意力值沿著空間維度進(jìn)行傳播,空間注意力值則沿著通道維度進(jìn)行傳播。
遙感圖像滑坡識(shí)別方法包括3個(gè)階段:數(shù)據(jù)準(zhǔn)備階段,在空間尺度上對(duì)遙感滑坡數(shù)據(jù)集進(jìn)行擴(kuò)充,保證數(shù)據(jù)的一致性和真實(shí)性;訓(xùn)練階段,設(shè)置參數(shù)訓(xùn)練模型,直到損失收斂,最終得到模型的權(quán)重文件;驗(yàn)證階段,輸入待檢測(cè)圖片,加載已訓(xùn)練的模型權(quán)重,通過(guò)特征提取得到5種尺寸的特征圖,尺寸分別為28×28、56×56、128×128、256×256、512×512,利用編解碼得到預(yù)測(cè)滑坡區(qū)域,與真實(shí)滑坡區(qū)域進(jìn)行比較,統(tǒng)計(jì)語(yǔ)義分割相關(guān)指標(biāo)。
本次實(shí)驗(yàn)使用的遙感數(shù)據(jù)集來(lái)自Ji等[23]制作的貴州省畢節(jié)市滑坡數(shù)據(jù)集。該數(shù)據(jù)集是包含滑坡光學(xué)影像及對(duì)應(yīng)數(shù)字高程的公開(kāi)滑坡數(shù)據(jù)集。滑坡數(shù)據(jù)集中正樣本數(shù)量為770,負(fù)樣本數(shù)量為2003,其中光學(xué)影像分辨率為0.8 m,數(shù)字高程數(shù)據(jù)分辨率為2 m。本文選取770正樣本與1000負(fù)樣本進(jìn)行擴(kuò)充,擴(kuò)充后正負(fù)樣本比例基本持平,總樣本數(shù)達(dá)到6083,具體類別如表1所示。
表1 數(shù)據(jù)集類別Tab.1 Dataset category
對(duì)于滑坡識(shí)別效果的評(píng)價(jià),通常選用平均像素精度(mean Pixel Accuracy,mPA)和平均交并比(mean Intersection over Union,mIoU)衡量樣本分割結(jié)果;模型大小(Model size)、參數(shù)量(Parameter)和模型計(jì)算量(Giga Floating Point Operations,GFLOPs)用來(lái)衡量模型量級(jí),模型越小,參數(shù)量越少,計(jì)算量越少,模型越輕量化,復(fù)雜度越低。本文針對(duì)兩種類別的遙感圖像數(shù)據(jù)集進(jìn)行目標(biāo)分割任務(wù),選取mPA、mIoU、精準(zhǔn)率(Precision)、召回率(Recall)、F1指數(shù)、參數(shù)量、模型大小和計(jì)算量作為模型的評(píng)價(jià)指標(biāo)。
其中,TP為真正樣本;TN為真負(fù)樣本;FP為假正樣本;TN為假負(fù)樣本;CPA表示樣本的類別像素精度,CPAP表示滑坡類像素精度,CPAN表示背景類像素精度;IoU表示樣本的類別交并比,IoUP表示滑坡類交并比,IoUN表示背景類交并比。
3.3.1 實(shí)驗(yàn)環(huán)境
本文實(shí)驗(yàn)配置如下:操作系統(tǒng)為64位的Ubuntu系統(tǒng),處理器為Intel Xeon Gold 6240,顯卡為NVIDIA RTX TITAN,內(nèi)存為128 GB。深度學(xué)習(xí)框架為PyTorch1.9.0,其他的主要輔助軟件包括Anaconda4.9.2和Python3.9.7。
實(shí)驗(yàn)輸入圖像尺寸為512×512,epoch設(shè)置為100,學(xué)習(xí)率設(shè)置為0.0001。圖5為模型訓(xùn)練Loss損失曲線圖,可以看出在約65 epochs時(shí),模型開(kāi)始逐漸收斂,最終穩(wěn)定在0.0048左右。
圖5 模型訓(xùn)練loss變化曲線Fig.5 Loss curve during model training
3.3.2 實(shí)驗(yàn)分析
實(shí)驗(yàn)數(shù)據(jù)集大約按照9∶1劃分訓(xùn)練集和測(cè)試集。本次實(shí)驗(yàn)測(cè)試一共為600張圖片,其中包含300個(gè)滑坡正樣本,300個(gè)滑坡負(fù)樣本,模型的滑坡分割識(shí)別結(jié)果如圖6所示。從圖6可以看出,本文模型能夠精確提取滑坡位置,但存在滑坡邊界模糊的情況。造成的原因可能是由于植被區(qū)域光學(xué)影像與高程數(shù)據(jù)的光譜信息存在一致性,使模型無(wú)法分辨出精確的滑坡邊界。
圖6 滑坡分割結(jié)果Fig.6 Landslide detection and segmentation
為驗(yàn)證本文算法的有效性,使用本文遙感圖像數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn),對(duì)比了本文算法與U-net[24]、DeeplabV3+[25]和FCN[26]算 法 在 遙 感圖 像 測(cè) 試數(shù)據(jù)集上的各項(xiàng)分割指標(biāo),如表2所示。
通過(guò)對(duì)比各項(xiàng)分割指標(biāo)可以發(fā)現(xiàn),本文算法與U-net、DeeplabV3+相比,各項(xiàng)分割性能均有所提升,但相較FCN算法,本文算法略有不足,通過(guò)分析發(fā)現(xiàn)可能原因有兩方面:一方面相比于本文的改進(jìn)自注意力機(jī)制,F(xiàn)CN模型的全連接層對(duì)于全局特征提取更為徹底,因而像素的分類精度更高;另一方面,F(xiàn)CN采用跳躍結(jié)構(gòu)(Skip architecture),即融合多個(gè)尺度特征圖生成最終分割結(jié)果。相比于本文算法單一尺度下的特征拼接,這種多尺度特征圖融合方式細(xì)節(jié)信息損失更少,整體信息獲取維度更多,因而能夠幫助FCN提升細(xì)節(jié)和整體兩方面的性能。同時(shí),上述原因也反映出FCN的模型量級(jí)可能遠(yuǎn)大于本文模型。因此,本文針對(duì)參數(shù)量、模型大小和計(jì)算量方面進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表3所示。雖然本文算法在計(jì)算量方面遜色于DeeplabV3+,但參數(shù)量和模型大小均有大幅削減,本文算法的模型大小和參數(shù)量?jī)H是FCN的8.0%。
表3 模型復(fù)雜度對(duì)比Tab.3 Model complexity comparison
結(jié)合表2、3中的各項(xiàng)分割指標(biāo)、參數(shù)量、模型大小、計(jì)算量的對(duì)比結(jié)果可得,本文算法的綜合分割性能要優(yōu)于U-net與DeeplabV3+。與FCN算法相比,本文算法雖在分割精度方面還有待提高,但模型大小與模型計(jì)算量方面均有大幅削減。
表2 分割結(jié)果對(duì)比Tab.2 Comparison of segmentation results
為了驗(yàn)證改進(jìn)自注意力模塊和卷積注意力模塊的有效性,進(jìn)行消融實(shí)驗(yàn),如表4所示。添加改進(jìn)自注意力機(jī)制后,平均像素識(shí)別精度提升明顯,相比U-net提升了3.86%。改進(jìn)自注意力處理前后的特征圖如圖7所示,可以看出經(jīng)過(guò)改進(jìn)自注意力模塊后,滑坡與背景區(qū)域差異得到明顯增強(qiáng)。
圖7 改進(jìn)自注意力處理前后對(duì)比圖Fig.7 Comparison images before and after improved selfattentional processing
表4 不同改進(jìn)策略性能評(píng)估Tab.4 Performance evaluation of different improvement strategies
在編碼器-解碼器框架上添加卷積塊注意力之后,雖然F1指數(shù)提升較小,但mIoU和mPA均有較大提升,分別提升了2.75%和3.15%。圖8(a)和圖8(b)分別表示卷積塊注意力處理前后各個(gè)通道的特征圖,通過(guò)對(duì)比可以發(fā)現(xiàn),經(jīng)過(guò)卷積塊注意力之后,特征圖中滑坡與背景區(qū)域差異得到增強(qiáng)。圖8(c)顯示卷積塊注意力中通道注意力的權(quán)重,可以看出區(qū)域差異明顯的通道被賦予高權(quán)重,符合通道注意力的特點(diǎn)。圖8(d)顯示卷積塊注意力中空間注意力的權(quán)重,滑坡與背景區(qū)域分別被賦予不同權(quán)重,明顯增強(qiáng)了滑坡邊緣區(qū)域。
圖8 卷積塊注意力處理前后對(duì)比圖Fig.8 Comparison images before and after convolutional block attention processing
本文提出的滑坡分割模型融合了改進(jìn)自注意力與卷積塊注意力的優(yōu)勢(shì),綜合分割性能方面優(yōu)于單一注意力模型,與U-net模型相比,mIoU與mPA分別提升了4.23%與3.61%。在實(shí)際工程應(yīng)用中,滑坡分割模型作為輔助手段,通常搭配區(qū)域形變、降水、地形地貌等特征對(duì)滑坡區(qū)域進(jìn)行綜合識(shí)別,因而普遍認(rèn)為模型識(shí)別精度達(dá)到80%以上已經(jīng)能夠滿足實(shí)際工程需要[11,15-16,27]。本文模型識(shí)別精度為96.81%,能夠有效區(qū)分滑坡區(qū)域。同時(shí),隨著深度學(xué)習(xí)技術(shù)發(fā)展,滑坡識(shí)別模型日趨小型化與輕量化,本文模型在保證同量級(jí)滑坡識(shí)別精度的基礎(chǔ)上,大幅削減模型規(guī)模,有效減少了模型的訓(xùn)練成本。
本文提出了基于注意力融合的遙感滑坡目標(biāo)識(shí)別方法。首先,針對(duì)滑坡正負(fù)樣本不均衡的問(wèn)題,對(duì)滑坡數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng);其次,在淺層特征提取中引入卷積塊注意力機(jī)制,增強(qiáng)模型對(duì)局部特征的關(guān)注程度,賦予局部特征不同權(quán)重,突出滑坡與背景區(qū)域的差異性;最后,在高級(jí)語(yǔ)義層引入改進(jìn)自注意力機(jī)制,增強(qiáng)了全局尺度下區(qū)域特征間相關(guān)關(guān)系,進(jìn)一步提升模型識(shí)別精度。實(shí)驗(yàn)結(jié)果表明,本文方法的滑坡識(shí)別準(zhǔn)確率達(dá)到96.81%,像素分割平均準(zhǔn)確率達(dá)到了90.11%,與DeeplabV3+、U-net方法相比在mIoU、mPA方面均有提升,證明了注意力融合方法在滑坡識(shí)別方面的有效性。