顧軍華,崔彭滔,徐雯佳
(1. 河北工業(yè)大學人工智能與數(shù)據(jù)科學學院,天津 300401;2. 河北省大數(shù)據(jù)計算重點實驗室(河北工業(yè)大學),天津 300401;3. 河北省水文工程地質(zhì)勘查院(河北省遙感中心), 石家莊 050021)
近年來,隨著衛(wèi)星和航拍飛機技術的發(fā)展,光學遙感圖像的分辨率有所提升,圖像包含的信息更加豐富,其顏色、紋理、形狀等特征更加清晰。精準且快速地提取出顯著目標,在建筑物分割、飛機檢測、精確制導等領域有著極其重要的意義。因此,光學遙感圖像顯著性目標檢測受到了廣泛關注。
隨著深度學習在圖像領域的發(fā)展,卷積神經(jīng)網(wǎng)絡(CNN)以其強大的自主學習能力和特征捕獲能力得到了越來越廣泛的關注。2015 年,Long等[1]提出了全卷積網(wǎng)絡(FCN),將傳統(tǒng)CNN中的全連接層換成卷積層,這樣網(wǎng)絡的輸出將是熱力圖而非類別;此外,為了解決卷積和池化導致的圖像尺寸變小的問題,它采用上采樣方式對圖像尺寸進行恢復。同年,Ronneberger等[2]提出了U-Net 用于語義分割任務,將編碼器-解碼器的方法用于圖像領域,這為后續(xù)的研究提供了思路。Li 等[3]提出了LV-Net,該網(wǎng)絡首先采用雙流金字塔模塊將一系列互補的信息層次化地抽取出來,目的是保留顯著對象的多尺度信息和局部細節(jié),然后使用編碼器-解碼器結(jié)構(gòu)抑制圖像噪聲。Li等[4]設計了一個并行融合網(wǎng)絡來實現(xiàn)遙感圖像顯著性目標檢測。Zhang等[5]提出的DAFNet 受到U-Net 和注意力機制的啟發(fā),設計了密集注意流結(jié)構(gòu)來結(jié)合多層次特征信息,并使用全局上下文感知模塊使特征保持一致性。盡管上述方法可以獲得較好的顯著性檢測結(jié)果,但是采用U-Net作為主干網(wǎng)絡,使得遙感圖像在編碼的過程中,隨著網(wǎng)絡層數(shù)的加深,其特征所包含的紋理信息越來越少,這會導致網(wǎng)絡中特征圖所包含的信息越來越抽象,從而不利于遙感圖像顯著性目標檢測。另外,U-Net 的編碼層和解碼層中間通常使用跳躍連接的方式直接進行傳輸,這會導致在編碼層向解碼層傳輸特征的過程中,將淺層特征中的噪聲一并傳輸給解碼層,從而降低網(wǎng)絡對小目標檢測的準確度。因此,本文提出了一種特征引導網(wǎng)絡(feature-guided networks,F(xiàn)gNet)用于光學遙感圖像顯著性目標檢測,并在EORSSD 數(shù)據(jù)集上進行驗證。
本研究提出的特征引導網(wǎng)絡模型旨在提取遙感圖像中豐富的語義信息和紋理信息,去除其中的干擾信息,強化網(wǎng)絡特征提取能力,以解決顯著目標誤判的問題,其網(wǎng)絡結(jié)構(gòu)如圖1所示。模型由編碼器、亞像素卷積解碼器和特征引導解碼器組合而成。對于給定的輸入圖像首先經(jīng)過編碼器,提取出多個不同尺度下的特征圖。之后將提取出來的多個特征圖分別輸入到亞像素卷積解碼器和特征引導解碼器中,再將生成的兩個特征圖進行融合,最后通過輸出模塊生成最終的預測結(jié)果。其中使用深監(jiān)督的訓練方式對亞像素卷積解碼器和特征引導解碼器的輸出結(jié)果進行輔助訓練,用來解決網(wǎng)絡訓練梯度消失和收斂速度過慢等問題。輸出模塊使用卷積層和激活函數(shù)組成。
圖1 特征引導網(wǎng)絡模型
為了解決光學遙感圖像顯著性檢測算法中存在的顯著目標誤判問題,設計了特征引導解碼器,使網(wǎng)絡精確地識別顯著區(qū)域,抑制背景噪聲和無關信息,提高網(wǎng)絡對顯著目標整體的識別精度和魯棒性。
特征引導解碼器是由四個全局注意力模塊組成的,全局注意力模塊網(wǎng)絡結(jié)構(gòu)如圖2所示,具體流程如下:首先將深層的特征輸入到卷積模塊中,之后將三維特征圖變成二維特征圖,再將其進行轉(zhuǎn)置并與自身進行矩陣相乘;然后再次與自身相乘,使特征圖恢復到原先尺度,進行跳躍連接操作;最后通過卷積模塊與較淺層的特征圖相融合輸出結(jié)果。其中卷積模塊由卷積層、激活函數(shù)和歸一化層堆疊而成。計算過程如下:
圖2 特征引導模塊
其中,Ei為第i層編碼器的輸入,C3(·)為3 × 3卷積操作,f為卷積結(jié)果,R(·)為將三維特征轉(zhuǎn)換為二維特征,R-1(·)為將二維特征轉(zhuǎn)換為三維特征,T為轉(zhuǎn)置操作,W為輸出結(jié)果。
通過矩陣相乘使特征圖中的像素點與整個特征圖進行計算,計算出當前像素點在全局中的權(quán)重,因此全局像素之間的關系被有效地編碼。最后通過跳躍連接補充特征信息,在豐富特征信息的基礎上,也保持了整個顯著性區(qū)域的特征一致性。
亞像素解碼器的目的是在上采樣的過程中減少信息的丟失,提高特征的豐富性,從而更好地進行檢測和分割。它主要是由四個亞像素卷積模塊組成,其中亞像素卷積模塊的作用是將高層次抽象的特征圖與低層次的特征圖進行融合,使特征圖所包含的信息變豐富,以提高模型對顯著目標檢測的性能。因為通常情況下,高層次特征圖對應著全局語義信息,而低層次特征圖則對應著更為細節(jié)化的信息,亞像素卷積模塊的結(jié)構(gòu)如圖3所示。
圖3 亞像素卷積模塊
具體流程如下:首先模塊將特征圖Ei輸入到1 × 1 卷積層進行通道調(diào)整,其目的是降低通道數(shù),減少模型參數(shù)量,提高模型運行速度。同時將Di+1進行亞像素上采樣使特征尺度變大,之后將調(diào)整后的Di+1和Ei分別輸入到3 × 3 卷積層中進行融合,并進行像素級相乘操作,再將輸出與亞像素上采樣的輸出進行像素級相加,最后通過3 × 3 卷積層輸出,為接下來的操作做準備。其計算公式如下所示:
其中,Di代表第i個亞像素卷積模塊的輸出,C1代表卷積核大小為1 × 1 的卷積操作,E'i代表中間輸出,Sub(·)代表亞像素上采樣。
亞像素上采樣不同于普通的上采樣操作,圖像的雙線性插值上采樣算法中,目標圖像中新創(chuàng)造的像素值,是由源圖像位置在它附近的2 × 2 區(qū)域4 個鄰近像素的值通過加權(quán)平均計算得出的。雙線性插值的缺點之一是在高頻紋理的情況下會出現(xiàn)模糊和失真的情況。這是因為雙線性插值只考慮了目標像素周圍4個像素的值來計算插值結(jié)果,而沒有考慮更廣泛的區(qū)域。因此,當目標像素周圍存在高頻紋理時,雙線性插值會產(chǎn)生過度平滑的結(jié)果,導致圖像失真。逆卷積上采樣中,把一張小圖片變成大圖片,需要在空白處填充0,這對于網(wǎng)絡來說是無效信息。但是亞像素上采樣不一樣,它主要是對特征圖進行卷積操作,并在通道的維度上劃分成若干個組,并在每一組間將組內(nèi)的特征圖按照一定的規(guī)律重新組合成一個分辨率更高的特征圖,從而完成上采樣。它可以使圖像在增加分辨率的同時保留更多的細節(jié),減少信息損失,降低模糊度,不會出現(xiàn)高頻分量受損和無效填充等問題,從而提高網(wǎng)絡語義分割的性能。其詳細過程如下,特征圖中每四個通道按照一定的規(guī)則合成一個通道,之后特征圖的尺度會變?yōu)樵瓉淼膬杀叮ǖ雷優(yōu)樵瓉淼乃姆种?,從而實現(xiàn)特征圖的兩倍上采樣,如圖4所示。
圖4 亞像素上采樣
在顯著性目標檢測中,交叉熵損失通常用于衡量模型的預測結(jié)果與真實標簽之間的差異。由于顯著性目標檢測任務的特殊性質(zhì),通常采用二分類交叉熵損失來度量模型對于每個像素點是否屬于顯著目標,作為判斷網(wǎng)絡模型準確性的標準之一。其計算過程如下:
其中,Gij和Pij為標簽G和預測的顯著圖P在位置(i,j)的值。
與交叉熵損失函數(shù)不一樣的是,交并比損失(IoU)主要用于衡量模型預測的顯著圖和標簽之間的重疊程度,進而指導模型優(yōu)化,其計算過程如下:
結(jié)構(gòu)相似性損失的主要思想是比較兩張圖像的結(jié)構(gòu)相似性指數(shù)(SSIM),SSIM 是基于人類感知對圖像質(zhì)量的評估而提出的一種圖像相似性度量方法。通過計算兩張圖像的結(jié)構(gòu)相似性指數(shù),可以得到它們的相似程度。具體地,結(jié)構(gòu)相似性指數(shù)包含三個方面的信息:亮度、對比度和結(jié)構(gòu)。其計算過程如下:
其中,x、y分別是預測圖和標簽,μx是x的平均值,μy是y的平均值,是x的方差,是y的方差,σxy是x和y的協(xié)方差,M1和M2是維持穩(wěn)定的兩個變量。之后將三個損失函合作為本模型的損失函數(shù),計算方式如下:
為了使模型的性能有所提高,將深層次監(jiān)督的方法用于本網(wǎng)絡訓練中,因為深層次監(jiān)督方法主要是通過在中間層添加監(jiān)督,使網(wǎng)絡更容易訓練和優(yōu)化。特征引導解碼器生成的顯著圖S1的損失計算如下:
亞像素解碼器生成的顯著圖S2的損失計算方式如下:
基于以上討論,模型最終的損失函數(shù)定義如下:
該實驗使用EORSSD 數(shù)據(jù)集來驗證模型。EORSSD 包含2000 張圖像,其中1400 張圖像用于訓練,600 張圖像用于測試。值得注意的是,EORSSD數(shù)據(jù)集中的每一幅圖像都提供了像素級注釋。此外,為了訓練提出的模型,我們對圖像進行了90°、180°和270°的角度旋轉(zhuǎn),并對這些圖像進行鏡像反轉(zhuǎn)來進一步增加訓練集的數(shù)量。
該模型是使用PyTorch 框架在CPU 型號為E5-2620 V4,顯卡型號為NVIDIA GTX 3060GPU的設備上實現(xiàn)的。此外,采用Adam 算法對網(wǎng)絡進行優(yōu)化,其中初始學習率、批量大小和最大迭代數(shù)依次設置為1e-4、8和200。
為了證明我們所提出網(wǎng)絡的有效性,將提出的方法與其它17 種目前最先進的方法進行了比較。這些方法包括PoolNet[6](CVPR 2019)、EGNet[7](ICCV 2020)、DSS[8](CVPR 2017)、RADF[9](AAAI 2018)、PFAN[10](CVPR 2019)、GateNet[11](ECCV 2020)、SUCA[12](IEEE 2020)、PA-KRN[13](AAAI 2021)、LVNet[3](IEEE 2019)、MJRBM[14](IEEE 2021)、SARNet[15](RS 2021)、EMFINet[16](IEEE 2021)、CSNet[17](ECCV 2020)、SAMNet[18](IEEE 2021)、AGNet[19](CVPR 2022)、ERPNet[20](IEEE 2022)、CorrNet[21](CVPR 2022)。表1顯示了不同方法在三個指標上的比較,以及本文方法和其它顯著性目標檢測方法在F 度量、平均絕對誤差(MAE)、S度量上的評價得分。其中,平均絕對誤差越小越好,其它指標都是越大越好。
表1 對比實驗結(jié)果
如表1所示,本模型在F 度量、平均絕對誤差、S度量三個指標上均有所提升,為了更加直觀地比較,本文提供了圖5的比較結(jié)果,以展示所提出模型的優(yōu)越性。從第1、2、3、4 行可以看出,本模型所展示的結(jié)果更加完整。從第5、6、7 行可以看出本模型更加關注顯著目標的輪廓。對于背景干擾的問題,在圖5中也展示出了更加全面的對比,說明本模型對背景噪音有較強的抑制力。綜上所述,實驗結(jié)果充分證實了該方法在遙感圖像顯著目標檢測任務上的有效性和優(yōu)越性。
圖5 不同模型之間的實驗對比結(jié)果
本文進行了一系列的消融實驗來研究所提不同模塊的重要性,該實驗將采用相同的實驗設置,如圖6 所示。其中,基礎網(wǎng)絡中的編碼器由ResNet網(wǎng)絡構(gòu)成,解碼器由三個卷積塊構(gòu)成。之后先使用亞像素卷積解碼器替換解碼器,再加入特征引導解碼器作為本次測試的最終網(wǎng)絡。
圖6 消融實驗結(jié)果對比
2.3.1 亞像素卷積解碼器的分析
與基礎模型相比,引入了亞像素卷積解碼器后的結(jié)果變化如表2所示,F(xiàn)度量從0.8710提高到0. 8849,提升了1.39 個百分點。平均絕對誤差從0.0113 降低到0.0097,下降0.16 個百分點。S度量從0.8960提高到0.9114,提升了1.54個百分點。
表2 消融實驗結(jié)果
此外,通過圖6(c)列和(d)列的對比,從第一行可以看出,顯著目標的整體輪廓更加清晰,說明添加亞像素卷積解碼器后,網(wǎng)絡能夠提取更多的特征。
2.3.2 特征引導解碼器的分析
引入了特征引導解碼器后的結(jié)果變化如表2所示,F(xiàn) 度量從0. 8710 提高到0. 8901,提升了1.91 個百分點。平均絕對誤差從0.0113 降低到0. 0083,下降0.3 個百分點。S 度量從0.8960 提高到0.9213,提升了2.53個百分點。
從消融實驗結(jié)果對比中可以看出添加該模塊后,網(wǎng)絡的抗干擾能力有明顯的提升,對于顯著目標的提取以及抑制周圍環(huán)境干擾有明顯的改善。例如在圖6(c)列和(e)列的對比中,從第一行可以分析出引入特征引導解碼器能夠明顯提高顯著目標的完整性,另外也使模型對周圍的噪聲進行有效的抑制;從第二行可以看出,引入特征引導解碼器,能夠更加完整地提取顯著目標,說明本模塊能夠保持特征的一致性。
綜上所述,這兩個模塊都可以提高網(wǎng)絡的性能,且這兩個模塊的組合可以進一步提高檢測結(jié)果的質(zhì)量。具體來說,與基準相比,本文模型的F 度量提高了2.83 個百分點,S 度量提高了3.48 個百分點,而平均絕對誤差則降低了0.5個百分點。
提出特征引導網(wǎng)絡來檢測遙感圖像中的顯著目標,其中的兩個關鍵部分是特征引導解碼器和亞像素卷積解碼器,主要是為了解決網(wǎng)絡模型特征提取能力不足,特征圖中包含干擾信息而導致顯著目標殘缺的問題。具體來說,對圖片進行多尺度操作,提取出多個不同尺度的特征圖,并分別放入到兩個解碼器中,針對遙感圖像中多方面的信息進行提取,提高網(wǎng)絡對特征的提取能力,使預測結(jié)果更加完整。與其它方法相比,本文提出的特征引導模型更加注重顯著目標的整體性。最后通過對比實驗和消融實驗證明了本模型的有效性和優(yōu)越性,并且證明了各個模塊的可行性。在EORSSD 數(shù)據(jù)集上,使用特征引導網(wǎng)絡后的F 度量提高到了0.8993,平均絕對誤差降低到了0.0063,S 度量提高到了0.9308。