郭偉,申磊,曲海成,王雅萱,林暢
遼寧工程技術大學軟件學院,葫蘆島 125105
與可見光和紅外波段傳感器獲取圖像的方式不同,合成孔徑雷達(synthetie aperture radar, SAR)只記錄了一個波段的回波信息,生成的SAR圖像主要反映地物的后向散射信息,圖像信噪比較低。但是合成孔徑雷達成像不受天氣條件限制,具備全天時、全天候的特點。在軍事偵察、海上救援和漁業(yè)監(jiān)控領域廣泛應用。因此,利用SAR圖像對海洋艦船目標檢測成為圖形圖像處理的研究熱點。
傳統(tǒng)的SAR圖像目標檢測算法主要包括檢測和判別兩個步驟?;诒尘半s波統(tǒng)計分布的恒虛警率檢測算法(constant false alarm rate,CFAR)是通過對海洋雜波進行統(tǒng)計建模確定閾值(Abu和Diamant,2020),把輸入信號與該閾值對比確定有無目標;基于極化分解的艦船目標檢測(Sugimoto等,2013)是將協(xié)方差矩陣做去旋轉角度處理來進一步提高艦船目標的二次散射,降低體散射,最后送入檢測器;基于極化特征的艦船目標檢測(Wang等,2012)通過對相干矩陣做濾波處理來解決SAR圖像中艦船方向位模糊問題。傳統(tǒng)目標檢測模型依賴手動提取特征,需要檢測目標和背景有較高的對比度,模型泛化能力和魯棒性差,在復雜場景下模型檢測效果并不理想。
隨著深度學習技術快速發(fā)展,深度特征提取和強大的自適應學習能力,推動了深度學習在SAR圖像目標檢測領域的應用?;谏疃葘W習的目標檢測分為雙階段目標檢測和單階段目標檢測。雙階段方法Fast R-CNN(Girshick,2015)經過一系列的卷積層和池化層提取特征,通過RoI(region of interest)得到一個固定的特征圖,輸入到全連接層完成分類和回歸;Faster R-CNN(Ren等,2017)在主干網絡中用RPN(region proposal network)代替selective search方法生成建議窗口。單階段方法中SSD(single shot multi-box detector)模型(Liu等,2016)在特征圖上生成多種不同尺度的候選框,并直接進行分類和回歸,少了候選框篩選的過程;同為單階段方法,YOLO(you only look once)(Chang等,2019)則是將圖像分成N個網格,每個格子分別預測分類得分和邊框。雙階段目標檢測方法首先利用RPN網絡生成候選區(qū)域,然后基于目標候選框區(qū)域做二次調整。具有檢測精度高、正負樣本分配均衡的優(yōu)點,但是檢測速度慢,模型結構復雜且需要訓練更多參數(shù),單階段目標檢測將生成的候選框直接送入檢測階段,模型結構簡單、速度較快,但精度相比雙階段較低且容易出現(xiàn)漏檢、誤檢的情況。
深度學習算法與傳統(tǒng)目標檢測算法相比,具有更好的魯棒性和泛化能力。但是SAR圖像艦船尺度變化較大,且多為小目標,直接將卷積神經網絡(convolutional neural network,CNN)模型及其衍生模型應用到SAR圖像檢測,容易出現(xiàn)漏檢和誤檢。在近海岸受復雜背景信息影響,檢測框不能調整到理想效果。
針對以上問題,本文提出了一種自適應權重金字塔和分支強相關的目標檢測模型。該模型由自適應權重金字塔和分支強相關模塊組成,自適應權重金字塔生成包含語義信息和空間位置信息的特征圖,分支強相關模塊加強了分類和回歸的關聯(lián)。本文的主要工作有:
1)設計超參數(shù)自動學習每一層的權重,利用每一層特征和對應權重融合特征高層語義信息和底層位置信息,得到含有語義信息和位置信息的特征層;
2)設計融合模塊,融合分類分支和回歸分支,增強兩分支的相關性;
3)在回歸分支增加IoU(intersection over union)分支,通過IoU分支中包含的位置信息來指導回歸分支更好地調整候選框。
SAR圖像具有的全天時、全天候的特點決定了其在海上監(jiān)測、海上救援方面的廣泛應用,這就要求對SAR圖像檢測的較高實時性。以SSD、YOLO為代表的單階段檢測模型去除了region proposal(Wang等,2019a)階段生成大量可能包含目標的邊界框,利用分類器判別該框中是否包含目標的工作,在實時性方面更具有優(yōu)勢。單階段檢測模型包含以下3個模塊:1)特征提取模塊:將圖像數(shù)據輸入到合適的特征提取網絡中,利用在ImageNet數(shù)據集上訓練好的參數(shù)初始化該特征提取網絡,生成不同尺度的特征圖;2)RPN逐像素點生成大量候選框,這些候選框映射到輸入的特征圖上,送入到檢測模塊;3)利用分類分支判斷目標類別,回歸分支調整候選框的位置。由于單階段模型是將包含候選框的特征圖直接輸入檢測模塊進行分類和回歸,具有較快的檢測速度。所以本文選擇使用單階段的檢測算法應用在SAR圖像檢測,單階段檢測模型如圖1所示。
圖1 單階段檢測模型
為了提高檢測模型的檢測精度,引入了特征金字塔網絡(feature pyramid networks,F(xiàn)PN)(Lin等,2017a)。FPN包括兩個步驟:首先殘差網絡提取生成{C2,C3,C4,C5}層特征,此時高層特征語義信息豐富空間位置信息缺失,底層空間位置信息豐富語義信息缺失。然后當前特征圖與自上而下構建的特征圖融合(趙永強 等,2020)生成{P2,P3,P4,P5}層特征圖,F(xiàn)PN結構圖如圖2所示。但是自上而下融合過程中語義信息逐漸丟失,所以底層特征包含較少的語義信息。
圖2 特征金字塔結構圖
合成孔徑雷達成像的原理決定了SAR圖像包含更少的特征信息,雷達照射粗糙物體表面形成相干斑噪聲的影響,所以直接將SAR圖像應用于Reti-nanet等單階段檢測網絡(Wang等,2019b)并不能得到理想的效果。傳統(tǒng)金字塔網絡雖然能夠將高層語義信息融合到底層,但是高層特征缺少底層豐富的位置信息,在物體多為小目標的SAR圖像中,容易出現(xiàn)小目標漏檢情況。相干斑噪聲(馬曉雙 等,2015)使得圖像質量下降,隱藏圖像精細結構,目標邊緣模糊,導致候選框不能完全包圍目標。因此本文提出了自適應權重金字塔(adaptive weight pyramid, AWP)和分支強相關(strongly related branch, SRB)的檢測網絡,該檢測模型結構圖如圖3所示。
圖3 網絡整體結構圖
該AR-Net(adaptive weight pyramid and strongly related branch network)網絡的特征提取模塊采用殘差網絡(ResNet101)(He等,2016),其中{conv2,conv3,conv4,conv5}分別有3、4、23、3個殘差塊,與conv1層的7×7卷積層和3×3最大池化層,共有101個卷積層。每個殘差塊有2個1×1卷積層和1個3×3卷積層,每一層的最后一個殘差塊步長為2,因此經過每一層特征提取,特征圖尺度會下降一半。之后將每層生成的特征圖輸入到自適應權重特征融合模塊,在該模塊下,首先將不同尺度大小的特征圖經過上采樣或下采樣到同一尺度,采樣得到的特征圖與其對應的權重相乘,并對結果相加作為該層的輸出特征。輸出的特征圖送入檢測模塊,為了有更好的檢測效果,對分類分支和回歸分支分別輸入融合模塊重新整合特征圖。使用分類分支對目標進行判別,使用回歸分支調整檢測框,IoU分支作用于分類分支指導回歸分支調整檢測框,最終得到理想的檢測效果。
經過殘差網絡提取特征,高層特征語義信息較為豐富,底層特征空間位置信息較為豐富。SAR圖像目標尺度多變,采用P3—P7的特征金字塔將高層的語義信息融入到底層,高層缺少判別位置的空間位置信息,這種金字塔對尺度大的目標檢測效果較好,對于小目標容易出現(xiàn)漏檢情況。AugFPN(Guo等,2020)提出在目標檢測中特征圖不僅要包含能夠判別類別的語義信息,而且還要包含體現(xiàn)位置信息的空間信息。針對SAR圖像的特點,本文提出自適應權重特征融合金字塔,該算法結構圖如圖4所示。
圖4 自適應權重金字塔結構圖
以構造P3層為例,首先將每一層的特征圖進行上采樣或下采樣到C3尺度大小,然后通過1×1卷積改變通道數(shù)為256,生成的特征圖與其對應的權重相乘,權重的構造如圖5所示。最后將每一層帶有權重指導的特征圖相加,生成特征金字塔的P3層,以此類推依次生成金字塔的{P4,P5}層。這樣根據權重指導重新構造每一層的特征信息,計算為
圖5 權重結構圖
(1)
以構造P3層權重為例,首先同樣對每一層特征圖采樣、卷積使得每一層尺度相同,然后以通道維度進行拼接,生成H×W×(256×N)的特征圖,其中N為輸入的層數(shù)。最后送入1×1的卷積層改變通道數(shù)為N和Softmax運算,得到融合后的權重特征圖。計算為
(2)
(3)
(4)
(5)
以P3層為例,如果P3層上(i,j)處有目標且為正樣本,但是其他層可能在(i,j)處為負樣本,這樣在反向傳播過程中就既包含負樣本又包含正樣本,這種情況容易造成低訓練效果,也會對梯度結果造成影響。本文自適應權重融合方式的反向傳播梯度表達為
(6)
由于相關斑噪聲和復雜背景導致的目標邊緣模糊,艦船目標特征不明顯,從而影響模型的檢測效果。分類分支和回歸分支是兩個單獨的分支,在檢測過程中分類分支無法指導回歸分支對檢測框的調整,導致檢測框不能理想的包圍目標。本文提出分支強相關模塊,通過添加IoU分數(shù),避免高IoU低分類分數(shù)的檢測框被抑制。然后通過融合模塊對分類分支和回歸分支特征進行融合,融合模塊結構如圖6所示。
圖6 融合模塊結構圖
該模塊首先將拼接生成的特征圖送入1×1卷積層,然后做4種不同卷積核的卷積操作,生成4個64通道數(shù)的特征圖,最后對拼接生成的特征圖送入Softmax,生成一個[0,1]的權重圖,實現(xiàn)兩個特征融合。
圖3中生成的IoU與分類得分相乘,采用α權重平衡雙方比重,具體計算為
(7)
式中,Scls為分類置信度,iou(i,j)為IoU分數(shù),P(i,j)為分類分數(shù)。α為權重平衡因子,α∈[0,1]在α取0.5時檢測效果最優(yōu),α取不同值時檢測結果見表1。
表1 不同權重檢測結果
本文模型是逐像素點生成預測框,通過預測框真實標簽對比得到最終結果,所以會處理大量沒有艦船目標的負樣本。為了解決正負樣本不均衡的問題,采用focal loss(Lin等,2017b)做分類優(yōu)化,定義為
Lcls=
(8)
式中,p(i,j)為在(i,j)處預測的類別,γ為調制系數(shù),目的是為了減少易分類樣本的權重,使模型更多地訓練難分類樣本,α為權重,目的是調節(jié)正負樣本對總loss影響權重。根據Faster R-CNN,本文設置α=0.25,γ=2。對于回歸分支,為了保證在目標值和預測值差別較大的情況下不出現(xiàn)梯度爆炸,選擇smooth_L1_loss做回歸優(yōu)化,定義為
(9)
(10)
(11)
式中,Nall為所有樣本數(shù)量;Npos為正樣本數(shù)量。
實驗環(huán)境為ubuntu16.04操作系統(tǒng),搭載CPU為Corei7-7700,顯卡為NVIDIA GTX1080Ti,顯存為11 GB,在Tensorflow框架下運行,通過CUDA8.0和cuDNN5.0加速訓練。該模型學習率設置為0.000 5,每40 k次迭代學習率衰減1/10,在80 k次迭代網絡完全收斂。非極大值抑制閾值(Bodla等,2017)為0.5,預測概率閾值為0.6。
表2 SSDD數(shù)據集基本信息
訓練過程中,為了提高模型的魯棒性和學習能力,需要對SAR圖像數(shù)據增廣。常見SAR圖像增廣的方式有翻轉、改變視角、尺度變化和圖像壓縮,根據SAR圖像單通道的特點選擇翻轉、添加高斯噪聲(Lee和Seo,2005)以及改變亮度,數(shù)據增廣能避免因數(shù)據較少而產生的過擬合現(xiàn)象。圖7為數(shù)據增廣示例。
圖7 圖像增廣圖
用召回率(recall)、精確率(precision)和平均精度(average precision,AP)來表示SAR圖像艦船檢測的效果,計算為
(12)
(13)
(14)
式中,TP表示艦船目標被標記為艦船,F(xiàn)N表示艦船目標被標記為非艦船,F(xiàn)P表示將非艦船目標標記為艦船,P(R)為召回率和精確率圍成的面積,即精度。為了更好地衡量該模型二分類精確度,引入F1分數(shù)(Chicco和Jurman,2020)作為評估標準,計算為
(15)
自適應權重金字塔更好地融合高層語義信息和底層空間位置信息,能夠有效檢測小目標。分支強相關模塊增強分類分支和回歸分支在反向傳播過程的依賴性,通過IoU指導回歸分支,避免高IoU低分類置信度的候選框被抑制。為了證明每個模塊的有效性,本文通過對召回率、精確率、平均精度以及F1值進行對比,消融實驗結果見表3。
表3 消融實驗結果
由表3可以看出,原始模型效果最差,因為輸入檢測模塊的特征圖空間位置信息和語義信息不豐富,目標區(qū)域不明顯,小目標漏檢嚴重。本文提出的自適應權重特征金字塔,能夠平衡高層語義信息和底層空間位置信息,輸入檢測模塊的特征圖艦船信息更顯著,在檢測中召回率提升了0.89%,精確率提升了2.58%,平均精度提升了2.85%,F(xiàn)1值提升了1.74%。分支強相關模塊通過IoU分數(shù)避免了高IoU低分類置信度被抑制的情況,同時調整候選框能夠更好地框選目標,在檢測中該模塊平均精度提升了2.31%。最終結果召回率提升了4.46%,精確率提升了7.14%,平均精度提升了3.62%,F(xiàn)1值提升了5.8%。
為了分析AR-Net模型在不同場景下的檢測效果,選取包含近海岸和遠海艦船目標的SAR圖像,對比實驗前后檢測效果,檢測效果如圖8所示。
圖8 檢測結果對比圖
自適應權重特征金字塔能夠充分融合語義信息和空間位置信息,為展示該模塊融合效果,本文對融合前后的特征圖在Tensorboard上進行可視化,可視化特征圖如圖9所示。
根據圖9可以看出,在SAR圖像中經過自適應權重特征融合后的特征圖目標更加明確,經過平滑后的特征圖目標更加突出,更好地反映出目標位置。對于高層特征圖,由于分辨率低,小目標模糊嚴重,不適合對小目標的檢測。所以對于小目標檢測底層特征尤其重要,經過自適應權重金字塔,提高了檢測網絡對小目標的關注度。
圖9 特征融合前后對比
本文與其他方法進行了實驗對比,以驗證AR-Net模型的效果。雙階段Faster R-CNN檢測模型,F(xiàn)aster R-CNN檢測階段首先經過第1階段粗略調節(jié)候選框,然后在第2階段進一步精細調節(jié);單階段FCOS(full convolutional one-stage)檢測模型,該模型摒棄了傳統(tǒng)的錨框,實現(xiàn)無錨框檢測;FPN特征金字塔,F(xiàn)PN對特征圖采用自上而下的特征融合機制,相鄰的上層特征圖和下層特征圖實現(xiàn)簡單的特征融合;YOLOv3將輸入圖像平均切分為多個網格,將網格輸入檢測網絡;張筱晗等人(2020)設計了雙向高低層特征融合機制,高層特征進行逐像素加權,將高層的語義信息加到低層,低層空間位置信息加到高層。對比結果見表4。
從表4可以看出,雙階段的Faster R-CNN與單階段的FCOS相比,具有更高的檢測精度。FPN能夠至上而下融合高層語義信息,平均精度達87.92%,Dense-FPN算法實現(xiàn)對每一層特征的融合,使得每一層特征都含有其他層的特征信息,檢測精度最佳。但是雙階段和密集金字塔檢測速度慢,無法滿足實時性要求。相比其他模型,AR-Net具有更高的檢測精度,同時也能滿足實時性檢測的需求,因此總體來看,AR-Net算法在SSDD數(shù)據集中具有更好的檢測效果。為了直觀展現(xiàn)不同模型的檢測效果,本文通過各個模型的PR(precision-recall)圖進行對比,如圖10所示。
圖10 不同算法的PR圖
表4 算法性能對比
為了證明AR-Net的泛化能力,對數(shù)據集進行兩種不同方式的數(shù)據分割:1)將數(shù)據集按照{8∶2、7∶3、6∶4、5∶5}不同比例隨機分割;2)將數(shù)據集按照7∶3的比例多次隨機分割。本文將多種樣本的召回率、精確率、平均精度和F1值的均值和方差作為模型泛化能力的評估標準,不同樣本的測試結果見表5和表6。
表5 不同比例樣本分割
從表5中可以看出,經過不同比例分割的測試樣本中樣本數(shù)量不同,艦船目標數(shù)量差別較大。但是AR-Net的平均精度均在90.54%上下浮動,平均精度的方差為0.001 1,F(xiàn)1值的方差為0.059 8,召回率和精確率的方差分別為0.375 1和0.398 5,說明AR-Net針對不同數(shù)量的樣本測試集檢測效果穩(wěn)定,具有較強的泛化能力。從表6中可以看出,在同一比例下進行多次樣本分割,樣本數(shù)量相同,艦船目標數(shù)量差別較小。AR-Net針對多次分割的樣本召回率均值和方差分別為93.06%、0.180 7,精確率的均值和方差分別為95.35%、0.190 5,平均精度的均值和方差分別為90.55%、0.001 1,F(xiàn)1值的均值和方差分別為94.19%、0.059 8。通過表5和表6數(shù)據對比,在不同比例分割的測試樣本和多次相同比例分割的測試樣本中,AR-Net均表現(xiàn)出了較強的泛化能力。在樣本數(shù)量相同的測試集下,AR-Net各項評價指標的方差更小。
表6 相同比例多次樣本分割
SSDD數(shù)據集中包含近岸和遠海艦船目標,本文選取不同場景不同尺度的目標檢測效果。第1行、第2行為近海岸艦船,容易受到周邊非艦船目標的影響,同時密集停靠艦船目標的高IoU低分類分數(shù)的候選框被抑制,導致一個框含有多個目標的情況;第3行為遠海大目標,容易出現(xiàn)目標定位不準確;第4行為遠海密集小目標,艦船目標尺度小,容易漏檢;第5行帶有相干斑噪聲,背景信息復雜,目標邊緣不清晰??梢钥闯?,對于以上各種場景的目標AR-Net都能有理想的檢測效果,各種場景檢測效果如圖11所示。
圖11 不同背景檢測效果圖
由于SAR圖像復雜的背景信息,針對小目標檢測效果差和檢測框不能很好地包圍目標的問題,本文提出了一種自適應權重特征融合金字塔和分支強相關的檢測模型AR-Net。自適應融合高層語義信息和底層空間位置信息,使得待檢測的特征圖既具有語義信息又包含空間位置信息;另外IoU分支指導回歸分支優(yōu)化檢測框,獲得更精準的檢測框。在SSDD數(shù)據集上與其他艦船檢測方法對比,在速度損耗有限的情況下,該模型具有更好的檢測精度和魯棒性。雖然該模型具有較好的檢測精度,但是在艦船??棵芗膱鼍埃瑱z測框大量重疊,檢測框之間相互抑制,容易出現(xiàn)定位不準和目標漏檢,這是因為水平檢測框沒有旋轉檢測框更加精準。下一步的任務是對密集排列的艦船目標有更好的檢測效果。