黃帥,張毅
(1.中國科學院 空天信息研究院,北京1 000190;2.中國科學院大學 電子電氣與通信工程學院,北京 100049)
合成孔徑雷達能夠全天時、全天候地監(jiān)控,可以在復雜條件下提供高分辨率的圖像。合成孔徑雷達圖像中的目標檢測在區(qū)域管理、信息篩選等領域具有重要作用。但合成孔徑雷達圖像中目標的尺度多樣性和背景散射的強干擾,給研究工作帶來了極大的挑戰(zhàn)。近年來,研究人員針對這些問題提出了各種解決方案。
傳統(tǒng)的SAR 圖像目標檢測方法中,恒虛警檢測(Constant False Alarm Rate,CFAR)算法及其變種是典型的檢測算法。恒虛警率檢測器通過比較噪聲處理后的輸入信號與預設的閾值來確定是否有目標。但CFAR 算法的準確率在很大程度上受閾值影響,許多學者對此進行了改進。文獻[1]提出一種新型的閉環(huán)CFAR 處理器,通過移位寄存器和神經網絡選擇最佳CFAR,從而保證其性能的連續(xù)性。文獻[2]針對密集目標提出一種基于稀疏信號處理的方法。文獻[3]提出一種基于AIS 數(shù)據(jù)輔助的瑞利恒虛警率艦船檢測算法,通過設計一種基于自適應閾值的雜波修整方法,消除局部背景窗口中的高度異常值。與文獻[3]類似,AI等[4]提出一種基于雙邊閾值的策略,通過自動裁剪局部參考窗口中的樣本,消除高強度和低強度的異常值。這些方法的性能在很大程度上取決于海雜波的統(tǒng)計建模和所選模型的參數(shù)估計,而相關研究方法的改進也多是基于這2 個方面??紤]到海雜波的非均勻性,相關研究人員提出了各種雜波模型來擬合復雜的海況,比如對稱alpha 分布[5]和廣義gamma 分布[6-7]。但是這些方法都是基于特定場景,手工設計特征的魯棒性較差,尤其在復雜場景下容易產生虛警,不恰當?shù)慕^(qū)域建模會導致許多內陸地區(qū)散射的誤報。此外,手工設計的特征相對復雜,給研究工作帶來一定工作量。
隨著深度學習技術的發(fā)展,深度卷積神經網絡在SAR 圖像上進行特征自動提取表現(xiàn)出優(yōu)越的性能。物體檢測方法分為無錨的方法和基于錨的方法兩類。文獻[8]將對象邊界框視作一對關鍵點,即左上角的點和右下角的點,然后使用卷積神經網絡檢測成對的關鍵點。文獻[9]將對象檢測看作基于外觀的關鍵點估計問題,再通過關鍵點估計網絡,以檢測5 個關鍵點,包括最頂部點、最底部點、最左側點、最右側點。文獻[10]將對象檢測框看作3 個關鍵點來進行檢測。FU等[11]提出一種新的特征平衡與細化網絡,在解決SAR 圖像中的背景干擾問題與小目標難以檢測問題的同時,進一步提高定位精度。文獻[12]提出密集注意力特征聚合網絡,該方法通過密集連接和迭代融合獲取多尺度的高分辨率特征圖。MAO等[13]在U-Net 的基礎上進行簡化,提出一種輕量級的檢測網絡。CUI等[14]在CenterNet中引入空間混洗組增強注意力模塊來抑制噪聲和獲得更強的語義特征。這些方法在提高檢測速度的同時,也帶來了一些問題。當2 個物體的中心重合時,無錨的方法會產生語義模糊,導致檢測器的準確度下降。
基于錨的方法根據(jù)是否存在感興趣區(qū)域提議分為單步檢測器和兩步檢測器。兩步檢測器如Faster RCNN、mask RCNN,首先在特征圖上進行感興趣區(qū)域提取,然后對物體進行檢測。WANG等[15]提出一種基于faster RCNN 自動標記方位歧義進行檢測的方法。GUI等[16]提出一種將上下文信息進行多層融合的網絡,從而獲得語義互補的特征圖。相比于單步檢測器,兩步檢測器雖然具有更高的檢測準確度,但是網絡結構更加復雜,運算速度更慢。
本文提出一種可以在復雜場景下對SAR 圖像進行多尺度目標檢測的網絡,稱為梯形的跨尺度特征耦合網絡。為有效提取多尺度目標的特征,提出一種梯形的特征金字塔網絡(Trapezoidal Feature Pyramid Network,TFPN),在TFPN 網絡中省略跳連結構而采用交叉結構,使目標的語義信息能更有效地在網絡中傳遞和被提取。由于不同層級的特征圖對輸出的語義貢獻并不一樣,本文在特征圖傳遞與融合的過程中引入額外的權重因子,用來表征不同層級的語義特征圖對網絡輸出的重要程度?;诙ㄎ环种c分類分支之間的弱相關性,本文設計一種定位分類耦合模塊,使分類輸出和定位輸出進行耦合,加強兩者之間的聯(lián)系,并引入可變形卷積對定位進行二次校準。
OverFeat 網絡[17]是早期單步檢測器的代表之一,通過累積邊界框增加檢測置信度。文獻[18]采用雙向密集連接模塊降低網絡運行的復雜度。文獻[19]在SSD[20]的基礎上引入額外的大尺度上下文信息,提高對小目標的檢測精度。谷歌團隊[21]對主干網絡、特征提取網絡和預測網絡同時進行寬度、深度、分辨率的統(tǒng)一復合尺度縮放,以此提高模型的檢測效率。文獻[22]提出一種更加簡單、靈活的檢測框架,通過省略錨框和提議框來避免復雜的計算,并在文獻[23-25]的基礎上,分別提出一些技巧在模型檢測速度和準確性之間實現(xiàn)平衡。LIN等[26]發(fā)現(xiàn)單步檢測器的性能落后于兩步檢測器的主要原因在于極端的前景與背景類別失衡,并針對這一問題創(chuàng)造性地提出焦點損失。相似地,文獻[27]提出一種在線困難樣本挖掘算法來自動選擇困難樣本并對其進行訓練,在一定程度上解決了正負樣本不均衡的問題。
但是,上述網絡在SAR 圖像的復雜雜波干擾下進行特征的有效提取仍然存在一定困難。例如近岸的船舶很難被有效檢測出來,小目標會存在漏檢的情況。此外,在檢測網絡中,分類分支與定位分支之間的相關性較弱,導致定位不準確。在標準的非極大值抑制過程中,這種弱相關性會導致高定位準確度低的分類置信度預測結果被低定位準確度高的分類置信度預測結果抑制。文獻[28]針對邊界框回歸的不確定問題提出一種新的邊界框回歸損失算法,通過網絡學習定位方差提高定位精度。WU等[29]通過增加一個IoU 預測分支來加強分類預測與定位預測之間的相關性。JIANG等[30]直接將預測的IoU 作為分類置信度來優(yōu)化NMS 程序。文獻[31]在非極大值抑制算法的基礎上提出Soft-NMS 算法并表現(xiàn)出良好的性能。YU等[32]設計一種IoU 損失函數(shù)將檢測的4 個邊界作為一個整體進行回歸預測。UnitBox[32]不僅可以進行準確定位,而且具有強大的魯棒性。文獻[33]提出Fitness NMS 方法來更好地匹配IoU 最大化的目標,該方法還可以與Soft NMS一起使用。
在SAR 圖像中,由于目標的尺度大小往往并不一致,因此在檢測過程中,進行跨尺度地識別極為必要。特征金字塔網絡(Feature Pyramid Networks,F(xiàn)PN)[34]通過自上而下的橫向連接提取各種尺度的語義特征圖,從而適應不同規(guī)模的目標檢測。NASFPN 網絡[35]通過神經體系結構搜索,在結構空間中發(fā)現(xiàn)新的金字塔結構。在自下而上的路徑中,路徑聚合網絡(Path Aggregation Network,PANet)[36]使用定位信號縮短較低層與最頂層語義特征圖之間的信息路徑。并行特征金字塔網絡(Parallel Feature Pyramid Network,PFPNet)[37]通過增加網絡寬度而非網絡深度來生成多尺度特征圖。文獻[38-40]針對這一問題提出了各種改進方案。
注意力機制可以讓模型專注于重要的信息而忽略不重要的信息,以此提升模型的性能。注意力機制通常分為空間域注意力和通道域注意力。SENet[41]是通道域注意力的典型代表之一。SENet網絡通過擠壓進行特征聚合,之后再通過激勵進行特征的再次校準。BELLO等[42]提出一種二位相對自注意力模塊生成注意力特征圖,通過與卷積特征圖級聯(lián)來增強特征圖的語義表示。與文獻[42]不同,CBAM[43]將注意力特征圖與卷積特征圖相乘來自動地適應細化特征。WANG等[44]則表明避免降維對通道域注意力很重要,并提出ECA 模塊來平衡網絡性能與復雜性。
傳統(tǒng)的特征金字塔網絡包括FPN 網絡、PANet網絡、NAS-FPN 網絡、BiFPN 網絡[21]等,通常由自下而上的下采樣路徑和自上而下的上采樣路徑組成,如圖1 所示。
圖1 傳統(tǒng)特征金字塔網絡Fig.1 Traditional feature pyramid network
和絕大多數(shù)物體檢測網絡相似,本文網絡由3 個部分組成:用于特征提取的主干網絡、用于多尺度特征生成的梯形金字塔網絡和用于精確檢測與定位的預測模塊。本文選取殘差網絡[45]作為主干網絡。
SAR 圖像經過殘差網絡分別輸出3 個不同尺度的特征圖,表示為Cl,其中l(wèi)=3,4,5。這些表示不同尺度的特征圖通過梯形金字塔網絡產生更具表征能力和包含更多語義信息的多級特征圖,表示為Pi,其中i=3,4,5,6,7。得到多級語義信息Pi之后,本文將其分別送入用于定位與分類的檢測模塊,從而得到輸出結果。
接下來,本文將詳細介紹網絡的各個部分,并給出具體的實現(xiàn)細節(jié)。
梯形特征金字塔網絡TFPN 與圖1 類似,其結構如圖2 所示。
圖2 梯形特征金字塔網絡結構Fig.2 Structure of trapezoidal feature pyramid network
TFPN 網絡需要五級輸入特征Pi,但是經過主干網絡的輸出卻只有三級特征,所以P6與P7通過以下方式獲得:
其中:Conv1×1表示卷積核為1×1 的卷積層;BN 表示批歸一化操作;MaxPool 表示最大值池化操作,用來對特征圖進行下采樣,同時保證操作前后特征圖分辨率不變。其過程如圖3 所示,先對特征進行填充,ptop、pbottom、pleft、pright分別表示為了保持分辨率不變所需要的上、下、左、右方向的填充數(shù),可由以下公式計算得到:
圖3 下采樣操作Fig.3 Downsampling operation
其中:W、H分別表示特征的分辨率;s、k分別表示最大池化操作的步進與核大小;W*、H*分別是填充后圖片的寬度和高度。
Pl_in(l=3,4,5)可通過一個卷積層來獲得,計算式如式(9)所示:
FPN[34]只通過一條自上而下的路徑對多尺度信息進行有限程度的聚合,PANet[36]在FPN 的基礎上增加了一條自下而上的路徑,但作用有限。BiFPN[21]增加了交叉結構與直連結構來增強語義信息的表達能力。NAS-FPN[35]使用神經架構搜索以尋找最優(yōu)網絡結構,但是最終得出的網絡往往不規(guī)則,難以修改與遷移到其他場景。此外,使用神經架構搜索需要耗費大量的時間,這是極不劃算的。FPG[46]采用大量的橫向連接與密集的網絡結構進行語義信息的聚合,但這種方法需要大量而冗余的參數(shù)和較高的計算成本。
不難想象,低層次的特征圖包含更多的語義信息,但是同時也包含更多的噪聲。相應地,本文需要更深的網絡對它進行處理。高層次的特征圖經過低層次的特征圖提煉而來,因而包含更加精確的語義信息和更少的噪聲,但是語義信息的廣度也相應更少。所以,本文只需要對其進行簡單處理,這意味著只需要更淺的網絡。針對這種不同層次不同尺度的語義特征圖進行不同深度的網絡處理,形成梯形的結構,如圖2 所示,本文將其稱為梯形金字塔網絡,處理過程如式(10)所示:
其中:i=3,4,5,6,7 表示特征的層次;l=0,1,…,7-i表示網絡的層次;D表示下采樣;U表示上采樣;sw表示激活函數(shù)。sw的計算式如下所示:
在梯形金字塔網絡的最后一層,也就是輸出層,式(10)則變?yōu)槭剑?2),此處的l=8-i。
得益于文獻[35,46]的啟發(fā),本文既想在空間中搜索最佳的神經網絡架構,又想訓練時間和計算成本不至于太高,為此本文設計了一種權重因子,其表達式如式(13)所示:
其中:i=3,4,5,6,7;l=0,1,2,3;k=0,1,2。由于不同尺度的特征包含的語義信息量并不相同,對模型的輸出重要程度也不相同,因此這里的權重因子可以通過訓練獲得最佳值。梯形金字塔網絡可表述如式(14)所示:
需要注意的是,本文提出梯形金字塔網絡中的特征圖分辨率是在變化的。舉個例子,如果輸出的SAR 圖像分辨率為640×1 024 像素,則P3的分辨率為80×128 像素,P7的分辨率為5×8 像素。換句話說,在第i級的特征圖具有輸入圖像的1/2i的分辨率。
注意力機制能夠有效判別信息是否重要。為盡量在模型性能與模型復雜度之間取得平衡,本文在梯形金字塔結構中引入有效的通道注意力(Efficient Channel Attention,ECA)模塊[44]。在對特征圖進行下采樣的過程中引入注意力模塊,從而使有用信息進一步被增強,無用噪聲進一步被抑制。ECA-Net首先通過全局平均池化操作來聚合特征,然后通過內核大小為k的快速一維卷積生成注意力通道權重。令特征圖為x∈RC×W×H,其中C、W、H分別為通道數(shù)、寬度和高度。Channel-wise 全局平均池化可表示為式(15)所示:
通道權重ω的計算式如式(16)所示:
其中:σ是Sigmoid 函數(shù)。卷積核的大小k由通道數(shù)C來確定,如式(17)所示:
其中:α、λ為人為設置的參數(shù);[x]odd表示距離x最近的奇數(shù)。整個注意力網絡如圖4 所示。
圖4 注意力網絡結構Fig.4 Structure of attention network
在梯形金字塔結構中引入改進的ECA-Net,則有:
在SAR 圖像中,由于散射的模糊性和較低分辨率的影響,對目標進行精確定位往往存在較大難度。與此同時,以往的檢測網絡在定位與分類兩個分支之間缺少有效的聯(lián)系與相互作用,導致定位分支的精確度下降。如圖5 所示,由于船尾散射較弱,導致定位精確的圖5(a)中置信度反而小于定位次精確的圖5(b)。此外,對于高速航行的船舶,其尾部的水浪也會產生定位模糊,如圖5(c)和圖5(d)所示。
圖5 以往檢測網絡的結果Fig.5 Results of previous networks
針對上述問題,本文提出如圖6 所示的檢測網絡,并稱其為定位分類耦合檢測頭(Positioning and Classification Coupling Detection Head,PCCDH)。xl表示各個尺度的特征圖,也就是梯形網絡的輸出。xl分別經過4 層內核大小為3×3 的卷積層,得到分類輸出和回歸輸出。圖6 中的Attention 結構可見于圖4。與ECA-Net 不同的是,最終階段的逐元素乘積為與相乘。最終預測結果yl如下:
圖6 定位分類耦合檢測頭Fig.6 Positioning and classification coupling detection head
其中:Deform 表示可變形卷積網絡[47]。
可變形卷積通過在標準卷積的常規(guī)采樣網格中附加一個額外的偏置,使采樣網格可以任意地變形,從而增強卷積網絡的跨界信息抽取能力。網格的偏置是二維的,并且可通過另一個卷積層學習語義信息得到。令在特征圖xl∈RC×W×H中的規(guī)則網格為G,計算式如式(21)所示:
令網格偏置為{Δpj|j=1,2,…,|G|},則在任意位置p0處進行可變形卷積的輸出為:
其中:v(p0)表示在p0處的像素值。當p0+pi+Δpj表示一個分數(shù)值時,本文采用雙線性差值獲得該位置的像素值。
在訓練中本文使用的損失函數(shù)包含分類損失Lcls和回歸損失Lreg,表達式如式(23)所示:
采用焦點損失[19]作為分類損失Lcls,表達式如式(24)所示:
采用焦點損失可以在一定程度上緩解正負樣本不均衡的影響[48]。至于回歸損失Lreg,本文采用smooth L1 Loss 函數(shù),表達式如式(26)所示:
采用精度(Precision)、召回率(Recall)、f1-score、均值平均精度(mean Average Precision,mAP),包括mAP0.5:0.95、mAP0.5、mAP0.75來定量評估模型的性能,其中mAP0.5表示在閾值ξ=0.5 下的均值平均精度,以此類推。使用IIoU表示預測框與Ground Truth 的交并比,用TTP表示IIoU大于閾值ξ的檢測框數(shù)量,用FFP表示IIoU小于或者等于ξ的檢測框數(shù)量,用FFN表示沒有檢測到Ground Truth 的數(shù)量。各指標的計算式如下:
本文將Precision 作為縱坐標,將Recall 作為橫坐標繪制PR 曲線,并計算PR 曲線下的面積,其計算式如式(30)所示:
其中:Ω表示目標的類別集合;N為集合Ω中元素數(shù)目。對于mAP0.5:0.95則有:
本節(jié)將展示實驗的具體結果并證明本文方法的有效性。
采用SSDD 數(shù)據(jù)集訓練和測試算法性能。SSDD 數(shù)據(jù)集共有1 160 張圖像和2 456 個艦船。這些圖像分別來自RadarSat-2、TerraSAR 和Sentinel-1這3 種不同傳感器,具有HH、HV、VV、VH 共4 種極化方式,分辨率在1~15 m 之間,包含近岸地區(qū)、離岸海域等不同場景。本文將其分為訓練集和測試集兩部分,其中訓練集包含928 張圖片,測試集包含232 張圖片。首先對所有圖片進行歸一化操作,之后將其左右翻轉。最后本文將每張圖片按其寬高比近似調整到128 像素的整數(shù)倍,但是不超過640×1 024分辨率。當然,本文也會對訓練標簽與圖片進行相同的處理。采用預訓練的ResNet152 作為主干網絡,并引入Adam 作為優(yōu)化器,其初始學習率設為1×10-5。鑒于圖片分辨率和GPU 顯存大小的限制,本文將批大小設為1,并通過8 次梯度累積得到與批大小為8時相同的結果。在訓練網絡時,如果超過3 個epoch損失不再下降,將動態(tài)地調整學習率。本文實驗在Pytorch 1.6 框架中實現(xiàn),在NVIDIA 2070 Super 上實施。
本文共提出3 個模塊用于SAR 圖像的艦船目標檢測。為分析和說明這些模塊的性能及其對模型的性能的影響,本文實施了幾組消融實驗。在控制變量的前提下,研究只改變某一模塊對實驗結果帶來的影響。表1 給出了各個模塊定量化的模型貢獻度,其中Precision,Recall,f1-score 均是在閾值ξ=0.5 時的數(shù)據(jù),相應的PR 曲線如圖7 所示。
圖7 消融實驗PR 曲線Fig.7 PR curve of ablation experiment
表1 消融實驗結果Table 1 Results of ablation experiment %
由表1 可知,本文提出的2 個子模塊均可在不同程度上提高模型的檢測性能。與基線網絡相比,TFPN 模塊的引入明顯改進了性能,在mAP0.5、mAP0.75兩個指標上分別提高了1.860、6.174個百分點。在f1-score 指標上TFPN 模塊相比基線網絡提高了3.137 個百分點。TFPN 模塊采用交叉結構,使語義信息可以很好地在網絡中流動和傳遞,其中的特征通過加權進行融合,能夠有效篩選語義信息。PCCDH 模塊在基線網絡的基礎上mAP0.5、mAP0.75分別提高了1.740、3.943 個百分點。PCCDH 模塊側重于解決精準定位的問題,因此它在mAP0.75上提升的性能幾乎是在mAP0.5上的兩倍。這意味著,本文提出的模塊可以很好地解決預測邊界框與Ground Truth 之間的定位偏移問題。
圖8 所示為有無TFPN 檢測模塊的結果,可以看出,當同一場景具有多個不同尺度的目標時,基線網絡往往存在漏檢的情況。相反,TFPN 模塊可以很好地處理多尺度目標,尤其是場景中的小目標。這意味著相比于FPN 模塊,本文提出的TFPN 模塊能夠更有效地抽取多尺度物體的語義信息。
圖8 有無TFPN 檢測模塊的結果對比Fig.8 Comparison of results with and without TFPN detection module
圖9 所示為有無PCCDH 檢測模塊的結果對比(彩色效果見《計算機工程》官網HTML 版本),其中紅色方框代表沒有檢測到或被錯誤檢測的艦船目標,橙色方框代表不夠精確的檢測結果(這種不夠精確主要是將艦船運動的尾跡也當做了艦船的一部分)。由圖9 可以看出,加入PCCDH 模塊后,模型對緊密接觸的物體可以辨別和區(qū)分。同時,對高速運動的目標,其尾跡和物體本身也能被模型甄別出來。在綜合TFPN 模塊和PCCDH 模塊后,模型的性能達到了最優(yōu),mAP0.5為94.948%,mAP0.75為68.121%。TFPN 模塊能有效聚合語義特征,PCCDH 模塊能精準地定位目標位置信息,這兩種改進措施加到一起,進一步提高了網絡的表現(xiàn)性能。
圖9 有無PCCDH 檢測模塊的結果對比Fig.9 Comparison of results with or without PCCDH detection module
本文提出兩種改進措施來提高網絡對SAR 圖像物體檢測性能,并與現(xiàn)有網絡[49]進行比較,包括FasterRCNN、RetinaNet、CascadeRCNN 等網絡,結果如表2 所示,相應的PR 曲線見圖10。
由表2 可知,本文網絡的f1-score、mAP0.5、mAP0.75值分別超過其他網絡4、2、1 個百分點以上,顯著提高了各種場景下的船舶檢測性能。對圖5 所描述的情況,本文網絡取得了一定程度上的性能提升,這一點可以從圖10 中看出(意味著更加嚴格的定位標準),本文網絡的PR 曲線位于最外圍,這意味著本文網絡具有最佳的性能。此外,對于多尺度的小目標問題,本文網絡可以得到更精確的檢測結果。
圖10 不同網絡的PR 曲線Fig.10 PR curves of different networks
由表2 可知,無錨網絡FCOS 和YOLOv3 的檢測性能相較于有錨網絡更差,這是因為預先設置的錨點包含了目標尺寸的先驗信息,從而降低了訓練的難度。表2 中幾種網絡的實際檢測效果如圖11 所示。
表2 不同網絡的定量檢測性能比較Table 2 Comparison of quantitative detection performance of different networks %
圖11 不同網絡的檢測結果對比Fig.11 Comparison of detection results of different networks
對于近岸場景,傳統(tǒng)網絡很容易受到干擾而檢測出許多并不存在的船舶。這一點可以從圖11 中看出,圖11(c)和圖11(d)顯示出很多錯誤的檢測結果。而且其他網絡并不能很好地區(qū)分船舶的邊界,導致實際上只有一個船舶,檢測器卻檢測出多個。圖11(e)的檢測結果不夠精確,這一點可以從圖中的檢測置信度看出(圖中方框上的數(shù)字表示檢測置信度),而本文網絡能很好地解決這些問題。對于其他不同場景,本文將在下一節(jié)討論。
本節(jié)將定量分析模型在不同情況下的性能以及模型的魯棒性。
3.4.1 背景干擾對模型性能的影響
由于檢測環(huán)境復雜,不同背景散射會對模型造成不同影響[50-51]。已知在對船舶檢測時,內陸的背景干擾要遠超過近海地區(qū),導致近岸船舶的檢測比近海船舶的檢測更加困難。本文分別對兩種情況下的模型性能進行對比,結果如表3 所示。由表3 可知,在近岸場景下,模型的性能會受到一定程度的影響。但相較于基線網絡,本文網絡在mAP0.5、f1-score 指標上分別提高了16.75、14.65 個百分點。造成在近岸場景下本文網絡性能下降的原因主要有2 個:
表3 不同場景下的檢測性能對比Table 3 Comparison of detection performance indifferent scenarios %
1)近岸地區(qū)的船舶一般比較密集,導致船舶之間的邊界不清晰;
2)近岸地區(qū)的港口等環(huán)境造成的散射對模型區(qū)分目標造成了一定的困難。
3.4.2 網絡寬度對模型性能的影響
網絡寬度是影響模型性能的另一個超參數(shù)。網絡寬度越大,模型的參數(shù)越多,檢測精度越高,但是泛化能力越低;反之,網絡寬度越小,模型的參數(shù)越少,檢測精度越低,但是泛化能力越高。為了在檢測精度與模型泛化能力之間取得平衡,本文選取模型寬度為256α,并給出在不同α下模型的性能曲線,如圖12 所示。
圖12 網絡寬度對模型性能的影響Fig.12 Influence of network width on model performance
由圖12 可知,當α小于1 時,隨著α的增大,模型性能也在增強。當α大于1 時,隨著α的增大,模型的性能有小幅下降,這是因為模型參數(shù)過多,導致模型過擬合。由圖12(a)可知,當模型寬度為256 時,模型具有最佳性能。由圖12(b)可知,隨著網絡寬度的增大,模型參數(shù)也在變多,導致檢測所耗時間更長。
本文提出一種能在復雜場景下對SAR 圖像進行多尺度目標檢測的網絡,通過設計梯形特征金字塔模塊TFPN,并采用交叉結構代替跳連結構,提高泛化能力和語義表征能力。將改進的ECA 模塊嵌入到TFPN 模塊中,提高檢測性能。引入可訓練的權重因子,使不同層級間的特征能更好地進行融合,并在定位分類耦合檢測頭中加入可分離卷積,以進行二次校準,提高檢測精度。實驗結果表明,與FasterRCNN、CascadeRCNN、RetinaNet 等主流網絡相比,本文網絡顯著提高了檢測精度和魯棒性。下一步將通過模型剪枝、輕量化網絡設計等方法,在保證精度的前提下,提高SAR 圖像艦船檢測模型的運算速度。