凡文俊,趙曙光*,郭力爭
基于改進RetinaNet的船舶檢測算法
凡文俊1,趙曙光1*,郭力爭2
(1.東華大學 信息科學與技術(shù)學院,上海 201620; 2.河南城建學院 計算機與數(shù)據(jù)科學學院,河南 平頂山 467036)( ? 通信作者電子郵箱sgzhao@dhu.edu.cn)
目前基于深度學習算法的目標檢測技術(shù)在合成孔徑雷達(SAR)圖像船舶檢測中取得了顯著的成果,然而仍存在著小目標船舶和近岸密集排列船舶檢測效果差的問題。針對上述問題,提出了基于改進RetinaNet的船舶檢測算法。在傳統(tǒng)RetinaNet算法的基礎(chǔ)上,首先,將特征提取網(wǎng)絡(luò)殘差塊中的卷積改進為分組卷積,以增加網(wǎng)絡(luò)寬度,從而提高網(wǎng)絡(luò)的特征提取能力;其次,在特征提取網(wǎng)絡(luò)的后兩個階段加入注意力機制,讓網(wǎng)絡(luò)更加專注于目標區(qū)域,從而提升目標檢測能力;最后,將軟非極大值抑制(Soft-NMS)加入到算法中,降低算法對于近岸密集排列船舶檢測的漏檢率。在高分辨率SAR圖像數(shù)據(jù)集(HRSID)和SAR船舶檢測數(shù)據(jù)集(SSDD)上的實驗結(jié)果表明,所提改進算法對于小目標船舶和近岸船舶的檢測效果得到了有效提升,與當前優(yōu)秀的目標檢測模型Faster R-CNN、YOLOv3和CenterNet等相比,在檢測精度和速度上更加優(yōu)越。
合成孔徑雷達圖像;船舶檢測;RetinaNet;注意力機制;分組卷積
隨著海洋產(chǎn)業(yè)的飛速發(fā)展,海洋經(jīng)濟在國民經(jīng)濟中的地位也越來越重要,而船舶在海洋產(chǎn)業(yè)的發(fā)展與海洋交通運輸中起著重要的作用。對船舶的有效檢測不僅能提高海上運輸效率,對減少海上交通事故的發(fā)生也有著極大的作用。近些年,雷達衛(wèi)星的迅猛發(fā)展,如TerraSAR-X、RADARSAT-2和哨兵一號等的發(fā)射,使合成孔徑雷達(Synthetic Aperture Radar, SAR)圖像的分辨率越來越高。SAR圖像的成像不受天氣和高度的影響,且SAR的自發(fā)光特點使它能在任何時候提供高質(zhì)量的圖像[1],這些優(yōu)勢使得SAR圖像在船舶檢測領(lǐng)域發(fā)揮著重要的作用。
船舶檢測是遙感領(lǐng)域的一個重要研究課題。近年來,基于模式識別的傳統(tǒng)目標檢測方法取得了巨大的進步,傳統(tǒng)的目標檢測大致分為區(qū)域選擇和分類器兩部分。區(qū)域選擇有尺度不變特征變換(Scale-Invariant Feature Transform, SIFT)、方向梯度直方圖(Histogram of Oriented Gradient, HOG)等方法,分類器有支持向量機(Support Vector Machine, SVM)和Adaboost等。傳統(tǒng)的SAR船舶檢測方法一般采用多個步驟,從圖像預處理、海陸分割,再到候選區(qū)域提取,最后進行目標檢測和鑒別[2]。應用在SAR圖像船舶檢測最普遍的方法是恒虛警率(Constant False Alarm Rate, CFAR)[3]系列算法,CFAR算法通過合適的分布對海雜波背景進行建模,并設(shè)定一個閾值對船舶目標進行檢測;但由于人工設(shè)定的特征魯棒性差,且在一些特殊場景下,如小目標和近海的復雜背景,CFAR算法很難達到較好的性能。
隨著計算機硬件和深度學習的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)成為目標檢測、分類、分割的主要方法。基于深度學習的目標檢測方法主要分為兩類:以Faster R-CNN(Region-based CNN)[4]等為代表的二階段檢測器和以YOLO(You Only Look Once)[5]系列、RetinaNet[6]等為代表的一階段檢測器。二階段檢測器的主要優(yōu)勢是精度高,而一階段檢測器與二階段檢測器相比檢測速度更快。對于SAR圖像船舶檢測任務(wù)來說,基于深度學習的船舶檢測算法不像傳統(tǒng)的CFAR算法一樣需要復雜的建模過程,而且自動學習的特征也比傳統(tǒng)目標檢測方法手工設(shè)定的特征表現(xiàn)更加出色?;诰矸e神經(jīng)網(wǎng)絡(luò)在目標檢測領(lǐng)域的出色表現(xiàn),一部分專家學者將卷積神經(jīng)網(wǎng)絡(luò)應用到了SAR圖像船舶檢測中。Kang等[7]提出了一種改進的卷積神經(jīng)網(wǎng)絡(luò),該方法將上下文信息和淺層位置特征與深層語義特征相結(jié)合,來提高檢測器的檢測精度。Jiao等[8]在Faster R-CNN的基礎(chǔ)上提出了一個密集連接多尺度網(wǎng)絡(luò)(Densely Connected MultiScale Neural Network, DCMSNN),將密集連接網(wǎng)絡(luò)作為它的特征提取網(wǎng)絡(luò),主要用來檢測多尺度、多場景的船舶目標。Zhang等[9]在網(wǎng)格卷積神經(jīng)網(wǎng)絡(luò)(Grid Convolutional Neural Network, G-CNN)的基礎(chǔ)上,通過將輸入圖像網(wǎng)格化和采用深度可分離卷積,極大加快了檢測器的檢測速度。為了獲得更顯著的特征并抑制噪聲,大量研究引入了注意力機制,Cui等[10]將特征金字塔與卷積注意力模塊相融合,Zhao等[11]提出了一個擴張注意力模塊來提升檢測器的特征提取能力。袁國文等[12]在Libra R-CNN[13]的特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network, FPN)基礎(chǔ)上添加了神經(jīng)架構(gòu)搜索(Neural Architecture Search, NAS),以解決FPN多尺度金字塔的融合問題,提高復雜場景下的船舶檢測精度?;赼nchor-free的卷積神經(jīng)網(wǎng)絡(luò)方法也被應用到SAR船舶檢測的研究中,Guo等[14]在CenterNet[15]的基礎(chǔ)上提出了CenterNet++,實驗結(jié)果表明該網(wǎng)絡(luò)在檢測SAR圖像數(shù)據(jù)集中小目標船舶的任務(wù)中取得了最先進的性能。雖然當前這些先進的方法極大地提高了性能,但仍然存在著不足,無論是anchor-based方法還是anchor-free方法,它們的特征提取網(wǎng)絡(luò)都還有進一步改進的空間。anchor-free的方法擺脫了使用anchor帶來的巨大計算量,從而提升了船舶檢測的精度和速度,但同時也帶來了檢測結(jié)果不穩(wěn)定的問題;而anchor-based方法對于密集排列船舶的檢測也存在著精度不高的問題。
經(jīng)過對上述研究的分析發(fā)現(xiàn),基于深度學習的目標檢測算法在SAR船舶檢測中的表現(xiàn)更為出色,RetinaNet是一個簡單而強大的目標檢測網(wǎng)絡(luò),不僅擁有較高的檢測速度,在檢測精度方面也比一些二階段檢測器性能更優(yōu),但將傳統(tǒng)的RetinaNet直接應用到SAR船舶檢測中依然會存在小目標檢測困難和在近岸的復雜背景下會更容易產(chǎn)生漏檢和虛警的問題。所以本文基于RetinaNet算法進行優(yōu)化,首先對特征提取網(wǎng)絡(luò)進行優(yōu)化,借鑒了Szegedy等[16]提出的Inception模塊,引入稀疏特性將全連接層改造成稀疏連接,在有限的計算資源內(nèi)提高了網(wǎng)絡(luò)性能,實現(xiàn)了對RetinaNet特征提取網(wǎng)絡(luò)的優(yōu)化。RetinaNet的特征金字塔網(wǎng)絡(luò),能有效解決特征提取網(wǎng)絡(luò)在提取小目標特征時不斷下采樣產(chǎn)生的特征丟失的問題,提高了網(wǎng)絡(luò)對小目標檢測的準確率。其次,本文在RetinaNet的網(wǎng)絡(luò)模型中添加了注意力機制,使得網(wǎng)絡(luò)更加關(guān)注有效的特征信息,以此來提高船舶在復雜背景下的檢測精度。最后,將網(wǎng)絡(luò)檢測時采用的非極大值抑制(Non-Maximum Suppression, NMS)算法[17]替換為軟非極大值抑制(Soft-NMS)算法,解決了船舶在密集排列時精度丟失的問題。
RetinaNet的結(jié)構(gòu)如圖1所示。
圖1 RetinaNet的結(jié)構(gòu)
首先,通過由卷積神經(jīng)網(wǎng)絡(luò)組成的特征提取網(wǎng)絡(luò)對圖像進行特征提取;然后,通過特征金字塔網(wǎng)絡(luò)進行特征融合,使單一分辨率圖片能構(gòu)建一個豐富的、多尺度的特征金字塔;最后,特征金字塔的每一層都有一個并行的分類子網(wǎng)絡(luò)和邊框回歸子網(wǎng)絡(luò),對特征圖的目標進行邊框回歸和分類。
RetinaNet使用的特征提取網(wǎng)絡(luò)通常都是ResNet系列,ResNet是由一系列的殘差塊組成,殘差塊結(jié)構(gòu)如圖2所示,其表達式為:
殘差塊主要分為直接映射部分和殘差部分,是直接映射部分,函數(shù)是殘差部分,一般由兩個或三個卷積操作構(gòu)成。殘差塊有效地解決了卷積神經(jīng)網(wǎng)絡(luò)隨著深度的加深而出現(xiàn)的退化問題:網(wǎng)絡(luò)深度飽和之后繼續(xù)加深網(wǎng)絡(luò)反而使網(wǎng)絡(luò)的效果變差。ResNet50就是集成這些殘差塊所形成的網(wǎng)絡(luò),ResNet50不僅具有良好的特征提取能力,而且網(wǎng)絡(luò)層數(shù)和參數(shù)量也不多,所以RetinaNet就采用了ResNet50作為它的特征提取網(wǎng)絡(luò)。
FPN的結(jié)構(gòu)如圖3所示。
圖3 FPN結(jié)構(gòu)
FPN的主要作用就是利用特征提取網(wǎng)絡(luò)不同階段的特征圖,構(gòu)建一個多尺度的特征金字塔,每層特征都與高層的高語義信息的特征相融合,提升每層的預測效果,而且低層高分辨率特征能夠有效地提升小目標的檢測效果。
在傳統(tǒng)目標檢測網(wǎng)絡(luò)(如Faster R-CNN、YOLO系列等)的類別預測中,一般都是使用交叉熵損失(Cross Entropy Loss)。二分類的交叉熵損失表達式如下:
RetinaNet采用優(yōu)化過后的交叉熵損失函數(shù)focal loss,函數(shù)的表達式為:
SAR圖像在生成的過程中由于自身成像模式的原因,容易產(chǎn)生噪聲,并且生成的圖像分辨率過低,在近岸場景下的圖像背景復雜,但RetinaNet的特征提取網(wǎng)絡(luò)提取能力不足以勝任這么復雜的場景,所以傳統(tǒng)的RetinaNet在應用到背景復雜的SAR船舶檢測和小目標船舶檢測任務(wù)時,仍存在檢測準確度偏低,以及在近岸船舶檢測時漏檢率和虛警率偏高的問題。本文針對這些問題提出了改進的RetinaNet模型,其結(jié)構(gòu)如圖4所示。改進的RetinaNet模型主要進行了三個方面的改進:首先對傳統(tǒng)的RetinaNet網(wǎng)絡(luò)所使用的特征提取網(wǎng)絡(luò)ResNet進行了改進,借鑒了Inception系列網(wǎng)絡(luò)的分組卷積之后再融合的思想,在不增加參數(shù)復雜度的前提下提高了特征提取網(wǎng)絡(luò)的特征提取能力。其次,在網(wǎng)絡(luò)中加入了注意力機制模塊,使檢測網(wǎng)絡(luò)更加注重特征圖的目標特征,提高了網(wǎng)絡(luò)的檢測精度。最后,使用Soft-NMS算法代替原來的NMS算法。
為了提高特征提取網(wǎng)絡(luò)的提取能力,對ResNet的殘差塊進行改進,改進前后的對比如圖5所示,(a)為ResNet的殘差塊結(jié)構(gòu),(b)為改進之后ResNeXt[18]的殘差塊結(jié)構(gòu)。圖5中,每個方框代表一層卷積,方框中參數(shù)分別表示輸入數(shù)據(jù)通道數(shù)、卷積核大小、輸出數(shù)據(jù)通道數(shù)。改進后的殘差塊表達式為:
圖5 殘差塊改進前后對比
為了使模型更加關(guān)注感興趣的特定目標區(qū)域,同時抑制不相關(guān)的特征區(qū)域,本文算法在模型的特征提取網(wǎng)絡(luò)中加入了空間注意力機制。Zhu等[19]對空間注意力機制進行了詳盡的經(jīng)驗性分析,通過實驗驗證了Transformer attention仍具有大量的改進空間,本文借鑒了上述研究對Transformer attention的改進,將廣義注意力機制模塊(Generalized Attention Module, GAM)引入到本文實驗中,結(jié)構(gòu)如圖6所示。
圖6 廣義注意力模塊結(jié)構(gòu)
將NMS算法應用于大部分先進的目標檢測器中,用來消除多余的候選框,找到最佳的目標檢測位置。該算法主要的流程是將檢測結(jié)果的多個候選框按照得分來進行排序,并且計算得分最高的候選框與其他候選框的重疊面積,重疊面積達到閾值就刪除得分低的候選框,之后不斷迭代該過程直到達到最佳結(jié)果。但是在船舶檢測任務(wù)中,當遇到密集排列的船舶時,使用NMS算法來處理預測框會導致漏檢,如圖8所示,假設(shè)圖中的框都為模型檢測出的候選框,而實線框得分比虛線框高,采用NMS算法會因為虛線框與實線框重疊面積超過閾值導致虛線框的刪除,最終導致漏檢,從而造成模型的精度降低。所以本文算法采用Soft-NMS算法來代替?zhèn)鹘y(tǒng)的NMS算法,Soft-NMS并不會暴力地刪除得分低的候選框,而是衰減候選框的得分,直到得分低于閾值才刪除,這樣能有效地解決上述問題,從而提升模型精度。
圖7 注意力殘差塊結(jié)構(gòu)
圖8 NMS算法導致的漏檢
傳統(tǒng)的NMS算法的表達式如下:
表1 HRSID數(shù)據(jù)集與SSD數(shù)據(jù)集
實驗的硬件平臺配置為:Intel Xeon E5-2678處理器,可使用內(nèi)存為32 GB,GPU處理器為NVIDIA GeForce RTX2080,顯卡內(nèi)存為8 GB;操作系統(tǒng)為64位Ubuntu 18.04;運行的軟件環(huán)境為Python3.7、CUDA10.0、Cudnn7.6。網(wǎng)絡(luò)模型是基于Pytorch1.3.1搭建的。
網(wǎng)絡(luò)在兩數(shù)據(jù)集上訓練都選擇隨機梯度下降法(Stochastic Gradient Descent, SGD)作為優(yōu)化器,并設(shè)置動量因子為0.9,權(quán)重衰減系數(shù)為0.000 1,學習率設(shè)置為0.001 25,并采用學習率線性增加策略,前500次迭代中學習率逐漸增加到0.001 25.使用學習率分段衰減策略,在模型訓練的后幾個輪次將學習率調(diào)整為原來的1/10,保證模型逐漸收斂。
為了對目標檢測器的性能進行定量和全面的分析,通常都會采用IOU(Intersection Over Union)、精確率(Precision)、召回率(Recall)和平均精度均值(mean Average Precision, mAP)等作為評價指標。
1) IOU。
IOU表示真實框與預測框的交集與并集的比值,其表達式如下:
2) 精確率與召回率。
在目標檢測器的分類過程中,檢測器可能會將背景與目標物體進行誤分類,也就導致了分類的四種結(jié)果:真陽性(True Positives, TP)、真陰性(True Negatives, TN)、假陰性(False Negatives, FN)、假陽性(False Positives, FP)。TP表示正確分類的正樣本數(shù);TN表示正確分類的負樣本數(shù);FN表示沒有檢測到的正樣本數(shù);FP表示在圖像背景上虛警的個數(shù)。所以,精確率Precision與召回率Recall的計算式如下:
如果數(shù)據(jù)集中有多個類別,那么所有類別AP的平均值就是mAP。常見的目標檢測數(shù)據(jù)集的評估格式有Pascal VOC和MS COCO。Pascal VOC的mAP計算是基于IOU閾值等于0.5的,IOU大于0.5的檢測框?qū)儆赥P,小于0.5的屬于FP。而MS COCO的評價標準更加豐富和全面,如AP、AP50(IOU閾值為0.5)、AP75(IOU閾值為0.75),其中AP是主要的挑戰(zhàn)指標,AP將IOU閾值分為10個,從0.5到0.95,間隔為0.05,分別在這10個IOU閾值上求取精確率,最后再求平均得到AP,所以選取AP、AP50、AP75作為本文算法的評價指標。
如第2章所述,本文在RetinaNet的基礎(chǔ)上進行改進,包括ResNeXt、GAM、Soft-NMS這3個核心模塊。為了更好地評估各個模塊對傳統(tǒng)的RetinaNet算法的改進能力,本文實驗分別對各個模塊進行了消融實驗,結(jié)果如表2所示。
表2 改進算法各模塊的消融實驗結(jié)果
可以發(fā)現(xiàn),傳統(tǒng)RetinaNet在SSDD數(shù)據(jù)集上的AP為52.3%,而ResNeXt的加入,增強了網(wǎng)絡(luò)的特征提取能力,使網(wǎng)絡(luò)檢測結(jié)果的AP提高了1.6個百分點;在將RetinaNet的特征提取網(wǎng)絡(luò)改進為ResNeXt的情況下,又分別對GAM模塊和Soft-NMS模塊進行了實驗,分別提高了1.7個百分點和1.6個百分點;最終將3個模塊進行融合,相較傳統(tǒng)的RetinaNet,本文改進算法在AP上提高了3.8個百分點,驗證了各個模塊融合的有效性。
表3中,分別給出了傳統(tǒng)的RetinaNet算法和本文改進算法在HRSID測試集上的測試速度以及各個AP值。通過分析表3數(shù)據(jù)可以發(fā)現(xiàn),本文通過對傳統(tǒng)的RetinaNet算法特征提取網(wǎng)絡(luò)和損失函數(shù)的改進,以及加入注意力機制,在損失較小測試速度的情況下極大提高了模型的精度。本文算法相較RetinaNet算法,在AP50上提高了0.9個百分點,在AP75上提高了3.4個百分點,最終模型的平均精度提高了2.4個百分點。
表3 RetinaNet算法改進前后性能對比
除了上述檢測精度的優(yōu)勢外,本文算法在復雜背景及小目標船舶檢測任務(wù)上的適應能力更強。選擇了兩個有代表性的船舶檢測場景來驗證本文算法的檢測能力,可視化結(jié)果如圖9所示,第一行為小目標場景,第二行為復雜背景的近岸船舶場景,第一列圖像中的框表示真實標注框,第二列和第三列圖像中的框表示模型的檢測框。設(shè)定測試集上的置信度閾值為0.5,置信度低于0.5的檢測框?qū)⒈贿^濾來防止虛警過多。從可視化結(jié)果圖9可以看出,本文算法相較于RetinaNet算法提高了在小目標船舶檢測和復雜背景的近岸船舶檢測任務(wù)中的準確率。
圖9 不同算法檢測結(jié)果的可視化對比
為了進一步驗證改進算法的SAR圖像船舶檢測能力,表4將本文算法與YOLOv3[23]、SSD[24]、Faster R-CNN[4]和近幾年的優(yōu)秀算法,包括anchor-based的Libra R-CNN[13]和anchor-free的CenterNet[15]在SSDD的測試集進行了性能對比。不同算法在SSDD測試集上的PR曲線如圖10所示。
實驗結(jié)果表明,由于Faster R-CNN二階段檢測網(wǎng)絡(luò)的特性,其在AP75上比本文算法提高了2.7個百分點,但本文算法的平均精度和AP50均優(yōu)于Faster R-CNN,且測試速度也有著較大的優(yōu)勢。本文算法相較于YOLOv3和SSD這樣的一階段網(wǎng)絡(luò),平均精度AP分別提高了9.2個百分點和3.6個百分點,與近幾年的優(yōu)秀算法Libra R-CNN相比,平均AP也提高了0.7個百分點。實驗結(jié)果表明,本文算法與當前大多數(shù)網(wǎng)絡(luò)相比性能都更優(yōu)。
圖10 不同算法的PR曲線
表4 不同檢測算法的性能對比
在SSDD數(shù)據(jù)集的測試集上選取了兩種不同場景的SAR圖像進行對比,圖11為小目標船舶場景,圖12為近岸密集??看皥鼍?,同樣設(shè)置得分閾值為0.5,圖(a)中的框表示真實標注框,其他圖中的框表示模型預測框。
圖11 小目標船舶圖像的不同算法檢測結(jié)果對比
由圖11可以發(fā)現(xiàn),本文檢測算法在小目標船舶上的檢測結(jié)果明顯更優(yōu)。傳統(tǒng)的RetinaNet檢測算法由于對小目標船舶檢測精度低,導致船舶的得分低,在固定的得分閾值下,產(chǎn)生了大量的漏檢目標,而改進之后的算法極大提高了船舶的置信度得分,因此極大地提高了檢測精度。與先進的一階段網(wǎng)絡(luò)SSD和YOLOv3相比,改進算法的漏檢目標也有明顯減少;但與Fater R-CNN相比,改進算法的精度略有降低。
將SSDD數(shù)據(jù)集的測試集按照船舶目標是否近岸分為離岸數(shù)據(jù)集和近岸數(shù)據(jù)集兩類,分別采用本文算法、SSD網(wǎng)絡(luò)、Faster R-CNN、YOLOv3統(tǒng)計其平均精度(AP),結(jié)果如表5所示。實驗結(jié)果表明,本文算法無論在近岸場景還是在離岸場景,船舶檢測的精度相較其他網(wǎng)絡(luò)都得到有效的提升。
圖12 近岸密集??看皥D像的不同算法檢測結(jié)果對比
表5 不同算法在SSDD數(shù)據(jù)集的近岸與離岸場景的檢測精度對比 單位:%
本文提出了一種基于分組卷積和注意力機制的改進ReitinaNet船舶檢測算法,在不對檢測速度造成巨大損失的基礎(chǔ)上極大提高了船舶檢測精度。在HRSID數(shù)據(jù)集和SSDD數(shù)據(jù)集上的檢測結(jié)果均表明,本文提出的改進算法相較于其他先進算法,無論是針對小目標船舶的檢測,還是對近岸復雜背景下的船舶檢測,都有更高的檢測精度。但本文算法對近岸船舶的檢測精度依然遠低于離岸船舶,提升近岸復雜背景下的船舶檢測精度將作為今后重點的研究目標。
[1] WACKERMAN C C, FRIEDMAN K S, PICHEL W G, et al. Automatic detection of ships in RADARSAT-1 SAR imagery [J]. Canadian Journal of Remote Sensing, 2001, 27(5): 568-577.
[2] 陳慧元,劉澤宇,郭煒煒,等.基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的大場景遙感圖像艦船目標快速檢測方法[J].雷達學報,2019,8(3):413-424.(CHEN H Y, LIU Z Y, GUO W W, et al. Fast detection of ship targets for large-scale remote sensing image based on a cascade convolutional neural network [J]. Journal of Radars, 2019, 8(3): 413-424.)
[3] ROBEY F C, FUHRMANN D R, KELLY E J, et al. A CFAR adaptive matched filter detector [J]. IEEE Transactions on Aerospace and Electronic Systems, 1992, 28(1): 208-216.
[4] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[5] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 779-788.
[6] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2999-3007.
[7] KANG M, JI K F, LENG X G, et al. Contextual region-based convolutional neural network with multilayer fusion for SAR ship detection [J]. Remote Sensing, 2017, 9(8): Article No.860.
[8] JIAO J, ZHANG Y, SUN H, et al. A densely connected end-to-end neural network for multiscale and multiscene SAR ship detection [J]. IEEE Access, 2018, 6: 20881-20892.
[9] ZHANG T W, ZHANG X L. High-speed ship detection in SAR images based on a grid convolutional neural network [J]. Remote Sensing, 2019, 11(10): Article No.1206.
[10] CUI Z Y, LI Q, CAO Z J, et al. Dense attention pyramid networks for multi-scale ship detection in SAR images [J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(11): 8983-8997.
[11] ZHAO Y, ZHAO L J, LI C Y, et al. Pyramid attention dilated network for aircraft detection in SAR images [J]. IEEE Geoscience and Remote Sensing Letters, 2021, 18(4): 662-666.
[12] 袁國文,張彩霞,楊陽,等.復雜場景下深度表示的SAR船舶目標檢測算法[J].計算機工程與應用,2022,58(2):289-294.(YUAN G W, ZHANG C X, YANG Y, et al. SAR target detection algorithm for depth representation in complex scenes [J]. Computer Engineering and Applications, 2022, 58(2): 289-294.)
[13] PANG J M, CHEN K, SHI J P, et al. Libra R-CNN: towards balanced learning for object detection [C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 821-830.
[14] GUO H Y, YANG X, WANG N N, et al. A CenterNet++ model for ship detection in SAR images [J]. Pattern Recognition, 2021, 112: Article No.107787.
[15] ZHOU X Y, WANG D Q, KR?HENBüHL P. Objects as points [EB/OL]. [2021-03-03]. https://arxiv.org/pdf/1904.07850.pdf.
[16] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 1-9.
[17] BODLA N, SINGH B, CHELLAPPA R, et al. Soft-NMS —improving object detection with one line of code [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 5562-5570.
[18] XIE S N, GIRSHICK R, DOLLáR P, et al. Aggregated residual transformations for deep neural networks [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 5987-5995.
[19] ZHU X Z, CHENG D Z, ZHANG Z, et al. An empirical study of spatial attention mechanisms in deep networks [C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019: 6687-6696.
[20] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 2017 31st International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc., 2017: 6000-6010.
[21] WEI S J, ZENG X F, QU Q Z, et al. HRSID: a high-resolution SAR images dataset for ship detection and instance segmentation [J]. IEEE Access, 2020, 8: 120234-120254.
[22] LI J W, QU C W, SHAO J Q. Ship detection in SAR images based on an improved faster R-CNN [C]// Proceedings of the 2017 SAR in Big Data Era: Models, Methods and Applications. Piscataway: IEEE, 2017: 1-6.
[23] REDMON J, FARHADI A. YOLOv3: an incremental improvement [EB/OL] [2021-03-03]. https://arxiv.org/pdf/1804. 02767.pdf.
[24] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multiBox detector [C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9905. Cham: Springer, 2016: 21-37.
FAN Wenjun, born in 1996, M. S. candidate. His research interests include artificial intelligence, target detection.
ZHAO Shuguang, born in 1965, Ph. D., professor. His research interests include intelligent information processing, pattern recognition, intelligent system.
GUO Lizheng, born in 1975, Ph. D., associate professor. His research interests include resource management and scheduling of cloud computing, machine learning.
Ship detection algorithm based on improved RetinaNet
FAN Wenjun1, ZHAO Shuguang1*, GUO Lizheng2
(1,,201620,;2,,467036,)
At present, the target detection technology based on deep learning algorithm has achieved the remarkable results in ship detection of Synthetic Aperture Radar (SAR) images. However, there is still the problem of poor detection effect of small target ships and densely arranged ships near shore. To solve the above problem, a new ship detection algorithm based on improved RetinaNet was proposed. On the basis of traditional RetinaNet algorithm, firstly, the convolution in the residual block of feature extraction network was improved to grouped convolution, thereby increasing the network width and improving the feature extraction ability of the network. Then, the attention mechanism was added in the last two stages of feature extraction network to make the network more focus on the target area and improve the target detection ability. Finally, the Soft Non-Maximum Suppression (Soft-NMS) was added to the algorithm to reduce the missed detection rate of the algorithm for the detection of densely arranged ships near shore. Experimental results on High-Resolution SAR Images Dataset (HRSID) and SAR Ship Detection Dataset (SSDD) show that, the proposed algorithm effectively improves the detection effect of small target ships and near-shore ships, is superior in detection precision and speed compared with the current excellent object detection models such as Faster Region-based Convolutional Neural Network (R-CNN), You Only Look Once version 3 (YOLOv3) and CenterNet.
Synthetic Aperture Radar (SAR) image; ship detection; RetinaNet; attention mechanism; grouped convolution
This work is partially supported by Interdisciplinary Key Program of Fundamental Research Funds for Central Universities (2232020A-12).
1001-9081(2022)07-2248-08
10.11772/j.issn.1001-9081.2021050831
2021?05?20;
2021?12?15;
2021?12?29。
中央高?;究蒲袠I(yè)務(wù)費專項資金學科交叉重點計劃項目(2232020A?12)。
TP391.41
A
凡文?。?996—),男,湖北天門人,碩士研究生,主要研究方向:人工智能、目標檢測; 趙曙光(1965—),男,陜西西安人,教授,博士,主要研究方向:智能信息處理、模式識別、智能系統(tǒng); 郭力爭(1975—),男,河南開封人,副教授,博士,主要研究方向:云計算的資源管理與調(diào)度、機器學習。