亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

復雜場景下多尺度船舶實時檢測方法

2022-11-07 08:47:22周薇娜劉露

電信科學 2022年10期

關鍵詞：金字塔尺度船舶

周薇娜，劉露

研究與開發(fā)

復雜場景下多尺度船舶實時檢測方法

周薇娜，劉露

（上海海事大學信息與工程學院，上海 201306）

船舶檢測在軍事偵察、海上目標跟蹤、海上交通管制等任務中發(fā)揮著重要作用。然而，受船舶外形尺度多變和復雜海面背景的影響，在復雜海面上檢測多尺度船舶仍然是一個挑戰(zhàn)。針對此難題，提出了一種基于多層信息交互融合和注意力機制的YOLOv4改進方法。該方法主要通過多層信息交互融合（multi-layer information interactive fusion，MLIF）模塊和多注意感受野（multi-attention receptive field，MARF）模塊構建一個雙向細粒度特征金字塔。其中，MLIF模塊用于融合不同尺度的特征，不僅能將深層的高級語義特征串聯(lián)在一起，而且將較淺層的豐富特征進行重塑；MARF由感受野模塊（receptive field block，RFB）與注意力機制模塊組成，能有效地強調重要特征并抑制冗余特征。此外，為了進一步評估提出方法的性能，在新加坡海事數(shù)據集（Singapore maritime dataset，SMD）上進行了實驗。實驗結果表明，所提方法能有效地解決復雜海洋環(huán)境下多尺度船舶檢測的難題，且同時滿足了實時需求。

多尺度船舶檢測；多層信息交互融合；多注意感受野；雙向細粒度特征金字塔

0 引言

海洋環(huán)境中的視覺目標檢測是計算機視覺領域的重要研究課題之一。準確、快速的多尺度船舶檢測方法不僅能為碼頭管理、港口監(jiān)控和安全航行提供非常重要的信息，而且對走私船舶的檢測和海上救援也起著重要的作用。

傳統(tǒng)的船舶檢測算法大多基于船舶結構和形狀進行手動特征設計。雖然這些算法[1-3]取得了一些好的結果，但即使使用當時最好的非線性分類器對這些手動設計的特征進行分類，其檢測精度仍不能滿足實際需要[4]。

近年來，隨著深度學習技術的發(fā)展，卷積神經網絡（convolutional neural network，CNN）在目標檢測方面取得了越來越顯著的性能。目前，基于CNN的目標檢測算法可分為兩類。

（1）基于區(qū)域推薦的算法，形成了以Faster R-CNN[5-7]為代表的兩階段算法。該類算法由于具有較高的檢測精度，在多尺度船舶檢測中得到了廣泛的應用，但檢測速度不足以滿足實時檢測的要求。

（2）基于回歸的算法，形成了以YOLO[8-10]和SSD[11]為代表的單階段算法。該類算法將檢測問題轉化為回歸問題，大大提高了檢測速度，在實時船舶檢測中具有突出的優(yōu)勢。

目前應用于海上船舶檢測算法大多基于合成孔徑雷達（synthetic aperture radar，SAR）遙感圖像，但隨著SAR成像速度不斷地提高，算法能夠實時快速地檢測顯得尤為重要。如張佳欣等[12]提出了一種基于改進YOLOv3的SAR圖像船舶檢測方法，通過改進算法的檢測策略提升了算法對復雜場景下不同船舶目標的適應性。Peng等[13]提出了一種由多個上采樣注意單元組成的密集注意方法，該方法采用上采樣空間和上采樣通道注意機制，通過空間上下文信息捕獲目標的變化特征。張筱晗等[14]提出精簡網絡結構數(shù)據驅動的目標分布聚類算法，結合雙向高低層特征融合機制，減少了訓練和測試時間，但檢測精度較低，同時模型復雜度較高。然而，由于衛(wèi)星獲取的SAR遙感圖像中，場景種類比較單一，獲取的船舶特征穩(wěn)定性不足。

為了克服這個問題，研究者們提出了其他新的多尺度船舶檢測方法[15-17]。Shao等[15]構建了一個新的大型船舶數(shù)據集，其中包含6種常見的船舶類型，用于訓練和評估船舶目標檢測算法。Guo等[16]提出了一種新的基于海面無人水面車輛（unmanned surface vessel，USV）圖像的目標檢測算法，主要通過融合DenseNet和YOLOv3網絡來實時檢測真實海洋環(huán)境中的多尺度船舶。該方法在一定程度上能夠提高檢測的穩(wěn)定性，以減少特征損失。Shao等[17]首次提出利用陸地監(jiān)控攝像機網絡捕獲的視覺圖像來進行實時船舶檢測，并設計了一個重要的感知CNN框架來預測船舶的類別與位置。

然而，這些方法應用在真實海面環(huán)境下多尺度船舶檢測時仍然存在一些難題，尤其當圖像中背景信息復雜、包含大量不同尺度船舶、復雜環(huán)境中的尾流等噪聲類似于小尺度船舶等。所有這些情況都會對多尺度船舶的準確檢測造成很大的干擾。因此，增強上下文語義信息，并突出船舶的顯著特征，對于提高多尺度船舶的檢測性能至關重要。

為了能同時兼顧檢測精度和速度，本文提出了一種基于多層信息交互融合和注意力機制的網絡結構。首先，采用CSPDarkNet53[18]作為主干網絡進行特征提??；然后，在主干網絡之后，采用改進的細粒度特征金字塔結構。特征金字塔主要包含兩個關鍵模塊，即多層信息交互融合（multi-layer information interactive fusion，MLIF）模塊和多注意感受野（multi-attention receptive field，MARF）模塊。MLIF模塊分別通過級聯(lián)和重塑操作將較深層和較淺層的特征融合到當前層，它可以充分增強上下文語義特征。MARF模塊合理地結合了感受野模塊（receptive field block，RFB）[19]、空間注意（spatial attention，SA）模塊和通道注意（channel attention，CA）模塊[20]。其中，RFB旨在進一步擴展不同區(qū)域的感受野，獲得更多的語義特征。SA和CA模塊用于突出船舶的重要特征，可有效抑制周圍環(huán)境的干擾，例如船舶的波浪和尾跡。最后，在特征金字塔的不同尺度特征上使用YOLOv4檢測模塊生成最終的檢測結果。該模塊沿用了YOLOv3檢測模塊，因此在文中用YOLOv3-Head表示。此外，為了評估本文所提方法的性能，本文在新加坡海事數(shù)據集（Singapore maritime dataset，SMD）上進行實驗，SMD是視覺船舶檢測的代表數(shù)據集之一。檢測結果表明，與現(xiàn)有的Faster-RCNN、SSD、YOLOv3、YOLOv4[21]、RetinaNet[22]、YOLOx[23]和CenterNet[24]方法相比，所提方法對于復雜背景下的多尺度船舶檢測更為有效。本文的主要貢獻總結如下。

（1）提出充分利用注意力機制，并結合網絡中多層次信息的交互融合方法解決復雜環(huán)境下多尺度船舶的同步檢測問題。

（2）合理結合MLIF和MARF模塊，引入細粒度特征金字塔方法以細化不同尺度特征圖的語義信息，增強非局部特征之間的關系。

（3）構建了以SMD中多個船舶類別為基礎的沿海、近海鄰域背景的船舶數(shù)據集，并通過多角度實驗比較，論證了所提方法的有效性和先進性。

1 算法原理

1.1 YOLOv4

目標檢測網絡通常使用一個非常深的主干網絡沿自底向上的路徑進行特征提取，但檢測小尺度物體時，深的網絡會造成物體語義信息或者位置信息的丟失。因此，一些檢測方法通過設計一個性能良好的特征金字塔結構來提高多尺度物體檢測的準確率，如YOLOv4和RetinaNet。與之前的YOLO系列網絡框架相比，YOLOv4主干網絡采用的CSPDarkNet53是DarkNet53的改進版本。YOLOv4的特征金字塔部分是由特征金字塔網絡（feature pyramid network，F(xiàn)PN）[25]和路徑聚合網絡（path aggregation network，PAN）[26]通過自頂向下路徑將高級特征融合到低級特征來生成的。所采用的多尺度特征融合主要通過將13×13、26×26、52×52 共3種不同尺寸的特征圖構建特征金字塔，分別用于檢測大、中、小目標。這種多尺度預測使得YOLOv4對弱目標更加敏感，顯著提高了其檢測能力。YOLOv4的檢測模塊仍沿用YOLOv3的檢測模塊，但在損失函數(shù)部分進行了改進[27]。所采用的損失函數(shù)具體如下。

1.2 改進方法的網絡結構

YOLOv4的特征金字塔結構主要是通過融合不同特征層來增強網絡中上下文語義特征，但這些來自不同特征映射的特征仍然不平衡。具體來說，高級特征層中包含豐富的語義信息，但缺乏準確的位置信息。而低級特征層中包含豐富的位置信息，但語義信息較少。尤其是在復雜的海洋環(huán)境中，不僅包含了不同尺度的船舶，而且周圍環(huán)境也非常復雜，這就使得YOLOv4的檢測效果不理想。此外，隨著檢測網絡層數(shù)加深，小尺度的船舶特征就會消失，那么沿自上而下路徑融合船舶特征是不可能的。因此，為了增強上下文語義特征，突出船舶的重要特征，建立一個細粒度特征金字塔是非常有必要的。本文方法的網絡結構如圖1所示，可以看出，本文所提方法主要通過融合MLIF和MARF模塊構造一個雙向融合的細粒度特征金字塔。該特征金字塔結構主要包括空間金字塔池化（spatial pyramid pooling，SPP）模塊[28]、特征提?。╢eature extraction，F(xiàn)E）[29]模塊、MLIF模塊和MARF模塊。

圖1 本文方法的網絡結構

1.3 SPP和FE模塊

YOLOv4的主干特征提取網絡的最深層特征會經過SPP模塊進行特征提取并擴大感受野，然后經過FE模塊進一步深層次地提取特征。SPP和FE模塊的具體結構如圖2所示。SPP模塊由1個瓶頸層、3個內核大小為（5×5）、（9×9）和（13×13）的最大池化層以及1個級聯(lián)操作組成。它能夠顯著地增加感受野，分離得到最重要的上下文特征，幾乎不會降低網絡運行速度。FE模塊主要由兩個瓶頸層和兩個卷積層組成，其中瓶頸層用于減少特征通道的數(shù)量，卷積層用于提取特征。FE模塊主要用于生成更多上下文和語義特征。

圖2 SPP和FE模塊的具體結構

1.4 MLIF模塊

Cao等[30]提出，當主干網絡非常深時，可以通過融合更大規(guī)模的特征層來擴展小型船舶的語義信息。此外，低級特征中包含豐富的位置信息有利于物體的定位。因此，本文將主干網絡中的4層不同尺度的特征層融入MLIF模塊，從而將深層特征的語義信息與淺層特征的邊緣特征信息結合起來。這種操作可以使算法感知更多的小尺寸船舶的特征，有利于海洋環(huán)境中多尺度船舶的檢測。

（9）

1.5 MARF模塊

圖4 MARF模塊的結構和參數(shù)

其中，RFB主要通過1×1或3×3卷積運算減少通道數(shù)，進而減少網絡的計算量。然后采用膨脹卷積并行捕獲多尺度船舶的上下文語義信息。此外，RFB有較大的感受野和較小的網絡參數(shù)。RFB主要由3個卷積分支和1個級聯(lián)操作組成。每個分支包含3個卷積層，最后一層是膨脹率分別為1、3、5的膨脹卷積，用于捕獲全局特征。由于大膨脹率卷積可以獲得船舶的非局部特征，如輪廓、邊緣等，因此適合于多尺度船舶的檢測。通過級聯(lián)操作，在相同的特征映射上增強船舶的局部特征及其全局依賴性。最終的輸出特征在校正線性單元函數(shù)后獲得，用于改善RFB的非線性。具體可由以下計算式表示。

在通道注意力模塊中，經過RFB的特征圖譜首先沿著其寬度和高度平行采用最大池化層和平均池化層；然后，使用共享多層感知器沿特征圖譜的通道維度輸出權重；接著，將共享MLP應用于每個描述符之后，使用元素求和來合并輸出特征向量；最后經過ReLU激活函數(shù)生成通道注意特征圖譜。在空間注意力模塊中，淺層特征首先沿著其通道軸應用最大池化和平均池化操作，并將它們連接起來，以生成有效的特征圖譜；然后在級聯(lián)的特征圖譜上應用卷積層進行進一步特征提取；最后同樣經過ReLU激活函數(shù)生成空間注意特征圖譜。經過CA和SA模塊生成的特征都經過與當前特征進行相乘后，淺層特征再經過下采樣與通道注意特征進行元素求和合并輸出最終的特征向量。通道注意特征和空間注意特征的計算式如下。

2 實驗結果分析

2.1 數(shù)據集

本文數(shù)據集中的圖像主要來自新加坡海事數(shù)據集（Singapore maritime dataset，SMD）。SMD提供由分別固定在岸上和船上的佳能70D相機拍攝的新加坡水域周圍的高清格式（1 080×1 920像素）的可見光（visual-optical，VIS）和近紅外（near infrared，NIR）視頻。它包含81個視頻文件，包括9個不同類別的240 842個目標標簽。SMD中的圖像包含大量不同的船舶，如浮標、快艇、皮劃艇和輪船，且這些船舶在圖中的尺度變化較大。這對于檢測算法來說是非常具有挑戰(zhàn)性的。本文將SMD隨機分為3個部分，即訓練集、驗證集和測試集，其比例為7:1:2，并從SMD中提取4 470張圖像作為訓練集，635張圖像作為驗證集，1 245張圖像作為測試集。SMD的部分樣本和標簽如圖5所示。

圖5 SMD的部分樣本和標簽

2.2 評估指標

本文采用的算法評估指標為：準確率（precision，P）、召回率（recall，R）、平均準確率（average precision，AP）與 F分數(shù)（F1）。精度均值（mean average precision，mAP）是多個類別的AP的平均值，用來衡量模型在所有類別上訓練效果的好壞。F1是一個綜合指標，用于結合準確率和召回率來判斷不同網絡的性能。此外，為了評估目標檢測網絡的檢測速度，本文使用每秒傳輸幀數(shù)（frames per second，F(xiàn)PS）作為網絡檢測速度評估標準，其計算式如下。

2.3 參數(shù)設置

本實驗使用的配備是Intel i5-8 400HQ（2.5 GHz）CPU和Nvidia GeForce GTX 1 070 GPU，均采用Python語言編寫，且均使用PyTorch平臺。在網絡訓練中，采用初始學習率為0.01的多項式衰減學習率調度策略，動量為0.9的標準Adam優(yōu)化器，同時標簽平滑設置為0.01。每批次輸入網絡的圖像個數(shù)則根據網絡框架的深度和GPU內存限制設置為16，并設置分割系數(shù)為16，讓網絡能夠最大限度地提高GPU的內存利用率，同時實現(xiàn)網絡的快速訓練。此外，通過采用提前停止的策略，使網絡能夠在100個Epoch內終止訓練過程，從而加快網絡的訓練速度。

2.4 消融實驗

本文通過提出雙向“細粒度”融合特征金字塔模塊對多尺度船舶進行了更為精確的檢測，其中MLIF和MARF模塊的改進正是細粒度融合特征金字塔模塊的主要部分。因此，為了評估本文算法對SMD圖像中多尺度船舶檢測的有效性，以CSPDarkNet53主干特征網絡為基礎，在SMD數(shù)據集上進行MLIF和MARF模塊的消融實驗，定量分析了兩個模塊的檢測性能，具體見表1。

表1 不同模塊精度對比

表1顯示了船舶檢測網絡應用各個模塊的檢測結果，從表1可以看出，在FPS基本一致的情況下，MLIF-PAN的mAP值比FPN-PAN （YOLOv4）高4.8%，說明MLIF模塊能夠提高網絡的檢測能力。FPN-RFB的mAP值比FPN-PAN提高了3.6%，MLIF-RFB的mAP值比MLIF-PAN提高了3.7%。這是因為在復雜環(huán)境中RFB模塊可以通過增強局部特征及其全局依賴性，如波浪、相機抖動等，獲取豐富的語義信息進一步準確地檢測多尺度船舶。在另一方面，僅采用SA和CA模塊來進行特征融合時，F(xiàn)PN-SA、CA和MLIF-SA、CA的mAP值會有所降低，這主要是由于該種方法缺乏RFB模塊來擴大船舶感受野。此外，MLIF-MARF的mAP值比MLIF-RFB高，F(xiàn)PN-MARF的mAP值比FPN-RFB高。這主要是因為注意力機制有效抑制了來自RFB的冗余特征，網絡可以更加突出船舶的顯著特征并對其進行區(qū)分，證明了MARF模塊在提高多尺度船舶檢測精度方面具有泛化能力。

為了進一步驗證所提方法對多尺度船舶的檢測能力，本文分別比較了FPN-PAN、MLIF-PAN和本文方法（MLIF-MARF）在檢測不同尺寸船舶方面的性能。不同模塊對多尺度船舶檢測精度對比見表2，可見本文方法mAP指標均優(yōu)于FPN-PAN（YOLOv4），在檢測小尺寸船舶方面，比FPN-PAN提升高達40.9%的準確率。這主要是因為本文方法能夠有效地增強非局部特征之間的關系，充分整合不同特征圖上的語義信息。

表2 不同模塊對多尺度船舶檢測精度對比

圖6比較了FPN-PAN、MLIF-PAN和本文方法的直觀檢測效果。從SMD中選擇了3組不同場景下的船舶圖像，在船上拍攝的畫面，船舶比例小、排列稀疏的可見光圖片如圖6（a）所示；在岸上拍攝的船舶比較密集，且包含大量不同尺度的船舶可見光圖片如圖6（b）所示；光線比較昏暗的近紅外光船舶圖片如圖6（c）所示。根據3組不同場景的檢測結果，以及和真值（ground truth）圖的對比，本文可以得出如下結論。

圖6 FPN-PAN、MLIF-PAN與本文算法（MLIF-MARF）在不同環(huán)境下的結果對比

（1）MLIF和MARF兩個模塊能夠有效地提高網絡對周圍環(huán)境和船舶的檢測性能。因為在圖6中，3組場景下本文算法（MLIF-MARF）的檢測結果均不存在誤報，而MLIF-PAN和FPN-PAN的檢測結果都會出現(xiàn)漏檢的情況。

（2）MARF模塊能夠增強具有全局依賴性的局部特征，并且進一步細化小尺度物體的顯著特征。這點可由圖6（b）和圖6（c）中看出，本文算法（MLIF-MARF）能夠準確檢測虛線圓圈框中的小物體，而FPN-PAN、MLIF-PAN結構卻不能。

此外，為了驗證算法對背景特征的抑制作用，各個模塊特征激活圖如圖7所示，分別顯示了FPN-PAN、MLIF-PAN和本文算法（MLIF-MARF）3種方法在不同環(huán)境下的特征激活圖。從圖7中可以清晰看出YOLOv4（FPN-PAN)）算法受背景干擾，檢測存在很多漏檢和誤檢現(xiàn)象；MLIF-PAN算法雖然使得船舶檢測率有所提升，但周邊的環(huán)境對算法仍然造成了很大的影響。而本文方法（MLIF-MARF）在增加了注意力機制模塊之后，對周邊環(huán)境的冗余特征抑制作用較大，能夠準確地識別船舶特征并將周邊環(huán)境對它的影響降到最低。

2.5 對比最先進的技術

為了進一步驗證本文算法在檢測多尺度船舶方面的性能，將本文所提算法與7種具有代表性的目標檢測方法Faster-RCNN、SSD、RetinaNet、CenterNet、YOLOx、YOLOv3和YOLOv4進行對比實驗，這里均采用相同的數(shù)據劃分和優(yōu)化參數(shù)方法進行訓練，與其他目標檢測方法的對比實驗結果見表3。

圖7 FPN-PAN、MLIF-PAN與本文算法（MLIF-MARF）在不同環(huán)境下的特征激活圖

表3 與其他目標檢測方法的對比實驗結果

由表3可以看出，兩階段算法Faster-RCNN的準確率要高于一階段的算法，這是因為兩階段算法比一階段算法更注重準確性，但其檢測速度很慢、達不到實時檢測效果。相比于其他一階段的檢測算法，本文提出的檢測算法在檢測精度方面表現(xiàn)最好，遠高于YOLOv4算法，主要是因為YOLOv4通過融合3層特征圖來獲取船舶的細粒度特征信息，這使其不能夠充分地提取小尺度的船舶語義信息。此外，RetinaNet的mAP值相比于其他算法也是比較高的，這主要是因為該算法同樣具有一個融合多層特征信息的金字塔結構，但該算法的船舶檢測速度要低于本文所提算法。另一方面，從F1角度來看，本文所提算法比其他算法提高了34.1%，進一步證明本文算法的綜合性能較好。最后，根據表3最后一列所示的FPS值可見，本文所提算法的FPS比Faster-RCNN快得多。其中YOLOx的運行速度比其他方法快，這可能是因為它在骨干網絡中采用了深度可分離卷積，且屬于無錨框算法。但本文所提算法仍能滿足實時性要求。

圖8中展現(xiàn)了5種檢測算法在SMD上的檢測結果。圖8（a）為相機固定在船舶上采集的，這類圖片的主要特點是包含較少的船舶且占據整張圖片的比例較小，這會嚴重干擾每種算法的準確率。從圖8（a）可以看出，本文的算法準確地檢測到所有船舶目標，而對于SSD則沒有檢測出船舶A。圖8（b）中每張圖片都包含了許多不同尺寸的船舶目標且它們都密集分布。從圖8（b）可以看出，SSD、Faster-RCNN、YOLOv4和CenterNet都存在漏檢（飛機B或小船C）。而對于本文的算法由于采用了細粒度特征金字塔結構，因此可以準確地檢測到每種船舶目標。圖8（c）中的船舶圖片則主要來自近紅外視頻，這類圖片的整體畫面光線比較昏暗。從圖8（c）可以看出，在YOLOv4、SSD和CenterNet的檢測結果中，一些檢測目標或多或少地被漏檢了（飛機D、船舶E、船舶F和船舶G）。而本文算法同樣能夠準確檢測到各種船舶目標。以上3種場景的船舶檢測結果充分證明了本文所提算法能夠通過細粒度特征金字塔模塊，增加網絡自下向上的信息融合路徑，提供更準確的網絡低層特征細節(jié)信息，從而進一步提高多尺度船舶的檢測準確率。

圖8 不同算法檢測結果對比

3 結束語

為解決多尺度船舶檢測難的問題，本文提出了一種基于YOLOv4的高效多層注意力接收融合網絡方法。該方法主要在特征金字塔部分融合了MLIF和MARF模塊，使網絡能夠在多尺度上融合特征，充分增強上下文語義特征，擴展感知范圍，提高了多尺度艦船的檢測精度。實驗結果表明，改進后的方法在復雜的海洋環(huán)境下對多尺度船舶具有良好的檢測效果，與YOLOv4相比，檢測的準確度有大幅提升。

[1] HUANG J, JIANG Z G, ZHANG H P, et al. Region proposal for ship detection based on structured forests edge method[C]// Proceedings of 2017 IEEE International Geoscience and Remote Sensing Symposium. Piscataway: IEEE Press, 2017: 1856-1859.

[2] ZHU Q Y, JIANG Y L, CHEN B. Design and implementation of video-based detection system for WHARF ship[C]//Proceedings of IET International Conference on Smart and Sustainable City 2013 (ICSSC 2013). IET, 2013: 493-496.

[3] LI S, ZHOU Z Q, WANG B, et al. A novel inshore ship detection via ship head classification and body boundary determination[J]. IEEE Geoscience and Remote Sensing Letters, 2016, 13(12): 1920-1924.

[4] LIU L, WANG X G, CHEN J, et al. Deep learning for generic object detection: a survey[J]. International Journal of Computer Vision, 2020, 128(2): 261-318.

[5] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 27th IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2014: 580-587.

[6] GIRSHICK R. Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision (ICCV). Piscataway: IEEE Press, 2015: 1440-1448.

[7] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[8] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway: IEEE Press, 2016: 779-788.

[9] REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2017: 7263-7271.

[10] REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB]. 2018: arXiv.1804.02767.

[11] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector[C]//Proceedings of European Conference on Computer Vision. Cham: Springer International Publishing, 2016: 21-37.

[12] 張佳欣, 王華力. 改進YOLOv3的SAR圖像艦船目標檢測[J]. 信號處理, 2021, 37(9): 1623-1632.

ZHANG J X, WANG H L. Ship target detection in SAR image based on improved YOLOv3[J]. Journal of Signal Processing, 2021, 37(9): 1623-1632.

[13] PENG X L, ZHONG R F, LI Z, et al. Optical remote sensing image change detection based on attention mechanism and image difference[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 59(9): 7296-7307.

[14] 張筱晗, 姚力波, 呂亞飛, 等. 雙向特征融合的數(shù)據自適應SAR圖像艦船目標檢測模型[J]. 中國圖象圖形學報, 2020, 25(9): 1943-1952.

ZHANG X H, YAO L B, LYU Y F, et al. Data-adaptive single-shot ship detector with a bidirectional feature fusion module for SAR images[J]. Journal of Image and Graphics, 2020, 25(9): 1943-1952.

[15] SHAO Z F, WU W J, WANG Z Y, et al. SeaShips: a large-scale precisely annotated dataset for ship detection[J]. IEEE Transactions on Multimedia, 2018, 20(10): 2593-2604.

[16] LI Y, GUO J, GUO X, et al. A novel target detection method of the unmanned surface vehicle under all-weather conditions with an improved YOLOv3[J]. Sensors, 2020, 20(17): 4885.

[17] SHAO Z, WANG L, WANG Z, et al. Saliency-aware convolution neural network for ship detection in surveillance video[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 30(3): 781-794.

[18] WANG C Y, LIAO H, WU Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE Press, 2020: 390-391.

[19] LIU S, HUANG D. Receptive field block net for accurate and fast object detection[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 385-400.

[20] WOO S, PARK J, LEE J Y, et al. Cbam: convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 3-19.

[21] BOCHKOVSKIY A, WANG C Y, LIAO H. YOLOv4: optimal speed and accuracy of object detection[EB]. 2020: arXiv. 2004.10934.

[22] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV). Piscataway: IEEE Press, 2017: 2999-3007.

[23] GE Z, LIU S, WANG F, et al. YOLOx: exceeding yolo series in 2021[EB]. 2021.

[24] DUAN K W, BAI S, XIE L X, et al. CenterNet: keypoint triplets for object detection[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE Press, 2019: 6569-6578.

[25] LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2017: 2117-2125.

[26] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]//Proceedings of 2018 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 8759-8768.

[27] 康帥, 章堅武, 朱尊杰, 等. 改進YOLOv4算法的復雜視覺場景行人檢測方法[J]. 電信科學, 2021, 37(8): 46-56.

KANG S, ZHANG J W, ZHU Z J, et al. An improved YOLOv4 algorithm for pedestrian detection in complex visual scenes[J]. Telecommunications Science, 2021, 37(8): 46-56.

[28] HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916

[29] CHEN P Y, HSIEH J W, WANG C Y, et al. Recursive hybrid fusion pyramid network for real-time small object detection on embedded devices[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway: IEEE Press, 2020: 402-403.

[30] CAO C, WU J, ZENG X, et al. Research on airplane and ship detection of aerial remote sensing images based on convolutional neural network[J]. Sensors, 2020, 20(17): 4696.

A real-time detection method for multi-scale ships in complex scenes

ZHOU Weina, LIU Lu

School of information Engineering, Shanghai Maritime University, Shanghai 201306, China

Ship detection plays an important role in tasks such as military reconnaissance, maritime target tracking, and maritime traffic control. However, due to the influence of variable sizes of ships and complex background of sea surface, detecting multi-scale ships remains a challenge in complex sea surfaces. To solve this problem, an improved YOLOv4 method based on multi-layers information interactive fusion and attention mechanism was proposed. Multi-layers information interactive fusion (MLIF) and multi-attention receptive field (MARF) were applied and combined reasonably to build a bidirectional fine-grained feature pyramid. MLIF was used to fuse feature of different scales, which not only concatenated high-level semantic features from deep layers, but also reshaped richer features from shallower layers. MARF consisted of receptive field block (RFB) and attention mechanism module, which effectively emphasized the important features and suppressed unnecessary ones. In addition, to further evaluate the performance of the proposed method, experiments were carried out on Singapore maritime dataset (SMD). The results illustrate that the method proposed can effectively solve the problem of difficult detection of multi-scale ships in complex marine environment, and meet the real-time requirements at the same time.

multi-scale ship detection, multi-layers information interactive fusion, multi-attention receptive field, bidirectional fine-grained feature pyramid

TP391

10.11959/j.issn.1000–0801.2022258

2022?02?11；

2022?08?15

國家自然科學基金資助項目（No.52071200，No.61404083）；專用集成電路與系統(tǒng)國家重點實驗室開放研究課題基金資助項目（No.2021KF010）

The National Natural Science Foundation of China (No. 52071200, No.61404083), The State Key Laboratory of ASIC and System (No. 2021KF010)

周薇娜（1982– ），女，博士，上海海事大學信息工程學院副教授、碩士生導師，主要研究方向為圖像處理、目標檢測算法和ASIC設計。

劉露（1996– ），女，上海海事大學信息工程學院碩士生，主要研究方向為計算機視覺、目標檢測與人工智能等。