亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的遙感圖像艦船目標(biāo)檢測(cè)算法綜述

        2023-08-29 03:15:16黃澤賢吳凡路傅瑤張雨姜肖楠
        光學(xué)精密工程 2023年15期
        關(guān)鍵詞:艦船邊界特征

        黃澤賢, 吳凡路, 傅瑤, 張雨, 姜肖楠*

        (1.中國(guó)科學(xué)院 長(zhǎng)春光學(xué)精密機(jī)械與物理研究所,吉林 長(zhǎng)春 130033;2.中國(guó)科學(xué)院大學(xué),北京 100049)

        1 引 言

        我國(guó)擁有遼闊的海域,海面艦船目標(biāo)檢測(cè)無(wú)論是在民用方面還是軍事方面都具有十分重要的意義。遙感圖像目標(biāo)檢測(cè)識(shí)別一直是遙感圖像處理和模式識(shí)別領(lǐng)域備受關(guān)注的研究方向[1-2]?;谶b感圖像的艦船目標(biāo)檢測(cè)技術(shù)使得大范圍遠(yuǎn)海域的監(jiān)測(cè)成為可能,極大地豐富軍事、海事部門的監(jiān)測(cè)手段。隨著遙感衛(wèi)星技術(shù)的不斷成熟,遙感圖像分辨率不斷提升、數(shù)據(jù)規(guī)模日益猛增,傳統(tǒng)目標(biāo)檢測(cè)算法主要基于手工提取特征,手工提取特征存在識(shí)別準(zhǔn)確率不高、效率低、易受背景干擾等缺點(diǎn)[3-4],已難以滿足應(yīng)用需求。

        在計(jì)算機(jī)視覺領(lǐng)域,基于深度學(xué)習(xí)的方法相較于傳統(tǒng)方法顯示出巨大優(yōu)勢(shì)。深度學(xué)習(xí)方法可以從海量圖像數(shù)據(jù)中學(xué)習(xí)圖像特征表達(dá)以極大地提高含有大量信息的圖像處理精度。通過(guò)組合多個(gè)非線性變換、自適應(yīng)地組合低層特征形成更抽象的高層特征的深度網(wǎng)絡(luò),進(jìn)而提取出圖像中的光譜、紋理、幾何等隱藏得更深、語(yǔ)義信息更豐富的特征,獲得比傳統(tǒng)方法更高的精度和效率[5]。本文歸納梳理了經(jīng)典目標(biāo)檢測(cè)算法,對(duì)遙感圖像艦船目標(biāo)檢測(cè)算法的技術(shù)現(xiàn)狀進(jìn)行了分析,探討了當(dāng)前遙感圖像船舶目標(biāo)檢測(cè)算法面臨的問(wèn)題與挑戰(zhàn)以及未來(lái)的發(fā)展趨勢(shì)。

        2 深度學(xué)習(xí)目標(biāo)檢測(cè)算法

        隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域取得的革命性成功,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)被廣泛應(yīng)用于圖像分類與目標(biāo)識(shí)別。CNN可以自動(dòng)提取特征,大大提高了目標(biāo)識(shí)別的準(zhǔn)確率?;谏疃葘W(xué)習(xí)的目標(biāo)檢測(cè)算法主要分為基于錨框的(Anchor-Based)方法和無(wú)錨框的(Anchor-Free)方法,其中Anchor-Based方法包括基于候選區(qū)域(Region Proposals)的兩階段目標(biāo)檢測(cè)算法和基于回歸的一階段目標(biāo)檢測(cè)算法?;谏疃葘W(xué)習(xí)的目標(biāo)檢測(cè)算法的發(fā)展進(jìn)程見圖1,本文介紹了幾種經(jīng)典的目標(biāo)檢測(cè)算法。

        圖1 目標(biāo)檢測(cè)算法發(fā)展進(jìn)程Fig.1 Development process of target detection algorithms

        2.1 Anchor-based目標(biāo)檢測(cè)算法

        2.1.1 基于候選區(qū)域的兩階段目標(biāo)檢測(cè)算法

        兩階段檢測(cè)算法首先從圖像中提取候選區(qū)域,然后從候選區(qū)域生成目標(biāo)的預(yù)測(cè)框。兩階段檢測(cè)算法一般檢測(cè)精度較高,但檢測(cè)速度慢。

        (1)R-CNN

        Girshick提出的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Region Convolutional Neural Networks, R-CNN)[6]首先采用選擇性搜索(Selective Search, SS)算法獲取可能包含目標(biāo)的建議區(qū)域;然后,將建議區(qū)域的尺寸調(diào)整一致后送入CNN AlexNet中提取特征;再將提取的特征向量送入每類的支持向量機(jī)(Support Vector Machine, SVM)分類器進(jìn)行二分類,判斷目標(biāo)是否屬于該類;最后對(duì)已分類的目標(biāo)框進(jìn)行精細(xì)調(diào)整得到更加準(zhǔn)確的邊界框坐標(biāo)。檢測(cè)流程見圖2。

        圖2 R-CNN檢測(cè)流程Fig.2 R-CNN detection process

        R-CNN算法第一次將卷積神經(jīng)網(wǎng)絡(luò)用于目標(biāo)檢測(cè),在VOC2012 (Visual Object Classes Challenge 2012)數(shù)據(jù)集[7]上的均值平均精度(mean Average Precision, mAP)達(dá)到了53.3%,相比之前的最優(yōu)結(jié)果提高了30%以上。但該算法一張圖像生成大量的候選框,特征的冗余計(jì)算使得檢測(cè)速度很慢。

        (2)SPPNet

        空間金字塔池化層(Spatial Pyramid Pooling,SPP)[8]將一幅圖像分為若干個(gè)尺度的圖像塊,對(duì)提取的特征進(jìn)行融合得到多尺度特征。SPPNet能接收不同尺寸的輸入并生成尺寸一致的特征圖,網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

        圖3 SPPNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 SPPNet network structure

        SPPNet解決了CNN模型輸入圖像尺寸固定的問(wèn)題,避免特征圖的重復(fù)計(jì)算,在VOC2007數(shù)據(jù)集[9]上的mAP值為59.2%,比R-CNN的檢測(cè)速度高。但是,和R-CNN相同,SPPNet訓(xùn)練CNN提取特征后送入SVM進(jìn)行分類,耗費(fèi)巨大的存儲(chǔ)空間,多階段訓(xùn)練流程復(fù)雜,而且不能微調(diào)空間金字塔池化之前的卷積層,限制了深層網(wǎng)絡(luò)的準(zhǔn)確性。

        (3)Fast RCNN

        Fast R-CNN[10]可以同時(shí)訓(xùn)練分類器和邊框回歸器。Fast R-CNN首先使用SS算法生成候選區(qū)域;然后,將圖像輸入至VGG-16 (Visual Geometry Group Network)[11]提取特征,得到感興趣區(qū)域(Region of Interest,ROI);再在ROI上利用池化層將特征圖縮放到相同尺寸,最后將這些特征圖傳遞到全連接層進(jìn)行分類,并用Softmax和線性回歸層得到目標(biāo)邊界框,架構(gòu)如圖4所示。

        圖4 Fast R-CNN架構(gòu)Fig.4 Fast R-CNN structure

        Fast R-CNN訓(xùn)練VGG-16網(wǎng)絡(luò)的速度比RCNN快9倍,測(cè)試速度快213倍,在VOC2012數(shù)據(jù)集上實(shí)現(xiàn)了更高的mAP(65.7%)。與SPPNet相比,F(xiàn)ast R-CNN對(duì)VGG-16的訓(xùn)練速度快3倍,測(cè)試速度快10倍,準(zhǔn)確率也更高。但是Fast R-CNN仍然使用SS算法獲取感興趣區(qū)域,速度上無(wú)法滿足實(shí)時(shí)檢測(cè)的應(yīng)用需求。

        (4)Faster RCNN

        Faster R-CNN[12]用區(qū)域選擇網(wǎng)絡(luò)(Region Proposal Networks,RPN)取代SS算法生成候選框,提高了檢測(cè)速度。Faster R-CNN首先將圖像輸入至VGG-16得到特征圖;然后用RPN生成目標(biāo)建議區(qū)域;再應(yīng)用ROI池化層將特征圖和目標(biāo)推薦區(qū)域調(diào)整到相同尺寸,最后輸入全連接層生成目標(biāo)的預(yù)測(cè)邊界框,架構(gòu)如圖5所示。

        圖5 Faster R-CNN架構(gòu)Fig.5 Faster R-CNN structure

        Faster R-CNN在VOC2012數(shù)據(jù)集上的mAP值為67.0%,精度更高,并且檢測(cè)速度更快,接近于實(shí)時(shí)檢測(cè),但是在后續(xù)檢測(cè)階段存在計(jì)算冗余。Faster R-CNN的主要缺點(diǎn)是交并比(Intersection Over Union,IOU)閾值過(guò)高會(huì)導(dǎo)致模型過(guò)擬合,過(guò)低則會(huì)產(chǎn)生噪聲引起的虛警問(wèn)題。

        2.1.2 基于回歸的一階段目標(biāo)檢測(cè)算法

        一階段檢測(cè)算法不需要生成候選區(qū)域,直接預(yù)測(cè)出目標(biāo)的類別概率和位置信息。相比于兩階段目標(biāo)檢測(cè)算法,檢測(cè)速度得到了很大的提升。

        (1)YOLO

        YOLO(You Only Look Once)[13]首次把目標(biāo)檢測(cè)看作一個(gè)回歸問(wèn)題,利用整張圖像作為網(wǎng)絡(luò)的輸入,僅經(jīng)過(guò)一個(gè)CNN,就可以得到邊界框的位置及其所屬的類別。YOLO將輸入圖像平均劃分為S×S個(gè)網(wǎng)格,如果一個(gè)物體的中心落在某一個(gè)網(wǎng)格中,那么該網(wǎng)格負(fù)責(zé)檢測(cè)該物體。每個(gè)網(wǎng)格要預(yù)測(cè)B個(gè)邊界框,每個(gè)邊界框預(yù)測(cè)5個(gè)值:中心點(diǎn)坐標(biāo)為(x,y),長(zhǎng)寬(w,h)和物體是否屬于某個(gè)類別的置信度。此外每個(gè)網(wǎng)格還要預(yù)測(cè)類別信息,記為C個(gè)類。一張圖像輸入網(wǎng)絡(luò)輸出一個(gè)S×S×(5×B+C)的張量,網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。

        圖6 YOLO網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 YOLO structure

        相比于兩階段檢測(cè)算法,YOLO的檢測(cè)速度有很大的提高,能夠以每秒45幀的速度實(shí)時(shí)處理448×448的圖像;但是檢測(cè)精度較低,在VOC2012數(shù)據(jù)集上的mAP值僅為57.9%,而且對(duì)小目標(biāo)檢測(cè)效果差。

        (2)SSD

        SSD (Single Shot MultiBox Detector)[14]同時(shí)借鑒了YOLO的回歸思想和Faster R-CNN的錨機(jī)制,以VGG-16作為主干特征提取網(wǎng)絡(luò),在VGG-16之后添加了幾個(gè)卷積層,利用低層特征與高層特征實(shí)現(xiàn)多尺度檢測(cè),網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。SSD在多個(gè)特征層產(chǎn)生錨框,進(jìn)行非極大值抑制(Non-Maximum Suppression,NMS)后輸出最終檢測(cè)結(jié)果。

        圖7 SSD網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 SSD structure

        在59幀/秒的處理速度下針對(duì)300×300大小的輸入圖像,SSD在VOC2007數(shù)據(jù)集上將mAP值提高至74.3%,性能優(yōu)于Faster R-CNN。盡管SSD不同的檢測(cè)分支可以對(duì)多個(gè)尺度的目標(biāo)進(jìn)行檢測(cè),但是用于小目標(biāo)檢測(cè)識(shí)別的低層特征僅有一層,并未對(duì)特征進(jìn)行融合,特征表達(dá)能力不夠、細(xì)節(jié)信息不足,造成部分小目標(biāo)漏檢。

        (3)YOLOv2

        YOLOv2[15]針對(duì)YOLO召回率和定位精度方面的不足進(jìn)行改進(jìn),檢測(cè)速度更快。YOLOv2使用Darknet-19作為特征提取網(wǎng)絡(luò),可輸入多種尺寸的圖像,每層卷積后增加批量標(biāo)準(zhǔn)化(Batch Normalization,BN)進(jìn)行預(yù)處理;刪除全連接層,引入了先驗(yàn)框來(lái)預(yù)測(cè)邊界框坐標(biāo),并使用K-means聚類方法得到先驗(yàn)框的尺寸。還通過(guò)添加直通層,把高分辨率的淺層特征連接到低分辨率的深層特征而后進(jìn)行融合獲取細(xì)粒度特征,提高檢測(cè)效果。輸入416×416大小圖像時(shí)最終輸出13×13×N的特征圖,N=(class_num+4+1)×anchor_num;其中class_num為數(shù)據(jù)集中目標(biāo)類別數(shù)目,anchor_num是先驗(yàn)框數(shù)目。

        在67幀/秒的處理速度下針對(duì)416×416的輸入圖像,YOLOv2在VOC2007數(shù)據(jù)集上將mAP值提高至76.8%,檢測(cè)精度和速度均優(yōu)于SSD和Faster R-CNN。但是由于YOLOv2網(wǎng)絡(luò)只有一條檢測(cè)分支,缺乏對(duì)多尺度上下文信息的獲取,對(duì)小目標(biāo)的檢測(cè)效果較差。

        (4)YOLOv3

        YOLOv3[16]主干特征提取網(wǎng)絡(luò)采用更深層的Darknet-53,利用特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)(Feature Pyramid Network,F(xiàn)PN)進(jìn)行特征融合實(shí)現(xiàn)了3個(gè)尺度的檢測(cè),使用邏輯回歸代替softmax進(jìn)行多標(biāo)簽分類。YOLOv3在兼顧實(shí)時(shí)性的同時(shí)保證了檢測(cè)的準(zhǔn)確性。

        輸入圖像尺寸為320×320時(shí),YOLOv3在COCO數(shù)據(jù)集[17]上的平均精度(Average Precision, AP)為28.2%,單幀運(yùn)行時(shí)間為22 ms,與SSD精度接近,但速度快了三倍。但YOLOv3使用均方誤差(Mean Squared Error,MSE)作為邊界框回歸損失函數(shù),使得目標(biāo)的定位并不精準(zhǔn)。

        (5)YOLOv4

        YOLOv4[18]結(jié)合近年來(lái)CNN最優(yōu)秀的優(yōu)化策略對(duì)YOLOv3進(jìn)行改進(jìn)。YOLOv4的主干特征提取網(wǎng)絡(luò)為CSPDarknet53,使用Mish激活函數(shù),采用SPP、路徑聚合PANet作為加強(qiáng)特征提取網(wǎng)絡(luò),對(duì)特征進(jìn)行融合來(lái)提升特征種類的多樣性以及檢測(cè)算法的魯棒性。YOLOv4還在數(shù)據(jù)預(yù)處理方面引入了Mosaic數(shù)據(jù)增強(qiáng)、cmBN(Cross mini-Batch Normalization)和自對(duì)抗訓(xùn)練(Self-Adversarial Training, SAT)。在預(yù)測(cè)階段YOLOv4采用CIOU (Complete-IOU)代替MSE作為邊界框損失函數(shù)提高了定位精度,同時(shí)將非極大值抑制(Non Maximum Suppression,NMS)換成DIOU_NMS (Distance-IOU_NMS),避免相鄰目標(biāo)檢測(cè)時(shí)出現(xiàn)漏檢。

        以65 幀/秒的速度處理608×608的輸入圖像,YOLOv4在COCO數(shù)據(jù)集上的AP值為43.5%,實(shí)現(xiàn)了檢測(cè)速度與精度的平衡。

        (6)YOLOv5

        YOLOv5[19]在輸入端利用Mosaic數(shù)據(jù)增強(qiáng)來(lái)提高小目標(biāo)檢測(cè)效果、訓(xùn)練前自動(dòng)計(jì)算適合數(shù)據(jù)集的初始錨框,并將圖片縮放為統(tǒng)一尺寸。主干采用Foucs結(jié)構(gòu)和CSP結(jié)構(gòu),F(xiàn)oucs結(jié)構(gòu)利用切片操作把輸入的高分辨率特征圖拆分為多個(gè)低分辨率特征圖后再進(jìn)行拼接后進(jìn)行卷積得到輸出特征圖,F(xiàn)oucs可以減少參數(shù)量、提升檢測(cè)速度。頸部采用FPN和PAN進(jìn)行特征融合,并使用借鑒CSPNet設(shè)計(jì)的CSP2結(jié)構(gòu)來(lái)代替普通卷積來(lái)加強(qiáng)頸部的特征融合能力。預(yù)測(cè)階段YOLOv5采用GIOU損失和DIOU_NMS。

        YOLOv5共有4種網(wǎng)絡(luò)結(jié)構(gòu):YOLOv5s,YOLOv5m,YOLOv5l和YOLOv5x,隨著網(wǎng)絡(luò)深度的不斷增加,精度不斷上升,速度隨之下降。以50幀/秒的速度處理640×640的輸入圖像,YOLOv5x在COCO數(shù)據(jù)集上的AP值為55%。

        2.1.3 小 結(jié)

        Anchor-Based目標(biāo)檢測(cè)算法根據(jù)預(yù)先設(shè)定的錨框來(lái)調(diào)整預(yù)測(cè)結(jié)果,檢測(cè)性能對(duì)于錨框的大小、數(shù)量和長(zhǎng)寬比異常敏感。固定的錨框使得檢測(cè)器的通用性很差,通過(guò)預(yù)先定義尺度、長(zhǎng)寬比生成的錨框通常只適用于一個(gè)或幾個(gè)特定的對(duì)象。當(dāng)新數(shù)據(jù)集中的目標(biāo)尺寸和形狀或圖像尺寸與原始數(shù)據(jù)集有較大差異時(shí),需要重新設(shè)置尺度、長(zhǎng)寬比以適應(yīng)新的目標(biāo)檢測(cè)數(shù)據(jù)集。為了匹配目標(biāo)的真實(shí)框,網(wǎng)絡(luò)會(huì)生成大量的錨框,訓(xùn)練時(shí)大部分被標(biāo)記為負(fù)樣本,這樣就會(huì)造成正負(fù)樣本不均衡的問(wèn)題,干擾算法的學(xué)習(xí)過(guò)程。此外,在訓(xùn)練過(guò)程中,網(wǎng)絡(luò)會(huì)計(jì)算真實(shí)框和所有錨框的交并比(Intersection over Union,IOU)來(lái)確定用于檢測(cè)真實(shí)目標(biāo)的錨框,這會(huì)占用大量的內(nèi)存,消耗大量的時(shí)間。

        2.2 Anchor-Free目標(biāo)檢測(cè)算法

        Anchor-Based目標(biāo)檢測(cè)算法由于生成的錨框過(guò)多導(dǎo)致檢測(cè)過(guò)程復(fù)雜,同時(shí)產(chǎn)生的大量超參數(shù)也會(huì)影響檢測(cè)器的性能,而Anchor-Free目標(biāo)檢測(cè)算法通過(guò)確定關(guān)鍵點(diǎn)代替錨框大大減少了超參數(shù)的數(shù)量。

        2.2.1 CornerNet

        CornerNet[20]首次提出Anchor-Free思想,把檢測(cè)目標(biāo)的邊界框轉(zhuǎn)化為檢測(cè)左上角和右下角的一對(duì)關(guān)鍵點(diǎn),無(wú)需設(shè)計(jì)錨框作為先驗(yàn)框,減少了網(wǎng)絡(luò)的超參數(shù),架構(gòu)如圖8所示。

        圖8 CornerNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.8 CornerNet structure

        在COCO數(shù)據(jù)集上CornerNet的AP值為42.1%。由于CornerNet只關(guān)注邊緣和角點(diǎn),缺乏目標(biāo)內(nèi)部信息,容易產(chǎn)生假正例(False Positives,F(xiàn)P),網(wǎng)絡(luò)需要很多后處理(如NMS)來(lái)得到預(yù)測(cè)結(jié)果,降低了算法檢測(cè)速度。

        2.2.2 CenterNet

        Zhou等在CornerNet基礎(chǔ)上進(jìn)行改進(jìn)提出了CenterNet目標(biāo)檢測(cè)器[21],架構(gòu)如圖9所示,直接檢測(cè)目標(biāo)中心和回歸目標(biāo)尺寸。該算法簡(jiǎn)單、快速、準(zhǔn)確,不需要耗時(shí)的NMS后處理,具有端到端、可微分的特點(diǎn),是真正意義上的Anchor-Free。此外,CenterNet具有良好的通用性,可以在一次前向傳播中估計(jì)一系列額外的物體屬性(如姿勢(shì)、3D方向、深度),可用于3D目標(biāo)檢測(cè)。

        圖9 CenterNet網(wǎng)絡(luò)架構(gòu)Fig.9 CenterNet structure

        在142 幀/秒的處理速度下CenterNet在COCO數(shù)據(jù)集上的AP值為28.1%。但是CenterNet對(duì)于同一類別緊密相鄰的目標(biāo)檢測(cè)效果較差,因?yàn)槟繕?biāo)真實(shí)框的中心產(chǎn)生重疊,CenterNet只能檢測(cè)出一個(gè)中心點(diǎn),造成目標(biāo)漏檢。

        2.2.3 FASF

        Zhu等提出的FSAF (Feature Selective Anchor-Free Module)模塊[22]將在線特征選擇用于訓(xùn)練特征金字塔中的無(wú)錨分支,為目標(biāo)自動(dòng)分配最合適的特征,架構(gòu)如圖10所示。在推理時(shí),F(xiàn)SAF模塊可以與基于錨的分支并行輸出預(yù)測(cè)結(jié)果,幾乎不增加推理開銷。引入FSAF模塊的最佳模型在COCO數(shù)據(jù)集上的AP值為44.6%。

        圖10 FSAF模塊Fig.10 FSAF modules

        2.2.4 FCOS

        Tian等提出的FCOS (Fully Convolutional One-Stage Object Detector)[23]以逐像素預(yù)測(cè)的方式進(jìn)行目標(biāo)檢測(cè),完全避免了與錨框相關(guān)的計(jì)算和超參數(shù),網(wǎng)絡(luò)結(jié)構(gòu)如圖11所示。通過(guò)引入FPN用不同的層處理不同的目標(biāo)框,解決目標(biāo)真實(shí)框重疊時(shí)出現(xiàn)的漏檢問(wèn)題;同時(shí)引入了Center-ness層,過(guò)濾掉大部分的誤檢框。FCOS檢測(cè)器在COCO數(shù)據(jù)集上的AP值為44.7%。

        圖11 FCOS架構(gòu)Fig.11 FCOS architecture

        上述基于關(guān)鍵點(diǎn)的方法消除了生成錨框的繁瑣過(guò)程,通過(guò)直接根據(jù)網(wǎng)絡(luò)預(yù)測(cè)關(guān)鍵點(diǎn)生成適合目標(biāo)尺度和形狀的方框,大大提高了檢測(cè)速度。但是對(duì)關(guān)鍵點(diǎn)預(yù)測(cè)的準(zhǔn)確性要求高,預(yù)測(cè)不準(zhǔn)確容易導(dǎo)致漏檢和定位不準(zhǔn)。

        2.3 算法性能比較

        上述基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法在VOC,COCO等自然圖像數(shù)據(jù)集上取得了較好的檢測(cè)效果,各種算法的檢測(cè)效果對(duì)比如表1所示。

        表1 經(jīng)典算法檢測(cè)效果對(duì)比Tab.1 Comparison of classical algorithm detection results

        3 艦船目標(biāo)檢測(cè)技術(shù)現(xiàn)狀

        遙感圖像目標(biāo)檢測(cè)作為目標(biāo)檢測(cè)的一個(gè)研究熱點(diǎn),一直受到研究者的廣泛關(guān)注,經(jīng)典目標(biāo)檢測(cè)算法如Faster RCNN、YOLO憑借其強(qiáng)大的特征提取能力逐漸取代傳統(tǒng)方法被應(yīng)用到遙感圖像艦船目標(biāo)檢測(cè)中[24-26]。由于遙感圖像與自然圖像存在巨大的差異,經(jīng)典目標(biāo)檢測(cè)算法直接用于艦船檢測(cè)存在檢測(cè)精度低、漏檢等問(wèn)題,需要對(duì)算法進(jìn)行改進(jìn)。

        3.1 多尺度艦船目標(biāo)檢測(cè)

        基于CNN的目標(biāo)檢測(cè)算法在自然圖像數(shù)據(jù)集上取得了良好的檢測(cè)效果,而遙感圖像中往往背景復(fù)雜、艦船目標(biāo)尺度變化大,經(jīng)典目標(biāo)檢測(cè)算法往往不能有效地提取艦船特征。目前的研究主要采用頻域增強(qiáng)、特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)、注意力機(jī)制等方法對(duì)目標(biāo)特征進(jìn)行增強(qiáng),進(jìn)而提高多尺度艦船目標(biāo)的檢測(cè)精度。常見方法如圖12所示。

        圖12 常用的多尺度檢測(cè)方法Fig.12 Common multi-scale detection methods

        3.1.1 優(yōu)化特征表示能力

        (1)頻域增強(qiáng)

        Al-Saad等[27]提出了頻域增強(qiáng)方法,將小波變換嵌入Faster R-CNN,在提取ROI之前,將原始圖像分解成高、低頻分量,在頻域進(jìn)行訓(xùn)練和測(cè)試,提高了檢測(cè)精度。這種方法簡(jiǎn)單易行,但是精度提升不高。

        (2)并行特征

        并行特征可以提高模型的多尺度學(xué)習(xí)能力,通常對(duì)同一輸入應(yīng)用多個(gè)不同核大小或擴(kuò)張速率的卷積來(lái)得到。Li等[28]提出了一種分層選擇濾波層(Hierarchical Selective Filtering, HSF)對(duì)Faster R-CNN進(jìn)行了改進(jìn),HSF由核大小為1×1,3×3,5×5的三個(gè)并行卷積層組成,通過(guò)層次化的卷積運(yùn)算來(lái)生成多尺度艦船特征,有效檢測(cè)不同尺寸的近岸和近海船舶。Liu等[29]利用1×1,3×3,5×5和7×7的卷積核組成四支結(jié)構(gòu),并在每個(gè)分支中分別引入膨脹率為1,3,5,7的膨脹卷積,增加接收野,最后通過(guò)殘差將四個(gè)支路的輸出和輸入端口連接起來(lái),生成檢測(cè)多尺度艦船目標(biāo)的特征。

        (3)密集特征

        DenseNet[30]采用層間密集連接的方法,每層都接受之前所有層的特征圖作為額外輸入,并將來(lái)自不同層的特征圖進(jìn)行拼接,保持底層特征信息的完整性,促進(jìn)了特征重用,可以提高遙感圖像多尺度目標(biāo)的檢測(cè)性能。Jiao等[31]提出了一種基于Faster-RCNN框架的密集連接多尺度神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)將一個(gè)特征圖緊密地從上到下連接到其他特征圖,并從連接的特征圖生成建議,解決了多尺度、多場(chǎng)景合成孔徑雷達(dá)(Synthetic Aperture Radar, SAR)的艦船檢測(cè)問(wèn)題。Tian等[32]設(shè)計(jì)了一種密集特征提取模塊,集成不同分辨率的低層位置信息和高層語(yǔ)義信息,提高特征在網(wǎng)絡(luò)中的重用效率,將該模塊應(yīng)用在經(jīng)典檢測(cè)網(wǎng)絡(luò)YOLO和Mask-RCNN上,改進(jìn)網(wǎng)絡(luò)在可見光圖像和SAR圖像數(shù)據(jù)集上的檢測(cè)精度均有提高。

        3.1.2 特征高效融合

        特征融合是提高多尺度目標(biāo)檢測(cè)性能的另一常用方法。一般來(lái)說(shuō),在神經(jīng)網(wǎng)絡(luò)中,淺層特征包含目標(biāo)更多的結(jié)構(gòu)和幾何信息,這有利于目標(biāo)的回歸。高級(jí)特征包含更多的語(yǔ)義信息,有利于對(duì)象的分類。高效的特征融合方法可以提高網(wǎng)絡(luò)的表征能力,從而提高模型檢測(cè)多尺度目標(biāo)的精度。

        FPN[33]自頂向下將高層強(qiáng)語(yǔ)義信息的特征傳遞下來(lái),但是對(duì)定位信息沒有傳遞。PANet[34]在FPN的基礎(chǔ)上添加了一個(gè)自底向上的金字塔,將低層的強(qiáng)定位信息特征傳遞上去,融合的特征增添了語(yǔ)義信息。自適應(yīng)空間特征融合[35](Adaptive Spatial Feature Fusion,ASFF)將每層信息融合起來(lái)并且自主學(xué)習(xí)各個(gè)尺度融合的權(quán)值,解決了PANet特征融合時(shí)小目標(biāo)在高層特征層上被當(dāng)作背景和大目標(biāo)在底層中被當(dāng)作背景的問(wèn)題??斩纯臻g卷積池化金字塔[36](Atrous Spatial Pyramid Pooling,ASPP)對(duì)輸入以不同采樣率的空洞卷積并行采樣,將結(jié)果進(jìn)行堆疊,再通過(guò)1×1卷積將通道數(shù)降低到預(yù)期數(shù)值,以多個(gè)比例捕捉圖像的上下文信息。

        這些特征融合模塊被應(yīng)用于艦船檢測(cè)網(wǎng)絡(luò)中[32,37-40],融合不同層次的特征,在保證位置信息準(zhǔn)確性的同時(shí)保留更多的語(yǔ)義信息,提高多尺度目標(biāo)的檢測(cè)效果。Tian等[32]引入FPN和ASPP結(jié)合的模塊進(jìn)行特征融合,獲得更大范圍的深度語(yǔ)義信息,增強(qiáng)對(duì)不同尺度目標(biāo)特征的提取能力。Zhang等[37]利用改進(jìn)的FPN構(gòu)建SAR艦船檢測(cè)網(wǎng)絡(luò),取得了良好的檢測(cè)效果。Qing等[38]利用改進(jìn)的FPN和PANet對(duì)主干網(wǎng)絡(luò)輸出的特征進(jìn)行融合,加強(qiáng)艦船特征提取。

        3.1.3 注意力機(jī)制

        為了優(yōu)化提取的特征,注意力機(jī)制也被融合到艦船檢測(cè)網(wǎng)絡(luò)中[39-42]。注意力機(jī)制起源于人類的視覺機(jī)制,核心思想是關(guān)注關(guān)鍵信息而忽略無(wú)關(guān)信息,減少時(shí)間成本和降低計(jì)算復(fù)雜度?;谝曈X注意力機(jī)制的目標(biāo)檢測(cè)算法通常通過(guò)注意模型得到顯著特征圖,增強(qiáng)目標(biāo)與背景的差異,然后通過(guò)分析顯著特征圖對(duì)目標(biāo)進(jìn)行檢測(cè)。

        注意力機(jī)制理論上可以嵌入到網(wǎng)絡(luò)的任意位置。Chen等[39]將注意力模型集成到檢測(cè)網(wǎng)絡(luò)的主干部分中,利用注意力模型獲得不同層次的顯著特征,再用FPN融合不同層次的顯著特征。Zhang等[40]設(shè)計(jì)的LSSD(Lightweight Single Shot Detector)在雙向特征融合模塊進(jìn)行特征融合后利用注意力機(jī)制進(jìn)一步優(yōu)化融合特征,有利于更有效地捕捉關(guān)鍵信息。注意力機(jī)制的引入提高了SAR圖像復(fù)雜場(chǎng)景下多尺度艦船目標(biāo)的檢測(cè)效果。Qu等[41]利用卷積注意力模塊(Convolutional Block Attention Module,CBAM)將輔助網(wǎng)絡(luò)連接到Y(jié)OLOv3主干網(wǎng)絡(luò),使網(wǎng)絡(luò)能夠更好地學(xué)習(xí)特定的目標(biāo)特征,然后用ASFF取代FPN解決特征融合不足的問(wèn)題,提高模型的穩(wěn)定性,在可見光遙感圖像數(shù)據(jù)集上取得了優(yōu)于YOLOv3的檢測(cè)效果。

        3.1.4 小 結(jié)

        優(yōu)化特征提取網(wǎng)絡(luò)和高效的特征融合方法能夠有效提高檢測(cè)精度,但是會(huì)增加計(jì)算復(fù)雜度,降低檢測(cè)速度,精度與速度的平衡是實(shí)際應(yīng)用中需要考慮的重要問(wèn)題。大多數(shù)注意力機(jī)制的參數(shù)是通過(guò)標(biāo)簽和預(yù)測(cè)值的損失反向傳播進(jìn)行更新,沒有引入其他監(jiān)督信息,因此受到的監(jiān)督有局限,容易產(chǎn)生過(guò)擬合的問(wèn)題。

        3.2 多角度艦船目標(biāo)的精確定位

        與自然圖像不同,遙感圖像以俯視視角拍攝的,艦船目標(biāo)往往以不同方向分布在圖像中,經(jīng)典的目標(biāo)檢測(cè)模型的水平邊界框的定位方式,難以對(duì)多方向艦船目標(biāo)進(jìn)行精準(zhǔn)、緊湊的定位。

        3.2.1 水平邊界框精確定位

        (1)兩階段水平框檢測(cè)改進(jìn)算法

        為了提高水平邊界框檢測(cè)多角度艦船目標(biāo)的效果,旋轉(zhuǎn)不變層和多角度錨點(diǎn)被用于改進(jìn)經(jīng)典的兩階段目標(biāo)檢測(cè)算法。Cheng等[43]在RCNN中引入旋轉(zhuǎn)不變層,優(yōu)化目標(biāo)函數(shù)來(lái)訓(xùn)練網(wǎng)絡(luò),旋轉(zhuǎn)不變性通過(guò)強(qiáng)制旋轉(zhuǎn)前后訓(xùn)練樣本的特征相互映射接近來(lái)實(shí)現(xiàn),解決了任意方向目標(biāo)檢測(cè)不準(zhǔn)確的問(wèn)題。Li等[44]在Faster R-CNN模型中增加多角度錨點(diǎn)處理特征,解決了水平錨點(diǎn)對(duì)旋轉(zhuǎn)物體敏感的問(wèn)題,能有效檢測(cè)任意方向的目標(biāo)。

        (2)一階段水平框檢測(cè)改進(jìn)算法

        高斯模型被應(yīng)用于經(jīng)典一階段目標(biāo)檢測(cè)算法中,可以增加定位坐標(biāo)的準(zhǔn)確性。Hong等[45]在YOLOv3模型中引入錨框坐標(biāo)的高斯參數(shù)來(lái)預(yù)測(cè)定位,解決坐標(biāo)信息不可靠的問(wèn)題,改進(jìn)模型可以應(yīng)對(duì)不同分辨率下遙感圖像中艦船目標(biāo)方向和尺寸的變化,穩(wěn)定性較高。

        (3)密集目標(biāo)漏檢問(wèn)題

        使用水平邊界框檢測(cè)存在密集目標(biāo)漏檢的問(wèn)題,因?yàn)槎鄠€(gè)艦船傾斜密集排布時(shí),不同目標(biāo)邊界框之間的重疊區(qū)域會(huì)很大,在進(jìn)行NMS操作后置信度低的邊界框會(huì)被丟棄,造成目標(biāo)的漏檢。為了解決這個(gè)問(wèn)題,Chen等[39]在后處理中引入Soft-NMS,在NMS中與置信度最大的邊界框IOU超過(guò)閾值的其余邊界框的置信度均被置為0,而Soft-NMS[46]將其余邊界框的置信度進(jìn)行衰減,衰減程度與IOU值有關(guān),衰減后置信度大于正確檢測(cè)閾值的仍當(dāng)作是目標(biāo),減少嚴(yán)重重疊情況下艦船目標(biāo)的漏檢。這種方法可以一定程度上緩解密集目標(biāo)漏檢的問(wèn)題,但是閾值的設(shè)定對(duì)結(jié)果的影響較大。

        3.2.2 旋轉(zhuǎn)邊界框精確定位

        為了對(duì)多方向艦船目標(biāo)進(jìn)行精準(zhǔn)定位,旋轉(zhuǎn)邊界框被引入經(jīng)典目標(biāo)檢測(cè)網(wǎng)絡(luò)中提升檢測(cè)效果。

        (1)兩階段旋轉(zhuǎn)框檢測(cè)改進(jìn)算法

        兩階段目標(biāo)檢測(cè)算法通常利用RPN生成水平錨框來(lái)預(yù)測(cè)目標(biāo)位置,改進(jìn)算法使用RPN生成旋轉(zhuǎn)錨框。如Yang等[47]提出了一種基于Faster R-CNN的艦船目標(biāo)旋轉(zhuǎn)框檢測(cè)框架,在RPN中使用尺度、比例和角度3個(gè)參數(shù)生成旋轉(zhuǎn)錨框來(lái)預(yù)測(cè)艦船目標(biāo)的最小外接矩形。Koo等[48]提出的RBox-CNN同樣使用RPN生成旋轉(zhuǎn)錨框,并用寬度/高度距離投影來(lái)穩(wěn)定地預(yù)測(cè)角度。兩階段檢測(cè)網(wǎng)絡(luò)的檢測(cè)速度慢,難以滿足實(shí)時(shí)性的需求。

        (2)一階段旋轉(zhuǎn)框檢測(cè)改進(jìn)算法

        一階段檢測(cè)算法將圖像輸入檢測(cè)網(wǎng)絡(luò)直接輸出目標(biāo)水平邊界框的四維坐標(biāo)信息,旋轉(zhuǎn)邊界框可以通過(guò)增加角度信息得到。黎經(jīng)元[49]和陳?。?0]使用旋轉(zhuǎn)矩形框改進(jìn)YOLOv3模型,在預(yù)測(cè)四維位置信息的基礎(chǔ)上增加了角度信息,同時(shí)改進(jìn)了損失函數(shù)以及計(jì)算旋轉(zhuǎn)框IOU的方法,提高了多角度并排??颗灤繕?biāo)檢測(cè)的準(zhǔn)確率,相比于兩階段的檢測(cè)網(wǎng)絡(luò)檢測(cè)速度也得到了提高。

        (3)角度邊界性問(wèn)題

        以上改進(jìn)算法中的旋轉(zhuǎn)邊界框均可用5個(gè)參數(shù)(x,y,w,h,θ)來(lái)表示,如圖13所示。其中,(x,y)表示中心點(diǎn)坐標(biāo),(w,h)表示寬度和高度,θ表示旋轉(zhuǎn)角度,指長(zhǎng)邊與x軸(水平軸)的夾角,角度為[-90°,90°)。五參數(shù)表示法會(huì)帶來(lái)角度周期性的邊界問(wèn)題:-90°和89°兩個(gè)邊界角度的偏差非常小,模型計(jì)算邊界處的損失值卻會(huì)突然增加,使網(wǎng)絡(luò)學(xué)習(xí)難度提高。

        圖13 旋轉(zhuǎn)邊界框的五參數(shù)表示法Fig.13 Five-parameter representation of rotating bounding box

        為了解決角度邊界不連續(xù)的問(wèn)題,Qing等[37]將圓形平滑標(biāo)簽(Circular Smooth Label,CSL)技術(shù)引入旋轉(zhuǎn)框艦船檢測(cè)模型中。CSL[51]利用高斯函數(shù)把連續(xù)的目標(biāo)角度轉(zhuǎn)化為離散的類別標(biāo)簽,把回歸問(wèn)題轉(zhuǎn)化為分類問(wèn)題,如圖14所示。Su等[52]提出了一種非基于角度的回歸方法,取6個(gè)參數(shù)(x,y,w,h,OH,OV)來(lái)確定旋轉(zhuǎn)框,如圖15所示,其中(x,y)表示中心點(diǎn)坐標(biāo);(w,h)表示目標(biāo)水平外框的寬和高;H,V分別為水平邊界框與順時(shí)針?lè)较蛐D(zhuǎn)邊界框之間的水平、垂直距離,然后求出標(biāo)準(zhǔn)化的水平和垂直偏移量:OH=H/w,OV=V/h,從根本上解決了角度回歸的邊界性問(wèn)題。CSL技術(shù)和旋轉(zhuǎn)矩形框的六參數(shù)表示法都可以有效解決邊界問(wèn)題,但是會(huì)增加模型參數(shù)量,損失檢測(cè)時(shí)間。

        圖14 圓形標(biāo)簽平滑F(xiàn)ig.14 Circular label smoothing

        圖15 旋轉(zhuǎn)邊界框的六參數(shù)表示法Fig.15 Six-parameter representation of rotating bounding box

        3.2.3 無(wú)錨框精確定位

        無(wú)錨框的方法也被應(yīng)用于旋轉(zhuǎn)艦船目標(biāo)檢測(cè)[53-56],如Wang等[54]提出的基于CenterNet的SAR圖像船舶檢測(cè)方法,它將艦船目標(biāo)建模為一個(gè)點(diǎn),回歸水平邊界框大小,不需要NMS,從根本上解決了因NMS導(dǎo)致的密集目標(biāo)漏檢問(wèn)題。Cui等[55]提出的一階段無(wú)錨艦船檢測(cè)框架將旋轉(zhuǎn)艦船目標(biāo)的檢測(cè)完全轉(zhuǎn)化為中心關(guān)鍵點(diǎn)和形態(tài)大小的預(yù)測(cè),并提出了一種“正交池化”模塊來(lái)提取艦船旋轉(zhuǎn)特征。

        3.2.4 小 結(jié)

        使用水平邊界框檢測(cè)多角度艦船目標(biāo)存在密集目標(biāo)漏檢的問(wèn)題。旋轉(zhuǎn)邊界框可以解決漏檢問(wèn)題,并且更好地貼合目標(biāo),但是需要考慮角度的邊界性問(wèn)題。無(wú)錨框的方法對(duì)關(guān)鍵點(diǎn)的預(yù)測(cè)準(zhǔn)確性要求很高,預(yù)測(cè)不準(zhǔn)確就容易導(dǎo)致漏檢和定位不準(zhǔn)。

        3.3 提高小目標(biāo)檢測(cè)效果

        與自然圖像中目標(biāo)占整幅圖像的比例很大不同,遙感圖像中艦船目標(biāo)往往只有幾十到幾百個(gè)像素,屬于小目標(biāo)。其檢測(cè)主要存在兩個(gè)問(wèn)題:一是樣本不足,很多艦船數(shù)據(jù)集圖像中的小艦船目標(biāo)并未被標(biāo)注出來(lái),缺乏大量數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練;二是小目標(biāo)在圖像中所占像素少,隨著CNN的前向傳播,特征圖尺度不斷減小,頂層特征圖中可能不包括小目標(biāo)的特征,不能幫助小目標(biāo)定位。小目標(biāo)檢測(cè)一直是現(xiàn)有深度學(xué)習(xí)算法中的難點(diǎn),目前有大量針對(duì)小目標(biāo)檢測(cè)開展的算法優(yōu)化研究,常用方法如圖16所示。

        圖16 提高小目標(biāo)檢測(cè)效果的常用方法Fig.16 Common methods for improving effectiveness of small target detection

        3.3.1 數(shù)據(jù)增強(qiáng)擴(kuò)充小目標(biāo)樣本

        數(shù)據(jù)增強(qiáng)是提高小目標(biāo)檢測(cè)性能的有效方法之一,可以有效地解決小目標(biāo)樣本不足問(wèn)題。傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法可以大致分為:(1)基于幾何變換的方法,包括旋轉(zhuǎn)、縮放、翻轉(zhuǎn)、裁剪、填充、平移和仿射變換等;(2)基于改變顏色成分的方法,包括亮度、對(duì)比度、色相和飽和度等。為了增加遙感圖像訓(xùn)練數(shù)據(jù)集的規(guī)模和多樣性,多種數(shù)據(jù)增強(qiáng)方法被用于提高檢測(cè)模型的魯棒性和泛化能力,常用的技術(shù)有多角度旋轉(zhuǎn)、顏色抖動(dòng)、隨機(jī)平移、隨機(jī)裁剪、水平翻轉(zhuǎn)和添加隨機(jī)噪聲等[57-59]。

        為了解決遙感圖像數(shù)據(jù)集中小型艦船樣本稀缺的問(wèn)題,Shin等[60]提出了一種“剪切和粘貼”策略來(lái)增強(qiáng)圖像用于訓(xùn)練模型,利用預(yù)先訓(xùn)練好的Mask-RCNN提取船舶切片,然后粘貼到各種背景海洋場(chǎng)景中,合成新的圖像,檢測(cè)結(jié)果驗(yàn)證了合成艦船圖像的有效性。Hu等[61]提出了一種混合策略,將海面目標(biāo)區(qū)域與多個(gè)變化場(chǎng)景混合,以增加多樣性和訓(xùn)練樣本的數(shù)量。Chen等[62]提出了一種利用梯度懲罰的高斯混合Wasserstein GAN生成足夠信息量的小型艦船目標(biāo)樣本,然后用原始數(shù)據(jù)和生成數(shù)據(jù)對(duì)CNN進(jìn)行訓(xùn)練,實(shí)現(xiàn)對(duì)小型船舶的精確實(shí)時(shí)檢測(cè)。

        3.3.2 利用淺層特征檢測(cè)小目標(biāo)

        為了解決小目標(biāo)在深層特征圖中消失的問(wèn)題,常用方法是充分利用淺層特征中的信息對(duì)小目標(biāo)進(jìn)行檢測(cè)[63-67]。Kong等[63]提出的Hyper-Net利用跳層提取特征的方式來(lái)同時(shí)獲取包含語(yǔ)義信息的高層特征和包含高分辨率位置信息的淺層特征,利用淺層特征來(lái)提高小目標(biāo)的檢測(cè)效果。Wei等[64]在Faster R-CNN中引入擴(kuò)張卷積,它可以提供更大的接受域,減少小目標(biāo)信息的丟失,提高檢測(cè)效果。Zhang等[65]使用多分辨率卷積改進(jìn)Faster-RCNN的VGG16結(jié)構(gòu),將深層特征和淺層特征映射結(jié)合生成多分辨率特征圖,提高了小型艦船目標(biāo)的召回率和準(zhǔn)確率。Liu等[66]采用細(xì)粒度特征增強(qiáng)對(duì)YOLOv2模型進(jìn)行改進(jìn),向YOLOv2網(wǎng)絡(luò)中添加重組層和路由層,將前向傳播中的淺層特征圖和深層特征圖匯集起來(lái),提高了小型艦船目標(biāo)的檢測(cè)效果。針對(duì)YOLOv3網(wǎng)絡(luò)對(duì)小型艦船目標(biāo)檢測(cè)精度低的問(wèn)題,常用方法是在網(wǎng)絡(luò)降8倍、降16倍和降32倍采樣3個(gè)檢測(cè)尺度的基礎(chǔ)上增加1個(gè)降4倍采樣的檢測(cè)尺度,在增加的淺層特征尺度上為小目標(biāo)分配錨框,提高檢測(cè)效果[67-69]。引入淺層特征會(huì)增加模型計(jì)算的復(fù)雜度,時(shí)間成本會(huì)增加。

        3.3.3 注意力機(jī)制

        注意力機(jī)制被引入網(wǎng)絡(luò)中,通過(guò)優(yōu)化小目標(biāo)的特征表示來(lái)提高檢測(cè)性能。典型目標(biāo)檢測(cè)算法如YOLOv3,YOLOv4一般在將多尺度的特征圖進(jìn)行級(jí)聯(lián)后檢測(cè)目標(biāo),從每個(gè)通道和位置提取的特征對(duì)最終檢測(cè)結(jié)果的貢獻(xiàn)平等,但實(shí)際上每個(gè)通道和位置的特征圖是對(duì)特定語(yǔ)義信息的響應(yīng)。注意力機(jī)制可以給予代表小目標(biāo)特征的部分適當(dāng)?shù)臋?quán)重,有效提高模型檢測(cè)小目標(biāo)的能力。Chen等[70]在YOLOv3網(wǎng)絡(luò)中引入膨脹注意模塊(Dilated Attention Module,DAM),它利用膨脹卷積來(lái)擴(kuò)大接收野,并集成通道注意和空間注意模塊來(lái)提取顯著特征,突出小目標(biāo)與背景的區(qū)別,提高檢測(cè)效果。Nie等[71]在Mask-RCNN模型中同時(shí)使用通道注意模塊和空間注意模塊,增強(qiáng)了信息從底層到頂層的傳播,提高對(duì)小型船舶的檢測(cè)精度。Hu等[72]為了優(yōu)化特征信息的表達(dá),提出了空間和通道維度的雙注意模塊,自適應(yīng)學(xué)習(xí)特征在不同尺度上的顯著性,并提出了一個(gè)新的損失函數(shù),為小目標(biāo)檢測(cè)提供了更好的收斂性能。

        3.3.4 小 結(jié)

        數(shù)據(jù)增強(qiáng)可以擴(kuò)充小型艦船目標(biāo)的樣本數(shù)量,是提高小目標(biāo)檢測(cè)的一項(xiàng)有效措施。利用淺層特征可以提高網(wǎng)絡(luò)檢測(cè)小目標(biāo)的效果,但是會(huì)增加計(jì)算復(fù)雜度、損失檢測(cè)時(shí)間。注意力機(jī)制也可以很好地提高小目標(biāo)檢測(cè)效果,但是需要考慮過(guò)擬合問(wèn)題。

        3.4 模型輕量化提高檢測(cè)速度

        典型的目標(biāo)檢測(cè)模型參數(shù)量巨大,往往難以部署在衛(wèi)星的嵌入式設(shè)備上。為了滿足實(shí)時(shí)檢測(cè)艦船目標(biāo),將模型應(yīng)用于資源有限的嵌入式設(shè)備中,需要減少模型的參數(shù)量,提高模型的檢測(cè)速度,常用方法如圖17所示。

        圖17 精簡(jiǎn)模型的常用方法Fig.17 Common methods for streamlining models

        3.4.1 模型壓縮

        模型壓縮是模型輕量化的一種常用策略。3種模型壓縮方法被廣泛應(yīng)用,分別是模型剪枝、知識(shí)蒸餾和量化[73]。其中,模型剪枝通過(guò)去除網(wǎng)絡(luò)中冗余的通道或?qū)?,可以顯著減小參數(shù)大小和模型大?。?4-75];知識(shí)蒸餾將經(jīng)過(guò)訓(xùn)練的大型網(wǎng)絡(luò)作為教師網(wǎng)絡(luò),然后用較大的網(wǎng)絡(luò)來(lái)指導(dǎo)小的學(xué)生網(wǎng)絡(luò)的訓(xùn)練[76-77];量化的核心思想是對(duì)網(wǎng)絡(luò)進(jìn)行壓縮,例如將權(quán)值的比特?cái)?shù)從32位浮點(diǎn)數(shù)減少到16位浮點(diǎn)數(shù)或8位整數(shù),使模型尺寸大大降低[78-79]。

        為了獲得更好的艦船目標(biāo)檢測(cè)性能,這三種方法通常會(huì)結(jié)合使用[80-83]。Zhang等[80]采用結(jié)構(gòu)化剪枝方法對(duì)網(wǎng)絡(luò)進(jìn)行壓縮,再采用知識(shí)蒸餾來(lái)提高壓縮后網(wǎng)絡(luò)的識(shí)別精度。Chen等[81]引入基于權(quán)重的網(wǎng)絡(luò)剪枝和權(quán)值量化對(duì)網(wǎng)絡(luò)進(jìn)行壓縮。Ma等[82]首先對(duì)YOLOv4模型進(jìn)行稀疏訓(xùn)練找到不太重要的信道和層;其次對(duì)網(wǎng)絡(luò)進(jìn)行信道修剪、層修剪;再利用知識(shí)蒸餾對(duì)剪枝模型進(jìn)行再訓(xùn)練;最后,將模型的權(quán)值從FP32 (32-bit Floating Point,32位浮點(diǎn)數(shù))量化為FP16。模型壓縮與量化流程如圖18所示。以上方法對(duì)資源受限的SAR目標(biāo)識(shí)別都取得了較好的效果,減少了模型參數(shù)量,提高了檢測(cè)速度。陳科峻等[83]將YOLOv3算法的批量歸一化層的尺度因子作為通道重要性的度量指標(biāo),對(duì)模型進(jìn)行剪枝壓縮,參數(shù)量減少了91.5%,檢測(cè)時(shí)間縮短了60%,能夠滿足可見光遙感圖像實(shí)時(shí)艦船檢測(cè)的需要。

        圖18 模型壓縮與量化流程Fig.18 Model compression and quantification processes

        3.4.2 網(wǎng)絡(luò)輕量化

        設(shè)計(jì)輕量化骨干網(wǎng)絡(luò)結(jié)構(gòu)或卷積計(jì)算單元是模型輕量化的另一種有效策略。Li等[84]改進(jìn)Faster RCNN骨干網(wǎng)絡(luò)結(jié)構(gòu),提出了一種輕量級(jí)艦船探測(cè)器Lite-Faster RCNN,將檢測(cè)速度提高了8倍。Huang等[85]提出的Ship-YOLOv3模型通過(guò)減少部分卷積運(yùn)算和增加跳轉(zhuǎn)連接機(jī)制改變YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)來(lái)減少特征冗余,在保證實(shí)時(shí)性的前提下模型的檢測(cè)精度和召回率都得到提高。Ding等[86]提出的艦船檢測(cè)模型用卷積代替Faster RCNN中的全連接層,大大降低了網(wǎng)絡(luò)參數(shù)量,減少了內(nèi)存需求和時(shí)間消耗。Long等[87]結(jié)合密集連接、殘余連接和群卷積的思想,提出了Lira-YOLO艦船目標(biāo)檢測(cè)器。與Tiny-YOLOv3相比,Lira-YOLO具有更高的檢測(cè)精度和更低的計(jì)算復(fù)雜度。Zhao等[88]在網(wǎng)絡(luò)中引入深度可分卷積,構(gòu)建了一個(gè)輕量級(jí)艦船檢測(cè)器。

        3.4.3 小 結(jié)

        模型的壓縮與量化雖然可以提高檢測(cè)速度,但是會(huì)損失檢測(cè)精度,降低模型識(shí)別率。網(wǎng)絡(luò)輕量化可以提高檢測(cè)速度,降低計(jì)算復(fù)雜度,不會(huì)犧牲檢測(cè)精度;但過(guò)于依賴人工先驗(yàn)知識(shí),需要針對(duì)不同場(chǎng)景對(duì)網(wǎng)絡(luò)進(jìn)行相應(yīng)的優(yōu)化,以適應(yīng)不同的檢測(cè)任務(wù)。

        3.5 大幅寬遙感圖像艦船目標(biāo)檢測(cè)

        盡管目標(biāo)檢測(cè)技術(shù)已經(jīng)取得了長(zhǎng)足的進(jìn)步,但在大幅寬遙感圖像中艦船的快速檢測(cè)仍面臨挑戰(zhàn)。如果將一幅大幅寬的圖像通過(guò)降采樣直接輸入檢測(cè)網(wǎng)絡(luò),圖像信息會(huì)丟失,不利于檢測(cè)目標(biāo)。

        3.5.1 分塊檢測(cè)

        常用的分塊檢測(cè)方法是將大幅寬遙感圖像分為若干個(gè)圖像塊,分別對(duì)每個(gè)圖像塊進(jìn)行檢測(cè)識(shí)別,檢測(cè)流程如圖19所示。Voinov等[89]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的大幅寬遙感圖像艦船檢測(cè)方法,首先去除陸地區(qū)域后將圖像分塊,然后利用MobileNet模型檢測(cè)圖像塊中是否包含艦船目標(biāo),最后對(duì)正分類結(jié)果采用Faster R-CNN預(yù)測(cè)艦船的位置和類別。這種圖像分塊方式容易在圖像塊的邊緣處將目標(biāo)一分為二,導(dǎo)致目標(biāo)不完整從而影響檢測(cè)效果。

        圖19 大幅寬遙感圖像分塊檢測(cè)流程Fig.19 Large-area remote sensing image segmentation detection process

        基于感興趣區(qū)域提取的圖像分塊方法可以避免目標(biāo)被分割的問(wèn)題。黎經(jīng)元[59]利用形態(tài)學(xué)方法和視覺顯著性算法在大幅寬遙感圖像中提取可疑海域切片,避免目標(biāo)被分割。聶婷[90]使用擴(kuò)展小波變換增強(qiáng)復(fù)雜背景下目標(biāo)與背景的對(duì)比度來(lái)快速定位大幅寬遙感圖像中的感興趣區(qū)域,然后用改進(jìn)的超復(fù)數(shù)頻域視覺檢測(cè)方法來(lái)提取圖像的感興趣區(qū)域。

        3.5.2 整幅圖像一次性檢測(cè)

        Van等[91]提出的YOLT將YOLO應(yīng)用于大幅寬遙感圖像檢測(cè),利用YOLO在大幅寬圖像上滑動(dòng)窗口快速檢測(cè)各個(gè)區(qū)域,完成對(duì)整幅遙感圖像的檢測(cè)任務(wù)。YOLT滑動(dòng)窗口時(shí)相鄰兩窗口之間會(huì)有15%的重疊,最后合并每個(gè)窗口檢測(cè)結(jié)果進(jìn)行非極大值抑制得到最終結(jié)果,這種基于滑動(dòng)窗口的方法重復(fù)地處理會(huì)占用大量的計(jì)算時(shí)間,使得整個(gè)算法的效率降低,一次性對(duì)大幅寬遙感圖像進(jìn)行艦船可以提高檢測(cè)速度。Su等[52]提出了一種基于YOLO的一次性檢測(cè)大幅寬遙感圖像的方法,將特征提取網(wǎng)絡(luò)改進(jìn)為全卷積結(jié)構(gòu)組成的DCNDarknet25,可以接受任何大小的圖像作為輸入,并且通過(guò)減少參數(shù)和添加變形卷積提高了檢測(cè)速度和準(zhǔn)確性。

        3.5.3 小 結(jié)

        大幅寬遙感圖像分塊檢測(cè)法第一階段的檢測(cè)結(jié)果對(duì)最終分類結(jié)果起決定性作用,利用人工設(shè)計(jì)的特征提取感興趣區(qū)域,效率低且檢測(cè)效果不好。一次性檢測(cè)方法將整幅遙感圖像送到網(wǎng)絡(luò)訓(xùn)練時(shí),大面積的背景信息被當(dāng)作負(fù)樣本,小部分的艦船目標(biāo)被視為正樣本,這會(huì)導(dǎo)致嚴(yán)重的樣本不平衡,浪費(fèi)訓(xùn)練時(shí)間和資源,因此需要一定的策略來(lái)解決正負(fù)樣本不均衡的問(wèn)題。

        4 圖像數(shù)據(jù)集和算法性能評(píng)價(jià)

        4.1 圖像數(shù)據(jù)集

        深度學(xué)習(xí)需要大量的樣本進(jìn)行模型訓(xùn)練,隨著卷積神經(jīng)網(wǎng)絡(luò)模型在遙感領(lǐng)域的廣泛應(yīng)用,出現(xiàn)了大規(guī)模的遙感圖像數(shù)據(jù)集。包含艦船目標(biāo)的常見數(shù)據(jù)集如表2所示。其中,最常用于艦船檢測(cè)的可見光圖像數(shù)據(jù)集是DOTA和HRSC2016,SAR圖像數(shù)據(jù)集是SSDD。有研究者收集來(lái)源于谷歌地球的遙感圖像,構(gòu)建艦船數(shù)據(jù)集來(lái)訓(xùn)練模型[28,47,49,66]。

        表2 艦船數(shù)據(jù)集對(duì)比Tab.2 Comparison of ship datasets

        4.1.1DOTA數(shù)據(jù)集

        DOTA數(shù)據(jù)集[92]由來(lái)自不同傳感器和平臺(tái)的2 806幅航空遙感圖像組成,包括艦船、飛機(jī)和橋梁等15個(gè)類別,其中艦船圖像573張。圖像尺寸在800×800到4 000×4 000像素之間。數(shù)據(jù)集總共有188 282個(gè)實(shí)例,艦船目標(biāo)采用水平邊界框與旋轉(zhuǎn)邊界框標(biāo)注。

        4.1.2HRSC2016數(shù)據(jù)集

        HRSC2016數(shù)據(jù)集[93]由來(lái)自6個(gè)不同港口的1 061幅遙感圖像組成。目標(biāo)包括海上的船舶和停靠在岸邊的船舶。圖像分為訓(xùn)練集436張(共1 207個(gè)標(biāo)記樣例)、測(cè)試集444張(共1 228個(gè)標(biāo)記樣例)和驗(yàn)證集181張(共541個(gè)標(biāo)記樣例)。圖像尺寸為300×300到1 500×900像素,分辨率為0.4~2 m。艦船目標(biāo)采用旋轉(zhuǎn)邊界框標(biāo)注。

        4.1.3NWPU VHR-10數(shù)據(jù)集

        NWPU VHR-10數(shù)據(jù)集[94]包括一個(gè)正面圖像集(包括650張圖像)和一個(gè)負(fù)面圖像集(包括150張圖像)。NWPU VHR-10數(shù)據(jù)集的正像集圖像尺寸從533×597到1 728×1 028像素,包含10類地理空間對(duì)象:飛機(jī)、船舶、儲(chǔ)罐、棒球場(chǎng)、網(wǎng)球場(chǎng)、籃球場(chǎng)、田徑場(chǎng)、港口、橋梁和車輛。

        4.1.4Kaggle Airbus Ship Detection數(shù)據(jù)集

        Kaggle Airbus Ship Detection數(shù)據(jù)集[95]由Kaggle挑戰(zhàn)賽(Airbus Ship Detection Challenge)提供的RGB圖像(每幅尺寸為768×768,包括表示船只位置的編碼像素)數(shù)據(jù)集。編碼后的像素被轉(zhuǎn)換為二進(jìn)制掩碼,其中“ship”表示為1,“no ship”表示為0。通過(guò)計(jì)算值為1掩碼的4個(gè)角坐標(biāo)可將其轉(zhuǎn)換為邊界框。

        4.1.5MASATI數(shù)據(jù)集

        MASATI數(shù)據(jù)集[96]包含6 212幅可見光衛(wèi)星遙感圖像,其中艦船圖像3 113張。圖像尺寸約為512×512像素。

        4.1.6HRRSD數(shù)據(jù)集

        HRRSD[97]數(shù)據(jù)集中的圖像主要來(lái)自谷歌地圖,分辨率為0.15~1.2 m,少部分來(lái)自百度地圖,分辨率為0.6~1.2 m。圖像共計(jì)21 761張,包括飛機(jī)、棒球場(chǎng)、籃球場(chǎng)、橋梁、十字路口、田徑場(chǎng)、港口、停車場(chǎng)、船舶、儲(chǔ)罐、T形路口、網(wǎng)球場(chǎng)和車輛13類目標(biāo),其中包含艦船目標(biāo)的圖像有3 886張,采用水平邊界框標(biāo)注。

        4.1.7DIOR數(shù)據(jù)集

        DIOR數(shù)據(jù)集[98]包含23 463張圖像和192 472個(gè)實(shí)例,涵蓋了艦船、飛機(jī)、橋梁和籃球場(chǎng)等20類對(duì)象。其中艦船類圖像2 702張,分為訓(xùn)練集650張、驗(yàn)證集652張、測(cè)試集1400張。圖像尺寸為800×800,分辨率為0.5~30 m,艦船目標(biāo)采用水平邊界框標(biāo)注。

        4.1.8FGSC-23數(shù)據(jù)集

        FGSC-23[99]是一個(gè)高分辨率光學(xué)遙感圖像艦船目標(biāo)精細(xì)識(shí)別數(shù)據(jù)集,共有4 052個(gè)艦船切片,分辨率在0.4~2 m,包含23類艦船目標(biāo)。對(duì)每個(gè)切片標(biāo)注了類別、長(zhǎng)寬比以及艦船方向,按1∶4將各類圖像隨機(jī)劃分為測(cè)試集和訓(xùn)練集。

        4.1.9SSDD數(shù)據(jù)集

        SSDD數(shù)據(jù)集[100]共有1 160張圖像,只對(duì)像素?cái)?shù)大于3的艦船目標(biāo)進(jìn)行標(biāo)注,包含2 456艘船舶。平均每張圖片顯示的船只數(shù)量為2.12艘;按7∶2∶1分為訓(xùn)練集、驗(yàn)證集和測(cè)試集3部分。圖像尺寸為500×500,分辨率為1~15 m,艦船目標(biāo)采用水平邊界框標(biāo)注。

        4.1.10 SAR-ship-Dataset數(shù)據(jù)集

        SAR-ship-Dataset數(shù)據(jù)集[101]由102景高分三號(hào)影像108景哨兵一號(hào)影像組成,包括43 819個(gè)256×256像素的艦船切片,采用水平邊界框標(biāo)注,同時(shí)包括距離和方位。圖像分辨率分別為3,5,8和10 m。

        4.1.11AIR-SARShip1.0數(shù)據(jù)集

        AIR-SARShip1.0數(shù)據(jù)集[102]來(lái)源于高分三號(hào)衛(wèi)星拍攝的31景圖像,按照2∶1來(lái)劃分訓(xùn)練集與測(cè)試集。圖像尺寸為3 000×3 000,分辨率為1 m和3 m,艦船目標(biāo)采用水平邊界框標(biāo)注。

        4.1.12HRSID數(shù)據(jù)集

        HRSID數(shù)據(jù)集[103]共有5 604張圖像,由136景SAR影像裁剪得到,包括小尺寸目標(biāo)9 242個(gè)、中等尺寸目標(biāo)7 388個(gè)、大尺寸目標(biāo)321個(gè)。65%的圖像劃分為訓(xùn)練集,35%的圖像劃分為測(cè)試集,圖像尺寸為800×800,圖像分辨率為0.5~3 m,采用水平邊界框標(biāo)注。

        4.2 評(píng)價(jià)指標(biāo)

        艦船目標(biāo)檢測(cè)的常用評(píng)價(jià)指標(biāo)有:交并比(Intersection Over Union, IOU)、精度P(Precision)、召回率R(Recall)、平均精度AP和均值平均精度mAP。

        4.2.1 IOU

        IOU是兩個(gè)矩形交集面積與兩個(gè)矩形并集面積之比,如圖20所示。假設(shè)A是模型預(yù)測(cè)框,B是目標(biāo)真實(shí)框,則:

        圖20 交并比示意圖Fig. 20 Schematic diagram of IOU

        一般情況下通過(guò)設(shè)定IOU閾值來(lái)判斷預(yù)測(cè)框是否檢測(cè)到目標(biāo)物體,即:

        其中閾值T一般取0.5。

        4.2.2 精度和召回率

        P表示被正確識(shí)別到的正樣本數(shù)占所有預(yù)測(cè)為正樣本的比例,R指預(yù)測(cè)值中被正確識(shí)別到的正樣本數(shù)占所有正樣本數(shù)量的比例,即:

        其中:TP(True Positives)表示預(yù)測(cè)為正,實(shí)際為正;FP(False Positives)表示預(yù)測(cè)為正,實(shí)際為負(fù);FN(False Negatives)表示預(yù)測(cè)為負(fù),實(shí)際為正。

        4.2.3 平均精度

        PR曲線是以精度P為縱坐標(biāo)、召回率R為橫坐標(biāo)繪制的曲線,如圖21所示。模型的精度越高,召回率越高,模型性能就越好,PR曲線下的面積就越大。

        圖21 PR曲線Fig.21 PR curves

        將PR曲線下的面積定義為AP:

        AP的值越大,說(shuō)明模型的平均準(zhǔn)確率越高。

        4.2.4 均值平均精度mAP

        mAP指的是不同類別目標(biāo)檢測(cè)精度的均值。在檢測(cè)多類目標(biāo)時(shí),計(jì)算每一個(gè)類別的AP,然后再計(jì)算平均值,mAP是對(duì)檢測(cè)到的目標(biāo)平均精度的一個(gè)綜合度量。計(jì)算公式如下:

        其中m表示數(shù)據(jù)集中目標(biāo)的類別數(shù)目。

        5 存在的問(wèn)題和發(fā)展趨勢(shì)

        基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)以其高精度、高效率、適用性強(qiáng)的優(yōu)良特性廣泛應(yīng)用到遙感圖像艦船檢測(cè)中并取得了一定的效果。但是在實(shí)際應(yīng)用中仍然存在著挑戰(zhàn),主要體現(xiàn)在:

        (1)高分辨率遙感圖像中艦船目標(biāo)清晰可見的同時(shí)也會(huì)存在大量云霧遮擋等情況,這也是可見光衛(wèi)星影像的固有缺陷。當(dāng)圖像中有薄云霧以及部分遮擋情況時(shí),可以進(jìn)行去云霧處理。當(dāng)圖像中有厚云霧遮擋無(wú)法檢測(cè)出目標(biāo)時(shí),可以融合不同類型傳感器的圖像信息來(lái)抵抗云霧干擾從而完成目標(biāo)檢測(cè)任務(wù),如利用SAR,以及可見光遙感數(shù)據(jù)進(jìn)行艦船檢測(cè)[104]?;诙嘣磮D像融合的艦船目標(biāo)檢測(cè)具有廣闊的應(yīng)用前景,目前已有SAR與多光譜/全色圖像融合、全色和多/高光譜圖像融合、多光譜/高光譜與激光雷達(dá)圖像融合的研究;多源圖像融合需要考慮兩方面的問(wèn)題:一是需要克服不同成像機(jī)理差異帶來(lái)的影響,如SAR圖像與多光譜/全色圖像融合時(shí)的噪聲和光譜失真;二是需要考慮融合不同來(lái)源的地理信息,并從像素級(jí)融合往深層次特征級(jí)、語(yǔ)義信息融合的方向發(fā)展[105]。

        (2)遙感圖像一般尺寸巨大,現(xiàn)有檢測(cè)方法大多采用圖像分塊的方式,計(jì)算復(fù)雜,一次性檢測(cè)方法大面積的背景被當(dāng)作負(fù)樣本,正樣本數(shù)量遠(yuǎn)遠(yuǎn)小于負(fù)樣本數(shù)量,訓(xùn)練過(guò)程中會(huì)出現(xiàn)很多假正例FP,影響檢測(cè)器性能,正負(fù)樣本不平衡的問(wèn)題仍需進(jìn)一步地研究。在自然圖像目標(biāo)檢測(cè)中,難分樣本挖掘(Hard Example Mining,HEM)是解決正負(fù)樣本不平衡問(wèn)題的關(guān)鍵技術(shù)。HEM把得分較高的FP當(dāng)作困難負(fù)樣本(Hard Negative,HN),并把挖掘出的HN送入網(wǎng)絡(luò)再訓(xùn)練一次來(lái)提高檢測(cè)器判別FP的能力,從而提高檢測(cè)精度[106],HEM對(duì)大面積遙感圖像艦船檢測(cè)具有借鑒意義。

        (3)深度學(xué)習(xí)目標(biāo)檢測(cè)模型的訓(xùn)練需要大量樣本,與自然圖像動(dòng)輒百萬(wàn)千萬(wàn)個(gè)樣本的數(shù)據(jù)集相比,針對(duì)艦船目標(biāo)的高質(zhì)量數(shù)據(jù)集較少,少量的樣本訓(xùn)練模型容易出現(xiàn)過(guò)擬合。一方面,可采用遷移訓(xùn)練的方法首先在大規(guī)模數(shù)據(jù)集上對(duì)模型進(jìn)行預(yù)訓(xùn)練,再用較少的數(shù)據(jù)集訓(xùn)練模型進(jìn)行調(diào)優(yōu);另一方面,可以對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充,然而樣本標(biāo)注需要耗費(fèi)極大的人力和時(shí)間成本。弱監(jiān)督學(xué)習(xí)可以顯著減少標(biāo)注工作量,訓(xùn)練集只需要標(biāo)注二進(jìn)制標(biāo)簽來(lái)標(biāo)注圖像中是否包含目標(biāo)對(duì)象[107],但是二進(jìn)制標(biāo)簽缺乏位置信息,難以對(duì)目標(biāo)進(jìn)行定位。針對(duì)此問(wèn)題,Yang等[108]通過(guò)分析類信息與位置信息之間的相互作用,提出了一種弱監(jiān)督艦船目標(biāo)檢測(cè)器Piston-Net,其檢測(cè)精度達(dá)到了有監(jiān)督學(xué)習(xí)目標(biāo)探測(cè)器的水平,然而Piston-Net只能檢測(cè)單類目標(biāo),如何擴(kuò)展到檢測(cè)多類目標(biāo)是今后的研究方向。

        (4)當(dāng)前基于深度學(xué)習(xí)的艦船目標(biāo)檢測(cè)大多是檢測(cè)圖像中是否存在艦船目標(biāo)并給出其位置。未來(lái)的艦船目標(biāo)檢測(cè)應(yīng)更加細(xì)化,不只是定位出艦船的位置,還要精準(zhǔn)識(shí)別出整個(gè)編隊(duì)的配置、各型艦船的數(shù)目等,這需要對(duì)數(shù)據(jù)集中的艦船目標(biāo)進(jìn)行更細(xì)致的標(biāo)注。FGSC-23是現(xiàn)有的光學(xué)遙感圖像艦船目標(biāo)精細(xì)識(shí)別數(shù)據(jù)集,但是其樣本數(shù)量仍然較少,仍需構(gòu)建用于精細(xì)識(shí)別的艦船數(shù)據(jù)集。

        (5)雖然基于深度學(xué)習(xí)的目標(biāo)檢測(cè)模型具有很高的檢測(cè)精度,但是其參數(shù)量巨大,實(shí)際工程應(yīng)用需要考慮到實(shí)時(shí)性檢測(cè)和硬件設(shè)備資源有限需要精簡(jiǎn)模型。現(xiàn)有的方法有兩種:壓縮模型和設(shè)計(jì)輕量化的網(wǎng)絡(luò)。前者會(huì)損失檢測(cè)精度,后者可以避免精度損失,但是大多基于現(xiàn)有模型進(jìn)行精簡(jiǎn),未來(lái)可以設(shè)計(jì)智能的模型選擇策略,例如神經(jīng)架構(gòu)搜索(Neural Architecture Search,NAS)可以從給定的候選神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)集合中按照某種策略搜索出最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)[109],今后研究可以考慮應(yīng)用NAS自動(dòng)搜索更優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)。

        (6)旋轉(zhuǎn)邊界框能夠很好地貼合艦船,對(duì)目標(biāo)進(jìn)行更精細(xì)的定位,但是與水平邊界框相比,其精度會(huì)因邊界損失值突變問(wèn)題而降低。當(dāng)前,自然圖像目標(biāo)檢測(cè)中針對(duì)邊界性問(wèn)題的解決方法一方面將旋轉(zhuǎn)邊界框建模為高斯分布,并提出基于IOU的損失代替斜框IOU損失來(lái)簡(jiǎn)化計(jì)算,避免直接角度回歸;另一方面把角度預(yù)測(cè)轉(zhuǎn)化為分類,設(shè)計(jì)光滑標(biāo)簽,避免邊界不連續(xù)問(wèn)題。上述方法已經(jīng)應(yīng)用到遙感圖像艦船檢測(cè)中,進(jìn)一步提高旋轉(zhuǎn)邊界框的檢測(cè)精度仍需進(jìn)行深入研究,基于中心點(diǎn)或關(guān)鍵點(diǎn)的無(wú)錨框旋轉(zhuǎn)檢測(cè)[110]是一個(gè)有應(yīng)用前景的方向。

        (7)艦船目標(biāo)檢測(cè)未來(lái)的發(fā)展也應(yīng)當(dāng)借鑒計(jì)算機(jī)視覺等領(lǐng)域最新的研究成果,如基于Transformer的目標(biāo)檢測(cè)模型DETR(Detection Transformer),DETR首先用一個(gè)CNN網(wǎng)絡(luò)提取特征,然后展平特征圖,當(dāng)作序列輸入給Transformer,經(jīng)處理后并行輸出預(yù)測(cè)結(jié)果;DETR免去了關(guān)于錨框的處理,同時(shí)免去了NMS后處理[111]。但是,收斂速度慢和計(jì)算量大等缺點(diǎn)會(huì)降低DETR應(yīng)用于艦船檢測(cè)任務(wù)中的性能。已有學(xué)者將基于Transformer的模型進(jìn)行改進(jìn)應(yīng)用于艦船檢測(cè),如Zhang等[112]提出了艦船目標(biāo)檢測(cè)器ESDT(Efficient Ship Detection Transformer)。骨干網(wǎng)采用ResNet50提取深度特征;然后,將特征輸入使用多尺度自注意力實(shí)現(xiàn)的編碼器;最后,增強(qiáng)的特征被送到解碼器進(jìn)行艦船檢測(cè);引入了特征蒸餾加快收斂速度,從預(yù)訓(xùn)練的大型DETR中學(xué)習(xí)知識(shí)。Chen等[113]提出了一種基于PET(Perceptually Enhanced Transformer)的無(wú)錨SAR圖像艦船檢測(cè)方法,PET抑制散射噪聲,增強(qiáng)艦船目標(biāo)在復(fù)雜背景下的顯著特征;并提出一種稀疏注意方法快速聚焦全局特征中的重要信息,加快網(wǎng)絡(luò)收斂速度。未來(lái),基于Trans-former的模型的研究重點(diǎn)是提高檢測(cè)精度與加速網(wǎng)絡(luò)收斂。

        6 結(jié) 論

        光學(xué)遙感圖像艦船目標(biāo)檢測(cè)是目標(biāo)檢測(cè)的一個(gè)重要應(yīng)用場(chǎng)景,在民用和軍用方面都具有重要的價(jià)值。本文歸納總結(jié)了典型的基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法,分類梳理了針對(duì)艦船目標(biāo)特點(diǎn)的改進(jìn)研究,分析了各種改進(jìn)方法的優(yōu)缺點(diǎn)。最后,探討了當(dāng)前遙感圖像船舶目標(biāo)檢測(cè)算法面臨的問(wèn)題與挑戰(zhàn)以及未來(lái)的發(fā)展趨勢(shì)。

        猜你喜歡
        艦船邊界特征
        艦船通信中的噪聲消除研究
        拓展閱讀的邊界
        艦船測(cè)風(fēng)傳感器安裝位置數(shù)值仿真
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        論中立的幫助行為之可罰邊界
        抓住特征巧觀察
        艦船腐蝕預(yù)防與控制系統(tǒng)工程
        “偽翻譯”:“翻譯”之邊界行走者
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        色琪琪一区二区三区亚洲区| 免费在线视频一区| 亚洲老熟妇愉情magnet| 高清国产亚洲精品自在久久| 高清毛茸茸的中国少妇| 99精产国品一二三产品香蕉| 甲状腺囊实性结节三级| 亚洲一区二区三区在线高清中文| 国产成人无码av一区二区在线观看 | 亚洲日本中文字幕乱码| 中文字幕日韩精品有码视频| 午夜福利麻豆国产精品 | 亚洲国产av一区二区三| 日本一区二区三区亚洲| 国产成人一区二区三区| 国产精品露脸张开双腿| 亚洲视频精品一区二区三区| 精品福利一区二区三区蜜桃| 久久久久久好爽爽久久| 亚洲—本道中文字幕久久66| 91人妻一区二区三区蜜臀| 久久亚洲精品情侣| 永久免费av无码网站性色av| 无码AⅤ最新av无码专区| 在教室轮流澡到高潮h免费视| 色一情一乱一伦| 欧美日韩国产一区二区三区地区| 亚洲人成网站在线观看播放| 人人妻人人澡av| 亚洲国产女性内射第一区二区| 国产白嫩护士被弄高潮| 日韩精品电影在线观看| 亚洲国产人成自精在线尤物| 邻居少妇张开腿让我爽了一夜| 毛片在线播放a| 国产爆乳美女娇喘呻吟久久| av中国av一区二区三区av| 久精品国产欧美亚洲色aⅴ大片| 亚洲AV成人无码久久精品四虎| 亚洲熟妇av一区二区三区hd| 国产精久久一区二区三区|