亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)YOLOv5的輕量級(jí)船舶目標(biāo)檢測(cè)算法

        2023-03-24 13:25:40李佳東張丹普范亞瓊楊劍鋒
        計(jì)算機(jī)應(yīng)用 2023年3期
        關(guān)鍵詞:錨框尺度卷積

        李佳東,張丹普,范亞瓊,楊劍鋒

        (1.中國(guó)航天科工集團(tuán)第二研究院,北京 100039;2.北京航天長(zhǎng)峰股份有限公司 北京航天長(zhǎng)峰科技工業(yè)集團(tuán)有限公司,北京 100039)

        0 引言

        近年來(lái)智能光電監(jiān)控在海洋監(jiān)控中發(fā)揮著越來(lái)越重要的作用,利用圖像視覺(jué)和神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)海上船舶目標(biāo)檢測(cè)已成為重要的應(yīng)用方向和研究熱點(diǎn)。船舶檢測(cè)是一種典型的目標(biāo)檢測(cè)問(wèn)題?;谏疃葘W(xué)習(xí)的目標(biāo)檢測(cè)算法主要分為兩類:一類是以R-CNN(Regions with Convolutional Neural Network)為代表的二階段算法,但速度較慢,無(wú)法滿足船舶檢測(cè)的實(shí)時(shí)性要求;另一類是以SSD(Single Shot MultiBox Detector)和YOLO(You Only Look Once)為代表的一階段算法,雖然可以滿足實(shí)時(shí)性要求,但檢測(cè)精度較低。目前,這兩類算法均已應(yīng)用于船舶檢測(cè)。例如,齊亮等[1]基于Faster R-CNN,通過(guò)圖像降尺度、場(chǎng)景窄化等方法減少船舶檢測(cè)的時(shí)間;但是由于Faster R-CNN 等兩階段算法在檢測(cè)速度上的缺陷,依舊無(wú)法達(dá)到實(shí)時(shí)要求。同兩階段算法相比,一階段算法雖然檢測(cè)精度略低,但是在速度上有極大提升,做到了速度與精度的較好折中,在工業(yè)界各種生產(chǎn)環(huán)境中應(yīng)用廣泛。Sun等[2]在SSD 的基礎(chǔ)上,通過(guò)空洞卷積與多尺度特征融合等方法提升了檢測(cè)效果。

        和SSD 相比,YOLO 是一種不斷利用視覺(jué)領(lǐng)域最新研究成果進(jìn)行持續(xù)迭代優(yōu)化的目標(biāo)檢測(cè)算法。段敬雅等[3]針對(duì)YOLOv2 檢出率和識(shí)別率較低的問(wèn)題,引入支持向量機(jī)對(duì)檢出的目標(biāo)進(jìn)行分類,大幅提高了檢出率和識(shí)別率。盛明偉等[4]基于YOLOv3,引入Mixup 數(shù)據(jù)增強(qiáng)、注意力機(jī)制、完全交并比損失(Complete Intersection over Union Loss,CIoU Loss)、融合了殘差連接的特征金字塔、顯著性檢測(cè)等策略,以提高檢測(cè)的精確率和召回率。Chen等[5]在YOLOv3 的基礎(chǔ)上引入注意力機(jī)制,以提升模型在復(fù)雜背景下的特征提取能力;同時(shí)構(gòu)建特征增強(qiáng)模塊,并將它應(yīng)用于特征融合部分,在增強(qiáng)相應(yīng)特征層的感受野大小和特征提取網(wǎng)絡(luò)的關(guān)聯(lián)度的同時(shí),增強(qiáng)了底層特征語(yǔ)義信息。Li等[6]在YOLOv3 的基礎(chǔ)上,引入注意力機(jī)制,并使用卷積操作替換池化操作,提高了小目標(biāo)的檢測(cè)能力??讋⒘岬龋?]在YOLOv4 的基礎(chǔ)上,改進(jìn)K均值聚類算法重新設(shè)計(jì)先驗(yàn)錨框,并使用數(shù)據(jù)增強(qiáng)方法擴(kuò)充不平衡數(shù)據(jù)集的小樣本數(shù)量,以提高各類船舶目標(biāo)檢測(cè)的準(zhǔn)確性,最后引入軟非極大值抑制(Softer Non-Maximum Suppression,Softer-NMS)后處理,提升了目標(biāo)檢測(cè)器對(duì)密集船舶的檢測(cè)能力和定位精度。Han等[8]在YOLOv4 的基礎(chǔ)上,首先對(duì)空間金字塔池化(Spatial Pyramid Pooling,SPP)模塊[9]引入空洞卷積以提升模型對(duì)小型船舶空間信息的獲取能力,然后使用注意力機(jī)制和殘差思想改進(jìn)特征金字塔進(jìn)行,提升特征提取能力,最后在檢測(cè)時(shí)通過(guò)融合卷積核提升推理速度。Zhou等[10]在YOLOv5[11]的基礎(chǔ)上,在骨干網(wǎng)絡(luò)中使用混合深度卷積替代普通卷積運(yùn)算并引入?yún)f(xié)同注意力模型,同時(shí)利用焦點(diǎn)損失(Focal Loss)[12]和CIoU Loss 提升算法的檢測(cè)能力。

        雖然上述算法在將通用目標(biāo)檢測(cè)任務(wù)移植到船舶目標(biāo)檢測(cè)的過(guò)程中針對(duì)船舶自身的特點(diǎn)已經(jīng)作了一定優(yōu)化,但是檢測(cè)能力仍舊存在不足。部分原因在于船舶目標(biāo)普遍偏大,然而很多研究的目的在于提升對(duì)小目標(biāo)的檢測(cè)能力。但是海岸上樓房、工廠、樹木等背景信息對(duì)海岸附近的大型船舶干擾嚴(yán)重,此時(shí)需要保留更加豐富的語(yǔ)義信息及更大的感受野才能更好地定位大型目標(biāo)。同時(shí)上述算法也未考慮目標(biāo)尺度分布不均衡的數(shù)據(jù)集,直接使用K均值聚類算法容易導(dǎo)致錨框分配不均衡。當(dāng)前研究的檢測(cè)模型以大型模型為主,模型參數(shù)較多、對(duì)設(shè)備要求高,亟需一種對(duì)硬件性能要求低的輕量級(jí)模型,能夠更方便地部署在低配置計(jì)算設(shè)備上以高效完成船舶檢測(cè)任務(wù)。

        針對(duì)當(dāng)前船舶目標(biāo)檢測(cè)存在的上述問(wèn)題,本文構(gòu)建了一種基于改進(jìn)YOLOv5 的輕量級(jí)船舶目標(biāo)檢測(cè)算法——YOLOShip。對(duì)于當(dāng)前船舶檢測(cè)模型通常較大、對(duì)設(shè)備要求較高的問(wèn)題,YOLOShip 對(duì)YOLOv5 的最輕量級(jí)模型YOLOv5s進(jìn)行改進(jìn)。針對(duì)模型檢測(cè)能力不足的問(wèn)題,YOLOShip 通過(guò)引入空洞卷積、輕量級(jí)的混合深度卷積、注意力機(jī)制等方法,保留更多細(xì)節(jié)信息、擴(kuò)大感受野、強(qiáng)化更加重要的信息,進(jìn)而達(dá)到提升模型召回率及定位精度的目的。針對(duì)數(shù)據(jù)集中目標(biāo)尺度分布不均衡及尺度變化小的特點(diǎn),對(duì)數(shù)據(jù)集進(jìn)行均勻化處理,并對(duì)K均值聚類算法得到的錨框重新排序、刪減檢測(cè)頭,精簡(jiǎn)了網(wǎng)絡(luò),并提升了檢測(cè)精度。最后使用更加靈活的多項(xiàng)式損失優(yōu)化二元交叉熵?fù)p失,以提升模型收斂速度與模型精度??紤]到船舶數(shù)據(jù)集較小,且現(xiàn)實(shí)環(huán)境中海岸周圍環(huán)境復(fù)雜,陸地建筑物等背景信息容易對(duì)船舶檢測(cè)造成干擾,采用遷移學(xué)習(xí)提升模型對(duì)船舶檢測(cè)的魯棒性。和YOLOv5s 相比,YOLOShip 可以在滿足檢測(cè)速度要求的同時(shí),提升船舶檢測(cè)的精度,為后續(xù)船舶跟蹤、重識(shí)別等復(fù)雜任務(wù)提供了更好的基礎(chǔ),有助于智慧邊海防建設(shè)的進(jìn)一步發(fā)展。

        1 YOLOv5算法

        YOLOv5 是YOLO 算法的第五個(gè)版本,按照網(wǎng)絡(luò)寬度和深度的區(qū)別,YOLOv5 又細(xì)分 為YOLOv5s、YOLOv5m 和YOLOv5l 等多個(gè)版本。YOLOv5s 是網(wǎng)絡(luò)寬度和深度最小的版本,其他版本則是在YOLOv5s 的基礎(chǔ)上,按照一定比例對(duì)網(wǎng)絡(luò)寬度和深度加寬加深的結(jié)果。YOLOv5s 在滿足準(zhǔn)確率要求的同時(shí),體積較小、算力要求低,因此可以部署在低配置硬件設(shè)備上。

        YOLOv5 將輸入的數(shù)據(jù)增強(qiáng)后的圖像分隔為S×S個(gè)單元格,且每個(gè)單元格生成B個(gè)預(yù)測(cè)框,由被檢測(cè)目標(biāo)中心所在的單元格及鄰近兩個(gè)單元格通過(guò)位置回歸確定預(yù)測(cè)框位置,同時(shí)計(jì)算該預(yù)測(cè)框有無(wú)目標(biāo)的概率以及該目標(biāo)屬于某一類的概率。針對(duì)不同大小的目標(biāo),YOLOv5 使用3 個(gè)檢測(cè)頭分別在3 個(gè)不同尺度特征圖上對(duì)圖像中的大、中、小目標(biāo)進(jìn)行預(yù)測(cè),提升了對(duì)小目標(biāo)的檢測(cè)能力。對(duì)于模型的輸出,YOLOv5 使用非極大值抑制(Non-Maximum Suppression,NMS)過(guò)濾3 個(gè)頭的檢測(cè)結(jié)果,得到最優(yōu)的目標(biāo)檢測(cè)框。

        YOLOv5 主要由CBS(Conv+BN+SiLU)模塊、C3(CSP Bottleneck with 3 convolutions)模塊、空間金字塔快速池化(Spatial Pyramid Pooling-Fast,SPPF)模塊構(gòu)成。首先將數(shù)據(jù)增強(qiáng)后的圖像輸入網(wǎng)絡(luò),使用CBS 和C3 模塊進(jìn)行下采樣和特征提取,得到8、16、32 倍下采樣后的不同尺度的特征圖,并使用SPPF 模塊融合更多不同分辨率的特征,以獲取多尺度目標(biāo)信息;其次使用CBS、C3 模塊及上采樣構(gòu)造特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)[13]結(jié)構(gòu),將高層語(yǔ)義信息通過(guò)上采樣和低層位置信息進(jìn)行融合,以增強(qiáng)多個(gè)尺度上的語(yǔ)義表達(dá);然后使用CBS 及C3 模塊構(gòu)造路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PAN)[14],通過(guò)一個(gè)自底向上的FPN 將低層的位置信息傳到高層,增強(qiáng)多個(gè)尺度上的定位能力;最后,將通過(guò)PAN 融合后的3 個(gè)尺度的特征圖分別在3個(gè)相同的檢測(cè)頭進(jìn)行位置回歸、有無(wú)目標(biāo)的判斷及分類。

        YOLOv5 的損失函數(shù)由3 部分組成:位置損失、置信度損失和分類損失。位置損失通過(guò)使用CIoU Loss,從預(yù)測(cè)框與標(biāo)注框的重疊面積、中心點(diǎn)距離,長(zhǎng)寬比等與位置有關(guān)的各方面因素進(jìn)行綜合運(yùn)算,收斂更快、效果更好。因?yàn)橛糜谂袛嘁粋€(gè)位置是否有目標(biāo)的置信度損失是一個(gè)二分類問(wèn)題,YOLOv5 使用二元交叉熵?fù)p失(Binary Cross Entropy Loss,BCE Loss)完成置信度損失的計(jì)算。YOLOv5 將多分類問(wèn)題視為一個(gè)多標(biāo)簽二分類問(wèn)題,對(duì)一個(gè)目標(biāo)在多個(gè)標(biāo)簽上同時(shí)預(yù)測(cè)屬于該類別的概率,并選擇概率最大的標(biāo)簽作為該目標(biāo)的類別。由于對(duì)于每一個(gè)標(biāo)簽的訓(xùn)練均屬于二分類問(wèn)題,所以分類損失依舊使用BCE Loss。

        2 YOLOShip算法

        YOLOv5 在通用目標(biāo)檢測(cè)方面已取得一定的研究成果,但在海上船舶檢測(cè)場(chǎng)景下,它的檢測(cè)精度還存在不足。YOLOShip 在YOLOv5 最輕量級(jí)模型YOLOv5s 的基礎(chǔ)上,首先將空洞卷積和通道注意力(Channel Attention,CA)引入骨干網(wǎng)絡(luò)中的SPPF 模塊,構(gòu)造使用空洞卷積和通道注意力的SPP(SPP with Dilated convolution and Channel attention,SPPDC)模塊,以提升對(duì)多尺度目標(biāo)細(xì)節(jié)信息的提取能力;其次將協(xié)同注意力和混合深度卷積引入FPN+PAN 結(jié)構(gòu)中構(gòu)建Improved FPN+PAN 結(jié)構(gòu),進(jìn)一步提升對(duì)大尺度目標(biāo)的檢測(cè)能力;再次針對(duì)數(shù)據(jù)集中目標(biāo)尺度分布不均勻及尺度變化小的特點(diǎn),通過(guò)數(shù)據(jù)均衡化、減少錨框及檢測(cè)頭數(shù)量等方式,精簡(jiǎn)網(wǎng)絡(luò),并在一定程度上提升模型檢測(cè)性能。最后使用更加靈活的多項(xiàng)式損失(Polynomial Loss,PolyLoss)[15]加速模型收斂并提升模型精度。YOLOShip 的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。

        圖1 YOLOShip網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of YOLOShip

        2.1 SPPDC模塊

        在邊海防管控中,船舶檢測(cè)可用于輔助涉海部門掌握船舶整體態(tài)勢(shì),以及應(yīng)對(duì)沿海走私、入侵等威脅核查。在該場(chǎng)景下,模型應(yīng)盡可能檢測(cè)出所有的船舶,召回率指標(biāo)非常重要。YOLOv5s 難以滿足該場(chǎng)景下對(duì)召回率的要求,部分原因在于SPPF 模塊中重復(fù)使用池化層丟失了較多的目標(biāo)細(xì)節(jié)信息,導(dǎo)致個(gè)別目標(biāo)被認(rèn)為是背景,無(wú)法檢測(cè)出。受SPP 及空洞空間卷積池化金字塔池化(Atrous SPP,ASPP)[16]的啟發(fā),YOLOShip 將空洞卷積及通道注意力引入SPPF 模塊,提出了SPPDC 模塊,有效地提升了模型對(duì)多尺度細(xì)節(jié)信息的提取能力,提升了召回率。

        SPPDC 模塊如圖2 所示。首先使用卷積核大小為1×1 的CBS 模塊壓縮通道數(shù),得到特征f1。其次考慮到池化操作容易丟失細(xì)節(jié)信息,直接使用相同大小的卷積操作代替池化操作則會(huì)導(dǎo)致模型急劇增大,因此可以在參數(shù)量不變的情況下調(diào)整空洞率,從而更改空洞卷積的卷積核大小并替代池化操作。將特征f1輸入卷積核大小為3×3、空洞率(Dilation)分別為2、4、6 的CBS 模塊(Dilated CBS),通過(guò)空洞卷積得到特征f2、f3、f4。特征f2、f3、f4均為通過(guò)不同空洞率的卷積核對(duì)特征f1進(jìn)行重采樣的結(jié)果,它們?cè)诓煌耐ǖ郎暇哂邢嗨菩?,因此?duì)特征f1使用通道注意力,得到代表各個(gè)通道重要性的權(quán)重。然后使用由通道注意力得到的權(quán)重對(duì)特征f1、f2、f3、f4的各通道進(jìn)行約束并拼接,從而得到特征f5。由于拼接后通道數(shù)較大,最后再次對(duì)特征f5使用卷積核大小為1×1 的CBS 模塊壓縮通道數(shù),輸出特征f6。SPPDC 結(jié)構(gòu)中的通道注意力源 于CBAM(Convolutional Block Attention Module)[17]。首先分別使用平均池化和最大池化聚合特征圖的空間信息,然后將代表通道的空間信息輸入共享的多層感知機(jī)分別進(jìn)行訓(xùn)練,最后將訓(xùn)練的結(jié)果相加并用Sigmoid 函數(shù)作約束,得到各通道的權(quán)重。SPPDC 模塊通過(guò)空洞卷積獲取更加豐富的多尺度語(yǔ)義信息,并且強(qiáng)化重要通道在模型中的重要性,進(jìn)一步增強(qiáng)語(yǔ)義信息,有助于增強(qiáng)模型區(qū)分背景與前景的能力,提升召回率。

        圖2 SPPDC網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of SPPDC

        2.2 Improved FPN+PAN 結(jié)構(gòu)

        YOLOv5 使用路徑聚合的方法,構(gòu)建FPN+PAN 的頸部網(wǎng)絡(luò)結(jié)構(gòu),以融合低層的定位信息與高層的語(yǔ)義信息,并對(duì)融合后的信息使用C3 模塊進(jìn)行特征提取。但是在構(gòu)造FPN 結(jié)構(gòu)進(jìn)行自頂向下的上采樣時(shí),由于路徑聚合使用了很多骨干網(wǎng)絡(luò)里早期提取的特征,此后在感受野未充分?jǐn)U大的情況下,又將特征通過(guò)路徑聚合傳入了PAN 結(jié)構(gòu)并用于預(yù)測(cè)目標(biāo)。由于網(wǎng)絡(luò)前期的低層定位信息網(wǎng)絡(luò)深度較低,因此對(duì)船舶數(shù)據(jù)集中一些大型船舶存在感受野不足的問(wèn)題,從而導(dǎo)致模型定位能力差,區(qū)分背景與前景的能力不足。YOLOShip在YOLOv5 的基礎(chǔ)上,引入輕量化的混合深度卷積與協(xié)同注意力,進(jìn)一步改進(jìn)FPN+PAN 結(jié)構(gòu),提出了Improved FPN+PAN 結(jié)構(gòu),通過(guò)進(jìn)一步擴(kuò)大感受野使模型可以更準(zhǔn)確地定位和識(shí)別船舶目標(biāo)。

        對(duì)于C3 模塊提取網(wǎng)絡(luò)早期特征時(shí)存在的感受野不足問(wèn)題,可以通過(guò)使用更大的卷積核或者搭建更深的網(wǎng)絡(luò)解決。YOLOShip 參考MixConv(Mixed depthwise Convolution)[18]的思想,同時(shí)考慮到大卷積核容易導(dǎo)致模型急劇增大,因此采用多層小卷積核代替MixConv 中的大卷積核,提出了MixConv Lite 運(yùn)算。如圖3(a)、(b)所示,相較于MixConv,MixConv Lite 使用兩個(gè)3×3 的卷積核代替5×5 的卷積核,三個(gè)3×3 的卷積核代替7×7 的卷積核,在提升感受野的同時(shí),避免了模型的急劇增大;然后使用MixConv Lite 運(yùn)算替換CBS 模塊中的卷積運(yùn)算構(gòu)造MLCBS 模塊;最后將MLCBS 模塊引入C3 模塊,構(gòu)造了C3Mix Lite 模塊。C3Mix Lite 模塊如圖3(c)所示,首先將特征f1分別輸入兩個(gè)卷積核大小為1×1 的CBS 模塊壓縮通道數(shù)得到特征f2與f3,防止拼接后的通道數(shù)過(guò)高導(dǎo)致模型變大;然后對(duì)特征f2使用卷積核大小為1×1 的CBS 模塊學(xué)習(xí)特征中的跨通道相關(guān)和空間相關(guān)并進(jìn)行解耦[19],實(shí)現(xiàn)各通道之間的線性組合,增強(qiáng)非線性特性;之后使用MLCBS模塊進(jìn)行不同感受野下的特征提取,并重復(fù)n次得到特征f4;最后將特征f3與f4拼接后使用卷積核大小為1×1 的CBS 模塊更改通道數(shù),得到該模塊的輸出特征f5。通過(guò)C3Mix Lite 模塊,在增強(qiáng)模型感受野的同時(shí)獲取了不同感受野下目標(biāo)細(xì)節(jié)定位信息,進(jìn)而提升模型定位能力及區(qū)分背景與前景的能力。

        圖3 MixConv運(yùn)算、MixConv Lite運(yùn)算和C3Mix Lite模塊Fig.3 MixConv operation,MixConv Lite operation and C3Mix Lite module

        為了使模型可以更精確地定位和識(shí)別船舶目標(biāo),YOLOShip 采用協(xié)同注意力機(jī)制[20]。首先在水平和豎直方向上進(jìn)行全局池化操作,擁有全局感受野并且對(duì)精確的位置信息進(jìn)行編碼;然后拼接兩個(gè)方向上的特征,生成協(xié)同注意力,該操作主要由卷積、批量歸一化及激活函數(shù)組成;之后分離兩個(gè)方向上的特征,并再次使用卷積進(jìn)行訓(xùn)練;最后使用Sigmoid 函數(shù)約束權(quán)重,并將兩個(gè)方向的權(quán)重相加,作為最終的權(quán)重,對(duì)原來(lái)的特征圖進(jìn)行修改。通過(guò)協(xié)同注意力機(jī)制,將通道注意力分解為水平和豎直兩個(gè)方向上的一維特征編碼過(guò)程,將方向感知信息和空間位置信息嵌入到生成的特征圖中,不僅捕獲通道信息,還捕獲方向感知信息和位置敏感信息,使模型更準(zhǔn)確地定位和識(shí)別感興趣的對(duì)象。

        2.3 基準(zhǔn)錨框優(yōu)化

        基于錨框的目標(biāo)檢測(cè)通常使用K均值聚類算法對(duì)數(shù)據(jù)集進(jìn)行重新聚類,以獲取更適合當(dāng)前數(shù)據(jù)集的錨框,但在特定場(chǎng)景下存在錨框分配不均衡的問(wèn)題[21]。船舶數(shù)據(jù)集屬于特定場(chǎng)景下的數(shù)據(jù)集,具有尺度分布不均勻、尺度變化小的特點(diǎn)。由于尺度分布不均勻,直接使用K均值聚類算法得到的錨框會(huì)在集中在尺度分布密度大的部分,而尺度分布密度小的部分則幾乎沒(méi)有錨框,從而存在對(duì)尺度分布密度小的部分訓(xùn)練相對(duì)不足的問(wèn)題。由于尺度變化小,聚類得到的多個(gè)錨框大小接近,并且在訓(xùn)練階段,分配目標(biāo)到相應(yīng)特征圖進(jìn)行訓(xùn)練的策略只與該層特征圖所擁有的錨框大小有關(guān),容易導(dǎo)致大目標(biāo)也會(huì)在適合訓(xùn)練小目標(biāo)的特征圖上進(jìn)行訓(xùn)練。

        針對(duì)尺度分布不均勻?qū)е碌腻^框分布不均勻問(wèn)題,YOLOShip 在對(duì)數(shù)據(jù)集進(jìn)行重新聚類之前進(jìn)行了均勻化處理,從而保證各尺度附近均有適合的錨框。均勻化處理步驟如下:首先對(duì)由目標(biāo)寬、高組成的坐標(biāo)軸劃分為不同的小網(wǎng)格,然后將小網(wǎng)格內(nèi)部的坐標(biāo)點(diǎn)統(tǒng)一由小網(wǎng)格左下角坐標(biāo)表示,且只保留一個(gè),得到一個(gè)各尺度目標(biāo)分布均勻的數(shù)據(jù)集。在均勻化處理后的數(shù)據(jù)集上進(jìn)行K均值聚類可以保證各個(gè)尺度的目標(biāo)附近均有適合大小的錨框,從而保證所有尺度的目標(biāo)都可以得到充分的訓(xùn)練。

        針對(duì)大目標(biāo)會(huì)在適合訓(xùn)練小目標(biāo)的特征圖上進(jìn)行訓(xùn)練的問(wèn)題,YOLOShip 通過(guò)減少錨框、檢測(cè)頭數(shù)量以及對(duì)錨框重新排序解決該問(wèn)題。由于船舶多為中大型目標(biāo),小目標(biāo)較少,且通過(guò)FPN+PAN 得到的特征在一定程度上也可以防止小目標(biāo)信息被大目標(biāo)覆蓋,因此可以只保留適合檢測(cè)中大型目標(biāo)的兩個(gè)檢測(cè)頭,由它們負(fù)責(zé)小目標(biāo)的檢測(cè)。由于分配目標(biāo)到相應(yīng)特征圖進(jìn)行訓(xùn)練的策略只與屬于該特征圖的錨框有關(guān),所以一個(gè)適當(dāng)?shù)腻^框順序非常重要。YOLOShip 在對(duì)數(shù)據(jù)均勻化處理后,通過(guò)聚類算法得到4 個(gè)錨框,并按照式(1)對(duì)錨框排序,然后順序分配到兩個(gè)檢測(cè)頭。和通用目標(biāo)檢測(cè)不同,船舶通常寬度遠(yuǎn)大于高度,寬度受感受野的影響較大。所以對(duì)錨框排序時(shí),錨框?qū)挾认噍^于錨框面積更加重要,YOLOShip 使用參數(shù)0.3 抑制錨框面積對(duì)排序結(jié)果的影響。

        其中:wi、hi為第i個(gè)錨框的寬度和高度;N為錨框數(shù)量。

        通過(guò)對(duì)數(shù)據(jù)進(jìn)行均衡化處理、刪減錨框數(shù)量、對(duì)錨框重新排序以及刪減檢測(cè)頭等方面的改進(jìn)和優(yōu)化,使每個(gè)目標(biāo)均能獲取適當(dāng)數(shù)量的錨框,并分配到合適的特征圖上進(jìn)行訓(xùn)練,在精簡(jiǎn)網(wǎng)絡(luò)的同時(shí)提升了目標(biāo)檢測(cè)的準(zhǔn)確性。

        2.4 損失函數(shù)

        YOLOv5 的損失函數(shù)在置信度損失和分類損失部分使用BCE Loss 進(jìn)行計(jì)算。但是由于一階段目標(biāo)檢測(cè)器的正負(fù)樣本不平衡尤為突出,負(fù)樣本數(shù)量遠(yuǎn)高于正樣本,從而使負(fù)樣本主導(dǎo)損失,最終導(dǎo)致模型訓(xùn)練效果差。并且BCE Loss 傾向于從大量相似的簡(jiǎn)單樣本學(xué)習(xí),導(dǎo)致分布較稀疏的難分類樣本訓(xùn)練效果較差。而且目標(biāo)檢測(cè)模型的訓(xùn)練時(shí)間通常較長(zhǎng),收斂更快的損失函數(shù)有助于提升訓(xùn)練速度,更快地訓(xùn)練出較優(yōu)模型。

        YOLOShip 使用基于Focal Loss 的PolyLoss 計(jì)算置信度損失和分類損失。PolyLoss 是一個(gè)針對(duì)Focal Loss 和BCE Loss的統(tǒng)一的多項(xiàng)式框架,其中基于Focal Loss 的PolyLoss 如式(2)所示。對(duì)于負(fù)樣本數(shù)量高導(dǎo)致的負(fù)樣本主導(dǎo)損失的問(wèn)題,使用α平衡正負(fù)樣本權(quán)重;對(duì)于BCE Loss 對(duì)難分類樣本訓(xùn)練效果差的問(wèn)題,使用γ增大難分類樣本的損失,使損失函數(shù)更關(guān)注難分類樣本;為了提升模型收斂速度,添加αtε(1 -Pt)1+γ,進(jìn)一步增大損失,以大幅加快收斂。

        其中:對(duì)于正樣本,αt的值為α,Pt的值為P(x)(P(x)為模型的預(yù)測(cè)結(jié)果);對(duì)于負(fù)樣本,αt的值為1 -α,Pt的值為1 -P(x)。通過(guò)PolyLoss,可以加速模型收斂,同時(shí)由于加強(qiáng)了對(duì)困難樣本的學(xué)習(xí),可以檢測(cè)到更多的困難樣本并提升召回率。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)環(huán)境

        本文實(shí)驗(yàn)環(huán)境為:Windows 10,Intel Core i9-9900 CPU @3.10 GHz,16 GB 內(nèi)存,NVIDIA GeForce RTX 2060,6 GB 顯存,編譯語(yǔ)言為Python 3.8,深度學(xué)習(xí)框架為PyTorch 1.10.2,IDE(Integrated Drive Electronics)為Visual Studio Code 1.69.2,基準(zhǔn)模型為YOLOv5 的輕量化版本YOLOv5s。

        3.2 數(shù)據(jù)集

        本文選擇的數(shù)據(jù)集是Shao等[22]提出的SeaShips 數(shù)據(jù)集中開源的7 000 張圖片。該數(shù)據(jù)集源于海上船舶的可見(jiàn)光監(jiān)測(cè)圖像,由礦船、普通貨船、散貨船、集裝箱船、漁船、客船6類船舶組成。由于開源的7 000 張圖片中6 類船舶目標(biāo)數(shù)量差距較大且序號(hào)相近的圖片多為同一船舶相鄰時(shí)刻的圖片,隨機(jī)打亂并劃分?jǐn)?shù)據(jù)集容易導(dǎo)致過(guò)擬合,且導(dǎo)致數(shù)量較少的客船和集裝箱船在訓(xùn)練集中數(shù)量更少、訓(xùn)練效果差。本文首先將數(shù)據(jù)集按照目標(biāo)類別分為6 個(gè)子集,然后對(duì)6 個(gè)子集排序后按8∶1∶1 進(jìn)行順序劃分,分別放入訓(xùn)練集、驗(yàn)證集、測(cè)試集。同時(shí)考慮到存在一張圖片內(nèi)包含多個(gè)目標(biāo)的情況,上述劃分容易使一張圖片同時(shí)存在于兩個(gè)數(shù)據(jù)集,因此需要進(jìn)一步對(duì)訓(xùn)練集、驗(yàn)證集、測(cè)試集去重。處理后的訓(xùn)練集、驗(yàn)證集、測(cè)試集分別有5 487、751、762 張圖片。

        3.3 評(píng)價(jià)指標(biāo)

        本文以精確率(Precision)、召回率(Recall)、平均精度均值(mean Average Precision,mAP)為評(píng)價(jià)指標(biāo),并以式(6)選擇最優(yōu)模型。

        其中:TP(True Positive)表示滿足預(yù)測(cè)框與標(biāo)注框的交并比(Intersection over Union,IoU)大于0.5 的檢測(cè)框數(shù)量;FP(False Positive)表示滿足IoU ≤0.5 的檢測(cè)框數(shù)量;FN(False Negative)表示未檢測(cè)到的標(biāo)注框數(shù)量;AP代表通過(guò)插值計(jì)算的Precision-Recall 曲線面積;N代表共N個(gè)類。ImAP@0.5是IoU 閾值為0.5 時(shí)所有圖片的mAP;而ImAP@0.5:0.95是在不同IoU閾值下所有圖片的mAP(IoU 閾值從0.5 到0.95,步長(zhǎng)為0.05)。

        3.4 實(shí)驗(yàn)結(jié)果與分析

        本節(jié)主要通過(guò)對(duì)比實(shí)驗(yàn)比較各種改進(jìn)策略的優(yōu)劣及作用,結(jié)果如表1 所示。在訓(xùn)練部分,考慮到SeaShips 數(shù)據(jù)集較小,使用在大型數(shù)據(jù)集上訓(xùn)練好的模型進(jìn)行遷移學(xué)習(xí)可以有效提升模型的泛化能力,故凍結(jié)骨干網(wǎng)絡(luò)的0~8 層進(jìn)行訓(xùn)練。訓(xùn)練時(shí),輸入圖片大小均為640×640,Batch Size 均為16,同時(shí)使用Adam 優(yōu)化器。默認(rèn)訓(xùn)練輪次為500 個(gè)Epoch,同時(shí)采用早停止策略,以式(6)驗(yàn)證,連續(xù)50 次無(wú)改進(jìn)時(shí)停止訓(xùn)練,并以該指標(biāo)選擇最優(yōu)模型。

        BCE Loss 和PolyLoss 的對(duì)比結(jié)果如圖4 所示??梢钥闯觯噍^于使用BCE Loss 的YOLOv5s,由于PolyLoss 在原有損失的基礎(chǔ)上進(jìn)一步增大了損失中起重要作用的部分,在訓(xùn)練早期,相同訓(xùn)練次數(shù)下,PolyLoss 的召回率更高,說(shuō)明使用PolyLoss 可以提升收斂速度。

        圖4 BCE Loss和PolyLoss的對(duì)比Fig.4 Comparison between BCE Loss and PolyLoss

        從表1 可以看出,相較于實(shí)驗(yàn)1,實(shí)驗(yàn)2 加強(qiáng)了對(duì)難分類目標(biāo)的訓(xùn)練,召回率、mAP@0.5 和mAP@0.5∶0.95 均有一定程度提高。同時(shí)考慮到PolyLoss 收斂較快,可用于驗(yàn)證各改進(jìn)模塊的有效性,因此其他實(shí)驗(yàn)均使用PolyLoss 進(jìn)行訓(xùn)練。

        表1 最優(yōu)模型對(duì)比 單位:%Tab.1 Comparison of optimal models unit:%

        和僅使用PolyLoss 的實(shí)驗(yàn)2 相比,進(jìn)一步使用SPPDC 模塊后,實(shí)驗(yàn)3 的召回率提升了2.1 個(gè)百分點(diǎn)。主要原因在于SPPF 模塊重復(fù)使用池化層會(huì)丟失細(xì)節(jié)信息,容易將目標(biāo)誤識(shí)別為背景??斩淳矸e相較于池化運(yùn)算可以保留更多的目標(biāo)細(xì)節(jié)信息,同時(shí)通道注意力進(jìn)一步強(qiáng)化了重要通道的影響,進(jìn)而提升模型區(qū)分背景與目標(biāo)的能力。實(shí)驗(yàn)結(jié)果表明,SPPDC 模塊通過(guò)引入空洞卷積及通道注意力,在保留更多細(xì)節(jié)信息的同時(shí)強(qiáng)化語(yǔ)義信息,提升模型區(qū)分前景與背景的能力,從而提高了召回率。

        相較于僅使用PolyLoss 的實(shí)驗(yàn)2,進(jìn)一步使用Improved FPN+PAN 結(jié)構(gòu)后,實(shí)驗(yàn)4 的精確率、召回率、mAP@0.5 與mAP@0.5∶0.95 分別提升2.4、2.4、1.7 和3.7 個(gè)百分點(diǎn)。對(duì)于大型船舶,Improved FPN+PAN 引入C3Mix Lite,解決了感受野不足的問(wèn)題,然后又通過(guò)協(xié)同注意力機(jī)制進(jìn)一步增強(qiáng)網(wǎng)絡(luò)中的重要特征,全面提升了模型檢測(cè)能力。C3Mix Lite 模塊通過(guò)輕量化的混合深度卷積擴(kuò)大感受野,可獲取含有更多細(xì)節(jié)信息的特征,如圖5 所示。協(xié)同注意力機(jī)制進(jìn)一步優(yōu)化兩個(gè)方向上的特征,以強(qiáng)化網(wǎng)絡(luò)中更加重要的空間特征及通道特征。實(shí)驗(yàn)結(jié)果表明,Improved FPN+PAN 結(jié)構(gòu)有助于檢測(cè)出更多的目標(biāo)且對(duì)目標(biāo)定位更加精確。

        圖5 原始圖片及C3Mix Lite模塊輸出Fig.5 Original picture and C3Mix Lite module output

        和實(shí)驗(yàn)2 相比,進(jìn)行基準(zhǔn)錨框優(yōu)化并使用PolyLoss 后,實(shí)驗(yàn)5 的召回率、mAP@0.5、mAP@0.5∶0.95 提升了2.0、1.4 和1.8 個(gè)百分點(diǎn)。原因在于YOLOv5的K均值聚類算法對(duì)于尺度分布不均勻的數(shù)據(jù)集聚類得到的K個(gè)錨框分布不均勻,從而導(dǎo)致尺度分布較稀疏部分的目標(biāo)相較于尺度分布較稠密部分的目標(biāo)訓(xùn)練相對(duì)不充分。使用K均值聚類得到的錨框?qū)Ρ热鐖D6 所示,其中:×及實(shí)線框、+及虛線、▲及虛點(diǎn)線分布代表三個(gè)特征圖上的3 個(gè)錨框及錨框可以匹配的標(biāo)注框。圖6(a)為數(shù)據(jù)均勻化前得到的9 個(gè)錨框,主要分布在尺度稠密區(qū)域,而在尺度稀疏區(qū)域則幾乎沒(méi)有錨框,且相較于尺度稠密區(qū)域,尺度稀疏區(qū)域匹配到的錨框少了2~4 個(gè),訓(xùn)練相對(duì)不充分。從圖6(b)可以看到,均勻化處理后得到的錨框在一定程度上緩解了尺度稀疏區(qū)域訓(xùn)練相對(duì)不充分的缺點(diǎn),大部分尺度稀疏區(qū)域相較于尺度稠密區(qū)域,匹配到的錨框少了1~2 個(gè),同時(shí)得到的錨框和標(biāo)注框更接近,有助于訓(xùn)練。因此使用均勻化處理后的9 個(gè)錨框的實(shí)驗(yàn)6 相較于實(shí)驗(yàn)2 的各項(xiàng)指標(biāo)均有一定提升。但是如實(shí)驗(yàn)6 對(duì)應(yīng)的圖6(b)所示,小特征圖對(duì)應(yīng)的實(shí)線框范圍更大,更多的中大型船舶會(huì)在適合訓(xùn)練小目標(biāo)的小特征圖上訓(xùn)練,產(chǎn)生大量差的預(yù)測(cè)結(jié)果,最終導(dǎo)致NMS 時(shí)間從實(shí)驗(yàn)2 的8.9 ms 增長(zhǎng)到24.8 ms。如圖6(c)所示,實(shí)驗(yàn)5 針對(duì)實(shí)驗(yàn)6 在小特征圖上訓(xùn)練大目標(biāo)的問(wèn)題,只使用4 個(gè)錨框與2 個(gè)檢測(cè)頭,刪除了小特征圖,將NMS 時(shí)間降低到1.5 ms 的同時(shí)略微提升了檢測(cè)精度。

        YOLOShip 和YOLOv5s 的對(duì)比結(jié)果如圖7 所示。YOLOShip 在各指標(biāo)上全方位優(yōu)于YOLOv5,不僅收斂速度較快,且模型各指標(biāo)普遍偏高。從表2 可以看出,相較于YOLOv5s,在驗(yàn)證集上YOLOShip 的精確率、召回率、mAP@0.5、mAP@0.5∶0.95 分別提升了4.2、5.7、4.6 與8.5 個(gè)百分點(diǎn),測(cè)試集上也有較大提高。主要原因是通過(guò)SPPDC 模塊保留了更多的多尺度的語(yǔ)義信息,然后在Improved FPN+PAN 中通過(guò)擴(kuò)大感受野,定位信息更加準(zhǔn)確,最后通過(guò)錨框與檢測(cè)頭數(shù)量的改進(jìn)使特殊尺度的目標(biāo)也能得到充分訓(xùn)練,不僅可以檢測(cè)到更多的目標(biāo),而且對(duì)于檢測(cè)到的目標(biāo)定位也更加精準(zhǔn)。

        表2 YOLOv5s和YOLOShip的對(duì)比結(jié)果 單位:%Tab.2 Comparison results between YOLOv5s and YOLOShip unit:%

        圖7 YOLOv5s和YOLOShip的指標(biāo)對(duì)比Fig.7 Comparison of indicators between YOLOv5s and YOLOShip

        為了更加直觀地呈現(xiàn)上述算法檢測(cè)性能間的區(qū)別,選取部分檢測(cè)圖像進(jìn)行展示,結(jié)果如圖8 所示,從圖像1、3、5 可以看到,更多的細(xì)節(jié)定位信息與更適合的錨框使YOLOShip 的定位能力更強(qiáng),和標(biāo)注框重合度更高;從圖像2、4、6 可以看到,在背景對(duì)船舶影響較大的海岸環(huán)境及夜間環(huán)境中,更大的感受野有助于模型更精確地區(qū)分背景及前景,相較于YOLOv5s,YOLOShip 能檢測(cè)出更多的船舶。實(shí)驗(yàn)結(jié)果表明,對(duì)于海上船舶檢測(cè),YOLOShip 有更好的檢測(cè)性能。

        圖8 船舶檢測(cè)結(jié)果對(duì)比Fig.8 Comparison of ship detection results

        如表3 所示,為了驗(yàn)證YOLOShip 的檢測(cè)幀率是否滿足要求,在4.1 節(jié)的實(shí)驗(yàn)環(huán)境下,使用1、8、16 的Batch Size 分別進(jìn)行檢測(cè),幀率可達(dá)52、156、161 frame/s,可以滿足檢測(cè)速度的要求。YOLOShip 的模型大小為17.4 MB,為了驗(yàn)證模型在低配置的硬件環(huán)境上的運(yùn)行效果,本文在I5-4200H+Geforce 940M 的筆記本上部署并進(jìn)行測(cè)試,可以看出,YOLOShip 可以較好地完成船舶檢測(cè)。

        表3 不同條件下YOLOShip的速率對(duì)比Tab.3 Speed comparison of YOLOShip under different conditions

        4 結(jié)語(yǔ)

        本文基于通用目標(biāo)檢測(cè)模型YOLOv5,通過(guò)改進(jìn)和優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)、錨框和損失函數(shù),提出了一種輕量級(jí)船舶目標(biāo)檢測(cè)算法——YOLOShip。實(shí)驗(yàn)結(jié)果表明,相較于YOLOv5,YOLOShip 在滿足檢測(cè)速度要求的情況下,通過(guò)保留更多細(xì)節(jié)語(yǔ)義信息、擴(kuò)大感受野、均衡化錨框等策略提高了對(duì)船舶的定位能力以及區(qū)分背景及前景的能力,有效地提升了算法的準(zhǔn)確性、魯棒性和泛化能力;通過(guò)使用更加靈活的損失函數(shù),進(jìn)一步加強(qiáng)對(duì)各類樣本的學(xué)習(xí)能力,有效地提升了算法的收斂速度。

        在實(shí)際應(yīng)用中,面對(duì)惡劣天氣環(huán)境,可以通過(guò)自適應(yīng)數(shù)據(jù)增強(qiáng),進(jìn)一步提升目標(biāo)檢測(cè)準(zhǔn)確率,為下一步開展船舶跟蹤、船舶重識(shí)別等復(fù)雜任務(wù)提供有效的目標(biāo)檢測(cè)技術(shù)基礎(chǔ)。

        猜你喜歡
        錨框尺度卷積
        基于YOLOv3錨框優(yōu)化的側(cè)掃聲吶圖像目標(biāo)檢測(cè)
        錨框策略匹配的SSD飛機(jī)遙感圖像目標(biāo)檢測(cè)
        基于SSD算法的輕量化儀器表盤檢測(cè)算法*
        基于GA-RoI Transformer的遙感圖像任意方向目標(biāo)檢測(cè)
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        9
        国产免费人成视频在线观看| 国产精品久久久久久2021| 亚洲五月七月丁香缴情| 蜜桃网站入口可看18禁| 久久久久亚洲av成人网人人软件| 精品欧洲av无码一区二区三区| 久久中文字幕久久久久| 国产农村妇女毛片精品久久麻豆| 无码少妇丰满熟妇一区二区 | 日本a级黄片免费观看| 3d动漫精品啪啪一区二区免费| 一卡二卡三卡视频| 激情文学人妻中文字幕| 日本黑人乱偷人妻在线播放 | 久久人人爽人人爽人人av东京热| 国产女人体一区二区三区| 亚洲av色av成人噜噜噜| 美女网站免费福利视频| 欧美自拍区| av免费一区在线播放| 亚洲 另类 小说 国产精品| 波多野结衣av手机在线观看 | 精品人妻系列无码人妻漫画| 无码少妇a片一区二区三区| 午夜福利不卡无码视频| 视频国产自拍在线观看| av狠狠色丁香婷婷综合久久| 日韩AV不卡六区七区| 久久久国产视频久久久| 国产自拍高清在线观看| 日本护士吞精囗交gif| 国产成人一区二区三区影院免费| 人妻精品人妻一区二区三区四区| 国自产精品手机在线观看视频| 欧美a视频在线观看| 综合中文字幕亚洲一区二区三区| 护士的小嫩嫩好紧好爽| 亚洲女人被黑人巨大进入| 亚洲一区极品美女写真在线看| 亚洲国产精品亚洲一区二区三区| 免费无码又爽又刺激聊天app|