摘要:
針對(duì)現(xiàn)有目標(biāo)檢測(cè)方法難以適應(yīng)側(cè)掃聲吶圖像高噪聲、多畸變、特征貧瘠的問題,提出一種基于改進(jìn)Yolov8的側(cè)掃聲吶目標(biāo)檢測(cè)方法。在網(wǎng)絡(luò)訓(xùn)練階段,于Yolov8主干網(wǎng)絡(luò)中引入RCS-OSA模塊,進(jìn)一步提升Yolov8主干網(wǎng)絡(luò)的特征提取能力。在推理階段,通過重參數(shù)化卷積來增強(qiáng)網(wǎng)絡(luò)的特征提取能力,并將其簡(jiǎn)化為單一分支,減少內(nèi)存消耗。之后,使用BiFPN替換Yolov8網(wǎng)絡(luò)特征融合模塊,通過反復(fù)應(yīng)用自頂向下和自底向上的多尺度特征融合,進(jìn)一步優(yōu)化對(duì)不同尺度特征的融合結(jié)果,提高對(duì)多尺度特征的適應(yīng)能力。實(shí)驗(yàn)結(jié)果表明:所提出方法在各項(xiàng)定量和定性評(píng)價(jià)中均超越了原始Yolov8網(wǎng)絡(luò)檢測(cè)方法,平均精度均值(mAP)提升了6.3%。
關(guān)鍵詞:
側(cè)掃聲吶; Yolov8; 圖像目標(biāo)檢測(cè); RCS-OSA; BiFPN
中圖法分類號(hào):TP391
文獻(xiàn)標(biāo)志碼:A
DOI:10.15974/j.cnki.slsdkb.2025.01.007
文章編號(hào):1006-0081(2025)01-0036-07
0 引 言
側(cè)掃聲吶作為一種水下聲學(xué)成像儀器,具有成圖分辨率高和作業(yè)效率高的優(yōu)勢(shì)。在海洋科學(xué)、海洋工程、水下搜救與目標(biāo)識(shí)別等領(lǐng)域得到了廣泛的應(yīng)用[1-4]。
傳統(tǒng)的側(cè)掃聲吶圖像目標(biāo)識(shí)別有人工判讀和基于人工特征的自動(dòng)識(shí)別兩大類[5-7]。因側(cè)掃聲吶圖像存在高噪聲、目標(biāo)畸變等因素的影響,人工判讀需要較長(zhǎng)的培訓(xùn)時(shí)間,且存在效率低和容易判讀錯(cuò)誤的問題?;谌斯ぬ卣鞯淖詣?dòng)識(shí)別方法,主要有基于統(tǒng)計(jì)量[8-9]、均值聚類[10-11]和馬爾可夫隨機(jī)場(chǎng)[12-13]等的檢測(cè)方法,特征提取方法和分類器模型均需要實(shí)驗(yàn)確定最優(yōu)特征和最優(yōu)分類器模型,且只能對(duì)背景簡(jiǎn)單的目標(biāo)有較好的檢測(cè)效果[14],即使是針對(duì)同類目標(biāo),由于測(cè)量時(shí)側(cè)掃聲吶的參數(shù)與目標(biāo)相對(duì)位置和相對(duì)姿態(tài)的不同,都將使同類目標(biāo)在側(cè)掃聲吶圖像中的表現(xiàn)不一。此外,水下環(huán)境中存在大量的噪聲干擾,導(dǎo)致側(cè)掃聲吶圖像中目標(biāo)圖像畸變[15-16],實(shí)現(xiàn)準(zhǔn)確快速的側(cè)掃聲吶圖像目標(biāo)檢測(cè)有一定的難度[17-18]。因此,傳統(tǒng)的側(cè)掃聲吶圖像目標(biāo)檢測(cè)方法適用范圍窄、泛化能力差[19]。
隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的側(cè)掃聲吶圖像目標(biāo)檢測(cè)方法得到了廣泛應(yīng)用[20]。Yolo(You Only Look Once)[21]作為經(jīng)典的目標(biāo)檢測(cè)模型,其簡(jiǎn)單的結(jié)構(gòu)和優(yōu)越的性能在計(jì)算機(jī)視覺領(lǐng)域備受關(guān)注。各式各樣的Yolo改進(jìn)模型被廣泛應(yīng)用于側(cè)掃聲吶目標(biāo)檢測(cè)中[22-24]。Xu等[25]針對(duì)沉船檢測(cè)問題用了對(duì)抗生成網(wǎng)絡(luò)擴(kuò)增數(shù)據(jù)和遷移學(xué)習(xí)思想,并與Yolov1、Faster R-CNN以及傳統(tǒng)算法分水嶺分割和OTSU算法做了實(shí)驗(yàn)對(duì)比,表現(xiàn)出了優(yōu)異的性能。Jiang等[26]為了降低聲吶圖像標(biāo)注成本,提出了3種主動(dòng)學(xué)習(xí)算法并結(jié)合了SSD、Faster R-CNN和Yolov1檢測(cè)器,其中Faster R-CNN和SSD的性能略好于Yolov1。Yu等[5]首次將transformer引入聲吶圖像目標(biāo)檢測(cè),并在幾乎沒有增加計(jì)算開銷的情況下提高了檢測(cè)性能,同時(shí)還發(fā)現(xiàn)使用預(yù)訓(xùn)練權(quán)重的效果更好。也有學(xué)者在使用深度學(xué)習(xí)這項(xiàng)新技術(shù)時(shí)考慮了傳統(tǒng)方法,如Poap等[27]設(shè)計(jì)了具有3個(gè)階段的側(cè)掃聲吶實(shí)時(shí)自動(dòng)分析系統(tǒng),結(jié)合了直方圖提取ROI模塊和卷積神經(jīng)網(wǎng)絡(luò),在實(shí)地測(cè)試場(chǎng)景下分類準(zhǔn)確率達(dá)到90%。Le等[28]設(shè)計(jì)了一個(gè)基于Gabor濾波器的單階段目標(biāo)檢測(cè)神經(jīng)網(wǎng)絡(luò),架構(gòu)方面參考了Yolov3在多個(gè)尺度上進(jìn)行檢測(cè),相比Tiny Yolov3有13%的精度提升,但推理速度降低了89%。如何有效地表示和處理多尺度特征是目標(biāo)檢測(cè)的主要困難之一。早期的檢測(cè)器通常直接根據(jù)從主干網(wǎng)絡(luò)中提取的金字塔特征層次進(jìn)行預(yù)測(cè)。使用特征金字塔網(wǎng)絡(luò)(FPN)是一項(xiàng)開創(chuàng)性的工作,它提出了一種自上而下的方法來組合多尺度特征[29-31]。根據(jù)這一想法,PANet在FPN之上添加了一個(gè)自底向上的路徑聚合網(wǎng)絡(luò)[32],增加了特征融合的有效性。
相較于光學(xué)圖像目標(biāo)檢測(cè),側(cè)掃聲吶圖像具備多尺度變化、畸變嚴(yán)重、特征貧瘠和高噪聲的特點(diǎn)[33]。為進(jìn)一步提升基于深度學(xué)習(xí)的側(cè)掃聲吶水下目標(biāo)檢測(cè)方法的泛化性和魯棒性,本文基于Yolov8目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu),引入RCS-OSA和BiFPN模塊。提出一種針對(duì)側(cè)掃聲吶多尺度目標(biāo)圖像的檢測(cè)方法,網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
所提方法的創(chuàng)新性在于:① 針對(duì)側(cè)掃聲吶圖像特征貧瘠的問題,引入RCS-OSA模塊作為骨干網(wǎng)絡(luò),使得網(wǎng)絡(luò)能夠在不同層次上捕捉圖像全局和細(xì)節(jié)信息,有效提升網(wǎng)絡(luò)特征提取能力。② 針對(duì)側(cè)掃聲吶目標(biāo)的多尺度變化,引入雙向特征融合結(jié)構(gòu)和加權(quán)融合機(jī)制,提高了對(duì)不同尺度特征的適應(yīng)性,提升模型對(duì)不同尺度目標(biāo)的泛化性。
1 基于RCS-OSA模塊的Yolov8主干網(wǎng)絡(luò)
受測(cè)量機(jī)制和海洋環(huán)境的影響,側(cè)掃聲吶圖像普遍存在高噪聲、多畸變、特征貧瘠等問題[34-35]。這些因素嚴(yán)重影響了神經(jīng)網(wǎng)絡(luò)的特征提取能力。為此,在Yolov8的主干網(wǎng)絡(luò)中引入RCS-OSA結(jié)構(gòu)[29],增強(qiáng)網(wǎng)絡(luò)的特征提取能力。調(diào)整后的主干網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
在圖2中,使用RCS-OSA結(jié)構(gòu)替換了原始主干網(wǎng)絡(luò)中的c2f模塊。通過RCS模塊在訓(xùn)練時(shí)利用多分支結(jié)構(gòu)學(xué)習(xí)豐富的特征表示。在推理階段,將多通道特征進(jìn)行混洗,通過重參數(shù)化卷積來增強(qiáng)網(wǎng)絡(luò)的特征提取能力,并簡(jiǎn)化為單一分支,減少內(nèi)存消耗。使用OSA結(jié)構(gòu),一次性聚合多個(gè)特征級(jí)聯(lián),通過堆疊RCS模塊,確保特征的復(fù)用并加強(qiáng)不同層之間的信息流動(dòng)。同時(shí)減少網(wǎng)絡(luò)的計(jì)算負(fù)擔(dān),并進(jìn)一步提升了網(wǎng)絡(luò)的計(jì)算效率。
1.1 RCS模塊
RCS(Reparameterized Convolution based on channel Shuffle)被稱為基于通道shuffle的重參數(shù)化卷積,可在訓(xùn)練階段通過多分支結(jié)構(gòu)學(xué)習(xí)豐富的特征信息,并在推理階段通過簡(jiǎn)化為單分支結(jié)構(gòu)來減少內(nèi)存消耗,實(shí)現(xiàn)快速推理。此外,RCS利用通道分割和通道Shuffle操作來降低計(jì)算復(fù)雜性,同時(shí)保持通道間的信息交換,
這樣在推理階段相比普通的3×3卷積可以減少一半的計(jì)算復(fù)雜度。通過結(jié)構(gòu)重參數(shù)化,RCS能夠在訓(xùn)練階段從輸入特征中學(xué)習(xí)深層表示,并在推理階段實(shí)現(xiàn)快速推理,同時(shí)減少內(nèi)存消耗。RCS模塊結(jié)構(gòu)如圖3所示。
圖3為RCS模塊的具體結(jié)構(gòu),分為訓(xùn)練階段和推理階段。在訓(xùn)練階段,輸入通過通道分割,一部分輸入經(jīng)過RepVGG塊,另一部分保持不變。然后通過1×1卷積和3×3卷積處理RepVGG塊的輸出,與另一部分輸入至通道Shuffle并連接。在推理階段,原來的多分支結(jié)構(gòu)被簡(jiǎn)化為一個(gè)單一的3×3 RepConv塊。這種設(shè)計(jì)允許在訓(xùn)練時(shí)學(xué)習(xí)復(fù)雜特征,在推理時(shí)減少計(jì)算復(fù)雜度。黑色邊框的矩形代表特定的模塊操作,漸變色的矩形代表張量的特定特征,矩形的寬度代表張量的通道數(shù)。
1.2 OSA模塊
側(cè)掃聲吶目標(biāo)種類較多,不同目標(biāo)之間的尺度也存在較大差異,為提升模型對(duì)多尺度目標(biāo)檢測(cè)能力的魯棒性,使用OSA(One-Shot Aggregation)模塊結(jié)果聚合,增加網(wǎng)絡(luò)對(duì)于不同尺度的敏感性,并在最后的特征映射中僅聚合一次所有特征,減少了重復(fù)的特征計(jì)算和存儲(chǔ)需求,提高網(wǎng)絡(luò)的計(jì)算效率。將OSA模塊進(jìn)一步與RCS模塊相結(jié)合,形成RCS-OSA模塊。這種結(jié)合不僅保持了低成本的內(nèi)存消耗,而且還進(jìn)一步保證了特征信息的有效提取。RCS-OSA模塊網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示
圖4中輸入被分為兩部分,一部分直接通過,另一部分通過堆疊的RCS模塊進(jìn)行處理,處理后的特征和直接通過的特征在通道混洗后合并。通過一次性聚合來提高模型處理特征的能力,同時(shí)保持計(jì)算效率。進(jìn)一步利用特征級(jí)聯(lián)方法聚合不同層次的特征,提高模型的特征提取能力,減輕網(wǎng)絡(luò)計(jì)算負(fù)擔(dān)并降低內(nèi)存占用。
2 多尺度特征融合網(wǎng)絡(luò)
Yolov8網(wǎng)絡(luò)采用FPN-PAN的網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)多尺度特征融合,但是受輸入特征的分辨率限制,F(xiàn)PN-PAN的結(jié)構(gòu)難以平衡多尺度特征之間的融合,難以充分利用不同尺度的特征[36-37]。此外,受測(cè)量機(jī)制和海洋環(huán)境影響,側(cè)掃聲吶圖像質(zhì)量較差,并且不同目標(biāo)尺度存在較大差異。為此,引入BiFPN模塊進(jìn)行多尺度特征之間的融合,提升模型的檢測(cè)精度[30]。
在傳統(tǒng)的特征金字塔網(wǎng)絡(luò)中,所有輸入特征被簡(jiǎn)單地相加在一起,而不考慮它們對(duì)輸出特征的不同貢獻(xiàn)。在BiFPN中,觀察到由于不同的輸入特征具有不同的分辨率,它們通常對(duì)輸出特征的貢獻(xiàn)是不等的。為此,BiFPN引入了可學(xué)習(xí)的權(quán)重來確定不同輸入特征的重要性,從而提高了特征融合的效果,見式(1)
O=∑wi·Ii(1)
式中:wi為可學(xué)習(xí)的權(quán)重,Ii為模塊的輸入特征。為了進(jìn)一步優(yōu)化對(duì)不同分辨率特征的融合過程,該模塊通過反復(fù)應(yīng)用自頂向下和自底向上的多尺度特征融合,提高了對(duì)不同分辨率特征的適應(yīng)性。不同特征融合網(wǎng)絡(luò)模塊結(jié)構(gòu)如圖5所示。
圖5藍(lán)色箭頭部分是自頂向下的通路,傳遞高層特征的語義信息;黃色箭頭部分是自底向上的通路,傳遞低層特征的位置信息;紅色部分是跨尺度連接通過添加一個(gè)跳躍連接和雙向路徑來實(shí)現(xiàn)加權(quán)融合和雙向跨尺度連接。圖5中P5的加權(quán)雙向金字塔網(wǎng)絡(luò)結(jié)構(gòu)可由公式(2)和(3)表示:
Ptd5=Convw1·Pin5+w2·Resize(Pin6)w1+w2+(2)
Pout5=Convw3·Pin5+w4·Ptd5+w5·Resize(Pout4)w3+w4+w5+(3)
式中:w為不同模型層的權(quán)重,P為不同模型層的輸出,是一個(gè)常量,Conv代表卷積操作,Resize代表尺寸調(diào)整操作。
3 實(shí)驗(yàn)與分析
3.1 訓(xùn)練數(shù)據(jù)與參數(shù)
為驗(yàn)證本文所提方法的可行性和有效性,以常見的水下沉船目標(biāo)為例。通過水下測(cè)量和網(wǎng)絡(luò)搜集,共收集沉船樣本367張,采用隨機(jī)原則按照8∶1∶1的比例劃分?jǐn)?shù)據(jù)集,其中訓(xùn)練集293張,測(cè)試集38張,驗(yàn)證集36張,部分沉船數(shù)據(jù)如圖6所示,網(wǎng)絡(luò)模型訓(xùn)練環(huán)境參數(shù)如表1所示。
3.2 定量分析
為進(jìn)一步定量評(píng)價(jià)本文方法的可行性和有效性,本文選擇常用的精確度(Precision)、召回率(Recall)和平均精度均值(mAP)3個(gè)指標(biāo)進(jìn)行定量評(píng)估。網(wǎng)絡(luò)訓(xùn)練過程中設(shè)置batchsize=16,圖像尺寸為640×640,其余參數(shù)均相同。模型訓(xùn)練結(jié)果如表2所示。
表2中,B0為Yolov5模型的檢測(cè)結(jié)果,由于沉船數(shù)據(jù)存在較大畸變,以及海底混響的影響,模型檢測(cè)效果不佳。B1為原始Yolov8網(wǎng)絡(luò)模型的檢測(cè)結(jié)果,由于沉船形狀存在畸變、多尺度變化等因素,原始網(wǎng)絡(luò)模型檢測(cè)結(jié)果一般。B2為引入RCS-OSA模塊之后的檢測(cè)模型。利用多分支結(jié)構(gòu)學(xué)習(xí)豐富的特征表示,并一次性聚合多個(gè)特征級(jí)聯(lián),有效增加了網(wǎng)絡(luò)的特征提取能力,相較于B1,模型的各項(xiàng)指標(biāo)均有所增加。B3為引入BiFPN模塊之后的檢測(cè)模型。使用雙向特征融合和加權(quán)融合機(jī)制更有效地結(jié)合不同尺度的特征,各項(xiàng)定量評(píng)估指標(biāo)相較于B1均有所增加。B4為本文所提出方法的檢測(cè)結(jié)果。分別引入RCS-OSA和BiFPN模塊,增加了網(wǎng)絡(luò)特征提取能力和多尺度特征融合能力,相較于B1,各項(xiàng)評(píng)估指標(biāo)均取得了明顯提升,mAP提升了6.3%。驗(yàn)證了本文所提出方法的可行性和有效性。
3.3 定性分析
選擇了不同尺度、不同畸變的沉船圖像對(duì)不同架構(gòu)的模型進(jìn)行測(cè)試,測(cè)試結(jié)果如圖7所示。
圖7中,T1為Yolov8的檢測(cè)結(jié)果,T2為引入RCS-OSA模塊之后的檢測(cè)結(jié)果,T3為引入BiFPN模塊之后的檢測(cè)結(jié)果,T4為本文方法的檢測(cè)結(jié)果。通過對(duì)比檢測(cè)結(jié)果可以看出。Yolov8存在漏檢、誤檢結(jié)果,分別引入RCS-OSA和BiFPN模塊,檢測(cè)精度均有所提升,誤檢、漏檢結(jié)果均有所下降。T4同時(shí)引入RCS-OSA和BiFPN模塊,相同目標(biāo)的檢測(cè)精度相較于T1、T2和T3均有所增加,本文方法檢測(cè)結(jié)果中的目標(biāo)框更為精確,驗(yàn)證了該方法的先進(jìn)性。
4 結(jié)論與展望
針對(duì)側(cè)掃聲吶目標(biāo)圖像存在高噪聲、多畸變、特征貧瘠等問題。本文基于Yolov8引入RCS-OSA模塊和加權(quán)雙向特征金字塔網(wǎng)絡(luò)(BiFPN)。在主干網(wǎng)絡(luò)中使用RCS-OSA利用多分支結(jié)構(gòu)學(xué)習(xí)豐富的特征表示。在推理階段,通道混洗,通過重參數(shù)化卷積來增強(qiáng)網(wǎng)絡(luò)的特征提取能力,并簡(jiǎn)化為單一分支,減少內(nèi)存消耗。之后使用OSA結(jié)果聚合具有不同感受野的特征來增加網(wǎng)絡(luò)對(duì)于不同尺度的敏感性,并在最后的特征映射中僅聚合一次所有特征,減少了重復(fù)的特征計(jì)算和存儲(chǔ)需求,提高了網(wǎng)絡(luò)的計(jì)算效率。使用BiFPN替換原始網(wǎng)絡(luò)特征融合模塊,通過反復(fù)應(yīng)用自頂向下和自底向上的多尺度特征融合,進(jìn)一步優(yōu)化了不同分辨率特征的融合過程。引入可學(xué)習(xí)權(quán)重和多次迭代的自頂向下與自底向上融合,提高了對(duì)不同分辨率特征的適應(yīng)性。實(shí)驗(yàn)表明,本文所提出方法在各項(xiàng)定量和定性評(píng)價(jià)中均超越了原始Yolov8網(wǎng)絡(luò),平均精度均值(mAP)提升了6.3%。
本文方法針對(duì)側(cè)掃聲吶高噪聲、目標(biāo)多尺度變化等因素進(jìn)行了研究。但是側(cè)掃聲吶實(shí)時(shí)目標(biāo)檢測(cè)仍需要進(jìn)一步優(yōu)化模型結(jié)構(gòu),后續(xù)可以針對(duì)模型剪枝,在顧及模型檢測(cè)精度的基礎(chǔ)上提升檢測(cè)效率,且檢測(cè)模型的精度還需要進(jìn)一步提高。隨著新的網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)的出現(xiàn),需要驗(yàn)證新網(wǎng)絡(luò)的檢測(cè)能力,尋找更優(yōu)的檢測(cè)網(wǎng)絡(luò)。
參考文獻(xiàn):
[1] 李本源.水下聲光圖像的尺度自適應(yīng)匹配方法的研究[D].長(zhǎng)春:吉林大學(xué),2021.
[2] 庫安邦,周興華,彭聰.側(cè)掃聲吶探測(cè)技術(shù)的研究現(xiàn)狀及發(fā)展[J].海洋測(cè)繪,2018,38(1):50-54.
[3] WILLIAMS D P.Fast target detection in synthetic aperture sonar imagery:A new algorithm and large-scale performance analysis[J].IEEE Journal of Oceanic Engineering,2015,40(1):71-92.
[4] 郭戈,王興凱,徐慧樸.基于聲吶圖像的水下目標(biāo)檢測(cè)、識(shí)別與跟蹤研究綜述[J].控制與決策,2018,33(5):906-922.
[5] YU Y,ZHAO J,GONG Q,et al.Real-time underwater maritime object detection in side-scan sonar images based on transformer-YOLOv5[J].Remote Sensing,2021,13(18):3555.
[6] 王曉.側(cè)掃聲吶圖像精處理及目標(biāo)識(shí)別方法研究[D].武漢:武漢大學(xué),2017.
[7] 蔡璇,許寶華,李道鵬,等.海底纜線綜合探測(cè)方法及應(yīng)用[J].水利水電快報(bào),2023,44(10):36-40.
[8] ABU A,DIAMANT R.A Statistically-based method for the detection of underwater objects in sonar imagery[J].IEEE Sensors Journal,2019,19(16):6858-6871.
[9] ABU A,DIAMANT R.Enhanced fuzzy-based local information algorithm for sonar image segmentation[J].IEEE Transactions on Image Processing,2019,29(7):445-460.
[10] 盛蘊(yùn)霞,霍冠英,劉靜.基于超像素聚類的側(cè)掃聲吶圖像分割算法[J].計(jì)算機(jī)工程,2018,44(6):219-225,232.
[11] CHANG R,WANG Y,HOU J,et al.Underwater object detection with efficient shadow-removal for side scan sonar images[C]∥OCEANS 2016.Shanghai:IEEE,2016:1-5.
[12] 張麗麗,王慧斌,王高旭,等.基于馬爾可夫隨機(jī)場(chǎng)的水下聲吶圖像目標(biāo)檢測(cè)方法[C]∥中國(guó)水利學(xué)會(huì).中國(guó)水利學(xué)會(huì)2018學(xué)術(shù)年會(huì)論文集第五分冊(cè).南京:河海大學(xué)計(jì)算機(jī)與信息學(xué)院,南京水利科學(xué)研究院,2018:7.
[13] 張麗麗,姜傳港,王慧斌,等.基于形態(tài)學(xué)重構(gòu)的側(cè)掃聲吶圖像目標(biāo)分割方法[C]∥中國(guó)水利學(xué)會(huì).中國(guó)水利學(xué)會(huì)2018學(xué)術(shù)年會(huì)論文集第五分冊(cè).南京:河海大學(xué),2018:8.
[14] 王晨,陳晶晶,王潤(rùn)田.利用側(cè)掃聲吶實(shí)現(xiàn)船舶目標(biāo)的快速識(shí)別[J].聲學(xué)技術(shù),2022,41(2):199-204.
[15] 霍冠英,李慶武,王敏,等.Curvelet 域貝葉斯估計(jì)側(cè)掃聲吶圖像降斑方法[J].儀器儀表學(xué)報(bào),2011,32(1):170-177.
[16] 王磊,金紹華,崔楊,等.聯(lián)合小波和NLM濾波的側(cè)掃聲納回波信號(hào)降噪[J].海洋測(cè)繪,2021,41(3):69-73.
[17] 張?jiān)?水下聲納圖像目標(biāo)檢測(cè)技術(shù)研究[D].哈爾濱:哈爾濱工程大學(xué),2014.
[18] 趙建虎,王曉,張紅梅,等.側(cè)掃聲吶圖像分割的中性集合與量子粒子群算法[J].測(cè)繪學(xué)報(bào),2016,45(8):935-942,951.
[19] 李秋實(shí),王旭旸,李國(guó)林,等.一種實(shí)時(shí)、自適應(yīng)的側(cè)掃聲吶小目標(biāo)分割算法[J].南開大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,55(3):15-20.
[20] 馬國(guó)棟.基于改進(jìn)側(cè)掃聲吶法的水下拋石精準(zhǔn)識(shí)別研究[J].人民長(zhǎng)江,2022,53(4):210-214.
[21] REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:Unified,real-time object detection[C]∥Proceedings of the IEEE conference on computer vision and pattern recognition.Las Vegas:IEEE,2016:779-788.
[22] 陳禹蒲,馬曉川,李璇.基于YOLOv3錨框優(yōu)化的側(cè)掃聲吶圖像目標(biāo)檢測(cè)[J].信號(hào)處理,2022,38(11):2359-2371.
[23] 李書東,王曉,張博宇,等.基于改進(jìn)YOLOX的側(cè)掃聲納圖像沉船檢測(cè)方法研究[J].海洋測(cè)繪,2022,42(5):32-36.
[24] 鄭云亮.基于改進(jìn)YOLOv5網(wǎng)絡(luò)的側(cè)掃聲納圖像目標(biāo)檢測(cè)方法[J].海洋測(cè)繪,2022,42(4):18-21,26.
[25] XU L,WANG X,WANG X.Shipwrecks detection based on deep generation network and transfer learning with small amount of sonar images[C]∥2019 IEEE 8th Data Driven Control and Learning Systems Conference (DDCLS).Dili:IEEE,2019:638-643.
[26] JIANG L,CAI T,MA Q,et al.Active object detection in sonar images[J].IEEE Access,2020,8:102540-102553.
[27] POAP D,WAWRZYNIAK N,WODARCZYK-SIELICKA M.Side-scan sonar analysis using roi analysis and deep neural networks[J].IEEE Transactions on Geoscience and Remote Sensing,2022,60:1-8.
[28] LE H T,PHUNG S L,CHAPPLE P B,et al.Deep gabor neural network for automatic detection of mine-like objects in sonar imagery[J].IEEE Access,2020,8:94126-94139.
[29] KANG M,TING C M,TING F F,et al.RCS-YOLO:A fast and high-accuracy object detector for brain tumor detection[C]∥International Conference on Medical Image Computing and Computer-Assisted Intervention.Cham:Springer Nature Switzerland,2023:600-610.
[30] TAN M,PANG R,LE Q V.Efficientdet:Scalable and efficient object detection[C]∥Proceedings of the IEEE/CVF conference on computer vision and pattern recognition.Seattle:IEEE,2020:10781-10790.
[31] LIN T Y,DOLLR P,GIRSHICK R,et al.Feature pyramid networks for object detection[C]∥Proceedings of the IEEE conference on computer vision and pattern recognition.Venice:IEEE,2017:2117-2125.
[32] LIU S,QI L,QIN H,et al.Path aggregation network for instance segmentation[C]∥Proceedings of the IEEE conference on computer vision and pattern recognition.Salt Lake City:IEEE,2018:8759-8768.
[33] 賴修尉,郭亮,鄧宇.測(cè)深型側(cè)掃聲吶細(xì)物識(shí)別及淺水測(cè)量精度分析[J].水利水電快報(bào),2022,43(增1):1-3.
[34] YUAN F,XIAO F,ZHANG K,et al.Noise reduction for sonar images by statistical analysis and fields of experts[J].Journal of Visual Communication and Image Representation,2021,74:102995.
[35] CHANG Y C,HSU S K,TSAI C H.Sidescan sonar image processing:correcting brightness variation and patching gaps[J].Journal of Marine Science and Technology,2010,18(6):785-789.
[36] 趙建虎,王曉,張紅梅.側(cè)掃聲吶圖像海底線自動(dòng)提取方法研究[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2017,42(12):1797-1803.
[37] 趙建虎,王愛學(xué),王曉,等.側(cè)掃聲吶條帶圖像分段拼接方法研究[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2013,38(9):1034-1038.
(編輯:張 爽)
Research on target detection method of side-scan sonar image based on improved Yolov8
LU Bin,MAO Yixuan,WANG Lu
(Hydrology and Water Resources Survey Bureau of Yangtze River Estuary,Bureau of Hydrology of Changjiang Water Resources Commission,Shanghai 210036,China)
Abstract:
In view of the fact that existing target detection methods are difficult to adapt to the high noise,multi-distortion,and feature-poor characteristics of side scan sonar images,we proposed a side scan sonar target detection method based on an improved Yolov8.In the network training stage,a RCS-OSA module was introduced into the main body of Yolov8 to further enhance the feature extraction ability of the main body of Yolov8.In the inference stage,the feature extraction ability of the network was enhanced by reparameterized convolution,which was simplified into a single branch to reduce memory consumption.Then the BiFPN was used to replace the feature fusion module of Yolov8,and by repeatedly applying top-down and bottom-up multi-scale feature fusion,the fusion results of different scale features were further optimized,thereby improving the adaptability to multi-scale features.The experimental results showed that the proposed method outperformed the original Yolov8 network in all quantitative and qualitative evaluations,with an average precision mean (mAP) increased of 6.3%.
Key words:
side-scan sonar; Yolov8; image target detection; RCS-OSA; BiFPN