摘"要:海洋垃圾不僅嚴重威脅海洋動物的健康及其棲息地,由其釋放的有毒物質(zhì)進入食物鏈后對人類身體健康同樣造成消極影響。由于海洋圖像受到光照投影的影響,并且垃圾的尺寸通常較小,以往的目標檢測算法對海洋垃圾的檢測性能并不理想,因此提出了一種基于YOLOv8網(wǎng)絡模型的改進算法(YOLOESD),該算法共有三個改進點:首先,采用Stemblock模塊替換了模型的初始卷積,在減少模型參數(shù)量的同時,提高模型檢測的精確度;其次,融合高效多尺度注意力模塊(EMA),有效減少了模型的漏檢和誤檢問題;最后,在原模型的頭部額外增加一個小目標檢測頭,提高模型對小尺度目標的敏感度。實驗結(jié)果表明,改進后的YOLOv8網(wǎng)絡模型與原網(wǎng)絡模型相比,漏檢情況得到明顯改善,mAP@0.5達到90.8%,精度提高了3.6個百分點;YOLOESD網(wǎng)絡模型的檢測效果優(yōu)于原網(wǎng)絡模型及經(jīng)典的網(wǎng)絡模型。
關(guān)鍵詞:目標檢測;小目標檢測;海洋垃圾檢測;EMA注意力機制;Stem模塊;YOLOESD
中圖分類號:TP391""""""文獻標識碼:A
YOLOESD"Marine"Litter"Image"Detection
Based"on"Improved"YOLOv8
LI"Cui,WANG"Jiao
(School"of"Software,"Dalian"Jiaotong"University,""Dalian,Liaoning"116021,China)
Abstract:Marine"litter"is"a"serious"threat"to"the"health"of"marine"animals"and"their"habitats,"and"it"also"has"a"negative"impact"on"human"health"through"the"release"of"toxic"substances"that"enter"the"food"chain.The"performance"of"previous"target"detection"algorithms"for"marine"litter"is"not"satisfactory"due"to"the"fact"that"marine"images"are"affected"by"light"projection"and"the"size"of"the"litter"is"usually"small.Therefore,"this"paper"proposes"an"improved"algorithm"(YOLOESD)"based"on"the"YOLOv8"network"model,"which"has"three"improvement"points.Firstly,"the"initial"convolution"of"the"model"is"replaced"by"the"Stemblock"module."While"reducing"the"number"of"model"parameters,"improve"the"detection"accuracy"of"the"model.Secondly,"we"have"integrated"the"efficient"multiscale"attention"module"(EMA)."Effectively"reducing"the"problem"of"missed"and"1"alarms"in"the"model.Finally,"an"additional"small"target"detection"head"is"added"to"the"head"of"the"original"model"to"improve"the"model's"sensitivity"to"smallscale"targets."The"experiments"results"show"that"the"improved"YOLOv8"network"model"has"significantly"improved"leakage"detection"compared"to"the"original"network"model,"the"mAP@0.5"reached"90.8%,"and"the"accuracy"is"improved"by"3.6"percentage"points;"the"YOLOESD"network"model"outperforms"both"the"original"network"model"and"the"classical"network"model"in"terms"of"detection.
Key"words:"target"detection;small"target"detection;marine"litter"detection;EMA"attention"mechanism;Stem"module;YOLOESD
目前,海水資源受污染程度越來越重,自1950年以來,塑料垃圾在全球范圍內(nèi)存在且呈指數(shù)級增長,據(jù)估計,每年僅陸地地區(qū)就有13萬噸塑料垃圾流入海洋[1]。塑料垃圾可作為運輸其他污染物的載體,天然毒素可以吸附在塑料上,海洋生物通過攝入毒素正在影響器官的健康。此外,垃圾還存在養(yǎng)分循環(huán)惡化、瀕危物種滅絕等潛在的影響,這不僅污染海洋環(huán)境,還波及人類健康,甚至如今的海水中檢測出了直徑小于5"mm的微塑料,這種微塑料已經(jīng)滲透到食物鏈中,最終流向人體內(nèi)部[2]。
海洋垃圾檢測方面仍然有許多挑戰(zhàn)需要解決。Ma等[3]將RetinaNet算法與數(shù)據(jù)增強、損失函數(shù)優(yōu)化以及遷移學習相結(jié)合,有效提升了海洋垃圾檢測的精度值。Zaaboub等[4]將無人機與機器學習技術(shù)、K近鄰算法相結(jié)合,在垃圾識別的四次測試中誤差平均值僅為6.3%。Winans等[5]使用單次多盒探測器結(jié)合MobileNetV2特征提取器對夏威夷沿海海洋垃圾進行了檢測,最終達到了71.8%的精度值。雖然以上的研究都表明,新技術(shù)的使用,可以在有效地檢測海洋垃圾的同時節(jié)省大量的人力物力,但詳細查看結(jié)果時,可以發(fā)現(xiàn),實驗結(jié)果總體精度偏低,特別是在小目標物體增加時,漏檢率很高,檢測精度削弱。
為了解決上述問題,提升目標檢測的精度,有效解決海洋垃圾中小目標漏檢及誤檢問題,文中提出了一種改進的YOLOv8目標檢測模型(YOLOESD)。本文的主要改進如下:
(1)融合新型高效多尺度注意力(EMA)[6]機制,通過將先前幀的預測結(jié)果納入考慮范圍,將當前幀的預測結(jié)果與先前幀的結(jié)果相結(jié)合,有助于模型降低漏檢率與誤檢率。
(2)模型輕量化,用Stemblock模塊[7]替換YOLOv8網(wǎng)絡模型[8]中的起始卷積,在精度稍有提高的情況下,減少模型的參數(shù)量。
(3)在YOLOv8網(wǎng)絡模型的頭部額外添加一個小目標檢測頭,有效解決小目標漏檢率高的問題,進一步提升檢測精度。
1"改進YOLOv8的方法
本文采用近年來較先進的單階段目標檢測算法YOLOv8模型作為本次實驗的基本模型,修改YOLOv8模型來定位整個圖像中的垃圾點,并進行有效分類。模型整體的框架圖如圖1所示,將在下面的小節(jié)中進行詳細解釋。
1.1"融合EMA"注意力模塊
跨通道關(guān)系建模提取深度視覺表示時,通道降維會帶來副作用,為了解決這一問題,高效多尺度注意力模塊(EMA)橫空出世。EMA專注于保留每個通道的信息,并盡可能減少計算開銷,一方面對全局信息進行編碼,校準每個并行分支中的通道權(quán)重;另一方面,通過跨維度交互來進一步組合兩個并行分支的輸出特征。EMA的總體結(jié)構(gòu)如圖2所示。
EMA注意力機制的跨空間信息聚合方法:由圖2陰影部分可知,1×1分支的輸出和3×3分支的輸出作為陰影部分的輸入。然后,在1×1分支中,利用2D全局平均池化對全局空間信息進行編碼,使用非線性函數(shù)Softmax來擬合線性變換。將上述輸出與矩陣點積運算相乘,導出了第一個空間注意力圖。文中類似的利用2D全局平均池化來編碼3×3分支中的全局空間信息,導出保留了整個精確空間位置信息的第二空間注意力圖。
EMA在卷積運算中不降低通道維度的情況下學習有效的通道描述,并為高級特征圖產(chǎn)生更好的像素級關(guān)注。2D全局池化操作式如下:
Zc=1H×W∑0≤j≤H"∑0≤i≤WXc(i,j)(1)
式中,H代表特征圖的高,W代表特征圖的寬,Xc表示在第c個通道處的輸入特征。
1.2"集成Stem"block模塊
Stem"block結(jié)構(gòu)是用于下采樣的方法,該模塊能夠在保持較強特征能力的同時減少模型的參數(shù),基于多次實驗后分析YOLOv8網(wǎng)絡模型的結(jié)構(gòu)發(fā)現(xiàn),backbone部分起始的兩個3×3卷積是為了進行下采樣操作,較少提取小物體的空間信息。因此,如圖1所示,在原YOLOv8網(wǎng)絡模型的基礎上,本文使用Stem"block模塊替換起始卷積,修改原模型的主干網(wǎng)絡,在精度稍有提高的同時降低模型的整體參數(shù)。
從圖3可以看出,Stem"block"結(jié)構(gòu)有左右兩個分支,右側(cè)分支先將通道數(shù)量減少,再進行下采樣;左側(cè)分支將原始輸入進行最大值池化;之后兩個分支的結(jié)果進行拼接。目的是將輸入中的部分信息進行傳遞,確保最終的結(jié)果既減少了參數(shù)量又具備足夠的語義信息,不會造成信息的過度損失。
1.3"增加小目標檢測頭
在進行海洋垃圾檢測時,由于海洋垃圾體積較小,易出現(xiàn)小目標漏檢問題。在YOLOv8中,檢測頭由P3、P4和P5三個輸出特征映射組成,P3對應的特征圖大小為80"×"80,用于檢測大小在8"×"8以上的目標,下采樣8倍;P4對應的特征圖大小為40"×"40,用于檢測大小在16"×"16以上的目標,下采樣16倍;P5對應的特征圖大小為20×20,用于檢測大小在32×32以上的目標,下采樣32倍。雖然上述三個檢測頭能夠?qū)Χ喑叨饶繕诉M行檢測,但較大的下采樣倍數(shù)使模型對小目標及微小目標的檢測能力不佳。本文提出的模型中,增加了一個額外的檢測頭Ps,如圖1所示,其特征圖大小為160"×"160,用于檢測大小在4×4以上的目標,下采樣4倍。較小的下采樣倍數(shù)包含更多的低層次信息,可以有效地檢測出小目標,提高了模型在給定圖像中有效檢測物體的能力,進一步提高了模型的檢測精度。
2"實驗
2.1"數(shù)據(jù)集
在實驗部分,使用Okahublot公開的FlowImg[9]數(shù)據(jù)集來驗證模型的準確性,F(xiàn)lowImg數(shù)據(jù)集是Okahublot發(fā)布的無人船視角下的漂浮垃圾數(shù)據(jù)集,共包括2000張圖片。
2.2"實驗細節(jié)
網(wǎng)絡實驗環(huán)境為Windows10、Python3.9.13和PyTorch1.13.0,相關(guān)硬件配置和模型參數(shù)如表1所示,數(shù)據(jù)的訓練輪數(shù)為200。
實驗指標主要選取平均精度值mAP(mean"Average"Precision)。mAP@0.5代表IoU設置為0.5時,所有圖片的平均準確率;mAP@0.5-0.95代表IoU從0.5到0.95步長為0.05時取得的平均準確率;公式如下所示:
P=True"PositiveTrue"Positive+False"Positive(2)
R=True"PositiveTrue"Positive+False"Negtive(3)
mAP=∫10P(R)d(R)(4)
其中:式(2)代表準確率P(Precision),式(3)代表召回率R(Recall)。True"Positive表示預測正確;False"Positive表示預測錯誤,包括目標檢測類別錯誤和漏檢兩種情況。
2.3"實驗對比
在本節(jié)中,將在FlowImg數(shù)據(jù)集上比較YOLOESD模型與其他經(jīng)典網(wǎng)絡模型的精度值,主要包括FasterRCNN網(wǎng)絡模型(MobileNetv2骨干網(wǎng)絡)[10]、SSD網(wǎng)絡模型(ResNet50骨干網(wǎng)絡)[11]、YOLOv7網(wǎng)絡模型[12]、YOLOv8網(wǎng)絡模型。實驗結(jié)果見表2。
從表2中可以看出,改進版YOLOESD網(wǎng)絡模型,相較于以往的經(jīng)典模型,檢測精度遙遙領先,mAP@0.5達到了90.8%,mAP@0.5-0.95達到了49.1%,與基線模型Yolov8相比,mAP@0.5提升了3.6個百分點,mAP@0.5-0.95提升了1.8個百分點。
為了說明改進版模型的性能,文中以FlowImg數(shù)據(jù)集上YOLOv8網(wǎng)絡模型和YOLOESD網(wǎng)絡模型的檢測結(jié)果為例進行展示。在圖4中,第一行為YOLOv8網(wǎng)絡模型的檢測結(jié)果,第二行為YOLOESD網(wǎng)絡模型的檢測結(jié)果。具體來看,圖4中的第一組圖片,YOLOv8網(wǎng)絡模型檢測出目標的置信度分數(shù)為0.3,改進版模型檢測出的分數(shù)為0.4;第三組圖片YOLOv8網(wǎng)絡模型檢測出的分數(shù)為0.5和0.8,改進版模型檢測出的分數(shù)為0.6和0.9,均高于原網(wǎng)絡模型;第四組圖片,改進版模型在分數(shù)提高的基礎上,額外檢測出了一個原模型漏檢的小目標,由此可見,改進版模型的精度更高、性能更好(注:同一列的一對圖片稱為一組,由左向右,分別為第一組至第四組)。
2.4"消融實驗
表3是YOLOESD消融實驗的結(jié)果。使用YOLOv8網(wǎng)絡模型作為基線模型。為了驗證不同模塊的性能,本文進行了8個不同的實驗,首先,單獨增加小目標檢測頭、融合EMA注意力機制、集成Stem"block模塊,檢測精度均有所上升;這表明三個改進點對YOLOv8網(wǎng)絡模型的精度提高均是有益的。為了進一步分析模型性能,將三個改進點兩兩組合進行實驗,結(jié)果顯示,除了EMA與Stem"block的組合外,其余組合實驗精度提升比單獨的改進更明顯。EMA與Stem"block的結(jié)合精度無增加,分析認為Stem"block結(jié)構(gòu)的引進是為了降低模型的復雜程度,進一步降低模型的通道數(shù),而EMA注意力機制善于融合通道信息,通道減少,融合信息相應縮減,因此模型的精度沒有上升。最后,本文融合三個改進點,對提出的YOLOESD網(wǎng)絡模型進行實驗,如表2和表3所示,該模型取得了最優(yōu)的結(jié)果,檢測精度相比基線模型提升了3.6個百分點。
模型的改進會增加模型的參數(shù),進而增加模型的復雜度,降低模型的運行時間。為了驗證模型的運行速度,本文進行了一系列實驗。結(jié)果顯示,YOLOv8模型的運行速度為118.89"FPS,YOLOv7模型的運行速度為103.22FPS,YOLOESD模型的運行速度為99.4"FPS。運行速度相比原模型稍有下降,但仍然能夠滿足實時檢測的需求。本文認為,較小的速度下降換來較大的精度提升是值得的,YOLOESD在達到高精度的同時也滿足了實時檢測的需求。
3"結(jié)"論
近年來,海洋污染日益嚴重,檢測與清理海洋垃圾成為現(xiàn)階段的熱議話題,海洋垃圾不僅污染水源、危害水中的動植物,更為病毒傳播提供了有效途徑,加快其傳播速度,危害陸地動植物,進一步危害人類?;诤Q罄鴪D像中小目標多且難辯別的問題,本文提出了一種基于改進YOLOv8網(wǎng)絡模型的海洋垃圾檢測方法YOLOESD。首先,文中將EMA注意力機制融合進YOLOv8網(wǎng)絡模型,通過EMA注意力機制關(guān)聯(lián)通道信息,顯著提升了目標檢測的精度;其次,將Stem"block"模塊與YOLOv8網(wǎng)絡模型集成,在提升精度的同時有效地降低參數(shù)量;最后對YOLOv8網(wǎng)絡模型的整體結(jié)構(gòu)進行更改,添加小目標檢測頭,使模型更精準地抓住小目標。實驗結(jié)果表明,文中提出的三個改進點可以有效地提升目標檢測的精度,mAP@0.5與mAP@0.5-0.95分別為90.8%與49.1%,相較于原模型分別提升了3.6個百分點與1.8個百分點。
海洋垃圾檢測是一個值得研究的問題,現(xiàn)階段海洋垃圾圖像較少且種類單一,極端情況的圖片較少,例如大霧天氣、大雨天氣、雷暴天氣等。這種極端天氣會給目標檢測帶來極大挑戰(zhàn)。未來,將對當前工作進行擴展,應用到不同的情景中。
參考文獻
[1]"LAU"W"W"Y,"SHIRAN"Y,"BAILEY"R"M,"et"al."Evaluating"scenarios"toward"zero"plastic"pollution[J]."Science,"2020,"369(6510):"1455-1461.
[2]"MCADAM"R."Plastic"in"the"ocean:"how"much"is"out"there?[J]."Significance,"2017,"14(5):"24-27.
[3]"MA"D,"WEI"J,"LI"Y,"et"al."MLDet:"Towards"efficient"and"accurate"deep"learning"method"for"marine"litter"detection[J]."Ocean"amp;"Coastal"Management,"2023,"243:"106765.
[4]"ZAABOUB"N,"GUEBSI"R,"CHAOUACHI"R"S,"et"al."Using"unmanned"aerial"vehicles"(UAVs)"and"machine"learning"techniques"for"the"assessment"of"Posidonia"debris"and"marine"(plastic)"litter"on"coastal"ecosystems[J]."Regional"Studies"in"Marine"Science,"2023,"67:"103185.
[5]"WINANS"W"R,"CHEN"Q,"QIANG"Y,"et"al."Largearea"automatic"detection"of"shoreline"stranded"marine"debris"using"deep"learning[J]."International"Journal"of"Applied"Earth"Observation"and"Geoinformation,"2023,"124:"103515.
[6]"HUANG"W,"LI"Y,"ZHANG"K,"et"al."An"efficient"multiscale"focusing"attention"network"for"person"reidentification[J]."Applied"Sciences,"2021,"11(5):"2010.
[7]"SZEGEDY"C,"IOFFE"S,"VANHOUCKE"V,"et"al."Inceptionv4,"inceptionresnet"and"the"impact"of"residual"connections"on"learning[C]//Proceedings"of"the"AAAI"Conference"on"Artificial"Intelligence,2017,"31(1):4278-4284.
[8]"WANG"J,"XU"P,"LI"L,"et"al."DAssdNet:"a"lightweight"steel"surface"defect"detection"model"based"on"multibranch"dilated"convolution"aggregation"and"multidomain"perception"detection"head[J]."Sensors,"2023,"23(12):"5488.
[9]"CHENG"Y,"ZHU"J,"JIANG"M,"et"al."Flow:"a"dataset"and"benchmark"for"floating"waste"detection"in"inland"waters[C]//Proceedings"of"the"IEEE/CVF"International"Conference"on"Computer"Vision,2021:"10953-10962.
[10]SHARMA"V"K,"MIR"R"N."Saliency"guided"fasterRCNN"(SGFrRCNN)"model"for"object"detection"and"recognition[J]."Journal"of"King"Saud"UniversityComputer"and"Information"Sciences,"2022,"34(5):"1687-1699.
[11]LI"Y"D,"HAN"D,"LI"H"G,"et"al."Multiblock"SSD"based"on"small"object"detection"for"UAV"railway"scene"surveillance[J]."Chinese"Journal"of"Aeronautics,"2020,"33(6):"1747-1755.
[12]WANG"C"Y,"BOCHKOVSKIY"A,"LIAO"H"Y"M."YOLOv7:"trainable"bagoffreebies"sets"new"stateoftheart"for"realtime"object"detectors[C]//Proceedings"of"the"IEEE/CVF"Conference"on"Computer"Vision"and"Pattern"Recognition,2023:7464-7475.