呂述杭 于營 徐金輝
摘要:目標(biāo)檢測功能在海上人員搜救中扮演著至關(guān)重要的作用,特別是在復(fù)雜的海洋環(huán)境中,利用該功能可以對(duì)海面上的游泳者和船只進(jìn)行精準(zhǔn)定位。本文提出了一種專門設(shè)計(jì)和優(yōu)化的DETR-Maritime模型。此模型基于RT-DETR實(shí)時(shí)檢測架構(gòu),并結(jié)合高效部分可重參數(shù)化塊,可以有效提升對(duì)小目標(biāo)檢測的精度和實(shí)時(shí)處理能力。實(shí)驗(yàn)結(jié)果顯示,與YOLOv8-L相比,該模型的參數(shù)量減少了67.7%,計(jì)算復(fù)雜度降低了73.9%,而mAP提升了2.6個(gè)百分點(diǎn),達(dá)到0.544,可以為海上救援提供有效的支持。
關(guān)鍵詞:小目標(biāo)檢測;海上救援;RT-DETR;SeaDronesSee
引言
在計(jì)算機(jī)視覺領(lǐng)域,目標(biāo)檢測作為一項(xiàng)基礎(chǔ)技術(shù),一直是研究的焦點(diǎn)。特別是在復(fù)雜的海上救援環(huán)境中,小目標(biāo)檢測面臨重大挑戰(zhàn),且直接關(guān)系到生命安全和救援效率。在海上救援中,無人機(jī)的應(yīng)用要求目標(biāo)檢測模型不僅能夠?qū)崟r(shí)處理大量數(shù)據(jù),還必須具有極高的精確性和穩(wěn)定性。
在小目標(biāo)檢測研究中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)和基于Transformer的模型是兩大主流研究方向。CNN架構(gòu),特別是YOLO系列(如YOLO v5、YOLO v7和YOLO v8),憑借其快速處理速度和良好性能在實(shí)時(shí)任務(wù)中占據(jù)主導(dǎo)地位。然而,這些模型在處理小目標(biāo)時(shí)通常存在一定局限性,例如在復(fù)雜海洋背景下容易丟失關(guān)鍵特征信息。
近年來,Transformer模型由于其出色的特征提取能力和長距離依賴處理能力而受到關(guān)注。盡管如此,這種模型通常在處理速度上無法滿足實(shí)時(shí)任務(wù)需求。RT-DETR[1]的提出,標(biāo)志著在保持Transformer高精準(zhǔn)度的同時(shí),顯著提高處理速度的一大進(jìn)步。對(duì)于海上救援中的無人機(jī)目標(biāo)檢測來說,這是一個(gè)重要?jiǎng)?chuàng)新。
在海上救援小目標(biāo)檢測的具體應(yīng)用中,研究面臨多種挑戰(zhàn)。例如,海面反射和波動(dòng)可能導(dǎo)致目標(biāo)檢測模型出現(xiàn)誤判或漏檢;在遙遠(yuǎn)的海洋環(huán)境中,小目標(biāo)的可見度極低;動(dòng)態(tài)變化的環(huán)境對(duì)實(shí)時(shí)處理能力提出了更高的要求。本文旨在通過對(duì)RT-DETR主干網(wǎng)絡(luò)Resnet中basic block模塊的創(chuàng)新設(shè)計(jì),有效解決上述問題。實(shí)驗(yàn)結(jié)果表明,本文的方法不僅提升了模型對(duì)小目標(biāo)的檢測能力,也保證了在復(fù)雜環(huán)境下的實(shí)時(shí)性和準(zhǔn)確性,為未來執(zhí)行海上救援任務(wù)的無人機(jī)應(yīng)用提供了新視角和可能性。
本文的貢獻(xiàn)可以歸納為以下兩點(diǎn):
一是提出了EPRepBlock(efficient partial reparametrizable block),這是一種創(chuàng)新型模塊,融合了部分卷積和可替換卷積的概念,在訓(xùn)練階段使用多分支結(jié)構(gòu)以提高準(zhǔn)確度,在推理階段則通過分支融合以提高效率。該模塊還能夠處理具有不規(guī)則區(qū)域的輸入,如遮擋、數(shù)據(jù)缺失或尺寸不一的特征。
二是在Seadronesse Object Detection v2這一公共基準(zhǔn)小目標(biāo)檢測數(shù)據(jù)集上評(píng)估了本文提出的方法,并與多種最先進(jìn)的方法進(jìn)行了比較。實(shí)驗(yàn)結(jié)果證明了本文方法在小物體檢測方面的卓越性能。
1. 相關(guān)工作
RT-DETR為一種基于Transformer的端到端對(duì)象檢測器,設(shè)計(jì)靈感來源于Carion等人[2]提出的DETR(檢測變換器),由于其獨(dú)特的特點(diǎn)而受到重視。DETR的顯著特點(diǎn)是消除了傳統(tǒng)檢測流程中的手動(dòng)設(shè)計(jì)錨點(diǎn)(anchor)和非極大值抑制(NMS)組件,而采用二分匹配(bipartite matching)直接預(yù)測一對(duì)一的對(duì)象集合。通過采用這種策略,DETR簡化了檢測流程并緩解了由NMS引起的性能瓶頸。
然而,DETR面臨兩個(gè)主要問題:慢速的訓(xùn)練收斂和難以優(yōu)化的查詢。為解決這些問題,研究人員提出了許多DETR的變體。RT-DETR作為這些努力的結(jié)果,不僅在準(zhǔn)確性和速度上超越了當(dāng)前最先進(jìn)的實(shí)時(shí)檢測器,而且不需要后處理,因此檢測器的推理速度沒有延遲,且保持穩(wěn)定,充分利用了端到端檢測流程的優(yōu)勢。這意味著RT-DETR在處理對(duì)象檢測任務(wù)時(shí)更加高效和準(zhǔn)確,特別適用于需要快速準(zhǔn)確檢測的應(yīng)用場景,如實(shí)時(shí)監(jiān)控或自動(dòng)駕駛系統(tǒng)。
2. 方法
2.1 高效部分可重參數(shù)化塊
本文提出了一種命名為“高效部分可重參數(shù)化塊”(efficient partial reparametrizable block,EPRepBlock)的創(chuàng)新性殘差結(jié)構(gòu)。EPRepBlock整合了部分卷積(PConv)和可重參數(shù)化卷積(RepConv)的理念,分別源于最新的FasterNet(CVPR 2023)[3]和廣泛認(rèn)可的RepVGG(CVPR 2021)。PConv利用特征圖間的冗余,僅在輸入通道的一部分上執(zhí)行卷積,這樣做能夠減少計(jì)算和內(nèi)存訪問需求。受RepVGG架構(gòu)的啟發(fā),EPRepBlock在訓(xùn)練結(jié)束后,通過可重參數(shù)化技術(shù)將多個(gè)卷積和恒等映射融合為單一卷積核,以此提高推理階段的效率。本文將EPRepBlock這種理念應(yīng)用在了殘差網(wǎng)絡(luò)塊(ResNet blocks)中。
2.2 EPRepBlock的結(jié)構(gòu)與操作
EPRepBlock的主要特征是其訓(xùn)練期間的多分支架構(gòu),通過實(shí)現(xiàn)y=x+g(x)+f(x)的形式,允許模型隱式集成多個(gè)簡化模型,類似于ResNet中的殘差學(xué)習(xí)方法。在EPRepBlock中,g(x)表示1×1卷積分支,而f(x)表示經(jīng)過部分卷積處理的特征圖。在維度匹配的情況下,本文利用恒等分支來保持信息流的完整性。
在推理時(shí),為減少模型復(fù)雜度并提高效率,采用RepConv技術(shù)將訓(xùn)練時(shí)的多分支結(jié)構(gòu)重參數(shù)化為單一的3×3卷積層。具體轉(zhuǎn)換過程如下:
(1)分支融合:將1×1卷積和3×3卷積的BN層參數(shù)融合進(jìn)卷積核和偏置中,得到W(0)和b(0)。
(2)偏置向量的合并:將各分支的偏置向量相加,得到最終的偏置b。
(3)卷積核的合并:將1×1卷積核填充為3×3大小,然后與3×3卷積核相加,得到最終的卷積核W。
2.3 EPRepBlock的計(jì)算優(yōu)化
EPRepBlock在設(shè)計(jì)上充分考慮了計(jì)算和內(nèi)存效率。利用PConv,僅對(duì)cp個(gè)通道執(zhí)行卷積操作,顯著降低了FLOPs,如FasterNet所建議的。選擇這些cp個(gè)通道是基于特征圖間的相似性,這一點(diǎn)在先前的工作中已經(jīng)被觀察到,但很少有工作像FasterNet那樣在簡化模型的同時(shí)充分利用這一點(diǎn)。由于在EPRepBlock中,未參與卷積操作的通道在后續(xù)PWConv層中仍然起作用,因此這些通道仍然被保留,使得信息能夠在所有通道間自由流動(dòng)。
2.4 評(píng)測方法
交并比(intersection over union,IoU)構(gòu)成了衡量對(duì)象檢測模型性能的一個(gè)關(guān)鍵指標(biāo),特別是在計(jì)算平均精度(AP)和平均精度均值(mAP)方面。IoU是預(yù)測框(prediction frame)和目標(biāo)框(target frame)之間的交集與并集的比值。一個(gè)高IoU值表明預(yù)測框與目標(biāo)框高度重疊,意味著檢測精確。本文選擇mAP,mAP在IoU閾值為0.5~0.95(以0.05為步長),mAP@50,即單一IoU閾值0.5時(shí)的mAP,兩個(gè)指標(biāo)評(píng)估了不同模型在驗(yàn)證集上的表現(xiàn)。
3. 實(shí)驗(yàn)
本節(jié)將詳細(xì)介紹本文的實(shí)驗(yàn)設(shè)置與框架,包括實(shí)驗(yàn)數(shù)據(jù)集、對(duì)比實(shí)驗(yàn)設(shè)計(jì)。這些設(shè)置共同構(gòu)成了本文的嚴(yán)謹(jǐn)實(shí)驗(yàn)架構(gòu),目的是確保結(jié)果的準(zhǔn)確性和可靠性,以及驗(yàn)證和分析不同改進(jìn)策略對(duì)模型性能的影響。
3.1 數(shù)據(jù)集
SeaDronesSee為一個(gè)大型數(shù)據(jù)集,目的在于幫助開發(fā)在海上場景中使用無人機(jī)進(jìn)行搜索和救援的系統(tǒng)。該數(shù)據(jù)集全部來自2023年第一屆海事計(jì)算機(jī)視覺(MaCVi)研討會(huì),本文使用的是該賽事中Object detection v2賽道的數(shù)據(jù)集。數(shù)據(jù)集包含14227幅圖像,分別包括8930張訓(xùn)練集圖像、1547張驗(yàn)證集圖像和3750張測試集圖像。該任務(wù)的目標(biāo)是檢測包括游泳者、船只、摩托艇、浮標(biāo)和救生設(shè)備(救生衣/腰帶)在內(nèi)的物體類別。每幅圖像均配備了人工標(biāo)記的真實(shí)標(biāo)簽(Ground-truth)檢測框,算法模型須學(xué)習(xí)并推理這些真實(shí)物體的位置及其檢測框的大小。
3.2 實(shí)驗(yàn)結(jié)果與分析
本文通過采用EPRepBlock改良了Resnet-18中的Basic Blocks,并將此模塊應(yīng)用于RT-DETR主干網(wǎng)絡(luò)Resnet的相應(yīng)殘差塊,從而開發(fā)出一種名為“DETR-Maritime”的新型結(jié)構(gòu)。本文比較了三種類型的算法模型:實(shí)時(shí)目標(biāo)檢測模型、端到端目標(biāo)檢測模型和實(shí)時(shí)端到端目標(biāo)檢測模型,進(jìn)行了共計(jì)6組的對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表1所示。
3.2.1 性能比較
相比當(dāng)前流行的實(shí)時(shí)目標(biāo)檢測模型如YOLO v5-L和YOLO v8-L,本文開發(fā)的DETR-Maritime在參數(shù)數(shù)量和計(jì)算復(fù)雜度方面實(shí)現(xiàn)了顯著降低。具體來說,DETR-Maritime的參數(shù)數(shù)量僅為14.10M,相比YOLO v5-L的53.17M和YOLO v8-L的43.63M,分別降低了73.5%和67.7%。在計(jì)算復(fù)雜度(GFLOPs)方面,DETR-Maritime僅需43.2GFLOPs,相比YOLO v5-L的135.3GFLOPs和YOLO v8-L的165.4GFLOPs,分別降低了68.1%和73.9%。
3.2.2 精度提升
在目標(biāo)檢測精度方面,DETR-Maritime在驗(yàn)證集上的平均精度均值(mAP)和mAP@50值分別達(dá)到0.544和0.869,比RT-DETR-R18和RT-DETR-L等其他實(shí)時(shí)端到端目標(biāo)檢測模型高出0.12和0.2個(gè)百分點(diǎn)(AP50)。與端到端目標(biāo)檢測器Faster-RCNN相比,DETR-Maritime在AP50上的提升尤為顯著,達(dá)到了197%。
3.2.3 綜合效率
雖然DETR-Maritime的幀率(FPS)為39.37,略低于YOLO系列模型,但考慮到其較低的計(jì)算復(fù)雜度和參數(shù)數(shù)量,這一表現(xiàn)顯示了在實(shí)時(shí)性和精度之間取得了良好的平衡。相比RT-DETR-R18和RT-DETR-L,DETR-Maritime在保證較高幀率的同時(shí),實(shí)現(xiàn)了更高的檢測精度。
結(jié)語
本文開發(fā)了一種新型模塊EPRepBlock,并將其應(yīng)用于RT-DETR結(jié)構(gòu),構(gòu)建出名為DETR-Maritime的海上救援模型。該模型作為高精度實(shí)時(shí)端到端檢測器,在精度上超越了現(xiàn)有主流目標(biāo)檢測模型,且無須額外訓(xùn)練數(shù)據(jù)。盡管這種創(chuàng)新結(jié)構(gòu)在理論和實(shí)驗(yàn)方面取得了顯著成果,但在實(shí)際應(yīng)用中面臨的挑戰(zhàn),特別是在不同環(huán)境條件下的魯棒性和適應(yīng)性,仍須進(jìn)一步驗(yàn)證。例如,在極端天氣條件或復(fù)雜海域背景下,模型的檢測精度和實(shí)時(shí)性可能會(huì)受到影響。未來的研究可以探索如何優(yōu)化模型結(jié)構(gòu),以適應(yīng)更廣泛的應(yīng)用場景,包括不同類型的海上活動(dòng)和不同的海洋環(huán)境。
參考文獻(xiàn):
[1]Lv WY,Xu SL,Zhao Y,et al.Detrs beat YOLOs on real-time object detection[EB/OL].(2023-07-06)[2024-01-20].https://arxiv.org/abs/2304.08069.
[2]Carion N,Massa F,Synnaeve G,et al.End-to-end object detection with transformers[C]//European conference on computer vision.Cham:Springer International Publishing,2020:213-229.
[3]Chen J,Kao S,He H,et al.Run,Don't Walk:Chasing Higher FLOPS for Faster Neural Networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2023:12021-12031.
作者簡介:呂述杭,本科,研究方向:計(jì)算機(jī)深度學(xué)習(xí)目標(biāo)檢測;于營,博士研究生,副教授,研究方向:語義分割、目標(biāo)檢測;徐金輝,本科,研究方向:計(jì)算機(jī)深度學(xué)習(xí)目標(biāo)檢測。
基金項(xiàng)目:海南省院士創(chuàng)新平臺(tái)科研專項(xiàng)(編號(hào):YSPTZX202144);海南省自然科學(xué)基金項(xiàng)目(編號(hào):621QN270);海南省高等學(xué)校教育教學(xué)改革研究項(xiàng)目(編號(hào):Hnjg2023ZD-44)。