羅毅智,陸華忠,周星星,袁 余,齊海軍,李 斌,劉志昌
(1.廣東省農(nóng)業(yè)科學(xué)院設(shè)施農(nóng)業(yè)研究所,廣東 廣州 510640;2.廣東省農(nóng)業(yè)科學(xué)院動(dòng)物科學(xué)研究所(水產(chǎn)研究所),廣東 廣州 510645;3.農(nóng)業(yè)農(nóng)村 部設(shè)施農(nóng)業(yè)裝備與信息化重點(diǎn)實(shí)驗(yàn)室,浙江 杭州 311000;4.廣東省農(nóng)業(yè)科學(xué)院,廣東 廣州 510640)
【研究意義】近年來(lái),隨著對(duì)動(dòng)物蛋白需求的不斷增加和傳統(tǒng)漁業(yè)資源的嚴(yán)重減少,漁業(yè)正逐步向水產(chǎn)設(shè)施養(yǎng)殖轉(zhuǎn)型[1-4]。其中,網(wǎng)箱生物識(shí)別是海洋牧場(chǎng)的關(guān)鍵作業(yè)流程之一。由于網(wǎng)箱養(yǎng)殖局部密度大、水體透光率不足,視覺(jué)成像效果不佳,大大影響智能漁場(chǎng)的作業(yè)效率[5-6]。渾濁水中懸浮顆??蓪?dǎo)致圖像對(duì)比度低、模糊和失真[7],盡管光學(xué)成像類型的相機(jī)提供了高分辨率圖像,但未知的成像條件,包括光學(xué)水類型、場(chǎng)景位置以及海洋介質(zhì)的吸收和散射特性,對(duì)光信息的傳輸有重大影響,進(jìn)而導(dǎo)致嚴(yán)重的圖像失真[8]??紤]到光學(xué)傳感器在水下場(chǎng)景中的客觀局限性,渾濁水體成像檢測(cè)方法常利用非光學(xué)傳感器,如激光雷達(dá)、聲吶等[6,9-14]。聲吶系統(tǒng)根據(jù)聲波發(fā)射和回收的計(jì)算過(guò)程獲得圖像,其中發(fā)射的聲波在遇到目標(biāo)物體后會(huì)被反射和接收。因此,接收到的回波包含不同物體顯著的聲波吸收特性。由于水聲通道的復(fù)雜性和聲波散射的多變性,接收到的回波中還混雜著環(huán)境噪聲、混響和聲吶自噪聲等干擾,對(duì)聲吶圖像的準(zhǔn)確目標(biāo)檢測(cè)提出重大挑戰(zhàn)。
【前人研究進(jìn)展】傳統(tǒng)的目標(biāo)檢測(cè) 方法手動(dòng)提取目標(biāo)區(qū)域的特征,通常使用一定大小的幀作為滑動(dòng)窗口來(lái)遍歷整個(gè)圖像,稱為“錨點(diǎn)”。通過(guò)設(shè)置不同的長(zhǎng)寬比和尺寸,采用窮舉方法確定目標(biāo),導(dǎo)致模型耗時(shí)長(zhǎng)、魯棒性差[15-17]。近年來(lái),隨著計(jì)算機(jī)技術(shù)的發(fā)展,以深度學(xué)習(xí)為代表的技術(shù)在水下圖像除霧和目標(biāo)識(shí)別領(lǐng)域得到廣泛應(yīng)用[18-19]。Liu 等[20]利用圖像處理和深度學(xué)習(xí)相結(jié)合的方式,實(shí)現(xiàn)海洋生物的物種識(shí)別和密度計(jì)算,該模型主要解決了非均勻光場(chǎng)下生物圖像的特征優(yōu)化問(wèn)題。鄧步等[21]提出一種基于聲吶信息融合的水下圖像增強(qiáng)模型,該模型采用去霧技術(shù),顯 著提高檢測(cè)目標(biāo)的對(duì)比度。劉承峰等[22]采用了一種基于多尺度卷積核雙端注意力機(jī)制融合的模型,該模型采用多尺度卷積濾波算子,構(gòu)造多分辨率卷積神經(jīng)網(wǎng)絡(luò),進(jìn)一步提高水下小目標(biāo)的檢測(cè)精度。此外目標(biāo)檢測(cè)的主流算法可大致分為兩階段檢測(cè)模型和單階段檢測(cè)模型兩種類型。其中基于區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster Regions with CNN features,F(xiàn)aster RCNN)引入 區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network,RPN),該模型提取輸入圖像的特征,同時(shí)生成候選區(qū)域,避免重復(fù)提取特征圖,同RCNN 相比,降低了模型的計(jì)算復(fù)雜度,提高了目標(biāo)檢測(cè)的速度和精度[23]。單階段檢測(cè)模型將目標(biāo)檢測(cè)定義為“一步完成”,同時(shí)完成目標(biāo)分類、定位以及檢測(cè),在精度上,兩階段檢測(cè)模型要優(yōu)于單階段檢測(cè)模型;在速度上,單階段模型實(shí)時(shí)性更強(qiáng)[24]。YOLO 系列模型被認(rèn)為目標(biāo)檢測(cè)領(lǐng)域的里程碑??蒲腥藛T在YOLO 模型基礎(chǔ)上進(jìn)行了系列改進(jìn),提出YOLOV2、YOLOV3 以及YOLOV4 版本等,進(jìn)一步提高了模型的檢測(cè)精度,同時(shí)保 持了模型的實(shí)時(shí)性。與Faster RCNN 不同,YO LO 系列將目標(biāo)檢測(cè)作為一個(gè)回歸問(wèn)題,直接得出檢測(cè)對(duì)象的位置、類別以及置信度。有效的目標(biāo)特征檢測(cè)器和分類器為深度學(xué)習(xí)方法提供了在渾濁水環(huán)境中的優(yōu)勢(shì)[25-26]。此外,偏振成像技術(shù)通過(guò)深入挖掘散射光場(chǎng)中偏振信息的獨(dú)特性和差異性,在去除背景散射光和獲得清晰 的水下圖像方面具有明顯優(yōu)勢(shì),該方法利用入射偏振光的偏振特性,可 以分離場(chǎng)景中的這兩種光,有效還原清 晰的場(chǎng)景,提高成像結(jié)果的對(duì)比度和清晰度,輔助水下目標(biāo)的檢測(cè)和識(shí)別[27]。
【本研究切入點(diǎn)】綜上所述,環(huán)境噪聲、混響和聲吶自噪聲為對(duì)水下聲魚類檢測(cè)的主要難點(diǎn)之一,對(duì)目標(biāo)檢測(cè)模型的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化可以大幅度提高檢測(cè)精度,截至目前,很少學(xué)者研究兼容魚類檢測(cè)精度和輕量化模型?!緮M解決的關(guān)鍵問(wèn)題】本文以羅非魚為研究對(duì)象,通過(guò)比較不同水下成像方式的優(yōu)缺點(diǎn),采用一種前視聲吶聲學(xué)成像技術(shù),提出一種輕量級(jí)的魚類識(shí)別網(wǎng)絡(luò)(LAPR-Net,Lightweight Aquatic product Recognition Network),實(shí)現(xiàn)渾濁水體下的魚類檢測(cè)。
試驗(yàn)周期為2022 年9—11 月。如圖1 所示,渾濁場(chǎng)景魚類識(shí)別平臺(tái)包含帆布池(長(zhǎng)×寬×高=2.0 m×2.0 m×0.8 m)、多源信息采集平臺(tái)、網(wǎng)箱(長(zhǎng)×寬×高=0.6 m×0.6 m×0.6 m)。其中,多源信息采集平臺(tái)包含機(jī)械結(jié)構(gòu)、水下攝像頭、錄像機(jī)、聲吶以及聲吶數(shù)據(jù)采集器。
圖1 試驗(yàn)場(chǎng)景示意圖Fig.1 Schematic diagram of the test scene
多源數(shù)據(jù)集由水下攝像頭(霸勒思,E5MP3CX10)和前視聲吶(珠海藍(lán)衡科技有限公司,1206D)記錄如圖2 所示。相機(jī)的底部固定在鋁型材上,為捕捉網(wǎng)箱以及魚群(網(wǎng)箱魚群數(shù)量n=6),相機(jī)鏡頭逆時(shí)針向上傾斜10°。視頻同時(shí)記錄并存儲(chǔ)在硬盤,聲吶數(shù)據(jù)集存儲(chǔ)于聲吶數(shù)據(jù)采集器。此外,聲吶的聲速為1 493.84 m/s,壓力約為0.0015 Mpa,聲吶采集視角設(shè)置為130°。
圖2 檢測(cè)模型數(shù)據(jù)標(biāo)注實(shí)例Fig.2 Data labeling instances of detection model
為提高模型的泛化能力與魯棒性,將全天視頻文件(.DB)轉(zhuǎn)化為MP4 視頻,分離出不同時(shí)段的圖像數(shù)據(jù)2 004 張,經(jīng)圖像翻轉(zhuǎn)、對(duì)比度調(diào)整以及亮度調(diào)整后,最終渾濁場(chǎng)景魚類識(shí)別數(shù)據(jù)集(WR-dataset)擴(kuò)增至6 012 張,其中訓(xùn)練集和驗(yàn)證集5 400 張、測(cè)試集612 張。采用開源交互式標(biāo)記工具Labelme 進(jìn)行標(biāo)注,標(biāo)注類別共有兩個(gè),紅色框代表網(wǎng)箱,綠色框代表魚類。為減少人為標(biāo)記誤差,標(biāo)記時(shí)2 人1 組,標(biāo)記過(guò)程中如果對(duì)圖像標(biāo)記的結(jié)果不確定,則將圖像從數(shù)據(jù)集中刪除;最后,以MSCOCO 格式保存為JSON文件。
針對(duì)混響噪聲和復(fù)雜背景的干擾造成魚類難以檢測(cè)的問(wèn)題,本文提出一種改進(jìn)的YOLOV5深度學(xué)習(xí)模型,實(shí)現(xiàn)渾濁水體下魚類檢測(cè)。YOLOV5 采用共享卷積核的方式,減少計(jì)算次數(shù),降低模型參數(shù)量,提高網(wǎng)絡(luò)計(jì)算效率。模型架構(gòu)如圖2 所示,主要由3 部分組成,包含主干特征提取網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)以及預(yù)測(cè)頭[28]。
(1)主干特征提取網(wǎng)絡(luò):如圖3A 所示,沿用YOLOV5S 的網(wǎng)絡(luò)結(jié)構(gòu),圖片進(jìn)入模型后經(jīng)過(guò)切片后進(jìn)行卷積操作,主體結(jié)構(gòu)采用MobileNetV3 bneck 塊(淡藍(lán)色模塊),不同于VGG、Resnet、ViT 等網(wǎng)絡(luò)模型,MobileNet 參數(shù)少、計(jì)算快。如圖3E 所示,以MobileNetV3-Large 的網(wǎng)絡(luò)結(jié)構(gòu)為例,模型使用非線性激活函數(shù) h-swish,將第一層卷積核的數(shù)量修改為16 個(gè)3×3 卷積,進(jìn)一步降低模型參數(shù)量,模型的網(wǎng)絡(luò)配置見圖3E。此外,在block 基礎(chǔ)上引入通道注意力機(jī)制(Squeezeand-Excitation,SEnet)模塊,利用注意力模塊,提高對(duì)魚類特征的捕獲能力,如圖3D 所示。一方面,該模塊增強(qiáng)了圖像的局部信息特征的提取能力,另一方面,充分利用上下文信息,提高了網(wǎng)箱和魚的特征提取能力。
圖3 LFR-Net 網(wǎng)絡(luò)框架Fig.3 LFR-Net Network framework
(2)頸部網(wǎng)絡(luò):如圖3B 所示,頸部網(wǎng)絡(luò)常用于特征圖融合,優(yōu)化特征表達(dá)能力,本文模型采用路徑聚合網(wǎng)絡(luò)結(jié)構(gòu)(Path Aggregation Network,PANet),其最早用于圖像分割領(lǐng)域,例如,以輸入圖像尺寸(1 920×1 920 像素)為例,經(jīng)過(guò)主干網(wǎng)絡(luò)后分別獲取4 種不同尺度的特征 圖(240×240、120×120、60×60、30×30 像素),經(jīng)過(guò)上采樣和連接層后,用于檢測(cè)不同大小的目標(biāo),進(jìn)一步緩解魚類目標(biāo)檢測(cè)精度不高的問(wèn)題,增強(qiáng)特征融合能力。
(3)預(yù)測(cè)頭:預(yù)測(cè)頭是檢測(cè)器的預(yù)測(cè)部分,用于輸出圖像中魚類的位置和置信度,如圖3C所示?;诜菢O大抑制方法進(jìn)行最大局部搜索,去除冗余的檢測(cè)框,篩選置信度最高的檢測(cè)框,最終輸出并顯示目標(biāo)檢測(cè)結(jié)果,包含位置、類別以及檢測(cè)目標(biāo)的概率。
試驗(yàn)平臺(tái)訓(xùn)練環(huán)境的基本設(shè)置如表1 所示。訓(xùn)練過(guò)程采用遷移學(xué)習(xí)的方式進(jìn)行,模型加載ImageNet 的預(yù)訓(xùn)練權(quán)重進(jìn)行微調(diào),模型的超參數(shù)設(shè)置值見表2。為驗(yàn)證改進(jìn)模型的有效性及改進(jìn)模型的檢測(cè)效果,采用4 種不同骨干網(wǎng)絡(luò)進(jìn)行對(duì)比試驗(yàn)[29-32]。
表1 訓(xùn)練環(huán)境設(shè)置Table 1 Training environment settings
表2 模型超參數(shù)設(shè)置Table 2 Model hyperparameter settings
如表3 所示,模型的評(píng)價(jià)指標(biāo)包含精確率、召回率、平均精度及F1 分?jǐn)?shù)[33-34],其計(jì)算公式如下:
表3 模型評(píng)價(jià)指標(biāo)Table 3 Model evaluation index
式中,TP(True Positive)為IOU > IOU 閾值的檢測(cè)框數(shù)(IOU 閾值=0.5);FP(False Positive)為IOU <=IOU 閾值(IOU 閾值=0.5)的檢測(cè)框數(shù);FN(False Negative)為未檢測(cè)到GT的數(shù)量,GT為手工標(biāo)注的外接矩形(標(biāo)簽);n為類別,AP為平均精確度。
此外,本文使用第三方Thop 庫(kù)中的Pofile 函數(shù)對(duì)模型參數(shù)量和模型計(jì)算量進(jìn)行計(jì)算。Profile函數(shù)實(shí)現(xiàn)機(jī)制是 利用PyTorch 中的注冊(cè)模塊前鉤(Register_forward_hook),為所有模塊注冊(cè)一個(gè)全局前向鉤子。
本文選擇4 種其他模型進(jìn)行對(duì)比試驗(yàn),包含YOLOV3-ting(Darknet53)、YOLOV5(CSPdarknet53)、YOLOV5(Repvgg)、YOLOV5s(Transformer)。訓(xùn)練輪數(shù)是300 Epoch,模型訓(xùn)練的超參數(shù)見表2。對(duì)比結(jié)果如表4 所示,本模型的參數(shù)量最少、計(jì)算量最少,與YOLOV5 模型相比,改進(jìn)后模型mAP 提高9.7%,推理數(shù)據(jù)集隨機(jī)抽取50 張圖片,本模型平均每張圖片推理速度為0.08868 s。
表4 不同模型的檢測(cè)結(jié)果Table 4 Test results of different models
各模型訓(xùn)練過(guò)程的評(píng)價(jià)指標(biāo),包括精確度、召回率以及mAP0.5 的趨勢(shì)圖如圖4 所示,在精確度、召回率和mAP 的趨勢(shì)圖中,所有模型趨勢(shì)基本在epoch=180 穩(wěn)定,后續(xù)可以縮減訓(xùn)練輪數(shù)、加快訓(xùn)練進(jìn)度。此外,本文提出的模型評(píng)價(jià)指標(biāo)均優(yōu)于其他模型,在參數(shù)總量和計(jì)算量減少下,mAP 為0.957,模型消融實(shí)驗(yàn)結(jié)果見表5。
表5 消融試驗(yàn)Table 5 Ablation experiment
圖4 不同模型訓(xùn)練過(guò)程Fig.4 Training process of different models
圖5 展示了網(wǎng)箱和魚類檢測(cè)實(shí)例,圖5A、C為正確識(shí)別的實(shí)例,但由于姿態(tài)和噪聲,模型存在假陽(yáng)性案例(圖5D),圖像顯示有兩個(gè)檢測(cè)框,后續(xù)可以提高冗余框篩選的閾值。另一現(xiàn)象表明,在網(wǎng)箱邊緣識(shí)別效果不佳,魚在網(wǎng)箱附近時(shí),受噪聲干擾影響,易錯(cuò)誤識(shí)別為魚(圖5B)。
圖5 LAPR-Net 模型檢測(cè)實(shí)例Fig.5 Detection instances of LAPR-Net model
為更好地理解基于所提出改進(jìn)模型的學(xué)習(xí)能力,選取模型的類激活圖進(jìn)行解釋,本文結(jié)合GradCAM 熱力圖可視化,可視化的部分結(jié)果如圖6所示[35]??梢园l(fā)現(xiàn),不同的特征圖激活不同區(qū)域,如魚所在的區(qū)域、魚的背景。此外,由于識(shí)別的對(duì)象顏色和背景相似,網(wǎng)箱的輪廓邊緣部分也被激活,后續(xù)在聲信號(hào)轉(zhuǎn)聲吶圖像過(guò)程中,可更換不同的顏色背景,提高模型的識(shí)別精度。
圖6 不同卷積層熱力圖分析Fig.6 Thermodynamic diagram analysis o f different convolutional layers
近年來(lái),隨著對(duì)動(dòng)物蛋白需求的不斷增加和傳統(tǒng)漁業(yè)資源的嚴(yán)重減少,漁業(yè)正逐步向水產(chǎn)設(shè)施養(yǎng)殖轉(zhuǎn)型。其中,網(wǎng)箱生物識(shí)別是海洋牧場(chǎng)的關(guān)鍵作業(yè)流程之一。考慮到光學(xué)傳感器在水下場(chǎng)景中的客觀局限性,渾濁水體成像方法常利用非光學(xué)傳感器,如激光雷達(dá)、聲吶等,該方式有助于對(duì)結(jié)構(gòu)復(fù)雜、渾濁黑暗的水下環(huán)境進(jìn)行目標(biāo)識(shí)別和計(jì)數(shù)。但是該類型設(shè)備成像分辨率低,易受運(yùn)動(dòng)載體和環(huán)境噪聲影響,計(jì)算量較大[36]。本文采用前視聲納技術(shù),提出一種輕量級(jí)的魚類識(shí)別模型(LAPR-Net),實(shí)現(xiàn)渾濁或黑暗場(chǎng)景下水體魚類識(shí)別。
相比于傳統(tǒng)的機(jī)器視覺(jué)方法,利用基于人工設(shè)計(jì)特征,獲取目標(biāo)的位置信息,本文提出的模型可以自動(dòng)提取目標(biāo)特征,主干網(wǎng)絡(luò)模塊采用輕量級(jí)MobileNetV3 benck 塊,利用線性瓶頸的逆殘差結(jié)構(gòu)和深度可分離卷積提取聲吶圖像中魚類的特征,通過(guò)注意力機(jī)制SE-Net 來(lái)獲取聲納圖像多尺度語(yǔ)義特征并增強(qiáng)特征之間的相關(guān)性,本文選擇4 種其他模型進(jìn)行對(duì)比試驗(yàn),包含YOLOV3-ting(Darknet53)、YOLOV5(CSPdarknet53)、YOLOV5(Repvgg)、YOLOV5s(Transformer),試驗(yàn)結(jié)果顯示,本文提出的模型的參數(shù)量最少(3 545 453 M)、計(jì)算量最少(6.3 G),同YOLOV5 模型相比,改進(jìn)后模型mAP 提高9.7%,為后續(xù)渾濁或者黑暗場(chǎng)景下魚類檢測(cè)模型部署提供參考。
此外,受網(wǎng)箱和水流振動(dòng)產(chǎn)生噪聲的影響,小目標(biāo)易錯(cuò)誤識(shí)別為噪聲。隨著設(shè)備算力的提高,以深度學(xué)習(xí)為代表的技術(shù)逐漸成為水產(chǎn)養(yǎng)殖識(shí)別研究的新方式,可以加快圖像的處理效率,可推動(dòng)多模態(tài)圖像融合在水產(chǎn)領(lǐng)域的應(yīng)用前景[37],結(jié)合不同類型的相機(jī),利用信息融合技術(shù)實(shí)現(xiàn)水下動(dòng)物多類型數(shù)據(jù)信息融合,在遠(yuǎn)距離范圍,采用聲吶信息,近距離或者小型魚,采用光學(xué)相機(jī),提高小型魚的檢測(cè)精度[38]。
近年來(lái),混響噪聲和復(fù)雜背景的干擾是魚類難以檢測(cè)的問(wèn)題的關(guān)鍵。本文提出了一種輕量級(jí)的魚類識(shí)別模型(LAPR-Net),實(shí)現(xiàn)渾濁水體下魚類檢測(cè)。該模型在YOLOV5 模型基礎(chǔ)上,主體結(jié)構(gòu)采用MobileNetV3 benck 塊,利用線性瓶頸的逆殘差結(jié)構(gòu)和深度可分離卷積提取聲吶圖像中魚類的特征,通過(guò)注意力機(jī)制SE-Net 來(lái)獲取聲納圖像多尺度語(yǔ)義特征并增強(qiáng)特征之間的相關(guān)性。同YOLOV5模型相比,改進(jìn)后模型mAP提高9.7%,模型參數(shù)量為3 545 453 M、計(jì)算量為6.3 G,對(duì)于海洋牧場(chǎng)智慧養(yǎng)殖提供魚類檢測(cè)方案。