李道亮 姜國(guó)旗 楊建安 白 羽 謝 琰 王承國(guó)
(1.中國(guó)農(nóng)業(yè)大學(xué)國(guó)家數(shù)字漁業(yè)創(chuàng)新中心, 北京 100083; 2.中國(guó)農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院, 北京 100083;3.中國(guó)農(nóng)業(yè)大學(xué)煙臺(tái)研究院, 煙臺(tái) 264670)
在水產(chǎn)養(yǎng)殖中,魚類福利對(duì)于魚的生長(zhǎng)有著至關(guān)重要的影響[1-3],其中溶解氧是影響魚類福利水平的重要指標(biāo)之一。在工廠化水產(chǎn)養(yǎng)殖中,溶解氧含量與魚類養(yǎng)殖密度密切相關(guān),一旦水池長(zhǎng)時(shí)間處于低氧狀態(tài)下,魚將會(huì)大面積的出現(xiàn)生長(zhǎng)放緩、生殖能力下降、免疫功能低下和發(fā)病率、死亡率升高等現(xiàn)象[4-5]。傳統(tǒng)水產(chǎn)養(yǎng)殖方式主要依賴養(yǎng)殖人員的經(jīng)驗(yàn)和肉眼觀察來(lái)判斷魚是否受低氧環(huán)境脅迫,但其實(shí)時(shí)性差、可靠性低、準(zhǔn)確性低。為了工廠化水產(chǎn)養(yǎng)殖能夠盡可能減少人工干預(yù)、增加魚的福利以取得最大化的收益,有必要提出一種對(duì)魚的低氧脅迫行為可實(shí)時(shí)、可靠、準(zhǔn)確判斷的方法。
計(jì)算機(jī)視覺(jué)技術(shù)作為一種非入侵式且穩(wěn)定性較好的方法,逐漸成為魚類物種行為檢測(cè)的首選[6]。計(jì)算機(jī)視覺(jué)常見(jiàn)的任務(wù)包括圖像分類、目標(biāo)檢測(cè)[7-8]、目標(biāo)跟蹤[9-10],在水產(chǎn)養(yǎng)殖行業(yè)已經(jīng)得到了較廣泛的應(yīng)用。針對(duì)渾濁的水下環(huán)境,HUSSAM等[11]將彩色多尺度Retinex顏色增強(qiáng)技術(shù)與YOLO算法結(jié)合以實(shí)現(xiàn)較高的魚類檢測(cè)精度。DU等[12]提出了一種ResNet50-LSTM算法來(lái)識(shí)別魚育種過(guò)程中的基本行為,該算法在光照強(qiáng)度低、養(yǎng)殖密度高、養(yǎng)殖環(huán)境復(fù)雜的養(yǎng)殖車間中檢測(cè)效果顯著,有很好的魯棒性和有效性。CAI等[13]將YOLO v3和MobileNet進(jìn)行結(jié)合,優(yōu)化了MobileNet骨干網(wǎng)絡(luò)中特征圖的確定策略,相對(duì)于原模型其檢測(cè)精度提升3.06個(gè)百分點(diǎn),且推理速度也有明顯提升。HU等[14]提出了一種改進(jìn)的YOLO v4算法用于檢測(cè)殘余飼料顆粒,其對(duì)密集連接和去冗余操作進(jìn)行特征映射改進(jìn),AP50增長(zhǎng)27.21個(gè)百分點(diǎn),計(jì)算量減少30%,但其更適用于極小目標(biāo)的檢測(cè)。
隨著深度學(xué)習(xí)的迅速發(fā)展和目標(biāo)檢測(cè)算法精度不斷提升,基于目標(biāo)檢測(cè)的多目標(biāo)跟蹤算法已成為主流,根據(jù)目標(biāo)跟蹤類型分為單目標(biāo)跟蹤和多目標(biāo)跟蹤。WANG等[15]提出了一種檢測(cè)、跟蹤魚類異常行為的YOLO v5和SiamRPN++組合網(wǎng)絡(luò),其主要對(duì)檢測(cè)頭、上采樣和下采樣進(jìn)行改進(jìn),檢測(cè)精度和速度效果較好,但SiamRPN++采用迭代的方式實(shí)現(xiàn)多目標(biāo)跟蹤,原理上還是單目標(biāo)追蹤,當(dāng)?shù)螖?shù)過(guò)多時(shí),會(huì)消耗大量的GPU資源。SI等[16]采用YOLO v5和多目標(biāo)跟蹤技術(shù)DeepSORT開(kāi)發(fā)了一套準(zhǔn)確可靠的多斑馬魚幼蟲(chóng)跟蹤系統(tǒng),其檢測(cè)精度和跟蹤精度的魯棒性相對(duì)較好,但對(duì)于檢測(cè)器和跟蹤器還有很大的提升空間。
因此,本文構(gòu)建一種改進(jìn)的YOLO v5和DeepSORT組合網(wǎng)絡(luò)算法用于檢測(cè)和跟蹤魚類低氧脅迫行為,為魚類高效養(yǎng)殖提供技術(shù)支持,其主要包含檢測(cè)器YOLO v5和跟蹤器DeepSORT兩部分,在檢測(cè)器原基礎(chǔ)模型上增加基于移位窗口的自注意力機(jī)制Swin Transformer用于提升YOLO v5中Backbone和Neck對(duì)特征信息的提取能力,進(jìn)而提高YOLO v5對(duì)魚類低氧脅迫行為檢測(cè)精度,在跟蹤器方面采用Warmup和Cosine Annealing結(jié)合的策略對(duì)學(xué)習(xí)率進(jìn)行調(diào)整以加速模型收斂,以提升跟蹤模型整體性能。
魚類低氧脅迫行為識(shí)別所用到的實(shí)驗(yàn)數(shù)據(jù)取自于重慶農(nóng)業(yè)科學(xué)院魚菜共生AI工廠,選取對(duì)象為50條亞成年加州鱸魚,采用??低曌兘箶z像頭(4.0×106像素)以速度25 f/s拍攝視頻數(shù)據(jù)片段共90個(gè),拍攝時(shí)間為2022年6—8月,期間拍攝時(shí)間段為 09:00—11:30、13:30—17:30。整個(gè)視頻數(shù)據(jù)采集的過(guò)程中,除實(shí)驗(yàn)池中溶解氧含量會(huì)出現(xiàn)大幅度變化外,其余水質(zhì)參數(shù)指標(biāo)均控制在亞成年加州鱸魚正常生活范圍內(nèi),實(shí)驗(yàn)場(chǎng)地(1.5 m×2 m)如圖1所示。
圖1 實(shí)驗(yàn)場(chǎng)地Fig.1 Experimental site
從拍攝的視頻中抽取圖像序列并通過(guò)Labelimg工具進(jìn)行標(biāo)注、Python圖像截取,其中1 439幅圖像用于檢測(cè)器,9 184幅圖像用于跟蹤器。對(duì)于檢測(cè)器圖像,為了防止過(guò)擬合、避免樣本不均衡,并為了提升模型的魯棒性及泛化能力,分別對(duì)其中的200、600、170幅圖像添加高斯噪聲、椒鹽噪聲及亮度調(diào)節(jié),并對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)劃分,訓(xùn)練集與驗(yàn)證集圖像數(shù)量比為8∶2。對(duì)于跟蹤器圖像,將截取圖像按照Market1501數(shù)據(jù)集格式進(jìn)行分配,訓(xùn)練集與驗(yàn)證集比為9∶1。
采用檢測(cè)和目標(biāo)跟蹤算法YOLO v5與DeepSORT。YOLO v5作為檢測(cè)器對(duì)視頻幀中的目標(biāo)進(jìn)行檢測(cè),檢測(cè)結(jié)果作為跟蹤器DeepSORT的輸入,更高的檢測(cè)精度能提升DeepSORT的跟蹤性能。DeepSORT提取檢測(cè)器檢測(cè)的目標(biāo)特征,計(jì)算前后兩幀目標(biāo)的匹配程度,為每個(gè)所追蹤到的目標(biāo)分配對(duì)應(yīng)ID。
目前,主流的目標(biāo)檢測(cè)算法主要分為One-Stage和Two-Stage。One-Stage直接通過(guò)主干網(wǎng)絡(luò)給出類別和位置信息,其算法包括YOLO[17-18]系列、SSD[19]和EfficientDet[20]。Two-Stage先由算法生成一系列樣本的候選框,再通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取相關(guān)特征進(jìn)行目標(biāo)的分類和定位,其代表算法為R-CNN[21]系列。通常情況下,前者相對(duì)后者檢測(cè)速度較快,在某些情況下檢測(cè)精度略高。
2.1.1Swin Transformer注意力機(jī)制
Swin Transformer[22]作為一種通用的計(jì)算機(jī)視覺(jué)主干網(wǎng)絡(luò),主要解決Transformer從NLP領(lǐng)域調(diào)整到 CV領(lǐng)域所帶來(lái)的實(shí)體尺寸、分辨率等差異。其作為一種分層級(jí)的Transformer,通過(guò)移位窗口將自注意的計(jì)算限制在非重疊的局部窗口上,并允許跨窗口連接。
Swin Transformer整體架構(gòu)如圖2a所示,它首先是通過(guò)面片分割模塊將輸入的RGB圖像分割成不重疊的面片,每個(gè)面片都被看作一個(gè)“token”,其特征被設(shè)置為原始像素RGB的連接。本文使用的是4×4的面片尺寸,其特征維數(shù)為4×4×3=48,并將該原始值特征上應(yīng)用線性嵌入層,將其投影到任意維度C。Swin Transformer共包含4個(gè)階段,每個(gè)階段都包含2部分,分別是Patch Merging(第1 階段為L(zhǎng)inear Embedding)和連續(xù)的Swin Transformer Block,目的是用來(lái)計(jì)算相關(guān)性和采樣,其第1階段不會(huì)改變特征圖尺寸,其余3個(gè)階段在改變特征圖的同時(shí)改變了通道數(shù)。Swin Transformer Block是在標(biāo)準(zhǔn)的Transformer基礎(chǔ)上,替換多頭注意力計(jì)算部分MSA(Multi-head self-attention)為基于移位窗口的模塊W-MSA(Windows multi-head self-attention)和SW-MSA(Shifted windows multi-head self-attention),其余結(jié)構(gòu)不變,如圖2b所示。
圖2 Swin Transformer注意力機(jī)制Fig.2 Swin Transformer attention mechanism
2.1.2YOLO v5算法優(yōu)化
本文構(gòu)建了一種新的目標(biāo)檢測(cè)算法ST-YOLO v5,網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,其主要由4部分組成,分別為輸入端、Backbone、Neck和Prediction。輸入端主要對(duì)輸入數(shù)據(jù)進(jìn)行Mosaic數(shù)據(jù)增強(qiáng)、自適應(yīng)錨框計(jì)算以及自適應(yīng)圖像縮放。Backbone主要由Focus、C3及SPP等模塊組成,主要目的是目標(biāo)特征提取。Neck采用FPN+PAN結(jié)構(gòu),其中FPN和PAN的走向相反,前者從上往下傳遞強(qiáng)語(yǔ)義特征,后者從下往上傳遞強(qiáng)定位信息,讓模型的參數(shù)在不同的層次進(jìn)行聚合。Prediction的主體部分由3個(gè)Detect組成,其利用基于網(wǎng)格的anchor在不同尺度的特征圖上進(jìn)行目標(biāo)檢測(cè),進(jìn)行最終預(yù)測(cè)的輸出。
圖3 ST-YOLO v5網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 ST-YOLO v5 network structure
在ST-YOLO v5中,首先將原YOLO v5的C3模塊與Swin Transformer模塊結(jié)合成C3STR模塊,并分別對(duì)Backbone中最后2個(gè)C3模塊、Neck中前2個(gè)C3模塊進(jìn)行C3STR模塊的改進(jìn)替換。經(jīng)過(guò)實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),ST-YOLO v5的檢測(cè)效果明顯優(yōu)于原YOLO v5。因此,ST-YOLO v5更適合作為檢測(cè)器。
SORT算法是DeepSORT的前身[23-24],其跟蹤過(guò)程是首先通過(guò)檢測(cè)器(如Faster R-CNN、YOLO等)把每一幀的物體檢測(cè)出來(lái),隨后通過(guò)卡爾曼濾波算法[25-26]和匈牙利算法[27]分別進(jìn)行幀預(yù)測(cè)、匹配。SORT檢測(cè)速度較快,但是當(dāng)物體發(fā)生遮擋時(shí)會(huì)出現(xiàn)頻繁的ID切換,進(jìn)而導(dǎo)致跟蹤效果不佳。因此,DeepSORT在SORT模型的基礎(chǔ)上引入級(jí)聯(lián)匹配(Matching cascade)和新軌跡確認(rèn)(Confirmed),可以有效地改善遮擋情況下目標(biāo)跟蹤的效果。
2.2.1學(xué)習(xí)率策略
在訓(xùn)練過(guò)程初期因距離目標(biāo)太遠(yuǎn),一般采用較大的學(xué)習(xí)率,但較大的學(xué)習(xí)率容易導(dǎo)致不穩(wěn)定性。DeepSORT的學(xué)習(xí)率策略為每過(guò)20輪迭代,學(xué)習(xí)率變?yōu)樵瓕W(xué)習(xí)率的1/10。而這種學(xué)習(xí)率策略會(huì)使學(xué)習(xí)率出現(xiàn)階梯現(xiàn)象,導(dǎo)致模型不能快速、穩(wěn)定收斂。為了解決這種慢且不穩(wěn)定的收斂情況,本文采用Warmup策略[28]對(duì)前5個(gè)epoch進(jìn)行預(yù)熱學(xué)習(xí)率調(diào)整。該策略的核心在于逐步預(yù)熱,它將學(xué)習(xí)率從一個(gè)小值逐漸增加到一個(gè)大值,可有效地解決模型前期收斂慢、不穩(wěn)定問(wèn)題。
通常在模型訓(xùn)練過(guò)程中,隨著模型訓(xùn)練的進(jìn)行,會(huì)逐漸降低學(xué)習(xí)率,這樣才有助于找到最優(yōu)解。因此,當(dāng)采用Warmup策略逐步預(yù)熱學(xué)習(xí)率到所設(shè)預(yù)值時(shí),則采用Cosine Annealing策略[29-30]對(duì)學(xué)習(xí)率進(jìn)行調(diào)整。在整個(gè)訓(xùn)練過(guò)程中學(xué)習(xí)率的變化曲線如圖4所示。
圖4 學(xué)習(xí)率變化曲線Fig.4 Learning rate change curves
由圖4可知,采用Warmup和Cosine Annealing結(jié)合的學(xué)習(xí)率調(diào)整策略能夠更好地減少學(xué)習(xí)率階梯現(xiàn)象。通過(guò)大量測(cè)驗(yàn)來(lái)驗(yàn)證這種學(xué)習(xí)率結(jié)合調(diào)整策略的可行性,驗(yàn)證結(jié)果如圖5所示。從收斂角度看,相對(duì)于原學(xué)習(xí)率調(diào)整策略,Warmup和Cosine Annealing結(jié)合的學(xué)習(xí)率調(diào)整策略能夠加快跟蹤模型收斂速度,減少了模型前期在收斂過(guò)程中階梯現(xiàn)象。因此,在跟蹤模型訓(xùn)練過(guò)程中,采用Warmup和Cosine Annealing結(jié)合的學(xué)習(xí)率策略比原有的學(xué)習(xí)率策略更適用于DeepSORT模型訓(xùn)練。
圖5 不同學(xué)習(xí)率策略下?lián)p失值和錯(cuò)誤率的變化曲線Fig.5 Change curves of loss value and error rate at different learning rates strategy
2.2.2DeepSORT算法
DeepSORT核心思想是采用傳統(tǒng)的單假設(shè)追蹤方法,使用遞歸的卡爾曼濾波和逐幀的數(shù)據(jù)關(guān)聯(lián)。DeepSORT首先采用卡爾曼濾波預(yù)測(cè)軌跡,隨后利用匈牙利算法將檢測(cè)框和預(yù)測(cè)框進(jìn)行級(jí)聯(lián)匹配和IOU匹配,最后進(jìn)行卡爾曼濾波更新,算法流程如圖6 所示。
圖6 DeepSORT跟蹤流程Fig.6 DeepSORT tracking process
在匹配問(wèn)題上,DeepSORT采用匈牙利算法來(lái)解決檢測(cè)框和預(yù)測(cè)框之間關(guān)聯(lián)性的問(wèn)題。其中對(duì)于運(yùn)動(dòng)和外觀信息的整合采用馬氏距離來(lái)描述,其計(jì)算式為
(1)
式中dj——第j個(gè)缺氧鱸魚檢測(cè)框的狀態(tài)
yi——第i個(gè)目標(biāo)跟蹤器對(duì)缺氧鱸魚經(jīng)過(guò)卡爾曼濾波后預(yù)測(cè)框的狀態(tài)
Si——檢測(cè)框和預(yù)測(cè)框之間的協(xié)方差矩陣
(2)
DeepSORT分別從運(yùn)動(dòng)物體可能位置的信息和外觀信息兩個(gè)方面考慮分配問(wèn)題。為了構(gòu)建關(guān)聯(lián)問(wèn)題,DeepSORT通過(guò)加權(quán)和將兩個(gè)指標(biāo)結(jié)合,其計(jì)算式為
ci,j=λd(1)(i,j)+(1-λ)d(2)(i,j)
(3)
3.1.1目標(biāo)檢測(cè)器評(píng)估指標(biāo)
對(duì)ST-YOLO v5性能評(píng)價(jià)主要指標(biāo)是精確率、召回率、平均精度、幀率以及權(quán)重。在指標(biāo)計(jì)算方面,在ST-YOLO v5中采用混淆矩陣,真陽(yáng)性(True positive,TP)、真陰性(True negative,TN)、假陽(yáng)性(False positive,FP)、假陰性(False negative,FN)。
3.1.2目標(biāo)跟蹤器評(píng)估指標(biāo)
在多目標(biāo)跟蹤評(píng)估方面,采用TrackEval工具對(duì)DeepSORT進(jìn)行整體性能評(píng)估,主要評(píng)估指標(biāo)分別為跟蹤準(zhǔn)確度(MOTA)、跟蹤精度(MOTP)、ID切換數(shù)(IDSW)和綜合指標(biāo)(IDF1)。其中MOTA是跟蹤準(zhǔn)確度,MOTA是對(duì)漏報(bào)數(shù)(FN)、誤報(bào)數(shù)(FP)、ID切換數(shù)(IDSW)的一個(gè)整體性評(píng)估,是衡量多目標(biāo)跟蹤模型DeepSORT在檢測(cè)和跟蹤方面一個(gè)非常直觀的性能參數(shù)。MOTA的計(jì)算式為
(4)
式中N——真實(shí)軌跡總數(shù)量
MOTP為跟蹤精度,主要考慮的是檢測(cè)框和目標(biāo)真實(shí)邊框的重疊情況,其計(jì)算式為
(5)
式中dt,i——當(dāng)前幀位置匹配誤差
ct——當(dāng)前幀匹配成功個(gè)數(shù)
IDF1為正確識(shí)別的檢測(cè)數(shù)與平均真實(shí)數(shù)和計(jì)算檢測(cè)數(shù)之比,主要評(píng)估DeepSORT算法的穩(wěn)定性,值越大表示越穩(wěn)定,其計(jì)算式為
(6)
式中IDTP——正確識(shí)別的目標(biāo)數(shù)量
IDFP——錯(cuò)誤識(shí)別為目標(biāo)數(shù)量
IDFN——未能識(shí)別為目標(biāo)數(shù)量
針對(duì)于不同場(chǎng)景和目標(biāo)物,One-Stage和Two-Stage的算法檢測(cè)效果不同。為了對(duì)目標(biāo)檢測(cè)模型進(jìn)行準(zhǔn)確選型,分別對(duì)One-Stage中的SSD、YOLO v4、YOLO v5、YOLO v6、YOLO v7、EfficientDet算法和Two-Stage中的Faster R-CNN進(jìn)行對(duì)比實(shí)驗(yàn),其實(shí)驗(yàn)結(jié)果如表1所示。表中mAP@0.5表示IOU閾值為5時(shí)識(shí)別對(duì)象的平均精度。
表1 目標(biāo)檢測(cè)算法對(duì)比實(shí)驗(yàn)結(jié)果Tab.1 Comparative experimental results of target detection algorithms
由表1可知,Two-Stage中最具有代表性的算法Faster R-CNN在幀率和權(quán)重方面均不如YOLO系列,其實(shí)時(shí)性較差,且不適合在移動(dòng)端部署。在One-Stage中SSD和EfficientDet的mAP@0.5遠(yuǎn)低于YOLO系列。對(duì)于YOLO系列,YOLO v4的mAP@0.5略高于YOLO v5,但YOLO v5的幀率遠(yuǎn)高于YOLO v4,且YOLO v5權(quán)重遠(yuǎn)遠(yuǎn)小于YOLO v4的權(quán)重。YOLO v6的幀率高于YOLO v5,但mAP@0.5和權(quán)重均不如YOLO v5。YOLO v7的mAP@0.5、權(quán)重、幀率均不如YOLO v5。鑒于本研究對(duì)于檢測(cè)精度和推理速度要求較高,因此采用YOLO v5作為基礎(chǔ)目標(biāo)檢測(cè)模型。
YOLO v5提供4種規(guī)模的版本,分別為YOLO v5s、YOLO v5m、YOLO v5l、YOLO v5x。為了更加準(zhǔn)確對(duì)目標(biāo)檢測(cè)模型版本進(jìn)行選型,對(duì)以上4種規(guī)模的版本進(jìn)行了實(shí)驗(yàn)對(duì)比,對(duì)比結(jié)果如表2所示。表中mAP@0.5:0.95表示不同IOU閾值(從0.5到0.95,步長(zhǎng)0.05)上的平均精度均值。
表2 YOLO v5不同規(guī)模版本對(duì)比實(shí)驗(yàn)結(jié)果Tab.2 Comparative experimental results of YOLO v5 versions of different scales %
由表2可知,YOLO v5s的mAP、召回率均高于其余3種,且YOLO v5s結(jié)構(gòu)相對(duì)簡(jiǎn)單,實(shí)時(shí)檢測(cè)性能好。本文將采用YOLO v5s作為基礎(chǔ)檢測(cè)器。
在深度學(xué)習(xí)中,注意力機(jī)制已經(jīng)成為一個(gè)重要的概念[31],其本質(zhì)是通過(guò)網(wǎng)絡(luò)自主學(xué)習(xí)生成一組權(quán)重系數(shù),并以動(dòng)態(tài)加權(quán)的方式來(lái)著重強(qiáng)調(diào)所關(guān)注的區(qū)域,同時(shí)忽略不相關(guān)信息。在目標(biāo)檢測(cè)領(lǐng)域,常見(jiàn)的注意力機(jī)制為SE、ECA、CA、CBAM等,它們與Swin Transformer都能提升目標(biāo)檢測(cè)模型對(duì)特征信息提取的能力,影響目標(biāo)檢測(cè)模型的精度。為了探究YOLO v5模型在不同注意力機(jī)制下提取加州鱸魚低氧脅迫行為信息的能力,進(jìn)行了一系列的對(duì)比實(shí)驗(yàn),主要參考指標(biāo)有mAP、精確率、召回率,其結(jié)果如表3所示。當(dāng)把SE和ECA添加到Y(jié)OLO v5模型中,其模型在mAP@0.5、mAP@0.5:0.95和精確率方面都有所降低。對(duì)于注意力機(jī)制CBAM,添加后其各項(xiàng)指標(biāo)均不如原YOLO v5模型。注意力機(jī)制CA在mAP@0.5、mAP@0.5:0.95方面相較于原YOLO v5模型有一定的提高,但從整體指標(biāo)對(duì)比來(lái)看提升效果遠(yuǎn)不如本文所提出的ST-YOLO v5模型。ST-YOLO v5在mAP@0.5、mAP@0.5:0.95和召回率方面分別提升1.9、1.3、0.8個(gè)百分點(diǎn)。因此,本文所提出的ST-YOLO v5更適合于檢測(cè)加州鱸魚的低氧脅迫行為。
表3 不同注意力機(jī)制對(duì)比實(shí)驗(yàn)結(jié)果Tab.3 Comparative experimental results of different attention mechanisms %
為了進(jìn)一步驗(yàn)證ST-YOLO v5模型檢測(cè)加州鱸魚低氧脅迫行為的有效性,對(duì)包含加州鱸魚低氧脅迫行為的隨機(jī)視頻幀圖像進(jìn)行實(shí)例測(cè)驗(yàn),視頻幀圖像包含遮擋和非遮擋兩種情況,其實(shí)例測(cè)驗(yàn)結(jié)果如圖7所示。由圖7可知,在相同實(shí)驗(yàn)環(huán)境下,以上6種模型均能夠識(shí)別到加州鱸魚低氧脅迫行為。但綜合視頻幀圖像的遮擋和非遮擋兩種情況來(lái)看,對(duì)于真實(shí)的加州鱸魚低氧脅迫行為,ST-YOLO v5模型所提供的置信度相對(duì)更高,表明基于移位窗口的自注意力機(jī)制Swin Transformer模塊能夠最大程度地提升目標(biāo)檢測(cè)模型YOLO v5對(duì)加州鱸魚低氧脅迫行為信息的提取能力,進(jìn)而提升模型對(duì)目標(biāo)行為的檢測(cè)效果。
圖7 不同注意力機(jī)制下YOLO實(shí)例檢測(cè)圖像Fig.7 YOLO instance detection images under different attention mechanisms
為了驗(yàn)證本文所提出的關(guān)于加州鱸魚缺氧行為跟蹤模型的有效性,在所采集的數(shù)據(jù)集中隨機(jī)挑選一段視頻進(jìn)行跟蹤測(cè)驗(yàn),其測(cè)驗(yàn)結(jié)果如圖8所示。根據(jù)優(yōu)化前后DeepSORT的實(shí)例跟蹤結(jié)果,在遮擋和非遮擋情況下,優(yōu)化后的跟蹤模型并沒(méi)有出現(xiàn)漏檢、ID切換、重檢的情況,表明本文所優(yōu)化的跟蹤模型相較于原跟蹤模型性能優(yōu)異。
圖8 實(shí)例跟蹤結(jié)果Fig.8 Instance tracking results
為了對(duì)優(yōu)化后多目標(biāo)跟蹤模型做一個(gè)整體性能評(píng)估,采用跟蹤性能評(píng)估工具TrackEval,并在采集的加州鱸魚低氧脅迫行為視頻數(shù)據(jù)集中隨機(jī)選取一段視頻用于跟蹤模型整體性能評(píng)估,選取的視頻數(shù)據(jù)片段采用DarkLabel標(biāo)注工具進(jìn)行目標(biāo)真實(shí)路徑標(biāo)注,標(biāo)注結(jié)果和跟蹤模型輸出結(jié)果作為評(píng)估工具的輸入,優(yōu)化前多目標(biāo)跟蹤模型與優(yōu)化后多目標(biāo)跟蹤模型評(píng)估結(jié)果如表4所示。
表4 跟蹤模型評(píng)估結(jié)果Tab.4 Tracking model evaluation results
由表4可知,所提出的改進(jìn)YOLO v5與DeepSORT模型相對(duì)于優(yōu)化前跟蹤模型在MOTA、MOTP和IDF1方面分別提升4.0、0.7、10.7個(gè)百分點(diǎn)。在IDSW方面,改進(jìn)后的算法模型在跟蹤缺氧的加州鱸魚時(shí),并沒(méi)有因遮擋出現(xiàn)ID切換的情況。
綜上所述,改進(jìn)后的算法模型在遮擋和非遮擋情況下性能表現(xiàn)優(yōu)異,更適用于加州鱸魚低氧脅迫行為的跟蹤。
(1)針對(duì)工廠化水產(chǎn)養(yǎng)殖中傳統(tǒng)水產(chǎn)養(yǎng)殖方式對(duì)魚類低氧脅迫行為判斷存在準(zhǔn)確率低、可靠性差、實(shí)時(shí)性差等問(wèn)題,構(gòu)建了一種基于ST-YOLO v5的多目標(biāo)跟蹤模型DeepSORT,該模型在魚類低氧脅迫行為檢測(cè)、跟蹤方面性能表現(xiàn)優(yōu)異,為魚類養(yǎng)殖人員提供了一定的技術(shù)支持。
(2)對(duì)不同類型、不同規(guī)模版本的目標(biāo)檢測(cè)算法進(jìn)行對(duì)比實(shí)驗(yàn),最終選擇YOLO v5s作為基礎(chǔ)目標(biāo)檢測(cè)算法,并構(gòu)建目標(biāo)檢測(cè)算法ST-YOLO v5。ST-YOLO v5相對(duì)于基礎(chǔ)目標(biāo)檢測(cè)算法在mAP@0.5、mAP@0.5:0.95和召回率方面分別提升1.9、1.3、0.8個(gè)百分點(diǎn),模型的整體性能更優(yōu)異。
(3)在ST-YOLO v5的基礎(chǔ)上引入多目標(biāo)跟蹤模型DeepSORT,并采用Warmup和Cosine Annealing結(jié)合的學(xué)習(xí)率調(diào)整策略加速跟蹤模型收斂。實(shí)驗(yàn)結(jié)果表明,基于ST-YOLO v5的跟蹤模型DeepSORT在MOTA、MOTP和IDF1方面分別提升4.0、0.7、10.7個(gè)百分點(diǎn),并且ID的切換頻率得到抑制。
農(nóng)業(yè)機(jī)械學(xué)報(bào)2023年10期