摘要: 【目的】動(dòng)物采食行為是一個(gè)重要的動(dòng)物福利評(píng)價(jià)指標(biāo),本研究旨在解決復(fù)雜飼養(yǎng)環(huán)境下奶牛采食行為識(shí)別精度差、特征提取不充分的問(wèn)題,實(shí)現(xiàn)對(duì)奶牛采食行為的自動(dòng)監(jiān)控?!痉椒ā勘疚奶岢隽艘环N基于改進(jìn)BCEYOLO模型的識(shí)別方法,該方法通過(guò)添加BiFormer、CoT、EMA 3 個(gè)增強(qiáng)模塊,提高YOLOv8 模型特征提取的能力,進(jìn)一步與優(yōu)于Staple、SiameseRPN 算法的Deep SORT 算法結(jié)合,實(shí)現(xiàn)對(duì)奶牛采食時(shí)頭部軌跡的跟蹤。在奶牛采食過(guò)程的俯視和正視視頻中提取11 288 張圖像,按照6∶1 比例分為訓(xùn)練集和測(cè)試集,構(gòu)建采食數(shù)據(jù)集?!窘Y(jié)果】改進(jìn)的BCE-YOLO 模型在前方和上方拍攝的數(shù)據(jù)集上精確度分別為77.73%、76.32%,召回率分別為82.57%、86.33%,平均精確度均值分別為83.70%、76.81%;相較于YOLOv8 模型,整體性能提升6~8 個(gè)百分點(diǎn)。Deep SORT 算法相比于Staple、SiameseRPN 算法,綜合性能提高1~4 個(gè)百分點(diǎn);并且改進(jìn)的BCE-YOLO 模型與Deep SORT 目標(biāo)跟蹤算法結(jié)合良好,能對(duì)奶牛采食行為進(jìn)行準(zhǔn)確跟蹤且有效地抑制了奶牛ID(Identitydocument) 的變更?!窘Y(jié)論】本文提出的方法能有效解決復(fù)雜飼養(yǎng)環(huán)境下奶牛采食行為識(shí)別精度差、特征提取不充分的問(wèn)題,為智能畜牧與精確養(yǎng)殖提供重要參考。
關(guān)鍵詞: 奶牛;采食行為識(shí)別;優(yōu)化YOLOv8 模型;Deep SORT
中圖分類號(hào): TP391.4;S823 文獻(xiàn)標(biāo)志碼: A 文章編號(hào): 1001-411X(2024)05-0782-11
奶牛的采食行為是經(jīng)常被用于預(yù)測(cè)奶牛疾病的行為之一[1-2],奶牛在采食過(guò)程中的頭部運(yùn)動(dòng)變化可以用于評(píng)價(jià)奶牛的采食狀況,進(jìn)而評(píng)價(jià)飼草料的優(yōu)劣。因此在現(xiàn)代化智能養(yǎng)殖場(chǎng)中,監(jiān)測(cè)奶牛采食行為并對(duì)奶牛頭部的活動(dòng)進(jìn)行跟蹤記錄是非常重要的。研究發(fā)現(xiàn),采食量和產(chǎn)奶量的下降與疾病有關(guān)[3],患有乳腺炎的奶牛的飼料和干物質(zhì)采食量會(huì)下降。跛足牛和非跛足牛在采食時(shí)間、采食頻率和采食量方面存在顯著差異,根據(jù)這個(gè)差異可以判斷奶牛的腿部健康狀況[4]。這些研究已經(jīng)清楚地表明疾病會(huì)對(duì)采食行為有重大影響。因此,對(duì)奶牛采食行為進(jìn)行監(jiān)測(cè)是保障智能畜牧和提高動(dòng)物福利的重要手段。
在監(jiān)測(cè)奶牛采食行為的技術(shù)中,最基本的問(wèn)題是準(zhǔn)確識(shí)別奶牛的采食行為。有研究表明,實(shí)時(shí)定位系統(tǒng)和超寬帶系統(tǒng)能夠通過(guò)估計(jì)奶牛在采食區(qū)花費(fèi)的時(shí)間來(lái)判斷奶牛的采食行為[5];但不能確定奶牛是否進(jìn)行有效進(jìn)食。還有研究將壓力傳感器安裝在奶牛身上監(jiān)測(cè)咀嚼運(yùn)動(dòng),雖然傳感器具有良好的監(jiān)測(cè)性能,但使用相對(duì)繁瑣,且給奶牛佩戴時(shí)不方便[6]。利用基于慣性測(cè)量單元和射頻識(shí)別系統(tǒng)的耳掛式傳感器可以對(duì)奶牛進(jìn)行定位以及采食行為監(jiān)測(cè)[7-8],但只能判斷奶牛的動(dòng)作幅度,不能判斷奶牛是否有效進(jìn)食。從以上研究可以看出,在奶牛采食行為監(jiān)測(cè)方面已經(jīng)取得一些研究成果。但是,上述研究通常成本高或者對(duì)采食行為判斷不準(zhǔn)確,無(wú)法應(yīng)用到實(shí)際養(yǎng)殖場(chǎng)飼養(yǎng)環(huán)境中。因此,需要進(jìn)一步尋找有效的解決方法。
近些年來(lái),深度學(xué)習(xí)在畜牧業(yè)中得到了廣泛應(yīng)用[9]。白強(qiáng)等[10] 使用改進(jìn)YOLOv5s 網(wǎng)絡(luò)實(shí)現(xiàn)奶牛的站立、喝水、行走、躺臥等行為識(shí)別。楊阿慶[11] 利用全卷積網(wǎng)絡(luò)對(duì)母豬頭部特征進(jìn)行提取,并將頭部與采食區(qū)重疊區(qū)域作為空間特征來(lái)識(shí)別母豬采食行為。王政等[12] 提出了融合YOLOv5n 與通道剪枝算法的輕量化識(shí)別方法,實(shí)現(xiàn)了奶牛發(fā)情行為識(shí)別。Bezen 等[13] 基于CNN 模型和RGB-D 攝像機(jī)設(shè)計(jì)出一種用于奶牛個(gè)體采食量測(cè)量的系統(tǒng)。Lao等[14] 開(kāi)發(fā)了一種基于預(yù)處理深度圖像數(shù)據(jù)的算法,用于研究母豬的攝食行為。Shelley 等[15] 設(shè)計(jì)了一種3D 圖像分析方法,用于測(cè)量奶牛飼喂期前后飼喂器中可用食物量的變化。以上研究表明,深度學(xué)習(xí)算法用于奶牛的采食行為研究是可行的,但是目前尚未有研究對(duì)奶牛采食動(dòng)作進(jìn)行區(qū)分以及對(duì)奶牛采食過(guò)程進(jìn)行跟蹤,因此對(duì)奶牛采食行為識(shí)別以及跟蹤的研究是必要的。
由于奶牛在采食過(guò)程中動(dòng)作快、采食動(dòng)作特征復(fù)雜,很容易對(duì)目標(biāo)產(chǎn)生錯(cuò)檢或者漏檢,所以本文從以上問(wèn)題出發(fā),以YOLOv8 模型為基礎(chǔ),通過(guò)使用BiFormer 模塊的多頭自適應(yīng)注意力機(jī)制加強(qiáng)對(duì)奶牛采食行為特征的學(xué)習(xí)、提取,使用CoT、EMA模塊對(duì)奶牛特征進(jìn)行強(qiáng)化并加強(qiáng)分類,以此來(lái)增強(qiáng)對(duì)采食行為識(shí)別檢測(cè)的準(zhǔn)確性,提出一種TCEYOLO深度學(xué)習(xí)算法模型,并與Deep SORT 算法結(jié)合以實(shí)現(xiàn)對(duì)奶牛采食時(shí)頭部的跟蹤與軌跡繪制。
1 材料與方法
1.1 數(shù)據(jù)采集與預(yù)處理
本研究的奶牛采食行為數(shù)據(jù)集來(lái)自山東省泰安市泰安金蘭奶牛養(yǎng)殖公司。試驗(yàn)數(shù)據(jù)利用ZED2 雙目深度相機(jī)(生產(chǎn)商為STEREOLABS 公司) 進(jìn)行拍攝,本文使用單目分辨率為1 280 像素×720 像素,傳輸幀率能達(dá)到穩(wěn)定30 幀/s。由于牛欄頂端距地面高度為1.35 m、飼料帶寬度0.8 m,為了避免干涉奶牛的正常采食行為,本文選擇相機(jī)拍攝位置為奶牛采食區(qū)上方1.75 m 處以及奶牛采食區(qū)前方1.2 m、高0.8 m 處,采集不同拍攝方向下奶牛的采食行為。
在圖像采集過(guò)程中,一共采集視頻數(shù)據(jù)20 組,每組包含4 個(gè)視頻,每個(gè)視頻長(zhǎng)度為10~14 min。為了保證動(dòng)作的連貫性,本文利用ZED API 對(duì)視頻以一秒一幀的方式提取圖像,去除重復(fù)、模糊、重影以及不包含奶牛采食行為的無(wú)效圖像,選取有效數(shù)據(jù)集11 288 張圖像,17 頭奶牛的采食動(dòng)作均包含在數(shù)據(jù)集中,其中前方拍攝圖像數(shù)量為5 742 張,上方拍攝圖像數(shù)量為5 546 張。
本文使用開(kāi)源標(biāo)注工具LabelImg 人工對(duì)11 288張奶牛采食行為原始圖像進(jìn)行標(biāo)注,標(biāo)簽TTJJ 為咀嚼行為,DTCS 為采食行為,GS 為拱草行為。根據(jù)動(dòng)作時(shí)間提取連續(xù)幀,將這一段連續(xù)幀定義一個(gè)動(dòng)作,通過(guò)觀察和統(tǒng)計(jì)得出各行為時(shí)長(zhǎng):采食行為持續(xù)時(shí)長(zhǎng)為15~35 s,咀嚼行為持續(xù)時(shí)長(zhǎng)為5~10 s,拱草行為持續(xù)時(shí)長(zhǎng)為1~15 s。將原始數(shù)據(jù)集分為上方拍攝數(shù)據(jù)集和前方拍攝數(shù)據(jù)集,每組數(shù)據(jù)集選取500 張作為驗(yàn)證集,在剩余圖像中,將上方拍攝數(shù)據(jù)集按照6∶1 的比例分為4 320 張訓(xùn)練數(shù)據(jù)集圖像和726 張測(cè)試數(shù)據(jù)集圖像,將前方拍攝的數(shù)據(jù)集按照6∶1 的比例分為4 484 張訓(xùn)練數(shù)據(jù)集圖像和758 張測(cè)試數(shù)據(jù)集圖像。
在養(yǎng)殖場(chǎng)飼養(yǎng)環(huán)境下,奶牛只有在采食區(qū)且奶牛頭部與飼料接觸時(shí)才可能進(jìn)行采食行為,而在采食區(qū)抬頭時(shí)基本處于咀嚼飼料以及準(zhǔn)備繼續(xù)采食的過(guò)程,當(dāng)奶牛攝取足夠的飼料后便會(huì)離開(kāi)采食區(qū)。因此,在分析奶牛采食行為過(guò)程中,將奶牛采食行為分為采食和咀嚼兩大部分,其中采食還可分為采食和拱草2 種行為。其中,各個(gè)行為在數(shù)據(jù)集中占比如表1 所示。
1.2 改進(jìn)BCE-YOLO 模型
1.2.1 BCE-YOLO 模型建立
YOLOv8 是目前廣泛應(yīng)用的模型,使用了更為豐富的數(shù)據(jù)增強(qiáng)技術(shù),更好地增加了訓(xùn)練數(shù)據(jù)的多樣性,有效提高了模型的泛化能力,還具有更好的自適應(yīng)圖像縮放功能,可以確保目標(biāo)跟蹤時(shí)不會(huì)因?yàn)閳D像長(zhǎng)寬比改變而影響檢測(cè)位置像素判斷。YOLOv8 模型的檢測(cè)速度雖然很快,但是存在檢測(cè)精度不高、對(duì)模型的特征提取不全面的問(wèn)題,因此本文以YOLOv8 為基礎(chǔ),使用模型增強(qiáng)模塊來(lái)提升模型的檢測(cè)性能。
由于目標(biāo)跟蹤的前提是需要對(duì)模型特征進(jìn)行準(zhǔn)確的提取,因此在高效率YOLOv8 的基礎(chǔ)上增加BiFormer 模塊,利用BiFormer 模塊的自適應(yīng)注意力機(jī)制實(shí)現(xiàn)對(duì)奶牛采食行為特征的準(zhǔn)確掌握與判斷;在Focus 層后增加CoT 模塊,使得模型的注意力集中于奶牛采食行為的特征,在骨干網(wǎng)絡(luò)末端融合EMA 模塊,提升特征圖的全局感受野以及模型的分類能力。在模型預(yù)測(cè)模塊方面,引用了CIoU[16] 代替GIoU,考慮到尺度、距離、懲罰項(xiàng)和錨框之間的重疊率對(duì)損失函數(shù)的影響,目標(biāo)幀回歸變得更加穩(wěn)定,公式如下:
式中,c 表示同時(shí)包含預(yù)測(cè)邊界框和對(duì)應(yīng)地面真實(shí)邊界框的最小封閉區(qū)域的對(duì)角線距離,ρ2(b,bgt)示預(yù)測(cè)中心點(diǎn)與真實(shí)幀之間的歐式距離,b、bgt分別表示預(yù)測(cè)框和真實(shí)的中心點(diǎn),W、H 分別表示邊界框的寬和長(zhǎng),gt 表示真實(shí)值,α 表示權(quán)重參數(shù),v 表示度量長(zhǎng)寬比的相似性,LOSSCIoU表示考慮重疊面積、中心點(diǎn)距離、縱橫比的損失,最后用1?IoU 得到相應(yīng)的損失。
BCE-YOLO 模型工作流程如圖1 所示,輸入圖像進(jìn)入模型時(shí),首先通過(guò)CBS 模塊進(jìn)行切片操作,將W、H 信息集中到通道空間,之后通過(guò)CoT 模塊,進(jìn)入C2f 網(wǎng)絡(luò)進(jìn)行一系列卷積操作,得到高維度特征圖后通過(guò)第8 層CBS 結(jié)構(gòu)進(jìn)入BiFormer 模塊,利用多頭自適應(yīng)注意力結(jié)構(gòu)對(duì)特征進(jìn)行并行學(xué)習(xí),將結(jié)果輸入至EMA 模塊來(lái)增強(qiáng)模型的全局感受野,然后進(jìn)入FPN 特征金字塔網(wǎng)絡(luò)[17] 和PAN 路徑[18] 增強(qiáng)網(wǎng)絡(luò),通過(guò)上采樣以及張量拼接等方式與骨干網(wǎng)絡(luò)建立聯(lián)系,豐富特征圖的特征信息,最終將特征圖送至YOLO 檢測(cè)模塊,得到檢測(cè)結(jié)果。
1.2.2 BiFormer 模塊
BiFiormer 模塊[19] 是一種新型的視覺(jué)網(wǎng)絡(luò)結(jié)構(gòu),結(jié)構(gòu)如圖2 所示,在第1 階段使用重疊塊嵌入,在第2~4 階段使用合并模塊來(lái)降低輸入空間分辨率,同時(shí)增加通道數(shù)(C),然后采用連續(xù)的BiFormer 模塊做特征變換。該模塊通過(guò)多頭自適應(yīng)注意力層,擴(kuò)展了模型專注于不同位置的能力,形成多個(gè)子空間,讓模型去關(guān)注不同方面的信息,可以有效結(jié)合奶牛身份特征和奶牛采食時(shí)的不同行為,實(shí)現(xiàn)對(duì)高維全局特征的整合。
1.2.3 CoT 模塊
CoT 模塊[20] 包括了局部注意力原則,并且增強(qiáng)了信息提取。結(jié)構(gòu)如圖3 所示,通過(guò)將靜態(tài)特征和動(dòng)態(tài)特征結(jié)合、局部與全局結(jié)合,節(jié)約了參數(shù)和計(jì)算力,保證了模塊的輕量化,可以直接集成到現(xiàn)有的網(wǎng)絡(luò)模型構(gòu)架中。引入CoT 模塊后,對(duì)于奶牛采食時(shí)的頭部行為,網(wǎng)絡(luò)識(shí)別特征覆蓋到的奶牛采食時(shí)頭部特征更多,代表奶牛采食時(shí)頭部運(yùn)動(dòng)的特征已經(jīng)成為模型關(guān)注的重點(diǎn)信息。
1.2.4 EMA 模塊
EMA 模塊[21] 是一種高效多尺度注意力模塊,結(jié)構(gòu)如圖4 所示,EMA 模塊通過(guò)1×1 分支進(jìn)行圖像聚合,實(shí)現(xiàn)不同跨通道交互特征。跨緯度學(xué)習(xí)模塊進(jìn)行激勵(lì)操作,通過(guò)全連接層和激活函數(shù),減少通道從而降低計(jì)算量,得到第1 張空間注意力圖。通過(guò)3×3 分支,經(jīng)過(guò)激活函數(shù)與1×1 分支的輸出結(jié)果點(diǎn)積,獲得第2 張保留精準(zhǔn)信息的空間注意力圖,最后再與第1 張注意力圖聚合。
通過(guò)EMA 模塊后,可以增強(qiáng)通道注意力,使特征圖具有全局感受野,增強(qiáng)網(wǎng)絡(luò)的特征圖提取且提升網(wǎng)絡(luò)對(duì)目標(biāo)的分類情況。
1.2.5 Deep SORT 算法
多目標(biāo)跟蹤對(duì)采食行為識(shí)別能夠連續(xù)、動(dòng)態(tài)地追蹤場(chǎng)景中多只奶牛的行為,從而更準(zhǔn)確地捕捉和分析它們的采食模式和頻率,這有助于深入研究多頭奶牛的采食行為特征,提升對(duì)采食行為的識(shí)別精度。
Deep SORT 算法[22] 常用于多目標(biāo)跟蹤,工作流程如圖5 所示,通過(guò)BCE-YOLO 將奶牛采食時(shí)的個(gè)體身份以及對(duì)應(yīng)的采食動(dòng)作計(jì)算出來(lái),然后通過(guò)卡爾曼濾波器預(yù)測(cè)物體下一幀的位置,將預(yù)測(cè)位置和實(shí)際檢測(cè)位置作特征對(duì)比并計(jì)算IoU,得到相鄰2 個(gè)目標(biāo)的相似度,最終通過(guò)匈牙利匹配算法得到相鄰幀的對(duì)應(yīng)ID (Identity document),實(shí)現(xiàn)對(duì)奶牛身份以及采食動(dòng)作的跟蹤。
由于Deep SORT 算法使用的是奶牛前后特征對(duì)比確認(rèn),并且增加了級(jí)聯(lián)匹配和新軌跡確認(rèn)。如圖6 所示,目標(biāo)檢測(cè)網(wǎng)絡(luò)得到奶牛的唯一特征后,通過(guò)預(yù)測(cè)、觀測(cè)、更新等方式對(duì)奶牛特征信息進(jìn)行加強(qiáng),因此使得Deep SORT 算法所檢測(cè)的奶牛ID 不容易改變,從而更加精確地跟蹤、檢測(cè)奶牛的采食行為。
2 結(jié)果與分析
2.1 評(píng)價(jià)指標(biāo)
為了準(zhǔn)確評(píng)價(jià)模型的性能,本文采用了目標(biāo)檢測(cè)算法常用的4 個(gè)性能評(píng)價(jià)指標(biāo):精確度(Precision)、召回率( R e c a l l ) 、平均精確度均值m A P ( m e a nAverage precision) 和F1 分?jǐn)?shù)(F1-score) 來(lái)檢驗(yàn)本文提出的模型的性能。損失曲線擬合速度越快,擬合程度越好,最終損失值越低,代表模型的性能越強(qiáng)。
2.2 試驗(yàn)配置和超參數(shù)設(shè)置
訓(xùn)練以及測(cè)試的硬件平臺(tái)配置為I n t e l ( R )Xeon(R) W-2135 CPU@3.70GHz 處理器,32 GB 內(nèi)存,11 GB GeForce RTX2080 Ti 顯卡,500 G 固態(tài)硬盤(pán)。平臺(tái)操作系統(tǒng)為64 位Ubuntu18.04 操作系統(tǒng),利用Ubuntu18.04 終端實(shí)現(xiàn),程序運(yùn)行中調(diào)用加速環(huán)境CUDA、Cudnn 和第三方庫(kù)OpenCV、Pytorch,CUDA 版本為10.2.89,Cudnn 版本基于CUDA10.2下cuDNN 7.6.5,OpenCV 版本為4.4.0,Pytorch 版本為1.7.1。在不影響識(shí)別精度下,為了增加訓(xùn)練效率,選擇輸入圖像為416 像素×416 像素。設(shè)置初始學(xué)習(xí)率為0.001,權(quán)重衰減率為0.000 5,迭代次數(shù)為100 次。
2.3 目標(biāo)跟蹤算法檢測(cè)效果
為了驗(yàn)證奶牛采食行為目標(biāo)跟蹤算法的可靠性,本文分別使用上方和前方拍攝的奶牛采食行為數(shù)據(jù)集來(lái)對(duì)算法進(jìn)行測(cè)試。
如圖7 所示為奶牛采食行為前方數(shù)據(jù)集的目標(biāo)跟蹤效果,由圖7A、7B 可以看出,當(dāng)1 號(hào)奶牛的采食行為從采食變?yōu)榫捉罆r(shí),奶牛的ID 并不會(huì)發(fā)生改變,仍然對(duì)奶牛的頭部運(yùn)動(dòng)軌跡進(jìn)行跟蹤繪制;由圖7C、7D 可以看出,當(dāng)1 號(hào)奶牛遮擋住2 號(hào)奶牛時(shí),2 號(hào)奶牛的標(biāo)簽消失,但當(dāng)2 號(hào)奶?;謴?fù)到檢測(cè)狀態(tài)時(shí),2 號(hào)奶牛的ID 沒(méi)有發(fā)生改變,說(shuō)明目標(biāo)檢測(cè)網(wǎng)絡(luò)對(duì)奶牛特征的提取充足,使得在目標(biāo)跟蹤時(shí)根據(jù)目標(biāo)的特征進(jìn)行跟蹤不會(huì)使ID 發(fā)生跳動(dòng)。
圖8 為奶牛采食行為上方數(shù)據(jù)集的目標(biāo)跟蹤效果,與前方相同,奶牛采食過(guò)程中行為變化以及遮擋并不會(huì)使得奶牛的ID 發(fā)生變化。
為了驗(yàn)證所提出的Deep SORT 算法與BCEYOLO模型結(jié)合的有效性,基于本文自建數(shù)據(jù)集與其他主流算法進(jìn)行對(duì)比試驗(yàn), 包括S t a p l e 和SiameseRPN,結(jié)果如表2 所示。Deep SORT 的跟蹤精度和魯棒性都占有優(yōu)勢(shì),說(shuō)明D e e p S O R T算法與BCE-YOLO 模型結(jié)合具有更好的跟蹤性能。通過(guò)以上分析可以看出,BCE-YOLO 和DeepSORT 結(jié)合的目標(biāo)跟蹤算法能精確追蹤奶牛采食時(shí)的頭部運(yùn)動(dòng)并繪制軌跡,通過(guò)運(yùn)動(dòng)總量可以進(jìn)一步判斷采食行為,也為后續(xù)對(duì)奶牛采食行為其他研究做準(zhǔn)備。將奶牛運(yùn)動(dòng)軌跡點(diǎn)的數(shù)據(jù)導(dǎo)出,可以計(jì)算奶牛整個(gè)采食過(guò)程所持續(xù)的時(shí)間以及奶牛采食過(guò)程運(yùn)動(dòng)的總量。如圖9 所示,圖9A 以奶牛采食行為跟蹤視頻的左上頂點(diǎn)為原點(diǎn),通過(guò)BBOX 計(jì)算頭部中心點(diǎn)并繪制軌跡。由于逐幀跟蹤且視頻幀率為30 幀/s,可計(jì)算采食總時(shí)間。計(jì)算出當(dāng)前幀與下一幀中心點(diǎn)位置的距離后,通過(guò)視頻中像素點(diǎn)之間的距離與實(shí)際物體距離的比例換算得到奶牛的最終運(yùn)動(dòng)總量,如圖9B 所示。
2.4 對(duì)比試驗(yàn)結(jié)果分析
本文對(duì)模型進(jìn)行了消融試驗(yàn),為了驗(yàn)證本文提出的BCE-YOLO 改進(jìn)方法提升模型性能的有效性,以YOLOv8 模型為基礎(chǔ),通過(guò)使用不同的模塊來(lái)驗(yàn)證模型性能。試驗(yàn)表明,改進(jìn)后的方法對(duì)YOLOv8 模型的檢測(cè)效果有一定程度的影響。接下來(lái),本文分別對(duì)前方和上方拍攝奶牛采食行為數(shù)據(jù)集進(jìn)行測(cè)試,如表3、4 所示,對(duì)試驗(yàn)數(shù)據(jù)進(jìn)行分析,以反映BCE-YOLO 模型中不同改進(jìn)方法對(duì)模型檢測(cè)性能的影響。
從表3、4 數(shù)據(jù)可以看出,單模塊改進(jìn)YOLOv8網(wǎng)絡(luò)時(shí),BiFormer 模塊對(duì)YOLOv8 的性能提升最大,無(wú)論是前方還是上方數(shù)據(jù)集,精確度、召回率、平均精確度均值均有所提升。其中前方數(shù)據(jù)集中,精確度提升0.80 個(gè)百分點(diǎn),召回率提升1.84 個(gè)百分點(diǎn),平均精確度均值提升1.63 個(gè)百分點(diǎn);上方數(shù)據(jù)集中,精確度提升2.64 個(gè)百分點(diǎn),召回率提升5.19 個(gè)百分點(diǎn),平均精確度均值提升5.13 個(gè)百分點(diǎn)。單獨(dú)使用CoT 模塊時(shí),模型的召回率和平均精確度均值提升較大,前方數(shù)據(jù)集的召回率提升6.04 個(gè)百分點(diǎn),平均精確度均值提升1.92 個(gè)百分點(diǎn);上方數(shù)據(jù)集的召回率提升3.36 個(gè)百分點(diǎn),平均精確度均值提升5.77 個(gè)百分點(diǎn)。在精確度方面,前方數(shù)據(jù)集在使用CoT 模塊后下降了2.62 個(gè)百分點(diǎn),上方數(shù)據(jù)集提升4.76 個(gè)百分點(diǎn)。本文認(rèn)為是前方拍攝的奶牛采食行為數(shù)據(jù)集中奶牛面部特征較為豐富,單一的注意力層對(duì)特征的提取并不充分,使得提升效果較差;而上方拍攝的奶牛采食行為數(shù)據(jù)集中奶牛頭部特征相對(duì)較少,模型提取特征相對(duì)容易。同樣的情況也發(fā)生在EMA 模塊中。在前方拍攝數(shù)據(jù)集中,增加E MA 模塊后召回率下降3.49 個(gè)百分點(diǎn),平均精確度均值下降1.97 個(gè)百分點(diǎn);而在上方拍攝數(shù)據(jù)集中精確度、召回率均有所提升,其中精確度提升1.21 個(gè)百分點(diǎn),召回率提升2.84 個(gè)百分點(diǎn),平均精確度均值基本保持不變。
在雙模塊改進(jìn)的Y O L O v 8 中發(fā)現(xiàn), 包含BiFormer 模塊的雙模塊改進(jìn)網(wǎng)絡(luò)相較于原單模塊改進(jìn)網(wǎng)絡(luò)均有提升。增加CoT 和EMA 雙模塊,前方拍攝數(shù)據(jù)集的精確度相較于YOLOv8 模型降低5.44 個(gè)百分點(diǎn),上方拍攝數(shù)據(jù)集精確度的提升幅度也相對(duì)較小??梢钥闯觯黾覤iFormer 模塊可以對(duì)模型有較大的提升。
當(dāng)使用3 個(gè)模塊對(duì)YOLOv8 進(jìn)行改進(jìn)時(shí),精確度、召回率、平均精確度均值均提升明顯。前方拍攝數(shù)據(jù)集中,精確度、召回率和平均精確度均值分別提升7.97、6.85 和7.80 個(gè)百分點(diǎn);上方拍攝數(shù)據(jù)集中,精確度、召回率和平均精確度均值分別提升8.03、9.17 和9.58 個(gè)百分點(diǎn)。
從以上分析可以看出,改進(jìn)模塊中,BiFormer模塊對(duì)模型的貢獻(xiàn)度最大,增加3 個(gè)模塊后的BCE-YOLO 模型性能相較于YOLOv8 模型有較大提升,對(duì)奶牛采食行為特征的提取也更加充分。
2.5 圖像檢測(cè)對(duì)比分析
為了直觀分析B C E - Y O L O 模型相較于YOLOv8 的提升情況,本文使用前方和上方拍攝的奶牛采食行為測(cè)試數(shù)據(jù)集對(duì)B C E - Y O L O 和YOLOv8 分別進(jìn)行測(cè)試(圖10)。前方數(shù)據(jù)集中,咀嚼和采食動(dòng)作的置信度提升6%~10%,提升效果明顯;上方數(shù)據(jù)集中,咀嚼動(dòng)作置信度提升9%,采食動(dòng)作提升1%;YOLOv8 存在漏檢現(xiàn)象??梢钥闯?,前方檢測(cè)效果優(yōu)于上方。YOLOv8 與BCE-YOLO模型在500 張驗(yàn)證集圖像上的結(jié)果如表5 所示,在前方和上方拍攝的數(shù)據(jù)集中,BCE-YOLO 模型精確度、召回率和平均精確度均值都占有優(yōu)勢(shì),并且前方檢測(cè)效果優(yōu)于上方。分析原因是因?yàn)榍胺綌?shù)據(jù)集的奶牛頭部特征豐富,而且BCE-YOLO 提取特征能力有較大提升,使得前方檢測(cè)效果更強(qiáng);相對(duì)來(lái)說(shuō),上方數(shù)據(jù)集奶牛頭部特征較少,模型的特征提取作用未發(fā)揮完全,使得檢測(cè)效果較前方差一些。動(dòng)作類別中,咀嚼類別的置信度要高于采食類別,與圖11 得到的精確度曲線結(jié)果一致。本文分析認(rèn)為,奶牛進(jìn)行咀嚼動(dòng)作時(shí)需要抬頭,使得奶牛頭部的特征更加突出,而采食動(dòng)作時(shí)奶牛與飼料直接接觸,使得部分飼料的特征也被提取從而使得置信度降低。
2.6 采食行為分類檢測(cè)分析
本研究將奶牛采食行為分為采食和咀嚼兩部分,而采食可以分為采食和拱草兩部分。本文從精確度角度分析奶牛采食行為分類對(duì)檢測(cè)結(jié)果的影響。由于前方與上方拍攝數(shù)據(jù)集訓(xùn)練時(shí)數(shù)據(jù)增長(zhǎng)趨勢(shì)基本一致,因此只選擇上方拍攝數(shù)據(jù)集訓(xùn)練數(shù)據(jù)進(jìn)行分析。
精確度曲線如圖11 所示,圖11A 為將奶牛采食行為分為采食和咀嚼,圖11B 為將奶牛采食行為分為采食、拱草和咀嚼??梢钥闯?,當(dāng)分類中增加了拱草類別后,咀嚼類別的精確度沒(méi)有受到影響,在置信度50%~70% 時(shí)基本穩(wěn)定在85%~90%,但采食類別精確度出現(xiàn)了下降,平均下降5 個(gè)百分點(diǎn),并且拱草類別的精確度只有20%,相對(duì)偏低,使得平均精確度下降了6 個(gè)百分點(diǎn)。本文分析認(rèn)為,由于拱草行為與采食行為的特征相似度高,且拱草行為一般在極短時(shí)間內(nèi)完成,模型容易將拱草行為與采食行為判定為同一種行為,因此導(dǎo)致模型檢測(cè)拱草行為的精確度不高,且使采食行為精確度下降。因此本文決定將不使用拱草類別進(jìn)行測(cè)試。
3 結(jié)論
本試驗(yàn)以養(yǎng)殖場(chǎng)飼養(yǎng)環(huán)境下采食區(qū)的奶牛為研究對(duì)象,對(duì)奶牛的采食行為進(jìn)行研究。為解決復(fù)雜飼養(yǎng)環(huán)境下奶牛采食行為識(shí)別精度差、特征提取不充分的問(wèn)題,實(shí)現(xiàn)對(duì)奶牛采食行為的自動(dòng)監(jiān)控,提出一種改進(jìn)BCE-YOLO 模型、并結(jié)合DeepSORT 算法的識(shí)別方法。自建奶牛采食行為數(shù)據(jù)集進(jìn)行對(duì)比試驗(yàn),得出如下結(jié)論。
1) 使用BiFormer、CoT、EMA 3 個(gè)模型增強(qiáng)模塊對(duì)YOLOv8 模型進(jìn)行增強(qiáng),提出改進(jìn)的BCEYOLO模型,在前方和上方拍攝的數(shù)據(jù)集中,精確度分別為77.73%、76.32%,召回率分別為82.57%、86.33%,平均精確度均值分別為83.70%、76.81%,相較于YOLOv8 模型,模型整體性能提升6~8 個(gè)百分點(diǎn)。
2) 通過(guò)將BCE-YOLO 模型與Deep SORT 結(jié)合,對(duì)奶牛采食行為進(jìn)行了準(zhǔn)確跟蹤且有效抑制了奶牛ID 的變更,可以同步實(shí)現(xiàn)多奶牛采食行為的自動(dòng)監(jiān)督與記錄,為奶牛的福利化養(yǎng)殖發(fā)展具有積極的影響。
參考文獻(xiàn):
[1]何東健, 劉冬, 趙凱旋. 精準(zhǔn)畜牧業(yè)中動(dòng)物信息智能感知與行為檢測(cè)研究進(jìn)展[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2016, 47(5):231-244.
[2]胡國(guó)政. 基于計(jì)算機(jī)視覺(jué)的奶牛身份及采食行為識(shí)別研究[D]. 泰安: 山東農(nóng)業(yè)大學(xué), 2023.
[3]黃吉峰. 高產(chǎn)奶牛飼養(yǎng)管理技術(shù)措施探討[J]. 中國(guó)乳業(yè), 2024(1): 37-40.
[4]徐國(guó)忠. 奶牛跛足原因與預(yù)防管理[J]. 中國(guó)乳業(yè),2017(4): 63-64.
[5]劉娜, 安曉萍, 王園, 等. 機(jī)器視覺(jué)技術(shù)在奶牛精準(zhǔn)化管理中的應(yīng)用研究進(jìn)展[J/OL]. 中國(guó)畜牧雜志, (2024-03-29) [2024-04-01]. https://doi.org/10.19556/j.0258-7033.20230803-07.
[6]梁家璇. 基于慣導(dǎo)的奶牛行為識(shí)別及其傳感器電路中低功耗運(yùn)放設(shè)計(jì)與實(shí)現(xiàn)[D]. 泰安: 山東農(nóng)業(yè)大學(xué), 2022.
[7]安健, 程宇森, 桂小林, 等. 多場(chǎng)景下基于傳感器的行為識(shí)別[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2024, 45(1): 244-251.
[8]AOUGHLIS S, SADDAOUI R, ACHOUR B, et al. Dairycows’ localisation and feeding behaviour monitoring usinga combination of IMU and RFID network[J]. InternationalJournal of Sensor Networks, 2021, 37(1): 23-35.
[9]衛(wèi)陽(yáng)森. 基于深度學(xué)習(xí)的牲畜行為識(shí)別研究與應(yīng)用[D].秦皇島: 河北科技師范學(xué)院, 2023.
[10]白強(qiáng), 高榮華, 趙春江, 等. 基于改進(jìn)YOLOV5s 網(wǎng)絡(luò)的奶牛多尺度行為識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2022,38(12): 163-172.。
[11]楊阿慶. 基于計(jì)算機(jī)視覺(jué)的哺乳母豬行為識(shí)別研究[D].廣州: 華南農(nóng)業(yè)大學(xué), 2019.
[12]王政, 許興時(shí), 華志新, 等. 融合YOLO v5n 與通道剪枝算法的輕量化奶牛發(fā)情行為識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022, 38(23): 130-140.
[13]BEZEN R, EDAN Y, HALACHMI I. Computer visionsystem for measuring individual cow feed intake usingRGB-D camera and deep learning algorithms[J]. Computersand Electronics in Agriculture, 2020, 172: 105345.
[14]LAO F, BROWN-BRANDL T, STINN J P, et al. Automaticrecognition of lactating sow behaviors throughdepth image processing[J]. Computers and Electronics inAgriculture, 2016, 125: 56-62.
[15]SHELLEY A N, LAU D L, STONE A E, et al. Shortcommunication: Measuring feed volume and weight bymachine vision[J]. Journal of Dairy Science, 2016, 99(1):386-391.
[16]ZHENG Z, WANG P, LIU W, et al. Distance-IoU loss:Faster and better learning for bounding box regression[J].Proceedings of the AAAI Conference on Artificial Intelligence,2020, 34(7): 12993-13000.
[17]LIN T Y, DOLLáR P, GIRSHICK R B, et al. Featurepyramid networks for object detection[C]//2017 IEEEConference on Computer Vision and Pattern Recognition(CVPR). Honolulu: IEEE, 2017.
[18]曹小喜. 基于深度學(xué)習(xí)的口罩佩戴實(shí)時(shí)檢測(cè)算法研究與系統(tǒng)實(shí)現(xiàn)[D]. 蕪湖: 安徽工程大學(xué), 2022.
[19]ZHU L, WANG X, KE Z, et al. BiFormer: Vision transformerwith Bi-Level routing attention[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Vancouver: IEEE, 2023: 10323-10333.
[20]RAMACHANDRAN P, PARMAR N, VASWANI A, etal. Stand-alone self-attention in vision models[EB/OL].arXiv: 1906.05909 (2019-06-13) [2024-04-01]. https://doi.org/10.48550/arXiv.1906.05909.
[21]OUYANG D L, HE S, ZHANG G Z, et al. Efficientmulti-scale attention module with cross-spatial learning[C]//ICASSP 2023. 2023 IEEE International Conferenceon Acoustics, Speech and Signal Processing (ICASSP).Rhodes: IEEE, 2023: 1-5.
[22]WOJKE N, BEWLEY A, PAULUS D. Simple online andrealtime tracking with a deep association metric[C]//2017IEEE International Conference on Image Processing(ICIP). Beijing: IEEE, 2017: 3645-3649.
【責(zé)任編輯 李慶玲】
基金項(xiàng)目:國(guó)家重點(diǎn)研發(fā)計(jì)劃(2023YFD2000704)