亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進YOLOv7-ByteTrack 的鴕鳥多目標跟蹤研究

        2025-03-02 00:00:00盧海濤伍鵬
        電腦知識與技術(shù) 2025年1期

        摘要:鴕鳥養(yǎng)殖作為現(xiàn)代畜牧業(yè)的重要組成部分,全球的養(yǎng)殖規(guī)模正逐年以15%左右的速度增長。鴕鳥多目標跟蹤技術(shù)在提升養(yǎng)殖管理效率和精準度方面具有重要作用。然而,目前針對鴕鳥的多目標跟蹤算法在目標檢測精度和跟蹤穩(wěn)定性上仍存在不足,尤其是在處理小目標和高密度目標場景時容易出現(xiàn)漏檢與跟蹤丟失問題。為解決上述問題,文章提出了一種基于YOLOv7與ByteTrack的多目標跟蹤算法。該算法在YOLOv7主干網(wǎng)絡(luò)中引入注意力機制EMCA,顯著提升了對小目標的感知能力;在ByteTrack算法中,幀內(nèi)關(guān)系模塊結(jié)合匈牙利算法實現(xiàn)高效目標關(guān)聯(lián),減少漏檢和身份切換的幾率。實驗結(jié)果表明,該算法相較于原始YOLOv7在處理速度上提升了7.9%,跟蹤準確性(MOTA) 在多個關(guān)鍵指標上均有顯著提升:相較于DeepSORT和DeepMOT分別提高了13.3%和10%。此外,ByteTrack算法在避免跟蹤丟失方面表現(xiàn)尤為突出。該研究為現(xiàn)代化鴕鳥養(yǎng)殖提供了高效可靠的多目標跟蹤技術(shù)支持,具有重要的實際應(yīng)用價值,為推動智能化畜牧業(yè)發(fā)展提供了參考。

        關(guān)鍵詞:畜牧業(yè);鴕鳥養(yǎng)殖;計算機視覺;目標檢測與跟蹤;YOLOv7;ByteTrack

        中圖分類號:TP312 文獻標識碼:A

        文章編號:1009-3044(2025)01-0005-07 開放科學(xué)(資源服務(wù)) 標識碼(OSID) :

        0 引言

        畜禽業(yè)是農(nóng)業(yè)農(nóng)村經(jīng)濟的重要支柱產(chǎn)業(yè)之一,在中國國民經(jīng)濟中占據(jù)重要地位。然而,目前我國畜禽養(yǎng)殖業(yè)面臨著規(guī)模大而不強、多而不優(yōu)的問題[1]。為提高畜禽養(yǎng)殖的效益和質(zhì)量,需要引入先進的技術(shù)手段。鴕鳥的多目標跟蹤技術(shù)對于后續(xù)鴕鳥的生態(tài)學(xué)和行為研究,以及在農(nóng)業(yè)和養(yǎng)殖業(yè)中有效管理它們具有重要意義。

        目前,國內(nèi)外動物行為研究最為準確的方式仍然是通過傳感技術(shù)來直接檢測動物的體征,但傳感技術(shù)需要對動物佩戴電子設(shè)備[2-3],不僅投資價格高昂,而且容易引起動物的應(yīng)激反應(yīng)。

        近年來,計算機視覺技術(shù)的快速發(fā)展為畜禽養(yǎng)殖業(yè)帶來了新的機遇[4]。SORT目標跟蹤框架[5]首次將卡爾曼濾波[6]與匈牙利算法[7]引入目標跟蹤領(lǐng)域,開啟了目標追蹤的新篇章。匈牙利算法用于處理上下兩張圖片中目標的關(guān)聯(lián)性,而預(yù)測下一張圖片目標的位置則使用卡爾曼濾波。SORT使用低精度模型完成了目標的匹配,但未對目標的外部特征進行提取,影響了跟蹤的穩(wěn)定性。2017 年提出的DeepSORT 模型[8]在SORT框架下進行了改進,加入了目標外觀特征的考慮,降低了遮擋目標身份頻繁發(fā)生跳變的問題,從而在多目標跟蹤任務(wù)中取得了顯著的性能提升。Sun 等[9] 提出DeepMOT(Deep Affinity Network for MultipleObject Tracking) 模型,通過跨幀匹配方式解決了數(shù)據(jù)集樣本數(shù)量不足的問題,并考慮了多尺度多感受野信息,親和度估計階段集成了特征相似度計算和數(shù)據(jù)關(guān)聯(lián)過程,考慮了實際過程中的FP和FN情況。該框架為多目標跟蹤領(lǐng)域提供了重要啟示,為后續(xù)研究提供了理論基礎(chǔ)和實踐參考。

        在鴕鳥養(yǎng)殖跟蹤中,如果養(yǎng)殖密度過大,鴕鳥間的遮擋嚴重將無法正常實時跟蹤每一只鴕鳥。為避免追蹤過程的丟失,使用改進的YOLOv7[10]模型可以在實時視頻中更加準確地檢測和定位鴕鳥,并利用改進的ByteTrack[11]算法對每一個目標進行跟蹤,不會因為目標暫時的遮擋而拋棄這一追蹤目標,從而實現(xiàn)對鴕鳥個體的行為追蹤。通過將計算機視覺技術(shù)與畜禽養(yǎng)殖相結(jié)合,可以實現(xiàn)對鴕鳥行為的自動監(jiān)測和識別,提供實時的健康狀況評估,這將有助于畜禽養(yǎng)殖業(yè)的智能化發(fā)展,提高養(yǎng)殖效率、產(chǎn)品質(zhì)量和動物福利,進一步推動畜禽業(yè)的可持續(xù)發(fā)展。

        1 本文算法

        本文結(jié)合改進的YOLOv7和ByteTrack算法,提出了一種新的整體框架,如圖1所示,包含數(shù)據(jù)預(yù)處理、改進的YOLOv7目標檢測和ByteTrack目標追蹤三個部分:1) 通過MixUp[12]擴充數(shù)據(jù)集,用以提升模型的泛化能力和對抗樣本;2) 優(yōu)化YOLOv7模型,添加EMCA[13]注意力機制模塊,提高對小目標檢測的精度;3) 在頸部特征提取網(wǎng)絡(luò)中引入PSAM[14]消除冗余信息,增強模型在復(fù)雜環(huán)境中的特征獲取能力;4) 引入ByteTrack算法進行目標追蹤,大大減少目標丟失概率。

        1.1 數(shù)據(jù)預(yù)處理

        將采集的視頻切分后進行篩選,去除錯誤圖片,使用MixUp對數(shù)據(jù)進行增強?;贛ixUp的虛擬樣本的構(gòu)建如公式(1) 和公式(2) :

        式中:λ? [0,1],是從beta分布中隨機采樣的數(shù),而(xi,yi )和(xj,yj )是同一批數(shù)據(jù)中隨機的兩個圖片對應(yīng)的標簽。MixUp不僅要對樣本進行線性插值,也需要對標簽進行線性插值,否則會出現(xiàn)樣本和標簽不匹配的問題,影響后續(xù)數(shù)據(jù)的訓(xùn)練。

        MixUp會鼓勵模型對訓(xùn)練樣本形成線性理解,這意味著對樣本的判斷不會過于絕對,從而可以減少過擬合,使模型最終形成的決策邊界更加平滑。模型在面對不確定性時不會呈現(xiàn)非黑即白的判斷。由于構(gòu)建了模型對樣本的線性理解,這使得模型更容易從噪聲樣本中學(xué)習(xí)到這種線性特征。對樣本的線性理解會擴展模型的認知范圍,因為模型需要理解樣本線性所帶來的細微差別。較大的認知范圍使模型有潛力對訓(xùn)練集樣本分布范圍外的樣本做出判斷,進一步提升模型的泛化能力。

        1.2 YOLOv7目標檢測部分

        1.2.1 YOLOv7模型

        改進的YOLOv7 模型如圖2所示,由輸入模塊、主干網(wǎng)絡(luò)以及頭部網(wǎng)絡(luò)三個主要模塊組成。輸入模塊的作用是對圖像進行預(yù)處理,并將其傳遞給主干網(wǎng)絡(luò)進行后續(xù)處理。主干網(wǎng)絡(luò)由CBS 卷積層、E-ELAN卷積層、MPConv卷積層和EMCA注意力模塊組成[15]。E-ELAN是一種優(yōu)化的層級聚合結(jié)構(gòu),通過保留原始梯度路徑,增強了模型的學(xué)習(xí)效率。EMCA卷積層利用多尺度聚合來創(chuàng)建全局感知,從而提高模型的特征提取能力。MP-Conv卷積層在標準CBS層基礎(chǔ)上加入了Maxpool操作,形成上下雙分支結(jié)構(gòu)。通過最后的特征融合(Concat) ,上下分支提取的特征得以整合。

        特殊的SPP結(jié)構(gòu)如圖3所示,通過最大池化獲得不同的感受野,使算法適應(yīng)不同分辨率的圖像。其中,CSP模塊將特征分為兩部分,一部分進行常規(guī)處理,另一部分進行SPP結(jié)構(gòu)處理,然后將兩部分進行合并,這樣可以減少一半的計算時間。緊接著用PSAM金字塔空間注意力模塊來細化底層特征,它減輕了背景噪聲的阻礙,突出了前景信息,產(chǎn)生了更易區(qū)分的邊緣銳利的特征表示。最后通過REPcon結(jié)構(gòu)調(diào)整不同尺度的特征。

        1.2.2 EMCA 注意力模塊

        通常注意力模塊被設(shè)計為調(diào)整注意力的權(quán)重,來優(yōu)化對學(xué)習(xí)特征的關(guān)注,以抑制干擾信號。EMCA是一種基于通道注意力的新型特征重新校準模塊,它使用全局信息來強調(diào)信息特征并選擇性地抑制不太有用的特征,從而提高了網(wǎng)絡(luò)所產(chǎn)生的特征質(zhì)量。與常規(guī)的注意力機制不同,多尺度注意力塊從所有先前的注意力塊獲得額外的輸入,它將其細化的特征映射傳遞到所有后續(xù)塊,通過利用多尺度聚合來創(chuàng)建全局感知。

        本文使用來自較早層的較大尺度,這些尺度可以捕獲細粒度信息,有助于精確定位,同時關(guān)注來自最后層的特征,這些特征可以編碼抽象語義信息。在目標識別和分割任務(wù)中尤為明顯,特別是在處理復(fù)雜的場景或遮擋時,能夠更準確地保留關(guān)鍵特征。這不僅能夠精確定位目標,還能有效適應(yīng)目標外觀的變化,從而提高網(wǎng)絡(luò)的魯棒性和泛化能力。

        設(shè)函數(shù)F (x)表示一個CNN塊,該塊由連續(xù)的CNN 層組成,中間穿插著非線性激活。給定任意輸入x ∈ RHi × wi × Ci,輸出y ∈ RH0 × w0 × C0 由映射函數(shù)F生成,其中,Hi、Wi、Ci 是輸入x 的高度、寬度和通道尺寸,而H0、W0、C0 為輸出y的高度、寬度和通道尺寸。在每個CNN block F 的尾部附加CA模塊C,生成有意義的尺度S,代表每個通道的重要性。然后通過將CNN輸出y乘以學(xué)習(xí)到的尺度S來對其進行細化,為下一個 CNN塊生成一個細化的輸入x。將這種集成機制稱為密集集成,即CA模塊在每個CNN塊后插入網(wǎng)絡(luò),可以用公式(3) 表示:

        根據(jù)上述公式,CA模塊的輸出依賴于所有先前層的輸出,增加了梯度路徑的長度。增加梯度路徑會使反向傳播過程變得更加復(fù)雜。此外,在任意精細化CNN輸出xk 的反向傳播過程中,所有前面的CNN 塊Fk - 1、Fk - 2,...,F(xiàn)(1) 的梯度都被考慮在內(nèi),如公式(4) 所示,表示CNN權(quán)重的更新步驟如下:

        不同于現(xiàn)有CA模塊強調(diào)內(nèi)部設(shè)計而忽視對最佳集成方法的研究,EMCA 是一種更加高效的集成機制。公式(1) 為密集積分,公式(4) 將導(dǎo)致在更新CA模塊權(quán)重時使用大量重復(fù)的梯度。因此,新的整合機制的構(gòu)架如圖4所示。為避免在更新CA模塊時使用重復(fù)的梯度,僅將其整合到最后的CNN模塊中,而不是將其整合到每一個CNN塊中。該機構(gòu)的前饋傳遞方程和權(quán)重更新公式如公式(5) 、(6) 所示:

        從上式可以看出,細化后的輸出xk 只依賴于相關(guān)CA模塊Ck - 1,而不是依賴于之前的整個CA模塊,如公式(3) 所示。與之相反,EMCA模塊(如圖4所示) 利用了當前CNN塊輸出的一個覆蓋區(qū)域,用來界定當前圖3 SPPCSPC 模塊CNN塊旁邊將有多少個先前的多尺度CNN塊的輸出會被與當前CNN塊合并。為了合并先前的多尺度特征,提出了多尺度聚合塊(Multiscale AggregationBlock, MAB) 。此外,為了控制將合并多少個先前的多尺度特征,引入了覆蓋區(qū)域(R) 。

        CNN塊旁邊將有多少個先前的多尺度CNN塊的輸出會被與當前CNN塊合并。為了合并先前的多尺度特征,提出了多尺度聚合塊(Multiscale AggregationBlock, MAB) 。此外,為了控制將合并多少個先前的多尺度特征,引入了覆蓋區(qū)域(R) 。

        1) 通過引入覆蓋區(qū)域,將當前CNN塊的輸出與多尺度CNN塊的特征進行融合,全面利用全局和局部信息,彌補傳統(tǒng)注意力模塊只關(guān)注局部特征的不足。

        2) 設(shè)計多尺度聚合塊(MAB) ,通過空間和通道維度的對齊操作,有效整合來自不同尺度的特征信息,提升特征表達能力。

        3) 在實現(xiàn)特征重新校準的同時,避免了傳統(tǒng)密集集成帶來的冗余計算,優(yōu)化了模型的計算效率,適合高效實時目標檢測和跟蹤任務(wù)。

        1.2.3 金字塔空間注意力模塊(PSAM)

        在整個YOLOv7的頭部網(wǎng)絡(luò)head部分,采用了金字塔空間注意力模塊(PSAM) ,以消除低層特征中的冗余信息,抑制背景干擾。鴕鳥大多群居聚集在一起,導(dǎo)致目標特征的背景過于復(fù)雜。為了緩解這個問題,一種常用的方法是連續(xù)下采樣特征圖,使其規(guī)模接近卷積感受野的規(guī)模。在圖2中,該模塊首先使用堆疊金字塔結(jié)構(gòu)逐步將輸入從較深細化到較淺。隨著來自更深層的語義信息的參與,較淺層的冗余特征被抑制。這個過程的公式如下:

        式中:F si ,? = 1,2,3是第i 層的精細化特征圖。然后對它們應(yīng)用空間注意力機制[16]。生成的空間注意圖也由深到淺進行級聯(lián),使其更具代表性。最后將每一層生成的注意圖與相對應(yīng)的編碼器特征相乘,得到精細化的特征圖:

        式中:conv_7表示用7×7內(nèi)核進行卷積運算,后面跟著一個BN和一個ReLU。Sa表示空間注意力模塊,這是通過連接全局平均池化和全局最大池化的輸出,然后經(jīng)過7×7卷積和Sigmoid層來實現(xiàn)的。

        然而,這種方法仍然存在以下局限性:1) 可能導(dǎo)致大規(guī)模顯著對象或大尺寸輸入圖像的特征不一致,其中在最深處獲得的特征仍保持局部性質(zhì),無法覆蓋完整的顯著對象。2) 連續(xù)下采樣可能會嚴重且不可逆地破壞小尺度顯著對象的信息,增加了檢測此類對象的難度。

        為解決這些問題,筆者采用了Transformer指導(dǎo)的雙流策略。Transformer引導(dǎo)的雙流編碼器通過利用長程相關(guān)性,既能保留小尺度顯著對象的有用信息,又能保持大尺度顯著對象的特征一致性。

        1.3 ByteTrack 模塊

        1.3.1 ByteTrack 簡介

        ByteTrack是一種基于tracking-by-detection范式的跟蹤方法。首先,根據(jù)運動相似性或外觀相似性將高分檢測框與軌跡匹配。采用卡爾曼濾波器來預(yù)測新幀中軌跡的位置。相似性可以通過預(yù)測框和檢測框的IOU[17]或Re-ID[18]特征距離來計算。隨后,對未匹配的軌跡小片段之間進行第二次匹配。其創(chuàng)新之處在于同時利用高置信和低置信的檢測框進行目標跟蹤,有效解決了遮擋和模糊問題。

        1.3.2 ByteTrack 算法流程概述

        ByteTrack的具體流程如下:

        1) 檢測框分類:通過檢測器獲取檢測框和對應(yīng)的檢測分數(shù),對檢測框進行分類。如果分數(shù)高于Thigh,將檢測框分類為高置信度組(High reliability) ;如果分數(shù)低于Thigh 但高于Tlow,則將檢測框分類為低置信度組(Low reliability) 。

        2) 初步匹配(高置信度檢測框) :匹配過程使用檢測框和卡爾曼濾波估計結(jié)果之間的相似度,這里采用IOU或Re-ID特征間的距離作為相似度度量。然后,基于相似度采用匈牙利算法[7]進行匹配,并保留那些未匹配到軌跡的高置信度檢測框,以及未匹配到檢測框的軌跡。

        3) 第二輪匹配(低置信度檢測框) :關(guān)聯(lián)第一次匹配后剩下的軌跡與低置信度檢測框。之后,保留第二次匹配后仍未匹配到邊界框的軌跡,并刪除那些在第二次匹配后未找到對應(yīng)軌跡的低置信度邊界框,因為這些邊界框被認定為不包含任何物體的背景。筆者發(fā)現(xiàn),單獨使用IOU作為第二次關(guān)聯(lián)中的相似度非常重要,因為低分數(shù)檢測框通常包含嚴重的遮擋或運動模糊,其外觀特征不可靠。因此,當將ByteTrack應(yīng)用于其他基于Re-ID的跟蹤器時,筆者在第二次關(guān)聯(lián)中不采用外觀相似性。

        4) 軌跡管理:將未匹配到對應(yīng)軌跡的高置信度邊界框作為新出現(xiàn)的軌跡進行保存。對于兩次匹配都未匹配到的檢測框,將它們初始化為新的軌跡。

        2 實驗分析

        2.1 實驗數(shù)據(jù)集與評估指標

        由于現(xiàn)有的公開數(shù)據(jù)集如MOT16[19]、MOT17[19]、MOT20[20]等主要關(guān)注行人目標追蹤,缺少鴕鳥目標追蹤的數(shù)據(jù)集,因此,本文使用了自采集的視頻數(shù)據(jù)集進行實驗。數(shù)據(jù)集的采集工作在鴕鳥養(yǎng)殖場進行,旨在提供與行人追蹤任務(wù)不同的挑戰(zhàn),測試模型在鴕鳥上的性能。

        2.1.1 采集環(huán)境與條件

        視頻采集工作在2023年4月至5月期間進行,時間段包括白天和傍晚,確保涵蓋不同光照條件。采集地點位于荊州市長江大學(xué)西校區(qū)的鴕鳥養(yǎng)殖場,場地寬闊,包含多個鴕鳥在不同區(qū)域自由活動。拍攝場景包含鴕鳥在開闊的草地、柵欄區(qū)以及帶有圍欄的較小活動區(qū)域等不同環(huán)境中移動。視頻中的背景包括自然草地、人工圍欄以及偶爾的農(nóng)業(yè)設(shè)施,提供了較為復(fù)雜的背景。視頻采集工作在2023年4月至5月期間進行,時間段包括白天和傍晚,確保涵蓋不同光照條件。采集地點位于荊州市長江大學(xué)西校區(qū)的鴕鳥養(yǎng)殖場,場地寬闊,包含多個鴕鳥在不同區(qū)域自由活動。拍攝場景包含鴕鳥在開闊的草地、柵欄區(qū)以及帶有圍欄的較小活動區(qū)域等不同環(huán)境中移動。視頻中的背景包括自然草地、人工圍欄以及偶爾的農(nóng)業(yè)設(shè)施,提供了較為復(fù)雜的背景。

        2.1.2 數(shù)據(jù)集構(gòu)成與劃分

        本數(shù)據(jù)集包含6個不同的視頻序列,用于鴕鳥目標追蹤任務(wù)的訓(xùn)練與評估。每個視頻序列的時長、內(nèi)容和場景配置有所不同,確保了數(shù)據(jù)集的多樣性。

        為保證模型的訓(xùn)練效果和評估標準,數(shù)據(jù)集被劃分為訓(xùn)練集和驗證集。對視頻序列中效果較好的部分進行切分,選取了8 910張圖片,其中訓(xùn)練集包含7 128張圖片,涵蓋了鴕鳥在不同場景、不同姿態(tài)下的表現(xiàn)。驗證集包含1 782張圖片,主要用于驗證模型在新數(shù)據(jù)上的泛化能力。

        2.1.3 標注方法說明

        標注工作使用了Labelimg工具進行,所有鴕鳥目標的位置均通過矩形框(bounding box) 方式進行標注。Labelimg 是一個開源的圖像標注工具,支持PascalVOC和YOLO格式的標注。為了確保標注的準確性和一致性,標注人員進行了多次交叉驗證,確保每個鴕鳥目標在每一幀中的位置都被正確標注。

        2.2 實驗設(shè)置和參數(shù)評估

        2.2.1 實驗平臺和軟件環(huán)境

        實驗平臺為Intel(R) Core(TM) i5-12400F CPU、NVIDIA RTX3060(12GB) GPU的計算機。軟件環(huán)境如下:操作系統(tǒng)為Windows 10,深度學(xué)習(xí)框架為torch-1.10.2+cu113-cp36-cp36m-win_amd64,torchvision 版本為0.15.0。

        2.2.2 訓(xùn)練參數(shù)設(shè)置

        為了優(yōu)化模型性能,初始學(xué)習(xí)率設(shè)為0.001,使用余弦退火策略逐步降低學(xué)習(xí)率。優(yōu)化器使用Adam優(yōu)化器,權(quán)重衰減設(shè)置為1e-5,批次大小為32,共設(shè)200 輪訓(xùn)練輪數(shù),早停策略設(shè)為驗證集精度連續(xù)5輪無提升時終止訓(xùn)練。在訓(xùn)練數(shù)據(jù)上應(yīng)用了隨機水平翻轉(zhuǎn)、亮度調(diào)整、隨機裁剪等數(shù)據(jù)增強方法,以提高模型的泛化能力。損失函數(shù)采用交叉熵損失(Cross-EntropyLoss) 用于分類分支,采用Smooth L1 Loss用于邊界框回歸。

        2.2.3 模型評估方法

        訓(xùn)練完成后,對模型性能進行了全面評估。使用訓(xùn)練好的模型對測試集進行推理,生成每一幀的目標檢測和追蹤結(jié)果。指標計算按照MOT17評估標準,計算以下關(guān)鍵指標:

        MOTA(Multi-Object Tracking Accuracy) :綜合考慮目標丟失率、誤檢率和漏檢率的指標;IDF1(IDentityF1) :衡量目標追蹤的一致性,計算精度和召回率的調(diào)和平均數(shù);IDP(Identity Precision) :衡量追蹤的目標是否正確匹配,表示正確匹配的目標數(shù)占所有預(yù)測目標數(shù)的比例;IDR(Identity Recall) :表示正確匹配的目標數(shù)占真實目標總數(shù)的比例;FP(False Positives) :誤檢數(shù)量;FN(False Negatives) :漏檢數(shù)量。

        然后將本文方法的評估結(jié)果與其他經(jīng)典方法(例如DeepSORT、SORT) 進行對比,分析本文方法的優(yōu)勢與不足。評估中特別關(guān)注模型在復(fù)雜背景下的魯棒性和對目標遮擋的處理能力。同時,采用可視化手段展示模型在不同場景下的追蹤效果,以驗證其實用性。

        2.3 評估指標

        目標檢測的性能評價指標,使用均值化的平均精度mAP[21]。對于目標追蹤,使用CLEAR指標[22],包括MOTA、FP、FN、ID等,以及IDF1和HOTA來評估跟蹤性能的不同方面。MOTA基于FP、FN和ID計算。考慮到FP和FN的數(shù)量大于ID,MOTA更關(guān)注檢測性能。IDF1評估了身份保持能力,更側(cè)重關(guān)聯(lián)性能。HOTA 是最近提出的度量,其明確地平衡了執(zhí)行準確檢測、關(guān)聯(lián)和定位的效果,但無法直接反映身份一致性的情況,因此需要結(jié)合IDF1來全面評估模型的追蹤能力。

        本文將從檢測性能和跟蹤性能兩個維度進行評估。在檢測方面,主要使用平均精度均值mAP和速度FPS作為評價指標。mAP的計算需要先獲得平均精度AP[23]。在多目標跟蹤的性能測試中,本文選用了自制的6 個視頻切片數(shù)據(jù)集,評價指標包括MOTA、MOTP、MT、ML和IDSW。其中,MOTA(多目標跟蹤準確度) 用于衡量誤檢、漏檢和ID切換對跟蹤結(jié)果的影響,其計算公式如公式(14) 所示;MOTP(多目標跟蹤精度) 反映預(yù)測框與真實標注框的匹配程度,其計算公式如公式(15) 所示。MT代表被成功跟蹤超過80%的軌跡比例,ML表示被成功跟蹤未超過20%的軌跡比例,IDSW 表示整個跟蹤過程中發(fā)生的ID 錯誤切換次數(shù)。

        MOTA = 1 - FN + FP + IDSW/GT (14)

        式中:FN 表示整個跟蹤過程中誤檢的數(shù)量,F(xiàn)P 表示整個跟蹤過程中漏檢的數(shù)量,GT 表示數(shù)據(jù)集真實標注的數(shù)量。

        式中:Ct 表示第t 幀中目標位置與數(shù)據(jù)集標注位置相匹配的個數(shù);dt,i 表示匹配誤差,用第t 幀中目標檢測框與對應(yīng)數(shù)據(jù)集中標注框的IOU值來表示。IOU的值為100%時,表示檢測框與數(shù)據(jù)集中標注框完全匹配;為0時,則表示完全偏離。

        2.4 目標檢測算法消融實驗

        每次實驗僅改變一個模塊或條件,以確保性能提升的來源可追溯。然后對每種組合方法進行多次重復(fù)實驗,取平均值以確保結(jié)果的可靠性。表1為檢測模型的消融實驗結(jié)果??梢钥吹剑捎脭U充的訓(xùn)練數(shù)據(jù)集后,模型在訓(xùn)練過程中能夠?qū)W習(xí)更豐富的特征,從而使YOLOv7檢測器的mAP性能略有提升,處理速度基本不變;僅添加EMCA注意力模塊,可以使mAP 提高2.3%,但處理速度略有降低;僅改進FPN模塊部分,也可以使整個YOLOv7檢測器的性能略微提升,同時不影響其處理速度。如果同時使用上述三種改進方法,改進后的YOLOv7檢測模型在基本不影響處理速度的情況下使mAP提高了4.4%。

        添加的EMCA模塊由于其覆蓋區(qū)域的設(shè)計,保留了特征的優(yōu)點,同時通過截斷梯度流防止過多的重復(fù)梯度信息,在精度和速度方面均表現(xiàn)出良好的效果。FPN模塊中設(shè)計的PSAM金字塔空間注意模塊通過細化底層特征并抑制背景干擾,實現(xiàn)了更準確的目標檢測。由于沒有多個中間語義信息傳播的過程,該模塊顯著提高了算法的檢測速度。

        2.5 對比實驗與分析

        2.5.1 目標檢測算法對比實驗

        為了驗證本文提出的多目標追蹤算法的有效性,將本文算法與YOLOv3、YOLOv5、Faster R-CNN、YO?LOv7這4種基于深度學(xué)習(xí)的目標檢測模型進行對比分析,結(jié)果如表2所示。

        YOLOv3作為經(jīng)典單階段目標檢測算法,具有較高的速度和較低的計算復(fù)雜度,是實時檢測任務(wù)的參考基準。相較于YOLOv3,YOLOv5的性能提升顯著,是當前主流單階段檢測算法之一,而YOLOv7作為最新的單階段目標檢測方法,綜合性能優(yōu)異,是改進模型的基礎(chǔ)。Faster R-CNN是兩階段檢測算法的代表,精度較高,但速度較慢,適合作為高精度對比基線。

        由表2可以看出,改進后的YOLOv7的mAP性能比YOLOv3[24] 高9%,比YOLOv5 高4%。YOLOv3 和YOLOv5的檢測精度略低,主要原因是未能充分優(yōu)化特征提取結(jié)構(gòu)。改進的YOLO算法比Faster R-CNN 提高了8%。雖然相較于原本YOLOv7的mAP性能差別不大,但FPS卻顯著提升。這主要是由于Faster RCNN采用二階段機制,雖然精度較高,但速度無法滿足實時需求。

        2.5.2 多目標跟蹤算法對比實驗

        同樣選取了4個經(jīng)典多目標跟蹤算法在MOT17 數(shù)據(jù)集上進行對比實驗,實驗結(jié)果是由6個數(shù)據(jù)集測試結(jié)果的平均值計算而來。將SORT、DeepSORT、DeepMOT、ByteTrack這四種跟蹤模型在自制數(shù)據(jù)集上進行比較,比較結(jié)果如表3所示:

        由表3可以看出,ByteTrack算法的目標標識(ID) 的F1得分最高,說明其在目標身份識別上的表現(xiàn)最優(yōu)。MOTA(27.9%) 比SORT 略低0.1%,但顯著優(yōu)于DeepSORT和DeepMOT,表明其漏檢率和誤檢率較低,整體追蹤性能更均衡。MOTP為0.293,僅次于Deep?SORT和DeepMOT,說明其軌跡與真實路徑的偏差較小。ByteTrack的IDt和IDm指標顯著優(yōu)于其他算法,表明其對目標的連續(xù)跟蹤能力較強,避免了頻繁的目標丟失和重新分配。總之,ByteTrack是本實驗中性能最優(yōu)的算法,適合復(fù)雜場景下對目標跟蹤精度與效率均有要求的應(yīng)用場景。

        3 結(jié)束語

        本文介紹了一種基于改進的YOLOv7 和ByteT?rack算法的多目標跟蹤框架,旨在解決鴕鳥養(yǎng)殖中的小目標檢測和穩(wěn)定追蹤問題。通過引入EMCA注意力機制優(yōu)化特征提取能力,以及改進FPN模塊提升多尺度檢測性能,同時結(jié)合ByteTrack的目標匹配策略,創(chuàng)新性地提升了檢測與跟蹤的綜合性能。實驗結(jié)果表明,相較于原始算法,處理速度提升了7.9%,跟蹤準確性分別提升了13.3%和10%,且能更好地避免跟蹤丟失。

        為進一步優(yōu)化算法性能和擴展應(yīng)用場景,未來工作將重點圍繞以下方向展開:引入輕量化模型設(shè)計(如量化與剪枝技術(shù)) 以提升實時性;優(yōu)化數(shù)據(jù)增強策略,加強復(fù)雜背景與遮擋場景的魯棒性;增強目標關(guān)聯(lián)模塊,使算法適應(yīng)長時間多目標跟蹤需求。在應(yīng)用方面,該算法還可推廣至其他農(nóng)牧業(yè)場景(如牛羊監(jiān)控) 及城市交通監(jiān)控等領(lǐng)域。

        參考文獻:

        [1] 張雅燕.我國畜牧業(yè)高質(zhì)量發(fā)展的挑戰(zhàn)與出路:基于數(shù)字經(jīng)濟視角[J].黑龍江畜牧獸醫(yī),2023(10):6-11.

        [2] TABASUM A S,HONG-SEOK M,MANIRUL I M,et al.Monitor?ing activity for recognition of illness in experimentally infectedweaned piglets using received signal strength indication ZigBeebasedwireless acceleration sensor[J].Asian-Australasian Journalof Animal Sciences,2016,29(1):149-156.

        [3] 李頎,王丹聰.基于多傳感器的豬只行為辨識[J].黑龍江畜牧獸醫(yī),2018(9):95-99,246-248.

        [4] CHEN C,ZHU W X,NORTON T.Behaviour recognition of pigsand cattle: journey from computer vision to deep learning[J].Computers and Electronics in Agriculture,2021(187):106255.

        [5] BEWLEY A,GE Z Y,OTT L,et al.Simple online and realtimetracking[C]//2016 IEEE International Conference on Image Pro?cessing (ICIP).September 25-28,2016,Phoenix,AZ,USA.IEEE,2016:3464-3468.

        [6] KALMAN R E.A new approach to linear filtering and predic?tion problems[J].Journal of Basic Engineering,1960,82(1):35-45.

        [7] MUNKRES J.Algorithms for the assignment and transportationproblems[J].Journal of the Society for Industrial and AppliedMathematics,1957,5(1):32-38.

        [8] WOJKE N,BEWLEY A,PAULUS D.Simple online and realtimetracking with a deep association metric[C]//2017 IEEE Interna?tional Conference on Image Processing (ICIP).September 17-20,2017,Beijing,China.IEEE,2017:3645-3649.

        [9] SUN S, AKHTAR N, SONG H, et al. Deep affinity network formultiple object tracking[EB/OL]. [2024-05-23]. https://arxiv.org/abs/1810.11780.

        [10] WANG C Y,BOCHKOVSKIY A,LIAO H Y M.YOLOv7:train?able bag-of-freebies sets new state-of-the-art for real-timeobject detectors[C]//2023 IEEE/CVF Conference on ComputerVision and Pattern Recognition (CVPR). June 17-24, 2023,Vancouver,BC,Canada.IEEE,2023:7464-7475.

        [11] ZHANG Y. ByteTrack: Multi-object tracking by associatingevery detection box[EB/OL]. [2024-05-23]. https://arxiv. org/abs/2110.06864.

        [12] ZHANG H, CISSE M, DAUPHIN Y N, et al. mixup: Beyondempirical risk minimization[EB/OL]. [2024-05-23]. https://arxiv.org/abs/1710.09412.

        [13] BAKR E M,EL-SALLAB A,RASHWAN M.EMCA:efficientmultiscale channel attention module[J]. IEEE Access, 2022(10):103447-103461.

        [14] LI G Y,BAI Z,LIU Z,et al.Salient object detection in optical re?mote sensing images driven by transformer[J].IEEE Transac?tions on Image Processing,2023(32):5257-5269.

        [15] 趙元龍,單玉剛,袁杰.改進YOLOv7與DeepSORT的佩戴口罩行人跟蹤[J].計算機工程與應(yīng)用,2023,59(6):221-230.

        [16] WOO S,PARK J,LEE J Y,et al.CBAM:convolutional block at?tention module[M].Lecture Notes in Computer Science.Cham:Springer International Publishing,2018:3-19.

        [17] YU J, JIANG Y, WANG Z, et al. UnitBox: An advanced objectdetection network[EB/OL].[2024-05-23].https://arxiv.org/abs/1608.01471. DOI:10.48550/arXiv.1608.01471

        [18] HE L, LIAO X, LIU W, et al. FastReID: A pytorch toolbox forgeneral instance re-identification[EB/OL].[2024-05-23].https://arxiv.org/abs/2006.02631.

        [19] MILAN A,LEAL-TAIXE L,REID I,et al.MOT16:a benchmarkfor multi-object tracking[EB/OL][2024-08-23].https://arxiv.org/abs/1603.00831v2.

        [20] DENDORFER P,REZATOFIGHI H,MILAN A,et al.MOT20:abenchmark for multi object tracking in crowded scenes[EB/OL].[2024-05-23].https://arxiv.org/abs/2003.09003v1.

        [21] ANDRILUKA M,PISHCHULIN L,GEHLER P,et al.2D humanpose estimation:new benchmark and state of the art analysis[C]//2014 IEEE Conference on Computer Vision and PatternRecognition. June 23-28, 2014, Columbus, OH, USA. IEEE,2014:3686-3693.

        [22] HE Y, SICK B. CLeaR: An adaptive continual learning frame?work for regression tasks[EB/OL].[2024-05-23].https://arxiv.org/abs/2101.00926. DOI:10.48550/arXiv.2101.00926.

        [23] LIU S Y,DENG W H.Very deep convolutional neural networkbased image classification using small training sample size[C]//2015 3rd IAPR Asian Conference on Pattern Recognition(ACPR).November 3-6,2015,Kuala Lumpur,Malaysia.IEEE,2015:730-734.

        [24] REDMON J,F(xiàn)ARHADI A.YOLOv3:an incremental improve?ment[EB/OL].[2024-05-23].https://arxiv.org/abs/1804.02767v1.

        【通聯(lián)編輯:唐一東】

        精品国产一二三产品区别在哪| 久久婷婷国产色一区二区三区| 丝袜美腿精品福利在线视频 | 欧美激情肉欲高潮视频| 中文字幕亚洲高清视频| 98色婷婷在线| 亚洲av无码日韩精品影片| 一区二区三区婷婷在线| 亚洲色图视频在线播放| 国产成人亚洲精品一区二区三区 | 久久久久无码国产精品一区| 国产亚洲精品bt天堂精选| 亚洲国产理论片在线播放| 亚洲中文字幕在线一区二区三区| 久久久久久AV无码成人| 精品一区二区三区老熟女少妇| 亚洲视频网站大全免费看| 国产麻豆成人精品av| 国产一级三级三级在线视| 亚洲天堂av在线免费播放 | 亚洲第一区二区快射影院| 国产成人精品一区二区不卡| 九九久久自然熟的香蕉图片| 99re6热在线精品视频播放6| 亚洲av午夜福利精品一区二区| 亚洲丝袜美腿精品视频| 亚洲人成综合第一网站| 香蕉免费一区二区三区| 丰满少妇被猛烈进入无码| 国产不卡一区二区三区视频| 美丽的小蜜桃在线观看| 99精品国产在热久久无码| 久久久久亚洲av无码专区导航 | 性一交一乱一乱一视频亚洲熟妇| 内射爆草少妇精品视频| 玩中年熟妇让你爽视频| 久久tv中文字幕首页| 亚洲一区区| 东京热加勒比视频一区| 成人爽a毛片免费视频| 中文国产日韩欧美二视频|