寧紀鋒 張 靜 楊蜀秦 胡沈榮 藍賢勇 王勇勝
(1.西北農(nóng)林科技大學信息工程學院, 陜西楊凌 712100; 2.農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)物聯(lián)網(wǎng)重點實驗室, 陜西楊凌 712100;3.西北農(nóng)林科技大學機械與電子工程學院, 陜西楊凌 712100; 4.西北農(nóng)林科技大學動物科技學院, 陜西楊凌 712100;5.西北農(nóng)林科技大學動物醫(yī)學院, 陜西楊凌 712100)
奶山羊是一種以產(chǎn)奶為主的小型反芻動物,其乳制品脂肪球徑小,鈣鎂含量高于牛奶,是現(xiàn)代乳業(yè)的重要原料之一[1]。隨著智慧畜牧和精準飼養(yǎng)理念的提出[2-3],研究者們通過部署傳感器采集實時數(shù)據(jù),獲取家畜身體狀況信息和生理指標,從而對養(yǎng)殖過程進行疾病監(jiān)測、行為識別和異常預警[4-6]。近年來,人工智能模型驅動畜牧業(yè)高質量發(fā)展的相關研究顯著增加,主要集中于動物行為檢測和識別領域[7-9],其中,計算機視覺技術在動物福利、牲畜生產(chǎn)、監(jiān)測動物方面表現(xiàn)出巨大潛力[10-11],為畜牧管理者生產(chǎn)決策提供評估和分析的依據(jù)。因此,設計一種魯棒、實時的奶山羊跟蹤算法對奶山羊智能化管理中的行為分析和精準飼喂具有重要意義[12]。
相較牛和豬等其他畜牧動物,奶山羊通體雪白,軀體無明顯花紋,群聚時相似目標干擾現(xiàn)象嚴重[13]。同時,奶山羊運動矯健、敏捷,對跟蹤算法的速度和魯棒性有更高需求[14]。傳統(tǒng)的監(jiān)測方法通過在家畜軀體穿綁可穿戴設備監(jiān)測運動軌跡,但是其會限制家畜的活動。ZHANG等[15]設計了一種基于視覺圖像分析的測量方法,利用固定位置裝置捕獲視覺圖像,無需人工接觸測量綿羊的體尺參數(shù)。VAYSSADE等[16]用GPS設備記錄奶山羊位置間隔,結合閾值和監(jiān)督分類跟蹤其活動。WANG等[17]基于Faster R-CNN[18]在監(jiān)控錄像中提取關鍵幀,改進區(qū)域前景的分割,使算法適應視頻監(jiān)控目標檢測的時空連續(xù)性。SU等[19]在SiamRPN[20]骨干網(wǎng)絡中加入多卷積殘差塊和降采樣多卷積殘差塊,提取奶山羊高維深度語義信息,建立實時和低成本的奶山羊跟蹤算法。隨后,其又提出AMTracker[21]方法,使用EfficientNet[22]為骨干網(wǎng)絡,融合多層特征并引入注意力機制提升模板分支和類分支的相關度,使用無錨框的跟蹤網(wǎng)絡定位奶山羊位置也取得了良好的結果。這些研究表明深度學習方法識別和跟蹤奶山羊的可行性,但算法的改進僅局限于增強骨干網(wǎng)絡、增加功能性模塊等傳統(tǒng)思路[23],未充分挖掘奶山羊獨有的外觀細節(jié)并增強網(wǎng)絡對奶山羊類的針對性學習,跟蹤時對相似目標干擾抵抗性差,易發(fā)生跟蹤漂移[24]。
本文提出類特定的實時奶山羊跟蹤算法,區(qū)別于通用跟蹤算法使用的基準數(shù)據(jù)集COCO[25]、LaSOT[26]、TrackingNet[27]、Got-10K[28]等預訓練網(wǎng)絡參數(shù),而是利用跟蹤目標類的唯一性,用奶山羊數(shù)據(jù)集訓練區(qū)分度更大且判別力更強的奶山羊識別定位模型。其次,在線跟蹤時,對邊界框回歸網(wǎng)絡調制向量以指數(shù)平滑方式融合奶山羊類特征進行在線更新,適應跟蹤目標的表觀變化。在奶山羊跟蹤數(shù)據(jù)集上,與代表性跟蹤算法的比較結果驗證提出方法的有效性。
實驗地點位于陜西省楊凌農(nóng)業(yè)高新技術示范區(qū)西北農(nóng)林科技大學奶山羊基地,于2021年6—7月采用索尼FDR-AX100E型和索尼A5000型兩種攝像機拍攝。視頻拍攝時長為30~60 s,索尼FDR-AX100E型攝像機拍攝的視頻幀速率為29.97 f/s,分辨率為1 440像素×1 880像素,索尼A5000型攝像機拍攝的視頻幀速率為25 f/s,分辨率為1 920像素×1 880像素。使用Labelme圖像標注工具對采集到的視頻進行標注。
奶山羊數(shù)據(jù)集由52個視頻序列組成,其中訓練集包括18個視頻,測試集包括34個視頻。視頻平均長度為701幀,共計36 430幅奶山羊圖像,圖像中包含模糊、嚴重遮擋、光線不足、離開視野等不同情況,綜合羊只體尺、光線明暗、羊只數(shù)量、運動狀態(tài)、模糊程度和遠近景情況,將拍攝視頻分為單只羊類、小目標類、快速運動類和群羊類。如圖1所示,單只羊類圖像清晰易識別(圖1a);小目標類多遠景,羊靜立、久臥或慢速運動,部分存在遮擋(圖1b);快速運動類羊劇烈運動,多模糊、形變較大(圖1c);群羊類指視野中多只羊,目標混入羊群出現(xiàn)遮擋,易發(fā)生相似目標干擾,對算法判別能力要求高(圖1d)。奶山羊分類數(shù)據(jù)集數(shù)量劃分情況如表1所示。
表1 奶山羊數(shù)據(jù)集不同類視頻平均幀和視頻數(shù)Tab.1 Average frames and number of different types of videos in dairy goat dataset
圖1 奶山羊跟蹤數(shù)據(jù)集示例Fig.1 Examples of dairy goat tracking data set
DiMP[29]是一種判別式目標跟蹤模型,包含分類分支和邊界框回歸分支:前者可區(qū)分目標和背景,預測模塊主要用于訓練判別式目標模型f、初始化模塊和循環(huán)優(yōu)化器模塊。初始化器根據(jù)訓練集得到模型的初始解,然后將其送入循環(huán)優(yōu)化器獲得判別式目標模型f,其參數(shù)以數(shù)據(jù)驅動的方式學習,如標簽置信分數(shù)yc,空間權重函數(shù)vc,正則化參數(shù)λ以及目標掩碼mc,圖像x與濾波器f經(jīng)過卷積操作得到預測的目標中心,計算與真實目標中心c的殘差,得到判別前后背景的分類模型;后者繼承自ATOM模型[30],基于目標模型的調制向量預測當前跟蹤目標的位置與尺寸,參考IoUNet[31],提出了目標特定的IoU預測,適用于不同種類目標對象,以訓練學到統(tǒng)一的經(jīng)驗權重,進行通用目標類的識別和定位。
DiMP網(wǎng)絡采用目標特定策略預測跟蹤目標邊界框的尺寸與位置,該策略雖然提高了算法對通用目標跟蹤時的普適性和泛化能力,但在特定類目標跟蹤方面,將極大抑制異類目標獨有特征的表達和傳遞,降低算法對該既定目標類的敏感性和適應性。在線跟蹤時,邊界框回歸分支使用第1幀作為整個跟蹤序列的調制向量,由于跟蹤初期后續(xù)幀與第1幀相似度高,調制向量可為邊界框精準回歸提供支撐,但隨著幀數(shù)增加,后續(xù)幀目標變化,調制向量僅包含第1幀特征,相較整個跟蹤序列的形態(tài)變化,特征單一且不具備代表性,難以應對表觀變化較大的跟蹤目標[32]。
本文提出的類特定跟蹤算法包括2方面:基于奶山羊訓練集的類適應性訓練和基于類特定融合的IoU-Refine分支改進。類適應性訓練方法使跟蹤網(wǎng)絡在識別特定跟蹤類時,借鑒目標檢測中采用遷移學習訓練網(wǎng)絡識別特定類的思想,對執(zhí)行特定類任務的跟蹤網(wǎng)絡應用遷移學習方法,解決DiMP原始模型和具體應用域之間不一致問題,有效過濾冗余信息并加速模型收斂。同理,由于跟蹤目標僅有奶山羊類,因此可以有效增強IoU-Refine分支的融合效果,類調制向量提取奶山羊類豐富的語義特征和先驗知識,與跟蹤序列第1幀調制向量以指數(shù)消融方式進行融合,自適應地優(yōu)化特征,彌補僅采用第1幀調制向量造成的特征不具代表性問題。
2.2.1基于奶山羊訓練集的DiMP類特定跟蹤模型
由于通用跟蹤算法對跟蹤目標的不可知性,一般采用目標特定的策略設計跟蹤網(wǎng)絡,本文利用跟蹤目標的類特定性,將奶山羊數(shù)據(jù)集在DiMP網(wǎng)絡原始訓練權重基礎上微調,建立對奶山羊類敏感適應的判別式分類器模型f。具體過程為,首先選擇一個奶山羊視頻序列,隨機挑出若干幀,一部分作為訓練集Mtrain,另一部分作為測試集Mtest。然后,骨干網(wǎng)絡ResNet[33]使用MoCov2[34]在ImageNet[35]上初始化訓練出的模型,將Mtrain和Mtest分別輸入到特征提取網(wǎng)絡得到參考分支和測試分支的特征信息Strain和Stest?;趨⒖挤种卣鱏train提取的目標特征得到初始化模型,輸入循環(huán)優(yōu)化器得到最終的判別模型f,并與測試集提取的特征進行卷積得到打分,再結合測試標簽Stest進行評價,反向傳播以更新骨干網(wǎng)絡參數(shù)。通過該方法可為后續(xù)正負樣本分類和邊界框評估提供更精準的特征映射,以此增加跟蹤奶山羊過程中對目標和背景的判別能力。
2.2.2基于IoU-Refine分支的類特定調制向量
由于DiMP所使用的邊界框回歸網(wǎng)絡的參考模板僅用視頻序列的第1幀制作調制向量,難以完整反映奶山羊跟蹤過程中出現(xiàn)的不同形態(tài)變化且后續(xù)幀和第1幀形態(tài)存在較大差異。因此,本文在線跟蹤階段,隨著跟蹤的進行,以指數(shù)平滑方式在第1幀調制向量中逐通道融合奶山羊類調制向量,構造隨時域更新的調制向量,以適應奶山羊表面模型的變化,改進的向量融合方式如圖2所示。
圖2 類調制向量的融合網(wǎng)絡Fig.2 Fusion of class modulation vector and the first frame modulation vector
α=ae-T+b
(1)
(2)
式中a、b——自適應權重
T——跟蹤幀數(shù)
α——融合權重比
跟蹤序列測試幀產(chǎn)生調制向量為z(xi,Bi),尺寸為K×K×D,K為池化層空間輸出,通過通道乘法與c(xi,Bi)融合,送入模塊g預測當前幀的邊界框,計算當前目標預測邊界框與真實框的IoU。
實驗硬件環(huán)境為GeForce RTX 2080Ti GPU,顯存12 GB,操作系統(tǒng)為Ubuntu 1604LTS,使用PyTorch 1.7.1深度學習架構,編程語言及版本為Python。改進后DiMP模型采用MoCov2在ImageNet訓練得到的權重對骨干網(wǎng)絡進行初始化,其余部分使用DiMP預訓練模型權重進行初始化。使用奶山羊訓練集訓練50個迭代周期(epoch),批處理量設置為4,輸入圖像的分辨率為288像素×288像素,使用Adam優(yōu)化器優(yōu)化模型,初始學習率設置為2×10-4,動量參數(shù)為0.9,調制向量更新頻率為150。
采用5項指標評價算法的跟蹤效果。為了對模型的性能進行恰當?shù)呐判?需要明確性能參數(shù)的優(yōu)先級。AUC是ROC(Receiver operating characteristic)曲線下的面積,描述分類器對正、負例的分類能力,值越高表示算法判別能力越強。精確率(Precision)為目標中心點坐標與真實值的誤差距離在給定閾值范圍內的視頻幀數(shù)占總視頻幀數(shù)的百分比,值越高表示算法定位能力越強。OP50(Overlap precision of 50%)和OP75(Overlap precision of 75%)分別為真實框和預測框重疊率超過50%和75%的視頻幀數(shù)占總視頻幀數(shù)的百分比,重疊率為重疊區(qū)域面積與預測矩形面積、真實矩形面積、重疊區(qū)域面積和的比值。歸一化精確率(Norm Precision)使用目標中心點坐標與真實值的距離歸一化距離替換Precision的絕對距離進行評估。
3.3.1不同算法實驗結果對比
為了驗證改進模型的有效性,將ATOM模型、DiMP模型、SiamRPN模型在測試集上的結果與本文改進模型進行了對比實驗,結果如表2所示,(+)表示將該模型在奶山羊訓練集上參數(shù)微調后在測試集上進行對比實驗。
表2 奶山羊測試數(shù)據(jù)集實驗結果Tab.2 Experimental results of dairy goat test dataset %
由表2可知,改進DiMP模型各項指標均優(yōu)于其他6種目標跟蹤模型。ATOM、SiamRPN、DiMP和改進DiMP模型的速度分別為26、27、33、30 f/s。在AUC方面,改進模型為76.20%,分別比ATOM、DiMP和SiamRPN模型高10.40、6.17、6.09個百分點。改進模型的識別準確率為60.19%,分別比ATOM、DiMP和SiamRPN模型高18.93、14.18、8.50個百分點。改進模型的OP50、OP75和Norm Precision分別為89.55%、78.60%、87.55%,與DiMP模型相比,提升5.21、15.68、6.90個百分點。其中,ATOM、DiMP模型在奶山羊訓練集上進行參數(shù)微調后,識別性能和定位精度有效提高,但SiamRPN使用奶山羊訓練集微調參數(shù)后結果下降,分析原因是由于SiamRPN作為孿生系列算法,目標定位依靠跟蹤幀與模板幀間的交互獲取目標特征信息,且網(wǎng)絡結構多為淺層,參數(shù)量少,難以在微調訓練中學習復雜特征信息,導致魯棒性差和泛化能力下降。
改進DiMP模型在OP75和Precision上均有顯著提升,表明在DiMP采用類特定訓練和融合類特征調制向量的奶山羊跟蹤模型,識別性能和定位精度有效提高,驗證了改進DiMP模型的有效性。圖3為改進DiMP模型在奶山羊數(shù)據(jù)集上訓練時的損失函數(shù)變化曲線,可見,該方法收斂速度較快,當?shù)螖?shù)為20時,訓練損失值由0.23降至0.09。
圖3 損失值收斂曲線Fig.3 Convergence curves of loss value
3.3.2不同類別數(shù)據(jù)集上實驗結果對比
采用ATOM、DiMP、SiamRPN和改進DiMP模型分別對單只羊測試集、小目標測試集、快速運動測試集和群羊測試集進行跟蹤,以比較不同算法對不同場景的跟蹤效果。場景中包括了一些困難場景,例如,小目標測試集特征不明顯、群羊測試集多出現(xiàn)遮擋和相似目標干擾以及快速運動測試集多出現(xiàn)形變和模糊等現(xiàn)象。表3通過改進DiMP模型與其它3種跟蹤算法對4類奶山羊跟蹤場景AUC結果加以比較。
表3 不同算法在分類測試集上的AUCTab.3 AUC results of different algorithms on classified test set %
可以看出,在單只羊測試集、快速運動測試集和群羊測試集上,改進DiMP模型相較其他算法各項指標都有明顯提高。改進DiMP模型比DiMP模型在單只羊、快速運動和群羊上的AUC分別高出5.4、6.5、8.14個百分點,說明改進DiMP模型對于形變、模糊、相似目標干擾問題的魯棒性顯著增強,進一步驗證了改進算法良好的判別能力。
在小目標類別中,SiamRPN的跟蹤效果優(yōu)于改進DiMP、DiMP、ATOM 3種算法,改進DiMP的AUC無明顯提升,推測原因是由于小目標類奶山羊多為遠景,目標小且特征不明顯,SiamRPN用模板信息與搜索區(qū)域信息進行相似性度量預測邊界框的方式,優(yōu)于DiMP算法中IoU預測模塊的目標模板為待搜索圖像提供調制向量預測邊界框的方式,且跟蹤過程無明顯模糊和形變,DiMP和改進DiMP在線訓練時循環(huán)優(yōu)化器模塊判別正、負樣本的過程對該數(shù)據(jù)集提升效果有限。
3.3.3消融實驗
表4為消融實驗用于驗證改進DiMP模型各個模塊對跟蹤性能的影響??梢钥闯?采用遷移學習方法使AUC和精確率分別提升5.47個百分點和14.00個百分點;而最后通過添加類特定融合方法,使得改進模型最終的AUC和精確率達到76.20%和60.19%,進一步提升了精度。實驗結果表明,改進DiMP模型在各項指標上都比原始模型有顯著提升,AUC和精確率分別提升6.17、14.18個百分點,驗證了提出方法的有效性。
表4 改進DiMP模型消融實驗結果Tab.4 Ablation analysis of experimental results of improved DiMP model %
3.3.4定性評價
圖4為3個不同類型奶山羊視頻序列的跟蹤結果??梢钥闯?出現(xiàn)相似目標干擾和模糊的跟蹤困難場景時,原始DiMP模型預測框過大,未貼合目標,且存在跟蹤漂移現(xiàn)象,而改進DiMP模型預測的目標框能夠準確框住目標。表明提出的跟蹤方法能夠適應奶山羊目標表觀的變化,從而得到準確的跟蹤結果。
圖4 改進DiMP跟蹤方法跟蹤結果示例Fig.4 Example of improved DiMP tracking method
(1)為了實現(xiàn)復雜情況下精確、魯棒的奶山羊目標跟蹤,本文提出了一種類特定的DiMP奶山羊目標跟蹤方法,充分利用奶山羊跟蹤對象單一固定的優(yōu)勢,結合遷移學習和指數(shù)融合的類調制向量,構造適應奶山羊類外觀變化的判別性網(wǎng)絡和高質量的外觀融合模板,從而獲得準確的預測邊界框和可靠的位置信息,提高了算法在面對奶山羊相似目標干擾、模糊、遮擋和外觀變化時的跟蹤精度和成功率。在4種場景類別奶山羊測試集上的實驗結果驗證了改進方法的有效性。
(2)基于奶山羊目標跟蹤的類特定先驗性條件,采用遷移學習策略,使DiMP模型向奶山羊跟蹤任務收斂,AUC從70.61%提升到75.50%,顯著增強了目標跟蹤性能。
(3)使用類特定方法代替目標特定方法進行跟蹤時,采用該類數(shù)據(jù)集訓練的模型,并在參考模板中融合該類的特征信息,可得到更強的奶山羊表觀特征,AUC從75.50%提升到76.20%,進一步提升了跟蹤性能。