摘要: 【目的】解決夜間環(huán)境下牛只身份信息難以有效識(shí)別的問(wèn)題,以期為牛只全天候監(jiān)測(cè)提供技術(shù)基礎(chǔ)?!痉椒ā刻岢隽艘环N基于跨模態(tài)共享特征學(xué)習(xí)的夜間牛臉識(shí)別方法。首先,模型框架采用淺層雙流結(jié)構(gòu),有效提取不同模態(tài)的牛臉圖像中的共享特征信息;其次,引入Triplet 注意力機(jī)制,跨維度地捕捉交互信息,以增強(qiáng)牛只身份信息的提??;最后,通過(guò)嵌入擴(kuò)展模塊進(jìn)一步挖掘跨模態(tài)身份信息的表征。【結(jié)果】本文提出的夜間牛臉識(shí)別模型在測(cè)試集上的平均精度均值、一階累積匹配特征值(CMC-1) 和五階累積匹配特征值(CMC-5) 分別為90.68%、94.73% 和97.82%,相較于未進(jìn)行跨模態(tài)訓(xùn)練的模型,提高了19.67、18.91 和12.00 個(gè)百分點(diǎn)?!窘Y(jié)論】本研究所提出的模型為夜間牛只身份識(shí)別問(wèn)題提供了可靠的解決方案,為實(shí)現(xiàn)牛只全天候持續(xù)監(jiān)測(cè)奠定了堅(jiān)實(shí)的技術(shù)基礎(chǔ)。
關(guān)鍵詞: 牛;身份識(shí)別;異質(zhì)面部識(shí)別;跨模態(tài);注意力機(jī)制;共享特征;夜間
中圖分類(lèi)號(hào): TP391.4;S823 文獻(xiàn)標(biāo)志碼: A 文章編號(hào): 1001-411X(2024)05-0793-09
實(shí)現(xiàn)準(zhǔn)確的牛只身份識(shí)別是實(shí)現(xiàn)牛只精準(zhǔn)養(yǎng)殖的先決條件[1-4]。在智慧養(yǎng)殖系統(tǒng)中,所有數(shù)據(jù)信息如體尺、體質(zhì)量、體況、運(yùn)動(dòng)量、進(jìn)食量等都必須與對(duì)應(yīng)的牛只身份關(guān)聯(lián),以實(shí)現(xiàn)有效記錄,從而支持個(gè)體級(jí)別的健康監(jiān)測(cè)和養(yǎng)殖管理[5-7]。優(yōu)秀的牛只身份識(shí)別方法已被證實(shí)具有提高牛只福利、減輕農(nóng)民工作量、提升消費(fèi)者信任、節(jié)省政府管理成本、降低銀行和保險(xiǎn)公司在保險(xiǎn)索賠和抵押貸款業(yè)務(wù)中被欺騙的風(fēng)險(xiǎn)等一系列作用,有著廣泛的直接和間接受益對(duì)象[8-10]。近年來(lái),以計(jì)算機(jī)視覺(jué)技術(shù)為基礎(chǔ)的非接觸式身份識(shí)別方法成為了一種具有潛力的牛只身份解決方法。相較于基于射頻識(shí)別(Radiofrequency identification, RFID) 電子耳標(biāo)的方法,這類(lèi)方法不僅能夠避免給奶牛帶來(lái)疼痛或感染風(fēng)險(xiǎn),還消除了因耳標(biāo)脫落造成識(shí)別失敗的擔(dān)憂(yōu)[11-12]??紤]到牛臉特征具有身份唯一性且相對(duì)容易獲取,許多研究人員致力于開(kāi)發(fā)準(zhǔn)確、高效的牛臉識(shí)別模型,以期實(shí)現(xiàn)牛只的非接觸身份識(shí)別[13-17]。
然而,現(xiàn)有研究主要關(guān)注白天情況下的牛只身份識(shí)別,在照明較差或不可用的夜間,身份識(shí)別模型的準(zhǔn)確度受到了嚴(yán)重影響[4]。但是,在夜間對(duì)牛只進(jìn)行監(jiān)測(cè)同樣至關(guān)重要,因?yàn)榕T谶@段時(shí)間依然會(huì)進(jìn)行覓食、反芻、爬跨等行為,部分行為甚至比白天更為活躍[18-19]。由于夜間的低光照使得RGB 圖像變得缺乏信息表達(dá)能力,現(xiàn)有的研究無(wú)法在黑暗條件下實(shí)現(xiàn)牛只身份的精準(zhǔn)識(shí)別。因此,亟需開(kāi)發(fā)一種在夜間能夠有效進(jìn)行牛臉識(shí)別的模型,以實(shí)現(xiàn)對(duì)牛只24 h 持續(xù)的監(jiān)測(cè)。
一種直接的方法是在牛棚中增加照明,以使牛只身份識(shí)別模型在夜間能夠準(zhǔn)確地提取牛臉特征并實(shí)現(xiàn)精確識(shí)別。然而,這種方法可能會(huì)干擾牛只的正常晝夜節(jié)律,甚至導(dǎo)致牛只產(chǎn)生應(yīng)激反應(yīng)[20]。因此,在夜間實(shí)現(xiàn)牛臉識(shí)別應(yīng)該借助不依賴(lài)可見(jiàn)光的成像裝置??紤]到大多數(shù)監(jiān)控?cái)z像機(jī)能夠在黑暗中自動(dòng)從RGB 模式切換到紅外(Infrared, IR) 模式,且IR 成像過(guò)程不會(huì)對(duì)牛只和牛場(chǎng)工人造成干擾,因此使用IR 圖像實(shí)現(xiàn)牛臉識(shí)別是一種可行的方法。在現(xiàn)實(shí)條件下,具有牛只身份標(biāo)簽的圖像通常是RGB 圖像。然而,由于IR 圖像和RGB 圖像是異質(zhì)的,兩類(lèi)圖像特征之間具有一定的模態(tài)差異,若直接使用模型將IR 圖像在RGB 圖庫(kù)進(jìn)行檢索,其識(shí)別精度不高。
本文提出了RGB-IR 跨模態(tài)牛臉識(shí)別任務(wù),這是一個(gè)在實(shí)際應(yīng)用中切實(shí)存在但在智慧養(yǎng)殖領(lǐng)域缺乏研究的任務(wù)。該任務(wù)要求在僅有RGB 注冊(cè)集的條件下,模型能夠?qū)? 幅IR 牛臉圖像準(zhǔn)確檢索,以確定牛只的身份。相比于傳統(tǒng)的牛臉識(shí)別任務(wù),RGB-IR 跨模態(tài)牛臉識(shí)別任務(wù)更加具有挑戰(zhàn)性。它不僅要解決傳統(tǒng)的牛臉識(shí)別任務(wù)中牛頭遮擋、姿態(tài)改變等模態(tài)內(nèi)變化,還要處理RGB 圖像和IR 圖像之間額外存在的跨模態(tài)差異。
因此,本文提出了一種基于跨模態(tài)共享特征學(xué)習(xí)的夜間牛臉識(shí)別方法。通過(guò)設(shè)計(jì)一個(gè)雙流結(jié)構(gòu)的特征提取網(wǎng)絡(luò),將任意模態(tài)的圖像嵌入到相同的特征空間中,實(shí)現(xiàn)RGB 與IR 牛臉圖像之間的跨模態(tài)匹配。其中,采用Triplet 注意力機(jī)制來(lái)加強(qiáng)特征的跨維度交互以提升識(shí)別精度,利用嵌入擴(kuò)展模塊生成更多可靠嵌入以增強(qiáng)跨模態(tài)信息的表征能力。本文提出的方法旨在解決夜間牛臉識(shí)別難題,為實(shí)現(xiàn)全天候無(wú)間斷的牛只精準(zhǔn)養(yǎng)殖提供技術(shù)基礎(chǔ)。
1 材料與方法
1.1 數(shù)據(jù)獲取與數(shù)據(jù)集構(gòu)建
本研究采集的圖像源自陜西省咸陽(yáng)市楊凌區(qū)某商業(yè)農(nóng)場(chǎng),拍攝日期為2024 年2 月12 日至25 日。研究以92 頭荷斯坦奶牛作為研究對(duì)象,分別在日間和夜間采集其面部的RGB 數(shù)據(jù)和IR 數(shù)據(jù)。RGB 數(shù)據(jù)采集使用尼康D5600 相機(jī)進(jìn)行視頻錄制,分辨率為1 920 像素×1 080 像素,幀率為60幀/s。IR 數(shù)據(jù)采集則采用窄帶850 工業(yè)相機(jī)進(jìn)行視頻錄制,輔以紅外輔助燈補(bǔ)光,分辨率和幀率與RGB 相同。采集完成后,將視頻每30 幀截取出1 張圖像以獲得圖像數(shù)據(jù)。由于截幀后的圖像包含牛臉之外的背景噪聲,需要進(jìn)一步處理以構(gòu)建高質(zhì)量的牛臉數(shù)據(jù)集。為節(jié)省人工成本和時(shí)間成本,本研究使用YOLOv5 訓(xùn)練了一個(gè)牛臉檢測(cè)模型以輔助確定圖像中的牛臉位置。模型檢測(cè)結(jié)果經(jīng)人工校正后,牛臉圖像被準(zhǔn)確截取出來(lái)。截取獲得的牛臉圖像共7 019 幅,其中RGB 圖像3 932 幅、IR 圖像3 087幅。所有圖像的尺寸被統(tǒng)一調(diào)整為3×384×144。最終,由60 頭奶牛提供的共4 572 幅圖像構(gòu)成訓(xùn)練集,而由另外32 頭奶牛提供的共2 447 幅圖像組成測(cè)試集。訓(xùn)練集和測(cè)試集中牛只身份是相互正交的,即測(cè)試集中出現(xiàn)的牛只在訓(xùn)練過(guò)程中不會(huì)出現(xiàn)。表1 展現(xiàn)了本研究構(gòu)建的RGB-IR 跨模態(tài)牛臉識(shí)別數(shù)據(jù)集的具體細(xì)節(jié)。
圖1a 和圖1b 分別展示了RGB 和IR 數(shù)據(jù)集中的部分樣本。通過(guò)觀察可以發(fā)現(xiàn),不同模態(tài)的圖像有著一定的特征差異,IR 圖像相比于RGB 圖像,丟失了除斑紋特征之外的許多其他特征,缺乏豐富的紋理特征和結(jié)構(gòu)表達(dá)。此外,同一模態(tài)下同一個(gè)體不同圖像之間也存在著因姿態(tài)、光照等因素變化帶來(lái)的較大域內(nèi)差異,這進(jìn)一步加劇了跨模態(tài)牛臉識(shí)別任務(wù)的困難程度。
1.2 夜間牛臉識(shí)別模型構(gòu)建
1.2.1 模型總體結(jié)構(gòu)
為了將來(lái)自不同模態(tài)牛臉圖像的特征投影到共享特征空間中,本研究構(gòu)建了如圖2 所示的夜間牛臉識(shí)別模型。該模型以ResNet50 作為主干特征提取網(wǎng)絡(luò)用于提取牛臉圖像中的身份特征信息。ResNet[21] 是一種經(jīng)典的深度殘差神經(jīng)網(wǎng)絡(luò)模型框架,它通過(guò)殘差學(xué)習(xí)框架和跳躍連接解決了梯度消失問(wèn)題,具有較深的網(wǎng)絡(luò)結(jié)構(gòu),能夠?qū)崿F(xiàn)身份特征的穩(wěn)定有效提取。表2 展示了ResNet50 的具體模型結(jié)構(gòu),它由5 個(gè)階段組成。其中,第1 個(gè)階段包括1 個(gè)卷積核大小為7×7、步幅為2 的卷積操作,以及1 個(gè)窗口大小為3×3、步幅為2 的最大值池化操作。其余的4 個(gè)階段分別由多個(gè)具有殘差結(jié)構(gòu)的瓶頸模塊組成。
考慮到不同模態(tài)圖像之間存在一定的屬性差異,本研究將模型的低層結(jié)構(gòu)部分設(shè)置為雙流結(jié)構(gòu),以更好地捕獲2 個(gè)不同模態(tài)中的低級(jí)特征模式。而高層結(jié)構(gòu)部分的網(wǎng)絡(luò)參數(shù)則被設(shè)計(jì)為2 個(gè)模態(tài)共享,旨在增強(qiáng)模型提取模態(tài)共享特征的能力。同時(shí),本研究在雙流結(jié)構(gòu)的每個(gè)分支的第1 個(gè)階段后面都加入了Triplet 注意力機(jī)制以增強(qiáng)模型性能,并在特征提取后利用嵌入擴(kuò)展模塊生成更多可靠嵌入以進(jìn)一步提升識(shí)別精度。
1.2.2 Triplet 注意力機(jī)制
對(duì)具有身份信息的特征進(jìn)行充分提取是構(gòu)建精準(zhǔn)牛只識(shí)別模型的基礎(chǔ)。本研究中,為了增強(qiáng)網(wǎng)絡(luò)對(duì)牛只身份信息的關(guān)注,引入輕量化的Triplet 注意力機(jī)制[22],其利用三分支結(jié)構(gòu)捕捉跨維度交互來(lái)計(jì)算注意力權(quán)重。如圖3 所示,第1 個(gè)分支獲取空間維度H 和W 的交互關(guān)系,中部的分支負(fù)責(zé)計(jì)算通道維度C 和空間維度W 的注意力權(quán)重,底部的最后1 個(gè)分支負(fù)責(zé)計(jì)算通道維度C 和空間維度H 的注意力權(quán)重。
如圖4 所示,當(dāng)給定輸入張量M 的形狀為C×H ×W時(shí),3 個(gè)分支具體實(shí)現(xiàn)如下:
在第1 個(gè)分支中,輸入張量M,通過(guò)通道最大值池化和通道平均值池化得到張量M1(2×H×W)),然后通過(guò)卷積、BN 層及Sigmoid 非線性激活函數(shù)生成為空間注意力權(quán)重,經(jīng)殘差連接與M 相加得到形狀為的輸出C×H ×W。
在第2 個(gè)分支中,輸入張量M,沿H 軸逆時(shí)針旋轉(zhuǎn)9 0 ° 得到旋轉(zhuǎn)張量?M2(W×H×C), 再經(jīng)過(guò)Z-Pool 操作得到張量?M*2(W"×H×C),其中Z-Pool 操作是在W 維度進(jìn)行平均值池化和最大值池化,在保留豐富特征的基礎(chǔ)上縮小了深度。然后通過(guò)卷積、BN 層及Sigmoid 激活函數(shù)生成注意力權(quán)重,經(jīng)殘差連接后,沿H 軸順時(shí)針旋轉(zhuǎn)90°保持和輸入張量形狀一致。
在第3 個(gè)分支中,輸入張量M,沿W 軸逆時(shí)針旋轉(zhuǎn)9 0 ° 得到旋轉(zhuǎn)張量?M3(H×C×W)再經(jīng)過(guò)Z-Pool 操作得到張量?M*2(2"×C×W),然后通過(guò)卷積、BN 層及Sigmoid 激活函數(shù)生成注意力權(quán)重,經(jīng)殘差連接后,沿W 軸順時(shí)針旋轉(zhuǎn)90°保持和輸入張量形狀一致。
最后對(duì) 3 個(gè)分支輸出的C H W維度特征進(jìn)行相加取平均。
該方法通過(guò)跨維度信息交互,解決了傳統(tǒng)方法計(jì)算單一維度注意力權(quán)重時(shí)信息大量丟失等問(wèn)題,可以在學(xué)習(xí)任務(wù)中捕捉到更復(fù)雜的關(guān)聯(lián)和依賴(lài)性。
1.2.3 嵌入擴(kuò)展模塊
出色的嵌入表達(dá)能夠使識(shí)別模型具備更準(zhǔn)確、更魯棒的識(shí)別效果[23-24]。為使牛臉識(shí)別模型在樣本有限的條件下充分挖掘跨模態(tài)的身份信息表征,本研究提出的夜間牛臉識(shí)別模型在特征提取后,利用嵌入擴(kuò)展模塊生成更多可靠嵌入以進(jìn)一步提升識(shí)別精度。如圖5 所示,提出的嵌入擴(kuò)展模塊由多個(gè)嵌入生成分支組成,每個(gè)分支都能產(chǎn)生一個(gè)新的嵌入特征。在每個(gè)分支中,特征圖f首先經(jīng)過(guò)3 個(gè)不同擴(kuò)張率的3×3空洞卷積,得到的3 個(gè)特征圖通道大小為特征圖f通道大小的1 / 4 。接著, 將這些特征圖相加融合, 并使用ReLU 激活函數(shù)以增強(qiáng)模型的非線性表示能力。最后,通過(guò)一個(gè)卷積核大小為1×1 的卷積層改變特征圖的通道數(shù)量,使生成的擴(kuò)展特征圖f+與輸入的原始特征圖f尺寸相匹配。因此,第i個(gè)分支生成的擴(kuò)展嵌入fi+可以表示為:
fi+ =δ1×1fFReLU[θ13×3( f )+θ23×3( f )+θ33×3( f )]g, (1)
式中, 代表原始的嵌入特征,fi+代表第i個(gè)分支生成的擴(kuò)展嵌入特征,θn3×3( · )代表擴(kuò)張率為n的3 × 3 空洞卷積,F(xiàn)ReLU(·)代表非線性激活函數(shù),δ1×1(·)代表1×1 卷積。
嵌入擴(kuò)展模塊旨在生成更多嵌入以提高識(shí)別精度,但現(xiàn)有操作未能有效地確保嵌入的多樣性。因此,本研究使用嵌入增強(qiáng)損失Lemb來(lái)保證生成的擴(kuò)展嵌入盡可能多樣化,從而減少RGB 和IR 圖像之間的模態(tài)差異。首先,為促使模型學(xué)習(xí)不同的特征并挖掘不同的跨模態(tài)線索,擴(kuò)展嵌入與原始嵌入之間應(yīng)該具有一定距離。其次,擴(kuò)展嵌入應(yīng)該減少RGB 和IR 圖像之間的模態(tài)差異。需要拉近由RGB模態(tài)生成的擴(kuò)展嵌入與原始IR 嵌入的距離,以及拉近由IR 模態(tài)生成的擴(kuò)展嵌入與原始RGB 嵌入的距離。最后,考慮到過(guò)分拉近擴(kuò)展嵌入與原始嵌入之間的距離可能導(dǎo)致不同類(lèi)的嵌入變得更近。因此,為避免不同類(lèi)之間的嵌入過(guò)于接近,需要確保各個(gè)嵌入的類(lèi)內(nèi)距離小于類(lèi)間距離?;谝陨弦?,RGB 模態(tài)中生成的嵌入增強(qiáng)損失可表達(dá)為:
L( fR, fI,"fR+) = [D( f aI ,"f i,aR+)-D( faR,"f i,aR+)-D( faR,"fbR+)],(2)
式中,D(·,·)表示2 個(gè)嵌入之間的歐氏距離,fR和fI分別代表RGB 模態(tài)和IR 模態(tài)的原始嵌入特征,fi R+代表第i 個(gè)分支的生成的擴(kuò)展嵌入, a和b表示不同的牛只身份。
同樣,對(duì)于由IR 生成的擴(kuò)展嵌入,應(yīng)滿(mǎn)足:
L( fI,"fR,"fI+) = [D( faR,"f i,aI+ )-D( f aI,"f i,aI+ )-D( f aI ,"f bI+)]。(3)
因此,嵌入增強(qiáng)損失最終的計(jì)算公式為:
Lemb = L( fR,"fI,"fR+)+ L( fI,"fR,"fI+)。(4)
為了確保多個(gè)不同分支生成的嵌入能夠最大化地捕獲不同的信息特征表征,研究設(shè)置正交損失強(qiáng)制不同分支生成的嵌入特征彼此最小化重疊元素。因此,本研究設(shè)置的分支正交損失為:
式中,m 和n 分別代表嵌入擴(kuò)展模塊中的第m 個(gè)和第n 個(gè)分支。分支正交損失可以強(qiáng)制生成的嵌入學(xué)習(xí)更多信息的特征表示。
1.2.4 綜合損失函數(shù)
同時(shí)使用交叉熵?fù)p失LCE和三元組損失LTri能夠促進(jìn)牛只身份識(shí)別模型取得更好的識(shí)別效果[24]。為了獲得令人滿(mǎn)意的牛臉識(shí)別精度,本研究同樣利用這2 類(lèi)損失促使模型學(xué)習(xí)具有判別性的特征。結(jié)合上文針對(duì)嵌入擴(kuò)展模塊提出的嵌入增強(qiáng)損失Lemb和分支正交損失Lbranch,本研究最終的損失函數(shù)公式如下:
Loss = LCE + LTri + Lemb + Lbranch。(6)
2 試驗(yàn)平臺(tái)參數(shù)及結(jié)果評(píng)價(jià)指標(biāo)
2.1 試驗(yàn)環(huán)境參數(shù)
本文試驗(yàn)的操作系統(tǒng)為Ubuntu 18.04.6 LTS,它包含Intel(R) Xeon(R) Gold 5217 CPU @ 3.00GHz,4 張32 G NVIDIA Tesla V100 GPUs,256 GBRAM, 6 TB 硬盤(pán)。本研究以Python 3.8 作為編程語(yǔ)言,深度學(xué)習(xí)框架采用PyTorch 1.7,加速環(huán)境為Cuda 11.0,編程平臺(tái)為PyCharm。所有對(duì)比算法均在相同環(huán)境下運(yùn)行。
2.2 模型訓(xùn)練參數(shù)
采用C O C O 數(shù)據(jù)集上的預(yù)訓(xùn)練權(quán)重作為ResNet50 部分的初始化權(quán)重參數(shù),其他部分采取Kaiming 初始化。嵌入擴(kuò)展模塊的分支數(shù)設(shè)置為2,優(yōu)化器選用隨機(jī)梯度下降法,初始學(xué)習(xí)率設(shè)為0.01,學(xué)習(xí)率衰減因子為0.003,衰減動(dòng)量因子為0.95。輸入圖像尺寸為3×384×144,批處理大小為4,最大迭代次數(shù)為80 次。
2.3 模型結(jié)果評(píng)價(jià)指標(biāo)
為驗(yàn)證該模型性能,本研究選用平均精度均值(Mean average precision, mAP) 和k 階累積匹配特征值(Cumulative matching characteristics, CMC-k) 作為模型識(shí)別效果的評(píng)價(jià)指標(biāo),選用參數(shù)量(Parameters)和計(jì)算量(FLOPs) 作為模型復(fù)雜度的評(píng)價(jià)指標(biāo)。mAP 衡量的是模型的平均檢索性能;CMC-k 是指在模型測(cè)試結(jié)果中置信度最高的前k 個(gè)檢索結(jié)果中出現(xiàn)正確匹配的概率;Parameters是指模型中所含的參數(shù)數(shù)量,決定著模型文件的大小和推斷時(shí)所需要的內(nèi)存量,可有效衡量算法的空間復(fù)雜度;計(jì)算量是指模型在推斷時(shí)的浮點(diǎn)運(yùn)算次數(shù),可有效衡量算法的時(shí)間復(fù)雜度。其中,mAP 的具體計(jì)算方式如式(7)~(9) 所示。
式中,P 和R 分別表示精確率和召回率,C 表示檢測(cè)類(lèi)數(shù),TP 表示實(shí)際為正例且被劃分為正例的個(gè)數(shù),F(xiàn)P 表示實(shí)際為負(fù)例但被劃分為正例的個(gè)數(shù),F(xiàn)N 表示實(shí)際為正例但被劃分為負(fù)例的個(gè)數(shù)。
3 結(jié)果與討論
3.1 夜間牛臉識(shí)別模型結(jié)果
本研究利用測(cè)試集對(duì)提出的夜間牛臉識(shí)別模型的識(shí)別效果進(jìn)行測(cè)試。測(cè)試集中的IR 圖像為問(wèn)詢(xún)集,RGB 圖像為注冊(cè)集,測(cè)試中對(duì)于問(wèn)詢(xún)集的任意1 幅圖像模型都會(huì)在注冊(cè)集中匹配與其身份最接近的圖像。圖6 為訓(xùn)練過(guò)程Loss 值及mAP 變化。模型訓(xùn)練初期,學(xué)習(xí)率較高,損失曲線在前15 輪迅速下降,隨著迭代的進(jìn)行,損失曲線逐漸變緩并于40 輪次左右達(dá)到收斂,模型達(dá)到穩(wěn)定狀態(tài);類(lèi)似地,mAP 值在前15 輪迅速上升,之后逐漸趨于平緩并在87% 附近波動(dòng)。
除了對(duì)提出模型進(jìn)行測(cè)試外,本研究還測(cè)試了在訓(xùn)練過(guò)程中僅使用RGB 圖像而未使用IR 圖像進(jìn)行跨模態(tài)訓(xùn)練的模型,以突顯夜間牛臉識(shí)別的挑戰(zhàn)和必要性。為保證公平比較,2 個(gè)模型均采用相同網(wǎng)絡(luò)結(jié)構(gòu),只是在訓(xùn)練過(guò)程中雙流網(wǎng)絡(luò)的2 個(gè)分支輸入不同。2 個(gè)模型的牛臉識(shí)別表現(xiàn)如表3 所示。
本文提出模型的mAP、CMC-1 和CMC-5 分別為90.68%、94.73% 和97.82%。與未進(jìn)行跨模態(tài)訓(xùn)練的模型相比,本研究提出模型的mAP 提高了19.67 個(gè)百分點(diǎn),CMC-1 提高了18.91 個(gè)百分點(diǎn),CMC-5 提高了12.00 個(gè)百分點(diǎn),模型的識(shí)別效果大大提高,更加適應(yīng)夜間條件下的牛只身份識(shí)別任務(wù)。
3.2 消融試驗(yàn)
本研究提出的夜間牛臉識(shí)別模型基于淺層雙流模型結(jié)構(gòu),通過(guò)加入Triplet 注意力機(jī)制優(yōu)化模型身份特征提取能力,通過(guò)增加嵌入擴(kuò)展模塊充分挖掘跨模態(tài)的身份信息表征。為驗(yàn)證各部分的性能表現(xiàn),使用控制變量法進(jìn)行消融試驗(yàn)。在相同的數(shù)據(jù)集和訓(xùn)練參數(shù)下進(jìn)行訓(xùn)練及測(cè)試,結(jié)果如表4所示。
如表4 所示,在未使用嵌入擴(kuò)展模塊和Triplet注意力機(jī)制的條件下,本研究采用的淺層雙流結(jié)構(gòu)相比于單流結(jié)構(gòu)和全雙流結(jié)構(gòu),模型識(shí)別效果明顯提升。相比于單流結(jié)構(gòu),模型的mAP、CMC-1 和CMC-5 分別提高了4.63、4.90 和3.09 個(gè)百分點(diǎn)。相比于全雙流結(jié)構(gòu),模型的mAP、 CMC-1 和CMC-5 分別提高了1.13、0.72 和0.73 個(gè)百分點(diǎn)。這表明淺層雙流結(jié)構(gòu)能夠兼顧不同模態(tài)之間的模態(tài)差異并實(shí)現(xiàn)模態(tài)共享特征的有效提取。
在使用淺層雙流結(jié)構(gòu)且未使用嵌入擴(kuò)展模塊的條件下,采用Triplet 注意力機(jī)制后,模型的Parameters 和FLOPs 較采用Triplet 注意力機(jī)制前分別僅增加了0.06 M 和0.02 G,mAP、 CMC-1 和CMC-5 分別提高了7.74、2.55 和0.36 個(gè)百分點(diǎn)。這表明引入的輕量化Triplet 注意力機(jī)制,能夠跨維度交互以抑制冗余信息,有效增強(qiáng)了網(wǎng)絡(luò)對(duì)牛只身份信息的關(guān)注。
嵌入擴(kuò)展模塊通過(guò)在訓(xùn)練時(shí)生成更多可靠嵌入,實(shí)現(xiàn)有限樣本條件下跨模態(tài)身份信息表征的充分挖掘。在采用Triplet 注意力機(jī)制的淺層雙流結(jié)構(gòu)的基礎(chǔ)上,模型使用嵌入擴(kuò)展模塊之后,mAP、CMC-1 和CMC-5 較使用該模塊前分別又提高了1.08、2.73 和2.73 個(gè)百分點(diǎn)。同時(shí),由于測(cè)試時(shí)嵌入擴(kuò)展模塊并不參與牛臉圖像的特征提取過(guò)程,所以并不會(huì)增加模型在推理時(shí)的Parameters 和FLOPs。
綜上所述,本研究提出的夜間牛臉識(shí)別模型的各個(gè)改進(jìn)部分都提高了牛只身份識(shí)別的準(zhǔn)確性,每個(gè)部分對(duì)模型性能的提升都有不同的貢獻(xiàn),證明了各個(gè)優(yōu)化操作的有效性。
4 結(jié)論
準(zhǔn)確識(shí)別牛只身份是現(xiàn)代智慧畜牧的重要環(huán)節(jié)。然而,由于夜間光線條件的限制,現(xiàn)有的識(shí)別模型在這種環(huán)境下通常難以實(shí)現(xiàn)滿(mǎn)意的識(shí)別效果。本研究針對(duì)夜間牛只身份識(shí)別難的問(wèn)題,提出了一種基于跨模態(tài)共享特征學(xué)習(xí)的夜間牛臉識(shí)別方法。該方法實(shí)現(xiàn)了在僅有RGB 注冊(cè)集條件下利用IR牛臉圖像進(jìn)行準(zhǔn)確的牛只身份識(shí)別。提出的模型采用淺層雙流結(jié)構(gòu),有效將不同模態(tài)的牛臉圖像特征投影到共享特征空間中。同時(shí),利用Triplet 注意力機(jī)制,該模型能夠跨維度地捕捉交互信息,從而有效增強(qiáng)牛只身份信息的提取。此外,通過(guò)嵌入擴(kuò)展模塊,進(jìn)一步挖掘跨模態(tài)身份信息的表征。試驗(yàn)結(jié)果顯示,本研究提出模型的mAP、CMC-1 和CMC-5 分別為90.68%、94.73% 和97.82%。相較于未進(jìn)行跨模態(tài)訓(xùn)練的模型,本研究提出的模型在mAP、CMC-1 和CMC-5 分別提高了19.67、18.91 和12.00 個(gè)百分點(diǎn),為夜間牛只身份識(shí)別任務(wù)提供了可靠的解決方案。
參考文獻(xiàn):
[1]熊安然, 熊本海, 蔣林樹(shù). 奶牛數(shù)字化養(yǎng)殖技術(shù)研究進(jìn)展[J]. 中國(guó)乳業(yè), 2020, 11: 29-32.
[2]楊亮, 王輝, 陳睿鵬, 等. 畜禽個(gè)體身份標(biāo)識(shí)技術(shù)發(fā)展進(jìn)程與展望[J]. 豬業(yè)科學(xué), 2023, 40(9): 24-27.
[3]KAUR A, KUMAR M, JINDAL M K. Cattle identificationwith muzzle pattern using computer vision technology:A critical review and prospective[J]. Soft Computing,2022, 26(10): 4771-4795.
[4]許興時(shí), 王云飛, 華志新, 等. 融合YOLOv5s 與通道剪枝算法的奶牛輕量化個(gè)體識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2023, 39(15): 152-162.
[5]LI R, WEN Y, ZHANG S, et al. Automated measurementof beef cattle body size via key point detection andmonocular depth estimation[J]. Expert Systems with Applications,2024, 244: 123042.
[6]XU X, WANG Y, SHANG Y, et al. Few-shot cow identificationvia meta-learning[J]. Information Processing inAgriculture, 2024, 4: 1-11.
[7]王政, 宋懷波, 王云飛, 等. 奶牛運(yùn)動(dòng)行為智能監(jiān)測(cè)研究進(jìn)展與技術(shù)趨勢(shì)[J]. 智慧農(nóng)業(yè), 2022, 4(2): 36-52.
[8]HOSSAIN M, KABIR M, ZHENG L, et al. A systematicreview of machine learning techniques for cattle identification:Datasets, methods and future directions[J]. ArtificialIntelligence in Agriculture, 2022, 6: 138-155.
[9]MAHMUD M, ZAHID A, DAS A, et al. A systematic literaturereview on deep learning applications for precisioncattle farming[J]. Computers and Electronics in Agriculture,2021, 187: 106313.
[10]QIAO Y, KONG H, CLARK C, et al. Intelligent perceptionfor cattle monitoring: A review for cattle identification,body condition score evaluation, and weight estimation[J]. Computers and Electronics in Agriculture, 2021,185: 106143.
[11]HUANG X, HU Z, QIAO Y, et al. Deep learning-basedcow tail detection and tracking for precision livestockfarming[J]. IEEE/ASME Transactions on Mechatronics,2023, 28(3): 1213-1221.
[12]FERREIRA R, BRESOLIN T, ROSA G, et al. Usingdorsal surface for individual identification of dairy calvesthrough 3D deep learning algorithms[J]. Computers andElectronics in Agriculture, 2022, 201: 107272.
[13]WENG Z, MENG F, LIU S, et al. Cattle face recognitionbased on a two-branch convolutional neural network[J].Computers and Electronics in Agriculture, 2022, 196:106871.
[14]LU Y, WENG Z, ZHENG Z, et al. Algorithm for cattleidentification based on locating key area[J]. Expert Sys-tems with Applications, 2023, 228: 120365.
[15]XU B, WANG W, GUO L, et al. CattleFaceNet: A cattleface identification approach based on RetinaFace and ArcFaceloss[J]. Computers and Electronics in Agriculture,2022, 193: 106675.
[16]BAKHSHAYESHI I, ERFANI E, TAGHIKHAH F, et al.An intelligence cattle reidentification system over transportby siamese neural networks and YOLO[J]. IEEE Internetof Things Journal, 2024, 11(2): 2351-2363.
[17]YANG L, XU X, ZHAO J, et al. Fusion of RetinaFaceand improved FaceNet for individual cow identificationin natural scenes[J/OL]. Information Processing in Agriculture,(2023-09-02) [2024-05-01]. https://doi.org/10.1016/j.inpa.2023.09.001.
[18]SENGER P L. The estrus detection problem: New concepts,technologies, and possibilities[J]. Journal of DairyScience, 1994, 77(9): 2745-2753.
[19]WANG Z, HUA Z, WEN Y, et al. E-YOLO: Recognitionof estrus cow based on improved YOLOv8nmodel[J]. Expert Systems with Applications, 2024, 238:122212.
[20]CASEY T, PLAUT K. Circadian clocks and their integrationwith metabolic and reproductive systems: Our cur-rent understanding and its application to the managementof dairy cows[J]. Journal of Animal Science, 2022,100(10): 233.
[21]HE K, ZHANG X, REN S, et al. Deep residual learningfor image recognition[C]//2016 IEEE Conference onComputer Vision and Pattern Recognition. Las Vegas,USA: IEEE, 2016: 770-778.
[22]MISRA D, NALAMADA T, ARASANIPALAI A U, etal. Rotate to attend: Convolutional triplet attention module[C]//2021 IEEE Winter Conference on Applications ofComputer Vision. Waikoloa, HI, USA: IEEE, 2021:3139-3148.
[23]ZHANG Y, WANG H. Diverse embedding expansionnetwork and low-light cross-modality benchmark for visible-infrared person re-identification[C]//2023 IEEE/CVFConference on Computer Vision and Pattern Recognition.Vancouver, Canada: IEEE, 2023: 2153-2162.
[24]WANG Y, XU X, WANG Z, et al. ShuffleNet-Triplet: Alightweight RE-identification network for dairy cows innatural scenes[J]. Computers and Electronics in Agriculture,2023, 205: 107632.
【責(zé)任編輯 莊 延】
基金項(xiàng)目:國(guó)家重點(diǎn)研發(fā)計(jì)劃(2023YFD1301800);國(guó)家自然科學(xué)基金(32272931);陜西省農(nóng)業(yè)重點(diǎn)核心技術(shù)項(xiàng)目(2023NYGG005);陜西省科技創(chuàng)新引導(dǎo)計(jì)劃(2022QFY11-02)