基于水質(zhì)-聲音-視覺(jué)融合的循環(huán)水養(yǎng)殖魚類攝食強(qiáng)度識(shí)別

2023-08-08 07:04:56胡學(xué)龍朱文韜楊信廷王丁弘曾昱皓

農(nóng)業(yè)工程學(xué)報(bào) 2023年10期

胡學(xué)龍，朱文韜 ,，楊信廷，王丁弘，潘良，曾昱皓，周超 ※

（1.揚(yáng)州大學(xué)信息工程學(xué)院, 揚(yáng)州 225127；2.北京市農(nóng)林科學(xué)院信息技術(shù)研究中心, 北京 100097；3.國(guó)家農(nóng)業(yè)信息化工程技術(shù)研究中心, 北京 100097；4.農(nóng)產(chǎn)品質(zhì)量安全追溯技術(shù)及應(yīng)用國(guó)家工程研究中心, 北京 100097）

0 引言

飼料是工廠化循環(huán)水產(chǎn)養(yǎng)殖中重要的可變成本之一，可占總成本的50%以上[1]。實(shí)際生產(chǎn)中的投喂主要是以人工判斷和機(jī)械投喂為主，無(wú)法根據(jù)魚類的實(shí)際需要進(jìn)行投喂，易造成投喂過(guò)量或不足。過(guò)量投喂不僅會(huì)導(dǎo)致飼料浪費(fèi)，還會(huì)污染水體環(huán)境，增加魚類患病風(fēng)險(xiǎn)[2-3]。而攝食強(qiáng)度可直接反映魚類食欲[4]，并用于指導(dǎo)投喂，有助于解決上述問(wèn)題。因此，對(duì)魚類攝食強(qiáng)度進(jìn)行實(shí)時(shí)準(zhǔn)確識(shí)別成為實(shí)現(xiàn)精準(zhǔn)投喂的關(guān)鍵。

近年來(lái)，基于視覺(jué)、聲音和水質(zhì)傳感器的方法被應(yīng)用于魚類攝食強(qiáng)度識(shí)別[5]。例如，DUARTE等[6]通過(guò)幀差法，得到魚類攝食引起的圖像區(qū)域面積變化，并以此作為魚類活動(dòng)的評(píng)價(jià)指標(biāo)。ZHOU等[7]利用圖像紋理和光流評(píng)估攝食強(qiáng)度，并建立自適應(yīng)網(wǎng)絡(luò)模糊推理系統(tǒng)（adaptive network-based fuzzy inference system，ANFIS），實(shí)現(xiàn)了自動(dòng)按需投喂。陳彩文等[8]基于魚群背景圖片提取目標(biāo)魚群，并使用灰度共生矩陣對(duì)逆差矩、相關(guān)性、能量和對(duì)比度4個(gè)紋理特征分析魚群的攝食活動(dòng)。ZHOU等[4]提出一種基于LeNet5框架的攝食強(qiáng)度評(píng)價(jià)系統(tǒng)，避免了人工特征提取帶來(lái)的誤差，并將攝食強(qiáng)度分為“無(wú)”、“弱”、“中”、“強(qiáng)”4個(gè)等級(jí)。陳雨琦等[9]將工廠化循環(huán)水養(yǎng)殖池中魚群攝食視頻作為前景提取并獲取傅里葉頻譜特征，使用得到的特征訓(xùn)練支持向量機(jī)（support vector machines, SVM）以判斷攝食狀態(tài)。UBINA等[10]將光流和RGB特征融合到3D CNN網(wǎng)絡(luò)中，以此對(duì)魚類攝食強(qiáng)度進(jìn)行預(yù)測(cè)，準(zhǔn)確率大于90%。YANG等[11]提出了一種基于Efficient EntNet-B2的雙注意力網(wǎng)絡(luò)，通過(guò)研究攝食圖像中興趣區(qū)域之間的空間關(guān)系分析魚群短時(shí)攝食行為。總體而言，基于深度學(xué)習(xí)的視覺(jué)分析方法精度較高[4]。

雖然基于視覺(jué)的方法方便有效，但在水體渾濁、環(huán)境變化等情況下，此時(shí)攝食時(shí)的聲音成為另一個(gè)重要指標(biāo)[5]。LAGARDèRE等[12-13]通過(guò)監(jiān)測(cè)大菱鲆（Scophthalmus maximus）攝食聲音頻譜，發(fā)現(xiàn)攝食過(guò)程中產(chǎn)生在7～10 kHz頻率范圍內(nèi)的聲音強(qiáng)度為15～20 dB，其反映了攝食強(qiáng)度波動(dòng)。聲學(xué)傳感器也被用于判斷魚類攝食強(qiáng)度，在昏暗和不均勻光照條件下能夠進(jìn)行有效識(shí)別[14-15]。曹曉慧等[16]采用被動(dòng)聲學(xué)技術(shù)獲取單體大口黑鱸（Micropterus salmoides）攝食聲音信號(hào)，從混合信號(hào)中提取完整的攝食信號(hào)，成功篩選出衡量大口黑鱸攝食活躍度的聲學(xué)特征參數(shù)。NODA等[17]對(duì)音頻信號(hào)進(jìn)行預(yù)處理，并使用梅爾倒譜系數(shù)（mel-scale frequency cepstral coefficients，MFCC）對(duì)其進(jìn)行參數(shù)化，以獲得分類相位信息，最終通過(guò)支持向量機(jī)識(shí)別了102種魚類聲音。此外，一些聲學(xué)特征尚雖未被運(yùn)用到魚類研究，但也在其領(lǐng)域取得了顯著成果。例如，LIU[18]在研究語(yǔ)音情感識(shí)別時(shí)發(fā)現(xiàn)伽馬通頻率倒譜系數(shù)（gammatone frequency cepstral coefficients，GFCC）相對(duì)于MFCC具有更強(qiáng)的抗噪聲表達(dá)能力，在情緒識(shí)別時(shí)性能更優(yōu)。RAMASHINI等[19]比較了MFCC、LPCC（linear prediction cepstral coefficients）和GFCC，發(fā)現(xiàn)GFCC特征在鳥類鳴叫分類方面準(zhǔn)確率較高。然而，聲學(xué)技術(shù)容易受到環(huán)境噪聲干擾，限制了其在實(shí)際生產(chǎn)實(shí)踐中的應(yīng)用[20]。

水質(zhì)等環(huán)境參數(shù)也已用于攝食強(qiáng)度評(píng)估。水質(zhì)（如水溫、溶解氧濃度、pH值、氨氮化合物等）變化會(huì)直接影響魚類食欲[21-23]。溫度可影響魚類新陳代謝率，從而影響其獲取食物的能力和欲望[24]。WU等[25]通過(guò)檢測(cè)投喂時(shí)魚群聚集和斗爭(zhēng)對(duì)溶解氧濃度的影響，開發(fā)了一種自適應(yīng)的模糊推理系統(tǒng)，用于魚類投喂決策。SK?IEN等[26]研究發(fā)現(xiàn)魚的攝食行為也會(huì)隨著溶解氧濃度的變化而發(fā)生變化。例如，投喂時(shí)，局部溶解氧濃度會(huì)降低，未攝食的顆粒沉積在水底也會(huì)引起溶解氧和氨氮化合物濃度變化。因此，水質(zhì)數(shù)據(jù)在一定程度上能夠反映魚類攝食狀態(tài)。

多模態(tài)相比單模態(tài)蘊(yùn)含更豐富的信息，在檢測(cè)和分類方面展現(xiàn)出超越單模態(tài)的性能，并已在多方面得到應(yīng)用。例如，LIU等[27]提出了低秩多模態(tài)融合（Low-rank Multimodal Fusion）方法，其使用低秩張量融合大大提升了模型運(yùn)算效率。TSAI等[28]提出了一種多模態(tài)Transformer（multimodal transformer，MulT），該算法通過(guò)融合視覺(jué)、聲音和文本信息進(jìn)行情感分類，相比傳統(tǒng)方法，精度至少提升5%。在農(nóng)業(yè)中，KERKECH[29]等將可見(jiàn)光和紅外圖像融合繪制葡萄園的患病區(qū)域。車熒璞等[30]通過(guò)融合圖片和光譜等信息檢測(cè)玉米表型性狀，克服了冠層飽和問(wèn)題，驗(yàn)證了多模態(tài)在生物量估測(cè)精度方面的性能。WAKAMORI[31]提出了一種基于聚束雨滴的多模態(tài)神經(jīng)網(wǎng)絡(luò)（C-Drop)，通過(guò)整合生理和氣象數(shù)據(jù)準(zhǔn)確估計(jì)植物水分壓力。SHEN[32]基于隨機(jī)森林（RF-RFE)和CNN提取聲學(xué)和視覺(jué)特征，并將這2種特征通過(guò)早期融合輸入支持向量機(jī)，實(shí)現(xiàn)了豬咳嗽聲的識(shí)別。

為將多模態(tài)融合引入魚類攝食強(qiáng)度識(shí)別并提升其識(shí)別精度，本文針對(duì)以上問(wèn)題，以實(shí)現(xiàn)水產(chǎn)養(yǎng)殖中的水質(zhì)-聲音-視覺(jué)融合為目標(biāo)，提出一種基于MulT算法[28]改進(jìn)的Fish-MulT攝食強(qiáng)度量化算法，首先引入多模態(tài)轉(zhuǎn)移模塊（multimodal transfer module，MMTM）對(duì)輸入3種模態(tài)的特征向量進(jìn)行特征級(jí)融合，保留重要特征，并抑制非重要特征，得到各模態(tài)融合后的向量；其次，對(duì)融合后的3種模態(tài)添加自適應(yīng)權(quán)重（adaptive weight）后得到融合模態(tài)F；最后，通過(guò)融合模態(tài)F將MulT算法優(yōu)化為Fused MulT算法，以克服單一模態(tài)難以完全反映攝食狀態(tài)的片面性，提高攝食強(qiáng)度量化的準(zhǔn)確率。為開發(fā)精準(zhǔn)投喂系統(tǒng)提供技術(shù)支持。

1 材料與方法

1.1 數(shù)據(jù)來(lái)源

試驗(yàn)在北京市農(nóng)林科學(xué)院信息技術(shù)研究中心的工廠化循環(huán)水養(yǎng)殖實(shí)驗(yàn)室進(jìn)行。數(shù)據(jù)采集平臺(tái)如圖1所示。該平臺(tái)由6個(gè)高1.2 m、直徑和水深為1 m的養(yǎng)殖池組成。并配備制氧機(jī)、循環(huán)水處理裝置、水質(zhì)傳感器等設(shè)備。試驗(yàn)用魚為金鱒魚(Oncorhynchus aguabonita)，單體質(zhì)量為（500±10）g，養(yǎng)殖密度為（8±1）kg/m3，溶解氧為（9～12）mg/L，水溫為（14～16）℃。投喂頻率為每日一次，時(shí)間為下午5:00，每個(gè)養(yǎng)殖池投喂量為（100±10）g。為消除環(huán)境變化的影響，試驗(yàn)前對(duì)所有魚進(jìn)行為期一個(gè)月的適應(yīng)性養(yǎng)殖。此外，為模擬真實(shí)養(yǎng)殖環(huán)境，試驗(yàn)燈光在白天保持常亮，以消除魚類趨光性對(duì)試驗(yàn)的影響。

圖1 試驗(yàn)裝置與數(shù)據(jù)采集系統(tǒng)Fig.1 Experiment equipment and data collecting system

為避免水面反光影響圖像采集的質(zhì)量，本研究使用GoPro運(yùn)動(dòng)相機(jī)在水下10 cm處采集數(shù)據(jù)，其不僅可以捕捉整個(gè)養(yǎng)殖池區(qū)域，還可消除投餌機(jī)與相機(jī)相對(duì)位置的影響。音頻數(shù)據(jù)采樣頻率為44.1 kHz。視頻幀率為60幀/s，像素分辨率為1 920×1 080。采用電化學(xué)水質(zhì)傳感器采集水質(zhì)數(shù)據(jù)，包括溫度、pH值和溶解氧3種參數(shù)。

1.2 數(shù)據(jù)集

根據(jù)?VERLI提出的魚類攝食強(qiáng)度分類標(biāo)準(zhǔn)[33]，本文將攝食強(qiáng)度分為“強(qiáng)”、“中”、“弱”、“無(wú)”4類，如表1所示。

表1 魚類攝食強(qiáng)度分級(jí)Table 1 Grading of fish feeding intensity

將采集的視頻和音頻統(tǒng)一剪輯為4 s片段。從水質(zhì)傳感器中記錄的文件中提取水質(zhì)數(shù)據(jù)。共得到1 293組3模態(tài)數(shù)據(jù)，其中70%的數(shù)據(jù)隨機(jī)作為訓(xùn)練集，15%作為驗(yàn)證集，15%作為測(cè)試集。

2 特征提取

多模態(tài)數(shù)據(jù)量較大，為更高效合理利用數(shù)據(jù)，減少計(jì)算量，首先需對(duì)3種模態(tài)數(shù)據(jù)進(jìn)行特征提取，具體流程如圖2所示。

圖2 特征提取流程Fig.2 Flow chart of feature extraction

2.1 視頻特征提取

視頻特征提取過(guò)程如圖2a所示。基于Kenetics-400[34]的SlowFast[35]預(yù)訓(xùn)練模型用于視覺(jué)特征提取，其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。SlowFast網(wǎng)絡(luò)以64幀作為特征提取的基本單元，輸入路徑分為Slow和Fast。Slow路徑捕獲空間信息，F(xiàn)ast路徑捕獲運(yùn)動(dòng)信息。該算法利用不同速率下的差異捕捉幀的動(dòng)態(tài)變化，并將每幀圖像縮放到256 × 340。為了最大限度地利用每一幀的變化，將視頻分為4個(gè)基本單元，最后通過(guò)線性層得到1 × 2 304維的視頻特征向量。

圖3 SlowFast網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 SlowFast network structure

2.2 音頻特征提取

魚類攝食時(shí)，頜骨或咽部牙齒咬合時(shí)會(huì)發(fā)出摩擦聲。聲音頻率組成范圍較廣，低頻小于100 Hz，高頻超過(guò)8 000 Hz，但主頻在1 000～4 000 Hz之間[36]。音頻特征提取過(guò)程如圖2b。對(duì)采集的44.1 kHz音頻信號(hào)進(jìn)行下采樣到16 kHz，并從音頻中提取能量譜圖，將能量譜圖轉(zhuǎn)換為GFCC譜圖。最后，利用ResNet50[37]網(wǎng)絡(luò)提取GFCC譜圖信息，得到1×2 048維的音頻特征向量。

2.3 水質(zhì)數(shù)據(jù)處理

水質(zhì)數(shù)據(jù)處理如圖2c所示。水質(zhì)數(shù)據(jù)的采集間隔為12 s，本文將整個(gè)攝食階段的水質(zhì)數(shù)據(jù)進(jìn)行3次函數(shù)擬合。以0.01 s為間隔，沿?cái)M合曲線對(duì)相應(yīng)視頻時(shí)間段進(jìn)行采樣，得到401維數(shù)據(jù)，并進(jìn)行歸一化處理。最后將pH值、溶解氧、溫度等水質(zhì)特征連接，得到1×1 203維的水質(zhì)特征向量。

3 Fish-MulT算法

本文提出的改進(jìn)Fish-MulT算法，如圖4所示。具體改進(jìn)如下：首先，引入多模態(tài)轉(zhuǎn)移模塊（multimodal transfer module，MMTM）對(duì)輸入的3種模態(tài)的特征向量進(jìn)行融合；然后，針對(duì)融合后的3種模態(tài)添加自適應(yīng)權(quán)重（adaptive weight）后得到融合模態(tài)F；最后，通過(guò)融合模態(tài)F將MulT算法優(yōu)化為Fused MulT算法。

圖4 Fish-MulT算法結(jié)構(gòu)圖Fig.4 Structure diagram of Fish-MulT algorithm

3.1 MulT算法

MulT算法[28]由一維卷積（Conv1D），位置編碼（position embedding），跨模態(tài)Transformer（cross-modal transformer），自注意力Transformer（self-attention transformer）和線性層構(gòu)成。其中一維卷積可以增強(qiáng)一維特征向量相鄰信息交互。位置編碼為向量添加顯式位置信息。

跨模態(tài)Transformer作用為表征一個(gè)模態(tài)對(duì)于另一模態(tài)潛在適應(yīng)性。而自注意力Transformer可收集時(shí)間維度上的信息。最后經(jīng)過(guò)線性層映射得到輸出結(jié)果。對(duì)于3種模態(tài)（視覺(jué)V，聲音A和水質(zhì)W），MulT算法中的跨模態(tài)Transformer用于表征其中2種模態(tài)分別對(duì)于第3模態(tài)的適應(yīng)性（如水質(zhì)對(duì)于視覺(jué)的潛在適應(yīng)性以及聲音對(duì)于視覺(jué)的潛在適應(yīng)性，記作W→V和A→V），無(wú)法表征3種模態(tài)之間的適應(yīng)。因此本文考慮使用融合模態(tài)F表征3種模態(tài)之間的適應(yīng)性（即使用F→V代替W→V和A→V）。

3.2 MMTM模塊

為了得到融合模態(tài)F，需要對(duì)3種模態(tài)進(jìn)行特征間的融合。本文引入多模態(tài)轉(zhuǎn)移模塊（multimodal transformer module，MMTM）實(shí)現(xiàn)不同模態(tài)數(shù)據(jù)特征間的融合[38]。并在原始模型雙模態(tài)融合的基礎(chǔ)上擴(kuò)展為3模態(tài)，如圖5所示。

圖5 多模態(tài)轉(zhuǎn)移模塊結(jié)構(gòu)Fig.5 MMTM(multimodal transfer module) structure diagram

MMTM主要由壓縮單元、激勵(lì)單元和激活函數(shù)Sigmoid構(gòu)成。壓縮單元使用全局平均池化，獲得各模態(tài)壓縮向量，對(duì)壓縮向量進(jìn)行連接并通過(guò)線性層映射得到融合向量。激勵(lì)單元通過(guò)線性層獲得各模態(tài)的激勵(lì)向量。最后通過(guò)Sigmoid函數(shù)和初始向量進(jìn)行點(diǎn)積運(yùn)算，強(qiáng)調(diào)重要特征，并抑制非重要特征。

MMTM具體實(shí)現(xiàn)過(guò)程如下，設(shè)輸入特征向量分別為XV、XA和XW，經(jīng)過(guò)全局平均池化，得到壓縮向量SV、SA和SW，分別為

式中K、L、H和Ni、Mi、Oi分別為XV、XA、XW的維度數(shù)和第i個(gè)維度大小。

將SV、SA和SW連接后送入線性層，映射得到融合向量Z:

式中W為映射矩陣，b為偏置。激勵(lì)向量EV、EA和EW通過(guò)獨(dú)立的線性層映射得到：

式中σ代表Sigmoid函數(shù)，⊙為點(diǎn)積操作，以此對(duì)每個(gè)通道進(jìn)行抑制或激活。

3.3 自適應(yīng)權(quán)重

由于MMTM輸出結(jié)果為融合后的3種模態(tài)特征向量，為得到融合模態(tài)F，需要對(duì)3種模態(tài)向量進(jìn)行求和運(yùn)算，然而不同模態(tài)對(duì)準(zhǔn)確率的貢獻(xiàn)不同，因此需要在求和之前為每個(gè)模態(tài)添加權(quán)重w。本文采用自適應(yīng)權(quán)重（adaptive weight）的方式為各模態(tài)添加權(quán)重，具體如下：

wi定義為

式中αi為對(duì)應(yīng)模態(tài)輸入節(jié)點(diǎn)的訓(xùn)練權(quán)重，隨優(yōu)化器的梯度下降而改變，k為放大系數(shù)，能夠加快wi的收斂。

3.4 Fused MulT算法

本文使用融合模態(tài)F對(duì)MulT算法中的跨模態(tài)Transformer的數(shù)量進(jìn)行優(yōu)化，得到Fused MulT算法，如圖6所示。MulT算法中跨模態(tài)Transformer只能表征一種模態(tài)到另一模態(tài)的潛在適應(yīng)性，由于存在視覺(jué)V、聲音A和水質(zhì)W3個(gè)模態(tài)，故每路分支使用2個(gè)跨模態(tài)Transformer（例如W→V和A→V），表征其中2個(gè)模態(tài)分別對(duì)于第3模態(tài)的潛在適應(yīng)。通過(guò)引入融合模態(tài)，并使用融合模態(tài)F對(duì)各模態(tài)的潛在適應(yīng)代替各支路的跨模態(tài)Transformer（例如使用F→V代替W→V和A→V），得到Fused MulT算法。故Fused MulT相比MulT，只使用50%的跨模態(tài)Transformer。

圖6 Fused MulT與MulT的算法結(jié)構(gòu)Fig.6 Algorithm structure of Fused MulT and MulT

本文中，模型輸入為視頻、音頻和水質(zhì)向量，為了使輸入序列的每個(gè)元素與相鄰的元素充分交互，將該序列通過(guò)一維卷積（Conv1D）進(jìn)行變換。Conv1D的輸入序列長(zhǎng)度Lin，則輸出序列長(zhǎng)度Lout為

式中k為卷積核大??；p為填充大??；d為卷積核內(nèi)同一維度上相鄰元素之間差異；s為卷積核步長(zhǎng)。

對(duì)于位置編碼PE（position embedding），本文遵循了Vaswani和Tsai的方法[28,39]。序列X∈RT×d（其中T為長(zhǎng)度，d為經(jīng)過(guò)卷積輸出的維度）的PE定義為

跨模態(tài)Transformer的核心為跨模態(tài)注意力（crossmodal attention，CMA）[28]，本文的跨模態(tài)注意力結(jié)構(gòu)如下：輸入為模態(tài)α和融合模態(tài)F，模態(tài)α記為Xα∈RTα×dα，融合模態(tài)F記為XF∈RTF×dF，Tα和TF表示序列長(zhǎng)度，dα和dF表示特征維度。在跨模態(tài)注意力中，模態(tài)α的注意力矩陣Qα和融合模態(tài)F的注意力矩陣KF和VF定義為

跨模態(tài)Transformer結(jié)構(gòu)[28]由D個(gè)如圖7所示的跨模態(tài)注意力塊疊加構(gòu)成。

圖7 跨模態(tài)注意力塊結(jié)構(gòu)Fig.7 The structure of cross-modal attention block

設(shè)第0層模態(tài)α的輸入為，融合模態(tài)F的輸入為，則跨模態(tài)Transformer的融合模態(tài)F關(guān)于模態(tài)α的D層前饋運(yùn)算為

式中fθ為由θ參數(shù)化的位置前饋?zhàn)訉覽28]，為CMAF→α在第i層的多頭注意力[39]。LN為層歸一化[40]。則融合模態(tài)F到模態(tài)α的跨模態(tài)Transformer記作（F→α）。本文使用的3個(gè)跨模態(tài)Transformer分別記作（F→V，F(xiàn)→A和F→W）。

然后，將跨模態(tài)Transformer的輸出輸入到自注意力Transformer（self-attention transformer）[39]以收集時(shí)間信息。最后將3種模態(tài)經(jīng)過(guò)自注意力Transformer后得到的輸出向量進(jìn)行連接，并通過(guò)線性層映射得到預(yù)測(cè)結(jié)果。結(jié)果被限制在1到4之間并向上取整，得到4類標(biāo)簽，為1，2，3，4，分別代表“無(wú)”、“弱”、“中”和“強(qiáng)”。

3.5 評(píng)價(jià)指標(biāo)

本研究基于準(zhǔn)確率（Ac）、精度（Pr）和召回率（Re），準(zhǔn)確率為正確識(shí)別各種攝食強(qiáng)度的概率，為正確分類的樣本數(shù)量與樣本總數(shù)的比例。精度是在特定攝食強(qiáng)度下，正確分類樣本在所有預(yù)測(cè)為該特定攝食強(qiáng)度樣本中所占的比例。召回率是正確分類的攝食強(qiáng)度占所有該強(qiáng)度總樣本的比例。

4 結(jié)果與分析

為驗(yàn)證本文算法的性能，在相同試驗(yàn)環(huán)境下，將該算法和MulT等多模態(tài)算法進(jìn)行比較。試驗(yàn)環(huán)境如下：GPU 為Nvidia GTX1650，CPU為 AMD Ryzen 5 3500X，CUDA版本為10.0。

4.1 試驗(yàn)結(jié)果比較

訓(xùn)練參數(shù)Batch size設(shè)置為24，初始學(xué)習(xí)率設(shè)置為0.001，訓(xùn)練180個(gè)Epoch。使用Adam優(yōu)化器優(yōu)化網(wǎng)絡(luò)參數(shù)。經(jīng)過(guò)20個(gè)Epoch訓(xùn)練，若訓(xùn)練集損失函數(shù)（loss function）大小并未減少，則將學(xué)習(xí)率降低為上一階段的0.1倍。

試驗(yàn)結(jié)果如表2所示。對(duì)于單模態(tài)模型，采用視覺(jué)的SlowFast算法確率達(dá)到91.75%，遠(yuǎn)高于采用聲音的GFCC頻譜和ResNet50組合。水質(zhì)準(zhǔn)確率較低，可能由于投喂時(shí)間短，水質(zhì)參數(shù)變化較小。經(jīng)過(guò)多模態(tài)融合后的模型準(zhǔn)確率明顯高于單模態(tài)。使用3種模態(tài)融合的MulT算法準(zhǔn)確率為93.30%。而本文模型在3種模態(tài)融合情況下，準(zhǔn)確率達(dá)95.36%，比MulT高2.06個(gè)百分點(diǎn)，相對(duì)視覺(jué)、聲音和水質(zhì)等單一模態(tài)方法分別提高3.61、21.65和68.56個(gè)百分點(diǎn)。此外通過(guò)抑制MulT和本文模型某一模態(tài)的輸入，發(fā)現(xiàn)雙模態(tài)的準(zhǔn)確率基本優(yōu)于單一模態(tài)。

表2 各模型魚類攝食強(qiáng)度識(shí)別準(zhǔn)確率對(duì)比表Table 2 Comparison table of fish feeding intensity identification accuracy of each model

MluT和本文模型的準(zhǔn)確率和損失函數(shù)曲線如圖8所示，本文模型的準(zhǔn)確率曲線在80個(gè)訓(xùn)練周期之后始終保持在MulT算法準(zhǔn)確率曲線的上方。由損失函數(shù)曲線可知，本文模型在第80個(gè)周期左右開始收斂，而MulT算法在第100個(gè)周期左右開始收斂，本文算法的損失函數(shù)收斂速度優(yōu)于MulT算法。

圖8 MulT和Fish-MulT性能對(duì)比Fig.8 Performance comparison between MulT and Fish-MulT

表3對(duì)比了3種多模態(tài)模型參數(shù)和每個(gè)Epoch平均訓(xùn)練時(shí)間，結(jié)果顯示，與MulT相比，本文模型參數(shù)減少38%，訓(xùn)練時(shí)間減少29%。與Fusion-Based-CM-Attn-MulT[41]相比，參數(shù)量下降了28%，訓(xùn)練速度也有所提升。其原因?yàn)镸ulT模型每個(gè)模態(tài)分支使用2個(gè)跨模態(tài)Transformer，而本文模型每個(gè)分支只使用1個(gè)，可減少參數(shù)，并加快訓(xùn)練速度。

表3 多模態(tài)模型參數(shù)量和訓(xùn)練時(shí)間比較Table 3 Comparison of parameters and training time between multimodal models

圖9比較了5種模型精度和召回率，結(jié)果表明本文模型（Fish-MulT）對(duì)“強(qiáng)”、“中”、“弱”和“無(wú)”4種攝食強(qiáng)度的識(shí)別精度達(dá)到最高，分別為93.62%、94.74%、95.12%和97.06%。并且在“弱”和“中”這2個(gè)標(biāo)簽上的召回率明顯優(yōu)于其他模型，達(dá)到95.12%和92.31%，在“無(wú)”標(biāo)簽方面略微落后Fused MulT模型1.42個(gè)百分點(diǎn)。

圖9 不同模型的精度和召回率對(duì)比Fig.9 Comparison of Precision and Recall of different models

4.2 消融試驗(yàn)

本文對(duì)多模態(tài)轉(zhuǎn)移模塊MMTM和自適應(yīng)權(quán)重進(jìn)行消融試驗(yàn)，如表4所示。選擇Fused MulT作為基線模型。基線模型準(zhǔn)確率為93.81%。分別單獨(dú)加入MMTM和自適應(yīng)權(quán)重后，準(zhǔn)確率提高了1.04個(gè)百分點(diǎn)。在二者均加入的情況下，模型準(zhǔn)確率達(dá)到95.36%。結(jié)果表明，二者都對(duì)準(zhǔn)確率的提升起到一定作用。

表4 Fish-MulT消融試驗(yàn)Table 4 Ablation experiment of Fish-MulT

4.3 魚類攝食強(qiáng)度識(shí)別結(jié)果

本文模型識(shí)別結(jié)果和歸一化混淆矩陣如表5和圖10所示，歸一化混淆矩陣的左上到右下的對(duì)角線表示每個(gè)分類的識(shí)別準(zhǔn)確率，對(duì)角線外區(qū)域表示錯(cuò)誤分類區(qū)域。“無(wú)”、“弱”、“中”、“強(qiáng)”4個(gè)攝食強(qiáng)度類別識(shí)別精度和召回率均在90%以上，整體識(shí)別準(zhǔn)確率為95.36%。值得注意的是，只存在相鄰類別的誤判，而不存在跨越一個(gè)及以上等級(jí)的誤判?；煜仃嚨慕Y(jié)果表明本文模型識(shí)別準(zhǔn)確率高，穩(wěn)定性好。

表5 Fish-MulT算法識(shí)別結(jié)果Table 5 Identification results of Fish-MulT algorithm

圖10 Fish-MulT算法識(shí)別準(zhǔn)確率歸一化混淆矩陣Fig.10 Normalized confusion matrix of identified accuracy by Fish-MulT

4.4 模型推理時(shí)間比較

本文針對(duì)不同模型推理攝食強(qiáng)度的速度進(jìn)行了對(duì)比實(shí)驗(yàn)，推理速度為每個(gè)片段的識(shí)別時(shí)間，結(jié)果如表6所示。

表6 模型推理速度對(duì)比Table 6 Comparison of different models with inference speed

表6為不同模型對(duì)于每個(gè)4 s 攝食片段的平均推理用時(shí)對(duì)比。MulT算法對(duì)于每個(gè)片段的推理用時(shí)最久，為0.093 5 s，本文模型在MulT的基礎(chǔ)上改進(jìn)，減少了參數(shù)量，推理速度優(yōu)于MulT。相比MulT，推理速度提升15.72%。此外，由表6可見(jiàn)，本文模型雙模態(tài)的推理速度優(yōu)于3模態(tài)。而單模態(tài)的SlowFast模型推理速度最快，達(dá)到0.022 3 s。雖然多模態(tài)模型的推理速度相比單模態(tài)不占優(yōu)勢(shì)，但是整體的推理速度均較快，推理用時(shí)占片段用時(shí)的占比小于2.5%，精度優(yōu)勢(shì)的重要性遠(yuǎn)大于時(shí)間優(yōu)勢(shì)。

4.5 對(duì)長(zhǎng)視頻攝食強(qiáng)度預(yù)測(cè)效果驗(yàn)證

為驗(yàn)證本文模型預(yù)測(cè)能力，測(cè)試其在一段完整的未經(jīng)訓(xùn)練的攝食視頻上的性能。視頻長(zhǎng)度為180 s，使用滑動(dòng)窗口覆蓋4 s作為視覺(jué)模態(tài)輸入。每次滑動(dòng)距離為1 s。直接從視頻中提取音頻數(shù)據(jù)，水質(zhì)數(shù)據(jù)通過(guò)3次函數(shù)擬合獲得。最后得到177個(gè)預(yù)測(cè)結(jié)果。

圖11為預(yù)測(cè)結(jié)果與真實(shí)值對(duì)比，4種狀態(tài)變化預(yù)測(cè)時(shí)間點(diǎn)接近真實(shí)變化點(diǎn)。對(duì)于完整攝食過(guò)程預(yù)測(cè)，“弱”和“無(wú)”的預(yù)測(cè)準(zhǔn)確率略低于試驗(yàn)結(jié)果?？赡茉蚴钦麄€(gè)攝食視頻中“弱”和“無(wú)”的時(shí)間相對(duì)較長(zhǎng)，投喂后養(yǎng)殖池內(nèi)漂浮物增加，也在一定程度上影響了視覺(jué)模態(tài)的識(shí)別效果。此外，魚群不規(guī)則游動(dòng)也會(huì)給識(shí)別帶來(lái)一定挑戰(zhàn)。總體上，177個(gè)片段的平均準(zhǔn)確率為87%，能夠較準(zhǔn)確識(shí)別4種攝食狀態(tài)變化和把握攝食強(qiáng)度變化的時(shí)間點(diǎn)，可為工廠化循環(huán)水養(yǎng)殖系統(tǒng)實(shí)現(xiàn)精準(zhǔn)投喂提供算法支持。

圖11 攝食過(guò)程預(yù)測(cè)結(jié)果Fig.11 Predicted results of feeding process

4.6 識(shí)別實(shí)例分析

本文算法正確識(shí)別示例如圖12所示。然而本試驗(yàn)對(duì)于攝食強(qiáng)度識(shí)別仍存在一定誤差，對(duì)于攝食強(qiáng)度狀態(tài)切換時(shí)，仍有誤判，錯(cuò)誤識(shí)別實(shí)例如圖13所示。

圖12 魚群攝食強(qiáng)度正確識(shí)別示例Fig.12 Correct identification samples of fish feeding intensity

圖13 魚群攝食強(qiáng)度誤判示例Fig.13 Wrong identification samples of fish feeding intensity

當(dāng)“強(qiáng)”即將轉(zhuǎn)變?yōu)椤爸小睍r(shí)，本文算法可能提前將“強(qiáng)”識(shí)別為“中”，對(duì)于“無(wú)”和“弱”狀態(tài)的切換同樣如此。在實(shí)際應(yīng)用中，可以通過(guò)加入上下文信息，或者研究邊界點(diǎn)檢測(cè)的高精度算法，避免或減少上述誤判的出現(xiàn)。此外，本研究?jī)H針對(duì)金鱒魚進(jìn)行了試驗(yàn)，模型的泛化能力有待考證。下一步將結(jié)合目標(biāo)檢測(cè)算法對(duì)殘余餌料進(jìn)行識(shí)別，并擴(kuò)充試驗(yàn)魚的種類數(shù)量，從而綜合評(píng)價(jià)本文模型識(shí)別魚類攝食強(qiáng)度的效果。

5 結(jié) 論

為準(zhǔn)確識(shí)別魚類攝食強(qiáng)度，本文提出一種融合圖像-聲音和水質(zhì)信息的Fish-MulT算法。該算法在MulT算法基礎(chǔ)上進(jìn)行改進(jìn)，加入MMTM和自適應(yīng)權(quán)重，并減少了跨模態(tài)Transformer數(shù)量。試驗(yàn)結(jié)果表明，該算法對(duì)攝食強(qiáng)度識(shí)別準(zhǔn)確率達(dá)到95.36%，相比MulT算法提高2.06個(gè)百分點(diǎn)，且參數(shù)量減少38%，訓(xùn)練時(shí)間減少29%。因此，該模型可運(yùn)用于工廠化循環(huán)水養(yǎng)殖系統(tǒng)，為實(shí)現(xiàn)精準(zhǔn)投喂提供可靠的算法參考。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放