亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于水質(zhì)-聲音-視覺(jué)融合的循環(huán)水養(yǎng)殖魚類攝食強(qiáng)度識(shí)別

        2023-08-08 07:04:56胡學(xué)龍朱文韜楊信廷王丁弘曾昱皓
        關(guān)鍵詞:模態(tài)水質(zhì)融合

        胡學(xué)龍 ,朱文韜 ,,楊信廷 ,王丁弘 ,潘 良 ,曾昱皓 ,周 超 ※

        (1.揚(yáng)州大學(xué)信息工程學(xué)院, 揚(yáng)州 225127;2.北京市農(nóng)林科學(xué)院信息技術(shù)研究中心, 北京 100097;3.國(guó)家農(nóng)業(yè)信息化工程技術(shù)研究中心, 北京 100097;4.農(nóng)產(chǎn)品質(zhì)量安全追溯技術(shù)及應(yīng)用國(guó)家工程研究中心, 北京 100097)

        0 引 言

        飼料是工廠化循環(huán)水產(chǎn)養(yǎng)殖中重要的可變成本之一,可占總成本的50%以上[1]。實(shí)際生產(chǎn)中的投喂主要是以人工判斷和機(jī)械投喂為主,無(wú)法根據(jù)魚類的實(shí)際需要進(jìn)行投喂,易造成投喂過(guò)量或不足。過(guò)量投喂不僅會(huì)導(dǎo)致飼料浪費(fèi),還會(huì)污染水體環(huán)境,增加魚類患病風(fēng)險(xiǎn)[2-3]。而攝食強(qiáng)度可直接反映魚類食欲[4],并用于指導(dǎo)投喂,有助于解決上述問(wèn)題。因此,對(duì)魚類攝食強(qiáng)度進(jìn)行實(shí)時(shí)準(zhǔn)確識(shí)別成為實(shí)現(xiàn)精準(zhǔn)投喂的關(guān)鍵。

        近年來(lái),基于視覺(jué)、聲音和水質(zhì)傳感器的方法被應(yīng)用于魚類攝食強(qiáng)度識(shí)別[5]。例如,DUARTE等[6]通過(guò)幀差法,得到魚類攝食引起的圖像區(qū)域面積變化,并以此作為魚類活動(dòng)的評(píng)價(jià)指標(biāo)。ZHOU等[7]利用圖像紋理和光流評(píng)估攝食強(qiáng)度,并建立自適應(yīng)網(wǎng)絡(luò)模糊推理系統(tǒng)(adaptive network-based fuzzy inference system,ANFIS),實(shí)現(xiàn)了自動(dòng)按需投喂。陳彩文等[8]基于魚群背景圖片提取目標(biāo)魚群,并使用灰度共生矩陣對(duì)逆差矩、相關(guān)性、能量和對(duì)比度4個(gè)紋理特征分析魚群的攝食活動(dòng)。ZHOU等[4]提出一種基于LeNet5框架的攝食強(qiáng)度評(píng)價(jià)系統(tǒng),避免了人工特征提取帶來(lái)的誤差,并將攝食強(qiáng)度分為“無(wú)”、“弱”、“中”、“強(qiáng)”4個(gè)等級(jí)。陳雨琦等[9]將工廠化循環(huán)水養(yǎng)殖池中魚群攝食視頻作為前景提取并獲取傅里葉頻譜特征,使用得到的特征訓(xùn)練支持向量機(jī)(support vector machines, SVM)以判斷攝食狀態(tài)。UBINA等[10]將光流和RGB特征融合到3D CNN網(wǎng)絡(luò)中,以此對(duì)魚類攝食強(qiáng)度進(jìn)行預(yù)測(cè),準(zhǔn)確率大于90%。YANG等[11]提出了一種基于Efficient EntNet-B2的雙注意力網(wǎng)絡(luò),通過(guò)研究攝食圖像中興趣區(qū)域之間的空間關(guān)系分析魚群短時(shí)攝食行為。總體而言,基于深度學(xué)習(xí)的視覺(jué)分析方法精度較高[4]。

        雖然基于視覺(jué)的方法方便有效,但在水體渾濁、環(huán)境變化等情況下,此時(shí)攝食時(shí)的聲音成為另一個(gè)重要指標(biāo)[5]。LAGARDèRE等[12-13]通過(guò)監(jiān)測(cè)大菱鲆(Scophthalmus maximus)攝食聲音頻譜,發(fā)現(xiàn)攝食過(guò)程中產(chǎn)生在7~10 kHz頻率范圍內(nèi)的聲音強(qiáng)度為15~20 dB,其反映了攝食強(qiáng)度波動(dòng)。聲學(xué)傳感器也被用于判斷魚類攝食強(qiáng)度,在昏暗和不均勻光照條件下能夠進(jìn)行有效識(shí)別[14-15]。曹曉慧等[16]采用被動(dòng)聲學(xué)技術(shù)獲取單體大口黑鱸(Micropterus salmoides)攝食聲音信號(hào),從混合信號(hào)中提取完整的攝食信號(hào),成功篩選出衡量大口黑鱸攝食活躍度的聲學(xué)特征參數(shù)。NODA等[17]對(duì)音頻信號(hào)進(jìn)行預(yù)處理,并使用梅爾倒譜系數(shù)(mel-scale frequency cepstral coefficients,MFCC)對(duì)其進(jìn)行參數(shù)化,以獲得分類相位信息,最終通過(guò)支持向量機(jī)識(shí)別了102種魚類聲音。此外,一些聲學(xué)特征尚雖未被運(yùn)用到魚類研究,但也在其領(lǐng)域取得了顯著成果。例如,LIU[18]在研究語(yǔ)音情感識(shí)別時(shí)發(fā)現(xiàn)伽馬通頻率倒譜系數(shù)(gammatone frequency cepstral coefficients,GFCC)相對(duì)于MFCC具有更強(qiáng)的抗噪聲表達(dá)能力,在情緒識(shí)別時(shí)性能更優(yōu)。RAMASHINI等[19]比較了MFCC、LPCC(linear prediction cepstral coefficients)和GFCC,發(fā)現(xiàn)GFCC特征在鳥類鳴叫分類方面準(zhǔn)確率較高。然而,聲學(xué)技術(shù)容易受到環(huán)境噪聲干擾,限制了其在實(shí)際生產(chǎn)實(shí)踐中的應(yīng)用[20]。

        水質(zhì)等環(huán)境參數(shù)也已用于攝食強(qiáng)度評(píng)估。水質(zhì)(如水溫、溶解氧濃度、pH值、氨氮化合物等)變化會(huì)直接影響魚類食欲[21-23]。溫度可影響魚類新陳代謝率,從而影響其獲取食物的能力和欲望[24]。WU等[25]通過(guò)檢測(cè)投喂時(shí)魚群聚集和斗爭(zhēng)對(duì)溶解氧濃度的影響,開發(fā)了一種自適應(yīng)的模糊推理系統(tǒng),用于魚類投喂決策。SK?IEN等[26]研究發(fā)現(xiàn)魚的攝食行為也會(huì)隨著溶解氧濃度的變化而發(fā)生變化。例如,投喂時(shí),局部溶解氧濃度會(huì)降低,未攝食的顆粒沉積在水底也會(huì)引起溶解氧和氨氮化合物濃度變化。因此,水質(zhì)數(shù)據(jù)在一定程度上能夠反映魚類攝食狀態(tài)。

        多模態(tài)相比單模態(tài)蘊(yùn)含更豐富的信息,在檢測(cè)和分類方面展現(xiàn)出超越單模態(tài)的性能,并已在多方面得到應(yīng)用。例如,LIU等[27]提出了低秩多模態(tài)融合(Low-rank Multimodal Fusion)方法,其使用低秩張量融合大大提升了模型運(yùn)算效率。TSAI等[28]提出了一種多模態(tài)Transformer(multimodal transformer,MulT),該算法通過(guò)融合視覺(jué)、聲音和文本信息進(jìn)行情感分類,相比傳統(tǒng)方法,精度至少提升5%。在農(nóng)業(yè)中,KERKECH[29]等將可見(jiàn)光和紅外圖像融合繪制葡萄園的患病區(qū)域。車熒璞等[30]通過(guò)融合圖片和光譜等信息檢測(cè)玉米表型性狀,克服了冠層飽和問(wèn)題,驗(yàn)證了多模態(tài)在生物量估測(cè)精度方面的性能。WAKAMORI[31]提出了一種基于聚束雨滴的多模態(tài)神經(jīng)網(wǎng)絡(luò)(C-Drop),通過(guò)整合生理和氣象數(shù)據(jù)準(zhǔn)確估計(jì)植物水分壓力。SHEN[32]基于隨機(jī)森林(RF-RFE)和CNN提取聲學(xué)和視覺(jué)特征,并將這2種特征通過(guò)早期融合輸入支持向量機(jī),實(shí)現(xiàn)了豬咳嗽聲的識(shí)別。

        為將多模態(tài)融合引入魚類攝食強(qiáng)度識(shí)別并提升其識(shí)別精度,本文針對(duì)以上問(wèn)題,以實(shí)現(xiàn)水產(chǎn)養(yǎng)殖中的水質(zhì)-聲音-視覺(jué)融合為目標(biāo),提出一種基于MulT算法[28]改進(jìn)的Fish-MulT攝食強(qiáng)度量化算法,首先引入多模態(tài)轉(zhuǎn)移模塊(multimodal transfer module,MMTM)對(duì)輸入3種模態(tài)的特征向量進(jìn)行特征級(jí)融合,保留重要特征,并抑制非重要特征,得到各模態(tài)融合后的向量;其次,對(duì)融合后的3種模態(tài)添加自適應(yīng)權(quán)重(adaptive weight)后得到融合模態(tài)F;最后,通過(guò)融合模態(tài)F將MulT算法優(yōu)化為Fused MulT算法,以克服單一模態(tài)難以完全反映攝食狀態(tài)的片面性,提高攝食強(qiáng)度量化的準(zhǔn)確率。為開發(fā)精準(zhǔn)投喂系統(tǒng)提供技術(shù)支持。

        1 材料與方法

        1.1 數(shù)據(jù)來(lái)源

        試驗(yàn)在北京市農(nóng)林科學(xué)院信息技術(shù)研究中心的工廠化循環(huán)水養(yǎng)殖實(shí)驗(yàn)室進(jìn)行。數(shù)據(jù)采集平臺(tái)如圖1所示。該平臺(tái)由6個(gè)高1.2 m、直徑和水深為1 m的養(yǎng)殖池組成。并配備制氧機(jī)、循環(huán)水處理裝置、水質(zhì)傳感器等設(shè)備。試驗(yàn)用魚為金鱒魚(Oncorhynchus aguabonita),單體質(zhì)量為(500±10)g,養(yǎng)殖密度為(8±1)kg/m3,溶解氧為(9~12)mg/L,水溫為(14~16)℃。投喂頻率為每日一次,時(shí)間為下午5:00,每個(gè)養(yǎng)殖池投喂量為(100±10)g。為消除環(huán)境變化的影響,試驗(yàn)前對(duì)所有魚進(jìn)行為期一個(gè)月的適應(yīng)性養(yǎng)殖。此外,為模擬真實(shí)養(yǎng)殖環(huán)境,試驗(yàn)燈光在白天保持常亮,以消除魚類趨光性對(duì)試驗(yàn)的影響。

        圖1 試驗(yàn)裝置與數(shù)據(jù)采集系統(tǒng)Fig.1 Experiment equipment and data collecting system

        為避免水面反光影響圖像采集的質(zhì)量,本研究使用GoPro運(yùn)動(dòng)相機(jī)在水下10 cm處采集數(shù)據(jù),其不僅可以捕捉整個(gè)養(yǎng)殖池區(qū)域,還可消除投餌機(jī)與相機(jī)相對(duì)位置的影響。音頻數(shù)據(jù)采樣頻率為44.1 kHz。視頻幀率為60幀/s,像素分辨率為1 920×1 080。采用電化學(xué)水質(zhì)傳感器采集水質(zhì)數(shù)據(jù),包括溫度、pH值和溶解氧3種參數(shù)。

        1.2 數(shù)據(jù)集

        根據(jù)?VERLI提出的魚類攝食強(qiáng)度分類標(biāo)準(zhǔn)[33],本文將攝食強(qiáng)度分為“強(qiáng)”、“中”、“弱”、“無(wú)”4類,如表1所示。

        表1 魚類攝食強(qiáng)度分級(jí)Table 1 Grading of fish feeding intensity

        將采集的視頻和音頻統(tǒng)一剪輯為4 s片段。從水質(zhì)傳感器中記錄的文件中提取水質(zhì)數(shù)據(jù)。共得到1 293組3模態(tài)數(shù)據(jù),其中70%的數(shù)據(jù)隨機(jī)作為訓(xùn)練集,15%作為驗(yàn)證集,15%作為測(cè)試集。

        2 特征提取

        多模態(tài)數(shù)據(jù)量較大,為更高效合理利用數(shù)據(jù),減少計(jì)算量,首先需對(duì)3種模態(tài)數(shù)據(jù)進(jìn)行特征提取,具體流程如圖2所示。

        圖2 特征提取流程Fig.2 Flow chart of feature extraction

        2.1 視頻特征提取

        視頻特征提取過(guò)程如圖2a所示。基于Kenetics-400[34]的SlowFast[35]預(yù)訓(xùn)練模型用于視覺(jué)特征提取,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。SlowFast網(wǎng)絡(luò)以64幀作為特征提取的基本單元,輸入路徑分為Slow和Fast。Slow路徑捕獲空間信息,F(xiàn)ast路徑捕獲運(yùn)動(dòng)信息。該算法利用不同速率下的差異捕捉幀的動(dòng)態(tài)變化,并將每幀圖像縮放到256 × 340。為了最大限度地利用每一幀的變化,將視頻分為4個(gè)基本單元,最后通過(guò)線性層得到1 × 2 304維的視頻特征向量。

        圖3 SlowFast網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 SlowFast network structure

        2.2 音頻特征提取

        魚類攝食時(shí),頜骨或咽部牙齒咬合時(shí)會(huì)發(fā)出摩擦聲。聲音頻率組成范圍較廣,低頻小于100 Hz,高頻超過(guò)8 000 Hz,但主頻在1 000~4 000 Hz之間[36]。音頻特征提取過(guò)程如圖2b。對(duì)采集的44.1 kHz音頻信號(hào)進(jìn)行下采樣到16 kHz,并從音頻中提取能量譜圖,將能量譜圖轉(zhuǎn)換為GFCC譜圖。最后,利用ResNet50[37]網(wǎng)絡(luò)提取GFCC譜圖信息,得到1×2 048維的音頻特征向量。

        2.3 水質(zhì)數(shù)據(jù)處理

        水質(zhì)數(shù)據(jù)處理如圖2c所示。水質(zhì)數(shù)據(jù)的采集間隔為12 s,本文將整個(gè)攝食階段的水質(zhì)數(shù)據(jù)進(jìn)行3次函數(shù)擬合。以0.01 s為間隔,沿?cái)M合曲線對(duì)相應(yīng)視頻時(shí)間段進(jìn)行采樣,得到401維數(shù)據(jù),并進(jìn)行歸一化處理。最后將pH值、溶解氧、溫度等水質(zhì)特征連接,得到1×1 203維的水質(zhì)特征向量。

        3 Fish-MulT算法

        本文提出的改進(jìn)Fish-MulT算法,如圖4所示。具體改進(jìn)如下:首先,引入多模態(tài)轉(zhuǎn)移模塊(multimodal transfer module,MMTM)對(duì)輸入的3種模態(tài)的特征向量進(jìn)行融合;然后,針對(duì)融合后的3種模態(tài)添加自適應(yīng)權(quán)重(adaptive weight)后得到融合模態(tài)F;最后,通過(guò)融合模態(tài)F將MulT算法優(yōu)化為Fused MulT算法。

        圖4 Fish-MulT算法結(jié)構(gòu)圖Fig.4 Structure diagram of Fish-MulT algorithm

        3.1 MulT算法

        MulT算法[28]由一維卷積(Conv1D),位置編碼(position embedding),跨模態(tài)Transformer(cross-modal transformer),自注意力Transformer(self-attention transformer)和線性層構(gòu)成。其中一維卷積可以增強(qiáng)一維特征向量相鄰信息交互。位置編碼為向量添加顯式位置信息。

        跨模態(tài)Transformer作用為表征一個(gè)模態(tài)對(duì)于另一模態(tài)潛在適應(yīng)性。而自注意力Transformer可收集時(shí)間維度上的信息。最后經(jīng)過(guò)線性層映射得到輸出結(jié)果。對(duì)于3種模態(tài)(視覺(jué)V,聲音A和水質(zhì)W),MulT算法中的跨模態(tài)Transformer用于表征其中2種模態(tài)分別對(duì)于第3模態(tài)的適應(yīng)性(如水質(zhì)對(duì)于視覺(jué)的潛在適應(yīng)性以及聲音對(duì)于視覺(jué)的潛在適應(yīng)性,記作W→V和A→V),無(wú)法表征3種模態(tài)之間的適應(yīng)。因此本文考慮使用融合模態(tài)F表征3種模態(tài)之間的適應(yīng)性(即使用F→V代替W→V和A→V)。

        3.2 MMTM模塊

        為了得到融合模態(tài)F,需要對(duì)3種模態(tài)進(jìn)行特征間的融合。本文引入多模態(tài)轉(zhuǎn)移模塊(multimodal transformer module,MMTM)實(shí)現(xiàn)不同模態(tài)數(shù)據(jù)特征間的融合[38]。并在原始模型雙模態(tài)融合的基礎(chǔ)上擴(kuò)展為3模態(tài),如圖5所示。

        圖5 多模態(tài)轉(zhuǎn)移模塊結(jié)構(gòu)Fig.5 MMTM(multimodal transfer module) structure diagram

        MMTM主要由壓縮單元、激勵(lì)單元和激活函數(shù)Sigmoid構(gòu)成。壓縮單元使用全局平均池化,獲得各模態(tài)壓縮向量,對(duì)壓縮向量進(jìn)行連接并通過(guò)線性層映射得到融合向量。激勵(lì)單元通過(guò)線性層獲得各模態(tài)的激勵(lì)向量。最后通過(guò)Sigmoid函數(shù)和初始向量進(jìn)行點(diǎn)積運(yùn)算,強(qiáng)調(diào)重要特征,并抑制非重要特征。

        MMTM具體實(shí)現(xiàn)過(guò)程如下,設(shè)輸入特征向量分別為XV、XA和XW,經(jīng)過(guò)全局平均池化,得到壓縮向量SV、SA和SW,分別為

        式中K、L、H和Ni、Mi、Oi分別為XV、XA、XW的維度數(shù)和第i個(gè)維度大小。

        將SV、SA和SW連接后送入線性層,映射得到融合向量Z:

        式中W為映射矩陣,b為偏置。激勵(lì)向量EV、EA和EW通過(guò)獨(dú)立的線性層映射得到:

        式中σ代表Sigmoid函數(shù),⊙為點(diǎn)積操作,以此對(duì)每個(gè)通道進(jìn)行抑制或激活。

        3.3 自適應(yīng)權(quán)重

        由于MMTM輸出結(jié)果為融合后的3種模態(tài)特征向量,為得到融合模態(tài)F,需要對(duì)3種模態(tài)向量進(jìn)行求和運(yùn)算,然而不同模態(tài)對(duì)準(zhǔn)確率的貢獻(xiàn)不同,因此需要在求和之前為每個(gè)模態(tài)添加權(quán)重w。本文采用自適應(yīng)權(quán)重(adaptive weight)的方式為各模態(tài)添加權(quán)重,具體如下:

        wi定義為

        式中αi為對(duì)應(yīng)模態(tài)輸入節(jié)點(diǎn)的訓(xùn)練權(quán)重,隨優(yōu)化器的梯度下降而改變,k為放大系數(shù),能夠加快wi的收斂。

        3.4 Fused MulT算法

        本文使用融合模態(tài)F對(duì)MulT算法中的跨模態(tài)Transformer的數(shù)量進(jìn)行優(yōu)化,得到Fused MulT算法,如圖6所示。MulT算法中跨模態(tài)Transformer只能表征一種模態(tài)到另一模態(tài)的潛在適應(yīng)性,由于存在視覺(jué)V、聲音A和水質(zhì)W3個(gè)模態(tài),故每路分支使用2個(gè)跨模態(tài)Transformer(例如W→V和A→V),表征其中2個(gè)模態(tài)分別對(duì)于第3模態(tài)的潛在適應(yīng)。通過(guò)引入融合模態(tài),并使用融合模態(tài)F對(duì)各模態(tài)的潛在適應(yīng)代替各支路的跨模態(tài)Transformer(例如使用F→V代替W→V和A→V),得到Fused MulT算法。故Fused MulT相比MulT,只使用50%的跨模態(tài)Transformer。

        圖6 Fused MulT與MulT的算法結(jié)構(gòu)Fig.6 Algorithm structure of Fused MulT and MulT

        本文中,模型輸入為視頻、音頻和水質(zhì)向量,為了使輸入序列的每個(gè)元素與相鄰的元素充分交互,將該序列通過(guò)一維卷積(Conv1D)進(jìn)行變換。Conv1D的輸入序列長(zhǎng)度Lin,則輸出序列長(zhǎng)度Lout為

        式中k為卷積核大??;p為填充大??;d為卷積核內(nèi)同一維度上相鄰元素之間差異;s為卷積核步長(zhǎng)。

        對(duì)于位置編碼PE(position embedding),本文遵循了Vaswani和Tsai的方法[28,39]。序列X∈RT×d(其中T為長(zhǎng)度,d為經(jīng)過(guò)卷積輸出的維度)的PE定義為

        跨模態(tài)Transformer的核心為跨模態(tài)注意力(crossmodal attention,CMA)[28],本文的跨模態(tài)注意力結(jié)構(gòu)如下:輸入為模態(tài)α和融合模態(tài)F,模態(tài)α記為Xα∈RTα×dα,融合模態(tài)F記為XF∈RTF×dF,Tα和TF表示序列長(zhǎng)度,dα和dF表示特征維度。在跨模態(tài)注意力中,模態(tài)α的注意力矩陣Qα和融合模態(tài)F的注意力矩陣KF和VF定義為

        跨模態(tài)Transformer結(jié)構(gòu)[28]由D個(gè)如圖7所示的跨模態(tài)注意力塊疊加構(gòu)成。

        圖7 跨模態(tài)注意力塊結(jié)構(gòu)Fig.7 The structure of cross-modal attention block

        設(shè)第0層模態(tài)α的輸入為,融合模態(tài)F的輸入為,則跨模態(tài)Transformer的融合模態(tài)F關(guān)于模態(tài)α的D層前饋運(yùn)算為

        式中fθ為由θ參數(shù)化的位置前饋?zhàn)訉覽28],為CMAF→α在第i層的多頭注意力[39]。LN為層歸一化[40]。則融合模態(tài)F到模態(tài)α的跨模態(tài)Transformer記作(F→α)。本文使用的3個(gè)跨模態(tài)Transformer分別記作(F→V,F(xiàn)→A和F→W)。

        然后,將跨模態(tài)Transformer的輸出輸入到自注意力Transformer(self-attention transformer)[39]以收集時(shí)間信息。最后將3種模態(tài)經(jīng)過(guò)自注意力Transformer后得到的輸出向量進(jìn)行連接,并通過(guò)線性層映射得到預(yù)測(cè)結(jié)果。結(jié)果被限制在1到4之間并向上取整,得到4類標(biāo)簽,為1,2,3,4,分別代表“無(wú)”、“弱”、“中”和“強(qiáng)”。

        3.5 評(píng)價(jià)指標(biāo)

        本研究基于準(zhǔn)確率(Ac)、精度(Pr)和召回率(Re),準(zhǔn)確率為正確識(shí)別各種攝食強(qiáng)度的概率,為正確分類的樣本數(shù)量與樣本總數(shù)的比例。精度是在特定攝食強(qiáng)度下,正確分類樣本在所有預(yù)測(cè)為該特定攝食強(qiáng)度樣本中所占的比例。召回率是正確分類的攝食強(qiáng)度占所有該強(qiáng)度總樣本的比例。

        4 結(jié)果與分析

        為驗(yàn)證本文算法的性能,在相同試驗(yàn)環(huán)境下,將該算法和MulT等多模態(tài)算法進(jìn)行比較。試驗(yàn)環(huán)境如下:GPU 為Nvidia GTX1650,CPU為 AMD Ryzen 5 3500X,CUDA版本為10.0。

        4.1 試驗(yàn)結(jié)果比較

        訓(xùn)練參數(shù)Batch size設(shè)置為24,初始學(xué)習(xí)率設(shè)置為0.001,訓(xùn)練180個(gè)Epoch。使用Adam優(yōu)化器優(yōu)化網(wǎng)絡(luò)參數(shù)。經(jīng)過(guò)20個(gè)Epoch訓(xùn)練,若訓(xùn)練集損失函數(shù)(loss function)大小并未減少,則將學(xué)習(xí)率降低為上一階段的0.1倍。

        試驗(yàn)結(jié)果如表2所示。對(duì)于單模態(tài)模型,采用視覺(jué)的SlowFast算法確率達(dá)到91.75%,遠(yuǎn)高于采用聲音的GFCC頻譜和ResNet50組合。水質(zhì)準(zhǔn)確率較低,可能由于投喂時(shí)間短,水質(zhì)參數(shù)變化較小。經(jīng)過(guò)多模態(tài)融合后的模型準(zhǔn)確率明顯高于單模態(tài)。使用3種模態(tài)融合的MulT算法準(zhǔn)確率為93.30%。而本文模型在3種模態(tài)融合情況下,準(zhǔn)確率達(dá)95.36%,比MulT高2.06個(gè)百分點(diǎn),相對(duì)視覺(jué)、聲音和水質(zhì)等單一模態(tài)方法分別提高3.61、21.65和68.56個(gè)百分點(diǎn)。此外通過(guò)抑制MulT和本文模型某一模態(tài)的輸入,發(fā)現(xiàn)雙模態(tài)的準(zhǔn)確率基本優(yōu)于單一模態(tài)。

        表2 各模型魚類攝食強(qiáng)度識(shí)別準(zhǔn)確率對(duì)比表Table 2 Comparison table of fish feeding intensity identification accuracy of each model

        MluT和本文模型的準(zhǔn)確率和損失函數(shù)曲線如圖8所示,本文模型的準(zhǔn)確率曲線在80個(gè)訓(xùn)練周期之后始終保持在MulT算法準(zhǔn)確率曲線的上方。由損失函數(shù)曲線可知,本文模型在第80個(gè)周期左右開始收斂,而MulT算法在第100個(gè)周期左右開始收斂,本文算法的損失函數(shù)收斂速度優(yōu)于MulT算法。

        圖8 MulT和Fish-MulT性能對(duì)比Fig.8 Performance comparison between MulT and Fish-MulT

        表3對(duì)比了3種多模態(tài)模型參數(shù)和每個(gè)Epoch平均訓(xùn)練時(shí)間,結(jié)果顯示,與MulT相比,本文模型參數(shù)減少38%,訓(xùn)練時(shí)間減少29%。與Fusion-Based-CM-Attn-MulT[41]相比,參數(shù)量下降了28%,訓(xùn)練速度也有所提升。其原因?yàn)镸ulT模型每個(gè)模態(tài)分支使用2個(gè)跨模態(tài)Transformer,而本文模型每個(gè)分支只使用1個(gè),可減少參數(shù),并加快訓(xùn)練速度。

        表3 多模態(tài)模型參數(shù)量和訓(xùn)練時(shí)間比較Table 3 Comparison of parameters and training time between multimodal models

        圖9比較了5種模型精度和召回率,結(jié)果表明本文模型(Fish-MulT)對(duì)“強(qiáng)”、“中”、“弱”和“無(wú)”4種攝食強(qiáng)度的識(shí)別精度達(dá)到最高,分別為93.62%、94.74%、95.12%和97.06%。并且在“弱”和“中”這2個(gè)標(biāo)簽上的召回率明顯優(yōu)于其他模型,達(dá)到95.12%和92.31%,在“無(wú)”標(biāo)簽方面略微落后Fused MulT模型1.42個(gè)百分點(diǎn)。

        圖9 不同模型的精度和召回率對(duì)比Fig.9 Comparison of Precision and Recall of different models

        4.2 消融試驗(yàn)

        本文對(duì)多模態(tài)轉(zhuǎn)移模塊MMTM和自適應(yīng)權(quán)重進(jìn)行消融試驗(yàn),如表4所示。選擇Fused MulT作為基線模型。基線模型準(zhǔn)確率為93.81%。分別單獨(dú)加入MMTM和自適應(yīng)權(quán)重后,準(zhǔn)確率提高了1.04個(gè)百分點(diǎn)。在二者均加入的情況下,模型準(zhǔn)確率達(dá)到95.36%。結(jié)果表明,二者都對(duì)準(zhǔn)確率的提升起到一定作用。

        表4 Fish-MulT消融試驗(yàn)Table 4 Ablation experiment of Fish-MulT

        4.3 魚類攝食強(qiáng)度識(shí)別結(jié)果

        本文模型識(shí)別結(jié)果和歸一化混淆矩陣如表5和圖10所示,歸一化混淆矩陣的左上到右下的對(duì)角線表示每個(gè)分類的識(shí)別準(zhǔn)確率,對(duì)角線外區(qū)域表示錯(cuò)誤分類區(qū)域。“無(wú)”、“弱”、“中”、“強(qiáng)”4個(gè)攝食強(qiáng)度類別識(shí)別精度和召回率均在90%以上,整體識(shí)別準(zhǔn)確率為95.36%。值得注意的是,只存在相鄰類別的誤判,而不存在跨越一個(gè)及以上等級(jí)的誤判?;煜仃嚨慕Y(jié)果表明本文模型識(shí)別準(zhǔn)確率高,穩(wěn)定性好。

        表5 Fish-MulT算法識(shí)別結(jié)果Table 5 Identification results of Fish-MulT algorithm

        圖10 Fish-MulT算法識(shí)別準(zhǔn)確率歸一化混淆矩陣Fig.10 Normalized confusion matrix of identified accuracy by Fish-MulT

        4.4 模型推理時(shí)間比較

        本文針對(duì)不同模型推理攝食強(qiáng)度的速度進(jìn)行了對(duì)比實(shí)驗(yàn),推理速度為每個(gè)片段的識(shí)別時(shí)間,結(jié)果如表6所示。

        表6 模型推理速度對(duì)比Table 6 Comparison of different models with inference speed

        表6為不同模型對(duì)于每個(gè)4 s 攝食片段的平均推理用時(shí)對(duì)比。MulT算法對(duì)于每個(gè)片段的推理用時(shí)最久,為0.093 5 s,本文模型在MulT的基礎(chǔ)上改進(jìn),減少了參數(shù)量,推理速度優(yōu)于MulT。相比MulT,推理速度提升15.72%。此外,由表6可見(jiàn),本文模型雙模態(tài)的推理速度優(yōu)于3模態(tài)。而單模態(tài)的SlowFast模型推理速度最快,達(dá)到0.022 3 s。雖然多模態(tài)模型的推理速度相比單模態(tài)不占優(yōu)勢(shì),但是整體的推理速度均較快,推理用時(shí)占片段用時(shí)的占比小于2.5%,精度優(yōu)勢(shì)的重要性遠(yuǎn)大于時(shí)間優(yōu)勢(shì)。

        4.5 對(duì)長(zhǎng)視頻攝食強(qiáng)度預(yù)測(cè)效果驗(yàn)證

        為驗(yàn)證本文模型預(yù)測(cè)能力,測(cè)試其在一段完整的未經(jīng)訓(xùn)練的攝食視頻上的性能。視頻長(zhǎng)度為180 s,使用滑動(dòng)窗口覆蓋4 s作為視覺(jué)模態(tài)輸入。每次滑動(dòng)距離為1 s。直接從視頻中提取音頻數(shù)據(jù),水質(zhì)數(shù)據(jù)通過(guò)3次函數(shù)擬合獲得。最后得到177個(gè)預(yù)測(cè)結(jié)果。

        圖11為預(yù)測(cè)結(jié)果與真實(shí)值對(duì)比,4種狀態(tài)變化預(yù)測(cè)時(shí)間點(diǎn)接近真實(shí)變化點(diǎn)。對(duì)于完整攝食過(guò)程預(yù)測(cè),“弱”和“無(wú)”的預(yù)測(cè)準(zhǔn)確率略低于試驗(yàn)結(jié)果??赡茉蚴钦麄€(gè)攝食視頻中“弱”和“無(wú)”的時(shí)間相對(duì)較長(zhǎng),投喂后養(yǎng)殖池內(nèi)漂浮物增加,也在一定程度上影響了視覺(jué)模態(tài)的識(shí)別效果。此外,魚群不規(guī)則游動(dòng)也會(huì)給識(shí)別帶來(lái)一定挑戰(zhàn)。總體上,177個(gè)片段的平均準(zhǔn)確率為87%,能夠較準(zhǔn)確識(shí)別4種攝食狀態(tài)變化和把握攝食強(qiáng)度變化的時(shí)間點(diǎn),可為工廠化循環(huán)水養(yǎng)殖系統(tǒng)實(shí)現(xiàn)精準(zhǔn)投喂提供算法支持。

        圖11 攝食過(guò)程預(yù)測(cè)結(jié)果Fig.11 Predicted results of feeding process

        4.6 識(shí)別實(shí)例分析

        本文算法正確識(shí)別示例如圖12所示。然而本試驗(yàn)對(duì)于攝食強(qiáng)度識(shí)別仍存在一定誤差,對(duì)于攝食強(qiáng)度狀態(tài)切換時(shí),仍有誤判,錯(cuò)誤識(shí)別實(shí)例如圖13所示。

        圖12 魚群攝食強(qiáng)度正確識(shí)別示例Fig.12 Correct identification samples of fish feeding intensity

        圖13 魚群攝食強(qiáng)度誤判示例Fig.13 Wrong identification samples of fish feeding intensity

        當(dāng)“強(qiáng)”即將轉(zhuǎn)變?yōu)椤爸小睍r(shí),本文算法可能提前將“強(qiáng)”識(shí)別為“中”,對(duì)于“無(wú)”和“弱”狀態(tài)的切換同樣如此。在實(shí)際應(yīng)用中,可以通過(guò)加入上下文信息,或者研究邊界點(diǎn)檢測(cè)的高精度算法,避免或減少上述誤判的出現(xiàn)。此外,本研究?jī)H針對(duì)金鱒魚進(jìn)行了試驗(yàn),模型的泛化能力有待考證。下一步將結(jié)合目標(biāo)檢測(cè)算法對(duì)殘余餌料進(jìn)行識(shí)別,并擴(kuò)充試驗(yàn)魚的種類數(shù)量,從而綜合評(píng)價(jià)本文模型識(shí)別魚類攝食強(qiáng)度的效果。

        5 結(jié) 論

        為準(zhǔn)確識(shí)別魚類攝食強(qiáng)度,本文提出一種融合圖像-聲音和水質(zhì)信息的Fish-MulT算法。該算法在MulT算法基礎(chǔ)上進(jìn)行改進(jìn),加入MMTM和自適應(yīng)權(quán)重,并減少了跨模態(tài)Transformer數(shù)量。試驗(yàn)結(jié)果表明,該算法對(duì)攝食強(qiáng)度識(shí)別準(zhǔn)確率達(dá)到95.36%,相比MulT算法提高2.06個(gè)百分點(diǎn),且參數(shù)量減少38%,訓(xùn)練時(shí)間減少29%。因此,該模型可運(yùn)用于工廠化循環(huán)水養(yǎng)殖系統(tǒng),為實(shí)現(xiàn)精準(zhǔn)投喂提供可靠的算法參考。

        猜你喜歡
        模態(tài)水質(zhì)融合
        水質(zhì)抽檢豈容造假
        環(huán)境(2023年5期)2023-06-30 01:20:01
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        一月冬棚養(yǎng)蝦常見(jiàn)水質(zhì)渾濁,要如何解決?這9大原因及處理方法你要知曉
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
        水質(zhì)總磷測(cè)定存在的問(wèn)題初探
        河南科技(2014年23期)2014-02-27 14:19:07
        亚洲午夜精品第一区二区| 精品国产a∨无码一区二区三区| 伊人久久亚洲综合影院首页| 成人午夜视频在线观看高清| 在线成人影院国产av| 国产大片黄在线观看| 亚洲色大网站www永久网站| 99热成人精品国产免| 日本高清一区在线你懂得| 国产av无码专区亚洲av麻豆| 国产精品免费看久久久8 | 久久国产A√无码专区亚洲| 高潮社区51视频在线观看| 亚洲女同性恋第二区av| 国产精品一区二区性色| 国产精品久久国产精品99| 午夜视频在线在免费| 少妇人妻真实偷人精品视频| 综合色久七七综合尤物| 日本一区二区三区在线 | 国产天堂av在线播放资源| 男人吃奶摸下挵进去啪啪软件| 一本一本久久aa综合精品| 波多野结衣aⅴ在线| 欧美高h视频| 国产福利一区二区三区在线观看 | 亚洲免费不卡| 在线播放国产女同闺蜜| 亚洲成熟丰满熟妇高潮XXXXX| 国产亚洲av手机在线观看| 精品少妇一区二区三区四区| 精品蜜桃av免费观看| 人妻少妇猛烈井进入中文字幕| 久久精品国产91精品亚洲| 成人丝袜激情一区二区| 一本无码av中文出轨人妻| 国产内射性高湖| 日本a在线播放| 在线观看av国产自拍| 一本一道AⅤ无码中文字幕| 中文字幕av人妻一区二区|