胥婧雯,于紅*,張鵬,谷立帥,李海清,鄭國偉,程思奇,殷雷明
(1.大連海洋大學(xué) 信息工程學(xué)院,遼寧省海洋信息技術(shù)重點實驗室,遼寧 大連 116023;2.設(shè)施漁業(yè)教育部重點實驗室(大連海洋大學(xué)),遼寧 大連 116023;3.大連海洋大學(xué) 水產(chǎn)與生命學(xué)院,遼寧 大連 116023)
魚類行為是魚類對環(huán)境變化的外在反應(yīng),反映魚類的日常狀態(tài)和生長情況[1],是養(yǎng)殖技術(shù)人員判斷魚類健康狀況的重要依據(jù)。魚類游泳和攝食等行為的自動識別是魚類活動規(guī)律和生活習(xí)性研究的基礎(chǔ),也是精準投喂和智慧養(yǎng)殖等研究的支撐[2]。
目前,對魚類行為識別研究大多采用基于計算機視覺的方法。張重陽等[3]利用多特征融合與機器學(xué)習(xí)相結(jié)合的方法識別魚類攝食行為,有效增強了識別網(wǎng)絡(luò)的魯棒性;黃志濤等[4]利用魚體運動和圖像紋理特征識別大西洋鮭的攝食活動,有效提高了識別精確度。但在真實生產(chǎn)條件下,光線昏暗導(dǎo)致計算機視覺方法無法準確識別魚類行為,進而影響了識別準確率和召回率[5]??紤]到聲音信號不受光線的影響,研究者對基于被動水聲信號的魚類分類和行為進行了研究。黃漢英等[6]通過建立基于主成分分析的支持向量機,實現(xiàn)對淡水魚混合比例識別,提升了混合比例識別準確率;Kim等[7]采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)實現(xiàn)了胡須海豹的快速識別,將深度學(xué)習(xí)引進被動聲學(xué)的檢測技術(shù)中,能自動識別胡須海豹的出入。魚類攝食和游泳行為擁有不同聲音特征,但真實養(yǎng)殖環(huán)境下各種噪聲的存在,會干擾對魚類聲音特征的提取,致使基于被動聲學(xué)方法識別魚類行為的準確率和召回率也難以滿足需求[8-9]。人類在復(fù)雜條件下進行目標識別時,大腦會利用聽覺和視覺的互補性,同理,綜合兩個模態(tài)的信息識別魚類行為,可彌補單一模態(tài)識別的不足,提升目標識別的準確性。因此,研究基于聲音與視覺融合的魚類行為識別方法,對于解決噪聲干擾等復(fù)雜條件下的魚類行為識別具有重要意義。
在多模態(tài)融合研究中,已證明多個模態(tài)信息的共同協(xié)作可以得到關(guān)聯(lián)信息,為各領(lǐng)域的信息服務(wù)提供支撐[10]。多模態(tài)融合是將多種模態(tài)的信息集成在一起,通過分類方法來預(yù)測一個類。范習(xí)健等[11]提出一種融合聽覺模態(tài)和視覺模態(tài)信息的雙模態(tài)情感識別方法,利用CNN網(wǎng)絡(luò)和長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)對融合后的聽覺和視覺雙模態(tài)特征進行情感識別。Venugopalan等[12]利用深度學(xué)習(xí),結(jié)合成像、電子健康記錄和基因組數(shù)據(jù)判斷是否有潛在的阿爾茲海默病,使用不同的策略融合數(shù)據(jù),證明深度融合策略優(yōu)于淺層融合策略。Nagrani等[13]提出一種基于Transformer模型的方法,使用“融合瓶頸”進行多層模態(tài)融合,提高了視聽融合性能,降低了計算成本。上述研究表明,多模態(tài)融合在各領(lǐng)域得到了廣泛應(yīng)用,并取得了豐碩研究成果。但在魚類行為識別領(lǐng)域中,考慮到魚類在攝食和游泳時聲音信號特征差異小、特征難學(xué)習(xí)的特點,不能直接使用上述方法進行識別。本研究中,開展了聲音與視覺融合的多模態(tài)識別方法研究,在此基礎(chǔ)上充分挖掘模態(tài)關(guān)聯(lián)信息,使各模態(tài)潛在信息交互最大化,提出多級融合的U-FusionNet-ResNet50+SENet網(wǎng)絡(luò),并設(shè)計了不同試驗,驗證該方法的有效性,從而實現(xiàn)復(fù)雜條件下的魚類行為識別,為智慧漁業(yè)提供新的技術(shù)支撐。
聲音與視覺多級融合的魚類行為識別模型,本質(zhì)上是利用魚類在游泳和攝食等行為時發(fā)出的聲音信號和視覺信息,綜合兩者實現(xiàn)魚類行為的分類。為精準區(qū)分魚類攝食和游泳行為,需要對不同模態(tài)的特征提取方法進行研究,獲取其在高維空間上的共性。
基于聲音和視覺多級融合的魚類行為識別模型U-FusionNet-ResNet50+SENet網(wǎng)絡(luò)框架如圖1所示。其中,U-FusionNet網(wǎng)絡(luò)由特征提取模塊、融合模塊和通道注意力網(wǎng)絡(luò)SENet組成,分別訓(xùn)練兩個不同的ResNet50網(wǎng)絡(luò)作為視覺模態(tài)與聲音模態(tài)的特征提取器,提取模態(tài)全局特征。將每一個特征提取階段的輸出經(jīng)過跳躍連接融合(Skip-Concat)模塊進行融合,得到不同維度的融合特征;然后綜合各個階段的融合信息,將不同階段特征進行像素級疊加,融合成一組復(fù)合特征向量;最后引入通道注意力機制SENet,通過全連接層整合特征圖,用Softmax函數(shù)完成魚類行為識別分類操作。
Stage 1~5為ResNet50的5個特征提取階段;Skip-Concat為跳躍連接模塊,實現(xiàn)不同階段的模態(tài)融合;SENet為通道注意力模塊;Fc為全連接層;Softmax函數(shù)為分類函數(shù)。Stages from 1 to 5 are the five feature extraction stages of ResNet50;Skip-Concat is a skip connection module to achieve mode fusion in different stages;SENet is the channel attention module;Fc is the full connection layer;Softmax function is the classification function.圖1 多級融合的U-FusionNet-ResNet50+SENet網(wǎng)絡(luò)Fig.1 Multilevel Fusion U-FusionNet-ResNet50+SENet network
采用ResNet50[14](residual neural network,殘差網(wǎng)絡(luò))模型分別提取魚類行為的視覺特征和聲音特征,ResNet50模型的殘差連接可以將原始輸入信息傳送到后層中,從而更好地保證特征的完整性??紤]到聲音信號具有特征差異小、特征學(xué)習(xí)難等特點,先使用具有較強特征表達能力的MFCC(mel frequency cepstrum coefficient)特征系數(shù)[15]表示魚類行為聲音特征,再將其送入特征提取器中獲取高維特征;然后分別固定其卷積部分作為圖像與聲音的特征提取器,完成特征提取。
ResNet50有5個不同感受野的特征提取階段,隨著網(wǎng)絡(luò)層數(shù)加深,其潛在基礎(chǔ)網(wǎng)絡(luò)的組合數(shù)目和特征組合次數(shù)增加,但在多次特征組合中,會出現(xiàn)信息損失,遺漏掉模態(tài)的某些潛在信息;為使模態(tài)交互充分,改進U型對稱架構(gòu)[16],將不同階段的模態(tài)特征通過跳躍連接融合(Skip-Concat)模塊進行融合(圖2)。
up sample為上采樣操作;Concat為通道融合操作;1×1 CONV為1×1卷積;down sample為下采樣操作;element-wise add為元素相加操作。up sample is an up sampling operation;Concat is a fusion operation by channel;1×1 CONV is a 1×1 convolution;down sample is a down sampling operation;element-wise add is an element addition operation.圖2 Skip-Concat模塊Fig.2 Skip-Concat module
為得到尺度相同的聲音與視覺特征圖,通過雙線性插值法的上采樣方式,統(tǒng)一不同模態(tài)特征圖尺度。采用Concat對不同維度特征進行融合,用增加通道的方式實現(xiàn)融合效果,保證融合特征完整性。Concat的詳細過程[17]:設(shè)有N維視覺特征,M維聲音特征,將N維視覺特征與M維聲音特征進行拼接操作,融合成N+M維特征。將融合得到N+M維特征進行1×1卷積,進一步實現(xiàn)跨通道交互和信息整合,以提升融合效率;綜合各階段融合信息,將不同階段特征進行像素級疊加,融合成一組復(fù)合特征向量,不僅在不同維度上挖掘到更多潛在互補特征,還一定程度減少了計算量。N+M維特征表達式為
N=[x1,x2,x3,…,xn],
(1)
M=[y1,y2,y3,…,yn],
(2)
N+M=[x1,x2,x3,…,xn,y1,
y2,y3,…,yn]。
(3)
為在凝練融合信息的同時最大程度地保留局部信息,引入通道注意力機制SENet。SENet由Hu等[18]提出,通過學(xué)習(xí)特征權(quán)重,獲取到每個feature map的重要程度,根據(jù)重要程度去為每一個特征通道賦予一個權(quán)重值,增強有效信息,抑制無關(guān)信息,使模型達到更好效果。計算公式為
(4)
S=Fex(z,W)=σ[W2δ(W1,z)],
(5)
xc=Fsacle(uc,s)=siuc。
(6)
其中:H為圖像特征的高度;W為寬度;zn為全局特征信息;Fsq為通道擠壓操作;Fex為激勵操作;S為激勵操作后得到的權(quán)值;xc為每一個特征得到的通道乘積權(quán)重;Fsacle為輸入通道與各自權(quán)值的乘積操作;uc代表每一個特征通道;W1和W2為全連接操作的權(quán)重;δ為激活函數(shù)ReLU;σ為歸一化函數(shù)(Sigmoid)。首先,對特征圖進行擠壓操作,壓縮特征獲得全局特征信息;其次,對特征信息進行激勵操作,構(gòu)建特征通道間的相關(guān)性,用激活函數(shù)對權(quán)重進行非線性處理,輸出的權(quán)重為每個特征通道賦予一個權(quán)值,與原始特征相乘;最后,將得到權(quán)重信息的feature map進行平均池化、送入全連接層整合特征圖,通過Softmax函數(shù)進行魚類行為的識別分類操作。損失函數(shù)(L)定義為交叉熵函數(shù),計算公式為
(7)
為實現(xiàn)聲音與視覺融合的魚類行為分析,構(gòu)建了多模態(tài)魚類行為數(shù)據(jù)集,包括視覺數(shù)據(jù)集和聲音數(shù)據(jù)集。攝食和游泳是魚類的基礎(chǔ)行為,也是養(yǎng)殖生產(chǎn)中重點監(jiān)控的魚類行為,養(yǎng)殖技術(shù)人員可以通過觀察魚類的攝食和游泳狀態(tài)判斷魚類的健康水平。本試驗中,數(shù)據(jù)采集以攝食和游泳行為為主,選用許氏平鲉作為試驗對象。許氏平鲉習(xí)慣生活在網(wǎng)箱底部,因光照度弱,單一視覺方法很難采集到理想的視覺數(shù)據(jù),用多模態(tài)融合方法可以提高行為識別的準確率。為消除不同生長階段許氏平鲉對試驗造成的誤差,分別選取平均體質(zhì)量為50、100、200 g 3種規(guī)格的許氏平鲉各30 尾進行試驗。
2.1.1 數(shù)據(jù)采集 試驗在大連海洋大學(xué)魚類行為學(xué)實驗室進行,采集時間同步。因視覺模態(tài)和聲音模態(tài)采集方式不同,故使用兩套數(shù)據(jù)采集系統(tǒng)(水下聲學(xué)測量系統(tǒng)和視覺行為測量系統(tǒng))采集數(shù)據(jù)(圖3)。使用水下聲學(xué)測量系統(tǒng)對信號進行采集時,利用水聽器(AQH20k-1062)連接功率放大器將聲音信號放大并進行AD轉(zhuǎn)換,通過專業(yè)數(shù)字式錄音機(roland quad-capture UA-55)將信號存儲為WAV聲音文件;使用視覺行為測量系統(tǒng)對魚類行為的視覺數(shù)據(jù)進行采集時,利用攝像頭(??低暰W(wǎng)絡(luò)攝像機)實時監(jiān)控魚類行為的視覺數(shù)據(jù)。試驗中仿照養(yǎng)殖企業(yè)攝像頭安裝位置,將數(shù)據(jù)采集攝像頭架設(shè)在高于水面1 m的養(yǎng)殖池旁,攝像頭的另一端連接計算機以存儲數(shù)據(jù),數(shù)據(jù)格式為MP4視頻文件。許氏平鲉養(yǎng)殖在直徑為1 m、高為1.2 m的玻璃鋼水槽中,為模擬真實環(huán)境下的養(yǎng)殖條件,水溫保持在15~20 ℃,pH為8.0~8.5,水聽器置于水面下20 cm處,此位置既不會干擾魚類正常生活,也能采集到效果較好的聲音信號,水聽器采樣頻率設(shè)為20~20 000 Hz,覆蓋魚類發(fā)聲的頻率范圍。
圖3 魚類行為數(shù)據(jù)采集系統(tǒng)Fig.3 Fish behavior data collection system
在收集攝食行為過程中發(fā)現(xiàn),存在激烈攝食、平穩(wěn)攝食和消極攝食3個不同階段,為了確保收集到不同階段下魚類攝食行為的視覺和聲音特征,在采集過程中,先將整個攝食過程全部錄制,后期進行人為分割處理。采集到許氏平鲉攝食聲音信號樣本321 個、游泳聲音信號樣本491個,采集數(shù)據(jù)如圖4所示,共計聲音樣本812個。對視頻數(shù)據(jù)進行抽幀處理,抽幀的time rate設(shè)為0.4,得到許氏平鲉攝食圖片4 967張,游泳圖片7 317 張,共計視頻樣本12 284張圖片,訓(xùn)練、驗證和測試集按照正負樣本比例隨機劃分,比例為7∶2∶1。
圖4 采集的數(shù)據(jù)Fig.4 Collected data
通過觀察魚群的攝食和游泳行為發(fā)現(xiàn),許氏平鲉在攝食階段會快速且無序地游動,在水面爭搶餌料,激起水花(圖4(a)),魚群較為散亂且圖像紋理也較為復(fù)雜;而在游泳階段,許氏平鲉會群浮于水底,游動速度較慢,魚群分散在養(yǎng)殖池中,紋理相對簡單(圖4(b))。在觀察記錄魚類攝食行為的聲音信號時發(fā)現(xiàn),在喂食前期,魚群無序游動尋找餌料,產(chǎn)生較大聲音波動,其中還包括許氏平鲉為搶食躍出水面的聲音;喂食中期,可以記錄到魚群咀嚼餌料的聲音,但這種聲音較小,聲音波動不大;喂食后期,魚群攝食逐漸結(jié)束,聲音信號趨于平穩(wěn)(圖4(c))。在觀察記錄魚類游泳行為的聲音信號時發(fā)現(xiàn),許氏平鲉有時會加速游動或撞擊前一條魚,造成聲音的波動(圖4(d))。
2.1.2 數(shù)據(jù)合成 由于多模態(tài)魚類行為數(shù)據(jù)集是在可控實驗室條件下采集得到,采集視覺數(shù)據(jù)和聲音數(shù)據(jù)過程中并未受到過多噪聲干擾,但在真實生產(chǎn)環(huán)境中,會出現(xiàn)光線昏暗、雜聲過多的情況,為模擬真實場景下魚類行為,對數(shù)據(jù)添加噪聲。觀察發(fā)現(xiàn),昏暗條件下會導(dǎo)致亮度變暗,且拍攝數(shù)據(jù)會出現(xiàn)模糊不清等情況,故通過調(diào)節(jié)亮度模擬昏暗條件下采集到的圖像。其次,可以采用因場景不明亮、亮度不均勻引起的傳感器噪聲——高斯噪聲來模擬拍攝數(shù)據(jù)模糊不清的情況。鑒于以上分析,將視覺數(shù)據(jù)進行亮度調(diào)節(jié)和添加高斯噪聲操作(圖5)。
圖5 視覺數(shù)據(jù)合成處理Fig.5 Visual data synthesis processing
通過實地調(diào)研發(fā)現(xiàn),真實生產(chǎn)場景下氧泵和循環(huán)水系統(tǒng)會有較大噪聲,可以覆蓋魚類行為發(fā)出的聲音,且當氧泵和循環(huán)水關(guān)閉時,也會有環(huán)境噪聲與聲音信號混合在一起,造成信號干擾(圖6(a)、(b))。高斯白噪聲是通信中的主要噪聲源,將原始聲音信號加上高斯白噪聲,可以模擬真實場景下普遍存在的環(huán)境噪聲(圖6(c)、(d))。隨機白噪聲能覆蓋魚類攝食和游泳時發(fā)出的聲音,在原始聲音信號中加入隨機白噪聲,可以模擬真實生產(chǎn)環(huán)境下氧泵和循環(huán)水系統(tǒng)帶來的噪聲干擾(圖6(e)、(f))。
圖6 聲音數(shù)據(jù)合成處理Fig.6 Voice data synthesis processing
試驗環(huán)境為Intel Core i7-9700,CPU 3.00 GHz處理器,RTX3090顯卡,32 GB內(nèi)存,Windows 10 操作系統(tǒng),運行環(huán)境Python 3.7,開源深度學(xué)習(xí)框架Pytorch(版本1.7.1+cu110)。訓(xùn)練參數(shù)設(shè)置如下:學(xué)習(xí)率為0.001,batch_size為32,epoch為50。
為驗證所提出方法對魚類行為的識別結(jié)果,使用多模態(tài)魚類行為的加噪合成試驗數(shù)據(jù)集進行試驗,并利用召回率、F1值、準確率作為試驗評價指標[15]。
1)視覺方法對比試驗。在圖像算法中,不同特征提取網(wǎng)絡(luò)對整體網(wǎng)絡(luò)性能有較大影響,為驗證ResNet50提取魚類行為視覺特征的有效性,與張重陽等[3]提出的Multi-feature BP network和黃志濤等[4]提出的Motion feature-image texture的方法進行比較。
2)聲音方法對比試驗。不同的聲音特征提取網(wǎng)絡(luò)對后續(xù)融合網(wǎng)絡(luò)性能有較大影響,本研究中使用基于MFCC+ResNet50的魚類聲音特征提取方法,對聲音數(shù)據(jù)集進行特征提取,為驗證此方法的有效性,與其他的聲音特征提取網(wǎng)絡(luò)進行比較,包括黃漢英等[6]提出的PCA-SVM方法和Kim等[7]提出的CNN的方法。
3)單模態(tài)識別與多模態(tài)識別對比試驗。為驗證多模態(tài)魚類行為識別效果,設(shè)計了單模態(tài)與多模態(tài)識別效果對比試驗。
4)消融試驗。為驗證通道注意力機制SENet在網(wǎng)絡(luò)中的作用,分別在有注意力機制和無注意力機制下進行了多模態(tài)魚類行為識別對比試驗。
5)模型試驗。為驗證本研究中所提出網(wǎng)絡(luò)模型的有效性,與其他多模態(tài)融合方法(Architecture of image-voice joint model[11]、Intermediate-feature-level deep model[12]和MBT[13]等)進行對比。
6)驗證試驗。為驗證本研究中所提出方法在無噪聲干擾條件下也能取得較好的識別效果,使用無合成噪聲的數(shù)據(jù)集對模型進行驗證試驗,并與其他融合模型(Architecture of image-voice joint model[11]、Intermediate-feature-level deep model[12]和MBT[13]等)進行對比。
2.4.1 單模態(tài)下視覺方法的對比試驗 本研究中,使用ResNet50對多模態(tài)魚類行為數(shù)據(jù)集中的視覺數(shù)據(jù)集進行特征提取,與其他方法對比發(fā)現(xiàn),ResNet50的平均準確率、F1值和召回率相較于Multi-feature BP network[3]分別提升了6.43%、13.38%、7.45%,相較于Motion feature-image texture[4]的平均準確率、F1值和召回率分別提升了6.04%、12.68%、3.48%(表1)。
表1 視覺方法的對比Tab.1 Contrast of visual methods %
2.4.2 單模態(tài)下聲音方法的對比試驗 本研究中使用基于MFCC+ResNet50的魚類聲音特征提取方法對聲音數(shù)據(jù)集進行特征提取,與其他方法對比發(fā)現(xiàn),MFCC+ResNet50的平均準確率、F1值和召回率相較于PCA-SVM[6]方法分別提升了9.11%、10.1%、11.31%,相較于CNN[7]分別提升了3.27%、7.09%、4.98%(表2)。
表2 聲音方法的對比Tab.2 Contrast of sound methods %
2.4.3 單模態(tài)識別與多模態(tài)識別的對比試驗 將單模態(tài)下ResNet50模型和MFCC+ResNet50模型與多模態(tài)U-FusionNet-ResNet50+SENet的識別效果進行對比。由圖7的準確率曲線可以看出,多模態(tài)融合的平均識別準確率相較于視覺和聲音單模態(tài)識別的準確率分別提升了8.62%和13.01%。
圖7 單模態(tài)識別與多模態(tài)識別的對比Fig.7 Comparison of single mode recognition with multi-mode recognition
2.4.4 消融試驗 本研究中,使用SENet注意力機制提升模型的準確率,對比發(fā)現(xiàn),SENet的加入為網(wǎng)絡(luò)提升了4.64%的平均準確率,3.91%的召回率,3.53%的F1值。這是因為SENet在凝練融合信息的同時保留了局部信息,增強了有效信息,并且抑制了不相關(guān)信息。說明通道注意力機制能有效地提升魚類行為識別的整體效果(表3)。
表3 消融試驗Tab.3 Ablation experiments %
2.4.5 模型試驗 針對多模態(tài)魚類行為的加噪合成試驗數(shù)據(jù),U-FusionNet-ResNet50+SENet的準確率、F1值和召回率分別為93.71%、93.43%、92.56%,與效果較好的Intermediate-feature-level deep model[12]相比,召回率、F1值和平均準確率分別提升了2.35%、3.45%、3.48%(表4)。由圖8可見,在第40次迭代之后準確率基本保持不變,說明所提出的方法能夠快速收斂(圖8)。
表4 模型對比試驗Tab.4 Noise model experiment %
圖8 準確率和loss值變化曲線Fig.8 Curve of accuracy and loss value
2.4.6 驗證試驗 針對不添加噪聲的魚類行為數(shù)據(jù),與其他方法對比發(fā)現(xiàn),U-FusionNet-ResNet50+SENet的準確率、F1值和召回率分別為98.21%、97.79%、98.05%(表5),而針對添加噪聲的魚類行為數(shù)據(jù),U-FusionNet-ResNet50+SENet的準確率、F1值和召回率分別為93.71%、93.43%、92.56%(表4)。說明本研究中提出的模型,不僅在無噪聲干擾條件下能保持較高準確率和召回率,而且也能解決噪聲干擾問題。
表5 驗證試驗(不加噪聲)Tab.5 Confirmatory experiment(without noise) %
本研究中,為解決在光線昏暗、聲音和視覺噪聲干擾等復(fù)雜條件下,對單模態(tài)魚類行為識別的準確率和召回率不高的問題,提出利用魚類行為產(chǎn)生的聲音特征和視覺特征的互補性,彌補單一模態(tài)預(yù)測的不足,提高魚類行為識別的準確性和魯棒性。
相較于單一的視覺識別模型或聲音識別模型,多模態(tài)識別模型在視覺或聲音數(shù)據(jù)質(zhì)量不高時,能通過另一種模態(tài)特征彌補單一模態(tài)識別的誤差,在模態(tài)信息交互過程中,除了能利用聲音和視覺的互補性減少誤差,還能強化有用的魚類特征信息,提高魚類行為識別的準確率。但因魚類行為具有聲音信號特征差異小、特征難學(xué)習(xí)的特點,不能直接使用現(xiàn)有的多模態(tài)融合模型。
本研究中,采用MFFC+ResNet50的聲音信號識別網(wǎng)絡(luò),解決特征難學(xué)習(xí)的問題,為使各模態(tài)潛在信息交互最大化,最大程度地發(fā)揮多模態(tài)識別的優(yōu)勢,提出多級融合的U-FusionNet-ResNet50+SENet網(wǎng)絡(luò),通過U型融合架構(gòu)使不同維度的魚類視覺特征和聲音特征充分交互,采用Skip-Concat模塊將不同階段的模態(tài)特征進行融合,同時引入SENet構(gòu)成關(guān)注通道信息的特征融合網(wǎng)絡(luò)。多模態(tài)融合模型U-FusionNet-ResNet50+SENet對魚類行為的識別效果有較大的提升,較傳統(tǒng)的單模態(tài)方法識別效果更加精準。
魚類行為識別可以通過識別魚類個體或者魚群的行為變化,幫助養(yǎng)殖人員判斷魚的健康狀態(tài)及養(yǎng)殖環(huán)境的安全性。智能化識別魚類行為是智慧漁業(yè)和精準養(yǎng)殖的重要內(nèi)容,為養(yǎng)殖人員帶來了極大的便利。攝食和游泳是魚類的基礎(chǔ)行為,通過觀察魚類攝食和游泳行為,可以直接判斷養(yǎng)殖魚類的活躍度和生長情況。目前,識別魚類行為的主要方法是單模態(tài)識別,如基于計算機視覺的行為識別及基于被動聲學(xué)的行為識別,這兩種方法均是單純利用成像數(shù)據(jù)和聲音信號對魚類行為進行識別。但在真實的養(yǎng)殖條件下,會出現(xiàn)很多復(fù)雜情況,如光線昏暗、模糊、噪聲干擾等,這些因素會使得模型的識別效果較差。然而,隨著多模態(tài)技術(shù)的發(fā)展,通過視覺和聲音兩個模態(tài)的融合,可以互相補充互相強化,很好地解決復(fù)雜條件下的識別問題,提高模型的魯棒性。因此,本研究中提出了一種基于視覺特征與聲音融合互補的魚類行為識別方法,相較于單模態(tài)的視覺方法或聲音方法,聲音和視覺兩個模態(tài)相融合較好地提高了魚類行為的識別準確率。
目前,已有的多模態(tài)融合方法,其策略大多使用前期融合、中期融合和晚期融合,這3種融合方式均是在網(wǎng)絡(luò)的某一階段進行融合。但隨著網(wǎng)絡(luò)層數(shù)的增加,提取到的特征也在不斷地進行組合,在多次組合中會遺漏掉模態(tài)某些潛在信息。為了獲得更多的模態(tài)潛在信息,本研究中提出了多級融合的策略,在特征提取的每一階段都進行融合,最大程度地減少遺漏的特征信息,提升識別的準確率。綜上,本研究中提出的U-FusionNet-ResNet50+SENet網(wǎng)絡(luò),在添加噪聲和不添加噪聲的多模態(tài)魚類行為數(shù)據(jù)集中,對魚類行為的識別準確率分別可達93.71%、98.21%,與已報道的Intermediate-feature-level deep model[12]相比,召回率、F1值和平均準確率分別提升了2.35%、3.45%、3.48%。說明本模型能有效提升魚類行為識別的準確率,可應(yīng)用于復(fù)雜條件下的魚類行為識別。
1)本研究中提出的基于聲音和視覺特征多級融合的魚類行為識別模型U-FusionNet-ResNet50+SENet,解決了光線昏暗、噪聲干擾等復(fù)雜條件下魚類行為識別的準確率、召回率不高的問題。
2)使用U-FusionNet-ResNet50+SENet模型對試驗用許氏平鲉游泳和攝食行為的識別準確率可達93.71%,表明該識別方法是一種自動化、高準確度的魚類行為識別方法。但由于實驗室采集數(shù)據(jù)量不夠大,未能包含真實水產(chǎn)養(yǎng)殖環(huán)境下所有的樣本信息,故今后需進一步擴大樣本數(shù)量及樣本多樣性,使其能在未來應(yīng)用于真實水產(chǎn)養(yǎng)殖環(huán)境下的魚類行為識別。