楊超, 韓海斌, 韋波, 張衡*, 商宸, 蘇冰,劉思源, 蔣沛雯, 相德龍
(1.中國水產(chǎn)科學(xué)研究院東海水產(chǎn)研究所, 農(nóng)業(yè)農(nóng)村部遠(yuǎn)洋與極地漁業(yè)創(chuàng)新重點實驗室,上海 200090; 2.上海海洋大學(xué)海洋科學(xué)學(xué)院,上海 201306; 3.大連海洋大學(xué)船舶與工程學(xué)院,遼寧 大連 116000; 4.安徽師范大學(xué)生態(tài)與環(huán)境學(xué)院,安徽 蕪湖 241000)
準(zhǔn)確評估魚類年齡結(jié)構(gòu)是漁業(yè)種群生物學(xué)研究的基本要求,高準(zhǔn)確率的年齡結(jié)構(gòu)組成是研究魚類生活史、種群增長率和資源評估的基礎(chǔ),直接影響到魚類資源評估以及管理政策的制訂[1]。鑒定魚類年齡的方法較多,20世紀(jì)常用的方法是采用體長頻率來鑒定年齡組成[2],近年來較為常用的方法是通過魚體上硬組織(如耳石、鱗片、脊椎骨等)的輪紋識別魚類的年齡[3]。在所有硬組織中,鱗片與耳石是較好的鑒定材料[4],鱗片較易獲得,但其易脫落性與再生性常會導(dǎo)致評估不準(zhǔn)確。丘吉諾娃1956年在《魚類年齡和生長的研究方法》[5]中首次提出將魚類耳石作為年齡鑒定的材料之一,根據(jù)耳石上的輪紋進(jìn)行鑒定,到目前為止仍是使用最廣泛的方法之一。耳石是由碳酸鈣等組成的硬組織,存在于硬骨魚類內(nèi)耳的膜迷路內(nèi),共3對,即矢耳石(sagittal)、微耳石(lapillus)和星耳石(asteriscus),擔(dān)當(dāng)著平衡器官和聽覺器官的功能,因矢耳石在3對耳石中最大,易于觀察,且信息記錄準(zhǔn)確,因此通常被用作魚類年齡鑒定的首選材料[6-11]。
遠(yuǎn)東擬沙丁魚(Sardinops sagax)作為一種暖溫性小型中上層硬骨魚類,是世界上漁獲量較高的中上層魚類之一,但在歷史上遠(yuǎn)東擬沙丁魚經(jīng)歷過數(shù)次資源變動期,其資源量極不穩(wěn)定,歷史上產(chǎn)量最低時(20世紀(jì)60年代)不足十萬t,產(chǎn)量最高時(20世紀(jì)80年代)可達(dá)數(shù)百萬t,因此準(zhǔn)確利用其年齡結(jié)構(gòu)對其資源量進(jìn)行評估是合理利用遠(yuǎn)東擬沙丁魚漁業(yè)資源的關(guān)鍵所在[12-13]。遠(yuǎn)東擬沙丁魚的棲息環(huán)境有明顯的季節(jié)性變化,該變化導(dǎo)致其耳石形成速度在一年中分為2個階段,生長速度較快時耳石由蛋白質(zhì)基質(zhì)形成寬闊不透明帶,生長速度較慢時耳石由碳酸鈣晶體形成狹窄透明帶。在不透明帶與透明帶之間的界面稱為輪紋,該輪紋結(jié)構(gòu)常用于遠(yuǎn)東擬沙丁魚的年齡鑒定[14]。關(guān)于遠(yuǎn)東擬沙丁魚的年齡鑒定,目前常用的是通過耳石輪紋法來進(jìn)行觀察,通過2個專業(yè)人士的共同鑒定,得出耳石樣本年齡,但該方法受人為主觀的影響較大,需要鑒定者具有豐富的經(jīng)驗以及大量時間來進(jìn)行判斷,易導(dǎo)致其年齡結(jié)構(gòu)的偏差。此外,該方法常受到耳石上副輪及干擾輪的影響,進(jìn)而導(dǎo)致評估結(jié)果的不準(zhǔn)確[15]。
為尋求一種更加客觀的方法對年齡進(jìn)行鑒定,國內(nèi)外常用生物學(xué)參數(shù)與年齡的回歸關(guān)系進(jìn)行年齡的鑒定[6,16-19]。本文在使用回歸關(guān)系的基礎(chǔ)上增加深度學(xué)習(xí)的方法來進(jìn)行遠(yuǎn)東擬沙丁魚的年齡鑒定。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域中一個新的方向,其概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)是深度學(xué)習(xí)的基礎(chǔ),目前被廣泛應(yīng)用于人臉識別、衛(wèi)星遙感等諸多領(lǐng)域[20-21],但是在漁業(yè)生物學(xué)領(lǐng)域應(yīng)用較少,主要是因為生物學(xué)樣本難采集,數(shù)據(jù)獲取難度大,數(shù)據(jù)量少,從而導(dǎo)致模型很難取得預(yù)期效果,本文嘗試搭建較新的深度學(xué)習(xí)模型并利用現(xiàn)有數(shù)據(jù)進(jìn)行模擬,以期獲取更好的年齡鑒定方法。
漁獲物樣品采自北太平洋公海的商業(yè)捕撈船隊作業(yè)海域(39°—43°N、147°—153°E),于2020和2021年的4—11月每月經(jīng)船隊在捕獲樣品中按照叉長從小到大進(jìn)行隨機(jī)采樣100~200尾并冷凍保存,運回實驗室用于生物學(xué)指標(biāo)測定,生物學(xué)指標(biāo)的測量按照《海洋調(diào)查規(guī)范》[22]規(guī)定的標(biāo)準(zhǔn)進(jìn)行,測量指標(biāo)包括叉長(fork length,L)(自吻端至尾叉的長度)、體質(zhì)量(weight,W)、耳石重量(otolish weight,W0),所有樣品共計2 664尾,其中948尾樣品取耳石,詳見表1。
表1 遠(yuǎn)東擬沙丁魚叉長、體質(zhì)量和耳石重量信息Table 1 Information of fork length,weight and otolish weight of Sardinops sagax
使用超聲波清洗機(jī)清洗耳石表面的粘液和包膜,在60 ℃的烘箱中烘烤24 h,去除表面水分,干燥冷卻到常溫后,使用電子天平(ZA305AS,上海贊維)對耳石進(jìn)行稱重。清洗、干燥之后的耳石進(jìn)行包埋處理,將耳石的聽溝一面朝下放置于載玻片上,使用UV膠進(jìn)行包埋,紫外線燈照射固定。將包埋好的樣品置于萊卡光學(xué)顯微鏡(DM750,德國萊卡)10倍物鏡下,觀察耳石輪紋并通過顯微鏡成像設(shè)備拍照。
1.2.1 基于輪紋觀察法的年齡判讀 按照傳統(tǒng)方法處理之后的耳石輪紋結(jié)構(gòu)不明顯,難以通過輪紋觀察其年齡(圖1A);通過UV膠包埋處理后的耳石,經(jīng)透射光照射并通過光學(xué)顯微鏡拍照可得到較為清晰的輪紋(圖1B)。然而,包埋之后再經(jīng)手動研磨的耳石表面輪紋結(jié)構(gòu)沒有明顯變化(圖1C)。經(jīng)過對比,圖1B的包埋方法是最為合適的耳石處理方法。
圖1 遠(yuǎn)東擬沙丁魚耳石Fig. 1 Otolith image of the Sardinops sagax
參考Mcfarlane等[23]的方法,確定遠(yuǎn)東擬沙丁魚耳石輪紋鑒定標(biāo)準(zhǔn):半透明環(huán)必需在耳石表面連續(xù)出現(xiàn),如果半透明環(huán)與另1個環(huán)合并或者未能在整個耳石表面出現(xiàn),則被視為假環(huán);最外層的不透明環(huán)不算做完整的環(huán)狀結(jié)構(gòu),除非在該環(huán)之外仍能觀察到另1個不透明環(huán)。每一個遠(yuǎn)東擬沙丁魚耳石都由2人獨自研判,分別計數(shù)。如果2人計數(shù)相同,則認(rèn)為年齡判讀正確,接受該結(jié)果;若2人計數(shù)的年輪數(shù)不同,則重新進(jìn)行判讀、計數(shù),并對最終結(jié)構(gòu)進(jìn)行討論,若達(dá)成一致則接受該結(jié)果,否則放棄。將通過輪紋觀察法最終得出一致的年齡鑒定結(jié)果作為耳石年齡標(biāo)準(zhǔn)。
1.2.2 線性擬合公式 分別擬合矢耳石的重量與年齡,魚體叉長與年齡,魚體質(zhì)量與耳石年齡的一元線性回歸方程,比較其擬合回歸方程的相關(guān)系數(shù)(R2)。在此基礎(chǔ)上增加多元線性擬合并與一元線性擬合相比較,相關(guān)系數(shù)(R2)最高的為最佳擬合方程。最后使用最佳擬合方程進(jìn)行年齡鑒定,本文所有數(shù)據(jù)擬合及相關(guān)系數(shù)數(shù)值分別通過Excel 2016及Origin模擬實現(xiàn)。
1.3.1 模型構(gòu)建 結(jié)合當(dāng)前已獲得的耳石的質(zhì)量、魚體叉長、魚體質(zhì)量以及其對應(yīng)的年齡4組數(shù)據(jù),搭建深度神經(jīng)網(wǎng)絡(luò)對3組數(shù)據(jù)進(jìn)行訓(xùn)練。其中,本文的自建神經(jīng)網(wǎng)絡(luò)整體框架如圖2所示。
圖2 神經(jīng)網(wǎng)絡(luò)整體框架Fig. 2 Whole framework of self-built neural network
將沙丁魚的叉長、體質(zhì)量以及對應(yīng)的耳石質(zhì)量作為訓(xùn)練數(shù)據(jù)集輸入,其中每尾魚的測量指標(biāo)作為1組數(shù)據(jù),同時將對應(yīng)的年齡作為驗證集,按照訓(xùn)練集80%、驗證集20%比例進(jìn)行訓(xùn)練。全部數(shù)據(jù)均轉(zhuǎn)化為Tensor數(shù)據(jù)類型。模型的整體流程為:將原始的3維數(shù)據(jù)魚體叉長、魚體質(zhì)量與耳石質(zhì)量通過Linear操作提升到700維;運用線性激活函數(shù)(rectified linear unit,ReLU)方法將部分神經(jīng)元的輸出變?yōu)?,使網(wǎng)絡(luò)具有稀疏性,同時減少參數(shù)的相互依存關(guān)系,緩解模型過擬合;調(diào)用Linear操作將模型上升到2 048維以使模型的特征更為明顯;加入一個ReLU操作,將模型的維度提高至4 096維,達(dá)到特征最為明顯的效果;對模型進(jìn)行降維操作,將4 096維降至1 024維,使模型的特征進(jìn)行融合。進(jìn)行2次Linear操作,將模型降至其7維對應(yīng)0、1、2、3、4、5、6。最后將所輸出的7維結(jié)果與驗證集相比較,得出模型的最終結(jié)果。
式中,y為輸出結(jié)果;x為輸入?yún)?shù);B為權(quán)重矩陣;T為將矩陣轉(zhuǎn)置;b表示偏置。
式中,t為ReLU函數(shù)的輸出結(jié)果;max()0,a表示將a<0的數(shù)全部轉(zhuǎn)為0,a≥0的則保持不變。
1.3.2 模型評價指標(biāo) 實際結(jié)果與預(yù)測結(jié)果相符,為真陽性(true positive,NTP);實際結(jié)果與預(yù)測結(jié)果不符,為假陽性(false positive,NFP);預(yù)測結(jié)果與實際結(jié)果均不符,為真陰性(true negative,NTN);預(yù)測結(jié)果與實際結(jié)果不符,為假陰性(false negative,NFN),其表達(dá)式如下。
式中,Ppre指將正確預(yù)測出來的正樣本數(shù)量占所有預(yù)測出來的樣本數(shù)量的比率,Prec指將正確預(yù)測出的正樣本數(shù)量和所有的正樣本數(shù)量的比率。
在深度神經(jīng)網(wǎng)絡(luò)模型中,通常采用損失率(Ploss)、平衡F分?jǐn)?shù)(PF1)、準(zhǔn)確率和召回率等指標(biāo)對模型進(jìn)行評價[25]。
Ploss為真實值與預(yù)測值之間的差值,損失值越小表明結(jié)果距離真實值越接近,該指標(biāo)使用交叉熵?fù)p失函數(shù),其表達(dá)式如下。
式中,P(x)為對應(yīng)年齡值的取值;q(x)為相對應(yīng)概率值。
F1-score是Prec和Ppre的調(diào)和值,綜合考慮了召回率和精準(zhǔn)率對試驗數(shù)據(jù)的影響,避免某一指標(biāo)來主導(dǎo)試驗結(jié)果,其表達(dá)式如下
本文深度模型搭建及模型效果評價均通過Python 3.7.11實現(xiàn)。
2.1.1 年齡鑒定比例分析 成對t檢驗結(jié)果分析顯示,遠(yuǎn)東擬沙丁魚的左、右耳石質(zhì)量并無明顯差異(P>0.05),因此選用左側(cè)矢耳石進(jìn)行輪紋觀察并鑒定年齡。鑒定結(jié)果(圖3)表明,樣本年齡中1+、2+和3+的個體占據(jù)50%以上,表明遠(yuǎn)東擬沙丁魚種群年輕個體占比較高。
圖3 耳石輪紋觀察法所得各年齡組成比例Fig. 3 Age composition of otolith ring observation method
2.1.2 生物學(xué)數(shù)據(jù)對應(yīng)年齡分布箱型圖分析 對年齡分布與耳石質(zhì)量、叉長和體質(zhì)量的箱形圖(圖4)的分析結(jié)果表明,遠(yuǎn)東擬沙丁魚的耳石質(zhì)量、叉長和體質(zhì)量在1+~5+的年齡組間均有重疊,5+~6+的年齡組間無重疊。雖然重疊部分較多,但箱形圖中耳石質(zhì)量、魚體叉長和魚體質(zhì)量的均值與中值隨著年齡組的增大而表現(xiàn)的增長趨勢仍非常明顯,表明耳石質(zhì)量、魚體叉長和魚體質(zhì)量均隨著年齡的增大而增長。
圖4 遠(yuǎn)東擬沙丁魚耳石質(zhì)量、叉長和體質(zhì)量對應(yīng)年齡分布的箱形圖Fig. 4 Box diagram of otolith weight , fork length and weight to age distribution of Sardinops sagax
2.2.1 最佳擬合方程 在單變量擬合回歸方程中,通過對比各函數(shù)關(guān)系,得出相關(guān)系數(shù)(R2)最高的線性擬合關(guān)系可以作為年齡與各生物學(xué)參數(shù)的最佳擬合公式。耳石質(zhì)量(W0)與年齡(A)、魚體質(zhì)量(W)與年齡(A)、叉長(L)與年齡(A)的最佳擬合方程分別如公式(7)~(9)所示。
通過分析一元擬合方程的相關(guān)系數(shù),得出耳石質(zhì)量與魚類年齡的相關(guān)性最高,對比可知,耳石質(zhì)量與耳石年齡的擬合程度最高,因此將耳石質(zhì)量所預(yù)測的年齡作為一元擬合鑒定年齡。
通過3個變量即耳石質(zhì)量、叉長與體質(zhì)量擬合年齡的公式如下。
通過相關(guān)系數(shù)最高的單變量耳石質(zhì)量與年齡擬合方程公式如下。
2.2.2 擬合回歸方程鑒定年齡驗證對比 通過耳石質(zhì)量與年齡的一元擬合法鑒定年齡和用多個生物學(xué)特征的多元擬合法所得出的年齡結(jié)構(gòu),與輪紋觀察法得出的年齡結(jié)構(gòu)相比無顯著差異(P=0.956>0.05;P=0.93>0.05)(圖5)。
圖5 實測輪紋觀察法年齡與線性擬合回歸鑒定的年齡Fig. 5 Age identified by measured surface observation and linear fitting regression
如圖6所示,模型經(jīng)過3 000次訓(xùn)練達(dá)到穩(wěn)定結(jié)果。隨著迭代次數(shù)增加到3 000次,該模型識別年齡的精度穩(wěn)定在0.716;由召回率與迭代次數(shù)的關(guān)系圖可知,隨著迭代次數(shù)增加到3 000次,模型識別年齡的召回率接近0.6。圖6中的F1值可以表明試驗方法的有效性,在訓(xùn)練迭代次數(shù)達(dá)到3 000次,F(xiàn)1值逐漸穩(wěn)定在0.61左右。從損失率與迭代次數(shù)的關(guān)系可知,隨著迭代次數(shù)的增加,模型的損失率也逐漸降低,直到穩(wěn)定在1.24以下。
圖6 深度學(xué)習(xí)模型的精度、召回率、損失率和F1值與訓(xùn)練次數(shù)迭代圖Fig. 6 Iteration diagram of accuracy、recall rate、loss rate、F1 value and training times
將所有鑒定樣本輸入自建深度學(xué)習(xí)模型,通過訓(xùn)練所得的鑒定結(jié)果與輪紋觀察法所得年齡對比無誤差的情況下,深度學(xué)習(xí)模型取得的最大準(zhǔn)確率為71.6%(表2)。
表2 3種方法鑒定結(jié)果的準(zhǔn)確率Table 2 Prediction accuracy results of three methods
使用擬合回歸方程鑒定年齡的方法是Boehlert在1985年首次提出[6],利用多個關(guān)于耳石的變量即耳石質(zhì)量、耳石長度等構(gòu)建回歸方程預(yù)測年齡。國內(nèi)使用擬合回歸方程鑒定年齡多見于淡水魚類中耳石質(zhì)量與年齡的回歸關(guān)系[16,26]。本文采用的擬合回歸方程,分別分析了叉長、體質(zhì)量和耳石質(zhì)量與年齡的擬合公式并比較其相關(guān)性,通過對比發(fā)現(xiàn),耳石質(zhì)量與年齡的相關(guān)性最高,其R2超過0.80。通過擬合曲線得出的遠(yuǎn)東擬沙丁魚年齡結(jié)構(gòu)經(jīng)分析發(fā)現(xiàn),其與輪紋觀察法所得到的年齡結(jié)構(gòu)并無差異,經(jīng)過對比發(fā)現(xiàn)使用多元擬合方程進(jìn)行年齡鑒定的準(zhǔn)確率高于一元擬合方程。使用擬合回歸方法最大的優(yōu)點是簡單易得,但是該方法也具有缺陷性:其一是必須對預(yù)測數(shù)據(jù)與現(xiàn)有數(shù)據(jù)進(jìn)行乘冪或者使用對數(shù)等其他方法進(jìn)行變換以獲取線性關(guān)系,這將導(dǎo)致數(shù)據(jù)的變動從而影響預(yù)測結(jié)果[27-31];其二是使用該方法會產(chǎn)生年齡估計比例的漸進(jìn)偏差,從而導(dǎo)致預(yù)測結(jié)果產(chǎn)生一定的偏差[7]。因此,本研究嘗試使用新方法即通過構(gòu)建深度學(xué)習(xí)模型對年齡進(jìn)行鑒定,以避免使用擬合回歸方程所導(dǎo)致的漸進(jìn)偏差對遠(yuǎn)東擬沙丁魚年齡結(jié)構(gòu)所帶來的誤差影響。
目前,國際上使用機(jī)器學(xué)習(xí)的方法對魚類年齡進(jìn)行鑒定的相關(guān)研究大多使用耳石圖像[32-33]。在較為常用的經(jīng)典算法中,Seam比較了貝葉斯(Na?ve Bayes,NB)、決策樹(J48)與隨機(jī)森林(random forest, RF)在魚類年齡鑒定方面的應(yīng)用,分別表述了各個模型的特點。NB算法為通過某對象的先驗概率,利用貝葉斯公式計算出其后驗概率,即該對象屬于某一類的概率,選擇具有最大后驗概率的類作為該對象所屬的類;但使用該模型要求建立在數(shù)據(jù)準(zhǔn)確性較高的基礎(chǔ)上。J48算法為從上到下遞歸的分治策略,選擇某個屬性放置在根節(jié)點,為每個可能的屬性值產(chǎn)生1個分支,將實例分成多個子集,每個子集對應(yīng)1個根節(jié)點的分支,然后在每個分支上遞歸地重復(fù)這個過程,該模型要求不同類之間的數(shù)量差別要盡可能地大。RF是由個別樹輸出的類別的眾數(shù)而定,即根數(shù)特征數(shù)量的多少進(jìn)行分類。在樣本組成不均衡的情況下會導(dǎo)致誤分為其他類。Benzer等[34]通過人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)與傳統(tǒng)回歸方法分別對莫干湖的北梭子魚(Esox lucius)進(jìn)行年齡預(yù)測,從結(jié)果比較來看ANN方法可以成為線性回歸模型的較好的替代方法。
深度學(xué)習(xí)方法可以根據(jù)多個因素進(jìn)行魚類年齡的自動判別,魚類叉長、體質(zhì)量以及耳石質(zhì)量等生物學(xué)數(shù)據(jù)都可以對魚類年齡進(jìn)行判讀[35-36]。本研究采用的深度神經(jīng)網(wǎng)絡(luò)(Linear-Rule)與數(shù)據(jù)匹配度更高,具有更高的準(zhǔn)確率,采用softmax進(jìn)行維度變化,讓不同年齡之間生物學(xué)數(shù)據(jù)特征更加明顯。為評估模型的分類性能,本文模型使用4個指標(biāo)對模型效果進(jìn)行評估,都達(dá)到了較好的結(jié)果。由于該技術(shù)基于可測量的參數(shù),因此在數(shù)據(jù)處理的適應(yīng)性、年齡的標(biāo)準(zhǔn)化等方面更具優(yōu)勢。此外,通過比較擬合回歸方程與深度學(xué)習(xí)的預(yù)測準(zhǔn)確性可知,該模型的準(zhǔn)確率要遠(yuǎn)高于線性擬合方法。
從檢測結(jié)果來看,深度學(xué)習(xí)訓(xùn)練的各項指標(biāo)都較好,但從鑒定準(zhǔn)確率來看,雖然深度學(xué)習(xí)模型所鑒定的結(jié)果均高于線性擬合回歸方程,但其鑒定的準(zhǔn)確率還未達(dá)到最佳效果,在之后的工作中應(yīng)當(dāng)增加數(shù)據(jù)量用來訓(xùn)練模型以提高模型預(yù)測的準(zhǔn)確率,從而更好的幫助研究者進(jìn)行遠(yuǎn)東擬沙丁魚年齡鑒定工作。