余心杰,吳雄飛,沈偉良1
(1.浙江大學(xué)寧波理工學(xué)院,浙江寧波315100;2.寧波市海洋與漁業(yè)研究院,浙江寧波315010)
形態(tài)學(xué)特征參數(shù)是大黃魚(yú)(Pseudosciaena crocea Richardson)良種選育、種質(zhì)鑒別及特征檢測(cè)的重要依據(jù)[1-2]。我國(guó)水產(chǎn)科技工作者已經(jīng)圍繞形態(tài)學(xué)特征參數(shù)對(duì)大黃魚(yú)不同地理群體、不同育種群體、不同家系、雌雄性別、種質(zhì)特征及鑒別比較等開(kāi)展了深入研究[3-7],有效推動(dòng)了我國(guó)大黃魚(yú)人工繁殖與苗種培育進(jìn)程。然而,目前在各類(lèi)大黃魚(yú)形態(tài)學(xué)研究過(guò)程中,一方面,形態(tài)參數(shù)測(cè)定依靠傳統(tǒng)手工尺子測(cè)量,難以實(shí)現(xiàn)對(duì)大樣本量研究對(duì)象的快速采集,且容易損壞活魚(yú)樣本[8];另一方面,所采用的魚(yú)類(lèi)形態(tài)學(xué)分析方法普遍限于線(xiàn)性回歸分析、判別分析、聚類(lèi)分析等傳統(tǒng)多元統(tǒng)計(jì)分析方法[9],在魚(yú)類(lèi)形態(tài)特征挖掘及群體識(shí)別模型構(gòu)建方法方面,至今尚缺乏有效的手段。因此,研究建立一套高效的魚(yú)類(lèi)形態(tài)參數(shù)測(cè)量、形態(tài)特征挖掘和群體識(shí)別方法,對(duì)于大黃魚(yú)良種選育、種質(zhì)鑒別等具有重要意義。
本文以岱衢族大黃魚(yú)F2、F3代選育群體為研究對(duì)象,通過(guò)計(jì)算機(jī)視覺(jué)(computer vision,CV)[10]測(cè)定2類(lèi)選育群體的形態(tài)參數(shù),使用主成分分析(principal component analysis,PCA)[11]和連續(xù)投影算法(successive projections algorithm,SPA)[12]對(duì)選育群體的形態(tài)參數(shù)進(jìn)行分析,并獲得能表達(dá)不同選育群體之間形態(tài)差異的特征變量。在此基礎(chǔ)上,以特征變量為輸入,結(jié)合稀疏表示(sparse representation,SR)[13]方法建立岱衢族大黃魚(yú)選育群體分類(lèi)識(shí)別模型,實(shí)現(xiàn)不同選育群體的自動(dòng)識(shí)別。
2015年11月、2016年11月在浙江省寧波市象山港灣水產(chǎn)苗種有限公司育苗場(chǎng)(象山縣黃避岙鄉(xiāng)高泥村鳳凰礁),分批采集普通網(wǎng)箱(5 m×10 m)養(yǎng)殖、投喂冰鮮魚(yú)餌料的15月齡岱衢族大黃魚(yú)F2、F3代選育群體樣本各600尾,用于大黃魚(yú)形態(tài)參數(shù)的計(jì)算機(jī)視覺(jué)測(cè)量、形態(tài)特征挖掘和選育群體識(shí)別建模研究。
1.2.1 形態(tài)參數(shù)的計(jì)算機(jī)視覺(jué)測(cè)量
1.2.1.1 形態(tài)參數(shù)測(cè)量系統(tǒng)
采用自己研制的魚(yú)類(lèi)形態(tài)參數(shù)計(jì)算機(jī)視覺(jué)測(cè)量系統(tǒng),對(duì)大黃魚(yú)形態(tài)參數(shù)和質(zhì)量進(jìn)行測(cè)量。該系統(tǒng)硬件結(jié)構(gòu)和實(shí)物如圖1所示,主要包括框架主體、LED光源(YX-BL25844,山東省煙臺(tái)永信視覺(jué)技術(shù)有限公司)、框架主體上的透明玻璃平臺(tái)、設(shè)置在透明玻璃平臺(tái)四角下端的稱(chēng)重傳感器(KNX/3kg,江蘇省蘇州坤宏電子有限公司)、放置在透明玻璃平臺(tái)下端用于拍攝魚(yú)體圖像的工業(yè)相機(jī)(SJM300C,臺(tái)灣視覺(jué)美深圳有限公司)和鏡頭(VM06012MP,廣州智賽電子有限公司)。工業(yè)相機(jī)與計(jì)算機(jī)信號(hào)連接,采用下置方式采集透明玻璃平臺(tái)上被測(cè)樣本魚(yú)體圖像,鏡頭與被測(cè)樣本距離保持固定,從而避免不同樣本魚(yú)體厚度差異所帶來(lái)的尺寸測(cè)量誤差。稱(chēng)重傳感器通過(guò)稱(chēng)重控制器(XK3190-A27E,上海耀華稱(chēng)重系統(tǒng)有限公司)與計(jì)算機(jī)信號(hào)連接,同步傳輸魚(yú)體質(zhì)量數(shù)據(jù)。
圖1 系統(tǒng)硬件結(jié)構(gòu)(A)和實(shí)物(B)圖Fig.1 System hardwarestructure(A)and entity(B)images
用安裝在計(jì)算機(jī)中的魚(yú)類(lèi)形態(tài)參數(shù)測(cè)量軟件(圖2)采集被測(cè)樣本的數(shù)字圖像和重量數(shù)據(jù),并利用數(shù)字圖像對(duì)魚(yú)體形態(tài)參數(shù)進(jìn)行精確測(cè)量分析。該軟件是在Microsoft Visual Studio 2012開(kāi)發(fā)環(huán)境下采用C#語(yǔ)言并基于開(kāi)放視覺(jué)圖形處理庫(kù)Emgu CV編寫(xiě),其主要功能包括:1)數(shù)據(jù)采集管理。用于采集和管理被測(cè)樣本的數(shù)字圖像、質(zhì)量和形態(tài)參數(shù)數(shù)據(jù)。2)參數(shù)設(shè)置。用于設(shè)定工業(yè)相機(jī)的圖像分辨率、曝光時(shí)間、白平衡等參數(shù);利用棋盤(pán)格標(biāo)定板進(jìn)行相機(jī)標(biāo)定(消除圖像畸變)和像素當(dāng)量標(biāo)定(即圖像中一個(gè)像素點(diǎn)代表的實(shí)際物理尺寸)。3)形態(tài)參數(shù)測(cè)量。用于測(cè)量魚(yú)體尺寸、外形輪廓曲率等參數(shù)。
圖2 魚(yú)類(lèi)形態(tài)參數(shù)測(cè)量軟件Fig.2 Software for measuring fish morphological parameters
本研究中魚(yú)類(lèi)形態(tài)參數(shù)計(jì)算機(jī)視覺(jué)測(cè)量系統(tǒng)的設(shè)計(jì)與開(kāi)發(fā)細(xì)節(jié)、測(cè)量精度驗(yàn)證等相關(guān)內(nèi)容參考余心杰等[14]的報(bào)道。
1.2.1.2 形態(tài)參數(shù)采集與處理
利用上述魚(yú)類(lèi)形態(tài)學(xué)參數(shù)的計(jì)算機(jī)視覺(jué)測(cè)量系統(tǒng)對(duì)大黃魚(yú)樣本的形態(tài)參數(shù)進(jìn)行快速活體測(cè)量。先將活魚(yú)樣本分批次(每組20尾)放入質(zhì)量濃度為15 mg/L的丁香酚水溶液中,麻醉1~2 min至魚(yú)體側(cè)翻不運(yùn)動(dòng),逐個(gè)取出樣本放到透明玻璃平臺(tái)上,通過(guò)魚(yú)類(lèi)形態(tài)參數(shù)測(cè)量軟件,采集魚(yú)體數(shù)字圖像和質(zhì)量數(shù)據(jù),并在計(jì)算機(jī)中保存。完成全部樣本數(shù)字圖像和質(zhì)量數(shù)據(jù)采集之后,在軟件中采用手工鼠標(biāo)標(biāo)記方式,對(duì)魚(yú)體形態(tài)參數(shù)進(jìn)行批量測(cè)定。
1.2.2 形態(tài)特征挖掘
在數(shù)據(jù)挖掘領(lǐng)域,特征提取(feature extraction,FE)和特征選擇(feature selection,FS)是從原始特征中找出本質(zhì)特征的有效手段,其中特征提取是指由原始特征經(jīng)過(guò)線(xiàn)性或非線(xiàn)性變換得到較少數(shù)量但具有表達(dá)能力的新特征,特征選擇是指直接從原始特征中選取最相關(guān)的特征子集。目前,在魚(yú)類(lèi)形態(tài)學(xué)研究中,主要通過(guò)對(duì)樣本魚(yú)體形態(tài)性狀參數(shù)之間的相關(guān)性關(guān)系和通徑分析,尋找出形態(tài)特征(顯著相關(guān)的形態(tài)性狀參數(shù)或參數(shù)比例)作為生長(zhǎng)預(yù)測(cè)、種群劃分等的依據(jù),本質(zhì)上還是屬于特征選擇范疇。為了探索建立魚(yú)類(lèi)形態(tài)特征挖掘方法,本文分別從基于主成分分析(PCA)的特征提取和基于連續(xù)投影算法(SPA)的特征選擇2個(gè)角度,開(kāi)展岱衢族大黃魚(yú)不同選育群體的形態(tài)特征挖掘研究。
1.2.2.1 基于PCA的形態(tài)特征提取
PCA是將多個(gè)相關(guān)的特征變量轉(zhuǎn)化為少數(shù)幾個(gè)相互獨(dú)立的新特征變量的有效分析方法。假設(shè)X為采集到的一個(gè)n×m的大黃魚(yú)樣本數(shù)據(jù)矩陣,其中的每一列對(duì)應(yīng)一個(gè)特征變量,每一行對(duì)應(yīng)一個(gè)樣本,則X∈Rn×m。先將X標(biāo)準(zhǔn)化為:
其中:M=[m1m2… mm],為X的均值;[s1s2,…,sm]為X的標(biāo)準(zhǔn)差。
X′的PCA模型可表示為:
式中:t1,t2,…,tm∈Rn,為得分向量,也叫主元;p1,p2,…,pm∈Rm,為載荷向量。如果可以用前k(k<m,一般取累計(jì)貢獻(xiàn)率大于85%對(duì)應(yīng)的主元個(gè)數(shù))個(gè)主元來(lái)代替數(shù)據(jù)中的主要變化,那么X′的PCA模型可表示為:
其中E為誤差矩陣。X′可以近似表示為:
本文采用主成分分析對(duì)大黃魚(yú)樣本數(shù)據(jù)矩陣X進(jìn)行變換,用變換后的前k(k<24)個(gè)主元代替原始24個(gè)特征變量信息,實(shí)現(xiàn)魚(yú)體形態(tài)特征提取。
1.2.2.2 基于SPA的形態(tài)特征選擇
SPA的目標(biāo)是選取彼此之間共性較少的變量組合,且盡可能地保留原始數(shù)據(jù)信息,從而達(dá)到特征選擇的目的。SPA的工作原理是通過(guò)迭代的方法,從一個(gè)變量開(kāi)始,每次循環(huán)都計(jì)算其在未選入變量上的投影,將投影向量最大的變量引入到變量組合中,每個(gè)新選入的變量,都與前一個(gè)的線(xiàn)性關(guān)系最小。對(duì)于由樣本數(shù)n和特征變量數(shù)m組成的大黃魚(yú)樣本數(shù)據(jù)矩陣X∈Rn×m,k(k<m-1)為需要選擇的特征變量個(gè)數(shù),SPA的特征選擇步驟如下:
1)利用式(1),對(duì)樣本數(shù)據(jù)矩陣X進(jìn)行標(biāo)準(zhǔn)化處理,得到X′;
2)第一次迭代(p=1)開(kāi)始前,在X′中任選一列向量x′j,記為x′K(0),即K(0)=j,j∈1,…,m;
3)將未選入的列向量的位置計(jì)為s,s={j,1≤j≤m,j?{K(0),…,K(p-1)}};
4)計(jì)算剩余列向量x′j(j∈s)與當(dāng)前所選向量x′K(p-1)的投影:
5)提取投影向量最大特征變量的列向量位置:
6)令 x′j=Px′j,j∈s;p=p+1。如果 p<k,返回到第3)步循環(huán)計(jì)算。
對(duì)于每一個(gè)初始K(0),循環(huán)一次后利用多元線(xiàn)性回歸(multiple linear regression,MLR)進(jìn)行交互驗(yàn)證分析,最小均方根誤差(root mean square error,RMSE)對(duì)應(yīng)的K(p)即為特征選擇結(jié)果。本文采用SPA對(duì)大黃魚(yú)樣本數(shù)據(jù)矩陣X中的24個(gè)特征變量進(jìn)行選擇,最終選取k個(gè)特征變量組合{K(p),p=0,…,k-1}來(lái)表達(dá)大黃魚(yú)樣本形態(tài)差異。
1.2.3 稀疏表示方法
對(duì)大黃魚(yú)不同選育群體的形態(tài)特征提取和選擇之后,不同選育群體識(shí)別的基本問(wèn)題就是基于形態(tài)特征數(shù)據(jù),根據(jù)L類(lèi)訓(xùn)練樣本,確定測(cè)試樣本屬于哪一類(lèi)。目前常用的模式識(shí)別方法是基于反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò)或支持向量機(jī)(support vector machine,SVM)等建立相應(yīng)的分類(lèi)模型,將測(cè)試樣本的特征數(shù)據(jù)輸入該模型,得到相應(yīng)的識(shí)別結(jié)果[15]。與上述方法需通過(guò)多個(gè)參數(shù)優(yōu)化選擇過(guò)程來(lái)建立一個(gè)分類(lèi)模型不同,稀疏表示法直接通過(guò)測(cè)試樣本在每個(gè)訓(xùn)練樣本上的投影系數(shù)進(jìn)行識(shí)別分類(lèi)[16],識(shí)別過(guò)程簡(jiǎn)單,易實(shí)現(xiàn)。
假設(shè)大黃魚(yú)選育群體種類(lèi)有L類(lèi);每一類(lèi)的訓(xùn)練樣本數(shù)分別為N1,N2,…,Ni,…,NL;每個(gè)訓(xùn)練樣本的特征變量為m維,用列向量f來(lái)表示,則f∈Rm;同一類(lèi)訓(xùn)練樣本數(shù)據(jù)位于一個(gè)線(xiàn)性子空間中,那么新測(cè)試樣本數(shù)據(jù)可看成是同類(lèi)樣本數(shù)據(jù)的線(xiàn)性組合。
將充足的訓(xùn)練樣本給第i個(gè)類(lèi),然后將第i類(lèi)中的Ni個(gè)訓(xùn)練樣本數(shù)據(jù)組成矩陣Ai(稱(chēng)之為訓(xùn)練樣本矩陣)的列,具體表示為:
任意來(lái)自于相同類(lèi)的測(cè)試樣本y∈Rm,近似滿(mǎn)足于以下由訓(xùn)練樣本組成的線(xiàn)性組合:
隨后,為所有類(lèi)的訓(xùn)練樣本集定義一個(gè)新的訓(xùn)練樣本矩陣A作為所有L類(lèi)訓(xùn)練樣本的集合:
則y的線(xiàn)性表示可以根據(jù)所有L類(lèi)訓(xùn)練樣本寫(xiě)成另一種形式:
式 中 :列 向 量 x=[0,0,…,ai,1,ai,2,…,ai,j,…,ai,Ni,0,0,…,0]T是一個(gè)系數(shù)向量;元素ai,j表示y在A中第i類(lèi)的第j個(gè)訓(xùn)練樣本上的投影系數(shù)。
若y來(lái)自第i類(lèi)樣本,則x在其所屬類(lèi)別的Ai上的投影系數(shù)不為0,而在其他訓(xùn)練樣本類(lèi)別的Al(l≠i)上的投影系數(shù)為0。也就是說(shuō),y的解是稀疏的。
稀疏表示和壓縮感知的理論研究表明,如果解x是稀疏的,則可通過(guò)解決如下的L-1最小化范數(shù)問(wèn)題來(lái)求解式(10):
式中:x?為x的近似解;‖‖·1表示向量中各元素的絕對(duì)值之和。
在理想情況下,x?的非零系數(shù)中最大的系數(shù)值如果對(duì)應(yīng)第i個(gè)類(lèi),且較大的系數(shù)基本都同第i個(gè)類(lèi)有關(guān),就可將y歸到那個(gè)類(lèi)中。但是,在實(shí)際應(yīng)用中噪聲等問(wèn)題可能會(huì)導(dǎo)致x?中有一部分與其他類(lèi)有關(guān)的小的非零系數(shù)項(xiàng)出現(xiàn)。因此,對(duì)于每個(gè)類(lèi)i,可定義一個(gè)函數(shù)δi,用來(lái)在稀疏解x?中選取與第i類(lèi)有關(guān)的系數(shù)。δi(x?)是一個(gè)新的向量,其中除了與第i類(lèi)有關(guān)的系數(shù)外,令其他的系數(shù)值都為零,重新生成給定的測(cè)試樣本y的一個(gè)近似表示,將其記為:
顯然,y?i與y距離越小,則 y?i屬于第i類(lèi)的可能性越高。因此,可通過(guò)計(jì)算y?i與y的最小殘差值,即求解以下方程得到殘差最小的i對(duì)應(yīng)的類(lèi)別,即為y的類(lèi)別標(biāo)志。
1.2.4 基于形態(tài)特征和稀疏表示的大黃魚(yú)選育群體識(shí)別方法
通過(guò)上述方法,建立完整的基于形態(tài)特征和稀疏表示的岱衢族大黃魚(yú)F2、F3代選育群體識(shí)別方法的步驟如下。
1)形態(tài)特征挖掘:分別采用PCA和SPA方法,對(duì)所采集的岱衢族大黃魚(yú)F2、F3代選育群體的24個(gè)形態(tài)參數(shù)進(jìn)行特征提取和選擇,得到k個(gè)特征變量。
2)輸入:在每一種選育群體中隨機(jī)選取300個(gè)樣本作為訓(xùn)練樣本,剩余的300個(gè)樣本作為測(cè)試樣本。利用所有訓(xùn)練樣本的k個(gè)特征變量,構(gòu)成如下訓(xùn)練樣本矩陣:
式中:AF2、AF3表示岱衢族大黃魚(yú)F2、F3代選育群體的訓(xùn)練樣本矩陣;fi,j為第i種選育群體的第j個(gè)訓(xùn)練樣本的k個(gè)特征變量組成的向量列。矩陣A為F2、F3代選育群體的全體訓(xùn)練樣本矩陣,其大小為k×600。選取某個(gè)選育群體中的測(cè)試樣本y。
3)L-1范數(shù)最小化求解:利用式(11),得到系數(shù)向量x?。這里的計(jì)算誤差閾值設(shè)為0.01,迭代次數(shù)為150次。
4)計(jì)算殘差值:利用式(13),計(jì)算 F2、F3代選育群體2個(gè)類(lèi)的y?i與y的最小殘差值。
5)輸出:具有最小殘差的類(lèi)作為判定測(cè)試樣本y的類(lèi)別。
上述PCA算法、SPA算法、稀疏表示算法在Matlab 7.9下編程實(shí)現(xiàn),其中稀疏表示算法中的L-1范數(shù)最小化方法采用美國(guó)斯坦福大學(xué)研究人員編寫(xiě)的Matlab軟件包[17]實(shí)現(xiàn);計(jì)算機(jī)硬件環(huán)境為Intel(R)Core(TM)i5-2300 CPU、主頻2.80 GHz、內(nèi)存4 096 MB的PC機(jī),軟件環(huán)境為Windows7.0操作系統(tǒng)。
利用魚(yú)體形態(tài)參數(shù)的計(jì)算機(jī)視覺(jué)測(cè)量系統(tǒng)采集大黃魚(yú)活魚(yú)數(shù)字圖像和體質(zhì)量的速度約150尾/h,滿(mǎn)足大樣本量魚(yú)類(lèi)快速、活體采集要求。實(shí)驗(yàn)共采集岱衢族大黃魚(yú)F2、F3代選育群體的數(shù)字圖像和體質(zhì)量樣本1 200個(gè)(F2、F3代各600尾),測(cè)定了體質(zhì)量、體長(zhǎng)、體寬、頭部曲率、全長(zhǎng)、全高、吻長(zhǎng)、尾柄長(zhǎng)、尾柄高、頭長(zhǎng)等10個(gè)參數(shù)。2個(gè)群體樣本都為15月齡,樣本的體質(zhì)量、全長(zhǎng)等規(guī)格相近(表1)。計(jì)算相關(guān)形態(tài)參數(shù)比值得到的24個(gè)形態(tài)參數(shù)描述見(jiàn)表2。
表1 岱衢族大黃魚(yú)F2、F3代選育群體樣本規(guī)格Table 1 Population sample size of Daiqu large yellow croaker F2 and F3
表2 形態(tài)參數(shù)描述Table2 Description of morphological parameters
2類(lèi)選育群體樣本的外形如圖3所示。根據(jù)樣本外形觀(guān)測(cè),F(xiàn)3代選育群體與F2代選育群體外形具有一定差異,這是由于在岱衢族大黃魚(yú)選育過(guò)程中進(jìn)行了外形淘汰選育,F(xiàn)3代群體樣本的總體體型偏長(zhǎng),尤其是尾柄形態(tài)較細(xì)長(zhǎng)。
2.2.1 主成分分析特征提取
對(duì)岱衢族大黃魚(yú)F2、F3代選育群體樣本的24個(gè)形態(tài)參數(shù)進(jìn)行主成分分析,得到前10個(gè)主成分(PC1~PC10)的累計(jì)方差貢獻(xiàn)率(表3)和2個(gè)群體的24個(gè)形態(tài)參數(shù)的主成分載荷量分布(圖4)。
由表3和圖4可知:第1主成分PC1貢獻(xiàn)率為58.38%,對(duì)其載荷量較大的是全長(zhǎng)/尾柄長(zhǎng)(TL/CPL)、體長(zhǎng)/尾柄長(zhǎng)(BL/CPL)、尾柄長(zhǎng)/尾柄高(CPL/CPH)、體高/體質(zhì)量(BH/BM);第2主成分PC2貢獻(xiàn)率為21.87%,對(duì)其載荷量較大的是全長(zhǎng)/頭長(zhǎng)(TL/HL)、體長(zhǎng)/頭長(zhǎng)(BL/HL);第3主成分PC3貢獻(xiàn)率為8.94%,對(duì)其載荷量較大的是全長(zhǎng)/體長(zhǎng)(TL/BL)、體長(zhǎng)/吻長(zhǎng)(BL/KL)。前3個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到89.19%,說(shuō)明PCA提取得到的這3個(gè)主成分因子已經(jīng)能夠較好地表達(dá)2類(lèi)選育群體的形態(tài)參數(shù)信息?;赑CA的載荷分析表明,上述對(duì)第1、2、3主成分取值影響大的8個(gè)形態(tài)參數(shù),可以被認(rèn)為是選育群體樣本之間形態(tài)差異的重要因子。根據(jù)2類(lèi)選育群體樣本的第1、2、3主成分繪制散點(diǎn)圖(圖5),從中可以看出,雖然F2、F3代選育群體的部分樣本有重疊交錯(cuò),但是這2類(lèi)群體樣本整體上還是可以區(qū)分的。
圖3 岱衢族大黃魚(yú)F2代選育個(gè)體(A)和F3代選育個(gè)體(B)外形Fig.3 Body shape of F2(A)and F3(B)generations of Daiqu largeyellow croaker
表3 前10個(gè)主成分累計(jì)方差貢獻(xiàn)率Table 3 Cumulative variance contribution rate of the first 10 principal components
圖4 主成分載荷量Fig.4 Principal component loads
圖5 F2、F3代選育群體的第1、2、3主成分散點(diǎn)分布Fig.5 Distribution of the first,second,and third principal dispersal pointsof F2 and F3 generations
總之,由于岱衢族大黃魚(yú)F2、F3代選育群體形態(tài)參數(shù)具有差異,可以利用PCA提取的主成分或者利用PCA載荷分析得到的8個(gè)特征形態(tài)參數(shù),對(duì)不同選育群體樣本進(jìn)行識(shí)別。
2.2.2 連續(xù)投影算法特征選擇
圖6 SPA選擇的不同變量數(shù)的最小均方根誤差(RMSE)分布Fig.6 Minimum root mean squareerror(RMSE)distributions of different variablesselected by SPA
利用SPA從岱衢族大黃魚(yú)F2、F3代選育群體樣本的24個(gè)形態(tài)參數(shù)中選擇共線(xiàn)性最小的有效特征形態(tài)參數(shù)。經(jīng)SPA選擇的不同變量個(gè)數(shù)的最小均方根誤差(RMSE)分布圖如圖6所示。從中可以看出,提取出7個(gè)特征形態(tài)參數(shù)時(shí)RMSE達(dá)到低點(diǎn),此后RMSE趨于平穩(wěn),因此,可以從原始24個(gè)形態(tài)參數(shù)中選擇這7個(gè)特征形態(tài)參數(shù),它們分別是全長(zhǎng)/體長(zhǎng)(TL/BL)、全長(zhǎng)/頭長(zhǎng)(TL/HL)、全長(zhǎng)/尾柄長(zhǎng)(TL/CPL)、體長(zhǎng)/頭長(zhǎng)(BL/HL)、尾柄長(zhǎng)/尾柄高(CPL/CPH)、全長(zhǎng)/尾柄高(TL/CPH)、體長(zhǎng)/尾柄高(BL/CPH)。
通過(guò)比較PCA載荷分析得到的8個(gè)特征形態(tài)參數(shù)和SPA選擇的7個(gè)特征形態(tài)參數(shù)之后發(fā)現(xiàn),2種特征挖掘方法都篩選出了全長(zhǎng)/體長(zhǎng)(TL/BL)、全長(zhǎng)/頭長(zhǎng)(TL/HL)、全長(zhǎng)/尾柄長(zhǎng)(TL/CPL)、體長(zhǎng)/頭長(zhǎng)(BL/HL)、尾柄長(zhǎng)/尾柄高(CPL/CPH)這5個(gè)特征形態(tài)參數(shù)。從形態(tài)參數(shù)比值含義來(lái)看,5個(gè)特征形態(tài)參數(shù)主要反映了大黃魚(yú)頭部、尾鰭、尾柄部位長(zhǎng)度在魚(yú)體長(zhǎng)中的占比,集中表現(xiàn)在全長(zhǎng)、體長(zhǎng)、頭長(zhǎng)、尾柄長(zhǎng)4個(gè)指標(biāo),這與直接觀(guān)察所得到的F3代群體較F2代群體樣本總體體型偏長(zhǎng)、尾柄形態(tài)細(xì)長(zhǎng)的形態(tài)差異的結(jié)論一致。
分別利用PCA提取的前10個(gè)主成分(PCA變換主元特征)、PCA載荷分析得到的8個(gè)特征形態(tài)參數(shù)組合(PCA選擇特征)及SPA選擇的7個(gè)特征形態(tài)參數(shù)組合(SPA選擇特征),按照1.2.4節(jié)稀疏表示識(shí)別步驟,對(duì)岱衢族大黃魚(yú)F2代(DQF2)、F3代(DQF3)選育群體樣本進(jìn)行識(shí)別。不同特征對(duì)選育群體的識(shí)別結(jié)果如表4所示??梢钥闯?,3組特征對(duì)岱衢族大黃魚(yú)F2代(DQF2)、F3代(DQF3)選育群體樣本進(jìn)行識(shí)別的平均準(zhǔn)確率都在75%以上,且岱衢族大黃魚(yú)F2代、F3代群體之間存在較顯著的形態(tài)差異,能夠進(jìn)行形態(tài)區(qū)分。其中:利用PCA提取的前10個(gè)主成分對(duì)2類(lèi)選育群體樣本進(jìn)行識(shí)別,得到最高的平均識(shí)別準(zhǔn)確率為88.3%。這是由于主成分分析能夠在丟失最少信息的條件下,將原有眾多變量濃縮成較少的能夠反映原有變量絕大部分信息的綜合指標(biāo),因此能夠全面反映群體間的綜合形態(tài)差異,得到較好的識(shí)別效果。利用PCA載荷分析選擇的8個(gè)特征形態(tài)參數(shù)組合和利用SPA選擇的7個(gè)特征形態(tài)參數(shù)組合對(duì)2類(lèi)選育群體樣本的識(shí)別準(zhǔn)確率分別為79.0%、80.5%,兩者識(shí)別效果沒(méi)有明顯差距,但是相比PCA提取的前10個(gè)主成分,其識(shí)別效果不夠理想。究其原因,可能是岱衢族大黃魚(yú)F2、F3代選育群體代系之間雖然存在形態(tài)差異,但是形態(tài)多樣性較低,難以直接使用較少的形態(tài)參數(shù)因子來(lái)概括群體之間的形態(tài)差異。因此,在岱衢族大黃魚(yú)選育群體代系之間的形態(tài)差異描述中要充分利用數(shù)據(jù)挖掘手段,采用特征提取方法獲得綜合性形態(tài)特征指標(biāo)來(lái)對(duì)其形態(tài)差異進(jìn)行描述,從而克服在傳統(tǒng)魚(yú)類(lèi)形態(tài)學(xué)研究中傳統(tǒng)特征選擇方法所獲得的單一性形態(tài)特征指標(biāo)不全面等缺點(diǎn)。
表4 不同特征對(duì)岱衢族大黃魚(yú)F2代(DQF2)、F3代(DQF3)選育群體樣本的識(shí)別結(jié)果Table4 Identification resultsof F2 generation(DQF2)and F3 generation(DQF3)sampleswith different characteristics
本文采用計(jì)算機(jī)視覺(jué)技術(shù)測(cè)定大黃魚(yú)形態(tài)參數(shù),通過(guò)主成分分析和連續(xù)投影算法提取形態(tài)特征變量,并結(jié)合稀疏表示方法實(shí)現(xiàn)了對(duì)岱衢族大黃魚(yú)F2、F3代選育群體的識(shí)別建模,為魚(yú)類(lèi)形態(tài)學(xué)研究提供了新思路,為建立岱衢族大黃魚(yú)外形指標(biāo)及開(kāi)展外形評(píng)價(jià)提供了有效手段。主成分分析和連續(xù)投影算法對(duì)形態(tài)參數(shù)進(jìn)行特征提取和選擇的結(jié)果表明,全長(zhǎng)/體長(zhǎng)、全長(zhǎng)/頭長(zhǎng)、全長(zhǎng)/尾柄長(zhǎng)、體長(zhǎng)/頭長(zhǎng)、尾柄長(zhǎng)/尾柄高這5個(gè)形態(tài)特征變量是岱衢族大黃魚(yú)F2、F3代群體形態(tài)差異的主要指標(biāo)。稀疏表示方法對(duì)岱衢族大黃魚(yú)F2、F3代選育群體的識(shí)別結(jié)果表明,岱衢族大黃魚(yú)F2、F3代選育群體代系之間的形態(tài)多樣性較低,難以直接使用較少的形態(tài)參數(shù)因子來(lái)概括群體之間的形態(tài)差異;而通過(guò)PCA提取主成分得到的特征變量,能夠全面反映群體間的綜合形態(tài)差異,對(duì)岱衢族大黃魚(yú)F2、F3代選育群體的識(shí)別效果最好。