王彩霞,王松磊,賀曉光,董 歡
寧夏大學(xué)農(nóng)學(xué)院,寧夏 銀川 750021
牛肉味道鮮美、營(yíng)養(yǎng)豐富,是我國(guó)消費(fèi)最為普遍的肉制品之一。不同品種的牛肉在口感和品質(zhì)上存在很大差異,但肉品性狀和顏色又極為相似,肉眼難以區(qū)分。為保護(hù)一些優(yōu)良的牛肉品種及消費(fèi)者利益,需對(duì)不同品種的牛肉進(jìn)行分類識(shí)別。傳統(tǒng)的肉類識(shí)別方法操作繁瑣、耗時(shí)耗力[1-3],難以滿足現(xiàn)實(shí)需求。因此,建立牛肉品種的快速無(wú)損識(shí)別方法,具有非常重要的現(xiàn)實(shí)意義。
采集3歲左右的安格斯牛、利木贊牛、秦川牛、西門塔爾牛、荷斯坦奶牛各3~5頭,肉樣采自寧夏固原市與寧夏吳忠市。牛經(jīng)屠宰后在0 ℃下冷藏48 h完成排酸處理。排酸結(jié)束后,對(duì)牛肉樣品進(jìn)行分割。取5個(gè)部位肉(脖肉、眼肉、里脊肉、瓜條肉、臀肉),放入保溫箱運(yùn)至實(shí)驗(yàn)室,貯藏在4 ℃冷柜備用。光譜掃描前將肉樣整形切塊(40 mm×30 mm×10 mm),室溫下放置2 h,待肉樣中心溫度達(dá)到室溫水平后,用濾紙吸干樣品表面的水分,依次進(jìn)行光譜掃描。本實(shí)驗(yàn)共獲得牛肉樣本252個(gè)(其中,安格斯牛、利木贊牛、秦川牛、西門塔爾牛、荷斯坦奶牛樣本數(shù)分別為59,31,62,34和66個(gè))。
實(shí)驗(yàn)采用美國(guó)Headwall Photonics公司生產(chǎn)的HyperSpec Vis-NIR高光譜成像系統(tǒng)。主要包括光譜相機(jī)、光源、VT-80精密電控位移平臺(tái)、計(jì)算機(jī)和數(shù)據(jù)采集軟件等。其中,光譜相機(jī)由Imspector N系列成像光譜儀和G4-232增強(qiáng)型EMCCD相機(jī)組成,成像光譜儀在400~1 000 nm波段范圍內(nèi)共有125個(gè)波段,光譜分辨率為2.8 nm, 入射狹縫寬度為25 μm;光源系統(tǒng)由2個(gè)150 W的光纖式鹵素?zé)艄庠唇M成;電控位移平臺(tái)背景設(shè)置為黑色以消除反射雜散光干擾。實(shí)驗(yàn)采用Hyperspec-N軟件控制高光譜成像系統(tǒng)采集牛肉樣本的成像信息。
光譜掃描前需進(jìn)行黑白校正,并設(shè)置合理的采集參數(shù)。經(jīng)實(shí)驗(yàn)確定采集參數(shù)為:相機(jī)曝光時(shí)間30 ms,物距380 mm,掃描速度15 mm·s-1,線掃描實(shí)際長(zhǎng)度60 mm。
1.3.1 感興趣區(qū)域選取及光譜反射率指數(shù)可視化
光譜反射率指數(shù)可視化指利用不同顏色將每個(gè)像素點(diǎn)的化學(xué)成分差異顯現(xiàn)出來(lái),并產(chǎn)生每個(gè)樣本的平均光譜反射率值。在進(jìn)行光譜反射率指數(shù)可視化之前,需提取合理的感興趣區(qū)域(ROI)。ROI區(qū)域的選取采用ENVI軟件中的波段閾值進(jìn)行設(shè)置,經(jīng)多次嘗試,最終設(shè)定二值化閾值為0.25。對(duì)采集到的圖像依次進(jìn)行閾值分割,得到二值化掩膜圖像用于確定ROI。然后將ROI圖像與高光譜圖像進(jìn)行耦合,生成光譜反射率指數(shù)的可視化圖[9],具體方法見參考文獻(xiàn)[9]。
1.3.2 光譜預(yù)處理及特征波長(zhǎng)提取
采用KS算法對(duì)樣本集進(jìn)行劃分。由于原始光譜含有大量的噪聲及無(wú)關(guān)信息,需對(duì)劃分后的樣本數(shù)據(jù)進(jìn)行預(yù)處理。所嘗試的預(yù)處理方法有卷積平滑(SG)、一階導(dǎo)數(shù)(FD)、區(qū)域歸一化(Area normalize)、基線校正(Baseline)、標(biāo)準(zhǔn)正態(tài)變量變換(SNV)及多元散射校正(MSC)等。由于牛肉樣本的全波段光譜數(shù)據(jù)量大、信息混雜,需選用適當(dāng)?shù)奶卣鞑ㄩL(zhǎng)提取方法剔除不相關(guān)或者非線性變量,降低模型運(yùn)算量、提高模型穩(wěn)健性。本工作采用CARS法[10]進(jìn)行特征波長(zhǎng)提取。
1.3.3 圖像主成分分析
主成分分析(PCA)法是根據(jù)方差最大原則,沿協(xié)方差最大的方向?qū)⒏呔S變量投射到低維空間,從而得到能夠表征高維數(shù)據(jù)空間和信息的低維分量的過(guò)程[11]。采用基于SVD的PCA降維后協(xié)方差貢獻(xiàn)率的大小來(lái)確定主成分?jǐn)?shù)目。
1.3.4 顏色及紋理特征提取
圖像中的顏色矩能有效表征圖像中顏色的分布,顏色矩包括一階矩、二階矩和三階矩。利用R,G和B三個(gè)顏色分量的一到三階矩來(lái)表示不同牛肉樣本圖像的顏色特征。采用灰度共生矩陣法(GLCM)[12]提取圖像紋理信息,利用Matlab中的graycomatrix函數(shù),設(shè)置像素間距離參數(shù)值為1,對(duì)主成分圖像依次取0,45°,90°和135°方向的能量、熵、慣性矩和相關(guān)性[13]進(jìn)行紋理特征提取。
采用偏最小二乘判別(PLS-DA)[14]法建立牛肉品種識(shí)別模型。PLS-DA算法是在偏最小二乘回歸算法基礎(chǔ)上建立樣本分類變量與光譜特征間的回歸模型的分類方法,適用于變量較多且干擾噪聲大的情況,能有效解決多重共線性問(wèn)題。
利用ENVI軟件對(duì)高光譜圖像進(jìn)行閾值分割提取ROI,并對(duì)光譜反射率指數(shù)進(jìn)行可視化表達(dá),結(jié)果如圖1所示。
圖1 牛肉樣本光譜反射指數(shù)可視化圖
圖1中顏色越接近紅色表示反射率指數(shù)越大,反之越小。荷斯坦奶牛樣本反射率指數(shù)較低因而藍(lán)色區(qū)域較多,而利木贊牛樣本中出現(xiàn)明顯的黃色與少量紅色,表明反射率指數(shù)較大。由于光譜反射率指數(shù)與樣本的化學(xué)成分之間存在一定的相關(guān)性,因此利木贊牛較荷斯坦奶牛,前者化學(xué)成分更豐富。對(duì)不同牛肉品種的平均光譜反射率曲線進(jìn)行對(duì)比分析,結(jié)果如圖2所示。
圖2 牛肉樣本的平均光譜曲線
由圖2可知,荷斯坦奶牛樣本的平均光譜曲線較其他四種牛肉樣本曲線,波峰波谷位置不明顯且出現(xiàn)部分偏移現(xiàn)象,這與樣本所含的化學(xué)成分有很大關(guān)系。牛肉含有大量的水分(≥70%)、脂肪和蛋白質(zhì),因此光譜吸收主要與其所含的—OH,—CH和—NH2等基團(tuán)緊密相關(guān)。由圖可知,在400~580 nm可見波段范圍內(nèi)光譜反射率值較低,在610~780 nm短波近紅外區(qū)域內(nèi)反射率較高。因在可見光區(qū)域,肉樣中肌紅蛋白與血紅蛋白相互作用使樣本表面呈紅色,其互補(bǔ)色青綠色區(qū)域光譜吸收率較高,反射率較低;而在近紅外區(qū)域,光譜吸收與物質(zhì)分子基團(tuán)能量吸收及能級(jí)躍遷有關(guān)。在部分波段,秦川牛與安格斯牛光譜出現(xiàn)重疊和譜峰交叉現(xiàn)象,但在558~665 nm波段,各曲線反射率差異較明顯,這些波段為牛肉樣本的識(shí)別提供了大量的有效信息。圖1中反射率指數(shù)較低的樣本在圖2中其光譜反射率值也較低,因此,反射率指數(shù)也可以反應(yīng)每個(gè)樣本的平均光譜反射率。
2.2.1 光譜信息預(yù)處理
利用KS法按接近3∶1的比例將牛肉樣本劃分為校正集190個(gè),預(yù)測(cè)集62個(gè)。對(duì)劃分后樣本的光譜數(shù)據(jù)進(jìn)行預(yù)處理,結(jié)果見表1。
表1 不同預(yù)處理方法的PLS-DA分類結(jié)果Table 1 The results of PLS-DA models by different pretreatment methods
由表1可知,與未經(jīng)預(yù)處理的原始光譜識(shí)別結(jié)果相比,經(jīng)預(yù)處理后模型校正集與預(yù)測(cè)集的識(shí)別率均有所增加。其中,經(jīng)FD法預(yù)處理后的光譜數(shù)據(jù)其校正集與預(yù)測(cè)集識(shí)別率最高,分別為96.84%和91.94%,說(shuō)明FD預(yù)處理法可以有效消除基線漂移及背景干擾,提升了譜峰分辨率和靈敏度,提高了識(shí)別準(zhǔn)確率。因此,F(xiàn)D法為最佳預(yù)處理方法。
2.2.2 特征波長(zhǎng)提取
CARS法提取特征波長(zhǎng)具體參數(shù)設(shè)置為:最大主成分?jǐn)?shù)為15,蒙特卡洛交互驗(yàn)證中采樣次數(shù)為50次,采樣率為0.8,數(shù)據(jù)選用中心化處理方式,迭代次數(shù)為2 000,閾值為0.8,處理過(guò)程如圖3所示。
圖3 CARS方法特征波長(zhǎng)篩選過(guò)程(a): 變量選擇變化趨勢(shì);(b): 交互驗(yàn)證均方根誤差變化過(guò)程;(c): 波長(zhǎng)變量回歸系數(shù)變化趨勢(shì)
圖3(a)為變量選擇變化趨勢(shì)圖,變量數(shù)隨采樣次數(shù)呈先快后慢的下降趨勢(shì);圖3(b)反映了篩選過(guò)程中交互驗(yàn)證均方根誤差(RMSECV)的變化過(guò)程,RMSECV先降低后上升,最優(yōu)化變量子集應(yīng)位于欠擬合和過(guò)擬合交匯點(diǎn)處,即采樣數(shù)為9次時(shí),RMSECV的值最小為0.493 9;圖3(c)表示特征波長(zhǎng)變量回歸系數(shù)的變化趨勢(shì),“*”所對(duì)應(yīng)的位置即為RMSECV最小處,依據(jù)RMSECV最小值原則共選出22個(gè)特征波長(zhǎng)。分別為:449,469,473,483,526,574,589,598,613,622,694,709,733,747,761,781,862,910,915,934,949和973 nm,數(shù)據(jù)壓縮率為82.4%。
2.3.1 圖像主成分分析
利用ENVI軟件對(duì)掩膜后的牛肉樣本圖像進(jìn)行主成分分析。提取前3幅主成分(累計(jì)方差貢獻(xiàn)率達(dá)99%以上),主成分圖像如圖4所示。
圖4 牛肉樣本的前3個(gè)主成分圖像
2.3.2 顏色及紋理特征提取
對(duì)252個(gè)牛肉樣本依次進(jìn)行圖像特征提取。提取掩膜圖像的顏色特征,數(shù)據(jù)保存在252×9的矩陣中;提取前3幅主成分圖像的紋理特征,數(shù)據(jù)保存在252×48的矩陣中。由于紋理特征數(shù)據(jù)維度較大,將提取的紋理特征數(shù)據(jù)做相關(guān)性分析以提取更加有效的信息。結(jié)果如表2所示。
表2 主成分圖像的紋理特征與牛肉品種的相關(guān)性分析Table 2 Correlation between beef varieties and texture parameters from principal component images
由表2可知,PC1圖像中當(dāng)紋理特征為熵和慣性矩時(shí),其值與牛肉種類呈正相關(guān),且相關(guān)性均大于0.90,因此,選取PC1圖像中的熵和慣性矩作為最終紋理特征。以此類推,PC2圖像選取能量作為紋理特征值,PC3圖像選取熵作為最終紋理特征值,最終選取16個(gè)紋理特征,用于后續(xù)建模分析。
將特征光譜數(shù)據(jù)與顏色、紋理特征信息進(jìn)行融合,利用PLS-DA算法對(duì)融合后的數(shù)據(jù)進(jìn)行建模。PLS-DA算法中設(shè)置最大主成分?jǐn)?shù)為20,進(jìn)行數(shù)據(jù)歸一化處理,并采用百葉窗交互驗(yàn)證,設(shè)置交互驗(yàn)證組數(shù)為10。建模結(jié)果如表3所示。
表3 4種模型對(duì)牛肉樣本的的識(shí)別準(zhǔn)確率Table 3 Identification accuracy of four models for beef samples
由表3可知,在4個(gè)模型中,基于特征光譜+紋理特征的模型識(shí)別效果最好,校正集與預(yù)測(cè)集識(shí)別率分別為98.42%和93.55%,說(shuō)明紋理特征與牛肉品種之間較高的相關(guān)性在經(jīng)過(guò)融合后使樣本的信息量更加全面,因此模型的識(shí)別率提高;特征光譜+顏色特征模型校正集的識(shí)別率略高于單獨(dú)的特征光譜模型,但預(yù)測(cè)集識(shí)別率較低,分析其原因,顏色特征雖攜帶了部分有效信息,但與牛肉品種的相關(guān)性較差,融合的同時(shí)也增加了部分無(wú)用信息,從而導(dǎo)致預(yù)測(cè)集識(shí)別率降低;這也是融合了顏色特征后,特征光譜+顏色特征+紋理特征模型的識(shí)別率降低的原因。
利用高光譜光譜和圖像特征相融合的技術(shù)對(duì)牛肉品種進(jìn)行識(shí)別研究,通過(guò)CARS法對(duì)經(jīng)過(guò)FD法預(yù)處理后的光譜進(jìn)行特征波長(zhǎng)提取,共提取出了22個(gè)有效波長(zhǎng),降低了光譜數(shù)據(jù)量;通過(guò)主成分分析法取出前3幅主成分圖像,然后利用顏色矩、GLCM提取圖像的顏色以及紋理信息;最后,分別利用特征波長(zhǎng)、顏色特征、紋理特征融合建立牛肉品種PLS-DA識(shí)別模型。主要結(jié)論:
(1)基于特征光譜+紋理特征的模型識(shí)別效果最佳,校正集與預(yù)測(cè)集識(shí)別率分別為98.42%和93.55%,均高于特征光譜數(shù)據(jù)模型識(shí)別率,說(shuō)明融合紋理特征使分類信息的表達(dá)更加全面。
(2)融合顏色特征后的模型校正集識(shí)別率均有所增加,但預(yù)測(cè)集識(shí)別率較差??赡茉蚴穷伾卣麟m攜帶了部分有效信息,但這些信息與牛肉樣本的相關(guān)性不大,顏色特征的融合增加了部分冗余信息,反而使識(shí)別率降低。因此,尋找與牛肉樣本相關(guān)性更大的顏色特征是提高模型識(shí)別率的重要途徑。