李鑫星,姚久彬,成建紅,孫龍清,曹霞敏,張小栓
1. 中國(guó)農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院食品質(zhì)量與安全北京實(shí)驗(yàn)室,北京 100083 2. 中國(guó)農(nóng)業(yè)大學(xué)煙臺(tái)研究院,山東 煙臺(tái) 264670 3. 蘇州大學(xué)基礎(chǔ)醫(yī)學(xué)與生物科學(xué)學(xué)院,江蘇 蘇州 215200 4. 中國(guó)農(nóng)業(yè)大學(xué)工學(xué)院,北京 100083
河蟹因其美味且富有營(yíng)養(yǎng)而具有較高的經(jīng)濟(jì)價(jià)值,近年來(lái)河蟹養(yǎng)殖產(chǎn)業(yè)極速擴(kuò)張[1],2014年產(chǎn)量達(dá)到796 535 t[2]。
河蟹的新鮮度是大多數(shù)人在購(gòu)買時(shí)所考慮的最重要的因素, 揮發(fā)性鹽基氮(TVB-N)是當(dāng)前國(guó)際通用的評(píng)價(jià)肉類新鮮度的指標(biāo)[3]。然而其檢測(cè)工序繁瑣、耗費(fèi)時(shí)間長(zhǎng),無(wú)法滿足當(dāng)前市場(chǎng)快速、客觀評(píng)價(jià)河蟹新鮮度的迫切需求。因此, 建立一種快速檢測(cè)河蟹新鮮度的方法是當(dāng)前急需解決的一大難題。
近紅外光譜(NIRS)具有快捷簡(jiǎn)便,綠色無(wú)污染等優(yōu)點(diǎn),并且已經(jīng)在食品,石油,醫(yī)藥,農(nóng)業(yè)等領(lǐng)域進(jìn)行了成功應(yīng)用[4-7]。近年來(lái),國(guó)內(nèi)外學(xué)者建立了許多基于近紅外光譜的肉質(zhì)新鮮度評(píng)價(jià)模型,以快速評(píng)價(jià)肉類的新鮮度。Abdel-Nour等[8]使用近紅外光譜檢測(cè)雞蛋的新鮮度,結(jié)果顯示傳輸光譜學(xué)是評(píng)估雞蛋新鮮度和蛋白PH值的一個(gè)很好的方法。Huang等[9]結(jié)合近紅外光譜和化學(xué)計(jì)量學(xué),實(shí)現(xiàn)了魚新鮮度的快速和非破壞性評(píng)估。Lin等[10]將近紅外光譜與多變量分析相結(jié)合檢測(cè)蛋的新鮮度,結(jié)果表明近紅外光譜結(jié)合多元校準(zhǔn)在蛋新鮮度的分析方面具有顯著的潛力。Chuang等[11]采用獨(dú)立成分分析與近紅外光譜學(xué)相集成的方法來(lái)評(píng)價(jià)大米新鮮度,結(jié)果證明該方法具有可行性。
采用近紅外光譜評(píng)價(jià)河蟹的新鮮度,收集腐敗變質(zhì)過(guò)程中蟹肉的光譜信息并測(cè)定其揮發(fā)性鹽基氮含量,采用多種光譜預(yù)處理方法與特征波段提取相結(jié)合,建立了基于近紅外光譜的河蟹新鮮度快速評(píng)價(jià)方法。
實(shí)驗(yàn)用的河蟹是2017年12月購(gòu)于清河水產(chǎn)市場(chǎng)當(dāng)天從河中捕撈的鮮活螃蟹,采用聚乙烯充氧袋快速運(yùn)至實(shí)驗(yàn)室,共126只。在潔凈的工作臺(tái)上處理后,將螃蟹分為42個(gè)實(shí)驗(yàn)樣品,每個(gè)樣品3只鮮活螃蟹; 42個(gè)實(shí)驗(yàn)樣品放在低溫4 ℃的恒溫生化培養(yǎng)箱中貯藏,每天從培養(yǎng)箱中取6個(gè)螃蟹樣品將蟹肉取出并放入潔凈的培養(yǎng)皿中充分壓實(shí),采用近紅外光譜儀進(jìn)行光譜數(shù)據(jù)采集,采用凱氏定氮儀進(jìn)行新鮮度指標(biāo)TVB-N的測(cè)定,歷時(shí)7 d。
本實(shí)驗(yàn)采用的儀器為德國(guó)BRUKER公司生產(chǎn)的MPA型Fourier Transformation近紅外光譜儀。
圖1 MPA型光譜儀
光譜儀的掃描波數(shù)范圍為: 3 895~11 988 cm-1(834~2 567 nm),掃描次數(shù)32次,分辨率16 cm-1。將蟹肉取出并放入潔凈的培養(yǎng)皿中完全壓實(shí)。所得到的蟹肉如圖2所示。
通過(guò)重新加載將每個(gè)樣品連續(xù)掃描3次,并將獲得的3條光譜曲線平均用作待分析的樣品光譜。光譜儀所采集到的蟹肉原始光譜如圖3所示。
圖2 蟹肉
圖3 蟹肉原始光譜曲線
TVB-N的測(cè)定采用凱氏定氮法。測(cè)量方法采用GB5009.228—2016[12]中的方法,其中每個(gè)實(shí)驗(yàn)樣品做3個(gè)平行,取平均值為樣品TVB-N的含量(單位為mg·100 g-1)。
模型的建立需要經(jīng)過(guò)原始光譜樣本集劃分、光譜數(shù)據(jù)預(yù)處理、光譜特征波段提取與預(yù)測(cè)模型構(gòu)建4個(gè)步驟,其中每個(gè)步驟都是必不可少的,每一步的結(jié)果都會(huì)影響到最終模型的預(yù)測(cè)效果。
用特定方法劃分訓(xùn)練集與預(yù)測(cè)集是為了評(píng)價(jià)所用方法對(duì)未知輸入的擬合效果,每一次劃分的訓(xùn)練數(shù)據(jù)組合均作為一次獨(dú)立的建模過(guò)程訓(xùn)練模型,并將對(duì)應(yīng)的測(cè)試數(shù)據(jù)組合作為未知數(shù)據(jù)評(píng)價(jià)建模效果。5-fold CrossValidation法、kennard-stone法、SPXY法是常見(jiàn)的三種樣本劃分方法,用盡量多的數(shù)據(jù)組合方式來(lái)建模,這樣不僅可以選出效果最好的模型,還可以對(duì)建模方法進(jìn)行更加全面的評(píng)價(jià)。分別采用上述3種方法將樣本光譜劃分為訓(xùn)練集與預(yù)測(cè)集,其中的32個(gè)樣品被劃分為訓(xùn)練集進(jìn)行模型構(gòu)建,其余的10個(gè)樣品被劃分為測(cè)試集用于模型檢驗(yàn)。為了確保所建模型的適用性,要確保測(cè)試集樣品的TVB-N含量在訓(xùn)練集樣品的含量范圍內(nèi)。
偏最小二乘回歸(partial least squares regression, PLSR)是自變量與因變量均為兩種或以上的線性回歸分析,當(dāng)各變量?jī)?nèi)部高度線性相關(guān)時(shí),用 PLSR非常有效。PLSR適用于各種參數(shù)優(yōu)化問(wèn)題以及模型的最優(yōu)求解問(wèn)題,該方法具有典型相關(guān)分析、多元線性回歸分析和主成分分析的優(yōu)點(diǎn)。因此,對(duì)每種方法得到的樣本劃分結(jié)果分別采用PLSR全波段建模以確定最終的數(shù)據(jù)劃分方式,結(jié)果如表1和表2所示。
表1 基于五折交叉驗(yàn)證法的樣本劃分結(jié)果
注: RMSEC和RMSEP的單位均為mg·100 g-1(下同)
Note: The units of RMSEC and RMSEP are mg·100 g-1(the same below)
R2是模型決定系數(shù),并且R2越趨近1,所建模型精確度越高; RMSEC是訓(xùn)練集均方根誤差,RMSEP是預(yù)測(cè)集均方根誤差,模型的RMSEC和RMSEP越小,所建模型精確度也就越高。本文采用R2與RMSEP作為判別模型優(yōu)劣的指標(biāo)。由表1可知,采用第三組的樣本劃分方式所建立的模型決定系數(shù)最高,均方根誤差最小,因此五折交叉驗(yàn)證最終選擇第三組的方式進(jìn)行樣本劃分。由表2可知,通過(guò)五折交叉驗(yàn)證法劃分樣本所建立的偏最小二乘回歸模型訓(xùn)練集與預(yù)測(cè)集決定系數(shù)都在0.85以上,KS算法所建立的模型RMSEP最小,而通過(guò)SPXY算法所建立的模型預(yù)測(cè)集R2最小且RMSEP最大,模型精度最低。與KS算法相比,五折交叉驗(yàn)證法訓(xùn)練集決定系數(shù)、預(yù)測(cè)集決定系數(shù)更大,訓(xùn)練集均方根誤差更小,預(yù)測(cè)集均方根誤差稍大,綜合考慮模型決定系數(shù)與均方根誤差,最終選擇五折交叉驗(yàn)證法進(jìn)行樣本劃分。表3是最終訓(xùn)練集與預(yù)測(cè)集樣本TVB-N含量,單位mg·100 g-1表示每100 g蟹肉中所含有TVB-N的含量。
表2 基于3種不同方法的樣本劃分結(jié)果
Table2Statisticsdescriptionofsampleselectionfortheaquaculturesamplebasedonthreedifferentalgorithms
樣品劃分方式訓(xùn)練集結(jié)果預(yù)測(cè)集結(jié)果R2RMSECR2RMSEP5-fold CrossValidation0.969 91.477 10.863 63.894 4KS0.826 23.818 20.709 93.281 8SPXY0.997 50.459 60.473 74.904 3
注: RMSEC和RMSEP的單位均為mg·100 g-1
Note: The units of RMSEC and RMSEP are mg·100 g-1
表3 樣品TVB-N含量
原始光譜曲線不僅包含有用信息,還包含噪聲信號(hào),同時(shí)還可能存在諸如基線平移和漂移之類的問(wèn)題,所以對(duì)原始光譜進(jìn)行S-G平滑、小波變換處理以及導(dǎo)數(shù)處理是很有必要的。在比較了經(jīng)無(wú)預(yù)處理、SG平滑、小波變換(wavelet transform, WT)、一階導(dǎo)數(shù)法(first-derivative, Db1)、二階導(dǎo)數(shù)法(second-derivative, Db2)以及不同方法組合等預(yù)處理方法以后,采用PLSR法建立了河蟹新鮮度檢測(cè)模型,結(jié)果如表4所示。
由表4可知,不同的光譜預(yù)處理方法對(duì)模型的建立有明顯的影響,WT,SG平滑及SG平滑與WT相結(jié)合的處理效果較好,Db1和Db2的處理結(jié)果較差,結(jié)果甚至遠(yuǎn)劣于無(wú)預(yù)處理方法,因而不適用于該模型的光譜預(yù)處理。小波變換處理與SG平滑、小波變換結(jié)合SG平滑處理相比,模型決定系數(shù)更大,均方根誤差更小,建模效果明顯更好。而小波變換處理與無(wú)預(yù)處理建模相比,預(yù)測(cè)集決定系數(shù)0.850 7略低于0.863 6,差值為0.01,但預(yù)測(cè)集均方根誤差3.379 3明顯小于3.894 4,差值為0.52。決定系數(shù)本質(zhì)是比較兩列數(shù)據(jù)的協(xié)方差與對(duì)應(yīng)方差積的比重,由于數(shù)據(jù)本身存在一定的誤差,所以在R2相對(duì)接近的情況下,采用RMSEP作為評(píng)價(jià)模型優(yōu)劣的指標(biāo)。因此,本研究采用WT作為預(yù)處理的方法。
表4 基于不同預(yù)處理的PLSR預(yù)測(cè)效果比較
由表4可知,經(jīng)小波變換處理采用全波段光譜建立的模型效果較優(yōu),模型精度可以滿足在線檢測(cè)的要求,但在線檢測(cè)不僅要求精度要高,而且還要求模型檢測(cè)速度夠快,因此需要對(duì)模型進(jìn)行優(yōu)化。特征波段提取不但能夠提高模型的運(yùn)行速度,而且能夠提高模型的穩(wěn)定性。目前常用的特征波段提取方法有連續(xù)投影變換(successive projection algorithm, SPA)、主成分分析(principal component analysis, PCA)、遺傳算法(genetic algorithm, GA)、無(wú)信息變量消除算法(uninformative variable elimination, UVE)等。PCA通過(guò)篩選原數(shù)據(jù)集各組成向量(即原數(shù)據(jù)集矩陣的每個(gè)字段,一個(gè)字段代表一個(gè)特征,也可稱為變量)協(xié)方差矩陣的累積方差,組合出將原數(shù)據(jù)集矩陣變換到主元空間的變換矩陣,原數(shù)據(jù)集矩陣與該變換矩陣的乘積即是原數(shù)據(jù)集各變量在主元空間的線性組合[13],即利用原數(shù)據(jù)在主元空間上的映射來(lái)表示原數(shù)據(jù)矩陣,由于在主元空間上可用更少的變量表示,從而實(shí)現(xiàn)了對(duì)原數(shù)據(jù)集的降維。SPA選擇含有最少多余信息的波長(zhǎng)變量組合以最小化信息重復(fù)疊加。本研究所包含的光譜波段較多,利用主成分分析法和連續(xù)投影算法可以對(duì)光譜特征波段進(jìn)行有效降維,有效地提高模型運(yùn)行的速度。
采用PCA和SPA分別提取經(jīng)過(guò)相同預(yù)處理的光譜特征波段,然后對(duì)提取出的最優(yōu)波段采用PLSR進(jìn)行建模,結(jié)果如表5所示。
表5 基于不同特征提取的PLSR效果比較
由表5可知,與全波段建模相比較,經(jīng)過(guò)PCA特征提取之后建立的模型,預(yù)測(cè)集決定系數(shù)更大,均方根誤差更小,模型精度更高; 在SPA特征提取之后,該模型具有更小的R2和RMSEP。全波段建模包含了更多無(wú)用的光譜信息,特征波段提取有效去除了干擾信息,使模型性能得到優(yōu)化。本文選用PCA作為光譜特征提取的方法。
預(yù)測(cè)模型的建立
目前常用的建模方法主要有偏最小二乘回歸(partial least squares regression, PLSR)、主成分回歸(principal component regression,PCR)、多元線性回歸(multivariable linear regression, MLR)、人工神經(jīng)網(wǎng)絡(luò)(artificial neural network, ANN)等。MLR可以通過(guò)線性擬合多個(gè)自變量和因變量之間的關(guān)系來(lái)確定模型的最優(yōu)參數(shù)。本研究中涉及多次最優(yōu)求解問(wèn)題,因此本文采用PLSR與MLR進(jìn)行建模。本文利用偏最小二乘回歸和多元線性回歸分別對(duì)經(jīng)相同預(yù)處理、特征波段提取后的光譜進(jìn)行建模,獲得建立河蟹TVB-N定量模型的最優(yōu)算法。最終的建模結(jié)果如表6所示。
表6 基于PLSR和MLR的預(yù)測(cè)模型效果比較
從表6可以看出,通過(guò)PLSR獲得的模型的預(yù)測(cè)決定系數(shù)R2大于通過(guò)MLR建模獲得的模型的預(yù)測(cè)決定系數(shù)R2,并且RMSEP小于MLR建模獲得的模型的RMSEP,PLSR優(yōu)于MLR,因此本文最終選擇PLSR作為建模方法。實(shí)驗(yàn)構(gòu)建的最佳河蟹揮發(fā)性鹽基氮模型如圖4所示。
圖4 TVB-N預(yù)測(cè)值與真實(shí)值散點(diǎn)圖
利用NIRS構(gòu)建了河蟹貯存過(guò)程中TVB-N預(yù)測(cè)模型。首先采用5-fold CrossValidation法對(duì)樣本進(jìn)行劃分,其中的32個(gè)樣品被劃分為訓(xùn)練集進(jìn)行模型構(gòu)建,其余的10個(gè)樣品被劃分為測(cè)試集用于模型檢驗(yàn)。然后利用WT對(duì)原始光譜進(jìn)行預(yù)處理,消除了無(wú)用的信息并提高信噪比。再次,采用PCA法提取光譜最優(yōu)波段,利用該最優(yōu)波段作為模型的輸入,不僅提高模型的運(yùn)行速度,還可以提高模型的穩(wěn)定性。最后采用PLSR法構(gòu)建了TVB-N定量預(yù)測(cè)模型,R2和RMSEP分別達(dá)到0.89和3.00。結(jié)果表明,預(yù)測(cè)模型具有較高的精度,該方法可以實(shí)現(xiàn)對(duì)河蟹新鮮度的快速檢測(cè),具有較好的市場(chǎng)應(yīng)用前景。