許建梅,楊 芳,林 卿,王佳慧,艾竹君
(1.海南醫(yī)學(xué)院現(xiàn)代教育技術(shù)中心,海南???571199;2.海南醫(yī)學(xué)院生物醫(yī)學(xué)信息與工程學(xué)院,海南海口 571199;3.海南醫(yī)學(xué)院熱帶醫(yī)學(xué)與檢驗(yàn)學(xué)院,海南???571199)
注水肉作為食物摻假的一種方式,不僅降低了肉的品質(zhì),擾亂了正常的市場(chǎng)秩序,還對(duì)消費(fèi)者的健康產(chǎn)生危害[1?2]。一些不法商人為了牟利,仍然在生產(chǎn)和銷(xiāo)售注水肉。為了解決注水肉禁而不止的問(wèn)題,針對(duì)國(guó)內(nèi)現(xiàn)行畜禽肉水分限量標(biāo)準(zhǔn)和檢測(cè)方法不能適應(yīng)新變化的現(xiàn)實(shí),需要開(kāi)展對(duì)畜禽肉水分限量標(biāo)準(zhǔn)及檢測(cè)方法的研究[3]。
近年來(lái),注水肉檢測(cè)方法的研究主要集中在基于光譜分析技術(shù)和低場(chǎng)核磁共振(LF-NMR)技術(shù)這兩個(gè)方向上。光譜分析技術(shù)作為一種快速、無(wú)損的檢測(cè)方法不僅被應(yīng)用于注水肉的檢測(cè)研究[4?7],也被用于肉制品的其他摻假識(shí)別研究[8]。采用LFNMR技術(shù)得到的橫向弛豫譜,能夠反映食品和生物體系中處在不同物理化學(xué)環(huán)境下水的橫向弛豫特性。理化環(huán)境、水含量及水分布的變化都對(duì)橫向弛豫譜產(chǎn)生影響[9]。橫向弛豫譜可以對(duì)食品和生物體系中的水含量及水分布進(jìn)行快速、無(wú)損、高靈敏度的分析,因此被廣泛應(yīng)用于食品摻假的識(shí)別[10?11]、食品含水率的預(yù)測(cè)[12?13]、影響食品中水分分布因素的分析等[14]。對(duì)正常羊肉和隨機(jī)注入不同比例水的羊肉進(jìn)行LF-NMR檢測(cè),結(jié)合主成分分析及逐步線性判別分析能夠在一定程度上對(duì)不同的羊肉進(jìn)行定性區(qū)分[15]。在肉糜中注水,根據(jù)注水比例0、2%~14%、16%~30%、32%~40%將肉樣品分為原料肉、輕度、中度、重度注水肉糜,在單組分和多組分弛豫特性分析的基礎(chǔ)上結(jié)合判別分析可對(duì)四種不同程度的注水肉糜進(jìn)行定性識(shí)別[16]。利用LF-NMR技術(shù)對(duì)注水肉進(jìn)行檢測(cè)的研究主要集中在定性檢測(cè),對(duì)低注水比例的注水肉的定量檢測(cè)研究鮮有報(bào)道。
本研究以新鮮的豬背最長(zhǎng)肌作為注水對(duì)象,采用CPMG脈沖序列獲得NMR信號(hào),經(jīng)反演后得到橫向弛豫譜及相對(duì)應(yīng)的16個(gè)橫向弛豫譜參數(shù)數(shù)據(jù)。分別用判別分析(DA)和偏最小二乘回歸(PLSR)建立注水肉定性和定量檢測(cè)模型,嘗試多種可能性的PLSR建模。評(píng)估分析模型檢測(cè)注水肉的性能,確定最優(yōu)的PLSR模型,以PLSR模型預(yù)測(cè)注水比例的置信區(qū)間為依據(jù),分析DA模型在識(shí)別注水肉時(shí)發(fā)生誤判的原因,為基于LF-NMR技術(shù)的注水肉的定性定量檢測(cè)提供數(shù)據(jù)支撐。
取自17頭豬的新鮮的背最長(zhǎng)肌 分9次購(gòu)于??谑谐俏鬓r(nóng)貿(mào)市場(chǎng)。
MesoMR23-060H-I型核磁共振成像分析儀蘇州紐邁分析儀器股份公司;JA1003型電子天平上海良平儀器儀表有限公司;H.SWX-420BS型電熱恒溫水溫箱 上海新苗醫(yī)療器械制造股份公司;100 μL微量注射器 上海高鴿工貿(mào)有限公司。
1.2.1 樣本制備 采用注射器直接向肌肉注水的方式制備注水肉樣本。將一條豬背最長(zhǎng)肌制備成15個(gè)肉樣本,每個(gè)肉樣本的質(zhì)量為10±0.1 g,將肉樣本切成方形。三個(gè)肉樣本為一組,共五組。其中沒(méi)有注入水的一組作為正常肉樣本。另外四組作為注水肉樣本,分別按原始肉樣本質(zhì)量的2%、6%、10%和14%注射蒸餾水。共制備255個(gè)肉樣本。將制備好的每個(gè)樣本單獨(dú)裝入自封袋中,放置在4 ℃冰箱中冷藏保存6 h。
1.2.2 測(cè)量NMR信號(hào) 從冰箱中取出冷藏6 h的樣本,將自封袋中的樣本放入32 ℃的恒溫水箱中,放置20 min,使肉樣本溫度達(dá)到32 ℃。再將肉樣本置于低場(chǎng)核磁共振成像分析儀的測(cè)試床上,選用CPMG脈沖序列測(cè)量肉樣本產(chǎn)生的NMR信號(hào),每個(gè)樣本重復(fù)測(cè)量2次。CPMG脈沖序列參數(shù)設(shè)置如下:前置放大增益PRG=2,重復(fù)采樣等待時(shí)間TW=6000 ms,回波時(shí)間TE=0.22 ms,回波個(gè)數(shù)NECH=18000,采樣頻率SW=100 kHz,射頻延時(shí)時(shí)間RFD=0.1 ms,模擬增益RG1=20.0 db,數(shù)字增益DRG1=3,重復(fù)激勵(lì)次數(shù)NS=8。
1.2.3 判別分析 判別分析是根據(jù)已知類別的樣本所提供的信息,總結(jié)分類的規(guī)律性,建立判別公式和準(zhǔn)則,再根據(jù)判別函數(shù)判別新樣本所屬類別。判別分析要求預(yù)測(cè)變量之間相互獨(dú)立、無(wú)多重共線性[17]。判別分析常被用于將食品按不同品質(zhì)進(jìn)行分類[18]。將實(shí)驗(yàn)肉樣本按注水比例分為五個(gè)類別,第1類別是正常肉,第2~5個(gè)類別分別是注水比例為2%、6%、10%和14%注水肉。從16個(gè)橫向弛豫譜參數(shù)中選擇預(yù)測(cè)變量,對(duì)橫向弛豫譜參數(shù)數(shù)據(jù)進(jìn)行訓(xùn)練,建立對(duì)注水肉進(jìn)行分類的DA模型。
1.2.4 偏最小二乘回歸 PLSR是一種用線性多變量模型將解釋變量和響應(yīng)變量?jī)蓚€(gè)數(shù)據(jù)矩陣聯(lián)系起來(lái)的多元統(tǒng)計(jì)方法,能夠在解釋變量存在多重共線性的條件下進(jìn)行回歸建模,并適用于樣本量較少的情況[19]。PLSR模型的擬合度和預(yù)測(cè)精度可以用決定系數(shù)和標(biāo)準(zhǔn)誤差來(lái)評(píng)估[20?21]。將實(shí)驗(yàn)樣本分為校準(zhǔn)集和預(yù)測(cè)集,根據(jù)校準(zhǔn)集建立的校準(zhǔn)模型對(duì)響應(yīng)變量進(jìn)行預(yù)測(cè),預(yù)測(cè)值與測(cè)量值的相關(guān)程度由決定系數(shù)決定。決定系數(shù)定義為:
預(yù)測(cè)精度由標(biāo)準(zhǔn)誤差決定,標(biāo)準(zhǔn)誤差定義為:
上兩式中:n為校準(zhǔn)集樣本的個(gè)數(shù);PRESS為殘差平方和;yi為第i個(gè)樣本的測(cè)量值;為第i個(gè)樣本的預(yù)測(cè)值;為響應(yīng)變量的平均值。用預(yù)測(cè)集對(duì)校準(zhǔn)模型作外部數(shù)據(jù)驗(yàn)證時(shí),預(yù)測(cè)的精度由預(yù)測(cè)標(biāo)準(zhǔn)誤差決定,定義預(yù)測(cè)標(biāo)準(zhǔn)誤差為
采用MesoMR23-060H-I型核磁共振成像分析儀提供的核磁共振分析軟件Ver4.0對(duì)核磁共振測(cè)量數(shù)據(jù)進(jìn)行多組分反演,得到每個(gè)肉樣本的橫向弛豫譜及相對(duì)應(yīng)的16個(gè)橫向弛豫譜參數(shù)值。反演參數(shù)選擇如下:參與反演的信號(hào)點(diǎn)數(shù)為2000,抽樣方式為隨機(jī)抽樣,濾波檔位為3,弛豫時(shí)間最小值0.01 ms,弛豫時(shí)間最大值為10000 ms,弛豫時(shí)間點(diǎn)數(shù)為200,反演方法為SIRT,迭代次數(shù)為10000。完成反演運(yùn)算后計(jì)算出每組樣本的16個(gè)橫向弛豫譜參數(shù)的平均值,作為該組樣本的橫向弛豫譜參數(shù)值。共得到85組橫向弛豫譜參數(shù)數(shù)據(jù)。
采用IBM SPSS Statistics 24 (International Business Machines Corp., Armonk, New York, U.S.)
軟件進(jìn)行判別分析建模和相關(guān)數(shù)據(jù)分析,并對(duì)DA模型進(jìn)行回代驗(yàn)證和留一交叉驗(yàn)證。
采用MATLAB R2014a(The MathWorks, Inc.,Natick, Massachusetts, United States)軟件編程實(shí)現(xiàn)PLSR建模、模型驗(yàn)證及相關(guān)數(shù)據(jù)處理。
圖1是取自同一頭豬的具有不同注水比例的5個(gè)肉樣本的橫向弛豫譜圖。實(shí)驗(yàn)中絕大多數(shù)肉樣本的橫向弛豫譜由三個(gè)峰組成,少數(shù)肉樣本多于三個(gè)峰。這與許多學(xué)者的研究結(jié)果一致[22?23]。在肉中存在三種不同狀態(tài)的水,分別是結(jié)合水、不易流動(dòng)水和自由水,對(duì)應(yīng)于橫向弛豫譜的三個(gè)峰[24]。在16個(gè)橫向弛豫譜參數(shù)中,總峰面積用S表示,反映肉樣本中水分的總含量。三個(gè)峰的面積分別用S21、S22、S23表示,反映肉樣本中結(jié)合水、不易流動(dòng)水和自由水的含量。結(jié)合水、不易流動(dòng)水和自由水峰面積占總峰面積的比例分別用P21、P22、P23表示。三種狀態(tài)的水具有不同的橫向弛豫時(shí)間,T21、T22和T23分別表示結(jié)合水、不易流動(dòng)水和自由水的橫向弛豫時(shí)間,它們?cè)谝欢ǚ秶鷥?nèi)變化。三個(gè)峰在起始點(diǎn)、頂點(diǎn)和結(jié)束點(diǎn)的橫向弛豫時(shí)間分別用下標(biāo)b、m及e區(qū)分。
圖1 5種不同注水比例的肉樣本的橫向弛豫譜Fig.1 Transverse relaxation spectroscopy of five kinds of meat samples with different percentage of injected water
正常肉樣本和不同注水比例的肉樣本的橫向弛豫譜存在差異,如圖1所示。肉中三種不同狀態(tài)的水表現(xiàn)出的差異程度不同,其中自由水表現(xiàn)出的差異最明顯。
2.2.1 選擇預(yù)測(cè)變量 橫向弛豫譜參數(shù)中不同參數(shù)區(qū)分注水比例的能力不同,表1是類別平均值等同性檢驗(yàn)的結(jié)果。Wilks’Lambda值在0~1之間,數(shù)值越小類別之間的差異越大,區(qū)分能力越強(qiáng)。S、S23、P23、P22、T23e是區(qū)分注水比例能力較強(qiáng)的參數(shù),可以選擇它們作為建立DA模型的預(yù)測(cè)變量。但考慮到判別分析要求預(yù)測(cè)變量無(wú)多重共線性,而交叉散點(diǎn)圖表明S23、P23、P22之間有很強(qiáng)的線性相關(guān)性,只能取其中的一個(gè)作為預(yù)測(cè)變量。綜合考慮后,最終選擇S、P23、及T23e作為建立DA模型的預(yù)測(cè)變量。
2.2.2 建立DA模型 遵循Bayes準(zhǔn)則進(jìn)行判別分析,根據(jù)分類函數(shù)系數(shù)表,建立五個(gè)Bayes函數(shù)式:
表1 類別平均值等同性檢驗(yàn)結(jié)果Table 1 Tests of equality of class means
將每個(gè)肉樣本的測(cè)量值S、P23、T23e分別代入到5個(gè)判別函數(shù)式中,算出得分值,該肉樣本被歸入到得分值最大的類別中,實(shí)現(xiàn)對(duì)肉樣本的判別歸類。
2.2.3 DA模型的驗(yàn)證 用回代驗(yàn)證和留一交叉驗(yàn)證對(duì)DA模型的判別效果和穩(wěn)定性進(jìn)行檢驗(yàn)。表2給出了用兩種驗(yàn)證方法分別進(jìn)行驗(yàn)正的結(jié)果。從表2可以看出,回代驗(yàn)證發(fā)生了9個(gè)錯(cuò)判,總判別正確率為89.4%。其中5個(gè)錯(cuò)判發(fā)生在正常肉與2%的注水肉之間,4個(gè)錯(cuò)判發(fā)生在10%的注水肉與14%的注水肉之間。留一交叉驗(yàn)證發(fā)生了10個(gè)錯(cuò)判,總判別正確率為88.2%。錯(cuò)判發(fā)生的情況與回代驗(yàn)證類似?;卮?yàn)證和留一交叉驗(yàn)證的正確率較高且非常接近,說(shuō)明建立的模型是有效和穩(wěn)定的。錯(cuò)判全部發(fā)生在相鄰的類別之間,有必要通過(guò)定量分析找到判別的誤差范圍。
表2 回代驗(yàn)證與交叉驗(yàn)證的結(jié)果Table 2 Results of two verification methods
2.3.1 基于全部實(shí)驗(yàn)數(shù)據(jù)建立的PLSR模型 將85組橫向弛豫譜參數(shù)數(shù)據(jù)全部作為校準(zhǔn)集。在16個(gè)橫向弛豫譜參數(shù)中提取10個(gè)成分,圖2顯示對(duì)注水比例的解釋方差的百分比與提取的成分?jǐn)?shù)之間的關(guān)系曲線。前三個(gè)成分可以累計(jì)解釋注水比例方差的93.7%。當(dāng)提取成分?jǐn)?shù)量為4個(gè)甚至更多時(shí),對(duì)注水比例解釋的累計(jì)方差幾乎不變。圖3顯示了交叉驗(yàn)證的標(biāo)準(zhǔn)誤差(SECV)與成分?jǐn)?shù)的關(guān)系,提取3個(gè)成分時(shí)得到較小的SECV,再增加成分?jǐn)?shù)SECV幾乎不變。因此,提取三個(gè)成分就可以解釋注水比例的絕大部分方差,并得到最小的交叉驗(yàn)證標(biāo)準(zhǔn)誤差。
圖2 對(duì)注水比例解釋方差的百分比與提取的成分?jǐn)?shù)之間的關(guān)系Fig.2 The relationship between the percentage of explained variance and number of extracted components
圖3 交叉驗(yàn)證的標(biāo)準(zhǔn)誤差與成分?jǐn)?shù)之間的關(guān)系Fig.3 The relationship between SECV and the number of components
在橫向弛豫譜參數(shù)中提取3個(gè)成分,利用偏最小二乘回歸建立注水比例與橫向弛豫譜參數(shù)之間相互關(guān)系的PLSR模型。通過(guò)校準(zhǔn)集數(shù)據(jù)的驗(yàn)證與留一交叉驗(yàn)證,對(duì)所建立的PLSR模型的性能進(jìn)行評(píng)估[25]。直接將校準(zhǔn)集的橫向弛豫譜參數(shù)的測(cè)量值輸入PLSR模型,輸出相對(duì)應(yīng)的注水百分比的預(yù)測(cè)值,利用式(1)和式(2)計(jì)算出校準(zhǔn)集決定系數(shù)Rc2=0.9371,校準(zhǔn)標(biāo)準(zhǔn)誤差SEC=1.2922%。將校準(zhǔn)集中的第i個(gè)樣本取出,用剩余的(n?1)個(gè)樣本重新建立模型,代入樣本i的橫向弛豫譜參數(shù)的測(cè)量值,得到樣本i的注水百分比的預(yù)測(cè)值。對(duì)每個(gè)樣本重復(fù)上述計(jì)算。再根據(jù)式(1)和式(2)計(jì)算出留一交叉驗(yàn)證的決定系數(shù)Rcv2=0.9226,交叉驗(yàn)證的標(biāo)準(zhǔn)誤差SECV=1.4333%。PLSR模型對(duì)校準(zhǔn)集的預(yù)測(cè)結(jié)果如圖4所示。該P(yáng)LSR模型的Rc2、Rcv2均大于0.9,說(shuō)明模型在校準(zhǔn)集中對(duì)注水百分比解釋方差的比率較高。SEC、SECV較小,表明該模型在校準(zhǔn)集中具有較好的預(yù)測(cè)注水比例的能力。通過(guò)校準(zhǔn)集數(shù)據(jù)驗(yàn)證與留一交叉驗(yàn)證的結(jié)果非常接近,所建模型沒(méi)有過(guò)度擬合,具有較好的穩(wěn)定性。
圖4 PLSR模型的校準(zhǔn)集樣本注水比例的預(yù)測(cè)值與測(cè)量值之間的相關(guān)關(guān)系Fig.4 The correlation between the predicted value and the measured value of water injection percentage in the calibration set using PLSR model
2.3.2 基于部分實(shí)驗(yàn)數(shù)據(jù)建立的PLSR模型 為了評(píng)價(jià)模型的適應(yīng)性,即評(píng)價(jià)模型對(duì)未來(lái)新數(shù)據(jù)進(jìn)行預(yù)測(cè)的能力,需要用外部數(shù)據(jù)對(duì)模型進(jìn)行驗(yàn)證。將總實(shí)驗(yàn)樣本分為兩部分,其中50條數(shù)據(jù)構(gòu)成校準(zhǔn)集,剩余的35條數(shù)據(jù)構(gòu)成預(yù)測(cè)集。用校準(zhǔn)集作為訓(xùn)練樣本建立PLSR模型,預(yù)測(cè)集作為外部數(shù)據(jù)對(duì)PLSR校準(zhǔn)模型進(jìn)行驗(yàn)證。
首先對(duì)PLSR校準(zhǔn)模型進(jìn)行校準(zhǔn)集數(shù)據(jù)驗(yàn)證和留一交叉驗(yàn)證,計(jì)算出校準(zhǔn)集決定系數(shù)、校準(zhǔn)標(biāo)準(zhǔn)誤差、交叉驗(yàn)證的決定系數(shù)以及交叉驗(yàn)證的標(biāo)準(zhǔn)誤差分 別 為:Rc2=0.9353,SEC=1.3162%,Rcv2=0.9086,SECV=1.5646%。再對(duì)PLSR校準(zhǔn)模型進(jìn)行外部驗(yàn)證。將預(yù)測(cè)集的橫向弛豫譜參數(shù)的測(cè)量值輸入PLSR校準(zhǔn)模型中,輸出測(cè)試集樣品的注水百分比的預(yù)測(cè)值,根據(jù)式(1)計(jì)算預(yù)測(cè)集決定系數(shù)為Rp2=0.9240。再根據(jù)式(3)計(jì)算預(yù)測(cè)標(biāo)準(zhǔn)誤差為,SEP=1.4718%。PLSR模型對(duì)校準(zhǔn)集和預(yù)測(cè)集的預(yù)測(cè)結(jié)果如圖5所示。決定系數(shù)Rc2、Rcv2、Rp2接近,均大于0.9,標(biāo)準(zhǔn)誤差SEC、SEP、SECV較小且接近。基于部分實(shí)驗(yàn)樣本建立的PLSR模型也具有較好的擬合度、穩(wěn)定性及預(yù)測(cè)精度。將基于較少樣本數(shù)建立的PLSR模型與基于較多樣本數(shù)建立的PLSR模型的統(tǒng)計(jì)參數(shù)進(jìn)行比較,發(fā)現(xiàn)基于更多樣本建立的模型,其性能優(yōu)于基于較少樣本建立的模型。SEP較小,說(shuō)明PLSR校準(zhǔn)模型具有較好的適應(yīng)性和預(yù)測(cè)精度,能夠比較精確地對(duì)未用于建模的樣本進(jìn)行預(yù)測(cè)。在95%的置信概率下,PLSR模型對(duì)預(yù)測(cè)集樣本預(yù)測(cè)注水比例的置信區(qū)間約為2×SEP=2.9436%[26]。
圖5 PLSR模型對(duì)校準(zhǔn)集和預(yù)測(cè)集注水百分比進(jìn)行預(yù)測(cè)的值與實(shí)測(cè)值的關(guān)系Fig.5 The relationship between the predicted value and the measured value of water injection percentage of calibration set and prediction set using PLSR model
2.3.3 優(yōu)化PLSR模型 在用統(tǒng)計(jì)方法建立模型之前,先對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理,排除異常值,可提高所建模型的預(yù)測(cè)精度。對(duì)異常數(shù)據(jù)的檢測(cè)可采用將杠桿值和學(xué)生化殘差相結(jié)合的方式進(jìn)行。根據(jù)因變量的學(xué)生化殘差圖可以識(shí)別出因變量的離群點(diǎn)。但是,只有那些對(duì)所建模型有強(qiáng)影響力的離群點(diǎn)才能被排除。學(xué)生化殘差超過(guò)+2,低于-2的因變量可認(rèn)為是離群點(diǎn)[27?29]。
圖6 預(yù)測(cè)注水百分比的學(xué)生化殘差的散點(diǎn)圖Fig.6 Scatter diagram of student residual of predicted percentage of injected water
對(duì)基于全部實(shí)驗(yàn)數(shù)據(jù)建立的PLSR模型,圖6表示85組數(shù)據(jù)所對(duì)應(yīng)的注水百分比的學(xué)生化殘差的散點(diǎn)圖。標(biāo)號(hào)為35、60及20的三組實(shí)驗(yàn)數(shù)據(jù)預(yù)測(cè)的注水百分比的學(xué)生化殘差超出了± 2的范圍,對(duì)應(yīng)的學(xué)生化殘差分別為3.724、2.732和-2.155,可判為離群點(diǎn)。為避免過(guò)分修剪離群值的數(shù)據(jù)集,計(jì)算出這三個(gè)離群點(diǎn)的中心化杠桿值分別為0.1651、0.08888和0.05529,它們是中心化杠桿值的平均值的14.0、7.6及4.7倍,均對(duì)回歸模型產(chǎn)生強(qiáng)影響。在建立模型時(shí)應(yīng)該將這三組數(shù)據(jù)從數(shù)據(jù)集中刪除。被剔除的三組異常數(shù)據(jù)均為14%的注水肉樣本,說(shuō)明在實(shí)驗(yàn)過(guò)程中可能存在制備14%的注水肉樣本時(shí),由于注水百分比較大,發(fā)生了少量注入水從肉樣本中滲出的現(xiàn)象,導(dǎo)致DA模型在判別10%和14%肉樣本時(shí)出現(xiàn)錯(cuò)判。
將16個(gè)橫向弛豫譜參數(shù)全部作為自變量進(jìn)行PLSR建模時(shí),提取三個(gè)成分能夠累積解釋93.71%的因變量的變異信息,但只能累積解釋67.4%的自變量集合中的變異信息。增加成分?jǐn)?shù)量對(duì)自變量的解釋百分比增大,但是,對(duì)因變量的解釋能力幾乎不再提高。作為自變量的橫向弛豫譜參數(shù)中含有一些難以概括的信息,這些信息對(duì)預(yù)測(cè)注水百分比作用很小。應(yīng)該對(duì)橫向弛豫譜參數(shù)進(jìn)行篩選,選出合適的橫向弛豫譜參數(shù)作為建立模型的自變量。
篩選的原則是既要盡可能不遺漏能對(duì)因變量進(jìn)行重要解釋的自變量,又要遵循使自變量的個(gè)數(shù)盡可能少的原則。在PLSR建模過(guò)程中,變量投影重要性分析法是常用的對(duì)自變量進(jìn)行篩選的方法,自變量對(duì)因變量的解釋能力可以用變量投影重要性指標(biāo)(VIP)來(lái)衡量。自變量對(duì)因變量的解釋是通過(guò)成分來(lái)傳遞的,如果成分對(duì)因變量的解釋能力很強(qiáng),而自變量在構(gòu)造成分時(shí)又起到了重要作用,則自變量對(duì)因變量的解釋能力就強(qiáng)。構(gòu)成某個(gè)成分的自變量的VIP值很大(VIP>1)時(shí),它對(duì)因變量的解釋能力強(qiáng)。自變量的VIP值很小,則意味著它在解釋因變量時(shí)起的作用很小,可以直接刪除[30]。
圖7表示用16個(gè)橫向弛豫譜參數(shù)作為自變量并從中提取三個(gè)成分進(jìn)行PLSR建模時(shí)各自變量的VIP值。其中6個(gè)參數(shù)(S, S23, P23, P22, S22, T22e)的VIP值在三個(gè)成分中都超過(guò)1,它們對(duì)注水百分比的解釋能力最強(qiáng)。10個(gè)參數(shù)(P21, T21e, T23e, T22m,T21m)及(S21, T22b, T23m, T23b, T21b)的VIP值在三個(gè)成分中均小于1,表示它們?cè)诮忉屪⑺俜直葧r(shí)所起的作用較小,可以直接刪除。
圖7 三個(gè)成分(1、2和3)中的16個(gè)橫向弛豫譜參數(shù)的VIP值的條形圖Fig.7 Bar diagram of the VIP values of the 16 transverse relaxation spectrum parameters corresponding to the three components (1, 2, and 3)
剔除三組異常數(shù)據(jù)后,校準(zhǔn)集由48組數(shù)據(jù)構(gòu)成,預(yù)測(cè)集由34組數(shù)據(jù)構(gòu)成。以6個(gè)橫向弛豫譜參數(shù)(S, S23, P23, P22, S22, T22e)作為自變量建立優(yōu)化的PLSR模型。
圖8表示優(yōu)化PLSR模型對(duì)校準(zhǔn)集和預(yù)測(cè)集的預(yù)測(cè)結(jié)果。對(duì)決定系數(shù)與標(biāo)準(zhǔn)誤差計(jì)算的結(jié)果是Rc2=0.9603,SEC=1.0033%,Rcv2=0.9508,SECV=1.1169%、Rp2=0.9518,SEP=1.1280%。優(yōu)化PLSR模型的Rc2、Rcv2及Rp2均大于0.95,高于未優(yōu)化的PLSR模型。表示模型經(jīng)過(guò)優(yōu)化后,注水百分比解釋方差的比率增大,擬合性變得更好。優(yōu)化的PLSR模型的SEC、SECV以及SEP的值更小,模型的預(yù)測(cè)精度和穩(wěn)定性提高。相比末優(yōu)化的PLSR模型,對(duì)預(yù)測(cè)集樣本的預(yù)測(cè)精度提高了23.4%。在95%的置信概率下,優(yōu)化后的PLSR模型對(duì)預(yù)測(cè)集樣本預(yù)測(cè)注水比例的置信區(qū)間約為2×SEP=2.2560%,優(yōu)化模型的性能顯著提高。該模型不能準(zhǔn)確檢測(cè)小于2.256%的注水百分比,這也可以解釋DA模型的一部分錯(cuò)判發(fā)生在正常肉和2%的注水肉之間。
圖8 優(yōu)化的PLSR模型對(duì)校準(zhǔn)集和預(yù)測(cè)集的注水百分比預(yù)測(cè)的值與實(shí)測(cè)值的關(guān)系Fig.8 The relationship between the predicted value and the measured value of water injection percentage of calibration set and prediction set using the optimized PLSR model
采用LF-NMR技術(shù)結(jié)合判別分析建立注水肉的定性檢測(cè)模型,通過(guò)選擇3個(gè)區(qū)分注水比例能力強(qiáng)且線性相關(guān)性較弱的橫向弛豫譜參數(shù)S、P23、T23e作為預(yù)測(cè)變量,建立的DA模型是穩(wěn)定有效的,回代驗(yàn)證和留一交叉驗(yàn)證的總判別正確率分別為89.4%和88.2%。采用LF-NMR技術(shù)結(jié)合偏最小二乘回歸基于全部實(shí)驗(yàn)數(shù)據(jù)、部分實(shí)驗(yàn)數(shù)據(jù)和經(jīng)過(guò)預(yù)處理后的實(shí)驗(yàn)數(shù)據(jù)分別建立注水肉的定量檢測(cè)模型,3種PLSR模型均具有較好的擬合性和穩(wěn)定性。選擇16個(gè)橫向弛豫譜參數(shù)作為自變量進(jìn)行PLSR建模,基于更多實(shí)驗(yàn)樣本建立的PLSR模型在性能上表現(xiàn)更優(yōu)。通過(guò)判別和刪除3個(gè)異常數(shù)據(jù),篩選出6個(gè)橫向弛豫譜參數(shù)作為自變量建立的優(yōu)化PLSR模型,其決定系數(shù)Rc2、Rcv2及Rp2均大于0.95,標(biāo)準(zhǔn)誤差SEV、SECV及SEP≤1.1280%,在95%的置信概率下,對(duì)檢測(cè)未知樣品中注水百分比的置信區(qū)間的最好估計(jì)值約為2.256%。優(yōu)化PLSR模型的性能得到了顯著改善,預(yù)測(cè)精度更高,能夠?qū)^低注水百分比的注水肉進(jìn)行快速、無(wú)損及有效的定量檢測(cè)。