張 旭,白雪冰,汪學(xué)沛,李新武,李志剛,張小栓,4*
1.中國(guó)農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,北京 100083 2.中國(guó)農(nóng)業(yè)大學(xué)工學(xué)院,北京 100083 3.石河子大學(xué)信息科學(xué)與技術(shù)學(xué)院,新疆 石河子 832003 4.食品質(zhì)量與安全北京實(shí)驗(yàn)室,北京 100083
中國(guó)的羊肉產(chǎn)量及羊肉消費(fèi)量均居世界首位。保證儲(chǔ)存期內(nèi)羊肉的新鮮度和防范質(zhì)量安全問(wèn)題愈發(fā)緊要。在羊肉的貯藏過(guò)程中,在微生物和內(nèi)外源酶的作用下,羊肉中的脂肪和蛋白質(zhì)分解產(chǎn)生有毒的氨(NH3)和胺類(R-NH2)[1],并與腐敗產(chǎn)生的有機(jī)酸結(jié)合生成揮發(fā)性鹽基氮(total volatile basic nitrogen,TVB-N),因此TVB-N濃度是評(píng)估羊肉質(zhì)量安全的關(guān)鍵參數(shù)。
食品安全國(guó)家標(biāo)準(zhǔn)中規(guī)定的TVB-N濃度的檢測(cè)方法包括自動(dòng)凱氏定氮儀法、半微量定氮法、微量擴(kuò)散法。這些化學(xué)檢測(cè)方法需要破壞樣品,操作過(guò)程復(fù)雜,耗時(shí)費(fèi)力,且結(jié)果易受操作水平影響,不能滿足快速、非破壞的質(zhì)量安全檢測(cè)要求。
近紅外光譜(near infrared spectroscopy,NIR)檢測(cè)技術(shù)具有分析快速、操作簡(jiǎn)便、無(wú)破壞性等特點(diǎn),在肉品質(zhì)檢測(cè)領(lǐng)域已有大量研究。被應(yīng)用于新鮮度分級(jí)[2]、摻假識(shí)別[3]、等級(jí)劃分[4]、鮮凍肉鑒別等定性分析,以及化學(xué)組成(包括膽固醇[5]、脂肪[6]、水分[7])分析、感官品質(zhì)(包括肉色[8]、系水力、嫩度[8])評(píng)價(jià)等定量分析。
原始近紅外光譜數(shù)據(jù)中雖然包含與特定成分相關(guān)的有效信息,但也受到噪聲及散射等因素的干擾,這些干擾會(huì)降低光譜模型的預(yù)測(cè)性能。因此,應(yīng)用適當(dāng)?shù)墓庾V預(yù)處理方法(散射校正、平滑處理、尺度縮放)和變量篩選方法可有效消除與被測(cè)指標(biāo)無(wú)關(guān)的噪聲、散射等干擾,提高光譜與被測(cè)指標(biāo)間的相關(guān)性。將競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)法(competitive adaptive reweighted sampling,CARS)[9]、無(wú)信息變量消除法(uninformative variable elimination,UVE)[9]和連續(xù)投影算法(successive projections algorithm,SPA)等方法應(yīng)用于簡(jiǎn)化和優(yōu)化近紅外光譜預(yù)測(cè)模型已有報(bào)道。
在回歸預(yù)測(cè)分析中,偏最小二乘(partial least squares,PLS)是被廣泛應(yīng)用的線性回歸方法,當(dāng)被測(cè)指標(biāo)與光譜數(shù)據(jù)間存在非線性關(guān)系時(shí),采用線性的回歸方法無(wú)法實(shí)現(xiàn)光譜信息的充分提取,影響模型準(zhǔn)確性。為解決光譜數(shù)據(jù)的非線性問(wèn)題,非線性算法包括支持向量機(jī)(support vector machine,SVM)和偏最小二乘支持向量機(jī)(least squares-support vector machine,LS-SVM)已被用于近紅外光譜預(yù)測(cè)模型的構(gòu)建。為此,探討近紅外光譜的線性及非線性預(yù)測(cè)模型對(duì)穩(wěn)定可靠的定量分析非常必要。
本研究以反映生鮮羊肉質(zhì)量安全的TVB-N濃度為預(yù)測(cè)對(duì)象,采集樣品680~2 600 nm的近紅外光譜數(shù)據(jù),經(jīng)2種方法剔除離散程度大的異常樣本后,對(duì)比多種預(yù)處理方法對(duì)預(yù)測(cè)模型性能的影響,以不同變量篩選方法優(yōu)選特征波長(zhǎng),探討線性及非線性建模方法的預(yù)測(cè)性能,建立優(yōu)化的生鮮羊肉儲(chǔ)存期TVB-N預(yù)測(cè)模型,為實(shí)現(xiàn)快速無(wú)損檢測(cè)生鮮羊肉中的TVB-N濃度提供參考和技術(shù)支持。
在江蘇省東臺(tái)市華東山羊市場(chǎng)購(gòu)買當(dāng)天屠宰的綿羊,取背最長(zhǎng)肌,切除其脂肪和肌膜,整形切成3 cm×3 cm×1 cm(長(zhǎng)×寬×高)的塊狀150個(gè),置入無(wú)菌袋并以4 ℃冷鏈運(yùn)輸車在24 h內(nèi)運(yùn)抵中國(guó)農(nóng)業(yè)大學(xué)工學(xué)院實(shí)驗(yàn)室,將樣品置于生化培養(yǎng)箱(LRH-250,上海一恒儀器公司)中,分組后在0,4,8和20 ℃溫度下儲(chǔ)藏。低溫試驗(yàn)時(shí)每隔24 h各取出3個(gè)樣品進(jìn)行測(cè)試,20 ℃下每隔12 h取2塊樣本進(jìn)行測(cè)試,共測(cè)試11 d,共獲得121份樣本。
采用SpectraStar 2600 XT-R型近紅外光譜儀(美國(guó)Unity Scientific公司)采集羊肉樣本光譜,掃描次數(shù)為12次,掃描范圍為680~2 600 nm,分辨率為1 nm。
根據(jù)GB 5009.228—2016《食品安全國(guó)家標(biāo)準(zhǔn)食品中揮發(fā)性鹽基氮的測(cè)定》中的微量擴(kuò)散法測(cè)定樣品的TVB-N濃度。
通過(guò)MATLAB R2018b軟件(美國(guó)Mathworks公司)完成數(shù)據(jù)處理和模型構(gòu)建。
1.4.1 異常值剔除方法
利用蒙特卡洛采樣(Monte-Carlo sampling,MCS)法消除異常樣本。異常剔除閾值設(shè)置為式(1)和式(2)所示,超過(guò)閾值之一的即為異常樣本。
Mthreshold=μM+3σM
(1)
Sthreshold=μS+3σS
(2)
其中,Mthreshold為各樣本預(yù)測(cè)誤差均值的閾值,μM和σM為各樣本預(yù)測(cè)誤差均值的均值和標(biāo)準(zhǔn)差;Sthreshold為各樣本預(yù)測(cè)誤差標(biāo)準(zhǔn)差的閾值,μS和σS為各樣本預(yù)測(cè)誤差標(biāo)準(zhǔn)差的均值和標(biāo)準(zhǔn)差。
同時(shí)利用馬氏距離法(Mahalanobis distance,MD)剔除MD過(guò)大的樣本,閾值設(shè)置為
MDthreshold=μ+3δ
(3)
式(3)中,MDthreshold為各樣本MD的閾值,μ和δ為各樣本MD的均值和標(biāo)準(zhǔn)差。
1.4.2 樣本集劃分方法
剔除異常樣本之后,運(yùn)用光譜-理化值共生距離(sample set partitioning based on joint x-y distance,SPXY)算法劃分出75%的樣本為校正集,其余為驗(yàn)證集樣本。
1.4.3 光譜預(yù)處理方法
根據(jù)處理效果預(yù)處理方法可分為散射校正、平滑處理、尺度縮放等。散射校正包括多元散射校正(multiple scattering correction,MSC)和標(biāo)準(zhǔn)正態(tài)變換(standard normal variate,SNV),用于消除樣品顆粒尺寸差異和分布差異對(duì)漫反射光的影響。平滑處理可有效提高信噪比,常用的有Savitzky-Golay卷積平滑(S-G smoothing,SGS)、移動(dòng)平均平滑(moving average smoothing,MAS)等方法。尺度縮放包括歸一化(Normalization)、中心化(Centering)、標(biāo)準(zhǔn)化(Autoscaling)等,用來(lái)消除數(shù)據(jù)尺度差異的影響。分別采用這7種方法對(duì)樣本進(jìn)行光譜預(yù)處理,以找到最佳預(yù)處理方法。
1.4.4 特征波長(zhǎng)篩選方法
所采集羊肉光譜共1 921個(gè)波長(zhǎng),存在冗余和多重共線性信息,篩選特征波長(zhǎng)取代全光譜可提高模型簡(jiǎn)潔性和計(jì)算效率。
CARS選擇波數(shù)的方法是基于回歸系數(shù)的權(quán)重,權(quán)重值越大則代表該變量對(duì)模型建立的貢獻(xiàn)越大,被選取的概率越大。
UVE以輸入變量及等量的隨機(jī)噪聲建立PLS模型得到回歸系數(shù)矩陣,計(jì)算各變量的穩(wěn)定性并篩選穩(wěn)定性大的變量,閾值設(shè)為隨機(jī)變量穩(wěn)定性最大絕對(duì)值的0.99倍。UVE選出的波長(zhǎng)呈局部連續(xù)分布,波段之間仍存在嚴(yán)重的多重共線性問(wèn)題,嶺回歸(ridge regression,RR)法是解決此類問(wèn)題的有效方法,但是鮮有研究將嶺回歸用于光譜檢測(cè)中的特征波長(zhǎng)篩選,由此在UVE法的基礎(chǔ)上引入嶺回歸法得到改進(jìn)的無(wú)信息變量消除(improved uninformative variable elimination,IUVE)法,以進(jìn)一步簡(jiǎn)化模型和提高預(yù)測(cè)精度。
SPA以正交投影分析全部波長(zhǎng)變量,并保留對(duì)TVB-N敏感的特征變量,使變量之間共線性達(dá)到最小,降低模型輸入量。
1.4.5 預(yù)測(cè)建模方法
PLS在主成分分析的基礎(chǔ)上,對(duì)光譜和理化值同時(shí)進(jìn)行分解,保留對(duì)光譜貢獻(xiàn)大的主成分,進(jìn)而構(gòu)建誤差最小化的最佳線性回歸模型。
SVM模型利用核函數(shù)將低維輸入映射到高維特征空間,并在高維特征空間進(jìn)行線性回歸,適于處理小樣本、非線性以及高維數(shù)等問(wèn)題。LS-SVM是SVM的改進(jìn)方法,進(jìn)一步降低計(jì)算復(fù)雜性和提高計(jì)算速度。設(shè)定徑向基函數(shù)(radial basis function,RBF)為SVM模型及LS-SVM模型的核函數(shù),以具備交互驗(yàn)證的網(wǎng)格搜索(grid-search)法對(duì)SVM模型的關(guān)鍵參數(shù)(C,γ),以及LS-SVM模型的關(guān)鍵參數(shù)(γ,σ2)進(jìn)行尋優(yōu)。
圖1為121個(gè)羊肉樣本的原始近紅外漫反射吸光度光譜。由于水分子中O—H鍵伸縮振動(dòng)的二級(jí)倍頻和一級(jí)倍頻吸收,在980,1 440和1 940 nm附近呈現(xiàn)出吸收峰,在1 200和2 400 nm附近則是與C—H鍵拉伸和伸縮振動(dòng)相關(guān)的波峰[8]。樣本的光譜曲線趨勢(shì)相似,但不同波段的上升和下降的趨勢(shì)不同,說(shuō)明其內(nèi)部化學(xué)成分存在差異。
圖1 羊肉樣本近紅外光譜圖
采用MCS法識(shí)別異常樣本,主成分個(gè)數(shù)設(shè)置為11,預(yù)處理方法為Centering,抽樣次數(shù)1000次。異常樣本檢測(cè)結(jié)果見(jiàn)圖2,得到閾值Mthreshold為6.4,Sthreshold為2.198,第47,89,94,103和121個(gè)樣本被判定為異常樣本。
圖2 蒙特卡洛采樣法異常值檢測(cè)結(jié)果
圖3是121個(gè)光譜樣本到平均光譜的MD分布圖,由MD的均值和標(biāo)準(zhǔn)偏差得到閾值為5.596,超出此閾值的異常樣本為47號(hào),89號(hào),94號(hào),103號(hào),與MCS法的檢測(cè)結(jié)果重合度較高。
圖3 羊肉樣本的馬氏距離分布
將剔除異常值后的116個(gè)樣本,采用SPXY算法劃分校正集和驗(yàn)證集樣本。羊肉TVB-N濃度的統(tǒng)計(jì)分析結(jié)果如表1所示。
表1 羊肉樣品TVB-N濃度的統(tǒng)計(jì)結(jié)果
分別使用原始光譜及經(jīng)過(guò)7種方法預(yù)處理的光譜建立全波段的PLS預(yù)測(cè)模型,建模結(jié)果見(jiàn)表2。與原始光譜所建立的PLS模型相比,由SNV,MSC,Autoscaling處理的光譜數(shù)據(jù)建立的模型性能均下降,經(jīng)Normalization,Centering,MAS處理的光譜數(shù)據(jù)所建立模型的性能沒(méi)有明顯改善,而以SGS預(yù)處理的數(shù)據(jù)建模效果最好,確定SGS為最優(yōu)預(yù)處理方法。
表2 不同預(yù)處理方式的PLS預(yù)測(cè)模型比較
2.3.1 應(yīng)用CARS篩選特征波長(zhǎng)
采用CARS提取特征波長(zhǎng),設(shè)置蒙特卡洛采樣次數(shù)為50,采用7折交叉驗(yàn)證計(jì)算。隨著采樣次數(shù)增加,圖4(a)曲線呈指數(shù)衰減,在運(yùn)行次數(shù)1~5次,變量選擇個(gè)數(shù)曲線快速下降,對(duì)應(yīng)粗選過(guò)程,之后進(jìn)入緩慢遞減的細(xì)選過(guò)程。圖4(b)為交互驗(yàn)證均方根誤差的變化趨勢(shì)圖,在運(yùn)行次數(shù)1~36,交互驗(yàn)證均方根誤差緩慢波動(dòng)降低,隨后逐漸升高。從圖4(c)回歸系數(shù)曲線中的“*”標(biāo)出了交互驗(yàn)證誤差的最低點(diǎn),在采樣次數(shù)為36次時(shí),達(dá)到最小值2.206。此時(shí)變量篩選個(gè)數(shù)為14個(gè),分別為720,725,823,834,925,1 162,1 230,1 278,1 441,1 473,1 867,1 981,2 484和2 554 nm。
圖4 基于CARS的變量選擇過(guò)程
2.3.2 應(yīng)用IUVE篩選特征波長(zhǎng)
運(yùn)行IUVE算法計(jì)算1 921個(gè)光譜波長(zhǎng)和等量隨機(jī)噪聲的穩(wěn)定性,閾值設(shè)為±11.76,將超過(guò)閾值的輸入變量進(jìn)行嶺回歸分析,以嶺跡法確定嶺回歸參數(shù)k值為0.2,變量篩選的原則參考文獻(xiàn)[10]。嶺回歸分析的結(jié)果如圖5所示,可以看出各回歸系數(shù)的嶺估計(jì)在k=0.2時(shí)基本穩(wěn)定,根據(jù)回歸系數(shù)隨k值的變化趨勢(shì)結(jié)合誤差選擇變量。IUVE與未改進(jìn)的UVE的波長(zhǎng)選擇結(jié)果如圖6所示,藍(lán)色的曲線為未改進(jìn)的UVE法計(jì)算出的各變量穩(wěn)定性曲線,超過(guò)閾值的波長(zhǎng)達(dá)到703個(gè),占總波長(zhǎng)的36.60%,洋紅色豎線為結(jié)合嶺回歸分析的IUVE法最終選擇出的144個(gè)有效變量,占總波長(zhǎng)的比值降至7.50%,因此改進(jìn)后的UVE可有效地消除各波長(zhǎng)變量間的共線性。
圖5 嶺回歸分析嶺跡圖
圖6 基于IUVE的特征波長(zhǎng)篩選
2.3.3 應(yīng)用SPA篩選特征波長(zhǎng)
在變量個(gè)數(shù)1~28的范圍內(nèi)優(yōu)選波長(zhǎng),SPA算法以RMSE的大小為依據(jù)確定特征波長(zhǎng)數(shù)量。隨著特征波長(zhǎng)數(shù)量的增加,RMSE的變化過(guò)程如圖7所示。當(dāng)波長(zhǎng)數(shù)量由1增加到7時(shí),RMSE迅速下降,表明此類波長(zhǎng)變量為與羊肉TVB-N相關(guān)的重要波長(zhǎng)變量。當(dāng)波長(zhǎng)數(shù)量由7個(gè)增加到15個(gè)時(shí)RMSE呈波動(dòng)式下降,此類波長(zhǎng)為有用信息變量。隨著波長(zhǎng)數(shù)量由15個(gè)繼續(xù)增加,RMSE繼續(xù)緩慢下降。因此以15個(gè)特征波長(zhǎng)作為輸入的特征變量。圖8為15個(gè)特征波長(zhǎng)在全光譜中的位置分布,分別為680,798,1 067,1 266,1 497,1 498,1 901,1 920,1 936,2 009,2 263,2 386,2 391,2 575和2 583 nm。
圖7 基于SPA的波長(zhǎng)個(gè)數(shù)選擇
圖8 基于SPA的特征波長(zhǎng)選擇
2.4.1 PLSR模型
圖9 CARS-PLS模型對(duì)羊肉TVB-N濃度的預(yù)測(cè)結(jié)果
表3 不同波長(zhǎng)提取方法的PLS預(yù)測(cè)模型比較
2.4.2 SVM模型
圖10 CARS-SVM模型對(duì)羊肉TVB-N濃度的預(yù)測(cè)結(jié)果
2.4.3 LS-SVM模型
表4 不同波長(zhǎng)提取方法的SVM預(yù)測(cè)模型比較
圖11 CARS-LS-SVM模型對(duì)羊肉TVB-N濃度的預(yù)測(cè)結(jié)果
表5 不同波長(zhǎng)提取方法的LS-SVM預(yù)測(cè)模型比較
利用近紅外光譜對(duì)羊肉TVB-N濃度進(jìn)行預(yù)測(cè),主要結(jié)論如下:
(1)以MCS法和MD法剔除了羊肉的光譜數(shù)據(jù)的5個(gè)異常值,且2種方法的檢測(cè)結(jié)果重合度和可信度較高。
(2)以原始光譜和6種不同方法預(yù)處理的光譜建立了PLS預(yù)測(cè)模型,SGS處理的光譜建模效果最好,平滑處理、尺度縮放方法的建模效果整體上好于散射校正方法。
(3)利用CARS,UVE,IUVE,SPA提取特征光譜得到的波長(zhǎng)個(gè)數(shù)分別為14,703,144,15,占全光譜1921個(gè)波長(zhǎng)的0.73%,36.60%,7.50%,0.78%。對(duì)比全光譜和各方法提取的特征波長(zhǎng)所建立的預(yù)測(cè)模型,CARS提取的波長(zhǎng)建立的模型性能最優(yōu)。對(duì)比UVE法,IUVE可消除波長(zhǎng)間的共線性和提高模型性能。
(4)對(duì)提取的特征波長(zhǎng)建立了儲(chǔ)存期生鮮羊肉TVB-N的PLS,SVM和LS-SVM預(yù)測(cè)模型,最好的校正集預(yù)測(cè)結(jié)果由SVM模型取得,最好的驗(yàn)證集預(yù)測(cè)效果由LS-SVM模型得到,這兩種方法的建模效果與模型參數(shù)和建模樣本密切相關(guān)。