彭彬倩,龐月紅,沈曉芳
(江南大學(xué) 食品學(xué)院,江蘇 無錫 214122)
奇亞籽(SalviahispanicaL.)原產(chǎn)于墨西哥南部等北美地區(qū),是美國食品和藥物管理局(FDA)認(rèn)證的安全食品。2014年我國國家衛(wèi)生和計(jì)劃生育委員會將其列為新食品原料,正式進(jìn)入我國市場。奇亞籽營養(yǎng)價值高,不僅可以直接食用,還可作為面包[1]、蛋黃醬[2]、酸奶[3]等產(chǎn)品的輔料。奇亞籽被認(rèn)為是蛋白質(zhì)和植物油的良好來源,特別是奇亞籽油富含不飽和脂肪酸,其中α-亞麻酸含量達(dá)60%以上,是n-3脂肪酸的天然來源[4],其應(yīng)用前景和經(jīng)濟(jì)效益日益受到人們的重視。
近年來,國內(nèi)對奇亞籽營養(yǎng)價值的深入研究[5-6],大大促進(jìn)了奇亞籽加工業(yè)的發(fā)展,并對奇亞籽原料快速檢測分選提出了新的要求。國標(biāo)法測定樣品各組分過程煩瑣、耗時耗力、費(fèi)用昂貴。近紅外光譜法作為一種無損檢測技術(shù),具有多指標(biāo)同時檢測、快速無損、成本低等優(yōu)點(diǎn)[7],在油脂[8]、谷物[9-11]、乳制品[12]等行業(yè)應(yīng)用廣泛,且已應(yīng)用于多種谷物水分、蛋白質(zhì)、脂肪和灰分等品質(zhì)指標(biāo)的檢測[10, 13-14],但目前還鮮見基于近紅外的奇亞籽水分等多品質(zhì)參數(shù)快速無損檢測的相關(guān)研究報道。
本研究以不同產(chǎn)地的奇亞籽為研究對象,測定奇亞籽中水分、蛋白質(zhì)、脂肪和灰分,同時采集同份樣品的近紅外漫反射光譜,為搭建品質(zhì)模型提供基礎(chǔ)數(shù)據(jù)。在近紅外光譜全波段的基礎(chǔ)上篩選最佳光譜預(yù)處理方式,通過人為逐一排除法剔除干擾波段建立偏最小二乘定量模型。本研究可為奇亞籽行業(yè)實(shí)現(xiàn)在線品控分選提供研究依據(jù)。
奇亞籽樣品,收集自墨西哥、阿根廷、澳大利亞、巴拉圭、玻利維亞、秘魯、厄瓜多爾和尼加拉瓜等國,共計(jì)103份,樣品狀態(tài)為籽粒。
Antaris II 近紅外分析儀,購自Thermo Fisher科技(中國)有限公司。光譜采集軟件為RESULT-Integration,建模軟件為TQ Analyst,均為Thermo Fisher科技(中國)有限公司開發(fā)。
1.2.1 理化指標(biāo)的測定
參照GB 5009.3—2016《食品安全國家標(biāo)準(zhǔn) 食品中水分的測定》,采用105℃直接干燥法測定奇亞籽中水分含量。參照GB 5009.6—2016《食品安全國家標(biāo)準(zhǔn) 食品中脂肪的測定》,采用索氏抽提法測定奇亞籽中脂肪含量。參照GB 5009.5—2016《食品安全國家標(biāo)準(zhǔn) 食品中蛋白質(zhì)的測定》中半自動凱氏定氮儀法測定奇亞籽中蛋白質(zhì)含量,折算系數(shù)取6.25。參照GB 5009.4—2016《食品安全國家標(biāo)準(zhǔn) 食品中灰分的測定》,采用550℃馬弗爐灼燒法測定奇亞籽中灰分含量。每個樣品測3次取平均值作為實(shí)測值。
1.2.2 光譜的采集
使用具有積分球的Antaris II近紅外分析儀(配有InGaAs檢測器)以漫反射模式采集每個樣品的光譜。每份樣品籽粒稱取25 g,置于圓形標(biāo)準(zhǔn)樣品杯(直徑5 mm,高2 mm)中,設(shè)定樣品杯全程旋轉(zhuǎn)掃描模式。整個實(shí)驗(yàn)在(25±1)℃的環(huán)境溫度和38%左右的相對濕度下進(jìn)行。所有光譜均采用背景空氣光譜作為空白對照,每個光譜是32次掃描的平均值,光譜掃描范圍為10 000 ~ 4 000 cm-1,分辨率為8 cm-1,增益為8×,原始數(shù)據(jù)集以3.857 cm-1間隔測量,得到1 557個變量。將樣品杯中樣品倒回樣品袋,重新稱取25 g樣品重復(fù)掃描近紅外光譜,3次采集得到平均光譜,以減少樣品分布不均勻帶來的誤差。
1.2.3 光譜預(yù)處理及建模
樣品集劃分:根據(jù)光譜數(shù)據(jù)計(jì)算馬氏距離剔除異常點(diǎn)之后的樣本隨機(jī)劃分校正集與驗(yàn)證集,各81份和22份,保證兩集的樣本化學(xué)值均勻分布。
光譜預(yù)處理與特征波段篩選:為了提高相關(guān)有效光譜信息,削減無效干擾光譜,達(dá)到放大和分離重疊光譜信息的效果,采用多元散射校正(MSC)、標(biāo)準(zhǔn)正態(tài)變化(SNV)、一階導(dǎo)數(shù)(1st)、二階導(dǎo)數(shù)(2nd)、Savitzky-Golay濾波平滑(SG)和Norris微分平滑(ND)單一或組合方式,共計(jì)19種光譜預(yù)處理方法。其中,Savitzky-Golay濾波平滑設(shè)定多項(xiàng)式的取值范圍為7、階數(shù)為3,Norris微分平滑在段長為5、間距為5時進(jìn)行。將全波段劃分不同區(qū)間,采用手動法[15]篩選特征波段。
模型評判與驗(yàn)證:采用偏最小二乘(PLS)回歸法建立奇亞籽水分、脂肪、蛋白質(zhì)和灰分的校正模型。根據(jù)交叉驗(yàn)證均方根誤差(RMSECV)確定主因子數(shù)和校正集相關(guān)系數(shù)(rc)作為直接衡量模型優(yōu)劣的主要指標(biāo),并使用相對分析誤差(RPD)對各組分模型進(jìn)一步評估。若RPD≥2.0,說明模型建立優(yōu)良,可用于日常實(shí)際定量檢測;若2.0>RPD≥1.4,說明模型較好,但用于實(shí)際應(yīng)用需進(jìn)一步改良;若RPD< 1.4,說明模型不能用于定量檢測[16-18],進(jìn)一步,相對標(biāo)準(zhǔn)偏差(RSD)應(yīng)當(dāng)小于10%,最后利用驗(yàn)證集樣品(不參與建模)的近紅外光譜圖,通過比較模型預(yù)測值與化學(xué)值進(jìn)行驗(yàn)證。
Williams等[19]認(rèn)為樣品化學(xué)值平均分布有利于建立穩(wěn)健理想的校準(zhǔn)模型,而不是一個高斯分布趨勢,非高斯分布被認(rèn)為是校準(zhǔn)集的一個良好特征,從而所建模型在未來分析偏向平均值。奇亞籽水分、脂肪、蛋白質(zhì)和灰分在初始樣本集的分布如圖1所示。由圖1可知:水分含量范圍在2.45%~8.65%之間,其中含量在4.50%~7.50%之間的樣品共有84份,占總樣本量的81.6%;脂肪含量范圍在26.4%~36.7%之間,其中含量在31.5%~36.5%之間的樣品共有93份,占總樣本量的90.3%;蛋白質(zhì)含量范圍在17.2%~27.6%之間,其中含量在18.0%~26.0%之間的樣品共有95份,占總樣本量的92.2%;灰分含量范圍在3.5%~5.6%之間,其中含量在4.1%~5.3%之間的樣品共有91份,占總樣本量的88.3%。本實(shí)驗(yàn)樣本的各組分范圍基本上覆蓋了奇亞籽中可能出現(xiàn)的含量,數(shù)據(jù)離散度及波動性較大,雖然樣品的分布不均勻,但樣品在最大值和最小值之間連續(xù)存在。
圖1 奇亞籽水分、脂肪、蛋白質(zhì)和灰分在初始樣本集的分布
對近紅外光譜定量分析而言,其數(shù)據(jù)異??煞譃楣庾V異常和實(shí)測值異常[8],本實(shí)驗(yàn)借助TQ Analyst軟件自帶的馬氏距離判定沒有出現(xiàn)異常值。奇亞籽樣本校正集和驗(yàn)證集參數(shù)見表1。由表1可知,103份奇亞籽的測量參數(shù)范圍較廣(樣本生長地點(diǎn)、基因型和環(huán)境影響的變異性),水分的校正集和驗(yàn)正集化學(xué)值變幅范圍分別為2.45%~8.65%、2.56%~7.95%,脂肪的變幅分別為26.4%~36.7%、26.5%~36.5%,蛋白質(zhì)的變幅分別為17.2%~27.6%、17.7%~26.5%,灰分的變幅分別為3.5%~5.6%、3.7%~5.3%??梢婒?yàn)證集化學(xué)值變幅范圍包含在校正集內(nèi),校正集所建模型范圍可以用于驗(yàn)證集樣品,且校正集與驗(yàn)證集的平均值和標(biāo)準(zhǔn)偏差相近,可見校正集與驗(yàn)證集內(nèi)的樣本分布相似,選擇合理。
表1 奇亞籽樣本校正集和驗(yàn)證集參數(shù) %
圖2為奇亞籽樣本原始近紅外光譜圖,通過Antaris II 近紅外分析儀采集近紅外光譜范圍為10 000~4 000 cm-1,12 500~10 000 cm-1之間的區(qū)域光譜信息較少,因此此區(qū)域沒有被用于開發(fā)校準(zhǔn)模型。由圖2可知,每條光譜趨勢相似,難以用肉眼評判特定波段峰值與指標(biāo)含量的關(guān)系。在6 897 cm-1和5 181 cm-1處的譜帶與—OH基團(tuán)的第一倍頻和組合頻相對應(yīng),主要代表了水分含量;與脂類相關(guān)的譜帶,即—CH2和—CH3官能團(tuán),在8 264 cm-1是拉伸振動的第二倍頻,5 780 cm-1和5 681 cm-1是拉伸振動的第一倍頻,拉伸和彎曲振動的組合頻出現(xiàn)在4 329 cm-1和4 255 cm-1附近;4 859 cm-1和4 616 cm-1處吸收峰帶與蛋白質(zhì)含量有關(guān)[19-20]。剔除干擾光譜信息,加強(qiáng)有效信息均有利于建立合適而精確的模型。通過TQ Analyst軟件將光譜進(jìn)行預(yù)處理及波段的剔篩,從而利用偏最小二乘法建立各組分的定量模型。
從原始近紅外光譜儀獲取的103份奇亞籽光譜數(shù)據(jù)除了樣品信息外,還含有背景信息和噪聲。為了獲得優(yōu)化的PLS校準(zhǔn)模型,建模前需要對光譜數(shù)據(jù)進(jìn)行預(yù)處理。在沒有特征光譜的情況下,光譜預(yù)處理是建立PLS模型的變量之一。導(dǎo)數(shù)可重新求解重疊峰,從而提高分辨率和靈敏度。隨著光譜預(yù)處理的選擇不同,一階導(dǎo)數(shù)主要解決基線偏移,二階導(dǎo)數(shù)則解決基線漂移[21],平滑可用于降低隨機(jī)噪聲,從而提高光譜的信噪比,MSC和SNV處理可以補(bǔ)償由于顆粒大小等因素引起的光譜散射效應(yīng)[22]。
水分、脂肪、蛋白質(zhì)和灰分不同光譜預(yù)處理方法的PLS回歸模型參數(shù)分別見表2~表5。由表2~表5可知,優(yōu)化后的模型具有較高的r值和較低的RMSECV和RMSEP(驗(yàn)證集預(yù)測均方根誤差)值,可以較好地預(yù)測奇亞籽中4種分析物的含量。當(dāng)不同光譜預(yù)處理下RMSECV接近的情況下,如果一味追求校正集相關(guān)系數(shù)的最佳,可能存在校正過度現(xiàn)象,不利于驗(yàn)證,因此在這種情況下選擇低RMSEP為最優(yōu)模型。優(yōu)化結(jié)果如下:
水分:SG處理下模型最佳。此時,校正集相關(guān)系數(shù)為0.976,RMSEP為0.19%,RMSECV為0.32%。校正集RPD為4.6,RSD為5.5%。
脂肪:利用1st和MSC得到了最優(yōu)PLS模型。此時,RMSEP為0.54%,驗(yàn)證集相關(guān)系數(shù)為0.970,RMSECV為0.95%,校正集相關(guān)系數(shù)為0.843,RPD為1.9,RSD為2.8%。
蛋白質(zhì):1st、SNV和SG組合處理結(jié)果最好。此時,RMSECV為1.33%,校正集相關(guān)系數(shù)為0.850,RMSEP為1.54%。
灰分:1st、SNV和ND組合處理結(jié)果最好。此時,RMSEP為0.17%,驗(yàn)證集相關(guān)系數(shù)為0.899。RMSECV為0.25%,校正集相關(guān)系數(shù)為0.798,RPD為1.6,RSD為5.5%。
主因子數(shù)變大可以防止欠配合,然而,主因子數(shù)過大往往會單方面使校正集搭建的模型過擬合,不利于預(yù)測集的結(jié)果,因此選擇合適的主因子數(shù)很重要[23-24]。通過數(shù)據(jù)軟件自動給出水分、脂肪、蛋白質(zhì)和灰分含量模型主因子數(shù)分別為10、6、5、9。
表2 基于全波段的不同光譜預(yù)處理下水分指標(biāo)建模結(jié)果
續(xù)表2
光譜預(yù)處理校正集rRMSECV/%RPDRSD/%驗(yàn)證集rRMSEP/%RPDRSD/%主因子數(shù)SNV+SG0.9850.255.74.40.9590.413.56.812SNV+1st+SG0.9800.295.14.90.9820.275.24.65SNV+1st+ND0.9830.265.54.60.9830.265.54.39SNV+2nd+SG0.9610.403.66.90.9500.443.27.33SNV+2nd+ND0.9820.285.34.70.9880.226.53.78
注:NONE表示無光譜預(yù)處理。下同。
表4 基于全波段的不同光譜預(yù)處理下蛋白質(zhì)指標(biāo)建模結(jié)果
續(xù)表4
光譜預(yù)處理校正集rRMSECV/%RPDRSD/%驗(yàn)證集rRMSEP/%RPDRSD/%主因子數(shù)SNV+2nd0.6941.821.48.10.5542.321.210.52SNV+SG0.8061.511.76.70.7381.911.48.66SNV+1st+SG0.8501.332.05.90.8311.541.86.95SNV+1st+ND0.8431.361.96.00.7631.811.58.26SNV+2nd+SG0.7601.651.67.30.6722.101.39.54SNV+2nd+ND0.8401.381.96.10.8251.591.77.26
表5 基于全波段的不同光譜預(yù)處理下灰分指標(biāo)建模結(jié)果
在預(yù)測不同固體樣品中的花青素、可溶性固形物以及總糖含量[11]、藏紅花素[25]、水分、脂肪、蛋白質(zhì)、總酚類化合物、咖啡因和可可堿[26]等,均可以證明光譜范圍的選擇可以有效地提取對應(yīng)分量的光譜信息,避免過擬合,大大提高了模型的精度。本研究采用人工篩選方法[15]將全波段分為11個大的區(qū)間:4 000~4 500 cm-1,4 500~5 000 cm-1,5 000~5 500 cm-1,5 500~6 000 cm-1,6 000~6 500 cm-1,6 500~7 500 cm-1,7 500~8 000 cm-1,8 000~8 500 cm-1,8 500~9 000 cm-1,9 000~9 500 cm-1,9 500~10 000 cm-1。結(jié)合TQ Analyst軟件對波段進(jìn)行了嚴(yán)格篩選,排除了與組分無關(guān)的波段。最后,將選定的譜區(qū)用于單譜區(qū)或組合譜區(qū)進(jìn)行比較。
為了進(jìn)一步評估光譜范圍變量選擇的效果,表6分別對4個優(yōu)化PLS模型的選擇范圍、RMSECV、RMSEP、RPD和RSD進(jìn)行了匯總。通過對比表2~表6中的RMSECV和r等參數(shù),可以清楚地看出光譜范圍選擇對模型的影響。例如校正集中,水分模型的RMSECV、r、RPD和RSD在表2中分別為0.32%、0.976、4.6和5.5%。表6校正集中,在9 826~9 729 cm-1,8 665~8 217 cm-1和7 388~6 095 cm-1譜區(qū)下,RMSECV和RSD進(jìn)一步降低到0.23%和4.0%,而r和RPD增加到0.987和6.3。對于脂肪、蛋白質(zhì)和灰分,也得到了類似的結(jié)果。
由表6可以看出,RMSECV和RMSEP的值,校正集和驗(yàn)證集中的r、RPD和RSD值比較接近。對于水分和脂肪模型,RMSEP略小于RMSECV,對于蛋白質(zhì)和灰分模型,驗(yàn)證集r相較校正集的略小,均方根誤差略大。通過比較表2~表5和表6中均方根誤差、r和RPD,光譜預(yù)處理和譜區(qū)篩選使模型有顯著提升的效果。以水分模型為例,未經(jīng)預(yù)處理光譜的RMSECV、校正集RPD、校正集和驗(yàn)證集r值分別為0.32%、4.5、0.975和0.983;采用SG預(yù)處理方法后,4個值分別為0.32%、4.6、0.976和0.992;利用人工篩選譜區(qū)方法預(yù)處理之后,RMSECV進(jìn)一步降低到0.23%,校正集和驗(yàn)證集r值進(jìn)一步提高到0.987和0.993,校正集RPD進(jìn)一步提高到6.3。脂肪、蛋白質(zhì)和灰分模型也有類似的情況。
表6 基于最優(yōu)光譜預(yù)處理的特征波段下建模結(jié)果
為了進(jìn)一步研究4種優(yōu)化模型的可預(yù)測性,采用偏最小二乘法擬合得到PLS模型和化學(xué)法分析得到校正集和驗(yàn)證集4個品質(zhì)指標(biāo)的擬合線,見圖3。由圖3可知,散點(diǎn)與擬合線之間距離不大,無明顯偏離點(diǎn),可見大部分預(yù)測結(jié)果與實(shí)測值無顯著差異,驗(yàn)證了定量模型可靠性,可在實(shí)際檢測中實(shí)時反饋奇亞籽品質(zhì)。虛線為驗(yàn)證集擬合線,實(shí)線為校正集擬合線,兩條線高度重疊,其中水分模型最佳,r值達(dá)到0.98以上,其余指標(biāo)的r值在0.9左右或0.9以上。結(jié)果表明,實(shí)驗(yàn)所建立的預(yù)測模型可以實(shí)現(xiàn)對不同產(chǎn)地奇亞籽的水分、脂肪、蛋白質(zhì)以及灰分的快速無損檢測。
圖3 奇亞籽水分、脂肪、蛋白質(zhì)和灰分的模型擬合線
本實(shí)驗(yàn)以產(chǎn)自墨西哥、阿根廷、澳大利亞、巴拉圭等地的奇亞籽為研究對象,探討了基于近紅外光譜的奇亞籽水分、脂肪、蛋白質(zhì)和灰分的同時快速無損檢測方法。選擇合適的譜區(qū)范圍和光譜預(yù)處理方法可以有效地提高模型的性能,4個模型驗(yàn)證結(jié)果為0.923 ≤rp≤ 0.993,0.15% ≤RMSEP≤ 1.10%,2.5 ≤RPD≤ 6.8。以上結(jié)果表明模型的預(yù)測值與實(shí)測值接近,預(yù)測效果良好。綜上,該模型可用于食品工業(yè)的快速在線檢測和評估,有利于奇亞籽原料的合理利用。