楊倩圓,謝 定,鄭瑞娜,劉金陽
(長沙理工大學(xué)化學(xué)與食品工程學(xué)院,湖南長沙 410114)
淀粉糖主要是指通過生物酶水解技術(shù)對富含淀粉的原料或直接使用淀粉進(jìn)行深加工而得到的葡萄糖、麥芽糖等小分子產(chǎn)物。在食品工業(yè)生產(chǎn)中,淀粉液化液的葡萄糖當(dāng)量(Dextrose Equivalent,DE)值是淀粉糖生產(chǎn)過程中一個(gè)重要測定指標(biāo),定義為產(chǎn)品還原糖占可溶性固形物含量的百分比[1-2]。目前使用的測定方法主要有國標(biāo)定義的費(fèi)林試劑法和高效液相色譜法;前者操作較為繁瑣、影響準(zhǔn)確性的因素較多且所耗試劑較多,容易造成環(huán)境污染;后者精準(zhǔn),但是所使用化學(xué)試劑成本較高,也比較費(fèi)時(shí)費(fèi)事,不利于環(huán)保。
近紅外光譜(near-infrared spectroscopy,NIRS)分析技術(shù)依靠模型庫對被分析樣品進(jìn)行判別分析,建模時(shí)所需代表性的樣品數(shù)量最少,僅需40個(gè)左右,不但分析快速、測樣時(shí)無損、還能在線及時(shí)反饋,從而在我國食品工業(yè)領(lǐng)域,特別是生產(chǎn)過程中的質(zhì)量監(jiān)控方面得到了迅速發(fā)展[3],在全球農(nóng)林、食品、石油化工和制藥工程等學(xué)科中得到了廣泛應(yīng)用[4-6];陳晨等[7]利用近紅外漫反射光譜技術(shù)建立了以可溶性固形物、總酸為評價(jià)指標(biāo)的玫瑰香葡萄貯藏期間糖酸品質(zhì)的快速檢測模型;馮曉元等[8]利用一階微分處理和化學(xué)值采用改進(jìn)偏最小二乘法建立了久保桃可溶性固形物的近紅外預(yù)測模型;Munawar等[9]在利用近紅外光譜建模的過程中比較了不同預(yù)處理方式以及分別應(yīng)用偏最小二乘法和主成分分析法建模對芒果品質(zhì)測定模型的影響,最終建立了可溶性固形物含量、維生素C含量等芒果質(zhì)量屬性的檢測模型;李海燕等[10]針對液體近紅外分析儀在葡萄糖漿檢測中的應(yīng)用優(yōu)勢展開了研究,發(fā)現(xiàn)利用近紅外確實(shí)能提高檢測速度并且重復(fù)性良好。近紅外光譜作為樣本化學(xué)信息的載體,從中提取與分析目標(biāo)相關(guān)的特征信息具有一定的困難,建模波段的選擇、預(yù)處理方法的選擇、建模算法的設(shè)計(jì)等都是目前研究的重點(diǎn)和難點(diǎn)。
本文利用近紅外儀器對實(shí)際生產(chǎn)條件下的淀粉液化液DE值進(jìn)行初始建模。為食品工業(yè)生產(chǎn)的可持續(xù)發(fā)展與形成淀粉糖生產(chǎn)的在線快速檢測技術(shù)提供依據(jù),這對于淀粉糖生產(chǎn)技術(shù)進(jìn)步和產(chǎn)品質(zhì)量升級具有重大現(xiàn)實(shí)意義。
可溶性淀粉、葡萄糖、鹽酸、冰乙酸、乙酸鋅、氫氧化鈉、硫酸銅、酒石酸鉀鈉、亞甲藍(lán)、亞鐵氰化鉀 分析純,國藥集團(tuán)化學(xué)試劑有限公司;α-淀粉酶 2000 U/g,廣東環(huán)凱微生物科技有限公司。
AntarisⅡ型傅里葉變換近紅外光譜儀 美國Thermo Nicolet公司;WYA-2W阿貝折光儀 上海精密科學(xué)儀器有限公司;DZKW電熱恒溫水浴鍋 北京市永光明醫(yī)療儀器廠;JJ-1增力電動攪拌器 江蘇金怡儀器科技有限公司;臺式FIveEasy pH計(jì) 梅特勒-托利多儀器(上海)有限公司;JY602電子天平 上海浦春計(jì)量儀器有限公司;DL-1萬用電爐 北京市永光明醫(yī)療儀器有限公司。
1.2.1 淀粉的液化以及樣本的收集 淀粉液化步驟:取淀粉80 g,加水400 mL,100 ℃糊化10 min后降溫放置至80 ℃水浴鍋加入耐高溫α淀粉酶0.43 g,攪拌。每隔10 min取樣,100 ℃水浴滅酶10 min,放置25 ℃恒溫箱中冷卻后待用。重復(fù)8次液化步驟,每次取11個(gè)樣,按收集順序編號,最終收集88個(gè)樣。
1.2.2 DE值的計(jì)算 可溶性固形物含量由阿貝折光儀直接測出,參照GB 5009.7-2016 食品安全國家標(biāo)準(zhǔn)食品中還原糖的測定中第一法,測定還原糖含量。
DE(%)=C/G×100
式中:C-還原糖含量,g;G-可溶性固形物含量(g)。
1.2.3 近紅外光譜采集 保持環(huán)境溫度為25 ℃,將已冷卻至室溫的淀粉液化液樣品倒入樣品杯,放入限光圈,蓋上金鏡片,選擇積分球檢測系統(tǒng)采集漫反射光譜,每次掃描波數(shù)范圍為4000~10000 cm-1,分辨率8 cm-1,1次光譜采集掃描32次,每個(gè)樣品采集3條光譜,最終取平均光譜。
1.2.4 光譜數(shù)據(jù)處理 運(yùn)用多元散射校正(Multiplicative signal correction,MSC)與標(biāo)準(zhǔn)正態(tài)變量變化(Standard normal variate,SNV)對淀粉液化液光譜進(jìn)行處理,消除由于應(yīng)用漫反射光譜采集時(shí),帶來的光程無法保持恒定、樣品均勻性不一致等因素帶來的干擾[11]。應(yīng)用平滑(smoothing)、多項(xiàng)式平滑(Savitzky-Golay卷積平滑,SG)、一階導(dǎo)數(shù)(1st derivative,1D)、二階導(dǎo)數(shù)(2nd derivative,2D)等預(yù)處理方法處理樣品的光譜數(shù)據(jù),從而消除光譜測量時(shí)產(chǎn)生的噪聲影響[12]。通過TQ analyst 9軟件根據(jù)光譜的分布差異計(jì)算馬氏距離鑒別問題樣品,直接剔除異常的樣品,從而提高校正模型的適應(yīng)性和穩(wěn)定性[13]。
1.2.5 模型的建立以及模型預(yù)測能力的評估 利用AntarisⅡ型傅里葉變換近紅外光譜儀自帶軟件TQ analyst 9對淀粉液化液DE值NIRS圖譜校正與建模;將剔除異常數(shù)據(jù)后的剩余82個(gè)數(shù)據(jù)導(dǎo)入軟件,通過軟件抽取10個(gè)樣品組成預(yù)測集,其余72個(gè)數(shù)據(jù)作為建模集。模型預(yù)測性能通過:預(yù)測殘差平方和(PRESS)、建模相關(guān)系數(shù)(Rc)、預(yù)測集相關(guān)系數(shù)(Rp)、交叉驗(yàn)證均方根誤差(RMSEC)和預(yù)測均方根誤差(RMSEP)這5個(gè)指標(biāo)進(jìn)行評價(jià),指標(biāo)計(jì)算公式如(1)~(4),PRESS值越小,模型的預(yù)測能力越好;模型的相關(guān)系數(shù)越接近于1,預(yù)測均方根誤差和建模均方根誤差越小時(shí),模型的預(yù)測能力越強(qiáng)[14]。
式(1)
式(2)
式(3)
式(4)
獲得最佳模型后,得出模型預(yù)測值,利用Excel對模型預(yù)測值和化學(xué)實(shí)測值進(jìn)行方差分析。
圖1為由TQ analyst 9直接導(dǎo)出的波數(shù)在4000~10000 cm-1的樣本NIRS譜圖。偏最小二乘法具有較強(qiáng)的抗干擾能力,可以選擇全波段參與模型的建立[15]。為了比較PLS和PCR建模方法對DE值模型的影響,不同波段的選擇在簡化模型的同時(shí),可以剔除不相關(guān)或非線性變量從而提高模型的預(yù)測能力,圖1顯示7600~8800 cm-1段的吸收峰,隨樣品濃度有明顯變化,選擇此區(qū)間為初步建模光譜區(qū)間。
圖1 淀粉液化液的近紅外漫反射原始光譜Fig.1 The NIR spectrum of starch liquefying solution
圖2為軟件隨機(jī)導(dǎo)出的由25號、07號樣組成的原始光譜經(jīng)一階導(dǎo)數(shù)預(yù)處理后的淀粉液化液NIRS譜圖,其中光譜基線在5600~6400、8500~9500 cm-1范圍內(nèi)有明顯下降趨勢。為避免遺失其他有用信息,除初始波段范圍,額外選取這兩處波數(shù)段加入最終建模范圍。
圖2 淀粉液化液經(jīng)一階導(dǎo)數(shù)預(yù)處理后的NIRS譜圖Fig.2 The NIR spectrum of starch liquefying solution under the first derivative
表1中比較了使用多元信號修正(MSC)下無導(dǎo)數(shù)處理、一階導(dǎo)數(shù)處理(1D)、二階導(dǎo)數(shù)處理(2D)、S-G平滑(SG)互相組合和使用標(biāo)準(zhǔn)正態(tài)變量變化(SNV)下無導(dǎo)數(shù)處理、一階導(dǎo)數(shù)處理(1D)、二階導(dǎo)數(shù)處理(2D)、S-G平滑(SG)互相組合后應(yīng)用偏最小二乘法(PLS)的建模效果。發(fā)現(xiàn)經(jīng)MSC與一階導(dǎo)數(shù)預(yù)處理同時(shí)進(jìn)行了S-G平滑處理光譜后的模型最穩(wěn)定,其中Rc為0.9723,RMSEC為1.53,Rp為0.9746,RMSEP為1.44。
表1 不同預(yù)處理方法下淀粉液化液DE值的PLS建模Table 1 The PLS model of starch liquefying solution’DE value under different pretreatment
表2中比較了使用多元信號修正(MSC)下無導(dǎo)數(shù)處理、一階導(dǎo)數(shù)處理(1D)、二階導(dǎo)數(shù)處理(2D)、S-G平滑(SG)互相組合和使用標(biāo)準(zhǔn)正態(tài)變量變化(SNV)下無導(dǎo)數(shù)處理、一階導(dǎo)數(shù)處理(1D)、二階導(dǎo)數(shù)處理(2D)、S-G平滑(SG)互相組合后,應(yīng)用主成分回歸法(PCR)的建模效果,發(fā)現(xiàn)經(jīng)MSC與一階導(dǎo)數(shù)預(yù)處理同時(shí)進(jìn)行了S-G平滑處理光譜后的模型最優(yōu),其中Rc為0.9680,RMSEC為1.64,Rp為0.9689,RMSEP為1.60。
表2 不同預(yù)處理方法下淀粉液化液DE值的PCR建模Table 2 The PCR model of starch liquefying solution’DE value under different pretreatment
依據(jù)B4組預(yù)處理方法,利用TQ analyst 9軟件得到校正模型——主成分回歸(PCR)模型;依據(jù)A4組預(yù)處理方法,利用TQ analyst 9軟件得到校正模型——偏最小二乘(PLS)模型。圖3為淀粉液化液DE值主成分回歸(PCR)法所建模型的預(yù)測值與化學(xué)實(shí)測值散點(diǎn)分布圖,圖中,DE值模型的Rc等于0.9680,Rp等于0.9690。圖4為淀粉液化液DE值偏最小二乘(PLS)法所建模型的預(yù)測值與化學(xué)實(shí)測值散點(diǎn)分布圖,圖中,DE值模型的Rc等于0.9723,Rp等于0.9746。
圖3 PCR模型的校正集和預(yù)測集淀粉液化液DE值的預(yù)測值與實(shí)際值的關(guān)系Fig.3 The relationship between predicted value and actual value of starch liquefying solution’DE in PCR model
圖4 PLS模型的校正集和預(yù)測集淀粉液化液DE值的預(yù)測值與實(shí)際值的關(guān)系Fig.4 The relationship between predicted value and actual value of starch liquefying solution’DE in PLS model
判定模型預(yù)測能力的一個(gè)主要因素是主成分因子數(shù)(Factor),主成分因子數(shù)太少,擬合不充分,主成分因子數(shù)太多,擬合過度,都將影響模型的預(yù)測性能,其最常用的選擇判據(jù)是預(yù)測殘差平方和(PRESS)。理想的PRESS圖是隨主成分的增加呈遞減趨勢,但當(dāng)達(dá)到最低點(diǎn)后又開始出現(xiàn)微小上升或者波動[15]。由于PCR模型主成分因子數(shù)為10,產(chǎn)生了過擬合效應(yīng)可能在與其他算法集成時(shí)不利于有效模型的建立[16],此處不做比較。圖5比較了PLS模型中十種預(yù)處理方法中PRESS值對應(yīng)的主成分因子數(shù)的主成分?jǐn)?shù)目圖。圖5中預(yù)處理?xiàng)l件為MSC+無導(dǎo)數(shù)的press在主成分因子數(shù)為8時(shí)才達(dá)到最小值122.5124,此時(shí)模型過度擬合,模型預(yù)測能力較差;預(yù)處理?xiàng)l件為MSC+1D、MSC+1D+SG、SNV+1D和SNV+1D+SG的PRESS值在主成分因子數(shù)為3時(shí)最小,分別為315.3215、295.3191、317.6811和297.4860,說明經(jīng)過SG處理比不經(jīng)過SG處理的模型預(yù)測能力要好,經(jīng)過MSC處理比經(jīng)過SNV處理的模型預(yù)測性能要高。在主成分因子數(shù)為3時(shí),經(jīng)過MSC+1D+SG處理后PRESS值最小,此時(shí)通過PLS法建立的模型預(yù)測能力最優(yōu)。
圖5 不同預(yù)處理方法下交互驗(yàn)證得到的PRESS圖Fig.5 Interactive verification of the obtained press graph under different pretreatment
為驗(yàn)證PLS模型的預(yù)測精確度,將未參與建模的10個(gè)預(yù)測樣組成的預(yù)測集代入模型進(jìn)行預(yù)測,同時(shí)與國標(biāo)法測得的實(shí)際值進(jìn)行比較,對比結(jié)果見表3。為檢驗(yàn)所建模型得預(yù)測值與實(shí)測值是否有顯著性差異,利用Excel對兩組數(shù)據(jù)進(jìn)行方差分析,結(jié)果如表4。圖中檢驗(yàn)統(tǒng)計(jì)量F<臨界值F crit,表示兩組數(shù)據(jù)(所建模型的預(yù)測值與實(shí)測值是)在a=0.05的
表3 PLS模型的DE值預(yù)測值與實(shí)測值比較Table 3 Comparison between predicted value and actual value of starch liquefying solution’DE in PLS model
表4 雙樣本方差分析Table 4 Two-sample analysis of variance
水平上無顯著性差異[17],說明使用DE值模型得出的預(yù)測值和普通化學(xué)方法實(shí)測值沒有顯著性差異,該模型可以對淀粉液DE值進(jìn)行預(yù)測。
研究結(jié)果表明,將直接滴定法實(shí)測的淀粉液化液DE值與對應(yīng)采集的近紅外漫反射光譜相關(guān)聯(lián),經(jīng)多元散射校正結(jié)合一階導(dǎo)數(shù)和偏最小二乘法組合對原始光譜處理后,近紅外DE值模型的交叉驗(yàn)證均方差(RMSEC)為1.53、交叉驗(yàn)證決定系數(shù)(Rc)為0.9723、預(yù)測均方差(RMSEP)為1.44、預(yù)測決定系數(shù)(RP)0.9746。能夠較準(zhǔn)確預(yù)測工業(yè)上淀粉液化過程中DE值的變化,為建立淀粉液化液DE值在線無損快速檢測的方法提供了理論依據(jù),對于淀粉糖生產(chǎn)過程中需要頻繁測定DE值來控制工藝進(jìn)程的企業(yè)來說,無疑提供了一種更加方便、快捷和綠色的方法。