吳永清, 唐 娜, 黃璐瑤, 崔雨同, 張 波, 郭波莉, 張影全*
1. 中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)產(chǎn)品加工研究所/農(nóng)業(yè)農(nóng)村部農(nóng)產(chǎn)品加工綜合性重點(diǎn)實(shí)驗(yàn)室, 北京 100193
2. 韶關(guān)學(xué)院生物與農(nóng)業(yè)學(xué)院, 廣東 韶關(guān) 512005
面粉與水混合和面形成具有一定粘彈性的面團(tuán), 并經(jīng)過(guò)后續(xù)一系列加工制成不同面制品。 面粉吸水率是評(píng)價(jià)面粉質(zhì)量、 預(yù)測(cè)面制品加工特性的重要品質(zhì)性狀。 面粉吸水率(吸水量)是指每百克水分含量為14%面粉在粉質(zhì)儀中揉合成最大稠度為500 FU面團(tuán)時(shí)所需添加水的毫升數(shù)[1]。 面粉吸水率高低不僅影響面制品成品質(zhì)量, 而且與生產(chǎn)成本直接相關(guān); 面粉吸水率越高, 出品率越高, 生產(chǎn)成本越低[2]。 我國(guó)小麥的吸水率較低, 平均為57%, 極少數(shù)品種達(dá)到65%~70%[3]。 目前吸水率的測(cè)定主要參照GB/T 14614—2006《小麥粉面團(tuán)的物理特性吸水量和流變學(xué)特性的測(cè)定粉質(zhì)儀法》利用粉質(zhì)儀檢測(cè)[4]。 檢測(cè)過(guò)程需要測(cè)試人員通過(guò)多次加水量的嘗試, 才能使面團(tuán)的最大稠度達(dá)到規(guī)定的標(biāo)準(zhǔn)(500 FU), 測(cè)定方法費(fèi)時(shí)費(fèi)力[5]。 如何快速檢測(cè)面粉吸水率是小麥及面制品加工行業(yè)亟待解決的技術(shù)難題。
近紅外光譜技術(shù)是一種快速、 無(wú)損的檢測(cè)方法, 其原理是有機(jī)物的O—H、 N—H、 C—H等含氫官能團(tuán)近紅外光(波長(zhǎng)780~2 526 nm)相互作用形成不同的近紅外光譜, 通過(guò)不同樣品的光譜信號(hào), 開(kāi)展物質(zhì)的定性、 定量分析[6]。 近年來(lái), 近紅外光譜檢測(cè)技術(shù)在小麥籽粒水分含量[7]、 灰分[7]、 蛋白含量[7-8]、 種子活力[9]、 硬度[10]、 酚類物質(zhì)[11]、 脂肪酸[12]等品質(zhì)檢測(cè)中得到了廣泛應(yīng)用。 可見(jiàn)近紅外全波長(zhǎng)光譜比較復(fù)雜、 存在共線性干擾以及光譜數(shù)據(jù)易受到雜散光、 噪聲、 基線漂移等因素的干擾等問(wèn)題, 特征波長(zhǎng)提取、 光譜預(yù)處理等方法可有效處理以上問(wèn)題, 提高模型的準(zhǔn)確度[13-14]。 姜明偉等[10]采用一階求導(dǎo)(1stDer)對(duì)小麥硬度的光譜進(jìn)行預(yù)處理后, 采用競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)(CARS)算法篩選特征波長(zhǎng), 從而建立偏最小二乘回歸(PLSR)模型, 該模型能夠準(zhǔn)確預(yù)測(cè)小麥硬度。 Chen等[15]采用標(biāo)準(zhǔn)正態(tài)變換(SNV)、 1stDer、 二階求導(dǎo)(2stDer)對(duì)面粉光譜進(jìn)行預(yù)處理, 采用支持向量機(jī)回歸(SVR)建立總蛋白和濕面筋檢測(cè)模型。 Ye等[16]采用改進(jìn)的模擬退火(ISA)結(jié)合連續(xù)投影算法(SPA)提取了14個(gè)特征波長(zhǎng), 基于特征波長(zhǎng)建立的小麥蛋白質(zhì)含量PLSR模型預(yù)測(cè)標(biāo)準(zhǔn)誤差(SEP)從0.071 6降低到0.052 8, 效果較好。 面粉吸水率是面粉中蛋白質(zhì)、 淀粉等物質(zhì)綜合作用的結(jié)果, 影響因素較多, 與全光譜或優(yōu)化后的特征波長(zhǎng)不一定是簡(jiǎn)單的線性關(guān)系。 因此, 多元線性回歸(MLR)、 主成分回歸(PCR)、 偏最小二乘回歸(PLSR)等線性方法建立的定量模型不可避免地會(huì)受到其泛化性能的影響。
擬采用2種線性定量分析模型方法(PLSR、 PCR)和1種非線性定量分析模型方法(SVR)將光譜信息和面粉吸水率進(jìn)行關(guān)聯(lián), 分別建立面粉吸水率的定量分析預(yù)測(cè)模型。 在優(yōu)選的建模方法的基礎(chǔ)上, 針對(duì)全波長(zhǎng)光譜比較復(fù)雜、 存在共線性干擾問(wèn)題, 采用CARS、 區(qū)間隨機(jī)蛙跳(iRF)、 迭代保留信息變量(IRIV)和連續(xù)投影(SPA)算法提取特征波長(zhǎng), 篩選最優(yōu)的特征波長(zhǎng)提取算法, 優(yōu)化與小麥粉中面粉吸水率高度相關(guān)的特征波長(zhǎng)。 針對(duì)光譜數(shù)據(jù)易受到雜散光、 噪聲、 基線漂移等因素的干擾等問(wèn)題, 基于最優(yōu)的建模方法和特征波長(zhǎng)提取算法提取的特征波長(zhǎng), 采用標(biāo)準(zhǔn)化(NL)、 1stDer、 基線校正(BL)、 SNV和去趨勢(shì)化(DT)5種方法對(duì)光譜進(jìn)行預(yù)處理, 篩選最優(yōu)的光譜預(yù)處理方法, 以減少雜散光、 噪聲、 基線漂移等因素對(duì)光譜數(shù)據(jù)的干擾。 最終建立最佳的面粉吸水率近紅外檢測(cè)模型, 以期為面粉生產(chǎn)企業(yè)、 面制品加工企業(yè)、 食品質(zhì)量檢測(cè)部門等提供一種快速、 無(wú)損的檢測(cè)方法。
2021年夏收時(shí), 采集黃淮冬麥區(qū)大田種植的主栽小麥品種籽粒樣品150份, 采集的樣品進(jìn)行后熟、 晾曬、 清理等處理后, 采用MLU202型實(shí)驗(yàn)?zāi)シ蹤C(jī)(無(wú)錫布勒機(jī)械制造有限公司)實(shí)驗(yàn)室制粉, 出粉率控制在70%左右。 磨制好的面粉裝入自封袋備用。
采用IM9500型可見(jiàn)近紅外分析儀(美國(guó)珀金埃爾默公司)進(jìn)行面粉近紅外光譜掃描, 其有效光譜范圍為570~1 100 nm, 共1 061個(gè)波長(zhǎng)。 光譜數(shù)據(jù)采集時(shí)對(duì)每份小麥面粉樣品進(jìn)行3次掃描, 導(dǎo)出相應(yīng)的平均光譜數(shù)據(jù), 圖1為150個(gè)小麥面粉樣品的原始光譜圖。
圖1 樣品原始光譜
參照《糧油檢驗(yàn)小麥粉面團(tuán)流變學(xué)特性測(cè)試粉質(zhì)儀法(GB/T14614—2019)》, 采用粉質(zhì)儀(德國(guó)布拉本德公司)測(cè)定。
150份面粉樣品吸水率平均值為63.12%±3.25%, 變幅為53.10%~74.5%, 樣品具有一定代表性(表1)。 將150個(gè)面粉樣品按照吸水率從低到高依次排列, 每隔4個(gè)樣品挑選1個(gè)樣品為預(yù)測(cè)集, 校正集樣本共120個(gè), 預(yù)測(cè)集樣本共30個(gè)。 從表1可知, 校正集樣本的吸水率最大值和最小值與整體樣本相同, 平均值大于整體樣本, 標(biāo)準(zhǔn)差和變異系數(shù)大于整體樣本, 說(shuō)明校正集分布均勻, 具有足夠的代表性。 校正集樣本吸水率范圍在53.10%~74.50%之間, 平均值為63.32%, 涵蓋了預(yù)測(cè)集樣本最大值和最小值, 標(biāo)準(zhǔn)差和變異系數(shù)大于預(yù)測(cè)集樣本, 符合建模標(biāo)準(zhǔn)。
表1 樣本吸水率分析
采用PLSR、 PCR2種線性定量分析模型和SVR 1種非線性定量分析模型將光譜信息和面粉吸水率進(jìn)行關(guān)聯(lián), 分別建立面粉吸水率的定量分析檢測(cè)模型。 在優(yōu)選的建模方法的基礎(chǔ)上, 采用CARS、 iRF、 IRIV和SPA算法提取特征波長(zhǎng), 篩選最優(yōu)的特征波長(zhǎng)提取算法。 基于最優(yōu)的特征波長(zhǎng)提取算法提取的特征波長(zhǎng)和建模方法, 采用NL、 1stDer、 BL、 SNV和DT5種方法對(duì)光譜進(jìn)行預(yù)處理, 篩選最優(yōu)的光譜預(yù)處理方法, 以減少雜散光、 噪聲、 基線漂移等因素對(duì)光譜數(shù)據(jù)的干擾。 最終建立最佳的面粉吸水率可見(jiàn)近紅外檢測(cè)模型。
采用The Unscramber X 10.4軟件進(jìn)行NL、 1stDer、 BL、 SNV和DT光譜預(yù)處理和建立PLSR和、 PCR和SVR模型, 采用Matlab R2019b軟件調(diào)用libPLS_1.98軟件包來(lái)實(shí)現(xiàn)CARS、 iRF和IRIV特征波長(zhǎng)提取, 采用Matlab R2019b軟件調(diào)用gui_spa軟件包來(lái)實(shí)現(xiàn)SPA特征波長(zhǎng)提取。 采用Excel進(jìn)行圖表整理。
表2 基于不同建模方法的面粉吸水率模型效果
2.2.1 CARS
采用CARS算法提取面粉吸水率相關(guān)特征波長(zhǎng), 蒙特卡羅采樣次數(shù)N設(shè)置為100, 光譜預(yù)處理方法為均值中心化(mean-centering), 選擇變量個(gè)數(shù)由10折交叉驗(yàn)證建立的PLS模型RMSECV最小值確定。 隨著采樣次數(shù)增加, 變量數(shù)、 RMSECV和每個(gè)變量回歸系數(shù)路徑如圖2所示。 由圖2(a)可知, 隨著采樣次數(shù)的增加, 采樣次數(shù)小于10時(shí), 采樣變量數(shù)快速遞減, 采樣次數(shù)大于10時(shí), 采樣變量數(shù)慢速遞減, 說(shuō)明算法在篩選變量有精選和粗選過(guò)程。 圖2(b)是十折交叉驗(yàn)證RMSECV變化趨勢(shì), 隨著采樣次數(shù)的增加, PLS交叉驗(yàn)證RMSECV值先遞減又遞增的變化, 其中采樣次數(shù)在61時(shí)達(dá)到最小值, 為2.3362。 表明在1~60次, 近紅外光譜中與面粉吸水率大量的無(wú)關(guān)信息被剔除, 61次后, RMSECV明顯遞增, 表明剔除了光譜中有效數(shù)據(jù)導(dǎo)致模型性能變差。 圖2(c)表示1061個(gè)波長(zhǎng)變量隨著采樣次數(shù)的增加回歸系數(shù)的路徑變化, “*”所對(duì)應(yīng)的位置即為RMSECV值最小處。 采樣次數(shù)為61所得的波長(zhǎng)變量子集定為與面粉吸水率相關(guān)的特征波長(zhǎng)變量子集, 包含24個(gè)波長(zhǎng), 占原波長(zhǎng)數(shù)(1061)的2.66%。
圖2 CARS算法特征波長(zhǎng)提取
2.2.2 iRF
采用iRF算法提取面粉吸水率相關(guān)特征波長(zhǎng), 蒙特卡羅采樣次數(shù)N為200, 在整個(gè)光譜上移動(dòng)的固定窗口大小W為10, 初始化的子區(qū)間數(shù)Q為20, 設(shè)置最大因子數(shù)A為10, 光譜預(yù)處理方法為均值中心化(mean-centering)。 iRF變量篩選的依據(jù)是各變量具有差異的選擇可能性, 圖3中大部分敏感波段集中在894、 912.5、 980以及1 063.5 nm附近。 設(shè)定選擇閾值為0.2, 最終根據(jù)概率值大小選出20個(gè)特征波長(zhǎng)。
圖3 iRF算法特征波長(zhǎng)提取
2.2.3 IRIV
IRIV算法的目的是剔除無(wú)關(guān)變量和干擾變量, 保留與面粉吸水率相關(guān)的特征變量。 該算法利用10折交叉驗(yàn)證方法建立PLS模型選擇特征變量, PLS模型中最大主因子數(shù)為10。 IRIV算法一共進(jìn)行了7輪, 如圖4所示, 前3輪迭代變量個(gè)數(shù)迅速減少, 從1 061個(gè)變量減少到73個(gè), 然后變量個(gè)數(shù)減少的速度放緩, 第6輪迭代后完全剔除了無(wú)信息變量和干擾變量, 進(jìn)行反向消除操作。 經(jīng)過(guò)第7輪的反向消除最終選擇了16個(gè)與面粉吸水率相關(guān)的特征變量。
圖4 IRIV算法特征波長(zhǎng)提取
2.2.4 SPA
采用SPA算法對(duì)面粉樣本的特征波長(zhǎng)進(jìn)行提取。 如圖5(a)可知, 特征波長(zhǎng)數(shù)為118個(gè)時(shí), RMSE值達(dá)到最小值為0.066 8。 圖5(b)所示是提取到的118個(gè)波長(zhǎng)。
圖5 SPA算法特征波長(zhǎng)提取
特征波長(zhǎng)提取不僅可以簡(jiǎn)化模型結(jié)構(gòu), 而且可以剔除不相關(guān)、 低貢獻(xiàn)的波長(zhǎng), 提高運(yùn)算速度, 降低設(shè)備開(kāi)發(fā)成本[19]。 將CARS、 iRF、 IRIV和SPA算法提取的特征波長(zhǎng)光譜與國(guó)標(biāo)法測(cè)定的面粉吸水率進(jìn)行關(guān)聯(lián), 分別建立面粉吸水率的PLSR定量分析預(yù)測(cè)模型, 建模結(jié)果見(jiàn)表3。
表3 基于全波長(zhǎng)和特征波長(zhǎng)的面粉吸水率模型效果
小麥粉的吸水率與其破損淀粉含量、 蛋白質(zhì)含量、 濕面筋含量之間呈現(xiàn)顯著的正相關(guān)關(guān)系[20]。 采用CARS算法提取的24個(gè)特征波長(zhǎng)中, 896.5~961 nm之間的20個(gè)波長(zhǎng)為C—H化學(xué)鍵基頻振動(dòng)的三級(jí)倍頻附近的譜段, 對(duì)應(yīng)的面粉化學(xué)成分為淀粉; 981~1 077.5 nm之間的4個(gè)波長(zhǎng)為N—H化學(xué)鍵基頻振動(dòng)的二級(jí)倍頻附近的譜段, 對(duì)應(yīng)的面粉化學(xué)成分為蛋白質(zhì)[21]。 即面粉吸水率與淀粉含量和蛋白質(zhì)含量相關(guān), 與前人研究結(jié)果一致。
近紅外光譜易受到雜散光、 噪聲、 基線漂移等因素的干擾, 因此需要對(duì)光譜進(jìn)行預(yù)處理[13]。 采用NL、 1stDer、 BL、 SNV和DT5種光譜預(yù)處理方法單一和組合的方式對(duì)CARS方法提取的特征波長(zhǎng)的光譜數(shù)據(jù)進(jìn)行預(yù)處理, 分別將原始的光譜及預(yù)處理后數(shù)據(jù)和相應(yīng)的面粉吸水率化學(xué)值進(jìn)行關(guān)聯(lián), 建立PLSR定量預(yù)測(cè)模型, 并用預(yù)測(cè)集的光譜數(shù)據(jù)和相應(yīng)的面粉吸水率化學(xué)值對(duì)模型進(jìn)行檢驗(yàn)。
表4 基于不同光譜預(yù)處理方法的面粉吸水率模型效果
復(fù)合預(yù)處理中是NL分別結(jié)合其余4種預(yù)處理方法所建模型效果較好, 其中NL+1stDer效果最佳。 該方法雖然比單獨(dú)進(jìn)行NL預(yù)處理效果更好, 但是光譜數(shù)據(jù)進(jìn)行了2次預(yù)處理, 加重了運(yùn)算負(fù)擔(dān), 降低了光譜處理的速度, 如果將該方法用于實(shí)際生產(chǎn), 必定會(huì)影響檢測(cè)效率。 因此, 確定預(yù)測(cè)面粉吸水率最佳的光譜預(yù)處理方法為NL。