李睿雯,孫曉榮,劉翠玲,郭澤翰,田 密
(北京工商大學(xué)人工智能學(xué)院,食品安全大數(shù)據(jù)技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100048)
在食品行業(yè)中,煎炸工藝應(yīng)用十分普遍,由于煎炸食物具有香、酥、脆的口感,深受人們歡迎。由于油品在煎炸過(guò)程中經(jīng)過(guò)長(zhǎng)時(shí)間的持續(xù)高溫加熱,會(huì)發(fā)生一系列的化學(xué)反應(yīng),包括水解、氧化、聚合、裂解等,持續(xù)反復(fù),生成對(duì)人體有害的有機(jī)化合物[1-2],相比甘油三酯,這些生成物的分子極性更大,被稱為極性組分。這些極性組分會(huì)嚴(yán)重影響煎炸油本身的品質(zhì)[3-4],煎炸食品本身的實(shí)用口感和營(yíng)養(yǎng)價(jià)值,國(guó)家限定標(biāo)準(zhǔn)為27%[5]。目前,測(cè)定油脂中極性組分含量最可靠的方法是柱層析法[6-8],是我國(guó)相關(guān)指標(biāo)采用,但該標(biāo)準(zhǔn)方法會(huì)破壞實(shí)驗(yàn)樣本,產(chǎn)生二次污染,耗時(shí)耗力,技術(shù)難度大,因此探究一種快速、無(wú)損的檢測(cè)方法鑒別專用煎炸油的品質(zhì)具有重要意義。
雖然有許多學(xué)者對(duì)各種油在煎炸過(guò)程中的理化指標(biāo)變化進(jìn)行了研究,但對(duì)煎炸油的品質(zhì)質(zhì)量的檢測(cè)仍缺乏統(tǒng)一標(biāo)準(zhǔn)和系統(tǒng)的研究[9],對(duì)市場(chǎng)煎炸油品質(zhì)檢測(cè)的系統(tǒng)研究成果也較少。針對(duì)這一問(wèn)題北京市糧食科學(xué)研究院研發(fā)出商業(yè)專用煎炸油,由棉籽油、大豆油、菜籽油、棕櫚油按照10∶5∶3∶2的比例調(diào)配,研制的專用煎炸油具有良好的耐炸性,煎炸出的食品色澤以及口感良好,同時(shí)該專用煎炸油的最長(zhǎng)煎炸時(shí)間可長(zhǎng)達(dá)69 h。
近些年來(lái),拉曼光譜以快速、無(wú)損、高效檢測(cè)的優(yōu)點(diǎn)廣泛應(yīng)用于食品、農(nóng)業(yè)等領(lǐng)域,且拉曼光譜不需要對(duì)樣本進(jìn)行復(fù)雜的前操作處理就可以獲取物質(zhì)的大量信息,具有指紋性強(qiáng)的特性,可用于研究物質(zhì)的結(jié)構(gòu)特征以及組成成分[10-11],同樣對(duì)定量分析具有較好的效果。
在光譜技術(shù)中,神經(jīng)網(wǎng)絡(luò)算法在很多定性分析中都有應(yīng)用,但應(yīng)用于定量分析研究較少,尤其是在拉曼光譜分析技術(shù)中更少。胡軍等[12]基于誤差反向傳播(error back propagation,BP)神經(jīng)網(wǎng)絡(luò)的太赫茲時(shí)域光譜對(duì)面粉中苯甲酸定量檢測(cè)研究中,建立的預(yù)測(cè)集相關(guān)系數(shù)為0.994 5,預(yù)測(cè)均方根誤差(root mean square error of prediction,RMSEP)為0.66。譚琨等[13]針對(duì)高光譜數(shù)據(jù)的特點(diǎn),設(shè)計(jì)了有效的特征提取模型,再與徑向基函數(shù)(radial basis function,RBF)算法神經(jīng)網(wǎng)絡(luò)的輸入層連接,建立了一個(gè)新的高光譜遙感影像分類模型,證明RBF神經(jīng)網(wǎng)絡(luò)在高光譜遙感分類中具有較好的適用性。
本實(shí)驗(yàn)應(yīng)用拉曼光譜技術(shù),以不同煎炸時(shí)間下的專用煎炸油為樣本,采用DXR激光共焦顯微拉曼光譜儀采集樣本的拉曼光譜,利用卷積(savitzky-golay,S-G)平滑、標(biāo)準(zhǔn)正態(tài)變換(standard normal transformation,SNV)、多元散射校正(multiple scattering correction,MSC)、導(dǎo)數(shù)法對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理,結(jié)合偏最小二乘回歸(partial least squares regression,PLSR)法、BP算法和RBF算法建立煎炸油極性組分含量的定量分析模型,旨在為實(shí)現(xiàn)對(duì)專用煎炸油品質(zhì)快速無(wú)損高效的市場(chǎng)監(jiān)測(cè)及系統(tǒng)管理提供技術(shù)手段。
專用煎炸油來(lái)自北京市糧食科學(xué)研究院,分別以棉籽油、大豆油、菜籽油、棕櫚油為原料制備的煎炸油,以速凍薯?xiàng)l為煎炸食材,煎炸過(guò)程中每小時(shí)取樣一次,樣本極性組分含量由糧科院檢測(cè)人員GB/T 5009.202—2016《食用油中極性組分(PC)的測(cè)定》[14]方法測(cè)定,取值范圍為8.83%~27%。
采集拉曼光譜硬件設(shè)備為DXR激光共焦顯微拉曼光譜儀,配合OMNIC軟件使用。激光波長(zhǎng)780 nm,激光能量20 eV,光柵400 lines/mm,光闌50 mm,分辨率47~87 cm-1,樣本掃描次數(shù)4 次,采集曝光時(shí)間5 s。
在掃描煎炸油樣本前,采集實(shí)驗(yàn)室內(nèi)空氣光譜為背景光譜,檢測(cè)光學(xué)臺(tái)內(nèi)激光,待儀器預(yù)熱至激光能量趨于穩(wěn)定值,取少量煎炸油樣本于凹槽內(nèi),將凹槽放置在10 倍物鏡下,調(diào)節(jié)物鏡,調(diào)焦載物臺(tái)的高度,直至油樣在顯微鏡下的成像清晰,煎炸油在10 倍物鏡下的成像如圖1所示。實(shí)驗(yàn)采取面掃描的方法,每次掃描4 個(gè)點(diǎn),每個(gè)樣品對(duì)應(yīng)掃描出4 條拉曼光譜,取4 個(gè)點(diǎn)中能量最高點(diǎn)的光譜用作后續(xù)定量分析。
圖1 煎炸油在10 倍物鏡下的成像Fig. 1 Imaging of used frying oil for French fries under 10 × objective lens
實(shí)驗(yàn)采集的83 個(gè)煎炸油樣本的拉曼光譜圖如圖2所示,拉曼光譜的波數(shù)覆蓋了80~3 300 cm-1的范圍??梢钥吹郊逭ㄓ偷睦庾V在不同波數(shù)對(duì)應(yīng)不同的拉曼強(qiáng)度,結(jié)合已有研究可以指認(rèn)出部分官能團(tuán)對(duì)應(yīng)的特征峰,煎炸油的拉曼光譜部分特征峰的指認(rèn)見表1。煎炸油在食品煎炸過(guò)程中產(chǎn)生復(fù)雜的極性物質(zhì)[15-18],如過(guò)氧化物,其中羰基和醚鍵是這種極性物質(zhì)的重要組成部分。
數(shù)據(jù)在采集和傳輸過(guò)程中會(huì)產(chǎn)生一些干擾,因此有必要對(duì)采集的數(shù)據(jù)進(jìn)行預(yù)處理。如果采集值處于上下限之間,則作為正常數(shù)據(jù)處理,如果超出正常的分布范圍,則表明信號(hào)受到干擾,此時(shí)應(yīng)將其限定在合理的范圍內(nèi)。具體公式如下:
圖2 煎炸油樣本拉曼光譜圖Fig. 2 Raman spectra of used frying oil samples
表1 煎炸油的拉曼光譜部分特征峰的指認(rèn)Table 1 Identification of some characteristic Raman peaks of used frying oil
由于實(shí)驗(yàn)過(guò)程中測(cè)得的光譜容易受到環(huán)境影響,儀器振動(dòng)、噪聲等因素會(huì)導(dǎo)致光譜發(fā)生漂移、色散等現(xiàn)象。選擇適合的光譜預(yù)處理方法能得到更好的建模效果,適當(dāng)消除外界因素對(duì)光譜的影響。實(shí)驗(yàn)中,專用煎炸油樣本按照訓(xùn)練集與預(yù)測(cè)集為8∶2的比例進(jìn)行樣本隨機(jī)劃分,67 份樣本作為建模集,16 份樣本作為預(yù)測(cè)集,利用TQ Analyst光譜分析軟件對(duì)原始光譜進(jìn)行預(yù)處理,導(dǎo)入原始數(shù)據(jù),建立了煎炸油中極性組分拉曼全譜PLSR法定量分析模型,選用S-G平滑、SNV、MSC、導(dǎo)數(shù)(包括一階導(dǎo)數(shù)、二階導(dǎo)數(shù))5 種光譜預(yù)處理方法,組合成了7 種組合,對(duì)煎炸油樣本的光譜進(jìn)行預(yù)處理。
實(shí)驗(yàn)中定量模型性能采用相關(guān)系數(shù)R2和RMSEP作為評(píng)價(jià)指標(biāo),從模型的回歸擬合度和預(yù)測(cè)精確度評(píng)價(jià)模型性能。RMSEP是模型可靠性的評(píng)價(jià)指標(biāo),也是對(duì)模型預(yù)測(cè)能力可靠性的評(píng)價(jià)。R2代表了模型預(yù)測(cè)值與樣本原特征值的相關(guān)程度,其值越接近于1,則代表預(yù)測(cè)結(jié)果越準(zhǔn)確,模型的可靠性越高,即預(yù)測(cè)值與樣本真值的差異越小。因此,可以通過(guò)評(píng)價(jià)參數(shù)的大小,選擇最優(yōu)的算法,最終確定出效果最優(yōu)的模型對(duì)樣本數(shù)據(jù)進(jìn)行處理,以達(dá)到最好的預(yù)測(cè)效果。
式中:m為預(yù)測(cè)集樣本個(gè)數(shù);yj為訓(xùn)練集第j個(gè)樣本的真實(shí)值;為訓(xùn)練集第j個(gè)樣本的預(yù)測(cè)值;為m個(gè)訓(xùn)練樣本真實(shí)值的平均值。
拉曼光譜經(jīng)預(yù)處理結(jié)合PLSR法建模結(jié)果見表2,預(yù)處理后,模型各參數(shù)有不同程度變化,經(jīng)SNV預(yù)處理后的建模效果最佳,對(duì)消除拉曼光譜檢測(cè)過(guò)程中產(chǎn)生的光程變化起到了一定作用。此時(shí)RMSEP為1.18,R2為0.940 4。此時(shí)減少了表面散射以及光程變化對(duì)漫反射光譜[19-21]的影響,故采用SNV法對(duì)光譜進(jìn)行預(yù)處理。
表2 拉曼光譜經(jīng)預(yù)處理結(jié)合PLSR法建模結(jié)果Table 2 Comparison of PLSR models with different spectral pretreatments
BP算法是一種多層的前饋神經(jīng)網(wǎng)絡(luò)[22-24],學(xué)習(xí)過(guò)程由信號(hào)的正向傳播與誤差的反向傳播兩個(gè)過(guò)程組成。信息從輸入層到達(dá)隱含層逐層處理,直至輸出層,每一層的神經(jīng)元只會(huì)影響下一層的神經(jīng)元狀態(tài),若輸出層得不到預(yù)期輸出,則轉(zhuǎn)入反向傳播,從而根據(jù)預(yù)測(cè)誤差調(diào)整網(wǎng)絡(luò)權(quán)值和閾值,使得預(yù)測(cè)的結(jié)果不斷逼近期望的輸出值。實(shí)驗(yàn)中,分為以下4 個(gè)步驟:
1)特征提取
對(duì)實(shí)驗(yàn)中得到的數(shù)據(jù)集采用主成分分析(principal component analysis,PCA)法[25-27]進(jìn)行特征提取,對(duì)3 300 個(gè)波數(shù)進(jìn)行優(yōu)化,得到27 個(gè)向量,此時(shí)的PCA得分為99%,則提取到的特征能充分、有效地表示原始數(shù)據(jù)的特征信息。
在BP神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)分析之前,通常需要將數(shù)據(jù)歸一化,利用歸一化后的數(shù)據(jù)進(jìn)行分析。原始數(shù)據(jù)經(jīng)過(guò)數(shù)據(jù)歸一化處理后,各指標(biāo)處于同一數(shù)量級(jí),適合進(jìn)行綜合對(duì)比評(píng)價(jià),以防某些數(shù)值低的特征被淹沒(méi)。
3)創(chuàng)建網(wǎng)絡(luò)
本實(shí)驗(yàn)利用3 層BP神經(jīng)網(wǎng)絡(luò)建立煎炸油極性組分含量快速檢測(cè)研究的定量分析模型。輸入神經(jīng)元個(gè)數(shù)為27 個(gè),為樣本經(jīng)過(guò)PCA降維后得到的特征光譜。輸出神經(jīng)元個(gè)數(shù)為1,表示被檢測(cè)樣本的極性組分的預(yù)測(cè)值。根據(jù)Kolmogorov定理[28]“對(duì)于具有一個(gè)隱層的3 層BP神經(jīng)網(wǎng)絡(luò),有足夠多的隱節(jié)點(diǎn)數(shù),就可以實(shí)現(xiàn)對(duì)任意非線性函數(shù)的逼近”,并且3 層BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可以提高網(wǎng)絡(luò)學(xué)習(xí)速度,而過(guò)于復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)表示過(guò)多的參數(shù)和模型精度的降低,所以選擇隱含層層數(shù)為1,神經(jīng)元個(gè)數(shù)為18的BP神經(jīng)網(wǎng)絡(luò)。實(shí)驗(yàn)中設(shè)置迭代次數(shù)為7 000 次,目標(biāo)誤差為10-3,學(xué)習(xí)率為10。模擬實(shí)驗(yàn)中的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖如圖3所示。
圖3 模擬實(shí)驗(yàn)中的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig. 3 Schematic illustration of neural network structure in the simulation experiment
4)選擇算法
建立的BP神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)定如下:訓(xùn)練函數(shù)采用自適應(yīng)學(xué)習(xí)率動(dòng)量因子梯度訓(xùn)練法,輸入層與隱含層之間的傳遞函數(shù)是對(duì)數(shù)S型函數(shù)logsig,隱含層與輸出層之間的傳遞函數(shù)是正切S型函數(shù)tansig。
5)訓(xùn)練網(wǎng)絡(luò)
網(wǎng)絡(luò)訓(xùn)練過(guò)程中,RMSEP按照式(1)計(jì)算,決定系數(shù)R2按照式(2)計(jì)算。
網(wǎng)絡(luò)的訓(xùn)練曲線如圖4所示,可以看到RMSEP收斂速度快,僅需2 步就能達(dá)到預(yù)期結(jié)果,BP算法得到煎炸油極性組分含量預(yù)測(cè)結(jié)果,測(cè)試集樣本的預(yù)測(cè)結(jié)果與真實(shí)值對(duì)比(圖5),RMSEP為0.032 6,R2穩(wěn)定在0.972。此時(shí)訓(xùn)練的結(jié)果接近期望的輸出,可以認(rèn)為網(wǎng)絡(luò)找到了輸入、輸出之間的映射關(guān)系。
圖4 網(wǎng)絡(luò)的訓(xùn)練曲線Fig. 4 Training curve
圖5 BP算法的預(yù)測(cè)結(jié)果Fig. 5 Prediction results of error back propagation algorithm
RBF神經(jīng)網(wǎng)絡(luò)和BP神經(jīng)網(wǎng)絡(luò)都屬于非線性多層前向神經(jīng)網(wǎng)絡(luò)、通用逼近模型,對(duì)于每個(gè)輸入、輸出數(shù)據(jù)對(duì),只有少量的連接權(quán)需要調(diào)整。鑒于此,采用RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)比分析預(yù)測(cè)。訓(xùn)練過(guò)程中RBF神經(jīng)網(wǎng)絡(luò)的參數(shù)設(shè)置為均方誤差目標(biāo)為10-3;神經(jīng)元的最大數(shù)目為56 個(gè);RMSEP為0.953 5,R2穩(wěn)定在0.904,此時(shí)測(cè)試集樣本的預(yù)測(cè)結(jié)果與真實(shí)值對(duì)比,RBF算法的預(yù)測(cè)結(jié)果如圖6所示。
圖6 RBF算法的預(yù)測(cè)結(jié)果Fig. 6 Prediction result of radial basis function algorithm
針對(duì)兩種神經(jīng)網(wǎng)絡(luò)算法得到的預(yù)測(cè)結(jié)果不同,為進(jìn)一步對(duì)該技術(shù)手段的誤判情況進(jìn)行分析,重新采集30 個(gè)新的煎炸油樣本的拉曼光譜,采用增加預(yù)測(cè)樣本數(shù)據(jù)量,對(duì)實(shí)驗(yàn)數(shù)據(jù)重新進(jìn)行分析統(tǒng)計(jì),兩種算法建模結(jié)果對(duì)比如表3所示。
表3 兩種算法建模結(jié)果對(duì)比Table 3 Comparison of results of modeling using two algorithms
對(duì)比兩種網(wǎng)絡(luò)對(duì)極性組分預(yù)測(cè)結(jié)果,在增加了預(yù)測(cè)樣本數(shù)據(jù)量后,BP神經(jīng)網(wǎng)絡(luò)的RMSEP為0.097 3,R2為0.749,RBF神經(jīng)網(wǎng)絡(luò)的RMSEP為0.964 9,R2為0.704,BP的結(jié)果明顯優(yōu)于RBF。這是由于兩種網(wǎng)絡(luò)的映射方式有很大區(qū)別:BP神經(jīng)網(wǎng)絡(luò)的隱節(jié)點(diǎn)采用輸入模式與權(quán)向量的內(nèi)積作為激活函數(shù)的自變量,而激活函數(shù)采用Sigmoidal函數(shù)[29-31]或硬限幅函數(shù),因此BP神經(jīng)網(wǎng)絡(luò)是對(duì)非線性映射的全局逼近[32],網(wǎng)絡(luò)對(duì)所有權(quán)值進(jìn)行修正。而RBF神經(jīng)網(wǎng)絡(luò)則是使用局部指數(shù)衰減的非線性函數(shù)對(duì)非線性輸入輸出映射進(jìn)行局部逼近,網(wǎng)絡(luò)只修正一小部分權(quán)值,其隱節(jié)點(diǎn)采用輸入模式與中心向量的距離作為函數(shù)的自變量,并使用RBF作為激活函數(shù)。RBF關(guān)于N維空間的中心點(diǎn)具有徑向?qū)ΨQ性,中心點(diǎn)是在輸入樣本中選取,而且神經(jīng)元的輸入離該中心點(diǎn)越遠(yuǎn),神經(jīng)元的激活程度就越低。選取的中心點(diǎn)難以反映出系統(tǒng)真正的輸入輸出映射關(guān)系,使得網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果產(chǎn)生較大的誤差。
通過(guò)本實(shí)驗(yàn)研究結(jié)果,驗(yàn)證拉曼光譜在煎炸油中極性組分含量的快速檢測(cè)有效、可行,建立了煎炸油中極性組分含量定量分析檢測(cè)模型。通過(guò)建立PLSR模型,比較多MSC、S-G平滑和求導(dǎo)的預(yù)處理方法,得到SNV法的處理校正效果更好。將SNV處理后的數(shù)據(jù)建立BP和RBF模型,得到BP神經(jīng)網(wǎng)絡(luò)模型的建模效果最佳,RMSEP為0.032 6,R2為0.972。因此,BP神經(jīng)網(wǎng)絡(luò)更適用于煎炸油中的極性組分含量檢測(cè)建模分析,具有精度高和相關(guān)度高的特點(diǎn)。本實(shí)驗(yàn)探索的基于拉曼光譜的專用煎炸油極性組分快速檢測(cè)研究,改變了傳統(tǒng)耗時(shí)耗力、成本較高、易破壞樣本的化學(xué)分析檢測(cè)的方法,對(duì)極性物質(zhì)檢測(cè)具有一定的借鑒意義。