王立琦,陳穎淑,劉雨琪,宋 旸,于殿宇,張 娜*
1. 哈爾濱商業(yè)大學計算機與信息工程學院/黑龍江省電子商務與信息處理重點實驗室,黑龍江 哈爾濱 150028 2. 哈爾濱商業(yè)大學食品工程學院,黑龍江 哈爾濱 150076 3. 東北農(nóng)業(yè)大學食品學院,黑龍江 哈爾濱 150030
近年來,食用油脂中反式脂肪酸(trans fatty acids,TFAs)含量超標問題已經(jīng)引起了社會各界的廣泛關注[1]。研究表明,TFAs能促進動脈硬化; 促成Ⅱ型糖尿病等多種疾病。1994年,世界衛(wèi)生組織發(fā)表聲明,提出食品中TFAs含量應控制在4%范圍內[2]; 自2006年開始,美國食品藥品監(jiān)督管理局規(guī)定食品中的TFAs含量必須做出標注; 紐約市政府通過法案,決定從2007年起逐步禁用直至全面封殺餐飲業(yè)使用TFAs; 世界衛(wèi)生組織已給出建議,認為食品中TFAs含量應在2%以下[3]。
油脂高溫脫臭過程中,隨著溫度上升、時間延長,TFAs含量呈上升趨勢[4]。測定油脂中TFAs含量的方法主要有色譜法、紅外光譜法、毛細管電泳法等[5],但上述方法只適用于實驗室檢測,近紅外光譜(near-infrared spectroscopy,NIR)分析技術能夠彌補以上檢測方法的缺陷,成為一種快速、高效、適合在線分析的有利工具[6]。莫欣欣[7]等利用NIR技術對超市中的幾種食用植物油(菜籽油、玉米油、葵花籽油、花生油、大豆油、山茶油、稻米油、橄欖油以及調和油)中TFAs含量進行了快速定量檢測。有研究利用近紅外漫反射實現(xiàn)了食品中反式脂肪酸的快速測定,并利用SVM,KNN,PLSDA和SIMCA等方法建立了TFAs的識別模型,最終發(fā)現(xiàn)PLSDA效果最佳。本文針對大豆油脂加工脫臭過程中TFAs的產(chǎn)生和控制問題,提出一種基于Kalman濾波和深度信念網(wǎng)絡(deep believe net,DBN)的油脂中TFAs含量檢測方法,以期生產(chǎn)出低/零反式脂肪酸油脂產(chǎn)品。
脂肪酸甲酯標準品: 9 t-C18∶1,9 c-C18∶1,9 t,12 t-C18∶2,9 c,12 t-C18∶2,9 t,12 c-C18∶2,9 c,12 c-C18∶2; KOH-甲醇溶液 (2 mol·L-1); 異辛烷(C8H18,色譜純); 其他試劑為分析純; 配備InGaAs檢測器的FT-NIR儀,光源為25 W鹵素燈。直徑為8 mm的透明玻璃管; GC-2010氣相色譜儀: 配有FID檢測器和GC SOLUTION數(shù)據(jù)處理工作站。
以一級大豆油為原料,在鈀碳催化劑添加量為0.05%~0.14%(Pd-C/oil)、H2壓力為2.5~7 MPa、反應時間為0.5~2 h、反應溫度為80~160 ℃和攪拌速度為200~600 r·min-1的條件下,對原料大豆油進行氫化,再按照一定比例將其添加到一級大豆油中,制得不同TFAs含量的氫化大豆油樣本100個,每個樣本均為50 mg,然后利用氣相色譜儀準確測得100個大豆油樣本的TFAs含量為0.1%~6.1%。
將100個大豆油樣本分別注入到直徑為8 mm的透明玻璃管中,再依次放置到Thermo Nicolet Antaris傅里葉變換近紅外光譜儀中,在室溫下進行透射掃描,同時采用相同的空透明玻璃管作為參考。掃描次數(shù)設置為32,掃描范圍4 000~12 000 cm-1,分辨率4 cm-1,測量環(huán)境的濕度需小于7%,油脂樣本近紅外譜圖如圖1所示。
圖1 油脂樣本傅里葉變換近紅外光譜圖Fig.1 FT-near infrared spectrum of oil samples
首先對近紅外光譜數(shù)據(jù)進行降噪處理,尋找針對油脂光譜的最佳去噪方法; 然后采用多種間隔偏最小二乘(iPLS)進行油脂特征波段選擇,再利用Kalman濾波算法進行特征波長變量優(yōu)選; 最后利用深度信念網(wǎng)絡(DBN)建立TFAs含量校正模型并對模型進行評估。
1.5.1 樣本分集
首先基于100個大豆油樣本建立偏最小二乘PLS模型,根據(jù)預測值與實際值的偏差剔除了5個異常樣本。將剩余的95個樣本按TFAs含量的多少進行排序,再根據(jù)一定梯度變化從中選取20組數(shù)據(jù)作為預測集樣本,其余75組作為校正集樣本,在樣本的抽取過程中應該確保其分布均勻,TFAs含量的最大值與最小值都應包含在校正集中,同時使校正集和預測集的均值、方差盡量相近,如表1所示。
表1 校正集和預測集樣本統(tǒng)計結果Table 1 Statistical results of correction setand prediction set samples
1.5.2 光譜去噪
為了獲得高信噪比、低背景干擾的光譜數(shù)據(jù)用于建模,采用多種方法對原始光譜進行降噪處理[8],通過對比分析選出最適合的預處理方法,不同方法去噪效果如表2所示。
表2 不同方法去噪效果對比Table 2 Comparison of denoising effect by different methods
由表2可知,采用MSC-SNV方法去噪后的數(shù)據(jù)建立校正模型時,校正效果最佳,R2為0.954 4,RMSEC為0.036 1,但預測效果最好的卻是MSC,其R2為0.865 0,RMSEP為0.063 8,預測均方根誤差最小,由于建模的最終目的是為了預測,故采用MSC方法降噪后的數(shù)據(jù)為后面的研究所用。
通過圖1能夠觀察出,在4 000~4 420 cm-1波段油脂光譜存在異常吸收,因此將該區(qū)間數(shù)據(jù)剔除,然后分別采用iPLS,反向間隔偏最小二乘(BiPLS)和組合間隔偏最小二乘(SiPLS)對經(jīng)多元散射校正(MSC)降噪后的4 420~12 000 cm-1全譜數(shù)據(jù)進行波段選擇,不同方法篩選出的特征波段建模結果如表3所示。
由表3可以看出,利用SiPLS方法篩選出的3個特征波段組合建模效果最佳,R2為0.984 7,RMSECV最小,為0.027 6。因此,在SiPLS方法選擇出的特征波段基礎上進行后續(xù)特征波長變量優(yōu)選。
通過SiPLS篩選出來的特征波段為7 258~7 443/6 502~6 691/6 120~6 309 cm-1,共包含149個波長變量,然后采用本研究提出的Kalman濾波法對此特征波段進行特征波長變量優(yōu)選,以期進一步提高建模效率。
表3 不同方法篩選出的特征波段建模結果Table 3 Modeling results using characteristic bandsselected by different methods
在近紅外光譜分析中,光譜數(shù)據(jù)X和樣本性質數(shù)據(jù)Y之間的線性模型如式(1)
Y=XB+Error
(1)
式(1)中,B為待求解的系數(shù)矩陣,利用Kalman濾波不斷優(yōu)化B,直到誤差減小到滿足要求為止,如式(2)—式(4)
Kk=PkXT(k)(X(k)PkXT(k)+Sz)-1
(2)
(3)
(4)
式中,k=1,2, …,m,m為樣本個數(shù);bk是系統(tǒng)狀態(tài)向量;yk是觀測數(shù)據(jù)向量;X(k)是方程的系數(shù)矩陣;pk是B的估計誤差協(xié)方差;Sw是系統(tǒng)過程誤差協(xié)方差;Sz是系統(tǒng)的測量誤差協(xié)方差;Kk是卡爾曼增益。通過式(2)—式(4)能夠求解出模型參數(shù)B的估計值和B的估計誤差協(xié)方差P。
利用Kalman濾波選擇特征波長變量,算法如下:
第一步: 計算B和P;
卡爾曼濾波迭代結果如圖2所示。
圖2 Kalman濾波迭代結果Fig.2 Iterative results of Kalman filtering
由圖2可見,模型的協(xié)方差隨著樣本依次加入逐漸減小,Kalman濾波收斂,證明了算法的有效性。模型精度隨波長變量增加的變化趨勢如圖3所示。
圖3 模型精度變化趨勢Fig.3 Trend of model accuracy
由圖3能夠看出,當不斷地將波長變量輸入到模型中時,PLS模型的RMSEC和RMSEP都存在著明顯的下降趨勢,當輸入的波長變量數(shù)達到27時,PLS模型的RMSEP數(shù)值最小,但是,當再次增加輸入波長變量個數(shù)時,RMSEP反而有上升的趨勢,說明此時模型已經(jīng)出現(xiàn)了過擬合現(xiàn)象,無需再增加波長變量。因此只利用這27個波長變量進行建模,最終校正集R2為0.981 3、RMSEC為0.031 7,預測集R2為0.950 4、RMSEP為0.056 2,通過與149個波長變量的建模效果進行對比,兩者效果相當,但是利用27個波長變量建模明顯減少了計算量,大大提高了檢測效率,減少開發(fā)專用儀器的硬件成本。經(jīng)Kalman濾波優(yōu)選出的油脂反式脂肪酸特征波長變量如圖4所示。
圖4 Kalman濾波優(yōu)選出的27個波長變量Fig.4 27 wavelength variables selected by Kalman filtering
2.3.1 DBN模型結構
DBN由Geoffey Hinton教授在2006年提出,具有深層網(wǎng)絡結構和非線性激活功能[9]。近年來,DBN已經(jīng)成功應用于語言處理、文本分類和圖像識別等領域,但在近紅外光譜數(shù)據(jù)分析方面鮮有報道。王靜[10]等將DBN和SVM相結合,建立了近紅外光譜多分類模型。Yang[11]等利用帶漏檢機制的DBN對近紅外光譜進行建模,漏檢能夠克服小樣本的過擬合問題,實驗證明該方法能夠有效鑒別藥物,相比于BP神經(jīng)網(wǎng)絡、支持向量機等算法效果更佳。
DBN由多層節(jié)點構成,其結構如圖5所示。從結構上看,DBN就是由一層有監(jiān)督BP和多層無監(jiān)督RBM組成的一種半監(jiān)督學習網(wǎng)絡[12]。
圖5 DBN模型結構Fig.5 Structure of DBN model
2.3.2 DBN模型參數(shù)設置
在DBN中隱層數(shù)量的設置取決于具體的樣本,利用訓練樣本去測試DBN的隱層數(shù)量。選擇3種不同DBN隱含層層數(shù),分別測其對DBN模型性能的影響,結果如表4所示。
表4 隱含層層數(shù)的選擇Table 4 Selecting number of hidden layers
由表4可見,當隱含層層數(shù)為3時,DBN模型的預測結果最佳,相關系數(shù)R2達到0.900 3,預測誤差均方根RMSEP為0.054 8,相對標準偏差RSD為2.04%。
不同的隱含層節(jié)點設置對DBN模型的建模效果影響極大,分別選擇10種不同組合的隱含層節(jié)點數(shù),通過比較分析,找到適合的隱含層節(jié)點設置方式,結果如表5所示。
由表5可以看出,當隱含層節(jié)點數(shù)設置過多或者過少時,預測集的R2都很低,RMSEP和預測集RSD相對較高,說明隱含層節(jié)點數(shù)過高或者過低都會降低模型的性能,通過多次試驗對比分析,當隱含層節(jié)點數(shù)為50-35-90時,預測集R2達到0.958 5,RMSEP為0.035 0,RSD為1.31%,DBN模型性能最優(yōu)。
通過上述研究,確定了DBN回歸模型的參數(shù),將隱含層層數(shù)設定為3,隱含層節(jié)點數(shù)設置為50-35-90,分別對全譜、篩選出的特征波段和優(yōu)選出的特征波長變量建立DBN模型并預測,同時與PLS模型對比分析,評價模型的預測效果,如表6所示。
表5 隱含層節(jié)點數(shù)的選擇Table 5 Selecting number of hidden layer nodes
表6 DBN及PLS模型比較Table 6 Comparison between DBN and PLS models
由表6可見,對MSC降噪后的全譜進行建模,雖然PLS模型的校正效果比DBN好,但是DBN模型的預測效果卻優(yōu)于PLS,決定系數(shù)R2為0.879 4,預測誤差均方根RMSEP為0.060 3、相對標準偏差RSD為2.18%,說明DBN模型的泛化能力更好; 對SiPLS篩選出來的特征波段建模,PLS模型的校正和預測效果均優(yōu)于DBN模型,預測集R2為0.980 9,RMSEP為0.023 9、相對標準偏差RSD為0.89%; 對Kalman濾波優(yōu)選出來的27個特征波長變量建模,DBN模型預測集的R2為0.958 4,預測誤差均方根RMSEP為0.035 0,相對標準偏差RSD為1.31%,比PLS模型效果略好,雖然比基于特征波段的PLS模型差,僅用了27個波長變量,大大降低了模型的復雜度和計算量,提高了模型的穩(wěn)定性,可為專用油脂TFAs近紅外分析儀器的開發(fā)節(jié)省硬件成本。
利用近紅外光譜分析實現(xiàn)了油脂中TFAs含量的快速檢測,采用多種iPLS方法對光譜數(shù)據(jù)進行特征波段選擇,篩選出的特征波段組合共包含149個波長變量; 利用Kalman濾波算法進一步優(yōu)選出27個特征波長變量; 然后利用深度信念網(wǎng)絡DBN建立回歸模型并與經(jīng)典的PLS模型進行對比分析,發(fā)現(xiàn)基于DBN的回歸模型效果更佳,利用27個特征波長變量建模,相對標準偏差RSD為1.31%,滿足實際檢測要求,可以應用于油脂脫臭工藝中TFAs含量快速檢測和調控,為提升油脂加工智能化水平奠定基礎。