王立琦,陳穎淑,劉雨琪,宋 旸,于殿宇,張 娜*
1. 哈爾濱商業(yè)大學(xué)計(jì)算機(jī)與信息工程學(xué)院/黑龍江省電子商務(wù)與信息處理重點(diǎn)實(shí)驗(yàn)室,黑龍江 哈爾濱 150028 2. 哈爾濱商業(yè)大學(xué)食品工程學(xué)院,黑龍江 哈爾濱 150076 3. 東北農(nóng)業(yè)大學(xué)食品學(xué)院,黑龍江 哈爾濱 150030
近年來(lái),食用油脂中反式脂肪酸(trans fatty acids,TFAs)含量超標(biāo)問(wèn)題已經(jīng)引起了社會(huì)各界的廣泛關(guān)注[1]。研究表明,TFAs能促進(jìn)動(dòng)脈硬化; 促成Ⅱ型糖尿病等多種疾病。1994年,世界衛(wèi)生組織發(fā)表聲明,提出食品中TFAs含量應(yīng)控制在4%范圍內(nèi)[2]; 自2006年開(kāi)始,美國(guó)食品藥品監(jiān)督管理局規(guī)定食品中的TFAs含量必須做出標(biāo)注; 紐約市政府通過(guò)法案,決定從2007年起逐步禁用直至全面封殺餐飲業(yè)使用TFAs; 世界衛(wèi)生組織已給出建議,認(rèn)為食品中TFAs含量應(yīng)在2%以下[3]。
油脂高溫脫臭過(guò)程中,隨著溫度上升、時(shí)間延長(zhǎng),TFAs含量呈上升趨勢(shì)[4]。測(cè)定油脂中TFAs含量的方法主要有色譜法、紅外光譜法、毛細(xì)管電泳法等[5],但上述方法只適用于實(shí)驗(yàn)室檢測(cè),近紅外光譜(near-infrared spectroscopy,NIR)分析技術(shù)能夠彌補(bǔ)以上檢測(cè)方法的缺陷,成為一種快速、高效、適合在線(xiàn)分析的有利工具[6]。莫欣欣[7]等利用NIR技術(shù)對(duì)超市中的幾種食用植物油(菜籽油、玉米油、葵花籽油、花生油、大豆油、山茶油、稻米油、橄欖油以及調(diào)和油)中TFAs含量進(jìn)行了快速定量檢測(cè)。有研究利用近紅外漫反射實(shí)現(xiàn)了食品中反式脂肪酸的快速測(cè)定,并利用SVM,KNN,PLSDA和SIMCA等方法建立了TFAs的識(shí)別模型,最終發(fā)現(xiàn)PLSDA效果最佳。本文針對(duì)大豆油脂加工脫臭過(guò)程中TFAs的產(chǎn)生和控制問(wèn)題,提出一種基于Kalman濾波和深度信念網(wǎng)絡(luò)(deep believe net,DBN)的油脂中TFAs含量檢測(cè)方法,以期生產(chǎn)出低/零反式脂肪酸油脂產(chǎn)品。
脂肪酸甲酯標(biāo)準(zhǔn)品: 9 t-C18∶1,9 c-C18∶1,9 t,12 t-C18∶2,9 c,12 t-C18∶2,9 t,12 c-C18∶2,9 c,12 c-C18∶2; KOH-甲醇溶液 (2 mol·L-1); 異辛烷(C8H18,色譜純); 其他試劑為分析純; 配備InGaAs檢測(cè)器的FT-NIR儀,光源為25 W鹵素?zé)?。直徑? mm的透明玻璃管; GC-2010氣相色譜儀: 配有FID檢測(cè)器和GC SOLUTION數(shù)據(jù)處理工作站。
以一級(jí)大豆油為原料,在鈀碳催化劑添加量為0.05%~0.14%(Pd-C/oil)、H2壓力為2.5~7 MPa、反應(yīng)時(shí)間為0.5~2 h、反應(yīng)溫度為80~160 ℃和攪拌速度為200~600 r·min-1的條件下,對(duì)原料大豆油進(jìn)行氫化,再按照一定比例將其添加到一級(jí)大豆油中,制得不同TFAs含量的氫化大豆油樣本100個(gè),每個(gè)樣本均為50 mg,然后利用氣相色譜儀準(zhǔn)確測(cè)得100個(gè)大豆油樣本的TFAs含量為0.1%~6.1%。
將100個(gè)大豆油樣本分別注入到直徑為8 mm的透明玻璃管中,再依次放置到Thermo Nicolet Antaris傅里葉變換近紅外光譜儀中,在室溫下進(jìn)行透射掃描,同時(shí)采用相同的空透明玻璃管作為參考。掃描次數(shù)設(shè)置為32,掃描范圍4 000~12 000 cm-1,分辨率4 cm-1,測(cè)量環(huán)境的濕度需小于7%,油脂樣本近紅外譜圖如圖1所示。
圖1 油脂樣本傅里葉變換近紅外光譜圖Fig.1 FT-near infrared spectrum of oil samples
首先對(duì)近紅外光譜數(shù)據(jù)進(jìn)行降噪處理,尋找針對(duì)油脂光譜的最佳去噪方法; 然后采用多種間隔偏最小二乘(iPLS)進(jìn)行油脂特征波段選擇,再利用Kalman濾波算法進(jìn)行特征波長(zhǎng)變量?jī)?yōu)選; 最后利用深度信念網(wǎng)絡(luò)(DBN)建立TFAs含量校正模型并對(duì)模型進(jìn)行評(píng)估。
1.5.1 樣本分集
首先基于100個(gè)大豆油樣本建立偏最小二乘PLS模型,根據(jù)預(yù)測(cè)值與實(shí)際值的偏差剔除了5個(gè)異常樣本。將剩余的95個(gè)樣本按TFAs含量的多少進(jìn)行排序,再根據(jù)一定梯度變化從中選取20組數(shù)據(jù)作為預(yù)測(cè)集樣本,其余75組作為校正集樣本,在樣本的抽取過(guò)程中應(yīng)該確保其分布均勻,TFAs含量的最大值與最小值都應(yīng)包含在校正集中,同時(shí)使校正集和預(yù)測(cè)集的均值、方差盡量相近,如表1所示。
表1 校正集和預(yù)測(cè)集樣本統(tǒng)計(jì)結(jié)果Table 1 Statistical results of correction setand prediction set samples
1.5.2 光譜去噪
為了獲得高信噪比、低背景干擾的光譜數(shù)據(jù)用于建模,采用多種方法對(duì)原始光譜進(jìn)行降噪處理[8],通過(guò)對(duì)比分析選出最適合的預(yù)處理方法,不同方法去噪效果如表2所示。
表2 不同方法去噪效果對(duì)比Table 2 Comparison of denoising effect by different methods
由表2可知,采用MSC-SNV方法去噪后的數(shù)據(jù)建立校正模型時(shí),校正效果最佳,R2為0.954 4,RMSEC為0.036 1,但預(yù)測(cè)效果最好的卻是MSC,其R2為0.865 0,RMSEP為0.063 8,預(yù)測(cè)均方根誤差最小,由于建模的最終目的是為了預(yù)測(cè),故采用MSC方法降噪后的數(shù)據(jù)為后面的研究所用。
通過(guò)圖1能夠觀(guān)察出,在4 000~4 420 cm-1波段油脂光譜存在異常吸收,因此將該區(qū)間數(shù)據(jù)剔除,然后分別采用iPLS,反向間隔偏最小二乘(BiPLS)和組合間隔偏最小二乘(SiPLS)對(duì)經(jīng)多元散射校正(MSC)降噪后的4 420~12 000 cm-1全譜數(shù)據(jù)進(jìn)行波段選擇,不同方法篩選出的特征波段建模結(jié)果如表3所示。
由表3可以看出,利用SiPLS方法篩選出的3個(gè)特征波段組合建模效果最佳,R2為0.984 7,RMSECV最小,為0.027 6。因此,在SiPLS方法選擇出的特征波段基礎(chǔ)上進(jìn)行后續(xù)特征波長(zhǎng)變量?jī)?yōu)選。
通過(guò)SiPLS篩選出來(lái)的特征波段為7 258~7 443/6 502~6 691/6 120~6 309 cm-1,共包含149個(gè)波長(zhǎng)變量,然后采用本研究提出的Kalman濾波法對(duì)此特征波段進(jìn)行特征波長(zhǎng)變量?jī)?yōu)選,以期進(jìn)一步提高建模效率。
表3 不同方法篩選出的特征波段建模結(jié)果Table 3 Modeling results using characteristic bandsselected by different methods
在近紅外光譜分析中,光譜數(shù)據(jù)X和樣本性質(zhì)數(shù)據(jù)Y之間的線(xiàn)性模型如式(1)
Y=XB+Error
(1)
式(1)中,B為待求解的系數(shù)矩陣,利用Kalman濾波不斷優(yōu)化B,直到誤差減小到滿(mǎn)足要求為止,如式(2)—式(4)
Kk=PkXT(k)(X(k)PkXT(k)+Sz)-1
(2)
(3)
(4)
式中,k=1,2, …,m,m為樣本個(gè)數(shù);bk是系統(tǒng)狀態(tài)向量;yk是觀(guān)測(cè)數(shù)據(jù)向量;X(k)是方程的系數(shù)矩陣;pk是B的估計(jì)誤差協(xié)方差;Sw是系統(tǒng)過(guò)程誤差協(xié)方差;Sz是系統(tǒng)的測(cè)量誤差協(xié)方差;Kk是卡爾曼增益。通過(guò)式(2)—式(4)能夠求解出模型參數(shù)B的估計(jì)值和B的估計(jì)誤差協(xié)方差P。
利用Kalman濾波選擇特征波長(zhǎng)變量,算法如下:
第一步: 計(jì)算B和P;
卡爾曼濾波迭代結(jié)果如圖2所示。
圖2 Kalman濾波迭代結(jié)果Fig.2 Iterative results of Kalman filtering
由圖2可見(jiàn),模型的協(xié)方差隨著樣本依次加入逐漸減小,Kalman濾波收斂,證明了算法的有效性。模型精度隨波長(zhǎng)變量增加的變化趨勢(shì)如圖3所示。
圖3 模型精度變化趨勢(shì)Fig.3 Trend of model accuracy
由圖3能夠看出,當(dāng)不斷地將波長(zhǎng)變量輸入到模型中時(shí),PLS模型的RMSEC和RMSEP都存在著明顯的下降趨勢(shì),當(dāng)輸入的波長(zhǎng)變量數(shù)達(dá)到27時(shí),PLS模型的RMSEP數(shù)值最小,但是,當(dāng)再次增加輸入波長(zhǎng)變量個(gè)數(shù)時(shí),RMSEP反而有上升的趨勢(shì),說(shuō)明此時(shí)模型已經(jīng)出現(xiàn)了過(guò)擬合現(xiàn)象,無(wú)需再增加波長(zhǎng)變量。因此只利用這27個(gè)波長(zhǎng)變量進(jìn)行建模,最終校正集R2為0.981 3、RMSEC為0.031 7,預(yù)測(cè)集R2為0.950 4、RMSEP為0.056 2,通過(guò)與149個(gè)波長(zhǎng)變量的建模效果進(jìn)行對(duì)比,兩者效果相當(dāng),但是利用27個(gè)波長(zhǎng)變量建模明顯減少了計(jì)算量,大大提高了檢測(cè)效率,減少開(kāi)發(fā)專(zhuān)用儀器的硬件成本。經(jīng)Kalman濾波優(yōu)選出的油脂反式脂肪酸特征波長(zhǎng)變量如圖4所示。
圖4 Kalman濾波優(yōu)選出的27個(gè)波長(zhǎng)變量Fig.4 27 wavelength variables selected by Kalman filtering
2.3.1 DBN模型結(jié)構(gòu)
DBN由Geoffey Hinton教授在2006年提出,具有深層網(wǎng)絡(luò)結(jié)構(gòu)和非線(xiàn)性激活功能[9]。近年來(lái),DBN已經(jīng)成功應(yīng)用于語(yǔ)言處理、文本分類(lèi)和圖像識(shí)別等領(lǐng)域,但在近紅外光譜數(shù)據(jù)分析方面鮮有報(bào)道。王靜[10]等將DBN和SVM相結(jié)合,建立了近紅外光譜多分類(lèi)模型。Yang[11]等利用帶漏檢機(jī)制的DBN對(duì)近紅外光譜進(jìn)行建模,漏檢能夠克服小樣本的過(guò)擬合問(wèn)題,實(shí)驗(yàn)證明該方法能夠有效鑒別藥物,相比于BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等算法效果更佳。
DBN由多層節(jié)點(diǎn)構(gòu)成,其結(jié)構(gòu)如圖5所示。從結(jié)構(gòu)上看,DBN就是由一層有監(jiān)督BP和多層無(wú)監(jiān)督RBM組成的一種半監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)[12]。
圖5 DBN模型結(jié)構(gòu)Fig.5 Structure of DBN model
2.3.2 DBN模型參數(shù)設(shè)置
在DBN中隱層數(shù)量的設(shè)置取決于具體的樣本,利用訓(xùn)練樣本去測(cè)試DBN的隱層數(shù)量。選擇3種不同DBN隱含層層數(shù),分別測(cè)其對(duì)DBN模型性能的影響,結(jié)果如表4所示。
表4 隱含層層數(shù)的選擇Table 4 Selecting number of hidden layers
由表4可見(jiàn),當(dāng)隱含層層數(shù)為3時(shí),DBN模型的預(yù)測(cè)結(jié)果最佳,相關(guān)系數(shù)R2達(dá)到0.900 3,預(yù)測(cè)誤差均方根RMSEP為0.054 8,相對(duì)標(biāo)準(zhǔn)偏差RSD為2.04%。
不同的隱含層節(jié)點(diǎn)設(shè)置對(duì)DBN模型的建模效果影響極大,分別選擇10種不同組合的隱含層節(jié)點(diǎn)數(shù),通過(guò)比較分析,找到適合的隱含層節(jié)點(diǎn)設(shè)置方式,結(jié)果如表5所示。
由表5可以看出,當(dāng)隱含層節(jié)點(diǎn)數(shù)設(shè)置過(guò)多或者過(guò)少時(shí),預(yù)測(cè)集的R2都很低,RMSEP和預(yù)測(cè)集RSD相對(duì)較高,說(shuō)明隱含層節(jié)點(diǎn)數(shù)過(guò)高或者過(guò)低都會(huì)降低模型的性能,通過(guò)多次試驗(yàn)對(duì)比分析,當(dāng)隱含層節(jié)點(diǎn)數(shù)為50-35-90時(shí),預(yù)測(cè)集R2達(dá)到0.958 5,RMSEP為0.035 0,RSD為1.31%,DBN模型性能最優(yōu)。
通過(guò)上述研究,確定了DBN回歸模型的參數(shù),將隱含層層數(shù)設(shè)定為3,隱含層節(jié)點(diǎn)數(shù)設(shè)置為50-35-90,分別對(duì)全譜、篩選出的特征波段和優(yōu)選出的特征波長(zhǎng)變量建立DBN模型并預(yù)測(cè),同時(shí)與PLS模型對(duì)比分析,評(píng)價(jià)模型的預(yù)測(cè)效果,如表6所示。
表5 隱含層節(jié)點(diǎn)數(shù)的選擇Table 5 Selecting number of hidden layer nodes
表6 DBN及PLS模型比較Table 6 Comparison between DBN and PLS models
由表6可見(jiàn),對(duì)MSC降噪后的全譜進(jìn)行建模,雖然PLS模型的校正效果比DBN好,但是DBN模型的預(yù)測(cè)效果卻優(yōu)于PLS,決定系數(shù)R2為0.879 4,預(yù)測(cè)誤差均方根RMSEP為0.060 3、相對(duì)標(biāo)準(zhǔn)偏差RSD為2.18%,說(shuō)明DBN模型的泛化能力更好; 對(duì)SiPLS篩選出來(lái)的特征波段建模,PLS模型的校正和預(yù)測(cè)效果均優(yōu)于DBN模型,預(yù)測(cè)集R2為0.980 9,RMSEP為0.023 9、相對(duì)標(biāo)準(zhǔn)偏差RSD為0.89%; 對(duì)Kalman濾波優(yōu)選出來(lái)的27個(gè)特征波長(zhǎng)變量建模,DBN模型預(yù)測(cè)集的R2為0.958 4,預(yù)測(cè)誤差均方根RMSEP為0.035 0,相對(duì)標(biāo)準(zhǔn)偏差RSD為1.31%,比PLS模型效果略好,雖然比基于特征波段的PLS模型差,僅用了27個(gè)波長(zhǎng)變量,大大降低了模型的復(fù)雜度和計(jì)算量,提高了模型的穩(wěn)定性,可為專(zhuān)用油脂TFAs近紅外分析儀器的開(kāi)發(fā)節(jié)省硬件成本。
利用近紅外光譜分析實(shí)現(xiàn)了油脂中TFAs含量的快速檢測(cè),采用多種iPLS方法對(duì)光譜數(shù)據(jù)進(jìn)行特征波段選擇,篩選出的特征波段組合共包含149個(gè)波長(zhǎng)變量; 利用Kalman濾波算法進(jìn)一步優(yōu)選出27個(gè)特征波長(zhǎng)變量; 然后利用深度信念網(wǎng)絡(luò)DBN建立回歸模型并與經(jīng)典的PLS模型進(jìn)行對(duì)比分析,發(fā)現(xiàn)基于DBN的回歸模型效果更佳,利用27個(gè)特征波長(zhǎng)變量建模,相對(duì)標(biāo)準(zhǔn)偏差RSD為1.31%,滿(mǎn)足實(shí)際檢測(cè)要求,可以應(yīng)用于油脂脫臭工藝中TFAs含量快速檢測(cè)和調(diào)控,為提升油脂加工智能化水平奠定基礎(chǔ)。