摘 要:結(jié)合粒子群最小二乘支持向量機(jī)(PSO-LSSVM)與偏最小二乘法(PLS)提出一種基于氣相色譜技術(shù)的新方法,對(duì)芝麻油進(jìn)行真?zhèn)舞b別,并對(duì)摻偽品中摻假比例進(jìn)行定量分析。采用主成分分析法(PCA)對(duì)857個(gè)樣本的脂肪酸色譜數(shù)據(jù)進(jìn)行分析,優(yōu)選主成分作為最小二乘支持向量機(jī)(LSSVM)的輸入向量。利用粒子群算法(PSO)優(yōu)化LSSVM,構(gòu)建芝麻油摻偽鑒別的兩級(jí)分類模型,同時(shí)運(yùn)用PLS建立摻偽芝麻油中摻偽油脂的定量校正模型,兩級(jí)分類模型的準(zhǔn)確率分別達(dá)到了100%和98.7%,定量分析模型的平均預(yù)測(cè)標(biāo)準(zhǔn)偏差(RMSEP)為3.91%。結(jié)果表明,本方法的鑒別準(zhǔn)確性和模型泛化能力均優(yōu)于經(jīng)典的BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)(SVM),可用于食用油脂加工和流通環(huán)節(jié)的質(zhì)量控制,為食用油質(zhì)量的準(zhǔn)確鑒定提供了一條有效途徑。
關(guān)鍵詞:芝麻油; 最小二乘支持向量機(jī); 粒子群優(yōu)化算法; 偏最小二乘法; 摻偽
1 引 言
芝麻油在亞洲國(guó)家有著悠久的食用歷史,不僅色、香、味俱佳,且具有豐富營(yíng)養(yǎng)和保健功能,深受消費(fèi)者的青睞[1]。為保證芝麻油質(zhì)量,國(guó)家標(biāo)準(zhǔn)《GB 8233-2008 芝麻油》和《GB/T 5539-2008糧油檢驗(yàn) 油脂定性試驗(yàn)》規(guī)定了芝麻油的理化性質(zhì)和識(shí)別方法,而不法商家對(duì)芝麻油進(jìn)行摻假牟利,依靠常規(guī)的感官檢測(cè)[2](色澤、滋味、氣味、狀態(tài))和理化檢測(cè)[3,4](折射率、皂化值、碘值等)已無法準(zhǔn)確鑒別,更無法檢測(cè)摻偽油脂的種類和比例。因此,有必要研究一種快速有效的鑒別方法,保證芝麻油品質(zhì)。
目前,鑒別芝麻油摻偽的方法主要有兩大類:(1)利用芝麻油特征成分的性質(zhì)進(jìn)行鑒別[5],如芝麻酚、芝麻素等木脂素物質(zhì)。由于眾多的芝麻品種,各種氣候、土壤等生態(tài)條件,各具特色的加工方式等,使得芝麻油中木脂素物質(zhì)的含量存在較大差異,以其作為鑒別指標(biāo),準(zhǔn)確性難以保證;(2)根據(jù)油脂本身的性質(zhì)進(jìn)行鑒別[6],如甘三酯結(jié)構(gòu)、脂肪酸組成和含量等。多采用氣相色譜法[7],測(cè)定樣品的脂肪酸組成和含量,并分析其變化規(guī)律,以此判定樣品的摻偽情況,但單獨(dú)采用該方法數(shù)據(jù)處理量大、信息提取復(fù)雜?;瘜W(xué)計(jì)量學(xué)作為數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)與化學(xué)的接口[8],是最大限度獲取分析對(duì)象化學(xué)及相關(guān)信息的有力工具。Lee等[9]基于油脂的脂肪酸組成數(shù)據(jù),采用主成分分析和判別分析來識(shí)別芝麻油、大豆油、菜籽油、椰子油等8種植物油。李雪琴等[10]利用氣相色譜法對(duì)純品芝麻油和摻偽芝麻油的脂肪酸組成進(jìn)行了測(cè)試,將色譜指紋圖譜的相似度用于芝麻油的摻偽檢測(cè),并用加權(quán)向量夾角余弦法來確定待檢芝麻油的摻偽量。但是上述對(duì)芝麻油摻偽的研究大多采用基于線性分類的檢測(cè)方法,且采集樣品數(shù)少,代表性不強(qiáng)。因此,本研究以大量來自不同區(qū)域的純芝麻油和摻偽芝麻油為樣品,采用氣相色譜法結(jié)合粒子群最小二乘支持向量機(jī)和偏最小二乘法,建立了芝麻油真實(shí)性的定性定量分析模型,并對(duì)有關(guān)參數(shù)優(yōu)化做了系統(tǒng)考察,以期為食用油質(zhì)量安全控制提供一種有效的技術(shù)方法。
2 基本原理
2.1 最小二乘支持向量機(jī)
最小二乘支持向量機(jī)(LSSVM)[11,12]是一種新型支持向量機(jī)方法,將最小二乘線性系統(tǒng)引入支持向量機(jī),代替?zhèn)鹘y(tǒng)所采用的二次規(guī)劃方法,利用非線性函數(shù)Ψ(x)(核函數(shù))將樣本映射到高維特征空間,原樣本空間中的非線性函數(shù)估計(jì)問題轉(zhuǎn)化為高維特征函數(shù)中的線性函數(shù)估計(jì)問題。
2.3 芝麻油摻偽的鑒別
本研究基于粒子群優(yōu)化的最小二乘支持向量機(jī)(PSO-LSSVM)和偏最小二乘法(PLS)結(jié)合氣相色譜法對(duì)芝麻油摻偽進(jìn)行定性與定量分析。首先構(gòu)建第一級(jí)LSSVM模型,將樣本的種類分成2個(gè)一級(jí)子類,即純芝麻油和摻假芝麻油;再將摻假芝麻油一級(jí)子類進(jìn)一步劃分成若干個(gè)次級(jí)子類,即摻棕櫚油、摻棉籽油、摻葵花籽油、摻菜籽油、摻大豆油;最后對(duì)次級(jí)子類樣本進(jìn)行PLS分析。過程如圖1所示,具體步驟為:(1)對(duì)色譜數(shù)據(jù)集X進(jìn)行歸一化處理,以加快數(shù)據(jù)訓(xùn)練時(shí)的收斂速度;(2)通過主成分分析(PCA)降低特征參數(shù)向量的維數(shù),避免輸入信息重疊,使模型預(yù)測(cè)準(zhǔn)確率降低;(3)采用LSSVM對(duì)降維后的數(shù)據(jù)集X′進(jìn)行第一級(jí)分類訓(xùn)練,運(yùn)用粒子群算法(PSO)優(yōu)化正則化參數(shù)C和核參數(shù)σ, 以提高LSSVM的學(xué)習(xí)性能和泛化能力;(4)構(gòu)造多類LSSVM模型,對(duì)摻偽芝麻油數(shù)據(jù)集進(jìn)行第二級(jí)分類訓(xùn)練,采用PSO算法[13]得到C和σ最優(yōu)參數(shù);(5)通過上述分類識(shí)別,對(duì)摻偽油樣數(shù)據(jù)集X1,X2,…,X6和對(duì)應(yīng)濃度矩陣Y1,Y2,…,Y6,建立PLS校正模型;(6)對(duì)于驗(yàn)證集Xtest,先利用步驟(3)和(4)中保留的C和σ進(jìn)行兩級(jí)分類,得到不同摻偽類型數(shù)據(jù)集,然后輸入步驟(5)建立的PLS模型, 預(yù)測(cè)摻偽濃度Y。
通過上述兩級(jí)分類,一方面逐級(jí)突出樣本間的主要差異,最大限度的減少誤判;另一方面降低各類樣本間的多重干擾對(duì)校正模型的影響,提高模型的預(yù)測(cè)精度。
3 實(shí)驗(yàn)部分
3.1 儀器與試劑
GC-6890N型氣相色譜分析儀(美國(guó)Agilent公司);脂肪酸甲酯標(biāo)樣(Sigma-Aldrich公司);正己烷為色譜純,其它試劑均為分析純。
3.2 實(shí)驗(yàn)方法
3.2.1 氣相色譜工作參數(shù) BPX-70色譜柱(30.0 m×250 μm,0.50 μm);進(jìn)樣口溫度:230 ℃;柱溫:210 ℃;氫火焰離子化檢測(cè)器(FID):300 ℃;氮?dú)饬魉?.0 mL/min;氫氣流速35 mL/min;空氣流速400 mL/min。
3.2.2 樣品制備與數(shù)據(jù)處理 樣品先采用《GB/T 17376-2008動(dòng)植物油脂脂肪酸甲酯制備》甲酯化;再采用《GB/T17377-2008動(dòng)植物油脂脂肪酸甲酯的氣相色譜分析》方法。140個(gè)純油樣品(芝麻油、棕櫚油、棉籽油、葵花籽油、菜籽油、大豆油)分別購(gòu)于生產(chǎn)廠家、市場(chǎng)或由種子萃取而得。配制摻假5%, 10%, 15%、20%, 30%和50%的芝麻油,將棕櫚油、棉籽油、葵花籽油、菜籽油、大豆油分別摻到6個(gè)純芝麻油中。為對(duì)比分析全部為真芝麻油和全部為假芝麻油的脂肪酸特征,同時(shí)配備了20個(gè)100%摻假樣品(即棕櫚油、棉籽油、葵花籽油、菜籽油、大豆油),將制得的740個(gè)假芝麻油樣品標(biāo)記為Xn,i(n為樣品序號(hào);i為摻偽百分比,5%、10%, 15%, 20%, 30%, 50%和100%),其余117個(gè)純芝麻油樣品記為Xm。
利用CAMO 公司的Unscrambler9.7 軟件建立PLS校正模型,模型性能通過校正標(biāo)準(zhǔn)偏差(RMSEC)和預(yù)測(cè)標(biāo)準(zhǔn)偏差(RMSEP)來評(píng)價(jià)。PCA和PSO-LSSVM算法均由Matlab2011語言編制。
4 結(jié)果與討論
4.1 油類樣品的GC分析
4.3 模型建立
4.3.1 核函數(shù)的選擇
最小二乘支持向量機(jī)利用核函數(shù)將非線性分類問題轉(zhuǎn)化為高維空間的線性問題。利用不同核函數(shù)的LSSVM對(duì)真假芝麻油樣本進(jìn)行分類識(shí)別,結(jié)果如表2所示。對(duì)于真假芝麻油,RBF核函數(shù)的分類性能最好且穩(wěn)定,而且具有較少的支持向量數(shù),平均識(shí)別率達(dá)到100%,明顯優(yōu)于其它兩種核函數(shù)的LSSVM,因此本研究選用RBF作為核函數(shù)建立芝麻油鑒別模型。
4.3.3 摻偽油脂的鑒別 對(duì)摻偽芝麻油共740樣本,進(jìn)行基于LSSVM的第二級(jí)分類訓(xùn)練,構(gòu)建5個(gè)兩分類LSSVM,每個(gè)兩分類LSSVM僅對(duì)第i類與剩余其它類之間的分類。選用RBF函數(shù)為核函數(shù),通過PSO算法確定最優(yōu)參數(shù),得到實(shí)驗(yàn)結(jié)果如表4所示。5種摻偽芝麻油的種類均基本被正確識(shí)別,只有摻葵花籽油和菜籽油各1個(gè)樣本被錯(cuò)誤分類,鑒別摻偽芝麻油種類的準(zhǔn)確率達(dá)到98.7%,明顯優(yōu)于一模最小二乘支持向量機(jī)(1-norm LSSVM)[16]的分類識(shí)別結(jié)果。
隱變量數(shù)(LV)對(duì)PLS建模質(zhì)量起決定性作用。如果選擇的隱變量數(shù)過少,則不能準(zhǔn)確反映被分析物引起的量測(cè)數(shù)據(jù)變化;反之,則會(huì)將干擾信息加入到模型中。本研究考察了不同校正模型的預(yù)測(cè)誤差平方和(PRESS)隨隱變量數(shù)增加的變化情況,結(jié)果如圖4所示。從圖4可見,各校正模型PRESS的變化規(guī)律基本相同,即隨隱變量數(shù)的增加,PRESS先快速下降后趨于平坦,但仍有微小波動(dòng)。考慮到模型的通用性和預(yù)測(cè)的準(zhǔn)確性,在全局PLS建模中選擇隱變量數(shù)為10,而在摻棕櫚油、摻棉籽油、摻葵花籽油、摻菜籽油和摻大豆油的專一PLS建模中選擇隱變量數(shù)分別為5, 3, 6, 7和6。
采用最優(yōu)的條件,建立測(cè)定摻偽油脂含量的全局PLS模型和專一PLS模型,對(duì)模型進(jìn)行完全交互驗(yàn)證,結(jié)果如表5所示,專一PLS模型的性能最佳,平均預(yù)測(cè)標(biāo)準(zhǔn)偏差為3.91%,遠(yuǎn)小于全局PLS模型(9.60%)。這是由于PLS是線性回歸方法,全局PLS建模的樣本組成復(fù)雜,模型中存在非線性干擾;而進(jìn)行分類后建立的專一PLS模型,樣本數(shù)據(jù)與各組分之間具有較好的線性關(guān)系。因此,專一PLS模型預(yù)測(cè)精度明顯高于全局PLS模型。