榮菡,甘露菁,王磊
(北京理工大學珠海學院 材料與環(huán)境學院,廣東 珠海 519088)
茶油含有豐富的單不飽和脂肪酸,具有清理血栓,調(diào)節(jié)血脂,促進神經(jīng)細胞發(fā)育,抗炎等重要功效,具有較高的營養(yǎng)價值,市場售價較高。在茶油的摻偽中,多見摻入大豆油、菜籽油、棕櫚油等較低價位的植物油以謀取經(jīng)濟利潤,植物油摻偽檢測的方法主要有油脂質(zhì)量特征的理化檢驗法、氣相色譜法、電子鼻技術(shù)、核磁共振技術(shù)等[1,2]。特別是根據(jù)摻偽油與茶油脂肪酸組成特征差異的不同,一般采用氣相色譜等儀器分析法,存在著耗時較長,需要進行甲酯化預處理,大批量樣品實時檢測效率不高等問題[3]。
近紅外光譜技術(shù)作為一種快速、無損、綠色、環(huán)保的分析技術(shù),常與化學計量學結(jié)合,在調(diào)味品成分的定量檢測與品質(zhì)評價中有所應(yīng)用[4,5]。然而,在摻偽油脂肪酸組成與茶油較為相似的植物油摻偽體系中,特別是摻偽油含量較少時,通過脂肪酸組成指標加以鑒別難度加大。本研究采用近紅外光譜技術(shù)與自組織特征映射網(wǎng)絡(luò)聯(lián)用,面對與茶油脂肪酸組成較相似且含量較低的橄欖果籽油和花生油摻偽,模型穩(wěn)健,模型識別準確率的結(jié)果令人滿意,能夠為食用油摻偽的快速判別提供一種新思路。
本研究的創(chuàng)新性在于:一方面,自組織特征映射神經(jīng)網(wǎng)絡(luò)是一類無教師的自學習型網(wǎng)絡(luò),對于散亂復雜的數(shù)據(jù),有著更高的精度和穩(wěn)定性,常被應(yīng)用于地質(zhì)測繪、電力能源、環(huán)境、工程、計算機等領(lǐng)域,在食品領(lǐng)域并不多見;另一方面,在食品領(lǐng)域,相比于基于線性系統(tǒng)常規(guī)的定性判別方法,如SIMCA法、簇型聚類分析法、偏最小二乘法等[6-10],而自組織映射網(wǎng)絡(luò)擁有高度發(fā)達的連接神經(jīng)元,在種類鑒別和模式識別方面更具有先進性和預測準確度。
食用油:茶油(產(chǎn)自湖南、江西、廣西、貴州、廣東);橄欖果籽油(產(chǎn)自廣東、福建);花生油(產(chǎn)自廣東、江西、四川),經(jīng)過純度鑒定為純正油,均由珠海出入境檢驗檢疫局技術(shù)中心提供。
1.2.1 儀器
傅里葉變換拓展近紅外光譜儀及近紅外光纖探頭 美國Thermo Nicole公司。
1.2.2 軟件
OMNIC 7.0、TQ 7.0、Matlab軟件。
摻有橄欖果籽油、花生油的摻偽油,分別按照摻偽油含量濃度為5%、10%、15%、20%、25%、30%、35%、40%的梯度進行配制。獲得摻偽油兩種,每種摻偽油樣品每個梯度取6個平行樣,共配制成96個樣品。
實驗采集和配制樣品時,按統(tǒng)計科學性原則,剔除奇異點后,樣品分為校正集樣品156個,預測集樣品30個。
茶油與摻偽油樣品充分混合均勻,置于專業(yè)近紅外光譜測試室的適宜條件下,進行光譜采集。
石英杯裝約占容積1/4的樣品,保證樣品液面高于5 cm,將近紅外光譜光纖頭插入樣品中,每個樣品采集6次譜圖,取其平均光譜參與建模,掃描條件為:PbS檢測器,白光光源,增益為1.0,動鏡速度為0.6329,掃描范圍為4200~10000 cm-1,掃描次數(shù)為72次,分辨率為8 cm-1。
樣品譜圖見圖1。
圖1 茶油與摻偽茶油的近紅外譜圖Fig.1 The NIR spectra of camellia oil and adulterated camellia oil
由圖1可知,茶油與摻偽油譜圖無明顯差異,因此難以用常規(guī)檢驗的方法加以區(qū)分。
樣品光譜矩陣經(jīng)過PLS法進行降維處理,用各光譜的成分得分計算馬氏距離。用TQ Analyst 7.0 軟件分析,根據(jù)主成分得分向量描述的兩個樣本i和j 間,計算馬氏距離:
式中:m為主成分個數(shù);λl,λ2,… λk為樣本光譜協(xié)方差矩陣的特征值。
采用光譜分析軟件OMNIC 7.0將訓練集光譜轉(zhuǎn)換成數(shù)據(jù),用偏最小二乘法(PLS)對原始數(shù)據(jù)壓縮,提取主成分。將前11個主成分得分作為網(wǎng)絡(luò)輸入向量,利用Matlab軟件中的newsom函數(shù)創(chuàng)建一個SOM神經(jīng)網(wǎng)絡(luò),格式為:
Net=newsom(PR,[d1,d2,…])。
其中,PR為輸入向量,[d1,d2,…]表示網(wǎng)絡(luò)競爭層的位數(shù),網(wǎng)絡(luò)結(jié)構(gòu)是可以調(diào)整的,本文以三類油(兩種摻偽油和一種純正茶油)為輸出目標,所有樣本參與訓練,優(yōu)化輸入層和競爭層,以構(gòu)成神經(jīng)網(wǎng)絡(luò)。
采用PLS法對樣品原始光譜數(shù)據(jù)進行壓縮處理后,在最大程度代表樣品信息的基礎(chǔ)上,將光譜數(shù)據(jù)降維,有效降低網(wǎng)絡(luò)輸入向量的規(guī)模并消除自變量間自相關(guān)性,改善數(shù)據(jù)的可靠性,提高模型的預測精度。樣品光譜數(shù)據(jù)經(jīng)PLS處理后主成分貢獻率得分見表1。
表1 偏最小二乘法處理后主成分貢獻率信度得分情況Table 1 Principal component contribution ratio reliability score after partial least squares method %
由表1可知,當提取11個主成分時,累計貢獻率信度得分達99.014%,幾乎可涵蓋樣品所有信息。
建模時,訓練集是否能代表樣品的基本信息對模型預測的精確度有顯著影響。實驗對全部樣品的光譜數(shù)據(jù)矩陣進行分析后,得主成分矩陣的得分結(jié)果,訓練集和預測集樣品的分布見圖2。
圖2 樣品的分布圖Fig.2 The distribution map of samples
由圖2可知,校正集和預測集樣品分布均勻,說明所選擇的訓練集樣品符合科學統(tǒng)計得以建模的原則,能最大程度地代表所有樣品的信息,作為建模主要的基礎(chǔ)條件。
光譜數(shù)據(jù)的數(shù)學預處理能夠使基線漂移,光程的變化對光譜響應(yīng)所產(chǎn)生的影響降到最低。常用到的數(shù)學預處理方法一般有一階微分、二階微分、Savitzky-Golay濾波平滑、Norris Derivative濾波平滑、多元散射校正(MSC)以及矢量歸一化(SNV)等。
采用不同的光譜預處理方法建模時,馬氏距離聚類分析模型對樣品的判別準確率結(jié)果見表2。
表2 經(jīng)不同預處理方法處理的模型對摻偽茶油的判別準確率Table 2 The discriminant accuracy of the model processed by different pretreatment methods for adulterated camellia oil %
由表2可知,經(jīng)過一階導數(shù)處理結(jié)合SNV和Norris Derivative濾波處理后,采用馬氏距離聚類分析對摻偽茶油預測集的判別準確率為83.33%。
馬氏距離聚類分析對不同摻偽油的聚類距離的結(jié)果見表3。
表3 馬氏距離分析法對不同種類摻偽油模型的預測結(jié)果Table 3 Prediction results of different kinds of adulterated oil models by Markov distance analysis method
可以看出模型對摻偽花生油的茶油判別無誤,但誤判樣品多集中于摻偽橄欖果籽油和純正茶油之間,說明采用馬氏距離法聚類對于脂肪酸組成較為接近的植物油,仍有一定的局限性。
自組織映射神經(jīng)網(wǎng)絡(luò)的競爭層結(jié)構(gòu)非常重要,結(jié)構(gòu)太小會使訓練效果不好,或訓練出來的網(wǎng)絡(luò)模型容錯性差、不能識別沒有見過的樣本;競爭層結(jié)構(gòu)過大會導致學習時間過長,誤差較大。在建模過程中,常常綜合樣本數(shù)量、摻偽體系的復雜性、設(shè)計者的經(jīng)驗,經(jīng)過多次實驗檢驗確定最佳競爭層單元。本實驗經(jīng)過[10×5]、[30×5]、[50×5] 3個結(jié)構(gòu)層的參數(shù)調(diào)試,最終發(fā)現(xiàn)競爭層結(jié)構(gòu)為[30×5],訓練744步時,網(wǎng)絡(luò)訓練完成,預測誤差較小,網(wǎng)絡(luò)訓練過程見圖3。
圖3 自組織映射網(wǎng)絡(luò)的訓練過程 Fig.3 Training process of self-organizing mapping network
采集純正茶油和摻偽茶油樣本,在自組織映射神經(jīng)網(wǎng)絡(luò)中,利用Matlab軟件函數(shù)train和仿真函數(shù)sim對網(wǎng)絡(luò)進行訓練仿真和模式識別。自組織映射網(wǎng)絡(luò)的拓撲結(jié)構(gòu)的權(quán)重見圖4,可以看出網(wǎng)絡(luò)的神經(jīng)元排列合理,在不同空間區(qū)域?qū)悠非宄胤譃槿悺?/p>
圖4 自組織映射網(wǎng)絡(luò)拓撲結(jié)構(gòu)的權(quán)重分布Fig.4 Weight distribution of topological structure of self-organizing mapping network
樣品光譜經(jīng)PLS處理后,取前11個主成分的84個吸收峰數(shù)據(jù)作為輸入向量,競爭層結(jié)構(gòu)為[30×5]、訓練步數(shù)為744步時,建立摻偽茶油模式識別的神經(jīng)網(wǎng)絡(luò),以三類預測指標作為輸出。
自組織映射神經(jīng)網(wǎng)絡(luò)模型對預測集樣品的模式識別結(jié)果見表4,以Ⅰ、Ⅱ、Ⅲ分別代表兩類不同摻偽茶油和一類純正茶油,預測結(jié)果令人滿意。其中摻偽花生油和不同產(chǎn)地的純正茶油全部識別正確;摻有橄欖油果籽油2例(含量為0.5%時)被錯判為純正茶油,全部預測集樣品的正確識別率為93.33%。
表4 自組織映射神經(jīng)網(wǎng)絡(luò)對預測集樣品的模式識別結(jié)果Table 4 Pattern recognition of predictive set samples by self-organizing mapping neural network
實驗以茶油中摻假不同濃度的橄欖果籽油、花生油為對象,比較了基于因子分析的線性體系的馬氏距離聚類分析法和解決非線性系統(tǒng)的自組織映射神經(jīng)網(wǎng)絡(luò),探究近紅外光譜技術(shù)以實現(xiàn)茶油摻假油的快速鑒別方法。結(jié)果發(fā)現(xiàn):馬氏距離聚類分析盡管通過化學計量學的方法提取主成分,從自變量矩陣和因變量矩陣中有效降維,但作為類模型基礎(chǔ)上“線性模式識別方法”,面對脂肪酸結(jié)構(gòu)組成相似的對象,具有一定的局限性,識別準確率效果一般。
自組織競爭網(wǎng)絡(luò)作為一種無教師學習的神經(jīng)網(wǎng)絡(luò),在摻偽油體系中各組分的含量和光譜吸光度之間存在著非線性關(guān)系的情況下,突出了自學習、自組織、自適應(yīng)和容錯能力的優(yōu)勢。特別是經(jīng)PLS處理后,將樣品光譜吸光度、組分含量的主成分、權(quán)重值納入輸入向量的考核標準,能夠為建模提供重要的參考依據(jù),在網(wǎng)絡(luò)訓練時,可減少迭代次數(shù),跳出局部最少的弊端。同時,采用近紅外光譜也應(yīng)考慮技術(shù)檢測限的限制,當摻假物濃度含量高于近紅外光譜檢出限時方能取得較好效果。