成甜甜 王克儉 韓憲忠 李 師 王 媛
(1. 河北農(nóng)業(yè)大學(xué),河北 保定 071000; 2. 國(guó)家羊肉加工技術(shù)研發(fā)專業(yè)中心〔衡水志豪畜牧科技有限公司〕,河北 衡水 053000)
羊肉肉質(zhì)細(xì)膩鮮嫩,蛋白質(zhì)含量高,較其他肉類的脂肪、膽固醇含量低[1],具有豐富的營(yíng)養(yǎng)價(jià)值,不僅溫脾養(yǎng)胃,還有補(bǔ)肝、益血、明目的功效,但由于羊肉價(jià)格較高,加工企業(yè)多且散亂難以管理,市場(chǎng)上一些不法商販向羊肉摻入其他動(dòng)物肉類以謀求暴利,嚴(yán)重?fù)p害消費(fèi)者的利益甚至健康。傳統(tǒng)用于檢測(cè)摻假的方法大多是基于化學(xué)或物理的方法,例如酶聯(lián)免疫吸附法(Enzyme Linked Immunosorbent Assay,ELISA)、聚合酶鏈反應(yīng)(Polymerase Chain Reaction,PCR)和電子鼻技術(shù)等,但是這些方法操作復(fù)雜、靈敏度不高,甚至?xí)茐臉悠返耐暾訹2]。
光譜儀可以獲取物體的光譜數(shù)據(jù)信息,如光譜吸收、透射率、反射率、顏色等。將光譜數(shù)據(jù)與計(jì)算機(jī)技術(shù)結(jié)合,可以對(duì)肉類進(jìn)行無(wú)損、快速檢測(cè)。王飛翔[3]建立偏最小二乘(PLS)模型,對(duì)調(diào)理肉在熟化過(guò)程中的水分含量進(jìn)行預(yù)測(cè),開(kāi)發(fā)了基于多光譜成像技術(shù)的調(diào)理肉在線檢測(cè)系統(tǒng)。范卉[4]應(yīng)用多光譜技術(shù)結(jié)合光學(xué)層析分析技術(shù),對(duì)芝麻油、菜籽油、花生油、調(diào)和油、豬油、餐廚廢棄油和花生煎炸油7類油進(jìn)行甄別,為食用油和地溝油的鑒別提供了可靠方法。郝廣等[5-6]采用主成分分析法(Principal Component Analysis,PCA)、偏最小二乘法、最小二乘支持向量機(jī)(LSSVM)和反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)建立定量模型,實(shí)現(xiàn)了多光譜成像技術(shù)在番茄醬中蔗糖摻假的快速檢測(cè)。Ropodi等[7]針對(duì)肉類摻假的問(wèn)題,提出利用多光譜成像技術(shù)對(duì)摻假牛肉進(jìn)行檢測(cè),并建立了判別模型將所有樣品正確分類。劉友華等[8]針對(duì)羊肉摻假濃度檢測(cè)問(wèn)題,采用競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)法(CARS)法建立特征波長(zhǎng)預(yù)測(cè)模型,模型的預(yù)測(cè)集決定系數(shù)為0.940 0,均方根誤差為0.076 6。白京等[9]采用競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)法提取特征波長(zhǎng)并建立偏最小二乘模型,測(cè)定羊肉卷中豬肉摻假比例,其測(cè)試集的決定系數(shù)為0.972 5,均方根誤差為0.057 7,相較于全波長(zhǎng)模型結(jié)果有所提升。此外,還有一些學(xué)者[10-13]對(duì)肉類的含水率和摻假量進(jìn)行了預(yù)測(cè)。
目前中國(guó)利用多光譜成像技術(shù)對(duì)肉類摻假檢測(cè)的研究較少,多數(shù)為對(duì)算法模型的簡(jiǎn)單應(yīng)用,且未對(duì)模型進(jìn)行改進(jìn)以提高其預(yù)測(cè)能力,預(yù)測(cè)結(jié)果的準(zhǔn)確度不高。為提高摻假肉檢測(cè)準(zhǔn)確度,試驗(yàn)擬將羊肉摻入不同比例的豬肉,利用多光譜系統(tǒng)提取樣品表面的反射率,將摻假羊肉的反射率與羊肉摻入豬肉的濃度建立定量預(yù)測(cè)模型,對(duì)羊肉中豬肉的摻假濃度預(yù)測(cè),并對(duì)模型進(jìn)行優(yōu)化,提升模型預(yù)測(cè)能力。進(jìn)一步提取特征波長(zhǎng),簡(jiǎn)化模型。為摻假羊肉的快速無(wú)損識(shí)別提供切實(shí)可行的方法。
試驗(yàn)所用多光譜檢測(cè)系統(tǒng)由電腦、光譜儀、可交換狹縫、WS-1漫反射標(biāo)準(zhǔn)白板、海洋光學(xué)配套軟件Ocean View、光纖和探頭等裝置組成。光譜儀(上海蔚海光學(xué)儀器有限公司)型號(hào)為海洋光學(xué)(Ocean Optics)的USB2000+,波長(zhǎng)范圍在350~1 100 nm,共有2 048個(gè)光譜像素?cái)?shù)。
于保定市場(chǎng)購(gòu)買的新鮮生肉,選取羊肉里脊和豬肉里脊各1 kg。將羊肉和豬肉中的肥肉去掉,使用榨汁機(jī)將兩種肉分別攪碎1 min,直至羊肉和豬肉呈肉糜狀,再分別按照m羊肉∶m豬肉分別為1∶9,2∶8,3∶7,4∶6,5∶5,6∶4,7∶3,8∶2,9∶1均勻混合并分裝在玻璃培養(yǎng)皿中,另外準(zhǔn)備一份純羊肉和一份純豬肉的樣本,共11份試驗(yàn)樣本,每個(gè)樣本30 g。
光譜儀的積分時(shí)間設(shè)置為2.85 s,掃描次數(shù)為100次,滑動(dòng)平均寬度設(shè)為3,試驗(yàn)環(huán)境溫度為20 ℃。采集光譜數(shù)據(jù)時(shí),數(shù)據(jù)結(jié)果容易受到外界光源或環(huán)境的干擾而產(chǎn)生噪聲,令試驗(yàn)結(jié)果產(chǎn)生誤差,使得模型效果變差,因此為系統(tǒng)設(shè)計(jì)了一個(gè)暗箱,保證環(huán)境無(wú)可見(jiàn)光的干擾,并且在采集光譜數(shù)據(jù)前,需要使用海洋光學(xué)光譜設(shè)備配套的WS-1漫反射標(biāo)準(zhǔn)白板進(jìn)行白板校正,以此來(lái)減弱外界環(huán)境對(duì)數(shù)據(jù)的影響。采集光譜數(shù)據(jù)時(shí),將探頭垂直置于距樣本1 cm的位置,對(duì)樣本進(jìn)行多次掃描。得到波長(zhǎng)范圍350~1 100 nm的反射光譜數(shù)據(jù)。
對(duì)采集到的原始光譜數(shù)據(jù)進(jìn)行篩選和歸一化處理,剔除明顯偏高或偏低的異常樣本,盡量選取反射率無(wú)交叉,有明顯區(qū)分度的區(qū)域作為分析數(shù)據(jù)。選出可用波段后,將試驗(yàn)數(shù)據(jù)分為兩部分,訓(xùn)練集用于建立判別模型,測(cè)試集用于檢驗(yàn)?zāi)P偷臏?zhǔn)確度。
最小二乘支持向量機(jī)方法結(jié)合粒子群算法,利用PSO對(duì)LSSVM的兩個(gè)參數(shù)進(jìn)行最優(yōu)搜索,建立了一種用于羊肉摻假定量檢測(cè)的粒子群優(yōu)化最小二乘支持向量機(jī)的模型,并將該優(yōu)化模型的預(yù)測(cè)結(jié)果與現(xiàn)有模型的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比分析。
1.4.1 最小二乘支持向量機(jī) 最小二乘支持向量機(jī)將支持向量機(jī)(SVM)優(yōu)化問(wèn)題的不等式約束替換為等式約束,對(duì)于給定的m組樣本(xi,yi),樣本數(shù)i=1,2,…,m,xi為n維輸入向量,yi為輸出向量。LSSVM在回歸時(shí)用超平面對(duì)m組數(shù)據(jù)進(jìn)行擬合。
(1)
約束條件為:
yi=wTφ(xi)+b+ei,
(2)
式中:
w——超平面權(quán)重向量;
b——超平面偏差向量;
e——訓(xùn)練點(diǎn)的誤差;
γ——懲罰系數(shù)。
式(2)中的γ越高代表對(duì)誤差的容忍度越小,γ越低代表對(duì)誤差的容忍度越大,合理取值可以提高模型的預(yù)測(cè)能力。
構(gòu)造拉格朗日(Lagrange)函數(shù)求解:
(3)
式中:
ai——xi對(duì)應(yīng)的拉格朗日乘子。
求解過(guò)程中引入高斯核函數(shù)K(x,xi):
(4)
高斯核函數(shù)中σ決定數(shù)據(jù)映射到新的特征空間后的分布,σ越大支持向量越少,σ越小支持向量越多。支持向量的個(gè)數(shù)與預(yù)測(cè)的速度有關(guān)。
推導(dǎo)最終得到LSSVM回歸函數(shù):
(5)
1.4.2 粒子群優(yōu)化算法 粒子群算法是通過(guò)模擬鳥(niǎo)類飛行覓食而設(shè)計(jì)出的一種群體智能優(yōu)化算法。已知在一個(gè)區(qū)域內(nèi)有一塊食物,鳥(niǎo)群知道當(dāng)前位置離食物還有多遠(yuǎn),找到食物最簡(jiǎn)單有效的方法就是搜索離食物最近的鳥(niǎo)的周圍區(qū)域。采用粒子群算法優(yōu)化最小二乘支持向量機(jī)的兩個(gè)參數(shù)γ和σ,在問(wèn)題中,每一個(gè)解都是空間中的一只鳥(niǎo),稱為粒子,代表兩個(gè)參數(shù)的不同組合,食物代表最優(yōu)的參數(shù)組合,粒子通過(guò)迭代搜索調(diào)整自己的位置和速度尋找到最優(yōu)解。
(1) 對(duì)粒子群中粒子i的位置zi=(γi,σi)和速度vi隨機(jī)初始化,生成大小為n的粒子種群。
(2) 將每個(gè)粒子代入LSSVM模型對(duì)訓(xùn)練集數(shù)據(jù)擬合,得到模型的預(yù)測(cè)值f(xi)與期望輸出yi,訓(xùn)練結(jié)果的均方根誤差決定每個(gè)粒子的適應(yīng)度值(fitness)。
(6)
(3) 每個(gè)微粒根據(jù)適應(yīng)度值更新自己的個(gè)體最優(yōu)值(pbesti)和群體最優(yōu)值(gbesti)。
pbesti=(pbesti1,pbesti2,…,pbestin),
(7)
gbesti=(gbesti1,gbesti2,…,gbestin)。
(8)
(4) 根據(jù)適應(yīng)度值對(duì)粒子的速度和位置進(jìn)行更新。
vi=vi+c1×rand()×(gbesti-zi)+c2×rand()×(gbesti-zi),
(9)
zi=zi+vi,
(10)
式中:
c1、c2——學(xué)習(xí)因子。
在粒子群算法中,學(xué)習(xí)因子的取值一般為2,rand()為0和1之間的隨機(jī)數(shù)。
(5) 通過(guò)終止條件判斷是否結(jié)束迭代,得到粒子的最優(yōu)位置。
提取特征波長(zhǎng)不僅可以簡(jiǎn)化模型,還能剔除無(wú)關(guān)變量,提升模型性能和預(yù)測(cè)能力,增強(qiáng)穩(wěn)定性。試驗(yàn)分別采用隨機(jī)青蛙算(RF)[14]、無(wú)信息變量消除法(UVE)[15-16]、競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)法[17]提取特征波長(zhǎng),以提取出的波長(zhǎng)作為輸入變量建立偏最小二乘特征波長(zhǎng)模型,對(duì)比預(yù)測(cè)結(jié)果,得到最優(yōu)的特征提取算法。
利用多光譜檢測(cè)系統(tǒng)對(duì)樣本提取反射率,圖1為樣本在350~1 100 nm波段下的反射率。由圖1可知,相同波段下不同摻假比例的樣本反射率走勢(shì)相同,在某些波段下有明顯區(qū)分。樣本中有一條數(shù)據(jù)反射率明顯偏低,考慮是由于試驗(yàn)誤操作引起,可以剔除。數(shù)據(jù)兩側(cè)的噪聲較多不平滑,走勢(shì)密集不易區(qū)分,不宜選用,故選取波段中間500~650 nm下427個(gè)波長(zhǎng)點(diǎn)的反射率作為可用數(shù)據(jù)。由于數(shù)據(jù)的量綱不同,并且數(shù)據(jù)尺度不統(tǒng)一時(shí)對(duì)預(yù)測(cè)模型的結(jié)果影響很大,故需要對(duì)光譜數(shù)據(jù)作歸一化處理,將數(shù)據(jù)映射在-1和1之間,結(jié)果如圖2所示。
選取了可用波段的數(shù)據(jù)后,將32組數(shù)據(jù)按照2∶1分為訓(xùn)練集和測(cè)試集,有21組訓(xùn)練集數(shù)據(jù)(xi,yi)(i=1,2,…,21),xi為427維輸入向量,代表427個(gè)波點(diǎn)數(shù),yi為羊肉摻入豬肉的濃度。
利用粒子群優(yōu)化算法,對(duì)最小二乘支持向量機(jī)的兩個(gè)參數(shù)γ和σ進(jìn)行尋優(yōu),初始化粒子群的種群大小、學(xué)習(xí)因子、位置、速度、搜索范圍和迭代次數(shù)。將粒子i的位置zi=(γi,σi)代入LSSVM模型對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行擬合,模型預(yù)測(cè)結(jié)果的均方根誤差作為粒子群算法的適應(yīng)度值,每個(gè)粒子根據(jù)自身適應(yīng)度值,得到pbest和gbest,計(jì)算更新粒子的速度vi和zi,直到迭代結(jié)束得到全局最優(yōu)的位置,即為粒子群算法優(yōu)化所得兩參數(shù)γ和σ。
圖1 原始光譜圖像
圖2 歸一化后的光譜圖像
2.3.1 隨機(jī)青蛙 采用隨機(jī)青蛙算法在對(duì)500~650 nm波段下的32組數(shù)據(jù)提取特征波長(zhǎng),為減少算法中隨機(jī)因素的影響,將算法運(yùn)行1 000次并以選擇概率平均值作為波長(zhǎng)選擇的依據(jù),結(jié)果如圖4。選擇概率越大說(shuō)明該變量對(duì)模型越重要,由圖4可知,只有小部分的波長(zhǎng)選擇概率較大,最終選出前10個(gè)概率最大的波長(zhǎng)作為特征波長(zhǎng),分別為588.944,560.757,618.225,639.282,512.897,620.650,524.040,536.212,500.265,621.689 nm。
2.3.2 無(wú)信息變量消除法 UVE將變量回歸系數(shù)和標(biāo)準(zhǔn)偏差的比作為評(píng)判變量穩(wěn)定性的值,穩(wěn)定性絕對(duì)值越大,證明該變量的可靠性越高。對(duì)所有波長(zhǎng)點(diǎn)計(jì)算穩(wěn)定性后結(jié)果見(jiàn)圖5。選擇穩(wěn)定性大于4的17條波長(zhǎng):504.963,536.927,578.408,579.815,582.979,583.330,584.032,584.383,584.735,611.630,612.325,612.673,613.020,513.367,615.450,615.797,633.087 nm。
圖3 模型預(yù)測(cè)輸出
表1 不同模型的預(yù)測(cè)效果
圖4 隨機(jī)青蛙平均概率
2.3.3 競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)法 通過(guò)自適應(yīng)重加權(quán)采樣法去掉PLS模型中回歸系數(shù)絕對(duì)值權(quán)重較小的波長(zhǎng)點(diǎn),得到的結(jié)果見(jiàn)圖6,從427個(gè)波長(zhǎng)點(diǎn)中提取出了20個(gè)波長(zhǎng)點(diǎn),分別為500.265,513.977,523.681,557.213,560.757,568.184,584.383,588.944,596.644,606.064,610.935,614.409,618.225,619.957,621.342,635.153,637.563,639.282,641.687,649.574 nm。
圖5 UVE對(duì)樣品穩(wěn)定性值的計(jì)算結(jié)果
圖6 CARS特征波長(zhǎng)分布
表2 不同特征波長(zhǎng)提取方法下的模型預(yù)測(cè)效果
應(yīng)用多光譜圖像技術(shù)獲取羊肉和摻假羊肉在350~1 100 nm 波段下的反射率,建立偏最小二乘、BP神經(jīng)網(wǎng)絡(luò)、最小二乘支持向量機(jī)3種定量判別模型,并通過(guò)粒子群算法算法對(duì)最小二乘支持向量機(jī)的兩個(gè)參數(shù)進(jìn)行優(yōu)化后建立模型,通過(guò)比較預(yù)測(cè)結(jié)果可知,最小二乘支持向量機(jī)在3種常用模型中的預(yù)測(cè)結(jié)果最優(yōu),使用粒子群算法優(yōu)化最小二乘支持向量機(jī)后,模型預(yù)測(cè)效果顯著提升。采用隨機(jī)青蛙、無(wú)信息變量消除法、競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)法對(duì)500~650 nm波段下的數(shù)據(jù)提取特征波長(zhǎng)后建立偏最小二乘模型,結(jié)果顯示模型預(yù)測(cè)效果整體提升,其中基于無(wú)信息變量消除法提取特征波長(zhǎng)建立的模型預(yù)測(cè)結(jié)果最好。
試驗(yàn)還需進(jìn)一步完善,擴(kuò)充樣本數(shù)量,對(duì)羊肉不同部位的肉作進(jìn)一步研究和區(qū)分,增加不同種類動(dòng)物的肉與羊肉摻雜,擴(kuò)大模型的應(yīng)用范圍。