李慶波, 畢智棋, 石冬冬
1. 北京航空航天大學(xué)儀器科學(xué)與光電工程學(xué)院, 精密光機電一體化技術(shù)教育部重點實驗室, 北京 100191 2. 中國農(nóng)業(yè)科學(xué)院飼料研究所, 北京 100081
隨著國內(nèi)養(yǎng)殖業(yè)機械化、 專業(yè)化程度的發(fā)展, 養(yǎng)殖規(guī)模飛速擴大, 中國魚粉市場不僅對魚粉的需求量越來越多, 也對魚粉的品質(zhì)提出了更高的要求。 而中國的飼料企業(yè)如何選擇品質(zhì)好, 質(zhì)量高的魚粉是現(xiàn)在面臨的困難與考驗[1]。 魚粉質(zhì)量差異決定了飼養(yǎng)物能否獲得充足營養(yǎng), 魚粉產(chǎn)地眾多, 品質(zhì)參差不齊, 有不法商家以次充好, 用劣質(zhì)進口魚粉或國產(chǎn)魚粉冒充優(yōu)質(zhì)進口魚粉, 來獲取更大的利潤[2]。 為了避免這種危害市場秩序的行為需要對魚粉產(chǎn)地進行溯源研究。
近紅外光譜能夠反映物質(zhì)化學(xué)組成成分的性質(zhì)和含量[3-4], 因此采用近紅外光譜技術(shù)對魚粉產(chǎn)地進行溯源識別。 2015年, 宋濤[5]等基于近紅外光譜技術(shù)對市場上常見的淡水魚粉、 進口魚粉和國產(chǎn)魚粉三類商品化的魚粉樣品進行自動化判別實驗。 通過分析魚粉樣品光譜之間的差異, 采用主成分分析法建立魚粉種類定性判別的分類模型。 Cozzolino D[6]等采用改進的偏最小二乘回歸方法建立近紅外光譜校準(zhǔn)模型, 預(yù)測決定魚粉質(zhì)量的化學(xué)成分。 目前國內(nèi)外關(guān)于魚粉產(chǎn)地溯源文獻較少, 主要集中于進口魚粉、 國產(chǎn)魚粉的大類判別或蛋白質(zhì)、 水分、 鹽等魚粉化學(xué)成分含量的定量檢測, 其實這種劃分十分粗糙, 原產(chǎn)地不同的進口魚粉之間差異極大, 而即使是國產(chǎn)魚粉, 原產(chǎn)地不同時其質(zhì)量差異也十分顯著。 由于采集大量原產(chǎn)地明確且沒有摻雜的進口魚粉比較難, 本研究首先以產(chǎn)地來源明確的國產(chǎn)魚粉為實驗對象, 對魚粉產(chǎn)地溯源進行了研究。 采用灰狼算法[7-9]優(yōu)化的支持向量機建立預(yù)測模型對國產(chǎn)魚粉進行更詳細的產(chǎn)地區(qū)分。 采用支持向量機比偏最小二乘回歸和主成分分析法等更適用于魚粉的定性分析。 灰狼算法尋找支持向量機的關(guān)鍵參數(shù)具有速度快, 精確度高的優(yōu)點, 使魚粉產(chǎn)地溯源結(jié)果更加準(zhǔn)確。 建立灰狼優(yōu)化算法的支持向量機預(yù)測模型對魚粉產(chǎn)地進行溯源, 防止使用低質(zhì)量產(chǎn)地的魚粉冒充高質(zhì)量產(chǎn)地的魚粉, 對魚粉產(chǎn)業(yè)規(guī)范化及飼養(yǎng)行業(yè)穩(wěn)定發(fā)展都具有推動作用和意義。
共采集144份國產(chǎn)魚粉, 其中產(chǎn)地為遼寧大連58份、 山東威海46份、 山東榮成30份, 浙江溫嶺10份, 隨機選取每種樣品的70%作為建模訓(xùn)練樣本集, 30%作為測試樣品集(表1)。
表1 魚粉樣品測試訓(xùn)練分組情況
實驗采用德國布魯克公司的MATRIX-I型近紅外光譜儀。 首先預(yù)熱儀器半小時, 以保證儀器運行的穩(wěn)定性; 其次, 設(shè)置實驗參數(shù)為: 反射模式下光譜采集間隔為1 nm、 掃描波段為3 700~12 500 cm-1、 掃描次數(shù)64, 每個樣本掃描兩次。 所有實驗均采取相同的掃描方法, 并且在相同的實驗參數(shù)下進行。
由于采集到的近紅外光譜存在基線漂移和高頻噪聲, 需要對儀器采集獲得的原始光譜數(shù)據(jù)采取預(yù)處理改善。 采用多元散射校正對光譜進行基線校正, 采用小波變換對基線校正后的光譜進行平滑去噪, 消除高頻噪聲。
1.4.1 支持向量機
支持向量機[10]的原理是將高維數(shù)據(jù)映射為高維空間的點, 然后尋到一個超平面使高維數(shù)據(jù)分為兩類且兩類不同種類數(shù)據(jù)的間隔最大化。 而高維數(shù)據(jù)具有線性可分性則可以在該維度分類, 若具有線性不可分性則需要借助核函數(shù)將數(shù)據(jù)映射到更高維的空間分類。
首先將需要分類的數(shù)據(jù)以及數(shù)據(jù)的標(biāo)簽輸入分類器, 構(gòu)成特征空間。 設(shè)置數(shù)據(jù)與超平面的距離, 引入拉格朗日函數(shù)尋找最佳分類的超平面, 借助核函數(shù)簡化內(nèi)積運算。
采用高斯徑向基核函數(shù)式(1)
(1)
得到RBF-SVM分類模型式(2)
(2)
1.4.2 灰狼算法
傳統(tǒng)的尋找最佳參數(shù)方法是采用網(wǎng)格搜索法, 對懲罰因子和核函數(shù)半徑等需要選擇的參數(shù)在一個設(shè)置好范圍內(nèi)采取遍歷取值的方法, 經(jīng)過參數(shù)組合對比得出最優(yōu)結(jié)果。 遍歷取值搜索參數(shù)用時長, 精度由步長取值決定, 計算繁瑣。 灰狼算法對最佳參數(shù)選擇進行了優(yōu)化, 根據(jù)狼群捕食方式將捕食過程用數(shù)學(xué)方法表達出來。 首先是搜索獵物對獵物進行包圍階段, 狼群在獵物附近的空間范圍內(nèi)隨機活動。 隨機產(chǎn)生若干組參數(shù), 選出三條適應(yīng)度最好的狼即α狼、β狼、δ狼, 通過這三頭狼進行目標(biāo)參數(shù)預(yù)估, 進行多次迭代移動。
(3)
(4)
式(3)和式(4)中D為狼朝獵物移動的距離,X為狼所處的位置,t為迭代次數(shù),A和C是系數(shù)向量負責(zé)提供狼群移動的距離和方向,XP為獵物位置, 式(3)和式(4)是狼移動向量移動到下一代狼的位置。A和C根據(jù)式(5)和式(6)進行變化
(5)
(6)
式中a為由2線性衰減到0的向量,r1,r2為0到1之間的隨機向量。 通過隨機向量r1,r2, 更新后的狼到達獵物周圍一定范圍內(nèi)的隨機位置。 將頭三匹狼對獵物包圍之后其他狼朝頭狼們靠近。 公式如式(7)—式(13)
(7)
(8)
(9)
(10)
(11)
(12)
(13)
式(7)、 式(8)和式(9)分別代表ω狼朝適應(yīng)度最好的三頭狼移動距離, 式(10), 式(11)和式(12)是ω狼向其他三頭狼靠近的前進方向和距離, 式(13)為ω狼最終的位置。 最后當(dāng)滿足限制條件時對獵物發(fā)出攻擊, 最終α狼的位置就是目標(biāo)參數(shù)的位置。
圖1為不同產(chǎn)地魚粉的原始近紅外光譜曲線, 需經(jīng)預(yù)處理后, 再對產(chǎn)地進行判別, 圖2為多元散射校正后光譜曲線, 經(jīng)校正后消除基線漂移。 圖3為小波變換前后光譜曲線對比圖, 其中以波數(shù)為橫坐標(biāo), 范圍為3 700~12 500 cm-1, 光譜漫反射率為縱坐標(biāo)。 通過小波變換后, 在對光譜曲線平滑去噪的同時并沒有因此丟失原來信號的輪廓細節(jié), 并達到了消除高頻噪聲的目的。
圖1 魚粉樣品的原始近紅外光譜
圖2 多元散射校正后魚粉樣品的近紅外光譜圖
圖3 近紅外光譜小波變換前后對比
對四個產(chǎn)地魚粉光譜隨機選取每個產(chǎn)地樣品的70%作為建模訓(xùn)練樣本集, 30%作為測試樣品集進行十次平行實驗, 采用灰狼算法的支持向量機得到分類結(jié)果與相同條件下使用網(wǎng)格搜索法尋找懲罰因子和核半徑函數(shù)的支持向量機, 結(jié)果分別見表2和表3。
表2 GWO-SVM國產(chǎn)、 進口魚粉產(chǎn)地識別結(jié)果
表3 網(wǎng)格搜索法SVM國產(chǎn)、 進口魚粉產(chǎn)地識別結(jié)果
經(jīng)過十組平行實驗后, GWO-SVM識別魚粉產(chǎn)地為山東榮成、 山東威海、 遼寧大連的識別正確率相比網(wǎng)格搜索法分別提高13.33%, 5.71%和1.11%, GWO-SVM平均用時大幅縮減。 在魚粉產(chǎn)地進行多分類溯源時, 使用灰狼算法改進SVM相對于網(wǎng)格搜索法提高了識別的準(zhǔn)確度, 用時明顯縮短。
魚粉的產(chǎn)地不同導(dǎo)致各產(chǎn)地的魚粉所含有機物含量和組成不同, 導(dǎo)致各近紅外光譜存在一定差異, 通過多元散射校正和小波變換對光譜進行預(yù)處理, 采用灰狼優(yōu)化算法尋找支持向量機最佳懲罰因子和核函數(shù)半徑, 能夠?qū)︳~粉產(chǎn)地正確分類。 灰狼優(yōu)化算法相對與網(wǎng)格搜索法提高了搜索速度和準(zhǔn)確度, 對產(chǎn)地分類的正確率均達到95%以上。 試驗結(jié)果表明, 采用近紅外光譜技術(shù)可以快速準(zhǔn)確的對魚粉進行產(chǎn)地溯源。 所采用的灰狼算法結(jié)合支持向量機預(yù)測模型能夠獲得很好的分類結(jié)果, 為魚粉產(chǎn)地溯源提供了有效的方法和依據(jù)。