張浩, 劉振, 王玲,胡建東
(1.河南農(nóng)業(yè)大學(xué)機(jī)電工程學(xué)院,河南 鄭州 450002;2.河南省農(nóng)業(yè)激光技術(shù)國(guó)際聯(lián)合實(shí)驗(yàn)室,河南 鄭州 450002)
食用明膠是由動(dòng)物的新鮮原皮和骨骼經(jīng)過(guò)復(fù)雜工序提取出膠原蛋白并水解加工而成的。由于其蛋白質(zhì)含量高,無(wú)脂肪和無(wú)膽固醇,目前主要作為食品增稠劑、膠凝劑和粘合劑被廣泛應(yīng)用于食品工業(yè)中。食用明膠通常來(lái)源于豬皮、豬骨、牛皮、牛骨、魚(yú)皮、魚(yú)鱗等,不同來(lái)源食用明膠的二級(jí)結(jié)構(gòu)和重金屬含量是不同的,導(dǎo)致不同來(lái)源食用明膠的用途也有所差異[1-2]。因此,對(duì)于食品生產(chǎn)者來(lái)說(shuō),需要知道確切的食用明膠來(lái)源,以便于在食品制作過(guò)程中合理使用不同來(lái)源的食用明膠,制作出符合國(guó)家標(biāo)準(zhǔn)的明膠類食品,同時(shí)也能滿足不同消費(fèi)者的口味需求,有利于保護(hù)消費(fèi)者的利益。目前,僅從色澤、氣味等方面來(lái)考慮,很難區(qū)分出不同來(lái)源的食用明膠,因此需要一種快速有效的方法實(shí)現(xiàn)食用明膠品種的溯源研究。
食用明膠的傳統(tǒng)檢測(cè)方法包括液相色譜法、質(zhì)譜法、電泳法、酶聯(lián)免疫法等,盡管這些方法具有較高的檢測(cè)靈敏度和精度,但是需要昂貴的儀器和復(fù)雜的樣品前處理、比較耗時(shí)[3-5]。近紅外光譜技術(shù)(Near Infrared Reflectance Spectroscopy,NIRS)作為一種快速無(wú)損的方法,目前被廣泛地應(yīng)用到食品領(lǐng)域中[6-8]。通過(guò)研究明膠的理化特性,NIRS已經(jīng)被用于食用明膠的檢測(cè)中。SEGTNAN等[9]采用近紅外光譜對(duì)豬明膠和牛明膠的理化參數(shù)如凍力(Bloom 值)、黏度、pH值和水分含量進(jìn)行預(yù)測(cè);DUCONSEILLE等[10]利用近紅外光譜技術(shù)和熒光光譜技術(shù),實(shí)現(xiàn)了對(duì)明膠在老化過(guò)程中分子變化的監(jiān)測(cè);張浩等[11]利用近紅外光譜對(duì)6種不同摻雜比例的食用明膠進(jìn)行檢測(cè),通過(guò)采用不同模式識(shí)別方法實(shí)現(xiàn)了摻假食用明膠的精準(zhǔn)識(shí)別。CEBI等[12]采用傅里葉變換紅外光譜技術(shù)結(jié)合主成分-聚類分析方法實(shí)現(xiàn)豬明膠、牛明膠和魚(yú)明膠的較好區(qū)分。目前的研究中主要對(duì)動(dòng)物皮膠進(jìn)行檢測(cè),缺少對(duì)骨膠的檢測(cè)。另外,大部分研究主要采用無(wú)監(jiān)督學(xué)習(xí)方法如主成分分析法對(duì)食用明膠進(jìn)行分析,分類準(zhǔn)確率有待進(jìn)一步提高。在此基礎(chǔ)上,本研究擬采用近紅外光譜技術(shù)結(jié)合3種機(jī)器學(xué)習(xí)方法對(duì)5種不同來(lái)源的食用明膠(豬皮、豬骨、牛皮、牛骨、魚(yú)皮)進(jìn)行鑒別研究。
實(shí)驗(yàn)所用5種不同來(lái)源的食用明膠(豬皮、豬骨、牛皮、牛骨、魚(yú)皮)購(gòu)置于廈門(mén)康寶生物科技有限公司,其凍力(Bloom值)分別為220,200,220,250,250。明膠樣品用實(shí)驗(yàn)室粉碎機(jī)(拜杰BJ-800A)磨成粉末,然后用100目篩進(jìn)行過(guò)濾。隨后,將每種明膠源稱重5 g,放入壓片機(jī)(YP-30T,天津市金孚倫科技有限公司)的模具中,將壓力保持在30 MPa,3 min后壓成明膠片。在此過(guò)程中,為了避免污染和干擾,每次樣品制備后都要清洗模具。每種明膠源制備120個(gè)明膠片,共得到600個(gè)。明膠片的厚度和直徑分別為4.5 mm和35 mm。
實(shí)驗(yàn)所采用的近紅外光譜測(cè)量裝置由鹵鎢燈光源(HL-2000,海洋光學(xué))、光纖可調(diào)衰減器,分叉式光纖反射探頭和近紅外光譜儀(NIRQuest 256,海洋光學(xué))等構(gòu)成,如圖1所示。其中光源的波長(zhǎng)范圍為360~2 400 nm,近紅外光譜儀的光譜范圍為900~2 500 nm。光纖反射探頭由7根芯徑為600 μm的光纖組成,其中一根連接光源,用于傳輸入射光,另外的6根連接近紅外光譜儀,用于收集反射光。實(shí)驗(yàn)過(guò)程中,光譜每隔3 nm采集一個(gè)點(diǎn),每次平均3次,積分時(shí)間設(shè)置為100 ms,平滑度設(shè)置為10。
圖1 明膠近紅外光譜測(cè)量裝置 Fig.1 NIR spectral measurement system of gelatin tablets
本研究分別采用支持向量機(jī)(Support Vector Machine,SVM)、隨機(jī)森林(Random Forest,RF)、和反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network,BPNN)3種機(jī)器學(xué)習(xí)算法建立明膠識(shí)別模型。3種模型的建立過(guò)程均采用Matlab程序,其中SVM建?;诹种侨实萚13]開(kāi)發(fā)的LIBSVM工具箱編寫(xiě)的Matlab程序,RF建?;贘aiantilal開(kāi)發(fā)的RF_MexStandalone-v0.02工具箱編寫(xiě)的Matlab程序, BPNN建模采用Matlab軟件人工神經(jīng)網(wǎng)絡(luò)工具箱編寫(xiě)的Matlab程序,所有Matlab程序均在MATLAB R2017a軟件下運(yùn)行。
為了降低由于儀器、樣本和環(huán)境因素對(duì)光譜造成的噪聲干擾,提高光譜信噪比,近紅外光譜數(shù)據(jù)依次通過(guò)Savitzky-Golay(SG)平滑去噪、多元散射校正和最大最小歸一化方法進(jìn)行預(yù)處理,其中SG平滑方法采用12個(gè)點(diǎn)的窗口寬度和三次多項(xiàng)式擬合。圖2為測(cè)量所得5種不同來(lái)源明膠樣品的預(yù)處理平均光譜,選取光譜波段范圍為1 100~2 200 nm,可以看出其光譜形狀基本上是相同的,只是個(gè)別波長(zhǎng)處的吸收存在差異。圖中明膠近紅外光譜具有一些比較明顯的特征吸收峰,主要由明膠中一些特定的化學(xué)官能團(tuán)的振動(dòng)所造成的,如CH、OH、NH等。水分子的特征吸收峰位于1 490 nm 和1 930 nm左右,主要是由O—H基團(tuán)的泛頻和組頻吸收帶造成的[9,14]。此外,1 200 nm 和1 730 nm的峰值是由明膠中C—H基團(tuán)的泛頻和組頻吸收帶產(chǎn)生的,源自于明膠中芳香族氨基酸[14]。而2 000~2 100 nm的峰值主要來(lái)自于N—H的組頻吸收帶,源自于明膠中蛋白質(zhì)的側(cè)鏈[9,14,15]。
圖2 5種不同來(lái)源明膠樣品的歸一化近紅外光譜 Fig.2 Normalized NIR spectra from 5 different kinds of gelatin samples
為了建立合適的識(shí)別模型并評(píng)價(jià)模型的有效性,光譜數(shù)據(jù)被分為訓(xùn)練集和驗(yàn)證集,其中訓(xùn)練集用來(lái)建立識(shí)別模型,驗(yàn)證集用來(lái)檢驗(yàn)?zāi)P偷挠行?。本研究采用十折交叉?yàn)證(10-fold cross validation)方法從600個(gè)明膠樣品中選擇531個(gè)樣本作為訓(xùn)練集,剩余的69個(gè)樣本作為驗(yàn)證集。
2.2.1 SVM模型 由于每條近紅外光譜共432個(gè)數(shù)據(jù)點(diǎn),建模時(shí)不僅計(jì)算量大,而且會(huì)影響分類的精準(zhǔn)性。這里采用競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(Competitive Adaptive Reweighted Sampling,CARS)方法從432個(gè)波長(zhǎng)變量選取特征波長(zhǎng)變量。本文中,CARS的初始化參數(shù)設(shè)置為:最大主成分?jǐn)?shù)A=10,交叉驗(yàn)證組數(shù)K=10,最大蒙特卡洛(Monte Carlo,MC)采樣運(yùn)行次數(shù)N=50。如圖2所示,隨著MC采樣運(yùn)行次數(shù)的增加(圖3a),被篩選出來(lái)的變量數(shù)逐漸減小,而交叉驗(yàn)證均方根誤差(RMSECV)出現(xiàn)先降低會(huì)升高的趨勢(shì)(圖3b)。在第24次采樣時(shí)(圖3c),RMSECV值最小,隨后開(kāi)始回升,表明此時(shí)篩選出的波長(zhǎng)變量數(shù)最優(yōu),共31個(gè)波長(zhǎng)變量。如圖3d所示,優(yōu)選的31個(gè)波長(zhǎng)變量包含了大部分圖1所示的特征吸收峰值。
圖3 基于CARS的近紅外光譜特征變量篩選Fig.3 Feature variable selection of NIR spectra based on CARS
由于SVM模型參數(shù)將極大影響模型的預(yù)測(cè)正確率,因此需要尋找最優(yōu)的懲罰因子C與核函數(shù)參數(shù)γ。本次研究中,網(wǎng)格尋優(yōu)算法(Grid Search,GS)被用來(lái)獲得最優(yōu)的C和γ,并建立相應(yīng)的SVM模型。最優(yōu)的C和γ通過(guò)交叉驗(yàn)證準(zhǔn)確率的大小來(lái)確定,如圖4a所示,當(dāng)C=256,γ=3.03時(shí),訓(xùn)練模型可以得到最優(yōu)的交叉驗(yàn)證準(zhǔn)確率為98.68%。在優(yōu)化參數(shù)情況下,將所建SVM模型作用于驗(yàn)證集得到的混淆矩陣如圖4b所示,可以看出魚(yú)皮明膠有一個(gè)樣品被錯(cuò)誤分成牛骨明膠,使得驗(yàn)證集的總體準(zhǔn)確率為98.55%(68/69)。根據(jù)驗(yàn)證集混淆矩陣得到的4個(gè)模型評(píng)價(jià)指標(biāo)值如表1所示,可以看出驗(yàn)證集的平均準(zhǔn)確率、精確率、召回率和F1-score均高于98%,表明SVM模型對(duì)于5種不同來(lái)源的明膠具有較好的識(shí)別能力。
a.基于GS方法的SVM模型參數(shù)的優(yōu)化;b.基于SVM模型的驗(yàn)證集混淆矩陣。a.Parameter optimization of SVM model based on GS method; b.Confusion matrix of validation set based on SVM model.
表1 基于驗(yàn)證集混淆矩陣的SVM模型評(píng)價(jià)指標(biāo)Table 1 The evaluation indicators of SVM model based on confusion matrix of validation set
2.2.2 RF模型 RF模型建立過(guò)程中,由于隨機(jī)森林所包含的決策樹(shù)個(gè)數(shù)ntree和構(gòu)建決策樹(shù)分支時(shí)隨機(jī)抽樣的變量個(gè)數(shù)mtry這兩個(gè)參數(shù)影響RF模型的準(zhǔn)確性,需要選擇合適的ntree和mtry以有效降低模型的預(yù)測(cè)錯(cuò)誤率。ntree和mtry值對(duì)RF模型性能的影響可以由袋外(Out of Bag,OOB)錯(cuò)誤率和預(yù)測(cè)準(zhǔn)確率確定,通常情況下,ntree值越大,OOB錯(cuò)誤率越穩(wěn)定,但運(yùn)行時(shí)間越長(zhǎng);mtry越大,OOB錯(cuò)誤率越低。默認(rèn)情況下,ntree的值為500,mtry的取值范圍在1到m之間,其中m為數(shù)據(jù)集變量個(gè)數(shù)的平方根。如圖5a所示,隨著決策樹(shù)個(gè)數(shù)增加,OOB錯(cuò)誤率逐漸減小,當(dāng)ntree超過(guò)200以后,OOB誤差率基本保持穩(wěn)定。綜合考慮ntree值對(duì)OOB錯(cuò)誤率穩(wěn)定性和運(yùn)行時(shí)間的影響,本文中選擇默認(rèn)值500作為ntree的最優(yōu)值。當(dāng)ntee=500時(shí),隨著mtry值的增加,RF模型的準(zhǔn)確率和運(yùn)行時(shí)間變化如圖5b所示,可以看出當(dāng)mtry=8時(shí),RF模型獲得最高的準(zhǔn)確率和較少的運(yùn)行時(shí)間。
a.RF模型中決策樹(shù)個(gè)數(shù)ntree的優(yōu)化;b.最優(yōu)決策樹(shù)個(gè)數(shù)ntree=500時(shí),RF模型變量個(gè)數(shù)mtry的優(yōu)化。 a.The optimization of ntree in RF model; b.The optimization of mtry in RF model when ntree is 500.
本研究采用平均精確度下降(Mean decrease accuracy)和平均基尼指數(shù)下降(Mean decrease of Gini index)來(lái)判斷波長(zhǎng)變量中的特征重要性,某一變量的這2個(gè)參數(shù)值越大,表明該變量的重要性越大。如圖6所示,可以判斷出RF模型中重要性較大的波長(zhǎng)基本包含了圖2所示的特征吸收峰值。
圖6 RF模型中的波長(zhǎng)變量重要性 Fig.6 Wavelength variable importance of RF model
以ntree=500,mtry=8作為最優(yōu)參數(shù)建立隨機(jī)森林模型,獲得的驗(yàn)證集預(yù)測(cè)結(jié)果如圖7所示,從混淆矩陣中可以看出,有兩個(gè)明膠樣品被錯(cuò)誤分類,其中一個(gè)豬皮明膠樣品被錯(cuò)誤識(shí)別為牛骨明膠,一個(gè)魚(yú)皮明膠樣品被錯(cuò)誤識(shí)別為牛皮明膠,使得RF模型的總體準(zhǔn)確率為97.1%(67/69)。根據(jù)驗(yàn)證集混淆矩陣得到的4個(gè)模型評(píng)價(jià)指標(biāo)值如表2所示,其平均準(zhǔn)確率、精確率、召回率和F1-score均高于96%,表明RF模型的識(shí)別能力稍微弱于SVM模型,盡管如此,RF模型也展示了較好的明膠識(shí)別能力。
圖7 基于RF模型的驗(yàn)證集混淆矩陣Fig.7 Confusion matrix of validation set based on RF model
表2 基于驗(yàn)證集混淆矩陣的RF模型評(píng)價(jià)指標(biāo)Table 2 The evaluation indicators of RF model based on confusion matrix of validation set
a.BPNN模型隱含層節(jié)點(diǎn)數(shù)的優(yōu)化;b.基于BPNN模型的驗(yàn)證集混淆矩陣。a.Optimization of the number of hidden layer nodes in BPNN model; b.Confusion matrix of validation set based on BPNN model.
2.2.4 3種識(shí)別模型的比較 研究結(jié)果表明,利用SVM、RF和BPNN這3種識(shí)別模型均能較好的進(jìn)行明膠品種溯源分析,其驗(yàn)證集的總體正確識(shí)別率分別為98.55%、97.1%和100%。圖9所示為3種識(shí)別模型的比較,從圖9a所示的分類模型效果評(píng)估指標(biāo)可以判斷出BPNN模型要明顯優(yōu)于其他兩種模型,能夠?qū)崿F(xiàn)對(duì)5種不同來(lái)源明膠樣品的完全識(shí)別,而SVM模型要優(yōu)于RF模型。圖9b所示為3種模型的運(yùn)行時(shí)間(或運(yùn)算速度),可以看出BPNN模型的運(yùn)算速度(2.4 s)同樣優(yōu)于其他2種模型,而RF模型的運(yùn)算速度要由于SVM模型。因此,從分類模型的準(zhǔn)確率、精確率、召回率、F1-score和運(yùn)算速度等方面來(lái)分析,BPNN模型均展現(xiàn)出了最優(yōu)的識(shí)別性能。
a.評(píng)估指標(biāo)的比較;b.運(yùn)行時(shí)間的比較a.Comparison of evaluation indicators; b.Comparison of run time
針對(duì)目前食品工業(yè)中存在的不同來(lái)源食用明膠難以區(qū)分問(wèn)題,本研究采用近紅外光譜測(cè)量裝置獲得5種不同來(lái)源明膠樣品的近紅外吸收光譜,通過(guò)SG平滑去噪和最大最小歸一化方法進(jìn)行預(yù)處理,采用3種機(jī)器學(xué)習(xí)方法建立分類模型研究明膠品種溯源的可行性。研究結(jié)果表明,這3種識(shí)別模型對(duì)不同來(lái)源食用明膠均具有較好的識(shí)別能力,驗(yàn)證集的總體正確識(shí)別率均達(dá)到97%以上,相比之下,BPNN模型具有最優(yōu)的識(shí)別效果,其驗(yàn)證集總體正確識(shí)別率為100%,能夠?qū)崿F(xiàn)對(duì)5種不同來(lái)源明膠樣品的完全識(shí)別,而且其運(yùn)算速度最快。與傳統(tǒng)方法相比,近紅外光譜技術(shù)簡(jiǎn)單、便攜、成本低、無(wú)需復(fù)雜的樣品處理,可以實(shí)現(xiàn)無(wú)損快速檢測(cè)。此外,本研究采用3種有監(jiān)督學(xué)習(xí)方法進(jìn)行明膠識(shí)別,可以獲得更好的識(shí)別精度。因此,本研究中近紅外光譜技術(shù)結(jié)合機(jī)器學(xué)習(xí)方法用于快速準(zhǔn)確地實(shí)現(xiàn)食用明膠品種溯源是完全可行且有效的。該研究方法也可以用于食用明膠的質(zhì)量檢測(cè)和摻假研究中,同時(shí)也為其他食品或添加劑的安全檢測(cè)提供了研究思路。
河南農(nóng)業(yè)大學(xué)學(xué)報(bào)2021年3期