呂銣麟,何洪源,賈鎮(zhèn),王書樾,何偉文
(中國人民公安大學(xué) 偵查學(xué)院,北京 100083)
速食面是一種烹制方便、省時的深加工食品,由于其原材料、加工方式和生產(chǎn)設(shè)備的不同,微量元素的含量常常具有顯著差異[1]。根據(jù)速食面中微量元素指紋快速識別品牌,可以對速食品質(zhì)量監(jiān)管帶來很大的便利。
常見的食品微量元素檢測方法有原子吸收光譜法、原子熒光光譜法、X射線熒光光譜法和電感耦合等離子體質(zhì)譜法(ICP-MS)[2-5]。其中ICP-MS檢測限低,是目前食品微量元素分析中最常用的檢測方法[6-7]。本研究使用ICP-MS檢測16種品牌速食面中的5種微量元素,使用3種降維方法對結(jié)果進(jìn)行可視化分析,對比了5種機(jī)器學(xué)習(xí)算法的分類識別準(zhǔn)確率,為速食面品牌識別提供了可行性方法。
濃硝酸(68%)、雙氧水(30%)均為UPS級;高純氦He(≥99.999%);高純氬Ar(≥99.999%); ICP-MS混合內(nèi)標(biāo)儲備液、ICP-MS多元素混合標(biāo)準(zhǔn)品均為安捷倫科技有限公司。
7800型電感耦合等離子體質(zhì)譜儀(ICP-MS);DKQ-1800 智能控溫電加熱器;Synergy超純水系統(tǒng)。
購買市面上常見品牌的速食面16種,品牌和對應(yīng)編號見表1。
表1 速食面品牌信息Table 1 Instant noodle brand information
主要原料為小麥。準(zhǔn)確稱取每種品牌的速食面0.2 g,碾碎后置于50 mL離心管中,加入4 mL 68%硝酸和1 mL 30%過氧化氫[8],置于電加熱器中80 ℃恒溫消解2 h,后冷卻至室溫。每種品牌的檢材采集7份,其中6份用于可視化分析和訓(xùn)練集樣本,1份用作測試集樣本。每份樣品平行測定3次。
使用超純水將10 μg/mL Cr、Mn、As、Cd、Pb多元素混合標(biāo)準(zhǔn)品逐級稀釋至0,0.1,0.5,2,5,10,50,100 ng/mL的標(biāo)準(zhǔn)使用液。使用超純水將100 μg/mL 混合內(nèi)標(biāo)稀釋至10 μg/mL的內(nèi)標(biāo)使用液。
射頻功率1 500 W,冷卻氣流量15.0 L/min,載氣流量1.0 L/min,輔助氣流量1.0 L/min,采樣深度8.5 mm,分析模式為碰撞反應(yīng)池,重復(fù)采樣3次,數(shù)據(jù)采集模式為跳峰采集,內(nèi)標(biāo)元素選擇72Ge、103Rh和209Bi。
數(shù)據(jù)降維和特征提取能夠?qū)θ唠s的數(shù)據(jù)進(jìn)行精簡和可視化分析[9-10]。有監(jiān)督的機(jī)器學(xué)習(xí)分類識別方法在農(nóng)作物品種鑒定、產(chǎn)地溯源等方面應(yīng)用廣泛[11-12]。本研究中可視化分析和化學(xué)計量學(xué)建模使用Matlab 2019b軟件實(shí)現(xiàn)。使用該軟件對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行主成分分析降維、非負(fù)矩陣分解和t-SNE降維,并將降維結(jié)果可視化。樸素貝葉斯模型[13]的預(yù)測參數(shù)分布選擇高斯分布;K-最近鄰模型[14]距離度量方式選擇歐氏距離,臨近點(diǎn)個數(shù)為1;支持向量機(jī)[15]核函數(shù)選擇二次多項式,多類分類方法為一對一;集成學(xué)習(xí)的集成方法為子空間判別(ESM),學(xué)習(xí)器數(shù)量為30,子空間維度為3;決策樹判別模型[16]最大分類數(shù)設(shè)定為100,分裂準(zhǔn)則為基尼系數(shù)。所有模型訓(xùn)練集交叉驗(yàn)證折數(shù)為7折。
使用0,0.1,0.5,2,5,10,50,100 ng/mL 8個濃度梯度的Cr、Mn、As、Cd、Pb混合標(biāo)準(zhǔn)使用液依次進(jìn)樣,以濃度為橫坐標(biāo),響應(yīng)強(qiáng)度為縱坐標(biāo)建立回歸曲線,結(jié)果見表2。
表2 5種元素的線性方程及相關(guān)系數(shù)Table 2 Linear equation and correlation coefficient of five elements
由表2可知,線性擬合效果良好,相關(guān)系數(shù)均達(dá)到0.999 9。
使用ICP-MS檢測16種品牌速食面中的5種元素,每個品牌采集7份樣品,其中6份用于可視化分析和訓(xùn)練集樣本,1份用作測試集樣本,其中每份樣品測定3次,所得數(shù)據(jù)的相對標(biāo)準(zhǔn)偏差均小于15%,檢測結(jié)果具有準(zhǔn)確性。將每個品牌速食面的6份分析樣品求平均,結(jié)果見表3。
表3 各品牌速食面5種元素平均濃度Table 3 Average concentrations of five elements in instant noodles of different brands
為了更加直觀的觀察16種品牌的速食面之間5種元素濃度的差異,使用了3種數(shù)據(jù)降維方法并將結(jié)果可視化表示。
使用MATLAB 2019b軟件對數(shù)據(jù)進(jìn)行主成分分析降維,各主成分的貢獻(xiàn)率及累計貢獻(xiàn)率見表4。
表4 各主成分的貢獻(xiàn)率和累計貢獻(xiàn)率Table 4 The contribution rate and cumulative contribution rate of each principal component
由表4可知,選取前3個主成分后,能夠保留80.230 2%的數(shù)據(jù)信息,如果選取4個主成分,累計貢獻(xiàn)率能達(dá)到93.956 1%。5種元素的主成分載荷見表5。
表5 5種元素的主成分載荷Table 5 Principal component loads of five elements
由表4和表5可知,第一主成分主要反映了Mn和Pb元素濃度的差異信息,與Mn、Pb濃度均呈正相關(guān),方差貢獻(xiàn)率為39.398 0%;第二主成分主要反映了As和Cd的數(shù)據(jù)信息,與As濃度呈負(fù)相關(guān)、與Cd濃度呈正相關(guān),方差貢獻(xiàn)率為25.093 6%;主成分3主要反應(yīng)了Cr元素的元素濃度信息,方差貢獻(xiàn)率為15.738 6%。取前3組主成分,繪制三維分布圖,可以直觀看出16種品牌大多存在明顯差異,見圖1。
圖1 PCA降維結(jié)果可視化Fig.1 PCA dimensionality reduction visualization classification result
再嘗試使用以各種距離度量為標(biāo)準(zhǔn)的t-SNE降維方法對元素數(shù)據(jù)進(jìn)行處理,以獲得更好的分離效果。4種距離度量標(biāo)準(zhǔn)分別為:歐幾里得距離(Euclidean Distance)、切比雪夫距離(Chebyshev Distance)、余弦距離(Cosine Distance)和馬氏距離(Mahalanobis Distance)。對于同類數(shù)據(jù)維度差異較大的數(shù)據(jù)集,常使用馬氏距離和余弦距離度量標(biāo)準(zhǔn)進(jìn)行t-SNE降維。4種度量標(biāo)準(zhǔn)下的t-SNE降維結(jié)果見圖2。
圖2 4種度量標(biāo)準(zhǔn)下的t-SNE降維結(jié)果Fig.2 t-SNE dimension reduction results under four metrics
由圖2可知,馬氏距離與余弦距離度量標(biāo)準(zhǔn)能獲得更好的分離效果。
最后使用非負(fù)矩陣分解法進(jìn)行數(shù)據(jù)降維[17],其主要理論依據(jù)是每一個矩陣V(F×N)都可以表示為兩個較小矩陣的乘積,如公式:
V(F×N)≈W(F×K)×H(K×N)
F、N、K是這些矩陣的維度。兩個較小矩陣分別包括特征和權(quán)重,也就是說,原始矩陣被分解為特征矩陣及其對應(yīng)的權(quán)重矩陣。保留特征矩陣結(jié)果作為數(shù)據(jù)降維結(jié)果,見圖3。
圖3 NMF降維結(jié)果可視化Fig.3 Dimension reduction results of NMF
由圖3可知,非負(fù)矩陣分解法可以對16種品牌的速食面進(jìn)行很好的區(qū)分,可視化分類結(jié)果比主成分分析法和t-SNE法更佳。
使用樸素貝葉斯判別模型、K-最近鄰模型、支持向量機(jī)模型、子空間判別模型和決策樹模型對速食面品牌進(jìn)行分類,ACC(train)、ACC(CV)和ACC(test)分別代表訓(xùn)練集準(zhǔn)確率、交叉驗(yàn)證準(zhǔn)確率和測試集準(zhǔn)確率,結(jié)果見表6。
表6 5種分類模型識別準(zhǔn)確率Table 6 Recognition accuray of five classification models
由表6可知,5種判別模型的ACC(train)都達(dá)到了100%,貝葉斯判別模型、子空間判別模型的ACC(CV)達(dá)到了100%。使用外部測試集進(jìn)行預(yù)測時,除K-最近鄰模型外,4種分類模型均達(dá)到了100%預(yù)測準(zhǔn)確率,說明5種分類模型均能達(dá)到較好的分類識別效果,其中貝葉斯判別模型和子空間判別模型分類識別能力最佳,K-最近鄰模型和決策樹模型分類識別能力稍弱。
KNN模型和DT模型交叉驗(yàn)證的分類情況見圖4、圖5。
圖4 KNN模型交叉驗(yàn)證結(jié)果錯配情況Fig.4 Cross validation mismatch results of KNN model
圖5 DT模型交叉驗(yàn)證結(jié)果錯配情況Fig.5 Cross validation mismatch results of DT model
由圖4、圖5可知,KNN模型中,96個訓(xùn)練集樣本在交叉驗(yàn)證過程中有5個發(fā)生了錯配;DT模型中,有12個樣本在交叉驗(yàn)證過程中發(fā)生了錯配。這兩種分類模型在該實(shí)驗(yàn)中識別準(zhǔn)確率較低。
將3種降維結(jié)果結(jié)合5種分類模型進(jìn)行速食面品牌識別,交叉驗(yàn)證準(zhǔn)確率見表7。
表7 3種降維方法結(jié)合5種分類模型的交叉驗(yàn)證準(zhǔn)確率Table 7 Cross validation accuracy of three dimensionality reduction methods combined with five classification models
由表7可知,非負(fù)矩陣分解法降維對比其他兩種降維方法有顯著的分類識別優(yōu)勢。與原始模型相比,非負(fù)矩陣分解后的數(shù)據(jù)與KNN模型結(jié)合提高了識別準(zhǔn)確率。
下一步應(yīng)擴(kuò)大樣本容量,嘗試對更多的食品進(jìn)行溯源研究。
測定16種市售速食面中5種微量元素的分布,結(jié)合多元統(tǒng)計學(xué)降維方法,進(jìn)行了可視化分析和基于機(jī)器學(xué)習(xí)的分類識別??梢暬Y(jié)果顯示,非負(fù)矩陣分解法降維效果最好,t-SNE降維與主成分分析降維方法次之。分類識別結(jié)果表明,K-最近鄰模型、決策樹模型識別能力較差,ACC(CV)分別為了93.8%和87.5%;貝葉斯判別模型和自空間判別效果最好,ACC(train)、ACC(CV)和ACC(test)均達(dá)到了100%,可以實(shí)現(xiàn)對市售速食面品牌的準(zhǔn)確識別。對使用3種降維方法后的數(shù)據(jù)進(jìn)行分類識別,結(jié)果表明使用非負(fù)矩陣分解法降維后,仍能保持較高的分類識別準(zhǔn)確率,其中非負(fù)矩陣分解降維與K-最近鄰模型結(jié)合,交叉驗(yàn)證識別率達(dá)到100%。說明使用ICP-MS測定速食面中微量元素分布,結(jié)合機(jī)器學(xué)習(xí)分類識別方法,可以準(zhǔn)確、有效的識別市售速食面品牌,為食品安全監(jiān)測過程中未知來源的速食面溯源提供了思路和方法。