寇澤坤,陳國(guó)通,李思雨,楊 中,歐陽玲秀,龔 龑
(1.新疆維吾爾自治區(qū)分析測(cè)試研究院,新疆 烏魯木齊 830011;2.新疆大學(xué)紡織與服裝學(xué)院,新疆 烏魯木齊 830017;3.新疆農(nóng)業(yè)大學(xué)食品科學(xué)與藥學(xué)學(xué)院,新疆 烏魯木齊 830052;4.北京服裝學(xué)院材料設(shè)計(jì)與工程學(xué)院,北京 100029)
蜂蜜作為一種營(yíng)養(yǎng)豐富、用途廣泛的天然食品,不僅是一種營(yíng)養(yǎng)品,而且在醫(yī)用、藥用方面發(fā)揮著獨(dú)到的作用[1]。近年來,各種低制作成本的假蜂蜜悄然出現(xiàn)并流入市場(chǎng),造成局部市場(chǎng)蜂蜜產(chǎn)品魚龍混雜。蜂蜜造假的方式多種多樣,常見的有直接用糖漿和色素等制成假蜂蜜、真假蜂蜜混合制成摻假蜜、除去未成熟蜂蜜中的多余水分制成濃縮蜜和給蜜蜂喂養(yǎng)白糖等。其中真蜂蜜摻加假蜂蜜或糖漿的摻假方式較容易實(shí)現(xiàn),制出的摻假蜜形貌與味道變化不大,有些理化指標(biāo)還獲得了加強(qiáng)[2],也因此品嘗和肉眼觀察等方法不能直接準(zhǔn)確地分辨出真假[3]。
因?yàn)樘烊环涿鄣闹饕煞质枪恰⑵咸烟呛退?,故以其為主要成分的糖漿成為了摻假物的首選[4]。使用果糖、葡萄糖和蜂蜜香精等制成味道、形貌和理化指標(biāo)都和真蜂蜜相近的糖漿,并摻加到真蜂蜜中可以模擬摻假蜂蜜的制作過程。
GB 14963—2011《蜂蜜衛(wèi)生標(biāo)準(zhǔn)》規(guī)定了蜂蜜不同指標(biāo)對(duì)應(yīng)的檢測(cè)手段,諸如液相色譜、紫外光譜和液相色譜-質(zhì)譜聯(lián)用等?;谏鲜鰴z測(cè)手段不同程度存在前處理復(fù)雜或無法脫離實(shí)驗(yàn)室場(chǎng)景等缺點(diǎn),提出利用拉曼光譜技術(shù)結(jié)合化學(xué)計(jì)量學(xué)方法對(duì)摻加蜂蜜進(jìn)行現(xiàn)場(chǎng)快速鑒別的方法[5-6],并對(duì)數(shù)據(jù)分析模型進(jìn)行評(píng)價(jià)。
伊犁百信黑蜂蜂蜜、伊犁天山黑蜂結(jié)晶白蜜、唐布拉黑蜂薰衣草原蜜、尼勒克山花蜜。
果糖(分析純)上海藍(lán)季生物公司;葡萄糖(分析純)天津市盛奧化學(xué)試劑有限公司;蜂蜜香精可菲生物科技有限公司。
SSR-3000拉曼光譜檢測(cè)儀 南京簡(jiǎn)智儀器設(shè)備有限公司;AL204-IC電子天平 上海梅特勒-托利多儀器有限公司;SHA-CA水浴恒溫振蕩器 北京市光明醫(yī)療儀器有限公司;MS3basic微量振蕩器 德國(guó)IKA集團(tuán);石英進(jìn)樣瓶 安捷倫科技(中國(guó))有限公司。
1.3.1 樣本制作及采樣
1.3.1.1 真蜂蜜采樣
將4 種蜂蜜參照進(jìn)行GB 14963—2011的相關(guān)檢驗(yàn),證實(shí)樣品均屬于符合國(guó)標(biāo)要求的天然蜂蜜。
蜂蜜樣本存放于4 ℃環(huán)境下保存,測(cè)試之前取出,并于50 ℃水浴1 h以上直至蜂蜜樣本中的所有結(jié)晶物溶于蜂蜜中后,將樣本取出并于25 ℃環(huán)境下放置至恢復(fù)常溫且氣泡消失,待用。
樣品采集時(shí),取1 g蜂蜜樣本置于離心管中,加入1 mL超純水,渦旋振蕩至溶液均勻。采集時(shí)每個(gè)樣本加入石英進(jìn)樣瓶上機(jī),結(jié)果取平均光譜進(jìn)行分析,假蜂蜜和摻假蜂蜜樣品采集亦如此。
如圖1所示,對(duì)4 種蜂蜜樣本進(jìn)行拉曼光譜采集后,發(fā)現(xiàn)4 種蜂蜜的譜圖形狀相近,特征峰位置幾乎相同,強(qiáng)度上有所差異,為了避免真蜂蜜樣本間的差異影響鑒別結(jié)果,選擇信號(hào)強(qiáng)度較好的山花蜜作為摻假鑒別的對(duì)象。
圖1 4 種真蜂蜜樣本的拉曼光譜圖Fig.1 Raman spectra of four pure honey samples
1.3.1.2 糖漿制作
糖漿樣本采用果糖、葡萄糖和蔗糖進(jìn)行制作,按照GB 14963—2011的相關(guān)檢驗(yàn)要求蔗糖質(zhì)量分?jǐn)?shù)不超過5%,葡萄糖和果糖質(zhì)量分?jǐn)?shù)不低于60%。制作時(shí)將果糖、葡萄糖和蔗糖和適量超純水一并加入并加熱至180 ℃,待所有糖完全溶解且保證溶液冷卻后的黏度、形貌和色澤等較為接近真蜂蜜時(shí)加入少量香精,攪拌并冷卻待用。
1.3.1.3 摻假蜂蜜制作
摻假蜂蜜樣本的制備通過山花蜜摻加糖漿樣本進(jìn)行制作,并且引入摻假度Rf的量化指標(biāo):
式中:mf和mr分別為糖漿質(zhì)量和真蜂蜜質(zhì)量。
本實(shí)驗(yàn)將設(shè)置1%、5%、10%、15%、20%、30%、40%、50%共8 個(gè)摻假度梯度,每個(gè)摻假度10 個(gè)樣本,共80 個(gè)假蜂蜜樣本,與山花蜜純品蜂蜜進(jìn)行比較判別[7],并在此將上述種類的摻假樣本依次命名為F1、F5、F10、F15、F20、F30、F40、F50,真山花蜜樣本則命名為R,方便進(jìn)行數(shù)據(jù)分析。
1.3.2 拉曼光譜工作條件
掃描范圍180~3500 cm-1,激光光源采用785 nm,積分時(shí)間2000 ms,激光功率250 mW,平均次數(shù)3 次。
1.3.3 樣本集劃分
在建立線性判別分析(linear discriminant analysis,LDA)和偏最小二乘判別分析(partial least squaresdiscriminant analysis,PLS-DA)和支持向量機(jī)(sport vector machine,SVM)模型時(shí),訓(xùn)練集和測(cè)試集的劃分比例往往會(huì)對(duì)訓(xùn)練結(jié)果產(chǎn)生影響,比例失衡會(huì)影響模型的性能,甚至造成過擬合或欠擬合等現(xiàn)象,通常訓(xùn)練集與測(cè)試集的比例在6∶4與8∶2之間較為適宜[8]。采用留出法[9]劃分訓(xùn)練集和測(cè)試集,即將數(shù)據(jù)集劃分為兩個(gè)互斥的子集。經(jīng)驗(yàn)證,7∶3的劃分比例在訓(xùn)練集上的準(zhǔn)確率優(yōu)于其他比例且和交叉驗(yàn)證的總體準(zhǔn)確率相差不超過0.1,故將比例統(tǒng)一確定為7∶3,各類樣本的樣品集均包含35 個(gè)訓(xùn)練集和15 個(gè)測(cè)試集,9 類共315 個(gè)訓(xùn)練集和135 個(gè)測(cè)試集,總計(jì)450 個(gè)樣本。
1.3.4 數(shù)據(jù)預(yù)處理
1.3.4.1 背景扣除與平滑處理
在拉曼光譜測(cè)試中,除去容器和環(huán)境等的影響產(chǎn)生的背景光,實(shí)驗(yàn)樣品本身也會(huì)出現(xiàn)熒光現(xiàn)象,如來自羰基、硝基和乙烯基等常見熒光發(fā)色團(tuán)的熒光背景。熒光的產(chǎn)生會(huì)降低拉曼光譜的信噪比,掩蓋光譜中的重要信息,所以需要采取一定的方法扣除熒光產(chǎn)生的基線漂移?;€扣除的常見方法有對(duì)樣本做表面增強(qiáng)等預(yù)處理手段和通過airPLS等化學(xué)計(jì)量學(xué)方法進(jìn)行扣除等[10]。本實(shí)驗(yàn)中采取軟件自帶的扣除基線算法進(jìn)行處理。
在拉曼光譜檢測(cè)中,因?yàn)榧ぐl(fā)激光光強(qiáng)的漂移、CCD檢測(cè)器熱穩(wěn)定噪聲、樣品放置位置與方向等多方面因素的影響,拉曼信號(hào)可能會(huì)有比較大的噪聲,在波形上表現(xiàn)為劇烈波動(dòng)的鋸齒狀或毛刺狀信號(hào)。一般來講,信號(hào)平滑處理的方式有Savitzky-Golsy平滑(SG平滑)、相鄰平均(adjacent averaging,AAV)法和小波變換(wavelet transform,WT)去噪等。
采取SG平滑的方法進(jìn)行處理。SG平滑濾波是一種移動(dòng)窗口的加權(quán)平均算法,在濾除信號(hào)中的噪聲的同時(shí)保證波形的形狀和寬度不發(fā)生改變,處理后的拉曼光譜與原數(shù)據(jù)波形較為接近,且提高了信號(hào)信噪比。光譜在波長(zhǎng)i處經(jīng)SG平滑處理后的數(shù)值為:
式中:m為波長(zhǎng)一側(cè)的平滑窗口數(shù),2m+1則為總平滑窗口數(shù);為歸一化指數(shù);cj為多項(xiàng)式擬合得到的平滑系數(shù);xi+j為光譜在波長(zhǎng)i+j處的數(shù)值。在本實(shí)驗(yàn)中,選擇15窗口點(diǎn)數(shù)與二階多項(xiàng)式進(jìn)行平滑處理。
1.3.4.2 均值中心化處理
均值中心化是將樣品光譜數(shù)據(jù)集的每一個(gè)元素減去該元素所在列的均值的處理方法,經(jīng)過均值中心化處理后的第i行第j列的元素如下:
式中:Xij為原始數(shù)據(jù)矩陣X的第i行第j列的元素;Xj為X第j列的n個(gè)樣本的平均值;為均值中心化處理之后的第i行第j列的元素。經(jīng)過均值中心化處理的數(shù)據(jù)矩陣具有每一列的均值都等于零的性質(zhì),樣品光譜之間的差異性會(huì)被放大,模型的穩(wěn)定性和預(yù)測(cè)能力會(huì)得到一定程度的提高。原始光譜數(shù)據(jù)經(jīng)過背景扣除、平滑處理和均值中心化后方可作為輸入數(shù)據(jù)。
1.3.5 建模方法
1.3.5.1 主成分分析(principal component analysis,PCA)降維
PCA是一種獲得原始數(shù)據(jù)矩陣中主要信息的無監(jiān)督的線性變換算法,它通過降低數(shù)據(jù)維度簡(jiǎn)化復(fù)雜的數(shù)據(jù)集[11],通過確定數(shù)據(jù)的方差產(chǎn)生新的特征,稱為PC。產(chǎn)生的第1個(gè)PC具有最高的方差,隨后的PC方差遞減[12]。
用貢獻(xiàn)率對(duì)每個(gè)PC代表原變量的能力進(jìn)行量化。累計(jì)貢獻(xiàn)率越高,代表PC綜合原變量的程度越高,一般選取累計(jì)貢獻(xiàn)率達(dá)85%以上的前幾個(gè)PC作為PCA的結(jié)果[13]。
1.3.5.2 LDA
LDA是基于類別之間的馬氏距離最大的判別思想[14],使變換后類間距離最大、類內(nèi)距離最小,以尋找對(duì)分類最有幫助的特征向量[15]。LDA算法的核心使選擇某個(gè)投影方向,使得投影后樣本類間具有盡可能大的離散度而樣本類內(nèi)具有盡可能小的離散度[16]。
1.3.5.3 PLS-DA
PLS-DA是一種有監(jiān)督的多變量統(tǒng)計(jì)分析方法,采用經(jīng)典的偏最小二乘回歸模型[17],其將變量數(shù)據(jù)與分類信息劃分為兩組數(shù)據(jù)集,將降維分析與組類別相結(jié)合,從而度樣本進(jìn)行區(qū)分[18]。
1.3.5.4 SVM
SVM的主要思想是尋找某個(gè)超平面,使得它能夠盡可能多地將兩類數(shù)據(jù)點(diǎn)正確分開,并且使分開的兩類數(shù)據(jù)點(diǎn)離分類面的距離最遠(yuǎn)。對(duì)于重合區(qū)域比較大,線性分類難度比較高的SVM分類問題,即通過引進(jìn)輸入空間到另一個(gè)高維空間的變換,將原輸入空間的訓(xùn)練集轉(zhuǎn)化為高維空間中新的訓(xùn)練集,并使其在高維空間線性可分,或利用核函數(shù)進(jìn)一步計(jì)算并構(gòu)造分類函數(shù)[19],此時(shí)涉及到核函數(shù)的選取問題,選擇合適的核函數(shù)可以使映射到特征空間的樣品點(diǎn)類間混合程度降低,使得數(shù)據(jù)集類間線性可分的程度更高[20]。常用的核函數(shù)有線性內(nèi)核函數(shù)、多項(xiàng)式核函數(shù)、徑向基核函數(shù)等[21]。
1.3.5.5 交叉驗(yàn)證
在PCA-LDA、PLS-DA和SVM交叉驗(yàn)證時(shí),循環(huán)方法往往有五折、十折和留一法。在執(zhí)行交叉驗(yàn)證循環(huán)時(shí),選取每一種方法進(jìn)行操作,將準(zhǔn)確率最高的方法作為模型適用的方法,PCA-LDA和PLS-DA為留一法,SVM為十折法最佳。
1.3.6 摻假度鑒別實(shí)驗(yàn)與真假鑒別實(shí)驗(yàn)
實(shí)驗(yàn)主要分為假蜂蜜摻假度鑒別和真假蜂蜜鑒別兩方面進(jìn)行。摻假度鑒別即為20%梯度(F10、F30、F50)和10%梯度(F10、F20、F30、F40、F50)和5%梯度(F5、F10、F15)摻假蜂蜜建立分類模型,若某模型可以在3 次或以上的交叉驗(yàn)證中對(duì)上述分類的摻假蜂蜜保持0.9以上的總體準(zhǔn)確率,則認(rèn)定該模型可以達(dá)到對(duì)應(yīng)該梯度的摻假度辨別能力。若某模型無法在上述5 類摻假度蜂蜜分類的多次訓(xùn)練中一直保持0.9以上的總體準(zhǔn)確率,則認(rèn)定其無法達(dá)到摻假度鑒別要求。在進(jìn)行模型訓(xùn)練與評(píng)價(jià)時(shí),先從10%梯度的摻假度鑒別開始。成功則繼續(xù)進(jìn)行5%梯度鑒別,失敗則進(jìn)行20%梯度。
在真假蜂蜜對(duì)比中,利用真樣本R分別與F10、F5、F1等摻假度梯度的樣本各自配對(duì)后進(jìn)行PCA降維及后續(xù)的一系列建模分析,同樣認(rèn)定可以在3 次或以上的交叉驗(yàn)證中對(duì)R與某摻假樣本具有0.9以上的總體準(zhǔn)確率的模型為有效區(qū)分模型,具備區(qū)分真蜂蜜和該摻假度假蜂蜜的能力。
PCA降維方法與PC選取原則通用,均為將預(yù)處理后的光譜數(shù)據(jù)進(jìn)行PCA,選取累計(jì)貢獻(xiàn)率達(dá)85%以上的前n個(gè)PC作為光譜數(shù)據(jù)的降維結(jié)果。
使用準(zhǔn)確率、靈敏度、特異性、F1-Score、Macro-F1 Score和GScore對(duì)模型性能進(jìn)行評(píng)價(jià)[22]。準(zhǔn)確率是指在分類模型中,已建立的模型在通過測(cè)試集測(cè)試時(shí),被正確判別的樣本占總樣本數(shù)的比例,靈敏度是指正樣本被正確分類的百分率,特異性是指負(fù)樣本被正確分類的百分率。F1-Score常用以度量二分類問題的模型特征識(shí)別能力,對(duì)于多種分類的模型則需要其他評(píng)價(jià)方法,此處使用Macro-F1 Score和GScore[23-24]兩種度量方式,均為F1-Score向多分類集中相關(guān)性度量問題的推廣,上述評(píng)價(jià)指標(biāo)計(jì)算公式如下:
式中:nc為測(cè)試集數(shù)據(jù)被模型正確分類的樣本個(gè)數(shù);nt為測(cè)試集的所有樣本個(gè)數(shù);TP、FN、FP和TN分別為真正樣本、假負(fù)樣本、假正樣本和真負(fù)樣本的數(shù)量;P為查準(zhǔn)率;R為查全率計(jì)算同靈敏度;PMa和RMa分別為P和R對(duì)應(yīng)所有類別的均值;為第j類數(shù)據(jù)集上的第i個(gè)特征的均值;為整個(gè)數(shù)據(jù)集上第i個(gè)特征的均值;l為總樣本個(gè)數(shù)(l≥2);m為某類樣本個(gè)數(shù);xk,i(j)為第j類數(shù)據(jù)集的第k個(gè)樣本的第i個(gè)特征值。
采取拉曼光譜處理算法AutoBaseline進(jìn)行背景扣除。采取SG平滑算法進(jìn)行平滑處理,平滑處理時(shí)選擇的窗口點(diǎn)數(shù)是對(duì)平滑效果有決定性作用的參數(shù)。采取相關(guān)系數(shù)和殘差均方根評(píng)價(jià)對(duì)上述處理的結(jié)果進(jìn)行選優(yōu),確定SG平滑點(diǎn)數(shù)為15。原始光譜與經(jīng)背景扣除、SG平滑處理后光譜的對(duì)比圖見圖2,可以觀察到幅度小而雜亂的信號(hào)波動(dòng)被基本除去,特征峰的相對(duì)強(qiáng)度和峰寬等重要信息得以保留。背景扣除后,原光譜曲線落入下方,光譜整體的強(qiáng)度區(qū)間縮小。
圖2 原始光譜與經(jīng)背景扣除、SG平滑處理光譜對(duì)比圖Fig.2 Comparison of original spectra before and after background subtraction and Savitzky-Golsy smoothing
天然蜂蜜與摻假蜂蜜的拉曼光譜對(duì)比圖見圖3??梢杂^察到兩種譜圖在形狀上大致相似[25],但部分特征峰的形狀存在差異,同時(shí)光譜重疊比較嚴(yán)重,特征峰的位置較為接近,肉眼判別區(qū)分譜圖的方式難以實(shí)現(xiàn)。
圖3 天然蜂蜜與摻假蜂蜜光譜對(duì)比圖Fig.3 Spectral comparison between natural honey and adulterated honey
同時(shí)通過觀察天然蜂蜜光譜,可知實(shí)驗(yàn)所用山花蜜在422、520、627、705、819、864、916、1071、1123、1265、1361 cm-1和1461 cm-1處存在峰。其中,705 cm-1對(duì)應(yīng)—CO—和CCO鍵的伸縮振動(dòng)、OCO鍵的彎曲振動(dòng);864 cm-1對(duì)應(yīng)CH(12);819 cm-1對(duì)應(yīng)C(1)H;916 cm-1與C(1)—H和COH相關(guān);1071 cm-1與碳水化合物中的C—H和蛋白質(zhì)和氨基酸中的C—N基團(tuán)有關(guān);1123 cm-1與糖中的C—O和氨基酸中的C—N基團(tuán)有關(guān);1265 cm-1用于定量C(6)—OH和C—OH;1461 cm-1則與C—H和—COO—基團(tuán)有關(guān)[2]。
進(jìn)行10%摻加度判別的模型訓(xùn)練時(shí),將對(duì)應(yīng)的5 類樣本的光譜數(shù)據(jù)輸入PCA模型進(jìn)行降維和特征提取。F10、F20、F30、F40和F50共250 條光譜數(shù)據(jù)經(jīng)PCA降維后,前3 個(gè)PC累計(jì)貢獻(xiàn)率達(dá)63.64%,前7 個(gè)PC累計(jì)貢獻(xiàn)率達(dá)85.14%。于是,選擇前7 個(gè)PC作為上述5 類摻假蜂蜜建立分類模型使用的光譜數(shù)據(jù)的PCA降維結(jié)果[26]。由圖4可以觀察到F10和F50的得分點(diǎn)分布范圍可分程度比較高,但F20、F30和F40的PC1和PC得分點(diǎn)彼此之間入侵和重合的現(xiàn)象比較嚴(yán)重,肉眼觀察和線性劃分均無法準(zhǔn)確地對(duì)5 個(gè)摻假度進(jìn)行聚類分析,故需要將上述前7 個(gè)PC作為L(zhǎng)DA輸入數(shù)據(jù),構(gòu)建PCA-LDA模型進(jìn)行進(jìn)一步的判別[27]。
圖4 PC1和PC2得分情況Fig.4 Scores of the first and second principal components
2.4.1 PCA-LDA模型10%梯度鑒別
采用PCA與LDA相結(jié)合的方法,將PCA特征提取結(jié)果輸入LDA模型進(jìn)行判別[28]。在10%梯度的LDA模型摻假度鑒別中,F(xiàn)40樣本發(fā)生了較為嚴(yán)重的錯(cuò)判現(xiàn)象,35 個(gè)測(cè)試集樣本共錯(cuò)判13 個(gè),其中判為F20類5 個(gè)、F30類6 個(gè)、F50類2 個(gè),單類GScore低至0.7157。其他4 個(gè)樣品的錯(cuò)判數(shù)都在6 個(gè)及以下,交叉驗(yàn)證的總體準(zhǔn)確率都達(dá)到了0.92以上,但由于受F40影響,模型總體準(zhǔn)確率為0.84,Macro-F1 Score為0.8373,未達(dá)到0.9的標(biāo)準(zhǔn)。
2.4.2 PLS-DA模型10%梯度鑒別
在10%梯度的PLS-DA模型摻假度鑒別中。F10和F50作為摻假度區(qū)間的最小值和最大值,只存在相鄰一個(gè)樣本的錯(cuò)判。而F20、F30和F40錯(cuò)判現(xiàn)象比較嚴(yán)重,GScore都低于0.8。PLS-DA模型的總體準(zhǔn)確率為0.8057,Macro-F1 Score為0.8064,未達(dá)到0.9的標(biāo)準(zhǔn)。故PLS-DA模型也未達(dá)成10%梯度的摻假度鑒別目標(biāo)。
2.4.3 PCA-LDA和PLS-DA模型20%梯度鑒別
利用PCA-LDA模型進(jìn)行20%梯度的摻假度鑒別,即F10、F20和F30的分類判別。在20%梯度的摻假度鑒別中,PCA-LDA模型GScore都在0.94以上,總體準(zhǔn)確率為0.9619,Macro-F1 Score為0.9618。
PLS-DA模型GScore都在0.95以上,總體準(zhǔn)確率0.9714,Macro-F1 Score為0.9714,達(dá)到了總體準(zhǔn)確率的最低要求。表1為20%梯度PCA-LDA與PLS-DA模型交叉驗(yàn)證性能評(píng)價(jià)。
表1 20%梯度PCA-LDA與PLS-DA梯度模型性能評(píng)價(jià)Table 1 Performance evaluation of PCA-LDA and PLS-DA models in discriminating honey samples adulterated at 20% gradient
2.4.4 PCA-LDA和PLS-DA模型真假鑒別
在真蜂蜜與摻假5%蜂蜜的鑒別中,PCA-LDA和PLSDA模型的總體準(zhǔn)確率達(dá)到了1,不存在錯(cuò)判現(xiàn)象,故進(jìn)行摻假1%蜂蜜的鑒別。
如表2所示,在真蜂蜜與摻假1%蜂蜜的鑒別中,PCA-LDA存在一定的錯(cuò)判現(xiàn)象,但總體準(zhǔn)確率達(dá)到0.9,Macro-F1 Score為0.8998。而PLS-DA總體準(zhǔn)確率為0.9714,Macro-F1 Score為0.9714,達(dá)到了總體準(zhǔn)確率的最低要求。其中PLS-DA的準(zhǔn)確率達(dá)到了0.97以上,GScore均到達(dá)了0.97以上,相比PCA-LDA具有更高的判別準(zhǔn)確率。
表2 PCA-LDA與PLS-DA真假鑒別模型性能評(píng)價(jià)Table 2 Performance evaluation of PCA-LDA and PLS-DA models in discriminating pure from adulterated honey
SVM模型訓(xùn)練的步驟是,若SVM模型使用線性核函數(shù)即可通過調(diào)整參數(shù)在10%梯度的摻假度鑒別中達(dá)到0.9以上總體準(zhǔn)確率,則可以進(jìn)行5%梯度的鑒別,若總體準(zhǔn)確率還可維持0.9以上,則進(jìn)行1%梯度的鑒別,過程中總體準(zhǔn)確率低于0.9時(shí),再使用其他核函數(shù)并將進(jìn)行調(diào)參,直至總體準(zhǔn)確率達(dá)標(biāo)。
SVM模型的輸入數(shù)據(jù)選擇預(yù)處理數(shù)據(jù)進(jìn)行建模,通過調(diào)試核函數(shù)參數(shù)優(yōu)化SVM模型性能,觀察模型訓(xùn)練集和測(cè)試集中的準(zhǔn)確率變化情況,若某核函數(shù)模型在訓(xùn)練集上準(zhǔn)確率較高,在測(cè)試集上的準(zhǔn)確率卻很低,則認(rèn)為該核函數(shù)模型出現(xiàn)過擬合。選擇準(zhǔn)確率較高且未出現(xiàn)過擬合現(xiàn)象的核函數(shù)進(jìn)行預(yù)測(cè)[29]。核函數(shù)在線性核函數(shù)、多項(xiàng)式核函數(shù)和徑向基核函數(shù)中選用[30],在調(diào)整參數(shù)過程中選優(yōu)[31]。
2.5.1 SVM模型5%梯度鑒別
SVM模型在10%梯度的摻假度鑒別中總體準(zhǔn)確率達(dá)到了1,不存在錯(cuò)判現(xiàn)象,故進(jìn)行摻假5%梯度蜂蜜的鑒別。線性核函數(shù)SVM在F5和F15判別中不存在錯(cuò)判現(xiàn)象,有3 個(gè)F10樣本錯(cuò)判為F5,F(xiàn)15單類評(píng)價(jià)參數(shù)均為1,如表3所示,F(xiàn)5的F1-Score和GScore到達(dá)0.9以上,F(xiàn)10的F1-Score為0.8889,GScore為0.8944,SVM模型總體準(zhǔn)確率為0.93,Macro-F1 Score為0.9327,達(dá)到了總體準(zhǔn)確率的最低要求,最優(yōu)c值為0.3125,log2c=-1.678,圖5為隨線性核SVM準(zhǔn)確率隨c值變化的曲線。
表3 SVM梯度鑒別模型性能評(píng)價(jià)Table 3 Performance evaluation of SVM model in discriminating honey samples adulterated with different proportions of syrup
圖5 線性核SVM的log2 c值與準(zhǔn)確率關(guān)系圖Fig.5 Relationship between log2 c value and accuracy of linear kernel SVM
2.5.2 SVM模型真假鑒別
SVM模型在真蜂蜜與5%摻假度蜂蜜的鑒別中總體準(zhǔn)確率達(dá)到了1,不存在錯(cuò)判現(xiàn)象,故進(jìn)行真蜂蜜和摻假度1%蜂蜜的鑒別。
在應(yīng)用線性核時(shí),R不存在錯(cuò)判現(xiàn)象,有1 個(gè)F1樣本錯(cuò)判為R。R和F1的GScore和F1-Score均達(dá)到了0.96以上,總體準(zhǔn)確率0.9667(表4)。Macro-F1 Score為0.9666。在此SVM模型中,使用的是線性核函數(shù),最優(yōu)c值為0.15625,log2c=-2.678。
表4 SVM真假鑒別模型性能評(píng)價(jià)Table 4 Performance evaluation of SVM model in discriminating pure from adulterated honey
在應(yīng)用徑向基核函數(shù)時(shí),均不存在錯(cuò)判現(xiàn)象,各評(píng)價(jià)指標(biāo)均為1,最優(yōu)c值為16,最優(yōu)g值為4096,log2c=12。SVM準(zhǔn)確率與log2c、log2g值的關(guān)系見圖6。
圖6 徑向基核SVM的準(zhǔn)確率與log2 c、log2 g值的關(guān)系圖Fig.6 Relationship between log2 c and log2 g values and accuracy of radial basis function SVM
綜上所述,在蜂蜜摻假度鑒別中,PCA-LDA和PLSDA模型可以以0.9以上的準(zhǔn)確率做到20%摻假度區(qū)別的蜂蜜鑒別,線性核函數(shù)SVM則可以達(dá)到5%精度的摻假度區(qū)別;在真假蜂蜜鑒別中,上述3 個(gè)模型均可以做到1%摻假度蜂蜜和真蜂蜜的區(qū)分,其中PCA-LDA、PLS-DA和線性核SVM總體準(zhǔn)確率在0.9以上,徑向基SVM總體準(zhǔn)確率為1。