謝有超,彭黔榮*,,楊 敏,阮藝斌,張辭海,胡 蕓,陳 毅,付陽洋
1. 貴州大學化學與化工學院,貴陽市花溪區(qū)甲秀南路 550025 2. 貴州大學藥學院,貴陽市花溪區(qū)甲秀南路 550025 3. 貴州中煙工業(yè)有限責任公司技術中心,貴陽市小河經濟技術開發(fā)區(qū)開發(fā)大道96 號 550009
配方和調香決定了各卷煙品牌獨特的香氣和風味[1]。不同卷煙品牌的化學成分、零售價格以及潛在有害成分水平有所不同,同一牌號卷煙也可能由于批次不同而產生差異[2]。每種卷煙品牌都具有固定消費人群,其對卷煙變化十分敏感,如果卷煙的香氣和風味波動較大,則會對卷煙銷售產生影響。當前對不同卷煙品牌的區(qū)分仍以感官評吸為主[3],但該方法存在主觀性強且難以實現(xiàn)在線監(jiān)控等問題。近紅外光譜技術以其快速、無損、高效等特點在石油化工[4]、醫(yī)藥[5]和食品[6]等領域已廣泛應用,在煙草理化指標定量分析[7-8]、煙葉分級[9]和煙葉溯源[10]等方面也有較多研究。其中,Tan 等[11]對比了近紅外光譜結合多類別支持向量機(BSVM)、K 最鄰近法(KNN)和簇類的獨立軟模式法(SIMCA)3 種分類算法對卷煙品牌的判別效果,結果表明BSVM 算法明顯優(yōu)于KNN 和SIMCA,尤其在訓練集樣本數較少時優(yōu)勢顯著。Omar 等[12]采用標準正態(tài)變量變換對光譜數據進行預處理后,再進行主成分分析,建立了偏最小二乘判別分析模型,實現(xiàn)了對3 種卷煙品牌的識別。Yang 等[13]采用稀疏表達分類算法(SRC)、支持向量機(SVM)和線性判別分析法(LDA)構建了能夠對9 種卷煙品牌定性判別的模型,對比發(fā)現(xiàn)SRC 模型不需進行主成分分析就可減少數據維度,具有較高鑒別能力。但目前缺少對卷煙光譜數據的深入研究,導致建模變量多、計算量大,且總體判別準確率低于95%。為此,利用煙絲的近紅外光譜數據,通過選擇最優(yōu)的光譜數據預處理方法和降維方法,基于支持向量機(SVM)和線性判別分析法(LDA)分別建立卷煙品牌識別模型并對比驗證,旨在為卷煙配方維護和真假煙識別提供技術支持。
采用2019—2020 年貴州中煙工業(yè)有限責任公司生產的10 種不同卷煙品牌,編號為A~J。利用Kennard-Stone 算法[14]從329 個樣品中選擇222 個樣品作為訓練集,剩余的107 個樣品作為測試集,見表1。
表1 10 種卷煙品牌樣品集的劃分Tab.1 Sample numbers in sample sets of cut filler of 10 cigarette brands
參照標準YC/T 31—1996[15]的方法除去卷煙包裝紙,將煙絲樣品經40 ℃烘箱干燥2 h 左右,直至用手可以輕輕捏碎;再冷卻至室溫,采用煙草粉碎機進行粉碎,粉碎后的煙絲粉末過0.25 mm(60 目)篩后裝入密封袋中備用。
Thermo Antaris Ⅱ型傅里葉近紅外分析儀(美國Thermo Scientific 公司);FED-240 型干燥箱(德國Binder 公司);YC-400B-03 型煙草粉碎機(成都英特瑞公司)。
1.3.1 光譜采集
掃描前近紅外分析儀開機預熱30 min,設定掃描波長范圍10 000~4 000 cm-1,分辨率為8 cm-1,掃描次數64 次。保持溫濕度恒定,將煙絲粉末裝入石英杯中,用壓塊自然落下壓實,每個樣品采集2次,取平均值。
1.3.2 模式識別方法
模式識別又稱模式分類,本研究中基于線性判別分析(LDA)和支持向量機(SVM)分別建立模式識別方法,用于評估不同數據預處理方法和降維方法的優(yōu)劣。其中,LDA 是一種有監(jiān)督的判別方法,原變量經投影后可以使類內方差最小、類間方差最大,從而實現(xiàn)對類與類的區(qū)分[16]。LDA對于小樣本光譜數據的預測能力不高,在高維數據計算過程中容易產生協(xié)方差矩陣奇異,因此需要結合降維方法進行特征提取。分析發(fā)現(xiàn),不同潛變量個數會得到不同的判別正確率。為確定LDA 模型的最佳潛變量個數,經不同降維方法提取9~16 個潛變量作為LDA 模型的輸入值,并采用訓練集的RA(Recognition Accuracy)值作為評價指標選擇最佳潛變量個數。
SVM 是一種以結構風險最小化為基礎的模式識別方法,其基本思想來源于線性判別的最優(yōu)分類面,在小樣本數據集分類中具有顯著優(yōu)勢[17]。SVM 可以將高維空間的內積運算轉化為低維輸入空間的核函數計算,解決了在高維空間計算中存在的“維數災難”問題。但不同核函數建立的SVM 模型的預測能力不同,為取得最佳識別效果,采用訓練集的RA 值作為評價指標并選擇最佳核函數。
1.3.3 光譜數據預處理方法的選擇
光譜數據除含有樣品自身化學信息外,還含有其他信息和噪聲,例如電噪聲、樣品背景和散光等[18]。本研究中比較了標準正態(tài)變量變換(SNV)、多元散射校正(MSC)、基線校正(Baseline)、去勢(De-trending)、均值方差化(Autoscaling)、線性函數歸一化(Rangescaling)、一 階導數(first derivative)、連續(xù)小波變換(CWT)、SNV+first derivative、MSC + first derivative、SNV + CWT 和MSC+CWT 等12 種光譜數據預處理方法,結合1.3.2 節(jié)中確定的兩種模式識別方法,采用RA 值作為評價標準選擇最有效的光譜數據預處理方法。
1.3.4 數據降維方法的選擇
數據降維是指通過將原始特征空間進行變換,將高維空間中的數據點映射到低維空間中,既可減少冗余信息造成的誤差,也可考察光譜數據內部的結構特征[19]。為尋找最適宜的降維方法,在對光譜數據進行預處理后,分別采用線性降維主成分分析(PCA)、非線性提取方法局部嵌入(LLE)、局部切空間排列(LTSA)、核主成分分析(KPCA)、隨機鄰近嵌入(SPE)、Sammon 映射(Sammon mapping)、概率主成分分析(PPCA)和擴展映射(Diffusion mapping)等方法進行數據降維。結合1.3.2 節(jié)和1.3.3 節(jié)中確定的兩種模式識別方法和光譜數據預處理方法,采用RA 值作為評價標準選擇最有效的降維方法。
1.3.5 模型評價
采用RA 值作為評價指標考察模型的優(yōu)劣,即正確判斷的樣品數占全部樣品數的百分比[20]。
使用Matlab R2019a(The Math Works, USA)和The Unscrambler X 10.3(CAMO Software AS,NORWAY)軟件進行數據分析。
圖1 為10 種卷煙品牌329 個樣品的近紅外光譜圖??梢?,各卷煙品牌的近紅外光譜圖無太大差異,吸收峰形和位置較為相似,無法從直觀上進行區(qū)分,需要對光譜數據進行預處理。
圖1 不同卷煙品牌近紅外光譜圖Fig.1 NIR spectra of different cigarette brands
表2 不同降維方法不同潛變量個數下LDA 模型的RA 值Tab.2 RA values of LDA models under different dimension reduction methods and different number of latent variables(%)
為確定LDA 模型的最佳潛變量個數,經不同降維方法提取到9~16 個潛變量作為LDA 模型的輸入值,其訓練集的RA 值見表2??梢?,隨著潛變量個數增加,不同降維方法下LDA 模型的判別能力均呈先上升后下降趨勢。其中,采用LLE、LTSA、SPE、Sammom mapping 和PPCA 降維方法在提取13 個潛變量時LDA 模型的RA 值最大。而基 于PCA、KPCA 和Diffusion mapping 方 法 降 維時,選擇13 個和14 個潛變量所建模型的判別能力接近。因此,在建立LDA 模型時,提取13 個潛變量作為模型的輸入變量,可減少冗余信息,且能得到重要的分類信息。
不同降維方法和4 種核函數下SVM 模型的10種卷煙品牌訓練集的RA 值見表3??梢姡?種降維方法分別提取13 個潛變量后,采用Linear核函數建立的SVM 模型的RA 值最高。因此,選擇Linear 作為SVM 模型的核函數進行內積計算。
表3 不同降維方法不同核函數下SVM 模型的RA 值Tab.3 RA values of SVM models under different dimension reduction methods and different kernel functions (%)
采用12 種光譜數據預處理方法變換后的光譜圖見圖2。其中,圖2a 和圖2b 消除了固體顆粒大小產生的散射影響;圖2d 和圖2g 消除了光譜中的基線漂移;圖2c 和圖2j 消除了噪聲和背景;圖2e和圖2f 是近紅外光譜數據預處理最常用的方法,用于增強光譜數據之間的差異;圖2h、圖2i、圖2k和圖2l 是光譜數據預處理方法的聯(lián)合應用,可從多角度濾除與光譜數據無關的信息。由于儀器、樣品特征以及測量環(huán)境、條件的變化,需要通過模型評價選擇最佳光譜數據預處理方法。
基于本研究中確定的SVM 和LDA 模式識別方法,對比12 種光譜數據預處理方法的RA 值,見表4。可見,對于SVM 模型,采用CWT 預處理方法的測試集RA 值最高(92.53%);對于LDA 模型,采用Baseline、CWT 和MSC+CWT 這3 種預處理方法的測試集RA 值最高(93.46%)。因此,選擇CWT 作為識別模型的光譜數據預處理方法,這可能與CWT 能更好地消除光譜數據中的背景干擾和基線漂移有關。
圖2 經12 種光譜數據預處理方法變換后的光譜圖Fig.2 Spectra transformed by twelve pre-processing methods
表4 不同光譜數據預處理方法下不同識別模型的RA 值Tab.4 RA values of different recognition models under different spectral data pre-processing methods (%)
為進一步提高模型的識別精度,采用LLE、LTSA 和KPCA 等7 種非線性降維方法,對經過CWT 預處理后的訓練集數據進行處理,再分別采用優(yōu)化后的SVM 和LDA 建模,其測試集的RA 值見表5??梢?,不同識別方法下基于PPCA 降維方法的RA 值均為最高,SVM 和LDA 模型的RA 值分別為97.20%和96.26%。
綜上可知,采用CWT 進行近紅外光譜數據預處理,PPCA 方法進行數據降維,Linear 作為核函數,基于SVM 方法建立的識別模型得到的RA 值最佳。
表5 不同非線性降維方法下不同識別模型的RA 值Tab.5 RA values of different recognition models under different nonlinear dimension reduction methods(%)
基于卷煙煙絲的近紅外光譜數據,結合機器學習技術,以貴州中煙工業(yè)有限責任公司生產的10 種卷煙品牌為對象,建立了一種卷煙品牌識別模型。通過交叉驗證,確定了最佳光譜數據預處理方法、潛變量個數、核函數、降維方法等關鍵參數。利用采集的卷煙樣品數據進行驗證,結果表明:采用CWT 進行近紅外光譜數據預處理,PPCA方法進行數據降維,選擇Linear 作為核函數,基于SVM 方法建立的識別模型的RA 值達到97.20%,表明可以根據煙絲光譜數據實現(xiàn)對卷煙品牌的準確識別。