潘 曦 李 冉 魏 敏 衛(wèi) 青 邱昌桂
(1. 湖北中煙工業(yè)有限責(zé)任公司技術(shù)研發(fā)中心,湖北 武漢 430040;2. 云南瑞升煙草技術(shù)〔集團(tuán)〕有限公司,云南 昆明 650106)
卷煙品牌是煙草工業(yè)企業(yè)發(fā)展的核心基礎(chǔ)和生存之本,不同品牌的卷煙主要采用調(diào)整煙葉原料的葉組配方和香精香料配方等技術(shù)達(dá)到維持卷煙品牌的內(nèi)在品質(zhì)質(zhì)量與風(fēng)格特征的目的。煙草行業(yè)中,卷煙內(nèi)在品質(zhì)質(zhì)量和風(fēng)格特征主要通過(guò)感官質(zhì)量評(píng)價(jià)[1]、主流煙氣[2-3]和煙絲化學(xué)成分[4-5]等方法進(jìn)行判斷和鑒別。近年來(lái),近紅外光譜技術(shù)(NIRS)逐漸成為區(qū)分和鑒別卷煙內(nèi)在質(zhì)量和風(fēng)格特征的重要分析方法[6-7],該技術(shù)具有樣品無(wú)需預(yù)處理、無(wú)污染、無(wú)損分析、綠色環(huán)保以及操作簡(jiǎn)便和檢測(cè)速度快等優(yōu)點(diǎn)[8],結(jié)合化學(xué)計(jì)量學(xué)方法可實(shí)現(xiàn)樣品的定量定性快速分析,被廣泛應(yīng)用于食品和制藥等行業(yè)[9]。王家俊等[10-13]采用近紅外光譜技術(shù)實(shí)現(xiàn)了煙草中多種化學(xué)成分含量及物理特性的快速測(cè)定。其在煙葉模式識(shí)別方面也被廣泛應(yīng)用,如煙葉類(lèi)型分類(lèi)判別[14]、卷煙配方結(jié)構(gòu)識(shí)別[15]、卷煙質(zhì)量投影識(shí)別[6]、卷煙生產(chǎn)過(guò)程監(jiān)測(cè)及質(zhì)量評(píng)價(jià)[16-18]和卷煙真?zhèn)舞b別[19]等,特別是與機(jī)器學(xué)習(xí)方法結(jié)合應(yīng)用,極大地提高了模式識(shí)別的準(zhǔn)確率[20-21]。曹妙玲[22]以前16個(gè)近紅外光譜主成分及12個(gè)抽提的綜合特征為分類(lèi)特征所建立的KNN判別模型的平均預(yù)測(cè)正確率為92.65%~96.23%。謝有超等[21]采用連續(xù)小波變換(CWT)進(jìn)行近紅外光譜數(shù)據(jù)預(yù)處理,概率主成分分析(PPCA)方法進(jìn)行數(shù)據(jù)降維,基于Linear核函數(shù)的支持向量機(jī)(SVM)方法建立的卷煙牌號(hào)識(shí)別模型的正確識(shí)別率值達(dá)97.20%,提升了卷煙牌號(hào)的識(shí)別準(zhǔn)確率。但SVM模型的分類(lèi)準(zhǔn)確率在很大程度上取決于SVM參數(shù)值的選取,而參數(shù)值的選取目前還主要依賴于經(jīng)驗(yàn)值的試取。
研究擬以6種不同牌號(hào)卷煙的成品煙絲為試驗(yàn)對(duì)象,采用近紅外光譜技術(shù)結(jié)合螢火蟲(chóng)算法優(yōu)化的支持向量機(jī)建立預(yù)測(cè)模型,對(duì)不同牌號(hào)卷煙進(jìn)行更詳細(xì)的牌號(hào)區(qū)分,以期為品牌卷煙的內(nèi)在質(zhì)量和風(fēng)格特征及不同牌號(hào)卷煙內(nèi)在質(zhì)量特征快速鑒別研究提供依據(jù),為進(jìn)一步利用近紅外光譜技術(shù)進(jìn)行卷煙產(chǎn)品質(zhì)量維護(hù)、卷煙過(guò)程質(zhì)量監(jiān)測(cè)和卷煙配方設(shè)計(jì)提供技術(shù)指導(dǎo)。
傅里葉變換近紅外光譜儀:Nicolet Antaris II型,美國(guó)Thermo fisher公司;
恒溫恒濕箱:KBF 540型,德國(guó) Binder公司。
以湖北中煙某廠黃鶴樓品牌卷煙制絲生產(chǎn)線的葉絲段加香工序后的某固定位置采集的6個(gè)不同牌號(hào)成品煙絲為樣品,正常生產(chǎn)條件下,每次約間隔90 s取樣(樣品量約為200 g),每批次取樣30次,置于密封袋中待用。
光譜掃描前,近紅外光譜儀器開(kāi)機(jī)預(yù)熱時(shí)間 >1 h,以保證儀器運(yùn)行穩(wěn)定。近紅外光譜儀工作參數(shù):光譜波數(shù)10 000~4 000 cm-1;分辨率8 cm-1;掃描次數(shù)64。將成品煙絲樣品直接放置在儀器自帶的旋轉(zhuǎn)杯中,用壓塊自然壓實(shí),采用旋轉(zhuǎn)樣品杯的方式采集近紅外光譜,每個(gè)成品煙絲樣品采集3次,取平均值。
按表1對(duì)樣品進(jìn)行編號(hào),每種牌號(hào)成品煙絲樣品根據(jù)70%為訓(xùn)練集,30%為測(cè)試集的原則采用隨機(jī)的方法劃分訓(xùn)練集和測(cè)試集,即從300個(gè)成品煙絲樣品中選擇210個(gè)煙絲樣品作為訓(xùn)練集,剩余的90個(gè)煙絲樣品作為測(cè)試集。
表1 6種卷煙牌號(hào)樣品集的劃分Table 1 Sample numbers in sample sets of cut filler of 6 cigarette brands
由于成品煙絲是由不同等級(jí)、物理特性的片狀、絲條狀煙草原料混合而成,光譜采集過(guò)程中存在煙絲結(jié)構(gòu)、成分和外觀不均勻性以及光譜噪聲所引起的散射影響,需對(duì)光譜進(jìn)行預(yù)處理以減小煙絲表面特征不均勻和成品煙絲厚度的不一致性等因素影響。即采用一些數(shù)學(xué)方法減弱或消除非目標(biāo)因素對(duì)煙絲光譜的影響,以利于從復(fù)雜的近紅外光譜數(shù)據(jù)中提取有用的光譜信息,提高煙絲SVM分類(lèi)模型方法的準(zhǔn)確性和可靠性。為消除背景和環(huán)境噪聲、其他信息以及絲條狀、片狀煙絲特征不均勻等因素的影響,采用的光譜預(yù)處理方法包括:多元散射校正(MSC)、標(biāo)準(zhǔn)正態(tài)變量變換(SNV)、Savitzky-Golay濾波器(SG)、一階微分(1D)、二階微分(2D)及組合方法。
1.6.1 SVM算法的基本原理 支持向量機(jī)(SVM)是由Vapnik團(tuán)隊(duì)提出的基于統(tǒng)計(jì)學(xué)習(xí)理論的新穎的機(jī)器學(xué)習(xí)方法[23-24],其進(jìn)行分類(lèi)的基本思想是通過(guò)一個(gè)非線性映射函數(shù)將原始數(shù)據(jù)映射到高維特征空間中,在高維特征空間進(jìn)行內(nèi)積運(yùn)算構(gòu)造一個(gè)最優(yōu)分類(lèi)超平面作為決策面,不但使分類(lèi)間隔距離最大,而且能實(shí)現(xiàn)分類(lèi)中的兩類(lèi)樣本正確分開(kāi)。其中構(gòu)造最優(yōu)分類(lèi)超平面轉(zhuǎn)化為數(shù)據(jù)模型即求函數(shù)的全局最優(yōu)解:
(1)
對(duì)于訓(xùn)練集,為實(shí)現(xiàn)正確分類(lèi),需滿足如下條件:
yi(ω·xi+b)-1≥0,i=1,2,…,m,
(2)
式中:
m——訓(xùn)練集個(gè)數(shù);
xi——訓(xùn)練集原始數(shù)據(jù);
yi——訓(xùn)練集的類(lèi)別;
ω——分類(lèi)超平面的系數(shù)向量;
b——閾值。
核函數(shù)能顯著影響支持向量機(jī)的分類(lèi)性能,但對(duì)于如何選擇、確定核函數(shù)尚無(wú)成熟理論。常用的核函數(shù)主要有線性核函數(shù)(Linear)、多項(xiàng)式核函數(shù)(Poly)、多層感知器核函數(shù)(Sigmoid)和Gauss徑向基核函數(shù)(RBF)等[25]。文中選取應(yīng)用最廣泛的具有良好的學(xué)習(xí)能力、能夠逼近任何非線性函數(shù)的徑向基核函數(shù)(RBF)進(jìn)行分類(lèi)研究,其形式為:
K(x·xi)=exp(-g‖x-xi‖2),g>0,
(3)
式中:
g——核函數(shù)參數(shù)(核寬度)。
影響支持向量的分類(lèi)模型的精度和泛化能力的參數(shù)主要為核函數(shù)參數(shù)g和懲罰因子參數(shù)c。其中,核函數(shù)參數(shù)g控制函數(shù)的回歸誤差,直接影響初始的特征向量和特征值,懲罰參數(shù)c對(duì)支持向量的分類(lèi)模型的精度和泛化能力影響顯著。通常,對(duì)支持向量機(jī)兩個(gè)參數(shù)的選擇多以經(jīng)驗(yàn)選取為主,其分類(lèi)精度和速度均無(wú)法得到保證,為了提高SVM的學(xué)習(xí)和泛化能力,采用螢火蟲(chóng)算法優(yōu)化SVM分類(lèi)器的兩個(gè)參數(shù)g和c,以尋求SVM兩個(gè)參數(shù)的最優(yōu)值。
1.6.2 螢火蟲(chóng)算法的基本原理 螢火蟲(chóng)算法(FA)是Yang[26]在2008年受螢火蟲(chóng)自身趨光性特點(diǎn)啟發(fā)而提出的一種新穎的仿生智能優(yōu)化算法,通過(guò)模擬螢火蟲(chóng)之間因發(fā)光吸引而移動(dòng)的行為規(guī)則實(shí)現(xiàn)螢火蟲(chóng)位置的迭代更新,從而達(dá)到尋優(yōu)的目的。螢火蟲(chóng)算法中,螢火蟲(chóng)彼此吸引是由螢火蟲(chóng)自身亮度和吸引度兩個(gè)因素所決定,亮度低的螢火蟲(chóng)被亮度高的螢火蟲(chóng)吸引而向其移動(dòng),從而更新自身位置[27]。亮度與吸引度是螢火蟲(chóng)空間距離有關(guān)的兩個(gè)因素,隨著螢火蟲(chóng)空間距離的增加,螢火蟲(chóng)的亮度與吸引度均減小。螢火蟲(chóng)的相對(duì)螢光亮度為:
(4)
(5)
式中:
L0——螢火蟲(chóng)最大螢光亮度;
γ∈[0.1,2.0]——螢光強(qiáng)度的吸收系數(shù);
rij——兩個(gè)螢火蟲(chóng)i與j之間的空間距離。
螢火蟲(chóng)之間的吸引度βij定義為:
(6)
式中:
β0——螢火蟲(chóng)的最大吸引度,通常取[0.8,1.0]。
低亮度的螢火蟲(chóng)i向高亮度的螢火蟲(chóng)j移動(dòng)的位置更新表示為:
(7)
式中:
α——步長(zhǎng)因子;
t——迭代次數(shù);
rand——介于[0,1]的隨機(jī)數(shù);
β——相對(duì)吸引度。
根據(jù)式(7)計(jì)算螢火蟲(chóng)更新后的位置,然后根據(jù)式(4)~式(7)重新計(jì)算更新后的螢火蟲(chóng)亮度和位置,螢火蟲(chóng)通過(guò)多次向高亮度的螢火蟲(chóng)方向移動(dòng)后,所有螢火蟲(chóng)個(gè)體都將聚集在亮度最高的螢火蟲(chóng)位置上,從而實(shí)現(xiàn)尋優(yōu)。
1.6.3 螢火蟲(chóng)算法優(yōu)化支持向量機(jī)參數(shù)流程 SVM的核函數(shù)選用RBF核函數(shù),采用螢火蟲(chóng)算法優(yōu)化SVM的核函數(shù)參數(shù)g和懲罰因子參數(shù)c,即運(yùn)用FA算法的搜索能力尋找螢火蟲(chóng)亮度最大的位置X(c,g),從而得到參數(shù)的最優(yōu)解(c*,g*)?;贔A-SVM的卷煙牌號(hào)分類(lèi)識(shí)別的具體流程如圖1所示。
圖1 基于FA-SVM的卷煙牌號(hào)分類(lèi)識(shí)別流程圖Figure 1 Flowchart of types of cigarette classify discrimination based on FA-SVM
以煙絲樣品訓(xùn)練集和測(cè)試集的分類(lèi)正確率(正確分類(lèi)的樣品數(shù)占總樣品數(shù)的百分比)作為SVM模型分類(lèi)效果和SVM參數(shù)優(yōu)化的評(píng)價(jià)指標(biāo)。訓(xùn)練集和測(cè)試集的正確率越接近于100%,SVM分類(lèi)模型的精度越高,說(shuō)明SVM參數(shù)和分類(lèi)模型的效果越好。
由圖2可知,6種牌號(hào)成品煙絲的近紅外光譜由于含有樣品的信息和其他信息及噪聲,近紅外光譜曲線的吸收峰位置和峰形均較為相似,不能直觀地通過(guò)近紅外光譜曲線鑒別不同牌號(hào)的成品煙絲,需經(jīng)預(yù)處理后,再對(duì)牌號(hào)成品煙絲進(jìn)行鑒別。
圖2 成品煙絲的近紅外原始光譜Figure 2 Raw NIR spectra of finished cut tobacco samples
采用SNV和SNV+1D光譜預(yù)處理方法變換后的光譜圖如圖3所示。由圖3可知,經(jīng)SNV預(yù)處理后消除了不同形狀(煙絲片狀、絲條狀)樣品產(chǎn)生的散射影響,增強(qiáng)了光譜有效信息。SNV消除樣品散射影響后,經(jīng)1D預(yù)處理后的光譜圖像能夠有效減小光譜的噪聲以及消除光譜的基線漂移。因此,經(jīng)SNV+1D預(yù)處理后的近紅外光譜能夠有效減小噪聲,便于牌號(hào)成品煙絲的分類(lèi)。
圖3 SNV和SNV+1D預(yù)處理后的近紅外光譜Figure 3 The NIR spectral data after SNV and SNV+1D preprocessing
使用FA優(yōu)化SVM分類(lèi)算法分別對(duì)6種牌號(hào)成品煙絲樣品進(jìn)行分類(lèi),固定螢火蟲(chóng)數(shù)目為20,迭代次數(shù)為20,使用5折交叉驗(yàn)證,重復(fù)測(cè)試10次,對(duì)比5種光譜數(shù)據(jù)預(yù)處理方法的平均預(yù)測(cè)準(zhǔn)確率,結(jié)果見(jiàn)表2。由表2可知,采用SNV+1D預(yù)處理方法的成品卷煙訓(xùn)練集和測(cè)試集的分類(lèi)準(zhǔn)確率最高,訓(xùn)練集和測(cè)試集的平均分類(lèi)正確率分別為100.00%,98.33%,分類(lèi)效果最差的是MSC預(yù)處理方法。因此,選擇SNV+1D作為成品卷煙鑒別模型的光譜數(shù)據(jù)預(yù)處理方法,可能與SNV+1D能更好地消除光譜數(shù)據(jù)中的背景干擾和基線漂移有關(guān)。
表2 不同光譜數(shù)據(jù)預(yù)處理方法下FA-SVM鑒別模型統(tǒng)計(jì)表Table 2 The result of different recognition models under different spectral data pre-processing methods(n=10)
為了考察螢火蟲(chóng)性能隨種群數(shù)目和迭代次數(shù)的變化情況,分別選取螢火蟲(chóng)數(shù)量為10,20,30,迭代次數(shù)分別為10,20,40來(lái)表示螢火蟲(chóng)的尋優(yōu)趨勢(shì),使用5折交叉驗(yàn)證,重復(fù)測(cè)試10次,并以平均分類(lèi)準(zhǔn)確率為預(yù)測(cè)指標(biāo)評(píng)價(jià)FA優(yōu)化SVM的分類(lèi)鑒別性能,結(jié)果見(jiàn)表3。由表3可知,在試驗(yàn)范圍內(nèi),螢火蟲(chóng)的數(shù)目和迭代次數(shù)對(duì)訓(xùn)練集的分類(lèi)識(shí)別正確率均為100.00%,并且對(duì)測(cè)試集的分類(lèi)正確率也達(dá)到了96.00%以上,說(shuō)明采用螢火蟲(chóng)算法優(yōu)化支持向量機(jī)能夠較好地分類(lèi)鑒別卷煙同品牌不同牌號(hào)。其中,分類(lèi)準(zhǔn)確率最高是螢火蟲(chóng)數(shù)目為20,迭代次數(shù)為20的組合,卷煙測(cè)試集的平均分類(lèi)識(shí)別正確率為98.33%。分類(lèi)效果最差的是螢火蟲(chóng)數(shù)目為10、迭代次數(shù)為20的組合,測(cè)試集的平均分類(lèi)正確率為96.00%。
表3 不同種群數(shù)量和迭代次數(shù)的分類(lèi)準(zhǔn)確率Table 3 Classification accuracy of different population numbers and iteration times
選擇最優(yōu)的預(yù)處理、螢火蟲(chóng)數(shù)目和迭代次數(shù),即螢火蟲(chóng)的種群數(shù)量為20,迭代次數(shù)為20,光譜數(shù)據(jù)的預(yù)處理方法為SNV+1D,支持向量機(jī)懲罰參數(shù)c值為[0.01,100.00],核函數(shù)參數(shù)g值為[0.01,100.00],采用FA-SVM算法對(duì)6種牌號(hào)300個(gè)成品煙絲樣品進(jìn)行分類(lèi),使用5折交叉驗(yàn)證,重復(fù)測(cè)試10次。圖4為第一次對(duì)訓(xùn)練集的成品煙絲樣品數(shù)據(jù)使用5折交叉驗(yàn)證的螢火蟲(chóng)算法優(yōu)化支持向量機(jī)參數(shù)c、g的適應(yīng)度曲線。圖5為成品煙絲樣品訓(xùn)練集和測(cè)試集的分類(lèi)效果圖。
由表4和圖4、圖5可知,優(yōu)化過(guò)程中,螢火蟲(chóng)種群中的最優(yōu)個(gè)體適應(yīng)度隨迭代次數(shù)的增加逐漸增加,當(dāng)?shù)螖?shù)為4時(shí)開(kāi)始趨于穩(wěn)定,并穩(wěn)定于97.14%,表明此時(shí)的支持向量機(jī)的兩個(gè)參數(shù)(懲罰參數(shù)與核函數(shù)參數(shù))的組合達(dá)到性能最優(yōu),即支持向量機(jī)的最佳懲罰參數(shù)c=85.75,最佳核函數(shù)參數(shù)g=92.35,訓(xùn)練集和測(cè)試集的分類(lèi)正確率均為100.00%。此外,重復(fù)測(cè)試10次,F(xiàn)A-SVM算法的訓(xùn)練集分類(lèi)正確識(shí)別率均為100.00%,測(cè)試集的分類(lèi)正確識(shí)別率為96.67%~100.00%,說(shuō)明近紅外光譜技術(shù)結(jié)合FA-SVM分類(lèi)模型能準(zhǔn)確地鑒別卷煙牌號(hào)。
圖4 FA-SVM算法參數(shù)優(yōu)化的適應(yīng)度曲線Figure 4 FA-SVM algorithm fitness optimization process curve
圖5 訓(xùn)練集和測(cè)試集的分類(lèi)效果圖Figure 5 Classification effect diagram of training set and test set
表4 FA-SVM算法對(duì)不同成品煙絲的分類(lèi)結(jié)果Table 4 Classification results of cigarette in finished cut tobacco samples of different brand with FA-SVM algorithm
以湖北中煙黃鶴樓品牌的6個(gè)牌號(hào)為研究對(duì)象,提出了一種基于近紅外光譜數(shù)據(jù)結(jié)合螢火蟲(chóng)算法優(yōu)化支持向量機(jī)鑒別卷煙牌號(hào)的方法。結(jié)果表明:采用標(biāo)準(zhǔn)正態(tài)變量變換結(jié)合一階導(dǎo)數(shù)對(duì)近紅外光譜進(jìn)行預(yù)處理,當(dāng)螢火蟲(chóng)種群數(shù)目為20,迭代次數(shù)為20時(shí),成品煙絲訓(xùn)練集正確識(shí)別率均為100%,測(cè)試集的正確識(shí)別率為96.67%~100.00%。因此,螢火蟲(chóng)算法優(yōu)化支持向量機(jī)算法結(jié)合近紅外光譜技術(shù)可實(shí)現(xiàn)對(duì)卷煙牌號(hào)的準(zhǔn)確鑒別。但該方法僅對(duì)近紅外全光譜進(jìn)行研究,后續(xù)將結(jié)合近紅外光譜不同波長(zhǎng)的篩選方法,以期進(jìn)一步提升卷煙牌號(hào)的鑒別能力。