沙云菲,黃 雯,王 亮,劉太昂,岳寶華,李敏杰,尤靜林,葛 炯*,謝雯燕*
1.上海煙草集團(tuán)有限責(zé)任公司技術(shù)中心,上海 200082 2.上海大學(xué)化學(xué)系,上海 200444
中式卷煙風(fēng)格的重要構(gòu)成因素之一是烤煙香型,這也一直是煙草行業(yè)的研究熱點(diǎn)??緹熛阈屯ǔ7譃榍逑阈汀⒅虚g香型和濃香型3大類(lèi)[1]。近年來(lái),隨著對(duì)烤煙香型研究和認(rèn)識(shí)的進(jìn)一步加深進(jìn)而細(xì)分成清香型、清偏中型、中偏清型、中間型、濃香型、濃偏中型和中偏濃型七大類(lèi)。早期對(duì)于烤煙香型分類(lèi)一般都是通過(guò)評(píng)吸人員進(jìn)行感官評(píng)價(jià),后來(lái)不少研究希望通過(guò)煙葉化學(xué)成分或近紅外光譜數(shù)據(jù)建立烤煙香型的判別模型。邱昌桂[2]等利用煙葉中的68種致香成分結(jié)合數(shù)據(jù)分析和模式識(shí)別技術(shù),提出了一種基于煙草致香成分和遺傳算法-支持向量機(jī)算法的烤煙香型自動(dòng)識(shí)別方法;郭東鋒[3]等利用煙葉中常規(guī)化學(xué)成分結(jié)合人工神經(jīng)網(wǎng)絡(luò)算法建立烤煙香型評(píng)價(jià)模型。宋楠[4]提出了一種改進(jìn)局部線(xiàn)性嵌入非線(xiàn)性降維算法首先對(duì)煙草近紅外數(shù)據(jù)進(jìn)行降維,然后建立了香型風(fēng)格投影模型和判別模型。在前期研究中,無(wú)論是利用煙葉化學(xué)成分或者是近紅外光譜數(shù)據(jù),可能是包含的信息量還不夠多,因此模型還有進(jìn)一步優(yōu)化的空間。在文獻(xiàn)調(diào)研中發(fā)現(xiàn)中紅外在快速檢測(cè)中得到了應(yīng)用[5-6]。劉巖[7]等運(yùn)用三級(jí)紅外宏觀指紋圖譜法對(duì)三種不同香型的白酒進(jìn)行了鑒定;中紅外光譜攜帶有大量信息,可以用食品類(lèi)香型的快速識(shí)別。本研究嘗試將中紅外和近紅外光譜進(jìn)行數(shù)據(jù)融合,用來(lái)建立烤煙香型風(fēng)格快速識(shí)別模型。并與僅僅利用中紅外、近紅外光譜數(shù)據(jù)建立煙葉香型風(fēng)格模型的準(zhǔn)確率進(jìn)行對(duì)比。
選取2018年清香型、中間香、型濃香型的煙葉樣本共189個(gè),其中清香型81個(gè),中間香型45個(gè),濃香型63個(gè)。
稱(chēng)取1 g 烘干后的煙葉粉末于試管中,加入10 mL正己烷,超聲混勻靜置一段時(shí)間,抽取5 mL經(jīng)濾膜過(guò)濾至小試管中,靜置揮發(fā)三天,利用ThermoFisher公司的Nicolet iS50傅里葉變換紅外光譜儀掃描得到中紅外光譜,掃描范圍4 000~650 cm-1,分辨率為4 cm-1,掃描次數(shù)16次。煙葉中紅外光譜如圖1(a)所示。
圖1 煙葉中紅外光譜(a)和近紅外光譜(b)Fig.1 MIRs (a) and NIRs (b) of tobacco samples
將15 g 60 目的煙葉粉末,放置在內(nèi)徑為5 cm樣品杯中,壓實(shí)后,利用ThermoFisher公司的Antaris FT-NIR分析儀掃描得到近紅外光譜,掃描范圍3 800~10 000 cm-1,分辨率為4 cm-1,掃描次數(shù)16次。煙葉近紅外光譜如圖1(b)所示。
主成分分析法[8](principal component analysis,PCA)通過(guò)線(xiàn)性變換將煙葉中紅外光譜數(shù)據(jù)或者近紅外光譜數(shù)據(jù)投射到一些新的主成分變量(principal components,PCs),這些主成分變量之間依次正交,每一個(gè)主成分都是由中紅外光譜數(shù)或者近紅外光譜數(shù)據(jù)線(xiàn)性組合而成,利用PCA可以考察樣本在空間分布情況。
遺傳算法[9](genetic algorithm,GA)是一種模仿生物界的進(jìn)化規(guī)律(適者生存,優(yōu)勝劣汰)演化而來(lái)的自適應(yīng)全局優(yōu)化搜索方法。與其他變量選擇算法相比,GA直接對(duì)研究對(duì)象操作,不需要求導(dǎo)和連續(xù)函數(shù),具有全局尋優(yōu)、自適應(yīng)調(diào)整尋優(yōu)方向等特點(diǎn)。
后退法[10]則是首先將所有變量都用在建模方程中,然后刪除偏相關(guān)系數(shù)最小的變量,隨后重復(fù)這一選擇過(guò)程直到不再刪除變量為止。
支持向量機(jī)分類(lèi)算法[11-12](support vector classification,SVC)的核心內(nèi)容是在進(jìn)行建模分類(lèi)過(guò)程中,構(gòu)建出一個(gè)最優(yōu)分類(lèi)面,此最優(yōu)分類(lèi)面可以將樣本正確分開(kāi),而且要使兩類(lèi)的分類(lèi)空隙最大。對(duì)于構(gòu)建最優(yōu)分類(lèi)面過(guò)程即為求函數(shù)全局最優(yōu)解的過(guò)程。在利用支持向量機(jī)分類(lèi)算法建立分類(lèi)模型的過(guò)程中懲罰參數(shù)c是一個(gè)重要的影響參數(shù),對(duì)于建立的分類(lèi)模型的準(zhǔn)確率和預(yù)報(bào)能力影響顯著。
為了提高信噪比,對(duì)中紅外和近紅外譜圖數(shù)據(jù)進(jìn)行一階導(dǎo)數(shù)和Savizky-Golay平滑。選取煙葉中紅外光譜數(shù)據(jù)21個(gè)和近紅外光譜數(shù)據(jù)13個(gè)特征波數(shù)對(duì)應(yīng)的吸光度值作為影響因素。如圖2所示。
圖2 (a)中紅外一階導(dǎo)數(shù)圖和(b)近紅外一階導(dǎo)數(shù)圖Fig.2 (a)The first derivative MIR spectra and (b)The first derivative NIR spectra
圖3分別是基于中紅外數(shù)據(jù)(21個(gè)影響因素)、近紅外數(shù)據(jù)(13個(gè)影響因素)及中紅外和近紅外融合數(shù)據(jù)(34個(gè)影響因素)的煙葉清香型、中間香型、濃香型三種香型的PCA投影圖。
圖3 (a)基于中紅外數(shù)據(jù)的PCA投影圖;(b)基于近紅外數(shù)據(jù)的PCA投影圖和(c)基于中紅外和近紅外融合數(shù)據(jù)的PCA投影圖Fig.3 (a) PCA projection plot based on MIR;(b) PCA projection plot based on NIR and (c) PCA projection plot based on MIR and NIR
由圖3可見(jiàn),基于中紅外和近紅外數(shù)據(jù)PCA投影圖中三種香型混淆嚴(yán)重,區(qū)分界面不清晰?;谥屑t外和近紅外融合數(shù)據(jù)的PCA投影圖清香型、中間香型和濃香型數(shù)據(jù)分類(lèi)清晰,有比較明顯的區(qū)分界面。
中紅外和近紅外融合數(shù)據(jù)共有34個(gè)影響因素,分別用后退法和GA進(jìn)行變量選擇。圖4是基于34個(gè)全部影響因素、后退法選擇的24個(gè)影響因素(中紅外14個(gè),近紅外10個(gè)),GA選擇的19個(gè)影響因素(中紅外11個(gè),近紅外8個(gè))的清香型、中間香型、濃香型三種香型風(fēng)格的PCA投影圖。
圖4 (a)基于34個(gè)變量的PCA投影圖;(b)基于24個(gè)變量的PCA投影圖和(c)基于19個(gè)變量的PCA投影圖Fig.4 (a) PCA projection plot based on 34 varieties;(b) PCA projection plot based on 24 varieties and (c) PCA projection plot based on 19 varieties
由圖4可以看出:對(duì)比全部34個(gè)變量、后退法選擇的24個(gè)變量和GA選擇的19變量的PCA算法投影圖,可以看出GA即使選擇了比較少的變量,但三種香型風(fēng)格的煙葉分類(lèi)效果還比較好。因此利用GA對(duì)中紅外和近紅外融合后數(shù)據(jù)進(jìn)行變量選擇,可以剔除對(duì)煙葉香型分類(lèi)影響小的因素。
選取上述189個(gè)三種香型煙葉樣本,隨機(jī)提取20%共38個(gè)樣本作為預(yù)報(bào)集,剩余80%共151個(gè)樣本作為建模集,以GA選擇的19個(gè)變量輸入變量,建立煙葉香型風(fēng)格判別的SVC模型,在SVC建模過(guò)程中選擇線(xiàn)性核函數(shù),懲罰因子C取10。該模型的建模結(jié)果、留一法結(jié)果和預(yù)報(bào)結(jié)果如表1所示。
由表1可以看出:基于GA選擇的中紅外和近紅外融合數(shù)據(jù)的19個(gè)變量輸入變量,建立的煙葉香型風(fēng)格判別的SVC模型,其建模結(jié)果、留一法結(jié)果和預(yù)報(bào)結(jié)果都有著比較高的準(zhǔn)確率,整體準(zhǔn)確率都高于85%。
表1 SVC模型準(zhǔn)確率Table 1 The accuracies of the SVC
由于中紅外和近紅外融合數(shù)據(jù)提取了更多的特征信息,對(duì)于煙葉香型風(fēng)格的分類(lèi)效果更佳。利用GA算法對(duì)融合后的數(shù)據(jù)進(jìn)行變量選擇,刪除了中紅外和近紅外融合數(shù)據(jù)的冗余信息,雖然選擇比較少的變量,但煙葉香型風(fēng)格的分類(lèi)效果還較好。進(jìn)一步利用以GA選擇的變量,對(duì)189個(gè)三種香型煙葉樣本建立煙葉香型風(fēng)格判別的SVC模型,模型的建模結(jié)果、留一法結(jié)果和預(yù)報(bào)結(jié)果的準(zhǔn)確率都大于85%。以上結(jié)果表明中紅外和近紅外數(shù)據(jù)融合可以提取更多特征信息,利用這些信息可以建立煙葉香型風(fēng)格的分類(lèi)判別模型,為煙葉香型風(fēng)格快速鑒別提供幫助,減少專(zhuān)業(yè)人員的感官評(píng)吸工作量。