張同琢,王 樂,梅吉帆,王安然,喬學(xué)義*,王 兵,李巧靈,李 斌
1.中國煙草總公司鄭州煙草研究院,鄭州高新技術(shù)產(chǎn)業(yè)開發(fā)區(qū)楓楊街2 號 450001
2.河南農(nóng)業(yè)大學(xué)煙草學(xué)院 國家煙草栽培生理生化研究基地,鄭州市金水區(qū)農(nóng)業(yè)路63 號 450002
3.福建中煙工業(yè)有限責(zé)任公司技術(shù)中心,福建省廈門市集美區(qū)濱水路298 號 361022
烤煙煙葉香型是烤煙煙葉燃吸過程中煙氣所呈現(xiàn)出的整體香氣格調(diào),在中式烤煙型卷煙產(chǎn)品質(zhì)量風(fēng)格特征構(gòu)成中發(fā)揮著重要作用。在日常的卷煙產(chǎn)品開發(fā)和配方維護過程中,經(jīng)常需要根據(jù)產(chǎn)品設(shè)計的目標以及特征,通過感官評吸的方式,從不同產(chǎn)地不同等級煙葉中篩選出符合配方需求的不同香型煙葉。然而,由于受人體嗅味覺疲勞、評吸環(huán)境、心理等諸多因素影響,評吸員不得不將每日的樣品評吸數(shù)量控制在一定范圍之內(nèi)[1],以提高評吸結(jié)果的準確性。當(dāng)煙葉樣品數(shù)量較多時,目標香型煙葉的篩選需要較長的時間才能完成,人力、物力成本相對較高。
為了建立更為高效的煙葉香型判定方法,申欽鵬等[2-6]嘗試從煙葉化學(xué)成分與香型關(guān)系的角度建立香型評判模型,并開展了大量的數(shù)據(jù)分析和基礎(chǔ)算法研究工作,例如:基于114 種化學(xué)指標的Bayes 香型定量判別模型;基于煙葉香味成分的隨機森林算法;基于致香成分的線性判別法和高斯混合模型等。與感官評價相比,基于化學(xué)成分的煙葉香型判定方法避免了人的生理、心理等主觀因素對檢測結(jié)果的影響,縮短了香型判定時間,但為了提高判定結(jié)果的準確率,仍需以大量的化學(xué)指標檢測數(shù)據(jù)為基礎(chǔ),人力、物力成本依然較高。
熱重分析法是研究樣品質(zhì)量隨溫度變化的方法,具有靈敏度高、重復(fù)性好、可自動化進樣等優(yōu)點[7]。Baker[8]研究認為絕大部分的煙氣都是在熱解/蒸餾區(qū)域產(chǎn)生,而煙葉香型本質(zhì)上是熱解煙氣作用于人體嗅味覺器官的特征體現(xiàn),不同煙葉香型的差異與其熱解特性密切相關(guān)。李巧靈等[9-10]采用熱重分析法考察了不同產(chǎn)地、年份、部位烤煙煙葉熱解差異性,發(fā)現(xiàn)產(chǎn)地對煙葉熱解差異性存在顯著影響。因此,采用熱重分析的方法研究全國煙葉熱解特征,并基于煙葉熱分析圖譜的差異性和機器學(xué)習(xí)方法構(gòu)建香型判別模型,旨在進一步提高煙葉香型判定的效率,降低評判過程成本,為煙葉香型判定技術(shù)的拓展提供依據(jù)。
選擇全國104 個縣烤煙煙葉作為試驗樣品(表1),煙葉年份2014 年,等級C3F。所有煙葉樣品香型均由全國評煙委員會、全國卷煙調(diào)香技術(shù)委員會委員組成的評吸專家組進行了鑒定。
TA Discovery 熱重分析儀(美國TA 公司);FW100 高速萬能粉碎機(天津泰斯特儀器有限公司);標準篩(紹興市上虞寶成儀器設(shè)備有限公司)。
表1 試驗煙葉樣品信息Tab.1 Information of tobacco leaf samples used in the study
將煙葉樣品放置在溫度(22±1)℃、相對濕度(60±2)%的恒溫恒濕箱中平衡48 h 后,經(jīng)高速粉碎機粉碎,過60 目(250 μm)篩。稱取(10.0±0.5)mg 煙粉進行熱重試驗,設(shè)置熱重分析儀反應(yīng)區(qū)吹掃氣(氮氣)流量為30 mL/min,天平保護氣(氮氣)流量為20 mL/min;將樣品以10 ℃/min 的速率由40 ℃升至105 ℃,并保持30 min 以脫出樣品中的水分,再以10 ℃/min 的升溫速率升溫至800 ℃。試驗過程中,每個樣品每分鐘記錄120 個數(shù)據(jù)點,選取105~800 ℃區(qū)間的熱分析圖譜(DTG 曲線)數(shù)據(jù)進行計算分析。
對數(shù)據(jù)按溫度進行插值運算,得到同一溫度下不同煙葉樣品的熱分析圖譜。插值的溫度范圍為105.1~800.0 ℃,間隔0.1 ℃,每個樣品共得到6 950 個數(shù)據(jù)點。
對于分類問題而言,相比其他分類方法,支持向量機(Support Vector Machine,SVM)具有速度快、樣本需求量小等優(yōu)點[11-13],因此選擇支持向量機構(gòu)建香型判別模型,其核函數(shù)類型選擇高斯核函數(shù)。懲罰因子C 和核函數(shù)參數(shù)g 的值對支持向量機的分類結(jié)果有重要影響。遺傳算法[14]具有不依賴于梯度信息或其他輔助知識,只需要影響搜索方向的目標函數(shù)和相應(yīng)的適應(yīng)度函數(shù)的特點,因此采用遺傳算法來尋找支持向量機的最優(yōu)參數(shù)。利用遺傳算法對支持向量機參數(shù)進行優(yōu)化時,首先對分類器參數(shù)(懲罰因子C 和核函數(shù)參數(shù)g)進行編碼,然后通過隨機選擇、交叉和變異等步驟尋找最優(yōu)參數(shù)值,提高支持向量機的精度和效率。
香型判別模型構(gòu)建與驗證的具體流程見圖1。本研究中涉及的算法均在MATLAB 軟件中實現(xiàn),支持向量機基于LIBSVM 工具箱實現(xiàn)[11]。
圖1 香型判別模型構(gòu)建與驗證流程圖Fig.1 A flow chart to illustrate the construction and verification of flavor type discrimination model
八大香型烤煙煙葉樣品熱分析圖譜見圖2。由圖2 可以看出,在105~400 ℃的溫度范圍內(nèi),隨著熱解溫度升高,烤煙煙葉質(zhì)量損失速率均較大;當(dāng)溫度高于400 ℃后,煙葉質(zhì)量損失速率迅速減小。對八大香型烤煙煙葉樣品熱分析圖譜進行比較可以看出,在150~400 ℃區(qū)間,不同香型煙葉熱解特性差異明顯,說明通過熱解特性的差異來判定煙葉香型可行。
由圖3 可知,同一香型各產(chǎn)地?zé)熑~樣品的熱解特性也存在差異,且與不同香型間的熱解特性相比,在150~400 ℃區(qū)間,香型內(nèi)與香型間煙葉樣品質(zhì)量損失標準偏差均較大,許多香型內(nèi)的標準偏差已經(jīng)大于香型間的標準偏差。因此,直接基于整個溫度區(qū)間的熱解特性差異判定煙葉香型存在一定難度,需對溫度進行篩選。
通過逐一比較每種香型煙葉與其他所有香型煙葉熱解特性差異,得到八種香型煙葉特征溫度。具體篩選、計算過程如下:計算某一香型煙葉樣品某一溫度下的質(zhì)量損失速率標準偏差S1與其余所有樣品的標準偏差S2,并計算該香型煙葉樣品在該溫度下的質(zhì)量損失速率均值μ1與其余所有樣品的均值μ2,取兩個均值之差的絕對值μ=|μ1-μ2|,取兩個標準偏差中最大的標準偏差S=max(S1,S2),計算μ/S 特征值。比較某一香型煙葉在不同溫度下的μ/S 特征值,為了獲取最有利于分類結(jié)果的差異特性,將最大的μ/S 特征值對應(yīng)的溫度作為該香型煙葉相對于其他所有香型的熱解特征溫度。
圖2 八大香型烤煙煙葉樣品熱分析圖譜Fig.2 Thermal analysis spectra from flue-cured tobacco of eight flavor types
圖3 八大香型內(nèi)及香型間標準偏差Fig.3 Standard deviations within and among the eight flavor types
八種香型烤煙煙葉μ/S 特征圖見圖4。由圖4可知,在不同熱解溫度條件下,同一香型煙葉樣品計算得到的μ/S 特征值波動較大;不同香型相比較,μ/S 特征值差異明顯。因此選擇每種香型最大值對應(yīng)的溫度作為該香型特征溫度。計算后得到的Ⅰ~Ⅷ香型煙葉特征溫度分別為368.3、763.4、613.0、517.2、611.2、652.6、336.1、383.5 ℃。
圖4 八大香型烤煙煙葉μ/S 特征圖Fig.4 μ/S Characteristic figures of flue-cured tobacco leaves of eight flavor types
從104 個煙葉樣品中隨機抽取92 個樣品作為訓(xùn)練集,將訓(xùn)練集煙葉樣品的八種香型特征溫度對應(yīng)的質(zhì)量損失速率進行歸一化處理后,輸入到支持向量機模型中,采用遺傳算法對模型進行優(yōu)化。遺傳算法的參數(shù)為:種群的規(guī)模選擇50,交配概率選擇0.8,變異概率選擇0.017 5,進化代數(shù)選擇300。將GA-SVM 算法運行5 次,得到懲罰因子C 和核函數(shù)參數(shù)g 平均值(表2)。由表2 可知,訓(xùn)練集平均正確率為76.8%,波動較小;懲罰因子C的平均值為87.1;g 的平均值為893.4。
通過懲罰因子C 和核函數(shù)參數(shù)g 等支持向量機參數(shù)計算得到的香型判別函數(shù)如下:
表2 GA-SVM 模型參數(shù)Tab.2 Parameters of the GA-SVM model
將104 個煙葉樣品中除訓(xùn)練集外的12 個樣品作為測試集進行模型驗證,將測試集煙葉樣品的特征溫度對應(yīng)的質(zhì)量損失速率輸入香型判別函數(shù)中進行判別,并與感官評吸結(jié)果進行對比驗證,所有測試樣品的香型判定函數(shù)預(yù)測結(jié)果見圖5。由圖5 可以看出,12 個測試樣本中,10 個預(yù)測正確,正確率達到83.3%。測試集的準確率高于訓(xùn)練集,這是因為測試集樣本數(shù)量較少,而有的香型種植區(qū)域面積較小,樣品數(shù)量較少,因此有些香型的樣品不太適合作為測試集。另外本方法是基于八大香型的判定,之前的方法均是基于傳統(tǒng)三大香型的判定,當(dāng)香型數(shù)量增加后,位于香型分布區(qū)過渡地帶特征不明顯的煙葉樣品數(shù)量增多,增加了模型測試時的香型判定難度,因此需要較多的訓(xùn)練樣本來建立模型。
圖5 烤煙煙葉香型判別模型驗證結(jié)果Fig.5 Validation results of discriminant model for flavor types of flue-cured tobacco leaves
通過采用熱重分析儀測定不同香型烤煙煙葉熱分析圖譜,提取八大香型的熱解特征溫度,依據(jù)遺傳算法改進的支持向量機構(gòu)建香型判別模型,并測試模型準確率,結(jié)果表明:①八大香型烤煙煙葉熱分析圖譜在150~400 ℃區(qū)間存在明顯差異;②Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ、Ⅵ、Ⅶ、Ⅷ香型熱解特征溫度分 別 為368.3、763.4、613.0、517.2、611.2、652.6、336.1、383.5 ℃;③GA-SVM 方法構(gòu)建的香型判別模型對烤煙煙葉香型判定準確率為83.3%。