陳 頤 ,范迎杰 ,汪 旭 ,楊 菁 ,趙文濤 ,張志敏*
(1.云南省煙草農(nóng)業(yè)科學(xué)研究院,昆明 650021;2.中南大學(xué) 化學(xué)化工學(xué)院,長(zhǎng)沙 410083;3.上海新型煙草制品研究院有限公司,上海 200082)
加熱卷煙是利用特殊加熱源加熱而不點(diǎn)燃的一種新型煙草制品,煙草加熱到足夠高的溫度(一般在500 ℃以下)后僅產(chǎn)生低溫蒸汽[1],有效減少了煙草制品由高溫燃燒產(chǎn)生的潛在有害成分[2]。雷諾公司開(kāi)發(fā)的“Eclipse”是一種使用碳質(zhì)固體燃料作為熱源的燃料加熱型卷煙產(chǎn)品,其兩段式煙芯材料中添加了煙絲,靠近熱源端的卷煙原料中丙三醇含量較高,而靠近過(guò)濾端卷煙原料中不含丙三醇。菲利普莫里斯國(guó)際2014 年推出采用電子加熱技術(shù)的“IQOS”產(chǎn)品[3],包括實(shí)心濾棒、空心濾棒、聚乳酸薄膜段和煙芯。煙芯作為加熱卷煙核心技術(shù)之一,其煙葉原料的質(zhì)量直接影響和制約新型煙草制品的發(fā)展。因此,需要對(duì)加熱卷煙煙葉原料的適用性進(jìn)行研究。
目前,國(guó)內(nèi)對(duì)加熱卷煙煙葉原料評(píng)價(jià)的基礎(chǔ)性研究相對(duì)較少,確定其品質(zhì)主要是依靠專業(yè)人員的感官評(píng)價(jià)。熱裂解-氣相色譜-質(zhì)譜法(Py-GC-MS)可用于分析煙草中復(fù)雜的化學(xué)成分[4]。文獻(xiàn)[5]采用Py-GC-MS分析添加紅茶的加熱卷煙在低溫條件下釋放出的揮發(fā)物含量的變化。隨機(jī)森林(RF)是由Leo Breiman在2001年提出的一種算法[6],可用于解決分類和回歸問(wèn)題,具有良好的泛化性和準(zhǔn)確度,在煙草工藝和成分研究方面具有良好的應(yīng)用前景。文獻(xiàn)[7]采用RF 回歸算法對(duì)卷煙制絲工藝過(guò)程中關(guān)鍵參數(shù)的篩選和賦權(quán)進(jìn)行了分析。文獻(xiàn)[8]根據(jù)細(xì)支卷煙原料的需求,對(duì)各類煙草樣品的外觀和感官質(zhì)量指標(biāo)進(jìn)行了分析,并采用RF 和邏輯回歸分類模型確定了所選煙草的品控指標(biāo)。Py-GC-MS分析復(fù)雜樣品時(shí)會(huì)產(chǎn)生大量數(shù)據(jù),需要利用數(shù)據(jù)處理工具與機(jī)器學(xué)習(xí)來(lái)解決噪聲、基線和保留時(shí)間漂移等問(wèn)題。借助 MathDAMP[9]、AMDIS[10]、Met Align[11]、MET-IDEA[12]、TagFinder[13]、MSFACTs[14]、MZmine[15]等數(shù)據(jù)處理工具,可從原始數(shù)據(jù)中得到用于建立模型的化合物特征峰表。
本工作采用Py-GC-MS 對(duì)加熱卷煙釋放的化學(xué)成分進(jìn)行分析,利用MZmine數(shù)據(jù)處理工具以及RF算法建立加熱卷煙煙葉原料適用性評(píng)價(jià)模型,并與偏最小二乘法(PLS)模型進(jìn)行比對(duì),為深入研究加熱卷煙煙葉原料評(píng)價(jià)及開(kāi)發(fā)專用型煙葉原料奠定理論基礎(chǔ)和積累經(jīng)驗(yàn)。
PY-3030D 型熱裂解儀;GCMS-QP2010 Ultra型氣相色譜-質(zhì)譜聯(lián)用儀;Mettler Toledo MX5型電子天平。
用于試驗(yàn)研究的28種不同類型的加熱卷煙樣品均源于云南產(chǎn)區(qū),使用scikit-learn軟件包(版本1.0)中的train_test_split函數(shù)隨機(jī)劃分訓(xùn)練集和測(cè)試集,具體信息見(jiàn)表1。
表1 加熱卷煙樣品信息Tab.1 Information of the heat-not-burn tobacco samples
1.2.1 熱裂解儀
裂解溫度350 ℃;接口溫度300 ℃。
1.2.2 色譜條件
DB-5MS毛細(xì)管色譜柱(30 m×0.25 mm,0.25μm);進(jìn)樣口溫度300 ℃;分流進(jìn)樣,分流比50∶1;載氣為氦氣,流量1 mL·min-1。柱升溫程序:初始溫度50 ℃;以10 ℃·min-1速率升溫至300℃,保持10 min。
1.2.3 質(zhì)譜條件
電子轟擊離子(EI)源;離子源溫度230℃,傳輸線溫度300 ℃;電離能量70 eV;檢測(cè)器電壓0.8 kV;全掃描模式;掃描范圍 質(zhì)荷比(m/z)29~800。
1.3.1 感官評(píng)價(jià)
按照云南中煙企業(yè)標(biāo)準(zhǔn)Q/YNZY.J04.022-2015《新型卷煙感官評(píng)價(jià)方法》(此標(biāo)準(zhǔn)目前僅在云南中煙使用,待煙草行業(yè)標(biāo)準(zhǔn)制定并發(fā)布后,將改用行業(yè)標(biāo)準(zhǔn)評(píng)價(jià)),采用煙霧量、香氣香味、勁頭、諧調(diào)性、刺激性、口感等6項(xiàng)評(píng)價(jià)指標(biāo)對(duì)卷煙進(jìn)行打分。每項(xiàng)指標(biāo)有3個(gè)等級(jí)的評(píng)分標(biāo)準(zhǔn),其中煙霧量分為煙霧充足(10 分),煙霧略少(8 分),煙霧較少(6分);香氣香味分為香氣豐滿、細(xì)膩(30分),香氣充足、少粗糙(25分),香氣偏淡、較粗糙(20分);勁頭分為適宜(10分),略大或略小(8分),較大或較小(6分);諧調(diào)性分為諧調(diào)(10分),較諧調(diào)(8分),尚諧調(diào)(6分);刺激性分為無(wú)刺激(15分),略有刺激(12分),刺激較強(qiáng)(9分);口感分為舒適(25分),較舒適(22分),尚舒適(20分)。各項(xiàng)指標(biāo)的權(quán)重分別為0.10,0.30,0.10,0.10,0.15,0.25。最終得分為單項(xiàng)加權(quán)平均,采用百分制計(jì)分,各項(xiàng)指標(biāo)以0.5分為計(jì)分單位。
1.3.2 樣品分析
煙絲經(jīng)液氮冷凍研磨后置于烘箱內(nèi),于40℃干燥,然后過(guò)0.18 mm(80 目)篩。稱取樣品粉末0.90 mg于樣品杯中,將其固定于進(jìn)樣桿上,裝入熱裂解儀。待儀器達(dá)到設(shè)定溫度并穩(wěn)定后,按下進(jìn)樣按鈕,樣品杯通過(guò)自由落體迅速掉入熱裂解儀爐心。在氦氣氛圍中,揮發(fā)性成分瞬間氣化,由載氣帶入氣相色譜儀中進(jìn)行分離,通過(guò)聯(lián)用的質(zhì)譜儀檢測(cè),得到樣品的Py-GC-MS數(shù)據(jù)。
1.3.3 數(shù)據(jù)處理
從GCMSsolution2.5 工作站中以NetCDF 格式導(dǎo)出Py-GC-MS 數(shù)據(jù),然后導(dǎo)入MZmine 軟件(版本2.53)進(jìn)行數(shù)據(jù)處理,包括構(gòu)建提取離子流色譜圖(EIC)、檢測(cè)EIC 峰、解卷積和峰校準(zhǔn),以獲得具有m/z、保留時(shí)間和峰強(qiáng)度信息的特征峰表。其中解卷積是數(shù)據(jù)處理的重要步驟,采用多元曲線分辨(MCR)進(jìn)行,包括以下3個(gè)步驟:①解卷積窗口的確定;②通過(guò)MCR 在每個(gè)解卷積窗口中構(gòu)建模型峰;③將解卷積窗口中構(gòu)建的每個(gè)EIC峰分解為模型峰的線性組合。將構(gòu)建的質(zhì)譜數(shù)據(jù)以msp格式導(dǎo)出,然后導(dǎo)入NIST 2017庫(kù)中進(jìn)行檢索定性。
1.3.4 建立模型
采用Python編程語(yǔ)言(版本3.8.12)和scikitlearn軟件(版本1.0)中的RF 算法進(jìn)行回歸分析,建立加熱卷煙化學(xué)成分與感官評(píng)價(jià)得分(評(píng)吸值)之間關(guān)系的RF模型。
RF是一種以決策樹(shù)為基礎(chǔ)學(xué)習(xí)器的集成學(xué)習(xí)算法,由很多決策樹(shù)共同構(gòu)成。決策樹(shù)的每個(gè)非葉結(jié)點(diǎn)表示由一種特征屬性引發(fā)的判斷,每個(gè)分支代表判斷結(jié)果的輸出,每個(gè)葉結(jié)點(diǎn)存放一個(gè)決策結(jié)果。使用決策樹(shù)進(jìn)行決策的過(guò)程是從根結(jié)點(diǎn)開(kāi)始,測(cè)試待測(cè)數(shù)據(jù)中相應(yīng)的特征屬性,并根據(jù)其結(jié)果選擇輸出分支,直到到達(dá)葉結(jié)點(diǎn),獲得決策結(jié)果。
以Gini指數(shù)作為評(píng)價(jià)指標(biāo)來(lái)衡量樣品中化學(xué)成分的特征重要性[16]。將所有決策樹(shù)上每個(gè)化學(xué)成分的Gini指數(shù)降低值相加,即可獲得每個(gè)化學(xué)成分的特征重要性評(píng)分[17]。
1.3.5 模型評(píng)價(jià)
以均方根誤差(RMSE)和決定系數(shù)(R2)作為模型的評(píng)價(jià)指標(biāo)[18]。RMSE 用于衡量模型在預(yù)測(cè)中產(chǎn)生的誤差。R2表示預(yù)測(cè)值對(duì)實(shí)際值的解釋程度,越接近于1,說(shuō)明預(yù)測(cè)效果越好;越接近于0,說(shuō)明預(yù)測(cè)效果越差;負(fù)值時(shí)說(shuō)明預(yù)測(cè)效果非常差。
樣品量太大,會(huì)導(dǎo)致色譜柱殘留,污染儀器,影響結(jié)果重現(xiàn)性;樣品量過(guò)少,會(huì)導(dǎo)致色譜峰的強(qiáng)度下降,數(shù)量減少,有些低含量化學(xué)組分檢測(cè)不到。以樣品1為研究對(duì)象,分別取0.70,0.90,1.10 mg,按照1.3.2節(jié)進(jìn)行檢測(cè)。
結(jié)果表明:當(dāng)保留時(shí)間為6.0~10.0 min時(shí),基線漂移嚴(yán)重,這是由于樣品中丙三醇含量較高、極性較強(qiáng);當(dāng)樣品量為0.70 mg時(shí),少數(shù)含量較低的組分未被檢測(cè)到;當(dāng)樣品量為0.90,1.10 mg時(shí),裂解產(chǎn)物的數(shù)量較多,色譜峰強(qiáng)度適中,分離度良好,并且兩者的色譜峰個(gè)數(shù)和強(qiáng)度無(wú)明顯差別。因此,試驗(yàn)選擇的樣品量為0.90 mg。
每種樣品分別選取3份,按照試驗(yàn)方法進(jìn)行分析,計(jì)算樣品中各組分峰面積的相對(duì)標(biāo)準(zhǔn)偏差(RSD)。為了便于展示,按照不同RSD 范圍(0~10%,10%~20%,20%~30%)對(duì)28種加熱卷煙樣品進(jìn)行統(tǒng)計(jì)分析,結(jié)果見(jiàn)表2。其中,峰個(gè)數(shù)百分比=不同RSD 范圍內(nèi)峰個(gè)數(shù)/總峰個(gè)數(shù)×100%,峰面積百分比=不同RSD 范圍內(nèi)峰面積和/總峰面積×100%。
表2 精密度試驗(yàn)結(jié)果(n=3)Tab.2 Results of test for precision(n=3)
表2 (續(xù))
結(jié)果表明:每種樣品中峰面積RSD 小于20%的峰個(gè)數(shù)和峰面積占總峰個(gè)數(shù)和總峰面積的88.00%以上;以樣品1為例,有93.20%的組分峰的峰面積RSD 在20%以內(nèi),占總峰面積的98.30%,說(shuō)明儀器穩(wěn)定,結(jié)果重現(xiàn)性好。
按照1.3.3 節(jié)對(duì)Py-GC-MS 原始數(shù)據(jù)進(jìn)行處理。以樣品1為例,首先對(duì)噪聲進(jìn)行過(guò)濾。取m/z容差參數(shù)(εm/z)為0.2,樣品1 在m/z56.800 0~57.200 0內(nèi)的EIC見(jiàn)圖1(a)。接著,使用連續(xù)小波變換(CWT)[19]檢測(cè)EIC 峰,通過(guò)不斷改變平移因子和尺度因子來(lái)確定峰的位置和邊界。樣品1 在m/z39.050 0通道上所檢測(cè)到的EIC峰見(jiàn)圖1(b),共流出區(qū)間的EIC 峰見(jiàn)圖1(c)。通過(guò)MCR 解卷積,在解卷積窗口6.170~6.346 min內(nèi)檢測(cè)到未被色譜完全分離的共流出區(qū)間中每個(gè)組分的色譜峰[圖1(d)]。將解卷積窗口中檢測(cè)到的EIC峰分解為模型峰的線性組合,為每個(gè)組分構(gòu)建質(zhì)譜數(shù)據(jù)[圖1(e)]。最后根據(jù)質(zhì)譜相似性和保留時(shí)間相似性對(duì)每個(gè)組分峰進(jìn)行校準(zhǔn),當(dāng)兩個(gè)組分相似度(范圍0~1)不小于0.85時(shí),即認(rèn)為是同一組分。圖1(e)上半部分代表構(gòu)建的質(zhì)譜數(shù)據(jù),下半部分代表NIST 2017庫(kù)中的質(zhì)譜數(shù)據(jù)。結(jié)果表明:峰1的初步定性結(jié)果為苯酚,匹配度為912;峰2的初步定性結(jié)果為2,4-二羥基-2,5-二甲基-3(2H)-呋喃-3-酮,匹配度為738。將包含峰強(qiáng)度信息的特征峰表以csv格式導(dǎo)出,用于建立RF模型。
圖1 數(shù)據(jù)處理結(jié)果Fig.1 Results of data processing
以數(shù)據(jù)處理后獲得的包含峰強(qiáng)度信息的特征峰表作為自變量,評(píng)吸值作為因變量,采用RF建立加熱卷煙煙葉原料適用性模型,并與PLS 模型進(jìn)行對(duì)比。
對(duì)RF模型性能影響較大的參數(shù)是森林中樹(shù)的個(gè)數(shù)(n_estimators)、每棵樹(shù)隨機(jī)選擇的特征數(shù)目(max_features)和樹(shù)的最大深度(max_depth)[20]。增加n_estimators可減小誤差并提高預(yù)測(cè)的穩(wěn)定性,但訓(xùn)練RF 時(shí)間隨著n_estimators的增加顯著延長(zhǎng)[21],增加了時(shí)間成本;適當(dāng)減少max_features可降低每棵樹(shù)之間的相關(guān)性,有助于提高RF 模型的準(zhǔn)確度;max_depth越深,模型越復(fù)雜,也會(huì)增加訓(xùn)練的時(shí)間成本。將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,采用K折交叉驗(yàn)證對(duì)參數(shù)進(jìn)行優(yōu)化。當(dāng)K為10時(shí),結(jié)果得n_estimators=20,max_features=21,max_depth=6。
加熱卷煙感官評(píng)價(jià)的評(píng)吸值與RF、PLS 模型預(yù)測(cè)值之間的關(guān)系如圖2所示,RF、PLS模型的評(píng)價(jià)結(jié)果如表3所示。
由圖2訓(xùn)練集結(jié)果來(lái)看,RF 模型具有良好的預(yù)測(cè)能力,并且由表3結(jié)果可知RF 模型在測(cè)試集上的R2顯著高于PLS模型的,RF模型在測(cè)試集上的RMSE值顯著低于PLS模型的,表明RF模型預(yù)測(cè)效果較好,具有良好的泛化能力。通過(guò)Py-GCMS采集某一類型加熱卷煙的化學(xué)成分信息,用MZmine軟件對(duì)Py-GC-MS數(shù)據(jù)進(jìn)行處理,獲得化學(xué)成分特征信息,將特征信息輸入RF模型,從而得到加熱卷煙的感官評(píng)價(jià)得分預(yù)測(cè)值。
表3 RF、PLS模型的評(píng)價(jià)結(jié)果Tab.3 Evaluation results of RF and PLS models
圖2 評(píng)吸值與RF、PLS模型預(yù)測(cè)值之間的關(guān)系Fig.2 Relationships between the suction values and the predicted valuse of RF and PLS models
表4展示了特征重要性評(píng)分較高的前20個(gè)成分,由NIST 2017庫(kù)定性,其中包括2個(gè)酸性成分,4個(gè)堿性成分,其余均為中性成分。酸性成分可以調(diào)節(jié)煙氣的酸堿平衡、柔和煙氣,對(duì)卷煙的香氣和吃味具有積極影響;堿性成分中7-羥基-6-甲氧基-香豆素具有弱甜味[22],特征重要性評(píng)分最高,并且雜環(huán)類化合物也是卷煙煙氣中的重要香氣成分;中性成分中,除了醇類、脂類等香味物質(zhì)具有較高的評(píng)分外,烴類物質(zhì)(2-甲基十八烷、正十七烷、2-甲基二十八烷)并不屬于香味成分,也具有較高的評(píng)分,這是由于烴類物質(zhì)可以調(diào)節(jié)煙葉表面的水平衡,水分的變化也是影響其感官評(píng)價(jià)的重要因素[23]。
表4 特征重要性評(píng)分較高的前20個(gè)化學(xué)成分Tab.4 The top 20 chemical compositions with high feature importance scores
本工作采用Py-GC-MS 對(duì)加熱卷煙的化學(xué)成分進(jìn)行分析,利用MZmine軟件對(duì)數(shù)據(jù)進(jìn)行處理,獲得化學(xué)成分特征峰表,基于RF 分析化學(xué)成分特征峰表與加熱卷煙感官評(píng)價(jià)評(píng)吸值之間的關(guān)系,建立了加熱卷煙煙葉原料適用性的RF 模型,并篩選出對(duì)RF模型特征重要性影響較高的20個(gè)化學(xué)成分。該方法從化學(xué)成分角度對(duì)加熱卷煙煙葉原料進(jìn)行評(píng)價(jià),所建模型具有良好的預(yù)測(cè)能力和較高的準(zhǔn)確度,適用于卷煙質(zhì)量評(píng)價(jià)背后復(fù)雜化學(xué)成分分析,為優(yōu)化煙草配方及添加劑提供方法參考和探索中式新型煙草制品發(fā)展積累經(jīng)驗(yàn)。