張艷艷,代 琛,趙百英,楊明峰,王麗麗,武 博,楊 杰,戴金鋒,張本強(qiáng)*
(1.中國(guó)煙草總公司 青州中等專業(yè)學(xué)校,山東 青州 262500;2.山東中煙工業(yè)有限責(zé)任公司 山東 濟(jì)南 250014;3.山東臨沂煙草有限公司,山東 臨沂 276001;4.山東濰坊煙草有限公司,山東 濰坊 262100)
【研究意義】煙葉外觀質(zhì)量在一定程度上代表煙葉的內(nèi)在質(zhì)量,通過(guò)外觀質(zhì)量判定煙葉質(zhì)量是目前煙葉生產(chǎn)、收購(gòu)和使用過(guò)程中的最直接、最主要的手段。近年來(lái),煙葉外觀質(zhì)量量化評(píng)價(jià)體系得以完善[1],并被應(yīng)用到煙葉質(zhì)量評(píng)價(jià)之中[2-3]?!厩叭搜芯窟M(jìn)展】前人對(duì)煙葉化學(xué)成分和感官質(zhì)量間的相關(guān)性有一定報(bào)道[4-8]。另一方面,煙葉的常規(guī)化學(xué)成分含量由于客觀性強(qiáng),數(shù)據(jù)易得,在煙葉質(zhì)量的一致性評(píng)價(jià)中得到了較多的研究。徐澤桐等[9]基于烤煙化學(xué)成分與感官質(zhì)量?jī)蓚€(gè)方面建立模型,對(duì)陜西煙區(qū)的煙葉質(zhì)量執(zhí)行了綜合評(píng)價(jià)。杜文等[10]采用化學(xué)成分指標(biāo)對(duì)批次煙葉進(jìn)行質(zhì)量一致性研究。杜詠梅等[11]進(jìn)行了水溶性糖、煙堿、總氮3個(gè)指標(biāo)與烤煙吃味品質(zhì)關(guān)系的研究。
【本研究切入點(diǎn)】由于煙葉的外觀特征和化學(xué)成分易受氣候、地域等諸多因素影響,故在不同煙區(qū)呈現(xiàn)一定的差異性[12]。目前,尚缺乏山東煙葉在外觀、成分和評(píng)吸質(zhì)量之前的相關(guān)性研究。【擬解決的關(guān)鍵問(wèn)題】本研究基于2019年山東煙區(qū)臨沂、濰坊、日照3個(gè)產(chǎn)區(qū)各3個(gè)代表性站點(diǎn)的煙葉樣本,對(duì)于煙葉化學(xué)成分、外觀鑒定和煙葉質(zhì)量風(fēng)格感官評(píng)吸3個(gè)方面的特征進(jìn)行了相關(guān)性分析,旨在探尋各因素之間的關(guān)聯(lián)性,以期為探索煙葉風(fēng)味特征、外觀特征和化學(xué)成分三者之間的關(guān)聯(lián)性提供理論依據(jù),為后續(xù)山東煙區(qū)的煙葉智能分級(jí)體系的建立和發(fā)展奠定理論基礎(chǔ)。
取2019年山東煙區(qū)臨沂、濰坊、日照3個(gè)產(chǎn)區(qū)各3個(gè)代表性站點(diǎn),每個(gè)站點(diǎn)取18個(gè)等級(jí)(X1F、X2F、X3F、X1L、X2L、X3L、C2F、C3F、C4F、C2L、C3L、C4L、B2F、B3F、B4F、B2L、B3L、B4L)煙葉樣品。儀器為近紅外光譜儀(丹麥Foss 2050)。
對(duì)各等級(jí)煙葉的成熟度、葉片結(jié)構(gòu)、身份、油分、色度進(jìn)行量化打分,并對(duì)所取樣品進(jìn)行常規(guī)化學(xué)成分測(cè)定和感官評(píng)吸。研究采用Excel2019對(duì)數(shù)據(jù)進(jìn)行整理,采用pandas、Jupyter進(jìn)行數(shù)據(jù)預(yù)處理,采用R對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析及可視化,采用Keras進(jìn)行神經(jīng)網(wǎng)絡(luò)建模,采用Random Forest Regressor進(jìn)行隨機(jī)森林建模。
采用Excel2019對(duì)數(shù)據(jù)進(jìn)行整理,采用pandas進(jìn)行數(shù)據(jù)清洗,去掉空缺大于20%的列,然后去掉存在缺失值的行。采用R計(jì)算Spearman相關(guān)系數(shù),并進(jìn)行可視化。P<0.05表示存在顯著相關(guān)性。相關(guān)性系數(shù)熱圖中僅顯示存在顯著相關(guān)性的點(diǎn)。
由表1可知,山東煙區(qū)煙葉各指標(biāo)變異系數(shù)總體較大。在選取的39個(gè)定量特征中,除顏色、成熟度、燃燒性、灰分、干草香3個(gè)特征外,其余特征變異系數(shù)均在10%以上。其中,變異系數(shù)最小的為顏色和成熟度兩個(gè)外觀特征,其大小分別為2.034%和2.35%。變異系數(shù)最大的3個(gè)特征為鉀氯比、糖堿比和兩糖差,其大小分別為33.439%,34.433%和58.988%。在所有選取的特征中,約一半(19/39)偏度系數(shù)大于0,屬正偏峰;剩余約一半的特征屬負(fù)偏峰。各特征數(shù)據(jù)總體分布較為分散,除兩糖差、余味、燃燒性、淀粉百分比、烘焙香、鉀氯比、辛香、甜度8個(gè)特征外,其余特征峰度系數(shù)均小于0。
表1 各測(cè)量指標(biāo)特征
由圖1可知,糖堿比和氯堿比與煙葉主要質(zhì)量風(fēng)格評(píng)吸指標(biāo)間存在顯著負(fù)相關(guān);兩糖差與烘焙香之間存在顯著正相關(guān),但是與勁頭、焦香、典型香之間存在顯著負(fù)相關(guān),與辛香、焦甜香、余味、雜氣、刺激性、蜜甜香之間無(wú)顯著關(guān)聯(lián)。
圖1 化學(xué)成分與煙葉質(zhì)量風(fēng)格感官評(píng)吸相關(guān)性分析
由圖2可知,主要外觀特征評(píng)分值均與煙葉質(zhì)量風(fēng)格感官評(píng)吸總分間存在顯著正相關(guān)。其中,色度與香氣質(zhì)、香氣量、透發(fā)性、甜度間存在顯著正相關(guān),與烘焙香、木香、干草香之間無(wú)顯著相關(guān)性。勁頭、濃度與葉片結(jié)構(gòu)間存在顯著負(fù)相關(guān)。
圖2 外觀特征與煙葉質(zhì)量風(fēng)格感官評(píng)吸相關(guān)性分析
由圖3可知,煙葉顏色評(píng)分與氯堿比和氯含量之間存在顯著負(fù)相關(guān),與還原糖含量呈顯著正相關(guān),與其他主要化學(xué)成分指標(biāo)之間無(wú)顯著關(guān)聯(lián)。同時(shí),色度、油分、身份、成熟度也與氯堿比呈顯著負(fù)相關(guān)。
圖3 煙葉化學(xué)成分與外觀特征相關(guān)性分析
2.5.1 數(shù)據(jù)預(yù)處理研究中,首先采用Excel對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,規(guī)范數(shù)據(jù)格式,分別整理出2020年及2019年煙葉的主要化學(xué)成分特征及品吸評(píng)分總分,并采用Pandas對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單預(yù)分析。嘗試依據(jù)總分劃分等級(jí),采用隨機(jī)森林算法訓(xùn)練分類器,但分類效果不理想。
針對(duì)2020年及2019年匯總并清洗后的246條記錄,按照3:1的比例隨機(jī)劃分訓(xùn)練集和測(cè)試機(jī),并將訓(xùn)練集依據(jù)3:1的比例進(jìn)一步隨機(jī)劃分為訓(xùn)練集和驗(yàn)證集。
圖4 數(shù)據(jù)預(yù)分析散點(diǎn)圖矩陣
表2 數(shù)據(jù)總體特征分析
2.5.2 神經(jīng)網(wǎng)絡(luò)建模首先,嘗試采用keras建立三層BP神經(jīng)網(wǎng)絡(luò),隱藏層包括30個(gè)神經(jīng)元,激勵(lì)函數(shù)選擇ReLU函數(shù),迭代訓(xùn)練20次,訓(xùn)練出的模型擬合效果欠佳。
圖5 人工神經(jīng)網(wǎng)絡(luò)模型
采用keras重新建立Wide-Deep神經(jīng)網(wǎng)絡(luò)模型,該模型包括兩個(gè)隱藏層,這兩個(gè)隱藏層分別包含300個(gè)和30個(gè)神經(jīng)元,神經(jīng)元激勵(lì)函數(shù)為ReLU函數(shù);為保證對(duì)離群點(diǎn)的魯棒性,損失函數(shù)選擇Huber Loss函數(shù)。在隱藏層之后將隱藏層輸出與輸入層進(jìn)行合并,然后連接到輸出層。
使用訓(xùn)練集和驗(yàn)證集對(duì)該模型進(jìn)行50次迭代訓(xùn)練,損失函數(shù)最終收斂為5.2左右,收斂性良好。采用測(cè)試機(jī)對(duì)模型進(jìn)行評(píng)估,最終損失值的均標(biāo)準(zhǔn)差約為5.38,說(shuō)明模型泛化性良好。該模型依據(jù)煙葉的基本化學(xué)成分指標(biāo),能夠?qū)熑~的品吸評(píng)分總分進(jìn)行較好的預(yù)測(cè)。
圖6 損失函數(shù)收斂情況
在山東煙區(qū)煙葉的18個(gè)煙葉等級(jí)、6個(gè)外觀特征、12個(gè)化學(xué)成分指標(biāo)和21個(gè)煙葉質(zhì)量風(fēng)格感官評(píng)吸指標(biāo)中,兩兩比較,共有741個(gè)指標(biāo)對(duì)。其中,約54%的指標(biāo)對(duì)(402/741)間呈顯著相關(guān)(P<0.05),約44%的指標(biāo)對(duì)(327/741)間呈極顯著相關(guān)(P<0.01)。煙葉外觀特征可在一定程度上反應(yīng)化學(xué)成分,同時(shí)兩者與感官風(fēng)格特征關(guān)系較為密切,研究結(jié)果與陳健等[13]、蔡憲杰等[14]和郭文等[15]以C2F為對(duì)象在不同區(qū)域定性研究結(jié)果基本一致。這提示了使用煙葉外觀特征和主要化學(xué)成分含量預(yù)測(cè)山東煙葉質(zhì)量品質(zhì)的可行性。但本研究?jī)H以2019年樣本數(shù)據(jù)為研究對(duì)象,不同年份山東煙葉外觀特征和化學(xué)成分含量與感官質(zhì)量的關(guān)系還有待進(jìn)一步研究與驗(yàn)證。
目前煙葉智能分級(jí)以開發(fā)圖像識(shí)別系統(tǒng)為主,系統(tǒng)指標(biāo)多為煙葉的顏色、色度、破損度、葉行等多方面的外觀特征。經(jīng)試驗(yàn),部分系統(tǒng)可靠性已接近人工分級(jí)水平[16]。本文研究結(jié)果表明,在山東煙區(qū)煙葉主要化學(xué)成分含量、煙葉外觀特征與煙葉質(zhì)量風(fēng)格感官評(píng)吸分?jǐn)?shù)共39個(gè)指標(biāo)間,54%的指標(biāo)對(duì)存在顯著相關(guān)性。研究首次利用寬深神經(jīng)網(wǎng)絡(luò)模型對(duì)煙葉品吸評(píng)分進(jìn)行預(yù)測(cè),結(jié)果表明能夠使用煙葉的基本化學(xué)成分指標(biāo)對(duì)煙葉品吸品質(zhì)的評(píng)分進(jìn)行預(yù)測(cè),預(yù)測(cè)損失在5分左右。這為增加智能分級(jí)系統(tǒng)指標(biāo)參數(shù)提供了有益參考。圍繞優(yōu)化智能分級(jí)系統(tǒng)以提高分級(jí)準(zhǔn)確率和效果,如何選擇合適的指標(biāo)參數(shù)以應(yīng)用于山東煙區(qū)煙葉智能分級(jí)將開展進(jìn)一步研究。
受制于專家品吸打分的主觀性及樣本數(shù)量的限制,預(yù)測(cè)分?jǐn)?shù)與專家的打分仍存在一定的差異,未來(lái)對(duì)此有待進(jìn)一步研究。