摘要" 為探究應用近紅外光譜技術建立的模型對雪茄鮮煙葉部位等級的識別效果,以雪茄鮮煙葉部位等級識別模型為研究對象,選取634個雪茄鮮煙葉樣本數(shù)據(jù)作為訓練集,構建包括PLS-DA、隨機森林和KNN等機器學習分類模型,并基于Stacking方法構建單個部位等級識別融合模型,以273個雪茄鮮煙葉樣本數(shù)據(jù)作為測試集評估融合模型的識別效果。結果表明,在3種基礎模型中,PLS-DA模型在測試集上的預測效果最佳,平均準確率和F1均值分別為0.707和0.672。融合模型在測試集上的平均準確率和F1均值分別為0.756和0.752,且融合模型對雪茄鮮煙葉各部位等級的識別效果均較好。綜合來看,基于近紅外光譜數(shù)據(jù)構建的雪茄鮮煙葉部位等級融合模型具有較好的識別效果,為雪茄鮮煙葉部位等級的快速測定提供參考。
關鍵詞" 近紅外光譜;雪茄鮮煙葉;部位等級;模型;分類效果
中圖分類號" O657.33;S572 """文獻標識碼" A """文章編號" 1007-7731(2025)05-0023-05
DOI號" 10.16377/j.cnki.issn1007-7731.2025.05.006
Classification of cigar fresh tobacco positive grade based on near infrared technology
DUAN Jie ZHANG Cheng ZHAO Gang XIONG Tiane ZHOU Houfa HE Yuansheng"" XU Jie
ZHANG Yongjun YANG Honghui HUANG Jinsheng LI Benhui
(Yunnan Tobacco Lincang Area Company, Lincang 677099, China)
Abstract" In order to explore the identification effect of the model established by near infrared spectroscopy on cigar fresh tobacco position grade, the cigar fresh tobacco position grade recognition model was selected as the research object, 634 cigar fresh tobacco sample data were selected as the training set, and machine learning classification models including PLS-DA, Random Forest and KNN were constructed. A fusion model for the rank recognition of individual positions was constructed based on the Stacking method. 273 fresh cigar leaf samples were used as the test set to evaluate the recognition effect of the fusion model. The results showed that among the 3 basic models, the PLS-DA model had the best prediction effect on the test set, and the average accuracy and F1 mean were 0.707 and 0.672, respectively. The average accuracy and F1 mean of the fusion model on the test set were 0.756 and 0.752, respectively, and the fusion model had a good effect on the position grade recognition of each part of fresh cigar tobacco. In summary, the cigar leaf position grade fusion model based on the near infrared spectral data had a good recognition effect. The results provide a reference for the rapid determination of cigar fresh tobacco position grade.
Keywords" near infrared spectroscopy; cigar fresh tobacco; position grade; model; classification effect
南方地區(qū)以福建、廣東和云南等地煙草種植范圍較廣[1]。各地區(qū)種植的煙草主要用于生產(chǎn)卷煙,雪茄煙的生產(chǎn)相對較少。近年來,隨著部分企業(yè)開始關注高端煙草產(chǎn)品,雪茄煙產(chǎn)業(yè)逐漸興起。與卷煙不同,雪茄鮮煙葉采收后的加工步驟并非烘烤而是晾制。其晾制成功取決于兩個基本的環(huán)境條件:晾房內環(huán)境溫度和相對濕度。晾制過程需密切注意濕度,根據(jù)煙葉變色失水情況,人為調控、勤查勤管,通過調整煙桿密度、通風排濕窗的開閉和晾制桿位置以及加熱等措施進行合理調控[2]。根據(jù)雪茄煙葉部位和等級的不同,溫濕度要求和所需晾制時間存在差異,因此在進行晾制前,需根據(jù)煙葉部位或等級進行分類,便于后續(xù)晾制過程順利進行。目前,近紅外光譜儀正逐漸從實驗室靜態(tài)檢測轉向手持式移動設備,這種趨勢主要與手持式近紅外光譜儀價格實惠、攜帶方便,方便在野外和現(xiàn)場進行分析有關,該光譜儀在煙草、食品和農(nóng)產(chǎn)品等領域的現(xiàn)場檢測應用中扮演著重要角色[3-5]。此前,雪茄鮮煙葉部位和等級的分類主要依靠專業(yè)人員判斷,該方式易受個人主觀因素影響,識別效率較低??焖?、準確地區(qū)分雪茄鮮煙葉部位和等級,有利于后續(xù)加工過程的順利進行,研究雪茄鮮煙葉部位等級快速識別方法對完善其后續(xù)加工過程具有重要意義。劉藝琳等[6]基于近紅外光譜技術建立了可靠性較好的煙葉等級識別模型。趙高坤等[7]應用近紅外光譜技術分析不同產(chǎn)地雪茄煙葉相似性,發(fā)現(xiàn)云南玉溪、文山和普洱地區(qū)之間的煙葉相似性高。梁瑩等[8]基于近紅外光譜技術和隨機森林算法建立了不同病害類別的訓練模型,該模型的分類準確率、靈敏度較高,性能較優(yōu)異。目前,鮮煙葉等級的識別主要是基于近紅外光譜技術或圖像識別技術對其進行識別,但基于近紅外光譜技術并應用機器學習模型的雪茄鮮煙葉部位的等級識別方面的研究相對較少。本研究基于雪茄鮮煙葉的近紅外光譜數(shù)據(jù),應用機器學習方法建立雪茄鮮煙葉部位等級識別模型,并分析該模型的分類識別效果,為雪茄鮮煙葉部位等級的快速檢測提供參考。
1 材料與方法
1.1 試驗材料與儀器
供試雪茄品種為云雪1號,鮮煙葉于2024年在云南臨滄市采集。使用的近紅外光譜采集設備為AURA手持式近紅外光譜儀(德國Carl Zeiss公司),波長點數(shù)701個,波長950~1 650 nm,光柵陣列檢測器。
1.2 測定方法
1.2.1 取樣規(guī)格 根據(jù)實際情況,將鮮煙葉的部位分為上部(B)、中部(C)和下部(X)3個部位,其中各部位的鮮煙葉分為1、2和n共3個等級,分別對上述各部位和等級煙葉進行取樣100片。雪茄鮮煙葉部位等級判定結果均由專家提供。雪茄鮮煙葉的近紅外光譜樣本和部位等級數(shù)據(jù)按照分層抽樣的方式進行劃分,訓練集與測試集樣本數(shù)量的比例為7∶3。
1.2.2 樣品預處理 常見的近紅外光譜預處理方法通常有多元散射校正、標準正態(tài)變量校正、一階導數(shù)、二階導數(shù)、矢量歸一化和波長選擇等[9-11]。采用了標準正態(tài)變量校正和一階導數(shù)結合的方法處理雪茄鮮煙葉的近紅外光譜數(shù)據(jù),取相同部位等級的光譜均值作為該類光譜的代表值。
1.2.3 光譜測定 利用原位采集法使用手持式近紅外設備采集雪茄鮮煙葉光譜數(shù)據(jù),在雪茄鮮煙葉表面直接進行光譜掃描,原位采集前需對儀器進行背景校正,以防測定的光譜發(fā)生偏移[12]。應確保雪茄鮮煙葉表面干凈、平整且無雜質或污物,否則可能影響獲取光譜信號。如圖1所示,采集過程中,應將手持式近紅外光譜儀對準待測樣品表面,確保二者間保持適當?shù)木嚯x。根據(jù)雪茄鮮煙葉的主葉脈,將煙葉分為左右兩部分,分別連續(xù)掃描主葉脈兩側自葉尖至葉基的煙葉表面,此時會生成2個近紅外光譜,取其平均值作為該雪茄鮮煙葉的最終近紅外光譜代表值。
1.2.4 模型構建 運用偏最小二乘判別分析(Partial Least Squares Discriminant Analysis,PLS-DA)、K近鄰(K-Nearest Neighbors,KNN)和隨機森林(Random Forest,RF)模型進行模型訓練。
1.2.5 模型預測效果 通過混淆矩陣預測模型效果,其是一個N×N的方陣(N為類別數(shù)量),行代表樣本的真實類別,列代表模型的預測結果,對角線元素表示各類別被正確分類的樣本數(shù)量,非對角線元素則表示被誤判的樣本數(shù)量。
1.3 樣本信息
雪茄鮮煙葉樣本共907個,其中634個樣本用于構建雪茄鮮煙葉部位等級識別模型,273個樣本用于測試雪茄鮮煙葉部位等級識別模型的分類效果。其中,用于模型構建的訓練集樣本和用于模型評估的測試集樣本為不同部位等級煙葉的訓練集和測試集樣本合并,具體煙葉樣本數(shù)量見表1。
2 結果與分析
2.1 雪茄鮮煙葉部位等級識別模型的構建
2.1.1 訓練集與測試集投影 使用主成分分析將訓練集與測試集數(shù)據(jù)進行降維并投影至二維平面,其分布如圖2所示。經(jīng)降維后的訓練集和測試集數(shù)據(jù)分布基本一致,表明測試集的選取能夠代表完整數(shù)據(jù)集。
2.1.2 樣品預處理 采用標準正態(tài)變量校正和一階導數(shù)結合的預處理方法,將相同部位等級的光譜取均值作為該類光譜的代表進行展示,原始光譜和預處理后光譜的對比結果如圖3所示。光譜經(jīng)標準正態(tài)變量校正和一階導數(shù)協(xié)同處理后,其基線漂移明顯消除且吸收峰間的差異顯著提高。
2.1.3 模型構建 利用網(wǎng)格搜索的方法對上述3種基礎模型進行超參數(shù)優(yōu)化,3種基礎模型在測試集上的平均準確率≥0.590、F1均值≥0.585。其中,PLS-DA模型在測試集上的平均準確率和F1均值最高,分別達0.707和0.672;RF模型的平均準確率和F1均值次之,分別為0.696和0.695;KNN模型在測試集上的平均準確率和F1均值分別為0.590和0.585。說明PLS-DA模型在測試集上的測試結果最佳(表2)。
2.2 雪茄鮮煙葉部位等級識別模型預測效果
由圖4可知,PLS-DA模型的分類表現(xiàn)較佳,但其對部位等級C-2的雪茄鮮煙葉分類效果不理想,因此考慮應用Stacking方法將上述3種模型進行融合,使融合模型對各部位等級的煙葉分類均達到較好的效果。
利用Stacking方法將上述3種模型進行融合,得到雪茄鮮煙葉部位等級識別融合模型,其在測試集上的預測效果如圖5所示,其在測試集上的測試結果如表3所示。融合模型對于雪茄鮮煙葉各部位等級的識別效果較好,其中,融合模型對于部位等級B-n的雪茄鮮煙葉識別效果最佳,準確率和召回率分別達0.853和0.967。該模型在測試集上的平均準確率和F1均值分別為0.756和0.752,對于部位等級C-2的雪茄鮮煙葉分類效果遠優(yōu)于PLS-DA模型,且對各部位等級煙葉的分類效果優(yōu)于3種基礎模型。
3 結論與討論
本研究使用手持式近紅外光譜儀采集雪茄鮮煙葉的光譜信息,通過標準正態(tài)變量校正和一階導數(shù)的預處理方法對光譜數(shù)據(jù)進行處理,基于機器學習中的PLS-DA、KNN和RF 3種基礎模型建立雪茄鮮煙葉部位等級識別模型,并利用Stacking方法將上述模型進行融合,得到的融合模型在測試集上的平均準確率和F1均值分別為0.756和0.752。說明基于手持式近紅外光譜數(shù)據(jù)與機器學習模型建立雪茄鮮煙葉部位等級分類模型的方法具有可行性。
目前,關于鮮煙葉等級分類的研究主要集中在鮮煙葉部位的分類,涉及雪茄鮮煙葉部位等級分類的研究較少。孫利等[13]利用近紅外光譜技術,采用SNV+FD預處理算法和CARS特征波長選擇算法建立的煙葉品種判別模型效果最佳。郝賢偉等[14]使用偏最小二乘法等數(shù)據(jù)處理方法建立了片煙常規(guī)化學成分、香型、部位等的近紅外光譜預測模型,結果表明,該模型預測準確率較高,且預測結果與感官評吸結果一致性較高。楊睿等[15]基于近紅外光譜與圖像識別技術建立了近紅外光譜判別、圖像判別等模型,其中近紅外光譜模型對煙葉成熟度識別正確率較高。本研究利用Stacking方法將PLS-DA、KNN和RF 3種基礎分類模型進行融合,相比PLS-DA模型,融合模型對雪茄鮮煙葉部位等級C-2的分類效果較好,對各部位等級煙葉的分類均具有較高的準確率,對雪茄鮮煙葉部位等級的分類識別具有較高的應用價值。
綜上,本研究提出的雪茄鮮煙葉部位等級識別融合模型可實現(xiàn)雪茄鮮煙葉部位等級的快速識別,其在測試集上的平均準確率和F1均值分別為0.756和0.752,為雪茄鮮煙葉的收購和后續(xù)雪茄煙智能化晾制的參數(shù)調控提供參考。
參考文獻
[1] 王彥亭,謝劍平,李志宏. 中國煙草種植區(qū)劃[M]. 北京:科學出版社,2010.
[2] 高婭北,鐘秋,王松峰,等. 雪茄茄衣晾制過程中煙葉顏色和含水量變化及其相關分析[J]. 中國煙草科學,2019,40(2):57-63,72.
[3] 胡建軍,馬明,李耀光,等. 煙葉主要化學指標與其感官質量的灰色關聯(lián)分析[J]. 煙草科技,2001,34(1):3-7.
[4] 褚小立. 化學計量學方法與分子光譜分析技術[M]. 北京:化學工業(yè)出版社,2011.
[5] 湯朝起,王平,竇玉青,等. 河南烤煙主要化學成分與吸食品質的關系[J]. 中國煙草科學,2009,30(5):41-45,49.
[6] 劉藝琳,張海燕,彭海根,等. 應用近紅外光譜判別煙葉等級模型的可靠性及化學成分特征分析[J]. 光譜學與光譜分析,2020,40(10):3260.
[7] 趙高坤,李嘉辰,吳玉萍,等. 應用近紅外光譜分析不同產(chǎn)地雪茄煙葉的相似性[J]. 光譜學與光譜分析,2024,44(11):3195-3198.
[8] 梁瑩,馬琨,張馨予,等. 基于近紅外光譜和隨機森林的煙葉病害種類識別[J]. 激光與光電子學進展,2024,61(15):362-369.
[9] 尼珍,胡昌勤,馮芳. 近紅外光譜分析中光譜預處理方法的作用及其發(fā)展[J]. 藥物分析雜志,2008,28(5):824-829.
[10] 褚小立,袁洪福,陸婉珍. 近紅外分析中光譜預處理及波長選擇方法進展與應用[J]. 化學進展,2004,16(4):528-542.
[11] 王欣. 近紅外分析中光譜預處理方法的研究與應用進展[J]. 科技資訊,2013,11(15):2.
[12] 蔡健榮,黃楚鈞,馬立鑫,等. 一維卷積神經(jīng)網(wǎng)絡的手持式可見/近紅外柑橘可溶性固形物含量無損檢測系統(tǒng)[J]. 光譜學與光譜分析,2023,43(9):2792-2798.
[13] 孫利,張毅,孟廣云,等. 基于近紅外光譜的醇化雪茄煙葉品種判別模型研究[J]. 天津農(nóng)業(yè)科學,2024,30(4):82-90.
[14] 郝賢偉,黃文勇,徐志強,等. 基于近紅外光譜技術的云南片煙綜合質量評價[J]. 中國煙草科學,2022,43(2):58-63.
[15]楊睿,賓俊,蘇家恩,等. 基于近紅外光譜與圖像識別技術融合的煙葉成熟度的判別[J]. 湖南農(nóng)業(yè)大學學報(自然科學版),2021,47(4):406-411, 418.
(責任編輯:吳思文)