摘要:對(duì)于卷煙工業(yè)企業(yè)而言,原料的選取非常關(guān)鍵。由于煙葉為農(nóng)產(chǎn)品,穩(wěn)定性不足,為了解決在判斷煙葉等級(jí)的過程中主觀因素影響大、穩(wěn)定性不高的問題,《模型集群分析—隨機(jī)森林方法在煙葉分類中的應(yīng)用》[1]一文提出思路,結(jié)合近紅外光譜數(shù)據(jù)與機(jī)器學(xué)習(xí)方法,探索如何對(duì)近紅外光譜數(shù)據(jù)進(jìn)行預(yù)處理,以最有效的提高機(jī)器學(xué)習(xí)方法提高對(duì)煙葉進(jìn)行分類的準(zhǔn)確性。本文結(jié)合較為常用的機(jī)器學(xué)習(xí)算法以及近紅外光譜數(shù)據(jù),探討數(shù)據(jù)預(yù)處理方法對(duì)于使用機(jī)器學(xué)習(xí)分類方法開展煙葉分類工作的影響,探討使用何種數(shù)據(jù)預(yù)處理方法對(duì)近紅外光譜的煙葉數(shù)據(jù)能夠產(chǎn)生最有效的結(jié)果,方便企業(yè)在后續(xù)使用這些數(shù)據(jù)進(jìn)行煙葉分類、煙葉選擇時(shí),提升工作效率,最終企業(yè)能夠提升基于自身特色的煙葉選擇能力。
關(guān)鍵詞:近紅外光譜;煙葉分類;數(shù)據(jù)預(yù)處理;機(jī)器學(xué)習(xí)
中圖分類號(hào):TB 文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.19311/j.cnki.16723198.2025.16.073
0 引言
對(duì)于卷煙工業(yè)企業(yè)而言,原料是核心資源,煙葉的質(zhì)量在相當(dāng)程度上是決定企業(yè)發(fā)展,影響卷煙品牌獲得成功的關(guān)鍵要素之一。原料選得好不好、原料用得對(duì)不對(duì)直接影響卷煙產(chǎn)品的質(zhì)量好壞。按照行業(yè)對(duì)于卷煙品牌發(fā)展的思路,圍繞品牌配置資源將是煙草行業(yè)發(fā)展的主要方向。在此過程中,品牌配置的原料資源是關(guān)鍵之一。
1 研究背景與現(xiàn)狀
對(duì)于各工業(yè)企業(yè)而言,不斷追求獲得更多優(yōu)質(zhì)原料、提高原料的普遍質(zhì)量是所有煙草人的共同追求,但是從客觀上講,優(yōu)質(zhì)原料的數(shù)量有限,因此,對(duì)于原料的判斷和確定顯得非常重要。對(duì)于各個(gè)工業(yè)企業(yè)而言,為了適配不同品牌的原料需求,需要有其自己獨(dú)特的原料選擇和判斷方法,以提高原料選擇的精準(zhǔn)度。因此,選料方法成為各個(gè)工業(yè)企業(yè)在形成自身特色產(chǎn)品時(shí)所考慮的重要因素。對(duì)原料進(jìn)行分類和確定的效率,在各個(gè)品牌發(fā)展過程中,將發(fā)揮越來越重要的作用。
多年來,近紅外光譜分析技術(shù)在煙草行業(yè)被廣泛應(yīng)用在煙葉的主要化學(xué)成分、在線控制、葉組配方等分析中,由于其快速、無損的特點(diǎn),可以有效地提高測(cè)定煙葉化學(xué)成分的速度,減少人力投入,提高生產(chǎn)力[29]。目前,在煙草行業(yè)中,煙葉等級(jí)劃分是評(píng)判煙葉質(zhì)量的主要手段,而分級(jí)判斷主要根據(jù)煙葉的外觀特征[10]。目前,我國(guó)在煙草行業(yè)內(nèi)部,對(duì)于怎么劃分和確定煙葉等級(jí),是根據(jù)我國(guó)的煙葉等級(jí)的品質(zhì)規(guī)定來劃分的,主要是依賴于人工分級(jí),而對(duì)標(biāo)準(zhǔn)的確定則更多是依賴于人的感官判斷,通過對(duì)照標(biāo)準(zhǔn)規(guī)定來對(duì)煙葉劃分等級(jí)。這種方式在相當(dāng)程度上依靠人的主觀判定,存在一定程度的不穩(wěn)定性,效率較低。同時(shí),由于人的感官標(biāo)準(zhǔn)程度不一,受客觀因素影響存在波動(dòng),可復(fù)制性也有所欠缺。為此,《模型集群分析-隨機(jī)森林方法在煙葉分類中的應(yīng)用》已經(jīng)開始探討利用機(jī)器學(xué)習(xí)方法結(jié)合近紅外光譜的技術(shù)對(duì)煙葉等級(jí)進(jìn)行建模,通過模型集群分析-隨機(jī)森林(MPA-RF)方法,取得了較好的分類結(jié)果。在這個(gè)結(jié)果上,本項(xiàng)目進(jìn)行了數(shù)據(jù)和方法上的創(chuàng)新性研究,通過研究對(duì)近紅外光譜數(shù)據(jù)的處理,使得運(yùn)用近紅外光譜進(jìn)行煙葉等級(jí)分類的工作可以更加順暢。在經(jīng)過預(yù)處理程序后,對(duì)這些煙葉近紅外光譜數(shù)據(jù)使用多種機(jī)器學(xué)習(xí)方法進(jìn)行分類的準(zhǔn)確性有了明顯提升。這有利于企業(yè)開展基于自身特色的煙葉選擇工作,可以為工業(yè)企業(yè)構(gòu)建自己的獨(dú)特性提供幫助與支持,提高機(jī)器學(xué)習(xí)方法對(duì)于煙葉分類工作的準(zhǔn)確度。
2 試驗(yàn)材料和方法
2.1 項(xiàng)目步驟
首先,通過近紅外光譜儀進(jìn)行煙葉原料進(jìn)行光譜數(shù)據(jù)采集。然后整理各等級(jí)煙葉樣本的數(shù)據(jù),通過對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,整理出幾套經(jīng)過預(yù)處理的數(shù)據(jù)集。再對(duì)各套數(shù)據(jù)集進(jìn)行訓(xùn)練集和驗(yàn)證集的劃分,運(yùn)用SVM、決策樹以及隨機(jī)森林這3種較為常見的機(jī)器學(xué)習(xí)方法,對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練和驗(yàn)證。最后通過比對(duì)訓(xùn)練以及驗(yàn)證的結(jié)果,分析各種數(shù)據(jù)預(yù)處理的效果,探索對(duì)近紅外光譜數(shù)據(jù)最有效的數(shù)據(jù)預(yù)處理及機(jī)器學(xué)習(xí)方法。
2.2 數(shù)據(jù)集
選取國(guó)內(nèi)梅州五華地區(qū)煙葉的6種不同等級(jí)的初烤煙樣本(B1F,B2F,B3F,C2F,C3F,X2F,由廣東中煙工業(yè)有限責(zé)任公司提供),每片煙葉均勻取樣,對(duì)于每個(gè)取出來的煙都要進(jìn)行近紅外光譜掃描,每個(gè)點(diǎn)掃描1條光譜。對(duì)總共528個(gè)樣本進(jìn)行劃分,其中422個(gè)為訓(xùn)練集,106個(gè)為測(cè)試集。
2.3 機(jī)器學(xué)習(xí)方法
2.3.1 支持向量機(jī)
支持向量機(jī)(Support Vector Machine,SVM)[11]是一種常用的分類工具,能夠結(jié)合統(tǒng)計(jì)學(xué)習(xí)優(yōu)化方法和核函數(shù)方法,通過最小化訓(xùn)練誤差和測(cè)試錯(cuò)誤,找到最優(yōu)的分類超平面。常用的核函數(shù)包括線性核函數(shù)、多項(xiàng)式核函數(shù)、sigmoid核函數(shù)和徑向基核函數(shù)(RBF核函數(shù))[12]。
2.3.2 決策樹
決策樹是一種預(yù)測(cè)模型,通過構(gòu)建樹狀結(jié)構(gòu),將對(duì)象屬性與對(duì)象值之間建立映射關(guān)系,用于分類和回歸分析[13]。
2.3.3 隨機(jī)森林
隨機(jī)森林(Random Forest,RF)是一種集成學(xué)習(xí)算法,通過Bootstrap方法生成多個(gè)決策樹模型,并對(duì)模型進(jìn)行投票,最終得出分類結(jié)果[1415]。
3 數(shù)據(jù)預(yù)處理
3.1 小波變換
小波變換(wavelet transform,WT)小波變換是一種信號(hào)時(shí)頻分析工具,能夠根據(jù)頻率動(dòng)態(tài)調(diào)整分析窗口,適用于非平穩(wěn)信號(hào)的分析和局部特征提取。
3.2 歸一化及標(biāo)準(zhǔn)化
3.2.1 歸一化
是為了將數(shù)據(jù)映射到0~1之間,去掉量綱的過程,讓計(jì)算更加合理,不會(huì)因?yàn)榱烤V問題導(dǎo)致1米與100mm產(chǎn)生不同。
3.2.2 標(biāo)準(zhǔn)化
所取用的數(shù)據(jù)在經(jīng)過了標(biāo)準(zhǔn)化后能夠使得每個(gè)特征的平均值都為0,標(biāo)準(zhǔn)差變?yōu)?,可以被廣泛的使用在許多機(jī)器學(xué)習(xí)算法中(例如:支持向量機(jī)、邏輯回歸和類神經(jīng)網(wǎng)絡(luò))。
從圖中可以看出,歸一化和標(biāo)準(zhǔn)化后大幅度弱化了差異性較小的光譜波段所展現(xiàn)出的差異性。
3.3 二階差分
當(dāng)間距相等時(shí),用下一個(gè)數(shù)值,減去上一個(gè)數(shù)值,就叫“一階差分”,做兩次相同的動(dòng)作,即再在一階差分的基礎(chǔ)上用后一個(gè)數(shù)值再減上一個(gè)數(shù)值一次,就叫“二階差分”。
當(dāng)自變量從x變到x+1時(shí),函數(shù)y=y(x)一階差分的差分稱為二階差分。
Δ(Δy(x))=Δ(y(x+1)-y(x))=Δy(x+1)-Δy(x)
=(y(x+2)-y(x+1))-(y(x+1)-y(x))
=y(x+2)-2y(x+1)+y(x)
從圖示可以看出,通過二階差分,讓數(shù)據(jù)序列更平滑,同時(shí)可以消除數(shù)據(jù)中存在的噪聲,讓數(shù)據(jù)呈現(xiàn)極為規(guī)律的對(duì)稱形狀。
4 模型訓(xùn)練
使用SVM、決策樹以及隨機(jī)森林的方式分別對(duì)經(jīng)過預(yù)處理(4種方法)的數(shù)據(jù)進(jìn)行模型的訓(xùn)練,看最終訓(xùn)練結(jié)果并對(duì)結(jié)果進(jìn)行分析判斷。由于小波變換是我們?nèi)粘9ぷ髦袑?duì)軟紅外光譜進(jìn)行預(yù)處理的一般方法,因此可以把其視為原始數(shù)據(jù)。
4.1 SVM
使用SVM對(duì)小波變換、標(biāo)準(zhǔn)化、歸一化以及二階差分的數(shù)據(jù)進(jìn)行分析,得出的結(jié)果分別是57.55%、54.37%、53.40%以及99.03%。明顯看出使用了二階差分的預(yù)處理對(duì)煙葉數(shù)據(jù)分類成效明顯,準(zhǔn)確性有了顯著提升。
由于SVM是較為常用的分類工具,因此可以作為其他分類的對(duì)照組進(jìn)行對(duì)比,以下的決策樹和隨機(jī)森林均會(huì)與SVM進(jìn)行比對(duì)。
4.2 決策樹
使用決策樹對(duì)小波變換、標(biāo)準(zhǔn)化、歸一化以及二階差分的數(shù)據(jù)進(jìn)行分析,得出的結(jié)果分別是46.23%、97.09%、52.43%以及99.03%。對(duì)于決策樹而言,標(biāo)準(zhǔn)化和二階差分的數(shù)據(jù)預(yù)處理均有不錯(cuò)的表現(xiàn)。
4.3 隨機(jī)森林
使用隨機(jī)森林對(duì)小波變換、標(biāo)準(zhǔn)化、歸一化以及二階差分的數(shù)據(jù)進(jìn)行分析,得出的結(jié)果分別是53.77%、61.17%、56.31%以及98.06%。對(duì)于隨機(jī)森林而言,二階差分的數(shù)據(jù)預(yù)處理有不錯(cuò)的表現(xiàn)。
4.4 分析比對(duì)
從上表可以看出,二階差分的數(shù)據(jù)預(yù)處理方法在SVM、決策樹以及隨機(jī)森林三種機(jī)器學(xué)習(xí)方法中均取得了比較好的結(jié)果,以決策樹為例分析經(jīng)過了二階差分優(yōu)化后的數(shù)據(jù)集,在使用機(jī)器學(xué)習(xí)模型訓(xùn)練后的測(cè)試集精準(zhǔn)度、召回率、準(zhǔn)確率都有了大幅度提升。
5 結(jié)束語
對(duì)于卷煙工業(yè)企業(yè)而言,原料是非常重要的一種資源,因此,原料的評(píng)判能力非常關(guān)鍵。準(zhǔn)確、高效地進(jìn)行原料等級(jí)的判斷,是很多卷煙工業(yè)企業(yè)未來或者是現(xiàn)在能夠進(jìn)行高質(zhì)量發(fā)展的重要能力之一。能夠快速、準(zhǔn)確地識(shí)別出符合企業(yè)特色的煙葉原料是企業(yè)能夠構(gòu)建自身競(jìng)爭(zhēng)力的重要基礎(chǔ)工作。本次工作通過對(duì)目前常用的近紅外光譜外數(shù)據(jù)使用二階差分的數(shù)據(jù)預(yù)處理方法,使得不同的機(jī)器學(xué)習(xí)方法均實(shí)現(xiàn)了對(duì)梅州五華產(chǎn)區(qū)6種等級(jí)煙葉高達(dá)99%左右的分類準(zhǔn)確率??梢詾橄码A段對(duì)全國(guó)產(chǎn)區(qū)、全等級(jí)煙葉進(jìn)行全面高效分類工作起到一定的參考,并為企業(yè)運(yùn)用人工智能技術(shù)在實(shí)際生產(chǎn)經(jīng)營(yíng)中提供一定的實(shí)踐經(jīng)驗(yàn)。
主要參考文獻(xiàn)
[1]譚觀萍,賓俊,范偉,等.模型集群分析——隨機(jī)森林方法在煙葉分類中的應(yīng)用[J].江西農(nóng)業(yè)學(xué)報(bào),2017,29(1):6974.
[2]Shao Y N,He Y,Wang Y Y.A new approach to discriminatevarieties of tobacco using vis /near infrared spectra [J].European Food Research and Technology,2007,224(5):591596.
[3]Le J M,Chen Y,Ding Y.Nearinfrared spectroscopic prediction of composition of a series of petrochenical process streams for aromatics production[J].Guizhou Agric Sci,2005,33(3):6263.
[4]Huang Z,Turner B J,Dury S J.Estimating foliage nitrogen concentration from HYMAP data using continum removal analysis[J].Remote Sens Environ,2004,93(1):1829.
[5]蔣錦峰,李莉,趙明月.應(yīng)用近紅外檢測(cè)技術(shù)快速測(cè)定煙葉主要化學(xué)成分[J].中國(guó)煙草學(xué)報(bào),2006,12(2):812.
[6]張雅娟,馬翔.近紅外漫反射線性加和光譜在煙葉復(fù)烤配方中的應(yīng)用[J].光譜學(xué)與光譜分析,2011,31(2):390393.
[7]邵平,王鈞,王星麗,等.近紅外漫反射光譜技術(shù)快速無損識(shí)別靈芝和云芝提取物研究[J].核農(nóng)學(xué)報(bào),2015,(3):499505.
[8]孫通,吳宜青,許朋,等.近紅外光譜聯(lián)合CARSPLSLDA的山茶油檢測(cè)[J].核農(nóng)學(xué)報(bào),2015,(5):925931.
[9]李勇,魏益民,王鋒.影響近紅外光譜分析結(jié)果準(zhǔn)確性的因素[J].核農(nóng)學(xué)報(bào),2005,(3):236240.
[10]李紅梅.基于線性回歸和SVM 的煙葉質(zhì)量分析及等級(jí)預(yù)測(cè)模型[D].昆明:昆明理工大學(xué),2013:89.
[11]Liang Y.The expand and application research of SVM classifier[J].Hunan University,2008,(9):1728.
[12]Zheng H.The support vector machine method investigate[J].Northwestern University,2010,(6):1016.
[13]曹賽玉.幾種決策概率模型在現(xiàn)實(shí)生活中的應(yīng)用.理論月刊,2006,(5):9193.
[14]Breiman LRandom forests [J].Machine Learning,2001,45(1):532.
[15]Zhang G Y,Zhang C X,Zhang J S.Outofbag estimation of the optimal hyperparameter in subbag ensemble method[J].Communications in StatisticsSimulation and Computation,2010,39(10):18771892.