杜海娜,孟令峰,王松峰*,張炳輝,王愛華,劉 浩,李增盛,孫福山
1.中國(guó)農(nóng)業(yè)科學(xué)院煙草研究所農(nóng)業(yè)農(nóng)村部煙草生物學(xué)與加工重點(diǎn)實(shí)驗(yàn)室,山東省青島市嶗山區(qū)科苑經(jīng)四路11號(hào) 266101 2.中國(guó)農(nóng)業(yè)科學(xué)院研究生院,北京市海淀區(qū)中關(guān)村南大街12號(hào) 100081 3.中國(guó)煙草總公司福建省公司,福州市鼓樓區(qū)北環(huán)中路133號(hào) 350000
煙葉烘烤是煙葉在烤房等高溫環(huán)境下顏色由綠變黃的干燥過(guò)程,需要根據(jù)煙葉外觀變化對(duì)烤房溫度、濕度和烘烤時(shí)間等因素進(jìn)行調(diào)控[1-3],從而使煙葉失水和變黃相互協(xié)調(diào)。在煙葉烘烤過(guò)程中,合理調(diào)控失水狀態(tài)可以改善煙葉內(nèi)在品質(zhì)[4-5]。但在實(shí)際煙葉烘烤環(huán)節(jié),依靠人工通過(guò)烤房觀察窗查看煙葉變黃和皺縮程度進(jìn)而判斷失水率仍存在著主觀差異的影響。近年來(lái),隨著智能化技術(shù)在煙草領(lǐng)域的發(fā)展和應(yīng)用,已構(gòu)建了多種煙葉烘烤過(guò)程水分動(dòng)態(tài)預(yù)測(cè)模型,推動(dòng)了密集烤房烘烤操作的智能化發(fā)展。陳飛程等[6]利用全自動(dòng)色差計(jì)提取煙葉顏色特征,采用圖像處理技術(shù)提取紋理特征,通過(guò)因子分析法得到6種表觀優(yōu)度因子作為模型輸入,搭建了煙葉含水率BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型(決定系數(shù)R2為0.998 7,均方根誤差RMSE為0.011 8)。段史江[7]通過(guò)提取6種顏色特征和4種紋理特征分別輸入BP神經(jīng)網(wǎng)絡(luò)與LS-SVM算法,建立了煙葉含水率預(yù)測(cè)模型,發(fā)現(xiàn)基于遺傳算法的LS-SVM模型預(yù)測(cè)精度較佳,相關(guān)系數(shù)為0.998。張廣普等[8]通過(guò)因子分析法量化研究了烘烤變黃期煙葉的顏色變化,并構(gòu)建了不同變黃溫度點(diǎn)的葉片含水率預(yù)測(cè)模型,發(fā)現(xiàn)在煙葉烘烤變黃期可利用BP神經(jīng)網(wǎng)絡(luò)基于煙葉顏色參數(shù)進(jìn)行葉片含水率的快速無(wú)損估測(cè)。Miguel等[9]開發(fā)了基于數(shù)字圖像處理的煙葉密集烘烤控制系統(tǒng),能夠?qū)崟r(shí)記錄煙葉樣品的質(zhì)量損失情況和煙葉圖像,并發(fā)現(xiàn)質(zhì)量損失與色相良好擬合,決定系數(shù)達(dá)0.970 7。上述研究大多采用試驗(yàn)取樣結(jié)合機(jī)器學(xué)習(xí)算法對(duì)烘烤過(guò)程中煙葉水分變化進(jìn)行分析,而利用實(shí)際煙葉烘烤環(huán)節(jié)實(shí)時(shí)采集數(shù)據(jù)預(yù)測(cè)烘烤過(guò)程煙葉失水率的研究則鮮見報(bào)道。為此,通過(guò)實(shí)時(shí)采集實(shí)際烘烤過(guò)程中煙葉狀態(tài)變化圖像及質(zhì)量數(shù)據(jù),利用機(jī)器學(xué)習(xí)搭建3種模型預(yù)測(cè)煙葉失水率,以期為煙葉智能烘烤提供技術(shù)支持。
供試烤煙為2021年福建省三明市泰寧縣煙草試驗(yàn)站成熟采收的翠碧一號(hào)中部葉(從下往上第7~9葉位),供試烤房為氣流上升式密集烤房。按照優(yōu)質(zhì)烤煙栽培生產(chǎn)技術(shù)規(guī)范和當(dāng)?shù)卮浔桃惶?hào)密集烘烤工藝進(jìn)行田間管理和烘烤操作。
LT-P4A50-C工業(yè)耐高低溫相機(jī)(深圳立天威視光電技術(shù)有限公司);25 W標(biāo)準(zhǔn)拍攝用光源(深圳海睿光電有限公司);烤煙房質(zhì)量傳感器(福州福日衡電子科技有限公司)。
1.3.1 數(shù)據(jù)采集和預(yù)處理
氣流上升式密集烤房一次可烘烤300桿煙(3層2列),取中層12桿煙作為烤煙質(zhì)量數(shù)據(jù)采集對(duì)象計(jì)算烘烤過(guò)程中煙葉失水率,并采用LT-P4A50-C工業(yè)耐高低溫相機(jī)和標(biāo)準(zhǔn)拍攝用光源對(duì)準(zhǔn)第一桿煙采集煙葉圖像(保存為BMP格式,分辨率為2 592 px×1 944 px),隨機(jī)加入烤房下層和上層數(shù)據(jù)各730、436個(gè)擴(kuò)充樣本。
式中:Vi為烘烤過(guò)程中第i桿煙的失水率,%;Di為第i桿煙的實(shí)時(shí)質(zhì)量,kg;Fi為點(diǎn)火前第i桿煙的質(zhì)量,kg;V為烘烤過(guò)程中12桿煙的平均失水率,%。
為避免拍攝光照、背景環(huán)境等多種因素對(duì)采集圖像產(chǎn)生影響,采用中值濾波對(duì)煙葉圖像進(jìn)行去噪處理,得到邊緣清晰的高質(zhì)量煙葉圖像;然后利用MATLAB 2016(美國(guó)MathWorks公司)的閾值分割程序進(jìn)行圖像分割[10-11],去除烤房?jī)?nèi)部背景等圖像干擾信息,縮短計(jì)算時(shí)間并提高計(jì)算空間利用率[12]。將煙葉圖像數(shù)據(jù)按照3∶1的比例劃分為訓(xùn)練集與測(cè)試集,得到訓(xùn)練集2 195個(gè),測(cè)試集732個(gè)。
圖1 烘烤過(guò)程中煙葉質(zhì)量和圖像采集裝置示意圖Fig.1 Schematic diagram of image acquisition and weighing device during curing process
1.3.2 圖像特征提取
①選用RGB顏色空間的R、G、B分量,并通過(guò)運(yùn)算組合選取3種顏色特征參數(shù)2G-R-B、R/G和G-R,再結(jié)合Lab顏色空間[13]選取l*、a*、b*分量及其特征組合a*/b*,共10種顏色特征。②基于灰度梯度共生矩陣的圖像紋理特征提取方法,提取烘烤過(guò)程中煙葉圖像的能量、灰度均值、梯度均值、灰度分布不均勻性、梯度分布不均勻性、相關(guān)度、灰度熵、梯度熵、慣性矩和逆差矩,共10種紋理特征。
1.3.3 圖像特征簡(jiǎn)化
使用SPSS 25.0統(tǒng)計(jì)分析軟件(美國(guó)國(guó)際商業(yè)機(jī)器公司)對(duì)選取的10種顏色特征參數(shù)和10種紋理特征參數(shù)進(jìn)行聚類分析,計(jì)算這20種特征參數(shù)與煙葉失水率實(shí)測(cè)值的皮爾遜相關(guān)系數(shù)。根據(jù)聚類分析和相關(guān)性分析結(jié)果對(duì)圖像特征參數(shù)進(jìn)行簡(jiǎn)化。
提取訓(xùn)練集中2 195個(gè)圖像的簡(jiǎn)化特征參數(shù)及其對(duì)應(yīng)的失水率作為模型輸入,利用MATLAB 2016(美國(guó)MathWorks公司)建立網(wǎng)格式支持向量機(jī)(GS-SVM)、遺傳算法(Genetic Algorithm,GA)優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)(GA-BP)以及極限學(xué)習(xí)機(jī)(ELM)3種回歸預(yù)測(cè)模型。
1.4.1 GS-SVM模型
在2013年12月13日召開的中國(guó)水利企業(yè)協(xié)會(huì)五屆理事會(huì)二次會(huì)議上,新興鑄管股份有限公司被授予“2011—2012年度全國(guó)優(yōu)秀水利企業(yè)”榮譽(yù)稱號(hào)。
SVM模型核函數(shù)選擇徑向基核函數(shù)(Radial Basis Function,RBF)。通 過(guò) 網(wǎng) 格 搜 索 法(Grid Search,GS)對(duì)該模型的懲罰因子c和核參數(shù)g進(jìn)行尋優(yōu)[14-15],運(yùn)用網(wǎng)格采樣點(diǎn)函數(shù)meshgrid[步長(zhǎng)為0.5,區(qū)間范圍為(-10,10)]得到最佳網(wǎng)絡(luò)回歸模型參數(shù)c和g分別為256.000 0和2.828 4;選取mapminmax函數(shù)對(duì)樣本進(jìn)行歸一化處理,并對(duì)輸出結(jié)果進(jìn)行反歸一化處理。
1.4.2 GA-BP神經(jīng)網(wǎng)絡(luò)模型
設(shè)置3層BP神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)[16],訓(xùn)練學(xué)習(xí)率為0.01,最大迭代次數(shù)為1 000,訓(xùn)練精度為0.000 1,采用遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值,初始種群規(guī)模設(shè)置為30,最大進(jìn)化代數(shù)為50,交叉概率為0.8,變異概率為0.2,自變量范圍為(-3,3)。采用mapminmax函數(shù)對(duì)樣本進(jìn)行歸一化和反歸一化處理,再利用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行精確求解[17-18]。
1.4.3 ELM模型
建立ELM模型[19-21],選擇步長(zhǎng)為10,多次對(duì)隱含層神經(jīng)元的個(gè)數(shù)進(jìn)行尋優(yōu),優(yōu)化確定模型的結(jié)構(gòu),最終確定隱含層神經(jīng)元個(gè)數(shù)為100。采用mapminmax函數(shù)對(duì)樣本進(jìn)行歸一化和反歸一化處理。
將測(cè)試集中732個(gè)圖像的簡(jiǎn)化特征參數(shù)輸入3種模型,導(dǎo)出預(yù)測(cè)的煙葉失水率并與實(shí)際失水率進(jìn)行對(duì)比,利用Microsoft Exce1 2013(美國(guó)微軟公司)繪制回歸曲線。
選取均方根誤差(Root mean square error,RMSE)、決定系數(shù)(Coefficient of determination,R2)2個(gè)指標(biāo)評(píng)價(jià)模型精度[22-23]。
從烤房中層煙葉圖像中選取15張(每10 h取1張)觀察烘烤過(guò)程中煙葉的變黃失水和皺縮情況,見圖2??梢?,在變黃期(0~40 h)煙葉失水變軟并逐漸由黃綠色變?yōu)闇\黃色;在定色期(40~100 h)煙葉繼續(xù)失水凋萎、葉尖逐漸干燥卷曲并由淺黃色逐漸加深變?yōu)辄S色;在干筋期(100~140 h)煙葉主脈失水、煙葉皺縮卷曲并由黃色變?yōu)殚冱S色。
2.2.1 圖像特征聚類分析
圖2 烘烤過(guò)程中煙葉圖像變化Fig.2 Changes of images of tobacco leaves during curing process
圖3 煙葉顏色特征和紋理特征變量聚類分析Fig.3 Cluster analysis of tobacco leaf color feature and texture feature variables
對(duì)烘烤過(guò)程中煙葉圖像的10種顏色特征和10種紋理特征分別進(jìn)行變量聚類,結(jié)果見圖3。可見,以10為距離將10種顏色特征分為兩類:R/G、a*/b*、a*、2G-R-B、G-R和b*為一類(類別1),R、G、B和l*為一類(類別2);10種紋理特征也分為兩類:能量、灰度均值、梯度均值、灰度分布不均勻性、相關(guān)度、灰度熵、梯度熵、慣性矩和逆差矩為一類(類別1),梯度分布不均勻性為一類(類別2)。同類特征之間差異較小,不同類特征之間差異較大。
2.2.2 圖像特征與失水率相關(guān)性分析
將提取的煙葉圖像特征值作為待選變量,分別與主導(dǎo)變量(烘烤過(guò)程中煙葉失水率)進(jìn)行皮爾遜相關(guān)性分析,在每類特征中選擇與失水率變化相關(guān)性最強(qiáng)的特征,結(jié)果見表1??梢姡婵具^(guò)程中煙葉的10種顏色特征值均與失水率極顯著相關(guān),其中類別1的6種顏色特征中a*/b*與失水率相關(guān)性最強(qiáng),為0.935;類別2的4種顏色特征中R與失水率相關(guān)性最強(qiáng),為0.931。煙葉的10種紋理特征值均與失水率極顯著相關(guān),其中類別1中的梯度熵與失水率的相關(guān)系數(shù)絕對(duì)值最高,為0.914;類別2中僅有梯度分布不均勻性1種紋理特征,與失水率的相關(guān)性系數(shù)為0.883。綜上,根據(jù)聚類分析和相關(guān)性分析優(yōu)選出2種顏色特征(a*/b*、R)和2種紋理特征(梯度熵、梯度分布不均勻性)。對(duì)煙葉圖像特征進(jìn)行優(yōu)選有利于降低模型計(jì)算的復(fù)雜程度,提高模型的穩(wěn)定性和預(yù)測(cè)速度[23]。
表1 煙葉顏色特征和紋理特征優(yōu)選Tab.1 Tobacco leaf color feature and texture feature optimization
2.2.3 優(yōu)選特征與失水率的變化
優(yōu)選出的圖像顏色特征(a*/b*、R)和紋理特征(梯度熵、梯度分布不均勻性)隨烘烤時(shí)間的變化見圖4??梢姡兕伾卣鱝*/b*總體呈現(xiàn)先逐漸升高后趨于穩(wěn)定的趨勢(shì)。a*分量表示從紅色到綠色的范圍,b*分量表示從黃色到藍(lán)色的范圍,兩個(gè)分量取值范圍均為[127,-128]。煙葉在烘烤過(guò)程中逐漸失水,顏色由綠色向黃色過(guò)渡[7]。a*分量表示綠色的負(fù)值逐漸增大,其絕對(duì)值逐漸減??;b*分量表示黃色的正值逐漸增大,a*/b*總體在煙葉干筋始期(100~120 h)逐漸升高,至干筋末期(120~140 h)煙葉顏色基本固定時(shí)逐漸穩(wěn)定。②R分量表示顏色的紅色成分,取值范圍為[0,255],數(shù)值越大說(shuō)明亮度越高,其呈現(xiàn)先逐漸升高后趨于穩(wěn)定的趨勢(shì),煙葉失水率持續(xù)增大,主要是由于煙葉在變黃期和定色期失水變軟,顏色發(fā)生變化,逐漸由綠色向黃色轉(zhuǎn)變,干筋期主脈繼續(xù)失水,此時(shí)黃色基本固定。③紋理特征梯度分布不均勻性在變黃期呈現(xiàn)下降趨勢(shì),這是由于隨烘烤時(shí)間的增加,煙葉失水凋萎,溝紋逐漸清晰;定色期和干筋期梯度分布不均勻性逐漸升高,這是由于定色期是煙葉主要失水階段,煙葉葉面逐漸粗糙,煙葉的支脈、主脈逐漸失水,溝紋逐漸復(fù)雜;干筋期煙葉主脈進(jìn)一步失水,葉片全干,煙葉皺縮卷曲最為嚴(yán)重。④梯度熵則在變黃期略有上升,定色期和干筋期逐漸降低,同梯度分布不均勻性變化趨勢(shì)相反[6-7]。
以優(yōu)選出的4種顏色和紋理特征作為模型輸入,采用訓(xùn)練集的煙葉圖像及其對(duì)應(yīng)的失水率對(duì)3種模型進(jìn)行訓(xùn)練,3種模型對(duì)測(cè)試集的失水率預(yù)測(cè)結(jié)果見圖5。可見,GS-SVM、GA-BP和ELM 3種回歸模型均具有較高的預(yù)測(cè)精度(0.996 1≤R2≤0.997 3)和 較 小 的預(yù)測(cè) 誤 差(0.011 7≤RMSE≤0.014 0),能夠較為準(zhǔn)確地預(yù)測(cè)密集烘烤過(guò)程中煙葉失水率,其中GS-SVM模型預(yù)測(cè)誤差最小,為0.011 7。3種回歸模型在變黃期(0~40 h)和定色期(40~100 h)的預(yù)測(cè)誤差較小,這是由于變黃期(0~40 h)煙葉顏色變化明顯,定色期(40~100 h)雖顏色基本固定但因葉脈失水而使得紋理逐漸清晰;干筋后期(120~140 h)煙葉失水主要為主脈失水,煙葉變化不明顯,從而導(dǎo)致預(yù)測(cè)值波動(dòng)較大,失水率預(yù)測(cè)誤差較高。
圖4 烘烤過(guò)程中煙葉圖像特征和失水率變化Fig.4 Changes of image features and dehydration rate of tobacco leaves during curing process
圖5 3種煙葉失水率回歸模型預(yù)測(cè)結(jié)果Fig.5 Prediction results of dehydration rate of tobacco leaves by three regression models
通過(guò)在密集烤房中安裝質(zhì)量傳感器和工業(yè)耐高低溫相機(jī),獲取烘烤過(guò)程中煙葉圖像和失水率數(shù)據(jù);對(duì)煙葉圖像的顏色特征和紋理特征進(jìn)行提取、聚類和相關(guān)性分析后,優(yōu)選出4種特征(a*/b*、R、梯度熵、梯度分布不均勻性)作為輸入變量對(duì)3種模型(GS-SVM、GA-BP、ELM)進(jìn)行訓(xùn)練,建立了烘烤過(guò)程中煙葉失水率預(yù)測(cè)模型。分別利用3種預(yù)測(cè)模型對(duì)測(cè)試集圖像進(jìn)行失水率預(yù)測(cè),結(jié)果表明,3種預(yù)測(cè)模型均能夠準(zhǔn)確預(yù)測(cè)密集烘烤過(guò)程中煙葉失水率,預(yù)測(cè)精度均超過(guò)0.99,其中GS-SVM模型預(yù)測(cè)誤差最小,為0.011 7。煙葉失水率預(yù)測(cè)模型的構(gòu)建實(shí)現(xiàn)了密集烘烤過(guò)程中煙葉失水率的實(shí)時(shí)無(wú)損檢測(cè),為烘烤工藝參數(shù)的精準(zhǔn)調(diào)控奠定了基礎(chǔ)并提供了試驗(yàn)參考數(shù)據(jù)。但本研究中建立的模型參數(shù)僅依據(jù)福建產(chǎn)區(qū)單一品種、單一部位煙葉進(jìn)行確定,未來(lái)還需要增加不同產(chǎn)區(qū)、不同品種、不同部位的烤煙數(shù)據(jù)來(lái)擴(kuò)充數(shù)據(jù)集并進(jìn)行模型訓(xùn)練,以進(jìn)一步提高模型性能,為后續(xù)煙葉烘烤智能調(diào)控系統(tǒng)的研發(fā)提供支持。