張成雙,王先偉,劉志剛,王桂榮,姜增昀,郝允志
(1.山東濰坊煙草有限公司,山東 濰坊 261000;2.西南大學,重慶 400715)
目前密集烤房煙葉烘烤主要通過干濕球溫度傳感器監(jiān)測烤房狀態(tài),通過預設烘烤曲線和烘烤師肉眼觀察進行預設值修正調節(jié)[1]。這種由干濕球溫度直接調控的方式難以對煙葉烘烤狀態(tài)進行準確識別,對烘烤師依賴性很大,往往需要烘烤師24 h值守,進行烘烤工藝調整。這種工作方式的勞動強度較大,而且受烘烤師主觀影響很大,除此之外,從溫度異常到烘烤師發(fā)現進行調整往往存在滯后性[2]。因此,實現煙葉烘烤階段智能識別,是煙葉智能烘烤的重點。近年來,隨著神經網絡技術的發(fā)展,深度神經網絡模型在農業(yè)方面的應用越來越廣泛[3],但是在煙葉烘烤階段識別方面的應用還鮮有耳聞。
煙葉方面的研究還主要集中在病蟲害識別[4],或者煙葉成熟度和煙葉等級鑒定[5]方面的研究。焦方圓等[6]提出一種改進的基于VGG16的煙葉分級模型,使用空洞卷積代替?zhèn)鹘y(tǒng)卷積,對41種煙葉烘烤等級煙葉進行識別,準確率比傳統(tǒng)SVM(葉片葉綠素含量的相對值)模型提高了10.46%。陳乾錦等[7]通過分析煙葉SPAD(支持向量機)葉片葉綠素含量的相對值的含量判斷和煙葉烘烤質量的關系,最終和不同部位煙葉的相關性達到了0.991,0.988,0.961。張麗英等[8]將烘烤過程中煙葉葉綠素和類胡蘿卜素與煙葉顏色特征進行了逐步回歸分析,建立了回歸方程模型,相關系數達到了0.976 6和0.632 5。但利用圖像處理乃至深度卷積神經網絡對煙葉烘烤階段進行識別的研究還鮮有耳聞。
本文通過雙邊濾波算法[9]在保留邊緣特征的基礎上對煙葉原始圖像進行去噪,將數據輸入MobileNetv3-ECA深度卷積神經網絡,并采用SE注意力機制增加模型對重要通道的關注度提取分類關鍵特征,模型最終識別率達到了91.38%。在煙葉烘烤階段工藝匹配上可以達到良好的精度,對實現精準烤煙有重要意義,為深度學習圖像識別在煙葉烘烤階段識別上的應用提供理論依據和技術支持。
試驗圖像于2021年在山東省濰坊市諸城煙葉烘烤模范合作社采集。烘烤烤房為燃煤密集烤房,裝煙室規(guī)格長寬高為8.0 m×3.0 m×3.5 m,裝煙三層雙路。圖像采集設備采用120°高清廣角網絡攝像頭,通過當地有線網絡、無線路由器上傳至服務器識別或在網絡較差的地方進行本地設備識別。
網絡攝像頭采用360°可旋轉的固定機構進行固定,距離煙竿25~30 cm,距離煙葉30~35 cm,主要拍攝部位為葉尖部位。
圖像拍攝處于光線較暗的灰暗環(huán)境,輔助光源難以達到高質量的均勻光效果,而且拍攝環(huán)境長期溫度較高。在這種環(huán)境下,采集的圖像極易產生高斯噪聲,高斯噪聲是一種概率分布滿足高斯分布(正態(tài)分布)的噪聲,在自然界中廣泛存在。但是一般的高斯濾波方式,都會產生明顯的邊緣模糊,使圖像丟失部分邊緣特征。為了對采集的圖像進行有效處理,本文采用了雙邊濾波算法。雙邊濾波[10]是一種基于空間分布的非線性高斯濾波方法,由于其空間特性,對邊緣附近較遠的像素不會產生太大影響,可以更好地保留邊緣像素,達到“保邊去噪”的目的。處理前后圖像如圖1所示。
圖1 處理前后的圖像
參考三段式烘烤工藝和當地烘烤師傅烘烤經驗,將煙葉烘烤過程采集的圖像分成10個階段。
MobileNet是一種經典的深度學習模型[11],該模型使用了殘差結構來保留原始特征,減緩了深層網絡的網絡退化問題。
MobileNetv3[12]是MobileNet系列中最先進的模型,通過逐像素點的多層運算,提取圖像的深層特征,并在最后將特征矩陣映射為和分類數相同的一維向量,進行圖像分類。
殘差連接可用如下公式表示
式中:xl是上一層的輸出;xl+1是該層輸出;F(xl,wl)是xl經過權重矩陣wl后的輸出;f(xl)是經過激活函數等操作后的輸出。
如果忽略激活函數等操作,則殘差連接可以表示為
則深層網絡L層的輸出xL可以表示為
在深層模型中,殘差結構一直保持一個恒等映射,將原始特征保留下來,避免了網絡層數加深時的模型退化問題。
在MobileNetv3模型中,為了準確識別目標,將模型的權重參數合理分配,加入了SE注意力機制模塊[13],如圖2所示,該模塊將特征矩陣壓縮為1×1×C的向量,經過2個全連接層對該特征向量參數學習后,將其與原始特征矩陣逐通道相乘,對通道間的權重進行重新分配,使模型更多關注重要通道的信息。
圖2 SE注意力模塊
MobileNetv3模型保留了殘差結構和深度可分卷積,但是將SE模塊更換為更加高效的ECA模塊。ECA模塊[14]采用一維卷積代替了全連接層,將數萬參數量的注意力模塊精簡到了個位數。如圖3所示。
圖3 ECA注意力模塊
并對模型尺寸進行了枝減,進一步減少了MobileNetv3-ECA模型的大小,減少了計算所需的設備成本。
將經過雙邊濾波后的煙葉圖像RGB 3個通道輸入到MobileNetv3-ECA模型中,通過多次卷積操作提取圖像特征,最后將所有特征映射為10個輸出,對輸出進行Softmax操作,計算圖片在10個類別的概率,將最高概率的標簽作為預測標簽,使用交叉熵損失函數計算實際標簽和預測標簽之間的損失值,通過優(yōu)化器函數將損失梯度反向傳播,對權重矩陣進行優(yōu)化,最終得到合適的模型權重參數。
特征提取過程如圖4所示。
圖4 特征提取過程
將煙葉烘烤階段數據分別輸入MobileNetv3-ECA、MobileNetv3、GoogLeNet、VGG16和ResNet34模型。在100輪訓練后,驗證集的準確率曲線如圖5所示。
由圖5可以看出,VGG16曲線波動十分明顯,準確率穩(wěn)定性不佳;GoogLeNet模型收斂速度較慢,在前40輪準確率明顯低于其他曲線;ResNet34和MobileNetv3模型曲線則整體上高于VGG16和GoogLeNet曲線;改進后的MobileNetv3-ECA模型準確率曲線總體處于其他曲線上方,而且波動明顯減小,具有更好的綜合性能。
圖5 準確率曲線
從表1可以看出,改進后的MobileNetv3-ECA模型準確率達到了91.38%,模型參數量與MobileNetv3相比,減少了16.6%,僅為VGG16的2.6%,ResNet34的16.5%,可以節(jié)省大量計算資源,降低對設備的要求。
表1 多模型性能對比
由圖6可以看出,由于分類階段數為10,每個批次加載圖片數量不足10張時,對批次圖片歸一化難以代表各個階段的特性,batchsize(每個批次加載的圖片數量)為4或8時,曲線波動明顯更大,當每個批次加載圖像為16張或32張時,圖像波動明顯減小,但batchsize為32時準確率相比于batchsize為16時沒有明顯提升,但是加載圖片過多,會對設備內存占用迅速增長。
圖6 不同batchsize下的準確率曲線
目前密集烤房煙葉烘烤狀態(tài)主要靠烘烤師肉眼觀察,手動調節(jié)烘烤曲線,受人主觀性影響較大,而且夜間值守也需要耗費大量精力。本文通過雙邊濾波方法對烤房圖片進行去噪,同時保留煙葉的輪廓信息,使用MobileNetv3模型進行特征提取,并通過梯度下降法進行反向傳播優(yōu)化參數,濾波前后各個階段的識別準確率見表2。
表2 雙邊濾波前后各個階段識別準確率對比
將雙邊去噪前后的圖像分別輸入到MobileNetv3和MobileNetv3-ECA模型中,batchsize(每批次加載圖片數量)為16時,迭代100個訓練輪次后,其準確率曲線如圖7所示。由圖7可以看出,在前10輪訓練過程中,準確率不高,但經過10輪之后,模型權重基本優(yōu)化確定,準確率迅速達到80%以上;在80輪訓練后,MobileNetv3準確率最高達到了89.66%,而MobileNetv3-ECA模型的識別準確率達到了91.38%。
圖7 改進前后的準確率曲線
實驗證明在MobileNetv3模型上,識別準確率達到了89.66%,而改進后的MobileNetv3-ECA模型識別準確率可以達到91.38%。MobileNetv3模型在4—6階段的識別錯誤率較高,該時期,煙葉正處于變黃后期;定色前中期,煙葉整體未達到特征相近的階段,特征提取難度較大。
而MobileNetv3-ECA模型的識別準確率達到了91.38%。該模型在3—6階段的識別錯誤率明顯降低,對變黃定色的關鍵時期有更好的識別效果,在7—10段的錯誤率略有提高,該時期處于烘烤過程的定色后期和干筋期,此時煙葉烘烤大部分已經完成,主要對煙筋進行脫水處理,對煙葉整體烘烤質量影響不大。
本研究表明,在不使用其他輔助特征提取設備和人為對特征進行提取的情況下,只通過攝像頭采集數據,使用神經網絡自主提取特征進行煙葉烘烤階段識別是可行的,這對于輕便型易布置的煙葉烘烤階段識別裝置研發(fā)提供了理論基礎。使用雙邊濾波法對圖像進行去噪,在MobileNetv3-ECA深度神經網絡模型上,對煙葉烘烤質量影響較大,特征難以提取的3—6階段識別準確率得到了明顯提升,但由于識別需要上傳服務器進行,在信號較差的地區(qū)實施具有一定難度,本地識別往往對計算機性能要求較高,這為后續(xù)研究提供了方向,可以進一步優(yōu)化搭建更輕量級的模型,從而在微型設備上進行識別。