摘要:本研究提出了一種優(yōu)化的葡萄葉部病害識別模型CD-MobileViT。首先,將MobileViT作為基礎(chǔ)網(wǎng)絡,在Layer1、Layer2后面均嵌入坐標注意力模塊CA(Coordinate Attention).以使網(wǎng)絡能更有效地捕捉不同位置的關(guān)鍵特征;其次,在網(wǎng)絡全連接層之后添加Dropout層,防止數(shù)據(jù)出現(xiàn)過擬合現(xiàn)象;最后,選用結(jié)合權(quán)重衰減的優(yōu)化器AdamW(Adam with Weight Decay Regularization),更好地控制模型復雜度并提高泛化能力。實驗結(jié)果顯示,相較于MobileViT基礎(chǔ)網(wǎng)絡,改進后的CD-MobileViT網(wǎng)絡在精確率、召回率、F1得分和準確率方面分別提高了1.77、1.85、1.65、1.75個百分點,與其他幾種經(jīng)典網(wǎng)絡模型(InceptionV1、MobileNetV2、Efficient-NetBO、VGG-16)相比也有不同程度的提升(0.25 - 1.47個百分點),說明本研究提出的模型在葡萄葉部病害識別上有良好的效果,未來可部署到移動端使用,為葡萄葉部病害的準確識別提供新的解決方案。
關(guān)鍵詞:葡萄葉部病害識別;MobileViT網(wǎng)絡;坐標注意力;AdamW優(yōu)化器;Dropout層
中圖分類號:S663.1: S126 文獻標識號:A 文章編號:1001-4942(2024) 10-0159-08
葡萄是一種重要的經(jīng)濟作物,葉部病害的發(fā)生嚴重影響其植株生長及果實產(chǎn)量和質(zhì)量,因此,準確高效地識別和分類葡萄葉部病害并及時采取防治措施至關(guān)重要。傳統(tǒng)的葡萄葉部病害識別主要依賴于人工肉眼觀察,不僅耗時耗力,而且容易受主觀因素影響,識別準確率不高”,。隨著計算機視覺和機器學習技術(shù)的發(fā)展,深度學習算法在多領(lǐng)域被廣泛應用,特別是在圖像識別領(lǐng)域,例如醫(yī)學影像疾病檢測、機械故障圖像判別、化學結(jié)構(gòu)圖像識別等,已取得了不錯的成績。與此同時,深度學習算法在植物病蟲害識別領(lǐng)域也顯示出了顯著的應用潛力,逐漸成為研究的熱點。Ullah等提出一種混合視覺模型AppViT,引入了卷積塊堆疊ViT模塊,并通過結(jié)合多頭注意力捕獲特征,對蘋果葉部病害識別的準確率達到96. 38%。Wang等結(jié)合離線擴展和遷移學習技術(shù),對RegNet模型的每層參數(shù)進行微調(diào),使優(yōu)化后的模型在兩個數(shù)據(jù)集上的測試精度分別達到93.85%和99.23%。溫釗發(fā)等在ShuⅢeNetV2_0.5的基礎(chǔ)上,引入ECA注意力機制和SiLU激活函數(shù)進行優(yōu)化,并利用Effi-cientNetBO進行知識蒸餾指導,采用余弦退火衰減策略調(diào)整學習率,使優(yōu)化模型對玉米和蘋果11種病害的識別準確率達到95.21%。劉佳明等提出一種輕量級網(wǎng)絡TB -MobileNetV2,該網(wǎng)絡結(jié)合了新型輕量化瓶頸層模塊陀螺塊和增強的紋理注意力機制,在番茄病害數(shù)據(jù)集上可獲得88.49%的識別準確率。帖軍等提出了SK-EfficientNet模型,通過用SKNet替換EfficientNet的核心模塊MBConv中的SENet,增強了特征提取能力并優(yōu)化了參數(shù),在PlantVⅢage數(shù)據(jù)集上平均準確率99.64%。陳浪浪等通過結(jié)合坐標注意力機制和采用遷移學習策略改進DenseNet121模型,提出了一種水稻病蟲害識別模型,實現(xiàn)了對8種常見水稻病蟲害和健康植株的識別準確率達到98.95%。陳曉等基于MobileViT網(wǎng)絡,通過融合局部和全局表征層、用1×1卷積層代替融合塊中的3×3卷積層、引入殘差結(jié)構(gòu)連接輸入與融合塊、替換激活函數(shù)為H-Swish進行改進,在番茄葉片病害數(shù)據(jù)集上獲得99.16%的識別準確率。
深度學習算法在葡萄葉部病害檢測方面的應用研究也取得了一定進展,如:賈璐等提出一種MANet模型,該模型通過集成倒殘差模塊,引入SENet注意力機制,融合多尺度特征模塊,在自建葡萄病害數(shù)據(jù)集上的平均識別準確率達到87.93%;何前等提出了一種優(yōu)化的AlexNet算法,通過增加池化層來壓縮特征,同時采用LeakyReLU激活函數(shù),該改進算法對葡萄葉部病害分類的準確率達到99.1%;Wang等以YOLOXS為主干網(wǎng)絡,集成FOCUS模塊,嵌入CBAM模塊,并在預測端引入雙殘差邊設(shè)計以防止網(wǎng)絡退化,構(gòu)建了GFCD-YOLOXS模型,其識別準確率達到99.10%:Lu等利用Ghost網(wǎng)絡進行卷積處理,通過線性操作生成特征圖,并集成多頭自注意機制Transformer編碼器,實現(xiàn)在葡萄葉片病害數(shù)據(jù)集上的準確率達到98.14。但是這些模型在處理復雜的葡萄葉部病害圖像時,往往存在特征提取不充分、模型泛化能力弱等問題,仍有待進一步優(yōu)化。本研究通過改進MobileViT網(wǎng)絡,提出一種葡萄葉部病害識別模型CD-MobileViT,旨在提高分類準確率、增強模型泛化能力,為后續(xù)部署在移動端上供非專業(yè)人士實時識別葡萄葉部病害奠定基礎(chǔ)。
1 材料與方法
1.1 數(shù)據(jù)來源
本研究采用的葡萄葉部病害圖像數(shù)據(jù)集源自公開數(shù)據(jù)集PlantVillage,該數(shù)據(jù)集由相關(guān)專業(yè)人員拍攝并整理,廣泛應用于農(nóng)作物和其他植物病害的研究。本研究選用其中的黑腐?。℅rape_Black- rot)、埃斯卡?。℅rape- Esca)、葉枯?。℅rape_Leaf_blight)以及健康(Grape_healthy)4類葉片圖像構(gòu)建數(shù)據(jù)集。各類樣本示例見圖1。
1.2 數(shù)據(jù)增強處理
若數(shù)據(jù)集中的數(shù)據(jù)不平衡,可能會降低深度學習模型的識別準確性。為減少過擬合風險并增強模型的泛化能力,本研究運用數(shù)據(jù)增強技術(shù)來增加訓練樣本數(shù),即對原始圖像進行翻轉(zhuǎn)、調(diào)整亮度、添加高斯噪聲和水平鏡像等預處理操作,使數(shù)據(jù)集圖像擴充至23 699幅。以葡萄葉部黑腐病為例,不同數(shù)據(jù)處理效果展示如圖2。預處理后的數(shù)據(jù)集按70%、20%和10%的比例分為訓練集、驗證集和測試集,具體分類樣本信息見表1。
1.3 CD-MobileViT網(wǎng)絡模型構(gòu)建
1.3.1 骨干網(wǎng)絡MobileViT概述
MobileViT模型是一種融合了卷積神經(jīng)網(wǎng)絡(CNN)與Trans-former技術(shù)的混合架構(gòu),巧妙地結(jié)合了CNN的空間歸納偏置與視覺Transformer的全局特征處理優(yōu)勢,不僅確保了模型的輕量化,還大幅提高了分類效率。該模型的核心由MV2模塊和Mobi-leViT模塊構(gòu)成,二者通過級聯(lián)連接,其中MV2模塊基于MobileNetV2模塊設(shè)計。MobileViT模型的具體結(jié)構(gòu)如圖3所示。
MV2模塊通過整合深度可分離卷積、倒殘差結(jié)構(gòu)和線性瓶頸技術(shù),可有效降低模型參數(shù)規(guī)模,同時高效提取局部特征。該模塊首先通過1×1逐點卷積提升特征維度,增強細粒度:接著利用3x3深度卷積對各通道特征進行提取,減少參數(shù);最后再次通過1×1逐點卷積降低特征維度,縮減輸出尺寸。為避免低維特征信息損失,MV2模塊在最終的1×1逐點卷積后采用線性激活函數(shù)。此外,MV2模塊的殘差連接僅在步長為1且輸入輸出維度一致時啟用,以防止特征丟失,而在步長為2時則采用串聯(lián)連接進行特征層的下采樣。
MobileViT模塊作為模型的核心創(chuàng)新,首先通過3x3卷積層捕捉局部空間信息,隨后利用1×1卷積層擴展特征通道數(shù),學習通道間的線性組合。接著,數(shù)據(jù)被映射至d維空間,并將特征圖分割為N個不重疊的圖像塊,形成序列;通過Transformer編碼器處理序列x。,捕捉圖像塊間的全局關(guān)系,實現(xiàn)全局信息的關(guān)注:為防止圖像塊間信息丟失,編碼后的圖像塊被還原至原始維度,得到特征XF。最終,通過融合模塊將局部與全局特征結(jié)合,輸出最終特征Y。
1.3.2 引入坐標注意力機制
坐標注意力機制(coordinate attention,CA)是一種輕量級且易于集成的注意力機制,于2021年被提出。該機制通過在高度和寬度兩個維度上對輸入特征進行自適應池化,使模型能夠獨立地關(guān)注輸入特征的不同空間維度,從而更精準地捕捉關(guān)鍵信息。CA的簡單高效主要依賴于1×1卷積和自適應池化技術(shù),使其能夠無縫集成到多種卷積神經(jīng)網(wǎng)絡中,提升性能。CA通過強調(diào)重要特征、削弱次要特征,顯著提升模型對輸入數(shù)據(jù)的表達能力,這對于處理復雜視覺任務至關(guān)重要,使模型能夠更全面地理解和整合來自不同空間區(qū)域的信息,從而增強對整體特征的理解能力。具體而言,CA首先從輸入數(shù)據(jù)中提取特征,然后計算注意力權(quán)重并應用于特征圖,增強或抑制特定位置的特征。CA機制實現(xiàn)細節(jié)參見圖4,其中X Avg Pool表示一維水平全局平均池化,Y Avg Pool表示一維垂直全局平均池化。
1.3.3 選用AdamW優(yōu)化器
在深度學習領(lǐng)域,優(yōu)化器至關(guān)重要,其主要職責是尋找使損失函數(shù)最小化的最優(yōu)參數(shù)。這一目標通過連續(xù)的參數(shù)更新迭代實現(xiàn),旨在提高模型在特定數(shù)據(jù)集上的性能。優(yōu)化器主要分為兩類:一類是采用自適應算法的Adam優(yōu)化器,另一類是基于Momentum的SGD(隨機梯度下降)。SGD在每次參數(shù)更新時僅使用單個樣本或一小批樣本的梯度,因此具有高計算效率和低內(nèi)存需求,但可能陷入局部最優(yōu),收斂速度較慢,需要更多迭代以達到最優(yōu)解。相比之下,Adam優(yōu)化器采用自適應學習率算法,能夠針對每個參數(shù)的梯度動態(tài)調(diào)整學習率,然而,這種自適應調(diào)整可能導致對某些數(shù)據(jù)集或網(wǎng)絡結(jié)構(gòu)過擬合,從而影響模型性能。
為了應對Adam優(yōu)化器可能引發(fā)的過擬合問題,Loshchilov等在2017年提出了AdamW優(yōu)化器,通過改進的權(quán)重衰減(weight decay)方法,解決了傳統(tǒng)Adam中權(quán)重衰減與學習率調(diào)整之間的關(guān)聯(lián)問題。具體而言,AdamW在參數(shù)更新時獨立應用權(quán)重衰減項,并將其與學習率的調(diào)整分開處理,從而更精確地實施權(quán)重衰減。使用AdamW優(yōu)化器進行模型訓練,能有效管理模型的復雜度,降低過擬合的風險,并增強模型的穩(wěn)定性。
1.3.4 CD-MobileViT模型構(gòu)建
為了提高葡萄葉部病害識別和分類的準確率,本研究通過對MobileViT架構(gòu)的創(chuàng)新改進,構(gòu)建了CD -MobileV-iT網(wǎng)絡模型。首先,在原始MobileViT網(wǎng)絡的Layer1和Layer2后均添加CA模塊,通過在高度和寬度兩個維度上對輸入特征進行自適應池化處理,使得模型能夠針對不同的空間維度獨立地聚焦關(guān)鍵特征,從而有助于更有效地捕捉重要信息,更好地識別和區(qū)分在視覺上相似的病害特征,提升分類的準確性。其次,為了進一步防止模型在訓練過程中出現(xiàn)過擬合現(xiàn)象,CD-MobileViT網(wǎng)絡在結(jié)構(gòu)的全連接層之后加入Dropout層,通過在訓練過程中隨機忽略一部分神經(jīng)元,有效減少模型對特定訓練樣本的依賴,從而增強模型的泛化能力,提高模型面對新數(shù)據(jù)時的穩(wěn)定性以及整體的魯棒性。最后,選用AdamW優(yōu)化器訓練模型,通過引入權(quán)重衰減來更有效地控制模型的復雜度,從而提高網(wǎng)絡訓練效果并增強模型的泛化能力,以減少過擬合的風險,使模型能夠在保持高分類準確率的同時也具有更好的穩(wěn)定性和可靠性。CD-MobileViT網(wǎng)絡模型的詳細結(jié)構(gòu)如圖5所示。
1.4 實驗環(huán)境
本研究采用操作系統(tǒng)Ubuntu18.04,CPU型號為14 vCPU Intel(R) Xeon(R) Gold 6330 CPU@2.00 GHz,GPU型號為NVIDIA GeForce RTX 3090(24 GB)+1,內(nèi)存46 GB,使用Python環(huán)境3.8,深度學習框架Pytorch 1.7.0,Cuda版本12.1,來實現(xiàn)網(wǎng)絡搭建與模型訓練。實驗輸入圖像分辨率256×256,采用AdamW優(yōu)化器訓練模型,學習率為0.000 1,Batch Size設(shè)置為64,并設(shè)置Epoch為30次。
1.5 評估指標
為了全面評估模型的識別性能,采用分類模型中常用的評價指標:準確率(accuracy,A)、精確率(precision,P)、召回率(recall,R)和綜合評價指標F1分數(shù)(F1-score,F(xiàn)1)。準確率衡量的是所有預測正確的樣本數(shù)占總樣本數(shù)的比例:精確率關(guān)注在所有被模型預測為正的樣本中,實際為正的比例:召回率則是指在所有實際為正的樣本中,被正確預測為正的比例:F1分數(shù)是精確率和召回率的調(diào)和平均值,綜合考慮了精確率和召回率,以提供一個平衡的性能評估。各指標計算方法見下式:
式中,TP表示實際為正且被預測為正的樣本數(shù):FP表示實際為負但被預測為正的樣本數(shù):FN表示實際為正但被預測為負的樣本數(shù):TN表示實際為負且被預測為負的樣本數(shù)。
混淆矩陣(Confusion Matrix)是分類問題中用于評估模型性能的一種工具,通過表格展示模型預測結(jié)果與實際標簽之間的關(guān)系。本研究中,混淆矩陣的x軸對應于模型預測的病害類別標簽,y軸則對應于實際的病害類別標簽:核心是對角線,用藍色突出表現(xiàn),代表模型正確識別各類病害樣本的數(shù)量,對角線上的藍色越深,數(shù)量越大,意味著模型在識別各類病害時的準確率越高。
2 結(jié)果與分析
2.1 消融實驗
消融實驗是通過逐步移除模型中的新引入組件并重新訓練模型,來評估這些組件對模型整體性能的影響。實驗結(jié)果(表2)顯示,在MobileViT模型中單獨引入CA模塊或Dropout模塊后,模型的4個評價指標均有所提高:而同時引入兩個模塊的CD-MobileViT模型表現(xiàn)最佳,準確率、精確率、召回率、F1分數(shù)分別提高0.50 - 1.77、0.50 -1.85、0.50-1.65、0.50 - 1.75個百分點。表明CA模塊和Dropout模塊對模型性能的協(xié)同提升作用最好,驗證了本研究所提出改進措施的有效性。
2.2 AdamW優(yōu)化器對網(wǎng)絡性能的影響
為了選用適合的優(yōu)化器,本研究在保持網(wǎng)絡結(jié)構(gòu)不變的基礎(chǔ)上,對比分析了不同優(yōu)化器對模型性能的影響。由表3可見,使用AdamW優(yōu)化器訓練模型的效果優(yōu)于傳統(tǒng)的Adam和SGD優(yōu)化器,準確率分別提高0.60個和7.28個百分點,精確率分別提高0.61個和7.28個百分點,召回率分別提高0.54個和8.31個百分點,F(xiàn)1分數(shù)分別提高0.59個和8.28個百分點。圖6展示了分別采用AdamW、SGD和Adam優(yōu)化器識別葡萄葉部病害的混淆矩陣,可以明顯看出采用AdamW優(yōu)化器的模型對葡萄葉部病害的識別效果更好。
2.3 CD-MobileViT模型性能的對比分析
為了全面評估和驗證所提出的CD-MobileV-iT模型的性能,選取多個受到廣泛認可的基礎(chǔ)網(wǎng)絡模型,包括MobileViT、InceptionV1、Mobile-NetV2、EfficientNetBO和VGG-16,在相同數(shù)據(jù)集上進行訓練后對比分析它們與CD - MobileViT模型的性能(表4)??梢钥闯?,CD-MobileViT模型在測試集上的識別性能明顯優(yōu)于其他模型,準確率、精確率、召回率、F1分數(shù)分別達到99.11%、99.05%、99.15%、99.10%,與MobileViT、InceptionVI、MobileNetV2、EfficientNetBO、VGG-16相比,準確率分別提高1.77、1.47、0.33、1.26、0.84個百分點,精確率分別提高1.85、1.32、0.25、1.22、0.77個百分點,召回率分別提高1.65、1.46、0.31、1.17、0.68個百分點,F(xiàn)1分數(shù)分別提高1.75、1.39、0.27、1.19、0.75個百分點。
由各模型識別準確率隨訓練輪次的變化曲線(圖7)看出,所有模型在訓練過程中的準確率都呈現(xiàn)出上升趨勢并在5輪后趨于平穩(wěn)(除Incep-tionVI),以CD - MobileViT模型的識別準確率較高且變化較平穩(wěn),表明該模型用于葡萄葉部病害識別時具有明顯優(yōu)勢。
2.4 CD-MobileViT模型對葡萄葉部病害的識別表現(xiàn)
CD-MobileViT模型在葡萄葉部病害識別任務中的表現(xiàn)通過圖8的混淆矩陣得以直觀展示,可見,模型對4個類別葡萄葉片的識別準確率均較高。由圖9可以看出,訓練5輪次后,模型的準確率高且穩(wěn)定,損失率低且波動很小,說明模型性能穩(wěn)定。由圖10可以看出,模型可正確識別健康葉片(100%),對埃斯卡病、葉枯病、黑腐病的識別準確率也較高,分別在98.77%、99. 07%、99.32%。綜合來看,本研究提出的CD - Mobile ViT模型在所構(gòu)建葡萄葉部病害分類測試集上表現(xiàn)優(yōu)異且穩(wěn)定,充分證明了所采用的改進方法在提高葡萄葉部病害識別準確性和可靠性方面是有效的。
3 結(jié)論
針對葡萄葉部病害識別效果不佳的難題,本研究提出了一種基于MobileViT的優(yōu)化模型CD-MobileViT。該模型以MobileViT為基礎(chǔ)架構(gòu),在網(wǎng)絡的第一和第二層后均嵌入CA模塊,以提升對各位置關(guān)鍵特征的捕捉能力:同時在全連接層后加入Dropout模塊,以防止過擬合,并采用帶有權(quán)重衰減的AdamW優(yōu)化器,以有效控制模型復雜性,提升其泛化性能。實驗結(jié)果表明,CD-Mo-bileViT模型性能得到明顯提升,準確率、精確率、召回率、F1分數(shù)均高于MobileViT、InceptionV1、MobileNetV2、EfficientNetBO和VGG- 16模型,分別提高了0.33 -1.77、0.25 -1.85、o.31 -1.65、0.27 -1.75個百分點,分別達到99.11%、99. 05%、99.15%、99.10%。
總體來說,本研究提出的CD-MobileViT模型不僅提高了葡萄葉部病害識別的準確性,還增強了模型的泛化能力和魯棒性,在實際生產(chǎn)中具有更廣泛的應用前景。今后將在更多改進方向上進行探索,比如收集更多復雜環(huán)境下的病害數(shù)據(jù)以豐富數(shù)據(jù)集,引入不同的注意力機制以探尋模型的改進潛力,如何在特定任務場景中更好地應用模型等。
基金項目:國家自然科學基金面上項目(32270022)