肖天賜 陳燕紅 李永可 李雨晴 羅玉峰
摘要:準(zhǔn)確地識(shí)別農(nóng)作物病害種類、病害程度,是能夠正確防治病害的基礎(chǔ),對(duì)農(nóng)作物的高質(zhì)量生產(chǎn)有重要意義。針對(duì)傳統(tǒng)深度學(xué)習(xí)模型對(duì)圖像的細(xì)粒度分類不夠精準(zhǔn)的問題,提出不參與殘差計(jì)算的通道注意力(efficient channel attention without participating in residual calculation,EWPRC)結(jié)構(gòu),該結(jié)構(gòu)將改進(jìn)的通道注意力機(jī)制ECANet3放在殘差塊之后,增加模型對(duì)通道維度的權(quán)重學(xué)習(xí)能力,并將EWPRC結(jié)構(gòu)用于骨干網(wǎng)絡(luò)為ResNet50的遷移學(xué)習(xí)模型中,通過替換模型中的layer3、layer4層得到了EWPRC-RseNet-t模型。試驗(yàn)使用了AIChallenger 2018數(shù)據(jù)集,在數(shù)據(jù)預(yù)處理、數(shù)據(jù)增強(qiáng)、超參數(shù)相同的情況下,首先對(duì)比了固定核大小為3、5、7、11、13的通道注意力機(jī)制對(duì)模型準(zhǔn)確率的影響,在此試驗(yàn)中,模型的準(zhǔn)確率隨卷積核變大呈下降趨勢(shì),其中一維卷積核大小為3的模型準(zhǔn)確率最高,達(dá)到了87.42%,比核大小為5、7、11、13的模型分別提高了0.03、0.42、0.51、0.64百分點(diǎn)。再將EWPRC-ResNet-t模型與經(jīng)過微調(diào)的遷移學(xué)習(xí)模型ResNet-t以及GoogLeNet、MobileNet-v3、ResNet50模型進(jìn)行對(duì)比,以準(zhǔn)確率、精確率、召回率以及F1值作為評(píng)價(jià)指標(biāo),試驗(yàn)結(jié)果證明EWPRC-ResNet-t模型取得了最好的效果,比傳統(tǒng)深度學(xué)習(xí)模型中準(zhǔn)確率最高的ResNet50模型提高了0.99百分點(diǎn),比ResNet-t模型提高了0.75百分點(diǎn)。且相比傳統(tǒng)的深度學(xué)習(xí)模型,EWPRC-ResNet-t模型有更高的精度、召回率與F1得分。
關(guān)鍵詞:農(nóng)作物病害識(shí)別;通道注意力機(jī)制;殘差網(wǎng)絡(luò);遷移學(xué)習(xí);數(shù)據(jù)增強(qiáng)
中圖分類號(hào):S126;TP391.41? 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1002-1302(2023)24-0168-07
作物在生產(chǎn)過程中,常由于其他生物的侵染或不適宜的環(huán)境導(dǎo)致生長異常、生理機(jī)能或結(jié)構(gòu)發(fā)生惡性變化,最終導(dǎo)致作物的產(chǎn)量與質(zhì)量降低,更為嚴(yán)重時(shí)甚至導(dǎo)致作物整株死亡。及早發(fā)現(xiàn)病害,對(duì)作物病害的防治至關(guān)重要,其中對(duì)作物病害種類、病害程度的識(shí)別,是對(duì)癥、對(duì)量下藥的關(guān)鍵。然而在種植產(chǎn)業(yè)中,依靠人工檢測(cè),費(fèi)時(shí)費(fèi)力,對(duì)檢測(cè)人員也有很高的要求,且準(zhǔn)確率不高,因此病蟲害檢測(cè)的信息化是必不可少的。隨著互聯(lián)網(wǎng)的飛速發(fā)展,數(shù)據(jù)的獲取變得更加容易,數(shù)據(jù)量也變得更為龐大,深度學(xué)習(xí)等技術(shù)獲益頗豐,很多學(xué)者開展了基于深度學(xué)習(xí)病害識(shí)別方法的研究[1-5]。在此基礎(chǔ)上,一些學(xué)者使用遷移學(xué)習(xí)的思想,使用模型在其他數(shù)據(jù)集上學(xué)習(xí)的參數(shù)作為初始化參數(shù),從而使模型達(dá)到更好的效果[6-8]。
Agarwal等對(duì)比了支持向量機(jī)(support vector machine,SVM)等許多機(jī)器學(xué)習(xí)算法與卷積神經(jīng)網(wǎng)絡(luò),構(gòu)建了一種由8個(gè)隱藏層組成的簡化CNN模型(proposed model)[9]。該模型相比于預(yù)訓(xùn)練模型參數(shù)更少,準(zhǔn)確率高于傳統(tǒng)機(jī)器學(xué)習(xí)模型與預(yù)訓(xùn)練模型,并且在公開數(shù)據(jù)集PlantVillage上達(dá)到了98.7%的準(zhǔn)確率。Wang等提出MB-ResNet-18模型,通過將SE-Net嵌入ResNet-18中,并使用特征圖分層合并方法進(jìn)一步增加模型的準(zhǔn)確率,增加縱向連接,將1個(gè)輸出節(jié)點(diǎn)的模型變?yōu)?個(gè)輸出節(jié)點(diǎn);此外還改進(jìn)了損失函數(shù),將3個(gè)分類任務(wù)的損失函數(shù)合并為1個(gè)聯(lián)合損失函數(shù)[10]。此模型在部分AIChallenger 2018數(shù)據(jù)集上表現(xiàn)優(yōu)異,其中對(duì)作物的分類準(zhǔn)確率較原始的ResNet-18模型下降了0.67%,但對(duì)作物病害與病害程度的預(yù)測(cè)準(zhǔn)確率分別提高了0.51%和2.11%。Thakur 等提出了一種輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)“VGG-ICNN”,該模型由1個(gè)Max Poll 、3個(gè)Inception塊、1個(gè)GAP和1個(gè)FC Layer加Softmax組成,只有約600萬個(gè)參數(shù)組成,遠(yuǎn)少于大多數(shù)可用的高性能深度學(xué)習(xí)模型[11]。該模型在PlantVillage等5個(gè)數(shù)據(jù)集上都表現(xiàn)出一致的良好性能,其中在PlantVillage上達(dá)到了99.16%的準(zhǔn)確率。高榮華等提出了SMLP模塊,該模塊將SENet中的2個(gè)線性層替換為多層感知機(jī),并將改進(jìn)的通道注意力機(jī)制融入到ResNet中得到SMLP-ResNet模型[12]。經(jīng)驗(yàn)證SMLP-ResNet在PlantVillage、AIChallenger 2018這2種數(shù)據(jù)集上準(zhǔn)確率分別達(dá)到了99.32%與86.93%,相比原始的ResNet與融入了SENet的SE-ResNet模型,在PlantVillage上分別提高了0.27%、0.13%。在AIChallenger 2018上分別提高了3.00%與1.45%,均有不同程度的提升。姜紅花等選取ResNet18作為骨干網(wǎng)絡(luò),通過引入混合注意力機(jī)制與隨機(jī)裁剪分支的方式對(duì)其進(jìn)行改進(jìn),得到了ResNet18-CBAM-RC1 模型[13]。該模型在蘋果常見的5種病害分類上準(zhǔn)確率達(dá)到了98.25%,較ResNet18模型提高了5.06%,較VGG16提高了2.12%。
隨著深度學(xué)習(xí)的發(fā)展,很多成果通過對(duì)空間維度進(jìn)行改進(jìn)從而提升了網(wǎng)絡(luò)的性能,壓縮和激勵(lì)網(wǎng)絡(luò)(squeeze-and-excitation networks,SENet)注意到了通道上的關(guān)系,使用擠壓(squeeze)和激勵(lì)(excitation)的思想學(xué)習(xí)每個(gè)卷積塊的通道注意來提升網(wǎng)絡(luò)性能[14]。后有許多基于通道注意力的研究,皆致力于開發(fā)更復(fù)雜的注意力模塊,通過捕獲更復(fù)雜的信道依賴關(guān)系或與額外的空間注意結(jié)合來改進(jìn)SENet模塊,以獲得更好的性能,這不可避免地增加了模型的復(fù)雜性[15-18]。Wang等研究證明SENet采用的降維操作會(huì)對(duì)通道注意力的預(yù)測(cè)產(chǎn)生負(fù)面影響,獲取依賴關(guān)系效率低且不必要[19]?;诖藢?duì)SENet進(jìn)行改良,構(gòu)造了高效通道注意力網(wǎng)絡(luò)(efficient channel attention network,ECANet)模塊,該模塊避免了SENet中的降維操作,通過一維卷積的方式有效地實(shí)現(xiàn)了跨通道交互,產(chǎn)生了輕量級(jí)的、副作用更小的高效通道注意力模塊。
為了構(gòu)建在作物病害分類上有良好性能的模型,選用分類難度較大的AIChallenger 2018數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練、測(cè)試與對(duì)比。試驗(yàn)的骨干網(wǎng)絡(luò)選取ResNet50模型,引入不參與殘差計(jì)算的通道注意力(efficient channel attention without participating in residual calculation,EWPRC)結(jié)構(gòu),該結(jié)構(gòu)引入了改進(jìn)后的通道注意力機(jī)ECANet3,使模型擁有對(duì)通道維度的注意力并增強(qiáng)了注意力在網(wǎng)絡(luò)中的影響,增強(qiáng)了模型對(duì)相似圖片的區(qū)分能力,再引入遷移學(xué)習(xí)并進(jìn)行凍結(jié)與微調(diào),最后生成改進(jìn)后的EWPRC-ResNet-t模型。經(jīng)過對(duì)比EWPRC-ResNet-t模型與傳統(tǒng)深度學(xué)習(xí)模型,其他學(xué)者提出模型的試驗(yàn)結(jié)果,以準(zhǔn)確率、精度、召回率與F1分?jǐn)?shù)為參考指標(biāo),驗(yàn)證了改進(jìn)的模型相比于傳統(tǒng)深度學(xué)習(xí)模型有更高的準(zhǔn)確率。使用EWPRC結(jié)構(gòu)的模型與原模型有著幾乎相同大小的參數(shù),證明了EWPRC結(jié)構(gòu)有助于提升模型的準(zhǔn)確率,且EWPRC結(jié)構(gòu)中的ECANet3有輕量級(jí)、易添加的特質(zhì)。
1 材料與方法
1.1 數(shù)據(jù)來源
為了測(cè)試模型對(duì)圖像的細(xì)粒度識(shí)別能力,本試驗(yàn)使用了AIChallenger 2018數(shù)據(jù)集進(jìn)行訓(xùn)練。該數(shù)據(jù)集包含36 254張作物病害圖像,其中訓(xùn)練集有 31 715 張圖像,測(cè)試集有4 539張圖像。該數(shù)據(jù)集包含蘋果、櫻桃、玉米、葡萄、柑橘、桃、辣椒、馬鈴薯、草莓、番茄共10種作物的27種病害,其中包括10種健康分類,3種病害只有1種病害程度,24種病害有一般、嚴(yán)重2種病害程度的分類共計(jì)61個(gè)類別,由于編號(hào)為44、45的種類數(shù)據(jù)只有1張,不具備測(cè)試意義,所以在實(shí)際訓(xùn)練與測(cè)試時(shí)沒有這2種分類,共計(jì)59個(gè)類別,詳細(xì)數(shù)據(jù)如表1所示。
在AIChallenger 2018數(shù)據(jù)集中,根據(jù)病害發(fā)病的特點(diǎn)以及嚴(yán)重程度,對(duì)病害進(jìn)行了一般和嚴(yán)重2種程度的分類,通過對(duì)比觀察,不同程度的病害相似度較高,識(shí)別難度大,特別是一般程度病害與嚴(yán)重程度病害,某些健康程度與一般程度的圖像也不易區(qū)分。由于種類較多、區(qū)分難度較大,模型能夠準(zhǔn)確識(shí)別的難度也大大增加,如圖1所示,3種病害示例分別為柑橘黃龍病、蘋果黑星病、葡萄黑腐病,每種病害按照健康、一般病害、嚴(yán)重病害3種程度劃分為3類。
1.2 數(shù)據(jù)預(yù)處理與數(shù)據(jù)增強(qiáng)
圖片在輸入模型之前先進(jìn)行預(yù)處理操作。先將每張圖片重置為224像素×224像素大小,再經(jīng)過以下數(shù)據(jù)增強(qiáng)操作,包括隨機(jī)剪裁為192像素×192像素大小、概率為0.5的水平翻轉(zhuǎn)、概率為0.5的垂直翻轉(zhuǎn)的操作,經(jīng)此操作增強(qiáng)模型的泛化能力,避免出現(xiàn)過擬合現(xiàn)象。圖2為蘋果黑星病圖片經(jīng)過預(yù)處理以及圖像增強(qiáng)后的結(jié)果。
1.3 模型搭建
在深度學(xué)習(xí)模型變深時(shí),參數(shù)更新的鏈?zhǔn)椒▌t變長,模型變得難以訓(xùn)練,很容易遇到梯度消失、梯度爆炸、過擬合甚至網(wǎng)絡(luò)退化等問題。He等提出殘差學(xué)習(xí)(residual learning),這種結(jié)構(gòu)通過擬合殘差映射的方式將淺層的輸出與深層的輸出相關(guān)聯(lián),減少了信息的丟失,同時(shí)使參數(shù)的更新法則變?yōu)?,倒?shù)恒大于1,這使參數(shù)在反向傳播時(shí),即使面對(duì)很長的鏈?zhǔn)角髮?dǎo)也不會(huì)出現(xiàn)梯度消失的情況,更容易被優(yōu)化[20]。傳統(tǒng)模型對(duì)通道這一維度沒有特殊處理,意味著對(duì)所有通道的重視程度是一樣的,但有些通道對(duì)結(jié)果的影響較小,而有些通道則富含重要的分類信息,因此增加模型對(duì)通道的注意力,有利于模型捕捉包含關(guān)鍵信息的通道,從而提升模型的分類能力。且通道的交互范圍對(duì)于模型的識(shí)別能力也有影響,交互范圍不當(dāng),則通道之間起不到相互的促進(jìn)作用,從而影響模型識(shí)別的準(zhǔn)確率。為提高模型對(duì)于細(xì)粒度分類的準(zhǔn)確率,增加模型作物病害的細(xì)粒度識(shí)別能力,及以上深度學(xué)習(xí)可能遇到的問題,基于對(duì)模型結(jié)構(gòu)影響最小、更方便遷移學(xué)習(xí)實(shí)現(xiàn)的角度出發(fā),提出了基于殘差結(jié)構(gòu)與通道注意力的EWPRC模塊,該模塊對(duì)ECANet進(jìn)行了改進(jìn),將改進(jìn)后的ECANet3放在殘差塊之后構(gòu)成新的結(jié)構(gòu),增加了模型對(duì)通道的注意能力, 改善了通道注意力在進(jìn)行細(xì)粒度分類任務(wù)時(shí)的感受野,再將其應(yīng)用到ResNet50的遷移模型中,通過凍結(jié)與微調(diào),搭建了EWPRC-ResNet-t模型。
1.3.1 固定核大小的通道注意力機(jī)制ECANet3
ECANet使用池化與一維卷積的操作進(jìn)行了通道維度的注意,其中一維卷積核的大小采用自適應(yīng)的方式自動(dòng)生成,使得卷積核與通道數(shù)成比例。此處不采用自適應(yīng)卷積核大小的操作,而使用固定大小為3的一維卷積,其結(jié)構(gòu)如圖3所示。
其中GAP(global average pooling)層計(jì)算了每張?zhí)卣鲌D中所有像素點(diǎn)的均值,使每個(gè)通道中高為H、寬為W的特征圖形狀變?yōu)榱?×1,所有通道的形狀為c×1×1。GAP層對(duì)每張?zhí)卣鲌Du的計(jì)算如公式(1)所示。
第2步通過固定核大小為3、步長為1、填充為1的一維卷積操作,這一步即對(duì)通道進(jìn)行權(quán)重學(xué)習(xí)的過程,計(jì)算如公式(2)所示。
式中:W表示長度為3的一維特征;Wj表示一維卷積核中第j個(gè)參數(shù)。經(jīng)過固定核大小的一維卷積操作之后,映射特征的形狀沒有發(fā)生改變。與原始ECANet的區(qū)別是,原始的ECANet取自適應(yīng)大小的奇數(shù)卷積核,而在通道數(shù)較大時(shí),自適應(yīng)的卷積核數(shù)也會(huì)較大,如2 048大小的通道由自適應(yīng)公式得到卷積核大小為7。而大的感受野對(duì)通道的注意力并不是完全友好的。在下面不同通道交互范圍對(duì)比試驗(yàn)中得出結(jié)論:模型的性能隨卷積核變大總體呈下降趨勢(shì),其中卷積核的大小固定為3時(shí)效果最優(yōu)。
再通過Sigmoid函數(shù)將像素值非線性值映射到0~1之間,其計(jì)算如公式(3)所示。
最后將輸出y與原始特征x相乘,相乘后的特征便有了權(quán)重信息,即對(duì)每個(gè)通道的注意力,計(jì)算如公式(4)所示。
Outi=yi×xi。(4)
式中:i表示第i個(gè)通道;Outi表示第i個(gè)通道的輸出。
1.3.2 基于ECANet3與殘差計(jì)算的EWPRC網(wǎng)絡(luò)結(jié)構(gòu)
在殘差結(jié)構(gòu)中,淺層的輸出會(huì)與深層的輸出通過建立殘差映射的方式建立鏈接,這也意味著與普通結(jié)構(gòu)相比,殘差結(jié)構(gòu)中增加了上一層的信息,這使每個(gè)殘差塊參數(shù)影響變小。因此將殘差層與ECANet3做相連而非嵌入,得到EWPRC結(jié)構(gòu),其結(jié)構(gòu)如圖4所示,圖中殘差層的結(jié)構(gòu)取ResNet50中l(wèi)ayer4殘差層的結(jié)構(gòu)。
在殘差結(jié)構(gòu)中,每層的輸出都與上一層的輸出h(x)相關(guān)聯(lián),使得整個(gè)殘差塊的輸出為x+h(x)。每個(gè)殘差塊的第1個(gè)殘差層額外對(duì)上一層的輸出做了卷積與批標(biāo)準(zhǔn)化操作。在整個(gè)殘差塊之后加入固定核大小為3的注意力機(jī)制ECANet3。加入的通道注意力機(jī)制不參與任何殘差計(jì)算,而是單獨(dú)作為一層,跟在整個(gè)殘差塊之后形成新的EWPRC結(jié)構(gòu)。這樣的結(jié)構(gòu)不僅添加的參數(shù)少,且對(duì)原模型結(jié)構(gòu)的影響微小,便于遷移模型的微調(diào)。與原模塊相比,該模塊只加入了1個(gè)核大小固定為3的通道注意力機(jī)制,共包含1個(gè)全局最大池化層,1個(gè)一維卷積,1個(gè)Sigmod層和1個(gè)相乘操作。
1.3.3 基于EWPRC結(jié)構(gòu)與遷移學(xué)習(xí)的EWPRC-ResNet-t模型
為減少模型的訓(xùn)練參數(shù)、加速模型的訓(xùn)練,選取骨干網(wǎng)絡(luò)為ResNet50的遷移學(xué)習(xí)模型,引入了基于EWPRC結(jié)構(gòu)與遷移學(xué)習(xí)的EWPRC-ResNet-t模型結(jié)構(gòu)如圖5所示。
該模型的初始化參數(shù)為ResNet50在ImageNet數(shù)據(jù)集上訓(xùn)練好的參數(shù),將ResNet50的Layer3、layer4層的結(jié)構(gòu)換為EWPRC結(jié)構(gòu),并凍結(jié)了包括layer2層之前所有的參數(shù),使之不參與更新, 只更新EWPRC3、EWPRC4、avgpool與最后的全連接層FC,并將FC層的outfeature由原來的1 000分類改為59分類。layer模塊的結(jié)構(gòu)如圖 5-b 所示,以layer2模塊為例,每個(gè)殘差塊的第1個(gè)殘差層(如圖5中b1所示)的x映射經(jīng)過1×1的卷積與BN(batch normalization)剩余的3層殘差層(如圖5中b2所示)直接將x映射到結(jié)果中,共包含4層殘差層。其中l(wèi)ayer1、layer2、EWPRC3、EWPRC4模塊的殘差層數(shù)分別為3、4、6、3層。圖片在經(jīng)過數(shù)據(jù)預(yù)處理與數(shù)據(jù)增強(qiáng)后,輸入到EWPRC-ResNet-t模型中,每批量張圖片經(jīng)過模型后得到對(duì)應(yīng)數(shù)量張圖片的種類預(yù)測(cè)結(jié)果。
2 結(jié)果與分析
2.1 試驗(yàn)條件
本試驗(yàn)在操作系統(tǒng)為Window 11的條件下進(jìn)行。計(jì)算機(jī)內(nèi)存為16 GB,GPU為NVIDIA GeForce RTX 3060,顯存為6 GB,使用了python 3.8的版本,模型的實(shí)現(xiàn)均使用了pytorch 1.13.1版本,torchvision 0.14.1版本,CUDA版本為11.6。
2.2 試驗(yàn)數(shù)據(jù)及參數(shù)
本試驗(yàn)使用AIChallenger 2018數(shù)據(jù)集。為防止模型對(duì)固定順序的數(shù)據(jù)出現(xiàn)依賴從而導(dǎo)致模型不具有泛化能力的現(xiàn)象,訓(xùn)練中數(shù)據(jù)隨機(jī)打亂。將圖片初始化為統(tǒng)一大小,并對(duì)其中像素進(jìn)行了均值與方差均為0.5的標(biāo)準(zhǔn)化操作,此外對(duì)訓(xùn)練數(shù)據(jù)集還額外采用了隨機(jī)剪裁、水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)來進(jìn)行數(shù)據(jù)增強(qiáng)操作。使用Adam優(yōu)化器對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行更新。使用指數(shù)衰減的學(xué)習(xí)率衰減算法,初始學(xué)習(xí)速率為0.001,每進(jìn)行7次訓(xùn)練學(xué)習(xí)率變?yōu)楫?dāng)前的0.1倍。由于顯存為6 GB,試驗(yàn)均采用了小批量訓(xùn)練方法,批大小設(shè)置為64,共訓(xùn)練20次。每次訓(xùn)練迭代所有的數(shù)據(jù)集,其中訓(xùn)練數(shù)據(jù)為31 716張圖片,測(cè)試數(shù)據(jù)為4 539張圖片,測(cè)試集不參與模型的訓(xùn)練,只進(jìn)行模型4種評(píng)價(jià)指標(biāo)的測(cè)試。評(píng)價(jià)指標(biāo)采用模型在AIChallenger 2018數(shù)據(jù)集上的準(zhǔn)確率、召回率、精度與F1分?jǐn)?shù)。
2.3 不同通道交互范圍對(duì)比試驗(yàn)
此部分對(duì)模型中通道交互范圍進(jìn)行測(cè)試,在所有條件均相同的情況下,對(duì)比通道注意力機(jī)制中不同通道感受范圍對(duì)模型準(zhǔn)確率的影響,并與自適應(yīng)大小注意力機(jī)制比較。具體參數(shù)與對(duì)比結(jié)果如表2所示。
表2中每個(gè)模型中的EWPRC3和EWPRC4這2個(gè)模塊使用了通道注意力機(jī)制,前5個(gè)模型使用了固定感受范圍的通道注意力機(jī)制,通道感受范圍從小到大依次設(shè)置為3、5、7、11、13,最后一個(gè)模型是自適應(yīng)大小的通道注意力機(jī)制,EWPRC3模塊中為5,EWPRC4模塊中為7。通過對(duì)試驗(yàn)結(jié)果的對(duì)比分析發(fā)現(xiàn),模型的準(zhǔn)確率隨卷積核數(shù)變大呈下降趨勢(shì),驗(yàn)證了在進(jìn)行圖像細(xì)粒度分類任務(wù)時(shí),通道交互范圍越大,模型的識(shí)別效果越不佳,且固定核大小的模型在學(xué)習(xí)和捕捉特征方面更加穩(wěn)定,能夠更好地適應(yīng)數(shù)據(jù)的特征,使用較小的卷積核大小能夠更好地捕捉通道間的相關(guān)性。此試驗(yàn)中Eca3的模型表現(xiàn)最好,EWPRC3、EWPRC4 中的通道注意力機(jī)制均使用了大小為3的一維卷積,準(zhǔn)確率達(dá)到了87.42%。
2.4 基于EWPRC-ResNet-t的作物病害識(shí)別試驗(yàn)
多個(gè)傳統(tǒng)深度學(xué)習(xí)模型、微調(diào)的遷移學(xué)習(xí)模型與改進(jìn)后的遷移學(xué)習(xí)模型在AIChallenger 2018數(shù)據(jù)集上的結(jié)果如表3所示,其中結(jié)尾為“-t”的模型均為使用了遷移學(xué)習(xí)的模型,且都進(jìn)行了如下操作:FC層的微調(diào)、凍結(jié)包括layer2層之前的參數(shù)。ResNet-t為經(jīng)過微調(diào)的ResNet50遷移學(xué)習(xí)模型;ECA-ResNet-t模型在ResNet-t模型中引入了EWPRC結(jié)構(gòu)與遷移學(xué)習(xí),模型中的通道注意力機(jī)制為未改進(jìn)前的ECANet;EWPRC-ResNet-t模型在ResNet-t模型中引入了EWPRC結(jié)構(gòu)與遷移學(xué)習(xí),模型中的通道注意力機(jī)制為改進(jìn)后的ECANet3;SMLP-ResNet為高榮華等提出的改進(jìn)注意力機(jī)制的病害識(shí)別模型[12]。
從表3可以看出,在傳統(tǒng)的深度學(xué)習(xí)模型中,準(zhǔn)確率最高的ResNet50模型達(dá)到了86.43%,而ResNet-t模型達(dá)到了86.67%,比沒有經(jīng)過遷移學(xué)習(xí)的ResNet50模型提高了0.24百分點(diǎn)。ECA-ResNet-t模型準(zhǔn)確率達(dá)到了86.72%,比只經(jīng)過遷移學(xué)習(xí)的ResNet-t模型效果高了0.05百分點(diǎn),而EWPRC-ResNet-t模型準(zhǔn)確率達(dá)到了87.42%,比原始的ResNet50模型提高了0.99百分點(diǎn),比ResNet-t模型提高了0.75%,比ECA-ResNet-t模型高了0.70百分點(diǎn),比高榮華等提出的SMLP-ResNet模型提高了0.49百分點(diǎn)[12]。在所有測(cè)試模型中,EWPRC-ResNet-t有最優(yōu)的召回率(Recall)和F1分?jǐn)?shù)(F1 score),分別達(dá)到了84.23%和84.79%,在精度(Precision)指標(biāo)上達(dá)到了85.36%,比精度最高的ResNet-t模型低0.11百分點(diǎn),在所有模型中排第二。由此可見,遷移學(xué)習(xí)會(huì)提高模型的準(zhǔn)確率,在引進(jìn)ECANet之后,模型提取了通道上的特征,但在效果上并不明顯,而固定且較小的通道感受范圍,可以使模型更好地學(xué)習(xí)通道上的特征提取能力,在圖像細(xì)粒度分類任務(wù)中有較大幅度地提升。
圖6為模型的得分情況,圖中x軸是第k次訓(xùn)練,y軸是第k次訓(xùn)練模型的準(zhǔn)確率(最優(yōu))。圖7是模型的準(zhǔn)確率隨訓(xùn)練次數(shù)的變化情況,圖中x軸是訓(xùn)練次數(shù),y軸是模型的準(zhǔn)確率,實(shí)線代表的是引入了遷移學(xué)習(xí)的模型,虛線代表的是傳統(tǒng)深度學(xué)習(xí)模型。從圖6可以看出,紅色點(diǎn)所代表的EWPRC-ResNet-t模型準(zhǔn)確率為87.42%,在所有模型中最高,并且在第16次訓(xùn)練中獲取了最優(yōu)的參數(shù),達(dá)到了最高的準(zhǔn)確率。由圖7可以看出,相比于虛線代表的傳統(tǒng)的深度學(xué)習(xí)模型,以EWPRC-ResNet-t為代表的引進(jìn)了遷移學(xué)習(xí)的模型,在第1次訓(xùn)練時(shí)的準(zhǔn)確率就達(dá)到了77%以上,而傳統(tǒng)的深度學(xué)習(xí)模型在第1次訓(xùn)練時(shí)準(zhǔn)確率都在55%以下。
3 討論與結(jié)論
本研究針對(duì)圖像細(xì)粒度分類任務(wù),對(duì)ECANet進(jìn)行通道交互范圍的優(yōu)化,并提出EWPRC結(jié)構(gòu),該結(jié)構(gòu)對(duì)原模型影響微小,易于整合到遷移學(xué)習(xí)模型中,使遷移學(xué)習(xí)模型的微調(diào)便捷,且在圖像的細(xì)粒度分類上較其他模型有較大提升。[JP3]將其應(yīng)用到結(jié)合了引進(jìn)遷移學(xué)習(xí)的ResNet50模型中,得到EWPRC-ResNet-t模型。通過在分類難度較大的AIChallenger 2018數(shù)據(jù)集上進(jìn)行試驗(yàn),發(fā)現(xiàn)在進(jìn)行圖像細(xì)粒度分類任務(wù)時(shí),固定通道交互范圍的通道注意力機(jī)制更能提取出有用的通道特征,在整合了固定通道交互范圍的通道注意力機(jī)制之后,模型對(duì)圖像的細(xì)粒度分類有了較大程度的提升,彌補(bǔ)了殘差結(jié)構(gòu)缺失通道特征表達(dá)能力的缺陷。對(duì)比EWPRC-ResNet-t模型與傳統(tǒng)深度學(xué)習(xí)模型、近期其他學(xué)者提出的模型,在作物病害程度的圖像細(xì)粒度分類任務(wù)試驗(yàn)中,EWPRC-ResNet-t模型的準(zhǔn)確率、精度、召回率與F1分?jǐn)?shù)分別達(dá)到了87.42%、85.36%、84.23%、84.79%,在作物病害細(xì)粒度分類任務(wù)上整體性能更優(yōu),且使用了EWPRC結(jié)構(gòu)的EWPRC-ResNet-t模型比未使用EWPRC結(jié)構(gòu)的ResNet-t模型準(zhǔn)確率提高了0.75百分點(diǎn),比使用了ECANet的ECA-ResNet-t模型提高了0.70百分點(diǎn),驗(yàn)證了EWPRC可以有效提升模型對(duì)作物病害識(shí)別的準(zhǔn)確率。
參考文獻(xiàn):
[1]張 珂,馮曉晗,郭玉榮,等. 圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò)模型綜述[J]. 中國圖象圖形學(xué)報(bào),2021,26(10):2305-2325.
[2]Huo M Y,Tan J. Overview:research progress on pest and disease identification[C]//Suen,Ching Y. Pattern recognition and artificial intelligence. Cham:Springer International Publishing,2020:404-415.
[3]Xu W X,Sun L,Zhen C,et al. Deep learning-based image recognition of agricultural pests[J]. Applied Sciences,2022,12(24):12896.
[4]Bondre S,Patil D. Recent advances in agricultural disease image recognition technologies:a review[J]. Concurrency and Computation(Practice and Experience),2023,35(9):e7644.
[5]Yuan Y,Chen L,Wu H R,et al. Advanced agricultural disease image recognition technologies:a review[J]. Information Processing in Agriculture,2022,9(1):48-59.
[6]Huang M L,Chuang T C,Liao Y C. Application of transfer learning and image augmentation technology for tomato pest identification[J]. Sustainable Computing(Informatics and Systems),2022,33:100646.
[7]Kathiresan G,Anirudh M,Nagharjun M,et al. Disease detection in rice leaves using transfer learning techniques[J]. Journal of Physics(Conference Series),2021,1911(1):012004.
[8]Tirkey D,Singh K K,Tripathi S. Performance analysis of AI-based solutions for crop disease identification,detection,and classification[J]. Smart Agricultural Technology,2023,5:100238.
[9]Agarwal M,Gupta S K,Biswas K K. Development of efficient CNN model for tomato crop disease identification[J]. Sustainable Computing(Informatics and Systems),2020,28:100407.
[10]Wang C F,Ni P,Cao M Y. Research on crop disease recognition based on Multi-Branch ResNet-18[J]. Journal of Physics(Conference Series),2021,1961(1):012009.
[11]Thakur P S,Sheorey T,Ojha A. VGG-ICNN:a lightweight CNN model for crop disease identification[J]. Multimedia Tools and Applications,2023,82(1):497-520.
[12]高榮華,白 強(qiáng),王 榮,等. 改進(jìn)注意力機(jī)制的多叉樹網(wǎng)絡(luò)多作物早期病害識(shí)別方法[J]. 計(jì)算機(jī)科學(xué),2022,49(增刊1):363-369.
[13]姜紅花,楊祥海,丁睿柔,等. 基于改進(jìn)ResNet18的蘋果葉部病害多分類算法研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2023,54(4):295-303.
[14]Hu J,Shen L,Sun G,et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(8):2011-2023.
[15]Woo S,Park J,Lee J Y,et al. CBAM:convolutional block attention module[C]//European Conference on Computer Vision.Cham:Springer,2018:3-19.
[16]Fu J,Liu J,Tian H J,et al. Dual attention network for scene segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,2020:3141-3149.
[17]Chen Y P,Kalantidis Y,Li J S,et al. A2-nets:double attention networks[EB/OL]. [2023-04-12]. https://arxiv.org/abs/1810.11579.
[18]Gao Z L,Xie J T,Wang Q L,et al. Global second-order pooling convolutional networks[C]//2019 IEEE/CVF Conference on [JP4]Computer Vision and Pattern Recognition. Long Beach,2020:3019-3028.
[19]Wang Q L,Wu B G,Zhu P F,et al. ECA-net:efficient channel attention for deep convolutional neural networks[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,2020:11531-11539.
[20]He K M,Zhang X Y,Ren S Q,et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,2016:770-778.